CN112802465A - 一种语音控制方法及系统 - Google Patents

一种语音控制方法及系统 Download PDF

Info

Publication number
CN112802465A
CN112802465A CN201911117716.9A CN201911117716A CN112802465A CN 112802465 A CN112802465 A CN 112802465A CN 201911117716 A CN201911117716 A CN 201911117716A CN 112802465 A CN112802465 A CN 112802465A
Authority
CN
China
Prior art keywords
text
word
wake
text information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911117716.9A
Other languages
English (en)
Inventor
杜国威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Anyun Century Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Anyun Century Technology Co Ltd filed Critical Beijing Anyun Century Technology Co Ltd
Priority to CN201911117716.9A priority Critical patent/CN112802465A/zh
Publication of CN112802465A publication Critical patent/CN112802465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音控制方法,包括:接收用户针对所述智能音箱的语音控制命令;其中,所述智能音箱的本地预设有免唤醒词文本;识别所述语音控制命令,获得所述语音控制命令对应的文本信息;判断所述文本信息中是否包括与所述免唤醒词文本相同的第一文本;若所述文本信息中包括所述第一文本,则唤醒所述智能音箱;基于所述文本信息,获得与所述文本信息匹配的控制指令;基于所述控制指令,控制所述智能音箱执行与所述控制指令匹配的操作。可保证音箱在未唤醒状态下可以通过免唤醒词唤醒直接下达语音指令,减少了操作步骤和等待时间,显著提高智能音箱的控制效率。

Description

一种语音控制方法及系统
技术领域
本发明涉及智能音箱技术领域,尤其涉及一种语音控制方法及系统。
背景技术
随着科学技术的不断发展,电子技术也得到了飞速的发展,电子产品的种类也越来越多,人们也享受到了科技发展带来的各种便利。例如,给生活极大便利体验的智能音箱。智能音箱,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。
现有的智能音箱都是通过唤醒词进行唤醒后,才能识别语音命令。举例来说,常见的唤醒词包括:“天猫精灵”,“小爱同学”,“叮当叮当”等。每次输入语音指令时都需要唤醒智能音箱,使用户在控制智能音箱时,操作繁琐,控制效率低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语音控制方法及系统。
本发明的一个方面,提供了一种语音控制方法,所述方法包括:
接收语音控制命令;
识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
若所述文本信息中包括所述第一文本,则唤醒;
基于所述文本信息,获得与所述文本信息匹配的控制指令;
执行与所述控制指令匹配的操作。
可选的,所述若所述文本信息中包括所述第一文本,则唤醒,具体包括:
若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
基于所述句意分析结果,判断所述文本信息是否为控制指令;
若是,则唤醒;
若否,则保持当前状态。
可选的,所述若所述文本信息中包括所述第一文本,则唤醒,还包括:
若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
若是,则唤醒;
若否,则保持当前状态。
可选的,所述基于所述文本信息,获得与所述文本信息匹配的控制指令,具体包括:
将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
可选的,在所述接收语音控制命令之前,所述方法还包括:
在处于唤醒状态时,接收设定免唤醒词命令;
基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
可选的,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,包括:
基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
可选的,所述接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本,具体包括:
接收词语语音;
询问是否将所述词语语音中的词语设置为免唤醒词;
在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
可选的,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,还包括:
基于所述设定免唤醒词命令,显示所述备选免唤醒词;
接收对所述备选免唤醒词的选择操作;
在本地设置选择的备选免唤醒词对应的免唤醒词文本。
本发明的另一个方面,基于本申请的另一实施例提供一种语音控制系统,所述系统包括:
接收命令模块,用于接收语音控制命令;
语音识别模块,用于识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
第一判断模块,用于判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
第一唤醒模块,用于若所述文本信息中包括所述第一文本,则唤醒;
指令获得模块,用于基于所述文本信息,获得与所述文本信息匹配的控制指令;
控制模块,执行与所述控制指令匹配的操作。
可选的,所述唤醒模块,包括:
句意分析模块,用于若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
第二判断模块,用于基于所述句意分析结果,判断所述文本信息是否为控制指令;
第二唤醒模块,用于若所述文本信息是控制指令,则唤醒;
第一保持模块,用于若所述文本信息不是控制指令,则保持当前状态。
可选的,所述唤醒模块,还包括:
第三判断模块,用于若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
第三唤醒模块,用于若所述第一文本是位于所述文本信息的句头,则唤醒;
第二保持模块,用于若所述第一文本不是位于所述文本信息的句头,则保持当前状态。
可选的,所述指令获得模块,包括:
语义识别模块,用于将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
指令生成模块,用于基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
可选的,所述系统,还包括:
免唤醒词设定模块,用于在所述接收语音控制命令之前,在处于唤醒状态时,接收设定免唤醒词命令;并基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
可选的,所述免唤醒词设定模块,包括:
第一状态控制模块,用于基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
第一设置模块,用于接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
可选的,其特征在于,所述第一设置模块,包括:
语音接收模块,用于接收词语语音;
语音确认模块,用于询问是否将所述词语语音中的词语设置为免唤醒词;
语音设定子模块,用于在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
可选的,所述免唤醒词设定模块,还包括:
显示模块,用于基于所述设定免唤醒词命令,显示所述备选免唤醒词;
接收模块,用于接收对所述备选免唤醒词的选择操作;
第二设置模块,用于在本地设置所述用户选择的备选免唤醒词对应的免唤醒词文本。
本发明公开了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本发明的方法,首先接收语音控制命令;识别所述语音控制命令,获得所述语音控制命令对应的文本信息;判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;若所述文本信息中包括所述第一文本,则唤醒;基于所述文本信息,获得与所述文本信息匹配的控制指令;执行与所述控制指令匹配的操作。以智能音箱为例,由于免唤醒词的文本设置到本地前端内,设置到本地前端后等于与唤醒词有了同样的特权,在电子设备灭屏或者亮屏状态下均可以通过该免唤醒词的文本去唤醒音箱。与唤醒词的情况不一样的是,唤醒词本身在音箱被唤醒后仅会对唤醒词后面接着的语音指令进行解析,而免唤醒词的文本在唤醒音箱后则需要连接后后面的文本一起上传到云端,因此,可保证音箱在未唤醒状态下可以通过免唤醒词唤醒直接下达语音指令,减少了操作步骤和等待时间,显著提高智能音箱的控制效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种语音控制方法流程图;
图2示出了根据本发明一个实施例的一种语音控制系统结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种语音控制方法及系统,用以解决现有技术中对电子设备的语音控制效率低的技术问题。
本申请的语音控制方法针对可以通过语音控制的电子设备,例如智能音箱,但也可以是手机、pad等通过语音助手可以实现语音控制的电子设备。
智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。
智能音箱之所以能实现上述功能,是由于其前端布置有麦克风阵列及其算法,可用于采集并识别语音控制命令。且智能音箱具备声源定位功能,即在具体场景中,甚至从噪音中找到发出声音的“你”,以便后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测,确定在特定空间中说话者的位置关系。尤其是在移动场景中,实时的声源定位就显得重要。
其中,波束形成是指对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间指向性。这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方向的人声。因此,智能音箱可准确的抓取目标声源,以实现精确控制。
现有的智能音箱被唤醒的方式主要是唤醒词,即通过唤醒词进行唤醒后,才能识别语音命令。如小度音箱的唤醒词“小度小度”,苹果的“hey,siri”,“天猫精灵”,“小爱同学”,“叮当叮当”等。从技术层面上,唤醒词分为自定义唤醒词和定制唤醒词。定制唤醒词即智能音箱出厂便设置好的唤醒词,自定义唤醒词是用户根据自己需要后期自行设置的。自定义唤醒词只是单纯的通过智能音箱的麦克风阵列进行拾音而直接把拾到的拼音传到ASR,对于不同人的音调和口音并没有调整,准确率一般为70-80%。定制唤醒词是指通过对千人、万人等样本的训练将音调和口音等因素集成一个算法模型的本地的SDK,由SDK识别后再传到ASR,准确率在90%以上且训练越多准确性越高。
按照现有技术,每次输入语音指令时都需要唤醒音箱,使用户在控制智能音箱时,不仅操作繁琐,需要分两步才能实现音箱控制,还耗费多余的等待时间,使对智能音箱的控制效率较低。
针对现有技术的缺陷,本申请提供了一种语音控制方法,通过在智能音箱本地前端设置免唤醒词,实现智能音箱的高效控制。
下面以多个实施例来对本发明的技术方案做详细的解释说明。
实施例一
本实施提供的一种语音控制方法,参见图1,具体包括如下步骤:
S101、接收语音控制命令;
S102、识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
S103、判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
S104、若所述文本信息中包括所述第一文本,则唤醒;
S105、基于所述文本信息,获得与所述文本信息匹配的控制指令;
S106、执行与所述控制指令匹配的操作。
需要说明的是,本实施例中以智能音箱为例进行说明。智能音箱中的免唤醒词是根据用户常用的语音控制命令中的部分文本。这样设置的好处是用户不必再单独发出唤醒词,以唤醒智能音箱后,再进行语音控制,节约了操作步骤和等待时间。常用的语音控制命令中的文本作为免唤醒词,可满足用户的基本控制需要。一般来说,用户的语音控制命令是有明确目的意图的句子,即至少包括控制意图词和名词,例如,语音控制命令“天气怎么样”,包括名词“天气”和控制意图词“怎么样”。由于控制意图词更容易在平时的闲聊中出现,因此,不宜作为免唤醒词,可将相对不易被聊到的带主题性质的名词“天气”作为免唤醒词,可降低高误唤醒的概率。
下面结合图1,对本实施例的方法中各步骤进行详细的解释。
首先,执行S101,接收语音控制命令。
将免唤醒词的文本设置到本地前端内,则该免唤醒词与原有的唤醒词有了同样的特权,在智能音箱灭屏或者亮屏状态下除了可以通过唤醒词外,还可以通过该免唤醒词的文本去唤醒音箱。
与唤醒词的情况不一样的是,唤醒词本身在智能音箱被唤醒后仅会将音箱的唤醒词后,用户接着的发出的语音控制命令通过ASR(语音识别技术)进行解析。而免唤醒词的文本在唤醒音箱后则需要将免唤醒词和后面的文本一起通过ASR(语音识别技术)进行解析。举例来说,假设用户设置的免唤醒词的文本是“天气”,假设智能音箱在灭屏状态下,此时用户说“天气怎么样”,音箱检测到“天气”,则除了唤醒音箱外,还将这整段话“天气怎么样”通过ASR(语音识别技术)进行解析。
接下来,执行S102,识别所述语音控制命令,获得所述语音控制命令对应的文本信息。
语音识别(也可称为语义识别),是指对语音基于数据库进行识别出其含义的过程。一般而言,首先需要进行“语音-文字”的转换,然后需要进行文字含义的解析,确定语音代表的含义。语音识别技术主要包括特征提取、模式匹配准则及模型训练等方面。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。语音识别方法主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
需要说明的是,一般来说,语音识别可以在本地完成,也可以在云端完成。但在S102中,由于智能音箱还未被唤醒,则无法与云端进行交互,因此,这里只需要在本地将语音控制命令转换为对应的文本信息即可。
接下来,执行S103,判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本。
在具体实施过程中,该步骤的目的就是要识别用户的语音控制命令中是否有免唤醒词。即将第一文本与智能音箱本地设置的免唤醒词进行匹配。
接下来,执行S104,若所述文本信息中包括所述第一文本,则唤醒。
若S103中的第一文本与智能音箱本地设置的免唤醒词匹配,则可以在本地唤醒智能影响。但是,由于设置的免唤醒词都是常用语音控制命令中的部分词,并不像唤醒词那样有特殊性,其依然可能在闲聊时出现,则可能出现误唤醒。举例来说,在日常生活对话当中,假设用户与其家庭在进行聊天,在聊天的过程中出现“今天天气很好啊,我们出去郊游”,实际上却不是一个对智能音箱下发的指令。
为此,为了在实现高效语音控制同时,降低误唤醒率,提供了以下两种可选的实施方式。
作为其中一种可选的实施方式,所述若所述文本信息中包括所述第一文本,则唤醒,具体包括:
若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
基于所述句意分析结果,判断所述文本信息是否为控制指令;
若是,则唤醒;
若否,则保持当前状态。
其中,文本句意分析模型的模型类型不限,例如,利用机器学习训练获得的模型。重点是选择足够多的与所述第一文本相关的训练样本,训练样本包括文本样本以及与所述文本样本对应的句意样本。此外,文本句意分析模型也需要设置在本地。
根据上述方法,只有句意分析结果显示文本信息有明确的意图,才将该文本信息判定为用户的控制指令,从而唤醒智能音箱,否则,智能音箱保持当前状态。
举例来说,如果用户说“今天天气很好啊,我们出去郊游”,其实仅仅是闲聊,在被文本句意分析模型分析后,不会唤醒智能音箱。
作为另一种可选的实施方式,所述若所述文本信息中包括所述第一文本,则唤醒,还包括:
若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
若是,则唤醒;
若否,则保持当前状态。
具体来讲,就是首先智能音箱需要判断该免唤醒词前面是否有别的文本。因为,在免唤醒词前还有别的文本是,大概率是属于闲聊。举例来讲,智能音箱仅识别以“天气”开头的语句,其它像“今天天气怎样”等均不识别。该方法同样可以避免一些闲聊,降低误唤醒的概率。
需要说明的是,上述两种唤醒方法可以选择其一,也可以同时使用,可进一步降低误唤醒率。
接下来,执行S105,基于所述文本信息,获得与所述文本信息匹配的控制指令。
这里则需要用到整个ASR(语音识别技术)。语音识别(也可称为语义识别),是指对语音基于数据库进行识别出其含义的过程。一般而言,首先需要进行“语音一文字”的转换,然后需要进行文字含义的解析,确定语音代表的含义。语音识别技术主要包括特征提取、模式匹配准则及模型训练等方面。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。语音识别方法主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
作为一种可选的实施方式,所述基于所述文本信息,获得与所述文本信息匹配的控制指令,具体包括:
将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
由于智能音箱已经被唤醒,可与云端进行交互,因此,将文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,可降低智能音箱的成本,且云端的海量数据,可利于识别技术的数据更新。
接下来,执行S106,执行与所述控制指令匹配的操作。
在具体实施过程中,执行的操作包括播放音乐、播放影视、访问网络,以及控制智能家居等操作。这里并不做具体的限制。
在清楚了如何通过免唤醒词进行智能音箱控制,以达到提高控制效率的效果后,现对如何进行面唤醒词的设置做如下说明:
作为一种可选的实施方式,在所述接收语音控制命令之前,所述方法还包括:
在处于唤醒状态时,接收设定免唤醒词命令;
基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
具体的,由于智能音箱具备语音识别功能,也可能有触摸屏。因此,
作为一种可选的实施方式,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,包括:
基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
其中,所述接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本,具体包括:
接收词语语音;
询问是否将所述词语语音中的词语设置为免唤醒词;
在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
在具体实施过程中,当智能音箱处于监听状态,假设用户说出“天气”时,则询问用户是否要将“天气”设置成免唤醒词。得到用说出“是”时,将“天气”设置成免唤醒词。当然,用户也可以回答“确认将天气设置成免唤醒词”,只要是肯定即可,这里并不做限制。这样设置可以避免对用户说出的免唤醒词识别错误而不知道,进行错误的免唤醒词设置。
但需要注意的是,从用户实际使用场景和体验考虑出发,设置的免唤醒词规定的字数一般本身不超过5个。
作为另一种可选的实施方式,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,还包括:
基于所述设定免唤醒词命令,显示所述备选免唤醒词;
接收对所述备选免唤醒词的选择操作;
在本地设置选择的备选免唤醒词对应的免唤醒词文本。
需要说明的是,备选免唤醒词可以是图标形式显示,也可以是按钮等其它形式一切能识别到类型或者文本等,本申请中同样不受限制。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本实施例的方法,首先接收语音控制命令;识别所述语音控制命令,获得所述语音控制命令对应的文本信息;判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;若所述文本信息中包括所述第一文本,则唤醒;基于所述文本信息,获得与所述文本信息匹配的控制指令;执行与所述控制指令匹配的操作。以智能音箱为例,由于免唤醒词的文本设置到本地前端内,设置到本地前端后等于与唤醒词有了同样的特权,在电子设备灭屏或者亮屏状态下均可以通过该免唤醒词的文本去唤醒音箱。与唤醒词的情况不一样的是,唤醒词本身在音箱被唤醒后仅会对唤醒词后面接着的语音指令进行解析,而免唤醒词的文本在唤醒音箱后则需要连接后后面的文本一起上传到云端,因此,可保证音箱在未唤醒状态下可以通过免唤醒词唤醒直接下达语音指令,减少了操作步骤和等待时间,显著提高智能音箱的控制效率。
实施例二
基于与实施例一相同的发明构思,本实施例提供了一种语音控制系统,参见图2,所述系统包括:
接收命令模块,用于接收语音控制命令;
语音识别模块,用于识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
第一判断模块,用于判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
第一唤醒模块,用于若所述文本信息中包括所述第一文本,则唤醒;
指令获得模块,用于基于所述文本信息,获得与所述文本信息匹配的控制指令;
控制模块,执行与所述控制指令匹配的操作。
作为一种可选的实施方式,所述唤醒模块,包括:
句意分析模块,用于若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
第二判断模块,用于基于所述句意分析结果,判断所述文本信息是否为控制指令;
第二唤醒模块,用于若所述文本信息是控制指令,则唤醒;
第一保持模块,用于若所述文本信息不是控制指令,则保持当前状态。
作为一种可选的实施方式,所述唤醒模块,还包括:
第三判断模块,用于若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
第三唤醒模块,用于若所述第一文本是位于所述文本信息的句头,则唤醒;
第二保持模块,用于若所述第一文本不是位于所述文本信息的句头,则保持当前状态。
作为一种可选的实施方式,所述指令获得模块,包括:
语义识别模块,用于将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
指令生成模块,用于基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
作为一种可选的实施方式,所述系统,还包括:
免唤醒词设定模块,用于在所述接收语音控制命令之前,在处于唤醒状态时,接收设定免唤醒词命令;并基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
作为一种可选的实施方式,所述免唤醒词设定模块,包括:
第一状态控制模块,用于基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
第一设置模块,用于接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
作为一种可选的实施方式,其特征在于,所述第一设置模块,包括:
语音接收模块,用于接收词语语音;
语音确认模块,用于询问是否将所述词语语音中的词语设置为免唤醒词;
语音设定子模块,用于在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
作为一种可选的实施方式,所述免唤醒词设定模块,还包括:
显示模块,用于基于所述设定免唤醒词命令,显示所述备选免唤醒词;
接收模块,用于接收对所述备选免唤醒词的选择操作;
第二设置模块,用于在本地设置所述用户选择的备选免唤醒词对应的免唤醒词文本。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本实施例的系统,首先利用接收命令模块接收用户针对所述智能音箱的语音控制命令;其中,所述智能音箱的本地预设有免唤醒词文本;利用语音识别模块识别所述语音控制命令,获得所述语音控制命令对应的文本信息;利用第一判断模块判断所述文本信息中是否包括与所述免唤醒词文本相同的第一文本;利用第一唤醒模块若所述文本信息中包括所述第一文本,则唤醒所述智能音箱;利用指令获得模块基于所述文本信息,获得与所述文本信息匹配的控制指令;利用控制模块基于所述控制指令,控制所述智能音箱执行与所述控制指令匹配的操作。由于免唤醒词的文本设置到本地前端内,设置到本地前端后等于与唤醒词有了同样的特权,在音箱灭屏或者亮屏状态下均可以通过该免唤醒词的文本去唤醒音箱。与唤醒词的情况不一样的是,唤醒词本身在音箱被唤醒后仅会对唤醒词后面接着的语音指令进行解析,而免唤醒词的文本在唤醒音箱后则需要连接后后面的文本一起上传到云端,因此,可保证音箱在未唤醒状态下可以通过免唤醒词唤醒直接下达语音指令,减少了操作步骤和等待时间,显著提高智能音箱的控制效率。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一所述方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的可读储存介质、电子设备、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种语音控制方法,其特征在于,所述方法包括:
接收语音控制命令;
识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
若所述文本信息中包括所述第一文本,则唤醒;
基于所述文本信息,获得与所述文本信息匹配的控制指令;
执行与所述控制指令匹配的操作。
A2、如A1所述的方法,其特征在于,所述若所述文本信息中包括所述第一文本,则唤醒,具体包括:
若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
基于所述句意分析结果,判断所述文本信息是否为控制指令;
若是,则唤醒;
若否,则保持当前状态。
A3、如A1所述的方法,其特征在于,所述若所述文本信息中包括所述第一文本,则唤醒,还包括:
若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
若是,则唤醒;
若否,则保持当前状态。
A4、如A1所述的方法,其特征在于,所述基于所述文本信息,获得与所述文本信息匹配的控制指令,具体包括:
将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
A5、如A1所述的方法,其特征在于,在所述接收语音控制命令之前,所述方法还包括:
在处于唤醒状态时,接收设定免唤醒词命令;
基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
A6、如A5所述的方法,其特征在于,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,包括:
基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
A7、如A6所述的方法,其特征在于,所述接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本,具体包括:
接收词语语音;
询问是否将所述词语语音中的词语设置为免唤醒词;
在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
A8、如A5所述的方法,其特征在于,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,还包括:
基于所述设定免唤醒词命令,显示所述备选免唤醒词;
接收对所述备选免唤醒词的选择操作;
在本地设置选择的备选免唤醒词对应的免唤醒词文本。
B9、一种语音控制装置,其特征在于,所述系统包括:
接收命令模块,用于接收语音控制命令;
语音识别模块,用于识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
第一判断模块,用于判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
第一唤醒模块,用于若所述文本信息中包括所述第一文本,则唤醒;
指令获得模块,用于基于所述文本信息,获得与所述文本信息匹配的控制指令;
控制模块,执行与所述控制指令匹配的操作。
B10、如B9所述的系统,其特征在于,所述唤醒模块,包括:
句意分析模块,用于若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
第二判断模块,用于基于所述句意分析结果,判断所述文本信息是否为控制指令;
第二唤醒模块,用于若所述文本信息是控制指令,则唤醒;
第一保持模块,用于若所述文本信息不是控制指令,则保持当前状态。
B11、如B9所述的系统,其特征在于,所述唤醒模块,还包括:
第三判断模块,用于若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
第三唤醒模块,用于若所述第一文本是位于所述文本信息的句头,则唤醒;
第二保持模块,用于若所述第一文本不是位于所述文本信息的句头,则保持当前状态。
B12、如B7所述的系统,其特征在于,所述指令获得模块,包括:
语义识别模块,用于将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
指令生成模块,用于基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
B13、如B9所述的系统,其特征在于,所述系统,还包括:
免唤醒词设定模块,用于在所述接收语音控制命令之前,在处于唤醒状态时,接收设定免唤醒词命令;并基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
B14、如B13所述的系统,其特征在于,所述免唤醒词设定模块,包括:
第一状态控制模块,用于基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
第一设置模块,用于接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
B15、如B14所述的系统,其特征在于,所述第一设置模块,包括:
语音接收模块,用于接收词语语音;
语音确认模块,用于询问是否将所述词语语音中的词语设置为免唤醒词;
语音设定子模块,用于在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
B16、如B13所述的系统,其特征在于,所述免唤醒词设定模块,还包括:
显示模块,用于基于所述设定免唤醒词命令,显示所述备选免唤醒词;
接收模块,用于接收对所述备选免唤醒词的选择操作;
第二设置模块,用于在本地设置所述用户选择的备选免唤醒词对应的免唤醒词文本。
C17、一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现A1-A8任一项所述方法的步骤。
D18、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现A1-A8任一项所述方法的步骤。

Claims (10)

1.一种语音控制方法,其特征在于,所述方法包括:
接收语音控制命令;
识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
若所述文本信息中包括所述第一文本,则唤醒;
基于所述文本信息,获得与所述文本信息匹配的控制指令;
执行与所述控制指令匹配的操作。
2.如权利要求1所述的方法,其特征在于,所述若所述文本信息中包括所述第一文本,则唤醒,具体包括:
若所述文本信息中包括所述第一文本,则根据已训练的文本句意分析模型,对所述文本信息进行句意分析,获得句意分析结果;其中,所述文本句意分析模型基于与所述第一文本相关的样本训练获得,所述样本包括文本样本以及与所述文本样本对应的句意样本;
基于所述句意分析结果,判断所述文本信息是否为控制指令;
若是,则唤醒;
若否,则保持当前状态。
3.如权利要求1所述的方法,其特征在于,所述若所述文本信息中包括所述第一文本,则唤醒,还包括:
若所述文本信息中包括所述第一文本,则判断所述第一文本是否位于所述文本信息的句头;
若是,则唤醒;
若否,则保持当前状态。
4.如权利要求1所述的方法,其特征在于,所述基于所述文本信息,获得与所述文本信息匹配的控制指令,具体包括:
将所述文本信息发送到云端,以使所述云端对所述文本信息进行语义识别,获得语义识别结果,并返回所述语义识别结果;
基于所述语义识别结果,生成与所述文本信息匹配的控制指令。
5.如权利要求1所述的方法,其特征在于,在所述接收语音控制命令之前,所述方法还包括:
在处于唤醒状态时,接收设定免唤醒词命令;
基于所述设定免唤醒词命令,在本地设置免唤醒词文本。
6.如权利要求5所述的方法,其特征在于,所述基于所述设定免唤醒词命令,在本地设置免唤醒词文本,包括:
基于所述设定免唤醒词命令,处于接收语音免唤醒词状态;
接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本。
7.如权利要求6所述的方法,其特征在于,所述接收词语语音,并在本地设置与所述词语语音对应的免唤醒词文本,具体包括:
接收词语语音;
询问是否将所述词语语音中的词语设置为免唤醒词;
在获得肯定回复后,在本地设置与所述词语对应的免唤醒词文本。
8.一种语音控制装置,其特征在于,所述系统包括:
接收命令模块,用于接收语音控制命令;
语音识别模块,用于识别所述语音控制命令,获得所述语音控制命令对应的文本信息;
第一判断模块,用于判断所述文本信息中是否包括与本地免唤醒词文本相同的第一文本;
第一唤醒模块,用于若所述文本信息中包括所述第一文本,则唤醒;
指令获得模块,用于基于所述文本信息,获得与所述文本信息匹配的控制指令;
控制模块,执行与所述控制指令匹配的操作。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN201911117716.9A 2019-11-14 2019-11-14 一种语音控制方法及系统 Pending CN112802465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911117716.9A CN112802465A (zh) 2019-11-14 2019-11-14 一种语音控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911117716.9A CN112802465A (zh) 2019-11-14 2019-11-14 一种语音控制方法及系统

Publications (1)

Publication Number Publication Date
CN112802465A true CN112802465A (zh) 2021-05-14

Family

ID=75803969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911117716.9A Pending CN112802465A (zh) 2019-11-14 2019-11-14 一种语音控制方法及系统

Country Status (1)

Country Link
CN (1) CN112802465A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051611A1 (zh) * 2022-09-05 2024-03-14 华为技术有限公司 人机交互方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051611A1 (zh) * 2022-09-05 2024-03-14 华为技术有限公司 人机交互方法及相关装置

Similar Documents

Publication Publication Date Title
CN109326289B (zh) 免唤醒语音交互方法、装置、设备及存储介质
US11094313B2 (en) Electronic device and method of controlling speech recognition by electronic device
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
WO2017054122A1 (zh) 语音识别系统及方法、客户端设备及云端服务器
CN109584860B (zh) 一种语音唤醒词定义方法和系统
US11455989B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN105957527A (zh) 一种语音控制电器的方法、装置及语音控制空调
CN110310623A (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN107370649A (zh) 家电控制方法、系统、控制终端、及存储介质
CN110992932A (zh) 一种自学习的语音控制方法、系统及存储介质
CN111640433A (zh) 语音交互方法、存储介质、电子设备及智能家居系统
CN111312235A (zh) 一种语音交互方法、装置及系统
CN104123938A (zh) 语音控制系统、电子装置及语音控制方法
US20200265843A1 (en) Speech broadcast method, device and terminal
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN112634897B (zh) 设备唤醒方法、装置和存储介质及电子装置
CN111161714A (zh) 一种语音信息处理方法、电子设备及存储介质
CN110782896A (zh) 一种基于语音控制的测量仪器测试系统及方法
CN109074804A (zh) 基于口音的语音识别处理方法、电子设备和存储介质
CN109994106A (zh) 一种语音处理方法及设备
CN103426429B (zh) 语音控制方法和装置
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
CN110473542B (zh) 语音指令执行功能的唤醒方法、装置及电子设备
CN112233665A (zh) 模型训练的方法和装置、电子设备和存储介质
CN111862943B (zh) 语音识别方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210514