CN109767775A

CN109767775A - 语音控制方法、装置和空调

Info

Publication number: CN109767775A
Application number: CN201910141841.7A
Authority: CN
Inventors: 胡广绪; 贾巨涛; 宋德超; 赵鹏辉; 吴伟
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-05-17

Abstract

本申请提出一种语音控制方法、装置和空调，其中方法包括：包括：获取并存储用户说出预设语句时的发音特色；接收控制音频；根据控制音频和发音特色确定控制音频的语义。提高了语音识别的准确度，提供了用户体验，特别是解决了现有技术中存在的无法准确识别具有多种口音或是口音不同与现有口音的用户语音的问题。

Description

语音控制方法、装置和空调

技术领域

本申请涉及智能控制领域，特别涉及语音控制方法、装置和空调。

背景技术

语音输入技术被认为是人机交互发展的主要方向，目前越来越多的设备采用语音识别系统进行语音控制以及语音交互，语音识别的准确性直接决定着人与机器交互的有效性。但是目前存在一个问题就是我们对带有语音设备的空调进行交互时，会出现语音输入效果差、识别率低下甚至不能工作的问题，产生问题的原因在于当我们输入一句语音命令时，由于口音导致识别不清楚等，从而影响了其分析判断。

在实际情况中，很多用户说话带有口音，现有技术中是先确定用户语音所述的方言种类，再调用对应的方言模型对用户发出的语音进行识别，然而，很多用户的口音不能够简单的分为某一类方言，例如外国人学习中文后往往会带有口音，但是他们的口音并不属于某一类方言，又例如，某个省的人去过其他省，就在无意识中学会了多个省的方言，其在说话时会不自觉的将多个省的方言混合使用，此时如果只是简单的使用某一类方言模型去识别该用户发出的语音，很容易造成识别错误，导致用户体验低。

因此，提高语音识别的准确度以提高用户体验，是本领域亟待解决的问题。

发明内容

本申请提供了一种语音控制方法、装置和空调，用于提供语音识别的准确度以提高用户体验。

为了解决上述问题，作为本申请的一个方面，提供了一种语音控制方法，包括：

获取并存储用户说出预设语句时的发音特色；

接收控制音频；

根据控制音频和发音特色确定控制音频的语义。

可选的，获取用户说出预设语句时的发音特色，包括：

获取用户说出预设语句时的第一音频；

将第一音频与预设语句对应的标准音频进行对比以确定发音特色。

可选的，将第一音频与预设的标准音频进行对比以确定发音特色，包括：

将第一音频与预设语句对应的标准音频进行对比，确定用户表达时具有口音的口音音频词以及口音音频词对应的标准音频词；

建立口音音频词与标准音频词之间的对应关系；

用对应关系作为发音特色。

可选的，获取用户说出预设语句时的发音特色之后，还包括：

获取用户再次说出预设语句时的第二音频；

用第二音频验证发音特色。

可选的，预设语句包括：预设控制关键词、预设控制指令和预设控制参数中的一个或多个。

可选的，接收控制音频之后，根据控制音频和发音特色确定控制音频的语义之前，还包括：

获取控制音频的待识别发音特色；

根据待识别发音特色与存储的发音特色是否相同；

若相同，则确定控制音频对应的当前用户具有控制权限；

若不同，则确定控制音频对应的当前用户不具有控制权限。

本申请还提出一种语音控制装置，包括：

特色单元，用于获取并存储用户说出预设语句时的发音特色；

接收单元，用于接收控制音频；

控制单元，用于根据控制音频和发音特色确定控制音频的语义。

可选的，特色单元获取用户说出预设语句时的发音特色，包括：

获取用户说出预设语句时的第一音频；

可选的，特色单元将第一音频与预设的标准音频进行对比以确定发音特色，包括：

建立口音音频词与标准音频词之间的对应关系；

用对应关系作为发音特色。

可选的，还包括：验证单元，用于在特色单元获取用户说出预设语句时的发音特色之后：

获取用户在此说出预设语句时的第二音频；

用第二音频验证发音特色。

可选的，还包括：权限单元，用于在接收单元接收控制音频之后，在控制单元根据控制音频和发音特色确定控制音频的语义之前：

获取控制音频的待识别发音特色；

根据待识别发音特色与存储的发音特色是否相同；

若相同，则确定控制音频对应的当前用户具有控制权限；

若不同，则确定控制音频对应的当前用户不具有控制权限。

本申请还提出一种空调，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，处理器执行程序时实现本申请提出的任一方法的步骤。

本申请还提出一种空调，包括本申请提出的任一的装置。

本申请提出了一种语音控制方法、装置和空调，先获取用户说出预设语音时的发音特色，然后根据用户的发音特色准确的识别用户发出的控制音频，提高了语音识别的准确度，提供了用户体验，特别是解决了现有技术中存在的无法准确识别具有多种口音或是口音不同与现有口音的用户语音的问题。

附图说明

图1为本申请实施例中一种语音控制方法的流程图；

图2为本申请实施例中一种语音控制装置的组成图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或空调不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或空调固有的其它步骤或单元。

在实际情况中，不少用户说话的时候具有口音，现有技术中只是简单的认为具有口音是因为用户说的是方言，采用对应的方言模型去识别用户发出的语音，然而，实际上用户具有口音的原因有多种，例如：外国人学习中文的时候或多或少的都会带有口音，而这种口音并不属于任何一种方言，又例如一个人会多种方言的时候，其说话的时候可能会无意识的混合使用多种方言，此时采用任何一种特定的方言模型都无法准确的识别用户发出的语音，导致语音识别的准确度降低，用户的使用体验不够，为了解决上述问题，本申请提出了一种语音控制方法，如图1所示，本申请提出的方法包括：

S11：获取并存储用户说出预设语句时的发音特色；

具体的，预设语句是预先知道语义的语句，因为如果不知道预设语句的语义就可能导致无法知道用户发出的语音的具体含义，因为知道了预设语句的语义，所以就可以知道用户所发出的语音中每个音或每组音对应的文字，发音特色是指用户对不同的文字的发音，特别是与标准发音的区别，此处的标准发音指的是用任意一种已知方言或官方语言说预设语音时的发音，例如可以是用普通话，对于预设语句已知其标准的普通话发音，那么用户发出的语音与该普通话发音的区别处就是用户的发音特色，例如用户会把湖南发音为funan(音同：福南)，那么该发音fu nan就是用户的发音特色，特别的，用户发出的语音包括多种方言，或是不属于任意一种方言，例如可以是外国人学习中文后的发音，在记录了用户的发音特色后，就可以结合用户的发音特色确定用户发出的语音的含义。

S12：接收控制音频；

具体的，本申请提出的方法可以用于任何智能语音控制设备，例如可以是语音空调，也可以是智能手机，通过麦克风阵列获取控制音频，控制音频。

S13：根据控制音频和发音特色确定控制音频的语义。

具体的，用户发出的控制音频是用户所说的语音音频，在用户的口音不属于任何一种方言或官方语言时，即用户具有区别于现有任何一种方言的口音时，根据预先存储的发音特色，结合控制音频确定控制音频的语义，例如：根据发音特色已经知道用户会把“湖南”说成“fu nan(福南)”，那么在控制音频中检测到“fu nan”时就会自动将其转化为“湖南”，这样就可以准确的了解到用户的发出的控制音频的真实含义，再按照控制音频的语义进行执行。举例说明，可以通过显示屏显示预设语句对应的文字，然后用户读一遍预设语句对应的文字，这样就能够建立文字与用户的发音之间的对应关系，对于其中用户发音不标准的部分，作为用户的发音特色，例如“调”为多音字，用户将“空调”的“调”读作四声的diao(发音同掉)，然后当接收的控制音频中包含四声的“空掉时，就会自动将其识别为“空调”，从而提高对语音的识别，这种因为多音字导致的识别错误，对于刚刚学习中文的外国人而言经常发生。

在现有技术中，当用户发出的语音具有多种口音，或是用户发出的语音的口音不属于任何一种方言口音时，现有的方言模型无法准确的识别用户发出的控制音频的含义，造成语音识别准确度低，用户体验差，以及当语音识别系统(例如语音空调)在没有网络的情况下，无法获取到其他语音模型，而本地的语音模型无法准确识别用户发出的语音的情况下，采用本申请提出的方法，先获取用户说出预设语音时的发音特色，然后根据用户的发音特色准确的识别用户发出的控制音频，提高了语音识别的准确度，提供了用户体验，特别是解决了现有技术中存在的无法准确识别具有多种口音或是口音不同与现有口音的用户语音的问题。

可选的，获取用户说出预设语句时的发音特色，包括：获取用户说出预设语句时的第一音频；将第一音频与预设语句对应的标准音频进行对比以确定发音特色。

具体的，为了获取用户说出预设语句时的第一音频，必须要先让用户知道其需要说的预设语句是什么，因此需要先展示预设语句对应的文字或播放预设语句，以使用户可以清楚自己应当说什么内容，在给出上述指示后，记录第一音频，标准音频是采用现有的已知的官方语言或任一方言说预设语句时的音频，优选标准音频为采用官方语言说预设语句时的音频，例如：预设语句可以是“打开空调，选用制热模式”，那么标准音频就是采用标准的普通话说“打开空调，选用制热模式”的音频，而第一音频为用户重复上述预设语句时说的音频，用户发出的语音具有口音，即发音特色，所以第一音频与标准音频之间存在区别，例如用户可能用广东话说“空调”而采用闽南话说“制热”，其他部分采用普通话说，通过将第一音频与标准音频进行对比，可以知道用户说“空调”和“制热”时的发音与普通话不同，因为预设语句的语义是已知的，因此虽然用户采用了两种不同的方言加普通话说预设语句，仍然可以将用户的发音与预设语句对应的文字相对应，即知道了用户说“空调”和“制热”时会采用的具体的发音，这将作为用户的发音特色进行存储。所以此处的发音特色可以为在说任一字或词时，用户发出的与普通话发音不同的音频。

将第一音频与预设语句对应的标准音频进行对比，确定用户表达时具有口音的口音音频词以及口音音频词对应的标准音频词；建立口音音频词与标准音频词之间的对应关系；用对应关系作为发音特色。

具体的，通过将第一音频与标准音频进行对比，可以发现第一音频中发音与标准音频中发音出现较大区别的词，例如用户把“湖南”说成“福南”，那么口音音频词就是“福南”，而标准音频词就是“湖南”，也就是说口音音频词为用户表达时因为带有口音而实际上说出的词语，标准音频词为用户想要真实表达的词语，比如四川人会把“你在干啥”说成“你在爪子”，其中的“干啥”为用户想要表达的词语即标准音频词，而“爪子”为实际上用户说出的词语即口音音频词，这样就知道了“爪子”与“干啥”之间存在对应关系，而这种对应关系将作为用户的发音特色进行存储，以后再检测到控制音频中的“爪子”且控制音频整句的语义无法解析时，就会把“爪子”替代为“干啥”，或者是直接将“爪子”替换为“干啥”，从而提高对控制音频识别的准确度，准确识别用户想要表达的真实语义。

可选的，获取用户说出预设语句时的发音特色之后，还包括：获取用户在此说出预设语句时的第二音频；用第二音频验证发音特色。

具体的，在通过第一音频确定了发音特色之后，所确定的发音特色可能存在谬误，因此需要用户再一次说出预设语句生成第二音频，用第二音频来验证之前确定的发音特色是否正确，在用户发出第二音频之前，可以先发出提示信息，提示用户重复说出预设语句。

可选的，在本实施例中，预设语句包括：预设控制关键词、预设控制指令和预设控制参数中的一个或多个。具体的，用户说话时可能有多种口音，如果要将所有的口音都记录下来必然需要花费用户大量时间，而实际上用户在进行语音控制时往往只会使用到很少量的固定的语句，因此，在本实施例中，预设语句包括预设控制关键词、预设控制指令和预设控制参数中的一个或多个，这些词是使用频率最高的词，通过预设控制关键词、预设控制指令和预设控制参数的组合可以形成大部分的控制命令，从而在节省用户时间的情况下，保证用户无障碍的进行语音控制。

可选的，接收控制音频之后，根据控制音频和发音特色确定控制音频的语义之前，还包括：获取控制音频的待识别发音特色；根据待识别发音特色与存储的发音特色是否相同；若相同，则确定控制音频对应的当前用户具有控制权限；若不同，则确定控制音频对应的当前用户不具有控制权限。

具体的，当前用户是发出控制音频的用户，当前用户只有在具有控制权限时采用进行语音控制，因此需要进行权限验证，因为本申请中已经预选存储了具有控制权限的用户的发音特色，因此，可以用控制音频中的待识别发音特色确定当前用户是否为具有控制权限的用户。可选的，在根据待识别发音特色与存储的发音特色是否相同时，可以先按照控制音频的发音转化为控制文字，如果控制语音含有口音，则转化的控制文字将语义不通，然后根据已经存储的任一发音特色中的口音音频词与标准音频词的对应关系，对控制文字中的词语进行替代，例如控制文字中含有“福南省”，而实际上并不存在“福南省”，根据存储的发音特色知道“福南”与“湖南”相对应，将其替换之后，得到了“湖南省”，而根据对应关系替换之后的控制文字的语义将可以得到合理的解释，此时说明该当前用户中具有控制权限。也就是通过发音特色确定对应的用户，进而确定是否具有权限。

如图2所示，本申请还提出一种语音控制装置，包括：特色单元10、接收单元20和控制单元30。其中，特色单元10，用于获取并存储用户说出预设语句时的发音特色；接收单元20，用于接收控制音频；控制单元30，用于根据所述控制音频和所述发音特色确定所述控制音频的语义。

具体的，预设语句是预先知道语义的语句，发音特色是指用户对不同的文字的发音，特别是与标准发音的区别，此处的标准发音指的是用任意一种已知方言或官方语言说预设语音时的发音，例如可以是用普通话，对于预设语句已知其标准的普通话发音，那么用户发出的语音与该普通话发音的区别处就是用户的发音特色。用户发出的控制音频是用户所说的语音音频，在用户的口音不属于任何一种方言或官方语言时，即用户具有区别于现有任何一种方言的口音时，根据预先存储的发音特色，结合控制音频确定控制音频的语义，控制单元再按照控制音频的语义进行执行。采用本申请提出的装置，先获取用户说出预设语音时的发音特色，然后根据用户的发音特色准确的识别用户发出的控制音频，提高了语音识别的准确度，提供了用户体验，特别是解决了现有技术中存在的无法准确识别具有多种口音或是口音不同与现有口音的用户语音的问题。

可选的，所述特色单元10获取用户说出预设语句时的发音特色，包括：获取用户说出所述预设语句时的第一音频；将所述第一音频与所述预设语句对应的标准音频进行对比以确定所述发音特色。

具体的，为了获取用户说出预设语句时的第一音频，必须要先让用户知道其需要说的预设语句是什么，因此特色单元需要先展示预设语句对应的文字或播放预设语句，以使用户可以清楚自己应当说什么内容，在给出上述指示后，记录第一音频，标准音频是采用现有的已知的官方语言或任一方言说预设语句时的音频，优选标准音频为采用官方语言说预设语句时的音频，例如：预设语句可以是“打开空调，选用制热模式”，那么标准音频就是采用标准的普通话说“打开空调，选用制热模式”的音频，而第一音频为用户重复上述预设语句时说的音频，用户发出的语音具有口音，即发音特色，所以第一音频与标准音频之间存在区别，例如用户可能用广东话说“空调”而采用闽南话说“制热”，其他部分采用普通话说，通过将第一音频与标准音频进行对比，可以知道用户说“空调”和“制热”时的发音与普通话不同，因为预设语句的语义是已知的，因此虽然用户采用了两种不同的方言加普通话说预设语句，仍然可以将用户的发音与预设语句对应的文字相对应，即知道了用户说“空调”和“制热”时会采用的具体的发音，这将作为用户的发音特色进行存储。

可选的，所述特色单元10将所述第一音频与预设的标准音频进行对比以确定所述发音特色，包括：将所述第一音频与所述预设语句对应的标准音频进行对比，确定用户表达时具有口音的口音音频词以及所述口音音频词对应的标准音频词；建立所述口音音频词与所述标准音频词之间的对应关系；用所述对应关系作为所述发音特色。

可选的，还包括：验证单元，用于在所述特色单元获取用户说出预设语句时的发音特色之后：获取用户在此说出所述预设语句时的第二音频；用所述第二音频验证所述发音特色。具体的，在通过第一音频确定了发音特色之后，所确定的发音特色可能存在谬误，因此需要用户再一次说出预设语句生成第二音频，用第二音频来验证之前确定的发音特色是否正确，在用户发出第二音频之前，可以先发出提示信息，提示用户重复说出预设语句。

可选的，所述预设语句包括：预设控制关键词、预设控制指令和预设控制参数中的一个或多个。这些词是使用频率最高的词，通过预设控制关键词、预设控制指令和预设控制参数的组合可以形成大部分的控制命令，从而在节省用户时间的情况下，保证用户无障碍的进行语音控制。

可选的，还包括：权限单元，用于在所述接收单元接收控制音频之后，在所述控制单元根据所述控制音频和所述发音特色确定所述控制音频的语义之前：获取所述控制音频的待识别发音特色；根据所述待识别发音特色与存储的发音特色是否相同；

若相同，则确定所述控制音频对应的当前用户具有控制权限；若不同，则确定所述控制音频对应的当前用户不具有控制权限。

本申请还提出一种空调，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，所述处理器执行所述程序时实现本申请提出的任一所述方法的步骤。

本申请提出的空调为语音控制空调，具有语音识别系统。用户当对空调进行语音控制输入时，为了获取用户的发音特色以及口音，空调对用户进行语音播放一段预设语句，提示让用户对着空调语音输入一遍刚刚播放的预设语句，空调的语音识别模块把获取的用户的第一音频上传到云服务平台的语音识别系统，语音识别系统对上传的用户语音进行解析识别，然后和语音识别系统中的语料库中的标准音频进行匹配对比，找出用户说某些词组时的发音特色。然后空调再次提示用户语音输入一遍刚才的提示音，对找到的发音特色进行验证，然后自动创建关于匹配出的用户口音音频词和标准音频词的映射表。当用户下次在对空调进行语音控制时，再次遇到具有相同的语音特色的语音控制命令时，空调的语音识别系统根据预存的语音特色对控制命令进行解析并执行相应的操作控制，从而解决了语音输入效果差、识别率低下甚至不能工作的问题，给用户带来更好的人机交互体验。

本申请还提出另一种空调，包括本申请提出的任一所述的装置。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，包括：

获取并存储用户说出预设语句时的发音特色；

接收控制音频；

根据所述控制音频和所述发音特色确定所述控制音频的语义。

2.根据权利要求1所述的语音控制方法，其特征在于，获取用户说出预设语句时的发音特色，包括：

获取用户说出所述预设语句时的第一音频；

将所述第一音频与所述预设语句对应的标准音频进行对比以确定所述发音特色。

3.根据权利要求2所述的语音控制方法，其特征在于，将所述第一音频与预设的标准音频进行对比以确定所述发音特色，包括：

将所述第一音频与所述预设语句对应的标准音频进行对比，确定用户表达时具有口音的口音音频词以及所述口音音频词对应的标准音频词；

建立所述口音音频词与所述标准音频词之间的对应关系；

用所述对应关系作为所述发音特色。

4.根据权利要求2或3所述的语音控制方法，其特征在于，获取用户说出预设语句时的发音特色之后，还包括：

获取用户再次说出所述预设语句时的第二音频；

用所述第二音频验证所述发音特色。

5.根据权利要求1-4任一项所述的语音控制方法，其特征在于，

所述预设语句包括：预设控制关键词、预设控制指令和预设控制参数中的一个或多个。

6.根据权利要求1-5任一项所述的语音控制方法，其特征在于，接收控制音频之后，根据所述控制音频和所述发音特色确定所述控制音频的语义之前，还包括：

获取所述控制音频的待识别发音特色；

根据所述待识别发音特色与存储的发音特色是否相同；

若相同，则确定所述控制音频对应的当前用户具有控制权限；

若不同，则确定所述控制音频对应的当前用户不具有控制权限。

7.一种语音控制装置，其特征在于，包括：

接收单元，用于接收控制音频；

控制单元，用于根据所述控制音频和所述发音特色确定所述控制音频的语义。

8.根据权利要求7所述的语音控制装置，其特征在于，所述特色单元获取用户说出预设语句时的发音特色，包括：

获取用户说出所述预设语句时的第一音频；

9.根据权利要求8所述的语音控制装置，其特征在于，所述特色单元将所述第一音频与预设的标准音频进行对比以确定所述发音特色，包括：

建立所述口音音频词与所述标准音频词之间的对应关系；

用所述对应关系作为所述发音特色。

10.根据权利要求8或9所述的语音控制装置，其特征在于，还包括：验证单元，用于在所述特色单元获取用户说出预设语句时的发音特色之后：

获取用户在此说出所述预设语句时的第二音频；

用所述第二音频验证所述发音特色。

11.根据权利要求7-10任一项所述的语音控制装置，其特征在于，

12.根据权利要求7-11任一项所述的语音控制装置，其特征在于，还包括：权限单元，用于在所述接收单元接收控制音频之后，在所述控制单元根据所述控制音频和所述发音特色确定所述控制音频的语义之前：

获取所述控制音频的待识别发音特色；

根据所述待识别发音特色与存储的发音特色是否相同；

13.一种空调，其特征在于，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，所述处理器执行所述程序时实现权利要求1-6任一所述方法的步骤。

14.一种空调，其特征在于，包括如权利要求7-12任一所述的装置。