CN106875939A

CN106875939A - 对大范围波动的汉语方言语音识别处理方法及智能机器人

Info

Publication number: CN106875939A
Application number: CN201710025229.4A
Authority: CN
Inventors: 陈修志
Original assignee: Foshan Fumutong Intelligent Robot Co Ltd
Current assignee: Foshan Fumutong Intelligent Robot Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-06-20

Abstract

本发明提供一种对大范围波动的汉语方言语音识别处理方法及智能机器人，所述汉语方言语音识别处理方法包括：步骤S1，对用户的音频信号进行语音识别，并返回语音识别后的识别结果至管理中心；步骤S2，在预先设置的目标关键字和语音识别后的识别结果之间建立映射表；步骤S3，实时识别用户的音频控制指令，将实时识别的音频控制指令结果通过映射表映射至通讯录。本发明能够很好地消除了由于汉语方言或用户口音而带来的无法准确识别语音的问题，提高了对于汉语方言的语音识别准确率和适应性，应用范围很广，不再局限于识别标准的普通话而是适用于各种汉语方言和用户口音，更是能够大大提高老年人这一特殊群体中的语音识别的适应性和识别率。

Description

对大范围波动的汉语方言语音识别处理方法及智能机器人

技术领域

本发明涉及一种语音识别处理方法，尤其涉及一种高识别率的对大范围波动的汉语方言语音识别处理方法，并涉及采用了该对大范围波动的汉语方言语音识别处理方法的智能机器人。

背景技术

我国拥有56个民族，地域广人口多，虽然普通话作为国语，但是各个地方都有自己的方言和母语，并且同一个语种的发音也会由于地方口音等问题而有所不同，那么，对于，语音识别系统来说，如何准确识别和处理汉语方言或是带有口音的音频信号，就会面临非常大的困难，尤其是对于老年人来说，其汉语方言或是地方口音更为严重，那么，对于语音控制拨打电话等基于语音识别功能的一些应用就势必会面临很大的识别率困难，非常容易造成识别失败或是识别错误。

发明内容

本发明所要解决的技术问题是需要提供一种高识别率的对大范围波动的汉语方言语音识别处理方法，并需要提供采用了该对大范围波动的汉语方言语音识别处理方法的智能机器人。

对此，本发明提供一种对大范围波动的汉语方言语音识别处理方法，包括：

步骤S1，对用户的音频信号进行语音识别，并返回语音识别后的识别结果至管理中心；

步骤S2，在预先设置的目标关键字和语音识别后的识别结果之间建立映射表；

步骤S3，实时识别用户的音频控制指令，将实时识别的音频控制指令结果通过映射表映射至通讯录。

本发明的进一步改进在于，所述步骤S2中，建立映射表用于存储所述语音识别后的识别结果，进而使得对同一用户语音识别后的所有的识别结果均指向所述目标关键字的地址。

本发明的进一步改进在于，所述步骤S3包括以下子步骤：

步骤S301，实时识别用户的音频控制指令，得到实时识别的音频控制指令结果后，判断音频控制指令结果是否为预先设置的目标关键字，若是，则直接调取所述目标关键字的地址；若否，则跳转至步骤S302；

步骤S302，判断音频控制指令结果是否为映射表的识别结果中的任意一个，若是，则通过所述映射表的映射关系调取该识别结果对应的目标关键字的地址；若否，返回错误信号至管理中心。

本发明的进一步改进在于，所述步骤S3中，得到实时识别的音频控制指令结果后，判断所述音频控制指令结果是否为所述目标关键字或识别结果中的任意一个，若是，则通过映射表调取目标关键字的地址；若否，则进入步骤S4实现自学习功能。

本发明的进一步改进在于，所述步骤S4中，返回音频控制指令结果，并提示用户选择该音频控制指令结果的所需要指向的目标关键字，当用户选择该音频控制指令结果的所需要指向的目标关键字后，将所述音频控制指令结果添加至所述目标关键字的映射表中以实现自学习功能。

本发明的进一步改进在于，所述步骤S1中，对同一用户的音频信号进行两次或两次以上的语音识别，并返回每一次语音识别后的识别结果至管理中心；所述步骤S2中，在预先设置的目标关键字和所述用户所有的识别结果之间建立映射表。

本发明的进一步改进在于，所述步骤S1中，对同一个用户的音频信号进行语音识别时，当语音识别的次数在预设次数范围内均未返回新的识别结果时，则结束步骤S1并跳转至所述步骤S2。

本发明的进一步改进在于，所述步骤S1中，实现语音识别后，返回次数由多至少顺序排序后的识别结果至管理中心；所述步骤S2中，根据排序的顺序，将排序后的识别结果依次与所述预先设置的目标关键字建立映射关系。

本发明的进一步改进在于，所述步骤S3中，识别到音频控制指令结果后，若该音频控制指令结果指向同一用户的多个目标关键字的映射表，则通过排序后的识别结果作为优先级别实现映射；或，弹出指向同一用户的多个目标关键字以供用户选择。

本发明还提供一种智能机器人，所述智能机器人采用了如上所述的对大范围波动的汉语方言语音识别处理方法。

与现有技术相比，本发明的有益效果在于：先对用户的音频信号进行语音识别，并返回语音识别后的识别结果，然后在语音识别后的识别结果和预先设置的目标关键字之间建立映射表，这样子，不管由于其汉语方言或是用户口音而导致语音识别出来的识别结果是什么，只要预先将识别结果保存并与目标关键字相匹配形成映射表，就能够在实时识别用户的音频控制指令之后，通过映射表映射至通讯录，很好地消除了由于汉语方言或是用户口音而带来的无法准确识别语音的问题，对于语音控制拨打电话等基于语音识别功能的一些应用来说，汉语方言和用户口音也不再是语音识别的难题；因此，本发明提高了对于汉语方言的语音识别准确率和适应性，应用范围很广，不再局限于识别标准的普通话而是适用于各种汉语方言和用户口音，尤其是对于老年人来说，更是大大提高了这一特殊群体中的语音识别的适应性和识别率。

附图说明

图1是本发明一种实施例的工作流程示意图；

图2是本发明一种实施例的工作原理示意图；

图3是本发明一种实施例的人机界面示意图。

具体实施方式

下面结合附图，对本发明的较优的实施例作进一步的详细说明。

如图1至图3所示，本例提供一种对大范围波动的汉语方言语音识别处理方法，包括：

本例所述管理中心可以是设置于智能机器人中的主控模块，也可以是远程管理中心，如远程服务器等；所述步骤S2中，建立映射表用于存储所述语音识别后的识别结果，进而使得对同一用户语音识别后的所有的识别结果均指向所述目标关键字的地址；也就是说，对同一用户语音识别后的所有的识别结果均与预先设置的目标关键字等效。所述步骤S3中，音频控制指令指的是用户在实际操作中为了实现某一功能的语音指令，而音频控制指令结果则是识别音频控制指令后提取的与映射表相对应的关键字，比如音频控制指令是拨打大儿子电话，那么，其识别音频控制指令结果提取与映射表相对应的关键字“大儿子”，并实现拨打通讯录中大儿子的联系号码，该步骤S3可以通过现有的声控拨打电话功能来实现。

本例以通过对粤语的语音识别实现语音控制拨打电话为例，比如用户的目标关键字是“大儿子”，也就是说，通讯录里面的地址是大儿子的联系号码，正确的识别结果应该是“大仔”；但是由于语音识别平台、地方口音或是用户自己的发音等原因，对粤语里面“大儿子”的语音识别所返回的识别结果往往并不准确，经常会返回比如“带仔”、“大奖”、“大只”和“呆仔”等各种错误的识别结果，那么，在现有技术中，这种错误的识别结果是没有办法找到通讯录里面“大儿子”的地址的，也就没法实现语音控制拨打电话的功能。

如图1和图2所示，本例通过先对用户的音频信号进行语音识别，比如对某一个用户的音频信号进行连续几次的语音识别，如果识别出来的结果共包括“大仔”、“带仔”、“大奖”、“大只”和“呆仔”这五种，那么，返回这几种语音识别后的识别结果，并将“大仔”、“带仔”、“大奖”、“大只”和“呆仔”这五种语音识别后的识别结果均和预先设置的目标关键字“大儿子”之间建立映射表，这样子，不管由于语音识别平台、地方口音或是用户个人口音而导致语音识别出来的识别结果是这五种结果中的哪一种，只要通过识别结果与目标关键字相匹配所形成映射表，就能够在实时识别该用户的音频控制指令（比如语音控制拨打“大儿子”电话）之后，通过映射表映射至通讯录里面的大儿子的地址，进而很好地消除了由于语音识别平台、汉语方言、地方口音或是用户个人口音而带来的无法准确识别语音的问题，对于语音控制拨打电话等基于语音识别功能的一些应用来说，语音识别平台、汉语方言、地方口音以及用户个人口音都不再是语音识别的难题。

也就是说，本例很好地提高了对于汉语方言的语音识别准确率，对于大范围波动的汉语方言的适用性和识别率都很高，应用范围很广，不再局限于识别标准的普通话而是适用于各种汉语方言和口音，尤其是对于老年人来说，更是大大提高了这一特殊群体中的语音识别的适应性和识别率。

在实际应用中，在语音控制拨打电话时，由于很多老年人的普通话或是汉语方言不够标准，比如通过普通话念目标关键字“大儿子”时，可能识别结果是“带儿子”；而通过普通话念目标关键字“大女儿”时，可能识别结果是“带女子”；而通过普通话念目标关键字“清姨”时，可能识别结果是“青衣”等等，为此，本例通过所述对大范围波动的汉语方言语音识别处理方法实现了个性化口音名称设置的功能，如图3所示，这样，用户在输入目标关键字时，此时的目标关键字为个性化口音姓名，就可以通过步骤S1和步骤S2将语音识别的识别结果均与预先设置的目标关键字对应匹配起来，进而在步骤S3接收并识别到用户的音频控制指令后，通过映射表映射至通讯录，实现语音控制拨打电话的功能；所述音频控制指令指的是用户在实际使用过程中的语音指令，比如拨打大儿子电话等，反馈出来的音频控制指令结果就是拨打通讯录中大儿子联系号码。

本例所述步骤S3包括以下子步骤：

也就是说，在实际应用中，目标关键字的优选级别高于映射表中保存的识别结果，这样设置的目的在于，既保证了发音不标准的用户能够有效实现汉语方言的语音识别和处理，同时也优先保证发音标准的用户能够更快实现基本的语音识别和处理；所述错误信号指的是音频控制指令结果与映射表中的识别结果无法匹配时，返回的控制失败提示信号；经过试验证明，在语音控制拨打电话的功能，本例对于一些发音非常不标准的老人的汉语方言的语音识别准确率几乎高达百分之百。

值得一提的是，本例所述步骤S3中，得到实时识别的音频控制指令结果后，判断所述音频控制指令结果是否为所述目标关键字或识别结果中的任意一个，若是，则通过映射表调取目标关键字的地址；若否，则进入步骤S4实现自学习功能。优选的，所述步骤S4中，返回音频控制指令结果，并提示用户选择该音频控制指令结果的所需要指向的目标关键字，当用户选择该音频控制指令结果的所需要指向的目标关键字后，将所述音频控制指令结果添加至所述目标关键字的映射表中以实现自学习功能。

这样设置的原因在于，假如某一用户的音频控制指令结果中，提取出来的信息对应不到目标关键字，能够通过自学习不断完善所述映射表，进而使得映射表的适用性更加广；比如音频控制指令结果是“拨打通讯录中大儿子联系号码”，那么，理论上来说，找到的就是通讯录中的目标关键字“大儿子”的地址，或是映射表中“大仔”、“带仔”、“大奖”、“大只”和“呆仔”等识别结果，这两种情况都能够准确实现用户的音频控制指令；但是如果该用户的音频控制指令结果所提取出来的信息变成“大崽”或是变成任意一个不属于目标关键字“大儿子”、也不属于映射表中的识别结果“大仔”、“带仔”、“大奖”、“大只”和“呆仔”的词语时，就无法完成音频控制指令；而基于本例所设置的自学习步骤，就会不断完善和补充所述映射表，使得所述对大范围波动的汉语方言语音识别处理方法具有实时完善和自我修复的功能。

优选的，本例所述步骤S1中，对同一用户的音频信号进行两次或两次以上的语音识别，并返回每一次语音识别后的识别结果至管理中心，也就是说，所述步骤S1尽可能多识别几次该用户对于同一目标关键字的音频信号，进而尽量使得同一目标关键字对应的识别结果全面且准确；所述步骤S2中，在预先设置的目标关键字和所述用户所有的识别结果之间建立映射表，如图2和图3所示。

更为具体的，本例所述步骤S1中，对同一个用户的音频信号进行语音识别时，当语音识别的次数在预设次数范围内均未返回新的识别结果时，则结束步骤S1并跳转至所述步骤S2。所述预设次数可以根据实际情况进行自定义设置，一般优选为5~6次，比如，在连续5~6次对用户的同一目标关键字进行音频信号的语音识别时，若均没有出现新的识别结果，则认为其识别结果已经是全面且准确的；这样设置的理由在于，虽然用户的口音不一定标准，但是每一个用户对于同一个目标关键字的读音其实是变化不大的，只要其识别结果已经覆盖完整，那么语音识别的准确率就会有所保障。

优选的，所述步骤S1中，实现语音识别后，返回排序后的识别结果，该排序优选为次数由多至少的顺序排序；所述步骤S2中，根据排序的顺序，将排序后的识别结果依次与所述预先设置的目标关键字建立映射关系。比如粤语的语音识别中，目标关键字为“大儿子”，在所述步骤S1中识别多次之后，识别结果从高到低的排序是：“大仔”、“带仔”、“大奖”、“大只”和“呆仔”，那么，在映射表中，其映射关系也就是“大仔”、“带仔”、“大奖”、“大只”和“呆仔”，这样做的好处在于，能够更加有效保证语音识别的速度。

此外，本例所述步骤S3中，识别到音频控制指令结果后，若该音频控制指令结果指向同一用户的多个目标关键字的映射表，则通过排序后的识别结果作为优先级别实现映射；或，弹出指向同一用户的多个目标关键字以供用户选择。

这样设置的原因在于，汉语中存在多音字和同音字，那么，难免同一用户的不同目标关键字之间可能识别出来的识别结果有所重叠，比如：“姨姨”和“伊一”之类的词语，在语音识别里面，出现的识别结果很有可能是重叠的，那么，本例通过排序结果作为优先级别实现映射或是通过用户自主选择来实现具体的功能，就能够很好地保证针对不同的用户都满足其要求。

值得一提的是，本例所述的语音识别是针对特定用户的音频信号，而不局限于该用户的语种，因此不管是普通话、粤语、湖南话或是其他任何的汉语方言均可适用，也就是说，本例主要针对的是大范围波动的汉语方言，这是现有技术中语音识别均没有实现的功能，此为其一；其二，本例的识别率和适应性非常高，因为每一个用户对于同一个目标关键字的音频信号的识别结果都是有限的，通过本例的映射表能够很好地解决识别率和适应性的问题；其三，本例所述的语音识别不局限于硬件的语音识别模块或是网络语音识别平台，还可以是离线的语音识别软件等等，比如语音识别APP；其四，本例所述通讯录不局限于电话簿里面的通讯录，还可以是微信或是其他即时通软件的通讯录，比如在微信中，通过安卓系统的无障碍助手/插件等配合，也能实现语音查找通讯录并实现语音聊天或是视频聊天，这是非常方便和实用的，尤其是对于老年人等特殊群体的用户来说，只要语音识别就能够代替“打开微信→通讯录→查找联系人→视频聊天→视频聊天/语音聊天”这些操作步骤，是非常实用的功能，其意义是非常重大的！

本例还提供一种智能机器人，所述智能机器人采用了如上所述的对大范围波动的汉语方言语音识别处理方法。所述智能机器人优选为针对老年人或是特殊群体的智能机器人。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种对大范围波动的汉语方言语音识别处理方法，其特征在于，包括：

2.根据权利要求1所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S2中，建立映射表用于存储所述语音识别后的识别结果，进而使得对同一用户语音识别后的所有的识别结果均指向所述目标关键字的地址。

3.根据权利要求1所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S3包括以下子步骤：

4.根据权利要求1所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S3中，得到实时识别的音频控制指令结果后，判断所述音频控制指令结果是否为所述目标关键字或识别结果中的任意一个，若是，则通过映射表调取目标关键字的地址；若否，则进入步骤S4实现自学习功能。

5.根据权利要求4所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S4中，返回音频控制指令结果，并提示用户选择该音频控制指令结果的所需要指向的目标关键字，当用户选择该音频控制指令结果的所需要指向的目标关键字后，将所述音频控制指令结果添加至所述目标关键字的映射表中以实现自学习功能。

6.根据权利要求1至5任意一项所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S1中，对同一用户的音频信号进行两次或两次以上的语音识别，并返回每一次语音识别后的识别结果至管理中心；所述步骤S2中，在预先设置的目标关键字和所述用户所有的识别结果之间建立映射表。

7.根据权利要求6所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S1中，对同一个用户的音频信号进行语音识别时，当语音识别的次数在预设次数范围内均未返回新的识别结果时，则结束步骤S1并跳转至所述步骤S2。

8.根据权利要求6所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S1中，实现语音识别后，返回次数由多至少顺序排序后的识别结果至管理中心；所述步骤S2中，根据排序的顺序，将排序后的识别结果依次与所述预先设置的目标关键字建立映射关系。

9.根据权利要求8所述的对大范围波动的汉语方言语音识别处理方法，其特征在于，所述步骤S3中，识别到音频控制指令结果后，若该音频控制指令结果指向同一用户的多个目标关键字的映射表，则通过排序后的识别结果作为优先级别实现映射；或，弹出指向同一用户的多个目标关键字以供用户选择。

10.一种智能机器人，其特征在于，所述智能机器人采用了如权利要求1至9任意一项所述的对大范围波动的汉语方言语音识别处理方法。