CN108268637A

CN108268637A - 一种智能语音矫正识别方法、装置和用户终端

Info

Publication number: CN108268637A
Application number: CN201810045354.6A
Authority: CN
Inventors: 赵淦森; 林成创; 列海权; 徐岗; 纪求华; 李胜龙; 邓水凤; 蔡斯凯; 李振宇; 庄序填; 梁昕; 李�柱; 赵淑娴
Original assignee: Guangdong Weihai Big Data Technology Co Ltd
Current assignee: Guangdong Weihai Big Data Technology Co Ltd
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-07-10

Abstract

本发明提供了一种智能语音矫正识别方法、装置和用户终端，其中所述方法包括：在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息；将所述拼音识别信息与拼音‑中文反向索引库中的拼音信息进行匹配，生成目标中文字串。本发明所提供的方法，通过将语音信息识别为中文识别信息，通过与其对应的拼音识别信息为桥梁，进而匹配出用户所需的目标中文字串，不需要随时进行训练调整、即插即用，识别效率高、准确性高，算法简单且使用方便，大大提升了用户体验。

Description

一种智能语音矫正识别方法、装置和用户终端

技术领域

本发明涉及人工智能技术领域，更具体地说，涉及一种智能语音矫正识别方法、装置和用户终端。

背景技术

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。(不是技术内容)语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

目前随着大数据和人工智能领域的发展，语音识别的应用场景越来越广泛，比如苹果的Siri，智能家居的语音助手，语音搜索等。然而，在中文的语音识别过程中，由于中文的同音字的问题，时常导致语音识别的结果与用户期待的结果相差甚远，比如对用户说出一个人名“caizhixing”，用户的意图是检索“蔡智星”，然而，语音识别的结果可能是“蔡志兴”、“蔡智兴”等，导致语音检索失败，无法达到用户的预期，从而影响相关的产品和服务。

目前市面上存在具有深度学习功能的语音识别技术，但这种语音识别技术在更新语料后续重新进行训练和调整，识别效率低，准确性低，算法和过程过于复杂不便于使用，大大降低了客户体验。

发明内容

有鉴于此，本发明提供一种智能语音矫正识别方法、装置和用户终端以解决现有技术的不足。

为实现上述目的，本发明提供一种智能语音矫正识别方法，包括：

在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息；

将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串。

优选地，所述“在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息”之前，还包括：

通过语音技术服务对所获取到的语音信息进行识别得到识别结果信息，根据所述识别结果信息生成中文识别信息。

优选地，所述“在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息”包括：

基于所述语音技术服务的对所述语音信息的识别结果信息，利用自然语言处理技术，将所述中文识别信息转换为与其对应的所述拼音识别信息。

优选地，所述“将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串”包括：

判断所述拼音-中文反向索引库中是否有与所述拼音识别信息匹配的拼音信息；

若是，则加载所述拼音信息对应的中文字符数据列表；

对所述中文字符数据列表按照更新时间排序，并调取所述中文字符数据列表的首个字符串，生成目标字符串。

优选地，所述“判断所述拼音-中文反向索引库中是否有与所述拼音识别信息匹配的拼音信息”之后，还包括：

若否，则调取与所述拼音信息对应的中文识别信息，生成目标字符串。

优选地，所述“将所获取到的语音信息识别为中文识别信息”之前，还包括：

基于自然语言处理技术，建立拼音-中文反向索引库。

优选地，所述“基于自然语言处理技术，建立拼音-中文反向索引库”包括：

构建中文字符串集合和拼音字符串集合；

根据所述中文字符串集合和拼音字符串集合构建拼音-中文反向索引库。

此外，为解决上述问题，本发明还提供一种智能语音矫正识别装置，包括转换模块和匹配模块；

所述转换模块，用于在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息；

所述匹配模块，用于将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串。

此外，为解决上述问题，本发明还提供一种用户终端，包括存储器及处理器，所述存储器用于存储智能语音矫正识别程序，所述处理器运行所述智能语音矫正识别程序以使所述用户终端执行如上述所述智能语音矫正识别方法。

此外，为解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能语音矫正识别程序，所述智能语音矫正识别程序被处理器执行时实现如上述所述智能语音矫正识别方法。

本发明提供的一种智能语音矫正识别方法、装置和用户终端。其中，所述方法包括：在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息；将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串。本发明所提供的方法，通过将语音信息识别为中文识别信息，通过与其对应的拼音识别信息为桥梁，进而匹配出用户所需的目标中文字串，不需要随时进行训练调整、即插即用，识别效率高、准确性高，算法简单且使用方便，大大提升了用户体验。

附图说明

图1为本发明智能语音矫正识别方法实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明智能语音矫正识别方法第一实施例的流程示意图；

图3为本发明智能语音矫正识别方法第二实施例的流程示意图；

图4为本发明智能语音矫正识别方法第三实施例的流程示意图；

图5为本发明智能语音矫正识别方法第四实施例的流程示意图；

图6为本发明智能语音矫正识别方法第五实施例的流程示意图；

图7为本发明智能语音矫正识别方法第五实施例的步骤S40的细化步骤流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。此外，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及智能语音矫正识别程序。

本发明提供的一种智能语音矫正识别方法、装置和用户终端，其中所述方法通过将语音信息识别为中文识别信息，通过与其对应的拼音识别信息为桥梁，进而匹配出用户所需的目标中文字串，不需要随时进行训练调整、即插即用，识别效率高、准确性高，算法简单且使用方便，大大提升了用户体验。

实施例1：

参照图2，本发明第一实施例提供一种智能语音矫正识别方法，包括：

步骤S10，在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息；

上述，在对用户的语音信息进行识别后，获取到识别结果为中文识别信息，进而将上述中文识别信息进行转换，生成与中文识别信息对应的拼音识别信息。即为，语音识别为中文，进一步将中文识别为拼音。

步骤S20，将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串。

上述，需要理解的是，反向索引也叫倒排索引，倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号(DocID)，单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项(Posting)，包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。右图是倒排列表的示意图，在文档集合中出现过的所有单词及其对应的倒排列表组成了倒排索引。

上述，将拼音识别信息与拼音-中文反向索引库中的拼音进行匹配，即为，在该库中查找与拼音识别信息对应的信息。例如，语音识别后，获得中文为“李鸿张”，将该中文转换为拼音，则为lihongzhang，在将该拼音与拼音-中文反向索引库中的拼音信息进行匹配，得到李鸿章、李红张、李洪张、李宏章等匹配信息，进一步选择其中匹配度高的匹配对象“李鸿章”，生成目标中文字串，从而起到对语音识别结果的智能矫正。

在本实施例中，首先对于智能语音识别出的中文结果进行拼音转换，然后对所获得到的拼音结果与构建的拼音-中文反向索引库中的拼音信息进行匹配，匹配后在拼音-中文反向索引库中获得与匹配到的拼音信息对应的中文字符串，若结果包含多个，可预先设置不同的排序规则，例如应用率等，可进一步对排序中最高的中文字符串作为最终的目标字符串输出，从而实现对于智能语音的识别的中文结果的矫正目的。

本实施例提供的一种智能语音矫正识别方法，通过将语音信息识别为中文识别信息，通过与其对应的拼音识别信息为桥梁，进而匹配出用户所需的目标中文字串，不需要随时进行训练调整、即插即用，识别效率高、准确性高，算法简单且使用方便，大大提升了用户体验。

实施例2：

参照图3，本发明第二实施例提供一种智能语音矫正识别方法，基于上述第一实施例，在所述“在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息”之前，还包括：

步骤S30，通过语音技术服务对所获取到的语音信息进行识别得到识别结果信息，根据所述识别结果信息生成中文识别信息。

上述，语音技术服务也成为语音技术商，可以包括但不限于科大讯飞、云知声、捷通华声、百度等服务技术商，通过上述语音技术服务可对不同的语音信息进行识别，得到语音技术服务的识别结果。一般地，语音识别的方法主要是模式匹配法，在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

上述通过相应的语音技术服务对语音信息进行识别，从而生成中文识别信息。在获取到用户输入的语音信息后，通过不同的语音技术商提供的语音识别服务对该语音信息进行识别，从而得到识别结果为转换后的与语音信息对应的中文。

实施例3：

参照图4，本发明第三实施例提供一种智能语音矫正识别方法，基于上述第二实施例，所述“在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息”包括：

步骤S11，基于所述语音技术服务的对所述语音信息的识别结果信息，利用自然语言处理技术，将所述中文识别信息转换为与其对应的所述拼音识别信息。

上述，需要理解的是，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。

上述，在语音信息转换为中文后，利用NLP技术，将该中文识别结果转换为拼音识别信息。例如，识别结果信息为“李鸿章”，通过NLP技术，将该中文字串识别为“lihongzhang”。

实施例4：

参照图5，本发明第四实施例提供一种智能语音矫正识别方法，基于上述第三实施例，所述“将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串”包括：

步骤S21，判断所述拼音-中文反向索引库中是否有与所述拼音识别信息匹配的拼音信息；

上述，拼音-中文反向索引库中包括一一对应的中文与拼音字符串的列表信息，通过在该索引库中进行查找与拼音识别信息相匹配的拼音信息，从而可以进一步查到与该拼音识别信息对应的中文字符串。

步骤S22，若是，则加载所述拼音信息对应的中文字符数据列表；

上述，如果查找到拼音-中文反向索引库中与拼音识别信息相匹配的拼音信息，则加载该拼音信息对应的中文字符数据列表。

步骤S23，对所述中文字符数据列表按照更新时间排序，并调取所述中文字符数据列表的首个字符串，生成目标字符串。

步骤S24，若否，则调取与所述拼音信息对应的中文识别信息，生成目标字符串。

上述，将该中文字符数据列表进行排序，按照更新时间排序，其中，更新最新的排在前面，并调取列表中的第一个字符串，生成目标字符串。其中，按照更新时间对中文字符数据列表进行排序，从而使最终获得的目标字符串更加准确，此外，也可以按照其他方式进行排序，例如，增加使用率算法，对列表中对应的中文字符按照使用率排序，使用率最高的排在前列，从而生成目标字符串。

上述，如果拼音-中文反向索引库中没有与所述拼音识别信息匹配的拼音信息，则直接将语音技术服务的识别结果直接输出作为目标字符串。

实施例5：

参照图6和图7，本发明第五实施例提供一种智能语音矫正识别方法，基于上述第一实施例，所述“将所获取到的语音信息识别为中文识别信息”之前，还包括：

步骤S40，基于自然语言处理技术，建立拼音-中文反向索引库。

上述，需要理解的是，自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

上述，利用自然语言处理(NLP)技术，构建拼音-中文反向索引库。

所述“基于自然语言处理技术，建立拼音-中文反向索引库”包括：

步骤S41，构建中文字符串集合和拼音字符串集合；

步骤S42，根据所述中文字符串集合和拼音字符串集合构建拼音-中文反向索引库。

上述，构建包含中文字符串的中文字符串集合和包含拼音字符串的拼音字符串集合，进而在根据中文字符串集合和拼音字符串集合构建拼音-中文反向索引库。

上述拼音-中文反向索引库即为中文与拼音的匹配列表。构建该索引库，利用NLP工具，建立拼音-中文反向索引库Map<P_o,S_t>；其中P_o为S_t的拼音，S_t为目标中文字串。

此外，本发明还提供一种智能语音矫正识别装置，包括转换模块和匹配模块；

此外，本发明还提供一种用户终端，包括存储器及处理器，所述存储器用于存储智能语音矫正识别程序，所述处理器运行所述智能语音矫正识别程序以使所述用户终端执行如上述所述智能语音矫正识别方法。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能语音矫正识别程序，所述智能语音矫正识别程序被处理器执行时实现如上述所述智能语音矫正识别方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能语音矫正识别方法，其特征在于，包括：

2.如权利要求1所述智能语音矫正识别方法，其特征在于，所述“在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息”之前，还包括：

3.如权利要求2所述智能语音矫正识别方法，其特征在于，所述“在所获取的语音信息被识别为中文识别信息后，将所述中文识别信息转换为与其对应的拼音识别信息”包括：

4.如权利要求1所述智能语音矫正识别方法，其特征在于，所述“将所述拼音识别信息与拼音-中文反向索引库中的拼音信息进行匹配，生成目标中文字串”包括：

若是，则加载所述拼音信息对应的中文字符数据列表；

5.如权利要求4所述智能语音矫正识别方法，其特征在于，所述“判断所述拼音-中文反向索引库中是否有与所述拼音识别信息匹配的拼音信息”之后，还包括：

6.如权利要求1所述智能语音矫正识别方法，其特征在于，所述“将所获取到的语音信息识别为中文识别信息”之前，还包括：

基于自然语言处理技术，建立拼音-中文反向索引库。

7.如权利要求6所述智能语音矫正识别方法，其特征在于，所述“基于自然语言处理技术，建立拼音-中文反向索引库”包括：

构建中文字符串集合和拼音字符串集合；

8.一种智能语音矫正识别装置，其特征在于，包括转换模块和匹配模块；

9.一种用户终端，其特征在于，包括存储器及处理器，所述存储器用于存储智能语音矫正识别程序，所述处理器运行所述智能语音矫正识别程序以使所述用户终端执行如权利要求1-7中任一项所述智能语音矫正识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有智能语音矫正识别程序，所述智能语音矫正识别程序被处理器执行时实现如权利要求1-7中任一项所述智能语音矫正识别方法。