CN105206274A

CN105206274A - 一种语音识别的后处理方法及装置和语音识别系统

Info

Publication number: CN105206274A
Application number: CN201510728253.5A
Authority: CN
Inventors: 黄瑛; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2015-12-30

Abstract

本发明实施例提供了一种语音识别的后处理方法及装置和语音识别系统。所述方法的具体实施方式包括：获得语音识别引擎识别出的汉字短语；根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列；计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离；所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列；获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列；将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。应用本实施例，无需修改语音识别引擎内部的语言模型，提高语音识别的精度。

Description

一种语音识别的后处理方法及装置和语音识别系统

技术领域

本发明涉及语音技术领域，特别涉及一种语音识别的后处理方法及装置和语音识别系统。

背景技术

当用户在进行搜索操作时，常常会利用语音识别来进行。例如，在视频搜索服务中，用户可以在搜索栏中输入语音命令来搜索需要的电视剧或电影片名。其具体过程是，用户发出语音命令，语音识别引擎接收该语音命令，并根据语音识别引擎内部的语言模型来识别语音命令，从而给出识别结果。但是，由于所搜索的内容不一定符合自然语言的语法，并且语音识别引擎中的语言模型不一定能及时地扩充词汇，因此，由于发音的相似性，用户搜索的内容可能会被识别成另外的词，导致搜索结果出现错误，识别精度不高。例如，搜索电影名《左耳》、电视剧名《花千骨》，搜索结果可能分别出现“卓尔”、“花千古”的错误。

现有技术中，为了提高语音识别的精度，通常是修改语音识别引擎内部的语言模型。

但是，通过修改语音识别引擎内部的语言模型来提高识别精度，其时效性差。对于调用第三方语音识别引擎的情况，由于无法修改识别引擎内部的语言模型，因此很难提高识别精度。

发明内容

本发明实施例的目的在于提供一种语音识别的后处理方法及装置和语音识别系统，无需修改语音识别引擎内部的语言模型，提高语音识别的精度。

为达到上述目的，本发明实施例公开了一种语音识别的后处理方法，包括步骤：

获得语音识别引擎识别出的汉字短语；

根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列；

计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离；所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列；

获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列；

将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

较佳的，所述计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离，为：

计算将所述第一拼音序列转化成所述预设的关键词数据库中所有拼音序列时所需的各个最少编辑操作次数，得到各个编辑距离。

较佳的，所述获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列，为：

对所述各个编辑距离进行排序，将编辑距离最小的拼音序列确定为第二拼音序列。

较佳的，所述预设的关键词数据库中存储的汉字短语包括：影视片名、音乐片名、节目片名和/或视频类别名；

所述获得语音识别引擎识别出的汉字短语，包括：获得语音识别引擎针对视频语音命令识别出的汉字短语；

所述将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果，为：将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名，确定为语音识别结果。

为达到上述目的，本发明实施例还公开了一种语音识别的后处理装置，包括：

汉字短语识别模块，用于获得语音识别引擎识别出的汉字短语；

第一拼音序列转化模块，用于根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列；

编辑距离计算模块，用于计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离；所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列；

第二拼音序列获得模块，用于获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列；

语音识别结果确定模块，用于将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

较佳的，所述编辑距离计算模块具体用于：

较佳的，所述第二拼音序列获得模块具体用于：

所述汉字短语识别模块，具体用于：获得语音识别引擎针对视频语音命令识别出的汉字短语；

所述语音识别结果确定模块，具体用于：将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名，确定为语音识别结果。

为达到上述目的，本发明实施例还公开了一种语音识别系统，包括：

客户端、语音识别云服务器、语音识别引擎和关键词数据库；

所述的客户端，用于接收语音；

所述的语音识别引擎，用于将语音识别为汉字短语；

所述的关键词数据库，用于存储汉字短语及与其对应的拼音序列；

所述的语音识别云服务器，用于将从客户端接收的语音发送至语音识别引擎，获得语音识别引擎识别出的汉字短语；根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列；计算所述第一拼音序列与存储在关键词数据库中所有拼音序列的各个编辑距离；获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列；将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

较佳的，所述关键词数据库中存储的汉字短语包括：影视片名、音乐片名、节目片名和/或视频类别名；

所述的语音识别云服务器，将从客户端接收的视频语音命令发送至语音识别引擎，获得语音识别引擎针对视频语音命令识别出的汉字短语；将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名，确定为语音识别结果。

由上述技术方案可见，本发明实施例是在获得语音识别引擎识别出的汉字短语之后，根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列，然后计算第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离。所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列。最后，将关键词数据库中与所计算出的编辑距离中最近的第二拼音序列所对应的汉字短语确定为语音识别结果。

也就是说，本发明实施例能够在语音识别引擎识别出汉字短语之后，根据拼音之间的编辑距离，将关键词数据库中的对应汉字短语确定为语音识别结果，无需修改语音识别引擎内部的语言模型，从而提高了语音识别的精度。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别的后处理方法的流程图；

图2为本发明实施例提供的一种语音识别的后处理装置的结构示意图；

图3为本发明实施例提供的一种语音识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种语音识别的后处理方法及装置和语音识别系统。在该方案中，首先需要获得语音识别引擎识别出的汉字短语。其次，根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列。再次，计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离；所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列。然后，获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列。最后，将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

下面通过具体实施例，对本发明进行详细说明。

图1为本发明实施例提供的一种语音识别的后处理方法的流程图，包括如下步骤：

步骤S101：获得语音识别引擎识别出的汉字短语。

具体地，所述获得语音识别引擎识别出的汉字短语，可以包括：获得语音识别引擎针对视频语音命令识别出的汉字短语。

实际应用中，语音识别引擎可以是现有技术中常见的语音识别应用程序。这里不再详述。

本发明实施例可以应用于多种网络系统，例如：将本发明实施例应用于视频网络系统中，本步骤获得的是语音识别引擎针对视频语音命令识别出的汉字短语。

例如：语音识别引擎识别出的汉字短语为：

卓尔(左耳)

一枚道人(一眉道人)

出了猫大(虎妈猫爸)

何李胜飘落(何以笙箫默)

其中，括号前是语音识别引擎识别出的汉字短语，括号中的内容为应该识别出的正确识别结果。可见，仅采用语音识别引擎识别出的汉字短语并不准确。

步骤S102：根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列。

在实际应用中，可以利用发音字典将所述识别出的汉字短语转化为第一拼音序列。其中，发音字典中存储了所有汉字与拼音的对应关系。

例如，将步骤S101中识别出的汉字短语转化为第一拼音序列，为：

卓尔—>zhuoer

一枚道人—>yimeidaoren

出了猫大—>chulemaoda

何李胜飘落—>helishengpiaoluo

步骤S103：计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离。

需要说明的是，所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列。在应用于视频网络系统中时，该关键词数据库中存储的汉字短语可以包括：影视片名、音乐片名、节目片名和/或视频类别名。本领域技术人员可以理解，在预设关键词数据库时根据应用的系统来设置，例如：上述的应用在视频网络系统中时，关键词数据库中存储的汉字短语可以包括：影视片名、音乐片名、节目片名和/或视频类别名；再例如应用于科技信息检索的系统中时，该关键词数据库中存储的汉字短语可以包括：各个技术领域的科技词汇等等。

具体地，本步骤中可以计算将所述第一拼音序列转化成所述预设的关键词数据库中所有拼音序列时所需的各个最少编辑操作次数，得到各个编辑距离。

以影视片名关键词数据库为例，该关键词数据库中存储的汉字短语及对应的拼音序列包括：zuoer—左耳；yimeidaoren—一眉道人；humamaoba—虎妈猫爸；heyishengxiaomo—何以笙箫默。

以第一拼音序列zhuoer为例，计算它与其他拼音序列的绝对编辑距离，为：与yimeidaoren的编辑距离为9，与humamaoba的编辑距离为7，与huaqiangu的编辑距离为8，与zuoer的编辑距离为1，等等。

如果采用长度归一化，则归一化编辑距离为：与yimeidaoren的编辑距离为0.82，与humamaoba的编辑距离为0.78，与huaqiangu的编辑距离为0.89，与zuoer的编辑距离为0.17，等等。

步骤S104：获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列。

具体地，可以对所述各个编辑距离进行排序，将编辑距离最小的拼音序列确定为第二拼音序列。

例如，将步骤S103中计算得到的各个编辑距离进行排序，可知zuoer是与第一拼音序列zhuoer编辑距离最小的拼音序列，因此将zuoer确定为第二拼音序列。

步骤S105：将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

具体地，所述将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果，可以为：将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名，确定为语音识别结果。

例如，将影视片名关键词数据库中与步骤S104中所确定的第二拼音序列zuoer相对应的“左耳”确定为语音识别结果。

由上述的实施例可见，本发明实施例能够在语音识别引擎识别出汉字短语之后，根据拼音之间的编辑距离，将关键词数据库中的对应汉字短语确定为语音识别结果，无需修改语音识别引擎内部的语言模型，从而提高了语音识别的精度。

图2为本发明实施例提供的一种语音识别的后处理装置的结构示意图，所述装置包括：汉字短语识别模块201、第一拼音序列转化模块202、编辑距离计算模块203、第二拼音序列获得模块204和语音识别结果确定模块205。

其中，汉字短语识别模块201，用于获得语音识别引擎识别出的汉字短语。

本实施例中的汉字短语识别模块201，具体可以包括：获得语音识别引擎针对视频语音命令识别出的汉字短语。

第一拼音序列转化模块202，用于根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列。

编辑距离计算模块203，用于计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离。

需要说明的是，所述预先设置的关键词数据库中存储有汉字短语及与其对应的拼音序列。在实际应用中，该关键词数据库中存储的汉字短语可以包括：影视片名、音乐片名、节目片名和/或视频类别名。

本实施例中的编辑距离计算模块203，具体可以用于：

第二拼音序列获得模块204，用于获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列。

本实施例中的第二拼音序列获得模块204，具体可以用于：

语音识别结果确定模块205，用于将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

本实施例中的语音识别结果确定模块205，具体可以用于：将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名，确定为语音识别结果。

结合本发明的实际应用场景，在本发明的一种实施方式中，还提供一种语音识别系统。

图3为本发明实施例提供的一种语音识别系统的结构示意图，所述系统包括：客户端301、语音识别云服务器302、语音识别引擎303和关键词数据库304。

其中，客户端301，用于接收语音。

语音识别引擎303，用于将语音识别为汉字短语。

关键词数据库304，用于存储汉字短语及与其对应的拼音序列。

语音识别云服务器302，用于将从客户端301接收的语音发送至语音识别引擎303，获得语音识别引擎303识别出的汉字短语；根据预存的汉字与拼音的对应关系，将所述识别出的汉字短语转化为第一拼音序列；计算所述第一拼音序列与存储在关键词数据库304中所有拼音序列的各个编辑距离；获得关键词数据库304中与所述第一拼音序列的编辑距离最近的第二拼音序列；将关键词数据库304中与所述第二拼音序列对应的汉字短语确定为语音识别结果。

具体地，所述关键词数据库304中存储的汉字短语可以包括：影视片名、音乐片名、节目片名和/或视频类别名。

本实施例中的语音识别云服务器302，具体可以用于：将从客户端301接收的视频语音命令发送至语音识别引擎303，获得语音识别引擎303针对视频语音命令识别出的汉字短语；将关键词数据库304中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名，确定为语音识别结果。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解，上述实施方式中的全部或部分步骤是能够通过程序指令相关的硬件来完成的，所述的程序可以存储于计算机可读取存储介质中。这里所称存储介质，是指ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音识别的后处理方法，其特征在于，所述方法包括步骤：

获得语音识别引擎识别出的汉字短语；

2.根据权利要求1所述的方法，其特征在于，所述计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离，为：

3.根据权利要求1所述的方法，其特征在于，所述获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列，为：

4.根据权利要求1～3任一项所述的方法，其特征在于，

所述预设的关键词数据库中存储的汉字短语包括：影视片名、音乐片名、节目片名和/或视频类别名；

5.一种语音识别的后处理装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述编辑距离计算模块具体用于：

7.根据权利要求5所述的装置，其特征在于，所述第二拼音序列获得模块具体用于：

8.根据权利要求5～7任一项所述的装置，其特征在于，

9.一种语音识别系统，其特征在于，包括：客户端、语音识别云服务器、语音识别引擎和关键词数据库；

所述的客户端，用于接收语音；

所述的语音识别引擎，用于将语音识别为汉字短语；

10.根据权利要求9所述的语音识别系统，其特征在于，

所述关键词数据库中存储的汉字短语包括：影视片名、音乐片名、节目片名和/或视频类别名；