CN105786880A

CN105786880A - 语音识别的方法、客户端及终端设备

Info

Publication number: CN105786880A
Application number: CN201410817478.3A
Authority: CN
Inventors: 谢志华
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2016-07-20
Also published as: WO2016101577A1

Abstract

本发明提供了一种语音识别的方法、客户端及终端设备，其中该方法包括：获取用户输入的语音的原始语音识别结果，并根据原始语音识别结果解析出所述用户的语音识别场景；根据语音识别场景从原始语音识别结果中获取需要校正的关键词信息和每个关键词信息中的多音字；根据需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含多音字的垃圾词；根据语音识别场景，获取终端设备中的与语音识别场景对应的实际信息，并将垃圾词与实际信息进行匹配，筛选出正确的多音字，将正确的多音字填充到需要校正的关键词信息中，得到正确的关键词；根据正确的关键词生成符合当前语音识别场景的最终语音识别结果。

Description

语音识别的方法、客户端及终端设备

技术领域

本发明涉及通信技术领域，尤其涉及一种语音识别的方法、客户端及终端设备。

背景技术

随着语音成为大众熟知的交互方式之一，各种语音识别软件在市面上不断涌现，语音识别软件的质量也参差不齐，而衡量语音识别软件质量的标准之一就是语音识别率。虽然现在云端识别情况下，各语音识别引擎提供商提供了自然语义理解的功能，但各引擎提供商提供的能力不一，都还没有办法完全理解不同人，不同场景下的语义。所以，如何根据当前终端场景下正确识别用户的语义，提高语音识别准确率，最终实现最佳的语音用户体验就显得很有意义和价值。

现在大多数引擎提供商采用的方法一般都是在云端服务器上用语言模型等，经过一定的算法，对用户的语音进行处理，最终得到用户的意图并告知该用户，但很多时候，由于某些特定说法具有多义性，云端服务器也没有办法得到唯一的结果，就会造成反馈给用户的结果可能与用户期望的实际结果有差距，从而给用户的感觉是识别不准，用户体验不佳。

发明内容

为了解决上述技术问题，发明的实施例提供了一种语音识别的方法、客户端及终端设备，对初步的语音识别结果结合当前场景进一步优化，从而让语音结果更佳符合当前用户的期望，提升用户的语音交互体验。

依据本发明的一个方面，提供了一种语音识别的方法，应用于终端设备侧，所述方法包括：获取用户输入的语音的原始语音识别结果，并根据所述原始语音识别结果解析出所述用户的语音识别场景，其中所述原始语音识别结果由云端服务器根据所述用户输入的语音识别得到；根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个所述关键词信息中的多音字；根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含所述多音字的垃圾词；根据所述语音识别场景或所述需要校正的关键词信息所属的范围，获取所述终端设备中的与所述语音识别场景或所述需要校正的关键词信息对应的实际信息，并将所述垃圾词与所述实际信息进行匹配，筛选出正确的多音字，将所述正确的多音字填充到所述需要校正的关键词信息中，得到正确的关键词；根据所述正确的关键词生成符合当前语音识别场景的最终语音识别结果。

可选地，所述根据所述原始语音识别结果解析出所述用户的语音识别场景，具体为：根据预先设置的语音识别结果与场景对应表，匹配得到与所述原始语音识别结果对应的所述用户的语音识别场景。

可选地，所述根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个关键词信息中的多音字，具体包括：根据所述语音识别场景和预先设置的场景关键信息提取表，从所述原始语音识别结果中获取需要校正的关键词信息；判断所述需要校正的关键词信息中是否存在多音字，如果有，则获取每个关键词信息中的多音字。

可选地，所述根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含多音字的垃圾词，具体包括：将所述多音字转换成对应的拼音，然后根据同音字对应表，提取出所述拼音对应的一个或多个汉字；将所述汉字填充到所述需要校正的关键词信息中替换多音字以组成得到一个或多个包含多音字的垃圾词。

可选地，所述语音识别结果与场景对应表和场景关键信息提取表的格式为XML可扩展标记语言。

依据本发明的另一个方面，还提供了一种语音识别的客户端，应用于终端设备侧，所述客户端包括：场景解析模块，用于获取用户输入的语音的原始语音识别结果，并根据所述原始语音识别结果解析出所述用户的语音识别场景，其中所述原始语音识别结果由云端服务器根据所述用户输入的语音识别得到；多音字提取模块，用于根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个所述关键词信息中的多音字；垃圾词生成模块，用于根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含所述多音字的垃圾词；多音字校正模块，用于根据所述语音识别场景或所述需要校正的关键词信息所属的范围，获取所述终端设备中的与所述语音识别场景或所述需要校正的关键词信息对应的实际信息，将所述垃圾词与所述实际信息进行匹配，筛选出正确的多音字，将所述正确的多音字填充到所述需要校正的关键词信息中，得到正确的关键词；结果处理模块，用于根据所述正确的关键词生成符合当前语音识别场景的最终语音识别结果。

可选地，所述场景解析模块进一步用于根据预先设置的语音识别结果与场景对应表，匹配得到与所述原始语音识别结果对应的所述用户的语音识别场景。

可选地，所述多音字提取模块进一步用于根据所述语音识别场景和预先设置的场景关键信息提取表，从所述原始语音识别结果中获取需要校正的关键词信息；判断所述需要校正的关键词信息中是否存在多音字，如果有，则获取每个关键词信息中的多音字。

可选地，所述多音字校正模块进一步用将所述多音字转换成对应的拼音，然后根据同音字对应表，提取出所述拼音对应的一个或多个汉字；将所述汉字填充到所述需要校正的关键词信息中替换多音字以组成得到一个或多个包含多音字的的垃圾词。

依据本发明的实施例的又一个方面，还提供了一种终端设备，包括如上所述的语音识别的客户端。

在本发明的实施例中，改善以上传统方式的劣势，对引擎提供商反馈的识别结果结合当前场景进一步优化识别率，从而让识别结果更符合当前用户的期望，提升用户的语音交互体验。

附图说明

图1为本发明的实施例中终端设备侧的语音识别的方法的流程图之一；

图2为本发明的实施例中终端设备侧的语音识别的方法的流程图之二；以及

图3为本发明的实施例中语音识别的终端设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明的实施例中提供了一种应用于终端设备侧的语音识别的方法、客户端及终端设备，获取用户输入的语音的原始语音识别结果，并根据原始语音识别结果解析出用户的语音识别场景，其中原始语音识别结果由云端服务器根据用户输入的语音识别得到；根据语音识别场景从原始语音识别结果中获取需要校正的关键词信息和每个关键词信息中的多音字；根据需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含多音字的垃圾词；根据语音识别场景或需要校正的关键词信息所属的范围，获取终端设备中的与语音识别场景或需要校正的关键词信息对应的实际信息，并将垃圾词与实际信息进行匹配，筛选出正确的多音字，将正确的多音字填充到需要校正的关键词信息中，得到正确的关键词；根据正确的关键词生成符合当前语音识别场景的最终语音识别结果，由于能结合当前的语音识别场景及终端设备中的实际信息，对原始语音识别结果进一步进行优化，从而将原始语音识别结果转化成符合当前语音识别场景及终端设备的最终语音识别结果，提高语音识别率。

如图1所示，为本发明的实施例中终端设备侧的语音识别的方法的流程图之一，具体步骤如下：

步骤S101、获取用户输入的语音的原始语音识别结果，并根据所述原始语音识别结果解析出所述用户的语音识别场景，其中所述原始语音识别结果由云端服务器根据所述用户输入的语音识别得到。

具体地，在步骤S101中可以根据预先设置的语音识别结果与场景对应表，匹配得到与原始语音识别结果对应的用户的语音识别场景，其中语音识别场景用于表示用户在什么场景中使用语音识别，语音识别场景可以包括：打电话场景、音乐场景等，语音识别结果与场景对应表会将代表同一场景的不同表达方式都对应为一个统一的场景。如针对“打电话场景”，各引擎提供商语音识别返回的原始语音识别结果可能不一样，有些返回的是“打电话”，而有些可能返回的是“呼叫”，也有些可能返回的是“Call”，等等，而在本实施例中语音识别结果与场景对应表会将这些同一场景的不同说法都对应成同一个统一的场景，由此在步骤S101中最终就可以得到该识别结果的唯一语音识别场景。

可选地，语音识别结果与场景对应表的格式XML(可扩展标记语言)格式，代码举例如下：

<？xmlversion＝"1.0"encoding＝"utf-8"？>

<Value>

</Value>

</Domain>

<Value>

<V>Music</V>

</Value>

</Domain>

</SceneMapTable>

通过上述代码设置的语音识别结果与场景对应表中记录了“呼叫”、“电话”、“call”与“打电话场景”的对应关系，以及“播放音乐”、“听音乐”、“Music”与“音乐场景”的对应关系。如果原始语音识别结果中包括“呼叫”，在步骤S101中就可以得到用户的语音识别场景为打电话场景。如果原始语音识别结果中包括“播放音乐”，在步骤S103中就可以得到用户的语音识别场景为音乐场景。

在本发明的实施例中，云端服务器可以利用现有的自然语义理解的功能，对用户输入的语音进行识别，得到原始语音识别结果。

步骤S103、根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个所述关键词信息中的多音字；

具体地，根据所述语音识别场景和预先设置的场景关键信息提取表，从所述原始语音识别结果中获取需要校正的关键词信息；然后判断所述需要校正的关键词信息中是否存在多音字，如果有，则获取每个关键词信息中的多音字。

也就是，根据步骤S101中确定的唯一语音识别场景，在步骤S103中可以根据场景关键信息提取表，进一步从原始语音识别结果中提取可能需要校正的关键词信息，然后在后续步骤中可以判断该关键词信息中是否存在多音字，如果有就把该关键词及多音字提取出来。判断关键词信息中是否存在多音字，可以根据多音字词典，将关键词信息中的每一个关键字在多音字词典中查询确认是否是多音字，最终把确认是多音字的所有关键字单独保存下来。例如，如果确定场景就是打电话，那需要提取联系人信息作为可能需要校正的关键词信息，然后判断该联系人识别结果中是否包含多音字，如果有，就需要将该联系人及多音字提取出来。

可选地，场景关键信息提取表的格式为XML格式，其代码举例如下：

<？xmlversion＝"1.0"encoding＝"utf-8"？>

</Keyword>

</Domain>

</Keyword>

</Domain>

</KeywordMapTable>

在上述代码中还介绍了如果确定场景就是音乐，那需要提取歌曲名、专辑名、或艺术家作为可能需要校正的关键词信息，然后判断歌曲名、专辑名、或艺术家识别结果中是否包含多音字，如果有，就需要将该歌曲名、专辑名、或艺术家及多音字提取出来。

步骤S105、根据需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含多音字的垃圾词；

具体地，将步骤S103中提取出的多音字转换成对应的拼音，然后根据同音字对应表，提取出该拼音对应所有可能汉字，然后将所有汉字填充到据需要校正的关键词信息中替换多音字以组成得到一个或多个包含多音字的垃圾词。

步骤S107、根据所述语音识别场景或所述需要校正的关键词信息所属的范围，获取所述终端设备中的与所述语音识别场景或所述需要校正的关键词信息对应的实际信息，并将所述垃圾词与所述实际信息进行匹配，筛选出正确的多音字，将所述正确的多音字填充到所述需要校正的关键词信息中，得到正确的关键词；

例如：如果语音识别场景为打电话场景或者需要校正的关键词信息所属的范围为联系人，则实际信息为实际联系人信息列表，当然可以理解的是，在本发明的实施例中并不限定实际信息的表示方式。

步骤S109、根据正确的关键词生成符合当前语音识别场景的最终语音识别结果。

具体地，在步骤S107中根据语音识别场景信息及关键词隶属范围，提取终端设备对应的实际信息，例如当前是打电话场景，并且当前的关键词为联系人范畴，则提取当前手机的真实联系人信息。然后在步骤S107中将以上垃圾词在真实联系人信息集合中一一比较，如果发现有完全匹配的，则保留该垃圾词，然后在步骤S109中作为最终的联系人识别结果。

在本发明的实施例中，该通过添加垃圾词提高多音字识别率，本发明的实施例中的语音识别方式适用于所有涉及终端关键信息识别的场景，如联系人，音乐名、艺术家、专辑名、应用名等等，通过上述实施例可以生成更准确，更符合用户期望的识别结果，从而提高语音识别率，提升用户语音交互体验。

下面结合图2，以打电话场景为例介绍本发明的实施例中的语音识别的流程，具体步骤如下：

步骤S201、解析原始语音识别结果的场景，得到唯一的语音识别场景；

具体地，根据原始语音识别结果中的场景关键词进行解析，得到与该场景关键词对应的唯一的语音识别场景；

步骤S203、判断是否是打电话场景，如果是，进入步骤S205，在步骤S205中提取联系人词条，并获取联系人词条中姓名的多音字；否则，按照其他场景处理。

步骤S207，将以上获取到的多音字转换为拼音；

步骤S209，查询所有与以上拼音匹配的汉字；

步骤S211，将获取到的垃圾汉字，替换原关键词中的多音字，生成姓名垃圾词；

步骤S213，获取终端设备实际联系人信息列表；

步骤S215，将垃圾词在实际联系人列表中筛选，得出正确的联系人信息；

步骤S217，将正确的联系人信息及语音识别场景信息重新组合生成最终语音识别结果。

如图3所示，为本发明的实施例中应用于终端设备侧的语音识别的客户端的结构示意图，客户端300包括：

场景解析模块301，用于获取用户输入的语音的原始语音识别结果，并根据所述原始语音识别结果解析出所述用户的语音识别场景，其中所述原始语音识别结果由云端服务器根据所述用户输入的语音识别得到；

多音字提取模块302，用于根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个所述关键词信息中的多音字；

垃圾词生成模块303，用于根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含所述多音字的垃圾词；

多音字校正模块304，用于根据所述语音识别场景或所述需要校正的关键词信息所属的范围，获取所述终端设备中的与所述语音识别场景或所述需要校正的关键词信息对应的实际信息，将所述垃圾词与所述实际信息进行匹配，筛选出正确的多音字，将所述正确的多音字填充到所述需要校正的关键词信息中，得到正确的关键词；

结果处理模块305，用于根据所述正确的关键词生成符合当前语音识别场景的最终语音识别结果。

可选地，在本发明实施例中，所述场景解析模块301进一步用于根据预先设置的语音识别结果与场景对应表，匹配得到与所述原始语音识别结果对应的所述用户的语音识别场景。

可选地，在本发明实施例中，所述多音字提取模块302进一步用于根据所述语音识别场景和预先设置的场景关键信息提取表，从所述原始语音识别结果中获取需要校正的关键词信息；判断所述需要校正的关键词信息中是否存在多音字，如果有，则获取每个关键词信息中的多音字。

可选地，在本发明实施例中，所述多音字校正模块304进一步用将所述多音字转换成对应的拼音，然后根据同音字对应表，提取出所述拼音对应的一个或多个汉字；将所述汉字填充到所述需要校正的关键词信息中替换多音字以组成得到一个或多个包含多音字的的垃圾词。

可选地，在本发明实施例中，所述语音识别结果与场景对应表和场景关键信息提取表的格式为XML可扩展标记语言。

根据本发明的又一个方面，还提供了一种终端设备，包括如上所述的语音识别的客户端。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别的方法，应用于终端设备侧，其特征在于，所述方法包括：

获取用户输入的语音的原始语音识别结果，并根据所述原始语音识别结果解析出所述用户的语音识别场景，其中所述原始语音识别结果由云端服务器根据所述用户输入的语音识别得到；

根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个所述关键词信息中的多音字；

根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含所述多音字的垃圾词；

根据所述语音识别场景或所述需要校正的关键词信息所属的范围，获取所述终端设备中的与所述语音识别场景或所述需要校正的关键词信息对应的实际信息，并将所述垃圾词与所述实际信息进行匹配，筛选出正确的多音字，将所述正确的多音字填充到所述需要校正的关键词信息中，得到正确的关键词；

根据所述正确的关键词生成符合当前语音识别场景的最终语音识别结果。

2.如权利要求1所述的方法，其特征在于，所述根据所述原始语音识别结果解析出所述用户的语音识别场景，具体为：

根据预先设置的语音识别结果与场景对应表，匹配得到与所述原始语音识别结果对应的所述用户的语音识别场景。

3.如权利要求2所述的方法，其特征在于，所述根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个关键词信息中的多音字，具体包括：

根据所述语音识别场景和预先设置的场景关键信息提取表，从所述原始语音识别结果中获取需要校正的关键词信息；

判断所述需要校正的关键词信息中是否存在多音字，如果有，则获取每个关键词信息中的多音字。

4.如权利要求1所述的方法，其特征在于，所述根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含多音字的垃圾词，具体包括：

将所述多音字转换成对应的拼音，然后根据同音字对应表，提取出所述拼音对应的一个或多个汉字；

将所述汉字填充到所述需要校正的关键词信息中替换多音字以组成得到一个或多个包含多音字的垃圾词。

5.如权利要求3所述的方法，其特征在于，所述语音识别结果与场景对应表和场景关键信息提取表的格式为XML可扩展标记语言。

6.一种语音识别的客户端，应用于终端设备侧，其特征在于，所述客户端包括：

场景解析模块，用于获取用户输入的语音的原始语音识别结果，并根据所述原始语音识别结果解析出所述用户的语音识别场景，其中所述原始语音识别结果由云端服务器根据所述用户输入的语音识别得到；

多音字提取模块，用于根据所述语音识别场景，从所述原始语音识别结果中获取需要校正的关键词信息和每个所述关键词信息中的多音字；

垃圾词生成模块，用于根据所述需要校正的关键词信息和每个关键词信息中的多音字生成一个或多个包含所述多音字的垃圾词；

多音字校正模块，用于根据所述语音识别场景或所述需要校正的关键词信息所属的范围，获取所述终端设备中的与所述语音识别场景或所述需要校正的关键词信息对应的实际信息，将所述垃圾词与所述实际信息进行匹配，筛选出正确的多音字，将所述正确的多音字填充到所述需要校正的关键词信息中，得到正确的关键词；

结果处理模块，用于根据所述正确的关键词生成符合当前语音识别场景的最终语音识别结果。

7.如权利要求6所述的客户端，其特征在于，所述场景解析模块进一步用于根据预先设置的语音识别结果与场景对应表，匹配得到与所述原始语音识别结果对应的所述用户的语音识别场景。

8.如权利要求6所述的客户端，其特征在于，所述多音字提取模块进一步用于根据所述语音识别场景和预先设置的场景关键信息提取表，从所述原始语音识别结果中获取需要校正的关键词信息；判断所述需要校正的关键词信息中是否存在多音字，如果有，则获取每个关键词信息中的多音字。

9.如权利要求6所述的客户端，其特征在于，所述多音字校正模块进一步用将所述多音字转换成对应的拼音，然后根据同音字对应表，提取出所述拼音对应的一个或多个汉字；将所述汉字填充到所述需要校正的关键词信息中替换多音字以组成得到一个或多个包含多音字的的垃圾词。

10.如权利要求6所述的客户端，其特征在于，所述语音识别结果与场景对应表和场景关键信息提取表的格式为XML可扩展标记语言。

11.一种终端设备，其特征在于，包括如权利要求6～10任一项所述的语音识别的客户端。