CN109410923A

CN109410923A - 语音识别方法、装置、系统及存储介质

Info

Publication number: CN109410923A
Application number: CN201811602878.7A
Authority: CN
Inventors: 刘金财; 王涛; 周昌宇
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-03-01
Anticipated expiration: 2038-12-26
Also published as: CN109410923B

Abstract

本发明提供一种语音识别方法、装置、系统及存储介质，该方法，包括：从语音信息中识别出语音字段；获取与所述语音字段匹配的所有文本字段；若与所述语音字段匹配的文本字段的数量大于1，则将所述语音字段与语料库中的歧义字段进行匹配；若所述语料库中存在与所述语音字段匹配的歧义字段，则将所述歧义字段对应的专业用语作为所述语音字段对应的文本字段。从而可以通过语料库中包含的歧义字段，以及歧义字段对应的专业用语来提升语音识别结果的准确率，减少语音歧义所造成的识别错误。

Description

语音识别方法、装置、系统及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、系统及存储介质。

背景技术

语音识别是人工智能语音领域重要的技术和应用方向之一，通过将语音信息转换为文本信息，从而完成针对文本信息的一系列智能操作。在语音识别过程中，不可避免地会遇到多音字、近音字等，从而使得转换出的文本信息与语音信息的真实含义相背离。

目前，仍然采用传统的客服语音系统来进行语音识别，当遇到多音字、近音字时，系统会随机输出一个文本字段作为语音识别结果。

但是，这种语音识别方式，很难准确的识别客户想要表达的意思，无法结合特定场景将语音解析为合适的词语，从而使得语音识别的准确度较低。

发明内容

本发明提供一种语音识别方法、装置、系统及存储介质，可以通过语料库中包含的歧义字段，以及歧义字段对应的专业用语来提升语音识别结果的准确率，减少语音歧义所造成的识别错误。

第一方面，本发明实施例提供一种语音识别方法，包括：

从语音信息中识别出语音字段；

获取与所述语音字段匹配的所有文本字段；

若与所述语音字段匹配的文本字段的数量大于1，则将所述语音字段与语料库中的歧义字段进行匹配；

若所述语料库中存在与所述语音字段匹配的歧义字段，则将所述歧义字段对应的专业用语作为所述语音字段对应的文本字段。

在一种可能的设计中，所述获取与所述语音字段匹配的所有文本字段，包括：

将所述语音字段与语音词典进行匹配，得到与所述语音字段匹配的所有文本字段；其中，所述语音词典中预先存储有语音字段，以及与语音字段相关的文本字段。

在一种可能的设计中，在将所述语音字段与语料库中的歧义字段进行匹配之前，还包括：

采用人工方式构建语料库；其中，所述语料库中存储有歧义字段，以及歧义字段对应的专业用语。

在一种可能的设计中，还包括：

若与所述语音字段匹配的文本字段的数量为1，则将所述文本字段作为所述语音字段的识别结果；

若与所述语音字段匹配的文本字段的数量为0，则输出默认的文本字段作为所述语音字段的识别结果，或者输出语音识别失败的提示信息。

在一种可能的设计中，还包括：

若所述语料库中不存在与所述语音字段匹配的歧义字段，则输出默认的文本字段作为所述语音字段的识别结果。

在一种可能的设计中，还包括：

若所述语料库中不存在与所述语音字段匹配的歧义字段，则将所述语音字段，以及与所述语音字段匹配的所有文本字段发送给人工服务平台；以使得所述人工服务平台在语料库中新增与所述语音字段匹配的歧义字段，以及与所述歧义字段对应的专业用语。

第二方面，本发明实施例提供一种语音识别装置，包括：

识别模块，用于从语音信息中识别出语音字段；

获取模块，用于获取与所述语音字段匹配的所有文本字段；

匹配模块，用于在与所述语音字段匹配的文本字段的数量大于1时，将所述语音字段与语料库中的歧义字段进行匹配；

输出模块，用于在所述语料库中存在与所述语音字段匹配的歧义字段时，将所述歧义字段对应的专业用语作为所述语音字段对应的文本字段。

在一种可能的设计中，所述获取模块，具体用于：

在一种可能的设计中，还包括：

语料库构建模块，采用人工方式构建语料库；其中，所述语料库中存储有歧义字段，以及歧义字段对应的专业用语。

在一种可能的设计中，所述输出模块，还用于：

在与所述语音字段匹配的文本字段的数量为1时，将所述文本字段作为所述语音字段的识别结果；

在与所述语音字段匹配的文本字段的数量为0时，输出默认的文本字段作为所述语音字段的识别结果，或者输出语音识别失败的提示信息。

在一种可能的设计中，所述输出模块，还用于：

在一种可能的设计中，还包括：

发送模块，用于在所述语料库中不存在与所述语音字段匹配的歧义字段时，将所述语音字段，以及与所述语音字段匹配的所有文本字段发送给人工服务平台；以使得所述人工服务平台在语料库中新增与所述语音字段匹配的歧义字段，以及与所述歧义字段对应的专业用语。

第三方面，本发明实施例提供一种语音识别系统，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的语音识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的语音识别方法。

第五方面，本发明实施例提供一种程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的语音识别方法。

本发明提供一种语音识别方法、装置、系统及存储介质，通过从语音信息中识别出语音字段；获取与所述语音字段匹配的所有文本字段；若与所述语音字段匹配的文本字段的数量大于1，则将所述语音字段与语料库中的歧义字段进行匹配；若所述语料库中存在与所述语音字段匹配的歧义字段，则将所述歧义字段对应的专业用语作为所述语音字段对应的文本字段。从而可以通过语料库中包含的歧义字段，以及歧义字段对应的专业用语来提升语音识别结果的准确率，减少语音歧义所造成的识别错误。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一应用场景的原理示意图；

图2为本发明实施例一提供的语音识别方法的流程图；

图3为本发明实施例二提供的语音识别方法的流程图；

图4为本发明实施例三提供的语音识别装置的结构示意图；

图5为本发明实施例四提供的语音识别装置的结构示意图；

图6为本发明实施例五提供的语音识别系统的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

随着人工智能的发展，语音客服成为很多服务行业的重要辅助手段，其中的核心技术就是语音识别。语音识别通过将语音信息转换为文本信息，从而完成针对文本信息的一系列智能操作。在语音识别过程中，不可避免地会遇到多音字、近音字等，从而使得转换出的文本信息与语音信息的真实含义相背离。传统的客服语音系统，当遇到多音字、近音字时，系统会随机输出一个文本字段作为语音识别结果。但是，这种语音识别方式，很难准确的识别客户想要表达的意思，无法结合特定场景将语音解析为合适的词语，从而使得语音识别的准确度较低。例如用户说“si ji ye wu”，可转换为“4G业务”，也可以是“四季业务”，在通信领域，“4G业务”是一个专业词汇，语音识别结果为“4G业务”更为合适。因此，构建一个行业或场景相关的的语料库，并进行对应的语音识别，可以大大的提高语音的识别准确率，降低人工标注的成本。

图1为本发明一应用场景的原理示意图，如图1所示，本发明的语音识别装置20，接收用户输入的语音信息10。然后，语音识别装置20的识别模块，从语音信息中识别出语音字段。语音识别装置20的获取模块，将语音字段与语音词典进行匹配，得到与语音字段匹配的所有文本字段。当匹配到多个文本字段时，即可能存在歧义时，语音识别装置20的匹配模块，将语音字段与语料库中的歧义字段进行匹配，返回对应的专业词汇。语音识别装置20的输出模块，将匹配模块返回的专业词汇，作为语音字段对应的文本结果30，输出文本结果30。

例如：在通信领域，用户输入的语音信息10是“si ji ye wu”，语音识别装置20的获取模块返回文本字段为“4G业务”和“四季业务”；语音识别装置20的匹配模块进行处理，确定“4G业务”为语料库中对应的专业用语，作为返回结果。语音识别装置20的输出模块，输出“4G业务”，作为文本结果30。

应用上述方法可以实现通过语料库中包含的歧义字段，以及歧义字段对应的专业用语来提升语音识别结果的准确率，减少语音歧义所造成的识别错误，提升用户体验。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例一提供的语音识别方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、从语音信息中识别出语音字段。

本实施例中，用户提供的语音信息，可能包括背景声音、无意义的语音字段、重复的语音字段等。本实施例，首先从语音信息中识别出有效的语音字段。例如，用户输入的语音信息中提到了“嗯，嗯，4G业务”对应的语音信息为“en en si ji ye wu”；但是实际需要提取出的语音字段应为“si ji ye wu”。因此首先需要过滤掉语音信息中的背景声音、无意义的语音字段、重复的语音字段，然后得到需要的语音字段。例如：识别出为“嗯，嗯，4G业务”对应的语音字段为“si ji ye wu”。

S102、获取与语音字段匹配的所有文本字段。

本实施例中，将语音字段与语音词典进行匹配，得到与语音字段匹配的所有文本字段；其中，语音词典中预先存储有语音字段，以及与语音字段相关的文本字段。例如，在语音词典中进行匹配，得到“si ji ye wu”对应的文本为“4G业务”和“四季业务”。

S103、若与语音字段匹配的文本字段的数量大于1，则将语音字段与语料库中的歧义字段进行匹配。

本实施例中，对于步骤S102中返回多个文本，再将语音字段与语料库进行匹配。其中，语料库中存储有歧义字段，以及歧义字段对应的专业用语。例如，在通信领域，将“si jiye wu”在语料库中进行匹配，返回文本“4G业务”。

S104、若语料库中存在与语音字段匹配的歧义字段，则将歧义字段对应的专业用语作为语音字段对应的文本字段。

本实施例中，若在S103中找到匹配的专业词汇，则输出专业词汇。例如，“si ji yewu”对应的专业词汇“4G业务”，返回给用户。

在一种可能的实施方式中，若与语音字段匹配的文本字段的数量为1，则将文本字段作为语音字段的识别结果。例如，输入的语音字段为“hua fei cha xun”，在S102中返回的文本只有一个，为“话费查询”，则将话费查询作为输出文本结果，进行输出。若与语音字段匹配的文本字段的数量为0，则输出默认的文本字段作为语音字段的识别结果，或者输出语音识别失败的提示信息。例如，用户输入的语音字段为“hui fa”，匹配到的文本字段数量为0，则可以输出文本为“您是要查询话费吗？”。

在另一种可能的实施方式中，若语料库中不存在与语音字段匹配的歧义字段，则输出默认的文本字段作为语音字段的识别结果。可选地，还可以将语音字段，以及与语音字段匹配的所有文本字段发送给人工服务平台；以使得人工服务平台在语料库中新增与语音字段匹配的歧义字段，以及与歧义字段对应的专业用语。

本实施例，通过从语音信息中识别出语音字段；获取与语音字段匹配的所有文本字段；若与语音字段匹配的文本字段的数量大于1，则将语音字段与语料库中的歧义字段进行匹配；若语料库中存在与语音字段匹配的歧义字段，则将歧义字段对应的专业用语作为语音字段对应的文本字段。从而可以通过语料库中包含的歧义字段，以及歧义字段对应的专业用语来提升语音识别结果的准确率，减少语音歧义所造成的识别错误。

图3为本发明实施例二提供的语音识别方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、采用人工方式构建语料库。

本实施例中，对于不同的行业或者应用场景，可以采用人工方式构建语料库。其中，语料库中存储有歧义字段，以及歧义字段对应的专业用语。例如，在通信领域，构建的语料库中，“si ji ye wu”对应的专业词汇“4G业务”。

S202、从语音信息中识别出语音字段；

S203、获取与语音字段匹配的所有文本字段；

S204、若与语音字段匹配的文本字段的数量大于1，则将语音字段与语料库中的歧义字段进行匹配；

S205、若语料库中存在与语音字段匹配的歧义字段，则将歧义字段对应的专业用语作为语音字段对应的文本字段。

本实施例中，步骤S202～步骤S205的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S104中的相关描述，此处不再赘述。

另外，本实施还可以根据不同行业，采用人工方式构建包含该行业专业词汇的语料库，适应不同行业的要求，提高语音识别的准确度。

图4为本发明实施例三提供的语音识别装置的结构示意图，如图4所示，本实施例的语音识别装置可以包括：

识别模块21，用于从语音信息中识别出语音字段；

获取模块22，用于获取与语音字段匹配的所有文本字段；

匹配模块23，用于在与语音字段匹配的文本字段的数量大于1时，将语音字段与语料库中的歧义字段进行匹配；

输出模块24，用于在语料库中存在与语音字段匹配的歧义字段时，将歧义字段对应的专业用语作为语音字段对应的文本字段。

在一种可能的设计中，获取模块22，具体用于：

将语音字段与语音词典进行匹配，得到与语音字段匹配的所有文本字段；其中，语音词典中预先存储有语音字段，以及与语音字段相关的文本字段。

在一种可能的设计中，输出模块24，还用于：

在与语音字段匹配的文本字段的数量为1时，将文本字段作为语音字段的识别结果；

在与语音字段匹配的文本字段的数量为0时，输出默认的文本字段作为语音字段的识别结果，或者输出语音识别失败的提示信息。

在一种可能的设计中，输出模块25，还用于：

若语料库中不存在与语音字段匹配的歧义字段，则输出默认的文本字段作为语音字段的识别结果。

本实施例的语音识别装置，可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

图5为本发明实施例四提供的语音识别装置的结构示意图，如图5所示，本实施例的语音识别装置在图4所示装置的基础上，还可以包括：

语料库构建模块25，采用人工方式构建语料库；其中，语料库中存储有歧义字段，以及歧义字段对应的专业用语。

发送模块26，用于在语料库中不存在与语音字段匹配的歧义字段时，将语音字段，以及与语音字段匹配的所有文本字段发送给人工服务平台；以使得人工服务平台在语料库中新增与语音字段匹配的歧义字段，以及与歧义字段对应的专业用语。

本实施例的语音识别装置，可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

图6为本发明实施例五提供的语音识别系统的结构示意图，如图6所示，本实施例的语音识别系统40可以包括：处理器41和存储器42。

存储器42，用于存储程序；存储器42，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器42用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

本实施例的服务器可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本申请还提供一种程序产品，程序产品包括计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器实施上述本发明实施例任一的语音识别方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

从语音信息中识别出语音字段；

获取与所述语音字段匹配的所有文本字段；

2.根据权利要求1所述的方法，其特征在于，所述获取与所述语音字段匹配的所有文本字段，包括：

3.根据权利要求1所述的方法，其特征在于，在将所述语音字段与语料库中的歧义字段进行匹配之前，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，还包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，还包括：

7.一种语音识别装置，其特征在于，包括：

识别模块，用于从语音信息中识别出语音字段；

获取模块，用于获取与所述语音字段匹配的所有文本字段；

8.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于：

9.一种语音识别系统，其特征在于，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述的语音识别方法。