CN115881108A

CN115881108A - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN115881108A
Application number: CN202211073547.5A
Authority: CN
Inventors: 贾敬伍; 赵国庆; 周长安
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-03-31

Abstract

本发明公开了一种语音识别方法、装置、设备及存储介质。该方法包括：针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；基于预设的用户词典和分词器对所述修正语句文本进行语句回测；根据语句回测结果确定对应的语音识别结果。本发明结合同义词词典进行词条匹配，增加对用户口语化表达的泛化匹配能力，同时利用用户词典和分词器对修正语句进行回测验证，确保修正结果的正确性，从而提高了语音识别的准确性。

Description

语音识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

ASR(Automatic Speech Recognition)，即自动语音识别，是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。

近年来，ASR在许多行业中均有应用。例如，现有的智能问答系统平台通常会用到ASR进行语音转文本，以实现智能客服。但是在实践中，由于客服系统上线后，用户自定义的词汇在原有语料中未曾出现过，尤其是新增业务名称或产品名称，这就导致ASR识别的准确性较差，并进一步导致后续的意图识别、文本匹配的效果也变差，从而影响智能问答的效果。

发明内容

本发明的主要目的在于提供一种语音识别方法、装置、设备及存储介质，旨在解决现有的语音识别方法准确性较差的问题。

为实现上述目的，本发明提供一种语音识别方法，所述语音识别方法包括：

针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；

基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；

基于预设的用户词典和分词器对所述修正语句文本进行语句回测；

根据语句回测结果获得对应的语音识别结果。

可选地，所述对所述初始语句文本进行第一分词处理，得到第一分词结果的步骤，包括：

通过n-gram分词法对所述初始语句文本进行第一分词处理，得到第一分词结果。

可选地，所述第一分词结果包括第一分词词条，所述基于预设的同义词词典对分词结果进行分词匹配的步骤，包括：

基于预设的同义词词典，分别对各第一分词词条进行字符匹配和拼音匹配，得到各第一分词词条对应的词组。

可选地，所述根据匹配情况对所述初始语句文本进行修正，得到修正语句文本的步骤包括：

利用所述词组中的标准词条替换所述第一分词词条，并根据替换结果得到修正语句文本。

可选地，所述基于预设的用户词典和分词器对所述修正语句文本进行语句回测的步骤，包括：

通过所述分词器对所述修正语句文本进行第二分词处理，得到第二分词结果；

通过所述第二分词结果和用户词典进行语句回测，确定所述第二分词结果与标准词条的对应情况。

可选地，所述第二分词结果包括第二分词词条，所述根据语句回测结果确定对应的语音识别结果的步骤，包括：

在所述第二分词词条包含完整的标准词条的情况下，将所述修正语句文本确定为语音识别结果。

此外，为实现上述目的，本发明还提供一种语音识别装置，所述语音识别装置包括：

分词模块10，用于针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；

修正模块20，用于基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；

回测模块30，用于基于预设的用户词典和分词器对所述修正语句文本进行语句回测；

确定模块40，用于根据语句回测结果获得对应的语音识别结果。

此外，为实现上述目的，本发明还提供一种语音识别设备，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的语音识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的语音识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的语音识别方法的步骤。

本发明实施例提供一种针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；基于预设的用户词典和分词器对所述修正语句文本进行语句回测；根据语句回测结果确定对应的语音识别结果。通过以上方式，结合同义词词典进行词条匹配，增加对用户口语化表达的泛化匹配能力，同时利用用户词典和分词器对修正语句进行回测验证，确保修正结果的正确性，从而提高了语音识别的准确性，有利于后续进行准确地意图识别、文本匹配，提高用户体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明语音识别方法第一实施例的流程示意图；

图3为本发明语音识别装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例的语音识别设备可以是服务器，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机、可移动终端等终端设备。

如图1所示，该语音识别设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线 1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏 (Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的语音识别设备结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器和/或数据库，与后台服务器和/数据库进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的计算机程序，并执行本发明语音识别方法的各实施例。

基于上述硬件结构，提出本发明语音识别方法的各实施例。

本发明提供一种语音识别方法。

参照图2，图2为本发明语音识别方法第一实施例的流程示意图。

在本实施例中，该语音识别方法包括：

步骤S10，针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；

ASR(Automatic Speech Recognition)，即自动语音识别，是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。近年来，ASR在许多行业中均有应用。例如，现有的智能问答系统平台通常会用到ASR进行语音转文本，以实现智能客服。但是在实践中，由于客服系统上线后，用户自定义的词汇在原有语料中未曾出现过，尤其是新增业务名称或产品名称，这就导致ASR识别的准确性较差，并进一步导致后续的意图识别、文本匹配的效果也变差，从而影响智能问答的效果。对此，本实施例提出一种语音识别方法，结合同义词词典进行词条匹配，增加对用户口语化表达的泛化匹配能力，同时利用用户词典和分词器对修正语句进行回测验证，确保修正结果的正确性，从而提高了语音识别的准确性，有利于后续进行准确地意图识别、文本匹配，提高用户体验。

本实施例的语音识别方法是由语音识别设备实现的，该设备可以是服务器，也可以是客服机器人、智能服务大屏、PC(Personal Computer，个人计算机)、平板电脑、便携计算机、可移动终端等终端设备。

本实施例中，用户可说出一段语音；这段语音可通过麦克风等设备进行采集，并确定为待识别语音。针对待识别语音，可通过预先训练得到的识别模型进行初步识别，获得对应的初始语句文本。其中，该识别模型可以通过机器学习的方式获得的。需要说明的是，在实际使用场景中，待识别语音中的词条(此汇)可能是模型训练时未曾出现过的，比如待识别语音中包括新推出的业务名称，产品名称，这就会导致无法进行准确识别。例如，有一个新产品，名称为“邮A安康”，用户本意是想买该产品，于是说“我想买邮A 安康”，但由于“邮A安康”在模型训练时未曾出现过的，且“邮”与“有”发音相近，因此在进行初步识别时是识别为“我想买有A安康”，此时识别有误。对此，本实施例在得到初始语句文本后，还会进行进一步处理。具体的，语音识别设备可对初始语句文本分词处理；为说明方便，该分词处理可记为第一分词处理，分词后得到的结果记为第一分词处理。其中，分词的方式，可以是采用短语结构语法(PSG)模型、神经网络语言模型(NNLM)、Masked Language Model(MLM)等。

可选的，本实施例中，可以是通过n-gram分词法(或称为n元语法模型) 对初始语句文本进行第一分词处理，得到第一分词结果。其中，n-gram分词法可理解为把字符串按照步长n切分成多个子字符串，每个子字符串又可程为词条，然后将窗口向后移动一位，继续按照步长n进行切分，直至循环完毕，形成词条序列；其中，n为预设值，词条可以是单个字，也可以是多个字组成的词。例如，初始语句文本仍以上述“我想买有A安康”为例，n取6 (词条最大长度为6)，则分词结果为：['我'，'想'，'买'，'有'，'A'，'安'，'康'， '我想'，'想买'，'买有'，'有A'，'A安'，'安康'，'康'，'我想买'，'想买有'，'买有 A'，'有A安'，'A安康'，'安康'，'康'，'我想买有'，'想买有A'，'买有A安'，' 有A安康'，'A安康'，'安康'，'康'，'我想买有A'，'想买有A安'，'买有A安康 '，'有A安康'，'A安康'，'安康'，'康'，'我想买A保安'，'想买有A安康'，' 买有A安康'，'有A安康'，'A安康'，'安康'，'康']。其中，上述第一分词结果的分词词条可记为第一分词词条。通过该方式，可以获取对初始语句文本进行词条粒度的划分，方便后续进一步的处理。

步骤S20，基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；

在得到分词结果后，可通过预设的同义词词典进行分词匹配，然后可根据匹配情况对初始语句文本进行修正，从而对原来误识别的内容进行修正，得到修正语句文本。其中，对于该同义词词典可以是预先构建，其包括了标准词条，也包括有新增的业务名称、产品名称，也即业务更新、产品更新时将对该同义词词典进行更新，使得该同义词词典中包含业务名称、产品名称。而对于同义词词典的结构，可以根据实际情况进行设置，例如设置为{标准词条：同义词条1/同义词条2/同义词条3…}，通过这样的方式可以快速匹配。例如{邮A安康：有A安康/优A安康/又A安康}。

可选的，所述基于预设的同义词词典对所述第一分词结果进行分词匹配的步骤，包括：

本实施例中，对于第一分词结果的各个第一分词词条，可基于预设的同义词词典，分别进行字符匹配和拼音匹配，得到各第一分词词条对应的词组。其中，对于词组的结构，可以根据实际情况进行设置。例如字组的结构，可以设置为[原第一分词词条，标准词条]；而对于上述的第一分词词条“有A安康”，同义词词典中有标准词条“邮A安康”，则该第一分词词条“有A安康”对应的词组为[有A安康，邮A安康]。需要说明的是，在实际中第一分词词条有可能就是标准词条，此时词组中的两个词条一致；当然也可以是无需记录该词组。通过这样的方式，可以检测和识别出有可能存在误识别的词条，方便后续处理。

可选的，所述根据匹配情况对所述初始语句文本进行修正，得到修正语句文本的步骤，包括：

本实施例中，在得到各第一分词词条对应的词组后，可利用该词组中的标准词条替换掉原第一分词词条，并嵌入回初始语句文本中，从而实现对初始语句文本的修正，得到修正语句文本。例如对于前述初始语句文本“我想买有A安康”，第一分词词条“有A安康”对应的词组为[有A安康，邮A安康]，其中标准词条为“邮A安康”，则在进行词条替换后，得到的修正语句文本“我想买邮A安康”。通过这样的方式，可对误识别的词条进行替换，从而对初始识别语句进行修正，有利于提高语音识别的准确性。

步骤S30，基于预设的用户词典和分词器对所述修正语句文本进行语句回测；

本实施例中，在得到修正语句文本后，可对该修正语句文本进行进一步的回测。具体的，可以是通过分词器对修正语句文本进行分词，得到第二分词结果，然后将该第二分词结果与预设的用户词典进行匹配，从而判断该修正语句文本是否足够准确。其中，该用户词典可以是由所有标准词条组成，例如可以是由前述同义词词典中的标准词条组成。

可选的，所述步骤S30包括：

A31，通过所述分词器对所述修正语句文本进行第二分词处理，得到第二分词结果；

本实施例中，可以是基于该用户词条构建分词器，利用分词器(如jieba 分词器)加载用户词典，从而使得分词器可以基于用户词典的标准词条来识别和划分出修正语句文本，获得第二分词结果。例如对于前述修正语句文本“我想买邮A安康”，对应的第二分词结果为['我'，'想'，'买'，'邮A安康']。

A32，通过所述第二分词结果和用户词典进行语句回测，确定所述第二分词结果与标准词条的对应情况。

在获得第二分词结果后，可通过第二分词结果和用户词典进行语句回测。其中第二分词结果中的各分词可记为第二分词词条，可将各第二分词词条与用户词典中的标准词条进行比对，以确定第二分词词条与标准词条的对应情况。其中，如果第二分词词条中包含完整的标准词条(即第二分词词条与标准词条对应)，则可认为修正语句文本的准确性达到要求；否则，可认为修正语句文本的准确性尚未达到要求。通过以上方式，可利用用户词典和分词器对修正语句进行回测、验证，有利于提高修正结果的正确性。

步骤S40，根据语句回测结果确定对应的语音识别结果。

本实施例中，在对修正语句文本进行语句回测后，可根据语句回测结果确定修正语句文本的准确程度，然后可根据语句回测结果获得对应的语音识别结果。其中，若修正语句文本的准确性达到要求，则可将该修正语句文本确定为待识别语音对应的语音识别结果；而若修正语句文本的准确性未达到要求，则可将该原初始语句文本确定为待识别语音对应的语音识别结果，又或者是输出相应的人工复核提示等。

在一些，在所述第二分词结果包括第二分词词条的情况下，所述步骤S40 包括：

A41,在所述第二分词词条包含完整的标准词条的情况下，将所述修正语句文本确定为语音识别结果。

本实施例中，在获得第二分词结果后，可通过第二分词结果和用户词典进行语句回测。其中第二分词结果中的各分词可记为第二分词词条，可将各第二分词词条与用户词典中的标准词条进行比对，以确定第二分词词条与标准词条的对应情况。其中，如果第二分词词条中包含完整的标准词条(即第二分词词条与标准词条对应)，则可认为修正语句文本的准确性达到要求，此时可将该修正语句文本确定为待识别语音对应的语音识别结果。而若第二分词词条中不包含完整的标准词条，则认为修正语句文本的准确性未达到要求，则可将该原初始语句文本确定为待识别语音对应的语音识别结果，又或者是输出相应的人工复核提示等。

进一步的，对于得到的语音识别结果，还可以根据该语音识别结果进行下一步处理，例如进行用户意图识别，也即通过分类的办法将语句分到相应的意图种类，并提供相应的服务；又或者是提供相应的问题答复等，本实施例中不进行限制。

本实施例中，针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；基于预设的用户词典和分词器对所述修正语句文本进行语句回测；根据语句回测结果确定对应的语音识别结果。通过以上方式，本实施例结合同义词词典进行词条匹配，增加对用户口语化表达的泛化匹配能力，同时利用用户词典和分词器对修正语句进行回测验证，确保修正结果的正确性，从而提高了语音识别的准确性，有利于后续进行准确地意图识别、文本匹配，提高用户体验。

本发明还提供一种语音识别装置。

参照图3，图3为本发明语音识别装置第一实施例的功能模块示意图。

如图3所示，所述语音识别装置包括：

进一步地，所述分词模块10，还用于通过n-gram分词法对所述初始语句文本进行第一分词处理，得到第一分词结果。

进一步地，所述第一分词结果包括第一分词词条，所述修正模块20，还用于基于预设的同义词词典，分别对各第一分词词条进行字符匹配和拼音匹配，得到各第一分词词条对应的词组。

进一步地，所述修正模块20，还用于利用所述词组中的标准词条替换所述第一分词词条，并根据替换结果得到修正语句文本。

进一步地，所述回测模块30，还用于通过所述分词器对所述修正语句文本进行第二分词处理，得到第二分词结果；通过所述第二分词结果和用户词典进行语句回测，确定所述第二分词结果与标准词条的对应情况。

进一步地，所述第二分词结果包括第二分词词条，所述确定模块40，还用于在所述第二分词词条包含完整的标准词条的情况下，将所述修正语句文本确定为语音识别结果。

其中，上述语音识别装置中各个模块的功能实现与上述语音识别方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一项实施例所述的语音识别方法的步骤。

本发明计算机可读存储介质的具体实施例与上述语音识别方法各实施例基本相同，在此不作赘述。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上任一项所述的语音识别方法的步骤。

本发明计算机程序产品的具体实施例与上述语音识别方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

根据语句回测结果获得对应的语音识别结果。

2.如权利要求1所述的语音识别方法，其特征在于，所述对所述初始语句文本进行第一分词处理，得到第一分词结果的步骤，包括：

3.如权利要求1所述的语音识别方法，其特征在于，所述第一分词结果包括第一分词词条，所述基于预设的同义词词典对分词结果进行分词匹配的步骤，包括：

4.如权利要求3所述的语音识别方法，其特征在于，所述根据匹配情况对所述初始语句文本进行修正，得到修正语句文本的步骤包括：

5.如权利要求1所述的语音识别方法，其特征在于，所述基于预设的用户词典和分词器对所述修正语句文本进行语句回测的步骤，包括：

6.如权利要求1所述的语音识别方法，其特征在于，所述第二分词结果包括第二分词词条，所述根据语句回测结果确定对应的语音识别结果的步骤，包括：

7.一种语音识别装置，其特征在于，所述语音识别装置包括：

分词模块，用于针对待识别语音，获取对应的初始语句文本，并对所述初始语句文本进行第一分词处理，得到第一分词结果；

修正模块，用于基于预设的同义词词典对所述第一分词结果进行分词匹配，并根据匹配情况对所述初始语句文本进行修正，得到修正语句文本；

回测模块，用于基于预设的用户词典和分词器对所述修正语句文本进行语句回测；

确定模块，用于根据语句回测结果获得对应的语音识别结果。

8.一种语音识别设备，其特征在于，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。