CN116052646B

CN116052646B - 语音识别方法、装置、存储介质和计算机设备

Info

Publication number: CN116052646B
Application number: CN202310200757.4A
Authority: CN
Inventors: 郭立钊; 王福钋; 沈鹏; 黄明星; 张航飞; 范野; 曹富康; 辛逸男; 胡尧; 周晓波
Original assignee: Beijing Shuidi Technology Group Co ltd
Current assignee: Beijing Shuidi Technology Group Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-09
Anticipated expiration: 2043-03-06
Also published as: CN116052646A

Abstract

本申请公开了一种语音识别方法、装置、存储介质和计算机设备。方法包括：获取待识别的语音信息；将语音信息输入语音识别模型，得到语音信息对应的识别文本，以及识别文本与语音信息的置信度；比对识别文本和识别文本对应的预设意图文本，确定识别文本与预设意图文本的第一相似度；根据置信度和第一相似度，确定语音信息的目标文本。本申请的方法，结合ASR识别和意图预测，基于联合优化的方式使两个不同的任务优化目标一致，提升语音识别的准确率，避免仅依赖于ASR识别中产生错误识别的文本对意图识别造成干扰，保障了后续意图识别的准确度，为后续应答机制提供可靠的数据支撑。

Description

语音识别方法、装置、存储介质和计算机设备

技术领域

本申请涉及语音识别技术领域，尤其是涉及到一种语音识别方法、装置、存储介质和计算机设备。

背景技术

相关技术中，客服机器人采用语音识别（AutomaticSpeech Recognition，ASR）技术先识别客户的说话内容，并转写为对应文本，然后通过自然语言处理（NaturalLanguageProcessing，NLP）技术基于转写文本识别预定义的客户意图，并在意图识别基础上建立客服问答机制。但在此方法中，客户意图识别的准确度直接受语音识别精度的影响，若语音识别系统鲁棒性较差，如受背景噪音或者口音影响导致识别精度降低，相应的意图识别的准确率也会降低，进而影响整个智能客服的交互质量。

发明内容

有鉴于此，本申请提供了一种语音识别方法、装置、存储介质和计算机设备，通过意图识别结果和文本识别结果加权后的得分引入语音转换的二次解码，采用两个不同任务联合优化的方式提升语音识别的准确率。

根据本申请的一个方面，提供了一种语音识别方法，包括：

获取待识别的语音信息；

将语音信息输入语音识别模型，得到语音信息对应的识别文本，以及识别文本与语音信息的置信度；

比对识别文本和识别文本对应的预设意图文本，确定识别文本与预设意图文本的第一相似度；

根据置信度和第一相似度，确定语音信息的目标文本。

可选地，根据置信度和第一相似度，确定语音信息的目标文本，具体包括：

确定预设意图文本中第一相似度大于或等于第一预设相似度的第一意图文本；

对置信度和第一意图文本的第一相似度进行加权处理，确定识别文本的目标评分；

按照目标评分对识别文本进行排序，得到文本列表；

将文本列表中位于首位的识别文本确定为目标文本。

可选地，语音识别方法还包括：

将语音信息的声学特征和识别文本输入语音信息所属业务场景的意图识别模型，得到至少一个预设意图文本，其中，所述声学特征包括以下至少一种：语速、音色、停顿、语调、声纹。

可选地，语音识别方法还包括：

获取文本样本和文本样本对应的语音样本；

确定文本样本的语义标签和意图标签，语义标签为文本样本的文本语义特征；

根据文本样本、语音样本的声学特征和语义标签，对预设模型进行预训练，得到语义模型；

根据文本样本、语音样本的声学特征和意图标签，对语义模型进行训练，得到意图识别模型。

可选地，语音识别方法还包括：

若语音信息所属业务场景为预设场景，则根据目标文本匹配语音信息的第一应答信息；

输出第一应答信息。

可选地，语音识别方法还包括：

若目标文本满足人工接入条件，或根据目标文本未匹配出第一应答信息，则获取处于空闲状态的客服端；

将目标文本发送至客服端；

输出客服端反馈的第二应答信息。

可选地，根据目标文本匹配语音信息的第一应答信息，包括：

将语音信息的声学特征输入情绪识别模型，得到语音信息对应用户的情绪信息，其中，声学特征包括以下至少一种：语速、音色、停顿、语调、声纹；

获取情绪信息对应的知识库，知识库包括第二意图文本和第二意图文本对应的预设应答信息；

比对目标文本和第二意图文本，确定目标文本和第二意图文本之间的第二相似度；

将第二相似度大于第二预设相似度的第二意图文本对应的预设应答信息确定为第一应答信息。

根据本申请的另一方面，提供了一种语音识别装置，包括：

获取模块，用于获取待识别的语音信息；

第一识别模块，用于将语音信息输入语音识别模型，得到语音信息对应的识别文本，以及识别文本与语音信息的置信度；

确定模块，用于比对识别文本和识别文本对应的预设意图文本，确定识别文本与预设意图文本的第一相似度；以及，根据置信度和第一相似度，确定语音信息的目标文本。

可选地，确定模块，具体用于确定预设意图文本中第一相似度大于或等于第一预设相似度的第一意图文本；

语音识别装置还包括：

处理模块，用于对置信度和第一意图文本的第一相似度进行加权处理，确定识别文本的目标评分；

排序模块，用于按照目标评分对识别文本进行排序，得到文本列表；

确定模块，具体用于将文本列表中位于首位的识别文本确定为目标文本。

可选地，语音识别装置还包括：

第二识别模块，用于将语音信息的声学特征和识别文本输入语音信息所属业务场景的意图识别模型，得到至少一个预设意图文本。

可选地，语音识别装置还包括：

训练模块，用于获取文本样本和文本样本对应的语音样本；确定文本样本的语义标签和意图标签，语义标签为文本样本的文本语义特征；根据文本样本、语音样本的声学特征和语义标签，对预设模型进行预训练，得到语义模型；根据文本样本、语音样本的声学特征和意图标签，对语义模型进行训练，得到意图识别模型。

可选地，语音识别装置还包括：

应答模块，用于若语音信息所属业务场景为预设场景，则根据目标文本匹配语音信息的第一应答信息；以及，输出第一应答信息。

可选地，应答模块，还用于若目标文本满足人工接入条件，或根据目标文本未匹配出第一应答信息，则获取处于空闲状态的客服端；

语音识别装置还包括：

通信模块，用于将目标文本发送至客服端；

应答模块，还用于输出客服端反馈的第二应答信息。

可选地，语音识别装置还包括：

情绪识别模块，用于将语音信息的声学特征输入情绪识别模型，得到语音信息对应用户的情绪信息，其中，声学特征包括以下至少一种：语速、音色、停顿、语调、声纹；

应答模块，具体用于获取情绪信息对应的知识库，知识库包括第二意图文本和第二意图文本对应的预设应答信息；以及，比对目标文本和第二意图文本，确定目标文本和第二意图文本之间的第二相似度；以及，将第二相似度大于第二预设相似度的第二意图文本对应的预设应答信息确定为第一应答信息。

根据本申请再一个方面，提供了可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现上述语音识别方法的步骤。

根据本申请又一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，处理器执行程序时实现上述语音识别方法的步骤。

借由上述技术方案，当获取到待识别的语音信息后，先利用语音识别模型识别语音信息对应的至少一个识别文本，每个识别文本携带有其与语音信息的置信度。通过比对每个识别文本和通过识别文本确定的预设意图文本，确定识别文本与预设意图文本之间的第一相似度。根据置信度和第一相似度计算每个识别文本的评分，并利用该评分得出语音信息的目标文本。从而结合ASR识别和意图预测，基于联合优化的方式使两个不同的任务优化目标一致，避免仅依赖于ASR识别中产生错误识别的文本对意图识别造成干扰，保障了意图识别的准确度，为后续应答机制提供可靠的数据支撑。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的语音识别方法的流程示意图之一；

图2示出了本申请实施例提供的语音识别方法的流程示意图之二；

图3示出了本申请实施例提供的语音识别装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“相接”到另一元件时，它可以直接连接或相接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“相接”可以包括无线连接或无线稠接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

现在，将参照附图更详细地描述根据本申请的示例性实施例。然而，这些示例性实施例可以多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。应当理解的是，提供这些实施例是为了使得本申请的公开彻底且完整，并且将这些示例性实施例的构思充分传达给本领域普通技术人员。

在本实施例中提供了一种语音识别方法，如图1所示，该方法包括：

步骤101，获取待识别的语音信息；

其中，本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。具体地，人工智能（ArtificialIntelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可以理解的是，本申请实施例提供的语音识别方法可应用于终端中，也可应用于服务端中，还可以是运行于终端或服务端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现语音识别方法的应用等，但并不局限于以上形式。

步骤102，将语音信息输入语音识别模型，得到语音信息对应的识别文本，以及识别文本与语音信息的置信度；

在该实施例中，通过预设的语音识别模型对语音信息进行识别处理，得到至少一个识别文本，能够减少语音信息转换成文本的误差，增加识别文本的丰富度和置信度，不仅有助于提高识别效率，而且有利于提高语音识别的准确性。

值得一提的是，语音识别模型可以是基于自动语音识别技术（ASR）预先训练的单体神经网络模型，例如，深度神经网络（DeepNeural Networks，DNN）模型、卷积网络（ConvolutionalNeural Networks，CNN）模型、循环神经网络（RecurrentNeural Networks，RNN）模型、残差网络（ResidualNetwork，ResNet）模型；或者由多网络并行的双重网络结构模型（Conformer），例如，Conformer模型由CNN和Transformer分支组成，其中CNN分支采用了ResNet结构，Transformer分支则是采用了ViT结构。

进一步地，在获得识别文本后，可通过ASR技术对识别文本进行语义纠错以及过滤处理，剔除表意不明、音频模糊的识别文本，通过同义词替换、词性扩充等方式对残缺的识别文本进行补全处理，使得语音信息的文本更加贴合用户表达。

步骤103，比对识别文本和识别文本对应的预设意图文本，确定识别文本与预设意图文本的第一相似度；

在该实施例中，分别确定识别文本对应的第一表示向量和预设意图文本对应的第二表示向量，将计算出的第一表示向量和第二表示向量之间的相似度作为识别文本和预设意图文本之间的第一相似度。从而利用表示向量直接计算文本的相似度，从而优化了相似度计算。

具体地，可使用余弦相似度来计算第一相似度。

可以理解的是，一个预设意图文本或一个识别文本往往为一个句子的内容，由此，第一表示向量和第二表示向量即可表征为一个句子的表示向量。

在一些可能的实施例中，步骤103，也即在比对识别文本和识别文本对应的预设意图文本之前，语音识别方法还包括：将语音信息的声学特征和识别文本输入语音信息所属业务场景的意图识别模型，得到至少一个预设意图文本。

其中，声学特征包括以下至少一种：语速、音色、停顿、语调、声纹。业务场景与服务端所提供的业务功能相关，例如，业务场景可以是检索场景、问询场景、聊天场景等，本申请实施例不在一一例举。意图识别模型可采用上述神经网络模型，在此不再赘述。

在该实施例中，预先训练用于识别意图的意图识别模型。当将语音信息转化为识别文本后，提取语音信息的声学特征，并将语音信息的声学特征和识别文本一并输入当前所处业务场景对应的意图识别模型中，以进行该业务场景下的意图文本预测，得到至少一个可能的预设意图文本。从而能够判断用户的业务场景，并选择与业务场景相关的意图识别模型，降低了意图预测所耗费的时间，并且将语音信息的识别文本与语音信息的声学特征相结合，实现对语音信息的意图预测，提高语音信息的语音识别结果的准确度，进而可以降低仅通过识别文本进行意图识别可能造成的识别错误。

具体地，可基于声学模型或encoder（编码器）-decoder（解码器）架构的意图识别模型中的encoder获取语音信息对应的声学特征。优选的，声学模型可以为基于BottleNet结构的、基于交叉熵CE准则的神经网络模型。

具体举例来说，用户说出“今日天气是什么”的语音，通过文本转换后得到“今日天气是什么”和“他的脾气是什么”的识别文本。再利用意图识别模型分别对2个识别文本进行分析，得出“今日天气是什么”的预设意图文本包括“今日天气是什么”、“明日天气是什么”、“今日天气是晴天”等，“他的脾气是什么”的预设意图文本包括“他生气了吗”、“他的脾气是什么”等。

进一步地，训练意图识别模型，具体包括：获取文本样本和文本样本对应的语音样本；确定文本样本的语义标签和意图标签，语义标签为文本样本的文本语义特征；根据文本样本、语音样本的声学特征和语义标签，对预设模型进行预训练，得到语义模型；根据文本样本、语音样本的声学特征和意图标签，对语义模型进行训练，得到意图识别模型。

其中，语义标签和意图标签可采用人工或机器学习的方式进行标记。

在该实施例中，采用语义-意图两阶段的方式进行模型训练，在第一阶段使用大量易获取的语音-文本-语义成对数据，即语音样本的声学特征、文本样本和语义标签，来训练语义提取网络，能够将模仿文本语义特征提取语音语义特征作为语义提取网络的提取目标，语义提取网络学习到丰富的语义信息，提升训练的语义提取网络的提取准确率，保障后续语音识别的识别准确率。在第二阶段再利用语音-文本-意图成对数据，即语音样本的声学特征、文本样本和意图标签，就能够实现语音意图识别模型的训练。从而通过在保障模型准确率的情况下降低训练数据的准备成本，提高模型训练的可行性。

步骤104，根据置信度和第一相似度，确定语音信息的目标文本。

在该实施例中，当获取到待识别的语音信息后，先利用语音识别模型识别语音信息对应的至少一个识别文本，每个识别文本携带有其与语音信息的置信度。通过比对每个识别文本和通过识别文本确定的预设意图文本，确定识别文本与预设意图文本之间的第一相似度。根据置信度和第一相似度计算每个预设意图文本的评分，并利用该评分得出语音信息的目标文本。从而结合ASR识别和意图预测，基于联合优化的方式使两个不同的任务优化目标一致，提升语音识别的准确率，避免仅依赖于ASR识别中产生错误识别的文本对意图识别造成干扰，保障了意图识别的准确度，为后续应答机制提供可靠的数据支撑。

在具体的应用场景中，如图2所示，步骤104，也即根据置信度和第一相似度，确定语音信息的目标文本，具体包括：

步骤104-1，确定预设意图文本中第一相似度大于或等于第一预设相似度的第一意图文本；

步骤104-2，对置信度和第一意图文本的第一相似度进行加权处理，确定识别文本的目标评分；

其中，置信度和第一相似度对应的权重可根据识别精度合理设置。例如，置信度的权重占比大于第一相似度的权重占比。

步骤104-3，按照目标评分对识别文本进行排序，得到文本列表；

步骤104-4，将文本列表中位于首位的识别文本确定为目标文本。

在该实施例中，选取相似度较高的预设意图文本作为第一意图文本。通过置信度和第一相似度的加权运算计算每个识别文本的最终得分（目标评分）。通过目标评分综合表征ASR识别和意图预测的准确度。按照目标评分由大到小的顺序对识别文本进行排序后得到文本列表。最后将文本列表中位于首位的识别文本，也即将至少一个识别文本中更贴近实际语音信息的识别文本确定为目标文本。从而结合ASR识别和意图文本预测，基于联合优化的方式使两个不同的任务优化目标一致，同时能使语音识别的结果更有针对性且更为精确，亦能提升语音识别的响应速度，进而防止ASR识别精度问题影响意图识别的准确率。

具体举例来说，客服场景中，客户端产生客户音频（语音信息），提取其音频特征。将音频特征输入到ASR识别引擎做第一次解码产生top-n候选文本（n为超参数，可设置为10，也可设置为20）。将第一次解码得到的top-n候选文本（识别文本）与意图库中的意图文本计算文本相似度（文本相似度计算方法可选用通用的计算方法，如余弦相似度计算方法），得到每个文本的相似度得分。将候选结果的相似度得分与第一次解码得到的候选结果置信度得分进行加权。将加权后的最终得分进行第二次解码，也即对候选结果得分进行重新排序，将得分最高的候选结果作为最终的目标文本。从而采用ASR和下游任务联合优化的方式，将下游优化目标引入ASR的二次解码中，用端到端的方式提高意图识别的准确率，减少因ASR模型识别精度问题影响意图识别的准确率。

进一步地，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，语音识别方法还包括：

步骤201，若语音信息所属业务场景为预设场景，则根据目标文本匹配语音信息的第一应答信息；

其中，预设场景为需要实现应答功能的业务场景，例如，问询场景。

在该实施例中，在当前所属的业务场景为预设场景，也即需要对用户说出的语音信息进行回应时，利用最终分析出的目标文本作为依据匹配相应的第一应答信息，以便于回复用户提问，实现了自动化的答复机制。

可以理解的是，第一应答信息可以是应答文本，也可以是通过应答文本合成的应答语音。

在具体的应用场景中，步骤201，也即根据目标文本匹配语音信息的第一应答信息，具体包括如下步骤：

步骤201-1，将语音信息的声学特征输入情绪识别模型，得到语音信息对应用户的情绪信息；

其中，声学特征包括以下至少一种：语速、音色、停顿、语调、声纹。

步骤201-2，获取情绪信息对应的知识库，知识库包括第二意图文本和第二意图文本对应的预设应答信息；

步骤201-3，比对目标文本和第二意图文本，确定目标文本和第二意图文本之间的第二相似度；

步骤201-4，将第二相似度大于第二预设相似度的第二意图文本对应的预设应答信息确定为第一应答信息。

其中，第二预设相似度可根据精度即合理设置，例如，第二相似度中的最大值。

在该实施例中，通过语音信息的声学特征识别对应用户的情绪信息，进而能够判断该用户的当前情绪状态，最终能够基于当前情绪状态选择第二预设相似度较高的预设应答信息作为回复用户所需的第一应答信息，从而大大提升服务质量，提高用户的使用满意度。

具体举例来说，客户先以平和的语气询问相关问题，然而客服机器人给出不对称的解答，此时，用户提高了语气再次询问相同的问题，那么当识别到用户提高了语气，则可以确定用户的情绪信息为愤怒，从而切换为包含道歉词汇的知识库再次进行第一应答信息的匹配，最终提高服务满意度。

步骤202，输出第一应答信息。

具体地，输出第一应答信息的方式可以是显示第一应答信息、播放第一应答信息或者发送第一应答信息至客户端等。

在该实施例中，获得第一应答信息后，输出第一应答信息，以使用户及时获知与语音信息相关的答复，从而在实现了自动化答复机制的基础上，满足用户的问询需求，进而提升问询响应速度，且降低人工服务的成本。

步骤301，若目标文本满足人工接入条件，或根据目标文本未匹配出第一应答信息，则获取处于空闲状态的客服端；

步骤302，将目标文本发送至空闲状态的客服端；

步骤303，输出客服端反馈的第二应答信息。

在该实施例中，若目标文本中存在“切换人工客户”、“问题未解决”文字等或根据目标文本未匹配出第一应答信息，说明客户机器人以无法满足用户的问询需求。此时，将接入人工客服，通过人工答复用户提问，从而提高人工客服切入的及时性和人机客服切换的流畅度。

进一步地，如图3所示，作为上述语音识别方法的具体实现，本申请实施例提供了一种语音识别装置500，该语音识别装置500包括：获取模块501、第一识别模块502和确定模块503。

其中，获取模块501，用于获取待识别的语音信息；

第一识别模块502，用于将语音信息输入语音识别模型，得到语音信息对应的识别文本，以及识别文本与语音信息的置信度；

确定模块503，用于比对识别文本和识别文本对应的预设意图文本，确定识别文本与预设意图文本的第一相似度；以及，根据置信度和第一相似度，确定语音信息的目标文本。

在该实施例中，当获取待识别的语音信息后，先利用语音识别模型识别语音信息对应的至少一个识别文本，每个识别文本携带有其与语音信息的置信度。通过比对每个识别文本和通过识别文本确定的预设意图文本，确定识别文本与预设意图文本之间的第一相似度。根据置信度和第一相似度计算每个识别文本的评分，并利用该评分得出语音信息的目标文本。从而结合ASR识别和意图预测，基于联合优化的方式使两个不同的任务优化目标一致，避免仅依赖于ASR识别中产生错误识别的文本对意图识别造成干扰，保障了意图识别的准确度，为后续应答机制提供可靠的数据支撑。

进一步地，确定模块503，具体用于确定预设意图文本中第一相似度大于或等于第一预设相似度的第一意图文本；语音识别装置500还包括：处理模块（图中未示出），处理模块用于对置信度和第一意图文本的第一相似度进行加权处理，确定识别文本的目标评分；排序模块，用于按照目标评分对识别文本进行排序，得到文本列表；确定模块503，具体用于将文本列表中位于首位的识别文本确定为目标文本。

进一步地，语音识别装置500还包括：第二识别模块（图中未示出），第二识别模块用于将语音信息的声学特征和识别文本输入语音信息所属业务场景的意图识别模型，得到至少一个预设意图文本。

进一步地，语音识别装置500还包括：训练模块（图中未示出），训练模块用于获取文本样本和文本样本对应的语音样本；确定文本样本的语义标签和意图标签，语义标签为文本样本的文本语义特征；根据文本样本、语音样本的声学特征和语义标签，对预设模型进行预训练，得到语义模型；根据文本样本、语音样本的声学特征和意图标签，对语义模型进行训练，得到意图识别模型。

进一步地，语音识别装置500还包括：应答模块（图中未示出），应答模块用于若语音信息所属业务场景为预设场景，则根据目标文本匹配语音信息的第一应答信息；以及，输出第一应答信息。

进一步地，应答模块，还用于若目标文本满足人工接入条件，或根据目标文本未匹配出第一应答信息，则获取处于空闲状态的客服端；语音识别装置500还包括：通信模块（图中未示出），通信模块用于将目标文本发送至客服端；应答模块，还用于输出客服端反馈的第二应答信息。

进一步地，语音识别装置500还包括：情绪识别模块（图中未示出），情绪识别模块用于将语音信息的声学特征输入情绪识别模型，得到语音信息对应用户的情绪信息，其中，声学特征包括以下至少一种：语速、音色、停顿、语调、声纹；应答模块，具体用于获取情绪信息对应的知识库，知识库包括第二意图文本和第二意图文本对应的预设应答信息；以及，比对目标文本和第二意图文本，确定目标文本和第二意图文本之间的第二相似度；以及，将第二相似度大于第二预设相似度的第二意图文本对应的预设应答信息确定为第一应答信息。

关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

基于上述如图1至图2所示方法，相应的，本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1至图2所示的语音识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

基于上述如图1至图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的语音识别方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如蓝牙接口、WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现获取待识别的语音信息；将语音信息输入语音识别模型，得到语音信息对应的识别文本，以及识别文本与语音信息的置信度；比对识别文本和识别文本对应的预设意图文本，确定识别文本与预设意图文本的第一相似度；根据置信度和第一相似度，确定语音信息的目标文本。本申请实施例当获取到待识别的语音信息后，先利用语音识别模型识别语音信息对应的至少一个识别文本，每个识别文本携带有其与语音信息的置信度。通过比对每个识别文本和通过识别文本确定的预设意图文本，确定识别文本与预设意图文本之间的第一相似度。根据置信度和第一相似度计算每个预设意图文本的评分，并利用该评分得出语音信息的目标文本。从而结合ASR识别和意图预测，基于联合优化的方式使两个不同的任务优化目标一致，提升语音识别的准确率，避免仅依赖于ASR识别中产生错误识别的文本对意图识别造成干扰，保障了意图识别的准确度，为后续应答机制提供可靠的数据支撑。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别的语音信息；

将所述语音信息输入语音识别模型，得到所述语音信息对应的识别文本，以及所述识别文本与所述语音信息的置信度；

比对所述识别文本和所述识别文本对应的预设意图文本，确定所述识别文本与所述预设意图文本的第一相似度；

根据所述置信度和所述第一相似度，确定所述语音信息的目标文本；

所述根据所述置信度和所述第一相似度，确定所述语音信息的目标文本，具体包括：

确定所述预设意图文本中所述第一相似度大于或等于第一预设相似度的第一意图文本；

对所述置信度和所述第一意图文本的第一相似度进行加权处理，确定所述识别文本的目标评分；

按照所述目标评分对所述识别文本进行排序，得到文本列表；

将所述文本列表中位于首位的所述识别文本确定为所述目标文本。

2.根据权利要求1所述的语音识别方法，其特征在于，所述方法还包括：

将所述语音信息的声学特征和所述识别文本输入所述语音信息所属业务场景的意图识别模型，得到至少一个所述预设意图文本，其中，所述声学特征包括以下至少一种：语速、音色、停顿、语调、声纹。

3.根据权利要求2所述的语音识别方法，其特征在于，所述方法还包括：

获取文本样本和所述文本样本对应的语音样本；

确定所述文本样本的语义标签和意图标签，所述语义标签为所述文本样本的文本语义特征；

根据所述文本样本、所述语音样本的声学特征和所述语义标签，对预设模型进行预训练，得到语义模型；

根据所述文本样本、所述语音样本的声学特征和所述意图标签，对所述语义模型进行训练，得到所述意图识别模型。

4.根据权利要求1至3中任一项所述的语音识别方法，其特征在于，所述方法还包括：

若所述语音信息所属业务场景为预设场景，则根据所述目标文本匹配所述语音信息的第一应答信息；

输出所述第一应答信息。

5.根据权利要求4所述的语音识别方法，其特征在于，所述方法还包括：

若所述目标文本满足人工接入条件，或根据所述目标文本未匹配出所述第一应答信息，则获取处于空闲状态的客服端；

将所述目标文本发送至所述客服端；

输出所述客服端反馈的第二应答信息。

6.根据权利要求4所述的语音识别方法，其特征在于，所述根据所述目标文本匹配所述语音信息的第一应答信息，包括：

将所述语音信息的声学特征输入情绪识别模型，得到所述语音信息对应用户的情绪信息，其中，所述声学特征包括以下至少一种：语速、音色、停顿、语调、声纹；

获取所述情绪信息对应的知识库，所述知识库包括第二意图文本和所述第二意图文本对应的预设应答信息；

比对所述目标文本和所述第二意图文本，确定所述目标文本和所述第二意图文本之间的第二相似度；

将所述第二相似度大于第二预设相似度的所述第二意图文本对应的预设应答信息确定为所述第一应答信息。

7.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的语音信息；

第一识别模块，用于将所述语音信息输入语音识别模型，得到所述语音信息对应的识别文本，以及所述识别文本与所述语音信息的置信度；

确定模块，用于比对所述识别文本和所述识别文本对应的预设意图文本，确定所述识别文本与所述预设意图文本的第一相似度；以及，

所述确定模块，具体用于确定所述预设意图文本中所述第一相似度大于或等于第一预设相似度的第一意图文本；

处理模块，用于对所述置信度和所述第一意图文本的第一相似度进行加权处理，确定所述识别文本的目标评分；

排序模块，用于按照所述目标评分对所述识别文本进行排序，得到文本列表；

所述确定模块，具体用于将所述文本列表中位于首位的所述识别文本确定为所述目标文本。

8.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。

9.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的语音识别方法。