CN112908315A

CN112908315A - 一种基于声音特征和语音识别的问答意图判断方法

Info

Publication number: CN112908315A
Application number: CN202110262520.XA
Authority: CN
Inventors: 刘川贺; 汪明浩
Original assignee: Beijing Seektruth Data Technology Service Co ltd
Current assignee: Beijing Seektruth Data Technology Service Co ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-04
Anticipated expiration: 2041-03-10
Also published as: CN112908315B

Abstract

本申请实施例提供了一种基于声音特征和语音识别的问答意图判断方法，该方法包括提取答复语音中的语音特征参数；将语音特征参数作为预先训练的神经网络模型的输入进行运算，得到与答复语音对应的情绪特征参数；提取出答复语音中的关键词的词频，得到与答复语音对应的词频特征参数；将神经网络模型的输出作为预先训练的BERT模型的输入进行运算，得到与答复语音对应的语义特征参数；基于情绪特征参数、词频特征参数和语义特征参数确定出问题答复者的答复意图。本申请公开的基于声音特征和语音识别的问答意图判断方法可准确确定出答复者的答复意图。

Description

一种基于声音特征和语音识别的问答意图判断方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于声音特征和语音识别的问答意图判断方法。

背景技术

随着人工智能的飞速发展，基于语音的意图识别也越来越被广泛应用于各种场景中。

目前，对于语音的意图识别常采用的方案是通过自然语言处理(NaturalLanguage Processing，NLP)对语音进行识别，自然语言处理的过程主要是将语音转换成机器可理解的、结构化的、完整的语义表示，然后根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。

然而，由于自然语言所表达的语义本身存在一定的不确定性，同一语句在不同态度下所表达的含义也不尽相同，因此往往不能准确地对语音进行意图识别。

发明内容

本申请实施例提供一种基于声音特征和语音识别的问答意图判断方法，用以解决现有技术存在的不能准确地对语音进行意图识别的问题。

本申请实施例采用下述技术方案：

本申请实施例提供了一种基于声音特征和语音识别的问答意图判断方法，包括：

提取出问题答复者所对应的答复语音中的语音特征参数；

将所述语音特征参数作为预先训练的神经网络模型的输入进行运算，得到与所述答复语音对应的情绪特征参数；

提取出所述答复语音中的关键词的词频，得到与所述答复语音对应的词频特征参数；

将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算，得到与所述答复语音对应的语义特征参数；

基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图，所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。

可选的，所述答复语音为多个，所述方法还包括：

将所述问题答复者与提问者对话的对话语音分割成多个语音短句；

通过语音识别技术将所述多个语音短句转换为文本，得到与所述多个语音短句一一对应的多个目标文本；

从所述多个目标文本提取出与所述问题答复者对应的多个答复文本；

将与所述多个答复文本对应的多个语音短句作为所述问题答复者所对应的多个答复语音。

可选的，所述提取出问题答复者所对应答复语音中的语音特征参数，包括：

从所述问题答复者所对应的多个答复语音中提取出与所述多个答复语音一一对应的多个语音特征参数；

所述将所述语音特征参数作为预先训练的神经网络模型的输入进行运算，得到与所述答复语音对应的情绪特征参数，包括：

将所述多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算，得到与所述多个答复语音一一对应的多个情绪特征参数；

所述提取出所述答复语音中的关键词的词频，得到与所述答复语音对应的词频特征参数，包括：

提取出所述多个答复语音中的关键词的词频，得到与所述多个答复语音一一对应的多个词频特征参数；

所述将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算，得到与所述答复语音对应的语义特征参数，包括：

将所述多个情绪特征参数分别作为预先训练的BERT模型的输入进行运算，得到与所述多个答复语音一一对应的多个语义特征参数；

所述基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图，包括：

基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数，确定出所述问题答复者的答复意图。

可选的，所述基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数，确定出所述问题答复者的答复意图，包括：

将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合，得到与所述多个答复语音一一对应的多个目标特征参数；

通过支持向量机算法或极端梯度提升算法对所述多个目标特征参数进行分类，得到所述答复意图。

可选的，所述将所述问题答复者与提问者对话的对话语音分割成多个语音短句，包括：

基于贝叶斯信息准则或通过逐帧计算语音能量将所述对话语音分割成多个语音短句。

可选的，所述从所述多个目标文本提取出与所述问题答复者对应的多个答复文本，包括：

通过隐马尔可夫模型或文本分类算法TextCNN将所述多个目标文本进行分类，得到与所述问题答复者对应的多个答复文本。

可选的，所述语音特征参数包括共振峰频率、基音周期、低水平特征、过零率和音频能量中的至少一种。

本申请一个或多个实施例采用的上述技术方案能够达到以下有益效果：

由于在意图识别过程中确定出答复语音所对应的情绪特征参数、词频特征参数和语义特征参数，并根据情绪特征参数、词频特征参数和语义特征参数确定问题答复者的答复意图。在此过程中，除词频特征参数外还考虑情绪特征和语义特征等各个维度的参数，从而能够准确确定出答复者的答复意图，确保意图识别的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一个实施例提供的基于声音特征和语音识别的问答意图判断方法的流程示意图。

图2为本申请一个实施例提供的提取答复语音的流程示意图。

图3为本申请一个实施例提供的确定问题答复者的答复意图的流程示意图。

图4为本申请一个实施例提供的电子设备的结构示意图。

图5为本申请一个实施例提供的基于声音特征和语音识别的问答意图判断装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了准确地对语音进行意图识别，本申请实施例提供了一种基于声音特征和语音识别的问答意图判断方法，该基于声音特征和语音识别的问答意图判断方法能够准准确确定出答复者的答复意图。

下面将对本申请实施例提供的基于声音特征和语音识别的问答意图判断方法进行详细说明。

本申请实施例提供的基于声音特征和语音识别的问答意图判断方法可应用于用户终端或服务器，所述用户终端可以是，但不限于个人电脑、智能手机、平板电脑、人数字助理、智能机器人等，所述服务器可以是网络服务器或数据库服务器。

可选的，该基于声音特征和语音识别的问答意图判断方法的流程如图1所示，可以包括如下步骤：

步骤S101，提取出问题答复者所对应的答复语音中的语音特征参数。

其中，语音特征参数可以包括共振峰频率、基音周期、低水平特征(low leveldescriptors，LLDs)、过零率和音频能量中的至少一种。本申请实施例中，语音特征参数包括共振峰频率、基音周期、低水平特征、过零率和音频能量。

在提取语音特征参数时，可直接通过开源的音频处理库直接提取出答复语音中共振峰频率、基音周期、低水平特征、过零率和音频能量，本申请实施例中不做具体说明。

所述答复语音为可以是一个或多个，一个答复语音可以是指一个完整的语音短句。

为确保对答复意图的准确识别，本申请实施例中，答复语音为多个。因此在提取语音特征参数时，可从问题答复者所对应的多个答复语音中提取出与多个答复语音一一对应的多个语音特征参数，每个语音特征参数中均包括共振峰频率、基音周期、低水平特征、过零率和音频能量。

所述答复语音可以是从提问者与问题答复者对话的对话语音中提取出的，具体的，提取答复语音的过程如图2所示，可以包括如下步骤：

步骤S201，将问题答复者与提问者对话的对话语音分割成多个语音短句。

本申请实施例中，在进行意图识别之前，可先由提问者向问题答复者提问，问题答复者对提出的问题进行答复，记录整个过程的语音，从而得到提问者与问题答复者对话的对话语音。然后，可将问题答复者与提问者对话的对话语音分割成多个语音短句。

其中，将对话语音分割成多个语音短句可以采用，但不限于贝叶斯信息准则(Bayesian Information Criterion，BIC)或通过逐帧计算语音能量实现，本申请实施例中不做具体限定。

步骤S202，通过语音识别技术将多个语音短句转换为文本，得到与多个语音短句一一对应的多个目标文本。

步骤S203，从多个目标文本提取出与所述问题答复者对应的多个答复文本。

具体的，可先对多个答复文本进行分类，识别出与提问者对应的多个提问文本和问题答复者对应的多个答复文本，然后过滤掉提问者对应的多个提问文本。

本申请实施例中，可以通过，但不限于隐马尔可夫模型(Hidden Markov Model，HMM)或文本分类算法TextCNN将所述多个目标文本进行分类，得到与问题答复者对应的多个答复文本，该多个答复文本即为问题答复者的答复语音所对应的文本。

步骤S204，将与多个答复文本对应的多个语音短句作为问题答复者所对应的多个答复语音。

例如，多个答复文本包括答复文本A、B和C，其中答复文本A是有语音短句a转换成的文本，答复文本B是有语音短句b转换成的文本，答复文本C是有语音短句c转换成的文本。则可将语音短句a、b和c作为问题答复者所对应的多个答复语音。

步骤S102，将语音特征参数作为预先训练的神经网络模型的输入进行运算，得到与答复语音对应的情绪特征参数。

本申请实施例中，预先训练有用于情绪特征识别的神经网络(Neural Network，NN)模型，该神经网络包括多个全连接层，在训练时可以将量化后的语音特征参数作为神经网络模型的输入，情绪特征参数作为神经网络模型的输出进行训练。情绪特征参数可以是问题答复者的情绪特征量化后得到的多维向量。其中，情绪特征可以是表征问题答复者情绪如高兴、悲伤、愤怒等的特征，本申请实施例中不做具体限定。

本申请实施例中，由于提取的语音特征参数为多个，因此在进行运算时，可以将多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算，得到与多个答复语音一一对应的多个情绪特征参数。

需要说明的是，在将语音特征参数作为神经网络模型的输入时，需先将语音特征参数进行量化，得到一多维向量，然后将量化后得到的多维向量作为神经网络模型的输入进行运算。

步骤S103，提取出答复语音中的关键词的词频，得到与所述答复语音对应的词频特征参数。

其中，答复语音中的关键词可预先定义，如明确表示问题答复者态度的词语，例如可以是“好的”、“不行”、“可以”、“没问题”等。

提取关键词的词频时，可针对每个答复语音，提取出多个答复语音中的每个答复语音的关键词的词频，得到与多个答复语音一一对应的多个词频特征参数，该词频特征参数用于表征答复语音中的关键词出现的频率。

需要说明的是，步骤S102与步骤S103的顺序并不限定。

步骤S104，将神经网络模型的输出作为预先训练的BERT模型的输入进行运算，得到与答复语音对应的语义特征参数。

本申请实施中，还预先训练有用于确定答复语音的语义特征参数的BERT(Bidirectional Encoder Representation from Transformers)模型，在将多个语音特征参数分别作为预先训练的神经网络模型的输入进行运算，得到与多个答复语音一一对应的多个情绪特征参数后，可将该多个情绪特征参数分别作为预先训练的BERT模型的输入进行运算，得到与多个答复语音一一对应的多个语义特征参数，该语义特征参数为一向量，用于抽象表示语义，不同向量值可用于表示不同的语义。

步骤S105，基于情绪特征参数、词频特征参数和语义特征参数确定出问题答复者的答复意图。

本申请实施例中，可基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数，确定出所述问题答复者的答复意图。

其中，答复意图可以是用于表征问题答复者在答复问题时处于积极或消极状态。

具体的，确定问题答复者的答复意图的流程如图3所示，可以包括如下步骤：

步骤S301，将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合，得到与多个答复语音一一对应的多个目标特征参数。

在确定问题答复者的答复意图时，可以先将对应同一答复语音的情绪特征参数、词频特征参数和语义特征参数进行融合，得到与多个答复语音一一对应的多个目标特征参数。

融合过程中，可将情绪特征参数、(量化后的)词频特征参数以及语义特征参数组合，得到的向量即为对应的目标特征参数。

例如，针对同一答复语音，情绪特征参数所对应的向量为(1，0)，词频特征参数所对应的向量为(0，3，3)，语义特征参数所对应的向量为(2，1，2)，则组合后得到的目标特征参数可表示为多维向量(1，0，0，3，3，2，1，2)。

步骤S302，通过支持向量机算法对多个目标特征参数进行分类，得到所述答复意图。

具体的，可通过支持向量机(Support Vector Machine，SVM)算法，对每个目标特征参数进行分类，得到与每个答复语音对应的答复意图(如积极状态或消极状态)，然后综合考虑多个答复语音对应的答复意图，确定出问题答复者的答复意图。

例如，与多个答复语音一一对应的多个答复意图中，如果表征积极状态的答复意图的数量高于表征消极状态的答复意图的数量，则得到的是表征问题答复者在答复问题时处于积极状态的答复意图。

本申请实施例中，对目标特征参数进行分类采用支持向量机算法，可以理解的，在其他的一些实施例中也可以采用其他的方式对目标特征参数进行分类，例如还可以采用极端梯度提升(eXtreme Gradient Boosting，XGBoost)算法。

综上所述，本申请实施例提供的基于声音特征和语音识别的问答意图判断方法，通过在意图识别过程中确定出答复语音所对应的情绪特征参数、词频特征参数和语义特征参数，并根据情绪特征参数、词频特征参数和语义特征参数确定问题答复者的答复意图，在此过程中，除词频特征参数外还考虑情绪特征和语义特征等各个维度的参数，从而能够准确确定出答复者的答复意图，确保意图识别的准确性。同时，在识别过程中，尽可收集有用的音频的特征，剔除掉提问者的语音，从而消除掉无用的噪声，进一步保障识别的准确性。

图4是本申请的一个实施例电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成基于声音特征和语音识别的问答意图判断装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

提取出问题答复者所对应的答复语音中的语音特征参数；

上述如本申请图4所示实施例揭示的基于声音特征和语音识别的问答意图判断装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1-3的方法，并实现基于声音特征和语音识别的问答意图判断装置在图1-3所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1-3所示实施例的方法，并具体用于执行以下操作：

提取出问题答复者所对应的答复语音中的语音特征参数；

图5是本申请的一个实施例基于声音特征和语音识别的问答意图判断装置的结构示意图。请参考图5，在一种软件实施方式中，基于声音特征和语音识别的问答意图判断装置可包括：

第一提取模块，用于提取出问题答复者所对应的答复语音中的语音特征参数；

第一运算模块，用于将所述语音特征参数作为预先训练的神经网络模型的输入进行运算，得到与所述答复语音对应的情绪特征参数；

第二提取模块，用于提取出所述答复语音中的关键词的词频，得到与所述答复语音对应的词频特征参数；

第二运算模块，用于将所述神经网络模型的输出作为预先训练的BERT模型的输入进行运算，得到与所述答复语音对应的语义特征参数；

确定模块，用于基于所述情绪特征参数、所述词频特征参数和所述语义特征参数确定出所述问题答复者的答复意图，所述答复意图表征所述问题答复者在答复问题时处于积极或消极状态。

采用上述装置，可在意图识别过程中确定出答复语音所对应的情绪特征参数、词频特征参数和语义特征参数，并根据情绪特征参数、词频特征参数和语义特征参数确定问题答复者的答复意图，在此过程中，除词频特征参数外还考虑情绪特征和语义特征等各个维度的参数，从而能够准确确定出答复者的答复意图，确保意图识别的准确性。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于声音特征和语音识别的问答意图判断方法，其特征在于，包括：

提取出问题答复者所对应的答复语音中的语音特征参数；

2.根据权利要求1所述的方法，其特征在于，所述答复语音为多个，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述提取出问题答复者所对应答复语音中的语音特征参数，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个情绪特征参数、所述多个词频特征参数和所述多个语义特征参数，确定出所述问题答复者的答复意图，包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述问题答复者与提问者对话的对话语音分割成多个语音短句，包括：

6.根据权利要求2所述的方法，其特征在于，所述从所述多个目标文本提取出与所述问题答复者对应的多个答复文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述语音特征参数包括共振峰频率、基音周期、低水平特征、过零率和音频能量中的至少一种。