CN112735404A

CN112735404A - 一种语音反讽检测方法、系统、终端设备和存储介质

Info

Publication number: CN112735404A
Application number: CN202011507130.6A
Authority: CN
Inventors: 罗剑; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-30

Abstract

本发明涉及语音识别检测技术领域，公开了一种语音反讽检测方法、系统、终端设备和存储介质，包括：对输入的语音特征向量进行文本表征提取，获取输入的语音特征向量的语义信息；对输入的语音特征向量进行非文本表征提取，获取输入的语音特征向量的生理信息；将提取的语义信息和生理信息进行向量拼接，作为k层全连接网络的输入向量，经训练得到输入的语音特征向量的反讽识别结果。本发明在使用一般书面文本作为反讽检测任务输入的同时，对原始音频中隐含的情绪、语气和停顿等非文本特征加以利用，并将两类特征转化为高层次表征，将结果合并起来进行决策，以达到更好的反讽识别准确率。

Description

一种语音反讽检测方法、系统、终端设备和存储介质

技术领域

本发明属于语音识别检测技术领域，涉及一种语音反讽检测方法、系统、终端设备和存储介质。

背景技术

反讽检测(sarcasm detection)往往被视作一项单独的NLP任务，一般使用书面文本作为输入，通过上下文关联来分析其中某些词或者某句话使用反语的可能性。由于反语的表达十分隐晦，仅仅关注文本语句很难做出正确的判断，因此这项任务的难度很高，目前大多数方案的实际效果都不是太理想。

按照一般的做法，如果要检测人们口语中的反语，需要先进行一项语音识别任务，将音频转化为文本，再进行后续的反讽检测。在实际生活中，当人们使用反语时，情绪、语气、和停顿等等都会与普通的表达方式有所差异，而这些信息在文本中并不会体现出来。常规的方案在真正进行反讽识别时，只利用到了转译后的书面文本，将其转化为词级或者句级的文本表征，并没有充分利用原始音频中的其它非文本信息。目前，一些研究者使用BERT模型预训练获得的表征，或者使用GloVe之类的表征来进行反讽检测模型的训练，往往也只能达到不到0.7的F1值。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种语音反讽检测方法、系统、终端设备和存储介质，本发明在使用一般书面文本作为反讽检测任务输入的同时，对原始音频中隐含的情绪、语气和停顿等非文本特征加以利用，并将两类特征转化为高层次表征，将结果合并起来进行决策，以达到更好的反讽识别准确率。

为达到上述目的，本发明采用以下技术方案予以实现：

一种语音反讽检测方法，包括以下步骤：

对输入的语音特征向量进行文本表征提取，获取输入的语音特征向量的语义信息；

对输入的语音特征向量进行非文本表征提取，获取输入的语音特征向量的生理信息；

将提取的语义信息和生理信息进行向量拼接，作为k层全连接网络的输入向量，经训练得到输入的语音特征向量的反讽识别结果。

一种语音反讽检测系统，包括：

文本表征提取模块，所述文本表征提取模块用于对输入的语音特征向量进行语音识别和反讽检测，输出语句所对应的文本表征；选取设定时间段的上下文进行建模，捕捉语句所在字段的中心思想；

非文本表征提取模块，所述非文本表征提取用于对输入的语音特征向量进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在语气、腔调的改变；

合并决策模块，所述合并决策模块用于按照时间标记，将当前句所在的时间段的文本表征和非文本表征对应拼接在一起作为输入，经过全连接网络得到最终的分类结果。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明在使用一般书面文本作为反讽检测任务输入的同时，对原始音频中隐含的情绪、语气和停顿等非文本特征加以利用，并将两类特征转化为高层次表征，将结果合并起来进行决策，以达到更好的反讽识别准确率。本发明主要由两条并行的路径构成，一条路径使用语音识别模型生成文本并经过一般常见的反讽检测模块获得一个句子级别的语义表征；另一条路径使用一个LSTM结构，从原始音频特征中提取出一句话中关于情绪、语气、腔调和停顿之类的非语言表征。最终，将两类高层次表征拼接在一起，再通过若干层全连接网络获得最终的反讽识别结果。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明语音反讽检测方法的流程图；

图2为本发明语音反讽检测系统的结构图；

图3为本发明一实施例的系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例提供一种语音反讽检测方法，包括以下步骤：

S10，对输入的语音特征向量进行文本表征提取，获取输入的语音特征向量的语义信息；

S20，对输入的语音特征向量进行非文本表征提取，获取输入的语音特征向量的生理信息；

S30，将提取的语义信息和生理信息进行向量拼接，作为k层全连接网络的输入向量，经训练得到输入的语音特征向量的反讽识别结果。

人的发音器官大致可分为3个部分：喉下、喉部、喉上部分。喉下有用来呼吸，并且也包括发音能源的各器官，包括气管、肺、胸廓、横膈膜和腹肌。喉部是声源器官，包括喉头、声带。喉上是用共鸣作用或阻碍作用来调节声音的各器官，包括口腔中各部及鼻腔。

人类声音的发出，是多个发音器官共同作用的结果，所以在语音中就包含了这些发音器官的生理信息，例如，当一个人感冒时，其发声就有明显的改变和特征。在一个人的声音信息中还明确包涵了语言中的情绪信息。

本实施例提供一种语音反讽检测方法，包括以下步骤：

步骤1，文本表征提取

对输入的语音特征向量进行识别，输出语句所对应的文本表征。选取一定时间段的上下文进行建模，捕捉语句所在字段的中心思想。

文本表征的提取大致与一般常见的方案一致，即一个语音识别模型加一个反讽检测模型。语音识别模块可以选择Chain模型，用t来表示某句话所在的时间段，对于输入的语音特征向量x_t,i，i∈1,2,K,τ，语音识别模型输出句子所对应的文本

chain model实际上是借鉴了CTC的思想，引入了blank用来吸收不确定的边界。但CTC只有一个blank，而chain model中每一个建模单元都有自己的blank。chain model实际上也是一种序列鉴别性训练的方法，所以它也要构造分母fst和分子fst。

分母fst的构建，chain model的分母fst类似于解码时建立的HCLG图。但是chainmodel的语言模型是phone级别，所以构图时我们不需要发音词典了，其实构造的是HCP(P表示phone LM，HCP就是fst结构，所以叫分母fst)。为了限制HCP图的大小，使用4元phone LM。值得注意的是：不同的句子是共用同一个HCP图，这一点与传统的序列鉴别性训练不同，传统的序列鉴别性每个句子都有自己的分母lattice。

分子fst的构建，将phone-level的lattice转换成fst，同时将transiton-id转换成pdf-idlattice与fst的不同是，根据fst中编码了time-alignment信息，可以方便我们根据时间点切分整段音频。为什么要将transiton-id转换成pdf-id？因为声学模型是对pdf-id建模。

chain model具有以下优点，1、解码速度更快。因为chain model采用拼帧降采样(每三帧取一帧)的方式，也就是说帧移变成了30ms，而不是10ms，所以帧率是传统神经网络声学模型的三分之一；2、训练速度更快。不需要预先训练DNN模型，同时省去了分母lattice的生成。

在反讽检测阶段，可以使用BERT预训练后得到的表征H_text。为了整体把握演讲者的核心思想和意图，选取从时间段t-a到t+a的上下文(s_t-a,K,s_t,K,s_t+a)来进行建模，尽可能捕捉语句所在字段的中心思想(图1中为了方便，仅仅展示了当前句的前后各一句，如有需要可以选择更长的上下文)。

H_text＝BERT(concat(s_t-a,K,s_t,K,s_t+a))

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。

步骤2，非文本表征提取

对输入的语音特征向量进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在明显的语气、腔调的改变。

提取非文本表征时可以使用和语音识别模型一致的输入特征，即梅尔频率倒谱系数(MFCC)或Filter-Bank特征等等，也可以进行单独设计。例如：使用傅里叶变换和SincNet卷积滤波器等单独定义的函数来计算所需的特征向量，或者增加语音帧的采样长度等等。在模型方面，可以使用LSTM结构来输出句子级别的非文本表征H_non-text。

H_non-text＝MaxPooling(LSTM(x_t,1,x_t,2,K,x_t,τ))

式中使用了最大池化，以捕捉整个时间序列中的特殊值，由此判断整句话是否存在明显的语气、腔调的改变。

梅尔频率倒谱系数MFCCs(Mel Frequency Cepstral Coefficents)是一种在自动语音和说话人识别中广泛使用的特征。MFCC考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。具体过程如下：

1)先对语音进行预加重、分帧和加窗；

2)对每一个短时分析窗，通过FFT得到对应的频谱；

3)将上面的频谱通过Mel滤波器组得到Mel频谱；

4)在Mel频谱上面进行倒谱分析(取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数)，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

这时候，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。进而可以通过这些倒谱向量对语音分类器进行训练和识别。

SincNet模型的特性

(1)收敛快。SincNet利用了滤波器的形状知识，使得网络更加关注于滤波器参数对性能的影响。这些先验知识使得学习滤波器特性变得更加容易，收敛更快。

(2)网络参数更少。SincNet极大地减少了第一层卷积层的参数量。例如，对于F个长度为L的滤波器，标准CNN的参数量为F*L，而SincNet的参数量只有2F(可学习的参数只有低截止频率和高截止频率)。假设滤波器的长度变为2L，则标准CNN的参数会增加一倍，而SincNet不变。

(3)计算高效。因为g函数是对称的，所以在计算的时候只需要考虑滤波器的一边，可以减少50％的计算开销。

(4)可解释。在SincNet对于语音处理的解释上，对于音高和共振的峰的理解上，SincNet能够学习到音高(第一个峰值)，第一共振峰(第二个峰值)和第二共振峰(第三个峰值)，而标准CNN更倾向于聚焦在低频的部分，共振峰也没有清楚的出现。实际上，SincNet更容易捕捉到一些窄带信息。

步骤3，合并决策

按照时间标记，将文本表征(当前句所在的时间段)和非文本表征对应通过向量拼接在一起作为输入，经过全连接网络得到最终的分类结果；所述拼接为向量拼接(concatenate)，具体来说，文本向量为[T,D1]，非文本向量为[T,D2]，拼接之后的向量为[T,D1+D2]。

按照时间标记，将文本表征(当前句所在的时间段)和非文本表征对应拼接在一起作为输入H，经过K层全连接网络，每一层全连接网络i由一个权重矩阵W_i和激活函数A_i组成，其中W_i，A_i分别表示权重和激活函数(最后一层的激活函数为softmax函数)。具体来说，第i层全连接网络FCi＝AiWi(.)，其中，最后一层全连接网络的激活函数是Softmax函数。

采用分类交叉熵作为目标函数，使用反向传播算法进行优化。

H＝concat(H_text,H_non-text)

Z＝softmax(W_k(K(A₁W₁H)))

其中H表示将当前句所在的时间段的文本表征和非文本表征对应拼接在一起的输入；Z表示经过softmax函数之后，每一个反讽标签预测的概率；W_i，A_i分别表示权重和激活函数；L表示损失函数，N表示反讽标签的总数量，n表示每一个反讽标签，所述反讽标签包括讽刺、嘲笑、鄙视以及挖苦等；Y_i为真实的标签向量，Z_i为预测向量。因为该模型由两路子模型构成，实际训练时可能会比较艰难。为了解决这一问题，可以像一般常见的反讽识别方案那样，先单独使用文本表征那一条支路进行训练，得到一个预训练结果，再将非文本表征那一路加入进来进行合并微调，使模型尽可能达到最好的效果。

softmax函数，又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。当使用Softmax函数作为输出节点的激活函数的时候，一般使用交叉熵作为损失函数。由于Softmax函数的数值计算过程中，很容易因为输出节点的输出值比较大而发生数值溢出的现象，在计算交叉熵的时候也可能会出现数值溢出的问题。为了数值计算的稳定性，TensorFlow提供了一个统一的接口，将Softmax与交叉熵损失函数同时实现，同时也处理了数值不稳定的异常，使用TensorFlow深度学习框架的时候，一般推荐使用这个统一的接口，避免分开使用Softmax函数与交叉熵损失函数。

如图2所示，本发明还公开了一种语音反讽检测系统，包括：

文本表征提取模块，用于对输入的语音特征向量进行识别，输出语句所对应的文本表征。选取一定时间段的上下文进行建模，捕捉语句所在字段的中心思想。

非文本表征提取模块，用于对输入的语音特征相连进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在明显的语气、腔调的改变。

合并决策模块，用于按照时间标记，将文本表征(当前句所在的时间段)和非文本表征对应拼接在一起作为输入，经过全连接网络得到最终的分类结果。

本发明额外考虑了语音流中的非文本信息，如演讲者的情绪、语气、停顿和腔调等等，输入端的信息量更多，表达潜力也更强。同时，该模型框架除了用来检测反语之外，在一定程度上也能判断说话者所表达出来的话语是否与他的想法真正一致，从而帮助人们更加准确地理解他的意图。

如图3所示，图3为本发明语音反讽检测系统的一个实施例，包括情绪语气检测模块、ASR模块以及NLP模块。

将语音特征分别输入至情绪语气检测模块和ASR模块(自动语音识别模块)；

所述情绪语气检测模块用于识别输入的语音特征的情绪信息，得到非文本表征，实现非文本表征提取；

所述ASR模块用于识别输入的语音特征中的t-1时刻至t+1时刻的文本，得到文本t-1、文本t以及文本t+1，将文本t-1、文本t以及文本t+1分别输入到NLP模块(中文自然语言处理模块)中进行识别，得到文本表征，实现文本表征提取；

将非文本表征提取得到的非文本表征和文本表征提取得到的文本表征进行向量拼接，实现合并决策，经过全连接网络得到最终的分类结果。

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如语音识别程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤，例如图1所示。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如非文本表征提取模块，用于对输入的语音特征相连进行识别，输出语句所对应的非文本表征，捕捉整个时间序列中的特殊值，判断整句话是否存在明显的语气、腔调的改变。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音反讽检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音反讽检测方法，其特征在于，所述获取输入的语音特征向量的语义信息的具体方法如下：

对输入的语音特征向量进行语义识别，通过语义识别得到语音特征向量所对应的语句，输出所述语句所对应的文本表征；选取设定时间段的上下文进行建模，捕捉所述语句所在设定时间段的上下文的中心思想；

对输入的语音特征向量进行语音识别，输出所述语句所对应的非文本表征，捕捉整个时间序列中的非文本表征向量，判断整句话是否存在情绪的改变。

3.根据权利要求1或2所述的语音反讽检测方法，其特征在于，所述对输入的语音特征向量进行文本表征提取的具体方法如下：

采用Chain模型进行语音识别，对于输入的语音特征向量x_t，i，i∈1，2，...,τ，Chain模型输出句子所对应的文本S_t：

式中，t表示某句话所在的时间段

所述反讽检测使用BERT，预训练后得到表征H_text，选取从时间段t-a到t+a的上下文s_t-a，...,s_t，...，s_t+a来进行建模，捕捉语句所在字段的中心思想；

H_text＝BERT(concat(s_t-a，...，s_t，...，s_t+a))。

4.根据权利要求2所述的语音反讽检测方法，其特征在于，所述步骤2的具体方法如下：

使用LSTM结构来输出句子级别的非文本表征H_non-text：

H_non-text＝MaxPooling(LSTM(x_t，1,x_t,2,...,x_t,τ))

式中使用最大池化以捕捉整个时间序列中的特殊值，由此判断整句话是否存在明显的情绪的改变。

5.根据权利要求4所述的语音反讽检测方法，其特征在于，所述步骤2中，使用傅里叶变换和SincNet卷积滤波器单独定义的函数来计算所需的特征向量，或者增加语音帧的采样长度。

6.根据权利要求4所述的语音反讽检测方法，其特征在于，所述步骤3的具体方法如下：

采用分类交叉熵作为目标函数，使用反向传播算法进行优化：

H＝concat(H_text，H_non-text)

Z＝softmax(W_k(...(A₁W₁H)))

其中，H表示将当前句所在的时间段的文本表征和非文本表征对应拼接在一起的输入；Z表示经过softmax函数之后，每一个反讽标签预测的概率；W_i，A_i分别表示权重和激活函数；L表示损失函数，N表示反讽标签的总数量，n表示每一个反讽标签，所述反讽标签包括讽刺、嘲笑、鄙视以及挖苦；Y_i为真实的标签向量，Z_i为预测向量；最后一层的激活函数为softmax函数。

7.一种语音反讽检测系统，其特征在于，包括：

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。