CN104217226A

CN104217226A - 基于深度神经网络与条件随机场的对话行为识别方法

Info

Publication number: CN104217226A
Application number: CN201410455219.0A
Authority: CN
Inventors: 胡清华; 周玉灿
Original assignee: Tianjin University
Current assignee: Nanjing Tupo Technology Co.,Ltd.
Priority date: 2014-09-09
Filing date: 2014-09-09
Publication date: 2014-12-17
Anticipated expiration: 2034-09-09
Also published as: CN104217226B

Abstract

本发明公开了一种基于深度神经网络与条件随机场的对话行为识别方法，步骤是(1)对数据集中的汉语口语语料进行预处理，提取多模态特征；(2)构造条件随机场模型；(3)基于多模态深度神经网络构造条件随机场模型的状态特征函数：(4)最大化对数似然函数，求解条件随机场模型参数，(5)通过求解整段对话的对话行为序列，得到该段对话中对应的每个语句的对话行为。本发明不仅能从原始特征中学到与分类任务更加相关的抽象特征，而且可对对话行为中的多模态信息进行更加高效的融合，为后续的分类任务奠定良好的基础，同时，可更好地刻画样本类标的序列依赖关系，提出以条件随机场为主体框架，从而对每段对话进行整体优化。

Description

基于深度神经网络与条件随机场的对话行为识别方法

技术领域

本发明以机器学习和统计学习理论为基础,通过利用多模态深度神经网络学习条件随机场中的特征函数,将多模态深度神经网络与条件随机场结合起来，构成了一种高效的适用于解决复杂序列学习问题的模型，最后将该模型用于汉语对话行为识别。

背景技术

对话行为(Dialogue acts,DAs)是Austin在1996年依据言语行为提出的，它在一定程度上反应了说话人的意图，对于确定语句的语用信息具有重要意义。对话行为识别是计算机理解自然语言的关键步骤，在人机对话、交互式信息检索、机器翻译和交互式问答系统等众多应用领域具有重要作用。

在研究使用机器学习算法解决对话行为自动识别任务时，面临着以下几方面的挑战:

1)多模态特征学习,目前对话行为识别研究中主要用到了语言模型,韵律模型,句法信息以及其他(如:时长,能量等)信息,这些信息如何表达与整合是对话行为识别的一个基本问题。

2)类别的多样性以及样本分布的不均衡性，根据社科院语言所与中科院自动化所制定的标注体系，常用的对话行为标签有三类：普通标签集、中断标签集和特殊标签集。其中普通标签集包含13种对话行为，中断标签集有3种，特殊标签集36种。即使只考虑第一类和第二类标签集，样本在这些类别上的分布也十分不均衡。在CASIA‐CASSIL语料库中，63％左右的样本的对话行为标签是陈述，而感叹、话语被打断和话语的省略、丢失这些对话行为所对应的样本数目非常少。

3)上下文语句的对话行为之间存在着统计依赖关系，语句的上下文信息对于决定当前语句的对话行为具有重要作用，如果当前语句的对话行为标签是是非问，那么下一个语句的对话行为标签很可能是陈述。

4)提取的特征与对话行为标记之间复杂的依赖关系，意图识别是一个非常复杂的问题，即使像人脑这样复杂的系统，在识别意图时也是很困难的。对话行为识别虽然是意图识别的简化问题，但是利用机器学习的算法进行自动识别也是一项巨大的挑战。

许多机器学习算法已经被用于对话行为识别任务。n‐gram是其中最简单的方法，2006年Louwerse将该模型用于语句的文本信息与对话行为的相关性建模。贝叶斯分类器(Bayesclassifier)与n‐gram类似，都是最大化语句属于某类DA的条件概率，与n‐gram不同的是贝叶斯分类器适用于任意特征。2003年Levin等人提取语法特征，将贝叶斯分类器用于NESPOLE预料库进行对话行为识别。2004年Grau等人将朴素贝叶斯分类器用于DAMSL‐switchboard预料库，采用bag‐of‐words特征取得了66％的识别率。其他传统的机器学习算法，如决策树(Decision tree)、最大熵分类器(Maximum entropy)、人工神经网络(Artificial Neural Networks,ANNs)和支持向量机(Support vector machine,SVM)也被引进到对话行为识别的研究中。2006年Surendran和Levow的工作证明在对话行为识别任务上，SVM模型的识别率要由于其他传统的机器学习方法。

上述提到的方法都没有考虑上下文语句的对话行为之间存在着统计依赖关系，而这种序列依赖关系对于决定当前语句的对话行为起到了重要作用。因此，我们需要一种相应的序列学习模型来解决对话行为识别问题。n‐gram是一种最简单的序列学习模型，1995年Reithinger将该模型用于DA识别，之后1997年Lee等人对n‐gram的条件概率利用条件概率公式展开，使用该模型来辅助机器翻译。但是如果使用n‐gram模型来刻画语句对话行为之间的序列依赖关系，那么其他特征在该模型中就很难使用。于是一些研究人员又引入了隐马尔科夫m模型(hidden Markov model,MM)，该模型虽然弥补了n‐gram的不足，但是它基于很强的独立性假设，而在实际条件下这一假设通常很难得的满足。

相对于隐马尔科夫模型，条件随机场(Conditional Random Fields,CRFs)没有独立性的严格要求。同时2000年Vapnik指出在有监督学习任务中，判别模型比生成模型具有更强的表达能力。因此，作为判别模型的条件随机场应当比作为生成模型的隐马尔科夫模型更适用于对话行为识别。但是，条件随机场模型本身的特征学习能力很差，更无法有效地处理多模态特征。

近年来兴起的备受机器学习研究者关注的深度学习具有很强的特征学习能力，可以从底层的原始数据中自发地学到一组适用于解决当前识别任务的特征，并且在图像识别、语音识别、信息检索、自然语言处理等众多领域取得了突破性的成果。但是，经典的深度学习模型难以描述对标记之间的序列依赖关系。

如何克服这些经典的机器学习模型的缺陷，真正意义上设计出一个高效的、适于解决复杂序列学习问题的方法是目前亟待解决的技术问题。

发明内容

鉴于进行对话行为自动识别面临的挑战以及上述经典的机器学习算法存在的问题，本发明提出了一种基于深度神经网络与条件随机场的对话行为识别方法，本发明不仅能够从原始特征中学到与分类任务更加相关的抽象特征，而且可以对对话行为中的多模态信息进行更加高效的融合，为后续的分类任务奠定良好的基础，同时，可以更好地刻画样本类标的序列依赖关系，提出以条件随机场为主体框架，克服了其它序列学习方法的不足，对每段对话进行整体优化。

本发明一种基于深度神经网络与条件随机场的对话行为识别方法的技术方案是：该识别方法包括以下步骤：

步骤一、设数据集中包括汉语口语语料，该数据集其中M表示数据集中完整对话的数目，N_m表示M对话数目的第m段对话中包含的语句数目，表示第m段对话的第n句语句的第j个模态的特征，表示第m段对话的第n句语句的对话行为标签，L表示从每个语句提取的多模态特征的模态总数，L＝10；

其中，从每个语句中提取多模态特征所涉及到的因素包括：语句的基频和能量；该语句句末语调的基频和能量；该语句中重音的基频、能量和时长及该重音在该语句中的位置；该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词；最终得出10种，共计116维的多模态特征，具体内容如下：

模态1：语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词；

模态2：语句重音的相对位置，时长，基频的最大值和最小值、均值、最大值和最小值的差值，能量的最大值和最小值、均值、最大值和最小值的差值；

模态3：语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度；

模态4：语句基频采样值平均分成10份，每份取均值进行重新采样；

模态5：语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度；

模态6：语句能量采样值平均分成20份，每份取均值进行重新采样；

模态7：句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度；

模态8：句末语调对应的基频采样值平均分成5份，每份取均值进行重新采样；

模态9：句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度；

模态10：句末语调对应的能量采样值平均分成20份，每份取均值进行重新采样；

步骤二、构造条件随机场模型：

p (Y^{(m)} | X^{(m)}) = \frac{1}{Z (X^{(m)})} \exp {\underset{i, k}{Σ} λ_{k} f_{k} (y_{i - 1}^{(m)}, y_{i}^{(m)}) + \underset{i, k}{Σ} μ_{k} g_{k} (y_{i}^{(m)}, {x_{i}^{(m), j}}_{j = 1}^{L}} - - - (1)

其中，

Z (X^{(m)}) = \underset{X^{(m)}}{Σ} \exp {\underset{i, k}{Σ} λ_{k} f_{k} (y_{i - 1}^{(m)}, y_{i}^{(m)}) + \underset{i, k}{Σ} μ_{k} g_{k} (y_{i}^{(m)}, {x_{i}^{(m), j}}_{j = 1}^{L}} - - - (2)

在公式(1)和公式(2)中，Z(X^(m))是归一化因子，表示转移特征函数，表示状态特征函数；λ和μ分别是特征函数的权重，即条件随机场中的参数，λ和μ从训练集中通过学习算法得到；转移状态函数定义为：

f_{y^{'}, y} (y_{u}^{(m)}, y_{v}^{(m)}) = \{\begin{matrix} 1, & if y_{u}^{(m)} = y^{'}, y_{v}^{(m)} = y \\ 0, & otherwise \end{matrix} - - - (3)

公式(3)中，y'和y分别表示某个对话行为标签，和分别表示第m段对话的第u句和第v句语句的对话行为标签；

步骤三、基于多模态深度神经网络构造条件随机场模型的状态特征函数：

3-1.构建多模态深度神经网络：包括多模态特征学习模块和多模态特征融合模块，其中，所述多模态特征学习模块包含L个深度神经网络，用于对每一种原始的多模态特征进行复杂的非线性变换；所述多模态特征融合模块是含有一个隐层的神经网络，用于对上述变换后得到的多模态特征进行融合；

3-2.对原始的多模态特征数据经过上述多模态深度神经网络的处理后，得到每个语句对于每个对话行为的隶属度d＝(d₁,d₂,…,d_p)，p表示对话行为的种数；

3-3.利用上述得到的对话行为的隶属度，定义条件随机场模型的状态特征函数为：

g_{y, {x^{j}}_{j = 1}^{L}} (y_{v}, {x_{v}^{j}}_{j = 1}^{L}) = d_{t}, t = find ((y_{1}, y_{2}, . . ., y_{p}) = = y) - - - (4)

步骤四、最大化对数似然函数，求解条件随机场模型参数：

\max_{λ, μ} {Σ_{m = 1}^{M} \log P (Y^{(m)} | X^{(m)}; λ, μ)} - - - (5)

步骤五、对话行为类别的推断:

Y^{*} = \underset{Y}{\arg \max} P (Y | X^{(m)}; λ, μ) - - - (6)

通过求解整段对话的对话行为序列Y^*，得到该段对话中对应的每个语句的对话行为。

与现有技术相比，本发明的有益效果是：

在汉语对话行为识别中，基于多模态深度神经网络与条件随机场的模型(MDNN‐CRF)的识别效果相比支持向量机(SVM)、单模态深度神经网络(DNN)、多模态深度神经网络(MDNN)、条件随机场(CRF)、基于深度神经网络和条件随机场的模型(DNN‐CRF)而言，表现出了更好的性能。

附图说明

图1MDNN‐CRF模型结构示意图；

图2是本发明中多模态深度神经网络模型结构示意图；

图3不同训练样本数目得到的模型的误差曲线。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述。

本发明提出了一种基于多模态深度学习与条件随机场的复杂序列学习模型(模型结构如图1所示)，并将该模型应用于解决汉语对话行为识别。利用多模态深度学习模型来辅助条件随机场模型中状态特征函数的设定，既弥补了条件随机场与深度学习的不足，又能够有效地应对对话行为识别任务中所面临的挑战。

如图1所示，本发明一种基于深度神经网络与条件随机场的对话行为识别方法，包括以下步骤:

步骤二、构造条件随机场模型：

p (Y^{(m)} | X^{(m)}) = \frac{1}{Z (X^{(m)})} \exp {\underset{i, k}{Σ} λ_{k} f_{k} (y_{i - 1}^{(m)}, y_{i}^{(m)}) + \underset{i, k}{Σ} μ_{k} g_{k} (y_{i}^{(m)}, {x_{i}^{(m), j}}_{j = 1}^{L}} - - - (1)

其中，

Z (X^{(m)}) = \underset{X^{(m)}}{Σ} \exp {\underset{i, k}{Σ} λ_{k} f_{k} (y_{i - 1}^{(m)}, y_{i}^{(m)}) + \underset{i, k}{Σ} μ_{k} g_{k} (y_{i}^{(m)}, {x_{i}^{(m), j}}_{j = 1}^{L}} - - - (2)

f_{y^{'}, y} (y_{u}^{(m)}, y_{v}^{(m)}) = \{\begin{matrix} 1, & if y_{u}^{(m)} = y^{'}, y_{v}^{(m)} = y \\ 0, & otherwise \end{matrix} - - - (3)

采用随机梯度下降算法求解多模态深度神经网络的参数，模型参数的求解可以分为两个阶段：

(1)对于多模态特征学习模块，采用同等结构的深度神经网络模型进行训练,用学到的网络参数对多模态深度神经网络模型的多模态特征学习模块的网络参数进行赋值；

(2)对于多模态特征模块，随机初始化网络参数，原始样本经过下面的多模态特征学习模块后到达多模态特征模块，对这部分网络参数，同样采用随机梯度下降算法进行学习；

经过两步处理后，多模态深度神经网络模型就确定了；

g_{y, {x^{j}}_{j = 1}^{L}} (y_{v}, {x_{v}^{j}}_{j = 1}^{L}) = d_{t}, t = find ((y_{1}, y_{2}, . . ., y_{p}) = = y) - - - (4)

步骤四、最大化对数似然函数，求解条件随机场模型参数：

\max_{λ, μ} {Σ_{m = 1}^{M} \log P (Y^{(m)} | X^{(m)}; λ, μ)} - - - (5)

步骤五、对话行为类别的推断:

Y^{*} = \underset{Y}{\arg \max} P (Y | X^{(m)}; λ, μ) - - - (6)

对话行为识别误差的评价,一般采用分类准确率来度量,即：

Accuracy = \frac{Σ_{i = 1}^{N} cn (i, i)}{Σ_{i, i = 1}^{N} cn (i, j)} - - - (7)

式(7)中，cn(i,j)表示属于y_i但是被分类器划分到y_j的样本数目，N表示语料库中语句的总数。

对于不平衡的多分类问题，还可以采用加权的F1‐measure作为评价指标，要求解F1‐measure，首先需要计算精确率(Precision)和召回率(Recall)。

P_{i} = \frac{cn (i, i)}{Σ_{j = 1}^{N} cn (j, i)} - - - (8)

R_{i} = \frac{cn (i, i)}{Σ_{j = 1}^{N} cn (j, i)} - - - (9)

多分类问题中每一类的F1‐measure及加权F1‐measure:

F_{i} = \frac{2 P_{i} R_{i}}{P_{i} + R_{i}} - - - (10)

F 1 - measue = Σ_{i = 1}^{N} \frac{cn (i, i)}{Σ_{i, j = 1}^{N} cn (i, j)} - - - (11)

采用分类准确率(Accuracy)和加权的F1‐measure对支持向量机、单模态深度神经网络、多模态深度神经网络、条件随机场、基于深度神经网络和条件随机场的模型和基于多模态深度神经网络与条件随机场的模型这几种对话行为识别模型进行评价。

本发明研究材料：

在实验中，采用CASIA‐CASSIL语料库进行模型评价。CASIA‐CASSIL语料库中收录的是自然情景下电话订餐的汉语对话语料，由社科院语言所和中科院自动化所联合建立。该预料库中包含195段对话，7880个语句。对话行为的标注采用了3个标注集，其中第3个标注集是对第1个标注集的进一步描述。为了简化问题，我们只考虑了前两个标注集，由于某些类别上没有样本，因此，最终得到的是一个14类的分类问题。

本发明中提取了语句的基频和能量，句末语调的基频和能量，重音的F0、能量和位置、时长等信息，语句的时长、位置、说话人性别、语气词等信息，最终得到了10种特征，共计116维，每种特征的具体描述见表1。在实验中，选取了75％的数据训练模型，剩余的数据用来对模型进行评价。

表1 汉语对话行为识别的多模态特征

1.对话行为识别结果

应用SVM、DNN、MDNN、CRF、DNN‐CRF和MDNN‐CRF模型在CASIA‐CASSIL语料库上进行汉语对话行为识别，每个模型的准确率和加权的F1‐measure指标如表2。

表2 6种模型的对话行为识别结果(测试样本1920)

表2中SVM‐l表示线性SVM，SVM‐q表示使用二次多项式核函数的SVM，SVM‐c表示使用三次多项式核函数的SVM，SVM‐g表示使用高斯核函数的SVM。从表中的实验结果，可以看出MDNN‐CRF模型的识别效果明显要优于其它所有模型。

2.不同隐层数目的MDNN‐CRF的识别结果

采用含有不同的隐含层数目的MDNN对多模态的原始对话特征进行处理，得到的实验结果如表3所示。

表3 含有不同的隐层数目的MDNN‐CRF的识别结果(测试样本1920)

从表3中的实验结果，可以发现含有2个隐层的MDNN‐CRF取得了最好的识别结果，随着隐层数目的增加，识别效果逐渐降低。造成这种状况的原因可能有2个：1)当模型结构变得复杂时，在有限的训练样本的条件下，很容易造成过拟合，使得模型的测试误差较大；2)我们提取的特征相对于图像中的像素值已经是比较高级的特征，所以可能不需要经过非常复杂的非线性变化就可以得到比较好的抽象表达。

3.不同训练样本数目得到的MDNN‐CRF的分类准确率

图3显示了采用不同的训练样本数目得到的MDNN-CRF的训练误差和测试误差，从图中可以看出，当增加训练样本时，模型的精度可以进一步提升。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于深度神经网络与条件随机场的对话行为识别方法，其特征在于，包括以下步骤：

步骤二、构造条件随机场模型：

p (Y^{(m)} | X^{(m)}) = \frac{1}{Z (X^{(m)})} \exp {\underset{i, k}{Σ} λ_{k} f_{k} (y_{i - 1}^{(m)}, y_{i}^{(m)}) + \underset{i, k}{Σ} μ_{k} g_{k} (y_{i}^{(m)}, {x_{i}^{(m), j}}_{j = 1}^{L}} - - - (1)

其中，

Z (X^{(m)}) = \underset{X^{(m)}}{Σ} \exp {\underset{i, k}{Σ} λ_{k} f_{k} (y_{i - 1}^{(m)}, y_{i}^{(m)}) + \underset{i, k}{Σ} μ_{k} g_{k} (y_{i}^{(m)}, {x_{i}^{(m), j}}_{j = 1}^{L}} - - - (2)

f_{y^{'}, y} (y_{u}^{(m)}, y_{v}^{(m)}) = \{\begin{matrix} 1, & if y_{u}^{(m)} = y^{'}, y_{v}^{(m)} = y \\ 0, & otherwise \end{matrix} - - - (3)

g_{y, {x^{j}}_{j = 1}^{L}} (y_{v}, {x_{v}^{j}}_{j = 1}^{L}) = d_{t}, t = find ((y_{1}, y_{2}, . . ., y_{p}) = = y) - - - (4)

步骤四、最大化对数似然函数，求解条件随机场模型参数：

\max_{λ, μ} {Σ_{m = 1}^{M} \log P (Y^{(m)} | X^{(m)}; λ, μ)} - - - (5)

步骤五、对话行为类别的推断:

Y^{*} = \underset{Y}{\arg \max} P (Y | X^{(m)}; λ, μ) - - - (6)