CN104217226A - 基于深度神经网络与条件随机场的对话行为识别方法 - Google Patents

基于深度神经网络与条件随机场的对话行为识别方法 Download PDF

Info

Publication number
CN104217226A
CN104217226A CN201410455219.0A CN201410455219A CN104217226A CN 104217226 A CN104217226 A CN 104217226A CN 201410455219 A CN201410455219 A CN 201410455219A CN 104217226 A CN104217226 A CN 104217226A
Authority
CN
China
Prior art keywords
statement
average
modal
dialogue
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410455219.0A
Other languages
English (en)
Other versions
CN104217226B (zh
Inventor
胡清华
周玉灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tupo Technology Co.,Ltd.
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410455219.0A priority Critical patent/CN104217226B/zh
Publication of CN104217226A publication Critical patent/CN104217226A/zh
Application granted granted Critical
Publication of CN104217226B publication Critical patent/CN104217226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度神经网络与条件随机场的对话行为识别方法,步骤是(1)对数据集中的汉语口语语料进行预处理,提取多模态特征;(2)构造条件随机场模型;(3)基于多模态深度神经网络构造条件随机场模型的状态特征函数:(4)最大化对数似然函数,求解条件随机场模型参数,(5)通过求解整段对话的对话行为序列,得到该段对话中对应的每个语句的对话行为。本发明不仅能从原始特征中学到与分类任务更加相关的抽象特征,而且可对对话行为中的多模态信息进行更加高效的融合,为后续的分类任务奠定良好的基础,同时,可更好地刻画样本类标的序列依赖关系,提出以条件随机场为主体框架,从而对每段对话进行整体优化。

Description

基于深度神经网络与条件随机场的对话行为识别方法
技术领域
本发明以机器学习和统计学习理论为基础,通过利用多模态深度神经网络学习条件随机场中的特征函数,将多模态深度神经网络与条件随机场结合起来,构成了一种高效的适用于解决复杂序列学习问题的模型,最后将该模型用于汉语对话行为识别。
背景技术
对话行为(Dialogue acts,DAs)是Austin在1996年依据言语行为提出的,它在一定程度上反应了说话人的意图,对于确定语句的语用信息具有重要意义。对话行为识别是计算机理解自然语言的关键步骤,在人机对话、交互式信息检索、机器翻译和交互式问答系统等众多应用领域具有重要作用。
在研究使用机器学习算法解决对话行为自动识别任务时,面临着以下几方面的挑战:
1)多模态特征学习,目前对话行为识别研究中主要用到了语言模型,韵律模型,句法信息以及其他(如:时长,能量等)信息,这些信息如何表达与整合是对话行为识别的一个基本问题。
2)类别的多样性以及样本分布的不均衡性,根据社科院语言所与中科院自动化所制定的标注体系,常用的对话行为标签有三类:普通标签集、中断标签集和特殊标签集。其中普通标签集包含13种对话行为,中断标签集有3种,特殊标签集36种。即使只考虑第一类和第二类标签集,样本在这些类别上的分布也十分不均衡。在CASIA‐CASSIL语料库中,63%左右的样本的对话行为标签是陈述,而感叹、话语被打断和话语的省略、丢失这些对话行为所对应的样本数目非常少。
3)上下文语句的对话行为之间存在着统计依赖关系,语句的上下文信息对于决定当前语句的对话行为具有重要作用,如果当前语句的对话行为标签是是非问,那么下一个语句的对话行为标签很可能是陈述。
4)提取的特征与对话行为标记之间复杂的依赖关系,意图识别是一个非常复杂的问题,即使像人脑这样复杂的系统,在识别意图时也是很困难的。对话行为识别虽然是意图识别的简化问题,但是利用机器学习的算法进行自动识别也是一项巨大的挑战。
许多机器学习算法已经被用于对话行为识别任务。n‐gram是其中最简单的方法,2006年Louwerse将该模型用于语句的文本信息与对话行为的相关性建模。贝叶斯分类器(Bayesclassifier)与n‐gram类似,都是最大化语句属于某类DA的条件概率,与n‐gram不同的是贝叶斯分类器适用于任意特征。2003年Levin等人提取语法特征,将贝叶斯分类器用于NESPOLE预料库进行对话行为识别。2004年Grau等人将朴素贝叶斯分类器用于DAMSL‐switchboard预料库,采用bag‐of‐words特征取得了66%的识别率。其他传统的机器学习算法,如决策树(Decision tree)、最大熵分类器(Maximum entropy)、人工神经网络(Artificial Neural Networks,ANNs)和支持向量机(Support vector machine,SVM)也被引进到对话行为识别的研究中。2006年Surendran和Levow的工作证明在对话行为识别任务上,SVM模型的识别率要由于其他传统的机器学习方法。
上述提到的方法都没有考虑上下文语句的对话行为之间存在着统计依赖关系,而这种序列依赖关系对于决定当前语句的对话行为起到了重要作用。因此,我们需要一种相应的序列学习模型来解决对话行为识别问题。n‐gram是一种最简单的序列学习模型,1995年Reithinger将该模型用于DA识别,之后1997年Lee等人对n‐gram的条件概率利用条件概率公式展开,使用该模型来辅助机器翻译。但是如果使用n‐gram模型来刻画语句对话行为之间的序列依赖关系,那么其他特征在该模型中就很难使用。于是一些研究人员又引入了隐马尔科夫m模型(hidden Markov model,MM),该模型虽然弥补了n‐gram的不足,但是它基于很强的独立性假设,而在实际条件下这一假设通常很难得的满足。
相对于隐马尔科夫模型,条件随机场(Conditional Random Fields,CRFs)没有独立性的严格要求。同时2000年Vapnik指出在有监督学习任务中,判别模型比生成模型具有更强的表达能力。因此,作为判别模型的条件随机场应当比作为生成模型的隐马尔科夫模型更适用于对话行为识别。但是,条件随机场模型本身的特征学习能力很差,更无法有效地处理多模态特征。
近年来兴起的备受机器学习研究者关注的深度学习具有很强的特征学习能力,可以从底层的原始数据中自发地学到一组适用于解决当前识别任务的特征,并且在图像识别、语音识别、信息检索、自然语言处理等众多领域取得了突破性的成果。但是,经典的深度学习模型难以描述对标记之间的序列依赖关系。
如何克服这些经典的机器学习模型的缺陷,真正意义上设计出一个高效的、适于解决复杂序列学习问题的方法是目前亟待解决的技术问题。
发明内容
鉴于进行对话行为自动识别面临的挑战以及上述经典的机器学习算法存在的问题,本发明提出了一种基于深度神经网络与条件随机场的对话行为识别方法,本发明不仅能够从原始特征中学到与分类任务更加相关的抽象特征,而且可以对对话行为中的多模态信息进行更加高效的融合,为后续的分类任务奠定良好的基础,同时,可以更好地刻画样本类标的序列依赖关系,提出以条件随机场为主体框架,克服了其它序列学习方法的不足,对每段对话进行整体优化。
本发明一种基于深度神经网络与条件随机场的对话行为识别方法的技术方案是:该识别方法包括以下步骤:
步骤一、设数据集中包括汉语口语语料,该数据集 其中M表示数据集中完整对话的数目,Nm表示M对话数目的第m段对话中包含的语句数目,表示第m段对话的第n句语句的第j个模态的特征,表示第m段对话的第n句语句的对话行为标签,L表示从每个语句提取的多模态特征的模态总数,L=10;
其中,从每个语句中提取多模态特征所涉及到的因素包括:语句的基频和能量;该语句句末语调的基频和能量;该语句中重音的基频、能量和时长及该重音在该语句中的位置;该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词;最终得出10种,共计116维的多模态特征,具体内容如下:
模态1:语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词;
模态2:语句重音的相对位置,时长,基频的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;
模态3:语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态4:语句基频采样值平均分成10份,每份取均值进行重新采样;
模态5:语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态6:语句能量采样值平均分成20份,每份取均值进行重新采样;
模态7:句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态8:句末语调对应的基频采样值平均分成5份,每份取均值进行重新采样;
模态9:句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态10:句末语调对应的能量采样值平均分成20份,每份取均值进行重新采样;
步骤二、构造条件随机场模型:
p ( Y ( m ) | X ( m ) ) = 1 Z ( X ( m ) ) exp { Σ i , k λ k f k ( y i - 1 ( m ) , y i ( m ) ) + Σ i , k μ k g k ( y i ( m ) , { x i ( m ) , j } j = 1 L } - - - ( 1 )
其中, Z ( X ( m ) ) = Σ X ( m ) exp { Σ i , k λ k f k ( y i - 1 ( m ) , y i ( m ) ) + Σ i , k μ k g k ( y i ( m ) , { x i ( m ) , j } j = 1 L } - - - ( 2 )
在公式(1)和公式(2)中,Z(X(m))是归一化因子,表示转移特征函数,表示状态特征函数;λ和μ分别是特征函数的权重,即条件随机场中的参数,λ和μ从训练集中通过学习算法得到;转移状态函数定义为:
f y ′ , y ( y u ( m ) , y v ( m ) ) = 1 , if y u ( m ) = y ′ , y v ( m ) = y 0 , otherwise - - - ( 3 )
公式(3)中,y'和y分别表示某个对话行为标签,分别表示第m段对话的第u句和第v句语句的对话行为标签;
步骤三、基于多模态深度神经网络构造条件随机场模型的状态特征函数:
3-1.构建多模态深度神经网络:包括多模态特征学习模块和多模态特征融合模块,其中,所述多模态特征学习模块包含L个深度神经网络,用于对每一种原始的多模态特征进行复杂的非线性变换;所述多模态特征融合模块是含有一个隐层的神经网络,用于对上述变换后得到的多模态特征进行融合;
3-2.对原始的多模态特征数据经过上述多模态深度神经网络的处理后,得到每个语句对于每个对话行为的隶属度d=(d1,d2,…,dp),p表示对话行为的种数;
3-3.利用上述得到的对话行为的隶属度,定义条件随机场模型的状态特征函数为:
g y , { x j } j = 1 L ( y v , { x v j } j = 1 L ) = d t , t = find ( ( y 1 , y 2 , . . . , y p ) = = y ) - - - ( 4 )
步骤四、最大化对数似然函数,求解条件随机场模型参数:
max λ , μ { Σ m = 1 M log P ( Y ( m ) | X ( m ) ; λ , μ ) } - - - ( 5 )
步骤五、对话行为类别的推断:
Y * = arg max Y P ( Y | X ( m ) ; λ , μ ) - - - ( 6 )
通过求解整段对话的对话行为序列Y*,得到该段对话中对应的每个语句的对话行为。
与现有技术相比,本发明的有益效果是:
在汉语对话行为识别中,基于多模态深度神经网络与条件随机场的模型(MDNN‐CRF)的识别效果相比支持向量机(SVM)、单模态深度神经网络(DNN)、多模态深度神经网络(MDNN)、条件随机场(CRF)、基于深度神经网络和条件随机场的模型(DNN‐CRF)而言,表现出了更好的性能。
附图说明
图1MDNN‐CRF模型结构示意图;
图2是本发明中多模态深度神经网络模型结构示意图;
图3不同训练样本数目得到的模型的误差曲线。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步详细描述。
本发明提出了一种基于多模态深度学习与条件随机场的复杂序列学习模型(模型结构如图1所示),并将该模型应用于解决汉语对话行为识别。利用多模态深度学习模型来辅助条件随机场模型中状态特征函数的设定,既弥补了条件随机场与深度学习的不足,又能够有效地应对对话行为识别任务中所面临的挑战。
如图1所示,本发明一种基于深度神经网络与条件随机场的对话行为识别方法,包括以下步骤:
步骤一、设数据集中包括汉语口语语料,该数据集 其中M表示数据集中完整对话的数目,Nm表示M对话数目的第m段对话中包含的语句数目,表示第m段对话的第n句语句的第j个模态的特征,表示第m段对话的第n句语句的对话行为标签,L表示从每个语句提取的多模态特征的模态总数,L=10;
其中,从每个语句中提取多模态特征所涉及到的因素包括:语句的基频和能量;该语句句末语调的基频和能量;该语句中重音的基频、能量和时长及该重音在该语句中的位置;该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词;最终得出10种,共计116维的多模态特征,具体内容如下:
模态1:语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词;
模态2:语句重音的相对位置,时长,基频的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;
模态3:语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态4:语句基频采样值平均分成10份,每份取均值进行重新采样;
模态5:语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态6:语句能量采样值平均分成20份,每份取均值进行重新采样;
模态7:句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态8:句末语调对应的基频采样值平均分成5份,每份取均值进行重新采样;
模态9:句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态10:句末语调对应的能量采样值平均分成20份,每份取均值进行重新采样;
步骤二、构造条件随机场模型:
p ( Y ( m ) | X ( m ) ) = 1 Z ( X ( m ) ) exp { Σ i , k λ k f k ( y i - 1 ( m ) , y i ( m ) ) + Σ i , k μ k g k ( y i ( m ) , { x i ( m ) , j } j = 1 L } - - - ( 1 )
其中, Z ( X ( m ) ) = Σ X ( m ) exp { Σ i , k λ k f k ( y i - 1 ( m ) , y i ( m ) ) + Σ i , k μ k g k ( y i ( m ) , { x i ( m ) , j } j = 1 L } - - - ( 2 )
在公式(1)和公式(2)中,Z(X(m))是归一化因子,表示转移特征函数,表示状态特征函数;λ和μ分别是特征函数的权重,即条件随机场中的参数,λ和μ从训练集中通过学习算法得到;转移状态函数定义为:
f y ′ , y ( y u ( m ) , y v ( m ) ) = 1 , if y u ( m ) = y ′ , y v ( m ) = y 0 , otherwise - - - ( 3 )
公式(3)中,y'和y分别表示某个对话行为标签,分别表示第m段对话的第u句和第v句语句的对话行为标签;
步骤三、基于多模态深度神经网络构造条件随机场模型的状态特征函数:
3-1.构建多模态深度神经网络:包括多模态特征学习模块和多模态特征融合模块,其中,所述多模态特征学习模块包含L个深度神经网络,用于对每一种原始的多模态特征进行复杂的非线性变换;所述多模态特征融合模块是含有一个隐层的神经网络,用于对上述变换后得到的多模态特征进行融合;
采用随机梯度下降算法求解多模态深度神经网络的参数,模型参数的求解可以分为两个阶段:
(1)对于多模态特征学习模块,采用同等结构的深度神经网络模型进行训练,用学到的网络参数对多模态深度神经网络模型的多模态特征学习模块的网络参数进行赋值;
(2)对于多模态特征模块,随机初始化网络参数,原始样本经过下面的多模态特征学习模块后到达多模态特征模块,对这部分网络参数,同样采用随机梯度下降算法进行学习;
经过两步处理后,多模态深度神经网络模型就确定了;
3-2.对原始的多模态特征数据经过上述多模态深度神经网络的处理后,得到每个语句对于每个对话行为的隶属度d=(d1,d2,…,dp),p表示对话行为的种数;
3-3.利用上述得到的对话行为的隶属度,定义条件随机场模型的状态特征函数为:
g y , { x j } j = 1 L ( y v , { x v j } j = 1 L ) = d t , t = find ( ( y 1 , y 2 , . . . , y p ) = = y ) - - - ( 4 )
步骤四、最大化对数似然函数,求解条件随机场模型参数:
max λ , μ { Σ m = 1 M log P ( Y ( m ) | X ( m ) ; λ , μ ) } - - - ( 5 )
步骤五、对话行为类别的推断:
Y * = arg max Y P ( Y | X ( m ) ; λ , μ ) - - - ( 6 )
通过求解整段对话的对话行为序列Y*,得到该段对话中对应的每个语句的对话行为。
对话行为识别误差的评价,一般采用分类准确率来度量,即:
Accuracy = Σ i = 1 N cn ( i , i ) Σ i , i = 1 N cn ( i , j ) - - - ( 7 )
式(7)中,cn(i,j)表示属于yi但是被分类器划分到yj的样本数目,N表示语料库中语句的总数。
对于不平衡的多分类问题,还可以采用加权的F1‐measure作为评价指标,要求解F1‐measure,首先需要计算精确率(Precision)和召回率(Recall)。
P i = cn ( i , i ) Σ j = 1 N cn ( j , i ) - - - ( 8 )
R i = cn ( i , i ) Σ j = 1 N cn ( j , i ) - - - ( 9 )
多分类问题中每一类的F1‐measure及加权F1‐measure:
F i = 2 P i R i P i + R i - - - ( 10 )
F 1 - measue = Σ i = 1 N cn ( i , i ) Σ i , j = 1 N cn ( i , j ) - - - ( 11 )
采用分类准确率(Accuracy)和加权的F1‐measure对支持向量机、单模态深度神经网络、多模态深度神经网络、条件随机场、基于深度神经网络和条件随机场的模型和基于多模态深度神经网络与条件随机场的模型这几种对话行为识别模型进行评价。
本发明研究材料:
在实验中,采用CASIA‐CASSIL语料库进行模型评价。CASIA‐CASSIL语料库中收录的是自然情景下电话订餐的汉语对话语料,由社科院语言所和中科院自动化所联合建立。该预料库中包含195段对话,7880个语句。对话行为的标注采用了3个标注集,其中第3个标注集是对第1个标注集的进一步描述。为了简化问题,我们只考虑了前两个标注集,由于某些类别上没有样本,因此,最终得到的是一个14类的分类问题。
本发明中提取了语句的基频和能量,句末语调的基频和能量,重音的F0、能量和位置、时长等信息,语句的时长、位置、说话人性别、语气词等信息,最终得到了10种特征,共计116维,每种特征的具体描述见表1。在实验中,选取了75%的数据训练模型,剩余的数据用来对模型进行评价。
表1 汉语对话行为识别的多模态特征
1.对话行为识别结果
应用SVM、DNN、MDNN、CRF、DNN‐CRF和MDNN‐CRF模型在CASIA‐CASSIL语料库上进行汉语对话行为识别,每个模型的准确率和加权的F1‐measure指标如表2。
表2 6种模型的对话行为识别结果(测试样本1920)
表2中SVM‐l表示线性SVM,SVM‐q表示使用二次多项式核函数的SVM,SVM‐c表示使用三次多项式核函数的SVM,SVM‐g表示使用高斯核函数的SVM。从表中的实验结果,可以看出MDNN‐CRF模型的识别效果明显要优于其它所有模型。
2.不同隐层数目的MDNN‐CRF的识别结果
采用含有不同的隐含层数目的MDNN对多模态的原始对话特征进行处理,得到的实验结果如表3所示。
表3 含有不同的隐层数目的MDNN‐CRF的识别结果(测试样本1920)
从表3中的实验结果,可以发现含有2个隐层的MDNN‐CRF取得了最好的识别结果,随着隐层数目的增加,识别效果逐渐降低。造成这种状况的原因可能有2个:1)当模型结构变得复杂时,在有限的训练样本的条件下,很容易造成过拟合,使得模型的测试误差较大;2)我们提取的特征相对于图像中的像素值已经是比较高级的特征,所以可能不需要经过非常复杂的非线性变化就可以得到比较好的抽象表达。
3.不同训练样本数目得到的MDNN‐CRF的分类准确率
图3显示了采用不同的训练样本数目得到的MDNN-CRF的训练误差和测试误差,从图中可以看出,当增加训练样本时,模型的精度可以进一步提升。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (1)

1.一种基于深度神经网络与条件随机场的对话行为识别方法,其特征在于,包括以下步骤:
步骤一、设数据集中包括汉语口语语料,该数据集 其中M表示数据集中完整对话的数目,Nm表示M对话数目的第m段对话中包含的语句数目,表示第m段对话的第n句语句的第j个模态的特征,表示第m段对话的第n句语句的对话行为标签,L表示从每个语句提取的多模态特征的模态总数,L=10;
其中,从每个语句中提取多模态特征所涉及到的因素包括:语句的基频和能量;该语句句末语调的基频和能量;该语句中重音的基频、能量和时长及该重音在该语句中的位置;该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词;最终得出10种,共计116维的多模态特征,具体内容如下:
模态1:语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词;
模态2:语句重音的相对位置,时长,基频的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;
模态3:语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态4:语句基频采样值平均分成10份,每份取均值进行重新采样;
模态5:语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态6:语句能量采样值平均分成20份,每份取均值进行重新采样;
模态7:句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态8:句末语调对应的基频采样值平均分成5份,每份取均值进行重新采样;
模态9:句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;
模态10:句末语调对应的能量采样值平均分成20份,每份取均值进行重新采样;
步骤二、构造条件随机场模型:
p ( Y ( m ) | X ( m ) ) = 1 Z ( X ( m ) ) exp { Σ i , k λ k f k ( y i - 1 ( m ) , y i ( m ) ) + Σ i , k μ k g k ( y i ( m ) , { x i ( m ) , j } j = 1 L } - - - ( 1 )
其中, Z ( X ( m ) ) = Σ X ( m ) exp { Σ i , k λ k f k ( y i - 1 ( m ) , y i ( m ) ) + Σ i , k μ k g k ( y i ( m ) , { x i ( m ) , j } j = 1 L } - - - ( 2 )
在公式(1)和公式(2)中,Z(X(m))是归一化因子,表示转移特征函数,表示状态特征函数;λ和μ分别是特征函数的权重,即条件随机场中的参数,λ和μ从训练集中通过学习算法得到;转移状态函数定义为:
f y ′ , y ( y u ( m ) , y v ( m ) ) = 1 , if y u ( m ) = y ′ , y v ( m ) = y 0 , otherwise - - - ( 3 )
公式(3)中,y'和y分别表示某个对话行为标签,分别表示第m段对话的第u句和第v句语句的对话行为标签;
步骤三、基于多模态深度神经网络构造条件随机场模型的状态特征函数:
3-1.构建多模态深度神经网络:包括多模态特征学习模块和多模态特征融合模块,其中,所述多模态特征学习模块包含L个深度神经网络,用于对每一种原始的多模态特征进行复杂的非线性变换;所述多模态特征融合模块是含有一个隐层的神经网络,用于对上述变换后得到的多模态特征进行融合;
3-2.对原始的多模态特征数据经过上述多模态深度神经网络的处理后,得到每个语句对于每个对话行为的隶属度d=(d1,d2,…,dp),p表示对话行为的种数;
3-3.利用上述得到的对话行为的隶属度,定义条件随机场模型的状态特征函数为:
g y , { x j } j = 1 L ( y v , { x v j } j = 1 L ) = d t , t = find ( ( y 1 , y 2 , . . . , y p ) = = y ) - - - ( 4 )
步骤四、最大化对数似然函数,求解条件随机场模型参数:
max λ , μ { Σ m = 1 M log P ( Y ( m ) | X ( m ) ; λ , μ ) } - - - ( 5 )
步骤五、对话行为类别的推断:
Y * = arg max Y P ( Y | X ( m ) ; λ , μ ) - - - ( 6 )
通过求解整段对话的对话行为序列Y*,得到该段对话中对应的每个语句的对话行为。
CN201410455219.0A 2014-09-09 2014-09-09 基于深度神经网络与条件随机场的对话行为识别方法 Active CN104217226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410455219.0A CN104217226B (zh) 2014-09-09 2014-09-09 基于深度神经网络与条件随机场的对话行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410455219.0A CN104217226B (zh) 2014-09-09 2014-09-09 基于深度神经网络与条件随机场的对话行为识别方法

Publications (2)

Publication Number Publication Date
CN104217226A true CN104217226A (zh) 2014-12-17
CN104217226B CN104217226B (zh) 2017-07-11

Family

ID=52098688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410455219.0A Active CN104217226B (zh) 2014-09-09 2014-09-09 基于深度神经网络与条件随机场的对话行为识别方法

Country Status (1)

Country Link
CN (1) CN104217226B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN106875940A (zh) * 2017-03-06 2017-06-20 吉林省盛创科技有限公司 一种基于神经网络的机器自学习构建知识图谱训练方法
CN107341471A (zh) * 2017-07-04 2017-11-10 南京邮电大学 一种基于双层条件随机场的人体行为识别方法
CN107545897A (zh) * 2016-06-23 2018-01-05 松下知识产权经营株式会社 对话行为推定方法、对话行为推定装置以及程序
WO2018058994A1 (zh) * 2016-09-30 2018-04-05 华为技术有限公司 基于深度学习的对话方法、装置及设备
CN108052911A (zh) * 2017-12-20 2018-05-18 上海海洋大学 基于深度学习的多模态遥感影像高层特征融合分类方法
CN109086282A (zh) * 2017-06-14 2018-12-25 杭州方得智能科技有限公司 一种具备多任务驱动能力的多轮对话的方法和系统
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN111368533A (zh) * 2018-12-10 2020-07-03 北京沃东天骏信息技术有限公司 一种基于神经网络识别对话信息的方法及系统
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111640418A (zh) * 2020-05-29 2020-09-08 数据堂(北京)智能科技有限公司 一种韵律短语识别方法、装置及电子设备
CN111783441A (zh) * 2020-08-08 2020-10-16 中国人民解放军国防科技大学 一种基于支持向量机的对话语句正确性评价方法
CN111783441B (zh) * 2020-08-08 2024-05-24 中国人民解放军国防科技大学 一种基于支持向量机的对话语句正确性评价方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494711A (zh) * 2001-02-05 2004-05-05 �Ҵ���˾ 使用多模式输入进行多模式焦点检测,参考岐义解析和语气分类的系统和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494711A (zh) * 2001-02-05 2004-05-05 �Ҵ���˾ 使用多模式输入进行多模式焦点检测,参考岐义解析和语气分类的系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALFRED DIELMANN 等: "Recognition of Dialogue Acts in Multiparty Meetings Using a Switching DBN", 《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCEEDING》 *
PENG LIU 等: "DIALOG ACT CLASSIFICATION IN CHINESE SPOKEN LANGUAGE", 《2013 INTERNATIONAL CONFERENCE ON ICMLC》 *
王海峰 等: "基于神经网络的汉语口语言语行为分析", 《计算机学报》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016145850A1 (zh) * 2015-03-19 2016-09-22 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN106096729B (zh) * 2016-06-06 2018-11-20 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN107545897A (zh) * 2016-06-23 2018-01-05 松下知识产权经营株式会社 对话行为推定方法、对话行为推定装置以及程序
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
US11449678B2 (en) 2016-09-30 2022-09-20 Huawei Technologies Co., Ltd. Deep learning based dialog method, apparatus, and device
WO2018058994A1 (zh) * 2016-09-30 2018-04-05 华为技术有限公司 基于深度学习的对话方法、装置及设备
CN106875940B (zh) * 2017-03-06 2020-08-14 吉林省盛创科技有限公司 一种基于神经网络的机器自学习构建知识图谱训练方法
CN106875940A (zh) * 2017-03-06 2017-06-20 吉林省盛创科技有限公司 一种基于神经网络的机器自学习构建知识图谱训练方法
CN109086282A (zh) * 2017-06-14 2018-12-25 杭州方得智能科技有限公司 一种具备多任务驱动能力的多轮对话的方法和系统
CN107341471A (zh) * 2017-07-04 2017-11-10 南京邮电大学 一种基于双层条件随机场的人体行为识别方法
CN107341471B (zh) * 2017-07-04 2019-10-01 南京邮电大学 一种基于双层条件随机场的人体行为识别方法
CN108052911A (zh) * 2017-12-20 2018-05-18 上海海洋大学 基于深度学习的多模态遥感影像高层特征融合分类方法
CN108052911B (zh) * 2017-12-20 2021-12-07 上海海洋大学 基于深度学习的多模态遥感影像高层特征融合分类方法
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN109165284B (zh) * 2018-08-22 2020-06-16 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN111368533A (zh) * 2018-12-10 2020-07-03 北京沃东天骏信息技术有限公司 一种基于神经网络识别对话信息的方法及系统
CN111368533B (zh) * 2018-12-10 2023-11-07 北京沃东天骏信息技术有限公司 一种基于神经网络识别对话信息的方法及系统
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111640418A (zh) * 2020-05-29 2020-09-08 数据堂(北京)智能科技有限公司 一种韵律短语识别方法、装置及电子设备
CN111640418B (zh) * 2020-05-29 2024-04-16 数据堂(北京)智能科技有限公司 一种韵律短语识别方法、装置及电子设备
CN111783441A (zh) * 2020-08-08 2020-10-16 中国人民解放军国防科技大学 一种基于支持向量机的对话语句正确性评价方法
CN111783441B (zh) * 2020-08-08 2024-05-24 中国人民解放军国防科技大学 一种基于支持向量机的对话语句正确性评价方法

Also Published As

Publication number Publication date
CN104217226B (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
CN104217226A (zh) 基于深度神经网络与条件随机场的对话行为识别方法
Liu et al. Speech emotion recognition based on feature selection and extreme learning machine decision tree
Zia et al. Long short-term memory recurrent neural network architectures for Urdu acoustic modeling
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
Jupalle et al. Automation of human behaviors and its prediction using machine learning
US20210124878A1 (en) On-Device Projection Neural Networks for Natural Language Understanding
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
Deng et al. Use of kernel deep convex networks and end-to-end learning for spoken language understanding
Pane et al. A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes
CN110232114A (zh) 语句意图识别方法、装置及计算机可读存储介质
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111126040B (zh) 一种基于深度边界组合的生物医学命名实体识别方法
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN104200814A (zh) 基于语义细胞的语音情感识别方法
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113901191A (zh) 问答模型的训练方法及装置
CN110472244B (zh) 一种基于Tree-LSTM和情感信息的短文本情感分类方法
CN108829823A (zh) 一种文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220330

Address after: 210000 room 1805, building C, Xingzhi science and Technology Park, Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: Nanjing Tupo Technology Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right