CN105260356A - 基于多任务学习的中文交互文本情感与话题识别方法 - Google Patents
基于多任务学习的中文交互文本情感与话题识别方法 Download PDFInfo
- Publication number
- CN105260356A CN105260356A CN201510654583.4A CN201510654583A CN105260356A CN 105260356 A CN105260356 A CN 105260356A CN 201510654583 A CN201510654583 A CN 201510654583A CN 105260356 A CN105260356 A CN 105260356A
- Authority
- CN
- China
- Prior art keywords
- emotion
- task
- topic
- label
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 11
- 238000005295 random walk Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 5
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000008909 emotion recognition Effects 0.000 claims description 12
- 238000013480 data collection Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000013145 classification model Methods 0.000 abstract 2
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000010386 affect regulation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多任务学习的中文交互文本情感与话题识别方法:在中文交互文本的特征提取阶段,本发明结合中文交互文本的交互特性提取交互文本的倾向性特征;在情感与话题识别阶段,本发明采用基于上下文的多任务分类模型构建方法对交互文本的训练样本进行多任务分类模型构建;针对e-Learning系统中新用户或不活跃用户的倾向性特征数据缺失导致分类效果差的问题,本发明采用随机游走与多任务学习相结合的方法来识别新用户或不活跃用户情感与话题的类别。
Description
技术领域
本发明涉及对中文交互文本进行情感与话题识别的方法,具体涉及一种基于多任务学习的中文交互文本情感与话题识别方法。
背景技术
随着互联网技术的飞速发展,E-Learning凭借其“资源共享”、“随时随地”等多种优势迅速被人们接受,但同时也存在自身的缺点,由于学习者之间、师生之间时空分离,缺乏情感交流和反馈,教师无法实时掌握学生的学习动态,很难对学生给出综合全面的学习评价。在e-Learning系统中,如何发现学习者的情感并对学习者的负面情感加以调整、识别学习者感兴趣的话题已经成为当前的研究热点。
目前对文本进行情感与话题识别有多种方法,但是与传统文本相比较,交互文本具有句子长度较短、非语言符号较多等特点为交互文本的情感和话题识别带来了新的挑战,传统的识别方法已不完全适用于交互文本。同时传统的方法是将情感识别与话题识别这两个任务分开进行,比如利用SVM、决策树等单任务学习方法分别构建情感和话题的分类模型,使这两个任务之间相互独立,该方法虽然日趋成熟,但是不能挖掘并利用不同任务之间的内在联系,所以,能够对多个任务同时识别的多任务学习方法成为一种重要解决方案,该方法可以利用任务之间的相关性来提高不同任务的分类效果,从而弥补单任务学习的这点不足,同时解决了训练样本较少、模型泛化能力差等问题。
目前,与项目相关的专利,例如“一种基于情感分析在线检测微博热点事件的方法”(CN201310403005.4)已授权,它通过情感分析对在线微博文本进行情感抽取,进而实现在线实时检测出微博热点事件的目的,但是此专利并未结合e-Learning交互文本的自身特性,较为单一。
发明内容
本发明的目的在于提供一种基于多任务学习的中文交互文本情感与话题识别方法,以克服现有技术的问题,本发明利用多任务学习方法挖掘并利用交互文本中情感与话题的内在联系提高二者的识别效果。
为达到上述目的,本发明采用如下技术方案:
基于多任务学习的中文交互文本情感与话题识别方法,包括以下步骤:
1)中文交互文本的特征提取
将中文交互文本的每条话轮表示为特征项集合,根据人与人之间的交互历史数据提取交互文本的倾向性特征;
2)中文交互文本情感与话题识别
采用多任务学习方法识别中文交互文本的情感与话题,利用基于上下文的多任务分类模型构建方法识别中文交互文本的情感与话题;
3)对新用户的情感和话题识识别效果进行改进
用户的交互文本数据量分布不均匀,老用户或活跃用户交互文本的数据量大,而新用户或不活跃的用户交互文本的数据量很少,针对此问题,采用随机游走与多任务学习相结合的方法,利用历史数据丰富并且分类精度高的老用户或活跃用户的数据来协助预测新用户或不活跃用户情感与话题的类别。
在中文交互文本的特征提取阶段,提取中文交互文本的倾向性特征,将每条交互文本表示为特征项集合,倾向性特征的提取步骤为:首先基于说话者之间的交互文本构建有向图<V,E>,其中图的顶点集V={vi,i=1,2,…,M},M表示说话者的人数,vi表示说话者,边集(vi,vj)∈E表示说话者vi回复说话者vj,另外这里将vi对vj的第k次回复记为然后在说话者vi与vj的交互文本数据中,分别统计属于有情感、无情感、某特定话题和非某特定话题四个类别的话轮数,并计算出各个类别的概率值;最后利用这些概率值计算倾向性特征,计算公式为:
其中,表示文本的倾向性特征值,labela和labelb表示文本的类别标签,在情感识别中,labela和labelb分别表示有情感和无情感,在话题识别中,labela和labelb分别表示某特定话题和非某特定话题,表示在vi对vj的所有回复记录中,类别标签为labela的概率值;
根据交互文本的交互顺序将话轮进行排序,将当前话轮的前一个话轮和后一个话轮所属的情感与话题的类别作为的上下文信息,将对当前话轮进行情感与话题识别作为“一级任务”;结合当前话轮上下文的类别标签对当前文本进行情感和话题的识别,称为“二级任务”;对训练集中的交互文本进行特征提取后形成两个特征向量数据集X1和X2,其中,X1为情感识别的数据集,X2为话题识别的数据集,在X1和X2的特征向量中,包括统计特征、交互特征、词频特征和倾向性特征,分别如下:
a)统计特征F1:12维,包括句子的长度、出现最多的词语个数、单个字个数、词语个数、正面情感词个数、负面情感词个数、标点符号个数、名词频数、副词频数、字符个数、动词个数和形容词个数;
b)交互特征F2:9维,包括性别、情感符号、情感图片、特殊标点符号、拟声词、语气词、叹词、时间词语和非汉语词;
c)词频特征F3:采用基于TF-IDF的聚集文档候选词筛选方法选取前1000维特征信息;
d)倾向性特征F4:即由公式(1)计算得到的
y∈[-1,1]为每条样本情感与话题的类别标签,在情感识别中,-1表示负面情感,1表示正面情感;在话题识别中,-1表示某特定话题,1表示非某特定话题;构建“一级任务”的多任务分类模型过程如公式(2)所示:
其中,X∈{X1,X2},即X是情感识别的特征向量数据集与话题识别的特征向量数据集;L个任务的未知参数w组合起来为W=(w1,w2,...,wL);L个任务的未知偏重组合起来为κ=(κ1,κ2,...,κL);为交互文本所标注的情感与话题的类别标签的似然概率密度函数,对于第l个任务,似然概率密度函数满足均值为方差为的Gaussian分布;p(W|σ,Ω)为未知参数W的先验概率密度函数,满足均值为σ,方差为Ω的Gaussian分布,通过求公式(2)的最大后验概率求解未知参数W,最大后验概率F(W)的计算公式如下:
构建“二级任务”的建模过程如下所示:
其中,Pupcontext和Pdowncontext分别为交互文本与前一个话轮和后一个话轮的的情感与话题的类别标签构建的后验概率;为“二级任务”添加权重β,与“一级任务”加和,得到整体后验概率公式:
FMAP=F+βFcontext(β∈[0,1])(6)
其中,FMAP为整体后验概率,F为“一级任务”的多任务分类模型,Fcontext为“二级任务”的多任务分类模型;
利用高斯密度函数将公式(6)展开,得到公式(7):
其中,Ql是第l个任务对应的数据集中交互文本的话轮总数;是第l个任务对应的数据集中的第q个话轮对应的特征向量值,同时其对应的标签为β为设置的任务权重向量,假设:
Ω≥0
tr(Ω)=1(8)
得到待优化的目标函数为:
其中,λ2=2ε2
将公式(9)转换成了一个凸函数的二次规划问题,公式如下所示:
利用拉格朗日算子将公式(10)转化为无约束条件的规划问题进行最优化求解,得到整个函数取最小值时未知参数W的取值。
用户的交互文本数据量分布不均匀,针对无法提取倾向性特征的新用户或不活跃用户,采用随机游走算法利用与新用户或不活跃用户数据相似的老用户或活跃用户的数据协助预测新用户或不活跃用户情感与话题的类别,步骤为:
Step1:以所有话轮的特征向量集为顶点构建加权无向图:G=(T,Z,H),其中图的顶点集T={tx,x=1,2,…,N},N表示话轮总数,tx表示第x条话轮的特征向量,边集H=[hxy]N×N,其中hxy为连接顶点tx,ty的边zxy的权重,hxy的计算方法如公式(11)所示:
其中,dis(tx,ty)表示顶点tx和顶点ty在图上的最短路径长度;
另外,构建顶点对角矩阵D,如公式12所示:
其中:
Step2:计算顶点间的转移概率矩阵,基于图G=(T,Z,H)中顶点集T上的随机游走的转移概率公式为:
其中,pxy表示从顶点tx一步转移到顶点ty的概率,P=[pxy]N×N,表示转移矩阵,其计算方法如公式(15)所示:
P=D-1H(15)
Step3:针对训练集中交互文本数据量大的老用户或活跃用户的样本及对应的标签集,统一利用高斯过程和贝叶斯理论构建未知参数的后验概率函数,进而对某交互文本及其上下文信息进行情感分类、话题分类,之后将任务权重向量作用于每个概率函数得到最优化目标函数,构建基于上下文的多任务分类模型;
Step4:利用转移概率矩阵预测新用户或不活跃用户情感与话题的类别,利用转移概率矩阵计算出新用户通过简单的随机游走过程能到达的前l个老用户或活跃用户的数据集合U,利用多任务分类模型求集合U中数据的预测值,利用公式(16)求新用户或不活跃用户b的类别预测值
其中,p(b,U)为待预测数据b与集合U中数据的状态转移概率向量,即为P矩阵特定行的某些分量,为集合U的类别标签向量,对于U中已有标签的数据直接用其自带的标签值:-1或1;对于无标签的数据需要利用Step3得到的多任务分类模型计算其预测值,并利用双曲正切函数gi(xj)=tanh(fi(xj))将预测值映射到[-1,1]之间,其中函数fi(xj)是在任务i中对老用户j的预测值,gi(xj)为转换后的预测值。
与现有技术相比,本发明具有以下有益的技术效果:
本发明更加结合e-Learning交互文本的自身特性,构建基于上下文的多任务模型实现情感和话题识别,有利于在e-Learning系统中,教师实时掌握学生的学习动态以及学生对知识的掌握情况,进而对学生给出综合、全面、准确、客观的学习评价。总而言之,本发明的研究有利于识别学习者关心的话题以及对该话题所持有的情感倾向,进而实施有目的的情感调节,对e-Learning系统的自动化评估和用户学习行为分析具有重要的研究价值和实际意义。
进一步地,本发明采用多任务学习方法对情感和话题进行分类,并且提出了交互文本的四类特征提取方法,将该四类特征和多任务分类方法相结合,对情感与话题的分类效果有了很明显的提高。
进一步地,针对新用户无法提取倾向性特征的问题,本发明结合随机游走的思想利用分类精度高的老用户数据协助预测新用户的类别,有效解决了e-Learning系统中新用户或不活跃用户的倾向性特征数据缺失导致分类效果差的问题。
附图说明
图1为本发明的基于多任务学习的中文交互文本情感与话题识别框架;
图2为本发明的倾向性特征提取流程图;
图3为本发明的对新用户或不活跃用户未标注样本的类别预测过程。
具体实施方式
下面结合附图对本发明的实施方式作进一步详细描述:
基于多任务学习的中文交互文本情感与话题识别框架
参照图1所示,针对有监督学习方法,本发明基于多任务学习的中文交互文本情感与话题识别框架,包括以下四部分:
1)根据不同任务的需求对训练样本的类别进行人工标注,需要对用于情感分类的数据集进行情感类别标注,对用于话题分类的数据集进行话题类别标注;
2)根据不同任务的不同目的对每个任务的数据集进行特征提取;
3)利用标注好情感与话题类别的数据集构建多任务学习模型;
4)利用多任务学习模型预测未标注样本的类别,需要对新用户或不活跃用户采用不同方法进行预测。
在中文交互文本的特征提取阶段,本发明提取四类特征:统计特征、交互特征、词频特征、倾向性特征,四类特征的提取方法分别为:
(a).交互文本的统计特征如表1所示:
表1交互文本统计特征
(b).交互文本的交互特征如表2所示:
表2交互文本的交互特征
(c).在提取交互文本词频特征过程中,采用基于TF-IDF的聚集文档候选词筛选方法来筛选候选词。该特征为从语料中筛选出的词语附加一个效用值,目的是给蕴含情感强度大或与某个话题关联程度高的词语一个大的效用值。在情感识别中,表3给出根据交互文本的情感类别将词语进行聚集后的基本信息元素。对词语r,用A,B,C分别表示其在各个类别中的频数。
表3词语在聚集文档中的基本信息元素
针对表3中三个基本元素,利用同类别聚集文档中的频次信息来筛选用于情感识别的候选词。公式(1)计算词语r的正面情感倾向的效用值
U(r,pos)=tf(r,cpos)*idf(r,cpos)(1)
同理可得词语r负面情感倾向的效用值:
U(r,neg)=tf(r,cneg)*idf(r,cneg)(2)
上述公式(1)和公式(2)中tf(r,cpos)=A/sum(cpos),tf(r,cneg)=A/sum(cneg),其中sum(cpos)代表positive聚集文档中词语的个数,同理sum(cneg)代表negative聚集文档中词语的个数。
idf(r,cneg)=log(count/count(r)+0.01),其中count代表聚集文档的个数,即类别个数,对于三类的情感分类count值为3,count(r)表示出现词语r的聚集文档的个数,这里可以为1、2、3。
利用公式(1)和公式(2)分别计算在正面情感和负面情感中词语的评价量,即效用值,并按照从大到小的顺序对词语进行排序,话题的候选词筛选方法与上述方法一致。
(d).提取交互文本的倾向性特征的具体流程参照图2所示。首先对标记好类别的训练数据集进行处理:首先基于说话者之间的交互文本构建有向图<V,E>,其中图的顶点集V={vi,i=1,2,…,M},M表示说话者的人数,vi表示说话者,边集(vi,vj)∈E表示说话者vi回复说话者vj,另外这里将vi对vj的第k次回复记为然后在说话者vi与vj的交互文本数据中,分别统计属于有情感、无情感、某特定话题和非某特定话题四个类别的话轮数,并计算出各个类别的概率值;最后利用这些概率值计算倾向性特征,计算公式为:
其中,表示文本的倾向性特征值,labela和labelb表示文本的类别标签,在情感识别中,labela和labelb分别表示有情感和无情感,在话题识别中,labela和labelb分别表示某特定话题和非某特定话题;表示在vi对vj的所有回复记录中,类别标签为labela的概率值;
对新用户或不活跃用户未标注样本的类别预测过程
本发明随机游走算法的思想应用到交互文本的分类中,目的是提高缺少历史数据的新用户的分类效果。给出随机游走的过程:本发明以所有话轮的特征向量集为顶点构建加权无向图:G=(T,Z,H),其中图的顶点集T={tx,x=1,2,…,N},N表示话轮总数,tx表示第x条话轮的特征向量,边集H=[hxy]N×N,其中hxy为连接顶点tx,ty的边zxy的权重,hxy的计算方法如公式(4)所示:
其中,dis(tx,ty)表示顶点tx和顶点ty在图上的最短路径长度;
另外,构建顶点对角矩阵D,如公式5所示:
其中:
基于图G=(T,Z,H)中顶点集T上的RandomWalk的概率转移公式为:
其中,pxy表示从顶点tx一步转移到顶点ty的概率,P=[pxy]N×N,表示转移矩阵,其计算方法如公式(8)所示:
P=D-1H(8)
则Pt表示t步RandomWalk转移矩阵。
参照图3所示,结合随机游走的方法预测无标签数据类别的形式化描述。集合A表示有标签的数据集,其标签集合为集合B表示待预测的无标签数据集,其中包括Bold:老用户的无标签数据集,Bnew:新用户的无标签数据集,三者满足以下关系:
B=Bold∪Bnew(9)
首先利用训练集A构建多任务分类模型(步骤2),然后预测无标签测试集的类别标签,对测试集中的新用户和老用户采用不同的策略进行类别预测。预测老用户时直接将其特征向量值代入到多任务分类模型中进行类别预测(步骤5、步骤6);预测新用户时需要利用转移概率矩阵计算出该新用户通过简单的随机游走过程最可能到达的前l个老用户或活跃用户的数据集合U。步骤13中的p(b,U)为待预测数据b与集合U中数据的状态转移概率向量,为集合U的类别标签向量,对于U中已有标签的数据直接用其自带的标签值:-1或1,对于无标签的数据需要利用步骤2得到的多任务分类模型计算其预测值。
在上述算法中,对新用户的预测主要依赖于老用户的预测结果,通过本文的多任务分类模型计算得到的预测值取值范围为[-∞,∞],为了缩小对老用户预测值的离散程度,本文利用双曲正切函数将老用户的预测结果值映射到[-1,1]之间,双曲正切函数公式如下:
gl(xj)=tanh(fl(xj))(10)
其中函数fl(xj)是在任务l中对老用户j的预测值,gl(xj)为转换后的预测值。公式(10)相当于对老用户的预测值进行归一化处理。
Claims (7)
1.基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,包括以下步骤:
1)中文交互文本的特征提取
将中文交互文本的每条话轮表示为特征项集合,根据人与人之间的交互历史数据提取交互文本的倾向性特征;
2)中文交互文本情感与话题识别
采用多任务学习方法识别中文交互文本的情感与话题,利用基于上下文的多任务分类模型构建方法识别中文交互文本的情感与话题;
3)对新用户和不活跃用户的情感和话题识别效果进行改进
采用随机游走与多任务学习相结合的方法,利用历史数据丰富并且分类精度高的老用户或活跃用户的数据来协助预测新用户或不活跃用户情感与话题的类别。
2.根据权利要求1所述的基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,步骤1)中倾向性特征的提取步骤为:首先基于说话者之间的交互文本构建有向图<V,E>,其中图的顶点集V={vi,i=1,2,…,M},M表示说话者的人数,vi表示说话者,边集(vi,vj)∈E表示说话者vi回复说话者vj,另外这里将vi对vj的第k次回复记为然后在说话者vi与vj的交互文本数据中,分别统计属于有情感、无情感、某特定话题和非某特定话题四个类别的话轮数,并计算出各个类别的概率值;最后利用这些概率值计算倾向性特征
3.根据权利要求2所述的基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,倾向性特征的计算公式为:
其中,表示文本的倾向性特征值,labela和labelb表示文本的类别标签,在情感识别中,labela和labelb分别表示有情感和无情感,在话题识别中,labela和labelb分别表示某特定话题和非某特定话题,表示在vi对vj的所有回复记录中,类别标签为labela的概率值。
4.根据权利要求2所述的基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,基于上下文的多任务分类模型构建方法具体为:根据交互文本的交互顺序将话轮进行排序,将当前话轮的前一个话轮和后一个话轮所属的情感与话题的类别作为的上下文信息,将对当前话轮进行情感与话题识别作为“一级任务”;结合当前话轮上下文的类别标签对当前文本进行情感和话题的识别,作为“二级任务”;对训练集中的交互文本进行特征提取后形成两个特征向量数据集X1和X2,其中,X1为情感识别的数据集,X2为话题识别的数据集,在X1和X2的特征向量中,包括统计特征、交互特征、词频特征和倾向性特征;
定义y∈[-1,1]为每条样本情感与话题的类别标签,在情感识别中,-1表示负面情感,1表示正面情感;在话题识别中,-1表示某特定话题,1表示非某特定话题;构建“一级任务”的多任务分类模型过程如公式(2)所示:
其中,X∈{X1,X2},即X是情感识别的特征向量数据集与话题识别的特征向量数据集;L个任务的未知参数w组合起来为W=(w1,w2,...,wL);L个任务的未知偏重组合起来为κ=(κ1,κ2,...,κL);为交互文本所标注的情感与话题的类别标签的似然概率密度函数,对于第l个任务,似然概率密度函数满足均值为方差为的Gaussian分布;p(W|σ,Ω)为未知参数W的先验概率密度函数,满足均值为σ,方差为Ω的Gaussian分布,通过求公式(2)的最大后验概率求解未知参数W,最大后验概率F(W)的计算公式如下:
构建“二级任务”的建模过程如下所示:
其中,Pupcontext和Pdowncontext分别为交互文本与前一个话轮和后一个话轮的的情感与话题的类别标签构建的后验概率;为“二级任务”添加权重β,与“一级任务”加和,得到整体后验概率公式:
FMAP=F+βFcontext(β∈[0,1])(6)
其中,FMAP为整体后验概率,F为“一级任务”的多任务分类模型,Fcontext为“二级任务”的多任务分类模型;
利用高斯密度函数将公式(6)展开,得到公式(7):
其中,Ql是第l个任务对应的数据集中交互文本的话轮总数;是第l个任务对应的数据集中的第q个话轮对应的特征向量值,同时其对应的标签为β为设置的任务权重向量,假设:
Ω≥0
tr(Ω)=1(8)
得到待优化的目标函数为:
其中,λ2=2ε2
将公式(9)转换成了一个凸函数的二次规划问题,公式如下所示:
利用拉格朗日算子将公式(10)转化为无约束条件的规划问题进行最优化求解,得到整个函数取最小值时未知参数W的取值。
5.根据权利要求4所述的基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,统计特征、交互特征、词频特征和倾向性特征分别如下:
a)统计特征F1:12维,包括句子的长度、出现最多的词语个数、单个字个数、词语个数、正面情感词个数、负面情感词个数、标点符号个数、名词频数、副词频数、字符个数、动词个数和形容词个数;
b)交互特征F2:9维,包括性别、情感符号、情感图片、特殊标点符号、拟声词、语气词、叹词、时间词语和非汉语词;
c)词频特征F3:采用基于TF-IDF的聚集文档候选词筛选方法选取前1000维特征信息;
d)倾向性特征F4:即
6.根据权利要求4所述的基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,采用随机游走与多任务学习相结合的方法,利用历史数据丰富并且分类精度高的老用户或活跃用户的数据来协助预测新用户或不活跃用户情感与话题的类别,其步骤为:
Step1:以所有话轮的特征向量集为顶点构建加权无向图:G=(T,Z,H),其中图的顶点集T={tx,x=1,2,…,N},N表示话轮总数,tx表示第x条话轮的特征向量,边集H=[hxy]N×N,其中hxy为连接顶点tx,ty的边zxy的权重,hxy的计算方法如公式(11)所示:
其中,dis(tx,ty)表示顶点tx和顶点ty在图上的最短路径长度;
另外,构建顶点对角矩阵D,如公式12所示:
其中:
Step2:计算顶点间的转移概率矩阵,基于图G=(T,Z,H)中顶点集T上的随机游走的转移概率公式为:
其中,pxy表示从顶点tx一步转移到顶点ty的概率,P=[pxy]N×N,表示转移概率矩阵,其计算方法如公式(15)所示:
P=D-1H(15)
Step3:针对训练集中交互文本数据量大的老用户或活跃用户的样本及对应的标签集,统一利用高斯过程和贝叶斯理论构建未知参数的后验概率函数,进而对某交互文本及其上下文信息进行情感分类、话题分类,之后将任务权重向量作用于每个概率函数得到最优化目标函数,构建基于上下文的多任务分类模型;
Step4:利用转移概率矩阵预测新用户或不活跃用户情感与话题的类别,利用转移概率矩阵计算出新用户通过简单的随机游走过程能到达的前l个老用户或活跃用户的数据集合U,利用多任务分类模型求集合U中数据的预测值,利用公式(16)求待预测数据b的类别预测值
其中,p(b,U)为待预测数据b与集合U中数据的状态转移概率向量,即为P矩阵特定行的分量,为集合U的类别标签向量。
7.根据权利要求6所述的基于多任务学习的中文交互文本情感与话题识别方法,其特征在于,对于U中已有标签的数据为其自带的标签值:-1或1;对于无标签的数据则利用Step3得到的多任务分类模型计算其预测值,并利用双曲正切函数gi(xj)=tanh(fi(xj))将预测值映射到[-1,1]之间,其中函数fi(xj)是在任务i中对老用户j的预测值,gi(xj)为转换后的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510654583.4A CN105260356B (zh) | 2015-10-10 | 2015-10-10 | 基于多任务学习的中文交互文本情感与话题识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510654583.4A CN105260356B (zh) | 2015-10-10 | 2015-10-10 | 基于多任务学习的中文交互文本情感与话题识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105260356A true CN105260356A (zh) | 2016-01-20 |
CN105260356B CN105260356B (zh) | 2018-02-06 |
Family
ID=55100052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510654583.4A Expired - Fee Related CN105260356B (zh) | 2015-10-10 | 2015-10-10 | 基于多任务学习的中文交互文本情感与话题识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105260356B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740906A (zh) * | 2016-01-29 | 2016-07-06 | 中国科学院重庆绿色智能技术研究院 | 一种基于深度学习的车辆多属性联合分析方法 |
CN105956031A (zh) * | 2016-04-25 | 2016-09-21 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
CN106599124A (zh) * | 2016-11-30 | 2017-04-26 | 竹间智能科技(上海)有限公司 | 主动引导用户持续对话的系统及方法 |
CN106649762A (zh) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | 基于追问问题与反馈信息的意图识别方法、系统 |
CN107423439A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于lda的中文问题映射方法 |
CN107704482A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 方法、装置以及程序 |
CN107807919A (zh) * | 2017-11-15 | 2018-03-16 | 浙江大学 | 一种利用循环随机游走网络进行微博情感分类预测的方法 |
CN108090040A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 一种文本信息分类方法及系统 |
CN108268443A (zh) * | 2017-12-21 | 2018-07-10 | 北京百度网讯科技有限公司 | 确定话题点转移以及获取回复文本的方法、装置 |
CN108363699A (zh) * | 2018-03-21 | 2018-08-03 | 浙江大学城市学院 | 一种基于百度贴吧的网民学业情绪分析方法 |
CN108446659A (zh) * | 2018-03-28 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于检测人脸图像的方法和装置 |
CN108804518A (zh) * | 2017-04-27 | 2018-11-13 | 丰田自动车株式会社 | 交互式装置、交互式方法及交互式程序 |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN109284486A (zh) * | 2018-08-14 | 2019-01-29 | 重庆邂智科技有限公司 | 文本相似性度量方法、装置、终端及存储介质 |
CN110033481A (zh) * | 2018-01-10 | 2019-07-19 | 北京三星通信技术研究有限公司 | 用于进行图像处理的方法和设备 |
CN110263238A (zh) * | 2019-06-21 | 2019-09-20 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110378744A (zh) * | 2019-07-25 | 2019-10-25 | 中国民航大学 | 面向不完备数据系统的民航常旅客价值分类方法及系统 |
CN110414624A (zh) * | 2019-08-06 | 2019-11-05 | 广东工业大学 | 基于多任务学习的分类模型构建方法及装置 |
CN110851589A (zh) * | 2019-08-28 | 2020-02-28 | 湖北科技学院 | 表情符与文本的情感交互机制表示与识别模型建立方法 |
CN111986702A (zh) * | 2020-07-31 | 2020-11-24 | 中国地质大学(武汉) | 一种基于语音信号处理的说话人心理阻抗现象识别方法 |
CN112199469A (zh) * | 2020-09-30 | 2021-01-08 | 卓尔智联(武汉)研究院有限公司 | 一种情感识别的方法、装置及电子设备 |
CN116821333A (zh) * | 2023-05-30 | 2023-09-29 | 重庆邮电大学 | 一种基于大数据的互联网视频剧本角色情感识别方法 |
CN117974340A (zh) * | 2024-03-29 | 2024-05-03 | 昆明理工大学 | 结合深度学习分类与图聚类的社交媒体事件检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
US20130247078A1 (en) * | 2012-03-19 | 2013-09-19 | Rawllin International Inc. | Emoticons for media |
CN103646097A (zh) * | 2013-12-18 | 2014-03-19 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
-
2015
- 2015-10-10 CN CN201510654583.4A patent/CN105260356B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130247078A1 (en) * | 2012-03-19 | 2013-09-19 | Rawllin International Inc. | Emoticons for media |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN103646097A (zh) * | 2013-12-18 | 2014-03-19 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
Non-Patent Citations (1)
Title |
---|
刘智: "课程评论的情感倾向识别与话题挖掘技术研究", 《中国博士学位论文全文数据库 社会科学II辑》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740906B (zh) * | 2016-01-29 | 2019-04-02 | 中国科学院重庆绿色智能技术研究院 | 一种基于深度学习的车辆多属性联合分析方法 |
CN105740906A (zh) * | 2016-01-29 | 2016-07-06 | 中国科学院重庆绿色智能技术研究院 | 一种基于深度学习的车辆多属性联合分析方法 |
CN105956031A (zh) * | 2016-04-25 | 2016-09-21 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
CN107704482A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 方法、装置以及程序 |
CN108090040A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 一种文本信息分类方法及系统 |
CN106599124A (zh) * | 2016-11-30 | 2017-04-26 | 竹间智能科技(上海)有限公司 | 主动引导用户持续对话的系统及方法 |
CN106649762A (zh) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | 基于追问问题与反馈信息的意图识别方法、系统 |
CN108804518A (zh) * | 2017-04-27 | 2018-11-13 | 丰田自动车株式会社 | 交互式装置、交互式方法及交互式程序 |
CN107423439A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于lda的中文问题映射方法 |
CN107807919A (zh) * | 2017-11-15 | 2018-03-16 | 浙江大学 | 一种利用循环随机游走网络进行微博情感分类预测的方法 |
CN108268443A (zh) * | 2017-12-21 | 2018-07-10 | 北京百度网讯科技有限公司 | 确定话题点转移以及获取回复文本的方法、装置 |
CN110033481A (zh) * | 2018-01-10 | 2019-07-19 | 北京三星通信技术研究有限公司 | 用于进行图像处理的方法和设备 |
CN108363699A (zh) * | 2018-03-21 | 2018-08-03 | 浙江大学城市学院 | 一种基于百度贴吧的网民学业情绪分析方法 |
CN108446659A (zh) * | 2018-03-28 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于检测人脸图像的方法和装置 |
CN109284486B (zh) * | 2018-08-14 | 2023-08-22 | 重庆邂智科技有限公司 | 文本相似性度量方法、装置、终端及存储介质 |
CN109284486A (zh) * | 2018-08-14 | 2019-01-29 | 重庆邂智科技有限公司 | 文本相似性度量方法、装置、终端及存储介质 |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN110263238A (zh) * | 2019-06-21 | 2019-09-20 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110378744A (zh) * | 2019-07-25 | 2019-10-25 | 中国民航大学 | 面向不完备数据系统的民航常旅客价值分类方法及系统 |
CN110414624A (zh) * | 2019-08-06 | 2019-11-05 | 广东工业大学 | 基于多任务学习的分类模型构建方法及装置 |
CN110851589A (zh) * | 2019-08-28 | 2020-02-28 | 湖北科技学院 | 表情符与文本的情感交互机制表示与识别模型建立方法 |
CN110851589B (zh) * | 2019-08-28 | 2023-06-23 | 湖北科技学院 | 表情符与文本的情感交互机制表示与识别模型建立方法 |
CN111986702A (zh) * | 2020-07-31 | 2020-11-24 | 中国地质大学(武汉) | 一种基于语音信号处理的说话人心理阻抗现象识别方法 |
CN111986702B (zh) * | 2020-07-31 | 2022-11-04 | 中国地质大学(武汉) | 一种基于语音信号处理的说话人心理阻抗现象识别方法 |
CN112199469A (zh) * | 2020-09-30 | 2021-01-08 | 卓尔智联(武汉)研究院有限公司 | 一种情感识别的方法、装置及电子设备 |
CN112199469B (zh) * | 2020-09-30 | 2022-10-25 | 卓尔智联(武汉)研究院有限公司 | 一种情感识别的方法、装置及电子设备 |
CN116821333A (zh) * | 2023-05-30 | 2023-09-29 | 重庆邮电大学 | 一种基于大数据的互联网视频剧本角色情感识别方法 |
CN117974340A (zh) * | 2024-03-29 | 2024-05-03 | 昆明理工大学 | 结合深度学习分类与图聚类的社交媒体事件检测方法 |
CN117974340B (zh) * | 2024-03-29 | 2024-06-18 | 昆明理工大学 | 结合深度学习分类与图聚类的社交媒体事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105260356B (zh) | 2018-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260356A (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
Pandey et al. | A decision tree algorithm pertaining to the student performance analysis and prediction | |
CN103903164B (zh) | 基于领域信息的半监督方面自动提取方法及其系统 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Christian et al. | Exploration of classification using NBTree for predicting students' performance | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN102214246B (zh) | 一种互联网上汉语电子文档阅读分级的方法 | |
CN105005918A (zh) | 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法 | |
CN108733838B (zh) | 基于多极情感分析的用户行为预测系统及其方法 | |
CN105183715B (zh) | 一种基于词分布和文档特征的垃圾评论自动分类方法 | |
CN112800229B (zh) | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Jun Inventor after: Bao Hongying Inventor after: Zhang Lingling Inventor after: Yang Kuan Inventor before: Liu Jun Inventor before: Bao Hongying Inventor before: Zhang Lingling |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180206 |