CN101714135B - 一种跨领域文本情感倾向性分析方法 - Google Patents

一种跨领域文本情感倾向性分析方法 Download PDF

Info

Publication number
CN101714135B
CN101714135B CN 200910242427 CN200910242427A CN101714135B CN 101714135 B CN101714135 B CN 101714135B CN 200910242427 CN200910242427 CN 200910242427 CN 200910242427 A CN200910242427 A CN 200910242427A CN 101714135 B CN101714135 B CN 101714135B
Authority
CN
China
Prior art keywords
matrix
text
word
test
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200910242427
Other languages
English (en)
Other versions
CN101714135A (zh
Inventor
吴琼
谭松波
段洣毅
程学旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN 200910242427 priority Critical patent/CN101714135B/zh
Publication of CN101714135A publication Critical patent/CN101714135A/zh
Application granted granted Critical
Publication of CN101714135B publication Critical patent/CN101714135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种跨领域文本情感倾向性分析方法,包括下列步骤:1)确定源领域和目标领域中文本与词的初始情感分;2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。该方法能够大幅提高对新领域的文本进行分类的精度。

Description

一种跨领域文本情感倾向性分析方法
技术领域
本发明涉及模式识别领域,具体涉及一种文本分析方法。
背景技术
近年来,随着互联网快速发展,论坛、博客等网络交流平台不断涌现,人们越来越习惯于在网上发表主观性的言论,这些言论用于表达自己对于日常事件、产品、政策等的观点和看法,这使得网上存在大量带有情感倾向性的文本。那么如何对这些有主观情感的文本进行分类,判断其是正面还是负面,是持支持态度还是反对态度,这就引出了文本分类领域一个重要的研究方向----情感倾向性分析问题。该问题有很多实际应用,成为引起越来越广泛关注的研究问题。
随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的新领域里进行情感倾向性分析,而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重大意义。
近几年来,研究者们已经在跨领域倾向性分析问题上取得了一些进展。然而,现有的方法和系统往往只根据已标注文本对新领域文本进行倾向性分析,而只根据文本进行倾向性分析是片面的,不能利用词的知识提高倾向性分析的精度,这往往导致精度不高。
因此,需要一个统一的模型框架有机地融合情感词的知识,以提高倾向性分析的精度。
发明内容
本发明要解决的技术问题是提供一种精度高的跨领域文本情感倾向性分析方法。
根据本发明的一个方面,提供了一种跨领域文本情感倾向性分析方法,包括下列步骤:
1)确定源领域和目标领域中文本与词的初始情感分;
2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;
3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。
在上述方法中,所述步骤2)还包括根据测试文本集和所有文本集的关系建立测试文本集DU和所有文本集之间的相似矩阵U,并计算所述相似矩阵U的归一化矩阵和邻域矩阵;
所述步骤3)中所述迭代计算测试文本和测试词的情感分还利用所述相似矩阵U的邻域矩阵。
在上述方法中,所述步骤2)中建立所述相似矩阵M和/或N,并计算其归一化矩阵和邻域矩阵的步骤进一步包括:
以测试文本、测试词、训练文本和训练词为结点,测试词和训练词在测试文本和训练文本中的重要性为边的权重建立文本-词情感图,根据所述文本-词情感图建立相似矩阵M和/或N;
将所述相似矩阵M和/或N归一化;
将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵
Figure G2009102424271D00021
和/或
Figure G2009102424271D00022
由所述矩阵
Figure G2009102424271D00023
的元素
Figure G2009102424271D00024
在所述相似矩阵M中的列号构成邻域矩阵Mn中的元素Mnij,由所述矩阵
Figure G2009102424271D00025
的元素
Figure G2009102424271D00026
在所述相似矩阵N中的列号构成邻域矩阵Nn中的元素Nnij
在上述方法中,所述步骤2)中建立所述相似矩阵V,并计算其归一化矩阵和邻域矩阵的步骤进一步包括:
以测试词和训练词为结点,词间语义相似性为边的权重建立词-词情感图,根据所述词-词情感图建立相似矩阵V;
将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵
由所述矩阵
Figure G2009102424271D00028
的元素在所述相似矩阵V中的列号构成邻域矩阵Vn中的元素Vnij
在上述方法中,所述词间语义相似性为基于互信息法或隐含语义分析法计算。
在上述方法中,所述步骤2)中建立所述相似矩阵U,并计算其归一化矩阵和邻域矩阵的步骤进一步包括:
以测试文本和训练文本为结点,文本间内容相似度为边的权重建立文本-文本情感图,根据所述文本-文本情感图建立相似矩阵U;
将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵
Figure G2009102424271D00031
由所述矩阵
Figure G2009102424271D00032
的元素
Figure G2009102424271D00033
在所述相似矩阵U中的列号构成邻域矩阵Un中的元素Unij
在上述方法中,所述文本间内容相似度为余弦相似度、或基于明氏距离、马氏距离、兰氏距离计算的相似度。
本发明提供的文本情感倾向性分析方法能够大幅提高对新领域的文本进行分类的精度。
附图说明
图1是根据本发明的优选实施例的文本情感倾向性分析方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的文本情感倾向性分析方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
事实上,文本的倾向性可以由相关文本以及相关情感词共同确定;反之,情感词的倾向性也同样可以由相关文本以及相关情感词共同确定。以上结论是基于以下两点原因:
1)、与其它持“支持”(“反对”)观点的文本紧密相关的文本也将持“支持”(“反对”)观点;同样,与其它持“支持”(“反对”)观点的词紧密相关的情感词也将持“支持”(“反对”)观点。
2)、包含许多持“支持”(“反对”)观点的词的文本也将持“支持”(“反对”)观点;同样,出现在许多持“支持”(“反对”)观点的文本中的情感词也将持“支持”(“反对”)观点。
基于上述结论,本发明利用源领域的标注文本和标注词对目标领域未标注文本按其倾向性进行分类。
具体地,假设存在两个文本集:测试文本集DU={d1,...,di,...,dnd},其中di表示第i个测试文本的向量,所有测试文本都没有标签;训练文本集DL={dnd+1,...,dj,...,dnd+md},其中dj表示第j个训练文本的向量,每一个训练文本dj∈DL(其中j=nd+1,...,nd+md)都有一个来自类别集C={支持,反对}中的标签。假设源领域和目标领域为相关但不相同的领域。同时,假设存在两个词集:测试词集WU={w1,...,wnw}是DU中文本内的词的集合,所有词都没有标签;训练词集WL={wnw+1,...,wnw+mw}是DL中文本内词的集合,每一个词wj∈WL(其中j=nw+1,...,nw+mw)都有一个来自C中的标签。下面将详细描述:根据本发明的一个优选实施例,利用另一个领域的训练数据集DL和WL来对测试文本集DU的每一个文本di∈DU(其中i=1,...,nd)分配一个C中的标签的详细过程。
对于源领域的标注数据,给每个文本和词分配一个初始得分来表示它们的情感倾向性程度,其中“1”表示“支持”,“-1”表示“反对”。此后,将表示数据的情感倾向性程度的得分称为情感分。对于目标领域数据,本领域的普通技术人员可以理解,可以将初始情感分设为0;也可以基于文本分类算法中的任意一种分类器,诸如原型“Prototype”倾向性分析方法、朴素贝叶斯“
Figure G2009102424271D00041
Bayes”方法、支持向量机“SVM”分类器、k-最近邻方法、决策树方法等,利用源领域的标注数据训练,对目标领域数据分类使其具有一个初始情感分。
在文本与词之间存在以下四种关系:
DD-关系:文本间关系,可以采用文本间内容相似性计算。
WW-关系:词间关系,可以采用基于知识的方法或基于语料的方法计算。
DW-关系:文本与词间关系,可以采用词在文本中的相对重要性来计算。
WD-关系:词与文本间关系,可以采用文本对词的相对重要性来计算。
根据本发明的一个具体实施例,将以上各种关系完全融合到一个统一的框架之中。整个过程由两部分构成:情感图生成部分和相互增强部分。在情感图生成部分中,充分利用源领域的标注数据和目标领域的未标注数据,生成三个情感图来反映上述四种关系。在相互增强部分,可以采用随机游走模型来计算目标领域文本和词的情感分,当算法收敛时,所有的测试文本得到其最终情感分,并据此判别测试文本的倾向性。
首先,生成三个情感图来反映上述四种关系。
其中所用到的各符号如表1所示。第一列为关系的名称;第二列为对应于相应关系的相似性矩阵的表示符号;考虑到收敛性,需将相似性矩阵归一化,第三列为矩阵归一化后的矩阵表示符号;为了计算情感分,需要求出文本与词的邻域,第四列为邻域矩阵的表示符号。
表1符号描述
Figure G2009102424271D00051
采用以下方式建立一个加权二部图模型作为文本-词情感图来反映文本集DU和DL与词集WU和WL间的关系,其中该图中的结点可以分成两个不相交的集,使得同一集内的结点不相邻,且该图中的边具有权重。图中每个结点表示DU和DL中一个文本或WL和WU中一个词;如果词wj出现在文本di中,生成一条从wj到di的边。边的权重wei(di,wj)由词wj在文本di中的相对重要性来计算:
wei ( d i , w j ) = tf w j × idf w j Σ w ∈ d i tf w × idf w - - - ( 1 )
其中w表示di中一个非重复词,tfw和idfw分别是文本中词w的词频及逆词频,
Figure G2009102424271D00053
Figure G2009102424271D00054
与之类似。
根据上述文本-词情感图,以wei(di,wj)为元素的邻接矩阵M=[Mij]ndx(nw+mw)表示文本集DU与词集WU和WL间的相似矩阵,其前nw列表示DU和WU间相似矩阵,后mw列表示DU和WL间相似矩阵。该邻接矩阵M表示了文本集DU与词集WU或WL间的关系。
考虑到收敛性,将邻接矩阵M归一化为矩阵
Figure G2009102424271D00055
使得
Figure G2009102424271D00056
中每一行元素的和为1:
Figure G2009102424271D00061
为了找出一个文本在WU和WL中的邻域(即最相似的词或者文本),分别对DU和WU间相似矩阵以及DU和WL间相似矩阵进行降序排序,得到这也就是说,对(j=1,...,nw)的每一行进行降序排序,然后对(j=nw+1,...,nw+mw)的每一行进行降序排序。因此,对于di∈DU(i=1,...,nd),
Figure G2009102424271D00065
(j=1,...,K1)的相应元素在矩阵中所在位置的列号表示文本di在WU中的邻居,类似地,
Figure G2009102424271D00067
(j=K1+1,...,2K1)的相应元素在矩阵
Figure G2009102424271D00068
中所在位置的列号表示文本di在WL中的邻居,邻居个数K1的取值范围为[0,min(训练词个数,测试词个数)]。使用邻域矩阵 Mn = [ Mn ij ] nd × 2 K 1 来表示DU在WU和WL中的邻居,也就是说Mnij为元素在矩阵
Figure G2009102424271D000611
中的列号。
类似地,根据上述文本-词情感图,使用邻接矩阵N=[Nij]nwx(nd+md)表示词集WU与文本集DU和DL间的相似矩阵,其前nd列表示WU和DU间相似矩阵,后md列表示WU和DL间相似矩阵。该矩阵表示词集WU与文本集DU或DL间的关系。每个元素Nij即为wei(dj,wi)。将邻接矩阵N归一化为矩阵
Figure G2009102424271D000612
使得
Figure G2009102424271D000613
中每一行的和为1。然后分别对
Figure G2009102424271D000614
(j=1,...,nd)的每一行及
Figure G2009102424271D000615
(j=nd+1,...,nd+md)的每一行进行降序排序得到矩阵
Figure G2009102424271D000616
最终,使用矩阵 Nn = [ Nn ij ] nw × 2 K 2 来表示WU在DU和DL中的邻居,K2的取值范围为[0,min(训练文本个数,测试文本个数)]。
建立一个无向图模型作为文本-文本情感图,结点表示DL和DU中的文本,边表示文本间的内容相似度。如果两个文本间内容相似度为0,则图中两点间无边,如果不为0,则图中两点间有边,且边的权重即为此内容相似度。
本领域普通技术人员可以理解,文本的内容相似度有多种计算方法,例如利用余弦相似度或者基于诸如明氏“Minkowski”距离、马氏“Mahalanois”距离、兰氏“Lance”距离的某种距离函数计算相似度。在该实施例中,用余弦相似度来计算。使用邻接矩阵U来表示该相似矩阵,其前nd列表示DU间的相似矩阵,后md列表示DU和DL间的相似矩阵。
为保证算法收敛,将邻接矩阵U归一化为矩阵
Figure G2009102424271D000618
使得
Figure G2009102424271D000619
中每一行的和为1。然后分别对
Figure G2009102424271D000620
(j=1,...,nd)的每一行以及
Figure G2009102424271D000621
(j=nd+1,...,nd+md)的每一行进行降序排序得到
Figure G2009102424271D00071
最后,使用矩阵 Un = [ Un ij ] nd × 2 K 3 来表示DU在DU和DL中的邻居,K3的取值范围为[0,min(训练文本个数,测试文本个数)]。
类似于文本-文本情感图,建立一个无向图模型作为词-词情感图来反映词集WL与WU间的关系,每个结点表示一个词,边的权重表示词间语义相似性。
可以使用基于语料的方法计算词与词的语义相似性,即利用语料中的信息计算词间的相似性,本领域普通技术人员可以理解,基于语料的方法又分为很多方法,如互信息法、隐含语义分析法等。根据该实施例,采用滑动窗口法计算词的语义相似性。使用邻接矩阵V来表示相似矩阵,其前nw列表示WU和WU间的相似矩阵,后mw列表示WU和WL间的相似矩阵。同样,将邻接矩阵V归一化为矩阵
Figure G2009102424271D00073
使得
Figure G2009102424271D00074
中每一行的和为1。然后分别将
Figure G2009102424271D00075
(j=1,...,nw)中的每一行以及
Figure G2009102424271D00076
(j=nw+1,...,nw+mw)中的每一行进行降序排序得到
Figure G2009102424271D00077
使用矩阵 Vn = [ Vn ij ] nw × 2 K 4 来表示WU在WU和WL中的邻居,K4的取值范围为[0,min(训练词个数,测试词个数)]。
本领域普通技术人员可以理解,根据本发明的优选实施例,以上全部四种关系可以全部采用。当然,即使只采用以上四种关系后三种中的1种或多种,也已经利用了词的知识。例如,K1取0时表示没用到词对文本的促进关系;K2取0时表示没用到文本对词的促进关系;K3取0时表示没用到文本间关系;K4取0时表示没有用到词间关系。K1、K2、K3、K4不能同时取0。
将根据上述三个情感图表示的四种关系融合在一起来迭代计算情感分,由此得到以下计算公式:
ds i = α × Σ g ∈ Un i · ( U ^ ig × ds g ) + β × Σ l ∈ Mn i · ( M ^ il × ws l ) - - - ( 3 )
ws j = α × Σ g ∈ Nn j · ( N ^ jg × ds g ) + β × Σ l ∈ Vn j · ( V ^ jl × ws l ) - - - ( 4 )
其中,i·表示矩阵的第i行,j·表示矩阵的第j行;Ds={ds1,...,dsnd,dsnd+1,...,dsnd+md}中的每个元素分别表示DU和DL中的文本的情感分;Ws={ws1,...,wsnw,wsnw+1,...,wsnw+mw}中的每个元素分别表示WU和WL中的词的情感分;α和β分别表示文本集和词集对最终情感分的贡献大小,其取值范围均为[0,1],且α+β=1,α取0时表示没有用到文本间关系以及文本对词的关系;β取0时表示没有用到词对文本的关系以及词间关系。g∈Un表示g是矩阵Un中第i行的一个元素,
Figure G2009102424271D00081
表示矩阵
Figure G2009102424271D00082
中第i行第g列的元素,其他类似符号类推。
为保证算法收敛,算法每迭代一次都需要分别将Ds和Ws根据公式(5)和(6)进行归一化,使得正的情感分之和为1,负的情感分之和为-1。
Figure G2009102424271D00083
Figure G2009102424271D00084
其中Dneg U和Dpos U分别表示DU中倾向性为“反对”的文本集合及“支持”的文本集合;Wneg U和Wpos U分别表示WU中倾向性为“反对”的词集合及“支持”的词集合。
根据本发明的优选实施例,完整算法如下所述:
1、初始化di∈DL(i=nd+1,...,nd+md)的情感分dsi(当di标注为“支持”时情感分初始化为“1”,“反对”时情感分初始化为“-1”),初始化wi∈WL(i=nw+1,...,nw+mw)的情感分wsi(当wi标注为“支持”时情感分初始化为“1”,“反对”时情感分初始化为“-1”)。然后分别将dsi(i=nd+1,...,nd+md)和wsi(i=nw+1,...,nw+mw)归一化,使得DL中的文本的正的情感分之和为1,DL中的文本的负的情感分之和为-1;类似地,归一化wsi。同时将DU和WU中的文本或词的情感分初始化为0。
2、迭代进行下两步直到收敛:
2.1根据下列公式计算dsi(i=1,...,nd)并归一化:
ds i ( k ) = α × Σ g ∈ Un i · ( U ^ ig × ds g ( k - 1 ) ) + β × Σ l ∈ Mn i · ( M ^ il × ws i ( k - 1 ) ) ,
Figure G2009102424271D00086
2.2根据下列公式计算wsj(j=1,...,nw)并归一化:
ws j ( k ) = α × Σ g ∈ Nn j · ( N ^ jg × ds g ( k - 1 ) ) + β × Σ l ∈ Vn j · ( V ^ jl × ws i ( k - 1 ) ) ,
Figure G2009102424271D00092
其中dsi (k)和wsj (k)分别表示第k次迭代时的情感分dsi和wsj
3、对于每一个测试文本di∈DU(i=1,...nd),如果连续两次迭代所计算得到的情感分dsi∈Ds(i=1,...,nd)的变化量低于一个给定的阀值,则迭代结束,根据此时的情感分判别每个测试文本的情感倾向性。根据本发明的一个具体实施例,此阀值为0.00001。如果dsi∈[-1,0],则将di标注为“反对”;如果dsi∈[0,1],则将di标注为“支持”。
本发明针对如表2所示的三个不同领域(电子、财经、酒店)的文本集进行实验模拟。评价指标采用精度,对比方法采用Prototype倾向性分析方法。
表2:数据集构成
  数据集   反对评论数   支持评论数   评论平均长度   词典长度
  电子   554   1,054   121   6,200
  财经   683   364   460   13,012
  酒店   2,000   2,000   181   11,336
其中“词典长度”表示数据集中不同词的数量。
实验模拟结果如表3所示,其中电子->财经表示在电子领域上进行训练,在财经领域上进行测试,0.6652表示Prototype方法测试结果的精度,也就是采用Prototype方法的正确率,其它类推。实验结果表明本发明的文本情感倾向性分析方法具有较高移植能力。在对新领域测试集进行测试时,本发明的平均精度达到了82.05%,大约比Prototype方法平均高14.2个百分点。
表3实验结果
Figure G2009102424271D00093
Figure G2009102424271D00101
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (7)

1.一种跨领域文本情感倾向性分析方法,包括下列步骤:
1)确定源领域和目标领域中文本与词的初始情感分;
2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;其中,DU={d1,…,di,…,dnd},其中di表示第i个测试文本的向量,DL={dnd+1,…,dj,…,dnd+md},其中dj表示第j个训练文本的向量,WU={w1,…,wnw}是DU中文本内的词的集合,WL={wnw+1,…,wnw+mw}是DL中文本内的词的集合,相似矩阵M中前nw列表示DU和WU间相似矩阵,后mw列表示DU和WL间相似矩阵;相似矩阵N中前nd列表示WU和DU间相似矩阵,后md列表示WU和DL间相似矩阵;相似矩阵V中前nw列表示WU和WU间的相似矩阵,后mw列表示WU和WL间的相似矩阵;
3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。
2.根据权利要求1所述的方法,其特征在于,所述步骤2)还包括根据测试文本集和所有文本集的关系建立测试文本集DU和所有文本集之间的相似矩阵U,并计算所述相似矩阵U的归一化矩阵和邻域矩阵;相似矩阵U中前nd列表示DU间的相似矩阵,后md列表示DU和DL间的相似矩阵;
所述步骤3)中所述迭代计算测试文本和测试词的情感分还利用所述相似矩阵U的邻域矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤2)中建立所述相似矩阵M和/或N,并计算其归一化矩阵和邻域矩阵的步骤进一步包括:
以测试文本、测试词、训练文本和训练词为结点,测试词和训练词在测试文本和训练文本中的重要性为边的权重建立文本-词情感图,根据所述文本-词情感图建立相似矩阵M和/或N;
将所述相似矩阵M和/或N归一化;
将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵
Figure FDA00003017518800021
和/或
Figure FDA00003017518800022
由所述矩阵
Figure FDA00003017518800023
的元素
Figure FDA00003017518800024
在所述相似矩阵M中的列号构成邻域矩阵Mn中的元素Mnij,由所述矩阵
Figure FDA00003017518800025
的元素
Figure FDA00003017518800026
在所述相似矩阵N中的列号构成邻域矩阵Nn中的元素Nnij
4.根据权利要求1或2所述的方法,其特征在于,所述步骤2)中建立所述相似矩阵V,并计算其归一化矩阵和邻域矩阵的步骤进一步包括:
以测试词和训练词为结点,词间语义相似性为边的权重建立词-词情感图,根据所述词-词情感图建立相似矩阵V;
将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵
Figure FDA00003017518800027
由所述矩阵
Figure FDA00003017518800028
的元素
Figure FDA00003017518800029
在所述相似矩阵V中的列号构成邻域矩阵Vn中的元素Vnij
5.根据权利要求4所述的方法,其特征在于,所述词间语义相似性为基于互信息法或隐含语义分析法计算。
6.根据权利要求2所述的方法,其特征在于,所述步骤2)中建立所述相似矩阵U,并计算其归一化矩阵和邻域矩阵的步骤进一步包括:
以测试文本和训练文本为结点,文本间内容相似度为边的权重建立文本-文本情感图,根据所述文本-文本情感图建立相似矩阵U;
将归一化矩阵的每一行中属于不同领域的两部分分别进行降序排列得到矩阵
Figure FDA000030175188000210
由所述矩阵
Figure FDA000030175188000211
的元素
Figure FDA000030175188000212
在所述相似矩阵U中的列号构成邻域矩阵Un中的元素Unij
7.根据权利要求6所述的方法,其特征在于,所述文本间内容相似度为余弦相似度、或基于明氏距离、马氏距离、兰氏距离计算的相似度。
CN 200910242427 2009-12-11 2009-12-11 一种跨领域文本情感倾向性分析方法 Active CN101714135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910242427 CN101714135B (zh) 2009-12-11 2009-12-11 一种跨领域文本情感倾向性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910242427 CN101714135B (zh) 2009-12-11 2009-12-11 一种跨领域文本情感倾向性分析方法

Publications (2)

Publication Number Publication Date
CN101714135A CN101714135A (zh) 2010-05-26
CN101714135B true CN101714135B (zh) 2013-10-16

Family

ID=42417785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910242427 Active CN101714135B (zh) 2009-12-11 2009-12-11 一种跨领域文本情感倾向性分析方法

Country Status (1)

Country Link
CN (1) CN101714135B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150106155A1 (en) * 2011-06-08 2015-04-16 Maria Guadalupe Castellanos Determining and Visualizing Social Media Expressed Sentiment
CN104809128A (zh) * 2014-01-26 2015-07-29 中国科学院声学研究所 一种获取语句情感倾向性的方法及系统
CN106294506B (zh) * 2015-06-10 2020-04-24 华中师范大学 领域自适应的观点数据分类方法及装置
CN106096004B (zh) * 2016-06-23 2019-08-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN108694165B (zh) * 2017-04-10 2021-11-09 南京理工大学 面向产品评论的跨领域对偶情感分析方法
CN107632974B (zh) * 2017-08-08 2021-04-13 北京微瑞思创信息科技股份有限公司 适用于多领域的中文分析平台
CN107807919A (zh) * 2017-11-15 2018-03-16 浙江大学 一种利用循环随机游走网络进行微博情感分类预测的方法
CN107967337B (zh) * 2017-12-05 2021-10-15 云南大学 一种基于情感极性增强语义的跨领域情感分析方法
CN108647204B (zh) * 2018-04-27 2021-09-17 云南大学 一种跨领域情感分析方法
CN110399595B (zh) * 2019-07-31 2024-04-05 腾讯科技(成都)有限公司 一种文本信息标注的方法以及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Graph Ranking for Sentiment Transfer》;Qiong Wu,Songbo Tan,Xueqi Cheng;《Proceedings of the ACL-IJCLP 2009 Conference Short Papers》;20090831;pages 317-320 *
《一种新的情感词汇语义倾向计算方法》;杜伟夫,谭松波,云晓春,程学旗;《计算机研究与发展》;20091031;第46卷(第10期) *

Also Published As

Publication number Publication date
CN101714135A (zh) 2010-05-26

Similar Documents

Publication Publication Date Title
CN101714135B (zh) 一种跨领域文本情感倾向性分析方法
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
Vateekul et al. A study of sentiment analysis using deep learning techniques on Thai Twitter data
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
Rao Contextual sentiment topic model for adaptive social emotion classification
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
El-Halees Mining opinions in user-generated contents to improve course evaluation
CN110728153A (zh) 基于模型融合的多类别情感分类方法
CN101882136B (zh) 文本情感倾向性分析方法
CN103020167B (zh) 一种计算机中文文本分类方法
Azim et al. Text to emotion extraction using supervised machine learning techniques
Anistya et al. Hate Speech Detection on Twitter in Indonesia with Feature Expansion Using GloVe
Ong et al. Sentiment analysis of informal Malay tweets with deep learning
Kandhro et al. Performance analysis of hyperparameters on a sentiment analysis model
Omara et al. Emotion analysis in arabic language applying transfer learning
Fauziah et al. Lexicon based sentiment analysis in Indonesia languages: A systematic literature review
Sun et al. Twitter part-of-speech tagging using pre-classification Hidden Markov model
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
Yang et al. Learning topic-oriented word embedding for query classification
Messaoudi et al. A deep learning model for opinion mining in Twitter combining text and emojis
Mazari et al. Deep learning-based sentiment analysis of algerian dialect during Hirak 2019
CN108694165B (zh) 面向产品评论的跨领域对偶情感分析方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
Putri et al. Bahasa Indonesia pre-trained word vector generation using word2vec for computer and information technology field
Salomatina et al. Identification of argumentative sentences in Russian scientific and popular science texts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100526

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Emotional orientation analytical method of cross-domain texts

Granted publication date: 20131016

License type: Common License

Record date: 20180807

EE01 Entry into force of recordation of patent licensing contract