CN105912720B - 一种计算机中涉及情感的文本数据分析方法 - Google Patents

一种计算机中涉及情感的文本数据分析方法 Download PDF

Info

Publication number
CN105912720B
CN105912720B CN201610289197.4A CN201610289197A CN105912720B CN 105912720 B CN105912720 B CN 105912720B CN 201610289197 A CN201610289197 A CN 201610289197A CN 105912720 B CN105912720 B CN 105912720B
Authority
CN
China
Prior art keywords
sentence
attribute
entity
vector
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610289197.4A
Other languages
English (en)
Other versions
CN105912720A (zh
Inventor
戴新宇
黄家君
陈家骏
黄书剑
张建兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610289197.4A priority Critical patent/CN105912720B/zh
Publication of CN105912720A publication Critical patent/CN105912720A/zh
Application granted granted Critical
Publication of CN105912720B publication Critical patent/CN105912720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种计算机中涉及情感的文本数据分析方法,包括:构造一种人工语言,训练对齐模型,抽取翻译短语,并利用对齐概率特征和翻译短语特征作为方面识别模型的信息特征,再对所识别到的方面类别结合句子信息进行情感倾向判别。对比现有的多方面情感分析方法,本方法突出在考虑了句子不同文本片段和输出信息中不同的部分的对应关系,并且能利用富含信息量的关键性短语。在具体的多方面情感分析实验中,可以得到更高的方面识别精度。

Description

一种计算机中涉及情感的文本数据分析方法
技术领域
本发明属于计算机文本挖掘领域,特别是一种计算机中涉及情感的文本数据分析方法。
背景技术
随着电子商业作为一种新的购物方式和市场的兴起,对这些在线服务和产品的用户评论的分析变得非常有价值和重要。在线评价的情感文本数据处理可以不仅可以帮助用户更高效更好地选购商品,还可以帮助商家理解用户需求,改进自身的产品。
目前,传统的情感文本数据处理技术主要是针对一段给定文本,比如一整段评价文本,或者一个句子,来预测文本的整体情感倾向。然而,一段用户评论中常常包含对某个产品多方面的评价,对于不同的方面用户也许表达了不同的情感。针对这种情况,传统的处理技术不能提供更详细的信息,不能识别针对产品各个方面的细粒度情感。在这种形势下,多方面的情感文本数据处理技术开始受到了研究者的关注。
当前的多方面情感文本数据处理技术主要包括四类:1.语料级评价目标和情感词挖掘;2.句子级的评价目标和情感词挖掘;3.基于话题模型的多方面情感文本数据处理;4.基于有监督机器学习的多方面情感文本数据处理。
第一类方法,即语料级别评价目标和情感词挖掘,主要目标是从一个足够大的特定领域语料库中抽取出一个表示评价目标的名词或者名词短语列表,和带有情感倾向的情感词列表。一个名词或者名词短语在不同的上下文中有时是评价目标有时不是,一个情感词在不同的上下文环境中可能带有不同的情感倾向。这类方法并不能区分这些情况,这是这类方法的第一个问题。另外,不同的评价目标词可能属于同一个方面,比如,在电子产品领域,“待机时间”和“电池性能”是不同的两个评价目标词,但是都是与电池这个方面相关的。这类方法不能把它们归类到同一个方面,这是这类方法的第二个问题。
第二类方法,即句子级评价目标词和情感词识别。这类方法与第一类相似,不同的是它的输入是不再是整个语料,而是一个具体的句子。这样,这类方法能识别出具体上下文中的评价目标词和情感词。这类方法一般使用序列标注方法来实现,比如条件随机场,隐马尔可夫模型等。但是这类方法仍然没有解决上述所提的第二个问题。
第三类方法,即基于话题模型的多方面情感文本数据处理技术。这类方法主要把方面定义成一个话题,通常话题表示成一个词的多项式分布。缺点是话题数量难以确定,话题之间常常有重合,导致输出结果不精确。
第四类方法,即基于有监督机器学习方法的多方面情感文本数据处理技术,主要特征是有预先定义好的方面类别,形式上输入为一个句子或者一个评价文档,输出为若干个包括了方面类别和情感极性的二元组。目前,这类方法主要采用传统机器学习方法,比如支持向量机,朴素贝叶斯等,再结合手工定制的信息特征,比如词特征,二元语法特征,预先抽取的评价目标短语等。本发明亦属于此类方法,与已有的方法相比,本发明识别精度更高。
发明内容
发明目的:本发明所要解决的技术问题是针对以上所提到各类方法的不足,提供一种计算机中涉及情感的文本数据分析方法。
为了解决上述技术问题,本发明公开了一种构造人工语言,利用统计统计机器翻译技术训练对齐模型,抽取翻译短语,并以此作为信息特征训练方面识别模型的多方面情感文本数据处理方法。
本发明特征包括如下步骤:
步骤1,计算机读入一个包含待处理句子的文本数据,识别待处理句子中所提到的方面类别,方面类别形式上定义为<entity#attribute>,其中entity为实体,attribute为属性;
步骤2,对于步骤1所识别到的方面类别,判别其在待处理句子中所对应的情感倾向。
其中,步骤1中,采用如下式所示的方面识别模型识别待处理句子中所提到的方面类别:
其中,x表示待处理句子中包含的N维信息特征向量,为输出的K维判别值向量,N和K取值为都自然数。W和为模型参数,W为一个K×N的矩阵,b为K维偏置向量,σ为softmax函数,其运算方式如下:
其中e为自然底数,上标表示指数函数。这里z=W·x+b,表示归一化前的得分向量。zj和zk分别表示z的第j维和第k维。
方面识别模型的训练目标为最小化代价函数J(W,b):
其中,ln()为自然底数对数,λ为设定的超参,通常取值为0.0001~0.0003,m为训练样本数量,y为与输出的K维判别值向量所对应的标注的标准二值向量,yi,j表示第i个训练样本中第j维的值。当且仅当第i个样本有第j个方面类别时(在求和符号中,j表示遍历从1到K中的每一个数),yi,j为1,否则为0。
本发明的主要核心除了以上所述的模型,还主要包括输入向量x的构建。所述方面识别模型使用的n维信息特征向量x包括以下三项:
二值词袋模型特征;
对齐模型概率特征;
翻译短语特征。
即输入向量x包括以下三个部分:
x=<words,AlignmentProbabilities,Phrases>
其中,words表示二值词袋向量,AlignmentProbabilities表示对齐模型概率特征向量,Phrases表示翻译短语向量。
words:
首先选取训练语料中的出现频率最高的不包括停用词的n1个词作为词汇表,n1一般取1500~2000为宜。则Words向量表示为一个n1维的向量,当且仅当当前句子中出现第j个词,wordsj=1,否则wordsj=0.
AlignmentProbabilities:
此为对齐模型概率特征向量。对齐模型概率特征包括至少以下之一:
正向对齐概率特征;
逆向对齐概率特征。
在本发明中,方面类别形式上定义为<entity#attribute>,其中entity为实体,attribute为属性。以笔记本电脑这类产品为例,Keyboard(键盘)是一个实体,Usability(易用性)是一种属性,那么Keyboard#Usability(表示键盘的易用性)则是笔记本电脑这个产品的一个方面。
对齐概率特征抽取的步骤如下:
首先,根据训练数据中已经标注好的每个句子,所述的对齐模型概率特征和翻译短语特征的获取通过以下文法构造目标语言:
表1 目标语言的构造文法
用S表示一个句子,S’表示一个分句,一个句子由任意个分句组成,一个分句S’的形式是E A is P,其中E表示entity实体,A表示attribute属性,P表示情感极性,情感极性有三种,分别为positive、negative和neutral(分别表示积极、消极和中性)。
其次,使用对齐模型训练工具GIZA++训练得到正逆向对齐模型,通过以下公式计算正向对齐概率特征p(a|s):
其中,s表示待处理句子,c表示句子中的一个词,a表示一个实体entity或者属性attribute,t(a|c)表示从c到a的对齐概率。
通过以下公式计算逆向对齐概率特征p(s|a):
其中,t(c|a)表示从a到c的对齐概率。
所述的对齐模型概率特征为正向对齐概率特征和逆向对齐概率特征的算术平均值。按照以下公式计算给定一个待处理句子s,对于每个entity或者attribute a的对齐概率特征值fs,a
Phrases:
按照专利CN103488629B《一种机器翻译中翻译单元表的抽取方法》,抽取翻译短语,需要注意的是,需要对源语言和目标语言短语的长度进行限定,一般限定在3个词以内为宜。然后,对于抽取出来的源语言短语,过滤掉包含标点符号、特殊字符和停用词的短语,作为一组二值信息特征加入到输入向量中。
使用训练好的方面识别模型对待处理的句子s进行识别。根据如上所述的模型输出的判别向量当且仅当认为句子中含有方面i,threshold是手工设定的阈值,通常用交叉验证选取合适的取值,一般取值在1.3~2.0之间为宜,方面数量越大阈值应设定得越小。
本发明步骤2包括以下步骤:
步骤2-1,对步骤1所识别的待处理句子的每个方面类别,判别其情感倾向。判别使用支持向量机(SVM,support vector machine)进行二元分类,分类器的输入为句子的信息和方面类别,即
x=<words,entity,attribute>
其中,x为SVM分类器输入的待处理句子中包含的N维信息特征向量,words向量的定义同步骤1,entity和attribute分别是一个1-hot(独热码,词向量的一种方式)向量,它们共同指示了一个唯一的方面。
步骤2-2,结合步骤1和步骤2-1的结果,输出最终的二元组信息:<entity#attribute,polarity(文本的极性)>。
有益效果:本发明考虑了句子中不同文本片段和输出结果中不同部分的对应关系,能更加精确地识别方面类别和情感倾向。以下的实验结果将说明本发明的有益效果。
信息特征 F1-score(%)
词/Words 50.86
+对齐概率特征/+Alignment 52.41
+翻译短语/+Phrases 53.16
表2 使用不同信息特征的方面识别性能比较
表2为识别方面类别的性能比较实验结果,可以看出在加入对齐概率特征和翻译短语特征后,识别的性能都有有效的提升。
系统 F1-score(%)
本发明 53.16
NLANGP 49.06
表3 不同系统的方面识别性能比较
NLANGP是2015年SemEval评测比赛中多方面情感分析任务的获胜系统,与之相比,本发明在方面识别上有更高的精度。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
具体实施方式
本发明提出了一种计算机中涉及情感的文本数据分析方法。构建一个人工目标语言,在此基础上训练对齐模型和抽取翻译短语,再从中抽取信息特征帮助提高方面识别的精度。现有的多方面情感分析技术中,或者方法框架不同,或者没有考虑句子中不同文本片段和输出结果中不同部分的对应关系,没有利用机器翻译相关技术来抽取信息特征。
如图1所示,本发明包括如下步骤:
步骤1,系统读入一个待处理句子,识别句子中所提到的方面类别。
步骤2,对于步骤1所识别到的方面类别,判别其在句子中所对应的情感倾向。
其中,步骤1包括如下步骤:
步骤1-1,训练方面类别识别模型。所采用的模型可以用以下公式表示
其中,x表示输入的N维信息特征向量,为输出的K维判别值向量,N和K取值为都为自然数。W,b为模型参数,W为一个K×N的矩阵,b为K维偏置向量,σ为softmax函数,其运算方式如下:
其中,e为自然对数底数,上标表示指数函数。z=W·x+b,表示归一化前的得分向量。zj和zk分别表示z的第j维和第k维。
训练过程采用梯度下降法最小化以下代价函数:
其中,ln()为自然底数对数,λ为人工指定的超参,通常取值为0.0001~0.0003为宜,m为训练样本数量,y为与所对应的标注的标准二值向量,yi,j表示第i个训练样本中第j维的值。当且仅当第i个样本有第j个方面类别时,yi,j为1,否则为0。
以上模型的输入向量x包括以下三个部分:
x=<words,AlignmentProbabilities,Phrases>,
其中,words表示二值词袋向量,AlignmentProbabilities表示对齐模型概率特征向量,Phrases表示短语向量。
words:
首先选取训练语料中的出现频率最高的不包括停用词的n1个词作为词汇表,n1一般取1500~2000为宜。则words向量表示为一个n1维的向量,当且仅当当前句子中出现第j个词,wordsj=1,否则wordsj=0.
AlignmentProbabilities:
此为对齐概率特征向量。在本发明中,方面类别形式上定义为entity#attribute,其中entity为实体,attribute为属性。以笔记本电脑这类产品为例,Keyboard(键盘)是一个实体,Usability(易用性)是一种属性,那么Keyboard#Usability(表示键盘的易用性)则是笔记本电脑这个产品的一个方面。
对齐概率特征抽取的步骤如下:
首先,根据训练数据中已经标注好的每个句子,按照如下文法构造目标语言:
表1 目标语言的构造文法
其次,使用对齐模型训练工具GIZA++训练得到正逆向对齐模型,然后按照如下公式计算正向对齐概率特征:
其中,s表示一个句子,c表示句子中的一个词,a表示一个entity或者attribute,t(a|c)表示从c到a的对齐概率。
同时,按照以下公式计算逆向对齐概率特征:
类似地,t(c|a)为从a到c的对齐概率。
然后,按照以下公式计算给定一个句子s,对于每个entity或者attribute a的对齐概率特征值:
Phrases:
按照专利CN103488629B《一种机器翻译中翻译单元表的抽取方法》,抽取翻译短语,需要注意的是,需要对源语言和目标语言短语的长度进行限定,一般限定在3个词以内为宜。然后,对于抽取出来的源语言短语,过滤掉包含标点符号、特殊字符和停用词的短语,作为一组二值信息特征加入到输入向量中。
步骤1-2,使用训练好的方面识别模型对待处理的句子进行识别。根据如上所述的模型输出的判别向量当且仅当认为句子中含有方面i,threshold是手工设定的阈值,通常用交叉验证选取合适的取值,一般取值在1.3~2.0之间为宜,方面数量越大阈值应设定得越小。
本发明步骤2包括以下步骤:
步骤2-1,对步骤1所输出的每个方面类别,判别其情感倾向。判别使用支持向量机(SVM)进行二元分类,分类器的输入为句子的信息和方面类别,即
x=<words,entity,attribute>
其中,x为SVM分类器的输入向量,words向量的定义同步骤1,entity和attribute分别是一个1-hot向量,它们共同指示了一个唯一的方面。
步骤2-2,结合步骤1和步骤2-1的结果,输出最终的二元组信息:<entity#attribute,polarity>。
实施例1
本实施例中,针对笔记本电脑的在线评论语料,构造对应的人工目标语言,形成平行语料,用于训练对齐模型。
对于一个评论句子:“Fantastic for the price,it’s a pity keys were notilluminated。”(大意:价格合适,很遗憾键盘不是背光的。)标注的结果包括两个Opinion:<LAPTOP#PRICE,positive>,<KEYBOARD#DESIGN_FEATURES,negative>。按照上文中说明的文法构造人工语言句子:“LAPTOP PRICE is positive;KEYBOARD DESIGN_FEATURES isnegative;”。
实施例2
本实施例中,系统接受一个自然语言句子,输出二元组信息。其过程如下:
1、系统接收自然语言句子:The Dell is quick enough but not good withfinger prints。
2、系统抽取词信息向量Words;
3、系统根据对齐概率表计算对齐概率特征向量AlignmentProbabilities;
4、系统根据已经抽取出的短语表抽取短语特征向量Phrases;
5、将第2、3、4步的特征一起输入方面识别模型,发现模型输出得分高于阈值0.14的两个方面类别:LAPTOP#OPERATION_PERFORMANCE,LAPTOP#QUALITY;
6、系统判断LAPTOP#OPERATION_PERFORMANCE在句中的情感倾向是positive;
7、系统判断LAPTOP#QUALITY在句子中的情感倾向是negative;
8、系统输出Opinion1<LAPTOP#OPERATION_PERFORMANCE,positive>,Opinions<LAPTOP#QUALITY,negative>。
9、结束。
本发明提供了一种计算机中涉及情感的文本数据分析方法,具体实现该技术方案的方法和途径很多,以上所述是本发明的优选实施方式。本发明基于统计机器翻译技术,在方面识别模型中加入对齐概率信息特征和翻译短语信息特征,考虑了句子不同的文本片段和输出中不同部分的对齐关系和关键短语的信息。在具体实验中,本发明提出的方法与现有的多方面情感分析方法相比,输出结构更加清晰,识别精度更高。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (3)

1.一种计算机中涉及情感的文本数据分析方法,其特征在于,包括如下步骤:
步骤1,计算机读入一个包含待处理句子的文本数据,识别待处理句子中所提到的方面类别,方面类别形式上定义为<entity#attribute>,其中entity为实体,attribute为属性;
步骤2,对于步骤1所识别到的方面类别,判别其在待处理句子中所对应的情感倾向并输出最终结果;
步骤1中,采用如下式所示的方面识别模型识别待处理句子中的方面类别:
其中,x表示待处理句子中包含的N维信息特征向量,为输出的K维判别值向量,N和K取值为自然数,W和b为模型参数,W为一个K×N的矩阵,b为K维偏置向量,σ为softmax函数,其运算方式如下:
其中e为自然底数,上标表示指数函数,z=W·x+b,表示归一化前的得分向量,zj和zk分别表示z的第j维和第k维;
方面识别模型的训练目标为最小化代价函数J(W,b):
其中,ln()为自然底数对数,λ为设定的超参,m为训练样本数量,y为与输出的K维判别值向量所对应的标注的标准二值向量,yi,j表示第i个训练样本中第j维的值,当且仅当第i个样本有第j个方面类别时,yi,j为1,否则为0;
所述方面识别模型使用的n维信息特征向量x包括以下三项:
二值词袋模型特征;
对齐模型概率特征;
翻译短语特征;
所述对齐模型概率特征包括至少以下之一:
正向对齐概率特征;
逆向对齐概率特征;
通过以下公式计算正向对齐概率特征p(a|s):
其中,s表示待处理句子,c表示句子中的一个词,a表示一个实体entity或者属性attribute,t(a|c)表示从c到a的对齐概率;
通过以下公式计算逆向对齐概率特征p(s|a):
其中,t(c|a)表示从a到c的对齐概率;
所述的对齐模型概率特征为正向对齐概率特征和逆向对齐概率特征的算术平均值;
所述的对齐模型概率特征和翻译短语特征的获取通过以下文法构造目标语言:
用S表示一个句子,S’表示一个分句,一个句子由任意个分句组成,一个分句S’的形式是E A is P,其中E表示entity实体,A表示attribute属性,P表示情感极性,情感极性有三种,分别为positive、negative和neutral。
2.根据权利要求1所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,对步骤1所识别的待处理句子的每个方面类别,判别其情感倾向;
步骤2-2,结合步骤1和步骤2-1的结果,输出最终的二元组信息:<entity#attribute,polarity>。
3.根据权利要求2所述的方法,其特征在于,步骤2-1中,判别情感倾向的方式为采用支持向量机SVM进行二元分类,分类器的输入为句子的信息和方面类别,即
x=<words,entity,attribute>,
其中,x为支持向量机SVM分类器输入的待处理句子中包含的n维信息特征向量,words表示二值词袋向量,entity和attribute分别是一个1-hot向量,entity和attribute共同指示了一个唯一的方面类别。
CN201610289197.4A 2016-05-04 2016-05-04 一种计算机中涉及情感的文本数据分析方法 Active CN105912720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289197.4A CN105912720B (zh) 2016-05-04 2016-05-04 一种计算机中涉及情感的文本数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289197.4A CN105912720B (zh) 2016-05-04 2016-05-04 一种计算机中涉及情感的文本数据分析方法

Publications (2)

Publication Number Publication Date
CN105912720A CN105912720A (zh) 2016-08-31
CN105912720B true CN105912720B (zh) 2019-02-22

Family

ID=56753272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289197.4A Active CN105912720B (zh) 2016-05-04 2016-05-04 一种计算机中涉及情感的文本数据分析方法

Country Status (1)

Country Link
CN (1) CN105912720B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526831B (zh) 2017-09-04 2020-03-31 华为技术有限公司 一种自然语言处理方法和装置
CN110134934A (zh) * 2018-02-02 2019-08-16 普天信息技术有限公司 文本情感分析方法和装置
CN112765350A (zh) * 2021-01-15 2021-05-07 西华大学 基于表情图和文本信息的微博评论情感分类方法
CN113420122B (zh) * 2021-06-24 2024-06-04 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质
CN115329775B (zh) * 2022-10-14 2023-03-24 成都晓多科技有限公司 一种语句中方面类别及情感极性联合识别的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103488629A (zh) * 2013-09-24 2014-01-01 南京大学 一种机器翻译中翻译单元表的抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103488629A (zh) * 2013-09-24 2014-01-01 南京大学 一种机器翻译中翻译单元表的抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一个用于汉语汽车评论的意见挖掘系统;姚天昉 等;《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》;20061101;第260-281页
互联网用户生成内容的情感分析研究和应用;张方喜;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215(第12期);第I138-970页,第7页
在线评论的情感极性分类研究综述;王洪伟 等;《情报科学》;20120805;第30卷(第8期);第1263-1276页
基于深度学习的微博情感分析;梁军 等;《中文信息学报》;20140915;第28卷(第5期);第158页左栏,图2

Also Published As

Publication number Publication date
CN105912720A (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN105320960B (zh) 一种基于投票的跨语言主客观情感分类方法
CN105912720B (zh) 一种计算机中涉及情感的文本数据分析方法
CN106570179B (zh) 一种面向评价性文本的核心实体识别方法及装置
Abdelali et al. QADI: Arabic dialect identification in the wild
Ghosh et al. Sentiment identification in code-mixed social media text
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN107391486A (zh) 一种基于统计信息和序列标注的领域新词识别方法
CN108563638A (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110134934A (zh) 文本情感分析方法和装置
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
Reddy et al. N-gram approach for gender prediction
Kanan et al. Extracting named entities using named entity recognizer and generating topics using latent dirichlet allocation algorithm for arabic news articles
CN106776555A (zh) 一种基于字模型的评论文本实体识别方法及装置
Samarasinghe et al. Machine learning approach for the detection of hate speech in sinhala unicode text
Hindocha et al. Short-text Semantic Similarity using GloVe word embedding
Joo et al. Author profiling on social media: An ensemble learning model using various features
CN109298796B (zh) 一种词联想方法及装置
Zhou et al. Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model
Sababa et al. A classifier to distinguish between cypriot greek and standard modern greek
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
Sharma et al. Bits2020@ Dravidian-CodeMix-FIRE2020: Sub-Word Level Sentiment Analysis of Dravidian Code Mixed Data.
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant