CN111221962B - 一种基于新词扩展与复杂句式扩展的文本情感分析方法 - Google Patents

一种基于新词扩展与复杂句式扩展的文本情感分析方法 Download PDF

Info

Publication number
CN111221962B
CN111221962B CN201911127095.2A CN201911127095A CN111221962B CN 111221962 B CN111221962 B CN 111221962B CN 201911127095 A CN201911127095 A CN 201911127095A CN 111221962 B CN111221962 B CN 111221962B
Authority
CN
China
Prior art keywords
emotion
word
words
dictionary
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911127095.2A
Other languages
English (en)
Other versions
CN111221962A (zh
Inventor
刘洪涛
孙桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911127095.2A priority Critical patent/CN111221962B/zh
Publication of CN111221962A publication Critical patent/CN111221962A/zh
Application granted granted Critical
Publication of CN111221962B publication Critical patent/CN111221962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明请求保护一种基于新词扩展与复杂句式扩展的文本情感分析方法,包括步骤:S1,首先根据已有的情感词典构建基础词典,对已有词典进行清理和筛选;S2,对导入的中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;S3,在已有的方法的基础上,综合词频、词性和相似度计算,发现特定领域的新词并添加到基础词典中;S4,对中文句式结构进行分析,总结归纳出句式模型,并通过不同的模型来判断句子情感极性;S5,得出适合本方法的算法选择器,综合词典和句式模型得出句子极性结果。本发明相较于传统的情感词典+机器学习方法,专注于在特定领域的短文本句子情感识别,无论是准确率还是召回率都得到明显提高。

Description

一种基于新词扩展与复杂句式扩展的文本情感分析方法
技术领域
本发明属于文本分类情感分析领域,特别是涉及特定领域短文本情感分类的分析方法。
背景技术
交互的便捷使网络成为了人们越来越喜欢表达自己观点和相互交流的主要方式之一。网络上产生的主观性文本包含大量有用情感信息。越来越多的人们习惯在这些平台上表达自身积极、中立或者消极的情绪,以及对使用产品的偏好。因此各种购物网站、微博、论坛等平台的评论会成为消费者做出购买决策的依据。
由于网络评价信息非常庞大,依靠人工的方法是不可行的,效率非常低并且也难以找出真正有价值的信息,因此,快速对这些信息进行有效的处理及分析是当前的迫切需求。怎样把蕴含文本里的情感信息挖掘出来,通过相应技术对网络评论进行情感倾向性判别是当下的研究热点。
当前现有的文本情绪分析和情感分类的研究,只是添加了日常网络用语,却忽略了特定的词语在不同的语境下有不同的含义,忽略了特定的情境背景。另外各个社交平台评论语料中短文本较多,中文句式较随意,复杂句式结构也给句子情感极性的判断增加了难度。
鉴于以上问题,本研究主要解决两方面的内容:特定领域的新词扩展和基于情感词组的复杂句式模型。第一方面采用《知网》公开词典,利用Word2Vec词向量方法进行词性和词频筛选,将新词扩展集中在较小特定领域,在通过词向量之间的相似度计算,得出近义词组,解决了一些日常用语在不同背景下含义不同的问题;第二方面在关联词分类和情感词组的基础上构建句式模型,解决了中文短文本在结构和语义方面的问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于新词扩展与复杂句式扩展的文本情感分析方法。本发明的技术方案如下:
一种基于新词扩展与复杂句式扩展的文本情感分析方法,其包括以下步骤:
S1,首先计算机根据网络公开的情感词典,如知网HowNet情感词典和台湾大学简体中文情感词典相结合构建本发明所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;
S2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;
S3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;
S4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;
S5,计算机采用朴素贝叶斯算法分类器,综合词典和句式模型得出句子极性结果。
进一步的,所述步骤S1计算构建基础情感词典的步骤具体为:
基础情感词典的构建本文采取知网Hownet词典和台湾大学简体中文情感词典相结合,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个,否定词31个。
进一步的,所述步骤S2数据清理的步骤包括:
(1)剔除html格式代码,清除URL链接;
(2)剔除用户名;
(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词;
(4)选择常用的停用词表对已分词文本进行去停用词处理;
处理完的文本数据设置为DataFrame数据格式,并将正、负极性的文本加入类别标签,分别用+1和-1表示。
进一步的,步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:
输入:特定领域评论数据集;
输出:完整的情感词典;
在步骤S2的基础上对数据做如下操作:
第一步:进行词性统计,选出名词、动词、形容词和副词;
第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;
第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;
第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个近义词作为候选词;
第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典。
进一步的,所述Word2vec采用一个三层的神经网络,输入层-投影层-输出层,CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测,CBOW利用目标词w(t)前后各c个词去预测前当词,令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词语组成;
a、输入层:当前词w(t)的前后的2c个词语向量是输入,令m作为整个句子所包含词的数量,V(Context(w)1),V(Context(w)2)...V(Context(w)2c)∈Rm;b、投影层:向量Xw为该2c个词语向量的累加和,也就是
Figure GDA0003929922820000031
c、输出层:一棵Huffman树,树的叶子节点就是训练文本中所包含的词汇,权值为每个词汇在训练文本中出现的频数。
进一步的,所述第四步得到情感种子词利用Word2Vec计算与种子词的余弦相似度,找到近义词组,余弦相似度算法为:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似;余弦值接近于0,夹角趋于90度,表明两个向量越不相似;
二维空间中余弦函数的公式:
Figure GDA0003929922820000041
x1、x2分别表示两个向量的横坐标,y1、y2分别表示两个向量的纵坐标,多维空间余弦函数的公式为:
Figure GDA0003929922820000042
xi、yi表示多维空间中多个向量的横纵坐标值;
本文根据计算得到的余弦相似度高低排序,选取与每个情感种子词最相近的10个近义词组构成候选词集。
进一步的,所述步骤S4中关于基于中文情感词组复杂句式模型的构建包括步骤:利用Word2Vec对语料集进行词向量训练,按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取,程度副词来源于《知网》情感分析用词语集,词典内数据格式有两列,一列是程度副词,另一列是程度值;一方面构造情感词组,本研究中定义情感词组为一个个短语,即由否定词、程度副词和情感词构成,结构如下:
P=Wn*N+Wd+Ws (1)
其中,P代表短语即情感词组;Wn表示否定词,N表示否定词个数;Wd表示程度副词,Ws表示情感词;
另一方面基于情感词组构造特征词序列来进行情感倾向的判断:设定第一类,第二类,第三类关联词分别为W1,W2,W3,复杂句式判断规则总结如下:
W1+P+Wpo/Wne+其他 (2)
W1+P+Wpo/Wne+? (3)
W2/W3+P+Wpo/Wne+其他 (4)
正向词Wpo极性值+1,负向词Wne极性值-1,偶数否定词极性乘以+1,奇数否定词极性乘以-1;P的极性值Sp由式(1)计算;(5)
句式匹配过程如下:
输入:情感词典,模型关联词典,否定词典,数据文本;
输出:文本评论的情感类别;
第一步:将分词文本与3类词典进行单词匹配,将短文本中情感词、程度副词、否定词找出构造情感短语词组,结合关联词构造句式模型;
第二步:遍历特征词序列,如果前句中发现第一类关联词W1,继续向后遍历
(1)若后面没有其他关联词,根据规则2,5;
(2)若后半句无其他关联词有“?”,判定为反问句,根据式3判断
第三步:遍历特征词序列,如果发现W2:
遍历后句,若有关联词,根据规则4,5判定整句情感倾向;
第四步:遍历特征词序列,若发现W3,前后表一致,按照规则4,5判定整句情感倾向。
进一步的,所述步骤S5中关于机器学习算法分类器选择朴素贝叶斯作为分类器。
本发明的优点及有益效果如下:
1.本发明将新词扩展加入到对特定领域的文本情感分析中,在原有基本情感词典的基础上添加一批特定领域的网络新词。由于词语在不同语境背景下会有不同的含义,传统词典不在具有普适性,因此本文利用Word2vec词向量的方法扩充领域情感词,以提高对特定领域短评的情感识别。本发明以酒店评论作为数据集,包含酒店评论中获取的新词的情感词典与加入普通网络新词的词典相比,前者更具有针对性,对句子情感极性的识别也更加准确。
2.针对中文复杂的句式结构,本研究提出复杂句式模型并在扩展词典的基础上与机器学习方法相结合进一步提高识别文本情感倾向的准确率。对于短文本评论中存在各类复杂句式的情况下,句式和句法有很大的随意性,本研究在8种复杂句式的基础上总结的句式模型分类器更适合短文本情感分类。
3.对于分类器的选择,本发明利用另外的数据集进行准确率对比,得出适用于本模型和方法的分类器,使得实验结果更加准确。
附图说明
图1是本发明提供优选实施例实验整体流程图;
图2为word2vec CBOW模型;
图3为本研究分类模型;
图4为新词发现‘舒服’的近义词组。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
一种基于新词扩展与复杂句式扩展的文本情感分析方法,其包括以下步骤:
S1:构建基础情感词典,采用知网HowNet情感词典和台湾大学简体中文情感词典相结合来构建基础情感词典,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个。否定词31个。
S2:通过以下步骤进行数据清理
(1)剔除html格式代码,清除URL链接;
(2)剔除用户名。用户名称中会含有情感极性的词,会影响句子的极性判断;
(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词以提高分词的准确率;
(4)选择常用的停用词表对已分词文本进行去停用词处理。
处理完的文本数据设置为DataFrame数据格式方便使用,并将正、负极性的文本加入类别标签,分别用+1和-1表示。
S3:数据清理完成后,就要在此基础上进行特定领域的新词扩充。
通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:
输入:特定领域评论数据集;
输出:完整的情感词典;
在步骤S2的基础上对数据做如下操作:
第一步:进行词性统计,选出名词、动词、形容词和副词等;
第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;
第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;
Word2vec采用一个三层的神经网络如图1所示:输入层-投影层-输出层。CBOW从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测。CBOW利用词w(t)前后各c(这里c=2)个词去预测前当词。令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词组成。
a、输入层:当前目标词w(t)的前后的2c个词向量是输入,令m作为整个句子所包含词的数量,V(Context(w)1),V(Context(w)2)...V(Context(w)2c)∈Rm。b、投影层:向量Xw为该2c个词向量的累加和,也就是
Figure GDA0003929922820000071
c、输出层:一棵Huffman树,树的叶子节点就是训练文本中所包含的词汇,权值为每个词汇在训练文本中出现的频数。
第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个词语作为候选词;
得到情感种子词后利用Word2Vec计算与种子词的余弦相似度,找到近义词组。余弦相似度算法:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似;余弦值接近于0,夹角趋于90度,表明两个向量越不相似。
二维空间中余弦函数的公式:
Figure GDA0003929922820000081
多维空间余弦函数的公式为:
Figure GDA0003929922820000082
本文根据计算得到的余弦相似度高低排序,选取与每个情感种子词最相近的10个近义词组构成候选词集,例如正面情感种子词“舒服”的近义词组如图2所示。
第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典。
通过以上五个步骤可以得到特定领域的新词,并完成对基础情感词典的扩充。本文选取的特定领域的语料集是酒店评论语料,扩充该领域消极情感词371个,积极情感词408个。最后得到完整的情感词典,褒义词4054个,贬义词9901个。
S4:新词扩充完成后就要对中文复杂句式进行建模。本文利用Word2Vec对语料集进行词向量训练,按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取。程度副词来源于《知网》情感分析用词语集,词典内数据格式有两列,一列是程度副词,另一列是程度值;一方面构造情感词组,本研究中定义情感词组为一个个短语,即由否定词、程度副词和情感词构成,结构如下:
P=Wn*N+Wd+Ws (1)
其中,P代表短语即情感词组;Wn表示否定词,N表示否定词个数;Wd表示程度副词,Ws表示情感词。
另一方面基于情感词组构造特征词序列来进行情感倾向的判断:设定第一类,第二类,第三类关联词分别为W1,W2,W3,复杂句式判断规则总结如下:
W1+P+Wpo/Wne+其他 (2)
W1+P+Wpo/Wne+? (3)
W2/W3+P+Wpo/Wne+其他 (4)
正向词Wpo极性值+1,负向词Wne极性值-1,偶数否定词极性乘以+1,奇数否定词极性乘以-1;P的极性值Sp由式(1)计算。 (5)
句式匹配过程如下:
输入:情感词典,模型关联词典,否定词典,数据文本;
输出:文本评论的情感类别;
第一步:将分词文本与3类词典进行单词匹配,将短文本中情感词、程度副词、否定词找出构造情感短语词组,结合关联词构造句式模型;
第二步:遍历特征词序列,如果前句中发现第一类关联词W1,继续向后遍历
(1)若后面没有其他关联词,根据规则2,5;
(2)若后半句无其他关联词有“?”,判定为反问句,根据式3判断
第三步:遍历特征词序列,如果发现W2:
遍历后句(若有关联词),根据规则4,5判定整句情感倾向;
第四步:遍历特征词序列,若发现W3,前后表一致,按照规则4,5判定整句情感倾向。
S5:扩展词典和句式模型搭建好之后就选择合适的分类器进行实验。关于分类器的选择,现在研究中比较著名的分类算法有决策树、随机森林、支持向量机和朴素贝叶斯等等。为了对比不同分类器的分类效果,本研究通过选择另外一个数据集利用以上提到的分类器进行实验,来确定哪一个分类器更好并将其作为复杂句式分类器算法。
数据来源:分类器对比选择的实验数据集来自搜狗实验室公开数据集新闻分类数据,包含国内、国外、体育、社会、娱乐等18个新闻频道。为了实验的可行性,我门选取了部分数据,数据规模为5000条,4个特征,部分数据如下图3所示。评价标准为分类准确率P。
准确率即预测正确的结果占总样本的百分比,表达式如下:
Figure GDA0003929922820000101
其中,TP表示预测为1,实际为1,预测正确;TN表示预测为0,实际为0,预测正确;FP表示预测为1,实际为0,预测错误;FN表示预测为0,实际为1,预测错误。根据实验结果得出朴素贝叶斯的准确率最高,所以选择朴素贝叶斯作为分类器。
该基于新词扩展与复杂句式扩展的文本情感分析方法,不仅可以在特定领域的文本情感识别方面提高准确率,而且基于本发明的句式模型对于短文本的情感极性识别实用性更强。这为以后自然语言处理,在中文文本分类情感识别方面提供了一种更加高效的方法。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,包括以下步骤:
S1,首先计算机根据网络公开的情感词典,知网HowNet情感词典和台湾大学简体中文情感词典相结合构建所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;
S2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;
S3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;
S4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;
S5,计算机采用朴素贝叶斯算法分类器,综合词典和句式模型得出句子极性结果;
步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:
输入:特定领域评论数据集;
输出:完整的情感词典;
在步骤S2的基础上对数据做如下操作:
第一步:进行词性统计,选出名词、动词、形容词和副词;
第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;
第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;
第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个近义词作为候选词;
第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典;
所述Word2Vec采用一个三层的神经网络,输入层-投影层-输出层,CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性分类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测,CBOW利用目标词w前后各c个词去预测前当词,令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词语组成;
a、输入层:当前词w的前后的2c个词语向量是输入,令m作为整个句子所包含词的数量,V(Context(w)1),V(Context(w)2)...V(Context(w)2c)∈Rm
b、投影层:向量Xw为该2c个词语向量的累加和,也就是
Figure FDA0004107472640000021
c、输出层:一棵Huffman树,树的叶子节点就是训练文本中所包含的词汇,权值为每个词汇在训练文本中出现的频数;
所述第四步得到情感种子词利用Word2Vec计算与种子词的余弦相似度,找到近义词组,余弦相似度算法为:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似;余弦值接近于0,夹角趋于90度,表明两个向量越不相似;
二维空间中余弦函数的公式:
Figure FDA0004107472640000022
x1、x2分别表示两个向量的横坐标,y1、y2分别表示两个向量的纵坐标,
多维空间余弦函数的公式为:
Figure FDA0004107472640000023
xi、yi表示多维空间中多个向量的横纵坐标值;
本文根据计算得到的余弦相似度高低排序,选取与每个情感种子词最相近的10个近义词组构成候选词集;
所述步骤S4中关于基于中文情感词组复杂句式模型的构建包括步骤:利用Word2Vec对语料集进行词向量训练,按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取,程度副词来源于《知网》情感分析用词语集,词典内数据格式有两列,一列是程度副词,另一列是程度值;一方面构造情感词组,本研究中定义情感词组为一个个短语,即由否定词、程度副词和情感词构成,结构如下:
P=Wn*N+Wd+Ws (1)
其中,P代表短语即情感词组;Wn表示否定词,N表示否定词个数;Wd表示程度副词,Ws表示情感词;
另一方面基于情感词组构造特征词序列来进行情感倾向的判断:设定第一类,第二类,第三类关联词分别为W1,W2,W3,复杂句式判断规则总结如下:
W1+P+Wpo/Wne+其他 (2)
W1+P+Wpo/Wne+? (3)
W2/W3+P+Wpo/Wne+其他 (4)
正向词Wpo极性值+1,负向词Wne极性值-1,偶数否定词极性乘以+1,奇数否定词极性乘以-1;P的极性值Sp由式(1)计算;
句式匹配过程如下:
输入:情感词典,模型关联词典,否定词典,数据文本;
输出:文本评论的情感类别;
第一步:将分词文本与3类词典进行单词匹配,将短文本中情感词、程度副词、否定词找出构造情感短语词组,结合关联词构造句式模型;
第二步:遍历特征词序列,如果前句中发现第一类关联词W1,继续向后遍历
(1)若后面没有其他关联词,根据规则2,5;
(2)若后半句无其他关联词有“?”,判定为反问句,根据式3判断
第三步:遍历特征词序列,如果发现W2:
遍历后句,若有关联词,根据规则4,5判定整句情感倾向;
第四步:遍历特征词序列,若发现W3,前后表述一致,按照规则4,5判定整句情感倾向。
2.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S1计算构建基础情感词典的步骤具体为:
基础情感词典的构建采取知网Hownet词典和台湾大学简体中文情感词典相结合,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个,否定词31个。
3.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S2数据清理的步骤包括:
(1)剔除html格式代码,清除URL链接;
(2)剔除用户名;
(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词;
(4)选择常用的停用词表对已分词文本进行去停用词处理;
处理完的文本数据设置为DataFrame数据格式,并将正、负极性的文本加入类别标签,分别用+1和-1表示。
4.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S5中关于机器学习算法分类器选择朴素贝叶斯作为分类器。
CN201911127095.2A 2019-11-18 2019-11-18 一种基于新词扩展与复杂句式扩展的文本情感分析方法 Active CN111221962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911127095.2A CN111221962B (zh) 2019-11-18 2019-11-18 一种基于新词扩展与复杂句式扩展的文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911127095.2A CN111221962B (zh) 2019-11-18 2019-11-18 一种基于新词扩展与复杂句式扩展的文本情感分析方法

Publications (2)

Publication Number Publication Date
CN111221962A CN111221962A (zh) 2020-06-02
CN111221962B true CN111221962B (zh) 2023-05-26

Family

ID=70830587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911127095.2A Active CN111221962B (zh) 2019-11-18 2019-11-18 一种基于新词扩展与复杂句式扩展的文本情感分析方法

Country Status (1)

Country Link
CN (1) CN111221962B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779961A (zh) * 2020-06-09 2021-12-10 国家计算机网络与信息安全管理中心 一种自然语言文本的惯用句式提取方法及电子装置
CN111881671B (zh) * 2020-09-27 2020-12-29 华南师范大学 一种属性词提取方法
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112861541B (zh) * 2020-12-15 2022-06-17 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法
CN112926318A (zh) * 2021-02-26 2021-06-08 安徽理工大学 一种基于句法分析的网购评论新情感词提取方法
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置
CN117217218B (zh) * 2023-11-08 2024-01-23 中国科学技术信息研究所 科技风险事件相关舆情的情感词典构建方法及装置
CN117521639B (zh) * 2024-01-05 2024-04-02 湖南工商大学 一种结合学术文本结构的文本检测方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2642401A1 (en) * 2008-11-20 2010-05-20 Gerard Voon Computing technology/artificial intelligence/neural links and/or multidimensional internet
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105138570A (zh) * 2015-07-26 2015-12-09 吉林大学 网络言论数据疑似犯罪度计算方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及系统
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106776554A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于多模态超图学习的微博情感预测方法
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212B (zh) * 2015-04-27 2018-04-10 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
US9704097B2 (en) * 2015-05-29 2017-07-11 Sas Institute Inc. Automatically constructing training sets for electronic sentiment analysis
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
KR101668581B1 (ko) * 2016-04-29 2016-10-21 박정선 센텐스 빌드업 영어학습 시스템, 이를 이용한 영어학습 방법 및 그 교습방법
US20180143975A1 (en) * 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN108376133A (zh) * 2018-03-21 2018-08-07 北京理工大学 基于情感词扩充的短文本情感分类方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2642401A1 (en) * 2008-11-20 2010-05-20 Gerard Voon Computing technology/artificial intelligence/neural links and/or multidimensional internet
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105138570A (zh) * 2015-07-26 2015-12-09 吉林大学 网络言论数据疑似犯罪度计算方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及系统
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106776554A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于多模态超图学习的微博情感预测方法
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘洪涛等.微博意见领袖对微博信息传播的影响研究.《情报科学》 .2015,51-55. *
张敏等.结合情感词典的主动贝叶斯文本情感分类方法.《华侨大学学报(自然科学版)》.2018,623-626. *

Also Published As

Publication number Publication date
CN111221962A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN108073568A (zh) 关键词提取方法和装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN111291188B (zh) 一种智能信息抽取方法及系统
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112699240A (zh) 中文情感特征词智能动态发掘和归类方法
Chandra et al. Semantic Analysis of Sentiments through Web-Mined Twitter Corpus.
CN111353044A (zh) 一种基于评论的情感分析方法及系统
Wankerl et al. f2tag—Can Tags be Predicted Using Formulas?
CN114138969A (zh) 文本处理方法及装置
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
JP2010271800A (ja) 回答文書分類装置、回答文書分類方法及びプログラム
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
CN114741471A (zh) 一种基于文本挖掘与多视角融合的个性化混合推荐方法
CN110399595B (zh) 一种文本信息标注的方法以及相关装置
CN109298796B (zh) 一种词联想方法及装置
CN112347753A (zh) 一种应用于阅读机器人的摘要生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant