CN107301171B - 一种基于情感词典学习的文本情感分析方法和系统 - Google Patents

一种基于情感词典学习的文本情感分析方法和系统 Download PDF

Info

Publication number
CN107301171B
CN107301171B CN201710713213.2A CN201710713213A CN107301171B CN 107301171 B CN107301171 B CN 107301171B CN 201710713213 A CN201710713213 A CN 201710713213A CN 107301171 B CN107301171 B CN 107301171B
Authority
CN
China
Prior art keywords
emotion
word
text data
preset
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710713213.2A
Other languages
English (en)
Other versions
CN107301171A (zh
Inventor
姬东鸿
柳宜江
周启楫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan Hongcha Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Hongcha Data Technology Co ltd filed Critical Wuhan Hongcha Data Technology Co ltd
Priority to CN201710713213.2A priority Critical patent/CN107301171B/zh
Publication of CN107301171A publication Critical patent/CN107301171A/zh
Application granted granted Critical
Publication of CN107301171B publication Critical patent/CN107301171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明特别涉及一种基于情感词典学习的文本情感分析方法和系统。方法包括以下步骤:对初始文本数据进行规范化处理,生成预处理文本数据,并将预处理文本数据聚类到预设领域;采用基于种子情感词典的情感词语发现方法,形成预设领域的专有情感词典;根据专有情感词典对预处理文本数据进行检索,获取目标文本数据作为对应预设领域的初始训练语料,并形成多分类器对输入的待分类文本进行分类。本发明减少了人力成本,避免了由单一分类器导致的过拟合问题,同时将文本相关领域纳入考虑,提高了对文本进行情感分析的准确性。

Description

一种基于情感词典学习的文本情感分析方法和系统
技术领域
本发明自然语言处理领域,尤其涉及一种基于情感词典学习的文本情感分析方法和系统。
背景技术
Web2.0时代,每一个网民都成了互联网的信息发布源。各种用途的信息发布平台应运而生,诸如FaceBook、校内网、新浪微博等,供用户发表、获取、分享各种信息。由于互联网用户基数大,每个信息发布平台信息发布平台平均每天产生的信息量也大,所以互联网每天产生的信息量也巨大。而情感分析又称情感挖掘、意见挖掘,是对文本进行处理、分析、归纳并推理,得出文本的情感色彩的过程,基于互联网每天产生的巨大信息量,对互联网数据进行挖掘和情感分析的难度也非常大。
在文本情感分析方面,外国学者主要是针对Twitter上的短文本信息作为语料进行分析。比如国外学者利用网站带情感标签的文本作为训练语料,采用文本抽象特征训练各种分类器进行主客观分类和情感极性分类。中文文本情感极性分析近来呈现高速发展的趋向,然而中文文本的复杂性比英文文本的复杂性要高得多,所以中文文本的分词质量往往对最后的分类结果影响很大。除此之外,由于中文的信息熵更大,中文文本内容丰富多彩,有很多网络词和新词加入其中,在研究工作中都是挑战。
就情感分析而言,有基于规则和基于学习的方法两种类别。基于规则的方法,一般由人工定义的规则库和情感词典组成,这种方法效果一般不错,但是人工工作量很大;基于学习的方法,大多是基于统计学习的方法,使用人工标注的语料进行模型训练,这种方法工作量较之前者稍低,但是效果不太理想。上述情感分析的各类方法中,人工标注处理的人力和物力成本很大且没有根据领域进行分领域处理,因此情感分析效果都不理想。
发明内容
为解决上述技术问题,本发明提供了一种基于情感词典学习的文本情感分析方法和系统。
第一方面,本发明实施例提供了一种基于情感词典学习的文本情感分析方法,包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应领域的分类器;
步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
上述方案的有益效果在于:本发明的基于情感词典学习的文本情感分析方法通过对情感分析分领域进行处理,不断自动扩充不同领域对应的情感词典,同时使用多分类器结合的方式对输入文本进行情感分析。与现有技术相比,本发明具有以下优点和有益效果:
1、本发明可以自动建立每个领域的专有情感词典,避免了全由人工建立的成本问题;
2、本发明建立了每个领域的专有情感词典,并将所述专有情感词典和基础情感词典组成联合情感词典,使情感词更加准确和全面;
3、使用少量人工筛选的原始语料作为训练数据,减少人力成本;
4、使用多分类器对输入文本进行情感分析,防止过拟合,使分析结果更加准确。
进一步的,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤5,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。
进一步,步骤1的所述规范化处理包括对所述初始文本数据进行去非文字符号处理和/或分隔符清理;所述步骤2中,采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。
进一步,所述步骤3具体包括:
计算所述预处理文本数据中每个词语的词向量,形成词向量表;
计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
进一步,所述步骤5具体为:对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,然后基于Adaboost迭代算法进行训练,并组合成每个预设领域对应的强分类器。
第二方面,本发明提供了一种基于情感词典学习的文本情感分析系统,包括预处理模块、聚类模块、第一生成模块、第二生成模块、训练模块和分类模块,
所述预处理模块用于采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
所述聚类模块用于采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
所述第一生成模块用于将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
所述第二生成模块用于对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
所述训练模块用于针对不同预设领域,使用每个预设领域的初始训练语料训练出每个预设领域对应的分类器;
所述分类模块用于获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
上述方案的有益技术效果在于:本发明的基于情感词典学习的文本情感分析系统通过对情感分析分领域进行处理,不断自动扩充不同领域对应的情感词典,同时使用多分类器结合的方式对输入文本进行情感分析。与现有技术相比,本发明可以自动建立每个领域的专有情感词典,避免了全由人工建立的成本问题;同时本发明建立了每个领域的专有情感词典,并将所述专有情感词典和基础情感词典组成联合情感词典,使情感词更加准确和全面;除此以外,本发明使用少量人工筛选的原始语料作为训练数据,减少人力成本,使用多分类器对输入文本进行情感分析,防止过拟合,使分析结果更加准确。
进一步,还包括修正模块,所述修正模块用于分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并驱动所述预处理模块、所述聚类模块、所述第一生成模块、所述第二生成模块、所述训练模块和所述分类模块,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。
进一步,所述预处理模块具体用于对所述初始文本数据进行去非文字符号处理和/或分隔符清理;所述聚类模块具体用于采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。
进一步,所述第一生成模块包括:
第一计算单元,用于计算所述预处理文本数据中每个词语的词向量,形成词向量表;
第二计算单元,用于计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
判断单元,用于查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
进一步,所述训练模块具体用于对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,并基于Adaboost迭代算法进行训练,组合成每个预设领域对应的强分类器。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明实施例1提供的一种基于情感词典学习的文本情感分析方法的示意性流程图;
图2为本发明实施例2提供的一种基于情感词典学习的文本情感分析系统的结构性示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装置结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
如图1给出了本发明实施例1提供的一种基于情感词典学习的文本情感分析方法的示意性流程图。如图1所示,方法的执行主体可以是服务器,该方法包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,比如获取情感倾向明显且无歧义的词语为第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应领域的分类器;
步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
本实施例的基于情感词典学习的文本情感分析方法可以建立并不断自动扩充不同领域对应的专有情感词典,不仅避免了全由人工建立产生的成本问题,而且可以将所述专有情感词典和基础情感词典组成联合情感词典,使情感词更加准确和全面;同时通过对情感分析分领域进行处理,且使用多分类器结合的方式对输入文本进行情感分析,可以防止过拟合,使分析结果更加准确。
以下对实施例1方法的每个步骤进行详细说明。
一个优选实施例的步骤1中,所述用于训练的初始文本数据可以是互联网的公开数据,也可以是通过其他途径采集到的其他数据,比如杂志数据等等,通过对所述初始文本数据进行去非文字符号、分隔符清理等处理,得到规范化的预处理文本数据,从而方便后面步骤根据所述预处理文本数据形成专有情感词典和分类词。
另一个优选实施例的步骤2中,可以采用ElasticSearch检索工具或者其他的检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。Elasticsearch是一个实时的分布式搜索和分析引擎,它可以采用全文搜索分析和结构化搜索分析对大规模数据进行处理,而且处理数据的速度非常快,从而可以快速的将所述预处理文本数据聚类到预设关键词对应的预设领域,比如将所述预处理文本数据聚类到篮球、证券和禽流感等预设关键词对应的体育、金融和疾病等预设领域。
在一个优选实施例中,建立每个预设领域的专有情感词典,即所述步骤3具体包括以下步骤:
S301,计算所述预处理文本数据中每个词语的词向量,形成词向量表;
S302,计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
S303,查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
上述优选实施例中可以采用文本深度表示模型(如word2vec)将预处理文本数据中的单词进行表征获得词向量。word2vec是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算。而PMI值,即Point-Wise MutualInformation的简称,在统计中经常被用来检验两个事物的相关程度,其公式为:|
Figure BDA0001383191380000091
其中,P(x)是x单独出现的概率,而P(x,y)是x和y同时出现的概率。当x和y独立时,PMI值为0,在本发明中即表示预处理文本数据的词语和种子情感词典的情感词语完全不相关;而x和y正相关性越高,PMI值也越大,因此通过计算PMI值,即可获取到预处理文本数据中与种子情感词典的情感词语相关的目标词语。而两个向量的Cosin距离即这两个向量之间的夹角,通过Cosin距离即可判断目标词语和种子情感词典的情感词语的相似度,当相似度达到预设阈值且极性相同时,则可以将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典,形成每个预设领域对应的专有情感词典,从而对输入的待分类文本按领域进行分类,提高了文本分析的准确性。
在另一优选实施例中,所述步骤5具体为:对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,并基于Adaboost迭代算法进行训练,组合成每个预设领域对应的强分类器,从而根据用户的输入,将输入文本归为相应类别,即得到由多分类器计算出的情感分析结果,比如积极、消极或者中性。上述优选实施例可以快速训练出每个预设领域对应的分类器,从而通过多分类器对输入的待分类文本按领域进行分类,提高了情感分析的速度。
在其他优选实施例中,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤5,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。上述优选实施例可以将分类明显错误的数据加入训练语料,从而对该预设领域的专有情感词典和分类器不断修正,进一步提高本发明文本情感分析方法的分类准确性。
图2为本发明实施例2提供的一种基于情感词典学习的文本情感分析系统的结构性示意图,如图2所示,包括预处理模块、聚类模块、第一生成模块、第二生成模块、训练模块和分类模块;
所述预处理模块用于采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
所述聚类模块用于采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
所述第一生成模块用于将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
所述第二生成模块用于对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,比如获取情感倾向明显且无歧义的词语为第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
所述训练模块用于针对不同预设领域,使用每个预设领域的初始训练语料训练出每个预设领域对应的分类器;
所述分类模块用于获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
上述实施例的基于情感词典学习的文本情感分析系统可以建立并不断自动扩充不同领域对应的专有情感词典,不仅避免了全由人工建立产生的成本问题,而且可以将所述专有情感词典和基础情感词典组成联合情感词典,使情感词更加准确和全面;同时通过对情感分析分领域进行处理,且使用多分类器结合的方式对输入文本进行情感分析,可以防止过拟合,使分析结果更加准确。
优选实施例中,上述基于情感词典学习的文本情感分析系统还包括修正模块,所述修正模块用于分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并驱动所述预处理模块、所述聚类模块、所述第一生成模块、所述第二生成模块、所述训练模块和所述分类模块,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。上述优选实施例可以将分类明显错误的数据加入训练语料,从而对该预设领域的专有情感词典和分类器不断修正,进一步提高本发明文本情感分析方法的分类准确性。
在另一优选实施例中,所述预处理模块具体用于对所述初始文本数据进行去非文字符号处理和/或分隔符清理;所述聚类模块具体用于采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。
在另一优选实施例中,所述第一生成模块包括:
第一计算单元,用于计算所述预处理文本数据中每个词语的词向量,形成词向量表;
第二计算单元,用于计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
判断单元,用于查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
在另一优选实施例中,所述训练模块具体用于对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,并基于Adaboost迭代算法进行训练,组合成每个预设领域对应的强分类器。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于情感词典学习的文本情感分析方法,其特征在于,包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取情感倾向明显且无歧义的词语为第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应预设领域的分类器;
步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
2.根据权利要求1所述的基于情感词典学习的文本情感分析方法,其特征在于,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤5,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。
3.根据权利要求1或2所述的基于情感词典学习的文本情感分析方法,其特征在于,步骤1的所述规范化处理包括对所述初始文本数据进行去非文字符号处理和/或分隔符清理;
以及所述步骤2中,采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。
4.根据权利要求3所述的基于情感词典学习的文本情感分析方法,其特征在于,所述步骤3具体包括以下步骤:
计算所述预处理文本数据中每个词语的词向量,形成词向量表;
计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
5.根据权利要求4所述的基于情感词典学习的文本情感分析方法,其特征在于,所述步骤5具体为:对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,然后基于Adaboost迭代算法进行训练,并组合成每个预设领域对应的强分类器。
6.一种基于情感词典学习的文本情感分析系统,其特征在于,包括预处理模块、聚类模块、第一生成模块、第二生成模块、训练模块和分类模块,
所述预处理模块用于采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
所述聚类模块用于采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
所述第一生成模块用于将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
所述第二生成模块用于对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取情感倾向明显且无歧义的词语为第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
所述训练模块用于针对不同预设领域,使用每个预设领域的初始训练语料训练出对应预设领域的分类器;
所述分类模块用于获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
7.根据权利要求6所述的基于情感词典学习的文本情感分析系统,其特征在于,还包括修正模块,所述修正模块用于分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并驱动所述预处理模块、所述聚类模块、所述第一生成模块、所述第二生成模块、所述训练模块和所述分类模块,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。
8.根据权利要求6或7所述的基于情感词典学习的文本情感分析系统,其特征在于,所述预处理模块具体用于对所述初始文本数据进行去非文字符号处理和/或分隔符清理;
所述聚类模块具体用于采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。
9.根据权利要求8所述的基于情感词典学习的文本情感分析系统,其特征在于,所述第一生成模块包括:
第一计算单元,用于计算所述预处理文本数据中每个词语的词向量,形成词向量表;
第二计算单元,用于计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
判断单元,用于查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
10.根据权利要求9所述的基于情感词典学习的文本情感分析系统,其特征在于,所述训练模块具体用于对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,并基于Adaboost迭代算法进行训练,组合成每个预设领域对应的强分类器。
CN201710713213.2A 2017-08-18 2017-08-18 一种基于情感词典学习的文本情感分析方法和系统 Active CN107301171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710713213.2A CN107301171B (zh) 2017-08-18 2017-08-18 一种基于情感词典学习的文本情感分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710713213.2A CN107301171B (zh) 2017-08-18 2017-08-18 一种基于情感词典学习的文本情感分析方法和系统

Publications (2)

Publication Number Publication Date
CN107301171A CN107301171A (zh) 2017-10-27
CN107301171B true CN107301171B (zh) 2020-09-01

Family

ID=60132324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710713213.2A Active CN107301171B (zh) 2017-08-18 2017-08-18 一种基于情感词典学习的文本情感分析方法和系统

Country Status (1)

Country Link
CN (1) CN107301171B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069627A (zh) * 2017-11-20 2019-07-30 中国移动通信集团上海有限公司 短文本的分类方法、装置、电子设备和存储介质
CN108121700B (zh) * 2017-12-21 2021-06-25 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108052982B (zh) * 2017-12-22 2021-09-03 深圳市云网拜特科技有限公司 一种基于贴图表情的情感检测方法以及系统
CN108108355A (zh) * 2017-12-25 2018-06-01 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的文本情感分析方法和系统
CN107992633B (zh) * 2018-01-09 2021-07-27 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN110134934A (zh) * 2018-02-02 2019-08-16 普天信息技术有限公司 文本情感分析方法和装置
CN108509629B (zh) * 2018-04-09 2022-05-13 南京大学 一种基于情感词典和支持向量机的文本情感分析方法
CN108664469B (zh) * 2018-05-07 2021-11-19 首都师范大学 一种情感类别确定方法、装置及服务器
CN109190106B (zh) * 2018-07-16 2023-01-10 中国传媒大学 情感词典构建系统及构建方法
CN109034497A (zh) * 2018-08-31 2018-12-18 广东工业大学 多晶硅还原工序能耗值的预测方法、系统、介质及设备
CN109325119B (zh) * 2018-09-05 2024-03-15 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109492105B (zh) * 2018-11-10 2022-11-15 上海五节数据科技有限公司 一种基于多特征集成学习的文本情感分类方法
CN109684634B (zh) * 2018-12-17 2023-07-25 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109885687A (zh) * 2018-12-29 2019-06-14 深兰科技(上海)有限公司 一种文本的情感分析方法、装置、电子设备及存储介质
CN109933648B (zh) * 2019-02-28 2022-07-05 北京学之途网络科技有限公司 一种真实用户评论的区分方法和区分装置
CN109933795B (zh) * 2019-03-19 2023-07-28 上海交通大学 基于上下文-情感词向量的文本情感分析系统
CN110222185A (zh) * 2019-06-13 2019-09-10 哈尔滨工业大学(深圳) 一种关联实体的情感信息表示方法
CN110569354B (zh) * 2019-07-22 2022-08-09 中国农业大学 弹幕情感分析方法及装置
CN110888983B (zh) * 2019-11-26 2022-07-15 厦门市美亚柏科信息股份有限公司 一种正负面情感分析方法、终端设备及存储介质
CN111164589A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 说话内容的情感标注方法、装置、设备及存储介质
CN111931481A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本情感识别方法、装置、存储介质及计算机设备
CN111898377A (zh) * 2020-07-07 2020-11-06 苏宁金融科技(南京)有限公司 一种情感识别方法、装置、计算机设备及存储介质
CN111985223A (zh) * 2020-08-25 2020-11-24 武汉长江通信产业集团股份有限公司 一种基于长短记忆网络和情感词典结合的情感计算方法
CN112507115B (zh) * 2020-12-07 2023-02-03 重庆邮电大学 一种弹幕文本中情感词的分类方法、装置及存储介质
CN112784583A (zh) * 2021-01-26 2021-05-11 浙江香侬慧语科技有限责任公司 一种多角度情感分析方法、系统、存储介质及设备
CN113254590B (zh) * 2021-06-15 2021-11-09 北京建筑大学 一种基于多核双层卷积神经网络的中文文本情绪分类方法
CN113807518B (zh) * 2021-08-16 2024-04-05 中央财经大学 基于远程监督的关系抽取系统
CN114417851B (zh) * 2021-12-03 2024-08-23 重庆邮电大学 一种基于关键词加权信息的情感分析方法
CN115080752B (zh) * 2022-08-18 2022-12-02 湖南大学 基于特征领域知识自动获取的数值特征发现方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
WO2014028648A2 (en) * 2012-08-15 2014-02-20 Thomson Reuters Global Resources (Trgr) System and method for forming predictions using event-based sentiment analysis
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014028648A2 (en) * 2012-08-15 2014-02-20 Thomson Reuters Global Resources (Trgr) System and method for forming predictions using event-based sentiment analysis
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Topic-Independent Hybrid Approach for Sentiment Analysis of Chinese Microblog;Ping Han等;《2016 IEEE 17th International Conference on Information Reuse and Integration (IRI)》;20161231;463-468 *
Combining a large sentiment lexicon and machine learning for subjectivity classification;BIN LU等;《Machine Learning and Cybernetics》;20100615;3311-3316 *
基于SVM和CRF多特征组合的微博情感分析;李婷婷等;《计算机应用研究》;20141029;第32卷(第4期);978-981 *
基于情感词典拓展和词向量的中文情感分析技术的研究;丁卜建;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;I138-482 *

Also Published As

Publication number Publication date
CN107301171A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN107301171B (zh) 一种基于情感词典学习的文本情感分析方法和系统
Rathi et al. Sentiment analysis of tweets using machine learning approach
Ma et al. Using Word2Vec to process big text data
US20180307680A1 (en) Keyword recommendation method and system based on latent dirichlet allocation model
Sridhar Unsupervised topic modeling for short texts using distributed representations of words
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN105912576B (zh) 情感分类方法及系统
Aker et al. What works and what does not: Classifier and feature analysis for argument mining
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
Wang et al. I can has cheezburger? a nonparanormal approach to combining textual and visual information for predicting and generating popular meme descriptions
CN101561805A (zh) 文档分类器生成方法和系统
CN106649258A (zh) 一种智能的问答系统
Raychev et al. Language-independent sentiment analysis using subjectivity and positional information
Sindhwani et al. Uncertainty sampling and transductive experimental design for active dual supervision
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110555440B (zh) 一种事件抽取方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111626050B (zh) 基于表情词典与情感常识的微博情感分析方法
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
Patel et al. Dynamic lexicon generation for natural scene images
CN110909116A (zh) 一种面向社交媒体的实体集合扩展方法及系统
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230202

Address after: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee after: WUHAN University

Address before: Floor 5, building A4, optics valley software park, Hongshan District, Wuhan City, Hubei Province 430000

Patentee before: WUHAN HONGCHA DATA TECHNOLOGY CO.,LTD.