CN111241286A - 一种基于混合分类器的短文本情感细分类方法 - Google Patents

一种基于混合分类器的短文本情感细分类方法 Download PDF

Info

Publication number
CN111241286A
CN111241286A CN202010045736.6A CN202010045736A CN111241286A CN 111241286 A CN111241286 A CN 111241286A CN 202010045736 A CN202010045736 A CN 202010045736A CN 111241286 A CN111241286 A CN 111241286A
Authority
CN
China
Prior art keywords
classifier
text
emotion
classification
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010045736.6A
Other languages
English (en)
Inventor
卢莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongfanghong Satellite Mobile Communication Co Ltd
Original Assignee
Dongfanghong Satellite Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongfanghong Satellite Mobile Communication Co Ltd filed Critical Dongfanghong Satellite Mobile Communication Co Ltd
Priority to CN202010045736.6A priority Critical patent/CN111241286A/zh
Publication of CN111241286A publication Critical patent/CN111241286A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于混合分类器的短文本情感细分类方法,采用支持向量机分类器、长短记忆网络分类器和基于词典的分类方法组合而成的混合分类器,使用少量的训练样本对各分类器进行训练,然后利用各分类器对未标注样本进行情感类别的预测,使用加权公式计算出文本的置信度,将置信度较高的文本加入到训练集中,再用新的训练集对分类器进行训练,如此迭代形成效果最佳的分类器进行分类。本发明具有分类效果好、标注训练集需求小的优点。

Description

一种基于混合分类器的短文本情感细分类方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于混合分类器的短文本情感细分类方法。
背景技术
随着互联网技术的发展,越来越多的信息平台随之产生,包含了日常生活中的方方面面,如社会资讯、热点新闻、购物、娱乐等,人们根据爱好的不同在各种平台发布自己的感受,但是每个人对生活中的各种现象所表达的态度和意见也存在极大差异,这种差异蕴含着极大的商业价值和社会价值。因此,对这类文本进行情感分析具有十分重要的意义和应用价值。
近年来随着学术界对文本情感分析的不断重视,国内外的研究机构不断投入人力、物力对其进行研究,目前对文本的分类根据粒度的不同分为词语级、句子级、篇章级三种不同的级别。对文本情感类别的分类包含二分类(正向和负向),三分类(正向、中性以及负向),多分类(喜、怒、哀、乐等情感),使用的分类技术主要分为基于词典和规则的分类方法和基于机器学习的情感分类方法。使用基于情感词典的情感分类技术对情感词典的依赖性较强,情感词典的质量对最终情感类别的预测准确率起决定性作用,同时由于中文语义表达的多样且语境复杂,使得基于情感词典的情感分类方法对文本的分类效果不尽如意。相比之下,机器学习方法更适用于文本的情感分类。
基于机器学习的方法在对文本进行情感分类时需要将文本转化为机器学习可以识别的向量模型,再使用分类算法对带有标签的文本进行学习,当分类算法中的参数取得最优时,再使用分类算法对没有标签的文本进行分类。基于机器学习的学习模式主要有监督学习、半监督学习、无监督学习。监督学习需要大量的标注样本,这在实际的应用中造成大量人力成本的消耗。无监督学习虽然不需要对样本进行标注,但是它对初始参数的选取要求较高。半监督学习对标注样本的需求量没有那么大,同时相对于无监督学习,半监督学习往往会取得更高的分类准确率。
在实际应用中半监督学习虽然可以减少对标注训练集数量的需求,但是由于已标注的文本训练集数量较少,无法对单个的分类器训练出较高的准确率,这就导致分类器对未标注的样本的分类准确率低,对样本标以错误的情感标签,这些错误的标签会添加到训练集中,会对训练集造成噪声污染,对分类器的训练结果造成影响。因此在既能发挥半监督学习在少量标注训练集下的优势,又可以保证情感分类的正确率不低很重要。
发明内容
针对上述现有技术的不足,本专利申请所要解决的技术问题是:如何提供一种分类效果好、标注训练集需求小的基于混合分类器的短文本情感细分类方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于混合分类器的短文本情感细分类方法,:采用长短记忆网络分类器、支持向量机分类器和基于词典的分类方法形成混合分类器,达到使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,具体包括以下步骤:
S1:对文本进行预处理;
S2:将S1中预处理后的带有标签的样本分别对长短记忆网络分类器、支持向量机分类器进行训练;
S3:将未标注的文本在S2中训练好的两种分类器和基于情感词典的方法进行感情类别预测,输出结果为CL、CS和CD
S4:判断三个分类器的预测结果,若相同,则确定当前情感类别的预测值,并进入步骤S5,若不相同放弃当前文本情感类别预测值,并返回S3;
S5:确定文本的情感类别后,根据分类器的不同效果,确定每个分类器的最终置信度贡献值PL、PS和PD
S6:根据分类器的性能确定最终置信度计算中的权重Wl、Ws和Wd
S7:根据文本置信度的计算公式计算出文本的置信度,判断置信度是否超过设置阈值,若超过,将文本打上相应情感类别的标签,将打好标签的文本添加到训练集中,形成新的训练集并进入S8,若未超过,返回S2;
S8:将新的训练集返回S2进行新的训练;同时进行S9;
S9:判断新的训练集在总语料中的不同占比,寻找分类效果最好的混合分类器,并利用该分类器对短文本进行最终分类。
优选的,步骤S1中对文本进行预处理时,包括文本清洗和文本分词的操作。
优选的,步骤S3中,进行长短记忆网络分类器、支持向量机分类器和基于词典的分类方法预测前,需要对每个分类器的正常情感预测结果分类进行统计,并进行对比。
优选的,步骤S5中,在进行贡献值确定时,分类器的不同效果体现在预测结果中属于该分类器的次数多则提升对应的贡献值,反之亦然。
优选的,分类器的性能为分类器的准确率。
优选的,对置信度进行计算式,采用如下公式:
CS=PS·Ws+PL·Wl+PD·Wd
其中Ws、Wl、Wd每个分类器在最终置信度中所占的权重。
有益效果
(1)本发明的一种基于混合分类器的短文本情感细分类方法,采用半监督学习,相对于监督学习来说,对标注训练集的需求量没有那么大,与无监督学习相比,对初始参数的选取没有那么高的要求。
(2)本发明的一种基于混合分类器的短文本情感细分类方法,采用支持向量机、长短记忆网络和基于词典的分类方法组合而成的混合分类器,对未标注的样本进行选优,提高训练集的质量,降低噪声的引入。
附图说明:
图1为本发明公开的基于混合分类器的短文本情感细分类方法的流程以及权值调节图。
图2为根据训练语料在总语料中占比不同的准确率变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于混合分类器的短文本情感细分类方法,采用长短记忆网络分类器、支持向量机分类器和基于词典的分类方法形成混合分类器,达到使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,具体包括一下步骤:
S1:对文本进行预处理;
S2:将S1中预处理后的带有标签的样本分别对长短记忆网络分类器、支持向量机分类器进行训练;
S3:将未标注的文本在S2中训练好的两种分类器和基于情感词典的方法进行感情类别预测,输出结果为CL、CS和CD
S4:判断三个分类器的预测结果,若相同,则确定当前情感类别的预测值,并进入步骤S5,若不相同放弃当前文本情感类别预测值,并返回S3;
S5:确定文本的情感类别后,根据分类器的不同效果,确定每个分类器的最终置信度贡献值PL、PS和PD
S6:根据分类器的性能确定最终置信度计算中的权重Wl、Ws和Wd
S7:根据文本置信度的计算公式计算出文本的置信度,判断置信度是否超过设置阈值,若超过,将文本打上相应情感类别的标签,将打好标签的文本添加到训练集中,形成新的训练集并进入S8,若未超过,返回S2;
S8:将新的训练集返回S2进行新的训练;同时进行S9;
S9:判断新的训练集在总语料中的不同占比,寻找分类效果最好的混合分类器,并利用该分类器对短文本进行最终分类。
本实施例中,步骤S1中对文本进行预处理时,包括文本清洗和文本分词的操作。
本实施例中,步骤S3中,进行长短记忆网络分类器、支持向量机分类器和基于词典的分类方法预测前,需要对每个分类器的正常情感预测结果分类进行统计,并进行对比。
本实施例中,步骤S5中,在进行贡献值确定时,分类器的不同效果体现在预测结果中属于该分类器的次数多则提升对应的贡献值,反之亦然。
本实施例中,分类器的性能为分类器的准确率。
本实施例中,对置信度进行计算式,采用如下公式:
CS=PS·Ws+PL·Wl+PD·Wd
其中Ws、Wl、Wd每个分类器在最终置信度中所占的权重。
具体的,由于训练阶段的不同,新的训练集规模不同,对分类器的训练结果不同,根据训练样本集占总语料的不同百分比,将权重分为不同等级,分别为30%、40%、50%、60%、70%、80%、90%,利用该等级训练集训练出的各分类器对测试集进行情感分类预测,将得到的各分类器的准确率作为其情感贡献权重值进行进一步的训练。
如图2所示,可知混合分类器的分类效率比单分类器的分类效果高,主要原因是混合分类器的预测结果是对三个分类器的预测结果选优,这会使得分类的准确率较高,减少训练时训练集中的噪声的混入,提高训练集的质量,进而提升分类器的预测准确率。通过实验,也可知混合分类器对短文本进行训练时,对标注文本的需求量明显比监督学习少,主要原因是半监督学习在训练的过程中不断的对训练集进行扩充,并且继续使用扩充的训练集进行训练。这样就保证了分类器的训练样本的最终的规模是可以的。该方法充分利用了标注样本,也有效地降低噪音,从而提高分类的效果。
有益效果
(1)本发明的一种基于混合分类器的短文本情感细分类方法,采用半监督学习,相对于监督学习来说,对标注训练集的需求量没有那么大,与无监督学习相比,对初始参数的选取没有那么高的要求。
(2)本发明的一种基于混合分类器的短文本情感细分类方法,采用支持向量机、长短记忆网络和基于词典的分类方法组合而成的混合分类器,对未标注的样本进行选优,提高训练集的质量,降低噪声的引入。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于混合分类器的短文本情感细分类方法,其特征在于:主要包括以下步骤:采用长短记忆网络分类器、支持向量机分类器和基于词典的分类方法形成混合分类器,达到使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,具体包括一下步骤:
S1:对文本进行预处理;
S2:将S1中预处理后的带有标签的样本分别对长短记忆网络分类器、支持向量机分类器进行训练;
S3:将未标注的文本在S2中训练好的两种分类器和基于情感词典的方法进行感情类别预测,输出结果为CL、CS和CD
S4:判断三个分类器的预测结果,若相同,则确定当前情感类别的预测值,并进入步骤S5,若不相同放弃当前文本情感类别预测值,并返回S3;
S5:确定文本的情感类别后,根据分类器的不同效果,确定每个分类器的最终置信度贡献值PL、PS和PD
S6:根据分类器的性能确定最终置信度计算中的权重Wl、Ws和Wd
S7:根据文本置信度的计算公式计算出文本的置信度,判断置信度是否超过设置阈值,若超过,将文本打上相应情感类别的标签,将打好标签的文本添加到训练集中,形成新的训练集并进入S8,若未超过,返回S2;
S8:将新的训练集返回S2进行新的训练;同时进行S9;
S9:判断新的训练集在总语料中的不同占比,寻找分类效果最好的混合分类器,并利用该分类器对短文本进行最终分类。
2.根据权利要求1所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤S1中对文本进行预处理时,包括文本清洗和文本分词的操作。
3.根据权利要求2所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤S3中,进行长短记忆网络分类器、支持向量机分类器和基于词典的分类方法预测前,需要对每个分类器的正常情感预测结果分类进行统计,并进行对比。
4.根据权利要求3所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤S5中,在进行贡献值确定时,分类器的不同效果体现在预测结果中属于该分类器的次数多则提升对应的贡献值,反之亦然。
5.根据权利要求4所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤S6中,分类器的性能为分类器的准确率。
6.根据权利要求5所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤S7中,对置信度进行计算式,采用如下公式:
CS=PS·Ws+PL·Wl+PD·Wd
其中Ws、Wl、Wd每个分类器在最终置信度中所占的权重。
CN202010045736.6A 2020-01-16 2020-01-16 一种基于混合分类器的短文本情感细分类方法 Pending CN111241286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045736.6A CN111241286A (zh) 2020-01-16 2020-01-16 一种基于混合分类器的短文本情感细分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045736.6A CN111241286A (zh) 2020-01-16 2020-01-16 一种基于混合分类器的短文本情感细分类方法

Publications (1)

Publication Number Publication Date
CN111241286A true CN111241286A (zh) 2020-06-05

Family

ID=70877809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045736.6A Pending CN111241286A (zh) 2020-01-16 2020-01-16 一种基于混合分类器的短文本情感细分类方法

Country Status (1)

Country Link
CN (1) CN111241286A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
US20160098480A1 (en) * 2014-10-01 2016-04-07 Xerox Corporation Author moderated sentiment classification method and system
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
US20170164011A1 (en) * 2009-08-18 2017-06-08 Jinni Content classification system
CN107844558A (zh) * 2017-10-31 2018-03-27 金蝶软件(中国)有限公司 一种分类信息的确定方法以及相关装置
CN108920451A (zh) * 2018-06-08 2018-11-30 天津大学 基于动态阈值和多分类器的文本情感分析方法
CN110309302A (zh) * 2019-05-17 2019-10-08 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统
CN110427458A (zh) * 2019-07-03 2019-11-08 南京理工大学 基于双门lstm的社交网络双语的五分类情感分析方法
CN110633367A (zh) * 2019-09-12 2019-12-31 河南工业大学 一种基于情感词典与微博文本数据的七情感分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
US20170164011A1 (en) * 2009-08-18 2017-06-08 Jinni Content classification system
US20160098480A1 (en) * 2014-10-01 2016-04-07 Xerox Corporation Author moderated sentiment classification method and system
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
CN107844558A (zh) * 2017-10-31 2018-03-27 金蝶软件(中国)有限公司 一种分类信息的确定方法以及相关装置
CN108920451A (zh) * 2018-06-08 2018-11-30 天津大学 基于动态阈值和多分类器的文本情感分析方法
CN110309302A (zh) * 2019-05-17 2019-10-08 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及系统
CN110427458A (zh) * 2019-07-03 2019-11-08 南京理工大学 基于双门lstm的社交网络双语的五分类情感分析方法
CN110633367A (zh) * 2019-09-12 2019-12-31 河南工业大学 一种基于情感词典与微博文本数据的七情感分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIN-YUH DAY等: "Deep Learning for Sentiment Analysis on Google Play Consumer Review" *
张子睿: "面向中文短文本的情感分析关键技术研究" *
陈珂等: "基于半监督学习的微博情感分析" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN112115259B (zh) * 2020-06-17 2024-06-25 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
JP7253848B2 (ja) 言語間遷移を支援する細粒度感情解析方法
Ruangkanokmas et al. Deep belief networks with feature selection for sentiment classification
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN112084335A (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN110909529B (zh) 一种公司形象提升系统的用户情感分析和预判系统
CN108090099B (zh) 一种文本处理方法及装置
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN111814453B (zh) 基于BiLSTM-TextCNN的细粒度情感分析方法
CN113254637A (zh) 一种融合语法的方面级文本情感分类方法及系统
CN103020167B (zh) 一种计算机中文文本分类方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN112765315B (zh) 一种法律场景智能分类系统和方法
CN112487237B (zh) 基于自适应cnn和半监督自训练模型的音乐分类方法
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN107818173A (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114091469B (zh) 基于样本扩充的网络舆情分析方法
CN117350287B (zh) 一种基于舆情大数据的文本情感分析方法
CN111241286A (zh) 一种基于混合分类器的短文本情感细分类方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200605