CN108228569B - 一种基于松散条件下协同学习的中文微博情感分析方法 - Google Patents

一种基于松散条件下协同学习的中文微博情感分析方法 Download PDF

Info

Publication number
CN108228569B
CN108228569B CN201810091745.1A CN201810091745A CN108228569B CN 108228569 B CN108228569 B CN 108228569B CN 201810091745 A CN201810091745 A CN 201810091745A CN 108228569 B CN108228569 B CN 108228569B
Authority
CN
China
Prior art keywords
microblog
data set
microblogs
feature
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810091745.1A
Other languages
English (en)
Other versions
CN108228569A (zh
Inventor
李玉强
孙念
黎威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201810091745.1A priority Critical patent/CN108228569B/zh
Publication of CN108228569A publication Critical patent/CN108228569A/zh
Application granted granted Critical
Publication of CN108228569B publication Critical patent/CN108228569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明涉及一种基于松散条件下协同学习的中文微博情感分析方法,包括:(1)构建初始已标注微博数据集L和未标注微博数据集U;(2)对已标注数据集L和未标注数据集U进行特征提取;(3)构造SVM分类器C1和LSTM分类器C2,利用已标注数据集L对C1、C2分别进行训练;(4)利用训练好的两个分类模型对未标注数据集U进行预测;(5)选择未标注样本加入到训练集,以修正分类模型。本发明的优点在于充分考虑了文本中不确定性和置信度这些信息量,从而能选取对两个分类模型最有帮助的样本数据进行人工标注以减少噪声样本的引入;并且分别从词法信息要素的角度和文本上下文相关的语法角度来构造协同学习的框架,提高分类的准确率。

Description

一种基于松散条件下协同学习的中文微博情感分析方法
技术领域
本发明属于文本情感分析技术领域,尤其涉及一种基于松散条件下协同学习的微博情感分析方法。
背景技术
伴随着Web2.0时代的飞速发展,互联网上出现了大量带有情感色彩的文字,微博作为一种以社交方式搭建的平台为大众所接受,且成为信息传播、舆情监控的重要平台。通过对微博情感信息的分析,可以及时掌握用户的态度,这是掌握网络舆情的一个重要手段途径。微博情感分析主要是利用用户发布的微博数据对用户情感倾向加以分析和挖掘,识别出用户发布的文本情感极性,如高兴、悲伤、中立等。
在实际分类问题中,能够使用的已标注样本数据少之又少,多数学者选择通过利用未标注数据来解决这个问题,利用未标注数据的主流学习技术分为三种:半监督学习、主动学习和直推学习。半监督学习方法是目前最受国内外学者欢迎的基于机器学习的方法,它采取综合少量已标注样本和大量未标注样本来提高学习性能的机器学习方法,兼顾了人工标注成本和学习效果,被视为监督学习和无监督学习的一种折中方案。在最早的协同学习算法被提出后,很多研究者对其进行了研究并取得了很多进展,使得协同学习成为半监督学习中最重要的风范。
主动学习的思想是,在训练过程中,从未标记样本中找出含有较多分类信息的样本,优先标注这些样本,从而让分类系统获得较大的信息增益。主动学习算法的样本数据选择策略是一大研究热点。按照获取样本的工作方式不同可将现有的样本选择策略分为基于流和基于池的策略。在基于流的选择策略中,未标注的样本以数据流的方式逐个提交给学习者,由学习者实时决定是否需要标注当前提交的样本;而在基于池的选择策略中,学习者根据样本选择策略从一个含有未标注样本的历史数据池中选择当前需要标注的样本。但是目前的研究主要是针对单一的选择策略,没有考虑利用文本中的其他信息量,例如置信度。
Blum等提出的协同学习算法,基于这样的强假设:特征充分且冗余,即满足下列条件的两个特征集:1)一致性,每一个特征集都包含足够的分类信息进行分类学习且分类器的目标函数在每个特征集上都能够训练出一个强分类模型;2)独立性,两个特征集相互条件独立。在特征充分和冗余的情况下,可将其进行自然分裂或合理地划分,此时,协同学习要优于其他半监督学习。但是,在大多数情况下,特征充分冗余的要求往往很难得到满足,所以研究者试图寻找协同学习的变种,来降低这一要求。
发明内容
鉴于现有的主动学习样本选择策略单一的问题,围绕半监督学习算法中的协同学习算法,提出利用主动学习的思想对协同学习的自标注样本进行选择,采用不确定性选择策略与最高置信度选择策略相结合的方法选择样本数据加入到训练数据集中,以充分利用样本的信息量。并在此基础上,针对协同学习算法中,充分冗余的特征视图难以满足的这一问题,提出一种基于SVM算法和LSTM算法的松散条件下的协同学习算法模型,来提高中文微博的情感分类的准确率。
一种基于松散条件下协同学习的中文微博情感分析方法,其特征在于,包括如下步骤:
步骤1、构建初始已标注微博数据集L和未标注微博数据集U,具体是:从NLP&CC提供的中文微博情感标注语料集得到L+P+Q+W条已标注微博,并从从已标注微博语料集中随机选取M条积极微博和N条消极微博作为训练集L,再选取P条积极微博和Q条消极微博作为测试集,剩下的W的条已标注微博作为不确定性样本数据集;
步骤2、对已标注微博数据集L和未标注微博数据集U进行特征提取,特征提取包含:分词、去停用词、特征提取、特征加权,具体是从文本的向量空间模型VSM表示和词向量的分布式特征两个视图进行提取,特征提取基于CHI特征选择,CHI特征选择通过度量特征项t和情感类别c之间的关联度,具体计算公式如下:
Figure BDA0001563896150000021
其中,公式中各个参数的含义,说明如下:N表示训练集L中微博的总数;A表示在类别c中,包含特征项t的微博数量;B表示类别c中,排除该类别,其他类别包含特征项t的微博的数量;C表示在类别c中,不包含特征项t的微博的数量;D表示在类别c中,不包含特征项t也不在该类别中的微博数量。特征加权基于TF-IDF权重计算方法,TF表示某一个特征项在该微博中出现的频率,特征项t的TF值具体计算公式如下:
Figure BDA0001563896150000031
其中,nt,j表示特征项t在微博j中出现的次数,∑knk,j表示微博j中所有特征项出现的次数之和。
IDF表示的是反文档频率,是指如果包含某个特征项的微博越少,IDF越大,说明该特征项具有很好的类别区分能力,特征项t的IDF值具体计算公式如下:
Figure BDA0001563896150000032
其中,N表示所有微博总数,Nt表示包含特征项t的微博总数。TF-IDF的计算公式如下:
TF-IDF=TF*IDF
步骤3、构造SVM分类器C1和LSTM分类器C2,利用已标注微博数据集L对C1、C2分别进行训练,具体是:SVM分类器采用LibSVM工具包实现,LSTM分类模型中,采用word2vec模型训练得到的词向量作为输入,设置词向量的维数(这里设置50),输出包含整个微博文本词序列信息的实值向量,最后利用Softmax函数来得到文本的情感极性;
步骤4、利用训练好的分类模型对未标注微博数据集U进行预测,具体方法是:利用训练好的两个分类模型分别对未标注微博数据集U进行预测,预测值的范围控制在[-1,1]区间,越接近-1说明微博的消极程度越高,越接近1说明微博的积极程度越高,将预测后得到的两个预测置信度进行取平均值得到整体预测置信度。
步骤5、选择未标注样本加入到训练集,以修正分类模型。其中,未标注样本是根据不确定性最高策略和置信度最高策略相结合进行选择,具体包括:首先根据步骤4中的整体预测置信度大小,将样本进行降序排列,选取前m个样本,即为置信度最高的m个样本加入到已标注微博数据集L中;然后选取不确定性最高的n个样本,交由人工标注后,加入到已标注微博数据集L中。其中,不确定性权值的计算公式为:
Figure BDA0001563896150000033
其中,Uncertain(d)表示样本d的不确定性权值,pos表示情感极性为积极的微博样本,neg表示情感极性为消极的微博样本,neu表示情感极性为中性的微博样本,p(yi|d)表示样本d属于类别yi的分类置信度。
本发明的优点在于:(1)充分考虑了文本中不确定性和置信度这些信息量,从而能选取对两个分类模型最有帮助的样本数据进行人工标注以减少噪声样本的引入。(2)分别从词法信息要素的角度和文本上下文相关的语法角度来构造协同学习的框架,提高分类的准确率。
附图说明
图1为松散条件下的协同学习框架图。
图2为不确定策略与置信度最高策略相结合的选择策略框架图。
图3为松散条件下协同学习算法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所示,本发明实施例提供一种基于松散条件下协同学习的中文微博情感分析方法,包括以下步骤:
(1)构建初始已标注微博数据集L和未标注微博数据集U(标注表示对文本进行分类;已标注微博表示已经进行了情感分类的微博;未标注微博表示没有进行情感分类的微博):
数据集融合了NLP&CC 2015和NLP&CC 2016提供的中文微博情感标注语料集,最后得到16155条已标注微博(8055条积极微博,8100条消极微博)。
从已标注微博语料集中随机选取3055条积极微博和3100条消极微博作为训练集L,再选取3000条积极微博和3000条消极微博作为测试集,剩下的4000的条已标注微博作为不确定性样本数据集;
(2)对已标注数据集L和未标注数据集U进行特征提取:
对两个数据集中的数据做文本预处理工作,删除特殊字符和文本中存在的微博表情符号,对微博文本进行分词处理并删除停用词和标点符号。例如,处理前的微博文本如下所示:今天是二十四节气中的小雪,真冷,但是看见下雪了我好开心啊;处理后的微博如下所示:节气/小雪/真冷/下雪/好/开心/。
利用向量空间模型将已经提取好的微博文本表示出来,利用TF-IDF权重计算方法得到特征向量中每个关键词的权重;利用词向量的分布式特征进行另一个角度的特征提取。
(3)利用SVM算法和LSTM算法构造SVM分类器C1和LSTM分类器C2,分别对两个角度提取的所有特征向量进行训练;当训练得到的情感分类正确率达到设置的精度时停止,例如0.95,表示该分类器已经达到训练终止条件。
(4)利用训练好的两个分类模型对未标注数据集U进行预测(预测过程即svm算法和lstm算法流程),预测时两个分类器会对同一个向量生成两个预测值,此时取这两个预测值的平均值作为整体预测值。
(5)选择未标注样本加入到训练集,以修正分类模型,其中包括:
对数据集中所有数据进行预测后得到的总体预测值的绝对值大小进行降序排序,例如:0.94,-0.27,0.64,0.58,,-0.44,0.97,0.96,排序后得到:0.97,0.96,-0.94,0.64,0.58,-0.44,-0.27,选取前m个样本加入到已标注样本集中,完成置信度最高的选择策略。
再取后n个样本进行人工标注后加入到已标注样本中,完成不确定性最高的选择策略,此处后n个样本为置信度最低,即不确定性最高的样本。不确定性权值的计算公式为:
Figure BDA0001563896150000051
其中,p(yi|d)表示样本d属于类别yi的分类置信度,通常选取不确定性最高的样本,即分类
置信度最低的未标注样本,进行人工标注后加入到训练集中。
回到步骤(4)进行下一轮迭代,直至达到终止条件。
基于真实的数据集实验,获得分类正确率,将步骤(1)、步骤(2)和步骤(3)中得到的真实数据,应用于步骤(4)和步骤(5)的完整算法中,为每条微博数据进行分析,将分析的结果与人工标注的结果进行比对,采用准确率、召回率、F值作为微博极性评判的标准。
为验证本发明的有效性,以及与传统微博情感分析方法相比性能的优劣,进行了对比实验,得到的实验数据如表1和表2所示。
表1 基于SVM的主动学习算法的F1值
Figure BDA0001563896150000052
Figure BDA0001563896150000061
表2 松散条件下的协同学习算法的F1
Figure BDA0001563896150000062
学习步长相同且迭代次数相同的情况下,表2中协同学习算法的F1值的平均值总是高于表1中对应的F1值的平均值,说明协同学习的分类效果整体要优于基于SVM的主动学习算法。本文提出的松散条件下的协同学习算法在整体性能较主动学习提升了接近8%。主要原因是协同学习结合了SVM分类器和LSTM分类器,协同学习框架中两个分类器在迭代过程中不断将各自的分类信息传递给对方,彼此之间相互学习,致使分类性能有所提升。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种基于松散条件下协同学习的中文微博情感分析方法,其特征在于,包括如下步骤:
步骤1、构建初始已标注微博数据集L和未标注微博数据集U,具体是:从NLP&CC提供的中文微博情感标注语料集得到L′+P2+Q2+W条已标注微博,并从已标注微博语料集中随机选取P1条积极微博和Q1条消极微博作为训练集,再选取P2条积极微博和Q2条消极微博作为测试集,剩下的W条已标注微博作为不确定性样本数据集;
步骤2、对已标注微博数据集L和未标注微博数据集U进行特征提取,特征提取包含:分词、去停用词、特征提取、特征加权,具体是从文本的向量空间模型VSM表示和词向量的分布式特征两个视图进行提取,特征提取基于CHI特征选择,CHI特征选择通过度量特征项t和情感类别c之间的关联度,具体计算公式如下:
Figure FDA0002319831900000011
其中,公式中各个参数的含义,说明如下:M表示已标注微博数据集L中微博的总数;A表示属于类别c,且包含特征项t的微博的数量;B表示不属于类别c,且包含特征项t的微博的数量;C表示属于类别c,但不包含特征项t的微博的数量;D表示不属于类别c,且不包含特征项t的微博的数量;特征加权基于TF-IDF权重计算方法,TF表示某一个特征项在该微博中出现的频率,特征项t的TF值具体计算公式如下:
Figure FDA0002319831900000012
其中,nt,j表示特征项t在微博j中出现的次数,∑knk,j表示微博j中所有特征项出现的次数之和;
IDF表示的是反文档频率,是指如果包含某个特征项的微博越少,IDF越大,说明该特征项具有很好的类别区分能力,特征项t的IDF值具体计算公式如下:
Figure FDA0002319831900000013
其中,N表示所有微博总数,Nt表示包含特征项t的微博总数;TF-IDF的计算公式如下:
TF-IDF=TF*IDF
步骤3、构造SVM分类器C1和LSTM分类器C2,利用已标注微博数据集L对C1、C2分别进行训练,具体是:SVM分类器采用LibSVM工具包实现,LSTM分类模型中,采用word2vec模型训练得到的词向量作为输入,设置词向量的维数,输出包含整个微博文本词序列信息的实值向量,最后利用Softmax函数来得到文本的情感极性;
步骤4、利用训练好的分类模型对未标注微博数据集U进行预测,具体方法是:利用训练好的两个分类模型分别对未标注微博数据集U进行预测,预测值的范围控制在[-1,1]区间,越接近-1说明微博的消极程度越高,越接近1说明微博的积极程度越高,将预测后得到的两个预测置信度进行取平均值得到整体预测置信度;
步骤5、选择未标注样本加入到训练集,以修正分类模型;其中,未标注样本是根据不确定性最高策略和置信度最高策略相结合进行选择,具体包括:首先根据步骤4中的整体预测置信度大小,将样本进行降序排列,选取前m个样本,即为置信度最高的m个样本加入到已标注微博数据集L中;然后选取不确定性最高的n个样本,交由人工标注后,加入到已标注微博数据集L中;其中,不确定性权值的计算公式为:
Figure FDA0002319831900000021
其中,Uncertain(d)表示样本d的不确定性权值,pos表示情感极性为积极的微博样本,neg表示情感极性为消极的微博样本,neu表示情感极性为中性的微博样本,p(yi|d)表示样本d属于类别yi的分类置信度。
CN201810091745.1A 2018-01-30 2018-01-30 一种基于松散条件下协同学习的中文微博情感分析方法 Active CN108228569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810091745.1A CN108228569B (zh) 2018-01-30 2018-01-30 一种基于松散条件下协同学习的中文微博情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810091745.1A CN108228569B (zh) 2018-01-30 2018-01-30 一种基于松散条件下协同学习的中文微博情感分析方法

Publications (2)

Publication Number Publication Date
CN108228569A CN108228569A (zh) 2018-06-29
CN108228569B true CN108228569B (zh) 2020-04-10

Family

ID=62669911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810091745.1A Active CN108228569B (zh) 2018-01-30 2018-01-30 一种基于松散条件下协同学习的中文微博情感分析方法

Country Status (1)

Country Link
CN (1) CN108228569B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800788A (zh) * 2018-12-18 2019-05-24 中国海洋大学 一种减少图像分割数据集标注的方法
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统
CN110222582B (zh) * 2019-05-13 2021-09-14 青岛小鸟看看科技有限公司 一种图像处理方法和相机
CN110135592B (zh) * 2019-05-16 2023-09-19 腾讯科技(深圳)有限公司 分类效果确定方法、装置、智能终端及存储介质
CN110457675B (zh) * 2019-06-26 2024-01-19 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN111177374B (zh) * 2019-12-13 2024-01-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
CN111723209B (zh) * 2020-06-28 2023-04-25 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN113449508B (zh) * 2021-07-15 2023-01-17 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336205B2 (en) * 2012-04-10 2016-05-10 Theysay Limited System and method for analysing natural language
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
US9342846B2 (en) * 2013-04-12 2016-05-17 Ebay Inc. Reconciling detailed transaction feedback
US20180246959A1 (en) * 2015-09-08 2018-08-30 Stefano Maria Iacus Isa: a fast scalable and accurate algorithm for supervised opinion analysis
US10275502B2 (en) * 2015-12-22 2019-04-30 Opera Solutions Usa, Llc System and method for interactive reporting in computerized data modeling and analysis
CN106294326B (zh) * 2016-08-23 2018-11-09 成都科来软件有限公司 一种新闻报道情感倾向分析方法
CN106372058B (zh) * 2016-08-29 2019-10-15 中译语通科技股份有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
CN107045497A (zh) * 2017-05-04 2017-08-15 成都华栖云科技有限公司 一种快速的新闻文本内容情感分析系统及方法
CN107423371B (zh) * 2017-07-03 2020-09-08 湖北师范大学 一种文本正负类情感分类方法
CN107491435B (zh) * 2017-08-14 2021-02-26 苏州狗尾草智能科技有限公司 基于计算机自动识别用户情感的方法及装置
CN107609132B (zh) * 2017-09-18 2020-03-20 杭州电子科技大学 一种基于语义本体库中文文本情感分析方法

Also Published As

Publication number Publication date
CN108228569A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108228569B (zh) 一种基于松散条件下协同学习的中文微博情感分析方法
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN106649561B (zh) 面向税务咨询业务的智能问答系统
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
CN110866117A (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN112528676B (zh) 文档级别的事件论元抽取方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN110874411A (zh) 一种基于注意力机制融合的跨领域情感分类系统
Bouguila et al. A discrete mixture-based kernel for SVMs: application to spam and image categorization
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN112182156B (zh) 基于文本处理的方面级可解释深度网络评分预测推荐方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN109344911B (zh) 一种基于多层lstm模型的并行处理分类方法
CN111651660A (zh) 一种跨媒体检索困难样本的方法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
Li et al. Short text sentiment analysis based on convolutional neural network
Kalbhor et al. Survey on ABSA based on machine learning, deep learning and transfer learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant