CN105912525A - 基于主题特征的半监督学习情感分类方法 - Google Patents

基于主题特征的半监督学习情感分类方法 Download PDF

Info

Publication number
CN105912525A
CN105912525A CN201610226711.XA CN201610226711A CN105912525A CN 105912525 A CN105912525 A CN 105912525A CN 201610226711 A CN201610226711 A CN 201610226711A CN 105912525 A CN105912525 A CN 105912525A
Authority
CN
China
Prior art keywords
text
semi
supervised learning
classification
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610226711.XA
Other languages
English (en)
Inventor
喻梅
赵永伟
高洁
于健
王建荣
吕方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610226711.XA priority Critical patent/CN105912525A/zh
Publication of CN105912525A publication Critical patent/CN105912525A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

一种基于主题特征的半监督学习情感分类方法,包括:将数据文本进行预处理、文本分词及词性标注;进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征;在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。本发明可以实现更精确的情感特征分类。为电子商务和社交网络的文本情感分类技术提供了一种新的思路。用户能更有效的寻找适合自己的服务。

Description

基于主题特征的半监督学习情感分类方法
技术领域
本发明涉及一种短文本情感分类技术、文本主题建模技术和半监督学习技术。特别是涉及一种基于主题特征的半监督学习情感分类方法。
背景技术
文本情感分析技术包括:基于情感词典的文本情感分析、基于机器学习的文本情感分析。基于情感词典的文本情感分析方法是采用现有的情感词典,通过对词语与词语之间的关系进行研究得到用户的情感信息。基于机器学习的文本情感分析方法一般为收集数据,然后分割出部分数据集作为训练集,并人工标记训练集,使用人工标记的训练集来训练构造分类器,使用未经标记的数据来检测分类器准确度。基于机器学习的文本情感分析方法十分依赖训练集,如果训练集的规模并未超过一定阈值,训练得到的分类器的准确性将会受到影响,同时其应用的领域也受到限制。即便如此,基于机器学习的文本情感分析方法的应用效果还是比较好,因此有许多研究人员深入探索。机器学习中的文本分类方法有多种,如决策树算法、贝叶斯算法、支持向量机和最大熵算法等。
特征提取是指从收集到的数据集中将有用的信息提取出来,并转换成独立的单词或者词组,为进一步分析处理数据打下基础。特征提取通常包括情感表达者识别、评价对象识别、情感观点词识别等任务。
主题模型主要有两种模型,一种是pLSA和LDA。LSA是处理这类问题的著名技术。其主要思想就是映射高维向量到潜在语义空间,使其降维。LSA的目标就是要寻找到能够很好解决实体间词法和语义关系的数据映射。正是由于这些特性,使得LSA成为相当有价值并被广泛应用的分析工具。PLSA是以统计学的角度来看待LSA,相比于标准的LSA,他的概率学变种有着更巨大的影响。
LDA(Latent Dirichlet Allocation)是用于识别大规模文档集中所隐含的主题信息的主题模型。LDA算法与其它主题模型相比,认为每个不同主题中的词语服从概率分布,每个文档中的不同主题也服从概率分布,因此每篇不同的文档所属的主题不止一个,是属于多个主题的。
传统的情感分析分类算法只考虑了文本的传统特征(词汇特征,句法特征等),未从文本主题的角度把握文本的总体含义,本发明通过对文本进行主题建模,将主题特征和传统特征相结合,在半监督学习框架下,使用分类算法进行情感分类,相较于传统的情感分类算法,提高了情感分类的准确度。
发明内容
本发明所要解决的技术问题是,提供一种能够解决传统无文本主题特征情感分类算法准确率的问题,从而可以实现更精确的情感特征分类的基于主题特征的半监督学习情感分类方法。
本发明所采用的技术方案是:一种基于主题特征的半监督学习情感分类方法,包括如下步骤:
1)将数据文本进行预处理、文本分词及词性标注;
2)进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征。
3)在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。
步骤1)所述的进行预处理,是对文本中非文本信息进行精简,去除数据中的无用信息。
步骤1)所述的文本分词,是采用单词生成模型进行的,具体如下:
W S e q * = arg m a x W S e q P ( W S e q | c 1 n )
其中W Seq≡ω1 m=[ω12,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。
步骤1)所述的词性标注,是对文本中每个词确定一个最为合适的词性。
步骤3)包括如下步骤:
(1)使用保留半监督学习算法进行迭代,具体是将数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;
(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;
(3)重复执行步骤S0501和步骤S0502,直到达到了预定的迭代次数,分类完成。
本发明的基于主题特征的半监督学习情感分类方法,基于主题特征的情感分类方法,通过考虑中文短文本主题特征,从主题的角度把握文本的总体含义,结合其它文本特征,在半监督学习框架下应用分类算法,解决了传统无文本主题特征情感分类算法的准确率问题,从而可以实现更精确的情感特征分类。本发明相较于传统的情感分类算法,特别考虑了主题特征这一因素,从而对传统的情感分类算法进行了改进,最终的实验结果表明,本发明相较于传统的情感分类算法更准确。本发明的基于主题特征的半监督学习情感分类方法,为电子商务和社交网络的文本情感分类技术提供了一种新的思路。为社交网络及中文本的情感分类提出并定义一种基于主题特征的半监督学习情感分类的计算方法,商品决策者通过用户对产品的情感分析有针对性的提高服务水平、用户能更有效的寻找适合自己的服务。
附图说明
图1是本发明基于主题特征的半监督学习情感分类方法的流程图;
图2是不同分类算法的F值实验对比结果。
具体实施方式
下面结合实施例和附图对本发明的基于主题特征的半监督学习情感分类方法做出详细说明。
如图1所示,本发明的基于主题特征的半监督学习情感分类方法,包括如下步骤:
1)将文本数据进行预处理、文本数据分词及词性标注;其中,
(1)对于原始的文本数据,不能直接使用,需要进行预处理,先对原始文本数据中非文本信息进行精简,去除数据中的无用信息,然后才能进行分词和词性分析。
(2)文本情感分析过程中,首先要进行文本数据的分词处理,所述的文本数据分词,可以采用单词生成模型进行的,具体如下:
W S e q * = arg m a x W S e q P ( W S e q | c 1 n )
其中W Seq≡ω1 m=[ω12,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。
(3)所述的词性标注,是对文本中每个词确定一个最为合适的词性。
2)进行特征选择,抽取文本数据的传统特征,还利用LDA建模技术抽取文本数据的主题特征,即对步骤1)抽取的文本数据的传统特征,进行最大似然估计,利用LDA建模技术抽取文本数据的主题特征。
3)在保留半监督学习框架下,将得到的文本数据的传统特征和文本数据的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。包括如下步骤:
(1)使用保留半监督学习算法进行迭代,具体是将所述的数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;
(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;
(3)重复执行步骤(1)和步骤(2),直到达到了预定的迭代次数,分类完成。
如图2所示,TF-RSA为本发明的方法,Reserved Self-training为传统的方法,无论是采用SVM分类算法还是MaxEnt分类算法,本发明的方法得到的分类准确度均高于ReservedSelf-training传统的方法得到的分类准确度。据此可以看到本发明的优点。

Claims (5)

1.一种基于主题特征的半监督学习情感分类方法,其特征在于,包括如下步骤:
1)将数据文本进行预处理、文本分词及词性标注;
2)进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征;
3)在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。
2.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的进行预处理,是对文本中非文本信息进行精简,去除数据中的无用信息。
3.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的文本分词,是采用单词生成模型进行的,具体如下:
W S e q * = arg m a x W S e q P ( W S e q | c 1 n )
其中W Seq≡ω1 m=[ω12,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。
4.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的词性标注,是对文本中每个词确定一个最为合适的词性。
5.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤3)包括如下步骤:
(1)使用保留半监督学习算法进行迭代,具体是将数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;
(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;
(3)重复执行步骤S0501和步骤S0502,直到达到了预定的迭代次数,分类完成。
CN201610226711.XA 2016-04-11 2016-04-11 基于主题特征的半监督学习情感分类方法 Pending CN105912525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610226711.XA CN105912525A (zh) 2016-04-11 2016-04-11 基于主题特征的半监督学习情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610226711.XA CN105912525A (zh) 2016-04-11 2016-04-11 基于主题特征的半监督学习情感分类方法

Publications (1)

Publication Number Publication Date
CN105912525A true CN105912525A (zh) 2016-08-31

Family

ID=56746640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610226711.XA Pending CN105912525A (zh) 2016-04-11 2016-04-11 基于主题特征的半监督学习情感分类方法

Country Status (1)

Country Link
CN (1) CN105912525A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528538A (zh) * 2016-12-07 2017-03-22 竹间智能科技(上海)有限公司 智能识别情绪的方法及装置
CN108416032A (zh) * 2018-03-12 2018-08-17 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN108492118A (zh) * 2018-04-03 2018-09-04 电子科技大学 汽车售后服务质量评价回访文本数据的两阶段抽取方法
CN108920508A (zh) * 2018-05-29 2018-11-30 福建新大陆软件工程有限公司 基于lda算法的文本分类模型训练方法及系统
CN111160037A (zh) * 2019-12-02 2020-05-15 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN113688241A (zh) * 2021-08-31 2021-11-23 重庆大学 一种基于融合多级别主题情感模型的文本分类方法及装置
CN114238627A (zh) * 2021-11-22 2022-03-25 西北工业大学 一种基于albert和lda的跨域情感分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
CN104484437A (zh) * 2014-12-24 2015-04-01 福建师范大学 一种网络短评情感挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
CN104484437A (zh) * 2014-12-24 2015-04-01 福建师范大学 一种网络短评情感挖掘方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528538A (zh) * 2016-12-07 2017-03-22 竹间智能科技(上海)有限公司 智能识别情绪的方法及装置
CN108416032A (zh) * 2018-03-12 2018-08-17 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN108416032B (zh) * 2018-03-12 2021-06-08 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN108492118A (zh) * 2018-04-03 2018-09-04 电子科技大学 汽车售后服务质量评价回访文本数据的两阶段抽取方法
CN108492118B (zh) * 2018-04-03 2020-09-29 电子科技大学 汽车售后服务质量评价回访文本数据的两阶段抽取方法
CN108920508A (zh) * 2018-05-29 2018-11-30 福建新大陆软件工程有限公司 基于lda算法的文本分类模型训练方法及系统
CN111160037A (zh) * 2019-12-02 2020-05-15 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN113688241A (zh) * 2021-08-31 2021-11-23 重庆大学 一种基于融合多级别主题情感模型的文本分类方法及装置
CN113688241B (zh) * 2021-08-31 2023-08-29 重庆大学 一种基于融合多级别主题情感模型的文本分类方法及装置
CN114238627A (zh) * 2021-11-22 2022-03-25 西北工业大学 一种基于albert和lda的跨域情感分类方法
CN114238627B (zh) * 2021-11-22 2024-04-12 西北工业大学 一种基于albert和lda的跨域情感分类方法

Similar Documents

Publication Publication Date Title
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN107085581B (zh) 短文本分类方法和装置
CN106202032B (zh) 一种面向微博短文本的情感分析方法及其系统
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
US20170091318A1 (en) Apparatus and method for extracting keywords from a single document
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN104850617B (zh) 短文本处理方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN109766544A (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN102289522A (zh) 一种对于文本智能分类的方法
CN105609116B (zh) 一种语音情感维度区域的自动识别方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN105205124A (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN109471932A (zh) 基于学习模型的谣言检测方法、系统及存储介质
CN110427458A (zh) 基于双门lstm的社交网络双语的五分类情感分析方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831