CN105468731B - 一种文本情感分析特征验证的前置处理方法 - Google Patents

一种文本情感分析特征验证的前置处理方法 Download PDF

Info

Publication number
CN105468731B
CN105468731B CN201510815462.3A CN201510815462A CN105468731B CN 105468731 B CN105468731 B CN 105468731B CN 201510815462 A CN201510815462 A CN 201510815462A CN 105468731 B CN105468731 B CN 105468731B
Authority
CN
China
Prior art keywords
vector
sample
signature verification
feature
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510815462.3A
Other languages
English (en)
Other versions
CN105468731A (zh
Inventor
罗鹰
张鑫阳
林康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kelai Network Technology Co.,Ltd.
Original Assignee
CHENGDU COLASOFT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU COLASOFT Co Ltd filed Critical CHENGDU COLASOFT Co Ltd
Priority to CN201510815462.3A priority Critical patent/CN105468731B/zh
Publication of CN105468731A publication Critical patent/CN105468731A/zh
Application granted granted Critical
Publication of CN105468731B publication Critical patent/CN105468731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本情感分析特征验证的前置处理方法,通过对原始训练集的预处理得到预处理信息:确定原始训练集的概要,确定原特征向量集的概要,对原始数据进行扩充,从而构造出整合后的预处理信息;然后,对预处理信息进行特征验证和特征选择。本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果。

Description

一种文本情感分析特征验证的前置处理方法
技术领域
本发明属于文本情感分析领域,具体涉及一种文本情感分析特征验证的前置处理方法。
背景技术
现有的文本分类特征选择和验证方案在内容领域分类上已经有很好的效果,但应用在情感分析领域时具有以下的问题:
1、针对通用的适用场景,对情感分析这一业务领域不够深入,尤其是在互联网上情感信息存在明显的非平衡语料分布,人工构造情感分析语料集时容易错误分类等问题,现有算法对这两个问题的考虑普遍不足;
2、针对不同特征提取算法的通用验证比较基础,缺乏实际应用上的最佳实践设计。比如常用的验证方法中TFIDF关注词频,但对出现频度不高的关键词容易忽视;而相对的信息增益考虑了特征出现与否,但由于不考虑词频,对低频词的作用又容易夸大。
同时,现有的情感分析技术方案具有以下问题:
1、大部分现有中文情感分析算法的准确率偏低,缺少能够指导算法改进的特征验证或者特征选择方案,比如根据第五届中文倾向性分析评测研讨会COAE2013的结果,正确率普遍在60%左右;
2、文本信息由特征向量构成表示,但由于缺乏公认的领域最佳实践,情感分析的建模和算法也是五花八门,因此对情感分析特征向量的识别验证方案也需要考虑这些算法和模型各自的特点,比如常用的词袋,n-gram,word2vec等多种模型等。
综上,本发明旨在解决文本情感分析领域的特征验证问题中的特征向量集输入处理步骤,即得出特征是否适用于情感分析这一结论的初步判断,并生成有用信息用于后续处理。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种文本情感分析特征验证的前置处理方法。
本发明解决其技术问题所采用的技术方案是:一种文本情感分析特征验证的前置处理方法,包括如下步骤:
步骤一、对原始训练集的预处理得到预处理信息:
S1、确定原始训练集的概要,并输出结果sample_struct,包括:样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info;
S2、输入待验证的特征向量集,确定原特征向量集的概要,并输出结果vector_struct,包括:多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen;
S3、对原始数据进行扩充,并输出结果addtion_sets:包括:
(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息,则构建基于词袋模型的特征向量,对低维度的特征向量进行补充,得到词频信息补充结果tf_addition_set;
(2)若情感分类的分布参数sample_dist分布不均衡,则对训练集进行均衡化处理,得到均衡化处理结果even_addition_set;
S4、构造出整合后的预处理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct;
步骤二、对预处理信息进行特征验证和特征选择:
S1、对于原始特征向量集:根据sample_size值和vector_dimen值,在同时进行基于交叉验证做判断标准的特征选择和基于bootstrap来验证分类准确率两种处理之后,对处理结果乘以不同的权重;
S2、对于参考向量集:逐个特征向量集采用通用的InfoGain选择出代表性的特征项;采用类bagging算法构建向量集,对向量集中的每个向量通过多数投票的方式确定理论推算的分类值,再通过向量集的推算分类值与训练集的实际分类值的差距获得训练集信息。
与现有技术相比,本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果,具体表现如下:
1、将训练集和原始特征向量集的数据属性单独提取出;
2、整合多种算法生成作为参照对比的特征向量集,并保留扩展能力;
3、将情感词频信息和TFIDF词频信息整合后追加到原始特征中;
4、修正非均衡训练集的情感分类分布;
5、对原始情感特征向量集结合特征选择和假设检验算法进行深度分析;
6、对原始情感分析算法进行逐特征删除然后进行卡方检验作对比验证;
7、对多参考特征向量集抽取模型作为广度分析的基础。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是对原始训练集的预处理流程图;
图2是特征验证和特征选择流程图。
具体实施方式
一种文本情感分析特征验证的前置处理方法,包括如下步骤:
1.对原始训练集的预处理得到预处理信息:
如图1所示,本步骤包括如下具体内容:
1.1.对原始训练集进行概要分析,输出结果记为sample_struct:
(1)判断样本总体数量是否够大:将判断结果用参数sample_size表示,对于情感分析样本,样本够大表示各有效分类的不重复样本数在1000以上。
(2)判断情感分类的分布是否均衡:将判断结果用参数sample_dist表示,其中包括不同分类的样本数量,如果不同分类的样本个数相差不大,则均衡;否则不均衡。
(3)获得文本信息分布内容,用参数sample_text_info表示,包括:字数、句数和段数;
概要分析的结果会体现在整个流程的输出中,在后续处理中发挥输入参数的作用。
1.2.输入待验证的特征向量集并判断,输出结果记为vector_struct:
(1)是多标号还是单标号,即除了情感特征外,是否包含其他分类信息,记为参数vector_multi;
(2)分析结果是硬性还是柔性,即分析结果是否由多项情感值的取值概率构成,记为参数vector_prop;
(3)特征向量的维度(向量个数)是否够高(向量个数大于500或者大于样本个数的20%则维度高),是否包含词频信息,记为参数vector_dimen。
1.3.数据扩充,输出结果记为addtion_sets
本步骤从多个方面对原始数据进行扩充,互为参照,从而提供算法调整方向的综合考量依据。
1.3.1.词频信息补充,处理结果记为tf_addition_set。根据特征向量的维度vector_dimen,若特征向量集是低维的且不包含词频信息,则需要构建基于词袋模型的特征向量,从而允许对低维度的特征向量进行补充,主要包括以下训练集处理方式:
1)基于情感词典生成词袋特征向量,每项特征值是词频与情感值之积:
2)基于TFIDF提取出的词典生成词袋特征向量:
添加的新特征需要使用加权平均KL散度进行降维处理。
本步骤通过进行向量集补充,确保词信息在情感分析中被考虑到,并能结合经验性的情感词典和通用的词频词典两方面的信息优势,同时保持两种信息的独立性。
1.3.2.训练集均衡化,处理结果记为even_addition_set。根据情感分类的分布sample_dist,对于训练集中情感分类分布不均的情况,需要通过重复选取偏少类型或者减少偏多类型的方式进行均衡化处理,之后重新按照给定的情感分析算法生成参考向量集。
本步骤通过对比均衡与非均衡测试集的处理结果,提供后续调整的依据。
1.3.3.模型中保留扩展空间,允许自行添加生成附加向量集的方案,输出
为custom_addition_set。
1.4.构造出整合后的预处理信息,主要包括:
原始特征向量集origin_set
追加特征向量集addtion_sets;
特征向量集属性vector_struct;
训练集属性sample_struct;
构造好预处理信息后,开始进行特征验证和选择的流程,进入特征选择和特征验证;
2.对预处理信息进行特征验证和特征选择:
如图2所示,本步骤包括如下具体内容:
2.1.输入预处理信息后,需要从原始向量集和参考向量集两个方向上进行处理,分别采用深度优先和广度优先的基本思路。
2.1.1.对于原始特征向量集信息,重点关注各个特征反应分类准确率的可靠度
对原始特征向量集进行深度分析时,需要保证对大样本和小样本的综合考量,同时对原始向量集的特征进行较深入的分析。因此,需要根据sample_size值和vector_dimen值,在同时进行了以下两种处理之后,对结果乘以不同的权重:
2.1.1.1.基于交叉验证做判断标准的特征选择,对大规模样本具有优势,特征选择算法可自行指定,建议使用InfoGain和DF算法相结合的方式,同时关注词频信息和词是否存在的影响这两方面。
2.1.1.2.基于bootstrap来验证分类准确率:用于对比的参考向量集通过修改原始算法进行逐特征删减,采用卡方检验判断生成的分类结果之间是否存在显著性差异,从而判断单特征项的可用性。卡方检验的假设是:在进行了特征改动后,判断为不同情感分类的样本数量是否发生了显著变化。该方法重点用于低维度的特征上,对于小样本具有更高可用性。
采用非参数的卡方检验可规避情感信息分布不规律的情况,同时对每个特征的细致判断能充分满足深度分析的需求。
2.1.2.对于参考向量集的处理,主要是不同集合之间的对比,采用广度优先的处理方式,具有良好的通用性:
2.1.2.1.逐个特征向量集采用通用的InfoGain选择出代表性的特征项;
2.1.2.2.类bagging算法是指:设向量集为下标从1到n,则向量集为D1到Dn,则每个向量集中的元素都对应于原始训练集中的一项,设原始训练集共m项,第i项对应的分类为Ci,在向量集Dj的分类为Cij,则可以构建如下向量集
(1,C11,C12…C1j…C1n,C1),
(i,Ci1…Cij…Cin,Ci),
(m,Cm1…Cmj…Cmn,Cm)
之后,对该向量集中的每个向量,可以通过多数投票的方式确定理论推算的分类值,再通过向量集的推算分类值与训练集的实际分类值的差距可获得多种信息,包括训练集中对应条目是否误分等。
本步骤确立了对训练集和多个向量集信息的综合构造方式,通用而直观,便于运算。最后,将推导出的信息进行简单汇总,后续可以用更具针对性的策略加以处理。

Claims (9)

1.一种文本情感分析特征验证的前置处理方法,其特征在于:包括如下步骤:
步骤一、对原始训练集的预处理得到预处理信息:
S1、确定原始训练集的概要,并输出结果sample_struct,包括:样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info;
S2、输入待验证的特征向量集,确定原特征向量集的概要,并输出结果vector_struct,包括:多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen;
S3、对原始数据进行扩充,并输出结果addtion_sets:包括:
(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息,则构建基于词袋模型的特征向量,对低维度的特征向量进行补充,得到词频信息补充结果tf_addition_set;
(2)若情感分类的分布参数sample_dist分布不均衡,则对训练集进行均衡化处理,得到均衡化处理结果even_addition_set;
S4、构造出整合后的预处理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct;
步骤二、对预处理信息进行特征验证和特征选择:
S1、对于原始特征向量集:根据sample_size值和vector_dimen值,在同时进行基于交叉验证做判断标准的特征选择和基于bootstrap来验证分类准确率两种处理之后,对处理结果乘以不同的权重;
S2、对于参考向量集:逐个特征向量集采用通用的InfoGain选择出代表性的特征项;采用类bagging算法构建向量集,对向量集中的每个向量通过多数投票的方式确定理论推算的分类值,再通过向量集的推算分类值与训练集的实际分类值的差距获得训练集信息。
2.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:对于情感分析样本,当各有效分类的不重复样本数在1000以上时,则视为样本总体数量够大。
3.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:文本信息分布内容参数sample_text_info包括:字数、句数和段数。
4.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:构建基于词袋模型的特征向量的方法是:基于情感词典生成词袋特征向量,每项特征值是词频与情感值之积;基于TFIDF提取出的词典生成词袋特征向量;对添加的新特征采用加权平均KL散度进行降维处理。
5.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:对训练集进行均衡化处理的方法为:通过重复选取偏少类型或者减少偏多类型的方式进行均衡化处理,之后重新按照给定的情感分析算法生成参考向量集。
6.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:在对原始数据进行扩充时,在模型中保留扩展空间,允许自行添加生成附加向量集custom_addition_set。
7.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:在进行基于交叉验证做判断标准的特征选择处理时,对大规模样本,使用InfoGain和DF算法相结合的方式进行。
8.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:在进行基于bootstrap来验证分类准确率处理时,对小规模样本,用于对比的参考向量集通过修改原始算法进行逐特征删减,采用卡方检验判断生成的分类结果之间是否存在显著性差异,从而判断单特征项的可用性。
9.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:所述类bagging算法是指:设向量集为下标从1到n,则向量集为D1到Dn,则每个向量集中的元素都对应于原始训练集中的一项,设原始训练集共m项,第i项对应的分类为Ci,在向量集Dj的分类为Cij,则构建向量集如下:
( 1,C11,C12 … C1j … C1n ,C1),
( i,Ci1 … Cij … Cin ,Ci),
( m,Cm1 … Cmj … Cmn ,Cm)。
CN201510815462.3A 2015-11-20 2015-11-20 一种文本情感分析特征验证的前置处理方法 Active CN105468731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510815462.3A CN105468731B (zh) 2015-11-20 2015-11-20 一种文本情感分析特征验证的前置处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510815462.3A CN105468731B (zh) 2015-11-20 2015-11-20 一种文本情感分析特征验证的前置处理方法

Publications (2)

Publication Number Publication Date
CN105468731A CN105468731A (zh) 2016-04-06
CN105468731B true CN105468731B (zh) 2018-10-02

Family

ID=55606432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510815462.3A Active CN105468731B (zh) 2015-11-20 2015-11-20 一种文本情感分析特征验证的前置处理方法

Country Status (1)

Country Link
CN (1) CN105468731B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN109389141B (zh) * 2017-08-14 2021-04-20 比亚迪股份有限公司 测量数据的处理方法和装置
CN108920545B (zh) * 2018-06-13 2021-07-09 四川大学 基于扩展的情感词典和卡方模型的中文情感特征选择方法
CN111523951A (zh) * 2019-01-16 2020-08-11 北京京东尚科信息技术有限公司 数据增强方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
WO2014047725A1 (en) * 2012-09-28 2014-04-03 Alkis Papadopoullos Method and system for analysing sentiments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
WO2014047725A1 (en) * 2012-09-28 2014-04-03 Alkis Papadopoullos Method and system for analysing sentiments
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法

Also Published As

Publication number Publication date
CN105468731A (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN105468731B (zh) 一种文本情感分析特征验证的前置处理方法
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN108108433A (zh) 一种基于规则和数据网络融合的情感分析方法
CN105244029A (zh) 语音识别后处理方法及系统
CN110162620B (zh) 黑产广告的检测方法、装置、服务器及存储介质
CN114117075B (zh) 基于语义对齐及对称结构编码的知识图谱补全方法及装置
CN106940702A (zh) 连接短文本中实体提及与语义知识库中实体的方法和设备
CN108874768A (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN107944911B (zh) 一种基于文本分析的推荐系统的推荐方法
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN103399916A (zh) 基于产品特征的互联网评论观点挖掘方法及系统
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN107180084A (zh) 词库更新方法及装置
CN108460010A (zh) 一种基于情感分析的综合评分模型实现方法
CN112200638A (zh) 一种基于注意力机制与双向gru网络的水军评论检测系统及方法
CN103593431A (zh) 网络舆情分析方法和装置
CN109992703B (zh) 一种基于多任务学习的差异化特征挖掘的可信度评估方法
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN104881685A (zh) 基于捷径深度神经网络的视频分类方法
CN103678318B (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
CN105843931A (zh) 一种进行分类的方法和装置
CN109145282A (zh) 断句模型训练方法、断句方法、装置及计算机设备
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210107

Address after: 41401-41406, 14th floor, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu hi tech Zone, Sichuan 610041

Patentee after: Chengdu Kelai Network Technology Co., Ltd

Address before: No. 801, middle section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan 610041

Patentee before: COLASOFT Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 610041 12th, 13th and 14th floors, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee after: Kelai Network Technology Co.,Ltd.

Address before: 41401-41406, 14th floor, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu hi tech Zone, Sichuan 610041

Patentee before: Chengdu Kelai Network Technology Co.,Ltd.