CN112214991A

CN112214991A - 一种基于多特征融合加权的微博文本立场检测方法

Info

Publication number: CN112214991A
Application number: CN202011078456.1A
Authority: CN
Inventors: 孙迎雪; 高俊波; 郭元昊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-12
Anticipated expiration: 2040-10-10
Also published as: CN112214991B

Abstract

本发明公开了一种基于多特征融合加权的微博文本立场检测方法，包含：S1、根据指定话题采集相应话题下的所有评论文本，将所有评论文本汇聚于数据集中；S2、对步骤S1中的数据集中的评论文本进行预处理操作；S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x)，提取每个评论文本的特征词；S4、提取每个评论文本中的情感词，将所述情感词与步骤S3中的特征词共同作为原文本，对所述原文本进行词向量映射；S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。其优点是：该方法通过考虑多个方面的属性特征计算词语的权重，筛选出具有更强意义的特征词，从而提高情感立场倾向检测的准确性，提高对大众舆情事件的响应速度。

Description

一种基于多特征融合加权的微博文本立场检测方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于多特征融合加权的微博文本立场检测方法，以解决立场检测问题。

背景技术

近年来，互联网时代信息资讯丰富、交换方便快捷，微博作为一个热点话题开放平台，多元化趋势正在逐渐符合大众心理需求，人们通过社交平台参与评论、分享观点见解，从海量的微博话题评论中挖掘用户的观点和情感倾向，及时对大众反应态度进行立场检测，可以更好的了解到当前舆情的发展趋势。

立场检测任务是判断评论者对描述话题主体所表达的支持、反对或中立的态度。当前立场检测研究大多直接将话题与评论内容拼接起来，使评论内容有所归属，但是这种方法并未充分认识和利用话题词与评论特征词之间的联系，也造成了高频词对分类无意义的现象；同时立场检测研究数据集由用户评论构成，用户评论大多简短、形式随意，存在内容冗余、杂质较多的问题，在上述微博自动添加话题前缀的情况下，不仅忽略了特征词在不同类之间的分布情况，而且高估了高频词的作用并抑制了低频词的作用。在判断情感态度倾向时，传统扩充情感词典的方法对于模型提取主题词的能力并没有改善，计算词项携带信息量的各个方法考虑的是词项的绝对词频，计算类间区分度时受词频影响较高，当词项频繁出现在文档中时，即使类间区分度数值偏高但若词频过低，也很难使最终权重值有明显提升，特征词也会因此被漏筛。在深度学习研究领域多采用RNN等神经网络模型，因为语言有长期依赖关系，RNN模型不擅长捕捉和保留之前的所有信息，存在长期依赖的问题，神经网络各层参数多、随机初始化特点使这种网络特征提取模型具有不确定性，可解释性差，当针对数据不充分如小型数据集时，神经网络参数训练拟合不足，无法提取出有效特征进行工作，使分类结果准确性严重下降。

发明内容

本发明的目的在于提供一种基于多特征融合加权的微博文本立场检测方法，其为一种可以合理化词频影响、突出较高类别区分度特征词、可解释性好的基于多特征融合加权的微博文本立场检测方法，该方法通过考虑多个方面的属性特征计算词语的权重，筛选出具有更强意义的特征词，从而提高情感立场倾向检测的准确性，提高对大众舆情事件的响应速度。

为了达到上述目的，本发明通过以下技术方案实现：

一种基于多特征融合加权的微博文本立场检测方法，包含：

S1、根据指定话题采集相应话题下的所有评论文本，将所有评论文本汇聚于数据集中；

S2、对步骤S1中的数据集中的评论文本进行预处理操作；

S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x)，提取每个评论文本的特征词；

S4、提取每个评论文本中的情感词，将所述情感词与步骤S3中的特征词共同作为原文本，对所述原文本进行词向量映射；

S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。

可选的，所述步骤S3中，根据词语权重公式计算每个评论文本的词语的重要性standard(x)。

可选的，所述步骤S3中的词语权重公式的构造方式包含：

S31、统计数据集中各词语词频，使用对数函数对词频值进行映射，通过公式(1)合理化词频对特征词提取时的影响，

其中，word frequence(x)函数表示在对词语x的绝对词频采用对数函数降频后的词频值，d表示总文本数，k_i表示词语x在评论文本i中的词频；

S32、根据公式(2)计算词语在不同类间的平均信息熵entropy(x)，

其中，entropy(x)表示词语x的类间平均信息熵，C取类别数，pi(x)表示词语x出现在某一类别的概率，

根据公式(3)由平均信息熵entropy(x)转换为权重加权值importance(x)，

importance(x)＝1-entropy(x) (3)；

S33、根据公式(4)对词语的词长权重length(x)做出修正，

length(x)＝true_length_x/α (4)，

其中，true_length_x表示词语的实际长度，α表示当前数据集下词长种类的中位数；

S34、根据公式(5)构造词语的词频特征frequence(x)，

其中，N表示总评论文本数，N_x表示包含词语x的评论文本数；

S35、结合步骤S31～S34构造特征提取的词语权重公式，所述词语权重公式为：

standard(x)＝frequence(x)*importance(x)+length(x) (6)。

可选的，所述步骤S3中，提取评论文本的特征词具体为：

S36、对数据集中的评论文本的各词语按照其重要性standard(x)排序，选取前m个词语构成特征词库；

S37、将数据集中的每条评论文本与所述特征词库比对，筛选出所述评论文本中所含的特征词。

可选的，所述步骤S1具体为：

根据目标话题，利用Python相应爬虫库爬取相应话题下的大众评论内容。

可选的，所述步骤S2中所述预处理操作包含：

对评论文本进行去停用词、去特殊符号、繁简转换、分词操作，使文本数据转化为由词语构成的纯文本格式进行存储。

可选的，所述步骤S4中，

采用外部情感词典识别情感词，具体为采用所述情感词典比对评论文本提取出情感词。

可选的，所述情感词典为大连理工大学的中文情感词汇库。

可选的，采用word2vec对所述原文本进行词向量映射。

可选的，所述步骤S5中，

对步骤S4所得的数据进行数据平衡，将其进行数据集划分，按照预设比例分为训练集和测试集；

将所述训练集和所述测试集输入SVM分类器，进行模型训练、保存和评估。

本发明与现有技术相比具有以下优点：

本发明的一种基于多特征融合加权的微博文本立场检测方法，通过考虑多个方面的属性特征计算词语的权重，筛选出具有更强意义的特征词，从而提高情感立场倾向检测的准确性，提高对大众舆情事件的响应速度；

进一步的，该方法考虑词语的类间平均信息熵作为加权特征，将高区分度词语提取出来；另外，其采用数据集词长分布来修正词长特征，使用词长特征合理加权；

进一步的，该方法统计各词项词频，使用对数函数对词频值进行映射，合理调整词频对分类的影响，克服了过高或过低词频在选取特征词时的不利影响；

进一步的，该方法计算词项在不同类间的平均信息熵，根据此项属性筛选出的特征词项具有更高的类间区分特性，有更高的类别区分度；

进一步的，该方法添加修正的词长特征，综合考量了整个数据集词项长度分布特性而不是单一词长影响，可以有效提升对立场检测有较高贡献的低频词被选为特征词的可能性，合理的增大了长词的权重。

附图说明

图1为本发明的一种基于多特征融合加权的微博文本立场检测方法示意图；

图2为本发明的多特征融合加权的特征词提取方法流程示意图。

具体实施方式

以下结合附图，通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

需要说明的是，以下实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案也应该属于本发明的范畴，应由各权利要求所限定。

如图1所示，为本发明的一种基于多特征融合加权的微博文本立场检测方法，该方法主要是对微博话题下用户评论的观点进行提取，根据本方法构造出的关键词权重公式得到关键词库，进而利用关键词库提取文本中的关键词判断评论的观点情感倾向。

具体地，基于多特征融合加权的微博文本立场检测方法包含：

S1、根据指定话题采集相应话题下的所有评论文本，将所有评论文本汇聚于数据集中。

在本实施例中，所述步骤S1具体为：选择NLPCC2016话题公开数据集作为数据样本，同时从微博话题专栏中根据目标话题爬取不同评论文本做以补充，并对数据做立场倾向的标签标注。具体地，可利用Python相应爬虫库爬取相应话题下的大众评论内容。本实施例中的目标话题为“春节放鞭炮”，数据样例如表1所示：

表1

其中，None、Favor、Against分别为立场倾向的标签，表示中立、支持、反对。

S2、对步骤S1中的数据集中的评论文本进行预处理操作。

所述预处理操作包含：对评论文本进行去停用词、去特殊符号、繁简转换、分词操作，使文本数据转化为由词语构成的纯文本格式进行存储。

在本实施例中，所述步骤S2具体为：将长度小于4的评论文本删除；数据去重，去除评论文本中重复的数据；中文繁体处理，将数据集中繁体文本全部转化为中文简体文本；自定义用户字典，将某些专有名词或动名词作为一个整体加入用户自定义字典；去停用词、特殊符号；分词，数据集中评论文本采用jieba分词完成句子的分词工作。如表2所示，为一实施例中采用步骤S2所得数据：

表2

S3、如图2所示，根据词语权重公式计算步骤S2中所得的每个评论文本中各词语的重要性standard(x)，提取每个评论文本的特征词。

所述词语权重公式的构造方式即多特征融合包含：

其中，word frequence(x)函数表示在对词语x的绝对词频采用对数函数log(x)降频后的词频值，d表示总文本数，k_i表示词语x在评论文本i中的词频。

在本实施例中，通过log2(x)公式合理化词频对特征词提取时的影响，例如词语“文化”，统计绝对词频为32，降低词频后的值为5.04439。

S32、计算词语在不同类间的平均信息熵。熵在信息论中表示对不确定性的数字度量，如果一个词在类A中分布较高，在类B中分布较低，那么平均信息熵就会很小，区分度相应较高。具体地，根据公式(2)计算词语在不同类间的平均信息熵entropy(x)，

importance(x)＝1-entropy(x) (3)。

当词语在各类中分布的越均衡，词语x的类间平均信息熵entropy(x)值相应就越大，表明词区分能力越弱，可得到词语类间区分度属性所带来的权重值importance(x)越小；反之，当词语在某一类中出现次数较多，在其他类中出现次数相对较少，那么entropy(x)值相应就越小，表明词的类间区分能力较强，权重加权值importance(x)较大。通过上述方法得到的权重加权值importance(x)使特征词在挑选时考虑了更强的类别间区分特性。

利用本方法构造的类间平均信息熵公式计算词语在类别区分度方面携带的信息量。熵在信息论中表示对不确定性的数字度量，如果一个词在类A中分布较高，在类B中分布较低，那么平均信息熵就会很小，区分度相应较高。经计算，在本实施例中，词语“文化”所携带的类间平均信息熵值为0.0167036。

S33、因分词自身的局限性以及评论语言的不确定性和自由性，词频为1的词语占了绝大部分，因此，为了突出某些低频长词的重要性，同时也不影响高频词具有重要含义的一般规律，根据公式(4)对词语的词长权重length(x)做出修正：

length(x)＝true_length_x/α (4)，

其中，true_length_x表示词语的实际长度，α表示当前数据集下词长种类的中位数。

具体实施时，统计当前数据集词长分布得出“春节放鞭炮话题集”词长分布的中位数为2，因此对于词语“文化”在词长部分所带来的权重加权为weight＝2/2，即1。

S34、根据公式(5)构造词语的词频特征frequence(x)，

其中，N表示总评论文本数，Nx表示包含词语x的评论文本数。frequence(x)由两部分构成，皆采用修正后的词频，第一部分使用词频值，第二部分融入了所有文档的条数与含有某词的文档条数的比值的对数，对词频影响稍作了修正。

具体实施时，对词频特征计算融入idf值，根据本步骤构造的公式计算得到“文化”一词在词频属性方面最终的加权权重为13.90362。

standard(x)＝frequence(x)*importance(x)+length(x) (6)。

根据上式，词语x的权重值即重要性standard(x)计算由三部分组成，权重大小就表示了词语x携带了多少对最终立场检测分类有效的信息。

在本实施例中，综合以上词频加权、类间平均信息熵加权、词长加权三部分融合，得到“文化”一词最终权重所表现出来的信息携带量即重要性为14.67138。

所述步骤S3中，提取评论文本的特征词具体为：

S36、对数据集中评论文本的词语按照其重要性standard(x)排序，选取前m个词语构成特征词库。

具体地，计算出所有词语权重所表现出来的信息携带量即重要性standard(x)，根据权重大小降序排列选出前300个词作为当前数据集关键词构成特征词库，如下表3(此处只展示前50个)所示：

表3

S4、提取每个评论文本中的情感词，将所述情感词与步骤S3中的特征词共同作为原文本，采用word2vec对所述原文本进行词向量映射。

具体地，所述步骤S4中，采用外部情感词典识别情感词，具体为采用所述情感词典比对评论文本提取出情感词。可选的，所述情感词典为大连理工大学的中文情感词汇库，其包含正负情感词语和正负评价词语，使用时，可删掉一些与话题评论情感无关的词语，形成具有话题文本特色的情感词典。

根据情感词典筛选出原文本数据中包含的情感词，拼接原文本数据中包含的关键词即特征词，例如原文本由“个人看法，放鞭炮本是春节重要的文化传统之一，有着重要的文化意义，环境保护指望鞭炮改善，多少年后的传统何去何从？”转化为['文化','重要','意义','环境','保护','指望','何去何从','传统','改善']。

在本实施例中，使用word2vec训练文本向量表示模型，完成词嵌入表示，具体地，词向量维度设置为300，加载文本词向量集，对于评论文本分词后的每个词，通过索引的方式得到它的词向量，对于未出现词(未出现词即为训练集中未出现的词)使用np.random.uniform()函数得到一个均匀分布的向量。

具体地，所述步骤S5中，对步骤S4所得的数据进行数据平衡，将其进行数据集划分，按照预设比例分为训练集和测试集。

分类数据各类样本可能出现不均衡的现象，这对分类的整体准确性有很大的影响。在本实施例中，采用np.random()方法将数据集打乱，继而采用sklearn中的train_test_split()函数进行数据集划分，打乱数据集按8:2比例划分为训练集与测试集。

进一步的，将数据集中的评论文本表示向量输入SVM分类模型，进行模型训练、保存与评估。即，将所述训练集和所述测试集输入SVM分类器，进行模型训练、保存和评估。

综上所述，本发明的一种基于多特征融合加权的微博文本立场检测方法，为一种可以合理化词频影响、突出较高类别区分度特征词、可解释性好的基于多特征融合加权的微博文本立场检测方法，该方法通过考虑多个方面的属性特征计算词语的权重，筛选出具有更强意义的特征词，从而提高情感立场倾向检测的准确性，提高对大众舆情事件的响应速度。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于多特征融合加权的微博文本立场检测方法，其特征在于，包含：

S2、对步骤S1中的数据集中的评论文本进行预处理操作；

2.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，

所述步骤S3中，根据词语权重公式计算每个评论文本的词语的重要性standard(x)。

3.如权利要求2所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，所述步骤S3中的词语权重公式的构造方式包含：

S32、根据公式(2)计算词语在不同类间的平均信息熵entropy(x)，

importance(x)＝1-entropy(x) (3)；

S33、根据公式(4)对词语的词长权重length(x)做出修正，

length(x)＝true_length_x/α (4)，

S34、根据公式(5)构造词语的词频特征frequence(x)，

standard(x)＝frequence(x)*importance(x)+length(x) (6)。

4.如权利要求3所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，所述步骤S3中，提取评论文本的特征词具体为：

5.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，所述步骤S1具体为：

6.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，所述步骤S2中所述预处理操作包含：

7.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，所述步骤S4中，

8.如权利要求7所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，

所述情感词典为大连理工大学的中文情感词汇库。

9.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，

采用word2vec对所述原文本进行词向量映射。

10.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法，其特征在于，所述步骤S5中，