CN107357785A

CN107357785A - 主题特征词抽取方法及系统、情感极性判断方法及系统

Info

Publication number: CN107357785A
Application number: CN201710542760.9A
Authority: CN
Inventors: 刘东升; 王黎明; 陈毓蔚
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-11-17

Abstract

本发明涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统，其中的主题特征词抽取方法包括获取社交网络评论的文本数据；对文本数据进行预处理；针对分词，对照停用词表去除停用词；将每条短文本的分词在各自短文本范围内自由组合成词对，并将词对表示成词向量的形式；给定参数作为短文本中需要抽取出的主题特征词的数量；根据先验知识初始化超参数；利用吉布斯采样抽取主题特征词。其中的情感极性判断方法包括利用吉布斯采样得到情感极性的多项式分布，并结合情感字典进行情感极性判断。通过以上方法和系统，可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。

Description

主题特征词抽取方法及系统、情感极性判断方法及系统

技术领域

本发明属于互联网信息处理领域，涉及社交网络文本信息处理与文本情感极性判断技术领域，特别涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统。

背景技术

20世纪末，互联网产品模式主要是以网站雇员主导生成内容的形式。而现如今，互联网的内容是由用户为主导产生的，每个用户已不仅仅是互联网的接收者，同时也是互联网内容的制造者。因此，为了区别于以往的互联网模式，提出了web2.0的概念。随着新闻评论、微博、博客、BBS等社交网络的快速发展，web2.0时代下的互联网上用户原创内容(UserGenerated Content，简称UGC)呈指数级的爆炸式增长。另一方面，随着移动端的普及，受到屏幕输入限制以及用户本身书写习惯等原因，用户在社交网络上发布的内容越来越精炼，各种形式的短文本(即文本长度较短的文本数据)更易产生。目前，短文本数据量与日俱增，对短文本的内容挖掘可在话题跟踪与发现、情感极性判断、舆情监测与预警等领域有着广泛的应用前景。

然而，短文本信息的处理方法与传统意义上的文本(即文本长度较长的文本数据，简称长文本)的大不相同。长文本一般数据量足够大，样本特征空间丰富，经过数据预处理阶段，如降维、去噪等过程后，长文本核心信息依旧得以保留，在形成文本矩阵时不会出现大量零元素。而短文本自身所包含的词语较少，经过数据预处理后，本身的特征空间已不足以表达有效的语言含义。因此，传统的文本信息处理方法在短文本的内容挖掘时准确性较差，不适合用于短文本的主题特征词抽取和情感极性判断。

发明内容

本发明的目的是提出一种主题特征词抽取方法及系统、情感极性判断方法及系统，可以应用到短文本信息处理技术领域，实现短文本主题特征词的准确抽取和情感极性的准确判断。

为了解决上述技术问题，本发明采用了下述技术方案：

本发明提出一种主题特征词抽取方法，其包括以下步骤：

获取社交网络评论的文本数据；

对文本数据进行预处理，预处理的过程如下：使用字符串匹配与正则表达式抽取短文本的正文文本；对正文文本进行分词；针对分词，对照停用词表去除停用词；

将每条短文本的分词在各自短文本范围内自由组合成词对，并将词对表示成词向量的形式；

给定参数T作为短文本中需要抽取出的主题特征词的数量；

根据先验知识初始化超参数α、β和γ，其中，α为主题的先验分布，β为词对的先验分布，γ为情感极性的先验分布；

利用吉布斯采样得到主题的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

针对主题的多项式分布，将主题按照出现频次进行排列，并根据排列结果抽取主题特征词。

优选的，预处理的过程还包括以下步骤：针对分词，统计分词的词频，去除出现频率低于3次的词语。

优选的，预处理的过程还包括以下步骤：针对分词，去除无实际意义的词语。

优选的，吉布斯采样的过程还包括：

利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布：p(b,l,z|α,β,γ)＝p(b|l,z,β)·p(l|z,γ)·p(z|α)，其中，b为词对，l为情感极性，z为主题；

通过对词对求积分得到词对的概率分布：

其中，Γ为伽玛函数，i表示第i个词对，j表示第j个主题，k表示第k个情感极性，V为词汇表，T为主题的数量，S为情感极性的数量，n_i,j,k为第i个词对指派为主题j和情感极性k的次数；n_j,k为指派为主题j和情感极性k的词对数量；

通过对情感极性π求积分得到情感极性的概率分布：

其中，Γ为伽玛函数，j表示第j个主题，k表示第k个情感极性，T为主题的数量，n_j,k为指派为主题j和情感极性k的词对数量，n_j为指派为主题j的词对数量；

通过对主题θ求积分得到主题的概率分布：

其中，n_d,j为短文本d中确定主题j的词对数量，n_d为短文本d中的词对数量，D为短文本的数量；

结合伽玛函数，得到简化的联合概率分布：

其中，-p为当前短文本中除去p位置的所有词对，为短文本d中除去p位置的确定主题j的词对数量，为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量，为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量，为短文本d中除去p位置的词对数量，为当前短文本中除去p位置的指派为主题j的词对数量；

利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到：

其中，θ_d,j为短文本d中与主题j所对应的主题分布，为主题j与情感极性k所对应的词对分布，π_j,k为主题j与情感极性k的情感极性分布；

通过迭代求得后验参数Θ、Φ和Π。

本发明提出一种情感极性判断方法，其包括以下步骤：

获取社交网络评论的文本数据；

给定参数T作为短文本中需要抽取出的主题特征词的数量；

利用吉布斯采样得到情感极性的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

将得到的情感极性的多项式分布与情感字典比较，得到情感极性词；

将情感极性词按照出现频次进行排列，并根据排列结果进行情感极性的判断。

优选的，吉布斯采样的过程还包括：

通过对词对求积分得到词对的概率分布：

通过对情感极性π求积分得到情感极性的概率分布：

通过对主题θ求积分得到主题的概率分布：

结合伽玛函数，得到简化的联合概率分布：

通过迭代求得后验参数Θ、Φ和Π。

本发明提出一种主题特征词抽取系统，其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块和抽取模块；

获取模块，用于获取社交网络评论的文本数据；

预处理模块，用于对文本数据进行预处理，预处理的过程如下：使用字符串匹配与正则表达式抽取短文本的正文文本；对正文文本进行分词；针对分词，对照停用词表去除停用词；

转换模块，用于将每条短文本的分词在各自短文本范围内自由组合成词对，并将词对表示成词向量的形式；

参数设置模块，用于给定参数T作为短文本中需要抽取出的主题特征词的数量；

初始化模块，用于根据先验知识初始化超参数α、β和γ，其中，α为主题的先验分布，β为词对的先验分布，γ为情感极性的先验分布；

运算模块，用于利用吉布斯采样得到主题的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

抽取模块，用于针对主题的多项式分布，将主题按照出现频次进行排列，并根据排列结果抽取主题特征词。

本发明提出一种情感极性判断系统，其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块、对比模块和情感判断模块；

获取模块，用于获取社交网络评论的文本数据；

运算模块，用于利用吉布斯采样得到情感极性的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

对比模块，用于将得到的情感极性的多项式分布与情感字典比较，得到情感极性词；

情感判断模块，用于将情感极性词按照出现频次进行排列，并根据排列结果进行情感极性的判断。

本发明相比于现有技术的有益效果在于：通过将短文本进行分词，并将各自短文本中的分词进行自由组合成词对，从而代替现有技术中的单个词语建模。本发明可获得与短文本相关的隐含主题，进而对短文本的情感极性进行判断分析。以词对的方式替代单个词语，从而扩充了稀疏矩阵，短文本的特征空间可得到扩展，可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。去除低频词和无实际意义的词，可提高短文本的主题特征词抽取效率和情感极性判断效率。

具体实施方式

以下结合实施例，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

本实施例提供一种主题特征词抽取方法和情感极性判断方法。在社交网络上以短文本评论内容居多，选取新浪微博的社交评论内容数据作为所要获取的文本数据。其中，文本数据信息包括发布者、发布时间、发布的文字内容等信息。短文本中的表情符号以带“[]”的文字出现，如[微笑]。首先，对所获取的文本数据进行预处理。使用字符串匹配与正则表达式抽取文本中的正文文本，即抽取文字内容部分。当正文文本中存在繁体字时，将繁体字转化为简体字。使用python(一种面向对象的计算机程序设计语言)的开源包jieba对正文文本进行分词。可对照哈尔滨工业大学的停用词表，去除分词中的停用词。统计分词的词频，将出现次数少于3次的词语去除。结合微博短文本的特性，去除出现次数多但无实际意义的词语。

将每条短文本的分词在本短文本中进行自由组合，形成词对。如分词A、B、C自由组合成词对(A、B)、(A、C)和(B、C)。将组合后的词对表示成词向量的形式。以词对的方式替代单个词语，并将词的组合限制在同一短文本中，可在扩充稀疏矩阵的同时，降低算法的时间复杂度和空间复杂度。短文本的特征空间可得到扩展，可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。

给定参数T作为短文本中需要抽取出的主题特征词的数量。根据先验知识初始化超参数α、β和γ，其中，α为主题的先验分布，β为词对的先验分布，γ为情感极性的先验分布。利用吉布斯采样得到主题的多项式分布和情感极性的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号，标号顺序为1,2,3，…，D(其中，D为总的短文本数量，d为第d个短文本)。结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数矩阵Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布。另外，Φ为T×S×V矩阵，Π为T×S矩阵。V为词汇表，T为主题的数量，S为情感极性的数量，以上三个参数皆为矩阵形式。针对主题的多项式分布，将主题按照出现频次进行排列，并根据排列结果抽取主题特征词。将得到的情感极性的多项式分布与情感字典比较，得到情感极性词。将情感极性词按照出现频次进行排列，并根据排列结果进行情感极性的判断。

具体地，吉布斯采样的过程还包括：

利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布：p(b,l,z|α,β,γ)＝p(b|l,z,β)·p(l|z,γ)·p(z|α)，其中，b为词对，l为情感极性，z为主题。

通过对词对求积分得到词对的概率分布：

其中，Γ为伽玛函数，i表示第i个词对，j表示第j个主题，k表示第k个情感极性，V为词汇表，T为主题的数量，S为情感极性的数量，n_i,j,k为第i个词对指派为主题j和情感极性k的次数；n_j,k为指派为主题j和情感极性k的词对数量。其中，词汇表是指所有短文本分词成的词语的集合。

通过对情感极性π求积分得到情感极性的概率分布：

其中，Γ为伽玛函数，j表示第j个主题，k表示第k个情感极性，T为主题的数量，n_j,k为指派为主题j和情感极性k的词对数量，n_j为指派为主题j的词对数量。

通过对主题θ求积分得到主题的概率分布：

其中，n_d,j为短文本d中确定主题j的词对数量，n_d为短文本d中的词对数量，D为短文本的数量。

结合伽玛函数，得到简化的联合概率分布：

其中，-p为当前短文本中除去p位置的所有词对，为短文本d中除去p位置的确定主题j的词对数量，为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量，为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量，为短文本d中除去p位置的词对数量，为当前短文本中除去p位置的指派为主题j的词对数量。

其中，θ_d,j为短文本d中与主题j所对应的主题分布，为主题j与情感极性k所对应的词对分布，π_j,k为主题j与情感极性k的情感极性分布。

通过迭代求得后验参数矩阵Θ、Φ和Π。

计算迭代过程如下：将预处理后得到的分词组合成词对，将词对转化为词向量的形式，并将词向量的集合导入计算模型中。初始化超参数α、β和γ。对词向量的集合中出现某一主题的主题特征词和某一主题下的词对分别进行计数。计数后计算得到主题的概率分布和情感极性的概率分布。得到采样的概率分布结果后，若迭代已收敛，则输出结果，否则，重新进行计数并计算概率分布，直至计算结果收敛。

本实施例提供一种主题特征词抽取系统，其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块和抽取模块。

获取模块，用于获取社交网络评论的文本数据。

预处理模块，用于对文本数据进行预处理，预处理的过程如下：使用字符串匹配与正则表达式抽取短文本的正文文本；对正文文本进行分词；针对分词，对照停用词表去除停用词。

转换模块，用于将每条短文本的分词在各自短文本范围内自由组合成词对，并将词对表示成词向量的形式。

初始化模块，用于根据先验知识初始化超参数α、β和γ，其中，α为主题的先验分布，β为词对的先验分布，γ为情感极性的先验分布。

运算模块，用于利用吉布斯采样得到主题的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布。

本实施例提供一种情感极性判断系统，其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块、对比模块和情感判断模块。

获取模块，用于获取社交网络评论的文本数据。

运算模块，用于利用吉布斯采样得到情感极性的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布。

对比模块，用于将得到的情感极性的多项式分布与情感字典比较，得到情感极性词。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主题特征词抽取方法，其特征在于，包括以下步骤：

获取社交网络评论的文本数据；

对文本数据进行预处理，所述预处理的过程如下：使用字符串匹配与正则表达式抽取短文本的正文文本；对正文文本进行分词；针对分词，对照停用词表去除停用词；

将每条短文本的分词在各自短文本范围内自由组合成词对，并将所述词对表示成词向量的形式；

给定参数T作为短文本中需要抽取出的主题特征词的数量；

利用吉布斯采样得到主题的多项式分布，所述吉布斯采样的过程如下：对所述文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

针对主题的多项式分布，将所述主题按照出现频次进行排列，并根据排列结果抽取主题特征词。

2.根据权利要求1所述的主题特征词抽取方法，其特征在于，所述预处理的过程还包括以下步骤：针对分词，统计分词的词频，去除出现频率低于3次的词语。

3.根据权利要求1所述的主题特征词抽取方法，其特征在于，所述预处理的过程还包括以下步骤：针对分词，去除无实际意义的词语。

4.根据权利要求1所述的主题特征词抽取方法，其特征在于，所述吉布斯采样的过程还包括：

通过对词对求积分得到词对的概率分布：

通过对情感极性π求积分得到情感极性的概率分布：

通过对主题θ求积分得到主题的概率分布：

结合伽玛函数，得到简化的联合概率分布：

通过迭代求得后验参数Θ、Φ和Π。

5.一种情感极性判断方法，其特征在于，包括以下步骤：

获取社交网络评论的文本数据；

给定参数T作为短文本中需要抽取出的主题特征词的数量；

利用吉布斯采样得到情感极性的多项式分布，所述吉布斯采样的过程如下：对所述文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

将所述情感极性词按照出现频次进行排列，并根据排列结果进行情感极性的判断。

6.根据权利要求5所述的情感极性判断方法，其特征在于，所述预处理的过程还包括以下步骤：针对分词，统计分词的词频，去除出现频率低于3次的词语。

7.根据权利要求5所述的情感极性判断方法，其特征在于，所述预处理的过程还包括以下步骤：针对分词，去除无实际意义的词语。

8.根据权利要求5所述的情感极性判断方法，其特征在于，所述吉布斯采样的过程还包括：

通过对词对求积分得到词对的概率分布：

通过对情感极性π求积分得到情感极性的概率分布：

通过对主题θ求积分得到主题的概率分布：

结合伽玛函数，得到简化的联合概率分布：

通过迭代求得后验参数Θ、Φ和Π。

9.一种主题特征词抽取系统，其特征在于，包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块和抽取模块；

所述获取模块，用于获取社交网络评论的文本数据；

所述预处理模块，用于对文本数据进行预处理，所述预处理的过程如下：使用字符串匹配与正则表达式抽取短文本的正文文本；对正文文本进行分词；针对分词，对照停用词表去除停用词；

所述转换模块，用于将每条短文本的分词在各自短文本范围内自由组合成词对，并将所述词对表示成词向量的形式；

所述参数设置模块，用于给定参数T作为短文本中需要抽取出的主题特征词的数量；

所述初始化模块，用于根据先验知识初始化超参数α、β和γ，其中，α为主题的先验分布，β为词对的先验分布，γ为情感极性的先验分布；

所述运算模块，用于利用吉布斯采样得到主题的多项式分布，所述吉布斯采样的过程如下：对所述文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

所述抽取模块，用于针对主题的多项式分布，将所述主题按照出现频次进行排列，并根据排列结果抽取主题特征词。

10.一种情感极性判断系统，其特征在于，包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块、对比模块和情感判断模块；

所述获取模块，用于获取社交网络评论的文本数据；

所述运算模块，用于利用吉布斯采样得到情感极性的多项式分布，所述吉布斯采样的过程如下：对所述文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

所述对比模块，用于将得到的情感极性的多项式分布与情感字典比较，得到情感极性词；

所述情感判断模块，用于将所述情感极性词按照出现频次进行排列，并根据排列结果进行情感极性的判断。