CN108287922A

CN108287922A - 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法

Info

Publication number: CN108287922A
Application number: CN201810165734.3A
Authority: CN
Inventors: 廖祥文; 陈国龙; 赵楠; 杨定达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-07-17
Anticipated expiration: 2038-02-28
Also published as: CN108287922B

Abstract

本发明提供一种融合话题属性和情感信息的文本数据观点摘要挖掘方法，包括：对话题的文本语料集进行预处理；输入话题语料集和背景语料集；提取话题语料集的话题属性；将得到的话题属性添加情感极性，对句子向量化；将得到的话题属性作为评价对象，得出句子包含的情感属性特征，通过话题属性和情感分析方法将一个句子进行特征向量化；利用得到的话题属性集合、文本句子特征向量集合S构建三层图结构，把所有文本句子聚类；从类簇中挑选句子组成观点摘要，挑选得分高的句子组成观点摘要。本发明使得采用提取话题属性方法提取的话题属性更为精准，同样使其不仅仅应用与中文微博领域，更可以用于网站新闻、商品评论领域。

Description

一种融合话题属性和情感信息的文本数据观点摘要挖掘方法

技术领域

本发明涉及文本摘要、情感分析领域，更具体地，涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要，观点摘要能够准确地覆盖文本所讨论的重点内容，并能够应用于新闻摘要、商品评论分析等实际应用场景。

背景技术

当前，有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法，它们利用句子作为节点，句子与句子之间的某种关系作为边的权重，通过随机游走模型对句子的得分做迭代更新计算，从而实现对句子的评分，选择一定数量得分高的句子组合成观点摘要，而排序模型从观点摘要的多样性、冗余性等考虑因素出发，构建句子评分函数实现对句子的评分，或利用KL散度、MMR方法对句子做一个相对的分数排序，通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性，并没有在图结构中融合话题属性的细粒度情感信息，在一定程度上。

当前，国内外研究学者纷纷对此展开研究，提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中，生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要，将文本句子分词，通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本，将最终符合要求的单词组合形式作为最终的观点摘要，该方法具有较好的效果，但算法求解的时间复杂度过高，对于较短的数据集都要花数倍其他方法的时间，同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质，利用贪心算法保证得到的局部解可以不低于最优解的63%，其贪心算法考虑了多种要素的情况挑选句子，虽然实验效果相对较好，但手动构建语料本体树的方式并不适用于更为广泛的应用场景。

一般而言，观点摘要的两个基础性质是：1）保证得到的摘要覆盖话题文本主旨；2）得到的摘要覆盖富有情感色彩的话题主旨。不足的是，现有的多数图模型考虑利用文本句子和话题特征来构建图结构，并且通过整个文本句子的情感信息刻画观点摘要的情感信息，没有在图结构中融合话题属性的情感信息，没有考虑不同情感的话题特征是两个不同含义的主体，导致包含不同情感话题属性的句子被关联起来。因此，人们迫切希望能有一种更加高效准确的观点摘要研究方法，该方法通过实体抽取方法从源文本中提取话题属性单词作为文本主旨关键词，结合情感分析研究方法来研究每个句子中关于以话题属性为评价对象的情感信息，并将带情感信息的话题属性融入到图结构中。

发明内容

本发明的目的是解决从海量观点文本数据的抽取观点句子的问题，提出一种融合话题属性情感信息的观点摘要方法，从话题属性及其情感信息出发解决当前研究方法存在的问题，能够高效准确地得到话题文本的观点摘要，并且能够应用于更大规模数据集应用场景。

为实现上述目的，本发明采用以下技术方案：一种融合话题属性和情感信息的文本数据观点摘要挖掘方法，其包括以下步骤：步骤S1：对话题的文本语料集进行预处理，清理一些不相关的词；步骤S2：输入话题语料集和背景语料集；步骤S3：利用对数似然比方法提取话题语料集的话题属性；步骤S4：将步骤S3得到的话题属性添加情感极性，情感极性包括正面情感、负面情感，由此将正面话题属性和负面话题属性作为情感属性特征，用于对句子向量化；步骤S5：将步骤3得到的话题属性作为评价对象，采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性，得出句子包含的情感属性特征，句子包含情感属性特征则相应特征值为1，不包含则特征则值为0，如此通过话题属性和情感分析方法将一个句子进行特征向量化，并把文本句子中所有的正面话题属性用表示，负面话题属性集合用表示；步骤S6：利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构，利用图的连通性，三层图网络变成各个独立的图，每个图中的句子就形成一个类簇，从而把所有文本句子聚类；步骤S7：从类簇中挑选句子组成观点摘要，提出基于图聚类的观点句子选择方法，定义观点句子评分函数，函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素，利用观点句子评分函数对类簇中句子进行评分，从每个类簇中挑选得分高的句子组成观点摘要。

在本发明一实施例中，步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词；防止在后续步骤提取话题属性中的影响其结果，过滤规则由如下：

（1）去除评论句子中的网页链接；

（2）去除字符长度小于3的评论句子；

（3）去除评论句子中的常用不相关词；

（4）将所有英文表成小写。

在本发明一实施例中，步骤S2中针对预处理后的文本，设定当前话题文本为话题语料集，其他话题文本作为背景语料集，步骤S3中借助对数似然比方法，计算话题语料集中的单词的对数似然比值，并利用阈值对单词进行过滤，其中单词词性要求必须是名词、形容词、动词、数词，提取话题语料集的话题属性。

在本发明一实施例中，步骤S5中面向多评价对象的动态词序列方法是基于情感词典的词袋模型，主要分为两步：第一步利用动态词序列的方法切割句子词序列，得到句子中包含的每个评价对象的词序列；第二步利用情感词典匹配每个评价对象的词序列情感词，利用情感词的极性和权重计算该评价对象的情感倾向，根据句子中的话题属性和情感极性得到句子特征向量，文本句子特征向量集合表示为S。

在本发明一实施例中，步骤S5中词序列的方法流程如下：步骤S51：确定评价对象在句子中的位置，针对每一个句子，以话题属性集合A中的话题属性为评价对象，按照句子前到后的方向确定各个评价对象在句子中的位置，位置从小到大；步骤S52：以句子中评价对象的位置为中心向左右两个方向扩展，直到遇到标点符号或其他评价对象；步骤S53：若向左或向右遇到标点符号，则截取标点符号到评价对象内的左词序列或右词序列；步骤S54：若向左或向右遇到其他评价对象，则取两个评价对象的位置坐标的中间坐标，截取中间坐标到评价对象位置的词序列作为左词序列或右词序列；步骤S55：经过上述步骤后得到某一评价对象的左词序列和右词序列，左词序列和右词序列合并得到该评价对象完整的词序列

，其中是评价对象，做情感分析时去掉，参数范围，两者具体的值是动态变化的，没有固定值，对于两个不同词序列存在两者的参数值不一样；同时，对于任意两个动态词序列和，满足条件，即两个词序列没有重合的单词序列。

在本发明一实施例中，步骤S7中利用基于图聚类的观点句子选择方法来挑选句子，首先定义观点句子评分函数，利用评分函数对类簇中的句子评分并排序，从每个类簇中选择排序靠前的句子组成观点摘要，其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数；其中观点句子评分函数考虑三个因素：句子包含的情感话题属性个数、情感话题属性被包含的句子个数、句子的情感信息；针对这三者得到线性评分函数。

与现有技术相比，本发明具有以下优点：

1、数据的预处理，为了使应用更加广泛，本发明在原始数据的基础上，将数据进行清理操作，过滤不相关文本，使得采用提取话题属性方法提取的话题属性更为精准，同样使其不仅仅应用与中文微博领域，更可以用于网站新闻、商品评论领域。

2、在模型中考虑话题属性的情感极性，考虑话题属性的正面、负面情感，不讨论中性情感。利用正面话题属性、负面话题属性、句子集合构建三层图结构，并利用三层图结构对句子聚类。利用聚类得到的类簇，从类簇利用基于图聚类的观点句子选择方法选择句子组成观点摘要。

附图说明

图1为本发明的主要流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步解释说明。

一种融合话题属性和情感信息的文本数据观点摘要挖掘方法，其包括以下步骤：步骤S1：对话题的文本语料集进行预处理，清理一些不相关的词；步骤S2：输入话题语料集和背景语料集；步骤S3：利用对数似然比方法提取话题语料集的话题属性；步骤S4：将步骤S3得到的话题属性添加情感极性，情感极性包括正面情感、负面情感，由此将正面话题属性和负面话题属性作为情感属性特征，用于对句子向量化；步骤S5：将步骤3得到的话题属性作为评价对象，采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性，得出句子包含的情感属性特征，句子包含情感属性特征则相应特征值为1，不包含则特征则值为0，如此通过话题属性和情感分析方法将一个句子进行特征向量化，并把文本句子中所有的正面话题属性用表示，负面话题属性集合用表示；步骤S6：利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构，利用图的连通性，三层图网络变成各个独立的图，每个图中的句子就形成一个类簇，从而把所有文本句子聚类；步骤S7：从类簇中挑选句子组成观点摘要，提出基于图聚类的观点句子选择方法，定义观点句子评分函数，函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素，利用观点句子评分函数对类簇中句子进行评分，从每个类簇中挑选得分高的句子组成观点摘要。本发明的主要流程示意图参见图1。

（1）去除评论句子中的网页链接，例如“http://t.cn/RcwWYQZ”。

（2）去除字符长度小于3的评论句子，这类评论句子包含的信息过少，大多数都是表情符，并无其他有用信息。

（3）去除评论句子中的常用不相关词，如“组图”、“原文转发”等。

（4）将所有英文表成小写，统一成小写英文。

在本发明一实施例中，步骤S5中词序列的方法流程如下：步骤S51：确定评价对象在句子中的位置，针对每一个句子，以话题属性集合A中的话题属性为评价对象，按照句子前到后的方向确定各个评价对象在句子中的位置，位置从小到大；步骤S52：以句子中评价对象的位置为中心向左右两个方向扩展，直到遇到标点符号（句号、问号、感叹号、分号等）或其他评价对象；步骤S53：若向左或向右遇到标点符号，则截取标点符号到评价对象内的左词序列或右词序列；步骤S54：若向左或向右遇到其他评价对象，则取两个评价对象的位置坐标的中间坐标，截取中间坐标到评价对象位置的词序列作为左词序列或右词序列；步骤S55：经过上述步骤后得到某一评价对象的左词序列和右词序列，左词序列和右词序列合并得到该评价对象完整的词序列，其中是评价对象，做情感分析时去掉，参数范围，两者具体的值是动态变化的，没有固定值，对于两个不同词序列存在两者的参数值不一样；同时，对于任意两个动态词序列和，满足条件，即两个词序列没有重合的单词序列。

步骤S6利用句子和情感话题属性之间的包含关系将正面情感话题属性集合、负面情感话题属性集合、句子向量集合构建为三层网络图，并利用图的连通性从网络图中得到多个关联图，每一个图中的句子作为一个类簇，利用图结构对句子进行聚类。

本发明提出了一种融合话题属性情感信息的观点摘要方法，其包含两个基本假设，1）文本的话题属性是文本的中心思想、主旨；2）不同情感的同一个话题属性是不同的，两者都作为文本的主旨、主要讨论内容；包含一个基于对数似然比的话题属性提取方法；包含一个基于情感词典的动态词序列情感分析方法；包含一个基于三层图结构句子聚类方法，将情感话题属性的情感融入到图结构中，并利用图结构对句子聚类；包含一个基于图聚类的观点句子选择方法，从带情感极性的话题属性、话题属性被包含的句子个数、句子情感信息三个方面构建观点句子评分函数，对类簇中的句子评分并排序用于作为挑选句子的依据。

在本发明一实施例中，具体包括以下步骤：

步骤S1：对微博语料集进行预处理，清理一些不相关的词，避免影响话题属性的抽取。

步骤S2：输入话题语料集和背景语料集，此处背景语料集是其他话题语料集组成的。步骤S3：利用对数似然比方法提取话题语料集的话题属性。

步骤S4：将步骤S3得到的话题属性添加情感极性，情感极性包括正面情感、负面情感，由此将正面话题属性和负面话题属性作为情感属性特征，用于对句子向量化。

步骤S5：将步骤3得到的话题属性作为评价对象，采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性，得出句子包含的情感属性特征，句子包含情感属性特征则相应特征值为1，不包含则特征则值为0，如此通过话题属性和情感分析方法将一个句子进行特征向量化，并把文本句子中所有的正面话题属性用表示，负面话题属性集合用表示。其中面向多评价对象的动态词序列方法是基于情感词典的词袋模型，主要分为两步：第一步利用动态词序列的方法切割句子词序列，得到句子中包含的每个评价对象的词序列；第二步利用情感词典匹配每个评价对象的词序列情感词，利用情感词的极性和权重计算该评价对象的情感倾向，根据句子中的话题属性和情感极性得到句子特征向量，文本句子特征向量集合表示为S。

步骤S6：利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构，利用图的连通性，三层图网络变成各个独立的图，每个图中的句子就形成一个类簇，从而把所有文本句子聚类。

步骤S7：从类簇中挑选句子组成观点摘要，提出基于图聚类的观点句子选择方法，定义观点句子评分函数，函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素、句子的情感信息因素等三个因素，利用观点句子评分函数对类簇中句子进行评分，从每个类簇中挑选得分高的句子组成观点摘要。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种融合话题属性和情感信息的文本数据观点摘要挖掘方法，其特征在于：包括以下步骤：

步骤S1：对话题的文本语料集进行预处理，清理一些不相关的词；

步骤S2：输入话题语料集和背景语料集；

步骤S3：利用对数似然比方法提取话题语料集的话题属性；

步骤S4：将步骤S3得到的话题属性添加情感极性，情感极性包括正面情感、负面情感，由此将正面话题属性和负面话题属性作为情感属性特征，用于对句子向量化；

步骤S5：将步骤3得到的话题属性作为评价对象，采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性，得出句子包含的情感属性特征，句子包含情感属性特征则相应特征值为1，不包含则特征则值为0，如此通过话题属性和情感分析方法将一个句子进行特征向量化，并把文本句子中所有的正面话题属性用表示，负面话题属性集合用表示；

步骤S6：利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构，利用图的连通性，三层图网络变成各个独立的图，每个图中的句子就形成一个类簇，从而把所有文本句子聚类；

步骤S7：从类簇中挑选句子组成观点摘要，提出基于图聚类的观点句子选择方法，定义观点句子评分函数，函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素，利用观点句子评分函数对类簇中句子进行评分，从每个类簇中挑选得分高的句子组成观点摘要。

2.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法，其特征在于：步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词；防止在后续步骤提取话题属性中的影响其结果，过滤规则由如下：

（1）去除评论句子中的网页链接；

（2）去除字符长度小于3的评论句子；

（3）去除评论句子中的常用不相关词；

（4）将所有英文表成小写。

3.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法，其特征在于：步骤S2中针对预处理后的文本，设定当前话题文本为话题语料集，其他话题文本作为背景语料集，步骤S3中借助对数似然比方法，计算话题语料集中的单词的对数似然比值，并利用阈值对单词进行过滤，其中单词词性要求必须是名词、形容词、动词、数词，提取话题语料集的话题属性。

4.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法，其特征在于：

步骤S5中面向多评价对象的动态词序列方法是基于情感词典的词袋模型，主要分为两步：第一步利用动态词序列的方法切割句子词序列，得到句子中包含的每个评价对象的词序列；第二步利用情感词典匹配每个评价对象的词序列情感词，利用情感词的极性和权重计算该评价对象的情感倾向，根据句子中的话题属性和情感极性得到句子特征向量，文本句子特征向量集合表示为S。

5.根据权利要求4所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法，其特征在于：步骤S5中词序列的方法流程如下：

步骤S51：确定评价对象在句子中的位置，针对每一个句子，以话题属性集合A中的话题属性为评价对象，按照句子前到后的方向确定各个评价对象在句子中的位置，位置从小到大；

步骤S52：以句子中评价对象的位置为中心向左右两个方向扩展，直到遇到标点符号或其他评价对象；

步骤S53：若向左或向右遇到标点符号，则截取标点符号到评价对象内的左词序列或右词序列；

步骤S54：若向左或向右遇到其他评价对象，则取两个评价对象的位置坐标的中间坐标，截取中间坐标到评价对象位置的词序列作为左词序列或右词序列；

步骤S55：经过上述步骤后得到某一评价对象的左词序列和右词序列，左词序列和右词序列合并得到该评价对象完整的词序列，其中是评价对象，做情感分析时去掉，参数范围，两者具体的值是动态变化的，没有固定值，对于两个不同词序列存在两者的参数值不一样；同时，对于任意两个动态词序列和，满足条件，即两个词序列没有重合的单词序列。

6.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法，其特征在于：步骤S7中利用基于图聚类的观点句子选择方法来挑选句子，首先定义观点句子评分函数，利用评分函数对类簇中的句子评分并排序，从每个类簇中选择排序靠前的句子组成观点摘要，其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数；其中观点句子评分函数考虑三个因素：句子包含的情感话题属性个数、情感话题属性被包含的句子个数、句子的情感信息；针对这三者得到线性评分函数。