CN109902284A

CN109902284A - 基于论辩挖掘的一种无监督论点提取方法

Info

Publication number: CN109902284A
Application number: CN201811649096.9A
Authority: CN
Inventors: 廖名学; 段学煜; 田丰
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2019-06-18

Abstract

本发明实施例提供了一种基于论辩挖掘的一种无监督论点提取方法，涉及自然语言处理技术领域。该方法包括以下步骤：构建图模块，将一篇文本构建为图模块；创建位置模块，计算此篇文本中句子在位置模块中的权重；创建指示词模块，计算此篇文本中句子在指示词模块中的权重；创建联合排序模块，用以得到上述三个模块的线性加权之后的最终分数。本发明从无监督的角度出发，避免了有监督机器学习算法对标注语料库的依赖。将文本建立为图模块，用以探索图模块算法和论辩挖掘中论点识别任务的相关性。从速度上而言，能够达到实时的效率，减少了前期大量的训练时间。

Description

基于论辩挖掘的一种无监督论点提取方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于论辩挖掘的一种无监督论点提取方法。

背景技术

论辩挖掘是计算论辩中一个非常重要的子方向，旨在自动地从原始的无结构化的文本中提取出论辩体。由于研究领域的不同以及研究角度的差别，论辩体的定义也会有所区别。最简单的论辩体由一个论点和若干个支持或者反对该论点的论据以及论点和论据之间的论辩关系组成。论点和论据称为论辩结构中的论辩组件，论点和论据之间的关系称为论辩关系。论辩挖掘在自然语言处理中主要分为三个研究方向：文本中论辩组件的识别，论辩体中论辩组件之间关系的辨别以及自动评价论辩挖掘的质量。论辩组件的识别是最基础的任务，其子任务包含论点识别和论据识别。

关于论辩组件识别任务的研究有很多，但是大多数的研究都是基于有监督机器学习方法，这些方法不仅依赖于大规模、高质量的人工标注的语料库，而且依赖高度工程化和复杂的特征，这使得有监督机器学习方法在处理非常大的跨领域的数据集时，无法达到快速高效的目的。

无监督方法是上述问题的一种可能的解决方法，但是目前只有较少的研究关注于无监督学习方法。随着电子商务和智能分析的推广以及社交媒体用户数据的爆炸性增长，从大规模信息流中发现、分离和分析论点变得十分重要。因此从无监督的角度来解决论辩挖掘任务是一个具有应用潜力和新颖的研究课题。通过论辩挖掘可以帮助我们更好地识别论辩体，为决策或分析提供支持。社交媒体以及电子商务等数据的爆炸性增长虽然为论辩挖掘提供了大量的数据准备，但是无结构化的文本不利于分析和决策。无监督方法可以更加快速地、跨领域地解决这些问题，也因此更加凸显了无监督方法的重要性。

在基于有监督机器学习方法中，大多数工作专注于特征选取与数据处理的工作。这些方法用一系列的特征来表述句子的信息，用以判断句子是否是论点。绝大多数现有方法都采用经典、现有的分类器，这些分类器所取得的成果大部分归功于高度工程化的特征，对于算法本身没有本质的改进。大量的有监督学习算法被用于论点识别任务，包括朴素贝叶斯算法、支持向量机算法、最大熵算法、逻辑回归算法、决策树和随机森林算法。Attraction to Topics(A2T)是一种用于论辩组件识别的无监督的方案。A2T技术的核心是将句子的主题信息和句子在文中的位置信息相结合。

在一篇文章中，如果一个句子是论辩组件，那么此句子将会和某一主题高度契合，而和其余主题的契合度较低。句子的位置信息是指位于文章的开头和结尾位置的句子有较大的概率为论点。A2T目的有两个：识别某句子是否含有某一论辩组件，将有论辩性的句子和无论辩性的句子分类；将有论辩性的句子具体分类为主论点、论点、论据。

为了减少有监督机器学习方法中人工提取特征的繁琐工作以及避免对人工标注语料库的依赖性，本发明从无监督学习方法的角度出发，设计了一种联合模块，用以解决有争辩性文本的论点识别任务。

发明内容

为解决上述技术问题，采用以下技术方案：

一种基于论辩挖掘的一种无监督论点提取方法，所述方法包括以下步骤：

第一步：构建图模块，将一篇文本构建为图模块；

第二步：创建位置模块，计算此篇文本中句子在位置模块中的权重；

第三步：创建指示词模块，计算此篇文本中句子在指示词模块中的权重；

第四步：创建联合排序模块，用以得到最终分数。

优选地，所述第一步具体包括以下步骤：

预处理：将一篇文本按照句子粒度进行划分，去除句子中的停用词，预处理之后得到句子集合；

构建图模块：根据划分后的句子构建成图模块，图中的顶点为句子，句子之间构成边的集合，句子集合构成图的顶点集合，句子之间进行全连接；

计算权重：首先进行初始化权重计算，计算两个句子的相似度，计算词向量，然后按照余弦相似度计算相似度，此分数记为边的初始化权重，得到所有边的初始化权重之后，顶点的初始化权重为所有相邻边的权重的平均值，得到顶点的初始化权重；之后进行顶点权重的迭代计算，计算各句子的分数，稳定之后得到图模块下句子的分数。

其中，所述第二步具体包括：考虑文本中开始位置信息、结束位置的信息和中间段落的位置信息，使用分段函数来表述上述的位置信息。

优选地，所述第三步具体包括：选取一组话语标记词组成的指示词表，用指示函数来建模指示词模块。

其中，所述文本以单个完整句子为论辩组件标注的基本单元，即文本中每个完整的句子被标注为一个论辩组件，之后对句子中的单词进行预处理。

优选地，以句子粒度分割文本，根据句子在文本中的位置获得相应的得分，通过位置模块的计算，得到在位置模块下的得分。

其中，根据句子是否包含指话语标记词获得相应的得分，通过指示词模块的计算，得到在指示词模块下的得分。

优选地，将一篇文本中的句子按照图模块、位置模块以及指示词模块的得分，得到各个句子的最终分数。

其中，所述最终分数形成为三个模块的线性加权形式，其中，所述位置模块的得分和指示词模块的得分根据此篇文本中所述图模块的平均得分来进行归一化操作。

有益效果：本发明实施例提供的基于论辩挖掘的一种无监督论点提取方法，从无监督的角度出发，避免了有监督机器学习算法对标注语料库的依赖。本发明将文本建立为图模块，用以探索图模块算法和论辩挖掘中论点识别任务的相关性。从速度上而言，能够达到实时的效率，减少了前期大量的训练时间。

附图说明

图1为本发明实施例提供的一种基于论辩挖掘的一种无监督论点提取方法的流程图；

图2为本发明实施例提供的另一种基于论辩挖掘的一种无监督论点提取方法的流程图。

具体实施方式

以下结合附图对本发明的具体实施方式作出详细说明。

本发明克服现有技术的不足，提出了一种基于论辩挖掘的无监督论点提取方法，参见图1，针对论辩性文本，将文本中的句子建模为图模块，将构建的图模块应用于论点识别任务上。联合模块是一个基于无监督的排序模块，主要包含三个方面：图模块的构建，句子位置信息函数化和话语标记信息的利用。在一篇文本中，句子在联合模块中的得分越高，句子是论点组件的概率越大。

本发明实施例提供的一种基于论辩挖掘的无监督论点提取方法种，用户输入一篇有争辩性的文本，通过联合模块的迭代计算，输出本篇文本的论点。

文本以单个完整句子为论辩组件标注的基本单元，即文本中每个完整的句子可以被标注为一个论辩组件。之后对句子中的单词进行预处理。根据分割成的句子构建成图模块，图中的顶点为句子，句子之间构成边的集合。计算句子相似度，按照TF-IDF计算词向量，然后按照余弦相似度计算相似度。

按照TextRank公式迭代传播权重计算各句子的得分。将稳定之后的句子按照权重大小排序，分数越高，句子的权重越大，此分数记为句子在TextRank模块中的得分。

以句子粒度分割文本，根据句子在文本中的位置获得相应的得分。分数计算规则为：如果句子在第一段或者最后一段的第一句或者最后一句，记2分；如果句子在中间段落的第一句或者最后一句，记1分；其余情况记为0分。通过位置模块的计算，得到在位置模块下的得分。

以句子粒度分割文本，根据句子是否包含指话语标记词获得相应的得分。分数计算规则为：如果句子包含话语标记词，记1分；否则为0分。通过指示词模块的计算，得到在指示词模块下的得分。

将一篇文本中的句子按照图模块、位置模块以及指示词模块的得分，得到各个句子的最终分数。最终分数的形成为三个模块的线性加权形式，其中位置模块的得分和指示词模块的得分要根据此篇文本中图模块的平均得分来进行归一化操作。根据最终的得分，句子得分越高，是论点的可能性越大，排名第一的句子更有可能是主论点。

如图2所示，本发明的着重点在于算法上的创新。该算法包括文本图模块的建立、位置模块的创新，指示词模块的应用以及联合模块的排序模块。图模块的建立：将文本以单个句子为粒度进行划分，之后对句子集合构建图模块；位置模块的创新：该位置模块不仅考虑了文章中开始位置和结束位置的信息，也考虑了中间段落的位置信息；指示词模块的应用：用指示函数来建模指示词模块；联合模块的排序模块：整合上述三个模块的句子得分，按照最终的分数进行排序，形成最终的论点。

如图2所示，本发明方法具体的操作过程。

(1)图模块的构建，将一篇文本构建为图模块的具体过程如下步骤。

(1.1)预处理：将一篇文本按照句子粒度进行划分，去除句子中的停用词，预处理之后得到后续步骤中用到的句子集合。

(1.2)图的构建：句子集合构成图的顶点集合，句子之间进行全连接。

(1.3)权重的计算：首先是初始化权重的计算，计算两个句子的相似度，按照TF-IDF计算词向量，然后按照余弦相似度计算相似度，此分数记为边的初始化权重。得到所有边的初始化权重之后，顶点的初始化权重为所有相邻边的权重的平均值，得到顶点的初始化权重；之后是顶点权重的迭代计算，按照 TextRank公式迭代传播权重计算各句子的分数，稳定之后得到图模块下句子的分数。

(2)位置模块的创新，计算此篇文本中句子在位置模块中的权重。该位置模块不仅考虑了文章中开始位置和结束位置的信息，也考虑了中间段落的位置信息。在一篇具有论辩性的文章中，每一段的开始句子和结尾句子通常要比中间的句子更具有总结性质，即每一段的开始句子和结尾句子是论点的概率更大，所以我们使用了分段函数来表述上述的信息。

(3)指示词模块的应用，计算此篇文本中句子在指示词模块中的权重。在本发明中，联合模块希望用指示词模块将成分是论点的句子指示出来。我们选取了一组话语标记词组成的指示词表，我们用指示函数来建模指示词模块。

(4)联合模块的排序模块，用以得到上述三个模块的线性加权之后的最终分数。实现了位置加分和包含话语标记词句子加分的动态调整。根据最终的得分，句子得分越高，是论点的可能性越大，排名第一的句子更有可能是主论点。

本发明针对自动识别具有争辩性的文本中的论点的任务，提出了一个无监督的联合模块。此无监督联合模块以图模块为基础，结合了位置模块和指示词模块，可以用于找出有争辩性文本中的论点和主论点句子。

本发明实施例提供的基于论辩挖掘的一种无监督论点提取方法，从无监督的角度出发，避免了有监督机器学习算法对标注语料库的依赖。本发明将文本建立为图模块，用以探索图模块算法和论辩挖掘中论点识别任务的相关性。从速度上而言，能够达到实时的效率，减少了前期大量的训练时间。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于论辩挖掘的无监督论点提取方法，其特征在于：所述方法包括以下步骤：

第一步：构建图模块，将一篇文本构建为图模块；

第四步：创建联合排序模块，用以得到最终分数。

2.根据权利要求1所述的基于论辩挖掘的无监督论点提取方法，其特征在于：所述第一步具体包括以下步骤：

3.根据权利要求1所述的基于论辩挖掘的无监督论点提取方法，其特征在于：所述第二步具体包括：考虑文本中开始位置信息、结束位置的信息和中间段落的位置信息，使用分段函数来表述上述的位置信息。

4.根据权利要求1所述的基于论辩挖掘的无监督论点提取方法，其特征在于：所述第三步具体包括：选取一组话语标记词组成的指示词表，用指示函数来建模指示词模块。

5.根据权利要求1所述的基于论辩挖掘的无监督论点提取方法，其特征在于：所述文本以单个完整句子为论辩组件标注的基本单元，即文本中每个完整的句子被标注为一个论辩组件，之后对句子中的单词进行预处理。

6.根据权利要求2所述的基于论辩挖掘的无监督论点提取方法，其特征在于：以句子粒度分割文本，根据句子在文本中的位置获得相应的得分，通过位置模块的计算，得到在位置模块下的得分。

7.根据权利要求2所述的基于论辩挖掘的无监督论点提取方法，其特征在于：根据句子是否包含指话语标记词获得相应的得分，通过指示词模块的计算，得到在指示词模块下的得分。

8.根据权利要求2所述的基于论辩挖掘的无监督论点提取方法，其特征在于：将一篇文本中的句子按照图模块、位置模块以及指示词模块的得分，得到各个句子的最终分数。

9.根据权利要求8所述的基于论辩挖掘的无监督论点提取方法，其特征在于：所述最终分数形成为三个模块的线性加权形式，其中，所述位置模块的得分和指示词模块的得分根据此篇文本中所述图模块的平均得分来进行归一化操作。