CN111898375A

CN111898375A - 一种基于词向量句子链的文章论点论据自动检测划分方法

Info

Publication number: CN111898375A
Application number: CN202010753418.5A
Authority: CN
Inventors: 张云; 蔡博克; 张京鹏; 贲忠奇; 冷若冰; 阚野
Original assignee: Chaos Times Beijing Education Technology Co ltd
Current assignee: Chaos Times Beijing Education Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-06
Anticipated expiration: 2040-07-30
Also published as: CN111898375B

Abstract

本发明提出了一种基于词向量句子链的文章论点论据自动检测划分方法，涉及自然语言处理领域。一种基于词向量句子链的文章论点论据自动检测划分方法，包含：基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组数据通过机器学习训练得到，其中，多组数据的每组均包含词语及标记词语的语义的词向量；获取文章，并将文章进行分词以分别提取每句的若干个词语，将若干个词语分别输入词向量模型以根据各词语确认词向量；获取问题，并根据问题提取若干个关键词，将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向向。本发明能够基于文章的问题查找文章中的论点和论据，并且解决人工去标注大量样本造成耗力的问题。

Description

一种基于词向量句子链的文章论点论据自动检测划分方法

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种基于词向量句子链的文章论点论据自动检测划分方法。

背景技术

自然语言处理(Natural Language Processing，NLP)是人工智能的一个重要研究领域，其基本目标技术为使计算机具备听、说、读、写等人类的语言功能，而词语语义相似度计算技术又是自然语言处理领域的关键技术。目前，词语语义相似度计算技术主要包括基于语料库统计的方法、基于词典的相似度计算方法和基于词向量的相似度计算方法。

其中，采用机器学习可以自动识别文章的论点论据，目前主流使用监督学习的分类方法。该方法的大致做法如下：1)标注大量文章的论点、论据样本；2)从论点论据样本中提取特征，如文章结构特征(如段首，短尾等)，词汇特征，句法特征，指示词特征等；3)基于以上特征和论点论据标签，训练一个监督式的二分类模型；4)根据训练好的模型，对新的文章语句进行分类预测并给出分类结果。

以上方法存在的主要问题是：1)大多数样本的标注耗时耗力，且不同行业的标注样本复用、迁移效果不佳；2)更多的是从句法、词法的角度出发，而没有考虑句子语义本身的关联性，从而分类结果信息损失较大。

发明内容

本发明的目的在于提供一种基于词向量句子链的文章论点论据自动检测划分方法，其能够基于文章的问题查找文章中的论点和论据，并且解决人工去标注大量样本造成耗力的问题。

本发明的实施例是这样实现的：

本申请实施例提供一种基于词向量句子链的文章论点论据自动检测划分方法，包含：

S1:基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组数据通过机器学习训练得到，其中，多组数据的每组均包含词语及标记词语的语义的词向量；

S2：获取文章，并将文章进行分词以分别提取每句的若干个词语，将若干个词语分别输入词向量模型以根据各词语确认词向量；

S3：获取问题，并根据问题提取若干个关键词，将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向量；

S4：根据词向量计算文章中每句的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度，根据平均相似度确认文章中的句子为论点；

S5：根据论点前后提取一定范围的若干个句子，根据论点前后的各个句子中的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度，并根据平均相似度的变化绘制若干个句子的趋势图；

S6：根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点，从而将两个断点之间的内容作为论据。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

一种基于词向量句子链的文章论点论据自动检测划分方法，包含：S1:基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组数据通过机器学习训练得到，其中，多组数据的每组均包含词语及标记词语的语义的词向量；S2：获取文章，并将文章进行分词以分别提取每句的若干个词语，将若干个词语分别输入词向量模型以根据各词语确认词向量；S3：获取问题，并根据问题提取若干个关键词，将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向量；S4：根据词向量计算文章中每句的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度，根据平均相似度确认文章中的句子为论点；S5：根据论点前后提取一定范围的若干个句子，根据论点前后的各个句子中的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度，并根据平均相似度的变化绘制若干个句子的趋势图；S6：根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点，从而将两个断点之间的内容作为论据。

本发明通过对语料进行训练得到词向量模型，从而使用无监督的学习方法替代了人工标注大量样本的方式，并且通过大量语料训练，能够提高词向量模型的复用性和可迁移性；词向量模型中包含词语及标记词语的语义的词向量，从而计算出不同词语之间的语义相似程度；通过获取文章，并对文章进行分词以分别提取文章中每个句子的若干个词语，并且将词语分别输入词向量模型以确认词向量，从而能够根据词向量得到词语的语义信息；通过获取问题，并根据问题提取若干个关键词，并且将关键词输入词向量模块以确认词向量，从而能够根据词向量得到关键词的语义信息，通过问题中各个关键词的词向量与文章中每个句子的各个词语的词向量可以计算出相似度，从而得到文章中每句的各个词语分别与问题中若干个关键词的平均相似度，进而利用平均相似度获取文章中与问题关联性最大的句子即查找到文章中提出的关于问题的论点；通过论点提取一定范围内的若干个句子，从而通过论点查找论据，通过各个句子的若干个词语的词向量与问题中各个关键词的词向量计算相似度，并根据相似度得到各个句子与问题的平均相似度，进而根据平均相似度绘制趋势图，由于论点前后的句子均比论点所在句子的平均相似度低，因此可以依据预设阈值判断出当平均相似度在一定阈值范围内时句子为论据，将趋势图中超出预设阈值的论点前后的两个点作为两个断点而划分论据的范围，从而根据两个断点之间的内容查找到论据，使得查找论点和论据的结果准确性高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例基于词向量句子链的文章论点论据自动检测划分方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，诸如S1和S2等之类的步骤标注仅仅用来将一个操作与另一个操作区分开来，而不一定要求或者暗示这些操作之间存在任何这种实际的关系或者顺序。而且，术语“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1，图1所示为本申请实施例提供的基于词向量句子链的文章论点论据自动检测划分方法的流程示意图。基于词向量句子链的文章论点论据自动检测划分方法，包含：

S1:基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组词向量数据通过机器学习训练得到，其中，多组词向量数据的每组均包含词语及标记词语的语义的词向量；

详细的，大量语料通过语料库进行采集，其中，词向量的多组数据的每组数据均包含词语及标记词语的语义的词向量。其中，词向量标记词语的语义的方式可以为通过一定方式表示词语的方式，也可以通过将语义信息存储在词向量中表示的方式。词向量模型中的词语包含问题和文章中的词语。语料可以包含通用语料和专用语料，通用语料可以来源于维基百科数据，专用语料包含文章本领域的内容，比如课程文案和作文。

在本发明的一些实施例中，上述S1中，可以将大量语料通过预处理后得到词语并进行预训练，上述预处理包含过滤垃圾数据、文本分词、停用词、低频词和词根归一化中的任意一种或多种。在本发明的一些实施例中，词向量模型包含Word2vec模型或BERT模型,word2vec包含两种训练模型：CBOW模型和Skip-gram模型。

在本发明的一些实施例中，上述S2中，先将上述文章拆分成多个句子，并通过中文分词将各句子拆分成若干个词语。在本发明的一些实施例中，S2中，将上述文章通过预处理提取若干个词语并分别输入词向量模型，上述预处理包含过滤掉垃圾数据、文本分词、过滤停用词、低频词和词根归一化中的任意一种或多种。其中，文章中的句子可以通过标点符号如句号进行拆分，也可以通过文本长度进行拆分。

在本发明的一些实施例中，上述S3中，将上述问题通过预处理后得到各上述关键词并分别输入词向量模型，上述预处理包含过滤掉垃圾数据、文本分词、过滤停用词、低频词和词根归一化中的任意一种或多种。

详细的，S2和S3中，文章中每句的若干个词语、问题中提取的关键词可以为一个，优选为2～4个，在经过预处理后可以筛选出部分句子中的所有词语，从而减少文章中无用的计算和比较相似度的过程。S2和S3中，将文章各个句子的词语、问题中的关键词输入词向量模型时，词向量模型分别输出对应的词向量。在本发明的一些实施例中，上述S3中，在词向量模型中查找各上述关键词对应的词向量，其中，词向量模型包含上述关键词的词向量。

详细的，S4中，当关键词为一个时，依次计算文章中每个句子的若干个词语分别与关键词的相似度后，计算各个句子所有词语与关键词的平均相似度，从而将平均相似度最高的句子作为论点。S4中，当关键词包含不只一个时，可以选择句子中与关键词相似度最高的词语进行计算，且当句子中同时存在多个与不同关键词相似度超出一定值时，也通过平均值得到句子与问题的相似度。可选的，句子中提取出的词语和关键词的相似度需要超出50％。当论点为多个时，可以得到多个论据，并通过人工进行筛选。

可选的，词向量相似度的计算方法可以通过皮尔逊相关系数、欧几里得距离、Cosine余弦相似度、Tanimoto系数、曼哈顿距离、马氏距离、兰氏距离公式和切尔雪夫距离公式中的任意一种。在本发明的一些实施例中，S4中，以Cosine余弦相似度为例，两个词向量之间夹角的余弦值的绝对值作为相似度大小。其中，通过两个向量的点乘可以表示两个向量的相似程度，比如，如果两个向量垂直，那么它们的点乘后的结果是零，这个时候我们一般说这两个向量是没有关系的，或它们是相互独立的。

其中，绘制趋势图时，根据句子排列顺序进行绘制，其中包含论点的句子，由于论点的平均相似度最高，因此论点前后均呈下降趋势，当超出最低预设阈值时，选取论点前后的句子为相关联的论据，除论点以外的句子相似度低因此不纳入论据范围。其中，趋势图可以通过平均相似度得到的方差进行绘制，并且根据方差的明显变化是否超过预设阈值判定是否为断点。其中，方差是各个数据与平均数之差的平方的平均数，方差是指和中心偏离的程度，用来衡量一批数据的波动大小。在样本容量相同的情况下，方差越大，说明数据的波动越大，即越不稳定。选取两个断点之间的句子作为论据，可选的，断点所在的句子不属于论据。

在本发明的一些实施例中，上述S6中，上述预设阈值通过阈值模型确认，上述阈值模型为使用多组阈值数据通过机器学习训练得到，其中，多组上述阈值数据的每组均包含平均相似度及标记平均相似度为断点的标记信息。其中，将论点的平均相似度输入阈值模型，可以得到标记为断点的两个结果，从而得到预设阈值。

可选的，上述S6中，根据平均相似度得到的方差绘制趋势图时，预设阈值通过阈值模型得到，上述阈值模型可以为使用多组阈值数据通过机器学习训练得到，其中，多组上述阈值数据的每组均包含方差及标记方差为断点的标记信息。其中，输入论点的方差到阈值模型，可以得到标记为断点的两个结果，从而得到预设阈值。

可以理解，图1所示的步骤仅为示意，基于词向量句子链的文章论点论据自动检测划分方法还可包括比图1中所示更多或者更少的组件或步骤，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的方法，也可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，附图中的流程图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，流程图中的每个方框、以及流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

综上所述，本申请实施例提供的一种基于词向量句子链的文章论点论据自动检测划分方法，

本发明实施例通过对语料进行训练得到词向量模型，替代了人工标注大量样本的方式，并且通过大量语料训练，能够提高词向量模型的复用性和可迁移性；词向量模型中包含词语及标记词语的语义的词向量，从而计算出不同词语之间的语义相似程度；通过获取文章，并对文章进行分词以分别提取文章中每个句子的若干个词语，并且将词语分别输入词向量模型以确认词向量，从而能够根据词向量得到词语的语义信息；通过获取问题，并根据问题提取若干个关键词，并且将关键词输入词向量模块以确认词向量，从而能够根据词向量得到关键词的语义信息，通过问题中各个关键词的词向量与文章中每个句子的各个词语的词向量可以计算出相似度，从而得到文章中每句的各个词语分别与问题中若干个关键词的平均相似度，进而利用平均相似度获取文章中与问题关联性最大的句子即查找到文章中提出的关于问题的论点；通过论点提取一定范围内的若干个句子，从而通过论点查找论据，通过各个句子的若干个词语的词向量与问题中各个关键词的词向量计算相似度，并根据相似度得到各个句子与问题的平均相似度，进而根据平均相似度绘制趋势图，由于论点前后的句子均比论点所在句子的平均相似度低，因此可以依据预设阈值判断出当平均相似度在一定阈值范围内时句子为论据，将趋势图中超出预设阈值的论点前后的两个点作为两个断点而划分论据的范围，从而根据两个断点之间的内容查找到论据，使得查找论点和论据的结果准确性高。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，包含：

S3：获取问题，并根据问题提取若干个关键词，将若干个所述关键词分别输入词向量模型以根据各所述关键词确认词向量；

S4：根据词向量计算文章中每句的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度，根据平均相似度确认文章中的句子为论点；

S5：根据论点前后提取一定范围的若干个句子，根据论点前后的各个句子中的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度，并根据平均相似度的变化绘制若干个句子的趋势图；

2.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S1中，将大量语料通过预处理后得到词语并进行预训练，所述预处理包含过滤垃圾数据、文本分词、停用词、低频词和词根归一化中的任意一种或多种。

3.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S2中，先将所述文章拆分成多个句子，并通过中文分词将各句子拆分成若干个词语。

4.如权利要求3所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S2中，将所述文章通过预处理提取若干个词语并分别输入词向量模型，所述预处理包含过滤掉垃圾数据、文本分词、过滤停用词、低频词和词根归一化中的任意一种或多种。

5.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S3中，在词向量模型中查找各所述关键词对应的词向量，其中，词向量模型包含所述关键词的词向量。

6.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S3中，将所述问题通过预处理后得到各所述关键词并分别输入词向量模型，所述预处理包含过滤掉垃圾数据、文本分词、过滤停用词、低频词和词根归一化中的任意一种或多种。

7.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S4中，根据词向量之间的余弦相似度计算方法计算平均相似度。

8.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S5中，根据若干个句子的平均相似度分别计算方差，并根据若干个句子在文章中的顺序绘制方差的趋势图。

9.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S6中，所述预设阈值通过阈值模型确认，所述阈值模型为使用多组阈值数据通过机器学习训练得到，其中，多组所述阈值数据的每组均包含平均相似度及标记平均相似度为断点的标记信息。

10.如权利要求1～9任一项所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述词向量模型包含Word2vec模型或BERT模型。