CN108829659A

CN108829659A - 一种引用识别方法、设备和计算机可存储介质

Info

Publication number: CN108829659A
Application number: CN201810418503.9A
Authority: CN
Inventors: 黄泰文; 孙彩霞; 王磊; 罗引
Original assignee: Beijing Zhongke Song Polytron Technologies Inc
Current assignee: Beijing Zhongke Song Polytron Technologies Inc
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-11-16
Anticipated expiration: 2038-05-04
Also published as: CN108829659B

Abstract

本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法，包括：获取原创语料和候选语料；利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值；根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题，本发明利用ROUGE算法，计算两个语料之间的ROUGE值，根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。

Description

一种引用识别方法、设备和计算机可存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种引用识别方法、设备和计算机可存储介质。

背景技术

在新闻领域中，常常会有很多文章引用或者转载同一篇文章的内容。目前，在进行引用识别时，多采用相似度比较算法，即：获取候选文章和原创文章，将这两篇文章进行全文的相似度比较，如果相似度大于预设的阈值，则认定候选文章引用了原创文章。由于在候选文章仅引用原创文章的很小一部分时，候选文章和原创文章之间的相似度往往小于预设的相似度阈值，所以采用全文相似度比较的方式，不能识别出部分引用的情况。

发明内容

本发明要解决的技术问题是一种引用识别方法、设备和计算机可存储介质，用以解决现有技术不能识别出部分引用的问题。

为解决上述技术问题，本发明是通过以下技术方案来解决的：

本发明提供了一种引用识别方法，包括：获取原创语料和候选语料；利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值；根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度。

可选的，在利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值之前，还包括：对所述原创语料和所述候选语料分别进行分段和分句处理。

可选的，利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值，包括：步骤12，获取比较语料中的一个段落；其中，在所述原创语料和所述候选语料中，将段落总数大的语料作为比较语料，将段落总数小的语料作为基础语料；步骤14，计算所述段落与所述基础语料中每个段落的ROUGE值；步骤16，在所述段落与所述基础语料中每个段落的ROUGE值中，选择最大的ROUGE值作为所述段落与所述基础语料的ROUGE值，跳回步骤12，以获取所述比较语料的下一个段落，直到获取了所述比较语料中的所有段落为止。

可选的，利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值，包括：步骤22，获取所述比较语料中的一个句子；其中，在所述原创语料和所述候选语料中，将句子总数大的语料作为比较语料，将句子总数小的语料作为基础语料；步骤24，计算所述句子与所述基础语料中每个句子的ROUGE值；步骤26，在所述句子与所述基础语料中每个句子的ROUGE值中，选择最大的ROUGE值作为所述句子与所述基础语料的ROUGE值，跳回步骤22，以获取所述比较语料的下一个句子，直到获取了所述比较语料中的所有句子为止。

可选的，根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度，包括：预先设置多个引用程度区间，并且为每个引用程度区间对应设置引用等级；根据所述原创语料和所述候选语料的ROUGE值所处的引用程度区间，确定所述候选语料引用所述原创语料的引用等级。

可选的，所述方法还包括：如果识别出所述候选语料重复引用所述原创语料的部分内容达到预设次数，则对所述原创语料和所述候选语料的ROUGE值乘以预设的惩罚因子；其中，所述惩罚因子为大于0小于1的常数。

可选的，所述ROUGE算法，包括：ROUGE-N算法和ROUGE-L算法。

可选的，所述ROUGE-N算法获得的ROUGE-N值，包括：ROUGE-1值、ROUGE-2值、ROUGE-3值和ROUGE-4值；所述ROUGE-L算法获得的ROUGE-L值，包括；摘要级别的ROUGE-L值。

本发明还提供了一种引用识别设备，所述引用识别设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的引用识别程序，以实现上述的引用识别方法。

本发明又提供了一种计算机可存储介质，所述计算机可存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的引用识别方法。

本发明有益效果如下：

本发明解决了通过相似度比较算法不能识别部分引用的问题，本发明利用ROUGE算法，计算两个语料之间的ROUGE值，根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。

附图说明

图1是根据本发明第一实施例的引用识别方法的流程图；

图2是根据本发明第二实施例的ROUGE值的计算步骤流程图；

图3是根据本发明第三实施例的ROUGE值的计算步骤流程图；

图4是根据本发明第四实施例的确定引用程度的步骤流程图；

图5是根据本发明第五实施例的引用识别设备的结构图。

具体实施方式

本发明采用ROUGE算法来进行语料部分引用的判断。

ROUGE算法是对机器摘要进行内部评测，基于机器摘要中n元词(n-gram)的共现信息来评价机器摘要的质量。其主要思想是通过专家从原文中抽取摘要形成人工摘要，将机器摘要和人工摘要进行对比，通过统计二者之间重叠的n-gram数目，来评价摘要的质量。

本发明将Rouge算法应用于语料的引用识别中，用来评价候选语料是否全部或者部分引用了原创语料。将原创语料看做ROUGE算法中的人工摘要，将候选语料看做ROUGE算法中的机器摘要。

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

实施例一

本发明实施例提供一种引用识别方法。图1是根据本发明第一实施例的引用识别方法的流程图。

步骤S110，获取原创语料和候选语料。

候选语料是指待识别的语料。在本实施例中，可以识别候选语料是否引用了原创语料，并且识别候选语料引用原创语料的程度。

原创语料例如是原创论文、原创新闻等原创文章。

候选语料例如是候选论文、候选新闻等候选文章。

步骤S120，利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值。

利用预设的ROUGE算法，可以计算原创语料的全文和候选语料的全文的ROUGE值。进一步地，利用预设的ROUGE算法，可以计算原创语料的段落和候选语料的段落之间的ROUGE值；或者，计算原创语料的段落和候选语料之间的ROUGE值；或者，计算原创语料和候选语料的段落之间的ROUGE值。其中，可以将计算段落改为计算句子。

后续对计算原创语料和候选语料之间的ROUGE值的方式进行具体介绍。

步骤S130，根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度。

在本实施例中，ROUGE值越大，说明候选语料引用原创语料越多；ROUGE值越小，说明候选语料引用原创语料越少。

在本实施例中，预先设置多个引用程度区间，并且为每个引用程度区间对应设置引用等级；根据所述原创语料和所述候选语料的ROUGE值所处的引用程度区间，确定所述候选语料引用所述原创语料的引用等级。

根据原创语料的全文和候选语料的全文的ROUGE值所处的引用程度区间，确定候选语料引用原创语料的引用程度。进一步地，根据原创语料的段落和候选语料的段落的ROUGE值所处的引用程度区间，确定候选语料引用原创语料的引用等级，或者，根据原创语料的段落和候选语料的ROUGE值所处的引用程度区间，确定候选语料引用原创语料的引用等级，或者，根据原创语料和候选语料的段落的ROUGE值所处的引用程度区间。其中，可以将计算段落改为计算句子。

如果识别出候选语料重复引用原创语料的部分内容达到预设次数，则将原创语料和候选语料的ROUGE值乘以预设的惩罚因子；其中，所述惩罚因子为大于0小于1的常数。

本实施例解决了通过相似度比较算法不能识别部分引用的问题，本实施例利用ROUGE算法，计算两个语料之间的ROUGE值，根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。

在本发明中，ROUGE算法，包括：ROUGE-N算法和ROUGE-L算法。N代表n-gram，N为整数；L代表LCS(Longest Common Subsequence，最长公共字串)。在后续方法实施例中，以N为1、2、3和4的情况进行说明，N＝1、2、3、4，分别代表基于1元词到4元词的算法模型。

ROUGE-N算法获得的ROUGE值，包括：ROUGE-1值、ROUGE-2值、ROUGE-3值和ROUGE-4值；ROUGE-L算法获得的ROUGE-L值为摘要级别的ROUGE-L值(Summary-Leve l-LCS)。

下面对本发明的引用识别方法中的执行步骤进行更进一步地的说明。

实施例二

本实施例对计算ROUGE值的方式进行描述。在本实施例中，计算原创语料的段落和候选语料的段落的ROUGE值。

图2是根据本发明第二实施例的ROUGE值的计算步骤流程图。

步骤S210，对原创语料和候选语料分别进行分段和分句处理，将段落总数大的语料作为比较语料，将段落总数小的语料作为基础语料。

分段处理，是分别将原创语料和候选语料中的各个自然段拆分出来。一个自然段是指相邻两个首行缩进之间的文本。

分句处理，是分别将原创语料和候选语料中的各个句子拆分出来。一个句子是指相邻两个句号之间的文本。

在本实施例中，在对原创语料和候选语料分别进行分段和分句处理之前，可以对原创语料和候选语料分别执行去停用词处理。进一步地，可以预先设置停用词表，根据该停用词表在原创语料和候选语料中去掉停用词表中的词。停用词表中的停用词的类型可以是副词、介词、连词等。停用词例如是“的”、“在”。

步骤S220，获取比较语料中的一个段落。

按照比较语料中各个段落的先后顺序，每次获取比较语料中的一个段落。

步骤S230，计算所述段落与所述基础语料中每个段落的ROUGE值。

分别计算所述段落与所述基础语料中每个段落的ROUGE-1值、ROUGE-2值、ROUGE-3值、ROUGE-4值和摘要级别的ROUGE-L值。

步骤S240，在所述段落与所述基础语料中每个段落的ROUGE值中，选择最大的ROUGE值作为所述段落与所述基础语料的ROUGE值。

在所述段落与所述基础语料中各段落的ROUGE-1值中，选择最大的ROUGE-1值，作为所述段落与所述基础语料的ROUGE-1值。

在所述段落与所述基础语料中各段落的ROUGE-2值，选择最大的ROUGE-2值，作为所述段落与所述基础语料的ROUGE-2值。

在所述段落与所述基础语料中各段落的ROUGE-3值，选择最大的ROUGE-3值，作为所述段落与所述基础语料的ROUGE-3值。

在所述段落与所述基础语料中各段落的ROUGE-4值，选择最大的ROUGE-4值，作为所述段落与所述基础语料的ROUGE-4值。

在所述段落与所述基础语料中各段落的摘要级别的ROUGE-L值，选择最大的摘要级别的ROUGE-L值，作为所述段落与所述基础语料的摘要级别的ROUGE-L值。

步骤S250，判断是否获取了所述比较语料中的所有段落；如果是，则结束本实施例的流程；如果否，则执行步骤S220。

跳回步骤S220，获取所述比较语料的下一个段落，直到获取了所述比较语料中的所有段落为止。

实施例三

本实施例对另一种计算ROUGE值的方式进行描述。图3是根据本发明第三实施例的ROUGE值的计算步骤流程图。

步骤S310，对原创语料和候选语料分别进行分段和分句处理，将句子总数大的语料作为比较语料，将句子总数小的语料作为基础语料。

步骤S320，获取所述比较语料中的一个句子。

步骤S330，计算所述句子与所述基础语料中每个句子的ROUGE值。

步骤S340，在所述句子与所述基础语料中每个句子的ROUGE值中，选择最大的ROUGE值作为所述句子与所述基础语料的ROUGE值。

ROUGE值包括：ROUGE-1值、ROUGE-2值、ROUGE-3值、ROUGE-4值和摘要级别的ROUGE-L。

在所述句子与所述基础语料中各句子的ROUGE-1值中，选择最大的ROUGE-1值，作为所述句子与所述基础语料的ROUGE-1值。

在所述句子与所述基础语料中各句子的ROUGE-2值，选择最大的ROUGE-2值，作为所述句子与所述基础语料的ROUGE-2值。

在所述句子与所述基础语料中各句子的ROUGE-3值，选择最大的ROUGE-3值，作为所述句子与所述基础语料的ROUGE-3值。

在所述句子与所述基础语料中各句子的ROUGE-4值，选择最大的ROUGE-4值，作为所述句子与所述基础语料的ROUGE-4值。

在所述句子与所述基础语料中各句子的摘要级别的ROUGE-L值，选择最大的摘要级别的ROUGE-L值，作为所述句子与所述基础语料的摘要级别的ROUGE-L值。

步骤S350，判断是否获取了所述比较语料中的所有句子；如果是，则结束本实施例的流程；如果否，则执行步骤S320。

跳回步骤S320，获取所述比较语料的下一个句子，直到获取了所述比较语料中的所有句子为止。

本实施例的执行可以参照实施例二进行。

本实施例将对段落的计算改成对句子的计算，可以更细致地判定新闻稿件每个句子的转引程度。

实施例四

本实施例将对确定候选语料引用原创语料程度的步骤进行进一步地描述。

图4是根据本发明第四实施例的确定引用程度的步骤流程图。

步骤S410，预先设置多个引用程度区间，并且为每个引用程度区间对应设置引用等级。

步骤S420，根据所述原创语料和所述候选语料的ROUGE值所处的引用程度区间，确定所述候选语料引用所述原创语料的引用等级。

在本实施例中，所述ROUGE值，包括：ROUGE-1值、ROUGE-2值、ROUGE-3值、ROUGE-4值和摘要级别的ROUGE-L值。

本实施例可以根据原创语料和候选语料的预设类型的ROUGE值所处的引用程度区间，确定所述候选语料引用所述原创语料的引用等级。例如：确定原创语料和候选语料的ROUGE-4值，根据该ROUGE-4值所处的引用程度区间，确定候选语料引用原创语料的引用等级。进一步地，如果之前计算了一个语料与另一语料中各段落之间的ROUGE值，则将计算的各ROUGE值相加，得到语料和语料之间的ROUGE值，如计算原创语料与候选语料各段落之间的ROUGE值，则将计算得到的各ROUGE值相加，得到原创语料和候选语料之间的ROUGE值。

本实施例还可以通过其他方式来确定引用等级。例如：如果之前计算了一个语料与另一语料各段落之间的ROUGE值，则在得到的各ROUGE值中，确定处于引用程度区间A内的ROUGE值(包含区间端点)和处于引用程度区间A外的ROUGE值(不包含区间端点)的比值，如果该比值大于预设的比值阈值，则判定引用等级为该引用程度区间A对应的引用等级，反之，则使用引用程度区间B，确定处于引用程度区间B内的ROUGE值和处于引用程度区间B外的ROUGE值的比值，如果该比值大于预设的比值阈值，则判定引用等级为该引用程度区间B对应的引用等级，反之，则使用下一个引用程度区间C继续判定，直到一个比值大于预设的比值阈值为止，将计算出比值大于比值阈值的引用程度区间对应的引用等级作为最终的引用等级。

根据不同的需求，可以划分不同的引用等级，在本实施例中，将引用等级分为7个等级，其中：全部引用(0级)，绝大部分引用(1级)，大部分引用(2级)，部分引用(3级)，少部分引用(4级)，极少部分引用(5级)，没有引用(6级)，如表1所示。表1是在获取比较语料各段落与基础语料的ROUGE值之后，根据比较语料各段落和基础语料的ROUGE值所处的引用程度区间，确定比较语料引用基础语料的引用等级。其中，在原创语料和候选语料中，将段落总数大的语料作为比较语料，将段落总数小的语料作为基础语料。

表1

由于在具体应用时，原创语料和候选语料都是来源于网络，即使全部引用也有可能存在有些字符匹配不上，因此对于每个段落来说，只要其ROUGE值在0.95以上即代表全部完全匹配。

在实际应用过程中，引用识别方法可以根据真实语料质量情况来进行测试，如果语料质量高，甚至可以不用去停用词，效果也很显著。对于引用等级也可以根据自己的需求定义，但需要注意的一点是ROUGE-L对匹配的要求最严格，ROUGE-4其次，ROUGE-3、ROUGE-2、ROUGE-1对匹配的要求依次递减。

在一种特殊情况下，语料会出现评价有误的问题，即候选语料多次重复原创语料的一句话或者一个段落，在这种情况下，会被判定为全部引用，这时，可以引入一个惩罚因子来解决这个问题，即当候选语料的段落有多个和原创语料的某一个段落的ROUGE(n元词)匹配时，每增加一个这样的段落，将该重复段落的ROUGE值乘上一个惩罚因子，惩罚因子大于0且小于1，具体可以根据语料真实情况而定。

在判定候选语料引用原创语料的引用等级达到全部引用、绝大部分引用和大部分引用时，可以识别候选语料是否重复引用了原创语料的部分内容，如果重复引用原创语料的部分内容达到预设次数，则将原创语料和候选语料的ROUGE值乘以预设的惩罚因子，降低该ROUGE值的大小。

实施例五

本实施例提供一种引用识别设备。如图5所示，为根据本发明第五实施例的引用识别设备的结构图。

在本实施例中，所述引用识别设备500，包括但不限于：处理器510、存储器520。

所述处理器510用于执行存储器520中存储的引用识别程序，以实现实施例一～实施例四所述的引用识别方法。

具体而言，所述处理器510用于执行存储器520中存储的引用识别程序，以实现以下步骤：获取原创语料和候选语料；利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值；根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度。

可选的，根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料程度，包括：预先设置多个引用程度区间，并且为每个引用程度区间对应设置引用等级；根据所述原创语料和所述候选语料的ROUGE值所处的引用程度区间，确定所述候选语料引用所述原创语料的引用等级。

可选的，所述ROUGE算法，包括：ROUGE-N算法和ROUGE-L算法。

实施例六

本发明实施例还提供了一种计算机可存储介质。这里的计算机可存储介质存储有一个或者多个程序。其中，计算机可存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当计算机可存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的引用识别方法。

具体而言，所述处理器用于执行存储器中存储的引用程序，以实现以下步骤：获取原创语料和候选语料；利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值；根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度。

可选的，所述ROUGE算法，包括：ROUGE-N算法和ROUGE-L算法。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种引用识别方法，其特征在于，包括：

获取原创语料和候选语料；

利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值；

根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度。

2.如权利要求1所述的方法，其特征在于，在利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值之前，还包括：

对所述原创语料和所述候选语料分别进行分段和分句处理。

3.如权利要求2所述的方法，其特征在于，利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值，包括：

步骤12，获取比较语料中的一个段落；其中，在所述原创语料和所述候选语料中，将段落总数大的语料作为比较语料，将段落总数小的语料作为基础语料；

步骤14，计算所述段落与所述基础语料中每个段落的ROUGE值；

步骤16，在所述段落与所述基础语料中每个段落的ROUGE值中，选择最大的ROUGE值作为所述段落与所述基础语料的ROUGE值，跳回步骤12，以获取所述比较语料的下一个段落，直到获取了所述比较语料中的所有段落为止。

4.如权利要求2所述的方法，其特征在于，利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值，包括：

步骤22，获取所述比较语料中的一个句子；其中，在所述原创语料和所述候选语料中，将句子总数大的语料作为比较语料，将句子总数小的语料作为基础语料；

步骤24，计算所述句子与所述基础语料中每个句子的ROUGE值；

步骤26，在所述句子与所述基础语料中每个句子的ROUGE值中，选择最大的ROUGE值作为所述句子与所述基础语料的ROUGE值，跳回步骤22，以获取所述比较语料的下一个句子，直到获取了所述比较语料中的所有句子为止。

5.如权利要求1所述的方法，其特征在于，根据所述原创语料和所述候选语料的ROUGE值的大小，确定所述候选语料引用所述原创语料的程度，包括：

预先设置多个引用程度区间，并且为每个引用程度区间对应设置引用等级；

根据所述原创语料和所述候选语料的ROUGE值所处的引用程度区间，确定所述候选语料引用所述原创语料的引用等级。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

如果识别出所述候选语料重复引用所述原创语料的部分内容达到预设次数，则对所述原创语料和所述候选语料的ROUGE值乘以预设的惩罚因子；其中，所述惩罚因子为大于0小于1的常数。

7.如权利要求6所述的方法，其特征在于，

所述ROUGE算法，包括：ROUGE-N算法和ROUGE-L算法。

8.如权利要求6所述的方法，其特征在于，

所述ROUGE-N算法获得的ROUGE-N值，包括：ROUGE-1值、ROUGE-2值、ROUGE-3值和ROUGE-4值；

所述ROUGE-L算法获得的ROUGE-L值，包括；摘要级别的ROUGE-L值。

9.一种引用识别设备，其特征在于，所述引用识别设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的引用识别程序，以实现权利要求1～8中任一项所述的引用识别方法。

10.一种计算机可存储介质，其特征在于，所述计算机可存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～8中任一项所述的引用识别方法。