CN105630751A

CN105630751A - 一种快速比对文本内容的方法与系统

Info

Publication number: CN105630751A
Application number: CN201510989166.5A
Authority: CN
Inventors: 陈春蓉; 阳嫔虹; 张委员; 黄艺煌
Original assignee: Xiamen Yoya Network Technology Co ltd
Current assignee: Xiamen Yoya Network Technology Co ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-06-01

Abstract

本发明属信息检索领域，公开一种快速比对文本内容的方法与系统，分为文档注册和文档比对两个部分。文档注册部分使用一种迭代式学习方法从待注册文档的文本中学习新关键词，构造关键词库，并基于关键词库建立文本语义和文字结构两种表达方式表示的注册文档库。文档比对部分基于关键词库建立待比对文档文本语义表达方式，与注册文档一一进行文本语义相似性比对，获取相似度最高的、很少数量的注册文档，再基于二部图分割算法与待比对文档一一进行文字结构相似性比对，输出文字结构相似度最高的若干篇注册文档及其与待比对文档的文字结构匹配关系。采用本发明所述方法,可以大幅提高文档的文本内容比对效率，并提供文档间相似文本内容的对应关系。

Description

一种快速比对文本内容的方法与系统

技术领域

本发明涉及信息检索领域，特别涉及一种快速比对文本内容的方法及其计算机软件系统。

背景技术

文本内容比对是通过比较文档之文本所表述内容得出文档相似程度的过程。根据原理差异，文本内容比对可以采用两种层面的相似度衡量方法：第一种方法基于文本语义，根据文本所表述语义的接近程度来衡量相似度；第二种方法基于文字结构，根据文档段落、句、词、字的用法和组合方式判断两篇文档的相似程度。前者涉及的语义乃当前信息检索领域的一个难题，常用的方法是“词向量”法，使用文本中的关键词（keyword）表达语义特征；后者的重点在于文字本身的相似程度，已用于论文查重等领域。

从文本比对效率角度看，基于语义的第一种比对方法效率高，但结果不够直观。例如，“销售人员为了取得更多的销售业绩，采取赊销方式，往往导致逾期应收账款的发生”和“销售人员只关心销售业绩,往往采取赊销的方式,导致发生逾期的应收账款”，此两段中文语句语义相近但结构差距甚大，应用于文档查重时难有说服力。基于文字结构的第二种比对方法直观性好，其结果可以直接作为判断文本内容是否涉嫌抄袭的依据，但是，这种方法基于文档句子的两两比对，效率低，涉及大量文档时，通常无法达到实时比对的效果。例如，每到毕业季，学生提交毕业论文之后，往往需要等待几天甚至超过一周以上的时间才能获知查重结果。

本发明公开一种文本内容比对的快速方法及其计算机软件实现系统，兼具语义比对方法效率高和结构比对方法直观性好的优点。本发明针对包含有少量英文段落和英文关键词的中文文档，其典型的应用是基于文本内容的科技论文比对。

发明内容

本发明的目的是从大量文档中快速查找与待比对文档在文本语义上相似、文字结构上雷同的文档集。由于判断两篇文档文字结构是否雷同是一个耗时的过程，当需要比对的文档数量很大时，往往无法在短时间内完成。本发明融合文本语义比对和文字结构比对两种方法，提供一种两阶段的文本内容快速比对方法，并在一个文本内容比对系统中加以实现。所述系统包括(S1)和(S2)两个部分：

(S1)文档注册部分。用于从待注册文档的文本中自动学习关键词和构造注册文档库；

(S2)文档比对部分。用于从注册文档库搜索、输出与待比对文档在文本语义与文字结构均相似的m篇已注册文档，并输出每篇文档与待比对文档最相似句子间的连续关键词匹配关系。

进一步地，所述文档注册部分在注册一篇文档时，首先自动学习其中的新关键词（指未出现在注册时关键词库中的关键词），并更新关键词库。所述新关键词的自动学习和关键词库的更新过程由以下迭代的(L1)~(L4)步骤组成：

(L1)将待注册文档中的文字进行断句处理，分解为句子的集合，建立侯选新关键字集合，并初始化为空；

(L2)对于每个句子，依据当前关键词库和标记为通过统计检验的候选新关键词，识别句子包含的关键词，称之为旧关键词；

(L3)对于每个句子，提取两个连续的非停用词（stopword）单字、一个非停用词单字及随后的旧关键词或一个旧关键词及随后的非停用词单字组成候选新关键词，添加到侯选新关键字集合，累计每个候选新关键词在本次迭代中出现的次数，运用统计方法确定其中的候选新关键词并作通过统计检验标记；

(L4)重复步骤(L2)～(L3)直到步骤(L3)没有标记任何通过统计检验的候选新关键词或达到指定的迭代次数，迭代结束后，将标记为通过统计检验且计数大于零的候选新关键词添加到关键词库。

所述文档注册部分使用更新后的关键词库，将待注册文档表示为“文本语义表达”和“文字结构表达”两种方式，并在注册文档库中保存每篇文档的这两种表示方式。具体地，首先将待比对文档中的文字进行断句处理，分解为句子的集合；接着，对于每个句子，依据关键词库识别其中包含的关键词，忽略未对应关键词或属于停用词的文字。每个句子的关键词序列构成所述待比对文档的“文字结构表达”方式；所述“文本语义表达”方式包含从所有句子中提取的无重复的关键词及其出现次数等信息。

进一步地，所述文档比对子系统将待比对文档与注册文档库中的文挡进行文本内容比对，包括以下(C1)~(C3)三个步骤：

(C1)使用所述文档注册子系统自动学习得到的关键词库和所述方法，用“文本语义表达”和“文字结构表达”两种方式表示待比对文档；

(C2)使用待比对文档的“文本语义表达”方式，与注册文档库中的文档一一进行语义相似性比对，获取相似度最高的n篇注册文档；

(C3)使用待比对文档的“文字结构表达”方式，与文本语义相似度最高的n篇文档一一进行文字结构相似性比对，输出相似度最高的m篇（m≤n）文档及每篇文档与待比对文档的文字结构匹配关系。

所述步骤(C2)使用待比对文档以及每篇注册文档的“文本语义表达”方式，进行一一语义比对。具体地，首先将待比对文档的“文本语义表达”方式作规范化处理（normalization），以消除文本内容长度差异带来的影响；接着，与注册文档库中每篇做过同样规范化处理的文档“文本语义表达”方式进行比对，计算文本语义相似度；最后，输出注册文档库中与待比对文档语义相似度最高的n篇文档。其中，n是用户给定的一个相对于注册文档数目而言很小的数；或者，用户给定一个文本语义相似度阈值，输出语义相似度大于该阈值的文档，这种情况下，记输出的注册文档数目为n。

所述步骤(C3)使用待比对文档以及步骤(C2)输出的每篇文档对应的“文字结构表达”方式，进行一一文字结构比对。具体地，首先从注册文档库提取出文本语义相似度最高的n篇文档；接着，计算每篇注册文档与待比对文档的文字结构相似度。文字结构相似度计算过程由以下(W1)和(W2)两个步骤组成：

(W1)以句子为单位，计算待比对文档的每个句子与注册文档每个句子中连续匹配的关键词数目。设待比对文档的句子数目为X，某篇注册文档的句子数目为Y，得到X×Y个匹配数目；记待比对文档的第x个句子与注册文档第y个句子的连续匹配的关键词数目为w_xy；

(W2)使用二部图（bipartitegraph）分割算法求取两篇文档句子的最佳匹配方案。具体地，将待比对文档的句子视作第一部分图的X个节点，注册文档的句子为第二部分图的Y个节点，w_xy为二部图每对节点间的权重。使用二部图分割算法获得最大化权重和的句子匹配方案，基于权重和计算两篇文档的文字结构相似度。

进一步地，所述步骤(C3)对n个文字结构相似度进行排序，输出相似度最高的m篇文档。其中，m是用户给定的小于等于n的文档数目；或者，用户给定一个文字结构相似度阈值，输出文字结构相似度大于该阈值的注册文档。对于输出的每篇注册文档，根据所述步骤(W2)获得的句子匹配方案，输出注册文档与待比对文档的句子匹配信息。

本发明的有益效果是，所述步骤(C2)首先使用快速的文本语义比对方法，只保留少量文本语义上最相似的文档，再交由步骤(C3)进行效率较低的文字结构匹配，存在大量的需比对文档（注册文档）时，可以大幅提高文档的文本内容比对效率。同时，通过步骤(W2)的二部图匹配方法还能够输出相似文档文字结构上最佳的匹配方案，提供待比对文档是否涉嫌抄袭的直观、可验证的判断依据。采用步骤(C2)和步骤(C3)这种两阶段的比对是有效的，这是因为两篇文档“文字结构相似”可以视作“文本语义相似”的一个充分条件。所述新关键词的自动学习方法进一步提高了本发明文本内容比对方法的有效性。

附图说明

图1为本发明文档注册和关键词自动学习流程图。

图2为本发明文本内容快速比对方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。应当理解，此处所描述的具体实施方式仅用于解释本发明，并不用于限定本发明。

本发明所述文本内容比对系统由两个部分构成，第一部分为文档注册子系统，用于从待注册文档中学习关键词和构造注册文档库，其流程如图1所示；第二部分为文档比对子系统，用于将待比对文档与注册文档库中的文档进行文本内容比对，其流程如图2所示。此两个部分（及对应的图1和图2）共用以下三个数据：“105自动学习的关键词库”，“106注册文档的文本语义表达库”和“107注册文档的文字结构表达库”。初始状态下（未注册任何文档时），“105自动学习的关键词库”包含一些通用的词、词组，例如《现代汉语词典》中至少两个汉字构成的词、词组、成语以及应用领域已知的专业术语等。106和107统称为“注册文档库”。

如图1所示，文档注册子系统通过四个步骤完成一篇待注册文档的注册过程：“101新关键词识别”,“102关键词提取”,“103文本语义表达”和“104文字结构表达”。

具体地，“101新关键词识别”通过一个迭代的过程从待注册文档的文本中自动学习新的关键词。首先，对待注册文档中的文字内容进行断句处理，分解为句子的集合，并令C表示侯选新关键字集合且初始化为空；第二步，以句子为单位，搜索“105自动学习的关键词库”和C中标记为通过统计检验的侯选新关键字集合，获得能够最大程度覆盖句子中的文字、且所需关键词数最少的句子切分方案，称该切分方案包含的关键词为旧关键词；第三步，剔除切分方案中包含的停用词（stopword），提取候选新关键词，包括：连续的两个单字连接起来的字序列，一个单字和随后的一个旧关键词连接起来的字序列，以及一个旧关键词及随后的一个单字连接起来字序列；第四步，将候选新关键词并入集合C，累计本次迭代中每个候选新关键词出现的次数，运用统计方法确定其中的新关键词，为每个确定的新关键词作通过统计检验标记。所述统计方法包括但不仅限于依据频度阈值t确定新关键词：给定频度阈值t（t>1），C中出现次数大于等于t的侯选新关键词确定为新关键词；第五步，重复第二步、第三步、第四步直到第四步没有标记任何通过统计检验的候选新关键词或达到指定的迭代次数。最后，将C中标记为通过统计检验且计数大于0的新关键词添加到“105自动学习的关键词库”。

以文本“赊销和收款是两要素，而赊销往往导致逾期应收款，要重视应收款管理。”为例说明所述“101新关键词识别”过程。设初始的“105自动学习的关键词库”包含通用关键词“要素”、“往往”、“导致”、“逾期”，“重视”和“管理”，停用词包括“和”、“是”，“而”、“往往”和“要”，频度阈值设为t=2。首先，该文本被分解为三个句子：“赊销和收款是两个要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”。第一次迭代中所述第二步得到的切词方案是“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”；第三步提取到候选新关键词“赊销”、“收款”、“两要素”、“逾期应”、“重视应”、“应收”和“款管理”；第四步得到的集合C为{“赊销”/2，“收款”/3，“两要素”/1，“逾期应”/1，“重视应”/1，“应收”/2，“款管理”/1}，其中符号“/”后面的数字表示每个候选新关键词在本次迭代中出现的次数，应用统计方法作标记后得到集合C={“赊销”/2*，“收款”/3*，“两要素”/1，“逾期应”/1，“重视应”/1，“应收”/2*，“款管理”/1}，这里符号“*”是候选新关键词通过统计检验的标记。接着，开始第二次迭代，所述第二步得到的切词方案分别变为“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”；此时，第三步提取到新的候选新关键词为“两要素”、“应收款”和“款管理”；第四步得到的集合C变为{“赊销”/2*，“收款”/1*，“两要素”/1，“应收”/2*，“应收款”/2*，“款管理”/1}。再进行第三次迭代，切词方案分别为“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”；第三步提取到候选新关键词只有“两要素”；接下来的第四步处理的集合C为{“赊销”/2*，“收款”/1*，“两要素”/1，“应收”/0*，“应收款”/2*}，不会标记任何通过统计检验的候选新关键词，迭代结束。最后得到自动学习的新关键词有“赊销”、“收款”和“应收款”。

进一步地，图1“102关键词提取”使用更新后的“105自动学习的关键词库”，重新扫描待注册文档中的文本内容，提取出文档包含的关键词。具体地，首先将待比对文档中的文字进行断句处理，分解为句子的集合；接着，对于每个句子，搜索“105自动学习的关键词库”，获得能够最大程度覆盖句子中的文字、且所需关键词数最少的句子切分方案；最后，删除句子中未对应关键词的文字。“103文本语义表达”和“104文字结构表达”使用所提取的关键词构造注册文档库。具体地，“103文本语义表达”提取每个句子的关键词（或关键词在“105自动学习的关键词库”的编号）序列构成待比对文档的“文字结构表达”方式，保存到“107注册文档的文字结构表达库”；“104文字结构表达”汇总从待比对文档提取的无重复的关键词及其出现次数，构成待比对文档的“文本语义表达”方式，保存到“106注册文档的文本语义表达库”。

如图2所示，文档比对子系统通过四个步骤完成一篇待比对文档和注册文档的文本比对并输出相似文档的过程：“201文本语义及文字结构表达”、“202文本语义相似性快速比对”、“203文字结构相似性比对”和“204输出文本语义与文字结构均相似的注册文档集”。

具体地，“201文本语义及文字结构表达”在第一步中对待比对文档中的文字内容进行断句处理，分解为句子的集合；第二步，以句子为单位，依据“105自动学习的关键词库”获得能够最大程度覆盖句子中的文字、且所需关键词数最少的句子切分方案；第三步，以句子为单位，识别其中包含的关键词，忽略未对应关键词或属于停用词的文字，构造待比对文档的“文字结构表达”；汇总从待比对文档提取的关键词，累计它们出现的次数，构造待比对文档的“文本语义表达”。

以所述包含三个句子的文本为例说明所述“201文本语义及文字结构表达”过程。所使用的“105自动学习的关键词库”包含关键词“要素”、“往往”、“导致”、“逾期”，“重视”、“管理”、“赊销”、“收款”和“应收款”，使用所述停用词表。所述第一步获得三个句子：“赊销和收款是两个要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”；第二步得到三个句子的切分方案：“赊销和收款是两要素”、“而赊销往往导致逾期应收款”和“要重视应收款管理”；第三步，构造的“文字结构表达”为：“|1|赊销收款要素|2|赊销导致逾期应收款|3|重视应收款管理”，其中“|?|”是句间分割符，?标记句子的序号；构造的“文本语义表达”为{“要素”/1，“导致”/1，“逾期”/1，“重视”/1，“管理”/1，“赊销”/2，“收款”/1，“应收款”/2}，其中关键词按其在“105自动学习的关键词库”中的顺序排列。

进一步地，“202文本语义相似性快速比对”首先将待比对文档的“文本语义表达”方式作规范化处理，对照“105自动学习的关键词库”的关键词，将待比对文档的“文本语义表达”转换成单位词向量；接着，提取“106注册文档的文本语义表达库”中每篇注册文档的信息，做同样的规范化处理，计算待比对文档和注册文档将的文本语义相似度，所述语义相似度的计算方法包括但不仅限于单位词向量之间的Consine度量，度量的值越大表示文档间具有越高的文本语义相似度；最后，输出语义相似度最高的n篇注册文档。这里，n是用户给定的一个很小的整数，例如n=10篇；或者，用户给定一个语义相似度阈值，此时输出文本语义相似度大于该阈值的注册文档，语义相似度阈值为[0,1]区间的一个数，例如0.9。

进一步地，“203文字结构相似性比对”首先提取“201文本语义及文字结构表达”过程输出的“文字结构表达”；接着，从“107注册文档的文字结构表达库”提取与“202文本语义相似性快速比对”输出的n篇注册文档对应的“文字结构表达”，分别进行文字结构相似性比对，使用二部图分割算法，例如Kuhn-Munkres算法，计算出n个文字结构相似度。

下面以一个实例说明所述文字结构相似性比对过程。设待比对文档的“文字结构表达”为：“|1|赊销收款要素|2|赊销导致逾期应收款|3|重视应收款管理”，被比对的注册文档的相应表达为：“|1|赊销逾期应收款|2|重视赊销收款”。这里，待比对文档的句子数目为X=3，注册文档的句子数目为Y=2，记待比对文档的第x个句子与注册文档第y个句子的连续匹配的关键词数目为w_xy。两篇文档的句子间连续匹配的关键词数目分别为：w₁₁=1（匹配了“赊销”），w₁₂=2（匹配了“赊销”，“收款”），w₂₁=3（匹配了“赊销”，“逾期应收款”），w₂₂=1（匹配了“赊销”），w₃₁=1（匹配了“应收款”）和w₃₂=1（匹配了“重视”）。将待比对文档的句子视作第一部分图的3个节点，注册文档的句子为第二部分图的2个节点，w_xy（x=1,2,3和y=1,2）为二部图节点间的权重，应用Kuhn-Munkres算法求解最大化该二部图权重和的节点匹配方案，得到的匹配关系为：待比对文档的|1|~注册文档的|2|，待比对文档的|2|~注册文档的|1|；此时，权重和为w₁₂+w₂₁=2+3=5。待比对文档的“文字结构表达”包含10个关键词，由此，计算两篇文档的文字结构相似度为5/10=0.5。

进一步地，“204输出文本语义与文字结构均相似的注册文档集”对“203文字结构相似性比对”输出的n个文字结构相似度进行排序，输出相似度最高的m篇注册文档以及每篇注册文档与待比对文档的句子匹配信息。其中，m是用户给定的小于等于n的文档数目，例如m=5篇；或者，用户给定一个文字结构相似度阈值，此时输出文字结构相似度大于该阈值的注册文档，文字结构相似度阈值为[0,1]区间的一个数，例如0.3，这表明待比对文档有约30%的内容与该注册文档雷同。两篇文档的句子匹配信息根据二部图权重和最大匹配方案得到，在所述的例子中，匹配信息如下：待比对文档“|1|赊销收款”~注册文档“|2|赊销收款”，待比对文档“|2|赊销”~注册文档“|1|赊销”，待比对文档“|2|逾期应收款”~注册文档“|1|逾期应收款”。

最后应当说明的是，以上实施例仅用说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照具体实施例对本发明作了详细的说明，本领域的普通技术人员应当理解，可以对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种快速比对文本内容的系统，其特征在于，由文档注册和文档比对两部分构成，其中，文档注册部分用于从待注册文档的文本中自动学习关键词和构造注册文档库，文档比对部分用于从注册文档库搜索、输出与待比对文档在文本语义与文字结构均相似的已注册文档，并输出每篇文档与待比对文档最相似句子间的连续关键词匹配关系。

2.一种迭代的关键词自动学习方法，其特征在于，从待注册文档的文本中自动学习关键词，分为四个步骤：（1）将待注册文档中的文字进行断句处理，分解为句子的集合，建立侯选新关键字集合，并初始化为空；（2）对于每个句子，依据当前关键词库和标记为通过统计检验的候选新关键词，识别句子包含的关键词，称之为旧关键词；（3）对于每个句子，提取两个连续的非停用词单字、一个非停用词单字及随后的旧关键词或一个旧关键词及随后的非停用词单字组成候选新关键词，添加到侯选新关键字集合，计数每个候选新关键词在本次迭代中出现的次数，运用统计方法确定其中的候选新关键词并作通过统计检验标记；（4）重复本权利要求所述步骤（2）和（3）直到步骤（3）没有标记任何通过统计检验的候选新关键词或达到指定的迭代次数，迭代结束后，将标记为通过统计检验且计数大于零的候选新关键词添加到关键词库。

3.一种快速比对文本内容的方法，其特征在于，在注册文档库中搜索与待比对文档在文本语义与文字结构均相似的m篇已注册文档，分为三个步骤：（1）识别待比对文档中出现在权利要求2所述自动学习关键词库中的关键词，用文本语义表达和文字结构表达两种方式表示待比对文档；（2）使用待比对文档的文本语义表达方式，与注册文档库中的文档一一进行文本语义相似性比对，获取相似度最高的n篇注册文档；（3）使用待比对文档的文字结构表达方式，与文本语义相似度最高的n篇文档一一进行文字结构相似性比对，输出文字结构相似度最高的m篇（m≤n）文档及每篇文档与待比对文档的文字结构匹配关系。

4.一种基于二部图分割的文字结构相似度计算方法，其特征在于，以句子为单位，计算待比对文档的每个句子与注册文档每个句子中连续匹配的关键词数目，将待比对文档的句子视作第一部分图的节点，注册文档的句子为第二部分图的节点，每对句子间连续匹配的关键词数目为二部图相应节点间的权重，使用二部图分割算法获得最大化权重和的节点匹配方案，基于权重和计算两篇文档的文字结构相似度。