CN113051869A

CN113051869A - 一种结合语义识别实现标识文本差异内容的方法及系统

Info

Publication number: CN113051869A
Application number: CN202110562368.7A
Authority: CN
Inventors: 张利江; 滕菁; 孙长磊; 蒋涛
Original assignee: Hangzhou Youshu Finance Information Services Co ltd
Current assignee: Hangzhou Youshu Finance Information Services Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-06-29
Anticipated expiration: 2041-05-24
Also published as: CN113051869B

Abstract

本申请公开了一种结合语义识别实现标识文本差异内容的方法，包括：S100：通过深度学习方法预训练所述相似度计算模型；S200：计算待对比文本的第一相似度；S300：逐个随机剔除待对比文本中的分词；S400：计算剔除分词之后的待对比文的第二相似度；S500：当第二相似度小于预设相似度阈值且大于第一相似度时，重复步骤S300；S600：当第二相似度小于第一相似度时，放回被剔除的分词后，重复步骤S300；S700：当第二相似度大于或等于预设相似度阈值时，标识待对比文本中被剔除的分词。本申请可以在保留语义的前提下，提取出两句文本中不同的内容，并对不同的内容进行高亮展示，准确高效的提取到使用者关注的核心要素，从而提升使用者的工作效率。

Description

一种结合语义识别实现标识文本差异内容的方法及系统

技术领域

本申请涉及本申请涉及自然语言处理的相关技术，特别是涉及一种结合语义识别实现标识文本差异内容的方法。

背景技术

随着大数据时代的到来，我们的生活和工作被大量数据包围，如何从纷杂的数据中提取对自己有用的信息，变得越来越重要。主流文本差异的高亮比对技术基于文本中的字符串比较进行高亮，该方法的不足之处在于：若两句文本中同个意思使用的词不同或同个意思但语序不同，会导致无法准确识别其中差异内容，导致高亮了多余的内容，失去了高亮应有的价值，增加了阅读者的阅读成本。

发明内容

本申请的主要目的在于提供一种结合语义识别实现标识文本差异内容的方法，包括：

S100：通过深度学习方法预训练所述相似度计算模型；

S200：通过相似度计算模型计算待对比文本的第一相似度；

S300：当所述第一相似度小于预设相似度阈值时，逐个随机剔除所述待对比文本中的分词；

S400：通过相似度计算模型计算剔除所述分词之后的所述待对比文的第二相似度；

S500：当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时，重复步骤S300；

S600：当所述第二相似度小于所述第一相似度时，放回被剔除的所述分词后，重复步骤S300；

S700：当所述第二相似度大于或等于所述预设相似度阈值时，标识所述待对比文本中被剔除的分词。

可选地，结合语义识别实现标识文本差异内容的方法还包括：

设定所述相似度阈值。

当所述第一相似度大于或等于所述相似度阈值时，无需标识。

对比所述第一相似度与所述相似度阈值。

对比所述第二相似度与所述第一相似度，以及对比所述第二相似度与所述相似度阈值。

将所述待对比文本进行分词处理。

根据本申请的另一个目的，还提供了一种结合语义识别实现标识文本差异内容的系统，包括：

第一相似度计算模块，用于计算待对比文本的第一相似度；

分词剔除模块，用于逐个随机剔除所述待对比文本中的分词；

第二相似度计算模块，用于计算剔除所述分词之后的所述待对比文的第二相似度；

标识模块，用于标识所述待对比文本中被剔除的分词。

根据本申请的另一个目的，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

根据本申请的另一个目的，还提供了一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，其特征在于，所述计算机程序在由处理器执行时实现上述任一项所述的方法。

与现有技术相比，本申请具有如下有益效果：

本申请提供一种结合语义识别实现高亮文本差异内容的方法，可以在保留语义的前提下，提取出两句文本中不同的内容，并对不同的内容进行高亮展示，准确高效的提取到使用者关注的核心要素，从而提升使用者的工作效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和有益效果变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1-图2是根据本申请一个实施例的结合语义识别实现标识文本差异内容的方法的流程示意图；

图3是根据本申请一个实施例的计算机设备的示意图；以及

图4是根据本申请一个实施例的计算机可读存储介质的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参照图1-图2，本申请已实施例提供了一种结合语义识别实现标识文本差异内容的方法，包括：

S100：通过深度学习方法预训练所述相似度计算模型；

S200：通过相似度计算模型计算待对比文本的第一相似度；

在本实施例中，还包括设定所述相似度阈值，但并不以此为限。在本实施例中，还包括：当所述第一相似度大于或等于所述相似度阈值时，无需标识，但并不以此为限。在本实施例中，还包括：对比所述第一相似度与所述相似度阈值，但并不以此为限。在本实施例中，还包括：对比所述第二相似度与所述第一相似度，以及对比所述第二相似度与所述相似度阈值，但并不以此为限。在本实施例中，还包括：将所述待对比文本进行分词处理，但并不以此为限。在本实施例中，还包括：通过深度学习方法预训练所述相似度计算模型，但并不以此为限。

为解决上述技术问题，本申请通过下述技术方案得以解决：

（1）利用分词工具对待对比的两句文本进行分词处理；

（2）利用深度学习方法预训练一种文本相似度计算模型；

准备大量训练样本，格式为每行是一组句子对，并使用0或1标注句子对中两个句子是否相似，0表示不相似，1表示相似。

构建基于BERT预训练神经网络的相似度识别模型。使用BERT模型的优势在于：在为每个字计算词向量时，会根据上下文不同而得到不同的词向量，优化了识别效果。

首先对样本进行预处理，将两个样本句子对进行合并，并添加分类以及分隔符，然后将合并好的文本以及标签利用构建的BERT预训练神经网络层的transformer encoder计算得到的每个字符的词向量；再将得到的embedding中的标签位置向量取出，最后用sigmoid函数对标签位置取得的向量进行计算，得到相似度，最终得到计算模型。

（3）根据经验设定相似度阈值，再将需要预测的两个句子利用步骤2中的相似度模型计算相似度，若相似度超过阈值，则认为这两个句子内容相同，无需高亮；若相似度低于阈值，则认为这两个句子内容存在不同处，将该相似度作为基准相似度，并执行步骤4；设定相似度阈值可以过滤掉明显语义不同的句子对，同时在随机剔除分词计算相似度时，也可以做到计算收敛的效果，及时停止计算，降低计算成本。

（4）将这两个句子中的已经切好的分词逐个随机剔除，再利用步骤2中的相似度模型计算提出分词后的两个句子的相似度；逐个随机剔除分词与传统的根据预设语义规则提取关键词相比，传统的根据预设语义规则提取关键字会丢失句子中的一些细节信息，而逐个随机剔除可以更有效的关注到当前句子中更多的信息，从而达到更好的区分效果。

（5）若剔除分词后计算得到的相似度高于阈值，则停止，并执行步骤6；若剔除分词后计算得到的相似度低于阈值，高于基准相似度，则认为剔除有效，将该相似度作为基准相似度，并重复执行步骤4；若相似度低于基准相似度，则认为剔除无效，放回被剔除的分词，继续重复步骤4；重复执行步骤4可以使得句子中的每一个分词都能得到相似度的计算，从而达到更加准确的识别，相比于仅计算一次效果更好。

（6）当相似度超过阈值后，将两个句子中被剔除的分词在两个句子中高亮，从而得到最终的高亮文本中差异内容的效果。

为了更为具体地描述本申请，下面结合附图及具体实施方式对本申请的技术方案进行详细说明。

（1）利用分词工具对待对比的两句文本进行分词处理；

这里我们利用jieba分词工具对待预测的两个句子进行分词；

（2）利用深度学习方法预训练一种文本相似度计算模型；

具体格式如下：

注册资金为1000万|注册资金3000万|0

注册资金为|注册资本为|1

一般经营项目: 智能建筑|一般经营项目: 交通、建筑、环境|0

一般经营项目: 智能建筑|一般经营项目: 建筑|1

具体如下：

设置句子总长度为100，超过100的忽略；第一句对应位置（包含[CLS],[SEP]）全为0；第二句对应位置(包含结尾[SEP])全为1，剩余不足长度的padding全为0.

将两个句子之间通过[SEP]分割，[CLS]的向量作为分类的输入，标签是两个句子是否相似。

tokens: [CLS] 一般经营项目 : 智能建筑 [SEP] 一般经营项目 : 交通、建筑、环境 [SEP]

input_ids: 101 742 8612 279 1867 3731 4039 6635 2558 6818 5749 102742 8612 279 1867 3731 4039 6635 1705 3119 3621 36121 9248 4540 5119 46215531 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

我们将处理好的数据输入到BERT模型，然后取到BERT的输出，也就是句子对的embedding，我们将句子对的embedding中的[CLS]位置的向量取出，并对[CLS]位置的向量采用sigmoid函数进行计算得到相似度。

（3）将需要预测的两个句子利用步骤2中的相似度模型计算相似度，若相似度超过阈值，则认为这两个句子内容相同，跳转至步骤6；若相似度低于阈值，则认为这两个句子内容存在不同处，将该相似度作为基准相似度，并执行步骤4；

假设的相似度阈值为0.89；

当句子对是“一般经营项目:智能建筑|一般经营项目:交通、建筑、环境”时，将完整输入到步骤2的相似度计算模型得到相似度为0.576882。0.576882小于我们预设的相似度阈值0.89，将0.576882作为基准相似度，然后执行步骤4；

当句子对是“一般经营项目: 智能建筑|一般经营项目: 建筑”时，将完整输入到步骤2的相似度计算模型得到相似度为0.926661。0.926661大于我们预设的相似度阈值0.89，故执行步骤6；

（4）将这两个句子中的已经切好的分词逐个随机剔除，再利用步骤2中的相似度模型计算提出分词后的两个句子的相似度；

将步骤3中的句子对“一般经营项目:智能建筑|一般经营项目:交通、建筑、环境”进行分词，得到“一般_经营_项目_:_智能_建筑|一般_经营_项目_:_交通_、_建筑_、_环境”。

当系统随机从句第二个句子中剔除一个分词“交通”时，得到“一般_经营_项目_:_智能_建筑|一般_经营_项目_:__、_建筑_、_环境”。再将“一般经营项目:智能建筑|一般经营项目:、建筑、环境”输入到步骤2的相似度计算模型中，得到相似度0.641132；

当系统随机从第一个句子中剔除一个分词“经营”时，得到“一般_项目_:_智能_建筑|一般_经营_项目_:_交通_、_建筑_、_环境”。再将“一般项目:智能建筑|一般经营项目:交通、建筑、环境”输入到步骤2的相似度计算模型中，得到相似度0.561332；

当系统经过N此剔除分词后，最终得到的两个句子均为空时，输入到步骤2的相似度计算模型得到的相似度为1；

（5）若剔除分词后计算得到的相似度高于阈值，则停止，并执行步骤6；若剔除分词后计算得到的相似度低于阈值，高于基准相似度，则认为剔除有效，将该相似度作为基准相似度，并重复执行步骤4；若相似度低于基准相似度，则认为剔除无效，放回被剔除的分词，继续重复步骤4；

当步骤4中剔除分词“交通”后的新句子对计算得到的相似度为0.641132小于阈值0.89大于基准相似度0.576882，故认为剔除有效，将基准相似度设为0.641132，并继续执行步骤4；

当步骤4中剔除分词“经营”后的新句子对计算得到的相似度为0.561332小于基准相似度0.576882，故认为剔除无效，放回分词“经营”，并再次执行步骤4；

当步骤4中剔除所有分词后，两个句子均为空时，计算得到的相似度为1，则认为计算结束，两个句子完全没有相同内容，并跳转至步骤6；

（6）当相似度超过阈值后，若两个句子中存在被剔除的分词则将被剔除的分词在两个句子中进行高亮，从而得到最终的高亮文本中差异内容的效果；若两个句子中不存在剔除的分词，则认为两个句子内容相同，无需高亮；

当两个句子未剔除任何分词，计算得到的相似度大于阈值0.89时，系统认为这两个句子内容相同，无需高亮；

如：句子对“一般经营项目: 智能建筑|一般经营项目: 建筑”计算得到的相似度为0.926661大于0.89，则认为内容相同，无需高亮；

当两个句子存在剔除的分词，且剔除后计算得到的相似度大于阈值0.89时，系统认为这两个句子被剔除的分词为不同的内容，需要高亮，并将两个句子中剔除的分词进行高亮显示；

如：句子对“一般经营项目:智能建筑|一般经营项目:交通、建筑、环境”剔除分词“交通”、“环境”、“智能”后计算得到的相似度为0.989712大于阈值0.89时，系统认为分词“交通”、“环境”、“智能”为不同的内容，并将它们高亮显示；

当两个句子所有分词都被剔除后，计算得到的相似度才大于阈值0.89时，系统认为这两个句子内容完全不同，并将两个句子完全高亮显示。

如：句子对“注册资金为1000万|一般经营项目:智能建筑”剔除所有分词后相似度才能大于阈值0.89时，系统认为这两个句子没有相同内容，两个句子全部高亮显示。

本申请一实施例中，还提供了一种结合语义识别实现标识文本差异内容的系统，包括：

第一相似度计算模块，用于计算待对比文本的第一相似度；

标识模块，用于标识所述待对比文本中被剔除的分词。

请参照图3，本申请已实施例中，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

请参照图4，本申请已实施例中，还提供一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，其特征在于，所述计算机程序在由处理器执行时实现上述任意一项所述的方法。

与现有技术相比，本申请具有如下有益效果：

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种结合语义识别实现标识文本差异内容的方法，其特征在于，包括：

S100：通过深度学习方法预训练所述相似度计算模型；

S200：通过相似度计算模型计算待对比文本的第一相似度；

2.根据权利要求1所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：

设定所述相似度阈值。

3.根据权利要求2所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：

4.根据权利要求3所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：

对比所述第一相似度与所述相似度阈值。

5.根据权利要求4所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：

6.根据权利要求5所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：

将所述待对比文本进行分词处理。

7.一种结合语义识别实现标识文本差异内容的系统，其特征在于，包括：

第一相似度计算模块，用于计算待对比文本的第一相似度；

标识模块，用于标识所述待对比文本中被剔除的分词。

8.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，非易失性可读存储介质，其内存储有计算机程序，其特征在于，所述计算机程序在由处理器执行时实现如权利要求1-6中任一项所述的方法。