CN114741468A

CN114741468A - 文本去重方法、装置、设备及存储介质

Info

Publication number: CN114741468A
Application number: CN202210281941.1A
Authority: CN
Inventors: 李文斌
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-12
Anticipated expiration: 2042-03-22
Also published as: CN114741468B

Abstract

本申请实施例提供了一种文本去重方法、装置、设备及存储介质，涉及人工智能技术领域，包括：基于M个待去重文本构建初始文本节点图；调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图；获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图中的文本节点进行回溯，得到目标文本节点图，基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。可以节省文本去重的资源成本，有效提升文本去重的效率。本申请可以涉及区块链技术，如可从区块链节点中获取待去重文本。本申请还涉及数字医疗技术领域，如对医疗数据进行文本去重。

Description

文本去重方法、装置、设备及存储介质

技术领域

本申请实施例涉及语音语义技术领域，尤其涉及一种文本去重方法、装置、设备及存储介质。

背景技术

文本去重是自然语言处理领域非常重要的一个部分，互联网存在大量的重复内容，无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪，还是社交媒体的文本去重和聚类，都需要通过文本去重实现。文本去重的效率将影响这些自然语言处理应用场景的功能效果。但是，由于现有的文本去重方法需要标注大量数据或者反复测试重复文本的阈值，在对海量的文本去重时，需要耗费大量的资源成本，文本去重的效率低下。

发明内容

本申请实施例提供了一种文本去重方法、装置、设备及存储介质。本方案基于社区发现算法对相似度较高的待去重文本进行社区合并，可以节省文本去重的资源成本，有效提升文本去重的效率。

第一方面，本申请实施例提供了一种文本去重方法，该文本去重方法包括：

基于M个待去重文本构建初始文本节点图；每个待去重文本为初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数；

调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图；该参考文本节点图的文本节点数小于或等于M，该参考文本节点图的文本社区数小于或等于M；

获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图进行回溯，得到目标文本节点图；该重叠信息用于指示文本节点图之间的文本节点的重叠关系；该目标文本节点图的文本节点数等于M，该目标文本节点图的文本社区数小于或等于M；

基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。

第二方面，本申请实施例提供了一种文本去重装置，该文本去重装置包括：

构建单元，用于基于M个待去重文本构建初始文本节点图；每个待去重文本为初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数；

社区合并单元，用于调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图；该参考文本节点图的文本节点数小于或等于M，该参考文本节点图的文本社区数小于或等于M；

回溯单元，用于获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图进行回溯，得到目标文本节点图；该重叠信息用于指示文本节点图之间的文本节点的重叠关系；该目标文本节点图的文本节点数等于M，该目标文本节点图的文本社区数小于或等于M；

剪枝处理单元，用于基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重

第三方面，本申请实施例还提供了一种文本去重设备，包括输入接口、输出接口，该文本去重设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，该计算机存储介质存储有一条或多条指令，该一条或多条指令适于由处理器加载并执行第一方面所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序指令，计算机程序指令被处理器执行时，用于执行第一方面所述的方法。

在本申请实施例中，文本去重设备可以基于M个待去重文本构建初始文本节点图，并调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图，获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图中的文本节点进行回溯，得到目标文本节点图。相比于通过由大量标注文本语义特征训练得到的深度神经网络模型进行文本去重的方法，本申请基于社区发现算法的半监督文本去重方法无需标注大量数据，极大的减少了资源成本，可以高效识别重复文本，提升文本去重的效率。除此之外，本申请基于非重复文本阈值对目标文本节点图进行剪枝处理，无需通过大量的标注数据反复测试重复文本阈值，通过少量的标注数据就可以确定非重复文本阈值，可以进一步节省资源成本，提升文本去重的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本去重系统的架构示意图；

图2是本申请实施例提供的一种文本去重方法的流程示意图；

图3是本申请实施例提供的初始文本节点图的示意图；

图4是本申请实施例提供的一种社区合并的示意图；

图5是本申请实施例提供的一种变更社区的示意图；

图6是本申请实施例提供的另一种文本去重方法的流程示意图；

图7是本申请实施例提供的一种BERT模型的结构示意图；

图8是本申请实施例提供的一种文本去重装置的结构示意图；

图9是本申请实施例提供的一种文本去重设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出了一种文本去重方法、装置、设备及存储介质，在该方法中，文本去重设备可以调用社区发现算法对基于待去重文本构建的初始文本节点图进行社区合并，得到参考文本节点图；基于重叠信息和参考文本节点图进行回溯，得到目标文本节点图，并基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。可以基于社区发现算法对相似度较高的待去重文本进行社区合并，极大的减少了资源成本，可以高效识别重复文本，提升文本去重的效率。

在一个实施例中，该文本去重方法可应用在如图1所示的文本去重系统中，如图1所示，该文本去重系统可至少包括：文本存储设备11以及文本去重设备12。其中，文本存储设备11可以用于存储待去重文本，该文本存储设备11是具有存储功能的设备。例如，该文本存储设备11可以是如图1所示的服务器，该服务器的数量可以是一个或多个，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network，CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器，等等。其中，文本去重设备12用于对文本存储设备11中的待去重文本进行文本去重处理，该文本去重设备12可以是一种终端设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device，MID)等等。

需要说明，本申请所提及的文本去重方法可以运用于各种业务技术领域中，该业务技术领域可以包括但不限于车辆、电商、金融、工业、通信和医疗等各个领域。例如，在医疗技术领域中，可以通过该文本去重方法对医疗数据进行聚类或者去重，该医疗数据可以包括但不限于个人健康档案、处方、检查报告等医疗数据。又例如，在金融技术领域中，可以通过该文本去重方法对金融数据进行去重，等等，本申请对此不做限定。

下面详细阐述本申请实施例的文本去重方法。请参见图2，是本申请实施例提出的一种文本去重方法的流程示意图。如图2所示，该文本去重方法包括S201-S204：

S201：基于M个待去重文本构建初始文本节点图；每个待去重文本为初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数。

其中，待去重文本可以为任何文字性文本，例如，多条新闻的新闻文本。又例如，视频图像中的字幕文本，等等，本申请实施例对此不做限制。

可选的，文本去重设备可以直接从文本存储设备中获取待去重文本。可选的，文本去重设备也可以利用具有数据抓取功能的python语句从用于存储待去重文本的区块链节点中获取待去重文本，利用区块链节点对数据的高吞吐性，可提高获取待去重文本的效率。

在一个实施例中，可以对M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度，将各个待去重文本作为文本节点，将两两待去重文本之间的相似度作为文本节点之间的边的权重，构建初始文本节点图。其中，本申请所提及的文本节点图可以为有权无向图，也可以说，将各个待去重文本作为文本节点，将两两待去重文本之间的相似度作为文本节点之间的边的权重，构建初始文本节点图。其中，每个待去重文本为初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数。也可以说，初始文本节点图的文本节点数为M，文本社区数也为M。需要说明，本申请实施例描述的文本节点可以用于指示待去重文本，文本节点之间的相似度可以用于指示待去重文本之间的相似度，文本节点之间的相似度可以用文本节点图中的边的权重进行表示。

例如，假设有4个待去重文本，分别为待去重文本1、待去重文本2、待去重文本3以及待去重文本4。可以对4个待去重文本进行相似度处理，得到两两待去重文本之间的相似度，即待去重文本1与待去重文本2之间的相似度(表示为S₁₂)、待去重文本1与待去重文本3之间的相似度(表示为S₁₃)、待去重文本1与待去重文本4之间的相似度(表示为S₁₄)、待去重文本2与待去重文本3之间的相似度(表示为S₂₃)、待去重文本2与待去重文本4之间的相似度(表示为S₂₄)以及待去重文本3与待去重文本4之间的相似度(表示为S₃₄)。用实线圆形表示文本节点，用点虚线圆形表示文本社区，用虚线表示属于两个文本社区之间的边，将各个待去重文本作为文本节点，将两两待去重文本之间的相似度作为文本节点之间的边的权重，得到如图3所示的初始文本节点图。

S202：调用社区发现算法对初始文本节点图进行合并，得到参考文本节点图；该参考文本节点图的文本节点数小于或等于M，参考文本节点图的文本社区数小于或等于M。

其中，对初始文本节点图中的文本节点进行社区合并，得到参考文本节点图是一个重复迭代的过程。一个实施例中，当第i次初始文本节点图中不存在候选文本节点时，获取第i次初始文本节点图中的文本社区数与文本节点数；i为正整数。当第i次初始文本节点图中的文本社区数小于文本节点数时，获取第i次初始文本节点图中的N个文本社区，分别对各个文本社区内的文本节点进行合并处理，得到N个更新后的文本节点，并基于N个更新后的文本节点构建第i+1次初始文本节点图；第i+1次初始文本节点图的文本节点数为N，第i+1次初始文本节点图的文本社区数为N；N为正整数，且N<M；重复上述步骤，直至第i+n次初始文本节点图中不存在候选文本节点且文本社区数等于文本节点数时，将第i+n次初始文本节点图作为参考文本节点图；n大于或等于零。

如图4所示，图4示出了一种社区合并的示意图。如图4的上侧图所示，设第i次的初始文本节点图中包括9个文本节点，用实线圆形表示文本节点，用实线表示属于一个文本社区的边，如文本节点1与文本节点2之间的边；用虚线表示属于两个文本社区的边，如文本节点2与文本节点5之间的边；用点虚线圆形表示文本社区，如文本节点1、文本节点2、文本节点3和文本节点4属于文本社区1，文本节点5、文本节点6和文本节点7属于文本社区2，文本节点8和文本节点9属于文本社区3。若第i次的初始文本节点图中不存在候选文本节点，可以获取第i次的初始文本节点图中的文本社区数和文本节点数，文本社区数为3，文本节点数为9，文本社区数小于文本节点数，那么可以进行合并处理，即将同属于文本社区1的文本节点1、文本节点2、文本节点3和文本节点4合并为文本节点1’，将同属于文本社区2的文本节点5、文本节点6和文本节点7合并为文本节点2’，将同属于文本社区3的文本节点8和文本节点9合并为文本节点3’，基于文本节点1’，文本节点2’以及文本节点3’生成第i+1次初始文本节点图，如图4下侧图所示。此时，第i+1次初始文本节点图中包括3个文本节点，不同文本节点分别属于不同的文本社区。

其中，更新后的文本节点的环的权重为原有文本社区内的各个文本节点之间边的权重之和。例如，针对文本社区2来说，文本节点2’的环的权重为文本节点5与文本节点6之间的边的权重，文本节点5与文本节点7之间的边的权重以及文本节点6与文本节点7之间的边的权重之和。

其中，更新后的文本节点之间边的权重为原有文本社区之间的权重。例如，文本节点1’与文本节点2’之间边的权重为文本社区1与文本社区2之间的权重。

另一个实施例中，当初始文本节点图中存在候选文本节点时，获取候选文本节点对应的目标移动文本社区，将候选文本节点的所属文本社区变更至目标移动文本社区。其中，初始文本节点图可以为任意一次的初始文本节点图。

例如，承接上述的示例，由图4得到的第i+1次初始文本节点图中包括3个文本节点：文本节点1’，文本节点2’和文本节点3’，若文本节点1’为候选文本节点，文本节点1’的原有文本社区为文本社区1’，目标移动文本社区为文本社区2’，则可以将文本社区1’内的文本节点1’移动至文本社区2’，如图5所示。

可选的，经过多次变更文本社区，初始文本节点图中可能不再存在候选文本节点。此时，可以获取初始文本节点图中的文本社区数与文本节点数，当初始文本节点图的文本社区数小于文本节点数时，可以执行如图4所示的社区合并操作，当初始文本节点图的文本社区数等于文本节点数时，将该初始文本节点图作为参考文本节点图。其中，初始文本节点图可以为任意一次的初始文本节点图。

其中，本申请所提及的候选文本节点为支持变更所属文本社区的文本节点。一个实施例中，社区发现算法包括Louvain算法。Louvain算法是基于模块度(Modularity)的社区发现算法，其优化目标是最大化模块度。基于此，可以通过模块度指标增益确定初始文本节点图中的文本节点是否为候选文本节点。具体的，文本去重设备可以分别计算初始文本节点图中每个文本节点与其相邻文本节点之间的模块度指标增益，确定每个文本节点对应的最大模块度指标增益，当初始文本节点图中存在最大模块度指标增益大于预设阈值的文本节点时，该初始文本节点图中存在候选文本节点，当初始文本节点图中各个文本节点的最大模块度指标增益均小于或等于预设阈值时，该初始文本节点图中不存在候选文本节点。其中，预设阈值可以根据经验或者业务需求设置，例如该预设阈值为0。其中，初始文本节点图可以为任意一次的初始文本节点图。针对目标文本节点，该目标文本节点为初始文本节点图中的任意一个文本节点，可以计算目标文本节点与其相邻文本节点之间的模块度指标增益，得到各个模块度指标增益，并从各个模块度指标增益中确定目标文本节点对应的最大模块度指标增益。当目标文本节点的最大模块度指标增益大于预设阈值时，该目标文本节点为候选文本节点。当目标文本节点的最大模块度指标增益小于或等于预设阈值时，该目标文本节点不为候选文本节点。需要说明，针对候选文本节点，最大模块度指标增益对应的相邻文本节点所属的文本社区为该候选文本节点的目标移动文本社区。

可选的，下面描述计算目标文本节点与参考相邻文本节点之间的模块度指标增益的方法，该参考相邻文本节点为目标文本节点的任意一个相邻文本节点。具体的，对属于原有文本社区的目标文本节点与属于候选移动文本社区的参考相邻文本节点进行模块度计算，得到初始模块度指标，将目标文本节点移动至候选移动文本社区，对属于候选移动文本社区的目标文本节点与属于候选移动文本社区的参考相邻文本节点进行模块度计算，得到更新后的模块度指标，计算更新后的模块度指标与初始模块度指标的差值，得到模块度指标增益。

一个实施例中，可以通过Louvain算法中的以下公式进行模块度计算得到模块度指标：

其中，Q为模块度指标，m为文本节点图中边的总数量，k_a表示所有与文本节点a相连的边的权重之和，k_b表示所有与文本节点b相连的边的权重之和。A_ab表示文本节点a与文本节点b之间的边的权重。C_a表示文本节点a所属文本社区，C_b表示文本节点b所属文本社区。当文本节点a与文本节点b属于同一个文本社区时，δ等于1，当文本节点a与文本节点b不属于同一个文本社区时，δ等于0。

S203：获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图进行回溯，得到目标文本节点图；该重叠信息用于指示文本节点图之间的文本节点的重叠关系；该目标文本节点图的文本节点数等于M，目标文本节点图的文本社区数小于或等于M。

其中，社区合并过程中的重叠信息用于指示文本节点图之间的文本节点的重叠关系。即如图4所示，该重叠信息包括将同属于文本社区1的文本节点1、文本节点2、文本节点3和文本节点4合并得到文本节点1’，将同属于文本社区2的文本节点5、文本节点6和文本节点7合并得到文本节点2’，将同属于文本社区3的文本节点8和文本节点9合并得到文本节点3’的相关信息。那么可以基于上述的相关信息以及如图4下侧图所示的3个文本节点进行回溯，得到如图4上侧图所示的9个文本节点。需要说明，回溯过程中，只需回溯文本节点之间的映射，不回溯文本社区之间的映射。基于此，基于重叠信息和参考文本节点图进行回溯得到的目标文本节点图的文本节点数等于M。但是，该目标文本节点图的文本社区数可能不为M，该目标文本节点图的文本社区数与参考文本节点图的文本社区数相等，也可以说，目标文本节点图的文本社区数小于或等于M。

S204：基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。

其中，由于社区合并过程中文本节点处理顺序的影响，目标文本节点图中可能存在一些权重较低的边(即边两端的文本节点之间的相似度较低)。因此，可以基于剪枝策略对目标文本节点图进行剪枝处理。

一个实施例中，文本去重设备可以从目标文本节点图中获取M个文本节点之间的相似度(即目标文本节点图中各个边的权重)，基于基准数值以及各个文本之间的相似度确定各个文本节点之间的不相似度，去除不相似度大于非重复文本阈值的文本节点之间的边，得到至少一个目标文本社区。

例如，针对目标文本节点图中的任意一条边，任意一条边的权重为边两端的文本节点之间的相似度，设为s。可以计算基准数值1与相似度s之差，得到不相似度1-s，获取非重复文本阈值(即不相似度阈值S₀)，若(1-s)>S₀，该任意一条边两端的文本节点之间的不相似度较高(即相似度较低)，因此可以去除目标文本节点图中的任意一条边。

参见上述图2所示方法实施例的相关描述可知，图2所示的文本去重方法中可以对M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度，并基于两两待去重文本之间的相似度构建初始文本节点图。如图6所示，图6示出了另一种文本去重方法的流程示意图，包括S601-S606：

S601：对M个待去重文本进行向量转换，得到各个待去重文本的向量表达式。

其中，文本去重设备可以采用任意的编码模型对各个待去重文本进行向量转换，得到各个待去重文本的向量表达式。该编码模型包括但不限于Word2vec模型或者预训练后的BERT模型，等等。

其中，Word2ve模型是一种将词汇向量化的自然语言处理模型，全称为Word toVector。Word2Ve模型的特点是可以将所有的词向量化，这样词与词之间就可以定量地去度量它们之间的关系，挖掘词之间的联系。训练好的Word2Vec模型是以Word2Vec模型词典的形式保存的。基于此，一个实施例中，可以对待去重文本进行分词处理，得到多个分词；从Word2Vec模型词典中获取各个分词对应的词向量，并对各个分词对应的词向量进行拼接，得到待去重文本的向量表达式。基于Word2ve模型的向量转换方法较简单，可以提升向量转换的效率。

其中，BERT模型是一种由谷歌提出的新型的语言模型，BERT模型的全称为Bidirectional Encoder Representations fromTransformers，通过联合调节所有层中的双向Transformer来预训练双向深度表示(Embedding)。BERT的网络结构如图7所示，其中，En表示encoding(输入编码)，Trm表示Transformer的Encoder，Tn表示经过BERT模型编码后的待去重文本的向量化表达式。BERT模型使用双向的Transformer的Encoder部分可以学习待去重文本中每个分词前后两边的信息，可以获得更好的词向量表示。基于此，另一个实施例中，可以调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到待去重文本的向量表达式。

其中，BERT模型包括遮蔽词语言模型(Masked Language Model，MLM)任务和下一句预测(Next Sentence Prediction，NSP)。其中，MLM任务是给定一个文本，遮蔽其中的关键词，用剩余的词去预测这几个关键词分别是什么。NSP任务是给定一个文本中的两个文本片段，即两句话，判断第二个文本片段是否紧跟在第一个文本片段之后。因此，在调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到待去重文本的向量表达式之前，还需要利用训练样本对BERT模型中的MLM任务以及NSP任务进行预训练。具体的，获取训练样本中的关键词，遮蔽训练样本中的关键词执行MLM任务，并利用训练样本中的文本片段执行NSP任务，以预训练BERT模型，得到预训练后的BERT模型。在BERT模型预训练的过程中，将NSP任务与MLM任务相结合，可以更准确地学习到待去重文本中词之间的上下文关系，同时BERT模型中的MLM任务对关键词进行预测，可以让预训练后的BERT模型学习优化指定关键词中的embedding。

S602：基于余弦相似度算法对待去重文本的向量表达式两两进行相似度计算，得到两两待去重文本的向量表达式之间的向量相似度，并将向量相似度作为两两待去重文本之间的相似度。

其中，余弦相似度算法是指将向量空间中两个向量表达式夹角间的余弦值作为衡量两个向量表达式之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量表达式越相似，余弦值接近于0，夹角趋于90度，表明两个向量表达式越不相似。

其中，可以通过以下公式进行相似度计算得到两个向量表达式夹角间的余弦值(即向量相似度)：

其中，cosθ为两个向量表达式夹角间的余弦值，w为向量表达式的分量的数量，例如，w为768。其中，x_p代表一个待去重文本向量表达式的各分量，y_p代表另一个待去重文本的向量表达式的各分量。

S603：基于两两待去重文本的向量表达式之间的向量相似度构建初始文本节点图。

S604：调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图。

S605：获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图进行回溯，得到目标文本节点图.

S606：基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。

需要说明，S603-S606的具体实现方式可以参见前文图2对的相关实施例，此处不做赘述。

在本申请实施例中，文本去重设备可以通过预训练的BERT模型对各个待去重文本进行向量转换得到待去重文本的向量表达式，相较于基于关键词匹配的文本去重方法(如基于N-gram相似度的文本去重方法)，在转换过程中涵盖了待去重文本的语义信息以及上下文信息，可以识别词典之外的词语，语义匹配更加准确，有效的保证了文本去重的准确性和鲁棒性。除此之外，本申请基于社区发现算法的文本去重方法可以减少资源成本，高效识别重复文本，提升文本去重的效率。

请参见图8，图8为本申请实施例提供的一种文本去重装置的结构示意图，该文本去重装置可以为前述方法实施例所提及的文本去重设备，该文本去重装置可以包括构建单元801、社区合并单元802、回溯单元803以及剪枝处理单元804。

构建单元801，用于基于M个待去重文本构建初始文本节点图；每个待去重文本为初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数；

社区合并单元802用于调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图；该参考文本节点图的文本节点数小于或等于M，参考文本节点图的文本社区数小于或等于M；

回溯单元803，用于获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图中的文本节点进行回溯，得到目标文本节点图；该重叠信息用于指示文本节点图之间的文本节点的重叠关系；该目标文本节点图的文本节点数等于M，目标文本节点图的文本社区数小于或等于M；

剪枝处理单元804用于基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。

在一个实施例中，社区合并单元802用于调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图，包括：

当第i次初始文本节点图中不存在候选文本节点时，获取第i次初始文本节点图中的文本社区数与文本节点数；该候选文本节点为支持变更所属文本社区的文本节点；i为正整数；

当第i次初始文本节点图中的文本社区数小于文本节点数时，获取第i次初始文本节点图中的N个文本社区；

分别对各个文本社区内的文本节点进行合并处理，得到N个更新后的文本节点，并基于N个更新后的文本节点构建第i+1次初始文本节点图；该第i+1次初始文本节点图的文本节点数为N，第i+1次初始文本节点图的文本社区数为N；N为正整数，且N<M；

重复上述步骤，直至第i+n次初始文本节点图中不存在候选文本节点且文本社区数等于文本节点数时，将第i+n次初始文本节点图作为参考文本节点图；n大于或等于零。

再一个实施例中，社区合并单元802还用于：

分别计算第i次初始文本节点图中每个文本节点与其相邻文本节点之间的模块度指标增益，确定每个文本节点对应的最大模块度指标增益；

当第i次初始文本节点图中存在最大模块度指标增益大于预设阈值的文本节点时，第i次初始文本节点图中存在候选文本节点；

当第i次初始文本节点图中各个文本节点的最大模块度指标增益均小于或等于预设阈值时，该第i次初始文本节点图中不存在候选文本节点。

再一个实施例中，构建单元801用于基于M个待去重文本构建初始文本节点图，包括：

对M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度；

将各个待去重文本作为文本节点，将两两待去重文本之间的相似度作为文本节点之间的边的权重，构建初始文本节点图。

再一个实施例中，构建单元801用于对M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度，包括：

调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到待去重文本的向量表达式；

基于余弦相似度算法对待去重文本的向量表达式两两进行相似度计算，得到两两待去重文本的向量表达式之间的向量相似度，并将向量相似度作为所述两两待去重文本之间的相似度。

再一个实施例中，构建单元801用于调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到待去重文本的向量表达式之前，构建单元801还用于：

获取训练样本中的关键词；

遮蔽训练样本中的关键词执行MLM任务，并利用训练样本中的文本片段执行NSP任务，以预训练BERT模型，得到预训练后的BERT模型。

再一个实施例中，剪枝处理单元804用于基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，包括：

从目标文本节点图中获取M个文本节点之间的相似度；

基于基准数值以及各个文本节点之间的相似度确定各个文本节点之间的不相似度，去除不相似度大于非重复文本阈值的文本节点之间的边，得到至少一个目标文本社区。

根据本申请的另一个实施例，图8所示的文本去重装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以是由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，文本去重装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过包括中央处理单元(Central ProcessingUnit，CPU)，随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8所示的文本去重装置，以及来实现本申请实施例的文本去重方法。该计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述文本去重设备中，并在其中运行。

在本申请实施例中，文本去重装置可以基于M个待去重文本构建初始文本节点图，并调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图，获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图中的文本节点进行回溯，得到目标文本节点图。相比于通过由大量标注文本语义特征训练得到的深度神经网络模型进行文本去重的方法，本申请基于社区发现算法的半监督文本去重方法无需标注大量数据，极大的减少了资源成本，可以高效识别重复文本，提升文本去重的效率。除此之外，本申请基于非重复文本阈值对目标文本节点图进行剪枝处理，无需通过大量的标注数据反复测试重复文本阈值，通过少量的标注数据就可以确定非重复文本阈值，可以进一步节省资源成本，提升文本去重的效率。

请参阅图9，图9为本申请实施例提供的一种文本去重设备的结构示意图。该文本去重设备可以包括：一个或多个处理器901；一个或多个输入接口902，一个或多个输出接口903和计算机存储介质904。上述处理器901、输入接口902、输出接口903以及计算机存储介质904通过总线或其他方式连接。计算机存储介质904是文本去重设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质904既可以包括文本去重设备的内置存储介质，当然也可以包括文本去重设备支持的扩展存储介质。计算机存储介质904提供存储空间，该存储空间存储了文本去重设备的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器；可选的，还可以是至少一个远离前述处理器的计算机存储介质、该处理器可以称为中央处理单元(Central Processing Unit，CPU)，是文本去重设备的核心以及控制中心，适于被实现一条或多条指令，具体加载并执行一条或多条指令从而实现相应的方法流程或功能。

在一个实施例中，可由处理器901加载并执行计算机存储介质904中存放的一条或多条指令，以实现执行如图2或图6中所示的相应方法所涉及的各步骤，具体实现中，计算机存储介质904中的一条或多条指令由处理器901加载并执行以下步骤：

调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图；该参考文本节点图的文本节点数小于或等于M，参考文本节点图的文本社区数小于或等于M；

获取社区合并过程中的重叠信息，并基于重叠信息和参考文本节点图中的文本节点进行回溯，得到目标文本节点图；该重叠信息用于指示文本节点图之间的文本节点的重叠关系；该目标文本节点图的文本节点数等于M，目标文本节点图的文本社区数小于或等于M；

在一个实施例中，处理器901用于调用社区发现算法对初始文本节点图进行社区合并，得到参考文本节点图，包括：

再一个实施例中，处理器901还用于：

再一个实施例中，处理器901用于基于M个待去重文本构建初始文本节点图，包括：

再一个实施例中，处理器901用于对M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度，包括：

再一个实施例中，处理器901用于调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到待去重文本的向量表达式之前，处理器901还用于：

获取训练样本中的关键词；

再一个实施例中，处理器901用于基于剪枝策略对目标文本节点图进行剪枝处理，得到至少一个目标文本社区，包括：

从目标文本节点图中获取M个文本节点之间的相似度；

本申请实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令。计算机程序指令被处理器执行时，可执行上述文本去重方法实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述文本去重方法实施例中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种文本去重方法，其特征在于，所述方法包括：

基于M个待去重文本构建初始文本节点图；每个待去重文本为所述初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数；

调用社区发现算法对所述初始文本节点图进行社区合并，得到参考文本节点图；所述参考文本节点图的文本节点数小于或等于M，所述参考文本节点图的文本社区数小于或等于M；

获取社区合并过程中的重叠信息，并基于所述重叠信息和所述参考文本节点图中的文本节点进行回溯，得到目标文本节点图；所述重叠信息用于指示文本节点图之间的文本节点的重叠关系；所述目标文本节点图的文本节点数等于M，所述目标文本节点图的文本社区数小于或等于M；

基于剪枝策略对所述目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。

2.如权利要求1所述的方法，其特征在于，所述调用社区发现算法对所述初始文本节点图进行社区合并，得到参考文本节点图，包括：

当第i次初始文本节点图中不存在候选文本节点时，获取所述第i次初始文本节点图中的文本社区数与文本节点数；所述候选文本节点为支持变更所属文本社区的文本节点；i为正整数；

当所述第i次初始文本节点图中的文本社区数小于所述文本节点数时，获取所述第i次初始文本节点图中的N个文本社区；

分别对各个所述文本社区内的文本节点进行合并处理，得到N个更新后的文本节点，并基于所述N个更新后的文本节点构建第i+1次初始文本节点图；所述第i+1次初始文本节点图的文本节点数为N，所述第i+1次初始文本节点图的文本社区数为N；N为正整数，且N<M；

重复上述步骤，直至第i+n次初始文本节点图中不存在所述候选文本节点且文本社区数等于文本节点数时，将所述第i+n次初始文本节点图作为所述参考文本节点图；n大于或等于零。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

分别计算所述第i次初始文本节点图中每个文本节点与其相邻文本节点之间的模块度指标增益，确定每个文本节点对应的最大模块度指标增益；

当所述第i次初始文本节点图中存在最大模块度指标增益大于预设阈值的文本节点时，所述第i次初始文本节点图中存在所述候选文本节点；

当所述第i次初始文本节点图中各个文本节点的最大模块度指标增益均小于或等于所述预设阈值时，所述第i次初始文本节点图中不存在所述候选文本节点。

4.如权利要求1-3任一项所述的方法，其特征在于，所述基于M个待去重文本构建初始文本节点图，包括：

对所述M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度；

将各个待去重文本作为文本节点，将所述两两待去重文本之间的相似度作为所述文本节点之间的边的权重，构建所述初始文本节点图。

5.如权利要求4所述的方法，其特征在于，所述对所述M个待去重文本进行相似度处理，得到两两待去重文本之间的相似度，包括：

调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到所述待去重文本的向量表达式；

基于余弦相似度算法对所述待去重文本的向量表达式两两进行相似度计算，得到两两待去重文本的向量表达式之间的向量相似度，并将所述向量相似度作为所述两两待去重文本之间的相似度。

6.如权利要求5所述的方法，其特征在于，所述调用预训练后的BERT模型分别对各个待去重文本进行向量转换，得到所述待去重文本的向量表达式之前，所述方法还包括：

获取训练样本中的关键词；

遮蔽所述训练样本中的关键词执行遮蔽词语言模型MLM任务，并利用所述训练样本中的文本片段执行下一句预测NSP任务，以预训练所述BERT模型，得到所述预训练后的BERT模型。

7.如权利要求1-3任一项所述的方法，其特征在于，所述基于剪枝策略对所述目标文本节点图进行剪枝处理，得到至少一个目标文本社区，包括：

从所述目标文本节点图中获取M个文本节点之间的相似度；

基于基准数值以及各个文本节点之间的相似度确定各个文本节点之间的不相似度，去除不相似度大于非重复文本阈值的文本节点之间的边，得到所述至少一个目标文本社区。

8.一种文本去重装置，其特征在于，所述装置包括：

构建单元，用于基于M个待去重文本构建初始文本节点图；每个待去重文本为所述初始文本节点图中的一个文本节点；每个文本节点对应一个文本社区；M为大于1的正整数；

社区合并单元，用于调用社区发现算法对所述初始文本节点图进行社区合并，得到参考文本节点图；所述参考文本节点图的文本节点数小于或等于M，所述参考文本节点图的文本社区数小于或等于M；

回溯单元，用于获取社区合并过程中的重叠信息，并基于所述重叠信息和所述参考文本节点图进行回溯，得到目标文本节点图；所述重叠信息用于指示文本节点图之间的文本节点的重叠关系；所述目标文本节点图的文本节点数等于M，所述目标文本节点图的文本社区数小于或等于M；

剪枝处理单元，用于基于剪枝策略对所述目标文本节点图进行剪枝处理，得到至少一个目标文本社区，并根据每个目标文本社区内文本节点指示的重复文本执行文本去重。

9.一种文本去重设备，包括输入接口、输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载以执行如权利要求1-7任意一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-7任意一项所述的方法。