CN110134852A

CN110134852A - 一种文档的去重方法、设备及可读介质

Info

Publication number: CN110134852A
Application number: CN201910373004.7A
Authority: CN
Inventors: 冯博琳
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-16
Anticipated expiration: 2039-05-06
Also published as: CN110134852B

Abstract

本说明书实施例公开了一种文档的去重方法、设备及可读介质，其方案是，采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征；采用神经网络策略从第一文档和第二文档中提取来自神经网络的特征；根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度；根据综合相似度确定第一文档与第二文档是否重复，其中，来自特征工程的特征和来自神经网络的特征均为用于表示第一文档和第二文档之间相似程度的特征。

Description

一种文档的去重方法、设备及可读介质

技术领域

本申请涉及计算机技术领域，尤其涉及文档的去重方法、设备以及可读介质。

背景技术

随着互联网技术的快速发展，信息传播的速度和广度飞速上升，这也使得信息收集时，特别是在线爬取文档信息时，收集到重复信息的概率大大提高。为了去除重复信息，必须对收集到的文档信息进行去重处理。

对文档信息进行去重处理时可以采用神经网络模型进行去重处理，通过深度学习后判断收集到的文档之间的重复性，筛选出重复文档。由于去重处理中采用的是模型自适应地学习后提取文档的特征进行重复性判断，而模型在自适应学习过程中对语料归属领域的识别通常较为宽泛，对于一些特定类型的文档，例如识别粒度较细文档，去重效果不好，容易发生遗漏。

申请内容

本申请提供了一种文档的去重方法、设备以及可读介质，用于提高文档的去重效果，减少发生遗漏。

本申请实施例提供的文档的去重方法，其特征在于，包括：

采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征；

采用神经网络策略从第一文档和第二文档中提取来自神经网络的特征；

根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度；

根据综合相似度确定第一文档与第二文档是否重复，

其中，来自特征工程的特征和来自神经网络的特征均为用于表示第一文档和第二文档之间相似程度的特征。

优选地，所述的方法还包括：

计算文档集中待去重文档之间的文档对相似度；

根据文档对相似度获取待去重文档对，文档对相似度用于表示待去重文档对中待去重文档之间的相似程度，

待去重文档对包括第一文档和第二文档。

优选地，来自特征工程的特征包括第一特征和第二特征；

采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征包括：

基于第一文档的语意、第二文档的语意以及第一文档与第二文档之间的距离获取第一特征，

基于分别与第一文档和所述第二文档相匹配的待去重文档对获取第二特征。

优选地，基于分别与第一文档和第二文档相匹配的待去重文档对获取第二特征包括：

将与第一文档相匹配的待去重文档对的数量、与第二文档相匹配的待去重文档对的数量，以及分别与第一文档和第二文档相匹配的待去重文档中重复的待去重文档的数量作为第二特征。

优选地，来自神经网络的特征包括第三特征和第四特征；

根据神经网络策略从第一文档和第二文档中提取来自神经网络的特征包括：

根据预先训练好的提取模型从第一文档和第二文档中获取第三特征和第四特征，

第三特征为用于表示第一文档和第二文档之间距离的特征，

第四特征为用于表示第一文档和第二文档之间相似度的特征。

优选地，来自特征工程的特征包括第一特征和第二特征；

根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度包括：

采用神经网络策略将第一特征、第二特征、第三特征以及第四特征进行特征融合后计算第一文档和第二文档的综合相似度。

优选地，根据综合相似度确定第一文档与第二文档是否重复包括：

若综合相似度符合预设的重复阈值，则判定包含第一文档与第二文档的待去重文档对为重复文档对；

根据重复文档对确定第一文档与第二文档是否重复。

本申请实施例提供的文档的去重装置，其特征在于，包括：

第一提取模块，用于采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征；

第二提取模块，采用神经网络策略从第一文档和第二文档中提取来自神经网络的特征；

综合相似度生成模块，根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度；

重复性判定模块，根据综合相似度确定第一文档与第二文档是否重复，

本申请实施例提供的计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令可被处理器执行以实现上述任一项的文档的去重方法。

本申请实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现上述任一项的文档的去重方法。

在本申请实施例所提供的技术方案中由于采用了如下方式进行去重处理：

采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征；采用神经网络策略从第一文档和第二文档中提取来自神经网络的特征；根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度；根据综合相似度确定第一文档与第二文档是否重复，其中，来自特征工程的特征和来自神经网络的特征均为用于表示第一文档和第二文档之间相似程度的特征。因此，能够利用通过不同方式提取到的特征，多维度地对待去重文档进行表征，并在比较文档的重复程度的时融合了多种特征进行比较，解决了对于特定文档识别效果不好的问题，提高文档的去重效果，减少出现遗漏。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例1提供的文档的去重方法的流程图。

图2为本申请实施例2提供的文档的去重方法的流程图。

图3为本申请实施例2提供的获取综合相似度的流程图。

图4为本申请实施例3提供的文档的去重装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请通过利用不同的提取方式对待去重文档进行特征提取，获取到的特征能够从不同角度对待去重文档进行描述，保证了特征对文档描述的全面性和精确性，并且由于在后续处理时将提取到的特征进行了融合后计算最终的相似度，得到的综合相似度包含了提取到的全部特征，因此，能够更为准确的衡量文档间的重复程度。

以下，参照附图对本申请的文档的去重方法、设备以及可读介质进行详细阐述。

<实施例1>

本申请实施例1提供了一种文档的去重方法，本申请实施例的执行主体为服务器，即能够实现本申请实施例中所记载的技术方案的对文档进行去重处理的服务器。

本实施例中通过计算第一文档与第二文档之间的综合相似度来判定第一文档与第二文档是否重复。其中，第一文档与第二文档可以是同一类别的文档，例如第一文档和第二文档都属于新闻类的文档或都属于交通新闻类的文档；也可以是不同类别的文档，例如第一文档为新闻类的文档，第二文档为小说类文档或第一文档为交通新闻类文档，第二文档为财经新闻类文档。

图1为本申请实施例1提供的文档的去重方法的流程图。

如图1所示，本实施例中文档的去重方法包括以下步骤：

步骤S1-1，采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征。

其中，来自特征工程的特征用于表示第一文档和第二文档之间相似程度的特征。

本实施例中，来自特征工程的特征可以是包含多个特征，从不同角度表征第一文档和第二文档之间的相似程度。来自特征工程的特征中的特征可以是基于特征工程中的多种算法提取到的，例如，根据文档中重复的字或词的数量提取到的特征、采用TFIDF(TermFrequency–Inverse Document Frequency)模型、LDA(Latent Dirichlet Allocation)模型、LSI(Latent Semantic Indexing)模型、word2vec模型等算法提取到的特征等，这些特征可以包括用于判断第一文档和第二文档是否重复相关的特征。

步骤S1-2采用神经网络策略从第一文档和第二文档中提取来自神经网络的特征。

其中，来自神经网络的特征用于表示第一文档和第二文档之间相似程度的特征。

本实施例中，来自神经网络的特征可以是包含多个特征，从不同角度表征第一文档和第二文档之间的相似程度。

第二特征中的特征的提取可以是通过不同的神经网络策略来进行提取，例如可以通过条件随机场、卷积神经网络、循环神经网络等算法提取第二特征，这些特征可以包括用于判断第一文档和第二文档是否重复相关的特征。

由于来自神经网络的特征与来自特征工程的特征是通过不同的提取方式获取，既保证了提取到的特征不发生重叠，又能够通过多种不同角度来对第一文档与第二文档间的重复程度进行表征，最大限度的保证特征提取的全面性，提高后续去重效果。

步骤S1-3，根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度。

具体地，将提取到的来自特征工程的特征和来自神经网络的特征进行特征融合后计算第一文档和第二文档的综合相似度。

本实施例中的融合方式可以是采用基于贝叶斯决策理论的算法进行特征融合，例如使用依据贝叶斯理论设置的分类器进行特征融合；也可以是基于稀疏表示理论的算法进行特征融合，例如根据提取到的多个特征建立特征联合稀疏矩阵；还可以是基于深度学习理论算法进行特征融合，例如通过不同的神经网络策略将提取到的多个特征进行融合。

通过特征融合将提取到的特征进一步的整合后获取综合相似度，这样的方式结合了特征工程策略和神经网络策略的优点，即在特征工程方面，得到了较为丰富的文档对描述；在神经网络方面，解决了小数据集上容易出现的过拟合问题，两种方法相互促进，使得前述步骤中获取的特征被充分利用，获取到的综合相似度能够有效地表征第一文档和第二文档的相似程度。

步骤S1-4，根据综合相似度确定第一文档与第二文档是否重复。

具体地，判断综合相似度是否符合预设的重复策略；若符合则第一文档与第二文档重复。

其中，重复策略为预设的用于根据计算得到的综合相似度确定第一文档与第二文档是否重复的策略。重复策略包括预设的重复阈值，当综合相似度大于或等于重复阈值时判定第一文档与第二文档重复，当综合相似度小于重复阈值时判定第一文档与第二文档不重复，重复阈值可以根据具体应用场景需要进行预设。

需要说明的是，重复策略也可以是其他判断方式，可根据具体应用场景需要进行预设。

本实施例中由于采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征；采用神经网络策略从第一文档和第二文档中提取来自神经网络的特征；根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度；根据综合相似度确定第一文档与第二文档是否重复，其中，来自特征工程的特征和来自神经网络的特征均为用于表示第一文档和第二文档之间相似程度的特征，因此，能够利用不同方式，例如特征工程与神经网络，提取到的特征，多维度地对待去重文档进行表征，并在比较文档的重复程度的时融合了多种特征进行比较，解决了对于文档识别效果不好的问题，提高文档的去重效果，减少出现遗漏。

<实施例2>

在实施例2中，对于与实施例1中相同的方法，使用相同的符号并省略相同的说明。

本申请实施例2中提供的文档的去重方法，是在实施例1的基础上，对文档集中的待去重文档对进行去重处理，例如，对文档集中的待去重文档进行初步筛选，基于筛选出的具有一定重复性的待去重文档对进行后续去重处理。

图2为本申请实施例2提供的文档的去重方法的流程图。

如图2所示，本实施例中文档的去重方法包括以下步骤：

步骤S2-1，对文档集中的待去重文档进行预处理。

本实施例中，文档集中包含多个待去重文档，这些文档可以包括同一类别的文档，如新闻类文档。具体地，例如待去重文档可以包括交通新闻标题。

进一步地，由于交通新闻中常涉及到各种位置信息，例如各种不同的道路等，因此，本实施例中待去重文档可以是包含位置识别信息的文档，该位置识别信息包括地名、地名的别称、道路名称道路名的别称以及其他能够用于标识地理位置的名称，例如人名、组织机构名等。

需要说明的是，文档集中的待去重文档可以是包含位置识别信息的新闻标题，也可以是还包含有其他信息的交通新闻的标题。

对待去重文档进行预处理包括对文档中的所有待去重文档进行全半角转换、简繁体转换、去来源信息、分词、命名实体识别，去停用词以及去标点符号中的一种或多种处理。其中，命名实体识别用于对待去重文档中的位置标识信息进行识别。待去重文档进行预处理还包括对命名实体识别出的命名实体进行标识。

由于预处理时采用了命名实体识别对文档进行处理，使得文档中包含的位置识别信息能够得到很好的识别，保证了后续特征提取的精确性，避免了用于表征地理位置信息的词项不易识别或识别错误导致去重过程中文档不能被有效识别的问题。

步骤S2-2，计算预处理后的待去重文档两两之间的文档对相似度。

本实施例中，将预处理后的待去重文档进行向量化处理；根据向量化后的待去重文档确定待去重文档两两之间的文档对相似度，对待去重文档之间的相似程度进行初步判断获取待去重文档对。其中，文档对相似度表示文档集中两个待去重文档之间的相似程度，用于获取待去重文档对。

例如，在进行文档对相似度的计算时，首先，通过TFIDF模型对预处理后的待去重文档进行向量化处理。

需要说明的是，本实施例中TFIDF模型根据待去重文档预处理后获得的所有词项进行向量化处理。

具体地，TFIDF的计算如下式(1)所示，其中TFIDF(d_it_j)表示词项t_j在待去重文档d_i中的TFIDF权重，tf(d_it_j)为词项t_j在待去重文档di中词频，D为整个文档集中待去重文档的数量，df(t_j)为词项t_j在整个文档集中的待去重文档频，即出现词t_j的待去重文档数量。

通过计算出词项t_j的TFIDF权重来将待去重文档d_i进行向量化表示，进而获取待去重文档d_i的向量化表示。

然后，根据向量化后的待去重文档计算待去重文档两两之间的余弦相似度。

具体地，对文档集中每个待去重文档d_i，计算其与文档d_k(k＝i+1，i+2，…D)的余弦相似度，计算公式如下式(2)所示，其中d_i为第i篇待去重文档的向量化表示，m为向量的第m个维度，cosine(d_i,d_k)为两个待去重文档间的余弦相似度。

需要说明的是，本实施例中还可以使用其他算法计算文档对相似度，进而获取待去重文档对。例如采用LSI模型、LDA模型和类似于word2vec的词向量模型获取待去重文档的向量化表示，再采用欧式距离、编辑距离、Jaccard相似性系数计算去重文档两两之间的文档对相似度，从而根据相似程度获取待去重文档对。

步骤S2-3，根据文档对相似度获取待去重文档对。

其中，待去重文档对包括相似的两个待去重文本，文档对相似度用于表示待去重文档对中待去重文档之间的相似程度。

例如，在判断第一文档和第二文档是否为待去重文档对时，将计算出的第一文档和第二文档的文档对相似度与预设的待去重文档对筛选阈值进行比较，若符合，则第一文档和第二文档为待去重文档对，此时，待去重文档对包括第一文档和第二文档，

本实施例中，待去重文档对筛选阈值T₁用于待去重文档之间的相似程度的确定。判断式(2)中计算得到的cosine(d_i,d_k)与待去重文档对筛选阈值T₁是否配，若匹配则判定与该cosine(d_i,d_k)对应的两个待去重文档为待去重文档对。其中，待去重文档对筛选阈值T₁可以根据具体应用场景需要进行预设，这里不做具体限定。

例如，若cosine(d_i，d_k)≥T1则判定待去重文档d_i和d_k具有相似性，将d_i和d_k作为待去重文档对，进行进一步的重复性判断。此时，d_i和d_k分别为第一文档和第二文档。

需要说明的是，在文档集中若包含d_i的待去重文档对数量为0，则认为文档集中没有与待去重文档d_i重复的文档；若包含d_i的待去重文档对的数量大于0，则进行进一步地判断包含d_i的待去重文档对中的两个文档的重复性。

通过采用使用TFIDF获取文档关键词，通过计算余弦相似度并设定合适的待去重文档对筛选阈值对文档集中的待去重文本进行初步筛选，将重复可能性较大的文档筛选出来以便进一步的处理，这样的初步筛选能够将重复可能性低的文档进行排除，使得后续处理过程中能够针对具有较高重复可能性的待去重文档进行处理，针对性强，降低计算量，提高去重效率。

步骤S2-4，采用特征工程策略从第一文档和第二文档中提取第一特征和第二特征。

具体地，来自特征工程的特征包括第一特征和第二特征；

其中，基于第一文档的语意和第二文档的语意的特征，可以采用TFIDF模型、LDA模型或word2vec模型计算的余弦相似度的方式获取。

基于第一文档和第二文档之间距离的特征，可以采用基于词移距离(Word MoverDistance,WMD)计算相似度的方式获取。

需要说明的是，第一特征还可以包括通过文档中字符和/或词项的统计数量获取的特征。

由于第一特征中包括基于语意提取的特征，避免了特征提取过程中的词汇鸿沟的问题，同时，第一特征中还包括基于第一文档和第二文档之间距离提取的特征，使得能够从文档完整上来提取特征，因此，第一特征既包含有从词汇的角度提取到的特征，又包含从文档整体的角度提取到的特征，使得第一特征能够从局部到整体充分的表征第一文档和第二文档之间的相似程度。

例如，第一特征可以是包括以下特征的一项或多项：

1.第一文档的字符数量和第二文档的字符数量。

2.第一文档和第二文档中不重复的字符数量。

3.第一文档的词项数量和第二文档的词项数量。

4.第一文档和第二文档的词项数量差。

5.第一文档和第二文档中交集词项的数量。

6.第一文档和第二文档中实体命名词的交集数量。

由于待去重文档进行预处理还包括对命名实体识别出的命名实体进行标识，因此，能够基于命名实体的数量进行统计。

7.第一文档和第二文档的编辑距离特征。

8.第一文档和第二文档的编辑距离相似度。

9.第一文档和第二文档中交集词项的TFIDF比例。

10.基于TFIDF的余弦相似度，即第一文档和第二文档之间基于TFIDF的余弦相似度。

11.基于LDA模型的余弦相似度，即第一文档和第二文档之间基于LDA模型的余弦相似度。

12.基于word2vec模型的余弦相似度，即第一文档和第二文档之间基于word2vec模型的余弦相似度。

13.基于词移距离的相似度，即第一文档和第二文档之间基于词移距离的相似度，例如，可以利用WMD算法获取。

需要说明的是，上述LDA模型和word2vec模型均为预先采用大量文档进行训练后获得的LDA模型和word2vec模型，其训练采用的文档为同一类型的文档，例如大约120万篇交通新闻标题，这些训练用的文档中包含有位置标识信息。

第二特征可以包括基于与第一文档相匹配的待去重文档对和与第二文档相匹配的待去重文档对提取出的特征。

具体地，将与第一文档相匹配的待去重文档对的数量、与第二文档相匹配的待去重文档对的数量，以及分别与第一文档和第二文档相匹配的待去重文档中重复的待去重文档的数量作为第二特征。

例如，第二特征的提取可以采用图论算法进行提取。

基于“拥有相匹配的待去重文档对的文档更有可能是重复文档”的假设，将每个待去重文档d_i作为一个结点，若(d_i,d_j)为待去重文档对，则连接这两个结点，进而可以得到一张无向图，以此提取第二特征。

其中，与第一文档相匹配的待去重文档对的数量和与第二文档相匹配的待去重文档对的数量，即为待去重文档d_i和待去重文档d_j的邻居结点数量。

分别与第一文档和第二文档相匹配的待去重文档中重复的待去重文档的数量作为第二特征，即为待去重文档d_i和待去重文档d_j的邻居结点交集的数量。

由于第二特征是基于文档集中待去重文档之间的重复数量来提取特征的，从文档集整体的角度获取特征，为文档的去重提供了多维的特征信息，以提高后续处理的准确性。

步骤S2-5，采用神经网络策略从第一文档和第二文档中提取第三特征和第四特征。

具体地，来自神经网络的特征包括第三特征和第四特征；根据预先训练好的提取模型从第一文档和第二文档中提取第三特征和第四特征，其中，第三特征包括用于表示第一文档和第二文档之间距离的特征，第四特征包括用于表示第一文档和第二文档之间相似度的特征。

例如，通过预先训练好的提取模型分别获取第一文档和第二文档的特征向量，对第一文档的特征向量和第二文档的特征向量进行二次特征提取，再根据二次特征提取结果获取第三特征和第四特征。

该预先训练好的提取模型可以包括卷积神经网络模型、循环神经网络模型及其变种等。本实施例中使用的提取模型为卷积神经网络模型，预先使用标注过的样本文档对卷积神经网络模型进行训练，该样本文档为与文档集中文档相同类型的文档，进而得到训练好的提取模型。

步骤S2-6，根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度。

具体地，可以包括将第一特征、第二特征、第三特征以及第四特征进行特征融合后计算第一文档和第二文档的综合相似度。

本实施例中采用神经网络模型对第一特征和第二特征进行融合后计算第一文档和第二文档的综合相似度。例如，使用卷积神经网络模型进行特征的融合和计算。

需要说明的是，本说明书实施例中，步骤S2-6进行特征融合时可以采用预先训练好的提取模型进行特征融合，即采用预先训练好的提取模型提取第二特征，再第一特征与第二特征进行特征融合。

图3为本申请实施例2提供的获取综合相似度的流程图。

如图3所示，将第一文档(document1)与第二文档(document2)输入预先训练好的卷积神经网络模型，为使网络参数数量固定，设置第一文档与第二文档的最大长度为MAX_SEQ_LEN。若文档实际长度小于MAX_SEQ_LEN，则对文档进行填充；若实际长度大于MAX_SEQ_LEN，则截取文档中前MAX_SEQ_LEN个字符。

嵌入层(Embedding层)将输入的第一文档与第二文档中的每个词转为向量的形式，为了避免过拟合，此处使用上述预先训练好的word2vec模型进行词向量的转换，且词向量不参与到网络的参数更新中。第一文档与第二文档在经过嵌入层处理后，转换为向量表示，得到的特征图维度为(MAX_SEQ_LEN，EMBED_DIM)，其中EMBED_DIM为词向量的维度，即分别获取到了第一文档与第二文档的词向量矩阵。

分别对第一文档的特征向量和第二文档的词向量矩阵进行二次特征提取的过程为：采用多个卷积层(con_layer)对输入特征图进行填充，使卷积前后的序列长度相同。选取不同的卷积核大小kernel_size_i和数量num_filters_i，从不同维度对由嵌入层输出的第一文档与第二文档的特征图进行特征提取，从不同维度的上下文中学习语义特征，并对每个卷积操作后的特征图使用relu激活函数激活。卷积层输出的特征图维度为(MAX_SEQ_LEN，num_filters_i)。其中，卷积层的个数可以根据具体应用场景需要进行预设，本实施例中，采用六个一维卷积层，例如，卷积层1(con_layer1)、卷积层2(con_layer2)至卷积层6(con_layer6)，进行卷积处理。

通过全局均值池化层(global_ave_pooling层)对卷积层输出的特征图进行全局均值池化计算，其输出特征图的维度为(num_filters_i，)。由于对输入特征图进行了降维使得提取到的特征更具有鲁棒性。

通过连接层(concatenate层)将全局均值池化层输出的特征图进行连接，使得第一文档与第二文档均得到维度为的特征图，该特征图为第一文档与第二文档的二次特征提取结果。

对从连接层输出的第一文档与第二文档的特征图计算元素级的距离和相似度，分别作为用于表示第一文档和所述第二文档之间距离特征的第三特征(sub-feature3)和用于表示第一文档和第二文档之间相似度特征的第四特征(sub-feature4)，计算方式分别如下式(3)、(4)所示。

dist(feat_map₁，feat_map₂)＝abs(feat_map₁-feat_map₂) 式(3)

sim(feat_map₁，feat_map₂)＝feat_map₁*feat_map₂ 式(4)

其中feat_map₁，feat_map₂分别为从concatenate层输出的第一文档与第二文档的的特征图，即第一文档与第二文档的二次特征提取结果。abs为绝对值计算，计算结果作为神经网络模型学习到的待去重文档对的距离特征，即第三特征；sim的计算结果作为神经网络模型学习到的去重文档对的相似度特征，即第四特征。

如图3所示，将步骤S2-4中提取到的第一特征(sub-feature1)和第二特征(sub-feature2)也输入训练好的卷积神经网络模型后，通过卷积神经网络模型将第一特征、第二特征、第三特征以及第四特征进行融合后计算出综合相似度。

具体地，将第一特征和第二特征输入预先训练好的卷积神经网络模型后通过标准化(batch_norm)分别对第一特征和第二特征进行标准化处理，并通过两个全连接层(fully-connecttion层)分别进行特征变换。第一特征和第二特征对应的全连接层神经元数量分别为dense_G和dense_S，之后使用relu激活函数进行激活，输出第一特征和第二特征的特征图的维度分别为(dense_G,)和(dense_S,)。

需要说明的是，输入卷积神经网络模型的第一特征和第二特征均为向量表示的第一特征和第二特征，即第一特征和第二特征中包含的特征转换为向量中的维度。

进一步地，进行综合相似度计算时，通过连接层将第一特征、第二特征、第三特征以及第四特征对应的输出进行连接，再进行随机失活(dropout)和标准化处理，降低过拟合后输出，输出的特征图的维度为

将上述输出维度为的特征图通过全连接层进一步地学习与变换，并使用relu激活函数进行激活，该全连接层的神经元数量为dense_M。处理后再次进行随机失活和标准化处理，降低过拟合，最终输出维度为(dense_M,)的特征图。

最后通过神经元数量dense_cls＝1全连接层作为分类器(classifier)对输出维度为(dense_M,)的特征图进行处理，并使用sigmoid激活函数将分类器的输出的映射到(0,1)之间，进而作为待去重文档对之间的综合相似度输出。

步骤S2-7，根据综合相似度确定重复文档对。

本实施例中，当综合相似度大于或等于预设的重复阈值时判定第一文档与第二文档重复，当综合相似度小于重复阈值时判定第一文档与第二文档不重复。

若第一文档与第二文档重复，则判定包含第一文档与第二文档的待去重文档对为重复文档对。

例如，由于神经网络模型中最后的输出结果映射在(0,1)之间，其输出结果为(0,1)之间的小数，该输出结果用于表示待去重文档对可能出现重复的程度，其值越接近1表示重复的可能性越大，越接近0表示重复的可能性越小，因此，可以将重复阈值设置在(0,1)之间，用于判断第一文档与第二文档是否重复。例如，可以将重复阈值设置为0.5，则输出结果大于或等于0.5时，判定第一文档与第二文档重复；输出结果小于0.5时，判定第一文档与第二文档不重复。

通过卷积神经网络模型将输入的第一特征、第二特征、第三特征以及第四特征融合后计算综合相似度，让提取到的特征进行了完整的融合，使得计算出的综合相似度具有良好的代表性，避免了由于单一特征提取方式造成的待去重文档描述不准确进而导致的重复文档被遗漏的问题。

本实施中使用的卷积神经网络模型涉及到的参数取值可以如下表1所示：

表1.网络模型参数取值

步骤S2-8，基于综合相似度从与第一文档相匹配的重复文档对中确定第一文档的重复文档，并输出。

具体地，依次对整个文档集中的所有的待去重文档对均进行重复性的判定后，获取所有去重文档对，根据与第一文档匹配的去重文档对根据综合相似度进行排序，取其中综合相似度最大作为第一文档的重复文档，输出。

例如，对于文档d_i，将与文档d_i匹配重复文档对根据综合相似度大小进行排序后，得到包含重复文档对中另一个待去重文档的集合，如Dup_i＝[d_k]，(k＝i+1，...，D)，取其中综合相似度最大的文档d_k作为第一文档的重复文档输出。

本申请实施例结合了特征工程和神经网络模型，采用多种算法模型提取待去重文档额特征，既能够使得对待去重文档的描述较为丰富，又能够将提取到的特征完全融合，用于文档重复性的判断，有效的提高了去重的效果，很好的满足特定类型文档去重需求。

<实施例3>

图4为本申请实施例3提供的文档的去重装置的结构示意图。

基于同一个申请构思，如图4所示，本实施例提供的文档的去重装置，包括第一提取模块10、第二提取模块20、综合相似度生成模块30以及重复性判定模块40。其中，第一特征提取模块10用于根据特征工程策略从第一文档和第二文档中提取来自特征工程的特征；第二提取模块20用于根据神经网络策略从第一文档和第二文档中提取来自神经网络的特征；综合相似度计算模块30用于计算第一文档和第二文档之间的综合相似度；重复性判定模块40用于根据综合相似度判定第一文档和第二文档是否重复。

可选地，所述的装置还包括：预处理单元，

通过预处理单元计算文档集中待去重文档之间的文档对相似度；

通过预处理单元根据文档对相似度获取待去重文档对，文档对相似度用于表示待去重文档对中待去重文档之间的相似程度，

待去重文档对包括第一文档和第二文档。

可选地，来自特征工程的特征包括第一特征和第二特征；

通过第一提取模块10采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征包括：

通过第一提取模块10基于第一文档的语意、第二文档的语意以及第一文档与第二文档之间的距离获取第一特征，

通过第一提取模块10基于分别与第一文档和所述第二文档相匹配的待去重文档对获取第二特征。

可选地，通过第一提取模块10基于分别与第一文档和第二文档相匹配的待去重文档对获取第二特征包括：

通过第一提取模块10将与第一文档相匹配的待去重文档对的数量、与第二文档相匹配的待去重文档对的数量，以及分别与第一文档和第二文档相匹配的待去重文档中重复的待去重文档的数量作为第二特征。

可选地，来自神经网络的特征包括第三特征和第四特征；

通过第二提取模块20根据神经网络策略从第一文档和第二文档中提取来自神经网络的特征包括：

通过第二提取模块20根据预先训练好的提取模型从第一文档和第二文档中获取第三特征和第四特征，

第三特征为用于表示第一文档和第二文档之间距离的特征，

可选地，来自特征工程的特征包括第一特征和第二特征；

通过综合相似度计算模块30根据来自特征工程的特征和来自神经网络的特征计算第一文档和第二文档的综合相似度包括：

通过综合相似度计算模块30采用神经网络策略将第一特征、第二特征、第三特征以及第四特征进行特征融合后计算第一文档和第二文档的综合相似度。

可选地，通过重复性判定模块40根据综合相似度确定第一文档与第二文档是否重复包括：

若综合相似度符合预设的重复阈值，则通过重复性判定模块40判定包含第一文档与第二文档的待去重文档对为重复文档对；

根据重复文档对确定第一文档与第二文档是否重复。

基于同一个申请构思，本申请实施例提供一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行前述实施例1～2中任一实施例中所述的文档的去重方法中的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本申请实施例还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1～2中任一实施例所述的文档的去重方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

基于同一个申请构思，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1～2中任一实施例所述的文档的去重方法中的步骤。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文档的去重方法，其特征在于，包括：

采用神经网络策略从所述第一文档和所述第二文档中提取来自神经网络的特征；

根据所述来自特征工程的特征和所述来自神经网络的特征计算所述第一文档和所述第二文档的综合相似度；

根据所述综合相似度确定所述第一文档与所述第二文档是否重复，

其中，所述来自特征工程的特征和所述来自神经网络的特征均为用于表示所述第一文档和所述第二文档之间相似程度的特征。

2.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

计算文档集中待去重文档之间的文档对相似度；

根据所述文档对相似度获取待去重文档对，所述文档对相似度用于表示所述待去重文档对中待去重文档之间的相似程度，

所述待去重文档对包括所述第一文档和所述第二文档。

3.根据权利要求2所述的方法，其特征在于，所述来自特征工程的特征包括第一特征和第二特征；

所述采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征包括：

基于所述第一文档的语意、所述第二文档的语意以及所述第一文档与所述第二文档之间的距离获取所述第一特征，

基于分别与所述第一文档和所述第二文档相匹配的所述待去重文档对获取所述第二特征。

4.根据权利要求3所述的方法，其特征在于，

所述基于分别与所述第一文档和所述第二文档相匹配的所述待去重文档对获取所述第二特征包括：

将与所述第一文档相匹配的所述待去重文档对的数量、与所述第二文档相匹配的所述待去重文档对的数量，以及分别与所述第一文档和所述第二文档相匹配的所述待去重文档中重复的所述待去重文档的数量作为所述第二特征。

5.根据权利要求1-3中任意一项所述的方法，其特征在于，所述来自神经网络的特征包括第三特征和第四特征；

所述根据神经网络策略从所述第一文档和所述第二文档中提取来自神经网络的特征包括：

根据预先训练好的提取模型从所述第一文档和所述第二文档中获取所述第三特征和所述第四特征，

所述第三特征为用于表示所述第一文档和所述第二文档之间距离的特征，

所述第四特征为用于表示所述第一文档和所述第二文档之间相似度的特征。

6.根据权利要求5所述的方法，其特征在于，所述来自特征工程的特征包括第一特征和第二特征；

所述根据所述来自特征工程的特征和所述来自神经网络的特征计算所述第一文档和所述第二文档的综合相似度包括：

采用所述神经网络将所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行特征融合后计算所述第一文档和所述第二文档的综合相似度。

7.根据权利要求2所述的方法，其特征在于，所述根据所述综合相似度确定所述第一文档与所述第二文档是否重复包括：

若所述综合相似度符合预设的重复阈值，则判定包含所述第一文档与所述第二文档的待去重文档对为重复文档对；

根据所述重复文档对确定所述第一文档与所述第二文档是否重复。

8.一种文档的去重装置，其特征在于，包括：

第二提取模块，采用神经网络策略从所述第一文档和所述第二文档中提取来自神经网络的特征；

综合相似度生成模块，根据所述来自特征工程的特征和所述来自神经网络的特征计算所述第一文档和所述第二文档的综合相似度；

重复性判定模块，根据所述综合相似度确定所述第一文档与所述第二文档是否重复，

9.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至7任一项所述的文档的去重方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文档的去重方法。