CN116151213A - 文档去重方法、装置、电子设备及可读存储介质 - Google Patents
文档去重方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116151213A CN116151213A CN202310115242.4A CN202310115242A CN116151213A CN 116151213 A CN116151213 A CN 116151213A CN 202310115242 A CN202310115242 A CN 202310115242A CN 116151213 A CN116151213 A CN 116151213A
- Authority
- CN
- China
- Prior art keywords
- document
- semantic information
- pair
- key semantic
- deduplication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文档去重方法、装置、电子设备及可读存储介质,所述方法包括:获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。对于文档相似度较高的文档对,通过关键信息进一步确定文档对中的文档是否重复,提高了针对重复文档进行识别的准确性。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种文档去重方法、装置、电子设备及可读存储介质。
背景技术
随着计算机技术以及数据库技术的发展,各企业往往会建立文档库、知识库等以存储文档类数据。在建立文档库、知识库的过程中,在录入文档的环节,往往会采集大量的文档。由于采集文档的来源通常有多个,因此难免会录入重复的文档,需要对文档去重。
在文档去重的过程中,完全相同的文档可以很容易进行识别,并进行去重;但存在少量差异的文档,在去重过程中,往往容易误识别成重复文档,造成去重错误。
发明内容
本申请提供一种文档去重方法,所述方法包括:
获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。
可选的,所述获取待去重的文档对,包括:
生成第一文档对应的第一特征向量;
在向量索引库中查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量;所述向量索引库包括与至少一个文档分别对应的特征向量;
如果存在,则将查找到的特征向量确定为第二特征向量,并将与所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对。
可选的,从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息之前,所述方法还包括:
将所述第一文档与所述第二文档输入预设的神经网络进行特征提取,以得到所述第一文档与所述第二文档对应的多维度特征;
基于所述多维度特征确定所述第一文档与所述第二文档是否重复,如果是,进一步从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。
可选的,所述关键语义信息包括基于预训练的实体识别模型识别出的至少一个实体;
从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息,包括:
将所述第一文档与所述第二文档当分别输入预训练的实体识别模型进行计算,得到所述实体识别模型输出的所述第一文档包含的实体和所述第二文档包含的实体。
可选的,生成第一文档对应的第一特征向量,包括:
提取所述第一文档的特征,将所述特征输入预训练的自然语言处理模型进行编码处理,生成与所述待去重文档对应的特征向量。
可选的,所述向量索引库包括Faiss向量索引库。
可选的,所述方法还包括:
获取所述关键语义信息不一致的文档对,并生成文档对样本;
基于所述文档对样本,针对关键语义信息匹配模型进行训练;其中,所述关键语义信息匹配模型为用于针对文档对中的关键语义信息进行匹配的机器学习模型;
将待去重的文档对输入训练完成的关键语义信息匹配模型,以由所述关键语义信息匹配模型确定所述待去重的文档对中第一文档的关键语义信息与第一文档的关键语义信息是否一致。
本申请还提供一种文档去重装置,所述装置包括:
文档对获取单元,用于获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
关键语义信息提取单元,用于从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
文档去重单元,用于在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。
可选的,所述文档对获取单元,进一步用于生成第一文档对应的第一特征向量;
在向量索引库中查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量;所述向量索引库包括与至少一个文档分别对应的特征向量;
如果存在,则将查找到的特征向量确定为第二特征向量,并将与所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对。
可选的,所述装置还包括:多维度特征提取单元,用于将所述第一文档与所述第二文档输入预设的神经网络进行特征提取,以得到所述第一文档与所述第二文档对应的多维度特征;
基于所述多维度特征确定所述第一文档与所述第二文档是否重复,如果是,进一步从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。
可选的,所述关键语义信息包括基于预训练的实体识别模型识别出的至少一个实体;
所述关键语义信息提取单元,进一步用于将所述第一文档与所述第二文档当分别输入预训练的实体识别模型进行计算,得到所述实体识别模型输出的所述第一文档包含的实体和所述第二文档包含的实体。
可选的,所述装置还包括特征提取单元,用于提取所述第一文档的特征,将所述特征输入预训练的自然语言处理模型进行编码处理,生成与所述待去重文档对应的特征向量。
可选的,所述向量索引库包括Faiss向量索引库。
可选的,所述装置还包括:
关键语义信息匹配单元,用于获取所述关键语义信息不一致的文档对,并生成文档对样本;
基于所述文档对样本,针对关键语义信息匹配模型进行训练;其中,所述关键语义信息匹配模型为用于针对文档对中的关键语义信息进行匹配的机器学习模型;
将待去重的文档对输入训练完成的关键语义信息匹配模型,以由所述关键语义信息匹配模型确定所述待去重的文档对中第一文档的关键语义信息与第一文档的关键语义信息是否一致。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。
在以上实施例记载的方案中,从待去重的文档对中分别获取针对所述第一文档的使用场景预先配置的关键语义信息,并确定所述关键语义信息是否一致,如果不一致则无需对所述文档对进行去重。对于文档相似度较高的文档对,通过关键信息进一步确定文档对中的文档是否重复,提高了针对重复文档进行识别的准确性。
附图说明
图1是一示例性的实施例示出的一种文档去重方法的流程示意图。
图2是一示例性的实施例示出的一种文档去重方法的应用示意图。
图3是一示例性的实施例示出的一种文档去重装置所在电子设备的硬件结构图。
图4是一示例性的实施例示出的一种文档去重装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在相关技术中,在识别两篇文档是否为重复文档时,在两篇文档中文本基本相同时,可以很容易识别这两篇文档为重复文档。但在两篇文档具有少量差异的情况下,针对不同的文档去重场景,很难确定这两篇文档是否为重复文档。
例如,文章B转载自文章A,并只在文章首位添加了少量语句,比如“转载自...”,在绝大多数场景下,这两篇文档应该识别为重复文档。
又例如,文章A和文章B文本高度相似,只有少量词语不同,但这些少量词语为识别两篇文档是否重复的关键信息。比如,关于某项政策向各省市的发文文稿,针对浙江省的发文文稿和针对江苏省的发文文稿相比,只有“浙江省”和“江苏省”的差异以及发文字号的差异,其余都完全一样,但这种情况不应该认为是重复文档。
有鉴于此,本申请提出一种从分别从第一文档和第二文档中提取关键语义信息,并在关键语义信息不一致时,不进行文档去重的技术方案。
在实现时,可以获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
确定从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息是否一致;
如果不一致,则确定不需要针对所述文档对进行文档去重。
在以上实施例记载的方案中,从待去重的文档对中分别获取针对所述第一文档的使用场景预先配置的关键语义信息,并确定所述关键语义信息是否一致,如果不一致则无需对所述文档对进行去重。对于文档相似度较高的文档对,通过关键语义信息进一步确定文档对中的文档是否重复,避免将文档相似度较高的文档但仍具有区别的文档误识别为重复文档,从而提高了针对重复文档进行识别的准确性,进而可以更准确的进行文档去重。下面结合附图对本说明书的文档去重方法进行详细说明。
请参见图1,图1是一示例性的实施例示出的一种文档去重方法的流程示意图,所述方法可以包括以下步骤:
步骤102,获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成。
步骤104,从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。
步骤106,在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。
在本说明书中,在文档去重之前,可以获取待去重的文档对。其中,关于文档对具体的获取方式,在本说明书总不做具体限定。例如,可以由用户选择待去重的文档并生成相应的文档对;也可以由与本申请的文档去重方法对应的文档去重系统从预建立的文档库中基于用户配置的文档获取规则,从与建立的文档库中获取待去重的文档。
所述文档对可以由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成。在本说明书中,文档相似度用于指示所述第一文档以及所述第二文档之间的相似程度。文档相似度具体可以是相似度评分,相似度百分比等等,在本说明书中不做具体限定。相应的,第一阈值也可以是评分的形式,或是百分比的形式。
例如,当第一文档与第二文档之间的相似度评分为95,相应的第一阈值为90,因此可以将第一文档与第二文档组成待去重的文档对。又例如,第一文档与第二文档之间80%为相似,相应的第一阈值为70%,因此也可以将第一文档与第二文档组成待去重的文档对。
在本说明书中,所述关键语义信息通常可以包括人名、地名、证件号码、手机号码等等。
所述关键语义信息,通常可以由用户分析第一文档的使用场景,并针对所述文档的使用场景预先进行配置,针对使用场景的不同,也可以配置不同的关键语义信息。
例如,在实际应用中,文档主要是政务场景发文文稿,则关键差异信息可以包含省市名称;如果文档主要是处罚决定书,则关键差异可以包括法律法规名称、条例编号等。
在本说明书中,可以通过关键词匹配的方式,从所述第一文档以及第二文档中逐个匹配是否存在用户预先定义的关键词。
例如,关键语义信息可以是预先定义的各个省的省名。在文档为政务场景发文文稿时,可以针对每个文档匹配每个文档中是否存在每个省的省名。比如,发文文稿A中存在浙江省,而发文文稿B中存在江苏省。
在本说明书中,如果从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息一致,则需要针对所述文档对进行文档去重。如果不一致,则无需针对所述文档对进行文档去重。
例如,某项政策向各省市的发文文稿,针对浙江省的发文文稿A和针对江苏省的发文文稿B相比,只有“浙江省”和“江苏省”的差异以及发文字号的差异。因此“浙江省”和“江苏省”可以作为关键语义信息,发文字号也可以作为关键语义信息,由于关键语义信息并不一致,因此无需针对所述文档对进行文档去重。
又例如,文章C转载自文章D,并只在文章首位添加了少量语句,比如“转载自...”。可以针对文章C提取若干关键词作为关键语义信息,并进一步从文档D中提取相应的关键语义信息,由于文章C转载自文章D,因此文章C与文章D的关键语义信息是一致的,因此确定需要针对文章C和文章D进行去重。
在以上实施例记载的方案中,从待去重的文档对中分别获取针对所述第一文档的使用场景预先配置的关键语义信息,并确定所述关键语义信息是否一致,如果不一致则无需对所述文档对进行去重。对于文档相似度较高的文档对,通过关键语义信息进一步确定文档对中的文档是否重复,避免将文档相似度较高的文档但仍具有区别的文档误识别为重复文档,从而提高了针对重复文档进行识别的准确性,进而可以更准确的进行文档去重。
在一种可能的实施方式中,在获取待去重的文档对时,计算文档之间的相似度通常需要将两个文档进行两两比较,因此对于n篇文档,复杂度为O(n2),对于n很大时,计算量较大。
而为了解决计算量较大的问题,可以将待去重的第一文档向量化,生成对应的第一特征向量,并在预设的向量索引库查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量。
如果存在,则将查找到的特征向量确定为第二特征向量,并将与所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对。
在本说明书中,所述向量索引库可以包括若干个文档对应的特征向量,向量索引库为这些文档对应的特征向量搜索和聚类,向量索引库可以包含多种搜索任意大小向量集的算法,以及用于算法评估和参数调整的支持代码。
在一种可能的实施方式中,所述向量索引库可以说Faiss向量索引库,Faiss(Facebook AI Similarity Search)是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前较成熟的近似近邻搜索库。
从所述向量索引库中查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量时,通常需要建立倒排索引,使用向量搜索工具,将第一特征向量输入所述向量索引库,返回与所述第一特征向量之间向量相似度高于第二阈值的至少一个特征向量,并将查找到的特征向量中向量相似度最高的作为第二特征向量。
在本说明书中,向量相似度用于指示所述第一文档对应的特征向量以及所述第二文档对应的特征向量之间的相似程度。向量相似度具体可以是相似度评分,相似度百分比等等,在本说明书中不做具体限定。相应的,第二阈值也可以是评分的形式,或是百分比的形式。
在一种可能的实施方式中,还可以提取所述第一文档的特征,并将所述特征输入预训练的自然语言处理模型进行编码处理,生成与所述待去重文档对应的特征向量。在实际应用中,所述自然语言处理模型可以是Bert模型,但是由于Bert向量的相似度和日常认知中的语义相似略有差异,所以也可以选用Simbert模型编码,可以取得更好的效果。
通过向量索引库,可以快速的查找出与所述第一文档对应的第一特征向量向量相似度较高的第二特征向量,也即可以快速的确定与所述第一文档较为重复的第二文档,无需针对文档两两进行相似度计算,有效的解决计算量爆炸等问题。
在另一种可能的实施方式中,计算文档之间的相似度还可以将所述第一文档与所述第二文档输入预设的神经网络进行特征提取,以得到所述第一文档与所述第二文档对应的多维度特征,在获取第一文档与所述第二文档对应的多维度特征后,可以进一步基于所述多维度特征确定所述第一文档与所述第二文档是否重复,如果是,进一步从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。
在本说明书中,上述基于神经网络提取多维度特征并基于多维度特征确定述第一文档与所述第二文档是否重复可以参考相关神经网络技术,在本说明书中不再赘述。
需要说明的是,在上述通过向量索引库将查找到的所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对后,可以进一步提取所述第一文档与所述第二文档的多维度特征,并进一步确定第一文档和所述第二文档是否重复。
在本说明书中,也可以直接获取由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成文档对,并进一步基于神经网络提取所述多维度特征,确定所述第一文档与所述第二文档是否重复。
在一种实施方式,还可以将所述第一文档与所述第二文档当分别输入预训练的实体识别模型进行计算,得到所述实体识别模型输出的所述第一文档包含的实体和所述第二文档包含的实体。
其中,所述实体识别模型具体可以包括三个部分,特征表示,特征编码,标签解码。特征表示步骤主要是将文档进行分布式向量化,常用的方法有:Word Embedding、CharEmbedding等。
特征编码主要是对输入的分布式向量进行变换,提取文档中各句子的语义信息。常用的特征提取器有CNN,RNN,Transformer等模型。
标签解码主要是对输入的每个特征输出一个标签类别,常用的解码方式可以包括多层感知机(MLP,Multi-Layer Perceptron+Softmax),条件随机场(CRF,ConditionalRandom Fields)等等。
以上实体识别模型具体可以参考相关技术,在本说明书中不再赘述。
通过实体识别模型,可以输出的所述第一文档包含的实体和所述第二文档包含的实体,并进一步确定所述第一文档和所述第二文档包含的实体是否一致,如果一致,则需要针对第一文档和第二文档进行文档去重;如果不一致,则无需针对所述第一文档和所述第二文档进行文档去重。
在一种可能的实施方式中,可以基于关键语义信息不一致的文档对做为训练样本,并针对关键语义信息匹配模型进行训练,以由关键语义信息匹配模型确定所述待去重的文档对中第一文档的关键语义信息与第一文档的关键语义信息是否一致。
从所述第一文档与所述第二文档中分别提取针对所述第一文档的使用场景关键语义信息不一致的文档对预先配置的关键语义信息,并确定关键语义信息不一致之后,可以获取所述关键语义信息不一致的文档对,并生成文档对样本。其中,所述文档对样本可以关键语义信息不一致的文档对由用户主动筛选获得,也可以在识别处文档对中的关键语义信息不一致后自动生成文档对样本,在本说明书中不做具体限定。
将所述文档对样本输入关键语义信息匹配模型进行训练;其中,所述关键语义信息匹配模型为用于针对文档对中的关键语义信息进行匹配的机器学习模型。其中,所述机器学习模型可以为Word2vec等模型,在本说明书中不做具体限定。
当所述关键语义信息匹配模型训练完成后,可以将待去重的文档对输入训练完成的关键语义信息匹配模型,以由所述关键语义信息匹配模型确定所述待去重的文档对中第一文档的关键语义信息与第一文档的关键语义信息是否一致。
在以上实施例记载的方案中,从待去重的文档对中分别获取针对所述第一文档的使用场景预先配置的关键语义信息,并确定所述关键语义信息是否一致,如果不一致则无需对所述文档对进行去重。对于文档相似度较高的文档对,通过关键信息进一步确定文档对中的文档是否重复,提高了针对重复文档进行识别的准确性。
下面结合附图对本说明书的文档去重方法进行实施例说明,请参见图2图2是一示例性的实施例示出的一种文档去重方法的应用示意图。
在实际应用中,往往需要面对较多文章或文档,确定待去重的文档是否需要去重。因此,为了尽可能的减少文档去重所需要的计算量,可能将文档去重过程分为初筛以及精筛两个阶段,初筛阶段针对待去重文档生成待去重的文档对,缩小文档去重范围,精筛阶段确定待去重的文档对是否重复,并通过提取关键语义修正判断结果,提高了针对重复文档进行识别的准确性。
步骤202,将待去重文档向量化。
在本说明书中,可以使用Bert模型,或者使用Simbert模型,针对待去重文档进行编码处理,生成待去重文档对应的特征向量。
步骤204,针对待去重文档建立向量索引库。
在本说明书中,可以将需要与待去重文档进行比对的若干文档进行向量化,并针对待去重文档建立向量索引库。其中,所述向量索引库可以包括若干个需要与待去重文档对应的特征向量进行比对的若干特征向量。
步骤206,基于所述向量索引库生成待去重文档对。
在本说明书中,可以将待去重文档对应的特征向量输入向量索引库进行查找,确定与待去重文档对应的特征向量之前向量相似度高于阈值的若干特征向量,并基于所述向量相似度高于阈值的向量对应的文档生成若干个待去重的文档对,完成针对待去重文档的初筛,从而避免绝大部分的无用比较,并缓解计算量爆炸问题。
步骤208,基于神经网络模型提取多维度特征,确定待去重文档对是否重复。
在获得待去重的文档对后,可以针对初筛获得的待去重的文档对,进一步基于神经网络模型提取多维度特征,并基于多维度特征确定待去重的文档对中的文档是否重复。
步骤210,提取关键语义信息,进一步确定待去重文档对是否重复。
在通过神经网络模型进一步确定待去重文档对中的文档重复后,可以通过分别提取文档对中的每个文档对应的关键语义信息,并确定关键语义信息是否一致,进一步确定待去重文档对中的文档是否重复。如果关键语义信息一致,说明文档重复,需要进行去重。如果关键语义信息不一致,说明文档对不重复,则不需要进行去重。
通过关键语义信息匹配,可以修正上述向量相似度匹配以及经神经网络模型匹配产生的重复文档的结果,提高了针对重复文档进行识别的准确性。
与上述文档去重方法的实施例对应的,本说明书还提供了文档去重装置的实施例。
请参见图3,图3是一示例性的实施例示出的一种文档去重装置所在电子设备的硬件结构图。在硬件层面,该设备包括处理器302、内部总线304、网络接口306、内存308以及非易失性存储器310,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器303从非易失性存储器310中读取对应的计算机程序到内存308中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参见图4,图4是一示例性的实施例示出的一种的文档去重装置的框图。文档去重装置可以应用于图2所示的电子设备中,以实现本说明书的技术方案。其中,上述文档去重装置可以包括:
文档对获取单元402,用于获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
关键语义信息提取单元404,用于从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
文档去重单元406,用于在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。
在本实施例中,所述文档对获取单元,进一步用于:生成第一文档对应的第一特征向量;
在向量索引库中查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量;所述向量索引库包括与至少一个文档分别对应的特征向量;
如果存在,则将查找到的特征向量确定为第二特征向量,并将与所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对。
在本实施例中,所述装置还包括:多维度特征提取单元,用于将所述第一文档与所述第二文档输入预设的神经网络进行特征提取,以得到所述第一文档与所述第二文档对应的多维度特征;
基于所述多维度特征确定所述第一文档与所述第二文档是否重复,如果是,进一步从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。在本实施例中,所述关键语义信息包括基于预训练的实体识别模型识别出的至少一个实体;
所述关键语义信息提取单元,进一步用于将所述第一文档与所述第二文档当分别输入预训练的实体识别模型进行计算,得到所述实体识别模型输出的所述第一文档包含的实体和所述第二文档包含的实体。
在本实施例中,所述装置还包括特征提取单元,用于提取所述第一文档的特征,将所述特征输入预训练的自然语言处理模型进行编码处理,生成与所述待去重文档对应的特征向量。
在本实施例中,所述向量索引库包括Faiss向量索引库。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书还提供了一种计算机可读存储介质的实施例。所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,可以实现本说明书中任意一个实施例提供的所述文档去重方法。
本说明书实施例提供的计算机可读存储介质具体可以包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存储器)、EPROM(Erasable Programmable Read-OnlyMemory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光纤卡片。也就是,可读存储介质包括可以存储或传输信息的可读介质。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种文档去重方法,其特征在于,所述方法包括:
获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。
2.根据权利要求1所述的方法,其特征在于,所述获取待去重的文档对,包括:
生成第一文档对应的第一特征向量;
在向量索引库中查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量;所述向量索引库包括与至少一个文档分别对应的特征向量;
如果存在,则将查找到的特征向量确定为第二特征向量,并将与所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对。
3.根据权利要求1所述的方法,其特征在于,从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息之前,所述方法还包括:
将所述第一文档与所述第二文档输入预设的神经网络进行特征提取,以得到所述第一文档与所述第二文档对应的多维度特征;
基于所述多维度特征确定所述第一文档与所述第二文档是否重复,如果是,进一步从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。
4.根据权利要求1所述的方法,其特征在于,所述关键语义信息包括基于预训练的实体识别模型识别出的至少一个实体;
从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息,包括:
将所述第一文档与所述第二文档当分别输入预训练的实体识别模型进行计算,得到所述实体识别模型输出的所述第一文档包含的实体和所述第二文档包含的实体。
5.根据权利要求2所述的方法,其特征在于,生成第一文档对应的第一特征向量,包括:
提取所述第一文档的特征,将所述特征输入预训练的自然语言处理模型进行编码处理,生成与所述待去重文档对应的特征向量。
6.根据权利要求2所述的方法,其特征在于,所述向量索引库包括Faiss向量索引库。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述关键语义信息不一致的文档对,并生成文档对样本;
基于所述文档对样本,针对关键语义信息匹配模型进行训练;其中,所述关键语义信息匹配模型为用于针对文档对中的关键语义信息进行匹配的机器学习模型;
将待去重的文档对输入训练完成的关键语义信息匹配模型,以由所述关键语义信息匹配模型确定所述待去重的文档对中第一文档的关键语义信息与第一文档的关键语义信息是否一致。
8.一种文档去重装置,其特征在于,所述装置包括:
文档对获取单元,用于获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
关键语义信息提取单元,用于从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
文档去重单元,用于在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。
9.一种电子设备,其特征在于,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310115242.4A CN116151213A (zh) | 2023-02-10 | 2023-02-10 | 文档去重方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310115242.4A CN116151213A (zh) | 2023-02-10 | 2023-02-10 | 文档去重方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151213A true CN116151213A (zh) | 2023-05-23 |
Family
ID=86373114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310115242.4A Pending CN116151213A (zh) | 2023-02-10 | 2023-02-10 | 文档去重方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151213A (zh) |
-
2023
- 2023-02-10 CN CN202310115242.4A patent/CN116151213A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11087093B2 (en) | Using autoencoders for training natural language text classifiers | |
US11048966B2 (en) | Method and device for comparing similarities of high dimensional features of images | |
US11275723B2 (en) | Reducing processing for comparing large metadata sets | |
US8457950B1 (en) | System and method for coreference resolution | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
US9009029B1 (en) | Semantic hashing in entity resolution | |
US9298757B1 (en) | Determining similarity of linguistic objects | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
WO2013129580A1 (ja) | 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム | |
US11651014B2 (en) | Source code retrieval | |
WO2021146388A1 (en) | Systems and methods for providing answers to a query | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN110019669A (zh) | 一种文本检索方法及装置 | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
Wahle et al. | Deterministic binary vectors for efficient automated indexing of medline/pubmed abstracts | |
Köksal et al. | Improving automated Turkish text classification with learning‐based algorithms | |
CN113139383A (zh) | 一种文档排序方法、系统、电子设备及存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN115860004A (zh) | 文本语义相似度匹配方法、装置、设备及存储介质 | |
Uriza et al. | Efficient large-scale image search with a vocabulary tree | |
CN116151213A (zh) | 文档去重方法、装置、电子设备及可读存储介质 | |
CN114330303A (zh) | 文本纠错方法及相关设备 | |
CN109992716B (zh) | 一种基于itq算法的印尼语相似新闻推荐方法 | |
CN115688771B (zh) | 一种文书内容比对性能提升方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |