CN110837555A - 海量文本去重筛选的方法、设备和存储介质 - Google Patents

海量文本去重筛选的方法、设备和存储介质 Download PDF

Info

Publication number
CN110837555A
CN110837555A CN201911096358.8A CN201911096358A CN110837555A CN 110837555 A CN110837555 A CN 110837555A CN 201911096358 A CN201911096358 A CN 201911096358A CN 110837555 A CN110837555 A CN 110837555A
Authority
CN
China
Prior art keywords
text
simhash
screened
texts
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911096358.8A
Other languages
English (en)
Inventor
陈汝龙
戴敏
龚朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Long Mobile Network Technology Co Ltd
Original Assignee
Suzhou Long Mobile Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Long Mobile Network Technology Co Ltd filed Critical Suzhou Long Mobile Network Technology Co Ltd
Priority to CN201911096358.8A priority Critical patent/CN110837555A/zh
Publication of CN110837555A publication Critical patent/CN110837555A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables

Abstract

本发明揭示了一种海量文本去重筛选的方法、设备和存储介质,所述方法包括:根据待筛选文本的simhash值获得相似文本集合;计算所述待筛选文本与所述相似文本集合中的文本的余弦相似度;根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉。与现有技术相比,本发明将两种文本相似度算法进行整合,利用simhash的速度快、余弦相似度精度高的特点,在海量文本中进行相似度对比,来达到新闻去重的目的,能够对海量文本进行快速而又准确的去重筛选。

Description

海量文本去重筛选的方法、设备和存储介质
技术领域
本发明涉及互联网技术领域,特别是涉及一种海量文本去重筛选的方法、设备和存储介质。
背景技术
在互联网时代,信息成爆炸式增长,一条新闻会被各种媒体转载、修改、编辑,文本去重就是将相似的、重复的信息识别出来。常用的文本去重算法有simhash(局部敏感哈希的一种)、余弦相似度等。
simhash的对比速度比较快,在海量文本去重任务中,可以极大的提升整体性能,但是准确率和召回率一般,能达到80%左右,也就是说还有20%的文本的相似度会被误判。
发明内容
本发明的目的在于提供一种海量文本去重筛选的方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种海量文本去重筛选的方法,所述方法包括:
根据待筛选文本的simhash值获得相似文本集合;
计算所述待筛选文本与所述相似文本集合中的文本的余弦相似度;
根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉。
作为本发明一实施方式的进一步改进,所述“根据待筛选文本的simhash值获得相似文本集合”具体包括:
根据待筛选文本的simhash值在simhash索引库中查找与所述待筛选文本海明距离小于等于k的相似simhash值链表,得到相似文本集合。
作为本发明一实施方式的进一步改进,所述k为大于3的正整数。
作为本发明一实施方式的进一步改进,所述待筛选文本的simhash值为64位,所述k=4,所述simhash值被分成5段,前4段为13位,最后1段为12位。
作为本发明一实施方式的进一步改进,所述“根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉”具体包括:
若所述相似文本集合中存在与所述待筛选文本的余弦相似度大于或等于相似度阈值的文本,过滤掉所述待筛选文本;
若所述相似文本集合中所有文本与所述待筛选文本的余弦相似度都小于相似度阈值,或者所述相似文本集合为空,将所述待筛选文本的simhash值存入所述simhash索引库中。
作为本发明一实施方式的进一步改进,所述“将所述待筛选文本的simhash值存入所述simhash索引库中”具体包括:
将所述simhash按照预定的规则分成k+1段,分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到k+1个链表,将所述simhash分别存入所述k+1个链表的末端。
作为本发明一实施方式的进一步改进,所述“根据待筛选文本的simhash值到simhash索引库中查找与所述待筛选文本海明距离小于等于k的相似simhash值链表,得到相似文本集合”具体包括:
将所述simhash按照预定的规则分成k+1段,分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到k+1个链表;
将所述k+1个链表中的simhash值对应的文本放入相似文本集合中。
作为本发明一实施方式的进一步改进,所述方法还包括:
计算所述待筛选文本的simhash值与所述相似simhash值链表中相似simhash值的海明距离;
若所述相似simhash值链表中存在与所述待筛选文本的simhash值的海明距离小于或等于距离阈值的相似simhash值,过滤掉所述待筛选文本。
为实现上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时上述任意一项所述海量文本去重筛选的方法中的步骤。
为实现上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述海量文本去重筛选的方法中的步骤。
与现有技术相比,本发明将两种文本相似度算法进行整合,利用simhash的速度快、余弦相似度精度高的特点,在海量文本中进行相似度对比,来达到新闻去重的目的,能够对海量文本进行快速而又准确的去重筛选。
附图说明
图1是本发明海量文本去重筛选的方法的流程示意图。
图2是本发明海量文本去重筛选的方法的步骤S300的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明提供一种海量文本去重筛选的方法,所述方法具体包括:
步骤S100:根据待筛选文本的simhash值获得相似文本集合。
在获取相似文本集合之前,需要先计算待筛选文本的simhash值。
simhash算法是一种局部敏感哈希算法,它能够将高维数据进行概率降维并映射为位数较少且固定的指纹(指纹也称为simhash值),之后再对指纹进行相似度比较来反映数据之间的相似程度。其中相似度比较通常使用海明距离。计算文本simhash值的具体过程为:
将所述待筛选文本进行分词和去停用词,得到文本关键词集合;计算集合中每个文本关键词的权重和hash值,将文本关键词的权重与hash值相乘,得到每个文本关键词的权重向量;将所述待筛选文本的文本关键词集合中的元素的权重向量进行合并(相加),得到所述待筛选文本的权重向量;对所述待筛选文本的权重向量进行降维处理,得到待筛选文本的simhash值,优选simhash值的长度为64位(64bit)。
在计算完成待筛选文本的simhash值后,根据simhash值获得相似文本集合。具体的,根据待筛选文本的simhash值在simhash索引库中查找与所述待筛选文本海明距离小于等于k的相似simhash值链表,得到相似文本集合。再进一步的,将所述simhash按照预定的规则分成k+1段,分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到k+1个链表;将所述k+1个链表中的simhash值对应的文本放入相似文本集合中。
由于当k小于或等于3时,simhash的准确率和召回率最大能达到80%,想要获取更高的准确率和召回率,优选k是大于3的正整数。
在一个优选的实施方式中,所述待筛选文本的simhash值为64位,所述k=4,所述simhash值被分成5段,前4段为13位,最后1段为12位。具体的分段计算过程为:
在相似度阈值为海明距离k时,则根据抽屉原理,把simhash分成k+1段,使用这k+1段在simhash的倒排索引中进行查找待对比的数据。切分逻辑如下(f为simhash长度):
前k个按以下公式计算切分块长度:
LEN1(i)=ceil(f/(k+1)),i∈[1,k]
第k+1个按以下公式计算切分块长度:
LEN2(i)=f-ceil(f/(k+1))×(i-1),i=k+1
当f=64、k=4时,64bit被切分为13bit,13bit,13bit,13bit,12bit。
此时simhash索引库包括4*2^13+2^12=36864张链表,每张链表下存放海明距离小于或等于4的simhash值。待筛选文本的simhash值也被切分成5段,然后分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到5张链表。由于每张链表下存放的都是与待筛选文本的simhash值的还没距离小于或等于4的simhash值,因此将所述5个链表中的simhash值对应的文本放入相似文本集合中,就得到相似文本集合。
步骤S200:计算所述待筛选文本与所述相似文本集合中的文本的余弦相似度。
所述步骤具体包括:使用已经训练好的模型,将所述待筛选文本和所述相似文本集合中的文本都转化成向量;计算述待筛选文本的向量与所述相似文本集合中的文本的向量的余弦相似度。
具体的,使用已训练好的word2vec模型(当然也可以是其它的模型),将待筛选文本转化成向量表示成v,向量维度为j维,然后转化成[1,j]的矩阵,同时对于相似文本集合t,共n条记录,将t中所有的文本向量取出,组成[n,j]的矩阵。根据以下矩阵运算公式可计算出待筛选文本与相似文本集合中的各文本的余弦相似度:
步骤S300:根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉。如图2所示,所述步骤具体包括:
步骤S310:若所述相似文本集合中存在与所述待筛选文本的余弦相似度大于或等于相似度阈值的文本,过滤掉所述待筛选文本。
相似度阈值为预先设定的一个值,当两个文本的余弦相似度大于或等于相似度阈值时,判定这两个文本为相似文本,当两个文本的余弦相似度小于相似度阈值时,判定这两个文本为不相似文本。
需要说明的是,在本发明中,当两个文本的海明距离小于等于k时,判定这两个文本可能相似,需要将两个文本的余弦相似度与相似度阈值进行比较才能判断这两个文本是相似文本还是不相似文本。但是当两个文本的海明距离大于k时,可以判定这两个文本是不相似文本。
因此,当相似文本集合中存在与所述待筛选文本的余弦相似度大于或等于相似度阈值的文本时,认为相似文本集合中存在与待筛选文本相似的文本,所述待筛选文本为重复的文本,因此过滤掉所述待筛选文本(当然是记录所述待筛选文本或者给所述待筛选文本做记号等)。
步骤S320:若所述相似文本集合中所有文本与所述待筛选文本的余弦相似度都小于相似度阈值,或者所述相似文本集合为空,将所述待筛选文本的simhash值存入所述simhash索引库中。
当相似度合集为空时,判定simhash索引库中不存在与待筛选文本的海明距离小于或等于4的文本,可以直接判定待筛选文本与simhash索引库存放的simhash值对应的文本都不相似,待筛选文本为不相似文本,需要存入simhash索引库中。
或者当相似文本集合中所有文本与所述待筛选文本的余弦相似度都小于相似度阈值,也可以判定待筛选文本为不相似文本,需要存入simhash索引库中。
优选的,所述“将所述待筛选文本的simhash值存入所述simhash索引库中”具体包括:
将所述simhash按照预定的规则分成k+1段,分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到k+1个链表,将所述simhash分别存入所述k+1个链表的末端。
就这样将海量文本中的每个文本到simhash索引库中进行比对,然后将重复的文本过滤掉,不重复的文本存入simhash索引库中,最后得到不相似文本合集,达到了去重筛选的目的。
本发明将两种文本相似度算法(simhash算法和余弦相似度)进行整合,利用simhash的速度快、余弦相似度精度高的特点,在海量文本中进行相似度对比,来达到新闻去重的目的,能够对海量文本进行快速而又准确的去重筛选。
为了进一步加快去重筛选的速度,在一个优选的实施方式中,当找到simhash索引库中的相似simhash值链表后,计算所述待筛选文本的simhash值与所述相似simhash值链表中相似simhash值的海明距离。若所述相似simhash值链表中存在与所述待筛选文本的simhash值的海明距离小于或等于距离阈值的相似simhash值,过滤掉所述待筛选文本。
距离阈值为预先设定的海明距离,优选此距离阈值为1,即当两个文本的海明距离小于或等于1时,判定这两个文本为相似文本。因此,在本实施方式中,当相似simhash值链表中存在与待筛选文本相似的文本时,判断待筛选文本为重复文本,需要过滤掉(或者记录此待筛选文本、或给此待筛选文本打上记号)。
在一个具体的实施例中,当海量文本需要去重时,按照文本的时间顺序逐一对每个文本进行处理,将相似的文本过滤掉,将不相似的文本的simhash值存入simhash索引库中,最后将所有相似的文本都过滤掉,就得到不相似文本的集合。simhash索引库包括4*2^13+2^12=36864张链表,用于存储不相似文本的simhash值。其中单个文本(待筛选文本)的处理过程具体为:
首先计算待筛选文本的64位simhash值,将所述simhash值分成5段(前4段13位,后1段12位),分别将这5段作为关键字在simhash索引库中查找对应的链表,最后总共能找出5张链表。判断这5张链表是不是都为空,若是,判定待筛选文本为不相似文本,存入simhash索引库中。若不是,5张链表中的simhash值对应的文本放入一个集合中,就得到相似文本集合。这个相似文本集合中可能存在重复存放的文本,此时可以先将重复存放的文本清理一遍,再进行余弦相似度判断。
将待筛选文本与上述相似文本集合中的文本进行文本向量化,然后计算待筛选文本与相似文本集合中的文本的余弦相似度,若存在余弦相似度小于相似度阈值的文本,则判定待筛选文本为相似文本,否则,判定待筛选文本为不相似文本,存入simhash索引库中。
在另一个将simhash算法与余弦相似度结合进行文本去重筛选的实施方式中,存在4个文本,其中文本1为待筛选文本,文本1需要判断与文本2-4是否为相似文本,4个文本的simhash值依次如下:
1101111110110111001111001000110110110001100000001110111010011010
1101111110110111001111001000100110110001100000001110011010011010
1001111110100110001111011001100110110001100000001110111011011010
1101111110110111001111001000100110110001100010001110111001011010
通过simhash值,判断文本1与文本2和文本4的海明距离分别为2和4,需要继续进入下一步余弦相似度对比,文本1与文本3的海明距离为7,直接判定文本1和文本3为不相似文本。
再经模型推理,文本1、2、4的向量依次为:
[0.20730605 0.02028328 -0.32165986 -0.21978268 -0.05863846 0.16604638-0.67625064 0.41846356 0.23052499 -0.09354075 0.33701654 -0.69099678 -0.30069899 -0.42945853 0.19196298 -0.65654045 0.37276262 0.11128408 …]
[1.54137742e-01 6.58711775e-02 -3.29600481e-01 -1.50874229e-01 -4.48612731e-02 9.21696734e-02 -6.49440484e-01 3.18887830e-01 1.82012444e-01 -1.02761533e-01 3.18788333e-01 -7.16967488e-01 …]
[0.28797083 -0.09659498 -0.24238907 -0.22820453 -0.188848970.06698163 -0.72358951 0.37836913 0.25997467 0.05153846 0.3284452 -0.54951132-0.26240415 -0.39332579 0.27352081 -0.61788026 0.3340716 0.29438264 …]
经余弦相似度计算cos(d1_d2)=0.99487017,cos(d1_d4)=0.96130207,假设预先设定0.97为相似度阈值,则文本1与文本2相似,而文本1与文本4不相似。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述海量文本去重筛选的方法中的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述海量文本去重筛选的方法中的步骤。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种海量文本去重筛选的方法,其特征在于,所述方法包括:
根据待筛选文本的simhash值获得相似文本集合;
计算所述待筛选文本与所述相似文本集合中的文本的余弦相似度;
根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉。
2.根据权利要求1所述的海量文本去重筛选的方法,其特征在于,所述“根据待筛选文本的simhash值获得相似文本集合”具体包括:
根据待筛选文本的simhash值在simhash索引库中查找与所述待筛选文本海明距离小于等于k的相似simhash值链表,得到相似文本集合。
3.根据权利要求2所述的海量文本去重筛选的方法,其特征在于:
所述k为大于3的正整数。
4.根据权利要求3所述海量文本去重筛选的方法,其特征在于:
所述待筛选文本的simhash值为64位,所述k=4,所述simhash值被分成5段,前4段为13位,最后1段为12位。
5.根据权利要求2所述的海量文本去重筛选的方法,其特征在于,所述“根据所述余弦相似度,判断是否需要将所述待筛选文本过滤掉”具体包括:
若所述相似文本集合中存在与所述待筛选文本的余弦相似度大于或等于相似度阈值的文本,过滤掉所述待筛选文本;
若所述相似文本集合中所有文本与所述待筛选文本的余弦相似度都小于相似度阈值,或者所述相似文本集合为空,将所述待筛选文本的simhash值存入所述simhash索引库中。
6.根据权利要求5所述海量文本去重筛选的方法,其特征在于,所述“将所述待筛选文本的simhash值存入所述simhash索引库中”具体包括:
将所述simhash按照预定的规则分成k+1段,分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到k+1个链表,将所述simhash分别存入所述k+1个链表的末端。
7.根据权利要求2所述海量文本去重筛选的方法,其特征在于,所述“根据待筛选文本的simhash值到simhash索引库中查找与所述待筛选文本海明距离小于等于k的相似simhash值链表,得到相似文本集合”具体包括:
将所述simhash按照预定的规则分成k+1段,分别将每一段作为关键字在所述simhash索引库中查找对应的链表,总共找到k+1个链表;
将所述k+1个链表中的simhash值对应的文本放入相似文本集合中。
8.根据权利要求2所述海量文本去重筛选的方法,其特征在于,所述方法还包括:
计算所述待筛选文本的simhash值与所述相似simhash值链表中相似simhash值的海明距离;
若所述相似simhash值链表中存在与所述待筛选文本的simhash值的海明距离小于或等于距离阈值的相似simhash值,过滤掉所述待筛选文本。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述海量文本去重筛选的方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述海量文本去重筛选的方法中的步骤。
CN201911096358.8A 2019-11-11 2019-11-11 海量文本去重筛选的方法、设备和存储介质 Withdrawn CN110837555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911096358.8A CN110837555A (zh) 2019-11-11 2019-11-11 海量文本去重筛选的方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911096358.8A CN110837555A (zh) 2019-11-11 2019-11-11 海量文本去重筛选的方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110837555A true CN110837555A (zh) 2020-02-25

Family

ID=69576262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911096358.8A Withdrawn CN110837555A (zh) 2019-11-11 2019-11-11 海量文本去重筛选的方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110837555A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487177A (zh) * 2020-12-17 2021-03-12 杭州火石数智科技有限公司 一种海量短文本自适应分桶的反向去重方法
CN112527948A (zh) * 2020-12-08 2021-03-19 上海大智慧财汇数据科技有限公司 基于句子级索引的数据实时去重方法及系统
CN116341566A (zh) * 2023-05-29 2023-06-27 中债金科信息技术有限公司 文本去重方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527948A (zh) * 2020-12-08 2021-03-19 上海大智慧财汇数据科技有限公司 基于句子级索引的数据实时去重方法及系统
CN112487177A (zh) * 2020-12-17 2021-03-12 杭州火石数智科技有限公司 一种海量短文本自适应分桶的反向去重方法
CN112487177B (zh) * 2020-12-17 2022-05-10 杭州火石数智科技有限公司 一种海量短文本自适应分桶的反向去重方法
CN116341566A (zh) * 2023-05-29 2023-06-27 中债金科信息技术有限公司 文本去重方法、装置、电子设备及存储介质
CN116341566B (zh) * 2023-05-29 2023-10-20 中债金科信息技术有限公司 文本去重方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107102981B (zh) 词向量生成方法和装置
JP3270783B2 (ja) 複数の文書検索方法
Lu et al. VHP: approximate nearest neighbor search via virtual hypersphere partitioning
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
CN110019668A (zh) 一种文本检索方法及装置
US9009029B1 (en) Semantic hashing in entity resolution
CN107291895B (zh) 一种快速的层次化文档查询方法
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
US9298757B1 (en) Determining similarity of linguistic objects
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110019669B (zh) 一种文本检索方法及装置
CN106909575B (zh) 文本聚类方法和装置
CN106557777A (zh) 一种基于SimHash改进的Kmeans聚类方法
CN111859004A (zh) 检索图像的获取方法、装置、设备及可读存储介质
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
JP6726690B2 (ja) 基本データシーブを用いて無損失削減されたデータに対する多次元検索、コンテンツ連想的な取出し、ならびにキーワードベースの検索および取出しの実行
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN110019670A (zh) 一种文本检索方法及装置
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
US11709798B2 (en) Hash suppression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200225

WW01 Invention patent application withdrawn after publication