CN104636319A - 一种文本去重方法和装置 - Google Patents
一种文本去重方法和装置 Download PDFInfo
- Publication number
- CN104636319A CN104636319A CN201310556688.7A CN201310556688A CN104636319A CN 104636319 A CN104636319 A CN 104636319A CN 201310556688 A CN201310556688 A CN 201310556688A CN 104636319 A CN104636319 A CN 104636319A
- Authority
- CN
- China
- Prior art keywords
- text
- case
- processed
- slice
- signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本去重方法和装置,技术方案为:对案例文本的特征词串进行切片并计算各切片的签名值,以此建立签名值和案例文本的关联关系,形成案例库。当有待处理文本需要进行去重处理时,对待处理文本的特征词串进行切片并计算各切片的签名值,根据各切片的签名值确定该切片对应的案例文本,从而通过统计对应同一案例文本的签名值个数,并利用最大签名值个数计算待处理文本与相应案例文本的相似度,进而进行相似判断。本发明需要的计算量较小,而且可以保证较小的误判率。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及一种文本去重方法和装置。
背景技术
目前的文本去重方法主要有以下几种:文本哈希、余弦相似文本计算、simhash,下面分别进行介绍。
1)文本哈希方法:计算文本内容的哈希值(例如)Murmur哈希值,比较两个文本的哈希值是否相同确定是否是相同文本,哈希值一致即认为文本相同。
文本哈希方法能够快速的判断两个文本是否相似,但是判断条件过于严苛,文本内容必须完全相同,否则就可能会计算出不同的哈希值而导致。例如:“任其发展。”和“任其发展!”本是相同文本,然而却因为最后的标点符号不相同,就被误判为不同。
2)余弦相似文本计算方法:计算两个文本对应向量的夹角余弦值,根据余弦值确定夹角,夹角越小越相似。计算向量间的夹角余弦值的公式如下:
余弦相似文本计算方法的优点是计算方式比较简单,但是这种方法需要进行文本两两之间计算余弦值,计算量比较大,无法适应海量数据的使用场景。例如,现存在文本A,样本库B,其中存在样本数为10万,为了计算A是否与B中的文本存在相似的文本,A需要与B中的每个文本进行计算,共10万次计算,计算量非常大。
3)simhash算法:计算文本的simhash值,比较两个文本的simhash值之间的海明距离,海明距离小于3即认为相似。
simhash算法的优点是可以大大减少海量文本情况下的计算工作量,缺点是实现比较复杂,而且要计算海明距离,计算量也比较大。
可以看出,以上三种方法中,第一种方法的误判率较高,而后两种方法的计算量由过大,都不能兼顾误判率和计算量。
发明内容
有鉴于此,本发明的目的在于提供一种文本去重方法和装置,能够保证误判率较小,而且不需要过多的计算量。
为实现上述目的,本发明提供的技术方案为:
一种文本去重方法,包括:
针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系;
提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
一种文本去重装置,包括:文本处理单元、关系建立单元、关系查找单元、去重单元;
所述文本处理单元,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
所述关系建立单元,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
所述关系查找单元,用于查找关系建立单元建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
所述去重单元,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
综上所述,本发明中,先通过对案例文本的特征词串进行切片并计算各切片的签名值,以此建立签名值和案例文本的关联关系,形成案例库。此后,当有待处理文本需要进行去重处理时,对待处理文本的特征词串进行切片并计算各切片的签名值,根据各切片的签名值确定该切片对应的案例文本,从而通过统计对应同一案例文本的签名值个数,并利用最大签名值个数计算待处理文本与相应案例文本的相似度,进而进行相似判断。案例库建立之后,可以用于所有待处理文本的去重处理过程,去重方法简单,计算量较小,而且可以保证较小的误判率。
附图说明
图1是本发明实施例文本去重方法流程图;
图2是本发明实施例文本去重装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
本发明实施例中,通过以下三个步骤完成文本去重:
步骤一、建立案例库:
为了进行文本去重,首先需要指定多条文本作为案例文本,并对其中的每条案例文本进行处理,以建立案例库。
对每条案例文本的处理过程包括如下步骤:
A1、提取该案例文本的特征词得到一特征词串。
可以采用现有切词方法提取文本特征词。
例如,对于案例文本:你的车到底发生了什么:
提取特征词得到以下特征词串:你的车到底发生了什么。
A2、按照预设规则对该特征词串进行切片处理得到多个切片。
具体切片方法可以为:以特征词为单位,将从每个特征词开始的连续N个特征词划为一个切片,其中N为一预设值。
例如,对特征词串:你的车到底发生了什么
假设N为4,则可得到如下切片:
切片11:你的车到底
切片12:的车到底发生
切片13:车到底发生了
切片14:到底发生了什么
A3、计算每个切片的签名值,建立该签名值与该案例文本的关联关系。
可以将每个切片的哈希值作为该切片的签名值。例如,
上述切片11的murmur哈希值为a1,因此将切片11的签名值设为a1;
上述切片12的murmur哈希值为a2,因此将切片12的签名值设为a2;
上述切片13的murmur哈希值为a3,因此将切片13的签名值设为a3;
上述切片14的murmur哈希值为a4,因此将切片14的签名值设为a4。
将该案例文本使用案例ID表示,假设案例ID为100,则可得到如表一所示的4条签名值与案例文本的关联关系:
切片签名值 | 案例文本(使用案例ID表示) |
a1 | 100 |
a2 | 100 |
a3 | 100 |
a4 | 100 |
表一
所有案例文本处理完毕后,所建立的切片签名值和案例文本的关联关系就构成了一个案例库,后续可以利用该案例库进行文本的去重分析。
步骤二、对待处理文本进行文本处理:
建立了案例库后,当有某个文本需要进行去重分析时,可以将该文本作为待处理文本,执行以下处理过程:
B1、提取该案例文本的特征词得到一特征词串。
步骤B1与上述步骤A1完全相同。
B2、按照预设规则对该特征词串进行切片处理得到多个切片。
步骤B2与上述步骤A2完全相同。
B3、计算每个切片的签名值,查找上述案例库中的关联关系,确定该签名值对应的案例文本,并对关联该案例文本的签名值个数进行累加。
例如有以下待处理文本:你的车到底发生了什么啊。
执行上述步骤(1)得到以下特征词串:你的车到底发生了什么啊。
执行上述步骤(2)得到以下切片:
切片21:你的车到底
切片22:的车到底发生
切片23:车到底发生了
切片24:到底发生了什么
切片25,发生了什么啊
通过计算hash值可以确定上述切片21的签名值为a1,进而查找案例库可确定a1关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为1。
通过计算hash值可以确定切片22的签名值为a2,进而查找案例库可确定a2关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为2。
通过计算hash值可以确定切片23的签名值为a3,进而查找案例库可确定a3关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为3。
通过计算hash值可以确定切片24的签名值为a4,进而查找案例库可确定a4关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为1。
通过计算hash值可以确定切片21的签名值为a5,进而查找案例库可确定a5未关联任何案例文本,因此,不执行累加计算。
最终,得到如下结果:关联案例ID为100的案例文本的签名值个数为4,无关联其它案例文本的签名值。
步骤三、对待处理文本进行去重分析:
分析待处理文本对应的各切片的签名值关联的案例文本,找出一个案例文本,待处理文本对应的各切片的签名值中关联该案例文本的签名值个数最多。如果待处理文本对应的各切片的签名值中关联某一案例文本的签名值个数最多,则说明待处理文本与该案例文本最相似。此时,可以根据关联该案例文本的签名值个数以及待处理文本对应的切片总个数计算待处理文本与该案例文本的相似度,如果相似度超过一定阈值(例如50%),则可以确定待处理文本与该案例文本相似。
所述根据关联该案例文本的签名值个数以及待处理文本对应的切片总个数计算待处理文本与该案例文本的相似度的方法具体可以为:计算关联该案例文本的签名值个数与待处理文本对应的切片总个数的商,将该商值作为待处理文本与该案例文本的相似度。
当确定待处理文本与某一案例文本相似时,就可以对该待处理文本进行去重处理,例如丢弃待处理文本。如果待处理文本与任何案例文本都不相似,则可以执行其他处理,例如将待处理文本作为一个案例文本进行分析,建立相应的关联关系加入案例库。
例如,对于上述待处理文本:你的车到底发生了什么啊
其对应的各切片的签名值中,有4个切片(切片21、切片22、切片23、切片24)的签名值均关联案例ID为100的案例文本,因此,可以计算出待处理文本与案例ID为100的案例文本的相似度为4/5=0.8(80%),大于50%,因此可以确定待处理文本和案例ID为100的案例文本相似。
以上对本发明实施例文本去重方法进行了原理性说明,基于以上原理,本发明提供了一种文本去重方法和一种文本去重装置,下面分别结合图1和图2进行说明。
图1是本发明实施例文本去重方法的流程示意图,如图1所示,该方法主要包括以下步骤:
步骤101、针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系。
本步骤只需执行一次。
步骤102、提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
步骤103、确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
图1所示本发明实施例中,
按照预设规则对提取的特征词串进行切片的方法为:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片。
图1所示本发明实施例中,
所述计算每个切片的签名值的方法为:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
图1所示本发明实施例中,
查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本的方法为:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
图1所示本发明实施例中,
根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度的方法为:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
图2是本发明实施例文本去重装置的结构示意图,如图2所示,该装置包括:文本处理单元201、关系建立单元202、关系查找单元203、去重单元204;其中,
文本处理单元201,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
关系建立单元202,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
关系查找单元203,用于查找关系建立单元202建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
去重单元204,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
图2所示装置中,所述文本处理单元201在按照预设规则对提取的特征词串进行切片时,用于:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片。
图2所示装置中,所述文本处理单元201在计算每个切片的签名值时,用于:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
图2所示装置中,所述关系查找单元203在查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本时,用于:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
图2所示装置中,所述去重单元204在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时,用于:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本去重方法,其特征在于,该方法包括:
针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系;
提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
2.根据权利要求1所述的方法,其特征在于,
按照预设规则对提取的特征词串进行切片的方法为:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片;其中,N为第二预设值。
3.根据权利要求1所述的方法,其特征在于,
所述计算每个切片的签名值的方法为:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
4.根据权利要求1所述的方法,其特征在于,
查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本的方法为:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
5.根据权利要求1所述的方法,其特征在于,
根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度的方法为:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
6.一种文本去重装置,其特征在于,该装置包括:文本处理单元、关系建立单元、关系查找单元、去重单元;
所述文本处理单元,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
所述关系建立单元,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
所述关系查找单元,用于查找关系建立单元建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
所述去重单元,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
7.根据权利要求6所述的装置,其特征在于,
所述文本处理单元在按照预设规则对提取的特征词串进行切片时,用于:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片;其中,N为第二预设值。
8.根据权利要求6所述的装置,其特征在于,
所述文本处理单元在计算每个切片的签名值时,用于:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
9.根据权利要求6所述的装置,其特征在于,
所述关系查找单元在查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本时,用于:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
10.根据权利要求6所述的装置,其特征在于,
所述去重单元在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时,用于:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310556688.7A CN104636319B (zh) | 2013-11-11 | 2013-11-11 | 一种文本去重方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310556688.7A CN104636319B (zh) | 2013-11-11 | 2013-11-11 | 一种文本去重方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636319A true CN104636319A (zh) | 2015-05-20 |
CN104636319B CN104636319B (zh) | 2018-09-28 |
Family
ID=53215092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310556688.7A Active CN104636319B (zh) | 2013-11-11 | 2013-11-11 | 一种文本去重方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104636319B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
CN108319648A (zh) * | 2017-12-27 | 2018-07-24 | 深圳市三宝创新智能有限公司 | 一种基于改进simhash算法的问答数据清洗系统及方法 |
WO2018184588A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 一种文本去重方法、装置和存储介质 |
CN109241505A (zh) * | 2018-10-09 | 2019-01-18 | 北京奔影网络科技有限公司 | 文本去重方法及装置 |
CN109271614A (zh) * | 2018-10-30 | 2019-01-25 | 中译语通科技股份有限公司 | 一种数据查重方法 |
CN110019642A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN111625468A (zh) * | 2020-06-05 | 2020-09-04 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN113129056A (zh) * | 2021-04-15 | 2021-07-16 | 微梦创科网络科技(中国)有限公司 | 一种控制广告投放频次的方法及系统 |
CN113407495A (zh) * | 2021-06-29 | 2021-09-17 | 北京鼎普科技股份有限公司 | 一种基于simhash的文件相似度判定方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620616A (zh) * | 2009-05-07 | 2010-01-06 | 北京理工大学 | 一种基于小世界特性的中文近似网页去重方法 |
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN102402537A (zh) * | 2010-09-15 | 2012-04-04 | 盛乐信息技术(上海)有限公司 | 中文网页文本除重系统及方法 |
US20120284270A1 (en) * | 2011-05-04 | 2012-11-08 | Nhn Corporation | Method and device to detect similar documents |
-
2013
- 2013-11-11 CN CN201310556688.7A patent/CN104636319B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620616A (zh) * | 2009-05-07 | 2010-01-06 | 北京理工大学 | 一种基于小世界特性的中文近似网页去重方法 |
CN102402537A (zh) * | 2010-09-15 | 2012-04-04 | 盛乐信息技术(上海)有限公司 | 中文网页文本除重系统及方法 |
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
US20120284270A1 (en) * | 2011-05-04 | 2012-11-08 | Nhn Corporation | Method and device to detect similar documents |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018184588A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 一种文本去重方法、装置和存储介质 |
US11379422B2 (en) | 2017-04-07 | 2022-07-05 | Tencent Technology (Shenzhen) Company Limited | Text deduplication method and apparatus, and storage medium |
CN110019642A (zh) * | 2017-08-06 | 2019-07-16 | 北京国双科技有限公司 | 一种相似文本检测方法及装置 |
CN108319648A (zh) * | 2017-12-27 | 2018-07-24 | 深圳市三宝创新智能有限公司 | 一种基于改进simhash算法的问答数据清洗系统及方法 |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
CN109241505A (zh) * | 2018-10-09 | 2019-01-18 | 北京奔影网络科技有限公司 | 文本去重方法及装置 |
CN109271614A (zh) * | 2018-10-30 | 2019-01-25 | 中译语通科技股份有限公司 | 一种数据查重方法 |
CN109271614B (zh) * | 2018-10-30 | 2022-12-13 | 中译语通科技股份有限公司 | 一种数据查重方法 |
CN111625468A (zh) * | 2020-06-05 | 2020-09-04 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN111625468B (zh) * | 2020-06-05 | 2024-04-16 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN113129056A (zh) * | 2021-04-15 | 2021-07-16 | 微梦创科网络科技(中国)有限公司 | 一种控制广告投放频次的方法及系统 |
CN113407495A (zh) * | 2021-06-29 | 2021-09-17 | 北京鼎普科技股份有限公司 | 一种基于simhash的文件相似度判定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104636319B (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104636319B (zh) | 一种文本去重方法和装置 | |
TWI689825B (zh) | 一種文件品質指標獲取方法及裝置 | |
CN105426539B (zh) | 一种基于词典的lucene中文分词方法 | |
WO2017160654A3 (en) | Systems, methods, and computer readable media for extracting data from portable document format (pdf) files | |
WO2014206241A1 (zh) | 文档相似度计算方法、近似重复文档检测方法及装置 | |
CN103425639A (zh) | 一种基于信息指纹的相似信息识别方法 | |
CN108073815B (zh) | 基于代码切片的家族判定方法、系统及存储介质 | |
US20170192959A1 (en) | Apparatus and method for extracting topics | |
CN108345586B (zh) | 一种文本去重方法及系统 | |
CN106372202B (zh) | 文本相似度计算方法及装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN103164537B (zh) | 一种面向用户信息需求的搜索引擎日志数据挖掘的方法 | |
CN104281694A (zh) | 一种文本情感倾向分析系统 | |
CN108462624B (zh) | 一种垃圾邮件的识别方法、装置以及电子设备 | |
CN104951553A (zh) | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
CN105574004B (zh) | 一种网页去重方法和设备 | |
CN107633020B (zh) | 文章相似度检测方法及装置 | |
CN104424435B (zh) | 一种获取病毒特征码的方法及装置 | |
CN106919554B (zh) | 文档中无效词的识别方法及装置 | |
CN109189840A (zh) | 一种流式在线日志解析方法 | |
Küppers et al. | A Set-Based Approach to Plagiarism Detection. | |
CN116361185A (zh) | 一种软件测试方法及装置 | |
CN107766486B (zh) | 随机抽取样本数据的方法、装置、可读介质及存储控制器 | |
US11386340B2 (en) | Method and apparatus for performing block retrieval on block to be processed of urine sediment image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |