CN104636319B - 一种文本去重方法和装置 - Google Patents

一种文本去重方法和装置 Download PDF

Info

Publication number
CN104636319B
CN104636319B CN201310556688.7A CN201310556688A CN104636319B CN 104636319 B CN104636319 B CN 104636319B CN 201310556688 A CN201310556688 A CN 201310556688A CN 104636319 B CN104636319 B CN 104636319B
Authority
CN
China
Prior art keywords
text
signature value
case
slice
sliced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310556688.7A
Other languages
English (en)
Other versions
CN104636319A (zh
Inventor
贾铸斌
袁昌文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201310556688.7A priority Critical patent/CN104636319B/zh
Publication of CN104636319A publication Critical patent/CN104636319A/zh
Application granted granted Critical
Publication of CN104636319B publication Critical patent/CN104636319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本去重方法和装置,技术方案为:对案例文本的特征词串进行切片并计算各切片的签名值,以此建立签名值和案例文本的关联关系,形成案例库。当有待处理文本需要进行去重处理时,对待处理文本的特征词串进行切片并计算各切片的签名值,根据各切片的签名值确定该切片对应的案例文本,从而通过统计对应同一案例文本的签名值个数,并利用最大签名值个数计算待处理文本与相应案例文本的相似度,进而进行相似判断。本发明需要的计算量较小,而且可以保证较小的误判率。

Description

一种文本去重方法和装置
技术领域
本申请涉及文本处理技术领域,特别涉及一种文本去重方法和装置。
背景技术
目前的文本去重方法主要有以下几种:文本哈希、余弦相似文本计算、simhash,下面分别进行介绍。
1)文本哈希方法:计算文本内容的哈希值(例如)Murmur哈希值,比较两个文本的哈希值是否相同确定是否是相同文本,哈希值一致即认为文本相同。
文本哈希方法能够快速的判断两个文本是否相似,但是判断条件过于严苛,文本内容必须完全相同,否则就可能会计算出不同的哈希值而导致。例如:“任其发展。”和“任其发展!”本是相同文本,然而却因为最后的标点符号不相同,就被误判为不同。
2)余弦相似文本计算方法:计算两个文本对应向量的夹角余弦值,根据余弦值确定夹角,夹角越小越相似。计算向量间的夹角余弦值的公式如下:
余弦相似文本计算方法的优点是计算方式比较简单,但是这种方法需要进行文本两两之间计算余弦值,计算量比较大,无法适应海量数据的使用场景。例如,现存在文本A,样本库B,其中存在样本数为10万,为了计算A是否与B中的文本存在相似的文本,A需要与B中的每个文本进行计算,共10万次计算,计算量非常大。
3)simhash算法:计算文本的simhash值,比较两个文本的simhash值之间的海明距离,海明距离小于3即认为相似。
simhash算法的优点是可以大大减少海量文本情况下的计算工作量,缺点是实现比较复杂,而且要计算海明距离,计算量也比较大。
可以看出,以上三种方法中,第一种方法的误判率较高,而后两种方法的计算量由过大,都不能兼顾误判率和计算量。
发明内容
有鉴于此,本发明的目的在于提供一种文本去重方法和装置,能够保证误判率较小,而且不需要过多的计算量。
为实现上述目的,本发明提供的技术方案为:
一种文本去重方法,包括:
针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系;
提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
一种文本去重装置,包括:文本处理单元、关系建立单元、关系查找单元、去重单元;
所述文本处理单元,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
所述关系建立单元,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
所述关系查找单元,用于查找关系建立单元建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
所述去重单元,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
综上所述,本发明中,先通过对案例文本的特征词串进行切片并计算各切片的签名值,以此建立签名值和案例文本的关联关系,形成案例库。此后,当有待处理文本需要进行去重处理时,对待处理文本的特征词串进行切片并计算各切片的签名值,根据各切片的签名值确定该切片对应的案例文本,从而通过统计对应同一案例文本的签名值个数,并利用最大签名值个数计算待处理文本与相应案例文本的相似度,进而进行相似判断。案例库建立之后,可以用于所有待处理文本的去重处理过程,去重方法简单,计算量较小,而且可以保证较小的误判率。
附图说明
图1是本发明实施例文本去重方法流程图;
图2是本发明实施例文本去重装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
本发明实施例中,通过以下三个步骤完成文本去重:
步骤一、建立案例库:
为了进行文本去重,首先需要指定多条文本作为案例文本,并对其中的每条案例文本进行处理,以建立案例库。
对每条案例文本的处理过程包括如下步骤:
A1、提取该案例文本的特征词得到一特征词串。
可以采用现有切词方法提取文本特征词。
例如,对于案例文本:你的车到底发生了什么:
提取特征词得到以下特征词串:你的车到底发生了什么。
A2、按照预设规则对该特征词串进行切片处理得到多个切片。
具体切片方法可以为:以特征词为单位,将从每个特征词开始的连续N个特征词划为一个切片,其中N为一预设值。
例如,对特征词串:你的车到底发生了什么
假设N为4,则可得到如下切片:
切片11:你的车到底
切片12:的车到底发生
切片13:车到底发生了
切片14:到底发生了什么
A3、计算每个切片的签名值,建立该签名值与该案例文本的关联关系。
可以将每个切片的哈希值作为该切片的签名值。例如,
上述切片11的murmur哈希值为a1,因此将切片11的签名值设为a1;
上述切片12的murmur哈希值为a2,因此将切片12的签名值设为a2;
上述切片13的murmur哈希值为a3,因此将切片13的签名值设为a3;
上述切片14的murmur哈希值为a4,因此将切片14的签名值设为a4。
将该案例文本使用案例ID表示,假设案例ID为100,则可得到如表一所示的4条签名值与案例文本的关联关系:
切片签名值 案例文本(使用案例ID表示)
a1 100
a2 100
a3 100
a4 100
表一
所有案例文本处理完毕后,所建立的切片签名值和案例文本的关联关系就构成了一个案例库,后续可以利用该案例库进行文本的去重分析。
步骤二、对待处理文本进行文本处理:
建立了案例库后,当有某个文本需要进行去重分析时,可以将该文本作为待处理文本,执行以下处理过程:
B1、提取该案例文本的特征词得到一特征词串。
步骤B1与上述步骤A1完全相同。
B2、按照预设规则对该特征词串进行切片处理得到多个切片。
步骤B2与上述步骤A2完全相同。
B3、计算每个切片的签名值,查找上述案例库中的关联关系,确定该签名值对应的案例文本,并对关联该案例文本的签名值个数进行累加。
例如有以下待处理文本:你的车到底发生了什么啊。
执行上述步骤(1)得到以下特征词串:你的车到底发生了什么啊。
执行上述步骤(2)得到以下切片:
切片21:你的车到底
切片22:的车到底发生
切片23:车到底发生了
切片24:到底发生了什么
切片25,发生了什么啊
通过计算hash值可以确定上述切片21的签名值为a1,进而查找案例库可确定a1关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为1。
通过计算hash值可以确定切片22的签名值为a2,进而查找案例库可确定a2关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为2。
通过计算hash值可以确定切片23的签名值为a3,进而查找案例库可确定a3关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为3。
通过计算hash值可以确定切片24的签名值为a4,进而查找案例库可确定a4关联案例ID为100的案例文本,因此,对关联案例ID为100的案例文本的签名值个数进行累加。至此,关联案例ID为100的案例文本的签名值个数的累加结果为1。
通过计算hash值可以确定切片21的签名值为a5,进而查找案例库可确定a5未关联任何案例文本,因此,不执行累加计算。
最终,得到如下结果:关联案例ID为100的案例文本的签名值个数为4,无关联其它案例文本的签名值。
步骤三、对待处理文本进行去重分析:
分析待处理文本对应的各切片的签名值关联的案例文本,找出一个案例文本,待处理文本对应的各切片的签名值中关联该案例文本的签名值个数最多。如果待处理文本对应的各切片的签名值中关联某一案例文本的签名值个数最多,则说明待处理文本与该案例文本最相似。此时,可以根据关联该案例文本的签名值个数以及待处理文本对应的切片总个数计算待处理文本与该案例文本的相似度,如果相似度超过一定阈值(例如50%),则可以确定待处理文本与该案例文本相似。
所述根据关联该案例文本的签名值个数以及待处理文本对应的切片总个数计算待处理文本与该案例文本的相似度的方法具体可以为:计算关联该案例文本的签名值个数与待处理文本对应的切片总个数的商,将该商值作为待处理文本与该案例文本的相似度。
当确定待处理文本与某一案例文本相似时,就可以对该待处理文本进行去重处理,例如丢弃待处理文本。如果待处理文本与任何案例文本都不相似,则可以执行其他处理,例如将待处理文本作为一个案例文本进行分析,建立相应的关联关系加入案例库。
例如,对于上述待处理文本:你的车到底发生了什么啊
其对应的各切片的签名值中,有4个切片(切片21、切片22、切片23、切片24)的签名值均关联案例ID为100的案例文本,因此,可以计算出待处理文本与案例ID为100的案例文本的相似度为4/5=0.8(80%),大于50%,因此可以确定待处理文本和案例ID为100的案例文本相似。
以上对本发明实施例文本去重方法进行了原理性说明,基于以上原理,本发明提供了一种文本去重方法和一种文本去重装置,下面分别结合图1和图2进行说明。
图1是本发明实施例文本去重方法的流程示意图,如图1所示,该方法主要包括以下步骤:
步骤101、针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系。
本步骤只需执行一次。
步骤102、提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
步骤103、确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
图1所示本发明实施例中,
按照预设规则对提取的特征词串进行切片的方法为:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片。
图1所示本发明实施例中,
所述计算每个切片的签名值的方法为:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
图1所示本发明实施例中,
查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本的方法为:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
图1所示本发明实施例中,
根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度的方法为:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
图2是本发明实施例文本去重装置的结构示意图,如图2所示,该装置包括:文本处理单元201、关系建立单元202、关系查找单元203、去重单元204;其中,
文本处理单元201,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
关系建立单元202,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
关系查找单元203,用于查找关系建立单元202建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
去重单元204,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
图2所示装置中,所述文本处理单元201在按照预设规则对提取的特征词串进行切片时,用于:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片。
图2所示装置中,所述文本处理单元201在计算每个切片的签名值时,用于:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
图2所示装置中,所述关系查找单元203在查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本时,用于:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
图2所示装置中,所述去重单元204在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时,用于:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本去重方法,其特征在于,该方法包括:
针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系;
提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
2.根据权利要求1所述的方法,其特征在于,
按照预设规则对提取的特征词串进行切片的方法为:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片;其中,N为第二预设值。
3.根据权利要求1所述的方法,其特征在于,
所述计算每个切片的签名值的方法为:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
4.根据权利要求1所述的方法,其特征在于,
查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本的方法为:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
5.根据权利要求1所述的方法,其特征在于,
根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度的方法为:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
6.一种文本去重装置,其特征在于,该装置包括:文本处理单元、关系建立单元、关系查找单元、去重单元;
所述文本处理单元,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
所述关系建立单元,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
所述关系查找单元,用于查找关系建立单元建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
所述去重单元,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
7.根据权利要求6所述的装置,其特征在于,
所述文本处理单元在按照预设规则对提取的特征词串进行切片时,用于:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片;其中,N为第二预设值。
8.根据权利要求6所述的装置,其特征在于,
所述文本处理单元在计算每个切片的签名值时,用于:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
9.根据权利要求6所述的装置,其特征在于,
所述关系查找单元在查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本时,用于:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
10.根据权利要求6所述的装置,其特征在于,
所述去重单元在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时,用于:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
CN201310556688.7A 2013-11-11 2013-11-11 一种文本去重方法和装置 Active CN104636319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310556688.7A CN104636319B (zh) 2013-11-11 2013-11-11 一种文本去重方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310556688.7A CN104636319B (zh) 2013-11-11 2013-11-11 一种文本去重方法和装置

Publications (2)

Publication Number Publication Date
CN104636319A CN104636319A (zh) 2015-05-20
CN104636319B true CN104636319B (zh) 2018-09-28

Family

ID=53215092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310556688.7A Active CN104636319B (zh) 2013-11-11 2013-11-11 一种文本去重方法和装置

Country Status (1)

Country Link
CN (1) CN104636319B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025218B (zh) * 2017-04-07 2021-03-02 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108319648A (zh) * 2017-12-27 2018-07-24 深圳市三宝创新智能有限公司 一种基于改进simhash算法的问答数据清洗系统及方法
CN108256587A (zh) * 2018-02-05 2018-07-06 武汉斗鱼网络科技有限公司 一种字符串相似度的确定方法、装置、计算机及存储介质
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109271614B (zh) * 2018-10-30 2022-12-13 中译语通科技股份有限公司 一种数据查重方法
CN111625468B (zh) * 2020-06-05 2024-04-16 中国银行股份有限公司 一种测试案例去重方法及装置
CN113129056A (zh) * 2021-04-15 2021-07-16 微梦创科网络科技(中国)有限公司 一种控制广告投放频次的方法及系统
CN113407495A (zh) * 2021-06-29 2021-09-17 北京鼎普科技股份有限公司 一种基于simhash的文件相似度判定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120124581A (ko) * 2011-05-04 2012-11-14 엔에이치엔(주) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法

Also Published As

Publication number Publication date
CN104636319A (zh) 2015-05-20

Similar Documents

Publication Publication Date Title
CN104636319B (zh) 一种文本去重方法和装置
CN105426539B (zh) 一种基于词典的lucene中文分词方法
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
KR20190038751A (ko) 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
WO2014206241A1 (zh) 文档相似度计算方法、近似重复文档检测方法及装置
CN105488023B (zh) 一种文本相似度评估方法及装置
US20170192959A1 (en) Apparatus and method for extracting topics
WO2014000508A1 (zh) 网页去重方法和设备
CN108073815B (zh) 基于代码切片的家族判定方法、系统及存储介质
AU2015324282B2 (en) Protected indexing and querying of large sets of textual data
US9692771B2 (en) System and method for estimating typicality of names and textual data
US11036818B2 (en) Method and system for detecting graph based event in social networks
CN106372202B (zh) 文本相似度计算方法及装置
CN110019640B (zh) 涉密文件检查方法及装置
CN105447169B (zh) 文献归一方法、文献搜索方法及对应装置
Lalji et al. Twitter sentiment analysis using hybrid approach
CN108388556B (zh) 同类实体的挖掘方法及系统
CN104615728B (zh) 一种网页正文提取方法及装置
CN104615705B (zh) 网页质量检测方法及装置
Küppers et al. A Set-Based Approach to Plagiarism Detection.
CN106919554B (zh) 文档中无效词的识别方法及装置
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备
CN104850609B (zh) 一种针对跳字类关键词的过滤方法
Xhafa et al. Apache Mahout's k-Means vs Fuzzy k-Means Performance Evaluation
CN103246640B (zh) 一种检测重复文本的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant