CN103123618A - 文本相似度获取方法和装置 - Google Patents

文本相似度获取方法和装置 Download PDF

Info

Publication number
CN103123618A
CN103123618A CN2011103720833A CN201110372083A CN103123618A CN 103123618 A CN103123618 A CN 103123618A CN 2011103720833 A CN2011103720833 A CN 2011103720833A CN 201110372083 A CN201110372083 A CN 201110372083A CN 103123618 A CN103123618 A CN 103123618A
Authority
CN
China
Prior art keywords
cryptographic hash
text
words
numerical value
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103720833A
Other languages
English (en)
Other versions
CN103123618B (zh
Inventor
张雁飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN201110372083.3A priority Critical patent/CN103123618B/zh
Publication of CN103123618A publication Critical patent/CN103123618A/zh
Application granted granted Critical
Publication of CN103123618B publication Critical patent/CN103123618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文本相似度获取方法和装置,能够准确快速地计算出文本的相似度,操作简单,数据计算量较小。本发明实施例提供的文本相似度获取方法包括:根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;计算文本中每一可用词的哈希值;根据文本中所有可用词的哈希值得到所述文本的相似哈希值;利用文本的相似哈希值获取不同文本之间的相似度。

Description

文本相似度获取方法和装置
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种文本相似度获取方法和装置,能够广泛应用于信息检索、机器翻译、自动问答系统、网页去重、文本聚类、文本挖掘等领域。
背景技术
随着计算机的广泛应用和互联网的普及,各类信息都在急速地膨胀,给人们带来便利的同时也带来了信息过量的问题。
文本是最重要的信息载体,对文本文档的处理和分析成为当今数据挖掘和信息检索技术的热点之一。文本处理技术中一个基础而关键的问题就是文本相似度的计算。文本相似度计算可以计算一个文本中不同词条的相似度,也可以计算两个文本间的相似度,其广泛应用于文本聚类、信息检索、机器翻译、自动问答系统、文本挖掘、网页去重等领域,长期以来一直是研究的热点和难点。
然而,现有的文本相似度计算方案通常需要关联于文本中词语的顺序性,且计算方法比较复杂,数据计算量较大,性能低下。
发明内容
本发明提供了一种文本相似度获取方法和装置,以解决的现有的文本相似度计算方案与词语顺序相关,计算方法比较复杂,数据计算量较大,性能低下问题。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明实施例提供了一种文本相似度获取方法,该方法包括:
根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
计算文本中每一可用词的哈希值;
根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
利用文本的相似哈希值获取不同文本之间的相似度。
本发明实施例还提供了一种文本相似度获取装置,该装置包括:
提取单元,用于根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
相似度获取单元,用于利用文本的相似哈希值获取不同文本之间的相似度。
本发明实施例的有益效果是:
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
附图说明
图1为本发明实施例一提供的一种文本相似度获取方法流程示意图;
图2为本发明实施例一提供的更新标记数组中元素的方法流程示意图;
图3为本发明实施例二提供的一种文本相似度获取装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例一提供的一种文本相似度获取方法,该方法包括:
11:根预定的停用词规则,剔除各文本中的停用词,提取出所述文本的可用词;
本实施例中,首先使用基于统计的分词系统对所需处理的文本进行分词,即根据预定的停用词规则剔除停用词,得到仅包含可用词(即文本中除去停用词之外的词语)的文本。计算机对于中文分词的处理难度要高于对西文的分词处理难度,分词是中文文本相似度计算的基础和前提,本方案通过采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。
上述停用词规则所确定的停用词可以预先通过样本统计得到,例如,对样本中各字符的出现频率进行统计,在出现频率大于词频阈值的字符中确定停用词。例如,对出现频率大于词频阈值的词语(即词频较高),若该词语本身又无意义,则将该词语确定为停用词,如文本中的副词、虚词、语气词等通常都被归类为停用词。
比如:一个文本s的示例为“你好啊上帝的朋友”,则剔除掉“啊,的”等停用词得到由可用词{W1,W2,W3...Wn}组成的文本,这些可用词可以作为哈希结构中的键(keys),文本s的keys为{″你好″,″上帝″,″朋友″}。
12:计算文本中每一可用词的哈希值;
使用哈希函数,如表示为bjd_hash(),对文本中每个可用词进行哈希计算,即将可用词作为哈希结构中的key,每次计算出来的值(Value)作为该可用词的哈希值。文本中的可用词可以由一个字符组成,如字符“我”,也可以由两个或多个字符组成,如包含两个字符“鸭梨”的可用词,可用词也可以由数字或运算符号等字符构成。
本实施例中,对每个可用词计算出来的哈希值均占8个字节(byte),也就是8*8个比特(bit)位,所得到的每个可用词的哈希值共有64bit,表达式可以表示如下:
64bit=bjd_hash(w1)(1)
上式表示了采用哈希函数bjd_hash()对可用词w1进行哈希计算后,得到64bit的哈希值。
13:根据文本中所有可用词的哈希值得到所述文本的相似哈希值,具体包括如下处理:
131:设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同。
相应与所设置的64bit的可用词的哈希值,本实施例中标记数组可以为一个长度为64的整型数组,该数组中包括了64个元素,分别与可用词的哈希值的64个比特位相对应。
132:遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值。
可以按照可用词在文本中的顺序依次提取可用词,也可以按照预定次序在文本中提取可用词。标记数组中的元素的初始值可以为0,也可以选取不为0的其他数值作为元素的初始值,优选的,本方案中采用0作为元素的初始值,参见图2,利用如下方式更新标记数组中的元素:
T1:提取可用词的哈希值中的当前比特位,即提取可用词的哈希值中当前比特位上的具体数值(比特值);
T2:判断当前比特位的具体数值,若是1,执行T3;若是0,执行T4。
T3:当可用词的哈希值的比特位为1时,将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值;
本实施例中,优选的,上述预定数值选取为1,即具有如下更新公式:
bitset[i]=bitset[i]+1(2)
上述等式左边的bitset[i]为更新后的元素的数值,上述等式右边的bitset[i]为更新后的元素的数值,i为序号,上式表示了利用可用词的哈希值的第i个比特位的比特位更新标记数组中第i个元素的场景。
T4:当可用词的哈希值的比特位为0时,将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。
本实施例中,优选的,上述预定数值选取为1,即具有如下更新公式:
bitset[i]=bitset[i]-1(3)
上述等式左边的bitset[i]为更新后的元素的数值,上述等式右边的bitset[i]为更新后的元素的数值,i为序号,上式表示了利用可用词的哈希值的第i个比特位的比特值更新标记数组中第i个元素的场景。
对文本中的所有可用词重复进行上述步骤T1至T4的操作,最后得到的标记数组将是对文本中所有可用词哈希值的每个比特位0或1出现次数的统计表。
133:利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。
在本步骤中,对标记数组里的元素的数值进行计算,归一成一个整数。
本实施例中设置相似哈希值的初始值,优选的,本实施例中该初始值设置为0,遍历更新后标记数组中的所有元素,利用每一元素的数值逐次更新所述相似哈希值的初始值,得到文本的相似哈希值,具体包括如下处理:
若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:
simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。n的取值可以为1至64,simhash(0)的数值为0。
优选的,本实施例中上述a的取值为2,上述b的取值为1,
则当前元素的数值大于0时,有如下公式:
simhash(n)=simhash(n-1)*2+1(4)
当前元素的数值不大于0时,有如下公式:
simhash(n)=simhash(n-1)*2(5)
14:利用文本的相似哈希值获取不同文本之间的相似度。
本实施例将两个文本的相似哈希值的比值作为所述两个文本的相似度,可以表示如下:
sim(%)=simhash1/simhash2(6)
上式中sim(%)表示两个文本的相似度,其数值采用百分比的方式表示,simhash1表示一个文本的相似哈希值,simhash2表示另一个文本的相似哈希值,当simhash1的数值小于simhash2时将simhash2作为上式中的分母,即通常将相比较的两个相似哈希值中数值较大的一个作为上式中的分母。
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
本发明实施例二还提供了一种文本相似度获取装置,参见图3,所述装置包括:
提取单元31,用于根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元32,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元33,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
相似度获取单元34,用于利用文本的相似哈希值获取不同文本之间的相似度。
进一步的,所述相似哈希值获取单元33包括:
标记数组设置模块,用于设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同;例如,当可用词的哈希值采用64bit时,标记数组中的元素可以为64个。
数组元素更新模块,用于遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值。例如,当可用词的哈希值的比特位为1时,将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值,当可用词的哈希值的比特位为0时,将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。
获取模块,用于利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。具体的,该获取模块设置相似哈希值的初始值,遍历更新后标记数组中的所有元素,利用每一元素的数值逐次更新所述相似哈希值的初始值,得到文本的相似哈希值,具体包括如下处理:
若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:
simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。n的取值可以为1至64,simhash(0)的数值为0。
优选的,本实施例中上述a的取值为2,上述b的取值为1,
上述相似度获取单元34,具体用于将两个文本的相似哈希值的比值作为所述两个文本的相似度。例如,将两个文本的相似哈希值的比值作为所述两个文本的相似度。
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
为了进一步说明本发明实施例的有益效果,下面给出几组文本示例以及实验数据:
实验一
文本S1的可用词(四个)包括:{″我″,″爱″,″吃″,″鸭梨″};
文本S2的可用词(四个)包括:{″我″,″爱″,″吃″,″梨″}
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=159789056
文本S2的相似哈希值为:simhash2=193344532
文本S1和文本S2的相似度为:sim(%)=159789056/193344532=82.6%
实验二
文本S1的可用词(四个)包括:{″尊敬″,″非常6+1″,″抽奖″,″领奖″};
文本S2的可用词(四个)包括:{″恭喜你″,″非常6+1″,″抽奖″,″领奖″};
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=3262926994
文本S2的相似哈希值为:simhash2=3229440400
文本S1和文本S2的相似度为:sim(%)=98%
实验三
文本S1的可用词(四个)包括:{″尊敬″,″非常6+1″,″抽奖″,″领奖″};
文本S2的可用词(四个)包括:{″用户″,″你好″,″恭喜″,″领奖″};
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=3262926994
文本S2的相似哈希值为:simhash2=424180509
文本S1和文本S2的相似度为:sim(%)=13%
实验四
文本S1的可用词(四个)包括:{″我″,″可能″,″知道″,″这事″};
文本S2的可用词(四个)包括:{″这事″,″我″,″可能″,″知道″};
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=3263299844
文本S2的相似哈希值为:simhash2=3263299844
文本S1和文本S2的相似度为:sim(%)=100%
由上述实验数据可以看出,当两个文本之间的较相似时,如实验一和实验二所示的情况,利用本方案获取到的相似度也较大,相似度在80%以上,而当两个文本之间的差异较大时,如实验三所示的情况,利用本方案获取到的相似度较小,仅为13%,从而利用本方案能够准确识别出相似度较高的文本。
并且,本方案的相似度不依赖于文本中可用词的顺序,相似度与可用词的顺序无关,如实验四所示的场景,即使文本中可用词的顺序不同,只要文本中可用词在内容上是实质相同的,本方案就能够准确识别相似的文本。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文本相似度获取方法,其特征在于,所述方法包括:
根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
计算文本中每一可用词的哈希值;
根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
利用文本的相似哈希值获取不同文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述预定的停用词规则通过如下方式确定停用词:
对样本中各词语的出现频率进行统计,在出现频率大于词频阈值的词语中确定停用词。
3.根据权利要求1所述的方法,其特征在于,所述根据文本中所有可用词的哈希值得到所述文本的相似哈希值包括:
设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同;
遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值;
利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。
4.根据权利要求3所述的方法,其特征在于,所述利用每一可用词的哈希值的每一比特位逐次更新相似哈希值中相应元素的数值包括:
当可用词的哈希值的比特位为1时,将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值;
当可用词的哈希值的比特位为0时,将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。
5.根据权利要求3所述的方法,其特征在于,所述利用更新后得到的标记数组中元素的数值得到文本的相似哈希值包括:
设置相似哈希值的初始值;
遍历更新后标记数组中的所有元素,利用每一元素的数值逐次更新所述相似哈希值的初始值,得到文本的相似哈希值。
6.根据权利要求5所述的方法,其特征在于,所述利用每一元素的数值逐次更新所述初始相似哈希值包括:
若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述利用文本的相似哈希值获取不同文本之间的相似度包括:
将两个文本的相似哈希值的比值作为所述两个文本的相似度。
8.一种文本相似度获取装置,其特征在于,所述装置包括:
提取单元,用于根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
相似度获取单元,用于利用文本的相似哈希值获取不同文本之间的相似度。
9.根据权利要求8所述的装置,其特征在于,所述相似哈希值获取单元包括:
标记数组设置模块,用于设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同;
数组元素更新模块,用于遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值;
获取模块,用于利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。
10.根据权利要求8或9所述的装置,其特征在于,所述相似度获取单元,具体用于将两个文本的相似哈希值的比值作为所述两个文本的相似度。
CN201110372083.3A 2011-11-21 2011-11-21 文本相似度获取方法和装置 Active CN103123618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110372083.3A CN103123618B (zh) 2011-11-21 2011-11-21 文本相似度获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110372083.3A CN103123618B (zh) 2011-11-21 2011-11-21 文本相似度获取方法和装置

Publications (2)

Publication Number Publication Date
CN103123618A true CN103123618A (zh) 2013-05-29
CN103123618B CN103123618B (zh) 2016-09-14

Family

ID=48454598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110372083.3A Active CN103123618B (zh) 2011-11-21 2011-11-21 文本相似度获取方法和装置

Country Status (1)

Country Link
CN (1) CN103123618B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425639A (zh) * 2013-09-06 2013-12-04 广州一呼百应网络技术有限公司 一种基于信息指纹的相似信息识别方法
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN105335422A (zh) * 2014-08-06 2016-02-17 阿里巴巴集团控股有限公司 舆情信息的告警方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN103902905B (zh) * 2013-12-17 2017-02-15 哈尔滨安天科技股份有限公司 基于软件结构聚类的恶意代码生成器识别方法及系统
CN106844325A (zh) * 2015-12-04 2017-06-13 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN107329947A (zh) * 2017-05-15 2017-11-07 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108595415A (zh) * 2018-03-26 2018-09-28 北京北大英华科技有限公司 一种法律差异化判定方法、装置及计算机设备、存储介质
CN109033093A (zh) * 2018-07-01 2018-12-18 东莞市华睿电子科技有限公司 一种基于相似度匹配的文本翻译方法
CN109271487A (zh) * 2018-09-29 2019-01-25 浪潮软件股份有限公司 一种相似文本分析方法
CN109299260A (zh) * 2018-09-29 2019-02-01 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN109492078A (zh) * 2018-09-30 2019-03-19 普强信息技术(北京)有限公司 一种基于动态停词的原因挖掘方法
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN111581328A (zh) * 2020-04-21 2020-08-25 浙江华途信息安全技术股份有限公司 一种数据比对检测方法及系统
CN112035621A (zh) * 2020-09-03 2020-12-04 江苏经贸职业技术学院 一种基于统计学的企业名名称相似度检测方法
CN112364124A (zh) * 2020-11-19 2021-02-12 湖南红网新媒体集团有限公司 一种文本相似度匹配及计算方法、系统和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
化柏林: "知识抽取中的停用词处理技术", 《现代图书情报技术》 *
马成前,毛许光: "网页查重算法Shingling和Simhash研究", 《计算机与数字工程》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425639A (zh) * 2013-09-06 2013-12-04 广州一呼百应网络技术有限公司 一种基于信息指纹的相似信息识别方法
CN103902905B (zh) * 2013-12-17 2017-02-15 哈尔滨安天科技股份有限公司 基于软件结构聚类的恶意代码生成器识别方法及系统
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN104866478B (zh) * 2014-02-21 2020-06-05 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN105335422B (zh) * 2014-08-06 2019-02-22 阿里巴巴集团控股有限公司 舆情信息的告警方法及装置
CN105335422A (zh) * 2014-08-06 2016-02-17 阿里巴巴集团控股有限公司 舆情信息的告警方法及装置
CN106844325A (zh) * 2015-12-04 2017-06-13 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN106844325B (zh) * 2015-12-04 2022-01-25 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN107329947A (zh) * 2017-05-15 2017-11-07 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN107329947B (zh) * 2017-05-15 2019-07-26 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108304378B (zh) * 2018-01-12 2019-09-24 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108595415A (zh) * 2018-03-26 2018-09-28 北京北大英华科技有限公司 一种法律差异化判定方法、装置及计算机设备、存储介质
CN108595415B (zh) * 2018-03-26 2022-06-14 北京北大英华科技有限公司 一种法律差异化判定方法、装置及计算机设备、存储介质
CN109033093A (zh) * 2018-07-01 2018-12-18 东莞市华睿电子科技有限公司 一种基于相似度匹配的文本翻译方法
CN109271487A (zh) * 2018-09-29 2019-01-25 浪潮软件股份有限公司 一种相似文本分析方法
CN109299260B (zh) * 2018-09-29 2021-01-19 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN109299260A (zh) * 2018-09-29 2019-02-01 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN109492078A (zh) * 2018-09-30 2019-03-19 普强信息技术(北京)有限公司 一种基于动态停词的原因挖掘方法
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN111581328A (zh) * 2020-04-21 2020-08-25 浙江华途信息安全技术股份有限公司 一种数据比对检测方法及系统
CN112035621A (zh) * 2020-09-03 2020-12-04 江苏经贸职业技术学院 一种基于统计学的企业名名称相似度检测方法
CN112364124A (zh) * 2020-11-19 2021-02-12 湖南红网新媒体集团有限公司 一种文本相似度匹配及计算方法、系统和装置
CN112364124B (zh) * 2020-11-19 2022-04-26 湖南红网新媒体集团有限公司 一种文本相似度匹配及计算方法、系统和装置

Also Published As

Publication number Publication date
CN103123618B (zh) 2016-09-14

Similar Documents

Publication Publication Date Title
CN103123618A (zh) 文本相似度获取方法和装置
CN107679144A (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN109271641B (zh) 一种文本相似度计算方法、装置及电子设备
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN108280173B (zh) 一种非结构化文本的关键信息挖掘方法、介质及设备
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN105912514A (zh) 基于指纹特征的文本复制检测系统及方法
CN110188359B (zh) 一种文本实体抽取方法
CN103955450A (zh) 一种新词自动提取方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN106484730A (zh) 字符串匹配方法和装置
CN105574156A (zh) 文本聚类方法、装置及计算设备
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
CN103646029A (zh) 一种针对博文的相似度计算方法
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN109101491B (zh) 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN103150331A (zh) 一种提供搜索引擎标签的方法和装置
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN106528509B (zh) 网页信息提取方法及装置
TW201335776A (zh) 辭典產生裝置、辭典產生方法、辭典產生程式、及記憶該程式之電腦可讀取記錄媒體
CN109670153A (zh) 一种相似帖子的确定方法、装置、存储介质及终端
CN110990451B (zh) 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN106970919B (zh) 新词组发现的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building 6 storey block A room 602

Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.