CN103123618B - 文本相似度获取方法和装置 - Google Patents

文本相似度获取方法和装置 Download PDF

Info

Publication number
CN103123618B
CN103123618B CN201110372083.3A CN201110372083A CN103123618B CN 103123618 B CN103123618 B CN 103123618B CN 201110372083 A CN201110372083 A CN 201110372083A CN 103123618 B CN103123618 B CN 103123618B
Authority
CN
China
Prior art keywords
text
cryptographic hash
word
similar
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110372083.3A
Other languages
English (en)
Other versions
CN103123618A (zh
Inventor
张雁飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN201110372083.3A priority Critical patent/CN103123618B/zh
Publication of CN103123618A publication Critical patent/CN103123618A/zh
Application granted granted Critical
Publication of CN103123618B publication Critical patent/CN103123618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种文本相似度获取方法和装置,能够准确快速地计算出文本的相似度,操作简单,数据计算量较小。本发明实施例提供的文本相似度获取方法包括:根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;计算文本中每一可用词的哈希值;根据文本中所有可用词的哈希值得到所述文本的相似哈希值;利用文本的相似哈希值获取不同文本之间的相似度。

Description

文本相似度获取方法和装置
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种文本相似度获取方法和装置,能够广泛应用于信息检索、机器翻译、自动问答系统、网页去重、文本聚类、文本挖掘等领域。
背景技术
随着计算机的广泛应用和互联网的普及,各类信息都在急速地膨胀,给人们带来便利的同时也带来了信息过量的问题。
文本是最重要的信息载体,对文本文档的处理和分析成为当今数据挖掘和信息检索技术的热点之一。文本处理技术中一个基础而关键的问题就是文本相似度的计算。文本相似度计算可以计算一个文本中不同词条的相似度,也可以计算两个文本间的相似度,其广泛应用于文本聚类、信息检索、机器翻译、自动问答系统、文本挖掘、网页去重等领域,长期以来一直是研究的热点和难点。
然而,现有的文本相似度计算方案通常需要关联于文本中词语的顺序性,且计算方法比较复杂,数据计算量较大,性能低下。
发明内容
本发明提供了一种文本相似度获取方法和装置,以解决的现有的文本相似度计算方案与词语顺序相关,计算方法比较复杂,数据计算量较大,性能低下问题。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明实施例提供了一种文本相似度获取方法,该方法包括:
根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
计算文本中每一可用词的哈希值;
根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
利用文本的相似哈希值获取不同文本之间的相似度。
本发明实施例还提供了一种文本相似度获取装置,该装置包括:
提取单元,用于根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
相似度获取单元,用于利用文本的相似哈希值获取不同文本之间的相似度。
本发明实施例的有益效果是:
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
附图说明
图1为本发明实施例一提供的一种文本相似度获取方法流程示意图;
图2为本发明实施例一提供的更新标记数组中元素的方法流程示意图;
图3为本发明实施例二提供的一种文本相似度获取装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例一提供的一种文本相似度获取方法,该方法包括:
11:根预定的停用词规则,剔除各文本中的停用词,提取出所述文本的可用词;
本实施例中,首先使用基于统计的分词系统对所需处理的文本进行分词,即根据预定的停用词规则剔除停用词,得到仅包含可用词(即文本中除去停用词之外的词语)的文本。计算机对于中文分词的处理难度要高于对西文的分词处理难度,分词是中文文本相似度计算的基础和前提,本方案通过采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。
上述停用词规则所确定的停用词可以预先通过样本统计得到,例如,对样本中各字符的出现频率进行统计,在出现频率大于词频阈值的字符中确定停用词。例如,对出现频率大于词频阈值的词语(即词频较高),若该词语本身又无意义,则将该词语确定为停用词,如文本中的副词、虚词、语气词等通常都被归类为停用词。
比如:一个文本s的示例为“你好啊上帝的朋友”,则剔除掉“啊,的”等停用词得到由可用词{W1,W2,W3...Wn}组成的文本,这些可用词可以作为哈希结构中的键(keys),文本s的keys为{″你好″,″上帝″,″朋友″}。
12:计算文本中每一可用词的哈希值;
使用哈希函数,如表示为bjd_hash(),对文本中每个可用词进行哈希计算,即将可用词作为哈希结构中的key,每次计算出来的值(Value)作为该可用词的哈希值。文本中的可用词可以由一个字符组成,如字符“我”,也可以由两个或多个字符组成,如包含两个字符“鸭梨”的可用词,可用词也可以由数字或运算符号等字符构成。
本实施例中,对每个可用词计算出来的哈希值均占8个字节(byte),也就是8*8个比特(bit)位,所得到的每个可用词的哈希值共有64bit,表达式可以表示如下:
64bit=bjd_hash(w1)(1)
上式表示了采用哈希函数bjd_hash()对可用词w1进行哈希计算后,得到64bit的哈希值。
13:根据文本中所有可用词的哈希值得到所述文本的相似哈希值,具体包括如下处理:
131:设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同。
相应与所设置的64bit的可用词的哈希值,本实施例中标记数组可以为一个长度为64的整型数组,该数组中包括了64个元素,分别与可用词的哈希值的64个比特位相对应。
132:遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值。
可以按照可用词在文本中的顺序依次提取可用词,也可以按照预定次序在文本中提取可用词。标记数组中的元素的初始值可以为0,也可以选取不为0的其他数值作为元素的初始值,优选的,本方案中采用0作为元素的初始值,参见图2,利用如下方式更新标记数组中的元素:
T1:提取可用词的哈希值中的当前比特位,即提取可用词的哈希值中当前比特位上的具体数值(比特值);
T2:判断当前比特位的具体数值,若是1,执行T3;若是0,执行T4。
T3:当可用词的哈希值的比特位为1时,将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值;
本实施例中,优选的,上述预定数值选取为1,即具有如下更新公式:
bitset[i]=bitset[i]+1(2)
上述等式左边的bitset[i]为更新后的元素的数值,上述等式右边的bitset[i]为更新后的元素的数值,i为序号,上式表示了利用可用词的哈希值的第i个比特位的比特位更新标记数组中第i个元素的场景。
T4:当可用词的哈希值的比特位为0时,将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。
本实施例中,优选的,上述预定数值选取为1,即具有如下更新公式:
bitset[i]=bitset[i]-1(3)
上述等式左边的bitset[i]为更新后的元素的数值,上述等式右边的bitset[i]为更新后的元素的数值,i为序号,上式表示了利用可用词的哈希值的第i个比特位的比特值更新标记数组中第i个元素的场景。
对文本中的所有可用词重复进行上述步骤T1至T4的操作,最后得到的标记数组将是对文本中所有可用词哈希值的每个比特位0或1出现次数的统计表。
133:利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。
在本步骤中,对标记数组里的元素的数值进行计算,归一成一个整数。
本实施例中设置相似哈希值的初始值,优选的,本实施例中该初始值设置为0,遍历更新后标记数组中的所有元素,利用每一元素的数值逐次更新所述相似哈希值的初始值,得到文本的相似哈希值,具体包括如下处理:
若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:
simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。n的取值可以为1至64,simhash(0)的数值为0。
优选的,本实施例中上述a的取值为2,上述b的取值为1,
则当前元素的数值大于0时,有如下公式:
simhash(n)=simhash(n-1)*2+1(4)
当前元素的数值不大于0时,有如下公式:
simhash(n)=simhash(n-1)*2(5)
14:利用文本的相似哈希值获取不同文本之间的相似度。
本实施例将两个文本的相似哈希值的比值作为所述两个文本的相似度,可以表示如下:
sim(%)=simhash1/simhash2(6)
上式中sim(%)表示两个文本的相似度,其数值采用百分比的方式表示,simhash1表示一个文本的相似哈希值,simhash2表示另一个文本的相似哈希值,当simhash1的数值小于simhash2时将simhash2作为上式中的分母,即通常将相比较的两个相似哈希值中数值较大的一个作为上式中的分母。
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
本发明实施例二还提供了一种文本相似度获取装置,参见图3,所述装置包括:
提取单元31,用于根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元32,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元33,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
相似度获取单元34,用于利用文本的相似哈希值获取不同文本之间的相似度。
进一步的,所述相似哈希值获取单元33包括:
标记数组设置模块,用于设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同;例如,当可用词的哈希值采用64bit时,标记数组中的元素可以为64个。
数组元素更新模块,用于遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值。例如,当可用词的哈希值的比特位为1时,将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值,当可用词的哈希值的比特位为0时,将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。
获取模块,用于利用更新后得到的标记数组中元素的数值得到文本的相似哈希值。具体的,该获取模块设置相似哈希值的初始值,遍历更新后标记数组中的所有元素,利用每一元素的数值逐次更新所述相似哈希值的初始值,得到文本的相似哈希值,具体包括如下处理:
若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:
simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。n的取值可以为1至64,simhash(0)的数值为0。
优选的,本实施例中上述a的取值为2,上述b的取值为1,
上述相似度获取单元34,具体用于将两个文本的相似哈希值的比值作为所述两个文本的相似度。例如,将两个文本的相似哈希值的比值作为所述两个文本的相似度。
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
为了进一步说明本发明实施例的有益效果,下面给出几组文本示例以及实验数据:
实验一
文本S1的可用词(四个)包括:{″我″,″爱″,″吃″,″鸭梨″};
文本S2的可用词(四个)包括:{″我″,″爱″,″吃″,″梨″}
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=159789056
文本S2的相似哈希值为:simhash2=193344532
文本S1和文本S2的相似度为:sim(%)=159789056/193344532=82.6%
实验二
文本S1的可用词(四个)包括:{″尊敬″,″非常6+1″,″抽奖″,″领奖″};
文本S2的可用词(四个)包括:{″恭喜你″,″非常6+1″,″抽奖″,″领奖″};
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=3262926994
文本S2的相似哈希值为:simhash2=3229440400
文本S1和文本S2的相似度为:sim(%)=98%
实验三
文本S1的可用词(四个)包括:{″尊敬″,″非常6+1″,″抽奖″,″领奖″};
文本S2的可用词(四个)包括:{″用户″,″你好″,″恭喜″,″领奖″};
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=3262926994
文本S2的相似哈希值为:simhash2=424180509
文本S1和文本S2的相似度为:sim(%)=13%
实验四
文本S1的可用词(四个)包括:{″我″,″可能″,″知道″,″这事″};
文本S2的可用词(四个)包括:{″这事″,″我″,″可能″,″知道″};
实验采用长度为64的初始为0的标记数组,以及上述公式(1)至(6),则得到:
文本S1的相似哈希值为:simhash1=3263299844
文本S2的相似哈希值为:simhash2=3263299844
文本S1和文本S2的相似度为:sim(%)=100%
由上述实验数据可以看出,当两个文本之间的较相似时,如实验一和实验二所示的情况,利用本方案获取到的相似度也较大,相似度在80%以上,而当两个文本之间的差异较大时,如实验三所示的情况,利用本方案获取到的相似度较小,仅为13%,从而利用本方案能够准确识别出相似度较高的文本。
并且,本方案的相似度不依赖于文本中可用词的顺序,相似度与可用词的顺序无关,如实验四所示的场景,即使文本中可用词的顺序不同,只要文本中可用词在内容上是实质相同的,本方案就能够准确识别相似的文本。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (4)

1.一种文本相似度获取方法,其特征在于,所述方法包括:
基于统计的分词系统对所需处理的文本进行分词,根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
计算文本中每一可用词的哈希值;
根据文本中所有可用词的哈希值得到所述文本的相似哈希值,所述根据文本中所有可用词的哈希值得到所述文本的相似哈希值包括:设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同;遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值;利用更新后得到的标记数组中元素的数值得到文本的相似哈希值;所述文本的相似哈希值归一成一个整数;
利用文本的相似哈希值获取不同文本之间的相似度;所述利用文本的相似哈希值获取不同文本之间的相似度包括:将相比较的两个相似哈希值中数值较大的一个作为分母,将两个文本的相似哈希值的比值作为所述两个文本的相似度;
所述利用更新后得到的标记数组中元素的数值得到文本的相似哈希值包括:
设置相似哈希值的初始值,遍历更新后标记数组中的所有元素,
若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。
2.根据权利要求1所述的方法,其特征在于,所述预定的停用词规则通过如下方式确定停用词:
对样本中各词语的出现频率进行统计,在出现频率大于词频阈值的词语中确定停用词。
3.根据权利要求1所述的方法,其特征在于,所述利用每一可用词的哈希值的每一比特位逐次更新相似哈希值中相应元素的数值包括:
当可用词的哈希值的比特位为1时,将相似哈希值中相应元素的数值增加预定数值后作为更新后的该元素的数值;
当可用词的哈希值的比特位为0时,将相似哈希值中相应元素的数值减少预定数值后作为更新后的该元素的数值。
4.一种文本相似度获取装置,其特征在于,所述装置包括:
提取单元,用于基于统计的分词系统对所需处理的文本进行分词,根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值,所述文本的相似哈希值归一成一个整数;
相似度获取单元,用于利用文本的相似哈希值获取不同文本之间的相似度;所述相似度获取单元,具体用于将相比较的两个相似哈希值中数值较大的一个作为分母,将两个文本的相似哈希值的比值作为所述两个文本的相似度;
所述相似哈希值获取单元包括:
标记数组设置模块,用于设置具有预定数目元素的标记数组,所述预定数目与所述可用词的哈希值的比特位数相同;
数组元素更新模块,用于遍历文本中的所有可用词,利用每一可用词的哈希值的每一比特位逐次更新标记数组中相应元素的数值;
获取模块,用于利用更新后得到的标记数组中元素的数值得到文本的相似哈希值,具体包括如下处理:设置相似哈希值的初始值,遍历更新后标记数组中的所有元素,若当前元素的数值大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a+b
若当前元素的数值不大于0时,利用如下公式更新所述相似哈希值的初始值:simhash(n)=simhash(n-1)*a
其中,上述公式中simhash(n)表示当前利用第n个元素更新后的初始值,simhash(n-1)表示上一次利用第n-1个元素更新后的初始值,a和b为线性参数。
CN201110372083.3A 2011-11-21 2011-11-21 文本相似度获取方法和装置 Active CN103123618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110372083.3A CN103123618B (zh) 2011-11-21 2011-11-21 文本相似度获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110372083.3A CN103123618B (zh) 2011-11-21 2011-11-21 文本相似度获取方法和装置

Publications (2)

Publication Number Publication Date
CN103123618A CN103123618A (zh) 2013-05-29
CN103123618B true CN103123618B (zh) 2016-09-14

Family

ID=48454598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110372083.3A Active CN103123618B (zh) 2011-11-21 2011-11-21 文本相似度获取方法和装置

Country Status (1)

Country Link
CN (1) CN103123618B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425639A (zh) * 2013-09-06 2013-12-04 广州一呼百应网络技术有限公司 一种基于信息指纹的相似信息识别方法
CN103902905B (zh) * 2013-12-17 2017-02-15 哈尔滨安天科技股份有限公司 基于软件结构聚类的恶意代码生成器识别方法及系统
CN104866478B (zh) * 2014-02-21 2020-06-05 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN105335422B (zh) * 2014-08-06 2019-02-22 阿里巴巴集团控股有限公司 舆情信息的告警方法及装置
CN106844325B (zh) * 2015-12-04 2022-01-25 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN107329947B (zh) * 2017-05-15 2019-07-26 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108304378B (zh) * 2018-01-12 2019-09-24 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108595415B (zh) * 2018-03-26 2022-06-14 北京北大英华科技有限公司 一种法律差异化判定方法、装置及计算机设备、存储介质
CN109033093A (zh) * 2018-07-01 2018-12-18 东莞市华睿电子科技有限公司 一种基于相似度匹配的文本翻译方法
CN109299260B (zh) * 2018-09-29 2021-01-19 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN109271487A (zh) * 2018-09-29 2019-01-25 浪潮软件股份有限公司 一种相似文本分析方法
CN109492078A (zh) * 2018-09-30 2019-03-19 普强信息技术(北京)有限公司 一种基于动态停词的原因挖掘方法
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN111581328A (zh) * 2020-04-21 2020-08-25 浙江华途信息安全技术股份有限公司 一种数据比对检测方法及系统
CN112035621A (zh) * 2020-09-03 2020-12-04 江苏经贸职业技术学院 一种基于统计学的企业名名称相似度检测方法
CN112364124B (zh) * 2020-11-19 2022-04-26 湖南红网新媒体集团有限公司 一种文本相似度匹配及计算方法、系统和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
知识抽取中的停用词处理技术;化柏林;《现代图书情报技术》;20070831(第8期);49 *
网页查重算法Shingling和Simhash研究;马成前,毛许光;《计算机与数字工程》;20090131;第37卷(第1期);16-17 *

Also Published As

Publication number Publication date
CN103123618A (zh) 2013-05-29

Similar Documents

Publication Publication Date Title
CN103123618B (zh) 文本相似度获取方法和装置
CN107608949B (zh) 一种基于语义模型的文本信息抽取方法及装置
CN103077164B (zh) 文本分析方法及文本分析器
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104572622B (zh) 一种术语的筛选方法
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN104951469B (zh) 优化语料库的方法和装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106326303A (zh) 一种口语语义解析系统及方法
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN110188359B (zh) 一种文本实体抽取方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN106776555B (zh) 一种基于字模型的评论文本实体识别方法及装置
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN104598530B (zh) 一种领域术语抽取的方法
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN104035918A (zh) 一种采用上下文特征匹配的中文机构名简称识别系统
CN101833579A (zh) 一种自动检测学术不端文献的方法及系统
CN103324612A (zh) 一种分词的方法及装置
CN110909168A (zh) 知识图谱的更新方法和装置、存储介质及电子装置
CN105426379A (zh) 基于词语位置的关键字权值计算方法
CN104298709A (zh) 基于句间关联图的文本主题挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building 6 storey block A room 602

Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder