CN103049524B - 同义词检索结果按词义自动聚类方法 - Google Patents
同义词检索结果按词义自动聚类方法 Download PDFInfo
- Publication number
- CN103049524B CN103049524B CN201210556988.0A CN201210556988A CN103049524B CN 103049524 B CN103049524 B CN 103049524B CN 201210556988 A CN201210556988 A CN 201210556988A CN 103049524 B CN103049524 B CN 103049524B
- Authority
- CN
- China
- Prior art keywords
- retrieval
- result
- word
- level
- common factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种同义词检索结果按词义自动聚类方法,包括以下步骤:S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;S3,构建所述二级检索结果的交集矩阵;S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。
Description
技术领域
本发明属于文献检索和知识组织技术领域,具体涉及一种同义词检索结果按词义自动聚类方法。
背景技术
同义词在自然语言处理、信息检索等领域中具有十分重要的应用意义,通过扩展检索提高文献数据库和网络检索的效率,推动文献自动标引和检索的智能化,并能应用于分类表、叙词表、语义网络、本体等知识组织系统的构建,以及自动分类、自动文摘、自动翻译、自动问答和其他中文信息处理领域。
目前有各种类型的同义词检索系统,以客户端(比如有道、灵格斯、金山词霸等)或网络在线(比如)方式为用户提供同义词检索服务,表1分别列出了一些常见的客户端和在线的同义词检索系统。
表1.同义词检索系统示例
目前同义词检索系统存在一个普遍的缺陷,就是对同义词检索结果没有按照词义聚类。在实际应用中,通常只需要其中一种词义的同义词。以英文词汇“plant”为例,包含了工厂、植物、设备、种植等多种词义,对其进行同义词检索时,所有词义的同义词都会作为检索结果返回,而没有按照不同的词义进行聚类,因此检索者检索体验差,难以准确获得需要检索的信息。
因此,对同义词检索系统的检索结果按照词义进行聚类是许多重要应用迫切需要解决的关键技术问题之一,所以本发明具有非常重要的实际意义和广阔的应用前景。
发明内容
针对现有技术存在的缺陷,本发明提供一种同义词检索结果按词义自动聚类方法,能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。
本发明采用的技术方案如下:
本发明提供一种同义词检索结果按词义自动聚类方法,包括以下步骤:
S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;
S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;
S3,构建所述二级检索结果的交集矩阵;
S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;
S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。
优选的,所述一级检索结果得到m个词,则:S3,构建所述二级检索结果的交集矩阵具体为:
S31,初始化(m+1)×(m+1)大小的交集矩阵SM;
S32,将所述一级检索结果填入所述交集矩阵的首行首列;
S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格。
优选的,S32,将所述一级检索结果填入所述交集矩阵的首行首列具体为:
将所述一级检索结果填入所述交集矩阵的首行具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[0,1]、[0,2]...[0,m];
将所述一级检索结果填入所述交集矩阵的首列具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[1,0]、[2,0]...[m,0];
其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。
优选的,S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为:
对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。
优选的,S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵具体为:
所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同;
所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同;
对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值。
优选的,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值具体为:
对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列三种情况之一,则该单无格赋值1,否则赋值为0;
第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值1;
第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1;
第三种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1。
优选的,S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类具体包括:
S51,对所述一级检索结果按词义进行浅层聚类;
S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类。
优选的,S51,对所述一级检索结果按词义进行浅层聚类具体为:
在所述词义相似度矩阵中,如果一个单元格为1,则该单元格对应的行首词和列首词互为同义词,则该单元格对应的行首词和列首词形成一个集合,并作为所述浅层同义词聚类集合的一个元素。
优选的,S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类具体为:
如果所述浅层同义词聚类集合中,两个元素之间的交集不为空,则合并所述两个元素,并作为深层同义词聚类集合中的一个元素。
本发明的有益效果如下:
本发明提供一种同义词检索结果按词义自动聚类方法,能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。
附图说明
图1为本发明提供的同义词检索结果按词义自动聚类方法的流程示意图。
具体实施方式
以下结合附图对本发明进行详细说明:
实施例1
本发明基本思想为:假设给定的同义词检索系统的检索结果是正确的,即检索结果中的任意一个词与检索词都是同义词,只不过由于检索词出现一词多义时,检索结果中的词与词之间可能不是同义词。
给定任意一个可用的同义词检索系统,利用该同义词检索系统自身实现对同义词检索结果的按照词义自动聚类。该方法按实现顺序共分为五个步骤:向同义词检索系统提交检索词进行一级检索,获得一级检索结果;把一级检索结果中的每个词进行二级检索,获得二级检索结果,即一级检索结果中每个词的检索结果;构建二级检索结果交集矩阵;根据二级检索结果的交集矩阵构建词义相似度矩阵;根据词义相似度矩阵对检索结果聚类。
为达到上述目的,本发明采取的技术方案是:
本发明提供一种同义词检索结果按词义自动聚类方法,如图1所示,该方法包括五个步骤:A、一级检索结果的获取;B、二级检索结果的获取;C、构建二级检索结果交集矩阵;D、计算词义相似度;E、同义词聚类。
步骤A一级检索结果的获取过程进一步包括以下步骤:
A1、初始化一级检索结果集合FLR1;
A2、向同义词检索系统提交检索词x;
A3、同义词检索系统对提交的检索词x进行一级检索,如果检索结果为空,退出本次检索;否则转步骤A4;
A4、将一级检索结果{x1,x2,...,xm}放入从集合FLR1;
A5、返回A4得到的集合FLR1。
步骤B二级检索结果获取过程进一步包括:
B1、初始化临时集合TFLR1,将FLR1集合中元素全部复制到TFLR1;
B2、如果B1得到的集合TFLR1为空,转步骤B10;否则转步骤B3;
B3、初始化二级检索结果集合FLR2;
B4、从集合TFLR1中取出检索结果之一xi;
B5、初始化二级检索结果单项集合FLR2i;
B6、向同义词检索系统提交检索词xi;
B7、如果xi的检索结果为空,将集合FLR2i放入集合FLR2,转步骤B2,否则转步骤B8;
B8、将检索结果{xi1,xi2,...,xim1}放入从集合FLR2i;
B9、将集合FLR2i放入集合FLR2,转步骤B2;
B10、返回集合FLR2;
步骤C构建二级检索结果交集矩阵的过程进一步包括:
初始化(m+1)×(m+1)大小的交集矩阵;将一级检索结果填入交集矩阵的首行首列;将二级检索结果计算交集填入交集矩阵的其它单元格。其中,将所述一级检索结果填入所述交集矩阵的首行首列具体为:
将所述一级检索结果填入所述交集矩阵的首行具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[0,1]、[0,2]...[0,m];
将所述一级检索结果填入所述交集矩阵的首列具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[1,0]、[2,0]...[m,0];
其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为:
对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。
具体的,包括:
C1、初始化(m+1)×(m+1)矩阵SM[0-m,0-m],m为一级检索结果集合FLR1的元素个数;
C2、填写矩阵SM首行和首列的位置SM[i,j],i=0或j=0,且i和j不同时为0;
其中,填写矩阵SM首行和首列的位置进一步包括:
C2_1、初始化计数器i为0;
C2_2、如果i=m,转到步骤C2_6,否则转到步骤C2_3;
C2_3、i=i+1;
C2_4、取出集合FLR1中的元素xi;
C2_5、填入SM[i,0]和SM[0,i],转到步骤C2_2;
C2_6、返回矩阵SM。
C3、填写矩阵SM除首行和首列的其它位置SM[i,j],i≠0且j≠0。
其中步骤C3填写矩阵SM除首行和首列的其它位置进一步包括:
C3_1、初始化计数器i为0;
C3_2、如果i大于m,转步骤C3_12,否则转步骤C3_3;
C3_3、i=i+1;
C3_4、从集合FLR2中取出集合FLR2i;
C3_5、初始化计数器j为0;
C3_6、j=j+1;
C3_7、如果i等于j,转步骤C3_6,否则转步骤C3_8;
C3_8、如果j大于m,转步骤C3_1,否则转步骤C3_9;
C3_9、从集合FLR2中取出集合FLR2j;
C3_10、把FLR2i∩FLR2j填入SM[i,j];
C3_11、转步骤C3_6;
C3_12、返回矩阵SM。
步骤D计算词义相似度具体为:
所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同;
所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同;
对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值。其中,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值具体为:
对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列三种情况之一,则该单无格赋值1,否则赋值为0;
第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值1;
第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1;
第三种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1。
进一步包括:
D1、初始化(m+1)×(m+1)词义相似度矩阵WS[0-m,0-m];
D2、初始化计数器i为1;
D3、初始化计数器j为i+1;
D4、设SM[i,j]为0;
D5、如果SM[i,j]中元素数量大于等于2,设WS[i,j]为1;
D6、如果wi∈FLR2j,设WS[i,j]为1;
D7、如果wj∈FLR2i,设WS[i,j]为1;
D8、j=j+1;
D9、如果j>m,转到步骤D10,否则转到步骤D4;
D10、i=i+1;
D11、如果i≥m,转到步骤D12,否则转到步骤D3;
D12、输出词义相似度矩阵WS。
步骤E同义词聚类进一步包括:
E1、初始化同义词聚类集合SCS;
E2、进行浅层同义词聚类;
其中,步骤E2浅层同义词聚类具体包括:在所述词义相似度矩阵中,如果一个单元格为1,则该单元格对应的行首词和列首词互为同义词,则该单元格对应的行首词和列首词形成一个集合,并作为所述浅层同义词聚类集合的一个元素;
进一步包括:
E2_1、初始化计数器i为1;
E2_2、初始化计数器j为i+1;
E2_3、如果WS[i,j]为1,转步骤E2_4,否则转步骤E2_5;
E2_4、生成集合{wi,wj},将该集合作为一个元素加入到同义词聚类集合SCS中;
E2_5、j=j+1;
E2_6、如果j>m,转到步骤E2_7,否则转到步骤E2_3;
E2_7、i=i+1;
E2_8、如果i≥m,转到步骤E2_9,否则转到步骤E2_2;
E2_9、输出同义词聚类集合SCS。
E3、进行深层同义词聚类;
其中步骤E3深层同义词聚类具体为:如果所述浅层同义词聚类集合中,两个元素之间的交集不为空,则合并所述两个元素,并作为深层同义词聚类集合中的一个元素。
进一步包括:
E3_1、初始化深层同义词聚类集合DSCS为空;
E3_2、将集合SCS中的元素序列化为{s1,s2,...,s|SCS|},其中|SCS|为集合SCS当前的元素数量;
E3_3、初始化计数器j为2;
E3_4、如果|SCS|≤1,转步骤E39,否则从集合SCS中取出第1个元素s1;
E3_5、从集合SCS中取出第j个元素sj;
E3_6、如果s1∩sj不为空,s1=s1∪sj;
E3_7、如果当前j的值为|SCS|,转步骤E3_8,否则j=j+1,转步骤E3_4;
E3_8、将s1放入集合DSCS,转步骤E3_2;
E3_9、将集合DSCS中的所有元素加入集合SCS;
E3_10、返回集合SCS。
E4、输出同义词聚类结果SCS。
实施例二
下面结合附图和实施例对本发明作进一步地描述。
以检索词book为例描述本发明所提出的同义词检索结果按词义自动聚类方法。表2列出了book的一级检索结果和二级检索结果。为了便于理解,检索结果作了必要的简化。
表2
按照本发明提出的5个步骤,分别执行如下:
A、一级检索结果的获取
输入检索词“book”,得到一级检索结果“word”、“subscribe”、“reserve”、“volume”、“script”,
将这5个一级检索结果放入集合FLR1={“word”,“subscribe”,“reserve”,“volume”、“script”}。
B、二级检索结果的获取
输入检索词“word”,得到二级检索结果“term”、“phrase”、“book”、“talk”、“voice”,输入检索词“subscribe”,得到二级检索结果“allow”、“book”、“pledge”、“support”、“order”,
输入检索词“reserve”,得到二级检索结果“book”、“allow”、“substitute”、“cache”、“backup”、“spare”、“order”,
输入检索词“volume”,得到二级检索结果“tome”、“amount”、“mass”、“book”、“script”,
输入检索词“script”,得到二级检索结果“penmanship”、“writing”、“hand”、“book”,“term”
将5次检索结果分别作为独立的元素放入集合FLR2={{“term”、“phrase”、“book”、“talk”、“voice”},{“allow”、“book”、“pledge”、“support”、“order”},{“book”、“allow”、“substitute”、“cache”、“backup”、“spare”、“order”},{“book”、“allow”、“substitute”、“cache”、“backup”、“spare”、“order”},{“tome”、“amount”、“mass”、“book”},{“penmanship”、“writing”、“order”、“hand”、“book”}}
C、构建二级检索结果交集矩阵
构建矩阵SM[0-m,0-m]主要包括两步,一是填写矩阵的首行首列,分别按顺序填写一级检索结果,
Word | Subscribe | Reserve | Volume | Script | |
Word | |||||
Subscribe | |||||
Reserve | |||||
Volume | |||||
Script |
二是填写矩阵的其它单元格,第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。以第[2,3]单元格为例,第2个词是Subscribe,它的二级检索结果是{“allow”、“book”、“pledge”、“support”、“order”},第3个词是Reserve,它的二级检索结果是{“book”、“allow”、“substitute”、“cache”、“backup”、“spare”、“order”},它们的交集是{“allow”、“book”、“order”},这样计算每个单元格,得到最终的SM矩阵
D、计算词义相似度
初始化词义相似度矩阵WS
Word | Subscribe | Reserve | Volume | Script | |
Word | |||||
Subscribe | |||||
Reserve | |||||
Volume | |||||
Script |
计算每个单元格的语义相似度值,计算方法按照步骤D5、D6、D7,得到最终WS矩阵
Word | Subscribe | Reserve | Volume | Script |
Word | 0 | 0 | 0 | 1 | |
Subscribe | 0 | 1 | 0 | 0 | |
Reserve | 0 | 1 | 0 | 0 | |
Volume | 0 | 0 | 0 | 1 | |
Script | 1 | 0 | 0 | 1 |
E、同义词聚类
浅层聚类结果:{{“word”、“script”}、{“subscribe”、“reserve”}、{“volume”、“script”}}深层聚类结果:{{“word”、“script”、“volume”}、{“subscribe”、“reserve”}}
经过这5个步骤,book的同义词检索结果被聚成了两个集合,每个集合代表不同的词义,第1个集合是“书籍文本”的含义,第2个集合是“预订”的含义。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (2)
1.一种同义词检索结果按词义自动聚类方法,其特征在于,包括以下步骤:
S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;
S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;
S3,构建所述二级检索结果的交集矩阵;
S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;
S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类;
其中,所述一级检索结果得到m个词,则:S3,构建所述二级检索结果的交集矩阵具体为:
S31,初始化(m+1)×(m+1)大小的交集矩阵SM;
S32,将所述一级检索结果填入所述交集矩阵的首行首列;
S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格;
其中,S32,将所述一级检索结果填入所述交集矩阵的首行首列具体为:
将所述一级检索结果填入所述交集矩阵的首行具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[0,1]、[0,2]…[0,m];
将所述一级检索结果填入所述交集矩阵的首列具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[1,0]、[2,0]…[m,0];
其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同;
其中,S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为:
对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集;
其中,S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵具体为:
所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同;
所述词义相似度矩阵的首行首列与所述二级检索结果的交集矩阵的首行首列相同;
对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值;
其中,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值具体为:
对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列两种情况之一,则该单元格赋值1,否则赋值为0;
第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值1;
第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1;
其中,S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类具体包括:
S51,对所述一级检索结果按词义进行浅层聚类;
S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类;
其中,S51,对所述一级检索结果按词义进行浅层聚类具体为:
在所述词义相似度矩阵中,如果一个单元格为1,则该单元格对应的行首词和列首词互为同义词,则该单元格对应的行首词和列首词形成一个集合,并作为浅层同义词聚类集合的一个元素。
2.根据权利要求1所述的同义词检索结果按词义自动聚类方法,其特征在于,S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类具体为:
如果所述浅层同义词聚类集合中,两个元素之间的交集不为空,则合并所述两个元素,并作为深层同义词聚类集合中的一个元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210556988.0A CN103049524B (zh) | 2012-12-20 | 2012-12-20 | 同义词检索结果按词义自动聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210556988.0A CN103049524B (zh) | 2012-12-20 | 2012-12-20 | 同义词检索结果按词义自动聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103049524A CN103049524A (zh) | 2013-04-17 |
CN103049524B true CN103049524B (zh) | 2016-01-06 |
Family
ID=48062165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210556988.0A Expired - Fee Related CN103049524B (zh) | 2012-12-20 | 2012-12-20 | 同义词检索结果按词义自动聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049524B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2618375C2 (ru) * | 2015-07-02 | 2017-05-03 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Расширение возможностей информационного поиска |
CN104778204B (zh) * | 2015-03-02 | 2018-03-02 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
CN107679174A (zh) * | 2017-09-29 | 2018-02-09 | 中国科学技术信息研究所 | 知识组织系统的构建方法、装置及服务器 |
CN112560455A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 一种数据的融合方法及相关系统 |
CN113297452A (zh) * | 2020-05-26 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 多级检索方法、多级检索装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN101986296A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 基于语义本体的噪声数据清洗方法 |
CN102117320A (zh) * | 2011-01-11 | 2011-07-06 | 百度在线网络技术(北京)有限公司 | 一种结构化数据搜索的方法和装置 |
CN102184256A (zh) * | 2011-06-02 | 2011-09-14 | 北京邮电大学 | 一种针对海量相似短文本的聚类方法和系统 |
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
-
2012
- 2012-12-20 CN CN201210556988.0A patent/CN103049524B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN101986296A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 基于语义本体的噪声数据清洗方法 |
CN102117320A (zh) * | 2011-01-11 | 2011-07-06 | 百度在线网络技术(北京)有限公司 | 一种结构化数据搜索的方法和装置 |
CN102184256A (zh) * | 2011-06-02 | 2011-09-14 | 北京邮电大学 | 一种针对海量相似短文本的聚类方法和系统 |
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103049524A (zh) | 2013-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049524B (zh) | 同义词检索结果按词义自动聚类方法 | |
CN104375992B (zh) | 一种地址匹配的方法和装置 | |
CN103186612B (zh) | 一种词汇分类的方法、系统和实现方法 | |
CN104200369B (zh) | 一种确定商品配送范围的方法和装置 | |
CN110209808A (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
CN101446962B (zh) | 一种数据转换方法、装置及数据处理系统 | |
CN103049568B (zh) | 对海量文档库的文档分类的方法 | |
CN102207946B (zh) | 一种知识网络的半自动生成方法 | |
CN103268348A (zh) | 一种用户查询意图识别方法 | |
CN102955833A (zh) | 一种通讯地址识别、标准化的方法 | |
CN105930316A (zh) | 专利撰写辅助系统及其辅助方法 | |
US8423350B1 (en) | Segmenting text for searching | |
Li et al. | Bursty event detection from microblog: a distributed and incremental approach | |
CN110275966B (zh) | 一种知识抽取方法及装置 | |
CN102955832A (zh) | 一种通讯地址识别、标准化的系统 | |
CN103559193A (zh) | 一种基于选择单元的主题建模方法 | |
CN105677795A (zh) | 抽象语义的推荐方法、推荐装置及推荐系统 | |
CN102646091A (zh) | 依存关系标注方法、装置和系统 | |
CN107480197A (zh) | 实体词识别方法及装置 | |
CN103136212A (zh) | 一种类别新词的挖掘方法及装置 | |
Li et al. | The first international ancient Chinese word segmentation and POS tagging bakeoff: Overview of the EvaHan 2022 evaluation campaign | |
Hyun et al. | An image selection framework for automatic report generation | |
Wan | Document-based hits model for multi-document summarization | |
CN112395856A (zh) | 文本匹配方法、装置、计算机系统及可读存储介质 | |
Zhang et al. | A topic model of observing Chinese characters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160106 Termination date: 20161220 |
|
CF01 | Termination of patent right due to non-payment of annual fee |