CN102081642A - 搜索引擎检索结果聚类的中文标签提取方法 - Google Patents

搜索引擎检索结果聚类的中文标签提取方法 Download PDF

Info

Publication number
CN102081642A
CN102081642A CN 201010527341 CN201010527341A CN102081642A CN 102081642 A CN102081642 A CN 102081642A CN 201010527341 CN201010527341 CN 201010527341 CN 201010527341 A CN201010527341 A CN 201010527341A CN 102081642 A CN102081642 A CN 102081642A
Authority
CN
China
Prior art keywords
seq
word
sequence
speech
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010527341
Other languages
English (en)
Inventor
董守斌
张丽平
张凌
李粤
袁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Count Network Co Ltd Of Park In Guangzhou
South China University of Technology SCUT
Original Assignee
Count Network Co Ltd Of Park In Guangzhou
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Count Network Co Ltd Of Park In Guangzhou, South China University of Technology SCUT filed Critical Count Network Co Ltd Of Park In Guangzhou
Priority to CN 201010527341 priority Critical patent/CN102081642A/zh
Publication of CN102081642A publication Critical patent/CN102081642A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索引擎检索结果聚类的中文标签提取方法,包括以下步骤:S1、用户输入查询词,形成输入文档;S2、选取候选词,对所有候选词评分;S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则选出得分最高的候选词;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;S4、计算各个有序词序列的频率,抽取高频词序列;S5、对高频词序列评分,并选取候选词序列;S6、判断选词序列是否被接受为标签,若是,则进入步骤S7;若否,则返回步骤S3;S7、根据生成的标签进行聚类;S8、结束操作。本发明可以减少噪音标签,使标签具有更好的代表性、简明性和完整性。

Description

搜索引擎检索结果聚类的中文标签提取方法
技术领域
本发明涉及基于搜索引擎的检索结果聚类的技术领域,特别涉及一种搜索引擎检索结果聚类的中文标签提取方法。
背景技术
对搜索引擎返回结果的聚类,是提高搜索引擎服务质量的重要手段。它把同一个子主题的网页分划到同一个类别当中,并对每个类用标签描述,作为对该类主题的概括,方便用户快速定位自己感兴趣的主题的网页。搜索引擎结果聚类的研究,是现代搜索引擎研究的热点和难点。
目前对搜索引擎检索结果聚类的标签生成方法可以分为两类:一、先聚类后抽取标签的方法;二、先抽取标签然后把文档划分到对应标签的方法。
(一)先聚类后抽取标签的方法:把每个文档以词的权值为元素,表示成向量形式,然后用一般的数值聚类的算法,如k均值聚类算法、层次聚类算法,对文档向量进行聚类,再通过每个聚类中词语的统计特征,抽取聚类中相应的标签。这是早期的搜索引擎结果聚类中采用的方法。这种方法基于一般数值聚类的方法对文档进行聚类,忽略了文档所固有的语义特性,使得文档的组织并没有和用户所期望的根据主题组织的方式相一致,而且各个聚类所对应的标签可读性差,无法准确地表述主题。聚类的数目以及聚类过程的终止也很难确定。
(二)先抽取标签后聚类的方法:先对输入文档抽取出所有的公共短语,然后通过不同评分方式选取若干公共短语作为候选标签,并合并相似度高的标签,再把文档划分到对应的标签当中。这是现代搜索引擎中普遍采用的聚类方法。这种方法着重于聚类标签的抽取,从而使得聚类标签有较高的可读性,同时,也使得文档能够更好地根据主题进行聚类。
现有的比较成熟的支持结果聚类的系统有元搜索引擎clusty、聚类引擎Carrot2等。但是,现有系统和算法所获得的对于中文查询的聚类结果,特别是聚类标签的质量,依然有待于改善。主要存在的问题有:
(一)标签的噪音问题:检索结果的聚类一般基于标题和摘要,然而标题和摘要当中包含了大量的与文档内容、主题不相关的词,从而在标签的抽取过程中引入了大量的噪音。而现有的噪音过滤技术主要是采用去掉html标记、去掉无意义的符号、去掉停用词等一些简单的方法,无法很好地解决噪音问题。
(二)标签不具有较好的主题代表性,且难以满足用户的查询需求。如Carrot2的一些聚类算法采用潜语义索引的方法,选取能最好代表各个概念的词或短语作为候选标签,但是效果不佳。如何抽取有主题代表性的标签来代表聚类,如何抽取与用户的查询密切相关的标签来细化用户的查询、提供用户感兴趣的信息,这是现有技术中还有待于完善的问题。
(三)标签的“不完整”和过于冗长的问题。简单短语提取方法提取的标签一般不够完整,无法完整表达聚类的内容。而潜语义索引的方法,从理论上来说又偏向于选取到过于冗长的标签。如何选取能够简明地表达完整语义的标签,这也是技术上需要深入研究的问题。
(四)被聚类的文档数比例过低的问题。由于一些聚类标签的提取方法(如潜语义索引的方法)通常计算开销较大,因此为了保证实时的在线响应,一般搜索引擎系统只能选择前几百个网页进行聚类,使得被聚类的文档比例过少,无法较完整地反映搜索结果的性质。
发明内容
本发明的目的在于克服上述现有技术的缺点和不足,提供一种搜索引擎检索结果聚类的中文标签提取方法,其可以减少噪音标签,使标签具有更好的代表性、简明性和完整性,更能满足用户的查询需求,提高被聚类文档的比例的效果。
本发明的目的通过下述技术设计方案实现:一种搜索引擎检索结果聚类的中文标签提取方法,包括以下步骤:
S1、用户输入查询词,在得到检索结果后,选取检索结果的前M个结果页面的摘要作为输入文档,形成文档集合,所述M为正整数;
S2、在输入文档中选取候选词,对所有候选词评分:根据各个候选词的主题代表性、以及候选词和用户查询词的相关性给各个候选词评分;
S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则在未作标记的候选词中,选出得分最高的候选词,并给予标记;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;
S4、计算步骤S3中各个有序词序列的频率,抽取高频词序列;
S5、根据完整性和简明性对步骤S4中抽取的高频词序列评分,并选取得分最高的词序列作为候选词序列;
S6、如果当前候选词序列所关联的文档,与已有的标签所关联的文档相比,其覆盖程度小于预设的阈值,则选取其对应的短语作为标签,进入步骤S7;否则该候选词序列未被接受为标签,则返回步骤S3;
S7、根据生成的标签进行聚类:根据步骤S6生成的标签,计算每个检索结果网页摘要与各标签的语义相关度,然后将与某标签相关度最高的文档划分到该类别;
S8、结束操作。
为更好的实现本发明,所述步骤S2中在输入文档中选取候选词,具体是指:
S2.11、对输入文档分词:对所有输入文档进行分词,把各个输入文档切分成词的有序序列,并得到各个词的词性标注,构成新的集合R1;
S2.12、选取候选词:在集合R1中抽取所有的出现频率不小于3次的动词、名词作为候选词。
优选的,所述步骤S2中对所有候选词评分,具体是包括以下步骤:
S2.21对R1中各个输入文档,仅保留其动词和名词,得到各个输入文档对应的新的有序词序列,构成新的集合R2;
S2.22选取任一未被评分的候选词,计算该候选词到查询词的平均距离:
从R2中抽取出同时包含该候选词和查询词的所有输入文档形成集合R3,由于集合R3中的各输入文档表示为有序词序列的形式,对于R3中的任一输入文档,所述有序词序列标记为(w1,w2,…,wq,…,wt,……,wk),其中候选词wt出现在序列中的第p1,p2,......,pm个位置,查询词wq出现在序列中的第q1,q2,......,qn个位置,则在该输入文档中,候选词到查询词的距离为所有|pi-qj|的最小值,其中i=1,2,......,m,j=1,2,.....,n;对R3中的所有输入文档,通过上述方法计算候选词到查询词的距离,求平均得到该候选词到查询词的平均距离,记为score1
S2.23计算包含了该候选词的输入文档之间的平均相似度:
对于步骤S2.22中选取的候选词,从集合R2中抽取出包含该词的所有输入文档并分别表示成向量,向量的每个元素用词的TF-IDF权重表示,用向量空间的余弦相似度的计算方法计算这些输入文档中任意两个文档的相似度,并对相似度求平均值,记为score2
S2.24计算该候选词的得分:
score(wt)=-α*r(wq)*score1+score2
其中,score(wt)代表的是wt的候选词得分,wt代表的是候选词,α代表的是score1的可变权值;wq代表的是查询词,r(wq)代表查询词在输入文档中的出现比率,r(wq)=包含查询词的输入文档个数/输入文档的总个数M;
S2.25判断是否已对所有候选词评分,若是,则进入步骤S3;若否,返回至步骤S2.22。
优选的,所述α值为3。
优选的,所述步骤S3中把这个选中的候选词拓展成为包含该词的有序词序列的集合,具体是指:
在集合R2中抽取出包含该候选词的所有输入文档,由于集合R2中的各输入文档表示为有序词序列的形式,假设把候选词标记为wt,任意一个所述序列标记为(w1,w2,……,wt……,wk),则所有满足i≤t且j≥t的子序列(wi,……,wj)将被作为扩展得到的词序列。
优选的,所述步骤S4中计算步骤S3中各个有序词序列的频率,抽取高频词序列,具体包括以下步骤:
假设待计算频率的序列为seq,令frequency(seq)表示seq的频率,length(seq)表示seq的长度,d(seq1,seq2)表示序列seq1与seq2之间的字符串编辑距离,delta(i)代表第i个文档中的词序列对seq频率增量的贡献,scale代表加权因子;
S4.1、选择一个未计算过频率的有序词序列seq;
S4.2、初始化,令frequency(seq)=0,i=1;
S4.3、对第i个输入文档Di,获取该文档的所有有序词序列集合Fi;
S4.4、对于Fi中的所有序列seql,计算d(seq,seql),令d min为这些距离中的最小值,如果d min/length(seq)超过给定阈值,则delta(i)=0,否则令delta(i)=1/(1+scale*d min/length(seq));
S4.5、令frequency(seq)=frequency(seq)+delta(i),判断是否已计算完词序列seq与所有输入文档中词序列的编辑距离,若否,则处理下一个输入文档,令i=i+1,跳转至步骤S4.3;若是,则进入步骤S4.6;
S4.6、判断是否已计算完步骤S3中各个有序词序列的频率,若否,返回至步骤S4.1;若是,则抽取高频词序列,进入步骤S5,所述高频词是指出现次数大于某个阈值的词,所述阈值由管理员设置。
优选的,所述scale值为2。
优选的,所述步骤S4.4中的阈值为1/3。
优选的,所述步骤S5中根据完整性和简明性对步骤S4中抽取的高频词序列评分,具体包括以下步骤:
S5.1计算词序列的右独立性:
以seq代表待评分的序列,以length(seq)表示seq的长度,以wb表示seq的最后一个词,以wb-1表示seq的倒数第二个词,则通过下式对序列的右独立性评分:
EN 1 = Σ t ∈ r ( w b ) N ( w b ) / N * p ( t | w b ) * log 2 ( N ( w b , t ) / N ( w b ) )
EN 2 = Σ t ∈ r ( w b ) N ( w b - 1 ) / N * p ( w b | w b - 1 ) p ( t | w b - 1 , w b ) * log 2 ( N ( w b - 1 , w b , t ) N ( w b - 1 , w b ) )
其中r(wb)表示所有位于wb的下一个位置的词,N(wb)表示wb总共出现的次数,N代表所有词的出现总次数,p(t|wb)代表wb的下一个词是t的概率,N(wb,t)表示词t出现在wb的下一个位置的次数,N(wb-1)表示wb-1总共出现的次数,p(wb|wb-1)代表wb-1的下一个词是wb的概率;p(t|wb-1,wb)代表wb-1、wb依次连续出现的条件下,wb的下一个词是t的概率;N(wb-1,wb,t)表示t出现在wb的下一个位置,同时wb出现在wb-1的下一个位置的次数;N(wb-1,wb)表示wb出现在wb-1的下一个位置的次数,上述的次数或概率均是指在R2中出现的概率或次数;
如果seq的长度不小于2,则右独立性评分为EN1和EN2的平均值,即右独立性评分INDR(seq)=0.5*(EN1+EN2),否则INDR(seq)=EN1
S5.2计算词序列的左独立性:
以seq表示待评分的序列,以length(seq)表示seq的长度,以wl表示seq的头一个词,以wl+1表示seq的第二个词,则通过下式对序列的左独立性评分:
EN ′ 1 = Σ t ∈ r ( w l ) N ( t ) / N * p ( w l | t ) * log 2 ( N ( t , w l ) / N ( w l ) )
EN ′ 2 = Σ t ∈ r ( w l ) N ( t ) / N * p ( w l | t ) * p ( w l + 1 | t , w l ) * log 2 ( N ( t , w l , w l + 1 ) N ( w l , w l + 1 ) )
其中r(wl)表示出现在wl的前一个位置的所有词的集合,N(wl)表示wl总共出现的次数,N(t,wl)表示wl出现在t的下一个位置的次数,p(wl|t)代表在t的下一个词是wl的概率,N(t)表示t总共出现的次数,N代表所有词的出现总次数;N(t,wl,wl+1)表示wl出现在t的下一个位置,同时wl+1出现在wl的下一个位置的次数;p(wl+1|t,wl)代表t、wl依次连续出现的条件下,wl的下一个词是wl+1的概率;N(wl,wl+1)表示wl+1出现在wl的下一个位置的次数,上述的次数或概率均是指在R2中出现的概率或次数;
如果seq的长度不小于2,则左独立性评分为EN′1和EN′2的平均值,即左独立性评分INDL(seq)=0.5*(EN′1+EN′2),否则INDL(seq)=EN′1
S5.3计算词序列的独立性分数:
独立性分数INDLR(seq)是左独立性评分和右独立性评分的平均值,即INDLR(seq)=0.5*(INDL(seq)+INDR(seq))。
优选的,所述步骤S6具体为:
假设该候选词词序列表示为seq(wl,……,wb),并假设已经接受了y个序列,已经划分到这y个序列的文档的并集为Dy,作出如下定义:
Snip 1 = { s | s ∈ snippets , { w l , . . . . . . , w b } ⊆ s }
Snip2={s|s∈Snip1∩Dy}
其中Snippets代表步骤S1中的文档集合,Snip1代表被该候选词序列所覆盖的摘要的个数;Snip2代表Snip1中被之前已经接受作为标签的词序列所覆盖的摘要的个数;
如果|Snip1|/|Snip2|小于给定的阈值,那么这个候选序列seq(wl,……,wb)将被接受,并且在原文输入文档中居于该序列之间的其它字或词将被补充上,从而得到完整的短语,生成为标签,进入步骤S7;若|Snip1|/|Snip2|不小于给定的阈值,则该候选词序列未被接受为标签,则返回步骤S3。
本发明与现有技术相比,具有如下优点和有益效果:
第一、本方法可大大减少噪音标签。本方法在提取标签时主要提取有主题意义的动名词,因此基本上不包括噪音。
第二、本方法提取的标签具有更好的主题代表性,并与查询具有更好的关联性。
本方法根据包含了该候选词的文档之间的平均相似度对该词评分,因为较好的具有主题代表性的词,能把内容相似度较高的文档聚到相应的类。本方法根据候选词到查询词的平均距离对该候选词评分。两个词之间的距离,是以这两个词在同时包含了这两个词的文档的出现位置之间最少的动、名词的总个数来衡量。这是因为:一方面,对查询词起细化、修饰、扩充的词,往往与查询词是相邻的,也即是这种能够较好地满足用户查询需求的词,一般与查询词之间的间隔较小;另一方面,网页的标题与摘要中往往可能包含多个句子,每个句子可能有不同的论述对象,所以其它不包含有查询词的句子,可能和查询词本身的相关性是较差的,甚至可能是噪音。因此以与查询词的间隔为度量能够使这些句子中所包含的词具有较低的得分,从而使标签具有更好的主题代表性和与查询的关联性。
另外本方法中利用采用字符串间的相似度作为词序列频率增量的加权,比起传统的频率计算方法,对于相似的、不同形式出现的词序列能有效地识别,从而更好地防止高频词的丢失,使标签具有更好的主题代表性和与查询的关联性。
第三、本方法提取的标签具有更好的简明性和更好的完整性。单个词可能使得标签的完整性较差,所以本发明中把候选词扩充成短语,意在把与候选词密切关联的其它成分加入,使得标签具有很好的可读性。
第四、本方法计算简单,简单易于实施,速度较快,具有较好的扩展性。
附图说明
图1是本发明搜索引擎检索结果聚类方法实现的流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
本搜索引擎检索结果聚类的中文标签提取方法,如图1所示,包括以下步骤:
S1、用户输入查询词,在得到检索结果后,选取检索结果的前M个结果页面的摘要作为输入文档,形成文档集合Snippets;所述M为正整数;
S2、对输入文档分词:(以下的输入文档均指的是检索结果网页,每个结果网页的输入只包括标题和摘要,不包括原始内容。)
对所有输入文档进行分词,把各个输入文档切分成词的有序序列,并得到各个词的词性标注,这些有序词序列构成新的集合R1;
S3、选取候选词
在集合R1中抽取所有的出现频率不小于3次的动词、名词作为候选词;
S4、对所有候选词评分:
对R1中各输入文档,仅保留其动词和名词,得到各个输入文档对应的新的有序词序列,这些有序词序列构成新的集合R2。
对于任一候选词,从R2中抽取出同时包含该词和查询词的所有输入文档形成集合R3。由于集合R3中的各输入文档表示为有序词序列的形式,对于R3中的任一输入文档,所述有序词序列标记为(w1,w2,…,wq,…,wt,……,wk),其中候选词wt出现在序列中的第p1,p2,......,pm个位置(因为在同一个输入文档中,同一候选词可能会多次出现),查询词wq出现在序列中的第q1,q2,......,qn个位置(因为在同一个输入文档中,同一查询词可能会多次出现),则在该输入文档中,候选词到查询词的距离为所有|pi-qj|的最小值,其中i=1,2,......,m,j=1,2,.....,n。对R3中的所有输入文档,通过上述方法计算候选词到查询词的距离,求平均得到该候选词到查询词的平均距离,记为score1。对于任意两个词,在某个同时包含了这两个词的输入文档中,这两个词之间的距离,是以这两个词在这个文档的出现位置之间最少的动、名词的总个数来衡量,这有利于提高简明性,与查询词的相关性,以及有效减少了噪音标签。
对于任一候选词,从集合R2中抽取出包含该词的所有输入文档并分别表示成向量,向量的每个元素用词的TF-IDF权重表示。用向量相似度的计算方法计算这些输入文档中任意两个文档的相似度,并对相似度求平均值,记为score2
候选词的得分的计算公式如下:
score(wt)=-α*r(wq)*score1+score2
其中,wt代表的是候选词,score(wt)代表的是wt的候选词得分,α代表的是score1的可变权值,可配置,本实施例中设定为3;wq代表的是查询词,r(wq)代表查询词在输入文档中的出现比率,r(wq)=包含查询词的输入文档个数/输入文档的总个数M;
S5、判断是否存在未作标记的候选词,若否,则跳转到步骤S10,若是,则在未作标记的候选词中,选出得分最高的候选词,并给予标记。把这个候选词拓展成为包含该词的有序词序列的集合,以实现标签的完整性目的,进入S6。
拓展的实现方式如下:在集合R2中抽取出包含该候选词的所有输入文档。由于集合R2中的各输入文档表示为有序词序列的形式,假设把候选词标记为wt,把任意一个所述序列标记为(w1,w2,……,wt……,wk),那么,所有满足i≤t且j≥t的子序列(wi,……,wj)将被作为扩展得到的词序列。
由于通过步骤S4选取到的是具有主题代表意义或者是与查询词有较好相关性的单个候选词。然而,单个词可能使得标签的完整性较差,所以在本实施例的步骤S5中把候选词扩充成短语,意在把与候选词密切关联的其它成分加入。另外,短语中非动、名词成分的添加、删除,往往不影响该短语的呈现,但是它们的存在又影响着短语间相似度的计算,所以在本步骤中使各个句子去除除动、名词外的其它词性的词,获取相应的有序词序列。
S6、计算步骤S5中各个有序词序列的频率,抽取高频词序列:
在词序列出现频率的计算中,一个词序列的出现,对于另一个词序列频率增量的贡献,以这两个词序列之间的相似度作度量,因此本实施例中运用编辑距离公式,计算词序列之间的相似度。由于语言表达的灵活性,一个词序列在各个文档中的表达形式可能不完全一致,包括词顺序的调换,或者其它修饰成分的插入或删除。所以传统的频率计算方式可能会丢弃出现形式灵活的词序列。所以用词序列的相似度之间作为频率增量的加权值,有利于提高文档的聚类比例。
假设待计算频率的序列为seq,令frequency(seq)表示seq的频率,length(seq)表示seq的长度,d(seq1,seq2)表示序列seq1与seq2之间的字符串编辑距离,delta(i)代表第i个文档中的词序列对seq频率增量的贡献,scale代表加权因子,本实施例中设为2;有序词序列频率的计算,具体包括以下步骤:
S6.1、选择一个未计算过频率的有序词序列seq;
S6.2、初始化,令frequency(seq)=0,i=1;
S6.3、对第i个输入文档Di,获取该文档的所有有序词序列集合Fi;
S6.4、对于Fi中的所有序列seql,计算d(seq,seql),令d min为这些距离中的最小值,如果d min/length(seq)超过给定阈值(本实施例中设为1/3),则delta(i)=0,否则令delta(i)=1/(1+scale*d min/length(seq));
S6.5、令frequency(seq)=frequency(seq)+delta(i),判断是否已计算完词序列seq与所有输入文档中词序列的编辑距离,若否,则处理下一个输入文档,令i=i+1,跳转至步骤S6.3;若是,则进入步骤S6.6;
S6.6、判断是否已计算完步骤S5中各个有序词序列的频率,若否,返回至步骤S6.1;若是,则抽取高频词序列进入步骤S7(高频词序列,是指出现次数大于某个阈值的词序列。在本实施例中,这个阈值设为3)。
S7、词序列评分,根据步骤S6中抽取的高频词序列的完整性和简明性对其评分,并选取得分最高的词序列作为候选词序列:
根据词序列的左独立性和右独立性,对各个词序列的完整性和简明性进行评分:其中左独立性是以输入文档中出现在词序列的第一个词的前一个位置出现的词的熵来估计;右独立性是以输入文档中出现在词序列的最后一个词的下一个位置出现的词的熵来估计。即假设步骤S6中抽取到的高频词序列seq表示为(wl,……,wb),该词序列的第一个词用wl表示,最后一个词用wb表示,则在输入文档中出现在wl的前一个位置出现的词的熵,来估计词序列的左独立性。以输入文档中出现在wb的后一个位置出现的词的熵,来估计词序列的右独立性。一个简明性和完整性较好的短语,具有较好的上下文独立性。同时,上下文独立性可以用熵来度量。熵越大,上下文独立性越强。
其中根据步骤S6中抽取的高频词序列的完整性和简明性对其评分,具体包括以下步骤:
S7.1计算词序列的右独立性:
以seq代表待评分的序列,以length(seq)表示seq的长度,以wb表示seq的最后一个词,以wb-1表示seq的倒数第二个词,则对于右独立性评分,基于一阶熵和二阶熵的计算原理给出两个得分EN1和EN2的计算公式分别如下:
EN 1 = Σ t ∈ r ( w b ) N ( w b ) / N * p ( t | w b ) * log 2 ( N ( w b , t ) / N ( w b ) )
EN 2 = Σ t ∈ r ( w b ) N ( w b - 1 ) / N * p ( w b | w b - 1 ) p ( t | w b - 1 , w b ) * log 2 ( N ( w b - 1 , w b , t ) N ( w b - 1 , w b ) )
其中r(wb)表示所有位于wb的下一个位置的词,N(wb)表示wb总共出现的次数,N代表所有词的出现总次数,p(t|wb)代表wb的下一个词是t的概率,N(wb,t)表示词t出现在wb的下一个位置的次数。N(wb-1)表示wb-1总共出现的次数,p(wb|wb-1)代表wb-1的下一个词是wb的概率,p(t|wb-1,wb)代表wb-1、wb依次连续出现的条件下,wb的下一个词是t的概率,N(wb-1,wb,t)表示t出现在wb的下一个位置,同时wb出现在wb-1的下一个位置的次数,N(wb-1,wb)表示wb出现在wb-1的下一个位置的次数(上述的次数或概率均是指在R2中出现的概率或次数);
如果seq的长度不小于2,则右独立性评分为EN1和EN2的平均值,即右独立性评分INDR(seq)=0.5*(EN1+EN2),否则INDR(seq)=EN1
S7.2计算词序列的左独立性:
以seq表示待评分的序列,以length(seq)表示seq的长度,以wl表示seq的头一个词,以wl+1表示seq的第二个词,则对于左独立性评分的计算,基于一阶熵和二阶熵的计算原理给出两个得分EN′1和EN′2的计算公式分别如下:
EN ′ 1 = Σ t ∈ r ( w l ) N ( t ) / N * p ( w l | t ) * log 2 ( N ( t , w l ) / N ( w l ) )
EN ′ 2 = Σ t ∈ r ( w l ) N ( t ) / N * p ( w l | t ) * p ( w l + 1 | t , w l ) * log 2 ( N ( t , w l , w l + 1 ) N ( w l , w l + 1 ) )
其中r(wl)表示出现在wl的前一个位置的所有词的集合,N(wl)表示wl总共出现的次数,N(t,wl)表示wl出现在t的下一个位置的次数,p(wl|t)代表在t的下一个词是wl的概率,N(t)表示t总共出现的次数,N代表所有词的出现总次数;N(t,wl,wl+1)表示wl出现在t的下一个位置,同时wl+1出现在wl的下一个位置的次数,p(wl+1|t,wl)代表t、wl依次连续出现的条件下,wl的下一个词是wl+1的概率;N(wl,wl+1)表示wl+1出现在wl的下一个位置的次数,上述的次数或概率均是指在R2中出现的概率或次数。
如果seq的长度不小于2,则左独立性评分为EN′1和EN′2的平均值,左独立性评分INDL(seq)=0.5*(EN′1+EN′2),否则INDL(seq)=EN′1
S7.3计算词序列的独立性分数:
独立性分数INDLR(seq)是左独立性评分和右独立性评分的平均值,即INDLR(seq)=0.5*(INDL(seq)+INDR(seq))。
S8、判断是否接受步骤S7中选取的候选词序列:
假设该候选词词序列表示为seq(wl,……,wb),并假设已经接受了y个序列,已经划分到这y个序列的文档的并集为Dy,作出如下定义:
Snip 1 = { s | s ∈ Snippets , { w l , . . . . . . , w b } ⊆ s }
Snip2={s|s∈Snip1∩Dy}
其中Snip1代表被该候选词序列所覆盖的摘要;Snip2代表Snip1中被之前已经接受作为标签的词序列所覆盖的摘要。
如果|Snip1|/|Snip2|小于给定的阈值(本实施例中设定阈值为0.5),那么这个候选序列seq(wl,……,wb)将被接受,并且在原文输入文档中居于该序列之间的其它字或词将被补充上,从而得到完整的短语,生成为标签,进入步骤S9;若|Snip1|/|Snip2|不小于给定的阈值,则该候选词序列未被接受为标签,则返回步骤S5。
S9、根据生成的标签进行聚类
根据步骤S8生成的标签,计算每个检索结果网页摘要与各标签的语义相关度,然后将与某标签相关度最高的文档划分到该类别。
S10、结束操作。
上述步骤S8和步骤S9中,如果当前候选词序列所关联的文档,被已有的标签所关联的文的覆盖程度小于给定的阈值,那么这个候选序列将被接受,对于短语将被作为标签。一方面,这样可以去除重复的或者高相似度的标签。另一方面,结合步骤S4,可以去除低质量的标签。因为候选词评分是根据它的主题代表性以及查询相关性,某个候选词得分越低,就越靠后被选取,那么与它对应的词序列所关联的文档,和接受的标签所关联的文档的重复率就越大。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,包括以下步骤:
S1、用户输入查询词,在得到检索结果后,选取检索结果的前M个结果页面的摘要作为输入文档,形成文档集合,所述M为正整数;
S2、在输入文档中选取候选词,对所有候选词评分:根据各个候选词的主题代表性、以及候选词和用户查询词的相关性给各个候选词评分;
S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则在未作标记的候选词中,选出得分最高的候选词,并给予标记;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;
S4、计算步骤S3中各个有序词序列的频率,抽取高频词序列;
S5、根据完整性和简明性对步骤S4中抽取的高频词序列评分,并选取得分最高的词序列作为候选词序列;
S6、如果当前候选词序列所关联的文档,与已有的标签所关联的文档相比,其覆盖程度小于预设的阈值,则选取其对应的短语作为标签,进入步骤S7;否则该候选词序列未被接受为标签,则返回步骤S3;
S7、根据生成的标签进行聚类:根据步骤S6生成的标签,计算每个检索结果网页摘要与各标签的语义相关度,然后将与某标签相关度最高的文档划分到该类别;
S8、结束操作。
2.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S2中在输入文档中选取候选词,具体是指:
S2.11、对输入文档分词:对所有输入文档进行分词,把各个输入文档切分成词的有序序列,并得到各个词的词性标注,构成新的集合R1;
S2.12、选取候选词:在集合R1中抽取所有的出现频率不小于3次的动词、名词作为候选词。
3.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S2中对所有候选词评分,具体是包括以下步骤:
S2.21对R1中各输入文档,仅保留其动词和名词,得到各个输入文档对应的新的有序词序列,构成新的集合R2;
S2.22选取任一未被评分的候选词,计算该候选词到查询词的平均距离:
从R2中抽取出同时包含该候选词和查询词的所有输入文档形成集合R3,由于集合R3中的各输入文档表示为有序词序列的形式,对于R3中的任一输入文档,所述有序词序列标记为(w1,w2,…,wq,…,wt,……,wk),其中候选词wt出现在序列中的第p1,p2,......,pm个位置,查询词wq出现在序列中的第q1,q2,......,qn个位置,则在该输入文档中,候选词到查询词的距离为所有|pi-qj|的最小值,其中i=1,2,......,m,j=1,2,.....,n,对R3中的所有输入文档,通过上述方式计算候选词到查询词的距离,求平均得到该候选词到查询词的平均距离,记为score1
S2.23计算包含了该候选词的输入文档之间的平均相似度:
对于步骤S2.22中选取的候选词,从集合R2中抽取出包含该词的所有输入文档并分别表示成向量,向量的每个元素用词的TF-IDF权重表示,用向量空间的余弦相似度的计算方法计算这些输入文档中任意两个文档的相似度,并对相似度求平均值,记为score2
S2.24计算该候选词的得分:
score(wt)=-α*r(wq)*score1+score2
其中,score(wt)代表的是wt的候选词得分,wt代表的是候选词,α代表的是score1的可变权值;wq代表的是查询词,r(wq)代表查询词在输入文档中的出现比率,r(wq)=包含查询词的输入文档个数/输入文档的总个数M;
S2.25判断是否已对所有候选词评分,若是,则进入步骤S3;若否,返回至步骤S2.22。
4.根据权利要求3所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述α值为3。
5.根据权利要求3所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S3中把这个选中的候选词拓展成为包含该词的有序词序列的集合,具体是指:
在集合R2中抽取出包含该候选词的所有输入文档,由于集合R2中的各输入文档表示为有序词序列的形式,假设把候选词标记为wt,任意一个所述序列标记为(w1,w2,……,wt……,wk),则所有满足i≤t且j≥t的子序列(wi,……,wj)将被作为扩展得到的词序列。
6.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S4中计算步骤S3中各个有序词序列的频率,抽取高频词序列,具体包括以下步骤:
假设待计算频率的序列为seq,令frequency(seq)表示seq的频率,length(seq)表示seq的长度,d(seq1,seq2)表示序列seq1与seq2之间的字符串编辑距离,delta(i)代表第i个文档中的词序列对seq频率增量的贡献,scale代表加权因子;
S4.1、选择一个未计算过频率的有序词序列seq;
S4.2、初始化,令frequency(seq)=0,i=1;
S4.3、对第i个输入文档Di,获取该文档的所有有序词序列集合Fi;
S4.4、对于Fi中的所有序列seql,计算d(seq,seql),令d min为这些距离中的最小值,如果d min/length(seq)超过给定阈值,则delta(i)=0,否则令delta(i)=1/(1+scale*d min/length(seq));
S4.5、令frequency(seq)=frequency(seq)+delta(i),判断是否已计算完词序列seq与所有输入文档中词序列的编辑距离,若否,则处理下一个输入文档,令i=i+1,跳转至步骤S4.3;若是,则进入步骤S4.6;
S4.6、判断是否已计算完步骤S3中各个有序词序列的频率,若否,返回至步骤S4.1;若是,则抽取高频词序列,进入步骤S5,所述高频词是指出现次数大于某个阈值的词,所述阈值由管理员设置。
7.根据权利要求6所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述scale值为2。
8.根据权利要求6所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S4.4中的阈值为1/3。
9.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S5中根据完整性和简明性对步骤S4中抽取的高频词序列评分,具体包括以下步骤:
S5.1计算词序列的右独立性:
以seq代表待评分的序列,以length(seq)表示seq的长度,以wb表示seq的最后一个词,以wb-1表示seq的倒数第二个词,则通过下式对序列的右独立性评分:
EN 1 = Σ t ∈ r ( w b ) N ( w b ) / N * p ( t | w b ) * log 2 ( N ( w b , t ) / N ( w b ) )
EN 2 = Σ t ∈ r ( w b ) N ( w b - 1 ) / N * p ( w b | w b - 1 ) p ( t | w b - 1 , w b ) * log 2 ( N ( w b - 1 , w b , t ) N ( w b - 1 , w b ) )
其中r(wb)表示所有位于wb的下一个位置的词,N(wb)表示wb总共出现的次数,N代表所有词的出现总次数,p(t|wb)代表wb的下一个词是t的概率,N(wb,t)表示词t出现在wb的下一个位置的次数,N(wb-1)表示wb-1总共出现的次数,p(wb|wb-1)代表wb-1的下一个词是wb的概率;p(t|wb-1,wb)代表wb-1、wb依次连续出现的条件下,wb的下一个词是t的概率;N(wb-1,wb,t)表示t出现在wb的下一个位置,同时wb出现在wb-1的下一个位置的次数;N(wb-1,wb)表示wb出现在wb-1的下一个位置的次数,上述的次数或概率均是指在R2中出现的概率或次数;
如果seq的长度不小于2,则右独立性评分为EN1和EN2的平均值,即右独立性评分INDR(seq)=0.5*(EN1+EN2),否则INDR(seq)=EN1
S5.2计算词序列的左独立性:
以seq表示待评分的序列,以length(seq)表示seq的长度,以wl表示seq的头一个词,以wl+1表示seq的第二个词,则通过下式对序列的左独立性评分:
EN ′ 1 = Σ t ∈ r ( w l ) N ( t ) / N * p ( w l | t ) * log 2 ( N ( t , w l ) / N ( w l ) )
EN ′ 2 = Σ t ∈ r ( w l ) N ( t ) / N * p ( w l | t ) * p ( w l + 1 | t , w l ) * log 2 ( N ( t , w l , w l + 1 ) N ( w l , w l + 1 ) )
其中r(wl)表示出现在wl的前一个位置的所有词的集合,N(wl)表示wl总共出现的次数,N(t,wl)表示wl出现在t的下一个位置的次数,p(wl|t)代表在t的下一个词是wl的概率,N(t)表示t总共出现的次数,N代表所有词的出现总次数;N(t,wl,wl+1)表示wl出现在t的下一个位置,同时wl+1出现在wl的下一个位置的次数;p(wl+1|t,wl)代表t、wl依次连续出现的条件下,wl的下一个词是wl+1的概率;N(wl,wl+1)表示wl+1出现在wl的下一个位置的次数,上述的次数或概率均是指在R2中出现的概率或次数;
如果seq的长度不小于2,则左独立性评分为EN′1和EN′2的平均值,即左独立性评分INDL(seq)=0.5*(EN′1+EN′2),否则INDL(seq)=EN′1
S5.3计算词序列的独立性分数:
独立性分数INDLR(seq)是左独立性评分和右独立性评分的平均值,即INDLR(seq)=0.5*(INDL(seq)+INDR(seq))。
10.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,所述步骤S6具体为:
假设该候选词词序列表示为seq(wl,……,wb),并假设已经接受了y个序列,已经划分到这y个序列的文档的并集为Dy,作出如下定义:
Snip 1 = { s | s ∈ snippets , { w l , . . . . . . , w b } ⊆ s }
Snip2={s|s∈Snip1∩Dy}
其中Snippets代表步骤S1中的文档集合,Snip1代表被该候选词序列所覆盖的摘要的个数;Snip2代表Snip1中被之前已经接受作为标签的词序列所覆盖的摘要的个数;
如果|Snip1|/|Snip2|小于给定的阈值,那么这个候选序列seq(wl,……,wb)将被接受,并且在原文输入文档中居于该序列之间的其它字或词将被补充上,从而得到完整的短语,生成为标签,进入步骤S7;若|Snip1|/|Snip2|不小于给定的阈值,则该候选词序列未被接受为标签,则返回步骤S3。
CN 201010527341 2010-10-28 2010-10-28 搜索引擎检索结果聚类的中文标签提取方法 Pending CN102081642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010527341 CN102081642A (zh) 2010-10-28 2010-10-28 搜索引擎检索结果聚类的中文标签提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010527341 CN102081642A (zh) 2010-10-28 2010-10-28 搜索引擎检索结果聚类的中文标签提取方法

Publications (1)

Publication Number Publication Date
CN102081642A true CN102081642A (zh) 2011-06-01

Family

ID=44087606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010527341 Pending CN102081642A (zh) 2010-10-28 2010-10-28 搜索引擎检索结果聚类的中文标签提取方法

Country Status (1)

Country Link
CN (1) CN102081642A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999569A (zh) * 2012-11-09 2013-03-27 同济大学 用户需求分析定位器和分析及定位方法
CN103020295A (zh) * 2012-12-28 2013-04-03 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
WO2013102396A1 (zh) * 2012-01-05 2013-07-11 腾讯科技(深圳)有限公司 一种自动给文档添加标签的方法、装置以及计算机存储介质
CN103544139A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的正向分词方法及装置
CN103631769A (zh) * 2012-08-23 2014-03-12 北京百度网讯科技有限公司 一种判断文件内容与标题间一致性的方法及装置
WO2014173349A1 (zh) * 2013-09-04 2014-10-30 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
WO2014206151A1 (en) * 2013-06-24 2014-12-31 Tencent Technology (Shenzhen) Company Limited System and method for tagging and searching documents
CN106021234A (zh) * 2016-05-31 2016-10-12 徐子涵 标签提取方法及系统
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN106997335A (zh) * 2016-01-26 2017-08-01 阿里巴巴集团控股有限公司 相同字符串的判定方法及装置
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN107679217A (zh) * 2017-10-19 2018-02-09 北京百度网讯科技有限公司 基于数据挖掘的关联内容提取方法和装置
CN107862089A (zh) * 2017-12-02 2018-03-30 北京工业大学 一种基于感知数据的标签提取方法
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108416008A (zh) * 2018-02-28 2018-08-17 华南理工大学 一种基于自然语言处理的bim产品数据库语义检索方法
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
WO2019242328A1 (zh) * 2018-06-20 2019-12-26 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质
CN115795023A (zh) * 2022-11-22 2023-03-14 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458708A (zh) * 2008-12-05 2009-06-17 北京大学 检索结果聚类方法及装置
GB2459839A (en) * 2008-05-02 2009-11-11 Xancom Ltd Storing broad/multicast packet headers/labels in an unrolled linked list structure for expansion into outgoing packets
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2459839A (en) * 2008-05-02 2009-11-11 Xancom Ltd Storing broad/multicast packet headers/labels in an unrolled linked list structure for expansion into outgoing packets
CN101458708A (zh) * 2008-12-05 2009-06-17 北京大学 检索结果聚类方法及装置
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《2010International Conference on Web Information Systems and Mining》 20101024 Liping Zhang等 A Label Quality-Oriented Method for Chinese Web Search Results Clustering 第253-258页 1-10 第1卷, *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
CN103106199B (zh) * 2011-11-09 2016-03-02 中国移动通信集团四川有限公司 文本检索方法和装置
US9146915B2 (en) 2012-01-05 2015-09-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and computer storage medium for automatically adding tags to document
WO2013102396A1 (zh) * 2012-01-05 2013-07-11 腾讯科技(深圳)有限公司 一种自动给文档添加标签的方法、装置以及计算机存储介质
CN103544139A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的正向分词方法及装置
CN103631769A (zh) * 2012-08-23 2014-03-12 北京百度网讯科技有限公司 一种判断文件内容与标题间一致性的方法及装置
CN103631769B (zh) * 2012-08-23 2017-10-17 北京音之邦文化科技有限公司 一种判断文件内容与标题间一致性的方法及装置
CN102999569B (zh) * 2012-11-09 2015-08-19 同济大学 用户需求分析定位器和分析及定位方法
CN102999569A (zh) * 2012-11-09 2013-03-27 同济大学 用户需求分析定位器和分析及定位方法
CN103020295B (zh) * 2012-12-28 2016-01-27 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
CN103020295A (zh) * 2012-12-28 2013-04-03 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
WO2014206151A1 (en) * 2013-06-24 2014-12-31 Tencent Technology (Shenzhen) Company Limited System and method for tagging and searching documents
WO2014173349A1 (zh) * 2013-09-04 2014-10-30 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN106997335A (zh) * 2016-01-26 2017-08-01 阿里巴巴集团控股有限公司 相同字符串的判定方法及装置
CN106021234A (zh) * 2016-05-31 2016-10-12 徐子涵 标签提取方法及系统
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN107526744B (zh) * 2016-06-21 2022-11-18 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
US10726446B2 (en) 2016-12-26 2020-07-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN107679217A (zh) * 2017-10-19 2018-02-09 北京百度网讯科技有限公司 基于数据挖掘的关联内容提取方法和装置
CN107862089B (zh) * 2017-12-02 2020-03-13 北京工业大学 一种基于感知数据的标签提取方法
CN107862089A (zh) * 2017-12-02 2018-03-30 北京工业大学 一种基于感知数据的标签提取方法
CN108416008A (zh) * 2018-02-28 2018-08-17 华南理工大学 一种基于自然语言处理的bim产品数据库语义检索方法
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108804418B (zh) * 2018-05-21 2022-03-08 浪潮软件股份有限公司 一种基于语义分析的文档查重方法和装置
WO2019242328A1 (zh) * 2018-06-20 2019-12-26 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质
US11977589B2 (en) 2018-06-20 2024-05-07 Baidu Online Network Technology (Beijing) Co., Ltd. Information search method, device, apparatus and computer-readable medium
CN115795023A (zh) * 2022-11-22 2023-03-14 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质
CN115795023B (zh) * 2022-11-22 2024-01-05 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN102081642A (zh) 搜索引擎检索结果聚类的中文标签提取方法
CN102411621B (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
Bouaziz et al. Short text classification using semantic random forest
US20110145348A1 (en) Systems and methods for identifying terms relevant to web pages using social network messages
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104008171A (zh) 一种法律数据库构建方法及法律检索服务方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN104281645A (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
Sun et al. Mining dependency relations for query expansion in passage retrieval
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN110287309A (zh) 快速提取文本摘要的方法
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN111190900A (zh) 一种云计算模式下json数据可视化优化方法
US20150112683A1 (en) Document search device and document search method
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN101187919A (zh) 一种对文档集进行批量单文档摘要的方法及系统
CN109446399A (zh) 一种影视实体搜索方法
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
KR101011726B1 (ko) 스니펫 제공 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110601