CN102708100A - 挖掘相关实体词的关系关键词的方法和装置及其应用 - Google Patents

挖掘相关实体词的关系关键词的方法和装置及其应用 Download PDF

Info

Publication number
CN102708100A
CN102708100A CN2011100752480A CN201110075248A CN102708100A CN 102708100 A CN102708100 A CN 102708100A CN 2011100752480 A CN2011100752480 A CN 2011100752480A CN 201110075248 A CN201110075248 A CN 201110075248A CN 102708100 A CN102708100 A CN 102708100A
Authority
CN
China
Prior art keywords
speech
word
related entities
entity
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100752480A
Other languages
English (en)
Other versions
CN102708100B (zh
Inventor
赵世奇
李彦宏
方高林
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110075248.0A priority Critical patent/CN102708100B/zh
Publication of CN102708100A publication Critical patent/CN102708100A/zh
Application granted granted Critical
Publication of CN102708100B publication Critical patent/CN102708100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种挖掘相关实体词的关系关键词的方法和装置及其应用,其中挖掘关系关键词的方法包括:挖掘实体词e1的相关实体词e2,将所述e1及其相关实体词e2存储在数据库中;在挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个搜索请求(query)所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,所述统计至少包括:对所述各词语在所述距离范围内出现次数的统计;利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述e1和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中。通过本发明确定的关系关键词能够根据文本实际情况描述出任何实体词之间的关系,从而提高了实体词之间关系描述的准确性。

Description

挖掘相关实体词的关系关键词的方法和装置及其应用
【技术领域】
本发明涉及计算机技术领域,特别涉及一种挖掘相关实体词的关系关键词的方法和装置及其应用。
【背景技术】
随着信息技术和计算机技术的不断发展,搜索引擎已经成为人们获取信息的主要工具,用户输入搜索请求(query)后,搜索引擎能够向用户返回与该query对应的搜索结果。为了更加方便用户获取更多信息提高资源利用率,往往在用户输入query后,希望搜索引擎能够在返回搜索结果的同时能够返回与该query所包含词语相关的词语,通常特指与query所包含实体词相关的其他实体词。更进一步为了方便用户浏览和选择相关实体词,希望搜索引擎能够对实体词及其相关实体词之间的关系进行明确。
在现有的实现方法中,通常预先定义好待确定的关系类型,即预先设定若干关系类型,例如“父子”、“夫妻”、“朋友”等,然后确定实体词及其相关实体词之间符合哪种关系类型。然而,现实中很多实体词之间的关系是不能够表达或概括成明确的关系类型的,例如“张学友”和“刘德华”、“李宇春”和“张靓颖”,“易中天”和“于丹”,采用传统的关系类型无法描述这些实体词之间的关系,使得按照传统关系类型确定出的实体词之间的关系准确性很低。
【发明内容】
有鉴于此,本发明提供了一种确定相关实体词的关系关键词的方法和装置及其应用,以便于提高相关实体词之间关系描述的准确性。
具体技术方案如下:
一种挖掘相关实体词的关系关键词的方法,该方法包括:
A、挖掘实体词e1的相关实体词e2,将所述e1及其相关实体词e2存储在数据库中;
B、在挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个搜索请求query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,所述统计至少包括:对所述各词语在所述距离范围内出现次数的统计;
C、利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述e1和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中,其中M为预设的正整数。
其中所述实体词的类型包括:人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。
所述步骤A中挖掘实体词e1的相关实体词e2具体包括:
A1、采用以下方式中的至少一种确定所述e1的候选相关实体词:
第一种方式、确定在语料库中与所述e1共现在长度为L的窗口中的次数值排在前N1个的实体词作为所述e1的候选相关实体词,其中N1为预设的自然数;
第二种方式、确定与所述e1在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为所述e1的候选相关实体词,其中N2为预设的自然数;
第三种方式、确定特征向量与所述e1的特征向量的相似度排在前N3个的实体词作为所述e1的候选相关实体词,其中N3为预设的自然数;
第四种方式、确定在百科类数据源中作为主题词的所述e1的相关词条中的实体词作为所述e1的候选相关实体词;
A2、对步骤A1确定出所述e1的候选相关实体词进行打分,选择打分值排在前N4个的候选相关实体词作为所述e1的相关实体词,所述e2为所述e1的相关实体词中的一个,其中N4为预设的正整数。
其中,实体词特征向量的确定方式为:
基于语料库对实体词进行上下文统计,选择距离实体词设定距离范围内的词语的出现次数达到预设的特征选择条件的词语构成该实体词的特征向量;
其中所述特征选择条件包括:出现次数达到预设阈值或者出现次数排在前M1个,M1为预设的正整数。
所述步骤A2中采用如下公式对所述e1的候选相关实体词进行打分:
score1(e1,ei)=γ1s1(e1,ei)+γ2s2(e1,ei)+γ3s3(e1,ei)+γ4s4(e1,ei)+γ5s5(e1,ei)+γ6s6(e1,ei);
其中,score1(e1,ei)为所述e1的候选相关实体词ei的打分值,γ1、γ2、γ3、γ4、γ5和γ6为预设的权值参数;
s1(e1,ei)由所述ei和所述e1在语料库中共现在长度为L的窗口中的次数值确定;
s2(e1,ei)由所述ei和所述e1在用户搜索日志中共现在相同query中的次数值确定;
s3(e1,ei)由所述ei的特征向量和所述e1的特征向量的相似度确定;
s4(e1,ei)体现所述ei作为百科类数据源中所述e1的相关词条的分值,采用预设值;
s5(e1,ei)由在利用所述ei和所述e1构成的query进行搜索得到的其中M2个搜索结果中,所述ei和所述e1共现在一个句子中的次数占所述M2个搜索结果中句子总数的比例确定,其中M2为预设的正整数;
s6(e1,ei)由所述ei作为各实体的候选相关实体词的次数确定。
如果在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则所述统计还包括:距离所述e1的距离的统计以及距离所述e2的距离的统计;
在所述步骤C中采用如下公式对所述各词语进行打分:
score 2 ( k i , e 1 , e 2 ) = Σ j = 1 n s j ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score2(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,n为所述步骤C中统计到的所述ki在距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值;
Figure BDA0000052427400000041
其中dj(ki,e1)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e1的距离,dj(ki,e2)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e2的距离。
如果在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且采用所述第一种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分:
score 3 ( k i , e 1 , e 2 ) = tf 3 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score3(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf3(ki,e1,e2)为所述ki在语料库中距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且采用所述第二种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分:
score 4 ( k i , e 1 , e 2 ) = tf 4 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score4(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf4(ki,e1,e2)为所述ki在用户搜索日志中与所述e1和所述e2共现在相同query中,且距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且采用所述第三种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分:
score 5 ( k i , e 1 , e 2 ) = tf 5 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score5(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf5(ki,e1,e2)为所述ki在语料库中距离所述e1设定距离范围内的出现次数和距离所述e2设定距离范围内的出现次数中的最小值,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果在挖掘所述e2所使用的资源,以及,在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则利用统计结果对所述各词语打分为:
分别利用在挖掘所述e2所使用的资源对应的统计结果对所述各词语进行打分,以及在由所述e1和所述e2构成一个query所对应的搜索结果中对应的统计结果对所述各词语进行打分,将分别获得的打分值进行合并,得到最终所述各词语的打分值。
在对距离所述e1和所述e2设定距离范围内的各词语进行统计之前,还包括:
对距离所述e1和所述e2设定距离范围内的各词语进行过滤处理,所述过滤处理包括以下所列的至少一种:将包含在预设的停用词表中的词语过滤掉,或者,将具有预设词性的词语过滤掉,或者,将与所述e1和所述e2具有相同实体类型的词语过滤掉。
一种搜索引擎中的智能导航方法,该方法包括:
接收到用户输入的包含实体词e1的搜索请求query后,查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
在向所述用户展现所述query的搜索结果的同时,向所述用户展现所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是通过挖掘相关实体词的关系关键词的方法挖掘的。
特别地,所述e1的相关实体词e2、以及所述e1和e2的关系关键词展现在搜索结果页面的两侧或下方。
更进一步地,该方法还包括:
如果获取到用户点击所述相关实体e2,则向所述用户返回所述e2作为query对应的搜索结果,或者向所述用户返回所述e1和e2共同构成的query对应的搜索结果。
一种百科类数据的相关词条补充方法,该方法包括:
利用百科类数据的实体主题词e1,查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定e1的相关实体词e2、以及所述e1和e2的关系关键词;
将所述e2添加入所述百科类数据中所述e1的相关词条,并标注所述e1和所述e2的关系关键词或者对所述相关词条进行基于关系关键词的聚类;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是通过权利要求1所述的方法挖掘的。
所述e2在所述相关词条中的排序由上述挖掘相关实体词的关系关键词的方法中e2的打分值决定。
一种挖掘相关实体词的关系关键词的装置,该装置包括:相关词挖掘单元、统计单元和关系确定单元;
所述相关词挖掘单元,用于挖掘实体词e1的相关实体词e2,将所述e1及其相关实体词e2存储在数据库中;
所述统计单元,用于在所述相关词挖掘单元挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个搜索请求query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,所述统计至少包括:对所述各词语在所述距离范围内出现次数的统计;
所述关系确定单元,用于利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述e1和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中,其中M为预设的正整数。
其中,所述实体词的类型包括:人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。
具体地,所述相关词挖掘单元可以包括:候选词确定子单元和相关词选择子单元;
所述候选词确定子单元,用于采用以下方式中的至少一种确定所述e1的候选相关实体词:
第一种方式、确定在语料库中与所述e1共现在长度为L的窗口中的次数值排在前N1个的实体词作为所述e1的候选相关实体词,其中N1为预设的自然数;
第二种方式、确定与所述e1在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为所述e1的候选相关实体词,其中N2为预设的自然数;
第三种方式、确定特征向量与所述e1的特征向量的相似度排在前N3个的实体词作为所述e1的候选相关实体词,其中N3为预设的自然数;
第四种方式、确定在百科类数据源中作为主题词的所述e1的相关词条中的实体词作为所述e1的候选相关实体词;
所述相关词选择子单元,用于对所述候选词确定子单元确定出的所述e1的候选相关实体词进行打分,选择打分值排在前N4个的候选相关实体词作为所述e1的相关实体词并存储在所述数据库中,所述e2为所述e1的相关实体词中的一个,其中N4为预设的正整数。
所述候选词确定子单元在确定实体词的特征向量时,具体基于语料库对实体词进行上下文统计,选择距离实体词设定距离范围内的词语的出现次数达到预设的特征选择条件的词语构成该实体词的特征向量;
其中所述特征选择条件包括:出现次数达到预设阈值或者出现次数排在前M1个,M1为预设的正整数。
所述相关词选择子单元采用如下公式对所述e1的候选相关实体词进行打分:
score1(e1,ei)=γ1s1(e1,ei)+γ2s2(e1,ei)+γ3s3(e1,ei)+γ4s4(e1,ei)+γ5s5(e1,ei)+γ6s6(e1,ei);
其中,score1(e1,ei)为所述e1的候选相关实体词ei的打分值,γ1、γ2、γ3、γ4、γ5和γ6为预设的权值参数;
s1(e1,ei)由所述ei和所述e1在语料库中共现在长度为L的窗口中的次数值确定;
s2(e1,ei)由所述ei和所述e1在用户搜索日志中共现在相同query中的次数值确定;
s3(e1,ei)由所述ei的特征向量和所述e1的特征向量的相似度确定;
s4(e1,ei)体现所述ei作为百科类数据源中所述e1的相关词条的分值,采用预设值;
s5(e1,ei)由在利用所述ei和所述e1构成的query进行搜索得到的其中M2个搜索结果中,所述ei和所述e1共现在一个句子中的次数占所述M2个搜索结果中句子总数的比例确定,其中M2为预设的正整数;
s6(e1,ei)由所述ei作为各实体的候选相关实体词的次数确定。
如果所述统计单元在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 2 ( k i , e 1 , e 2 ) = Σ j = 1 n s j ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score2(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,n为所述统计单元统计到的所述ki在距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值;
Figure BDA0000052427400000082
其中di(ki,e1)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e1的距离,dj(ki,e2)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e2的距离。
如果所述统计单元在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且所述相关词挖掘单元采用所述第一种方式挖掘所述e2,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 3 ( k i , e 1 , e 2 ) = tf 3 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score3(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf3(ki,e1,e2)为所述ki在语料库中距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果所述统计单元在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且所述相关词挖掘单元采用所述第二种方式挖掘所述e2,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 4 ( k i , e 1 , e 2 ) = tf 4 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score4(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf4(ki,e1,e2)为所述ki在用户搜索日志中与所述e1和所述e2共现在相同query中,且距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果所述统计单元在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且所述相关词挖掘单元采用所述第三种方式挖掘所述e2,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 5 ( k i , e 1 , e 2 ) = tf 5 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score5(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf5(ki,e1,e2)为所述ki在语料库中距离所述e1设定距离范围内的出现次数和距离所述e2设定距离范围内的出现次数中的最小值,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果所述统计单元在挖掘所述e2所使用的资源,以及,在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则所述关系确定单元分别利用在挖掘所述e2所使用的资源对应的统计结果对所述各词语进行打分,以及在由所述e1和所述e2构成一个query所对应的搜索结果中对应的统计结果对所述各词语进行打分,将分别获得的打分值进行合并,得到最终所述各词语的打分值。
具体地,所述统计单元可以包括:词语提取子单元、过滤处理子单元以及统计处理子单元;
所述词语提取子单元,用于在所述相关词挖掘单元挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个query所对应的搜索结果中,提取距离所述e1和所述e2设定距离范围内的各词语;
所述过滤处理子单元,用于对所述词语提取子单元提取的各词语进行过滤处理,所述过滤处理包括以下所列的至少一种:将包含在预设的停用词表中的词语过滤掉,或者,将具有预设词性的词语过滤掉,或者,将与所述e1和所述e2具有相同实体类型的词语过滤掉;
所述统计处理子单元对所述过滤处理子单元过滤后的所述各词语进行统计,所述统计至少包括:对各词语在所述距离范围内出现次数的统计。
一种搜索引擎中的智能导航装置,该装置包括:请求接收单元、数据库查找单元、搜索单元和结果展现单元;
所述请求接收单元,用于接收用户输入的包含实体词e1的搜索请求query;
所述数据库查找单元,用于查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
所述搜索单元,用于搜索所述query的搜索结果;
所述结果展现单元,用于向所述用户展现所述query的搜索结果的同时,向所述用户展现所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是由挖掘相关实体词的关系关键词的装置挖掘的。
特别地,所述结果展现单元将所述e1的相关实体词e2、以及所述e1和e2的关系关键词展现在搜索结果页面的两侧或下方。
更进一步地,所述请求接收单元,还用于获取到所述用户点击所述相关实体e2时,将所述e2作为query提供给所述搜索单元,或者将所述e1和e2共同构成的query提供给所述搜索单元;
所述搜索单元检索所述请求接收单元提供的query的搜索结果;
所述结果展现单元,还用于向所述用户返回所述e2作为query对应的搜索结果,或者向所述用户返回所述e1和e2共同构成的query对应的搜索结果。
一种百科类数据的相关词条补充装置,该装置包括:数据库查找单元和词条添加单元,还包括关系标注单元或者词条聚类单元;
所述数据库查找单元,用于利用百科类数据的实体主题词e1,查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定e1的相关实体词e2、以及所述e1和e2的关系关键词;
所述词条添加单元,用于将所述e2添加入所述百科类数据中所述e1的相关词条;
所述关系标注单元,用于标注所述e1和所述e2的关系关键词;
所述词条聚类单元,用于对所述相关词条进行基于关系关键词的聚类;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是由挖掘相关实体词的关系关键词的装置挖掘的。
更进一步地,该装置还包括:词条排序单元,用于根据挖掘相关实体词的关系关键词的装置对所述e2的打分值,确定所述e2在所述相关词条中的排序。
由以上技术方案可以看出,本发明在挖掘出实体词的相关实体词后,在挖掘相关实体词所使用的资源,和/或,有两个实体词构成的一个query所对应的搜索结果中,对距离两个实体词设定距离范围内的各词语进行统计,利用统计结果对各词语进行打分,选择打分值排在前M个的词语作为两个实体词之间的关系关键词。通过这种方式确定的关系关键词能够根据文本实际情况描述出任何实体词之间的关系,从而提高了实体词之间关系描述的准确性。
【附图说明】
图1为本发明实施例提供的挖掘相关实体词的关系关键词的方法流程图;
图2为本发明实施例提供的挖掘相关实体词的关系关键词的装置结构图;
图3为本发明实施例提供的搜索引擎中的智能导航装置结构图;
图4为本发明实施例提供的百科类数据的相关词条补充装置结构图;
图5为本发明实施例提供的百科类数据的相关词条补充装置的另一种结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明实施例提供的方法流程图,如图1所示,本发明提供的方法可以包括以下步骤:
步骤101:挖掘实体词e1的相关实体词e2。
本发明实施例中涉及到的实体词特指命名实体词,包括但不限于:人名、地名、机构名、书名、歌名、影视剧名、产品名、品牌名等专有名词。
通常相关实体词可以包括以下几种情况:其一、两个实体词e1和实体词e2总在相同情景中出现,例如“张军”和“高凌”。其二、实体词e1和实体词e2的关系被人们广泛关注,例如“刘德华”和“朱丽倩”。其三、实体词e1和实体词e2在某种定义的特征上很相似,例如“李宇春”和“张靓颖”都是超女出身,彼此有很多共同特征。其四、已有数据明确指出实体词e1和实体词e2是相关实体词。
基于对以上几种情况的总结,在本步骤中实现的相关实体词的挖掘可以包括但不限于以下几种:
第一种方式:基于新闻语料共现统计的方式,确定与实体词e1共现在长度为L的窗口中的次数值排在前N1个的实体词作为实体词e1的候选相关实体词,其中N1为预设的自然数。
本方式基于一个大规模语料库,关心相关实体词的共现状况。预设窗口长度为L,统计各实体词与实体词e1共现在窗口L中的次数,取统计的次数值排在前N1个的词语作为实体词e1的候选相关实体词。
第二种方式:基于用户搜索日志共现统计的方式,确定与实体词e1在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为实体词e1的候选相关实体词,其中N2为预设的自然数。
本方式与第一种方式的区别在于使用的不是大规模语料库而是用户搜索日志。如果两个实体词共现在用户搜索日志中的同一个query中,则认为该用户对这两个实体词感兴趣,从而将其共现累计一次。最终统计出与实体词e1共现在同一用户搜索日志中的次数值排在前N2个的实体词作为实体词e1的候选相关实体词。
第三种方式:基于实体词特征相似度计算的方式,确定特征向量与实体词e1的特征向量的相似度排在前N3个的实体词作为实体词e1的候选相关实体词,其中N3为预设的自然数。
本方式中,首先为每个实体词构建特征向量,具体地,基于大规模语料库对实体词进行上下文统计,选择距离实体词设定距离范围内的词语的出现次数达到特征词选择条件的词语构成该实体词的特征向量。其中特征词选择条件可以包括但不限于:出现次数达到预设阈值以及出现次数排在前M1个,M1为预设的正整数。然后计算各实体词的特征向量之间的相似度,选择特征向量与实体词e1的特征向量的相似度排在前N3个所对应的实体词作为实体词e1的候选相关实体词。
例如实体词“李宇春”,对其进行上下文统计后,选择出“超女”、“超级女声”、“湖南卫视”等词语构成实体词“李宇春”的特征向量。假设实体词“张靓颖”的特征向量也包括“超女”、“超级女声”和“湖南卫视”,则实体词“李宇春”和实体词“张靓颖”的特征向量之间相似度很高,将“张靓颖”确定为“李宇春”的候选相关实体词。
第四种方式:基于百科类数据源的方式,确定在百科类数据源中主题词e1的相关词条作为实体词e1的候选相关实体词。
通常百科类数据源,诸如百度百科这样的在线百科数据,其中记录着大量的相关词条,通常这些相关词条为百科类数据所介绍实体型主题词的相关实体词。例如,对于介绍“王菲”的百科类数据中,相关词条包括:“李克勤”、“黎明”、“李嘉欣”、“李亚鹏”等,在此,可以直接取出百科类数据中相关词条作为“王菲”的候选相关实体词。
上述方式基于分词处理和实体词识别技术,由于分词处理技术和实体词识别技术已是现有成熟的技术,在此不再赘述。
将通过以上四种方式中的任一种或任意组合获取到的实体词e1的候选相关实体词进行整合,并为各候选相关实体词进行统一的打分,然后选择打分值排在前N4个的候选相关实体词作为实体词e1的相关实体词,e2为相关实体词中的一个。将实体词e1的相关实体词存储在数据库中,供后续应用时进行调用。
在对各候选相关实体词进行打分时可以使用如下公式:
score1(e1,ei)=γ1s1(e1,ei)+γ2s2(e1,ei)+γ3s3(e1,ei)+γ4s4(e1,ei)+γ5s5(e1,ei)+γ6s6(e1,ei)
(1)
其中,score1(e1,ei)为实体词e1的候选相关实体词ei的打分值,γ1、γ2、γ3、γ4、γ5和γ6为预设的权值参数,如果不采用某项特征值,可以将对应的权值参数设为0。
s1(e1,ei)由ei和e1在大规模语料库中共现在长度为L的窗口中的次数值确定,s2(e1,ei)由ei和e1在用户搜索日志中共现在相同query中的次数值确定,s3(e1,ei)由ei的特征向量和e1的特征向量的相似度确定,s4(e1,ei)体现ei作为百科类数据源中e1的相关词条的分值,可以为一个预设值。
s5(e1,ei)由ei和e1的共搜结果共现状况确定,即利用ei和e1构成的query进行搜索,统计其中M2个搜索结果中ei和e1共同出现在一个句子中的次数占这M2个搜索结果中句子总数的比例,如果比例越大,说明ei和e1越相关,s5(e1,ei)值越大,反之s5(e1,ei)值越小。
s6(e1,ei)由ei作为各实体的候选相关实体词次数决定,即倒实体频率(IEF,Inverse Entity Frequency),ei作为其他实体的候选实体词的次数越多,说明ei的独特性和重要性越差,相应的s6(e1,ei)越低。
在为各候选相关实体词进行统一的打分和排序时可以使用回归模型(regression model)实现。该回归模型的特征可以采用上述的两个实体词在大规模语料库中共现在长度为L的窗口中的次数值、两个实体词在同一用户搜索日志中共现的次数值、两个实体词的特征向量的相似度、两个实体词作为百科类数据的词条的分值、两个实体词的搜索结果共现状况以及相关实体词的倒实体频率。当输入目标实体及其相关实体后,回归模型能够自动为该相关实体打分和排序并输出结果。由于回归模型是已有模型,在此不再具体详述。
通过本步骤的方式挖掘出的相关实体具有以下特点:
1)针对任意类型的实体词均能够挖掘出相关实体词,并不限定在人名。
2)挖掘出的实体词e1的相关实体词并不一定是相同类型的实体词,例如,针对“李宇春”能够挖掘出相关实体词“湖南卫视”、“超女”等。
3)挖掘出的相关实体词并不一定是实体词e1的属性词,而有可能是存在关联的具有并列关系的其他实体词,例如,针对“刘德华”不但能够挖掘出其属性词中的实体词“爱你一万年”、“天若有情”、“天枰座”等,这些属于“纵深”的相关实体,也能够挖掘出相关实体词“张学友”、“黎明”、“郭富城”等与其相提并论的其他天王巨星,这些属于“横向”的相关实体。
在针对实体词e1挖掘出相关实体词e2后,为了方便用户确定两实体词之间的关系,从而帮助用户进行更精确地搜索或者相关搜索,可以接着采用如下步骤挖掘出两实体词之间的关系关键词。
步骤102:在挖掘实体e2所使用的资源,和/或,在由实体词e1和实体词e2构成一个query所对应的搜索结果中,对距离实体词e1和e2设定距离范围内的各词语进行统计,该统计至少包括:对各词语在上述距离范围内出现次数的统计。
步骤103:利用统计结果对各词语进行打分,选择打分值排在前M个的词语作为实体词e1和实体词e2的关系关键词,其中M为预设的正整数。
下面对上述步骤102和步骤103的过程进行具体描述。如果在由实体词e1和实体词e2构成一个query所对应的搜索结果中,对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,则首先将实体词e1和实体词e2构成一个query进行搜索,获得搜索结果。
例如,对于实体词“李宇春”及其相关实体词“张靓颖”,将两者构成一个query“李宇春张靓颖”进行搜索,获得的搜索结果中是同时包含“李宇春”和“张靓颖”的搜索结果。
此时的统计还包括:距离实体词e1的距离的统计以及距离实体词e2的距离的统计。
通常在网页中同时出现两个实体词的周围会存在体现两个实体词关系的词语,例如“在5日晚上结束的2009年度北京流行音乐典礼上,同为超女的李宇春、张靓颖齐齐获奖。”,其中,“超女”就能够体现出“李宇春”和“张靓颖”两个实体词的关系。为了能够找出两个实体词的关系关键词,在步骤102得到的搜索结果中确定距离实体词e1和实体词e2设定距离范围内的词语,对这些词语的出现次数、距离实体词e1的距离以及距离实体词e2的距离进行统计。
本发明实施例中距离实体词e1和实体词e2设定距离范围内的词语可以包括但不限于:距离实体词e1设定范围内的词语以及距离实体词e2设定范围内的词语,或者,实体词e1和实体词e2之间的词语以及实体词e1和实体词e2两端设定距离范围内的词语。
此时,在利用统计结果对各词语进行打分时,可以采用如下公式:
score 2 ( k i , e 1 , e 2 ) = Σ j = 1 n s j ( k i , e 1 , e 2 ) × log N Freq ( k i ) - - - ( 2 )
其中,score2(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,n为步骤103中统计到的该词语ki在距离实体词e1和实体词e2设定距离范围内的出现次数,Freq(ki)为词语ki在大规模语料库中的绝对词频,N为所有词语在大规模语料库中的绝对词频的最大值。
s j ( k i , e 1 , e 2 ) = 1 d j ( k i , e 1 ) + d j ( k i , e 2 ) , - - - ( 3 )
其中,dj(ki,e1)为ki第j次出现在距离实体词e1和实体词e2设定距离范围内时距离实体词e1的距离,dj(ki,e2)为ki第j次出现在距离实体词e1和实体词e2设定距离范围内时距离实体词e2的距离。
由上述公式(2)和公式(3)可以看出:词语ki的绝对词频越小打分值越高,即选择那些区分性高的词语;词语ki在两个实体词周围出现的次数越多打分值越高;词语ki与两个实体词的距离越近越好。
如果在挖掘实体词e2所使用的资源对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,则根据使用的不同资源采用不同的打分方式:
如果在挖掘实体词e2采用的是步骤101中所述的第一种方式,则其使用的资源为大规模语料库,此时,对各词语进行打分时可以采用如下公式:
score 3 ( k i , e 1 , e 2 ) = tf 3 ( k i , e 1 , e 2 ) × log N Freq ( k i ) - - - ( 4 )
其中,score3(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,tf3(ki,e1,e2)为词语ki在大规模语料库中距离实体词e1和实体词e2设定距离范围内的出现次数,Freq(ki)为词语ki在大规模语料库中的绝对词频,N为所有词语在大规模语料库中的绝对词频的最大值。
如果在挖掘实体词e2采用的是步骤101中所述的第二种方式,则其使用的资源为搜索日志,此时,对各词语进行打分时可以采用如下公式:
score 4 ( k i , e 1 , e 2 ) = tf 4 ( k i , e 1 , e 2 ) × log N Freq ( k i ) - - - ( 5 )
其中,score4(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,tf4(ki,e1,e2)为词语ki在用户搜索日志中与e1和e2共现在相同query中,且距离实体词e1和实体词e2设定距离范围内的出现次数,Freq(ki)为词语ki在大规模语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果在挖掘实体词e2采用的是步骤101中所述的第三种方式,则其使用的资源为大规模语料库,此时,对各词语进行打分时可以采用如下公式:
score 5 ( k i , e 1 , e 2 ) = tf 5 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ; - - - ( 6 )
其中,score5(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,tf5(ki,e1,e2)为词语ki在大规模语料库中距离实体词e1设定距离范围内的出现次数和距离实体词e2设定距离范围内的出现次数中的最小值,实际上,在实体词e1和e2的特征向量中,共同的特征词最可能体现出实体词e1和e2的关系,此处出现次数中的最小值反映了词语作为关系关键词的可能性。Freq(ki)为词语ki在大规模语料库中的绝对词频,N为所有词语在大规模语料库中的绝对词频的最大值。
可以看出上述公式(4)、(5)和(6)采用了类似于词频-倒文档率(TF-IDF)的方式来进行打分,需要说明的是,为了实现简便,IDF的部分采用了统一的实现方式,即采用在大规模语料库中的倒文档率,但也可以采用其它方式计算IDF部分。
如果同时在挖掘实体词e2所使用的资源,以及,在由实体词e1和实体词e2构成一个query所对应的搜索结果中,对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,则可以分别利用在挖掘实体词e2所使用的资源对应的统计结果对各词语进行打分,以及在由实体词e1和实体词e2构成一个query所对应的搜索结果中对应的统计结果对各词语进行打分,将分别获得的打分值进行合并,得到最终各词语的打分值。也就是说,将公式(2)、(4)、(5)和(6)计算出的打分值进行诸如线性插值或线性回归等合并处理后,得到最终各词语的打分值,选择最终的打分值排在前M个的词语作为实体词e1和实体词e2的关系关键词。
优选地,在确定出距离实体词e1和实体词e2设定距离范围内的词语后,可以首先对这些词语进行过滤处理,对进行过滤处理后的词语进行统计。其中过滤处理可以包括但不限于以下几种过滤处理中的至少一种:
过滤处理一、基于停用词表的过滤,即将包含在预设的通用词表中的词语过滤掉。
过滤处理二、将具有预设词性的词语过滤掉。能够作为关系关键词的通常为名词、动词、形容词等,可以将副词、虚词、连词、代词等作为预设词性过滤掉。
过滤处理三、将与e1和e2具有相同实体类型的词语过滤掉。通常作为关系关键词的词语与两个实体词不具有相同的实体类型,例如,如果两个实体词为人名,则其关系关键词通常不会是人名,而是诸如节目名、作品名等其他实体类型;如果两个实体词为影视剧名,则其关系关键词通常不会是影视剧名,而是诸如人名等其他实体类型。
通过上述方式挖掘出的关系关键词并不会限制于几种固定关系,可以将通常难以归类的关系采用关系关键词的方式表达,例如对于“刘德华”和“张学友”的关系关键词可以是“四大天王”;“李宇春”和“张靓颖”的关系关键词可以是“超级女声”;“易中天”和“于丹”的关系关键词可以是“百家讲坛”。
在确定出两个实体词的关系关键词后,可以将两个实体词的关系关键词也存储在数据库中,供后续应用时调用。
本发明提供的上述挖掘相关实体词的关系关键词的方法,可以包括但不限于以下应用场景:
应用场景一:可以用于搜索引擎中的智能导航,即搜索引擎接收到用户输入的包含实体词e1的query后,在向用户提供query对应的搜索结果之外,还可以为用户展现该实体词e1的相关实体词,例如e2,以及两实体词之间的关系关键词供用户参考。在展现时可以展现在搜索结果页面的两侧或者下方。
如果用户根据关系关键词确定感兴趣的相关实体词,例如e2,并点击该相关实体词,搜索引擎能够向用户返回该相关实体词作为query对应的搜索结果,或者实体词e1及该用户所点击相关实体词构成的query对应的搜索结果。实际上为用户提供了“横向导航”,从而延伸和扩展用户的搜索兴趣,提高搜索引擎的资源利用率。
应用场景二:可以用于百科类数据的相关词条补充和标注。在线百科类数据已经逐渐在当今互联网应用中显现越来越重要的地位,然而现有百科类数据中相关词条存在两点问题:其一、大多采用人工编辑的形式产生,因此存在相关词条严重不足的情况,另外,随着信息和事物的不断发展,也会产生新的相关词条。其二、由于相关词条可能是人工方式在不同时间段编辑的,因此相关词条的顺序十分混乱,无法体现每个相关词条与主题词之间的关系以及关系强度。
如果采用本发明上述的方式为实体词产生相关实体词,确定出两实体词之间的关系关键词,并将其应用于百科类数据中的相关词条,能够自动补充在线百科类数据中人工编辑不全的相关词条,并可以进一步利用公式(1)计算的相关实体词的打分值为相关词条排序,另外,为了方便用户理解相关词条与百科类数据所介绍主题词之间的关系,可以对相关词条进行关系关键词的标注或者基于关系关键词的聚类。从而更方便用户浏览。
以上是对本发明所提供的方法进行的描述,下面对本发明所提供的装置进行详细描述。
图2为本发明实施例提供的挖掘相关实体词的关系关键词的装置结构图,如图2所示,该装置可以包括:相关词挖掘单元201、统计单元202和关系确定单元203。
相关词挖掘单元201挖掘实体词e1的相关实体词,将e1及其相关实体词存储在数据库中。假设实体词e2为实体词e1的相关实体词中的一个,为了方便描述,以下均以实体词e2为例进行描述,针对其他相关实体词的实现方式与实体词e2相同。
统计单元202在相关词挖掘单元201挖掘实体词e2所使用的资源,和/或,在由实体词e1和e2构成一个query所对应的搜索结果中,对距离实体词e1和e2设定距离范围内的各词语进行统计,其中统计至少包括:对各词语在距离范围内出现次数的统计。
其中,统计单元202在由实体词e1和e2构成一个query所对应的搜索结果中,对距离实体词e1和e2设定距离范围内的各词语进行统计之前,可以首先将实体词e1和e2构成一个query发送给搜索引擎,并获取搜索引擎返回的搜索结果。
关系确定单元203利用统计单元202的统计结果对各词语进行打分,选择打分值排在前M个的词语作为e1和e2的关系关键词,并将关系关键词记录在数据库中,其中M为预设的正整数。
这样数据库中就记录有实体词e1的各相关实体词,以及实体词e1与各相关实体词的关系关键词。
其中,本实施例中涉及的实体词的类型包括但不限于:人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。
具体地,相关词挖掘单元201可以包括:候选词确定子单元2011和相关词选择子单元2012。
其中,候选词确定子单元2011可以采用以下方式中的至少一种确定e1的候选相关实体词:
第一种方式:确定在语料库中与e1共现在长度为L的窗口中的次数值排在前N1个的实体词作为e1的候选相关实体词,其中N1为预设的自然数。
第二种方式:确定与e1在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为e1的候选相关实体词,其中N2为预设的自然数。第一种方式基于大规模语料库,第二种方式基于用户搜索日志。
第三种方式:确定特征向量与e1的特征向量的相似度排在前N3个的实体词作为e1的候选相关实体词,其中N3为预设的自然数。其中可以基于大规模语料库对实体词的上下文进行统计,选择距离实体词设定距离范围内的词语的统计次数达到特征词选择条件的词语确定为该实体词的特征向量。其中特征词选择条件可以包括但不限于:统计次数达到预设阈值以及统计次数排在前M1个,M1为预设的正整数。
第四种方式:确定在百科类数据源中作为主题词的e1的相关词条中的实体词作为e1的候选相关实体词。该方式就是将以e1作为主题词的百科类数据中的已有相关词条直接作为候选相关实体词。
相关词选择子单元2012对候选词确定子单元2011确定出的e1的候选相关实体词进行打分,选择打分值排在前N4个的候选相关实体词作为e1的相关实体词并存储在数据库中,e2为e1的相关实体词中的一个,其中N4为预设的正整数。
其中,相关词选择子单元2012可以采用如下公式对e1的候选相关实体词进行打分:
score1(e1,ei)=γ1s1(e1,ei)+γ2s2(e1,ei)+γ3s3(e1,ei)+γ4s4(e1,ei)+γ5s5(e1,ei)+γ6s6(e1,ei);
(1)
其中,score1(e1,ei)为e1的候选相关实体词ei的打分值,γ1、γ2、γ3、γ4、γ5和γ6为预设的权值参数。
s1(e1,ei)可以由ei和e1在语料库中共现在长度为L的窗口中的次数值确定,s2(e1,ei)由ei和e1在用户搜索日志中共现在相同query中的次数值确定,s3(e1,ei)由ei的特征向量和e1的特征向量的相似度确定,s4(e1,ei)体现ei作为百科类数据源中e1的相关词条的分值,采用预设值。
s5(e1,ei)由ei和e1的共搜结果共现状况确定,即在利用ei和e1构成的query进行搜索得到的其中M2个搜索结果中,ei和e1共现在一个句子中的次数占M2个搜索结果中句子总数的比例确定,其中M2为预设的正整数。如果上述的比例越大,说明ei和e1越相关,s5(e1,ei)值越大,反之s5(e1,ei)值越小。
s6(e1,ei)由ei作为各实体的候选相关实体词的次数确定,即IEF,ei作为其他实体的候选实体词的次数越多,说明ei的独特性和重要性越差,相应的s6(e1,ei)越低。
相关词选择子单元2012在为各候选相关实体词进行统一的打分和排序时,可以使用回归模型实现。
如果统计单元202在由实体词e1和实体词e2构成一个query所对应的搜索结果中,对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,则关系确定单元203在对各词语进行打分时,可以采用如下公式:
score 2 ( k i , e 1 , e 2 ) = Σ j = 1 n s j ( k i , e 1 , e 2 ) × log N Freq ( k i ) . - - - ( 2 )
其中,score2(ki,e1,e2)为词语ki作为e1和e2之间关系关键词的打分值,n为统计单元202统计到的ki在距离e1和e2设定距离范围内的出现次数,Freq(ki)为所述ki在大规模语料库中的绝对词频,N为所有词语在大规模语料库中的绝对词频的最大值。
Figure BDA0000052427400000232
其中dj(ki,e1)为ki第j次出现在距离e1和e2设定距离范围内时距离e1的距离,dj(ki,e2)为ki第j次出现在距离e1和e2设定距离范围内时距离e2的距离。
如果统计单元202在挖掘实体词e2所使用的资源对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,且相关词挖掘单元201采用第一种方式挖掘实体词e2,则关系确定单元203采用如下公式对所述各词语进行打分:
score 3 ( k i , e 1 , e 2 ) = tf 3 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ; - - - ( 4 )
其中,score3(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,tf3(ki,e1,e2)为词语ki在大规模语料库中距离实体词e1和实体词e2设定距离范围内的出现次数,Freq(ki)为词语ki在语料库中的绝对词频,N为所有词语在大规模语料库中的绝对词频的最大值。
如果统计单元202在挖掘实体词e2所使用的资源对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,且相关词挖掘单元201采用第二种方式挖掘实体词e2,则关系确定单元203采用如下公式对所述各词语进行打分:
score 4 ( k i , e 1 , e 2 ) = tf 4 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ; - - - ( 5 )
其中,score4(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,tf4(ki,e1,e2)为词语ki在用户搜索日志中与实体词e1和实体词e2共现在相同query中,且距离实体词e1和实体词e2设定距离范围内的出现次数,Freq(ki)为词语ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果统计单元202在挖掘实体词e2所使用的资源对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,且相关词挖掘单元201采用第三种方式挖掘实体词e2,则关系确定单元203采用如下公式对所述各词语进行打分:
score 5 ( k i , e 1 , e 2 ) = tf 5 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ; - - - ( 6 )
其中,score5(ki,e1,e2)为词语ki作为实体词e1和实体词e2之间关系关键词的打分值,tf5(ki,e1,e2)为词语ki在语料库中距离实体词e1设定距离范围内的出现次数和距离实体词e2设定距离范围内的出现次数中的最小值,Freq(ki)为词语ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
如果统计单元202在挖掘实体词e2所使用的资源,以及,在由实体词e1和实体词e2构成一个query所对应的搜索结果中,对距离实体词e1和实体词e2设定距离范围内的各词语进行统计,则关系确定单元203分别利用在挖掘实体词e2所使用的资源对应的统计结果对各词语进行打分,以及在由所述e1和所述e2构成一个query所对应的搜索结果中对应的统计结果对各词语进行打分,然后将分别获得的打分值进行合并,得到最终所述各词语的打分值。也就是说,将公式(2)、(4)、(5)和(6)计算出的打分值进行诸如线性插值或线性回归等合并处理后,得到最终各词语的打分值,选择最终的打分值排在前M个的词语作为实体词e1和实体词e2的关系关键词。
另外,为了进一步提高关系关键词提取的效率,统计单元202具体可以包括:词语提取子单元2021、过滤处理子单元2022以及统计处理子单元2023。
词语提取子单元2021在相关词挖掘单元201挖掘实体词e2所使用的资源,和/或,在由实体词e1和e2构成一个query所对应的搜索结果中,提取距离实体词e1和e2设定距离范围内的各词。
过滤处理子单元2022,用于对词语提取子单元2021提取的各词语进行过滤处理,该过滤处理包括以下所列的至少一种:将包含在预设的停用词表中的词语过滤掉,或者,将具有预设词性的词语过滤掉,或者,将与e1和e2具有相同实体类型的词语过滤掉。
统计处理子单元2023对过滤处理子单元204过滤后的各词语执行上述统计的操作。
基于图2所示的装置可以扩展出多种应用,以下为其中两种应用层面的装置。
图3为本发明实施例提供的搜索引擎中的智能导航装置结构图,如图3所示,该装置可以包括:请求接收单元301、数据库查找单元302、搜索单元303和结果展现单元304。
请求接收单元301接收用户输入的包含实体词e1的query。
数据库查找单元302查找存储有e1及e1的相关实体词e2、以及e1和e2的关系关键词的数据库,确定e1的相关实体词e2、以及e1和e2的关系关键词。
搜索单元303搜索上述query的搜索结果。
结果展现单元304向用户展现query的搜索结果的同时,向用户展现e1的相关实体词e2、以及e1和e2的关系关键词。
其中e1的相关实体词e2、以及e1和e2的关系关键词是由图2所示的装置挖掘的。
在进行展现时,结果展现单元304可以将e1的相关实体词e2、以及e1和e2的关系关键词展现在搜索结果页面的两侧或下方。
如果用户根据展现的关系关键词确定感兴趣的相关实体词,并点击该相关实体词,例如e2,则请求接收单元301获取到用户点击相关实体e2时,将e2作为query提供给搜索单元303,或者将e1和e2共同构成的query提供给搜索单元303。
此时,搜索单元303检索请求接收单元301所提供的query的搜索结果。
结果展现单元304向用户返回e2作为query对应的搜索结果,或者向用户返回e1和e2共同构成的query对应的搜索结果。
通过该装置实际上为用户提供了“横向导航”,从而延伸和扩展用户的搜索兴趣,提高搜索引擎的资源利用率。
图4为本发明实施例提供的百科类数据的相关词条补充装置结构图,如图4所示,该装置可以包括:数据库查找单元401和词条添加单元402,还可以进一步包括关系标注单元403或者词条聚类单元503(包含词条聚类单元503的情况如图5中所示)。
数据库查找单元401利用百科类数据的实体主题词e1,查找存储有e1及e1的相关实体词e2、以及e1和e2的关系关键词的数据库,确定e1的相关实体词e2、以及e1和e2的关系关键词。本发明实施例中以e2为例描述e1的相关实体词,对于确定出的e1的其他相关实体词的处理方式与e2相同。
词条添加单元402将e2添加入百科类数据中e1的相关词条,从而自动补充在线百科类数据中人工编辑不全的相关词条。
关系标注单元403标注e1和e2的关系关键词,方便用户理解相关词条与百科类数据所介绍主题词之间的关系,从而更加方便用户浏览。在此并不对标注关系关键词的方式进行具体限定,可以采用任意显式标注的方式,也可以采用隐式标注的方式。
词条聚类单元503对相关词条进行基于关系关键词的聚类,从而更加方便用户浏览。
其中e1的相关实体词e2、以及e1和e2的关系关键词是由图2所示的装置挖掘的。
除此之外,为了体现出各相关词条与主题词之间的关系强度,该装置可以进一步包括:词条排序单元404,根据图2所示装置对e2的打分值(该打分值也可以存储于数据库中),确定e2在相关词条中的排序。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (32)

1.一种挖掘相关实体词的关系关键词的方法,其特征在于,该方法包括:
A、挖掘实体词e1的相关实体词e2,将所述e1及其相关实体词e2存储在数据库中;
B、在挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个搜索请求query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,所述统计至少包括:对所述各词语在所述距离范围内出现次数的统计;
C、利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述e1和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中,其中M为预设的正整数。
2.根据权利要求1所述的方法,其特征在于,所述实体词的类型包括:人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。
3.根据权利要求1所述的方法,其特征在于,所述步骤A中挖掘实体词e1的相关实体词e2具体包括:
A1、采用以下方式中的至少一种确定所述e1的候选相关实体词:
第一种方式、确定在语料库中与所述e1共现在长度为L的窗口中的次数值排在前N1个的实体词作为所述e1的候选相关实体词,其中N1为预设的自然数;
第二种方式、确定与所述e1在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为所述e1的候选相关实体词,其中N2为预设的自然数;
第三种方式、确定特征向量与所述e1的特征向量的相似度排在前N3个的实体词作为所述e1的候选相关实体词,其中N3为预设的自然数;
第四种方式、确定在百科类数据源中作为主题词的所述e1的相关词条中的实体词作为所述e1的候选相关实体词;
A2、对步骤A1确定出所述e1的候选相关实体词进行打分,选择打分值排在前N4个的候选相关实体词作为所述e1的相关实体词,所述e2为所述e1的相关实体词中的一个,其中N4为预设的正整数。
4.根据权利要求3所述的方法,其特征在于,实体词特征向量的确定方式为:
基于语料库对实体词进行上下文统计,选择距离实体词设定距离范围内的词语的出现次数达到预设的特征选择条件的词语构成该实体词的特征向量;
其中所述特征选择条件包括:出现次数达到预设阈值或者出现次数排在前M1个,M1为预设的正整数。
5.根据权利要求3或4所述的方法,其特征在于,所述步骤A2中采用如下公式对所述e1的候选相关实体词进行打分:
score1(e1,ei)=γ1s1(e1,ei)+γ2s2(e1,ei)+γ3s3(e1,ei)+γ4s4(e1,ei)+γ5s5(e1,ei)+γ6s6(e1,ei);
其中,score1(e1,ei)为所述e1的候选相关实体词ei的打分值,γ1、γ2、γ3、γ4、γ5和γ6为预设的权值参数;
s1(e1,ei)由所述ei和所述e1在语料库中共现在长度为L的窗口中的次数值确定;
s2(e1,ei)由所述ei和所述e1在用户搜索日志中共现在相同query中的次数值确定;
s3(e1,ei)由所述ei的特征向量和所述e1的特征向量的相似度确定;
s4(e1,ei)体现所述ei作为百科类数据源中所述e1的相关词条的分值,采用预设值;
s5(e1,ei)由在利用所述ei和所述e1构成的query进行搜索得到的其中M2个搜索结果中,所述ei和所述e1共现在一个句子中的次数占所述M2个搜索结果中句子总数的比例确定,其中M2为预设的正整数;
s6(e1,ei)由所述ei作为各实体的候选相关实体词的次数确定。
6.根据权利要求1所述的方法,其特征在于,如果在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则所述统计还包括:距离所述e1的距离的统计以及距离所述e2的距离的统计;
在所述步骤C中采用如下公式对所述各词语进行打分:
score 2 ( k i , e 1 , e 2 ) = Σ j = 1 n s j ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score2(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,n为所述步骤C中统计到的所述ki在距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值;
Figure FDA0000052427390000032
其中dj(ki,e1)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e1的距离,dj(ki,e2)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e2的距离。
7.根据权利要求3所述的方法,其特征在于,如果在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且采用所述第一种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分:
score 3 ( k i , e 1 , e 2 ) = tf 3 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score3(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf3(ki,e1,e2)为所述ki在语料库中距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
8.根据权利要求3所述的方法,其特征在于,如果在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且采用所述第二种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分:
score 4 ( k i , e 1 , e 2 ) = tf 4 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score4(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf4(ki,e1,e2)为所述ki在用户搜索日志中与所述e1和所述e2共现在相同query中,且距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
9.根据权利要求4所述的方法,其特征在于,如果在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且采用所述第三种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分:
score 5 ( k i , e 1 , e 2 ) = tf 5 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score5(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf5(ki,e1,e2)为所述ki在语料库中距离所述e1设定距离范围内的出现次数和距离所述e2设定距离范围内的出现次数中的最小值,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
10.根据权利要求6至9任一权项所述的方法,其特征在于,如果在挖掘所述e2所使用的资源,以及,在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则利用统计结果对所述各词语打分为:
分别利用在挖掘所述e2所使用的资源对应的统计结果对所述各词语进行打分,以及在由所述e1和所述e2构成一个query所对应的搜索结果中对应的统计结果对所述各词语进行打分,将分别获得的打分值进行合并,得到最终所述各词语的打分值。
11.根据权利要求1所述的方法,其特征在于,在对距离所述e1和所述e2设定距离范围内的各词语进行统计之前,还包括:
对距离所述e1和所述e2设定距离范围内的各词语进行过滤处理,所述过滤处理包括以下所列的至少一种:将包含在预设的停用词表中的词语过滤掉,或者,将具有预设词性的词语过滤掉,或者,将与所述e1和所述e2具有相同实体类型的词语过滤掉。
12.一种搜索引擎中的智能导航方法,其特征在于,该方法包括:
接收到用户输入的包含实体词e1的搜索请求query后,查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
在向所述用户展现所述query的搜索结果的同时,向所述用户展现所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是通过权利要求1所述的方法挖掘的。
13.根据权利要求12所述的方法,其特征在于,所述e1的相关实体词e2、以及所述e1和e2的关系关键词展现在搜索结果页面的两侧或下方。
14.根据权利要求12所述的方法,其特征在于,该方法还包括:
如果获取到用户点击所述相关实体e2,则向所述用户返回所述e2作为query对应的搜索结果,或者向所述用户返回所述e1和e2共同构成的query对应的搜索结果。
15.一种百科类数据的相关词条补充方法,其特征在于,该方法包括:
利用百科类数据的实体主题词e1,查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定e1的相关实体词e2、以及所述e1和e2的关系关键词;
将所述e2添加入所述百科类数据中所述e1的相关词条,并标注所述e1和所述e2的关系关键词或者对所述相关词条进行基于关系关键词的聚类;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是通过权利要求1所述的方法挖掘的。
16.根据权利要求15所述的方法,其特征在于,所述e2在所述相关词条中的排序由权利要求1中e2的打分值决定。
17.一种挖掘相关实体词的关系关键词的装置,其特征在于,该装置包括:相关词挖掘单元、统计单元和关系确定单元;
所述相关词挖掘单元,用于挖掘实体词e1的相关实体词e2,将所述e1及其相关实体词e2存储在数据库中;
所述统计单元,用于在所述相关词挖掘单元挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个搜索请求query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,所述统计至少包括:对所述各词语在所述距离范围内出现次数的统计;
所述关系确定单元,用于利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述e1和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中,其中M为预设的正整数。
18.根据权利要求17所述的装置,其特征在于,所述实体词的类型包括:人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。
19.根据权利要求17所述的装置,其特征在于,所述相关词挖掘单元具体包括:候选词确定子单元和相关词选择子单元;
所述候选词确定子单元,用于采用以下方式中的至少一种确定所述e1的候选相关实体词:
第一种方式、确定在语料库中与所述e1共现在长度为L的窗口中的次数值排在前N1个的实体词作为所述e1的候选相关实体词,其中N1为预设的自然数;
第二种方式、确定与所述e1在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为所述e1的候选相关实体词,其中N2为预设的自然数;
第三种方式、确定特征向量与所述e1的特征向量的相似度排在前N3个的实体词作为所述e1的候选相关实体词,其中N3为预设的自然数;
第四种方式、确定在百科类数据源中作为主题词的所述e1的相关词条中的实体词作为所述e1的候选相关实体词;
所述相关词选择子单元,用于对所述候选词确定子单元确定出的所述e1的候选相关实体词进行打分,选择打分值排在前N4个的候选相关实体词作为所述e1的相关实体词并存储在所述数据库中,所述e2为所述e1的相关实体词中的一个,其中N4为预设的正整数。
20.根据权利要求17所述的装置,其特征在于,所述候选词确定子单元在确定实体词的特征向量时,具体基于语料库对实体词进行上下文统计,选择距离实体词设定距离范围内的词语的出现次数达到预设的特征选择条件的词语构成该实体词的特征向量;
其中所述特征选择条件包括:出现次数达到预设阈值或者出现次数排在前M1个,M1为预设的正整数。
21.根据权利要求17或18所述的装置,其特征在于,所述相关词选择子单元采用如下公式对所述e1的候选相关实体词进行打分:
score1(e1,ei)=γ1s1(e1,ei)+γ2s2(e1,ei)+γ3s3(e1,ei)+γ4s4(e1,ei)+γ5s5(e1,ei)+γ6s6(e1,ei);
其中,score1(e1,ei)为所述e1的候选相关实体词ei的打分值,γ1、γ2、γ3、γ4、γ5和γ6为预设的权值参数;
s1(e1,ei)由所述ei和所述e1在语料库中共现在长度为L的窗口中的次数值确定;
s2(e1,ei)由所述ei和所述e1在用户搜索日志中共现在相同query中的次数值确定;
s3(e1,ei)由所述ei的特征向量和所述e1的特征向量的相似度确定;
s4(e1,ei)体现所述ei作为百科类数据源中所述e1的相关词条的分值,采用预设值;
s5(e1,ei)由在利用所述ei和所述e1构成的query进行搜索得到的其中M2个搜索结果中,所述ei和所述e1共现在一个句子中的次数占所述M2个搜索结果中句子总数的比例确定,其中M2为预设的正整数;
s6(e1,ei)由所述ei作为各实体的候选相关实体词的次数确定。
22.根据权利要求17所述的装置,其特征在于,如果所述统计单元在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 2 ( k i , e 1 , e 2 ) = Σ j = 1 n s j ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score2(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,n为所述统计单元统计到的所述ki在距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值;
Figure FDA0000052427390000081
其中dj(ki,e1)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e1的距离,dj(ki,e2)为所述ki第j次出现在距离所述e1和所述e2设定距离范围内时距离所述e2的距离。
23.根据权利要求19所述的装置,其特征在于,如果所述统计单元在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且所述相关词挖掘单元采用所述第一种方式挖掘所述e2,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 3 ( k i , e 1 , e 2 ) = tf 3 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score3(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf3(ki,e1,e2)为所述ki在语料库中距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
24.根据权利要求19所述的装置,其特征在于,如果所述统计单元在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且所述相关词挖掘单元采用所述第二种方式挖掘所述e2,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 4 ( k i , e 1 , e 2 ) = tf 4 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score4(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf4(ki,e1,e2)为所述ki在用户搜索日志中与所述e1和所述e2共现在相同query中,且距离所述e1和所述e2设定距离范围内的出现次数,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
25.根据权利要求20所述的装置,其特征在于,如果所述统计单元在挖掘所述e2所使用的资源对距离所述e1和所述e2设定距离范围内的各词语进行统计,且所述相关词挖掘单元采用所述第三种方式挖掘所述e2,则所述关系确定单元采用如下公式对所述各词语进行打分:
score 5 ( k i , e 1 , e 2 ) = tf 5 ( k i , e 1 , e 2 ) × log N Freq ( k i ) ;
其中,score5(ki,e1,e2)为词语ki作为所述e1和所述e2之间关系关键词的打分值,tf5(ki,e1,e2)为所述ki在语料库中距离所述e1设定距离范围内的出现次数和距离所述e2设定距离范围内的出现次数中的最小值,Freq(ki)为所述ki在语料库中的绝对词频,N为所有词语在语料库中的绝对词频的最大值。
26.根据权利要求22至25任一权项所述的装置,其特征在于,如果所述统计单元在挖掘所述e2所使用的资源,以及,在由所述e1和所述e2构成一个query所对应的搜索结果中,对距离所述e1和所述e2设定距离范围内的各词语进行统计,则所述关系确定单元分别利用在挖掘所述e2所使用的资源对应的统计结果对所述各词语进行打分,以及在由所述e1和所述e2构成一个query所对应的搜索结果中对应的统计结果对所述各词语进行打分,将分别获得的打分值进行合并,得到最终所述各词语的打分值。
27.根据权利要求17所述的装置,其特征在于,所述统计单元具体包括:词语提取子单元、过滤处理子单元以及统计处理子单元;
所述词语提取子单元,用于在所述相关词挖掘单元挖掘所述e2所使用的资源,和/或,在由所述e1和所述e2构成一个query所对应的搜索结果中,提取距离所述e1和所述e2设定距离范围内的各词语;
所述过滤处理子单元,用于对所述词语提取子单元提取的各词语进行过滤处理,所述过滤处理包括以下所列的至少一种:将包含在预设的停用词表中的词语过滤掉,或者,将具有预设词性的词语过滤掉,或者,将与所述e1和所述e2具有相同实体类型的词语过滤掉;
所述统计处理子单元对所述过滤处理子单元过滤后的所述各词语进行统计,所述统计至少包括:对各词语在所述距离范围内出现次数的统计。
28.一种搜索引擎中的智能导航装置,其特征在于,该装置包括:请求接收单元、数据库查找单元、搜索单元和结果展现单元;
所述请求接收单元,用于接收用户输入的包含实体词e1的搜索请求query;
所述数据库查找单元,用于查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
所述搜索单元,用于搜索所述query的搜索结果;
所述结果展现单元,用于向所述用户展现所述query的搜索结果的同时,向所述用户展现所述e1的相关实体词e2、以及所述e1和e2的关系关键词;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是由权利要求17所述的装置挖掘的。
29.根据权利要求28所述的装置,其特征在于,所述结果展现单元将所述e1的相关实体词e2、以及所述e1和e2的关系关键词展现在搜索结果页面的两侧或下方。
30.根据权利要求28所述的装置,其特征在于,所述请求接收单元,还用于获取到所述用户点击所述相关实体e2时,将所述e2作为query提供给所述搜索单元,或者将所述e1和e2共同构成的query提供给所述搜索单元;
所述搜索单元检索所述请求接收单元提供的query的搜索结果;
所述结果展现单元,还用于向所述用户返回所述e2作为query对应的搜索结果,或者向所述用户返回所述e1和e2共同构成的query对应的搜索结果。
31.一种百科类数据的相关词条补充装置,其特征在于,该装置包括:数据库查找单元和词条添加单元,还包括关系标注单元或者词条聚类单元;
所述数据库查找单元,用于利用百科类数据的实体主题词e1,查找存储有所述e1及所述e1的相关实体词e2、以及所述e1和e2的关系关键词的数据库,确定e1的相关实体词e2、以及所述e1和e2的关系关键词;
所述词条添加单元,用于将所述e2添加入所述百科类数据中所述e1的相关词条;
所述关系标注单元,用于标注所述e1和所述e2的关系关键词;
所述词条聚类单元,用于对所述相关词条进行基于关系关键词的聚类;
其中所述e1的相关实体词e2、以及所述e1和e2的关系关键词是由权利要求17所述的装置挖掘的。
32.根据权利要求31所述的装置,其特征在于,该装置还包括:词条排序单元,用于根据权利要求17所述的装置对所述e2的打分值,确定所述e2在所述相关词条中的排序。
CN201110075248.0A 2011-03-28 2011-03-28 挖掘相关实体词的关系关键词的方法和装置及其应用 Active CN102708100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110075248.0A CN102708100B (zh) 2011-03-28 2011-03-28 挖掘相关实体词的关系关键词的方法和装置及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110075248.0A CN102708100B (zh) 2011-03-28 2011-03-28 挖掘相关实体词的关系关键词的方法和装置及其应用

Publications (2)

Publication Number Publication Date
CN102708100A true CN102708100A (zh) 2012-10-03
CN102708100B CN102708100B (zh) 2014-11-12

Family

ID=46900895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110075248.0A Active CN102708100B (zh) 2011-03-28 2011-03-28 挖掘相关实体词的关系关键词的方法和装置及其应用

Country Status (1)

Country Link
CN (1) CN102708100B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399879A (zh) * 2013-07-16 2013-11-20 百度在线网络技术(北京)有限公司 基于用户搜索日志的兴趣实体获得方法及装置
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
CN103870489A (zh) * 2012-12-13 2014-06-18 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
CN103885947A (zh) * 2012-12-19 2014-06-25 北京百度网讯科技有限公司 一种搜索需求的挖掘方法、智能搜索方法及其装置
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN104484379A (zh) * 2014-12-09 2015-04-01 百度在线网络技术(北京)有限公司 确定音乐实体关系的方法和装置及查询处理方法和装置
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN104503978A (zh) * 2014-11-26 2015-04-08 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN104572612A (zh) * 2013-10-18 2015-04-29 腾讯科技(深圳)有限公司 数据处理方法和装置
CN104573130A (zh) * 2015-02-12 2015-04-29 北京航空航天大学 基于群体计算的实体解析方法及装置
CN104657750A (zh) * 2015-03-23 2015-05-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN105608075A (zh) * 2014-09-26 2016-05-25 北大方正集团有限公司 一种相关知识点的获取方法及系统
CN105893362A (zh) * 2014-09-26 2016-08-24 北大方正集团有限公司 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN105893363A (zh) * 2014-09-26 2016-08-24 北大方正集团有限公司 一种获取知识点的相关知识点的方法及系统
CN106126710A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 确定不同网页中的实体一致性的方法及装置
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN106897290A (zh) * 2015-12-17 2017-06-27 中国移动通信集团上海有限公司 一种建立关键词模型的方法及装置
CN107122492A (zh) * 2017-05-19 2017-09-01 北京金山安全软件有限公司 基于图片内容的歌词生成方法和装置
CN107357776A (zh) * 2017-06-16 2017-11-17 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN110020163A (zh) * 2017-12-15 2019-07-16 百度在线网络技术(北京)有限公司 基于人机交互的搜索方法、装置、计算机设备和存储介质
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN110309258A (zh) * 2018-03-15 2019-10-08 中国移动通信集团有限公司 一种输入检查方法、服务器和计算机可读存储介质
CN110704613A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN111178075A (zh) * 2019-12-19 2020-05-19 厦门快商通科技股份有限公司 一种在线客服日志分析方法和装置以及设备
CN111339268A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 实体词识别方法和装置
CN111797222A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN113033204A (zh) * 2021-03-24 2021-06-25 广州万孚生物技术股份有限公司 信息实体抽取方法、装置、电子设备和存储介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126408A1 (en) * 2006-06-23 2008-05-29 Invensys Systems, Inc. Presenting continuous timestamped time-series data values for observed supervisory control and manufacturing/production parameters
JP2009070282A (ja) * 2007-09-14 2009-04-02 Fujifilm Corp コンテンツ検索装置、及びプログラム
CN101599985A (zh) * 2008-06-05 2009-12-09 华为技术有限公司 内容获取和内容接收方法、服务器和终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126408A1 (en) * 2006-06-23 2008-05-29 Invensys Systems, Inc. Presenting continuous timestamped time-series data values for observed supervisory control and manufacturing/production parameters
JP2009070282A (ja) * 2007-09-14 2009-04-02 Fujifilm Corp コンテンツ検索装置、及びプログラム
CN101599985A (zh) * 2008-06-05 2009-12-09 华为技术有限公司 内容获取和内容接收方法、服务器和终端

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870489B (zh) * 2012-12-13 2016-12-21 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
CN103870489A (zh) * 2012-12-13 2014-06-18 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
CN103885947B (zh) * 2012-12-19 2018-08-10 北京百度网讯科技有限公司 一种搜索需求的挖掘方法、智能搜索方法及其装置
CN103885947A (zh) * 2012-12-19 2014-06-25 北京百度网讯科技有限公司 一种搜索需求的挖掘方法、智能搜索方法及其装置
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN103399879A (zh) * 2013-07-16 2013-11-20 百度在线网络技术(北京)有限公司 基于用户搜索日志的兴趣实体获得方法及装置
CN103399879B (zh) * 2013-07-16 2017-06-06 百度在线网络技术(北京)有限公司 基于用户搜索日志的兴趣实体获得方法及装置
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
CN104572612A (zh) * 2013-10-18 2015-04-29 腾讯科技(深圳)有限公司 数据处理方法和装置
CN105893362A (zh) * 2014-09-26 2016-08-24 北大方正集团有限公司 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN105893363A (zh) * 2014-09-26 2016-08-24 北大方正集团有限公司 一种获取知识点的相关知识点的方法及系统
CN105608075A (zh) * 2014-09-26 2016-05-25 北大方正集团有限公司 一种相关知识点的获取方法及系统
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN104484339B (zh) * 2014-11-21 2018-01-26 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN104503978A (zh) * 2014-11-26 2015-04-08 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN104503978B (zh) * 2014-11-26 2018-02-13 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN104484379A (zh) * 2014-12-09 2015-04-01 百度在线网络技术(北京)有限公司 确定音乐实体关系的方法和装置及查询处理方法和装置
CN104484379B (zh) * 2014-12-09 2018-06-12 百度在线网络技术(北京)有限公司 确定音乐实体关系的方法和装置及查询处理方法和装置
CN104573130A (zh) * 2015-02-12 2015-04-29 北京航空航天大学 基于群体计算的实体解析方法及装置
CN104573130B (zh) * 2015-02-12 2017-11-03 北京航空航天大学 基于群体计算的实体解析方法及装置
CN104657750B (zh) * 2015-03-23 2018-04-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN104657750A (zh) * 2015-03-23 2015-05-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN106294473B (zh) * 2015-06-03 2020-11-10 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN106897290B (zh) * 2015-12-17 2020-04-24 中国移动通信集团上海有限公司 一种建立关键词模型的方法及装置
CN106897290A (zh) * 2015-12-17 2017-06-27 中国移动通信集团上海有限公司 一种建立关键词模型的方法及装置
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN106126710A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 确定不同网页中的实体一致性的方法及装置
CN106126710B (zh) * 2016-06-30 2020-05-19 北京奇虎科技有限公司 确定不同网页中的实体一致性的方法及装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107977379B (zh) * 2016-10-25 2022-06-28 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN107122492A (zh) * 2017-05-19 2017-09-01 北京金山安全软件有限公司 基于图片内容的歌词生成方法和装置
CN107357776B (zh) * 2017-06-16 2020-09-25 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN107357776A (zh) * 2017-06-16 2017-11-17 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN110020163B (zh) * 2017-12-15 2021-08-17 百度在线网络技术(北京)有限公司 基于人机交互的搜索方法、装置、计算机设备和存储介质
CN110020163A (zh) * 2017-12-15 2019-07-16 百度在线网络技术(北京)有限公司 基于人机交互的搜索方法、装置、计算机设备和存储介质
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN108388556B (zh) * 2018-02-02 2021-08-17 云知声智能科技股份有限公司 同类实体的挖掘方法及系统
CN110309258A (zh) * 2018-03-15 2019-10-08 中国移动通信集团有限公司 一种输入检查方法、服务器和计算机可读存储介质
CN110309258B (zh) * 2018-03-15 2022-03-29 中国移动通信集团有限公司 一种输入检查方法、服务器和计算机可读存储介质
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN110704613B (zh) * 2019-08-23 2020-11-10 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN110704613A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN111178075A (zh) * 2019-12-19 2020-05-19 厦门快商通科技股份有限公司 一种在线客服日志分析方法和装置以及设备
CN111339268A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 实体词识别方法和装置
CN111339268B (zh) * 2020-02-19 2023-08-15 北京百度网讯科技有限公司 实体词识别方法和装置
CN111797222A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN111797222B (zh) * 2020-06-29 2023-12-22 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN113033204A (zh) * 2021-03-24 2021-06-25 广州万孚生物技术股份有限公司 信息实体抽取方法、装置、电子设备和存储介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN102708100B (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
US11354356B1 (en) Video segments for a video related to a task
US10984031B2 (en) Text analyzing method and device, server and computer-readable storage medium
Arguello et al. Document representation and query expansion models for blog recommendation
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
JP6538277B2 (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
Van Zwol et al. Faceted exploration of image search results
CN105893444A (zh) 情感分类方法及装置
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
JP2017511922A (ja) スマート質問回答の実現方法、システム、および記憶媒体
JP2009545810A (ja) 検索結果の時間的ランク付け
CN101571852B (zh) 词典生成装置以及信息检索装置
US20200027064A1 (en) Task execution based on activity clusters
CN103455487A (zh) 一种搜索词的提取方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Lv et al. Knowledge-based query expansion in real-time microblog search
Marujo et al. Hourly traffic prediction of news stories
US8296292B2 (en) Internal ranking model representation schema
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
Xue et al. Topical key concept extraction from folksonomy through graph-based ranking
JP2015125594A (ja) 情報処理装置、情報処理方法、プログラム
CN109948128B (zh) 一种辅助编辑系统
Cai et al. Term-level semantic similarity helps time-aware term popularity based query completion
CN107451129B (zh) 非常规词语或非常规短句的判断以及翻译方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant