CN104484339B - 一种相关实体推荐方法和系统 - Google Patents

一种相关实体推荐方法和系统 Download PDF

Info

Publication number
CN104484339B
CN104484339B CN201410677385.5A CN201410677385A CN104484339B CN 104484339 B CN104484339 B CN 104484339B CN 201410677385 A CN201410677385 A CN 201410677385A CN 104484339 B CN104484339 B CN 104484339B
Authority
CN
China
Prior art keywords
entity
related entities
entities
sentence
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410677385.5A
Other languages
English (en)
Other versions
CN104484339A (zh
Inventor
王丽杰
刘占
刘占一
于佃海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410677385.5A priority Critical patent/CN104484339B/zh
Publication of CN104484339A publication Critical patent/CN104484339A/zh
Application granted granted Critical
Publication of CN104484339B publication Critical patent/CN104484339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种相关实体推荐方法和系统,所述方法包括:接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;将查询到的相关实体进行排序;按照排序结果将查询到的相关实体进行展现。该方法解决了现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,实现了引导用户进行再次搜索的目的。

Description

一种相关实体推荐方法和系统
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种相关实体推荐方法和系统。
背景技术
目前为了引导用户进行再次搜索,在用户输入搜索查询语句后,搜索引擎除了将搜索到的与该搜索查询语句相关的网页链接展现给用户外,还会将一些其他实体作为推荐实体也展现给用户,比如将推荐实体显示在网页链接的右侧,使用户针对该相关实体进行搜索。
现有技术中存在以下问题:
展现的一些推荐实体与搜索查询语句包含的实体完全无关联,该类推荐实体对用户完全无意义甚至引起用户的反感,如图1所示,用户输入搜索查询语句“吃什么蔬菜补钙”,搜索结果右侧给出推荐的相关实体,这些实体中部分对补钙有帮助,可以引导用户确认自己的需求,但部分实体例如“腐乳”和“动物性食品”,与搜索查询语句包含的实体完全无关联。图2中,推荐实体“毛新宇”与用户输入的搜索查询语句包含的实体“杨虎城”完全无关联。
展现的一部分推荐实体是另一部分推荐实体的相关实体,其与搜索查询语句包含的实体的相关性较弱,用户很可能不会对其有兴趣。如图3所示,右侧给出的推荐实体“陈道明”,跟推荐实体“左小青”有关联,二者共同出演了另一部电视剧,但是跟用户输入搜索查询语句直观的实体“爷们儿”关联程度非常小,还不如给出左小青的其他相关电视剧作品。
综上,现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户很可能不会对其有兴趣,不能达到引导用户进行再次搜索的目的,还有可能引起用户反感从而导致用户体验下降。
发明内容
本发明实施例提供一种相关实体推荐方法和系统,以提升推荐实体与用户输入的查询语句包含实体的相关性,为用户推荐感兴趣的实体,达到引导用户进行再次搜索的目的。
第一方面,本发明实施例提供了一种相关实体推荐方法,包括:
接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;
将查询到的相关实体进行排序;
按照排序结果将查询到的相关实体进行展现。
第二方面,本发明实施例还提供了一种相关实体推荐系统,该系统包括:
实体名称提取模块,用于接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
相关实体查询模块,用于根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;
相关实体排序模块,用于将查询到的相关实体进行相关实体;
相关实体展现模块,用于按照排序结果将查询到的相关实体进行展现。
本发明实施例通过预先利用语料库中的语句挖掘相关实体对,根据挖掘出的相关实体对确定查询语句中的实体所对应的相关实体,并对所述查询语句中的实体所对应的相关实体进行排序后推荐展现,解决了现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,实现了引导用户进行再次搜索的目的。
附图说明
图1为现有技术中一种相关实体推荐结果展现示意图;
图2为现有技术中另一种相关实体推荐结果展现示意图;
图3为现有技术中另一种相关实体推荐结果展现示意图;
图4为本发明实施例一提供的一种相关实体推荐方法的流程图;
图5为本发明实施例二提供的一种相关实体推荐方法的流程图;
图6为本发明实施例二提供的与杨虎城直接相关的实体及对应的关系和频次的统计图;
图7为本发明实施例二提供的通过实体间关系关联度计算与杨虎城直接相关的实体推荐排序列表;
图8为本发明实施例二提供的与用户查询语句“杨虎城”所对应的直接相关实体排序展现示意图;
图9为本发明实施例三提供的一种相关实体推荐方法中利用语料库中的语句挖掘相关实体对的流程图;
图10为本发明实施例三提供的语料库中的语句=“在大坯山下颜良被关公突然袭击快马奔到面前一刀杀死的”,经过语法语义分析后,得到的句法结构示意图;
图11为本发明实施例三提供的对语句=“在大坯山下颜良被关公突然袭击快马奔到面前一刀杀死的”句法结构进行相关实体对挖掘示意图;
图12为本发明实施例三提供的语料库中的语句=“心雨是刘德华演唱的歌曲”,经过语法语义分析后,得到的句法结构示意图;
图13为本发明实施例三提供的语料库中的语句=“心雨是刘德华演唱的歌曲”句法结构进行相关实体对挖掘示意图;
图14为本发明实施例四提供的一种相关实体推荐方法的流程图;
图15为本发明实施例四提供的一种间接相关实体推导示意图;
图16为本发明实施例四提供的一种相关实体推荐结果展现示意图;
图17为本发明实施例五提供的一种相关实体推荐系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图4为本发明实施例一提供的一种相关实体推荐方法的流程图,本实施例可适用于各种搜索引擎,用于引导用户搜索,引导用户发现真正意图或引起用户的相关兴趣进行再次搜索。本实施例的方法可以由相关实体推荐装置来执行,该装置可通过软件的方式实现,并一般可集成于搜索引擎客户端(例如,百度搜索、360搜索等)所在的终端设备(例如,台式机或者笔记本等)中,或作为搜索引擎客户端的子程序。本实施例的方法具体包括如下操作:
110、接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
用户向搜索引擎提交查询语句,搜索引擎一般在接受到用户查询语句后,要做一些处理。所述处理就是提取出所述查询语句中包含的实体名称。其中用户输入的查询语句可以是一个词语也可以是一个句子,该操作能够识别并提取出用户输入查询语句中所包含的实体名称,例如采用分词技术获得所述查询语句中包含的各实体名称,需要注意的是本发明对获得所述查询语句中包含的实体名称的方式不作限制。
操作120、根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;
预先利用语料库中的语句挖掘出的相关实体对,其中所述语料库可以是索引数据库,还可以是用户行为数据库。通过对语料库中的语句进行基本的词法、句法分析,给出句子的句法结构,然后基于此结构进行实体关系挖掘,确定相关实体对,所述相关实体对包括相关实体和关联关系。根据上述操作获取的查询语句中的实体名称,从预先利用语料库中的语句挖掘出的相关实体对中查找所对应实体的相关实体。
130、将查询到的相关实体进行排序;
根据查询到的相关实体与所述实体名称所对应实体的关联度值进行排序,生成推荐实体列表,等待输出。
140、按照排序结果将查询到的相关实体进行展现。
按照排序结果将查询到的相关实体作为用户输入查询语句的推荐实体,进行输出展现,例如在搜索结果的右侧给出与所述用户查询语句中实体名称所对应实体的相关实体排序展现。本实施例中,也可以在搜索结果的左侧或者下方展示推荐的相关实体排序结果,本实施例对展现形式并不做限制。
本实施例的技术方案,通过提取出所述查询语句中包含的实体名称并在根据预先利用语料库中的语句挖掘出的相关实体对中,查询所述实体名称所对应实体的相关实体,将查询到的相关实体进行排序并将排序结果进行输出展现,解决了现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,达到了引导用户进行再次搜索的效果。
实施例二
图5为本发明实施例二提供的一种相关实体推荐方法的流程图,本实施例以上述实施例为基础进行优化。如图5所示,该方法具体包括如下操作:
210、对语料库中的语句进行语法语义分析,得到所述语句的句法结构;
该操作主要是对语料库中的语句进行基本的词法、句法分析,给出语句的句法结构,然后基于此结构进行关系挖掘。这部分工作涉及:分词模块、实体识别模块、词性标注模块和依存分析模块。其中,分词模块是其他模块对语句作进一步分析的基础,将一个语句切分成一个一个单独的词,利用各种匹配方法将语句重新组合成词序列,例如可以是基于字符串匹配的分词,或者基于统计模型的分词等;实体识别模块用于识别出待处理语句中描述确切对象的词语;词性标注模块,用于将词语进行词性分类,可以将句子中具体词的组合关系抽象成词类之间的组合关系,进而更容易得到句法结构的规律;依存分析模块用于将语句分析成一颗依存句法树,描述出各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系。
同时为了提升基础模块的准确率,在调用词法和句法前,先进行语料预处理。语料预处理的作用,一是去除杂乱无章的语句,二是进行指代消解。
220、根据所述语句的句法结构,获得所述语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保存;
在上述得到的句法结构基础上,确认语句所含有的实体,进行实体间关系挖掘,同时补充构成关系的各个要素。其中,所述相关实体包括具有直接关联关系的实体以及所述直接关联关系。
230、接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
240、将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相关实体;
所述直接相关实体,是与用户搜索查询语句中的实体具有直接关联关系的相关实体。
250、分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
根据上述相关实体对挖掘结果,统计出两个实体之间关系种类数、每一个关系及其对应的频次等信息,例如统计了与“杨虎城”直接相关的实体及对应的关系和频次等,结果如图6所示。同时还可以计算关系强度(如“主演”强度大于“请”)。针对每一对实体,按照如下公式一获得两个实体的关联度值entity_relscore:
公式一:entity_relscore=∑r∈R freqqe1,e2,r)r_weight
其中,(e1,e2,r)表示包含两个实体的一个相关实体对,e1、e2分别表示该两个实体,r表示当前相关实体对中e1与e2的关联关系;R表示e1与e2的关系的集合;r_weight表示r的强度值;freq函数表示相关实体对(e1,e2,r)的出现频次。
按照如下公式二计算所述r_weight:
公式二:
其中,entity_pair表示当前相关实体对(e1,e2,r),p(entity_pair)表示当前相关实体对(e1,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(e1,e2,r)的总数量。
260、根据获得的关联度值对查询到的直接相关实体进行排序。
通过上述公式的计算,可以得出直接相关实体推荐排序列表,如图7所示。
270、按照排序结果将查询到的直接相关实体进行展现。
将操作260直接相关实体推荐排序列表在用户搜索结果中展现,如图8所示,本实施例中示例性的在搜索结果的右侧给出与用户查询语句“杨虎城”所对应的直接相关实体排序展现。与现有技术相关实体推荐结果(参见图2)相比,蒋介石、孙蔚如、谢葆真、宋绮云、井岳秀等比毛新宇、毛泽民、津渊美智子等跟杨虎城的相关性更强。
本实施例的技术方案,通过预先对语料库语句进行语法语义分析,相关实体对挖掘,获取与用户查询语句中实体名称对应的实体具有直接关联关系的直接相关实体,并通过计算实体间关联度值,对推荐的直接相关实体进行排序输出展示,解决了现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,提升了用户体验,达到了引导用户进行再次搜索的效果。
实施例三
图9为本发明实施例三提供的一种相关实体推荐方法中利用语料库中的语句挖掘相关实体对的流程图,如图9所示,利用语料库中的语句挖掘相关实体对具体包括:
310、对语料库中的语句进行语法语义分析,得到所述语句的句法结构;
320、提取所述语句的句法结构中的子结构;
挖掘过程是一个自上而下的处理过程,首先根据句法结构,将句法结构中的所有子结构进行提取。
330、对提取到的子结构进行语句类型识别;
例如识别所述子结构是正常语句还是被字句或逆序结构等,当所述子结构为正常语句结构时,不做处理,直接保存;当所述子结构是被字句或逆序结构等时,调整所述子结构为正常语句结构后保存。
340、根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
如果得到的子结构中含有无意义的连接节点(由于句子语法需求,一些虚词用来协助构建整个句子),那么需要先对得到的子结构进行合并。然后对合并后得到的子结构或者不需要进行合并的子结构再进行最后的合理性验证,将高质量结果作为最终的挖掘结果。例如通过语料来源网站的质量(新闻网站质量高于贴吧等论坛网站)、网站数量等确定语料语句的可靠性,将可靠性低的来源语料语句舍弃。
350、将验证通过的子结构作为相关实体对进行保存。
所述相关实体包括具有直接关联关系的实体(也即子结构中的子节点)以及所述直接关联关系。
下面通过两个具体的例子来说明本实施例的具体实现过程。
例如,语料库中的语句=“在大坯山下颜良被关公突然袭击快马奔到面前一刀杀死的”,经过语法语义分析后,得到的句法结构如图10所示。
根据得到的句法结构,进行相关实体对挖掘的过程如下:
提取语句句法结构中的子结构,如图11所示,子结构1的根节点为“杀死”,对应的子节点为“大坯山”、“颜良”、“关公”、“一刀”、等;子结构2的根节点为“奔到”,对应的子节点为“快马”、“面前”等;对提取到的子结构进行语句类型识别,发现子结构1为被字句,子结构2为正常语句。由于子结构是一个被字句,则真正主语是“被”字后面的实体(即依存关系上为依存于“被”的子节点)“关公”,“颜良”为“杀死”的宾语,调整句子结构保存;子结构2为正常语句则直接保存结果;由于两个子结构表示动作前后关系,不进行合并;例如从其他语句中还挖掘到“刘备杀死颜良”,通过挖掘到语料的网站质量(新闻网站质量高于贴吧等论坛网站)、网站数目(如挖掘到“关公杀死颜良”的数量远大于“刘备杀死颜良”的数量)等确定语句的可信性;最后,将验证通过的子结构作为相关实体对进行保存。
又例如,语料库中的语句=“心雨是刘德华演唱的歌曲”,分析后得到的句法结构如图12所示。
根据得到的句法结构,进行相关实体对挖掘的过程如下:
提取语句句法结构中的子结构,子结构1的根节点为“是”,对应的子节点为“心雨”、“歌曲”;子结构2的根节点为“歌曲”,对应的子节点为“演唱”;识别子结构1为正常语句,子结构2为动词修饰名词的逆序结构;直接提取子结构1的子节点信息;子结构2则需转成正常结构,即将根节点改为“演唱”,“歌曲”作为其子节点,如图13所示。通过子结构1得知“心雨”等价于歌曲(关系词为“是”,表示等价),则将子结构2中的“歌曲”替换成“心雨”,进行两个子结构的合并,得到“刘德华演唱心雨”;对最终结果进行验证,通过语料语句来源网站的质量(新闻网站质量高于贴吧等论坛网站)、网站数量等确定语句的可信性。最后,将验证通过的子结构作为相关实体对进行保存。
本发明实施例通过对语料库中的语句进行语法语义分析获取句法结构,并根据获取的句法结构挖掘相关实体对,得到所述用户查询语句中的实体名称所对应实体的直接相关实体,以实现为用户查询结果推荐相关性高的相关实体。
实施例四
本发明实施例提供的相关实体推荐方法为上述各实施例的进一步优化,优选地,在根据预先利用语料库中的语句挖掘出的相关实体对查询所述实体名称所对应实体的相关实体之后、将查询到的相关实体进行排序之前,还包括:
查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称所对应实体具有间接关联关系的实体。
在上述各实施例的基础上,本实施例对预先挖掘出的相关实体对进行关系推导及部分属性值匹配,可以给出与实体名称所对应实体具有间接关联关系的间接相关实体。如图14所示,该方法包括如下操作:
410、接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
420、根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;
430、查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相关实体;这里的属性可以包括实体的类别、功效等。
所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称所对应实体具有间接关联关系的实体。
440、分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
450、分别获得查询到的各间接相关实体与所述实体名称所对应实体的关联度值;
任一间接相关实体与所述实体名称所对应实体的关联度值,是根据该任一间接相关实体与中间关联实体的关联度值确定的,具体的,该任一间接相关实体与所述实体名称所对应实体的关联度值,可以等于该任一间接相关实体与各中间关联实体的关联度值的平均值,所述中间关联实体是与该任一间接相关实体有直接关联关系的实体;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
对于操作440和操作450,每一对实体,按照如下公式一获得两个实体的关联度值entity_relscore:
公式一:entity_relscore=∑r∈R freqqe1,e2,r)r_weight
其中,(e1,e2,r)表示包含两个实体的一个相关实体对,e1、e2分别表示该两个实体,r表示当前相关实体对中e1与e2的关联关系;R表示e1与e2的关系的集合;r_weight表示r的强度值;freq函数表示相关实体对(e1,e2,r)的出现频次。
按照如下公式二计算所述r_weight:
公式二:
其中,entity_pair表示当前相关实体对(e1,e2,r),p(entity_pair)表示当前相关实体对(e1,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(e1,e2,r)的总数量。
460、根据获得的关联度值对查询到的直接相关实体和间接相关实体进行排序;
470、按照排序结果将查询到的相关实体进行展现。
本实施例提供的方法主要利用实体属性匹配(如类型相同)以及根据挖掘出的相关实体对进行关系推导得到与查询语句中实体名称对应的实体具有间接关联关系的间接相关实体。例如根据图15中语料库中数据,可以得出“悬崖”跟用户输入的搜索查询中“爷们儿”属于同一类别(均为电视剧),且根据挖掘出的相关实体对(爷们儿的主演为宋佳和张嘉译)进行关系推导得到宋佳和张嘉译也为“悬崖”的主演,故将“悬崖”作为搜索查询“爷们儿”的间接相关实体,“悬崖”与“爷们儿”的关联度值可以取“悬崖”与“张嘉译”的关联度值和“悬崖”与“宋佳”的关联度值的平均值。为用户搜索查询推荐“悬崖”作为候选推荐实体,可以更好的引起用户兴趣。如图16所示,其中图中前两排表示跟用户搜索查询中实体直接关联,第三排结果是通过挖掘出的相关实体对进行关系推导及属性匹配得到的具有间接关联关系的推荐实体。
本发明实施例通过根据挖掘出的相关实体对进行关系推导得到与查询语句中实体名称对应的实体具有间接关联关系的间接相关实体,作为用户搜索结果的候选相关实体,并根据各直接相关实体与所述实体名称所对应实体的关联度值以及各间接相关实体与所述实体名称所对应实体的关联度值,对查询到的直接相关实体和间接相关实体进行排序输出展示,由于推荐相关实体中增加了间接相关实体,能够更好的引起用户兴趣,吸引用户好奇心,提升用户搜索量。
实施例五
图17所示为本发明实施例五提供的相关实体推荐系统的结构示意图,该系统的具体结构如下:
实体名称提取模块510,用于接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
相关实体查询模块520,用于根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的相关实体;
相关实体排序模块530,用于将查询到的相关实体进行排序;
相关实体展现模块540,用于按照排序结果将查询到的相关实体进行展现。
本实施例的技术方案,通过提取出所述查询语句中包含的实体名称并在根据预先利用语料库中的语句挖掘出的相关实体对中,查询所述实体名称所对应实体的相关实体,将查询到的相关实体进行排序并将排序结果进行输出展现,解决了现有技术中为用户展现的推荐实体与用户输入的搜索查询语句包含的实体的相关性较弱,用户不感兴趣的问题,提高了推荐实体与用户输入的搜索查询语句包含的实体的相关性,达到了引导用户进行再次搜索的效果。
在上述各实施例基础上,所述相关实体推荐系统,还包括:
语法语义分析分析模块,用于对语料库中的语句进行语法语义分析,得到所述语句的句法结构;
相关实体对保存模块,用于根据所述语句的句法结构,获得所述语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保存。将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相关实体。
进一步地,所述相关实体对保存模块,具体包括:
子结构提取子单元,用于提取所述语句的句法结构中的子结构;
语句类型识别子单元,用于对提取到的子结构进行语句类型识别;
合理性验证子单元,用于根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
相关实体对保存子单元,将验证通过的子结构作为相关实体对进行保存。
在上述各实施例基础上,所述相关实体推荐系统还包括:间接相关实体查询模块,用于查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称所对应实体具有间接关联关系的实体。
进一步地,所述相关实体排序模块,具体包括:
直接相关实体关联度值获取单元,用于分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
直接相关实体排序单元,用于根据获得的关联度值对查询到的直接相关实体进行排序。
优选地,所述相关实体排序模块,具体还包括:
直接相关实体关联度值获取单元,分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;
间接相关实体关联度值获取单元,分别获得查询到的各间接相关实体与所述实体名称所对应实体的关联度值;任一间接相关实体与所述实体名称所对应实体的关联度值,是根据该任一间接相关实体与中间关联实体的关联度值确定的,所述中间关联实体是与该任一间接相关实体有直接关联关系的实体;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
相关实体排序单元,根据获得的关联度值对查询到的直接相关实体和间接相关实体进行排序。
其中,按照如下公式一获得两个实体的关联度值entity_relscore:
公式一:entity_relscore=∑r∈R freqqe1,e2,r)r_weight
其中,(e1,e2,r)表示包含两个实体的一个相关实体对,e1、e2分别表示该两个实体,r表示当前相关实体对中e1与e2的关联关系;R表示e1与e2的关系的集合;r_weight表示r的强度值;freq函数表示相关实体对(e1,e2,r)的出现频次。
按照如下公式二计算所述r_weight:
公式二:
其中,entity_pair表示当前相关实体对(e1,e2,r),p(entity_pair)表示当前相关实体对(e1,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(e1,e2,r)的总数量。
本发明实施例所提供的相关实体推荐系统可用于执行本发明任意实施例提供的相关实体推荐方法,具备相应的功能模块,实现相同的有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种相关实体推荐方法,其特征在于,包括:
接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的直接相关实体;
查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称所对应实体具有间接关联关系的实体;
分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;
分别获得查询到的各间接相关实体与所述实体名称所对应实体的关联度值;任一间接相关实体与所述实体名称所对应实体的关联度值,是根据该任一间接相关实体与中间关联实体的关联度值确定的,所述中间关联实体是与该任一间接相关实体有直接关联关系的实体;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
根据获得的关联度值对查询到的直接相关实体和间接相关实体进行排序;
按照排序结果将查询到的相关实体进行展现。
2.根据权利要求1所述的方法,其特征在于,利用语料库中的语句挖掘相关实体对,具体包括:
对语料库中的语句进行语法语义分析,得到所述语句的句法结构;根据所述语句的句法结构,获得所述语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保存;
将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相关实体。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语句的句法结构,获得所述语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保存,具体包括:
提取所述语句的句法结构中的子结构;
对提取到的子结构进行语句类型识别;
根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
将验证通过的子结构作为相关实体对进行保存。
4.根据权利要求2或3所述的方法,其特征在于,按照如下公式一获得两个实体的关联度值entity_relscore:
公式一:entity_relscore=∑r∈Rfreq(e1,e2,r)r_weight
其中,(e1,e2,r)表示包含两个实体的一个相关实体对,e1、e2分别表示该两个实体,r表示当前相关实体对中e1与e2的关联关系;R表示e1与e2的关系的集合;r_weight表示r的强度值;freq函数表示相关实体对(e1,e2,r)的出现频次。
5.根据权利要求4所述的方法,其特征在于,按照如下公式二计算所述r_weight:
公式二:
其中,entity_pair表示当前相关实体对(e1,e2,r),p(entity_pair)表示当前相关实体对(e1,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(e1,e2,r)的总数量。
6.一种相关实体推荐系统,其特征在于,包括:
实体名称提取模块,用于接收用户输入的查询语句,提取出所述查询语句中包含的实体名称;
直接相关实体查询模块,用于根据预先利用语料库中的语句挖掘出的相关实体对,查询所述实体名称所对应实体的直接相关实体;
间接相关实体查询模块,用于查询与所述实体名称所对应实体的属性相匹配的、所述实体名称所对应实体的间接相关实体;所述间接相关实体是根据挖掘出的相关实体对进行关系推导得到的、与实体名称所对应实体具有间接关联关系的实体;
直接相关实体关联度值获取模块,分别获得查询到的各直接相关实体与所述实体名称所对应实体的关联度值;
间接相关实体关联度值获取模块,分别获得查询到的各间接相关实体与所述实体名称所对应实体的关联度值;任一间接相关实体与所述实体名称所对应实体的关联度值,是根据该任一间接相关实体与中间关联实体的关联度值确定的,所述中间关联实体是与该任一间接相关实体有直接关联关系的实体;其中每两个实体的关联度值是根据包含该两个实体的相关实体对的关系强度值和出现频次确定的;
相关实体排序模块,根据获得的关联度值对查询到的直接相关实体和间接相关实体进行排序;
相关实体展现模块,用于按照排序结果将查询到的相关实体进行展现。
7.根据权利要求6所述的系统,其特征在于,还包括:
语法语义分析分析模块,用于对语料库中的语句进行语法语义分析,得到所述语句的句法结构;
相关实体对保存模块,用于根据所述语句的句法结构,获得所述语句中具有直接关联关系的实体,将该具有直接关联关系的实体以及所述直接关联关系作为相关实体对进行保存;
将根据所述相关实体对查询到的所述实体名称所对应实体的相关实体作为直接相关实体。
8.根据权利要求7所述的系统,其特征在于,所述相关实体对保存单元,具体包括:
子结构提取子单元,用于提取所述语句的句法结构中的子结构;
语句类型识别子单元,用于对提取到的子结构进行语句类型识别;
合理性验证子单元,用于根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
相关实体对保存子单元,将验证通过的子结构作为相关实体对进行保存。
9.根据权利要求6所述的系统,其特征在于,按照如下公式一获得两个实体的关联度值entity_relscore:
公式一:entity_relscore=∑r∈Rfreq(e1,e2,r)r_weight
其中,(e1,e2,r)表示包含两个实体的一个相关实体对,e1、e2分别表示该两个实体,r表示当前相关实体对中e1与e2的关联关系;R表示e1与e2的关系的集合;r_weight表示r的强度值;freq函数表示相关实体对(e1,e2,r)的出现频次。
10.根据权利要求9所述的系统,其特征在于,按照如下公式二计算所述r_weight:
公式二:
其中,entity_pair表示当前相关实体对(e1,e2,r),p(entity_pair)表示当前相关实体对(e1,e2,r)在关系r所关联的全部相关实体对中的比例,n表示相关实体对(e1,e2,r)的总数量。
CN201410677385.5A 2014-11-21 2014-11-21 一种相关实体推荐方法和系统 Active CN104484339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410677385.5A CN104484339B (zh) 2014-11-21 2014-11-21 一种相关实体推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410677385.5A CN104484339B (zh) 2014-11-21 2014-11-21 一种相关实体推荐方法和系统

Publications (2)

Publication Number Publication Date
CN104484339A CN104484339A (zh) 2015-04-01
CN104484339B true CN104484339B (zh) 2018-01-26

Family

ID=52758880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410677385.5A Active CN104484339B (zh) 2014-11-21 2014-11-21 一种相关实体推荐方法和系统

Country Status (1)

Country Link
CN (1) CN104484339B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095433B (zh) * 2015-07-22 2019-07-05 百度在线网络技术(北京)有限公司 实体推荐方法及装置
CN105447104A (zh) * 2015-11-12 2016-03-30 中国建设银行股份有限公司 一种知识地图生成方法及装置
CN105426536A (zh) * 2015-12-21 2016-03-23 北京奇虎科技有限公司 汽车类搜索结果页的展现方法及装置
CN105678575B (zh) * 2015-12-31 2020-11-13 华南师范大学 基于用户属性知识库的个性化推荐方法和系统
CN106168947A (zh) * 2016-07-01 2016-11-30 北京奇虎科技有限公司 一种相关实体挖掘方法和系统
US10289625B2 (en) 2016-09-15 2019-05-14 Google Llc Providing context facts
CN106547887B (zh) * 2016-10-27 2020-04-07 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN109446399A (zh) * 2018-10-16 2019-03-08 北京信息科技大学 一种影视实体搜索方法
CN109753517A (zh) * 2018-12-06 2019-05-14 北京明略软件系统有限公司 一种信息查询的方法、装置、计算机存储介质及终端
CN109766415B (zh) * 2019-01-18 2022-05-06 广东小天才科技有限公司 一种书本目录的定位方法及系统
US11288320B2 (en) * 2019-06-05 2022-03-29 International Business Machines Corporation Methods and systems for providing suggestions to complete query sessions
CN110458099B (zh) 2019-08-12 2021-02-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111198852A (zh) * 2019-12-30 2020-05-26 浪潮通用软件有限公司 微服务架构下知识图谱驱动的元数据关系推理方法
CN111813828B (zh) * 2020-06-30 2024-02-27 北京百度网讯科技有限公司 一种实体关系挖掘方法、装置、电子设备及存储介质
CN113987145B (zh) * 2021-10-22 2024-02-02 智联网聘信息技术有限公司 一种精准推理用户属性实体的方法、系统、设备和存储介质
CN114969486B (zh) * 2022-08-02 2022-11-04 平安科技(深圳)有限公司 语料推荐方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103593410A (zh) * 2013-10-22 2014-02-19 上海交通大学 通过替换概念性词语进行搜索推荐系统
CN104102713A (zh) * 2014-07-16 2014-10-15 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565627B2 (en) * 2004-09-30 2009-07-21 Microsoft Corporation Query graphs indicating related queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103593410A (zh) * 2013-10-22 2014-02-19 上海交通大学 通过替换概念性词语进行搜索推荐系统
CN104102713A (zh) * 2014-07-16 2014-10-15 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置

Also Published As

Publication number Publication date
CN104484339A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN104484339B (zh) 一种相关实体推荐方法和系统
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN105095433B (zh) 实体推荐方法及装置
CN103853824B (zh) 一种基于深度语义挖掘的内文广告发布方法与系统
CN103631929B (zh) 一种用于搜索的智能提示的方法、模块和系统
CN104503978B (zh) 一种相关实体推荐方法和系统
CN106156286B (zh) 面向专业文献知识实体的类型抽取系统及方法
US8312022B2 (en) Search engine optimization
JP5989665B2 (ja) 複合的知識表現の解析及び合成を行うシステム及び方法
US20110060734A1 (en) Method and Apparatus of Knowledge Base Building
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN105045875B (zh) 个性化信息检索方法及装置
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
CN104133877B (zh) 软件标签的生成方法和装置
CN107577759A (zh) 用户评论自动推荐方法
CN106874441A (zh) 智能问答方法和装置
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
Fang et al. High quality candidate generation and sequential graph attention network for entity linking
WO2014107801A1 (en) Methods and apparatus for identifying concepts corresponding to input information
CN102955853B (zh) 一种跨语言文摘的生成方法及装置
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN104978314A (zh) 媒体内容推荐方法及装置
CN104281565B (zh) 语义词典构建方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant