CN107943919A - 一种面向会话式实体搜索的查询扩展方法 - Google Patents

一种面向会话式实体搜索的查询扩展方法 Download PDF

Info

Publication number
CN107943919A
CN107943919A CN201711162771.0A CN201711162771A CN107943919A CN 107943919 A CN107943919 A CN 107943919A CN 201711162771 A CN201711162771 A CN 201711162771A CN 107943919 A CN107943919 A CN 107943919A
Authority
CN
China
Prior art keywords
mrow
entity
msub
historical
historical results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711162771.0A
Other languages
English (en)
Other versions
CN107943919B (zh
Inventor
赵峰
王沛
肖洋
金海�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711162771.0A priority Critical patent/CN107943919B/zh
Publication of CN107943919A publication Critical patent/CN107943919A/zh
Application granted granted Critical
Publication of CN107943919B publication Critical patent/CN107943919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种面向会话式实体搜索的查询扩展方法,包括:对维基百科文档集预处理得到数据集D;遍历数据集D中每个文档d,得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;抽取WordNet中的语义信息和YAGO3中的实体相关信息;根据历史查询结果构建历史结果缓存队列L;根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用语义信息和实体相关信息对L中的历史结果进行分析获取历史反馈Qh;基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;利用R更新缓存队列L。本发明在减少查询开销的同时缩短查询流程。

Description

一种面向会话式实体搜索的查询扩展方法
技术领域
本发明涉及实体搜索领域,更具体地,涉及一种面向会话式实体搜索的查询扩展方法。
背景技术
会话式实体搜索就是通过用户交互的多轮查询方式对Web数据中主题相关的实体对象(如人、组织和地点等)及相应属性进行快速、准确的检索。相比传统实体搜索,会话式实体搜索会将用户意图分解为一系列查询,每轮查询中用户都会根据历史查询的结果提出新的查询或是修改原始查询。在此情形下,单轮查询描述的信息一般都是不完整的,同时查询的不断演进也可能使会话内容偏离目标主题,因此如何理解用户每轮查询的意图、缩短查询流程并保证会话主题的一致性是会话式实体搜索所要解决的关键问题。
目前对于理解用户的查询意图,传统实体搜索普遍采用查询扩展方法,该方法利用信息论、数据挖掘等技术从不同的信息源中获取查询相关的扩展项并结合原始查询生成新的查询,通过新的查询得到更多相关的结果。当前,面向传统实体搜索的查询扩展方法利用的信息源主要来自于两方面,一方面为初始查询的结果,对应基于伪相关反馈的查询扩展方法;另一方面则是知识库中的相关结果,对应基于外部语料库的查询扩展方法,这两种查询扩展方法在会话式实体搜索中均存在局限性。
会话式实体搜索中多轮查询间存在显著的关联,历史查询结果对于本轮查询的影响较大,上述的查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率的技术问题。
为实现上述目的,本发明提供一种面向会话式实体搜索的查询扩展方法,包括以下步骤:
(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;
(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE
(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;
(4)根据历史查询结果构建历史结果缓存队列L;
(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh
(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;
(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);
(8)本次会话查询结束。
可选地,步骤(1)包含以下子步骤:
(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文;
(1-2)对上下文进行分词、词性标注,移除停用词然后进行命名实体识别,进一步利用Wikifier工具进行实体链接,得到包含关键字和实体标注的数据集D。
可选地,步骤(2)包含以下子步骤:
(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合,相应地利用标注信息生成实体id-实体类t组合;
(2-2)将关键字id-文档id、实体id-文档id组合分别插入Ik和Ie中,将实体id-实体类t组合插入IE中。
可选地,步骤(3)包含以下子步骤:
(3-1)抽取WordNet中的语义信息,包括:抽取WordNet中同义词及上下位词语义关系,分别建立关键字id到同义词集的映射和不同同义词集间的映射,对应的映射权重通过语义重合度和语义密度来度量;
(3-2)抽取YAGO3中的实体相关信息,包括:提取YAGO3中的实体关联信息,建立实体id到实体id的关联。
可选地,步骤(4)利用优先级队列对历史结果进行缓存,给定历史结果e的新鲜度f和当前得分s,优先级的计算公式如下:
其中,Priority(e)表示历史结果e的优先级,f为时间跨度的logistic函数,fi(e)表示历史结果e在第i轮会话中的新鲜度,si(e)表示历史结果e在第i轮会话中的相关性得分,i表示会话轮次,n表示总会话轮数。
可选地,步骤(5)包含以下子步骤:
(5-1)计算扩展关系模型Mr,若支持文档集ds由输入实体ein、结果实体er、数据集D及扩展关系模型Mr的混合模型生成,则有:
其中,logp(ds|Md)表示支持文档集ds在反馈文档模型Md下的相关性得分,W(w,d)表示词条w在文档d中的权重,p(w|ein)表示词条w与输入实体ein的相关性,p(w|er)表示词条w与结果实体er的相关性,p(w|Mr)表示在扩展关系模型Mr下生成词条w的概率,p(w|D)表示在当前数据集D下生成词条w的概率,α1、α2和β均表示[0,1]间的可调参数,通过期望最大化算法对公式中扩展关系模型Mr进行有效估计;
(5-2)从Mr中选取前p项作为伪相关反馈QPRF
(5-3)计算L中历史结果与输入实体的语义相关性,考虑历史结果与输入实体间是否存在映射关系,给定指示器函数I(ein,er)表示输入实体ein与历史结果er间是否存在映射关系,w(ein,er)表示输入实体ein与历史结果er间的语义强度,则历史结果与输入实体的语义相关性Rsem(er)计算公式如下:
其中,ek表示YAGO3中与输入实体ein存在关联的实体;
(5-4)计算L中历史结果与输入实体的上下文相关性,考虑历史结果与输入实体共现的文档越多、历史结果与输入实体间的文本距离越小,两者之间越相关,给定输入实体ein、历史结果er在支持文档d中文本距离为Prox(ein,er,d),则输入实体与历史结果的上下文相关性Rtext(er)计算公式如下:
其中,分别表示由支持文档d和本轮查询Q生成的词条向量,表示间的余弦相似度;
(5-5)基于输入实体与历史结果的语义相关性和输入实体与历史结果的上下文相关性,通过线性加权的方式计算历史结果er与本轮查询Q的相关性R(er),计算公式如下:
R(er)=αRsem(er)+(1-α)Rtext(er)
其中α为[0,1]间的加权系数;
(5-6)根据相关性R(er)从L中选取前p项作为历史反馈Qh
可选地,步骤(6)包括:对本轮查询Q、伪相关反馈QPRF和历史反馈Qh进行线性加权生成扩展查询QE,再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。
可选地,步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明引入历史结果作为信息源并实现了一种基于历史反馈的查询扩展方法,该方法充分考虑了会话式实体搜索中各轮查询间的相关性,能够更加全面地理解用户意图、避免单轮查询漂移。
(2)本发明以维基百科文档集和外部知识库WordNet、YAGO3为指导对历史结果进行相关性分析,并引入时间因素来计算其在查询扩展过程中的优先级,在减少查询开销的同时能够缩短查询流程。
(3)本发明采用一种迭代式扩展方法对历史结果进行不断地更新与维护,从而更好地保证扩展过程中会话主题的一致性。
附图说明
图1为本发明提供的面向会话式实体搜索的查询扩展方法的整体流程图;
图2为本发明提供的步骤(3)的细化流程图;
图3为本发明提供的历史结果缓存队列的结构图;
图4为本发明提供的步骤(5)的细化流程图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了在会话式实体搜索中快速地引导用户得到更加准确的搜索结果、提高用户的体验度,需要设计一种适用于会话式实体搜索的查询扩展方法来避免现有方法中存在的单轮查询漂移、查询流程延长和扩展过程中会话主题不一致的问题。
本发明历史结果缓存队列结构如图2所示。
如图1所示,本发明提供的面向会话式实体搜索的查询扩展方法包括以下步骤:
本发明提供一种面向会话式实体搜索的查询扩展方法,包括以下步骤:
(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D。
步骤(1)包含以下子步骤:
(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文;
(1-2)对上下文进行分词、词性标注,移除停用词然后进行命名实体识别,进一步利用Wikifier工具进行实体链接,得到包含关键字和实体标注的数据集D。
(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE
步骤(2)包含以下子步骤:
(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合,相应地利用标注信息生成实体id-实体类t组合;
(2-2)将关键字id-文档id、实体id-文档id组合分别插入Ik和Ie中,将实体id-实体类t组合插入IE中。
(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息。
如图2所示,步骤(3)包含以下子步骤:
(3-1)抽取WordNet中的语义信息,包括:抽取WordNet中同义词及上下位词语义关系,分别建立关键字id到同义词集的映射和不同同义词集间的映射,对应的映射权重通过语义重合度和语义密度来度量;
(3-2)抽取YAGO3中的实体相关信息,包括:提取YAGO3中的实体关联信息,建立实体id到实体id的关联。
(4)根据历史查询结果构建历史结果缓存队列L,其中缓存队列具体结构如图3所示。
步骤(4)利用优先级队列对历史结果进行缓存,给定历史结果e的新鲜度f和当前得分s,优先级的计算公式如下:
其中,Priority(e)表示历史结果e的优先级,f为时间跨度的logistic函数,fi(e)表示历史结果e在第i轮会话中的新鲜度,si(e)表示历史结果e在第i轮会话中的相关性得分,i表示会话轮次,n表示总会话轮数。
(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh
如图4所示,步骤(5)包含以下子步骤:
(5-1)计算扩展关系模型Mr,若支持文档集ds由输入实体ein、结果实体er、数据集D及扩展关系模型Mr的混合模型生成,则有:
其中,logp(ds|Md)表示支持文档集ds在反馈文档模型Md下的相关性得分,W(w,d)表示词条w在文档d中的权重,p(w|ein)表示词条w与输入实体ein的相关性,p(w|er)表示词条w与结果实体er的相关性,p(w|Mr)表示在扩展关系模型Mr下生成词条w的概率,p(w|D)表示在当前数据集D下生成词条w的概率,α1、α2和β均表示[0,1]间的可调参数,通过期望最大化算法对公式中扩展关系模型Mr进行有效估计;
(5-2)从Mr中选取前p项(一般为5~10左右)作为伪相关反馈QPRF
(5-3)计算L中历史结果与输入实体的语义相关性,考虑历史结果与输入实体间是否存在映射关系,给定指示器函数I(ein,er)表示输入实体ein与历史结果er间是否存在映射关系,w(ein,er)表示输入实体ein与历史结果er间的语义强度,则历史结果与输入实体的语义相关性Rsem(er)计算公式如下:
其中,ek表示YAGO3中与输入实体ein存在关联的实体;
(5-4)计算L中历史结果与输入实体的上下文相关性,考虑历史结果与输入实体共现的文档越多、历史结果与输入实体间的文本距离越小,两者之间越相关,给定输入实体ein、历史结果er在支持文档d中文本距离为Prox(ein,er,d),则输入实体与历史结果的上下文相关性Rtext(er)计算公式如下:
其中,分别表示由支持文档d和本轮查询Q生成的词条向量,表示间的余弦相似度;
(5-5)基于输入实体与历史结果的语义相关性和输入实体与历史结果的上下文相关性,通过线性加权的方式计算历史结果er与本轮查询Q的相关性R(er),计算公式如下:
R(er)=αRsem(er)+(1-α)Rtext(er)
其中α为[0,1]间的加权系数;
(5-6)根据相关性R(er)从L中选取前p项作为历史反馈Qh
(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R。
步骤(6)包括:对本轮查询Q、伪相关反馈QPRF和历史反馈Qh进行线性加权生成扩展查询QE,再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。
(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8)。
步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。
(8)本次会话查询结束。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向会话式实体搜索的查询扩展方法,其特征在于,包括以下步骤:
(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;
(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE
(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;
(4)根据历史查询结果构建历史结果缓存队列L;
(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh
(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;
(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);
(8)本次会话查询结束。
2.根据权利要求1所述的查询扩展方法,其特征在于,步骤(1)包含以下子步骤:
(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文;
(1-2)对上下文进行分词、词性标注,移除停用词然后进行命名实体识别,进一步利用Wikifier工具进行实体链接,得到包含关键字和实体标注的数据集D。
3.根据权利要求2所述的查询扩展方法,其特征在于,步骤(2)包含以下子步骤:
(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合,相应地利用标注信息生成实体id-实体类t组合;
(2-2)将关键字id-文档id、实体id-文档id组合分别插入Ik和Ie中,将实体id-实体类t组合插入IE中。
4.根据权利要求3所述的查询扩展方法,其特征在于,步骤(3)包含以下子步骤:
(3-1)抽取WordNet中的语义信息,包括:抽取WordNet中同义词及上下位词语义关系,分别建立关键字id到同义词集的映射和不同同义词集间的映射,对应的映射权重通过语义重合度和语义密度来度量;
(3-2)抽取YAGO3中的实体相关信息,包括:提取YAGO3中的实体关联信息,建立实体id到实体id的关联。
5.根据权利要求1所述的查询扩展方法,其特征在于,步骤(4)利用优先级队列对历史结果进行缓存,给定历史结果e的新鲜度f和当前得分s,优先级的计算公式如下:
<mrow> <mi>Pr</mi> <mi>i</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> </mrow>
其中,Priority(e)表示历史结果e的优先级,f为时间跨度的logistic函数,fi(e)表示历史结果e在第i轮会话中的新鲜度,si(e)表示历史结果e在第i轮会话中的相关性得分,i表示会话轮次,n表示总会话轮数。
6.根据权利要求1所述的查询扩展方法,其特征在于,步骤(5)包含以下子步骤:
(5-1)计算扩展关系模型Mr,若支持文档集ds由输入实体ein、结果实体er、数据集D及扩展关系模型Mr的混合模型生成,则有:
<mrow> <mi>log</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>s</mi> </msub> <mo>|</mo> <msub> <mi>M</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>d</mi> <mo>&amp;Element;</mo> <msub> <mi>d</mi> <mi>s</mi> </msub> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mi>w</mi> </munder> <mi>W</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;alpha;</mi> <mn>1</mn> </msub> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&amp;alpha;</mi> <mn>2</mn> </msub> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mn>2</mn> </msub> <mo>-</mo> <mi>&amp;beta;</mi> </mrow> <mo>)</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <msub> <mi>M</mi> <mi>r</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mi>&amp;beta;</mi> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <mi>D</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,log p(ds|Md)表示支持文档集ds在反馈文档模型Md下的相关性得分,W(w,d)表示词条w在文档d中的权重,p(w|ein)表示词条w与输入实体ein的相关性,p(w|er)表示词条w与结果实体er的相关性,p(w|Mr)表示在扩展关系模型Mr下生成词条w的概率,p(w|D)表示在当前数据集D下生成词条w的概率,α1、α2和β均表示[0,1]间的可调参数,通过期望最大化算法对公式中扩展关系模型Mr进行有效估计;
(5-2)从Mr中选取前p项作为伪相关反馈QPRF
(5-3)计算L中历史结果与输入实体的语义相关性,考虑历史结果与输入实体间是否存在映射关系,给定指示器函数I(ein,er)表示输入实体ein与历史结果er间是否存在映射关系,w(ein,er)表示输入实体ein与历史结果er间的语义强度,则历史结果与输入实体的语义相关性Rsem(er)计算公式如下:
<mrow> <msub> <mi>R</mi> <mi>sem</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>in</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mfrac> <mrow> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>in</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>k</mi> </msub> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>in</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,ek表示YAGO3中与输入实体ein存在关联的实体;
(5-4)计算L中历史结果与输入实体的上下文相关性,考虑历史结果与输入实体共现的文档越多、历史结果与输入实体间的文本距离越小,两者之间越相关,给定输入实体ein、历史结果er在支持文档d中文本距离为Prox(ein,er,d),则输入实体与历史结果的上下文相关性Rtext(er)计算公式如下:
<mrow> <msub> <mi>R</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>d</mi> <mo>&amp;Element;</mo> <msub> <mi>d</mi> <mi>s</mi> </msub> </mrow> </munder> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mover> <mi>d</mi> <mo>&amp;RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>q</mi> <mo>&amp;RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>Pr</mi> <mi>o</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow>
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mover> <mi>d</mi> <mo>&amp;RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>q</mi> <mo>&amp;RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mi>d</mi> <mo>&amp;RightArrow;</mo> </mover> <mo>&amp;CenterDot;</mo> <mover> <mi>q</mi> <mo>&amp;RightArrow;</mo> </mover> </mrow>
其中,分别表示由支持文档d和本轮查询Q生成的词条向量,表示间的余弦相似度;
(5-5)基于输入实体与历史结果的语义相关性和输入实体与历史结果的上下文相关性,通过线性加权的方式计算历史结果er与本轮查询Q的相关性R(er),计算公式如下:
R(er)=αRsem(er)+(1-α)Rtext(er)
其中α为[0,1]间的加权系数;
(5-6)根据相关性R(er)从L中选取前p项作为历史反馈Qh
7.根据权利要求1所述的查询扩展方法,其特征在于,步骤(6)包括:对本轮查询Q、伪相关反馈QPRF和历史反馈Qh进行线性加权生成扩展查询QE,再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。
8.根据权利要求1所述的查询扩展方法,其特征在于,步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。
CN201711162771.0A 2017-11-21 2017-11-21 一种面向会话式实体搜索的查询扩展方法 Active CN107943919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711162771.0A CN107943919B (zh) 2017-11-21 2017-11-21 一种面向会话式实体搜索的查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711162771.0A CN107943919B (zh) 2017-11-21 2017-11-21 一种面向会话式实体搜索的查询扩展方法

Publications (2)

Publication Number Publication Date
CN107943919A true CN107943919A (zh) 2018-04-20
CN107943919B CN107943919B (zh) 2019-11-12

Family

ID=61929350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711162771.0A Active CN107943919B (zh) 2017-11-21 2017-11-21 一种面向会话式实体搜索的查询扩展方法

Country Status (1)

Country Link
CN (1) CN107943919B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902299A (zh) * 2019-02-18 2019-06-18 北京明略软件系统有限公司 一种文本处理方法及装置
CN110147494A (zh) * 2019-04-24 2019-08-20 北京三快在线科技有限公司 信息搜索方法、装置,存储介质及电子设备
CN110929125A (zh) * 2019-11-15 2020-03-27 腾讯科技(深圳)有限公司 搜索召回方法、装置、设备及其存储介质
CN111125538A (zh) * 2019-12-31 2020-05-08 中国人民大学 一个利用实体信息增强个性化检索效果的搜索方法
CN112052314A (zh) * 2019-06-05 2020-12-08 国际商业机器公司 用于提供建议以完成查询的方法和系统
TWI728611B (zh) * 2019-12-20 2021-05-21 遠東科技大學 結合查詢關鍵字擴展技術之花語查詢系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386542B2 (en) * 2004-08-30 2008-06-10 The Mitre Corporation Personalized broadcast news navigator
CN104317794A (zh) * 2014-08-27 2015-01-28 广西教育学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN105550189A (zh) * 2015-06-26 2016-05-04 许昌学院 基于本体的信息安全事件智能检索系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386542B2 (en) * 2004-08-30 2008-06-10 The Mitre Corporation Personalized broadcast news navigator
CN104317794A (zh) * 2014-08-27 2015-01-28 广西教育学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN105550189A (zh) * 2015-06-26 2016-05-04 许昌学院 基于本体的信息安全事件智能检索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FENG ZHAO等: "EXPANDING APPROACH TO INFORMATION RETRIEVAL USING SEMANTIC SIMILARITY ANALYSIS BASED ON WORDNET AND WIKIPEDIA", 《INTERNATIONAL JOURNAL OF SOFTWARE ENGINEERING AND KNOWLEDGE ENGINEERING》 *
黄名选等: "基于矩阵加权关联规则挖掘的伪相关反馈查询扩展", 《软件学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902299A (zh) * 2019-02-18 2019-06-18 北京明略软件系统有限公司 一种文本处理方法及装置
CN110147494A (zh) * 2019-04-24 2019-08-20 北京三快在线科技有限公司 信息搜索方法、装置,存储介质及电子设备
CN110147494B (zh) * 2019-04-24 2020-05-08 北京三快在线科技有限公司 信息搜索方法、装置,存储介质及电子设备
CN112052314A (zh) * 2019-06-05 2020-12-08 国际商业机器公司 用于提供建议以完成查询的方法和系统
CN110929125A (zh) * 2019-11-15 2020-03-27 腾讯科技(深圳)有限公司 搜索召回方法、装置、设备及其存储介质
CN110929125B (zh) * 2019-11-15 2023-07-11 腾讯科技(深圳)有限公司 搜索召回方法、装置、设备及其存储介质
TWI728611B (zh) * 2019-12-20 2021-05-21 遠東科技大學 結合查詢關鍵字擴展技術之花語查詢系統
CN111125538A (zh) * 2019-12-31 2020-05-08 中国人民大学 一个利用实体信息增强个性化检索效果的搜索方法
CN111125538B (zh) * 2019-12-31 2023-05-23 中国人民大学 一个利用实体信息增强个性化检索效果的搜索方法

Also Published As

Publication number Publication date
CN107943919B (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN107943919B (zh) 一种面向会话式实体搜索的查询扩展方法
CN102262634B (zh) 一种自动问答方法及系统
CN106649272B (zh) 一种基于混合模型的命名实体识别方法
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
WO2021082370A1 (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN103927358A (zh) 文本检索方法及系统
CN106598950A (zh) 一种基于混合层叠模型的命名实体识别方法
CN113112164A (zh) 基于知识图谱的变压器故障诊断方法、装置及电子设备
CN103488782B (zh) 一种利用歌词识别音乐情感的方法
CN110083696A (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN116932776A (zh) 一种基于知识图谱的大模型知识更新方法和装置
CN107239554A (zh) 一种基于匹配度检索英文文本的方法
Banerjee et al. Dblp-quad: A question answering dataset over the dblp scholarly knowledge graph
Wang et al. Automatic scoring of Chinese fill-in-the-blank questions based on improved P-means
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
CN107577669A (zh) 一种计算机中自动生成英文论文标题缩写词的方法
Tang et al. Tourism domain ontology construction from the unstructured text documents
CN104965818A (zh) 一种基于自学习规则的项目名实体识别方法及系统
CN106250367A (zh) 基于改进的Nivre算法构建越南语依存树库的方法
CN106569997B (zh) 一种基于隐式马尔科夫模型的科技类复合短语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant