CN107943919A

CN107943919A - 一种面向会话式实体搜索的查询扩展方法

Info

Publication number: CN107943919A
Application number: CN201711162771.0A
Authority: CN
Inventors: 赵峰; 王沛; 肖洋; 金海�
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-04-20
Anticipated expiration: 2037-11-21
Also published as: CN107943919B

Abstract

本发明公开一种面向会话式实体搜索的查询扩展方法，包括：对维基百科文档集预处理得到数据集D；遍历数据集D中每个文档d，得到关键字倒排索引I_k、实体倒排索引I_e以及实体类映射I_E；抽取WordNet中的语义信息和YAGO3中的实体相关信息；根据历史查询结果构建历史结果缓存队列L；根据用户本轮查询Q对I_k、I_e和I_E进行检索获取伪相关反馈Q_PRF，利用语义信息和实体相关信息对L中的历史结果进行分析获取历史反馈Q_h；基于本轮查询Q、伪相关反馈Q_PRF和历史反馈Q_h生成扩展查询Q_E，利用Q_E对I_k、I_e和I_E进行重新检索和排序得到最终结果集R；利用R更新缓存队列L。本发明在减少查询开销的同时缩短查询流程。

Description

一种面向会话式实体搜索的查询扩展方法

技术领域

本发明涉及实体搜索领域，更具体地，涉及一种面向会话式实体搜索的查询扩展方法。

背景技术

会话式实体搜索就是通过用户交互的多轮查询方式对Web数据中主题相关的实体对象(如人、组织和地点等)及相应属性进行快速、准确的检索。相比传统实体搜索，会话式实体搜索会将用户意图分解为一系列查询，每轮查询中用户都会根据历史查询的结果提出新的查询或是修改原始查询。在此情形下，单轮查询描述的信息一般都是不完整的，同时查询的不断演进也可能使会话内容偏离目标主题，因此如何理解用户每轮查询的意图、缩短查询流程并保证会话主题的一致性是会话式实体搜索所要解决的关键问题。

目前对于理解用户的查询意图，传统实体搜索普遍采用查询扩展方法，该方法利用信息论、数据挖掘等技术从不同的信息源中获取查询相关的扩展项并结合原始查询生成新的查询，通过新的查询得到更多相关的结果。当前，面向传统实体搜索的查询扩展方法利用的信息源主要来自于两方面，一方面为初始查询的结果，对应基于伪相关反馈的查询扩展方法；另一方面则是知识库中的相关结果，对应基于外部语料库的查询扩展方法，这两种查询扩展方法在会话式实体搜索中均存在局限性。

会话式实体搜索中多轮查询间存在显著的关联，历史查询结果对于本轮查询的影响较大，上述的查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询，因而不能全面地理解用户意图、产生单轮查询漂移，进而影响用户后续的查询、延长查询流程，同时也无法保证会话主题的一致性，降低了会话式实体搜索的效率。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询，因而不能全面地理解用户意图、产生单轮查询漂移，进而影响用户后续的查询、延长查询流程，同时也无法保证会话主题的一致性，降低了会话式实体搜索的效率的技术问题。

为实现上述目的，本发明提供一种面向会话式实体搜索的查询扩展方法，包括以下步骤：

(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D；

(2)遍历数据集D中每个文档d，对d中包含的关键字和实体进行索引，最终得到关键字倒排索引I_k、实体倒排索引I_e以及实体类映射I_E；

(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息；

(4)根据历史查询结果构建历史结果缓存队列L；

(5)根据用户本轮查询Q对I_k、I_e和I_E进行检索获取伪相关反馈Q_PRF，利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Q_h；

(6)基于本轮查询Q、伪相关反馈Q_PRF和历史反馈Q_h生成扩展查询Q_E，利用Q_E对I_k、I_e和I_E进行重新检索和排序得到最终结果集R；

(7)利用R更新缓存队列L，若用户提出下轮查询则转至步骤(5)，否则进入步骤(8)；

(8)本次会话查询结束。

可选地，步骤(1)包含以下子步骤：

(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文；

(1-2)对上下文进行分词、词性标注，移除停用词然后进行命名实体识别，进一步利用Wikifier工具进行实体链接，得到包含关键字和实体标注的数据集D。

可选地，步骤(2)包含以下子步骤：

(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合，相应地利用标注信息生成实体id-实体类t组合；

(2-2)将关键字id-文档id、实体id-文档id组合分别插入I_k和I_e中，将实体id-实体类t组合插入I_E中。

可选地，步骤(3)包含以下子步骤：

(3-1)抽取WordNet中的语义信息，包括：抽取WordNet中同义词及上下位词语义关系，分别建立关键字id到同义词集的映射和不同同义词集间的映射，对应的映射权重通过语义重合度和语义密度来度量；

(3-2)抽取YAGO3中的实体相关信息，包括：提取YAGO3中的实体关联信息，建立实体id到实体id的关联。

可选地，步骤(4)利用优先级队列对历史结果进行缓存，给定历史结果e的新鲜度f和当前得分s，优先级的计算公式如下：

其中，Priority(e)表示历史结果e的优先级，f为时间跨度的logistic函数，f_i(e)表示历史结果e在第i轮会话中的新鲜度，s_i(e)表示历史结果e在第i轮会话中的相关性得分，i表示会话轮次，n表示总会话轮数。

可选地，步骤(5)包含以下子步骤：

(5-1)计算扩展关系模型M_r，若支持文档集d_s由输入实体e_in、结果实体e_r、数据集D及扩展关系模型M_r的混合模型生成，则有：

(5-2)从M_r中选取前p项作为伪相关反馈Q_PRF；

(5-3)计算L中历史结果与输入实体的语义相关性，考虑历史结果与输入实体间是否存在映射关系，给定指示器函数I(e_in,e_r)表示输入实体e_in与历史结果e_r间是否存在映射关系，w(e_in,e_r)表示输入实体e_in与历史结果e_r间的语义强度，则历史结果与输入实体的语义相关性R_sem(e_r)计算公式如下：

其中，e_k表示YAGO3中与输入实体e_in存在关联的实体；

(5-4)计算L中历史结果与输入实体的上下文相关性，考虑历史结果与输入实体共现的文档越多、历史结果与输入实体间的文本距离越小，两者之间越相关，给定输入实体e_in、历史结果e_r在支持文档d中文本距离为Prox(e_in,e_r,d)，则输入实体与历史结果的上下文相关性R_text(e_r)计算公式如下：

其中，分别表示由支持文档d和本轮查询Q生成的词条向量，表示与间的余弦相似度；

(5-5)基于输入实体与历史结果的语义相关性和输入实体与历史结果的上下文相关性，通过线性加权的方式计算历史结果e_r与本轮查询Q的相关性R(e_r)，计算公式如下：

R(e_r)＝αR_sem(e_r)+(1-α)R_text(e_r)

其中α为[0,1]间的加权系数；

(5-6)根据相关性R(e_r)从L中选取前p项作为历史反馈Q_h。

可选地，步骤(6)包括：对本轮查询Q、伪相关反馈Q_PRF和历史反馈Q_h进行线性加权生成扩展查询Q_E，再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。

可选地，步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明引入历史结果作为信息源并实现了一种基于历史反馈的查询扩展方法，该方法充分考虑了会话式实体搜索中各轮查询间的相关性，能够更加全面地理解用户意图、避免单轮查询漂移。

(2)本发明以维基百科文档集和外部知识库WordNet、YAGO3为指导对历史结果进行相关性分析，并引入时间因素来计算其在查询扩展过程中的优先级，在减少查询开销的同时能够缩短查询流程。

(3)本发明采用一种迭代式扩展方法对历史结果进行不断地更新与维护，从而更好地保证扩展过程中会话主题的一致性。

附图说明

图1为本发明提供的面向会话式实体搜索的查询扩展方法的整体流程图；

图2为本发明提供的步骤(3)的细化流程图；

图3为本发明提供的历史结果缓存队列的结构图；

图4为本发明提供的步骤(5)的细化流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了在会话式实体搜索中快速地引导用户得到更加准确的搜索结果、提高用户的体验度，需要设计一种适用于会话式实体搜索的查询扩展方法来避免现有方法中存在的单轮查询漂移、查询流程延长和扩展过程中会话主题不一致的问题。

本发明历史结果缓存队列结构如图2所示。

如图1所示，本发明提供的面向会话式实体搜索的查询扩展方法包括以下步骤：

本发明提供一种面向会话式实体搜索的查询扩展方法，包括以下步骤：

(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D。

步骤(1)包含以下子步骤：

(2)遍历数据集D中每个文档d，对d中包含的关键字和实体进行索引，最终得到关键字倒排索引I_k、实体倒排索引I_e以及实体类映射I_E。

步骤(2)包含以下子步骤：

(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息。

如图2所示，步骤(3)包含以下子步骤：

(4)根据历史查询结果构建历史结果缓存队列L，其中缓存队列具体结构如图3所示。

步骤(4)利用优先级队列对历史结果进行缓存，给定历史结果e的新鲜度f和当前得分s，优先级的计算公式如下：

(5)根据用户本轮查询Q对I_k、I_e和I_E进行检索获取伪相关反馈Q_PRF，利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Q_h。

如图4所示，步骤(5)包含以下子步骤：

(5-2)从M_r中选取前p项(一般为5～10左右)作为伪相关反馈Q_PRF；

其中，e_k表示YAGO3中与输入实体e_in存在关联的实体；

R(e_r)＝αR_sem(e_r)+(1-α)R_text(e_r)

其中α为[0,1]间的加权系数；

(5-6)根据相关性R(e_r)从L中选取前p项作为历史反馈Q_h。

(6)基于本轮查询Q、伪相关反馈Q_PRF和历史反馈Q_h生成扩展查询Q_E，利用Q_E对I_k、I_e和I_E进行重新检索和排序得到最终结果集R。

步骤(6)包括：对本轮查询Q、伪相关反馈Q_PRF和历史反馈Q_h进行线性加权生成扩展查询Q_E，再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。

(7)利用R更新缓存队列L，若用户提出下轮查询则转至步骤(5)，否则进入步骤(8)。

步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。

(8)本次会话查询结束。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向会话式实体搜索的查询扩展方法，其特征在于，包括以下步骤：

(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息；

(4)根据历史查询结果构建历史结果缓存队列L；

(8)本次会话查询结束。

2.根据权利要求1所述的查询扩展方法，其特征在于，步骤(1)包含以下子步骤：

3.根据权利要求2所述的查询扩展方法，其特征在于，步骤(2)包含以下子步骤：

4.根据权利要求3所述的查询扩展方法，其特征在于，步骤(3)包含以下子步骤：

5.根据权利要求1所述的查询扩展方法，其特征在于，步骤(4)利用优先级队列对历史结果进行缓存，给定历史结果e的新鲜度f和当前得分s，优先级的计算公式如下：

<mrow> <mi>Pr</mi> <mi>i</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mi>i</mi> <mi>n</mi> </msubsup> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> </mrow>

6.根据权利要求1所述的查询扩展方法，其特征在于，步骤(5)包含以下子步骤：

<mrow> <mi>log</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>s</mi> </msub> <mo>|</mo> <msub> <mi>M</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>s</mi> </msub> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mi>w</mi> </munder> <mi>W</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>2</mn> </msub> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>&alpha;</mi> <mn>2</mn> </msub> <mo>-</mo> <mi>&beta;</mi> </mrow> <mo>)</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <msub> <mi>M</mi> <mi>r</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mi>&beta;</mi> <mi>p</mi> <mo>(</mo> <mrow> <mi>w</mi> <mo>|</mo> <mi>D</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

(5-2)从M_r中选取前p项作为伪相关反馈Q_PRF；

(5-3)计算L中历史结果与输入实体的语义相关性，考虑历史结果与输入实体间是否存在映射关系，给定指示器函数I(e_in，e_r)表示输入实体e_in与历史结果e_r间是否存在映射关系，w(e_in，e_r)表示输入实体e_in与历史结果e_r间的语义强度，则历史结果与输入实体的语义相关性R_sem(e_r)计算公式如下：

<mrow> <msub> <mi>R</mi> <mi>sem</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>in</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mfrac> <mrow> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>in</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>in</mi> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，e_k表示YAGO3中与输入实体e_in存在关联的实体；

(5-4)计算L中历史结果与输入实体的上下文相关性，考虑历史结果与输入实体共现的文档越多、历史结果与输入实体间的文本距离越小，两者之间越相关，给定输入实体e_in、历史结果e_r在支持文档d中文本距离为Prox(e_in，e_r，d)，则输入实体与历史结果的上下文相关性R_text(e_r)计算公式如下：

<mrow> <msub> <mi>R</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>s</mi> </msub> </mrow> </munder> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>Pr</mi> <mi>o</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>e</mi> <mi>r</mi> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow>

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> </mrow>

R(e_r)＝αR_sem(e_r)+(1-α)R_text(e_r)

其中α为[0，1]间的加权系数；

(5-6)根据相关性R(er)从L中选取前p项作为历史反馈Q_h。

7.根据权利要求1所述的查询扩展方法，其特征在于，步骤(6)包括：对本轮查询Q、伪相关反馈Q_PRF和历史反馈Q_h进行线性加权生成扩展查询Q_E，再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。

8.根据权利要求1所述的查询扩展方法，其特征在于，步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。