CN113946659A

CN113946659A - 一种面向事件检索的多事件成分混合反馈方法与系统

Info

Publication number: CN113946659A
Application number: CN202111560808.1A
Authority: CN
Inventors: 王鹏鸣
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-01-18

Abstract

本发明提出一种面向事件检索的多事件成分混合反馈方法与系统，该方法包括如下步骤：步骤一，为已知事件集合中的每个已知事件构建已知事件语言模型：步骤二，查询隐藏目标事件；步骤三，根据查询确认得到的隐藏目标事件，对用户的初始查询模型进行更新以得到改进后的新查询模型；步骤四，根据改进后的新查询模型重新进行检索，通过新查询模型与文档模型之间的KL‑散度对应的分值来确定得到更准确的检索结果。本发明提出一种面向事件检索的多事件成分混合反馈方法，不仅能够获得更好的检索性能，而且对于伪反馈参数的设定具有良好的稳定性。

Description

一种面向事件检索的多事件成分混合反馈方法与系统

技术领域

本发明涉及信息处理技术领域，特别涉及一种面向事件检索的多事件成分混合反馈方法与系统。

背景技术

在常规信息检索中，初始查询q的表述能力有限，仅根据初始查询q与文档d之间的相似度sim(q,d) 对文档进行排序，很难得到理想的检索结果（如图1中的（a）图所示）。在致力于提高无反馈信息检索的准确率的多种技术中，伪相关反馈（简称伪反馈）是最有效的那一种，并且已经在几乎所有的检索模型中都被证明是有效的。伪反馈的基本思想是假定无反馈检索结果中固定数量的排名靠前文档是相关的，并通过在这些文档上进行学习来获得改进后的查询表述q'，然后根据查询表格q'与文档d之间的相似度sim(q',d) 对文档进行排序，从而提高检索的准确率，如图1中的（b）图所示。

随着知识库规模越来越庞大，对静态信息的检索有逐步减少的趋势，取而代之的是越来越成为主流的事件检索。然而，在事件检索任务中，使用常规的伪反馈方法通常被证明效果不佳。具体的，事件检索是一种特殊的信息检索任务，如图2所示。事件检索与常规检索的主要区别在于：用户希望得到的检索结果并不是具有较大sim(q',d) （改进后查询q’与文档d之间的相似度）的文档，而是具有较大sim(e,d) （事件e与文档d之间的相似度）的文档，即检索出的文档描述的应该是目标事件的相关内容。直觉上，一般认为在事件检索任务的初始查询背后隐藏着一个目标事件，而使用常规的伪相关反馈可能会造成查询与隐藏事件的偏离。

例如，给定一个事件检索查询“昆士兰洪水”，若有这样一篇财经文章，描述了股票和债券受到了昆士兰洪水的巨大影响，当该文档作为伪反馈文档返回时，“改进后的”查询表述中很可能会包含有“股票”，“债券”等词项，然而这些词项明显与目标事件关联很小，即产生了查询与目标事件之间的偏差。另一方面，一篇描写班达伯格和布里斯班（昆士兰州中心和南部的两个城市）的洪水的文章与目标事件是相关的，但由于缺失初始查询中的关键词“昆士兰”而很可能无法出现在检索结果中。因此在事件检索任务中，应尽可能地利用隐藏的目标事件信息。

最近提出的各种面向事件的检索模型可以被粗略地分为两大类：1）致力于改进伪相关反馈的有效性和鲁棒性。这类模型通常基于双成分的混合模型来拟合反馈文档，其中一种成分是使用文档集合估计得到的固定的背景语言模型 p(w|C) ，而另一种成分是一个未知的，需要被发掘出的主题模型 p(w|θ_F) ，此种方法在实践中证明能够有效地区分噪声与有效反馈，在此基础上还可以对双成分混合模型进行扩展，来更好地将原始查询模型与反馈文档集成，允许每篇反馈文档对估计得到的反馈主题语言模型有潜在不同的贡献。2）从对事件的特性研究着手，通过不同的方式在检索中融入事件的信息，来改进检索性能。这类模型通常会尝试从语义上理解事件，使用自然语言处理工具（语义角色标注和共指技术）将背景文档中的每个句子解析成3个元素：主语，宾语和谓语，并将它们可以被用于事件检索。在此基础上，将查询和文档都构造为事件相关的图，并利用图的质心来测量查询-文档之间的相似度。

现有的模型存在以下三个方面的缺陷：1）第一类模型并没有针对性地面向事件检索任务进行研究，事件检索任务由于具有其自身的独特性，因此在常规检索中能够获得改进的方法，在事件检索中很可能无法获得同样的效果；2）上述两类模型都很复杂，并且实现起来非常耗时；3）上述两类模型都是启发式的方法，无法在原理性的框架下进行解释。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种面向事件检索的多事件成分混合反馈方法，以解决上述背景技术中的技术问题。

本发明实施例提供了一种面向事件检索的多事件成分混合反馈方法，其中，所述方法包括如下步骤：

步骤一，为已知事件集合中的每个已知事件构建已知事件语言模型：

在带有事件标注的语料库中，为所有已知事件分别取出预设篇数的文档，通过在不同的已知事件集合中统计各个词项出现的频度，来构建对应的已知事件语言模型；

步骤二，查询隐藏目标事件；

根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合，通过隐藏目标事件在完备事件集合中的概率分布，模拟构建以得到伪反馈文档集合的log-似然函数，通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后，再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件；

步骤三，对用户的初始查询模型进行更新；

根据查询确认得到的隐藏目标事件，对用户的初始查询模型进行更新以得到改进后的新查询模型；

步骤四，获得检索结果；

根据所述改进后的新查询模型重新进行检索，通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。

所述一种面向事件检索的多事件成分混合反馈方法，其中，所述步骤二具体包括：

根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合；

通过隐藏目标事件在完备事件集合中的概率分布，结合查询的伪反馈文档中词项的分布模型，得到伪反馈文档集合中词项的生成概率；

根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数；

通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理；

根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。

所述一种面向事件检索的多事件成分混合反馈方法，其中，根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合的步骤中，已知事件集合表示为

，

表示第

个已知事件，隐藏目标事件表示为

，完备事件集合表示为

，

表示已知事件中的词项的数量。

所述一种面向事件检索的多事件成分混合反馈方法，其中，在通过隐藏目标事件在完备事件集合中的概率分布，结合查询的伪反馈文档中词项的分布模型，得到伪反馈文档集合中词项的生成概率的步骤中，隐藏目标事件在完备事件集合中的概率分布表示为：

其中，

表示隐藏目标事件在完备事件集合中的概率分布，

，

表示第

个已知事件，

表示隐藏目标事件为已知事件的概率值，

，

表示未知事件，

表示隐藏目标事件为第

个已知事件的概率，

表示隐藏目标事件为未知事件的概率。

所述一种面向事件检索的多事件成分混合反馈方法，其中，所述伪反馈文档集合中词项的生成概率表示为：

其中，

表示伪反馈文档集合中词项的生成概率，

表示伪反馈文档中词项的分布模型，

表示已知事件中词项的分布模型，

表示未知事件中词项的分布模型，

表示词项为已知事件的概率，

表示词项为未知事件的概率，

表示出现的词项。

所述一种面向事件检索的多事件成分混合反馈方法，其中，在根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数的步骤中，伪反馈文档集合的log-似然函数表示为：

其中，

表示伪反馈文档集合的log-似然函数，

表示伪反馈文档集合，

表示词项

在伪反馈文档集合

中的词频，

表示所有词的总集。

所述一种面向事件检索的多事件成分混合反馈方法，其中，在通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理的步骤中；

首先计算每个词项

对应的生成概率，具体为：

其中，

表示词项

是使用已知事件语言模型

生成对应的生成概率，

为一个隐变量，

，

表示词项

是使用已知事件语言模型

生成的，

表示词项

由第i个已知事件生成的概率为0，

表示在第n次迭代时隐藏事件为已知事件的概率；

根据生成概率以及词频对隐藏目标事件为已知事件的概率值

进行计算更新直至所述伪反馈文档集合的log-似然函数进行收敛，具体为：

其中，

表示所有词项的总集。

所述一种面向事件检索的多事件成分混合反馈方法，其中，在所述步骤三中，存在如下关系式：

其中，

表示改进后的新查询模型中词项出现的概率，

表示改进后的新查询模型，

表示当前的查询模型，

表示基于伪反馈文档集合

估计得到的目标事件语言模型，

为一个控制反馈程度的插值因子，

，

表示查询模型中词项出现的概率，

表示目标事件语言模型中，词项

出现的概率值。

所述一种面向事件检索的多事件成分混合反馈方法，其中，在所述步骤四中， KL-散度对应的分值表示为：

其中，

表示KL-散度对应的分值，

表示文档，

表示查询，

表示文档词的文档模型，

表示查询模型与文档模型之间的KL距离，

表示出现的词项，

表示所有词的总集，

表示文档模型中词项出现的概率。

本发明提出一种面向事件检索的多事件成分混合反馈系统，其中，所述系统包括：

模型构建模块，用于为已知事件集合中的每个已知事件构建已知事件语言模型：

所述模型构建模块具体用于：在带有事件标注的语料库中，为所有已知事件分别取出预设篇数的文档，通过在不同的已知事件集合中统计各个词项出现的频度，来构建对应的已知事件语言模型；

时间查询模块，用于查询隐藏目标事件；

所述时间查询模块具体用于：

数据更新模块，用于对用户的初始查询模型进行更新；

所述数据更新模块具体用于：根据查询确认得到的隐藏目标事件，对用户的初始查询模型进行更新以得到改进后的新查询模型；

结果获取模块，用于获得检索结果；

所述结果获取模块具体用于：

本发明提出的一种面向事件检索的多事件成分混合反馈方法，具有如下优点：

1）在事件检索的背景下，基于伪相关反馈原理提出一种多事件成分的混合反馈模型。该新模型假定在初始查询表述背后隐藏着一个目标事件，通过预先构建一些已知事件的语言模型，并据此对伪反馈文档集合上的词项分布进行拟合，以最终识别出目标事件；

2）通过提取目标事件语言模型中的一些高概率的反馈词项来对初始查询进行改进，从而提高检索结果的准确率。由于伪反馈文档集合中不可避免地存在噪声，因此将该伪反馈文档集合上的词项分布看成是多事件成分的混合语言模型，并通过EM 算法拟合出每个事件在伪反馈文档集合上的最优权重，基于预先设定好的一个权重阈值，识别出隐藏目标事件；

3）基于多事件成分混合模型的检索方法相较于其它对比方法，不仅能够获得更好的检索性能，而且对于伪反馈参数的设定具有良好的稳定性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为常规信息检索与使用伪相关反馈的检索的原理示意图；

图2为面向事件的检索的原理示意图；

图3为本发明提出的面向伪反馈的事件混合模型的原理示意图；

图4为本发明提出的面向事件检索的多事件成分混合反馈方法的流程图；

图5为本发明提出的面向事件检索的多事件成分混合反馈系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图3与图4，本发明提出一种面向事件检索的多事件成分混合反馈方法，其中，所述方法包括如下步骤：

S101，为已知事件集合中的每个已知事件构建已知事件语言模型。

为了准确地识别出在用户初始查询表述背后的隐藏目标事件

，并充分利用该隐藏目标事件的信息，需要为已知事件集合

中的每个已知事件构预先构建一个语言模型。

在此需要说明的是，一个已知事件语言模型，指的是在该已知事件上所有词项的一组多项式分布。换句话说，若需要描述一个事件，所使用的词项的概率应该服从该事件语言模型上的词项分布。例如，在“洪水”事件中，“水位升高”、“滥砍滥伐”、“气象异常”以及“抗洪抢险”等词项出现的概率会比较高。而在“交通事故”事件中，“交通法规”、“责任认定”、“酒精检测”以及“保险理赔”等词项出现的概率会比较高。很显然，不同的事件语言模型在词项分布上存在巨大的差异。

从形式上，给定一个事件

，以及该事件上的词汇表

，那么该事件的一元语言模型为

，其中

。

具体的，在本步骤中，在带有事件标注的语料库中，为所有已知事件分别取出100篇文档，通过在不同的已知事件集合中统计各个词项出现的频度，来构建对应的已知事件语言模型。

S102，查询隐藏目标事件。

根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合，通过隐藏目标事件在完备事件集合中的概率分布，模拟构建以得到伪反馈文档集合的log-似然函数，通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后，再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。

需要说明的，根据不同方法构建的事件语言模型在每个词项的出现概率上不会完全一致，但在总体上的词项分布应该是类似的。因此，若本发明提出的面向事件检索的多事件成分混合反馈模型，在其中某一种事件语言模型上能表现出良好的检索效果，则可认为通过其它方法构建的事件语言模型也能够得到一致性的结果，即多事件成分混合反馈模型对于已知事件语言模型的构建方法是不敏感的。

需要注意到，由于新事件会不断涌现，在实际应用中不可能为所有事件都构建语言模型。因此，假定还存在一个未知事件

，以及该事件的语言模型

，在本文中，

上的词项分布假定为整个待排序文档集合上的词项分布。在获得文档集合之前，无法预先构建出未知事件的语言模型，因此在下文的讨论中，在预先构建好语言模型的事件集合

中是不包括未知事件

的。

所述步骤二具体包括：

S1021，根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合。

根据已知事件集合与各隐藏目标事件构建得到完备事件集合的步骤中，已知事件集合表示为

，

表示第

个已知事件，隐藏目标事件表示为

，完备事件集合表示为

，

，

表示已知事件中的词项的数量。

S1022，通过隐藏目标事件在完备事件集合中的概率分布，结合查询的伪反馈文档中词项的分布模型，得到伪反馈文档集合中词项的生成概率。

所查询的背后的隐藏目标事件

应该是完备事件集合

中的一个成员，但由于该隐藏目标事件

是未知的，因此需要基于伪反馈文档集合上的词项分布来识别出

。然而，伪反馈文档集合中必然存在来自于其它事件的噪声，所以我们可以认为

在完备事件集合

上存在一组概率分布。

具体的，隐藏目标事件在完备事件集合中的概率分布表示为：

其中，

表示隐藏目标事件在完备事件集合中的概率分布，

，

表示第

个已知事件，

表示隐藏目标事件为已知事件的概率值，

，

表示未知事件，

表示隐藏目标事件为第

个已知事件的概率，

表示隐藏目标事件为未知事件的概率。

S1023，根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数。

如图3所示，每生成伪反馈文档集合中的一个词项，会在

（又称为混合模型）中采样一个词项，换言之，可根据不同的概率从某个事件语言模型中产生一个词项。

在本步骤中，伪反馈文档集合中词项的生成概率表示为：

其中，

表示伪反馈文档集合中词项的生成概率，

表示伪反馈文档中词项的分布模型，

表示已知事件中词项的分布模型，

表示未知事件中词项的分布模型，

表示词项为已知事件的概率，

表示词项为未知事件的概率，

表示出现的词项。

从而，针对整个伪反馈文档集合的log-似然函数表示为：

其中，

表示伪反馈文档集合的log-似然函数，

表示伪反馈文档集合，

表示词项

在伪反馈文档集合

中的词频，

表示所有词的总集。

在此还需要说明的是，需要调整每个事件上的概率，最大化log-似然函数，进而识别出隐藏目标事件。

S1024，通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理。

直观上，

表示对于

抱有多大的期望，因此可通过该权重最终确定

具体是什么，需要将混合模型

拟合到伪反馈文档集合上。也即，需要将已知事件集合上的权重

调整到最能够反映反馈文档集合上的词项分布。因此，

和事件集合上的权重

应该协同工作，来对反馈文档中的单词进行解释。

例如，如果对

属于某个特定的事件

抱有较大的期望，那么在为该事件的权重

赋较大值的同时，也会减小其它事件的权重。这样所有事件上的权重可以“高效地”协同工作，来最大化log-似然函数。很显然，在事件与词项之间存在着一组隐变量，来表示一个词项通过某个事件语言模型生成的概率，因此可使用期望最大化（EM）算法实现上文中的log-似然函数的最大化。

EM算法是一种爬山算法。可以从

的一种随机初始化开始，然后反复改进

来增大似然，直到算法收敛到似然函数的一个局部最大值。具体来说，EM算法通过迭代地在E-步骤和M-步骤上变换来改进

。

在本步骤中，通过期望最大化方法(EM)对伪反馈文档集合的log-似然函数进行最大化处理的步骤中，首先计算每个词项

对应的生成概率，具体为：

其中，

表示词项

是使用已知事件语言模型

生成对应的生成概率，

为一个隐变量，

，

表示词项

是使用已知事件语言模型

生成的，

表示词项

由第i个已知事件生成的概率为0，

表示在第n次迭代时隐藏事件为已知事件的概率。

直觉上，我们尝试“猜出”使用了哪个事件语言模型生成词项

。如果

，那么我们会猜测词项

更可能是使用

生成的，从而相较于

，

可能性更大。

实际上，如果伪反馈文档集合上的词项分布与某个事件语言模型完全一致，将很自然地将该事件识别为隐藏目标事件。然而，

并没有明确告诉我们词项

是否是由

生成的，它表示的只是由该事件生成的一个期望概率。

因此，在EM算法的M-步骤，将使用一个打折的词频（即

）来估计

。如果

越小，词频打折得就越厉害，因为一个较小的

表明这个单词不太可能由

生成，因此需要进一步将该事件的权重

调小。

根据生成概率以及词频对隐藏目标事件为已知事件的概率值

其中，

表示所有词项的总集。

作为补充的，EM算法可确保一定能够收敛到似然函数的一个局部最大值。在本发明中，给定伪反馈文档集合

和预先构建的已知事件语言模型中的词项分布

，以及未知语言模型中的词项分布

，log-似然函数是一个凸函数，因此在EM算法收敛时获得的局部最大值即为该函数的全局最大值，此时会得到一组最优的事件权重集合

。但是，需要注意到，使用EM算法涉及到一个收敛阈值，这个阈值的设定将影响到获得的似然函数值，以及EM算法的工作效率。

S1025，根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。

S103，对用户的初始查询模型进行更新。

根据查询确认得到的隐藏目标事件，对用户的初始查询模型进行更新以得到改进后的新查询模型。

直觉上，根据原始查询表述得到的伪反馈文档集合中必然存在着或多或少的噪声，因此在伪反馈文档集合上的词项分布并不会与背景事件语言模型上的语言分布完全一致，而且背景事件的真实语言模型应该是一个无限的词项空间，而在实际中我们预先构建的已知事件语言模型只能是真实事件语言模型的一种近似。因此，基于上文所描述的训练算法得到的最优事件权重集合

中，即使是正确的目标事件，它的权重也不会完全等同于1。换言之，其它的事件也会在伪反馈文档集合中融入一部分的噪声，这与我们在进行检索时的实际情况是一致的。

因此，需要确定一个权重阈值

，使得在获得的最优事件权重集合

中，如果存在特定事件

，有

，则对于任意的

，都有

，便可以认定在初始查询表述背后的隐藏目标事件就是

。否则，若不存在

，使得

，那么认定在初始查询表述背后的隐藏目标事件不包含在已知事件集合

中，是未知事件

。

当前，使用伪相关反馈来改进初始查询表述，普遍都采用了一种插值方法。即，使用一个估计得到的反馈主题模型（在本文中即为目标事件语言模型），对已有的查询语言模型（经验上，可基于初始查询上的词项分布估计得到的）进行插值。

从形式上，令

表示当前的查询模型，

表示基于伪反馈文档集合

估计得到的目标事件语言模型。改进后的新查询模型

可表示为：

其中，

表示改进后的新查询模型中词项出现的概率，

为一个控制反馈程度的插值因子，

，

表示查询模型中词项出现的概率，

表示目标事件语言模型中，词项

出现的概率值。当

时，将不会有查询模型的任何升级，而当

时，本质上将会忽略掉原始查询，而将查询模型重置为一个完全基于伪反馈文档集合得到的事件语言模型。

S104，获得检索结果。

在KL-散度模型中定义了两种不同的语言模型，一种面向查询（

），另一种面向文档（

）。也就是说，我们假定查询是查询模型

上观察到的一个样本，而文档是文档模型

上观察到的一个样本。直觉上，查询模型

捕获了用户对什么感兴趣，而

捕获了文档

的主题。然后，可以使用这两个模型的KL-散度，来测定它们彼此之间有多接近，并将它们的距离（实际上是距离的负值）用作一个分值来对文档排序。在此种方式下，文档模型

与查询模型

越接近，文档就会排名越高。

具体的， KL-散度对应的分值表示为：

其中，

表示KL-散度对应的分值，

表示文档，

表示查询，

表示文档词的文档模型，

表示查询模型与文档模型之间的KL距离，

表示出现的词项，

表示所有词的总集，

表示查询模型中词项出现的概率，

表示文档模型中词项出现的概率。

请参阅图5，本发明提出一种面向事件检索的多事件成分混合反馈系统，其中，所述系统包括：

时间查询模块，用于查询隐藏目标事件；

所述时间查询模块具体用于：

数据更新模块，用于对用户的初始查询模型进行更新；

结果获取模块，用于获得检索结果；

所述结果获取模块具体用于：

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。