CN113946659A - 一种面向事件检索的多事件成分混合反馈方法与系统 - Google Patents

一种面向事件检索的多事件成分混合反馈方法与系统 Download PDF

Info

Publication number
CN113946659A
CN113946659A CN202111560808.1A CN202111560808A CN113946659A CN 113946659 A CN113946659 A CN 113946659A CN 202111560808 A CN202111560808 A CN 202111560808A CN 113946659 A CN113946659 A CN 113946659A
Authority
CN
China
Prior art keywords
event
model
probability
terms
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111560808.1A
Other languages
English (en)
Inventor
王鹏鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202111560808.1A priority Critical patent/CN113946659A/zh
Publication of CN113946659A publication Critical patent/CN113946659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种面向事件检索的多事件成分混合反馈方法与系统,该方法包括如下步骤:步骤一,为已知事件集合中的每个已知事件构建已知事件语言模型:步骤二,查询隐藏目标事件;步骤三,根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;步骤四,根据改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL‑散度对应的分值来确定得到更准确的检索结果。本发明提出一种面向事件检索的多事件成分混合反馈方法,不仅能够获得更好的检索性能,而且对于伪反馈参数的设定具有良好的稳定性。

Description

一种面向事件检索的多事件成分混合反馈方法与系统
技术领域
本发明涉及信息处理技术领域,特别涉及一种面向事件检索的多事件成分混合反馈方法与系统。
背景技术
在常规信息检索中,初始查询q的表述能力有限,仅根据初始查询q与文档d之间的相似度sim(q,d) 对文档进行排序,很难得到理想的检索结果(如图1中的(a)图所示)。在致力于提高无反馈信息检索的准确率的多种技术中,伪相关反馈(简称伪反馈)是最有效的那一种,并且已经在几乎所有的检索模型中都被证明是有效的。伪反馈的基本思想是假定无反馈检索结果中固定数量的排名靠前文档是相关的,并通过在这些文档上进行学习来获得改进后的查询表述q',然后根据查询表格q'与文档d之间的相似度sim(q',d) 对文档进行排序,从而提高检索的准确率,如图1中的(b)图所示。
随着知识库规模越来越庞大,对静态信息的检索有逐步减少的趋势,取而代之的是越来越成为主流的事件检索。然而,在事件检索任务中,使用常规的伪反馈方法通常被证明效果不佳。具体的,事件检索是一种特殊的信息检索任务,如图2所示。事件检索与常规检索的主要区别在于:用户希望得到的检索结果并不是具有较大sim(q',d) (改进后查询q’与文档d之间的相似度)的文档,而是具有较大sim(e,d) (事件e与文档d之间的相似度)的文档,即检索出的文档描述的应该是目标事件的相关内容。直觉上,一般认为在事件检索任务的初始查询背后隐藏着一个目标事件,而使用常规的伪相关反馈可能会造成查询与隐藏事件的偏离。
例如,给定一个事件检索查询“昆士兰洪水”,若有这样一篇财经文章,描述了股票和债券受到了昆士兰洪水的巨大影响,当该文档作为伪反馈文档返回时,“改进后的”查询表述中很可能会包含有“股票”,“债券”等词项,然而这些词项明显与目标事件关联很小,即产生了查询与目标事件之间的偏差。另一方面,一篇描写班达伯格和布里斯班(昆士兰州中心和南部的两个城市)的洪水的文章与目标事件是相关的,但由于缺失初始查询中的关键词“昆士兰”而很可能无法出现在检索结果中。因此在事件检索任务中,应尽可能地利用隐藏的目标事件信息。
最近提出的各种面向事件的检索模型可以被粗略地分为两大类:1)致力于改进伪相关反馈的有效性和鲁棒性。这类模型通常基于双成分的混合模型来拟合反馈文档,其中一种成分是使用文档集合估计得到的固定的背景语言模型 p(w|C) ,而另一种成分是一个未知的,需要被发掘出的主题模型 p(w|θ_F) ,此种方法在实践中证明能够有效地区分噪声与有效反馈,在此基础上还可以对双成分混合模型进行扩展,来更好地将原始查询模型与反馈文档集成,允许每篇反馈文档对估计得到的反馈主题语言模型有潜在不同的贡献。2)从对事件的特性研究着手,通过不同的方式在检索中融入事件的信息,来改进检索性能。这类模型通常会尝试从语义上理解事件,使用自然语言处理工具(语义角色标注和共指技术)将背景文档中的每个句子解析成3个元素:主语,宾语和谓语,并将它们可以被用于事件检索。在此基础上,将查询和文档都构造为事件相关的图,并利用图的质心来测量查询-文档之间的相似度。
现有的模型存在以下三个方面的缺陷:1)第一类模型并没有针对性地面向事件检索任务进行研究,事件检索任务由于具有其自身的独特性,因此在常规检索中能够获得改进的方法,在事件检索中很可能无法获得同样的效果;2)上述两类模型都很复杂,并且实现起来非常耗时;3)上述两类模型都是启发式的方法,无法在原理性的框架下进行解释。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种面向事件检索的多事件成分混合反馈方法,以解决上述背景技术中的技术问题。
本发明实施例提供了一种面向事件检索的多事件成分混合反馈方法,其中,所述方法包括如下步骤:
步骤一,为已知事件集合中的每个已知事件构建已知事件语言模型:
在带有事件标注的语料库中,为所有已知事件分别取出预设篇数的文档,通过在不同的已知事件集合中统计各个词项出现的频度,来构建对应的已知事件语言模型;
步骤二,查询隐藏目标事件;
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合,通过隐藏目标事件在完备事件集合中的概率分布,模拟构建以得到伪反馈文档集合的log-似然函数,通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后,再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件;
步骤三,对用户的初始查询模型进行更新;
根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;
步骤四,获得检索结果;
根据所述改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。
所述一种面向事件检索的多事件成分混合反馈方法,其中,所述步骤二具体包括:
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合;
通过隐藏目标事件在完备事件集合中的概率分布,结合查询的伪反馈文档中词项的分布模型,得到伪反馈文档集合中词项的生成概率;
根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数;
通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理;
根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。
所述一种面向事件检索的多事件成分混合反馈方法,其中,根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合的步骤中,已知事件集合表示为
Figure 577969DEST_PATH_IMAGE001
Figure 47127DEST_PATH_IMAGE002
表示第
Figure 452701DEST_PATH_IMAGE003
个已知事件,隐藏目标事件表示为
Figure 517871DEST_PATH_IMAGE004
,完备事件集合表示为
Figure 200656DEST_PATH_IMAGE005
Figure 699771DEST_PATH_IMAGE003
表示已知事件中的词项的数量。
所述一种面向事件检索的多事件成分混合反馈方法,其中,在通过隐藏目标事件在完备事件集合中的概率分布,结合查询的伪反馈文档中词项的分布模型,得到伪反馈文档集合中词项的生成概率的步骤中,隐藏目标事件在完备事件集合中的概率分布表示为:
Figure 717274DEST_PATH_IMAGE006
其中,
Figure 960037DEST_PATH_IMAGE007
表示隐藏目标事件在完备事件集合中的概率分布,
Figure 762907DEST_PATH_IMAGE008
Figure 47303DEST_PATH_IMAGE009
表示第
Figure 161890DEST_PATH_IMAGE010
个已知事件,
Figure 83709DEST_PATH_IMAGE011
表示隐藏目标事件为已知事件的概率值,
Figure 990354DEST_PATH_IMAGE012
Figure 831271DEST_PATH_IMAGE013
表示未知事件,
Figure 308520DEST_PATH_IMAGE014
表示隐藏目标事件为第
Figure 893085DEST_PATH_IMAGE015
个已知事件的概率,
Figure 155702DEST_PATH_IMAGE016
表示隐藏目标事件为未知事件的概率。
所述一种面向事件检索的多事件成分混合反馈方法,其中,所述伪反馈文档集合中词项的生成概率表示为:
Figure 308465DEST_PATH_IMAGE017
其中,
Figure 787857DEST_PATH_IMAGE018
表示伪反馈文档集合中词项的生成概率,
Figure 176113DEST_PATH_IMAGE019
表示伪反馈文档中词项的分布模型,
Figure 542504DEST_PATH_IMAGE020
表示已知事件中词项的分布模型,
Figure 616901DEST_PATH_IMAGE021
表示未知事件中词项的分布模型,
Figure 193376DEST_PATH_IMAGE022
表示词项为已知事件的概率,
Figure 260689DEST_PATH_IMAGE023
表示词项为未知事件的概率,
Figure 996433DEST_PATH_IMAGE024
表示出现的词项。
所述一种面向事件检索的多事件成分混合反馈方法,其中,在根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数的步骤中,伪反馈文档集合的log-似然函数表示为:
Figure 490999DEST_PATH_IMAGE025
其中,
Figure 289191DEST_PATH_IMAGE026
表示伪反馈文档集合的log-似然函数,
Figure 910927DEST_PATH_IMAGE027
表示伪反馈文档集合,
Figure 110964DEST_PATH_IMAGE028
表示词项
Figure 776432DEST_PATH_IMAGE024
在伪反馈文档集合
Figure 452133DEST_PATH_IMAGE027
中的词频,
Figure 126828DEST_PATH_IMAGE029
表示所有词的总集。
所述一种面向事件检索的多事件成分混合反馈方法,其中,在通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理的步骤中;
首先计算每个词项
Figure 181372DEST_PATH_IMAGE024
对应的生成概率,具体为:
Figure 768473DEST_PATH_IMAGE030
其中,
Figure 541257DEST_PATH_IMAGE031
表示词项
Figure 488484DEST_PATH_IMAGE024
是使用已知事件语言模型
Figure 787748DEST_PATH_IMAGE032
生成对应的生成概率,
Figure 919652DEST_PATH_IMAGE033
为一个隐变量,
Figure 55098DEST_PATH_IMAGE034
Figure 930650DEST_PATH_IMAGE035
表示词项
Figure 585885DEST_PATH_IMAGE024
是使用已知事件语言模型
Figure 764056DEST_PATH_IMAGE032
生成的,
Figure 511432DEST_PATH_IMAGE036
表示词项
Figure 49730DEST_PATH_IMAGE037
由第i个已知事件生成的概率为0,
Figure 74318DEST_PATH_IMAGE038
表示在第n次迭代时隐藏事件为已知事件的概率;
根据生成概率以及词频对隐藏目标事件为已知事件的概率值
Figure 548024DEST_PATH_IMAGE011
进行计算更新直至所述伪反馈文档集合的log-似然函数进行收敛,具体为:
Figure 408795DEST_PATH_IMAGE039
其中,
Figure 626150DEST_PATH_IMAGE040
表示所有词项的总集。
所述一种面向事件检索的多事件成分混合反馈方法,其中,在所述步骤三中,存在如下关系式:
Figure 239665DEST_PATH_IMAGE041
其中,
Figure 274486DEST_PATH_IMAGE042
表示改进后的新查询模型中词项出现的概率,
Figure 730875DEST_PATH_IMAGE043
表示改进后的新查询模型,
Figure 361708DEST_PATH_IMAGE044
表示当前的查询模型,
Figure 485521DEST_PATH_IMAGE045
表示基于伪反馈文档集合
Figure 661550DEST_PATH_IMAGE027
估计得到的目标事件语言模型,
Figure 746181DEST_PATH_IMAGE046
为一个控制反馈程度的插值因子,
Figure 570917DEST_PATH_IMAGE047
Figure 408292DEST_PATH_IMAGE048
表示查询模型中词项出现的概率,
Figure 535648DEST_PATH_IMAGE049
表示目标事件语言模型中,词项
Figure 966630DEST_PATH_IMAGE037
出现的概率值。
所述一种面向事件检索的多事件成分混合反馈方法,其中,在所述步骤四中, KL-散度对应的分值表示为:
Figure 967295DEST_PATH_IMAGE050
其中,
Figure 675488DEST_PATH_IMAGE051
表示KL-散度对应的分值,
Figure 98379DEST_PATH_IMAGE052
表示文档,
Figure 875711DEST_PATH_IMAGE053
表示查询,
Figure 917617DEST_PATH_IMAGE054
表示文档词的文档模型,
Figure 870529DEST_PATH_IMAGE055
表示查询模型与文档模型之间的KL距离,
Figure 824841DEST_PATH_IMAGE056
表示出现的词项,
Figure 964835DEST_PATH_IMAGE029
表示所有词的总集,
Figure 544852DEST_PATH_IMAGE057
表示文档模型中词项出现的概率。
本发明提出一种面向事件检索的多事件成分混合反馈系统,其中,所述系统包括:
模型构建模块,用于为已知事件集合中的每个已知事件构建已知事件语言模型:
所述模型构建模块具体用于:在带有事件标注的语料库中,为所有已知事件分别取出预设篇数的文档,通过在不同的已知事件集合中统计各个词项出现的频度,来构建对应的已知事件语言模型;
时间查询模块,用于查询隐藏目标事件;
所述时间查询模块具体用于:
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合,通过隐藏目标事件在完备事件集合中的概率分布,模拟构建以得到伪反馈文档集合的log-似然函数,通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后,再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件;
数据更新模块,用于对用户的初始查询模型进行更新;
所述数据更新模块具体用于:根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;
结果获取模块,用于获得检索结果;
所述结果获取模块具体用于:
根据所述改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。
本发明提出的一种面向事件检索的多事件成分混合反馈方法,具有如下优点:
1)在事件检索的背景下,基于伪相关反馈原理提出一种多事件成分的混合反馈模型。该新模型假定在初始查询表述背后隐藏着一个目标事件,通过预先构建一些已知事件的语言模型,并据此对伪反馈文档集合上的词项分布进行拟合,以最终识别出目标事件;
2)通过提取目标事件语言模型中的一些高概率的反馈词项来对初始查询进行改进,从而提高检索结果的准确率。由于伪反馈文档集合中不可避免地存在噪声,因此将该伪反馈文档集合上的词项分布看成是多事件成分的混合语言模型,并通过EM 算法拟合出每个事件在伪反馈文档集合上的最优权重,基于预先设定好的一个权重阈值,识别出隐藏目标事件;
3)基于多事件成分混合模型的检索方法相较于其它对比方法,不仅能够获得更好的检索性能,而且对于伪反馈参数的设定具有良好的稳定性。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为常规信息检索与使用伪相关反馈的检索的原理示意图;
图2为面向事件的检索的原理示意图;
图3为本发明提出的面向伪反馈的事件混合模型的原理示意图;
图4为本发明提出的面向事件检索的多事件成分混合反馈方法的流程图;
图5为本发明提出的面向事件检索的多事件成分混合反馈系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图3与图4,本发明提出一种面向事件检索的多事件成分混合反馈方法,其中,所述方法包括如下步骤:
S101,为已知事件集合中的每个已知事件构建已知事件语言模型。
为了准确地识别出在用户初始查询表述背后的隐藏目标事件
Figure 211326DEST_PATH_IMAGE004
,并充分利用该隐藏目标事件的信息,需要为已知事件集合
Figure 976020DEST_PATH_IMAGE001
中的每个已知事件构预先构建一个语言模型。
在此需要说明的是,一个已知事件语言模型,指的是在该已知事件上所有词项的一组多项式分布。换句话说,若需要描述一个事件,所使用的词项的概率应该服从该事件语言模型上的词项分布。例如,在“洪水”事件中,“水位升高”、“滥砍滥伐”、“气象异常”以及“抗洪抢险”等词项出现的概率会比较高。而在“交通事故”事件中,“交通法规”、“责任认定”、“酒精检测”以及“保险理赔”等词项出现的概率会比较高。很显然,不同的事件语言模型在词项分布上存在巨大的差异。
从形式上,给定一个事件
Figure 478676DEST_PATH_IMAGE058
,以及该事件上的词汇表
Figure 613117DEST_PATH_IMAGE059
,那么该事件的一元语言模型为
Figure 9463DEST_PATH_IMAGE060
,其中
Figure 820424DEST_PATH_IMAGE061
具体的,在本步骤中,在带有事件标注的语料库中,为所有已知事件分别取出100篇文档,通过在不同的已知事件集合中统计各个词项出现的频度,来构建对应的已知事件语言模型。
S102,查询隐藏目标事件。
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合,通过隐藏目标事件在完备事件集合中的概率分布,模拟构建以得到伪反馈文档集合的log-似然函数,通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后,再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。
需要说明的,根据不同方法构建的事件语言模型在每个词项的出现概率上不会完全一致,但在总体上的词项分布应该是类似的。因此,若本发明提出的面向事件检索的多事件成分混合反馈模型,在其中某一种事件语言模型上能表现出良好的检索效果,则可认为通过其它方法构建的事件语言模型也能够得到一致性的结果,即多事件成分混合反馈模型对于已知事件语言模型的构建方法是不敏感的。
需要注意到,由于新事件会不断涌现,在实际应用中不可能为所有事件都构建语言模型。因此,假定还存在一个未知事件
Figure 935010DEST_PATH_IMAGE062
,以及该事件的语言模型
Figure 106098DEST_PATH_IMAGE063
,在本文中,
Figure 497896DEST_PATH_IMAGE064
上的词项分布假定为整个待排序文档集合上的词项分布。在获得文档集合之前,无法预先构建出未知事件的语言模型,因此在下文的讨论中,在预先构建好语言模型的事件集合
Figure 338813DEST_PATH_IMAGE065
中是不包括未知事件
Figure 832373DEST_PATH_IMAGE062
的。
所述步骤二具体包括:
S1021,根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合。
根据已知事件集合与各隐藏目标事件构建得到完备事件集合的步骤中,已知事件集合表示为
Figure 416939DEST_PATH_IMAGE001
Figure 928822DEST_PATH_IMAGE002
表示第
Figure 65275DEST_PATH_IMAGE003
个已知事件,隐藏目标事件表示为
Figure 154453DEST_PATH_IMAGE004
,完备事件集合表示为
Figure 418076DEST_PATH_IMAGE005
Figure 643521DEST_PATH_IMAGE066
Figure 983497DEST_PATH_IMAGE003
表示已知事件中的词项的数量。
S1022,通过隐藏目标事件在完备事件集合中的概率分布,结合查询的伪反馈文档中词项的分布模型,得到伪反馈文档集合中词项的生成概率。
所查询的背后的隐藏目标事件
Figure 169759DEST_PATH_IMAGE004
应该是完备事件集合
Figure 361706DEST_PATH_IMAGE005
中的一个成员,但由于该隐藏目标事件
Figure 831870DEST_PATH_IMAGE004
是未知的,因此需要基于伪反馈文档集合上的词项分布来识别出
Figure 326437DEST_PATH_IMAGE004
。然而,伪反馈文档集合中必然存在来自于其它事件的噪声,所以我们可以认为
Figure 124629DEST_PATH_IMAGE004
在完备事件集合
Figure 480786DEST_PATH_IMAGE005
上存在一组概率分布。
具体的,隐藏目标事件在完备事件集合中的概率分布表示为:
Figure 946402DEST_PATH_IMAGE006
其中,
Figure 877449DEST_PATH_IMAGE007
表示隐藏目标事件在完备事件集合中的概率分布,
Figure 287571DEST_PATH_IMAGE008
Figure 555741DEST_PATH_IMAGE067
表示第
Figure 751230DEST_PATH_IMAGE010
个已知事件,
Figure 338332DEST_PATH_IMAGE011
表示隐藏目标事件为已知事件的概率值,
Figure 376695DEST_PATH_IMAGE012
Figure 58343DEST_PATH_IMAGE068
表示未知事件,
Figure 232972DEST_PATH_IMAGE014
表示隐藏目标事件为第
Figure 223931DEST_PATH_IMAGE015
个已知事件的概率,
Figure 624956DEST_PATH_IMAGE016
表示隐藏目标事件为未知事件的概率。
S1023,根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数。
如图3所示,每生成伪反馈文档集合中的一个词项,会在
Figure 234929DEST_PATH_IMAGE069
(又称为混合模型) 中采样一个词项,换言之,可根据不同的概率从某个事件语言模型中产生一个词项。
在本步骤中,伪反馈文档集合中词项的生成概率表示为:
Figure 155743DEST_PATH_IMAGE017
其中,
Figure 458548DEST_PATH_IMAGE018
表示伪反馈文档集合中词项的生成概率,
Figure 81291DEST_PATH_IMAGE019
表示伪反馈文档中词项的分布模型,
Figure 619588DEST_PATH_IMAGE070
表示已知事件中词项的分布模型,
Figure 768810DEST_PATH_IMAGE071
表示未知事件中词项的分布模型,
Figure 117883DEST_PATH_IMAGE072
表示词项为已知事件的概率,
Figure 86976DEST_PATH_IMAGE073
表示词项为未知事件的概率,
Figure 918710DEST_PATH_IMAGE024
表示出现的词项。
从而,针对整个伪反馈文档集合的log-似然函数表示为:
Figure 797805DEST_PATH_IMAGE025
其中,
Figure 707992DEST_PATH_IMAGE026
表示伪反馈文档集合的log-似然函数,
Figure 289015DEST_PATH_IMAGE027
表示伪反馈文档集合,
Figure 185427DEST_PATH_IMAGE028
表示词项
Figure 778082DEST_PATH_IMAGE024
在伪反馈文档集合
Figure 485269DEST_PATH_IMAGE027
中的词频,
Figure 428954DEST_PATH_IMAGE029
表示所有词的总集。
在此还需要说明的是,需要调整每个事件上的概率,最大化log-似然函数,进而识别出隐藏目标事件。
S1024,通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理。
直观上,
Figure 129057DEST_PATH_IMAGE011
表示对于
Figure 966432DEST_PATH_IMAGE074
抱有多大的期望,因此可通过该权重最终确定
Figure 687263DEST_PATH_IMAGE004
具体是什么,需要将混合模型
Figure 259190DEST_PATH_IMAGE019
拟合到伪反馈文档集合上。也即,需要将已知事件集合上的权重
Figure 356459DEST_PATH_IMAGE075
调整到最能够反映反馈文档集合上的词项分布。因此,
Figure 80964DEST_PATH_IMAGE019
和事件集合上的权重
Figure 848063DEST_PATH_IMAGE075
应该协同工作,来对反馈文档中的单词进行解释。
例如,如果对
Figure 766340DEST_PATH_IMAGE076
属于某个特定的事件
Figure 57513DEST_PATH_IMAGE077
抱有较大的期望,那么在为该事件的权重
Figure 620212DEST_PATH_IMAGE078
赋较大值的同时,也会减小其它事件的权重。这样所有事件上的权重可以“高效地”协同工作,来最大化log-似然函数。很显然,在事件与词项之间存在着一组隐变量,来表示一个词项通过某个事件语言模型生成的概率,因此可使用期望最大化(EM)算法实现上文中的log-似然函数的最大化。
EM算法是一种爬山算法。可以从
Figure 948426DEST_PATH_IMAGE075
的一种随机初始化开始,然后反复改进
Figure 714519DEST_PATH_IMAGE075
来增大似然,直到算法收敛到似然函数的一个局部最大值。具体来说,EM算法通过迭代地在E-步骤和M-步骤上变换来改进
Figure 419169DEST_PATH_IMAGE019
在本步骤中,通过期望最大化方法(EM)对伪反馈文档集合的log-似然函数进行最大化处理的步骤中,首先计算每个词项
Figure 101955DEST_PATH_IMAGE024
对应的生成概率,具体为:
Figure 991282DEST_PATH_IMAGE030
其中,
Figure 618573DEST_PATH_IMAGE031
表示词项
Figure 2280DEST_PATH_IMAGE024
是使用已知事件语言模型
Figure 398627DEST_PATH_IMAGE032
生成对应的生成概率,
Figure 960320DEST_PATH_IMAGE079
为一个隐变量,
Figure 950273DEST_PATH_IMAGE034
Figure 996727DEST_PATH_IMAGE080
表示词项
Figure 637792DEST_PATH_IMAGE024
是使用已知事件语言模型
Figure 619655DEST_PATH_IMAGE032
生成的,
Figure 221537DEST_PATH_IMAGE036
表示词项
Figure 697780DEST_PATH_IMAGE037
由第i个已知事件生成的概率为0,
Figure 68719DEST_PATH_IMAGE038
表示在第n次迭代时隐藏事件为已知事件的概率。
直觉上,我们尝试“猜出”使用了哪个事件语言模型生成词项
Figure 221483DEST_PATH_IMAGE024
。如果
Figure 435295DEST_PATH_IMAGE081
,那么我们会猜测词项
Figure 823551DEST_PATH_IMAGE024
更可能是使用
Figure 189942DEST_PATH_IMAGE082
生成的,从而相较于
Figure 264339DEST_PATH_IMAGE083
Figure 840814DEST_PATH_IMAGE084
可能性更大。
实际上,如果伪反馈文档集合上的词项分布与某个事件语言模型完全一致,将很自然地将该事件识别为隐藏目标事件。然而,
Figure 908127DEST_PATH_IMAGE085
并没有明确告诉我们词项
Figure 112712DEST_PATH_IMAGE024
是否是由
Figure 997492DEST_PATH_IMAGE082
生成的,它表示的只是由该事件生成的一个期望概率。
因此,在EM算法的M-步骤,将使用一个打折的词频(即
Figure 936629DEST_PATH_IMAGE086
)来估计
Figure 292786DEST_PATH_IMAGE087
。如果
Figure 227244DEST_PATH_IMAGE088
越小,词频打折得就越厉害,因为一个较小的
Figure 158291DEST_PATH_IMAGE089
表明这个单词不太可能由
Figure 833992DEST_PATH_IMAGE082
生成,因此需要进一步将该事件的权重
Figure 102162DEST_PATH_IMAGE087
调小。
根据生成概率以及词频对隐藏目标事件为已知事件的概率值
Figure 297651DEST_PATH_IMAGE090
进行计算更新直至所述伪反馈文档集合的log-似然函数进行收敛,具体为:
Figure 258654DEST_PATH_IMAGE091
其中,
Figure 669255DEST_PATH_IMAGE040
表示所有词项的总集。
作为补充的,EM算法可确保一定能够收敛到似然函数的一个局部最大值。在本发明中,给定伪反馈文档集合
Figure 882062DEST_PATH_IMAGE027
和预先构建的已知事件语言模型中的词项分布
Figure 56691DEST_PATH_IMAGE092
,以及未知语言模型中的词项分布
Figure 313229DEST_PATH_IMAGE093
,log-似然函数是一个凸函数,因此在EM算法收敛时获得的局部最大值即为该函数的全局最大值,此时会得到一组最优的事件权重集合
Figure 448675DEST_PATH_IMAGE075
。但是,需要注意到,使用EM算法涉及到一个收敛阈值,这个阈值的设定将影响到获得的似然函数值,以及EM算法的工作效率。
S1025,根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。
S103,对用户的初始查询模型进行更新。
根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型。
直觉上,根据原始查询表述得到的伪反馈文档集合中必然存在着或多或少的噪声,因此在伪反馈文档集合上的词项分布并不会与背景事件语言模型上的语言分布完全一致,而且背景事件的真实语言模型应该是一个无限的词项空间,而在实际中我们预先构建的已知事件语言模型只能是真实事件语言模型的一种近似。因此,基于上文所描述的训练算法得到的最优事件权重集合
Figure 324228DEST_PATH_IMAGE075
中,即使是正确的目标事件,它的权重也不会完全等同于1。换言之,其它的事件也会在伪反馈文档集合中融入一部分的噪声,这与我们在进行检索时的实际情况是一致的。
因此,需要确定一个权重阈值
Figure 979462DEST_PATH_IMAGE094
,使得在获得的最优事件权重集合
Figure 157634DEST_PATH_IMAGE075
中,如果存在特定事件
Figure 170589DEST_PATH_IMAGE009
,有
Figure 708887DEST_PATH_IMAGE095
,则对于任意的
Figure 733474DEST_PATH_IMAGE096
,都有
Figure 207181DEST_PATH_IMAGE097
,便可以认定在初始查询表述背后的隐藏目标事件就是
Figure 67952DEST_PATH_IMAGE009
。否则,若不存在
Figure 160673DEST_PATH_IMAGE098
,使得
Figure 164401DEST_PATH_IMAGE099
,那么认定在初始查询表述背后的隐藏目标事件不包含在已知事件集合
Figure 933643DEST_PATH_IMAGE100
中,是未知事件
Figure 390032DEST_PATH_IMAGE101
当前,使用伪相关反馈来改进初始查询表述,普遍都采用了一种插值方法。即,使用一个估计得到的反馈主题模型(在本文中即为目标事件语言模型),对已有的查询语言模型(经验上,可基于初始查询上的词项分布估计得到的)进行插值。
从形式上,令
Figure 286444DEST_PATH_IMAGE044
表示当前的查询模型,
Figure 770777DEST_PATH_IMAGE045
表示基于伪反馈文档集合
Figure 851865DEST_PATH_IMAGE027
估计得到的目标事件语言模型。改进后的新查询模型
Figure 936496DEST_PATH_IMAGE043
可表示为:
Figure 620287DEST_PATH_IMAGE041
其中,
Figure 333028DEST_PATH_IMAGE042
表示改进后的新查询模型中词项出现的概率,
Figure 460384DEST_PATH_IMAGE046
为一个控制反馈程度的插值因子,
Figure 783043DEST_PATH_IMAGE047
Figure 880312DEST_PATH_IMAGE048
表示查询模型中词项出现的概率,
Figure 588505DEST_PATH_IMAGE049
表示目标事件语言模型中,词项
Figure 136030DEST_PATH_IMAGE037
出现的概率值。当
Figure 195253DEST_PATH_IMAGE102
时,将不会有查询模型的任何升级,而当
Figure 830634DEST_PATH_IMAGE103
时,本质上将会忽略掉原始查询,而将查询模型重置为一个完全基于伪反馈文档集合得到的事件语言模型。
S104,获得检索结果。
根据所述改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。
在KL-散度模型中定义了两种不同的语言模型,一种面向查询(
Figure 144066DEST_PATH_IMAGE044
),另一种面向文档(
Figure 737858DEST_PATH_IMAGE054
)。也就是说,我们假定查询是查询模型
Figure 18798DEST_PATH_IMAGE044
上观察到的一个样本,而文档是文档模型
Figure 848083DEST_PATH_IMAGE054
上观察到的一个样本。直觉上,查询模型
Figure 655502DEST_PATH_IMAGE044
捕获了用户对什么感兴趣,而
Figure 295561DEST_PATH_IMAGE054
捕获了文档
Figure 548950DEST_PATH_IMAGE104
的主题。然后,可以使用这两个模型的KL-散度,来测定它们彼此之间有多接近,并将它们的距离(实际上是距离的负值)用作一个分值来对文档排序。在此种方式下,文档模型
Figure 791713DEST_PATH_IMAGE054
与查询模型
Figure 329005DEST_PATH_IMAGE044
越接近,文档就会排名越高。
具体的, KL-散度对应的分值表示为:
Figure 389233DEST_PATH_IMAGE050
其中,
Figure 503820DEST_PATH_IMAGE051
表示KL-散度对应的分值,
Figure 425640DEST_PATH_IMAGE104
表示文档,
Figure 942072DEST_PATH_IMAGE053
表示查询,
Figure 674667DEST_PATH_IMAGE054
表示文档词的文档模型,
Figure 151915DEST_PATH_IMAGE055
表示查询模型与文档模型之间的KL距离,
Figure 2060DEST_PATH_IMAGE105
表示出现的词项,
Figure 497632DEST_PATH_IMAGE029
表示所有词的总集,
Figure 650396DEST_PATH_IMAGE048
表示查询模型中词项出现的概率,
Figure 473995DEST_PATH_IMAGE057
表示文档模型中词项出现的概率。
请参阅图5,本发明提出一种面向事件检索的多事件成分混合反馈系统,其中,所述系统包括:
模型构建模块,用于为已知事件集合中的每个已知事件构建已知事件语言模型:
所述模型构建模块具体用于:在带有事件标注的语料库中,为所有已知事件分别取出预设篇数的文档,通过在不同的已知事件集合中统计各个词项出现的频度,来构建对应的已知事件语言模型;
时间查询模块,用于查询隐藏目标事件;
所述时间查询模块具体用于:
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合,通过隐藏目标事件在完备事件集合中的概率分布,模拟构建以得到伪反馈文档集合的log-似然函数,通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后,再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件;
数据更新模块,用于对用户的初始查询模型进行更新;
所述数据更新模块具体用于:根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;
结果获取模块,用于获得检索结果;
所述结果获取模块具体用于:
根据所述改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向事件检索的多事件成分混合反馈方法,其特征在于,所述方法包括如下步骤:
步骤一,为已知事件集合中的每个已知事件构建已知事件语言模型:
在带有事件标注的语料库中,为所有已知事件分别取出预设篇数的文档,通过在不同的已知事件集合中统计各个词项出现的频度,来构建对应的已知事件语言模型;
步骤二,查询隐藏目标事件;
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合,通过隐藏目标事件在完备事件集合中的概率分布,模拟构建以得到伪反馈文档集合的log-似然函数,通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后,再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件;
步骤三,对用户的初始查询模型进行更新;
根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;
步骤四,获得检索结果;
根据所述改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。
2.根据权利要求1所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,所述步骤二具体包括:
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合;
通过隐藏目标事件在完备事件集合中的概率分布,结合查询的伪反馈文档中词项的分布模型,得到伪反馈文档集合中词项的生成概率;
根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数;
通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理;
根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件。
3.根据权利要求2所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合的步骤中,已知事件集合表示为
Figure 6270DEST_PATH_IMAGE001
Figure 550384DEST_PATH_IMAGE002
表示第
Figure 901731DEST_PATH_IMAGE003
个已知事件,隐藏目标事件表示为
Figure 582111DEST_PATH_IMAGE004
,完备事件集合表示为
Figure 354020DEST_PATH_IMAGE005
Figure 260796DEST_PATH_IMAGE003
表示已知事件中的词项的数量。
4.根据权利要求3所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,在通过隐藏目标事件在完备事件集合中的概率分布,结合查询的伪反馈文档中词项的分布模型,得到伪反馈文档集合中词项的生成概率的步骤中,隐藏目标事件在完备事件集合中的概率分布表示为:
Figure 274889DEST_PATH_IMAGE006
其中,
Figure 809775DEST_PATH_IMAGE007
表示隐藏目标事件在完备事件集合中的概率分布,
Figure 392066DEST_PATH_IMAGE008
Figure 645193DEST_PATH_IMAGE009
表示第
Figure 338343DEST_PATH_IMAGE010
个已知事件,
Figure 494780DEST_PATH_IMAGE011
表示隐藏目标事件为已知事件的概率值,
Figure 372606DEST_PATH_IMAGE012
Figure 722816DEST_PATH_IMAGE013
表示未知事件,
Figure 344290DEST_PATH_IMAGE014
表示隐藏目标事件为第
Figure 853769DEST_PATH_IMAGE015
个已知事件的概率,
Figure 777862DEST_PATH_IMAGE016
表示隐藏目标事件为未知事件的概率。
5.根据权利要求4所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,所述伪反馈文档集合中词项的生成概率表示为:
Figure 507046DEST_PATH_IMAGE017
其中,
Figure 541998DEST_PATH_IMAGE018
表示伪反馈文档集合中词项的生成概率,
Figure 905984DEST_PATH_IMAGE019
表示伪反馈文档中词项的分布模型,
Figure 860033DEST_PATH_IMAGE020
表示已知事件中词项的分布模型,
Figure 309469DEST_PATH_IMAGE021
表示未知事件中词项的分布模型,
Figure 148112DEST_PATH_IMAGE022
表示词项为已知事件的概率,
Figure 133648DEST_PATH_IMAGE023
表示词项为未知事件的概率,
Figure 258599DEST_PATH_IMAGE024
表示出现的词项。
6.根据权利要求5所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,在根据伪反馈文档集合中词项的生成概率构建以得到伪反馈文档集合的log-似然函数的步骤中,伪反馈文档集合的log-似然函数表示为:
Figure 336276DEST_PATH_IMAGE025
其中,
Figure 837665DEST_PATH_IMAGE026
表示伪反馈文档集合的log-似然函数,
Figure 51608DEST_PATH_IMAGE027
表示伪反馈文档集合,
Figure 347460DEST_PATH_IMAGE028
表示词项
Figure 538533DEST_PATH_IMAGE024
在伪反馈文档集合
Figure 453399DEST_PATH_IMAGE027
中的词频,
Figure 177641DEST_PATH_IMAGE029
表示所有词的总集。
7.根据权利要求6所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,在通过期望最大化方法对所述伪反馈文档集合的log-似然函数进行最大化处理的步骤中;
首先计算每个词项
Figure 644395DEST_PATH_IMAGE024
对应的生成概率,具体为:
Figure 431085DEST_PATH_IMAGE030
其中,
Figure 539855DEST_PATH_IMAGE031
表示词项
Figure 728391DEST_PATH_IMAGE024
是使用已知事件语言模型
Figure 133090DEST_PATH_IMAGE032
生成对应的生成概率,
Figure 266131DEST_PATH_IMAGE033
为一个隐变量,
Figure 788379DEST_PATH_IMAGE034
Figure 956056DEST_PATH_IMAGE035
表示词项
Figure 764612DEST_PATH_IMAGE024
是使用已知事件语言模型
Figure 791473DEST_PATH_IMAGE032
生成的,
Figure 477932DEST_PATH_IMAGE036
表示词项
Figure 641060DEST_PATH_IMAGE037
由第i个已知事件生成的概率为0,
Figure 620517DEST_PATH_IMAGE038
表示在第n次迭代时隐藏事件为已知事件的概率;
根据生成概率以及词频对隐藏目标事件为已知事件的概率值
Figure 993730DEST_PATH_IMAGE011
进行计算更新直至所述伪反馈文档集合的log-似然函数进行收敛,具体为:
Figure 857781DEST_PATH_IMAGE039
其中,
Figure 49DEST_PATH_IMAGE040
表示所有词项的总集。
8.根据权利要求7所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,在所述步骤三中,存在如下关系式:
Figure 291353DEST_PATH_IMAGE041
其中,
Figure 399466DEST_PATH_IMAGE042
表示改进后的新查询模型中词项出现的概率,
Figure 191842DEST_PATH_IMAGE043
表示改进后的新查询模型,
Figure 63983DEST_PATH_IMAGE044
表示查询词的查询模型,
Figure 650822DEST_PATH_IMAGE045
表示基于伪反馈文档集合
Figure 733047DEST_PATH_IMAGE027
估计得到的目标事件语言模型,
Figure 204480DEST_PATH_IMAGE046
为一个控制反馈程度的插值因子,
Figure 557226DEST_PATH_IMAGE047
Figure 190333DEST_PATH_IMAGE048
表示查询模型中词项出现的概率,
Figure 759854DEST_PATH_IMAGE049
表示目标事件语言模型中词项
Figure 894032DEST_PATH_IMAGE037
出现的概率值。
9.根据权利要求8所述的一种面向事件检索的多事件成分混合反馈方法,其特征在于,在所述步骤四中, KL-散度对应的分值表示为:
Figure 740766DEST_PATH_IMAGE050
其中,
Figure 669407DEST_PATH_IMAGE051
表示KL-散度对应的分值,
Figure 601591DEST_PATH_IMAGE052
表示文档,
Figure 775346DEST_PATH_IMAGE053
表示查询,
Figure 601220DEST_PATH_IMAGE054
表示文档词的文档模型,
Figure 576129DEST_PATH_IMAGE055
表示查询模型与文档模型之间的KL距离,
Figure 120243DEST_PATH_IMAGE056
表示出现的词项,
Figure 330644DEST_PATH_IMAGE029
表示所有词的总集,
Figure 105964DEST_PATH_IMAGE057
表示文档模型中词项出现的概率。
10.一种面向事件检索的多事件成分混合反馈系统,其特征在于,所述系统包括:
模型构建模块,用于为已知事件集合中的每个已知事件构建已知事件语言模型:
所述模型构建模块具体用于:在带有事件标注的语料库中,为所有已知事件分别取出预设篇数的文档,通过在不同的已知事件集合中统计各个词项出现的频度,来构建对应的已知事件语言模型;
时间查询模块,用于查询隐藏目标事件;
所述时间查询模块具体用于:
根据所述已知事件集合与各隐藏目标事件构建得到完备事件集合,通过隐藏目标事件在完备事件集合中的概率分布,模拟构建以得到伪反馈文档集合的log-似然函数,通过期望最大化方法对所述伪反馈文档集合的log-似然函数最大化之后,再根据用户的初始查询模型在最大化之后的似然函数中进行查询以确认得到隐藏目标事件;
数据更新模块,用于对用户的初始查询模型进行更新;
所述数据更新模块具体用于:根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;
结果获取模块,用于获得检索结果;
所述结果获取模块具体用于:
根据所述改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL-散度对应的分值来确定得到更准确的检索结果。
CN202111560808.1A 2021-12-20 2021-12-20 一种面向事件检索的多事件成分混合反馈方法与系统 Pending CN113946659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111560808.1A CN113946659A (zh) 2021-12-20 2021-12-20 一种面向事件检索的多事件成分混合反馈方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111560808.1A CN113946659A (zh) 2021-12-20 2021-12-20 一种面向事件检索的多事件成分混合反馈方法与系统

Publications (1)

Publication Number Publication Date
CN113946659A true CN113946659A (zh) 2022-01-18

Family

ID=79339272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111560808.1A Pending CN113946659A (zh) 2021-12-20 2021-12-20 一种面向事件检索的多事件成分混合反馈方法与系统

Country Status (1)

Country Link
CN (1) CN113946659A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG PENGMING 等: "《A Multi-Events Mixture Feedback Model for Event Retrieval》", 《JOURNAL OF RESIDUALS SCIENCE & TECHNOLOGY》 *

Similar Documents

Publication Publication Date Title
US11341424B2 (en) Method, apparatus and system for estimating causality among observed variables
US20180341696A1 (en) Method and system for detecting overlapping communities based on similarity between nodes in social network
US11544459B2 (en) Method and apparatus for determining feature words and server
Zhang et al. Event detection and popularity prediction in microblogging
Li et al. Learning query intent from regularized click graphs
US9275042B2 (en) Semantic clustering and user interfaces
US20160328467A1 (en) Natural language question answering method and apparatus
US20110238408A1 (en) Semantic Clustering
US8051021B2 (en) System and method for resource adaptive classification of data streams
US8386238B2 (en) Systems and methods for evaluating a sequence of characters
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
Parapar et al. Relevance-based language modelling for recommender systems
WO2011119171A2 (en) Semantic clustering
Kumar et al. Modeling using K-means clustering algorithm
Grütze et al. CohEEL: Coherent and efficient named entity linking through random walks
Li et al. Learning with click graph for query intent classification
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
CN105718999A (zh) 一种启发式代谢共表达网络的构建方法及系统
Ledezma et al. GA-stacking: Evolutionary stacked generalization
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Hao et al. Modeling positive and negative feedback for improving document retrieval
Bashir Combining pre-retrieval query quality predictors using genetic programming
CN113946659A (zh) 一种面向事件检索的多事件成分混合反馈方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220118