CN101853298A - 一种面向事件的查询扩展方法 - Google Patents

一种面向事件的查询扩展方法 Download PDF

Info

Publication number
CN101853298A
CN101853298A CN 201010186197 CN201010186197A CN101853298A CN 101853298 A CN101853298 A CN 101853298A CN 201010186197 CN201010186197 CN 201010186197 CN 201010186197 A CN201010186197 A CN 201010186197A CN 101853298 A CN101853298 A CN 101853298A
Authority
CN
China
Prior art keywords
mrow
msub
event
text
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010186197
Other languages
English (en)
Other versions
CN101853298B (zh
Inventor
仲兆满
刘宗田
周文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN2010101861974A priority Critical patent/CN101853298B/zh
Publication of CN101853298A publication Critical patent/CN101853298A/zh
Application granted granted Critical
Publication of CN101853298B publication Critical patent/CN101853298B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向事件的查询扩展方法,其步骤如下:(1)输入查询内容,获取局部文本集合N;(2)从集合N中识别得到事件集合E;(3)分别从查询项中区分事件项Qe和限定项Qe′;(4)计算查询项的事件项Qe与集合E中每个事件的关联强度,从集合E中选择关联强度大的若干个事件添加到Qe中扩展,得到扩展的事件项(5)计算扩展事件项与集合M中的一篇文本d的相似度,计算限定项Qe′与集合M中的一篇文本d的相似度为Sim(Qe′,d),计算得到Qexp与集合M中的一篇文本d的相似度为Sim(Qexp,d),依据相似度Sim(Qexp,d)的大小降序排列输出检索文本。该方法使用面向事件的查询扩展技术,区分查询内容中的事件项和限定项,在同样的查询主题上进行信息查询,能显著的提高事件类信息查询结果的准确率。

Description

一种面向事件的查询扩展方法
技术领域
本发明属于语言文字信息处理领域,具体地说是涉及一种面向事件的查询扩展方法。
背景技术
在信息检索领域,查询扩展指在原查询词的基础上加入相关的词,从而组成新的、更准确的查询词集,这在一定程度上能够弥补用户查询信息不足的缺陷,也有助于改善检索的查全率和查准率。查询扩展方法大致分为两类:基于语义知识辞典的查询扩展方法和基于语料库的查询扩展方法。基于语义知识辞典的查询扩展方法是:在进行查询扩展时通过已有的语义知识辞典来进行扩展词的选取。基于语料库的查询扩展方法又可细分为两种:全局分析方法和局部分析方法。最常用的局部分析技术是伪相关反馈PRF(Pseudo Relevance Feedback):假设初始检索结果的前面若干篇文档是相关的,然后利用相关反馈过程进行查询扩展,例如,参考文献的题目为:New retrieval approaches using SMART(该文作者是:C.Buckley,A.Singhal,M.Mitra,and G.Slaton,发表于1995年出版的期刊:Proceedings of the 4th TextRetrieval Conference),该文公开了使用词在文本集中出现的频次作为查询扩展的对象,但是,没有考虑文本中的词与查询项之间的关联信息,会导致查询扩展效果不稳定。在2000年美国出版的期刊《ACM Transactions on information systems》中,题目为:Improving theeffectiveness of informational retrieval with local context analysis(该文作者是:J.Xu,B.W.Croft),该文提出了一种基于局部上下文分析LCA(Local Context Analysis)的查询扩展方法,此方法依据文本集中词与整个查询项的共现信息进行扩展,与伪相关反馈PRF相比取得了更好的查询效果,但没有考虑到面向事件的信息检索的特点,并不适用于事件类信息检索。然而,随着各类突发事件的频繁发生,获取网络上事件类的信息已经变得非常迫切。在很多情况下,用户借助搜索引擎获取事件类信息,但是,已有的信息查询方法没有分析查询内容中不同的查询项的作用,没能使用面向事件的查询扩展技术,因此,对一些事件类信息的检索结果的准确率不高,不能满足实际应用的需求。
事件类信息的查询和其他信息的查询有许多不同之处,主要表现在:
(1)、事件是由事件触发词标识,关联了参与者、时间和地点等要素的概念。事件的各个要素在查询内容中作用是不同的。比如,输入:“汶川地震”、“孟买 恐怖袭击”、“中国SARS”等查询内容。这些查询内容中的“地震”、“恐怖袭击”、“SARS”是事件触发词,其标识所要查询的事件类型称为事件项。“汶川”、“孟买”、“中国”是事件的其它要素,其限定查询事件的范围称为事件的限定项。由于事件项和限定项在查询内容中的作用不同,所以采取不同的处理策略。
(2)事件之间有着紧密的联系,一个话题总是关联了一些特定的事件。提及话题“地震”,人们自然的就联想到“死亡”、“救援”、“重建”等事件;看到话题“竞选”,“演讲”、“辩论”、“投票”等事件自然浮现到脑海中,而不需要关心具体的事件要素。据此,可以进行事件到事件之间的联想扩展。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种面向事件的查询扩展方法,该方法通过分析查询内容中不同的查询项的作用,能提高事件类信息查询的准确率。
为了解决上述问题,本发明采用下述技术方案:
一种面向事件的查询扩展方法,其具体步骤如下:
(1)、输入查询内容,对查询内容进行分词、滤除停用词后得到查询项Q,计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次mi,按照mi的大小降序排列文本集合M中的文本,选取前面的排序小于或等于n的文本组成局部文本集合N;
(2)、依据从文本中识别事件的规则,从局部文本集合N中识别得到所有的事件,由上述所有事件组成的集合称为事件集合E;
(3)、分别从查询项中区分事件项Qe和限定项Qe′
(4)、根据步骤(2)和步骤(3),计算查询项的事件项Qe与事件集合E中每个事件的关联强度,从事件集合E中选择关联强度大的若干个事件添加到查询项的事件项Qe中扩展,扩展后的事件项构成扩展事件项
(5)、向量化查询项的扩展事件项
Figure BSA00000144167600022
限定项Qe′及文本集合M中的每篇文本,计算扩展事件项
Figure BSA00000144167600023
与文本集合M中的一篇文本d的相似度计算限定项Qe′与文本集合M中的一篇文本d的相似度为Sim(Qe′,d),计算得到扩展查询项Qexp与文本集合M中的一篇文本d的相似度为Sim(Qexp,d),检索文本按照查询项Qexp与文本集合M中每篇文本d之间的相似度Sim(Qexp,d)的大小降序排列输出。
上述步骤(1)中所述的获取局部文本集合N,其具体步骤如下:
(1-1)、将输入的查询内容,用ICTCLAS分词工具分词、滤除停用词后,剩下的词构成查询项Q;
(1-2)、计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次mi,按照mi的大小降序排列文本集合M中的文本,选取排序小于或等于n的文本组成局部文本集N。
上述步骤(2)中所述的依据从文本中识别事件的规则,从局部文本集合N中识别得到的所有的事件,由上述所有事件组成的集合称为事件集合E,其具体步骤如下:
(2-1)、将局部文本集合N经ICTCLAS分词工具分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;
(2-2)、从候选事件集合E1中删除表示属性、状态的动词,得到候选事件集E2;
(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述等的动词,得到候选事件集E3;
(2-4)、从候选事件集E3中删除一部分抽象意义高的动词,然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中,最后得到的候选事件集合E,即为所述局部文本集合N的事件集合E。
上述步骤(3)中所述的分别从查询项中区分事件项Qe和限定项Qe′,其具体步骤如下:
(3-1)、依据从文本中识别事件的规则,从查询项中判别得到事件项Qe
(3-2)、对查询内容进行ICTCLAS分词、滤除停用词后,依据《汉语文本词性标注标记集》,从查询项Q中选取所有的人名(\nr)、地名(\ns)、机构团体(\nt)和时间词(\t)得到限定项Qe′
上述步骤(4)中所述的从事件集合E中选取关联强度大的若干个事件添加到查询项的事件项Qe中扩展,扩展后的事件项构成扩展事件项其具体步骤如下:
(4-1)、假设查询项Q的事件项包含m个事件Qe={e1,e2,…em},事件集合E中待扩展中的一个事件记作ex,则ei∈Qe对ex的影响因子的计算公式为:
w ix = Σ d ∈ N F d ( e i , e x ) Σ d ∈ N N d e i
其中,wix是事件ei对事件ex的影响因子;
N是所述的局部文本集合;
d是所述的文本集合N中的任意一篇文本;
Ndei是事件ei在文本d中出现的频次;
Fd(ei,ex)是事件ei出现的文本d,事件ex也同时在其中出现的次数。
如果wix>1,则令wix=1。
(4-2)、事件集合E中待扩展的某个事件ex与事件项Qe={e1,e2,…em}的关联强度计算公式为:
f ( e x , Q e ) = Σ e i ∈ Q e w ix
其中,wix是事件ei对事件ex影响的因子。
根据f的大小,选取k个事件添加到查询项的事件项Qe中扩展,得到扩展后的扩展事件项
上述步骤(5)中所述的计算扩展查询项Qexp与文本集合M中的每一篇文本之间的相似度,检索文本按照相似度的大小降序排列输出,其具体步骤如下:
(5-1)、计算查询项的扩展事件项
Figure BSA00000144167600043
的权值
计算查询项的扩展事件项
Figure BSA00000144167600044
的权值,其计算公式为:
wti=1.0-0.9×i/s
其中,wti是第i个事件项的权重;s是事件项的个数。
(5-2)、计算查询项的限定项Qe′的权值
计算查询项的限定项Qe′的权值,其计算公式为:
W ( x | Q e ′ ) = W ( x | Q ) + Σ d ∈ N W ( x | d ) | N |
其中,x∈Qe′,W(x|Q)是限定项x的初始权重,W(x|Q)的计算是根据x在查询项Q中出现的频次;
W(x|Qe′)是限定项x的最终权重;
W(x|d)为查询项x在文本d中出现的频次;
N是局部文本集合。
(5-3)、计算文本集合M中每篇文本的特征项的权值
文本集合M中每篇文本d的特征项的权值取该特征项在文本d中出现的频次。
(5-4)、根据步骤(5-1)和步骤(5-3),计算查询项的扩展事件项与文本集合M中每篇文本之间的相似度
计算查询项的扩展事件项
Figure BSA00000144167600052
与文本集合M中每篇文本d之间的相似度,其计算公式为:
Sim ( Q e exp , d ) = Σ e i ∈ Q e exp ∩ D e W ( e i | Q e exp ) × W ( e i | d ) Σ i = 1 | Q e exp | W ( e i | Q e exp ) 2 × Σ i = 1 | d | W ( e i | d ) 2 × | Q e exp |
其中,
Figure BSA00000144167600054
表示ei
Figure BSA00000144167600055
和d的共同事件项;
Figure BSA00000144167600056
和|d|分别是向量和d的大小。
(5-5)、根据步骤(5-2)和步骤(5-3),计算查询项的限定项Qe′与文本集合M中每篇文本之间的相似度
计算查询项的限定项Qe′与文本集合M中每篇文本d的相似度,其计算公式为:
Sim ( Q e ′ , d ) = Σ e ′ i ∈ Q e ′ ∩ D e ′ W ( e ′ i | Q e ′ ) × W ( e ′ i | d ) Σ i = 1 | Q e ′ | W ( e ′ i | Q e ′ ) 2 × Σ i = 1 | d | W ( e ′ i | d ) 2 × | Q e ′ |
其中,e′i∈Qe′∩d表示限定项e′i是Qe′和d的共同限定项;
|Qe′|是向量Qe′的大小。
(5-6)、根据步骤(5-4)和步骤(5-5),计算查询项Qexp与文本集合M中每篇文本之间的相似度
计算查询项Qexp与文本集合M中每篇文本d的相似度,其计算公式为:
Sim ( Q exp , d ) = Sim ( Q e exp , d ) + Sim ( Q e ′ , d )
(5-7)、检索文本按照查询项Qexp与文本集合M中每篇文本d之间的相似度Sim(Qexp,d)的大小降序排列输出。
本发明的面向事件的查询扩展方法与现有技术相比较,具有以下效果:该方法由于使用面向事件的查询扩展,区分查询内容中的事件项和限定项,在同样的查询主题上进行信息查询,能显著的提高事件类信息检索结果的准确率。
附图说明
图1是本发明的面向事件的查询扩展方法的流程图;
图2是图1中步骤(5)所述的计算查询项与文本的相似度的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。
参照图1,本发明的一种面向事件的查询扩展方法,该方法包括如下步骤:
(1)、输入查询内容,获取局部文本集合N,其具体如下:
(1-1)、将输入的查询内容,用ICTCLAS分词工具分词、滤除停用词后,剩下的词构成为查询项Q,停用词是一些常见的没有具体意义的词,例如,“的”、“是”、“了”、“哎呀”、“比如”、“并且”等词为停用词。
(1-2)、计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次mi,按照mi的大小降序排列,选取排序小于或等于n的文本组成局部文本集合N。
(2)、依据从文本中识别事件的规则,从局部文本集合N中识别得到所有的事件,由上述所有事件组成的集合称为事件集合E,其具体如下:
(2-1)、将局部文本集合N经ICTCLAS分词工具分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;
(2-2)、从候选事件集合E1中删除表示属性、状态的动词,得到候选事件集E2,例如,“是”、“属于”、“有”等词为表示属性、状态的动词;
(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述等的动词,得到候选事件集E3。例如,如下动词:“认为”、“猜想”、“说”、“觉得”、“相信”、“宣称”、“宣布”、“支持”、“反对”、“提出”、“暗示”、“明示”、“表示”等的词为表示主观感知、猜想、阐述等的动词。
(2-4)、从候选事件集E3中删除一部分抽象意义高的动词,然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中,最后得到的候选事件集合E,即为所述局部文本集合的事件集合E。例如,“发生地震”、“开始吃饭”,短语中的动词“发生”、“开始”的抽象意义较高,不作为事件,而“地震”、“吃饭”作为事件。
(3)、分别从查询项中区分事件项Qe和限定项Qe′,其具体如下:
(3-1)、依据从文本中识别事件的规则,从查询项中判别得到事件项Qe
(3-2)对查询内容进行ICTCLAS分词、滤除停用词后,依据《汉语文本词性标注标记集》,从查询项Q中选取所有的人名(\nr)、地名(\ns)、机构团体(\nt)和时间词(\t)得到限定项Qe′
(4)、根据步骤(2)和步骤(3),计算查询项的事件项Qe与事件集合E中每个事件的关联强度,从事件集合E中选取关联强度大的若干个事件添加到查询项的事件项Qe中扩展,扩展后的事件项构成扩展事件项
Figure BSA00000144167600071
其具体如下:
(4-1)、假设查询项Q中的事件项包含m个事件Qe={e1,e2,…em},事件集合E中待扩展中的一个事件记作ex,则ei∈Qe对ex的影响因子的计算公式为:
w ix = Σ d ∈ N F d ( e i , e x ) Σ d ∈ N N d e i
其中,wix是事件ei对事件ex的影响因子;
N是所述的局部文本集合;
d是所述的局部文本集合N中的任意一篇文本;
Ndei是事件ei在文本d中出现的频次;
Fd(ei,ex)是事件ei出现的文本d,事件ex也同时在其中出现的次数。
如果wix>1,则令wix=1。
(4-2)、事件集合E中待扩展的某个事件ex与事件项Qe={e1,e2,…em}的关联强度计算公式为:
f ( e x , Q e ) = Σ e i ∈ Q e w ix
其中,wix是事件ei对事件ex影响的因子。
根据f的大小,选取k个事件添加到查询项的事件项Qe中扩展,得到扩展后的扩展事件项
(5)、计算扩展查询项Qexp与文本集合M中的每一篇文本之间的相似度,检索文本按照相似度的大小降序排列输出,参照图2,其具体步骤如下:
(5-1)、计算查询项的扩展事件项
Figure BSA00000144167600081
的权值
计算查询项的扩展事件项
Figure BSA00000144167600082
的权值,其计算公式为:
wti=1.0-0.9×i/s
其中,wti是第i个事件项的权重;s是事件项的个数。
(5-2)计算查询项的限定项Qe′的权值
计算查询项的限定项Qe′的权值,其计算公式为:
W ( x | Q e ′ ) = W ( x | Q ) + Σ d ∈ N W ( x | d ) | N |
其中,x∈Qe′,W(x|Q)是限定项x的初始权重,W(x|Q)的计算是根据x在查询项Q中出现的频次;
W(x|Qe′)是限定项x的最终权重;
W(x|d)为查询项x在文本d中出现的频次;
N是局部文本集合。
(5-3)计算文本集合M中每篇文本的特征项的权值
文本集合M中每篇文本d的特征项的权值取该特征项在文本d中出现的频次。
(5-4)根据步骤(5-1)和步骤(5-3),计算查询项的扩展事件项
Figure BSA00000144167600084
与文本集合M中每篇文本之间的相似度
计算查询项的扩展事件项与文本集合M中每篇文本d之间的相似度,其计算公式为:
Sim ( Q e exp , d ) = Σ e i ∈ Q e exp ∩ D e W ( e i | Q e exp ) × W ( e i | d ) Σ i = 1 | Q e exp | W ( e i | Q e exp ) 2 × Σ i = 1 | d | W ( e i | d ) 2 × | Q e exp |
其中,
Figure BSA00000144167600087
表示ei
Figure BSA00000144167600088
和d的共同事件项;
Figure BSA00000144167600089
和|d|分别是向量
Figure BSA000001441676000810
和d的大小。
(5-5)根据步骤(5-2)和步骤(5-3),计算查询项的限定项Qe′与文本集合M中每篇文本之间的相似度
计算查询项的限定项Qe′与文本集合M中每篇文本d的相似度,其计算公式为:
Sim ( Q e ′ , d ) = Σ e ′ i ∈ Q e ′ ∩ D e ′ W ( e ′ i | Q e ′ ) × W ( e ′ i | d ) Σ i = 1 | Q e ′ | W ( e ′ i | Q e ′ ) 2 × Σ i = 1 | d | W ( e ′ i | d ) 2 × | Q e ′ |
其中,e′i∈Qe′∩d表示限定项e′i是Qe′和d的共同限定项;|Qe′|是向量Qe′的大小。
(5-6)根据步骤(5-4)和步骤(5-3),计算查询项Qexp与文本集合M中每篇文本之间的相似度
计算查询项Qexp与文本集合M中每篇文本d之间的相似度,其计算公式为:
Sim ( Q exp , d ) = Sim ( Q e exp , d ) + Sim ( Q e ′ , d )
(5-7)、检索文本按照查询项Qexp与文本集合M中每篇文本d之间的相似度Sim(Qexp,d)的大小降序排列输出。
本发明的一种面向事件的查询扩展方法(简记作EO)与伪相关反馈(简记作PRF)和局部上下文分析扩展方法(简记作LCA)在同样的查询主题上进行信息查询,分别对三种方法的查询准确率进行实验比较。
实验语料围绕突发事件领域收集,重点是“地震”、“火灾”、“食物中毒”、“交通事故”和“恐怖袭击”5大类别,借助Google搜索引擎,输入一些查询关键字,收集1639篇文本;使用爬虫工具,从指定的一些站点上下载2435篇文本。然后对所有的文本按照标题进行排重,最后剩下4011篇文本作为本文实验的语料。
查询主题的设置采用与用户使用搜索引擎最为一致的方式:输入若干个关键字。人工设置了10个查询主题,对于每个查询主题,使用P@10和P@20作为评价指标。P@n指标模拟常用搜索引擎返回的结果,是一个拟人化的指标,目前的搜索评测中用的较多。P@n指标只关心检索到的结果与查询主题是否相关,不考虑返回的文本与查询主题相关性的次序,评测起来容易实现。
使用Pooling技术确定每个查询主题的标准答案。对于P@n,一个主题的标准答案的确定,具体步骤是:(1)取4种方法返回的前n篇文本合并得到一个集合S;(2)人工从这个文本集合S中选取相关的文档作为一个主题的标准答案。
表1列出了使用的10个查询主题。
              表1:10个查询主题
Figure BSA00000144167600101
例如,对于查询主题“汶川重建”,使用3种扩展方法得到的前十个扩展项如表2所示。
          表2:3种扩展方法获取的前10个扩展项
                                                               
扩展方法                     扩展项
                                                               
EO        恢复 地震 支援 建设 施工 援建 审计 受灾 规划 完成
PRF       地震 灾区 资金 规划 工作 恢复 四川 灾害 情况 问题
LCA       地震 规划 恢复 工作 灾区 资金 建设 四川 项目 灾害
                                                               
从表2可见,不同的扩展方法得到的扩展项有较大的不同。EO和PRF有70%是不同的,EO与LCA有60%是不同的。而且,3种方法得到的查询项的排序都有些不同,即使是得到相同的查询项,但不同的排序影响了查询项的权值,对计算查询项与文本集合M中每篇文本的相似度也会有较大的影响。
对3种查询扩展方法EO、PRF和LCA的扩展词的个数从0-40之间进行实验。3种方法取10个查询主题的平均结果的最优值进行了对比。表3列出了对比结果。
        表3:不同的扩展方法获得的最优的检索性能的比较
Figure BSA00000144167600102
从表3可见,3种不同的查询扩展方法,EO的检索性能好于PRF和LCA,其中EO的检索性能是最好的,PRF的检索性能是最差的。对评价指标P@10和P@20,EO比PRF分别提高了0.19和0.13。主要原因:一方面PRF和LCA没有区分查询项的不同类型,分别处理;另一方面PRF和LCA没有采用面向事件的联想扩展策略。另外,实验结果还表明,对于事件类信息的查询主题,查询扩展的个数在较少的情况下已经可以取得很好的查询结果,对于PRF和LCA方法扩展项的个数建议为10到16,而对于EO扩展方法扩展事件的个数为6个左右。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。

Claims (6)

1.一种面向事件的查询扩展方法,其具体步骤如下:
(1)、输入查询内容,对查询内容进行分词、滤除停用词后得到查询项Q,计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次mi,按照mi的大小降序排列文本集合M中的文本,选取前面的排序小于或等于n的文本组成局部文本集合N;
(2)、依据从文本中识别事件的规则,从局部文本集合N中识别得到所有的事件,由上述所有事件组成的集合称为事件集合E;
(3)、分别从查询项中区分事件项Qe和限定项Qe′
(4)、根据步骤(2)和步骤(3),计算查询项的事件项Qe与事件集合E中每个事件的关联强度,从事件集合E中选择关联强度大的若干个事件添加到查询项的事件项Qe中扩展,扩展后的事件项构成扩展事件项
Figure FSA00000144167500011
(5)、向量化查询项的扩展事件项
Figure FSA00000144167500012
限定项Qe′及文本集合M中的每篇文本,计算扩展事件项与文本集合M中的一篇文本d的相似度计算限定项Qe′与文本集合M中的一篇文本d的相似度为Sim(Qe′,d),计算得到扩展查询项Qexp与文本集合M中的一篇文本d的相似度为Sim(Qexp,d),检索文本按照查询项Qexp与文本集合M中每篇文本d之间的相似度Sim(Qexp,d)的大小降序排列输出。
2.根据权利要求1所述的一种面向事件的查询扩展方法,其特征在于,上述步骤(1)中所述的获取局部文本集合N,其具体步骤如下:
(1-1)、将输入的查询内容,用ICTCLAS分词工具分词、滤除停用词后,剩下的词构成查询项Q;
(1-2)、计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次mi,按照mi的大小降序排列文本集合M中的文本,选取排序小于或等于n的文本组成局部文本集N。
3.根据权利要求2所述的一种面向事件的查询扩展方法,其特征在于,上述步骤(2)中依据从文本中识别事件的规则,从局部文本集合N中识别得到的所有的事件,由上述所有事件组成的集合称为事件集合E,其具体步骤如下:
(2-1)、将局部文本集合N经ICTCLAS分词工具分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1;
(2-2)、从候选事件集合E1中删除表示属性、状态的动词,得到候选事件集E2;
(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述等的动词,得到候选事件集E3;
(2-4)、从候选事件集E3中删除一部分抽象意义高的动词,然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中,最后得到的候选事件集合E,即为所述局部文本集合N的事件集合E。
4.根据权利要求3所述的一种面向事件的查询扩展方法,其特征在于,上述步骤(3)中分别从查询项中区分事件项Qe和限定项Qe′,其具体步骤如下:
(3-1)、依据从文本中识别事件的规则,从查询项中判别得到事件项Qe
(3-2)、对查询内容进行ICTCLAS分词、滤除停用词后,依据《汉语文本词性标注标记集》,从查询项Q中选取所有的人名(\nr)、地名(\ns)、机构团体(\nt)和时间词(\t)得到限定项Qe′
5.根据权利要求4所述的一种面向事件的查询扩展方法,其特征在于,上述步骤(4)中所述的从事件集合E中选取关联强度大的若干个事件添加到查询项的事件项Qe中扩展,扩展后的事件项构成扩展事件项
Figure FSA00000144167500021
其具体步骤如下:
(4-1)、假设查询项Q的事件项包含m个事件Qe={e1,e2,…em},事件集合E中待扩展中的一个事件记作ex,则ei∈Qe对ex的影响因子的计算公式为:
w ix = Σ d ∈ N F d ( e i , e x ) Σ d ∈ N N d e i
其中,wix是事件ei对事件ex的影响因子;
N是所述的局部文本集合;
d是所述的文本集合N中的任意一篇文本;
Ndei是事件ei在文本d中出现的频次;
Fd(ei,ex)是事件ei出现的文本d,事件ex也同时在其中出现的次数。
如果wix>1,则令wix=1。
(4-2)、事件集合E中待扩展的某个事件ex与事件项Qe={e1,e2,…em}的关联强度计算公式为:
f ( e x , Q e ) = Σ e i ∈ Q e w ix
其中,wix是事件ei对事件ex影响的因子。
根据f的大小,选取k个事件添加到查询项的事件项Qe中扩展,得到扩展后的扩展事件项
6.根据权利要求5所述的一种面向事件的查询扩展方法,其特征在于,上述步骤(5)中所述的计算扩展查询项Qexp与集合M中的每一篇文本之间的相似度,检索文本按照相似度的大小降序排列输出,其具体步骤如下:
(5-1)、计算查询项的扩展事件项
Figure FSA00000144167500033
的权值
计算查询项的扩展事件项
Figure FSA00000144167500034
的权值,其计算公式为:
wti=1.0-0.9×i/s
其中,wti是第i个事件项的权重;s是事件项的个数。
(5-2)、计算查询项的限定项Qe′的权值
计算查询项的限定项Qe′的权值,其计算公式为:
W ( x | Q e ′ ) = W ( x | Q ) + Σ d ∈ N W ( x | d ) | N |
其中,x∈Qe′,W(x|Q)是限定项x的初始权重,W(x|Q)的计算是根据x在查询项Q中出现的频次;
W(x|Qe′)是限定项x的最终权重;
W(x|d)为查询项x在文本d中出现的频次;
N是局部文本集合。
(5-3)、计算文本集合M中每篇文本的特征项的权值
文本集合M中每篇文本d的特征项的权值取该特征项在文本d中出现的频次。
(5-4)、根据步骤(5-1)和步骤(5-3),计算查询项的扩展事件项
Figure FSA00000144167500036
与文本集合M中每篇文本之间的相似度
计算查询项的扩展事件项与文本集合M中每篇文本d之间的相似度,其计算公式为:
Sim ( Q e exp , d ) = Σ e i ∈ Q e exp ∩ D e W ( e i | Q e exp ) × W ( e i | d ) Σ i = 1 | Q e exp | W ( e i | Q e exp ) 2 × Σ i = 1 | d | W ( e i | d ) 2 × | Q e exp |
其中,
Figure FSA00000144167500043
表示ei
Figure FSA00000144167500044
和d的共同事件项;
Figure FSA00000144167500045
和|d|分别是向量
Figure FSA00000144167500046
和d的大小。
(5-5)、根据步骤(5-2)和步骤(5-3),计算查询项的限定项Qe′与文本集合M中每篇文本之间的相似度
计算查询项的限定项Qe′与集合M中每篇文本d的相似度,其计算公式为:
Sim ( Q e ′ , d ) = Σ e ′ i ∈ Q e ′ ∩ D e ′ W ( e ′ i | Q e ′ ) × W ( e ′ i | d ) Σ i = 1 | Q e ′ | W ( e ′ i | Q e ′ ) 2 × Σ i = 1 | d | W ( e ′ i | d ) 2 × | Q e ′ |
其中,e′i∈Qe′∩d表示限定项e′i是Qe′和d的共同限定项;
|Qe′|是向量Qe′的大小。
(5-6)、根据步骤(5-4)和步骤(5-5),计算查询项Qexp与文本集合M中每篇文本之间的相似度
计算查询项Qexp与文本集合M中每篇文本d的相似度,其计算公式为:
Sim ( Q exp , d ) = Sim ( Q e exp , d ) + Sim ( Q e ′ , d )
(5-7)、检索文本按照查询项Qexp与文本集合M中每篇文本d之间的相似度Sim(Qexp,d)的大小降序排列输出。
CN2010101861974A 2010-05-26 2010-05-26 一种面向事件的查询扩展方法 Expired - Fee Related CN101853298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101861974A CN101853298B (zh) 2010-05-26 2010-05-26 一种面向事件的查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101861974A CN101853298B (zh) 2010-05-26 2010-05-26 一种面向事件的查询扩展方法

Publications (2)

Publication Number Publication Date
CN101853298A true CN101853298A (zh) 2010-10-06
CN101853298B CN101853298B (zh) 2012-08-15

Family

ID=42804790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101861974A Expired - Fee Related CN101853298B (zh) 2010-05-26 2010-05-26 一种面向事件的查询扩展方法

Country Status (1)

Country Link
CN (1) CN101853298B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119339A1 (zh) * 2011-03-04 2012-09-13 中兴通讯股份有限公司 搜索方法及装置
CN104572906A (zh) * 2014-12-26 2015-04-29 华为软件技术有限公司 一种事件特征的获取方法和设备
WO2015165230A1 (zh) * 2014-04-28 2015-11-05 华为技术有限公司 一种社交消息的监测方法及装置
CN108717451A (zh) * 2018-05-18 2018-10-30 中国地震台网中心 获取地震信息的方法、装置及系统
CN110309168A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种裁判文书搜索方法及装置
CN110737821A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
US11934468B2 (en) 2021-09-16 2024-03-19 Microsoft Tech nology Licensing, LLC Content distribution control

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119339A1 (zh) * 2011-03-04 2012-09-13 中兴通讯股份有限公司 搜索方法及装置
WO2015165230A1 (zh) * 2014-04-28 2015-11-05 华为技术有限公司 一种社交消息的监测方法及装置
US10250550B2 (en) 2014-04-28 2019-04-02 Huawei Technologies Co., Ltd. Social message monitoring method and apparatus
CN104572906A (zh) * 2014-12-26 2015-04-29 华为软件技术有限公司 一种事件特征的获取方法和设备
CN104572906B (zh) * 2014-12-26 2018-05-18 华为软件技术有限公司 一种事件特征的获取方法和设备
CN110309168A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种裁判文书搜索方法及装置
CN108717451A (zh) * 2018-05-18 2018-10-30 中国地震台网中心 获取地震信息的方法、装置及系统
CN110737821A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
CN110737821B (zh) * 2018-07-03 2022-06-07 百度在线网络技术(北京)有限公司 相似事件查询的方法、装置、存储介质和终端设备
US11934468B2 (en) 2021-09-16 2024-03-19 Microsoft Tech nology Licensing, LLC Content distribution control

Also Published As

Publication number Publication date
CN101853298B (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Torres-Moreno Automatic text summarization
CN105824959B (zh) 舆情监控方法及系统
CN101853298B (zh) 一种面向事件的查询扩展方法
CN110362817A (zh) 一种面向产品属性的观点倾向性分析方法及系统
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN109960756B (zh) 新闻事件信息归纳方法
Shimada et al. Analyzing tourism information on twitter for a local city
CN106598944A (zh) 一种民航安保舆情情感分析方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
JPH10134075A (ja) 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
CN102955772B (zh) 一种基于语义的相似度计算方法和装置
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
CN102411621A (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN103123633A (zh) 评价参数的生成方法以及基于评价参数的信息搜索方法
CN104484380A (zh) 个性化搜索方法及装置
CN105787662A (zh) 基于属性的移动应用软件性能预测方法
CN107818081A (zh) 基于深度语义模型与语义角色标注的句子相似度评估方法
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN112818661A (zh) 一种专利技术关键词非监督提取方法
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
Hung et al. Applying word sense disambiguation to question answering system for e-learning
Srivastav et al. Text similarity algorithms to determine Indian penal code sections for offence report

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120815

Termination date: 20150526

EXPY Termination of patent right or utility model