CN101853298A

CN101853298A - 一种面向事件的查询扩展方法

Info

Publication number: CN101853298A
Application number: CN 201010186197
Authority: CN
Inventors: 仲兆满; 刘宗田; 周文
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2010-05-26
Filing date: 2010-05-26
Publication date: 2010-10-06
Anticipated expiration: 2030-05-26
Also published as: CN101853298B

Abstract

本发明公开了一种面向事件的查询扩展方法，其步骤如下：(1)输入查询内容，获取局部文本集合N；(2)从集合N中识别得到事件集合E；(3)分别从查询项中区分事件项Q_e和限定项Q_e′；(4)计算查询项的事件项Q_e与集合E中每个事件的关联强度，从集合E中选择关联强度大的若干个事件添加到Q_e中扩展，得到扩展的事件项(5)计算扩展事件项与集合M中的一篇文本d的相似度，计算限定项Q_e′与集合M中的一篇文本d的相似度为Sim(Q_e′，d)，计算得到Q^exp与集合M中的一篇文本d的相似度为Sim(Q^exp，d)，依据相似度Sim(Q^exp，d)的大小降序排列输出检索文本。该方法使用面向事件的查询扩展技术，区分查询内容中的事件项和限定项，在同样的查询主题上进行信息查询，能显著的提高事件类信息查询结果的准确率。

Description

一种面向事件的查询扩展方法

技术领域

本发明属于语言文字信息处理领域，具体地说是涉及一种面向事件的查询扩展方法。

背景技术

在信息检索领域，查询扩展指在原查询词的基础上加入相关的词，从而组成新的、更准确的查询词集，这在一定程度上能够弥补用户查询信息不足的缺陷，也有助于改善检索的查全率和查准率。查询扩展方法大致分为两类：基于语义知识辞典的查询扩展方法和基于语料库的查询扩展方法。基于语义知识辞典的查询扩展方法是：在进行查询扩展时通过已有的语义知识辞典来进行扩展词的选取。基于语料库的查询扩展方法又可细分为两种：全局分析方法和局部分析方法。最常用的局部分析技术是伪相关反馈PRF(Pseudo Relevance Feedback)：假设初始检索结果的前面若干篇文档是相关的，然后利用相关反馈过程进行查询扩展，例如，参考文献的题目为：New retrieval approaches using SMART(该文作者是：C.Buckley，A.Singhal，M.Mitra，and G.Slaton，发表于1995年出版的期刊：Proceedings of the 4th TextRetrieval Conference)，该文公开了使用词在文本集中出现的频次作为查询扩展的对象，但是，没有考虑文本中的词与查询项之间的关联信息，会导致查询扩展效果不稳定。在2000年美国出版的期刊《ACM Transactions on information systems》中，题目为：Improving theeffectiveness of informational retrieval with local context analysis(该文作者是：J.Xu，B.W.Croft)，该文提出了一种基于局部上下文分析LCA(Local Context Analysis)的查询扩展方法，此方法依据文本集中词与整个查询项的共现信息进行扩展，与伪相关反馈PRF相比取得了更好的查询效果，但没有考虑到面向事件的信息检索的特点，并不适用于事件类信息检索。然而，随着各类突发事件的频繁发生，获取网络上事件类的信息已经变得非常迫切。在很多情况下，用户借助搜索引擎获取事件类信息，但是，已有的信息查询方法没有分析查询内容中不同的查询项的作用，没能使用面向事件的查询扩展技术，因此，对一些事件类信息的检索结果的准确率不高，不能满足实际应用的需求。

事件类信息的查询和其他信息的查询有许多不同之处，主要表现在：

(1)、事件是由事件触发词标识，关联了参与者、时间和地点等要素的概念。事件的各个要素在查询内容中作用是不同的。比如，输入：“汶川地震”、“孟买恐怖袭击”、“中国SARS”等查询内容。这些查询内容中的“地震”、“恐怖袭击”、“SARS”是事件触发词，其标识所要查询的事件类型称为事件项。“汶川”、“孟买”、“中国”是事件的其它要素，其限定查询事件的范围称为事件的限定项。由于事件项和限定项在查询内容中的作用不同，所以采取不同的处理策略。

(2)事件之间有着紧密的联系，一个话题总是关联了一些特定的事件。提及话题“地震”，人们自然的就联想到“死亡”、“救援”、“重建”等事件；看到话题“竞选”，“演讲”、“辩论”、“投票”等事件自然浮现到脑海中，而不需要关心具体的事件要素。据此，可以进行事件到事件之间的联想扩展。

发明内容

鉴于以上所述现有技术存在的问题和不足，本发明要解决的技术问题是提供一种面向事件的查询扩展方法，该方法通过分析查询内容中不同的查询项的作用，能提高事件类信息查询的准确率。

为了解决上述问题，本发明采用下述技术方案：

一种面向事件的查询扩展方法，其具体步骤如下：

(1)、输入查询内容，对查询内容进行分词、滤除停用词后得到查询项Q，计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次m_i，按照m_i的大小降序排列文本集合M中的文本，选取前面的排序小于或等于n的文本组成局部文本集合N；

(2)、依据从文本中识别事件的规则，从局部文本集合N中识别得到所有的事件，由上述所有事件组成的集合称为事件集合E；

(3)、分别从查询项中区分事件项Q_e和限定项Q_e′；

(4)、根据步骤(2)和步骤(3)，计算查询项的事件项Q_e与事件集合E中每个事件的关联强度，从事件集合E中选择关联强度大的若干个事件添加到查询项的事件项Q_e中扩展，扩展后的事件项构成扩展事件项

(5)、向量化查询项的扩展事件项

限定项Q_e′及文本集合M中的每篇文本，计算扩展事件项

与文本集合M中的一篇文本d的相似度计算限定项Q_e′与文本集合M中的一篇文本d的相似度为Sim(Q_e′，d)，计算得到扩展查询项Q^exp与文本集合M中的一篇文本d的相似度为Sim(Q^exp，d)，检索文本按照查询项Q^exp与文本集合M中每篇文本d之间的相似度Sim(Q^exp，d)的大小降序排列输出。

上述步骤(1)中所述的获取局部文本集合N，其具体步骤如下：

(1-1)、将输入的查询内容，用ICTCLAS分词工具分词、滤除停用词后，剩下的词构成查询项Q；

(1-2)、计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次m_i，按照m_i的大小降序排列文本集合M中的文本，选取排序小于或等于n的文本组成局部文本集N。

上述步骤(2)中所述的依据从文本中识别事件的规则，从局部文本集合N中识别得到的所有的事件，由上述所有事件组成的集合称为事件集合E，其具体步骤如下：

(2-1)、将局部文本集合N经ICTCLAS分词工具分词后，依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1；

(2-2)、从候选事件集合E1中删除表示属性、状态的动词，得到候选事件集E2；

(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述等的动词，得到候选事件集E3；

(2-4)、从候选事件集E3中删除一部分抽象意义高的动词，然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中，最后得到的候选事件集合E，即为所述局部文本集合N的事件集合E。

上述步骤(3)中所述的分别从查询项中区分事件项Q_e和限定项Q_e′，其具体步骤如下：

(3-1)、依据从文本中识别事件的规则，从查询项中判别得到事件项Q_e；

(3-2)、对查询内容进行ICTCLAS分词、滤除停用词后，依据《汉语文本词性标注标记集》，从查询项Q中选取所有的人名(\nr)、地名(\ns)、机构团体(\nt)和时间词(\t)得到限定项Q_e′。

上述步骤(4)中所述的从事件集合E中选取关联强度大的若干个事件添加到查询项的事件项Q_e中扩展，扩展后的事件项构成扩展事件项其具体步骤如下：

(4-1)、假设查询项Q的事件项包含m个事件Q_e＝{e₁，e₂，…e_m}，事件集合E中待扩展中的一个事件记作e_x，则e_i∈Q_e对e_x的影响因子的计算公式为：

w_{ix} = \frac{\underset{d &Element; N}{Σ} F_{d} (e_{i}, e_{x})}{\underset{d &Element; N}{Σ} N_{d} e_{i}}

其中，w_ix是事件e_i对事件e_x的影响因子；

N是所述的局部文本集合；

d是所述的文本集合N中的任意一篇文本；

N_de_i是事件e_i在文本d中出现的频次；

F_d(e_i，e_x)是事件e_i出现的文本d，事件e_x也同时在其中出现的次数。

如果w_ix＞1，则令w_ix＝1。

(4-2)、事件集合E中待扩展的某个事件e_x与事件项Q_e＝{e₁，e₂，…e_m}的关联强度计算公式为：

f (e_{x}, Q_{e}) = \underset{e_{i} &Element; Q_{e}}{Σ} w_{ix}

其中，w_ix是事件e_i对事件e_x影响的因子。

根据f的大小，选取k个事件添加到查询项的事件项Q_e中扩展，得到扩展后的扩展事件项

上述步骤(5)中所述的计算扩展查询项Q^exp与文本集合M中的每一篇文本之间的相似度，检索文本按照相似度的大小降序排列输出，其具体步骤如下：

(5-1)、计算查询项的扩展事件项

的权值

计算查询项的扩展事件项

的权值，其计算公式为：

wt_i＝1.0-0.9×i/s

其中，wt_i是第i个事件项的权重；s是事件项的个数。

(5-2)、计算查询项的限定项Q_e′的权值

计算查询项的限定项Q_e′的权值，其计算公式为：

W (x | Q_{e^{'}}) = W (x | Q) + \frac{\underset{d &Element; N}{Σ} W (x | d)}{| N |}

其中，x∈Q_e′，W(x|Q)是限定项x的初始权重，W(x|Q)的计算是根据x在查询项Q中出现的频次；

W(x|Q_e′)是限定项x的最终权重；

W(x|d)为查询项x在文本d中出现的频次；

N是局部文本集合。

(5-3)、计算文本集合M中每篇文本的特征项的权值

文本集合M中每篇文本d的特征项的权值取该特征项在文本d中出现的频次。

(5-4)、根据步骤(5-1)和步骤(5-3)，计算查询项的扩展事件项与文本集合M中每篇文本之间的相似度

计算查询项的扩展事件项

与文本集合M中每篇文本d之间的相似度，其计算公式为：

Sim (Q_{e}^{\exp}, d) = \frac{\underset{e_{i} &Element; Q_{e}^{\exp} \cap D_{e}}{Σ} W (e_{i} | Q_{e}^{\exp}) \times W (e_{i} | d)}{\sqrt{Σ_{i = 1}^{| Q_{e}^{\exp} |} W {(e_{i} | Q_{e}^{\exp})}^{2} \times Σ_{i = 1}^{| d |} W {(e_{i} | d)}^{2}} \times | Q_{e}^{\exp} |}

其中，

表示e_i是

和d的共同事件项；

和|d|分别是向量和d的大小。

(5-5)、根据步骤(5-2)和步骤(5-3)，计算查询项的限定项Q_e′与文本集合M中每篇文本之间的相似度

计算查询项的限定项Q_e′与文本集合M中每篇文本d的相似度，其计算公式为：

Sim (Q_{e^{'}}, d) = \frac{\underset{{e^{'}}_{i} &Element; Q_{e^{'}} \cap D_{e^{'}}}{Σ} W ({e^{'}}_{i} | Q_{e^{'}}) \times W ({e^{'}}_{i} | d)}{\sqrt{Σ_{i = 1}^{| Q_{e^{'}} |} W {({e^{'}}_{i} | Q_{e^{'}})}^{2} \times Σ_{i = 1}^{| d |} W {({e^{'}}_{i} | d)}^{2}} \times | Q_{e^{'}} |}

其中，e′_i∈Q_e′∩d表示限定项e′_i是Q_e′和d的共同限定项；

|Q_e′|是向量Q_e′的大小。

(5-6)、根据步骤(5-4)和步骤(5-5)，计算查询项Q^exp与文本集合M中每篇文本之间的相似度

计算查询项Q^exp与文本集合M中每篇文本d的相似度，其计算公式为：

Sim (Q^{\exp}, d) = Sim (Q_{e}^{\exp}, d) + Sim (Q_{e^{'}}, d)

(5-7)、检索文本按照查询项Q^exp与文本集合M中每篇文本d之间的相似度Sim(Q^exp，d)的大小降序排列输出。

本发明的面向事件的查询扩展方法与现有技术相比较，具有以下效果：该方法由于使用面向事件的查询扩展，区分查询内容中的事件项和限定项，在同样的查询主题上进行信息查询，能显著的提高事件类信息检索结果的准确率。

附图说明

图1是本发明的面向事件的查询扩展方法的流程图；

图2是图1中步骤(5)所述的计算查询项与文本的相似度的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。

参照图1，本发明的一种面向事件的查询扩展方法，该方法包括如下步骤：

(1)、输入查询内容，获取局部文本集合N，其具体如下：

(1-1)、将输入的查询内容，用ICTCLAS分词工具分词、滤除停用词后，剩下的词构成为查询项Q，停用词是一些常见的没有具体意义的词，例如，“的”、“是”、“了”、“哎呀”、“比如”、“并且”等词为停用词。

(1-2)、计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次m_i，按照m_i的大小降序排列，选取排序小于或等于n的文本组成局部文本集合N。

(2)、依据从文本中识别事件的规则，从局部文本集合N中识别得到所有的事件，由上述所有事件组成的集合称为事件集合E，其具体如下：

(2-2)、从候选事件集合E1中删除表示属性、状态的动词，得到候选事件集E2，例如，“是”、“属于”、“有”等词为表示属性、状态的动词；

(2-3)、从候选事件集E2中删除表示主观感知、猜想、阐述等的动词，得到候选事件集E3。例如，如下动词：“认为”、“猜想”、“说”、“觉得”、“相信”、“宣称”、“宣布”、“支持”、“反对”、“提出”、“暗示”、“明示”、“表示”等的词为表示主观感知、猜想、阐述等的动词。

(2-4)、从候选事件集E3中删除一部分抽象意义高的动词，然后再将与其一起出现的名词(n)添加到原来的候选事件集E3中，最后得到的候选事件集合E，即为所述局部文本集合的事件集合E。例如，“发生地震”、“开始吃饭”，短语中的动词“发生”、“开始”的抽象意义较高，不作为事件，而“地震”、“吃饭”作为事件。

(3)、分别从查询项中区分事件项Q_e和限定项Q_e′，其具体如下：

(3-2)对查询内容进行ICTCLAS分词、滤除停用词后，依据《汉语文本词性标注标记集》，从查询项Q中选取所有的人名(\nr)、地名(\ns)、机构团体(\nt)和时间词(\t)得到限定项Q_e′。

(4)、根据步骤(2)和步骤(3)，计算查询项的事件项Q_e与事件集合E中每个事件的关联强度，从事件集合E中选取关联强度大的若干个事件添加到查询项的事件项Q_e中扩展，扩展后的事件项构成扩展事件项

其具体如下：

(4-1)、假设查询项Q中的事件项包含m个事件Q_e＝{e₁，e₂，…e_m}，事件集合E中待扩展中的一个事件记作e_x，则e_i∈Q_e对e_x的影响因子的计算公式为：

w_{ix} = \frac{\underset{d &Element; N}{Σ} F_{d} (e_{i}, e_{x})}{\underset{d &Element; N}{Σ} N_{d} e_{i}}

其中，w_ix是事件e_i对事件e_x的影响因子；

N是所述的局部文本集合；

d是所述的局部文本集合N中的任意一篇文本；

N_de_i是事件e_i在文本d中出现的频次；

如果w_ix＞1，则令w_ix＝1。

f (e_{x}, Q_{e}) = \underset{e_{i} &Element; Q_{e}}{Σ} w_{ix}

其中，w_ix是事件e_i对事件e_x影响的因子。

(5)、计算扩展查询项Q^exp与文本集合M中的每一篇文本之间的相似度，检索文本按照相似度的大小降序排列输出，参照图2，其具体步骤如下：

(5-1)、计算查询项的扩展事件项

的权值

计算查询项的扩展事件项

的权值，其计算公式为：

wt_i＝1.0-0.9×i/s

其中，wt_i是第i个事件项的权重；s是事件项的个数。

(5-2)计算查询项的限定项Q_e′的权值

计算查询项的限定项Q_e′的权值，其计算公式为：

W (x | Q_{e^{'}}) = W (x | Q) + \frac{\underset{d &Element; N}{Σ} W (x | d)}{| N |}

W(x|Q_e′)是限定项x的最终权重；

W(x|d)为查询项x在文本d中出现的频次；

N是局部文本集合。

(5-3)计算文本集合M中每篇文本的特征项的权值

(5-4)根据步骤(5-1)和步骤(5-3)，计算查询项的扩展事件项

与文本集合M中每篇文本之间的相似度

计算查询项的扩展事件项与文本集合M中每篇文本d之间的相似度，其计算公式为：

Sim (Q_{e}^{\exp}, d) = \frac{\underset{e_{i} &Element; Q_{e}^{\exp} \cap D_{e}}{Σ} W (e_{i} | Q_{e}^{\exp}) \times W (e_{i} | d)}{\sqrt{Σ_{i = 1}^{| Q_{e}^{\exp} |} W {(e_{i} | Q_{e}^{\exp})}^{2} \times Σ_{i = 1}^{| d |} W {(e_{i} | d)}^{2}} \times | Q_{e}^{\exp} |}

其中，

表示e_i是

和d的共同事件项；

和|d|分别是向量

和d的大小。

(5-5)根据步骤(5-2)和步骤(5-3)，计算查询项的限定项Q_e′与文本集合M中每篇文本之间的相似度

Sim (Q_{e^{'}}, d) = \frac{\underset{{e^{'}}_{i} &Element; Q_{e^{'}} \cap D_{e^{'}}}{Σ} W ({e^{'}}_{i} | Q_{e^{'}}) \times W ({e^{'}}_{i} | d)}{\sqrt{Σ_{i = 1}^{| Q_{e^{'}} |} W {({e^{'}}_{i} | Q_{e^{'}})}^{2} \times Σ_{i = 1}^{| d |} W {({e^{'}}_{i} | d)}^{2}} \times | Q_{e^{'}} |}

其中，e′_i∈Q_e′∩d表示限定项e′_i是Q_e′和d的共同限定项；|Q_e′|是向量Q_e′的大小。

(5-6)根据步骤(5-4)和步骤(5-3)，计算查询项Q^exp与文本集合M中每篇文本之间的相似度

计算查询项Q^exp与文本集合M中每篇文本d之间的相似度，其计算公式为：

Sim (Q^{\exp}, d) = Sim (Q_{e}^{\exp}, d) + Sim (Q_{e^{'}}, d)

本发明的一种面向事件的查询扩展方法(简记作EO)与伪相关反馈(简记作PRF)和局部上下文分析扩展方法(简记作LCA)在同样的查询主题上进行信息查询，分别对三种方法的查询准确率进行实验比较。

实验语料围绕突发事件领域收集，重点是“地震”、“火灾”、“食物中毒”、“交通事故”和“恐怖袭击”5大类别，借助Google搜索引擎，输入一些查询关键字，收集1639篇文本；使用爬虫工具，从指定的一些站点上下载2435篇文本。然后对所有的文本按照标题进行排重，最后剩下4011篇文本作为本文实验的语料。

查询主题的设置采用与用户使用搜索引擎最为一致的方式：输入若干个关键字。人工设置了10个查询主题，对于每个查询主题，使用P@10和P@20作为评价指标。P@n指标模拟常用搜索引擎返回的结果，是一个拟人化的指标，目前的搜索评测中用的较多。P@n指标只关心检索到的结果与查询主题是否相关，不考虑返回的文本与查询主题相关性的次序，评测起来容易实现。

使用Pooling技术确定每个查询主题的标准答案。对于P@n，一个主题的标准答案的确定，具体步骤是：(1)取4种方法返回的前n篇文本合并得到一个集合S；(2)人工从这个文本集合S中选取相关的文档作为一个主题的标准答案。

表1列出了使用的10个查询主题。

表1：10个查询主题

例如，对于查询主题“汶川重建”，使用3种扩展方法得到的前十个扩展项如表2所示。

表2：3种扩展方法获取的前10个扩展项

扩展方法扩展项

EO 恢复地震支援建设施工援建审计受灾规划完成

PRF 地震灾区资金规划工作恢复四川灾害情况问题

LCA 地震规划恢复工作灾区资金建设四川项目灾害

从表2可见，不同的扩展方法得到的扩展项有较大的不同。EO和PRF有70％是不同的，EO与LCA有60％是不同的。而且，3种方法得到的查询项的排序都有些不同，即使是得到相同的查询项，但不同的排序影响了查询项的权值，对计算查询项与文本集合M中每篇文本的相似度也会有较大的影响。

对3种查询扩展方法EO、PRF和LCA的扩展词的个数从0-40之间进行实验。3种方法取10个查询主题的平均结果的最优值进行了对比。表3列出了对比结果。

表3：不同的扩展方法获得的最优的检索性能的比较

从表3可见，3种不同的查询扩展方法，EO的检索性能好于PRF和LCA，其中EO的检索性能是最好的，PRF的检索性能是最差的。对评价指标P@10和P@20，EO比PRF分别提高了0.19和0.13。主要原因：一方面PRF和LCA没有区分查询项的不同类型，分别处理；另一方面PRF和LCA没有采用面向事件的联想扩展策略。另外，实验结果还表明，对于事件类信息的查询主题，查询扩展的个数在较少的情况下已经可以取得很好的查询结果，对于PRF和LCA方法扩展项的个数建议为10到16，而对于EO扩展方法扩展事件的个数为6个左右。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种面向事件的查询扩展方法，其具体步骤如下：

(3)、分别从查询项中区分事件项Q_e和限定项Q_e′；

(5)、向量化查询项的扩展事件项

限定项Q_e′及文本集合M中的每篇文本，计算扩展事件项与文本集合M中的一篇文本d的相似度计算限定项Q_e′与文本集合M中的一篇文本d的相似度为Sim(Q_e′，d)，计算得到扩展查询项Q^exp与文本集合M中的一篇文本d的相似度为Sim(Q^exp，d)，检索文本按照查询项Q^exp与文本集合M中每篇文本d之间的相似度Sim(Q^exp，d)的大小降序排列输出。

2.根据权利要求1所述的一种面向事件的查询扩展方法，其特征在于，上述步骤(1)中所述的获取局部文本集合N，其具体步骤如下：

3.根据权利要求2所述的一种面向事件的查询扩展方法，其特征在于，上述步骤(2)中依据从文本中识别事件的规则，从局部文本集合N中识别得到的所有的事件，由上述所有事件组成的集合称为事件集合E，其具体步骤如下：

4.根据权利要求3所述的一种面向事件的查询扩展方法，其特征在于，上述步骤(3)中分别从查询项中区分事件项Q_e和限定项Q_e′，其具体步骤如下：

5.根据权利要求4所述的一种面向事件的查询扩展方法，其特征在于，上述步骤(4)中所述的从事件集合E中选取关联强度大的若干个事件添加到查询项的事件项Q_e中扩展，扩展后的事件项构成扩展事件项