CN109857866B

CN109857866B - 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统

Info

Publication number: CN109857866B
Application number: CN201910031772.4A
Authority: CN
Inventors: 黄龙涛; 赵林; 虎嵩林
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2021-05-25
Anticipated expiration: 2039-01-14
Also published as: CN109857866A

Abstract

本发明涉及一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统。该关键词抽取方法首先从文本中抽取事件的关键元素，并根据事件的关键元素获取事件特征；然后对文本与事件特征进行双向聚类，得到与事件对应的事件关键词。该事件查询建议生成方法将事件关键元素与事件关键词进行组合，生成查询建议。该检索系统包括：在线模块，负责将用户提交的查询映射到对应的事件上；离线模块，包含事件查询建议生成装置，负责根据对应的事件给用户提供相应的查询建议。本发明将事件识别与关键词抽取两个任务同时进行，使得两个任务相互配合与相互受益，同时得到事件及其对应的事件关键词，该事件关键词具有区分相似主题的事件的能力。

Description

一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统

技术领域

本发明属于自然语言处理领域，具体地说是针对用户提交搜索词语的不准确不全面导致未能检索到期望的事件问题，提出了一种基于事件的关键词抽取方法，基于这些事件关键词可以为用户提供有效地查询建议，获取更多的事件相关内容。

背景技术

在信息检索领域，面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径。在检索事件的时候，需要提交合适的搜索词语才能获取到期望的事件。但是，不是所有的用户对感兴趣的事件都有全面的了解，能提交恰如其分的搜索词语，所以导致检索到的事件往往不是期望的事件。因此，有必要自动生成查询建议来帮助用户检索到准确的事件信息。

关键词抽取作为一项基础的自然语言处理技术，经常应用到不同的领域中支撑各种不同的任务，如自然语言处理中的文本分类、文本聚类和文本摘要等任务。直观地，在本发明中同样使用关键词来支撑事件检索任务。

面向事件的关键词抽取任务是由两个子任务组成，即事件识别与基于事件的关键词抽取。第一种思路是两个子任务串行做，先识别事件然后基于事件做关键词抽取。这种方法的缺点在于识别事件的准确性直接影响后续关键词抽取的准确性。因此，针对第一种思路的弊端，第二种思路是两个子任务同时做，目前基于这种思路的方法是主题模型(LDA)，由于在事件的背景下，不同的事件常常具有相同的主题，主题相同的文章使用的词语也大致相同。因此，基于主题模型的方法对于这种含有相同主题的不同事件抽取得到的关键词不具有区分事件的能力，应用于事件检索中同样不能获取用户所期望的事件内容。

发明内容

鉴于以上所述现有技术存在的问题和不足，本发明要解决的技术问题是提供一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统，该方法通过结合事件的特征抽取事件关键词，为事件查询提供了技术支撑。

为解决上述问题，本发明采用下述技术方案：

一种面向事件查询建议的关键词抽取方法，其具体步骤如下：

(1)、事件是由两部分组成，一部分为组成事件的关键元素集合，另一部分为事件特征，这些特征用来描述事件的关键元素。首先从文本(包含事件的文本)中抽取事件的关键元素，然后再获取该事件特征，这些特征作为候选关键词。

(2)、将步骤(1)中的候选关键词作为事件特征参与事件关键词抽取任务。使用基于双聚类方法来抽取关键词，新闻文本与事件特征进行双向聚类，最后得到双聚类，每一个聚类簇中包括具体的事件及其对应的事件关键词。

进一步地，在抽取关键词后，本发明进一步提供一种事件查询建议生成方法和一种检索系统：

(3)、由于语料中存在大量相似主题的事件，如果用事件关键词直接作为查询词，则会检索到相似主题的事件内容。所以，有必要基于步骤(2)中的事件关键词生成查询建议。

(4)、设计一个检索系统，用来验证生成的查询建议的有效性。该系统包括两部分，一部分为在线部分(或称为在线模块)，负责将用户提交的查询映射到对应的事件上；另一部分为离线部分(或称为离线模块)，负责根据对应的事件给用户提供相应的查询建议。

上述步骤(1)中所述的从文本中抽取事件的关键元素与获取对应事件特征，其具体步骤如下：

(1-1)、使用Standard NER工具识别语料新闻文本中的命名实体，包括人名，地名，组织机构名。这些识别出的命名实体作为候选关键元素；

(1-2)、计算每个候选关键元素的词频，选择词频排名前5的候选关键元素作为最终的事件关键元素；

(1-3)、将语料中的新闻文本使用停用词表过滤停用词，使用词性标注选取只含名词与动词词性的两类词语作为候选事件特征；

(1-4)、将候选事件特征中的那些与事件关键元素在同一个句子中同时出现的特征作为最终的事件特征。

上述步骤(2)中所述的基于双聚类方法来抽取关键词，其具体步骤如下：

(2-1)、计算每篇新闻文本中事件特征的TFIDF值，并进行向量化得到一个词频矩阵A，矩阵的行对应每个特征在不同新闻文本中的TFIDF值，矩阵的列对应每条新闻文本中包含的事件特征；

(2-2)、为了可视化的需要，可以对词频矩阵A进行矩阵行与列的重排。理想情况下，重排后的矩阵将呈现对角形状，但是在实际的新闻文本中存在一些噪音文本，这在可视化的对角形状中可见；

(2-3)、将词频矩阵A作为输入，使用谱聚类算法对词频矩阵A进行双向聚类，其中谱聚类算法使用的是由作者Dhillon发表的题为《Co-clustering documents and wordsusing bipartite spectral graph partitioning》中的SpectralCo-Clustering方法，该方法可直接通过调用sklearn中的SpectralCoclustering方法；

(2-4)、经过(2-3)的双向聚类步骤后得到多个聚类簇，其中每一个事件的新闻文本及其对应的事件特征被聚类为一个聚类簇，最后只保留聚类簇中的新闻文本与对应的特征，从而过滤掉了噪音文本。

上述步骤(3)中所述的基于事件关键词生成查询建议，其具体步骤如下：

(3-1)、从步骤(1)中找到对应事件的事件关键元素；

(3-2)、从步骤(2)中生成对应事件的事件关键词；

(3-3)、将步骤(3-1)中的事件关键元素与步骤(3-2)中的事件关键词进行组合。

上述步骤(4)中所述的在线部分将用户提交的查询映射到对应的事件，其具体步骤如下：

(4-1)、用户提交查询到检索系统，并返回查询结果。其中用户使用的查询有三种方式，分别为原始事件标题、基于步骤(3)生成的事件关键词得到的查询建议以及使用基于主题模型LDA生成的主题关键词，检索系统基于BM25算法实现；

(4-2)、将查询结果映射到相应的事件，具体的映射方法为计算返回结果中不同事件的新闻文本数量，选择具有最大新闻文本数量对应的事件作为最终的目标事件。

上述步骤(4)中所述的离线部分根据对应的事件给用户提供相应的查询建议,其具体步骤如下：

(4-3)、根据(4-2)步骤，已经得到用户想要搜索的事件，分别使用步骤(4-1)中提到的三种方式得到的查询建议返回给用户。使用准确率、召回率与F值来评估三种方法的优劣。

与上面一种面向事件查询建议的关键词抽取方法对应地，本发明还提供一种面向事件查询建议的关键词抽取装置，其包括：

事件特征抽取模块，负责从文本中抽取事件的关键元素，并根据事件的关键元素获取事件特征；

双向聚类模块，负责对文本与事件特征进行双向聚类，得到与事件对应的事件关键词。

与上面一种事件查询建议生成方法对应地，本发明还提供一种事件查询建议生成装置，其包括所述面向事件查询建议的关键词抽取装置，以及一组合模块；所述组合模块将所述关键词抽取装置得到的事件关键元素与事件关键词进行组合，生成查询建议。

本发明的面向事件查询建议的关键词抽取方法与现有的技术相比较，具有以下有益效果：该方法将事件识别与关键词抽取两个任务同时进行，使得两个任务相互配合与相互受益，同时得到事件及其对应的事件关键词。该事件关键词具有区分相似主题的事件的能力。

附图说明

图1为本发明的面向事件查询建议的关键词抽取的流程；

图2为步骤(2)中基于双聚类方法抽取事件关键词的流程；

图3为步骤(2-2)中对词频矩阵A进行矩阵行与列重排前与重排后的对比结果，(a)对应重排前的结果，(b)对应重排后的结果。其中，矩阵的宽度表示文本的数量，长度表示文本对应的事件特征，图(a)中包括100个文本及300个事件特征，经过重排后去除噪音文本得到40个文本及150个事件特征，如图(b)。

图4为步骤(4)中用于验证查询建议有效性的检索系统的流程。其中，n1、n2等表示事件的文本，k1、k2等表示对应事件的关键词，图中的不同灰度表示不同的事件。

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

参照图1，本实施例的一种面向事件建议的关键词抽取方法，该方法包括如下步骤：

(1)、事件是由两部分组成，一部分为组成事件的关键元素集合，另一部分为事件特征，这些特征用来描述事件的关键元素。首先从文本中抽取事件的关键元素，然后再获取该事件特征，这些特征作为候选关键词，其具体如下：

(2)、将步骤(1)中得到的最终事件特征参与事件关键词抽取任务。使用基于双聚类方法来抽取关键词，新闻文本与事件特征进行双向聚类，最后得到聚类簇,每一个聚类簇中包括具体的事件及其对应的事件关键词，参照图2，其具体步骤如下：

(2-1)、计算每篇新闻文本中特征的TFIDF值，并进行向量化得到一个词频矩阵A，矩阵的行对应每个特征在不同新闻文本中的TFIDF值，矩阵的列对应每条新闻文本中包含的特征。

(2-2)、为了可视化的需要，可以对词频矩阵A进行矩阵行与列的重排。理想情况下，重排后的矩阵将呈现对角形状，如图3所示，但是在实际的新闻文本中存在一些噪音文本，这在可视化的对角形状中可见。

(2-3)、将词频矩阵S作为输入，使用谱聚类算法对词频矩阵S进行双向聚类，其中谱聚类算法使用的是由作者Dhillon发表的题为《Co-clustering documents and wordsusing bipartite spectral graph partitioning》中的SpectralCo-Clustering方法，该方法可直接通过调用sklearn中的SpectralCoclustering方法。

进一步地，参照图1，在抽取关键词后，本实施例还提供一种事件查询建议生成方法和一种检索系统：

(3)、由于语料中存在大量相似主题的事件，如果用事件关键词直接作为查询词，则会检索到相似主题的事件内容。所以，有必要基于步骤(2)中的事件关键词生成查询建议，其具体步骤如下：

(3-1)、从步骤(1)中找到对应事件的事件关键元素；

(3-2)、从步骤(2)中生成对应事件的事件关键词；

(4)、设计一个检索系统，用来验证生成的查询建议的有效性。该系统包括两部分，一部分为在线部分(或称为在线模块)，负责将用户提交的查询映射到对应的事件上；另一部分为离线部分(或称为离线模块)，负责根据对应的事件给用户提供相应的查询建议，参照图4，其具体步骤如下：

(4-3)、根据(4-2)步骤，已经得到用户想要搜索的事件，分别使用步骤(1)中提到的三种方式得到的查询建议返回给用户。使用准确率、召回率与F值来评估三种方法的优劣。

以两个新闻文本“四川地震”(中新网成都11月22日电(记者XXX)记者22日18时33分从四川省地震局获悉，四川康定6.3级地震发生后，四川省决定启动1级地震应急响应，震区道路318线和机场道路畅通未受到影响。)，“尼泊尔地震”(尼泊尔地震发生1小时，房屋倒塌十分严重，西藏自治区地震局派出了由西藏地震灾害防御中心主任带队的第一支现场工作队，赶赴灾区开展震情监测、灾情调查和震害损失评估等现场工作)为例，根据上述步骤(1)最终得到的关键元素为“记者”、“成都”、“四川”、“尼泊尔”、“房屋”和“西藏”，事件特征为“XXX”、“康定”、“地震”、“应急”、“倒塌”、“灾害防御”。经过步骤(2)双聚类算法后得到聚类簇(“四川地震”：“XXX”、“康定”、“应急”)和(“尼泊尔地震”：“地震”、“倒塌”、“灾害防御”)，其中冒号前后分别表示事件及对应的事件特征。每个簇中的事件特征作为事件关键词。由于这两篇新闻文本属于相似主题的事件，如果用事件关键词直接作为查询词，则检索到的新闻难以区别事件的类别，例如利用事件关键词“地震”进行检索，检索到的文本既包括“四川地震”也包括“尼泊尔地震”。所以，根据步骤(3)将事件关键词生成查询建议来进行区分，如“四川地震”事件生成的查询建议包括：“四川地震”、“四川康定”、“四川应急”、“记者XXX”。根据步骤(4)，将生成的查询建议，如“四川地震”作为查询提交到检索系统，将检索到的相关新闻数量进行统计，相关新闻数量越多说明该关键词的效果越好。本发明中实验语料围绕当前热点事件领域收集，重点是“灾难”、“事故”、“会议”、“时政”和“军事”五大类别，借助新浪新闻网站共收集5932篇新闻文本。表1列出了五个类别对应事件的个数及相关的事件样例数据。

表1：事件的类别样例数据

本发明的事件查询建议方法(简记作BiC)与事件标题作为查询建议方法(简记作TE)和主题模型生成查询建议方法(简记作TM)在同样的数据上进行查询，分别对三种方法进行实验比较，使用准确率(P)、召回率(R)与F值(F)三个指标进行衡量。

表2列举了“灾难”和“事故”两类事件的对比结果。

表2：“灾难”和“事故”两类事件的对比结果

本发明中可以使用查询扩展替换查询建议，查询建议的方法为事件关键元素与关键词进行组合，如“四川地震”、“四川康定”，而查询扩展的方法为可以在用户提交查询的基础上进行扩展，如用户查询为“四川地震”，可将其扩展为“四川地震康定”。

与上面一种面向事件查询建议的关键词抽取方法对应地，本发明另一实施例提供一种面向事件查询建议的关键词抽取装置，其包括：

与上面一种事件查询建议生成方法对应地，本发明另一实施例提供一种事件查询建议生成装置，其包括上面实施例所述的面向事件查询建议的关键词抽取装置，以及一组合模块；所述组合模块将所述关键词抽取装置得到的事件关键元素与事件关键词进行组合，生成查询建议。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种面向事件查询建议的关键词抽取方法，其特征在于，包括以下步骤：

(1)从包含事件的文本中抽取事件的关键元素，并根据事件的关键元素获取事件特征；

(2)对文本与事件特征进行双向聚类，得到与事件对应的事件关键词；

其中，步骤(2)包括：

(2-1)计算每篇新闻文本中事件特征的TFIDF值，并进行向量化得到一个词频矩阵A，矩阵的行对应每个特征在不同新闻文本中的TFIDF值，矩阵的列对应每条新闻文本中包含的事件特征；

(2-2)将词频矩阵S作为输入，使用谱聚类算法对词频矩阵S进行双向聚类；

(2-3)经过(2-2)的双向聚类步骤后得到多个双聚类biclusters，其中每一个事件的新闻文本及其对应的事件特征被聚类为一个bicluster，最后只保留bicluster中的新闻文本与对应的特征，从而过滤掉噪音文本。

2.根据权利要求1所述的方法，其特征在于，步骤(1)包括：

(1-1)识别语料新闻文本中的命名实体，将识别出的命名实体作为候选关键元素；

(1-2)计算每个候选关键元素的词频，选择词频排名前若干个候选关键元素作为最终的事件关键元素；

(1-3)将语料中的新闻文本使用停用词表过滤停用词，使用词性标注选取只含名词与动词词性的两类词语作为候选事件特征；

(1-4)将候选事件特征中的与事件关键元素在同一个句子中同时出现的特征作为最终的事件特征。

3.根据权利要求1所述的方法，其特征在于，根据可视化的需要，对词频矩阵A进行矩阵行与列的重排，重排后的矩阵呈现对角形状。

4.一种采用权利要求1～3中任一权利要求所述方法的面向事件查询建议的关键词抽取装置，其特征在于，包括：

5.一种事件查询建议生成方法，其特征在于，包括以下步骤：

[1]采用权利要求1至3中任一权利要求所述方法，从文本中抽取事件关键元素和事件关键词；

[2]将事件关键元素与事件关键词进行组合，生成查询建议。

6.一种事件查询建议生成装置，其特征在于，包括权利要求4所述的面向事件查询建议的关键词抽取装置，以及一组合模块，所述组合模块将所述关键词抽取装置得到的事件关键元素与事件关键词进行组合，生成查询建议。

7.一种检索系统，其特征在于，包括：

在线模块，负责将用户提交的查询映射到对应的事件上；

离线模块，包含权利要求6所述的事件查询建议生成装置，负责根据对应的事件给用户提供相应的查询建议。

8.根据权利要求7所述的系统，其特征在于，所述用户提交的查询包括三种方式：原始事件标题、基于事件关键词得到的查询建议、以及使用基于主题模型LDA生成的主题关键词。

9.根据权利要求8所述的系统，其特征在于，所述在线模块计算返回结果中不同事件的新闻文本数量，选择具有最大新闻文本数量对应的事件作为最终的目标事件；所述离线模块使用所述三种方式得到查询建议并返回给用户。