CN103823868B

CN103823868B - 一种面向在线百科的事件识别方法和事件关系抽取方法

Info

Publication number: CN103823868B
Application number: CN201410066711.9A
Authority: CN
Inventors: 程学旗; 贾岩涛; 李晓静; 王元卓; 冯凯; 熊锦华; 许洪波
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-02-26
Filing date: 2014-02-26
Publication date: 2017-05-03
Anticipated expiration: 2034-02-26
Also published as: CN103823868A

Abstract

本发明提供一种面向在线百科的事件识别方法和事件关系抽取方法。所述事件识别方法包括：从在线百科的分类体系中得到事件类分类标签；所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条，根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率，判断所述词条是否是事件类词条。本发明能够快速且准确地识别出事件类词条，并且能够在事件识别的基础上进行事件关系的抽取，适用于对事件进行预测和溯源。

Description

一种面向在线百科的事件识别方法和事件关系抽取方法

技术领域

本发明涉及信息技术领域，尤其涉及一种面向在线百科的事件识别方法和事件关系抽取方法。

技术背景

在线百科是一种在线的、内容开放、自由的网络百科全书，涵盖了所有领域的知识。其采用群体在线合作编辑的机制，所有人共同编写，让知识在一定的技术规则和文化脉络下得到不断的组合发展。在线百科是用来构建语义知识库的优质来源，具有下列特点：

（1）开放共享：大部分页面都可以由任意用户使用浏览器进行阅览、修改、创建主题及条目等，并且任何用户都可以免费下载、引用、收藏及分享它的内容。

（2）互动协作：来自世界各地的用户都可以基于该平台针对某一主题内容展开交流研讨，通过不断编写和修订，最终完善相应的词条与内容。

（3）实效性高：与传统的百科全书相比，在线百科会在第一时间补充社会科技文化的新概念、新动态，保证知识的时效性。由于计算机的高效率，在线百科便于快速的词条定位，比起纸质百科要迅速的多。

（4）信息全面、相对准确：在线百科的大部分知识点都是经过不同的用户多次编辑形成的，保证了内容的准确性。

著名的在线百科包括维基百科和互动百科等。截至2012年8月为止，维基百科整个计划总共有285种各自独立运作的语言版本，包括2,247,890,085个词条。中文维基百科于2002年10月24日正式成立，截至2012年12月21日，已拥有611,358个词条。互动百科是全球最大的中文百科网站，截止到目前，已有6,866,625位网友共同编写了7,895,067个词条。

对于数目如此庞大的词条，在线百科大多具有相对完善的分类体系。该分类体系提取词条之间共同的特征作为分类，将大规模的词条有效地组织到一起。通常，分类体系以“分类树”的形式存在，每个分类有父类和子类（即子分类）用来概述或细化这些概念。分类反映了词条的共同特征，从而可以作为识别词条类别的有效工具。由于在线百科具有时效性和信息全面性等特点，人们往往希望通过在线百科来了解事件（事件一般是指历史上或社会上已经发生的产生相当影响的事情）的经过、预测同类事件在将来的发展，以及对事件进行溯源，以便对特定事件采取预防措施。这就需要从在线百科中识别出“事件”类词条，并且抽取事件与事件之间的关系，然而现有的在线百科并没有提供识别“事件”类词条以及分析事件之间关系的功能。

发明内容

针对上述问题，根据本发明的一个实施例，提供一种面向在线百科的事件识别方法，所述方法包括：

步骤1）、从在线百科的分类体系中得到事件类分类标签；所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。

步骤2）、对于所述在线百科中的词条，根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率，判断所述词条是否是事件类词条。

上述技术方案中，所述步骤1）包括：

步骤11）、从在线百科的分类体系中找到表示该分类下的词条与一个或多个事件有关的分类，作为种子分类；

步骤12）、将种子分类以及该种子分类下的所有子分类加入事件类分类标签。

上述技术方案中，所述步骤1）还包括：

将所述种子分类下的词条作为种子词条；以及

根据种子词条的命名规则或者对应的页面特征，统计具有事件特征的种子词条的分类标签，将该分类标签加入所述事件类分类标签。

上述技术方案中，所述步骤2）包括：

对于所述在线百科中的词条，计算其属于所述事件类分类标签的分类标签个数与其所有分类标签个数的比率，如果该比率大于预定阈值，则将所述词条作为事件类词条。

上述技术方案中，所述步骤2）还包括：

对于所述在线百科中的词条，根据其命名规则或者对应的页面特征来判断所述词条是否是事件类词条。

根据本发明的一个实施例，还提供一种面向在线百科的事件关系抽取方法，包括：

步骤A）、根据权利要求1-6中任何一个所述的面向在线百科的事件识别方法得到所述在线百科的所有事件类词条；

步骤B）、对于所述在线百科中的每个事件类词条，在其对应页面按照页面层级结构抽取其子事件，并且确定所得到的子事件与所述事件类词条的关联关系。

上述技术方案中，所述步骤B）包括：

步骤B1）、对于所述在线百科中的每个事件类词条，根据所述在线百科的页面结构提取该事件类词条对应页面下每一级页面的段落作为子事件，并且将该事件类词条对应页面到该子事件对应页面的所有标题合并作为该子事件的标题；

步骤B2）、根据子事件的标题判断该子事件与该事件类词条的关联类型；

步骤B3）、将该事件类词条与该子事件存储到数据库，并且根据关联类型建立该事件类词条与该子事件的关联。

上述技术方案中，所述步骤B2）包括：

根据子事件的标题中的关系类型的同义词来判断子事件与所述事件类词条的关联关系。

上述技术方案中，所述步骤B）还包括：

对于所述在线百科中的每个事件类词条，在所述在线百科中寻找属于该事件类词条的分类标签的词条，将所找到的词条作为同类事件存储到数据库，并且建立该事件类词条与该同类事件的关联。

本发明根据在线百科的分类体系、词条命名规则及其对应的页面特征，能够快速且准确地识别出事件类词条；并且在事件识别的基础上进行事件关系的完整抽取，抽取出的事件关系包括起因、背景、结果和同类事件等，适用于对事件进行预测和溯源。

附图说明

图1是根据本发明一个实施例的事件特征提取方法的流程图；

图2是根据本发明一个实施例的事件类型判别方法的流程图；

图3是根据本发明一个实施例的面向在线百科的事件关系抽取方法的流程图；

图4是根据本发明一个实施例的抽取事件类词条的子事件和同类事件的方法的流程图；以及

图5是根据本发明一个实施例的分类特征的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行说明。

根据本发明的一个实施例，提供一种面向在线百科的事件识别方法，包括事件特征提取和事件类型判别过程，下面分别描述这两个步骤：

第一步：事件特征提取

在线百科都具有完整的分类体系，每个词条大多属于一个或者多个分类，主题相关的词条大多属于相同的分类。因此，分类可以反映该分类下所有词条的共同特征。在一个实施例中，可提取与事件相关的分类作为用于识别事件类词条的主要特征。此外，还可以结合词条的词干结构、页面特殊标签等特征来识别事件类词条（将在第二步中进行描述）。

如图1所示，在一个实施例中，提取事件类的分类标签作为特征可包括以下子步骤：

步骤1、从在线百科的分类体系中找到与事件相关的分类，作为种子分类，将种子分类以及种子分类的所有子分类加入分类标签集合。

其中，事件是指在线百科中记载的、具有一定影响的所有事情。与事件相关的分类表示分类体系中该分类下的词条可能与一个或多个事件有关，例如“社会事件”、“政治事件”、“军事事件”等等分类。

步骤2、将种子分类下的词条作为种子词条，分析种子词条本身的页面特征和命名规则，将具有“事件”特征的种子词条（例如以“**事件”作为标题的词条）标注为“事件”类词条，并且统计该事件类词条的分类标签。

在一个实施例中，根据种子词条对应的页面特征和命名规则来判断该词条是否是事件类词条可以包括但不限于：

（1）、根据词条名称本身的命名规则来进行判断，例如将以“**事件”、“**之战”、“**命案”等词结尾的词条判定为事件类词条。

（2）、根据词条文本内容中是否有特定的标签来进行判断。如果该词条对应的页面中有指示“事件”类别的特定标签，则判定该词条为事件类词条。

（3）、根据词条文本概述目录来进行判断，例如，如果词条对应的文本概述目录中有“事件经过”、“事件起因”等关键词，则判定该词条为事件类词条。

（4）、根据词条所属的类别条目来判断。

（5）、使用命名实体识别工具来判断词条是否是事件类词条。

步骤3、合并从上述两个步骤得到的分类标签。

步骤4、过滤掉不合理的分类标签，将过滤后的分类标签存储到分类特征词表，该分类特征词表中存储的分类标签作为事件类分类标签，方便第二步对事件类型进行判别。

其中，不合理的分类标签指有歧义、编辑人为了自己方便而编辑的那些不准确的分类标签。

在一个实施例中，在进行事件特征提取之前，还要对在线百科中的词条进行清洗，即过滤掉不需要的数据。词条包括词条的名称、词条页面信息、所属类别信息（分类标签）等。

第二步：事件类型判别

在一个实施例中，可根据所提取出的词条的相关特征（例如上一步讨论的分类标签），来判断在线百科中的词条是否属于事件类词条。例如，要判断一个词条是否是事件类词条，可首先查找该词条的所有分类标签，统计事件类的分类标签占其所有分类标签的比率，如果该比率大于一个预定的阈值，则将该词条判定为事件类词条。

本领域技术人员应理解，还可以提取其他特征来进行事件类型的判别。图2示出了事件类型判别方法的一个实施例，包括以下步骤：

步骤1、根据命名规则来判断词条是否是事件类词条。例如，将以“**事件”、“**之战”、“**案件”等词结尾的词条判定为事件类词条。

步骤2、根据词条对应的页面特征来判断，如果页面中有特定的指示“事件”类别的标签，则判定该词条为事件类词条。

步骤3、利用词性标注工具对词条的标题进行分词，对分词结果包括人、机构、地点等的词条直接排除。

步骤4、根据词条对应页面中的概述目录来判断，如果概述目录中有“事件经过”、“事件起因”等关键词，则判定为事件类词条。

步骤5、统计词条的分类标签，将该词条属于事件类分类标签的分类标签占其所有分类标签的比率作为该词条的分类特征得分Score，将分类特征得分Score大于一定阈值N_f的词条判定为事件类词条，Score的计算公式如下：

Score=NN_total

其中，N表示词条的全部分类标签中属于事件类分类标签的数目，N_total表示该词条全部的分类标签数目。

本实施例示例性地描述了用于判别词条是否是事件类词条的一种方法，应理解，也可以通过改变上述步骤的顺序、或者增加或删除一些步骤来进行事件类型的判别。

在上文提供的面向在线百科的事件识别方法的基础上，本发明还提供一种面向在线百科的事件关系抽取方法。如图3所示，该方法包括以下步骤：

第一步：使用上文描述的面向在线百科的事件识别方法来识别出在线百科中所有的事件类词条。

第二步：对于在线百科中的每个事件类词条，进行事件关系的抽取。

概括而言，抽取事件关系包括：将事件类词条作为主事件进行存储；将抽取得到的事件作为子事件或者同类事件进行存储，同时存储主事件和子事件或者同类事件的关联关系。其中，根据事件的发展过程，子事件与主事件的关系可以包括但不限于：起因、经过、结果。参考图4，抽取事件关系可以包括以下子步骤：

步骤1、将从第一步得到的事件类词条作为主事件存储到数据库中。

在一个实施例中，存储主事件包括但不限于存储以下内容：

（1）、主事件的词条标题；

（2）、采集时间，录入时间；

（3）、摘要；

（4）、事件检索关键词，包括所属的分类（分类标签）、页面中的内部链接和标题的分词结果；以及

（5）、事件元素（如事件的类别，内部链接）。

步骤2、根据主事件对应的页面，按页面层级结构进行子事件的抽取，提取每一层级的标题、正文内容。

针对不同类型的在线百科，可采取相应的配置模板来进行抽取。

步骤3、将每一级页面下的每个段落作为该级下的子事件，将从一级标题（主事件对应的标题）到该级标题的所有标题进行合并，作为这个子事件的标题。

步骤4、根据子事件的标题来判断子事件与主事件的关系。

在一个实施例中，可根据子事件的标题中是否含有关系类型的同义词来判断子事件与主事件的关系。例如，对于背景类型，如果子事件的标题中含有“背景”、“起因”等同义词，则判定该子事件与主事件是背景关系。

步骤5、将子事件存储到数据库中，并且对于主事件和子事件建立事件关联。

尽管上文中已经在步骤1将主事件存储到数据库中，应理解，也可以在步骤5（或者其他步骤）将主事件与子事件一起存储到数据库中。

在一个实施例中，存储子事件包括但不限于存储以下内容：

（1）、子事件的词条标题；

（2）、采集时间，录入时间；

（3）、摘要；

（4）、事件检索关键词（子事件中存在的相关地点、组织、人等）。在一个实施例中，将子事件中的百科内部链接词条作为子事件的检索关键词（或称检索标签），并且将首句作为“子事件”的摘要存储到数据库中。

在一个实施例中，主事件和子事件的事件关联格式可以是“主事件ID”+“子事件ID”+“关系类型”。其中，子事件与主事件的关系类型包括但不限于：

（1）、起因，背景；

（2）、下级事件；

（3）、结果。

步骤6、确定主事件的同类事件。

其中，将与主事件属于同一分类标签的其他词条与主事件建立关联关系，其关系类型为“同类事件”。将该同类事件存储到数据库中，并且对主事件和同类事件建立事件关联。

下文详细描述了采用面向在线百科的事件关系抽取方法对维基百科进行事件关系抽取的一个实施例，并根据抽取结果，以维基百科中的事件类词条—“第二次世界大战”为例，列举出该词条的子事件及事件之间的关联关系。该方法包括以下三个步骤：

一、事件特征的提取

1、将分类体系中的“事件”、“社会事件”、“政治事件”、“历史事件”、“军事事件”作为种子分类，标注种子分类及子分类作为分类标签，图5给出了所得到的分类特征中的一个分支。

2、将种子分类下的词条作为种子词条，将以“事件”、“冲突”、“战争”、“命案”结尾的种子词条标记为事件类词条，统计这些词条的分类标签。

3、合并上面1、2两步的结果。

4、删除不合理的分类标签，将其余的分类标签存储到分类特征词表中。

二、事件类型判别

读取分类特征词表，结合词条本身的命名规则、页面结构、分词结果等特征，判断该词条是否属于事件类词条，包括以下子步骤：

1、规则判别。对词条本身进行分析，如果词条的标题规则符合规则模板的定义（例如**事件、**会战、**案件等），则将该词条判定为事件类词条。接着对词条标题进行分词，并且进行词性标注，标注为人、地点、机构的直接排除。

2、根据页面特征判别。例如，判断页面结果中是否具有特定的标签，是否在概要目录中有“事件经过”、“事件起因”等关键词，如果具有这些特征，则将词条判定为事件类词条。

3、分类特征判别。将该词条的分类标签中属于事件类分类标签（即在分类特征词表中）的个数与该词条的所有分类标签个数的比率作为分类特征得分，如果分类特征得分的值大于N_f，则判定该词条为事件类词条。这里为了保证判别事件类型的准确率，取N_f＝0.5。

三、事件关系抽取

其中，按页面层次抽取词条的子事件，根据子事件的标题来判断子事件与主事件的关系，并且将相关信息存储到数据库。

1、查找主事件语料中的内部链接，在已有数据中查找这些元素中属于人、机构、地点的内部链接作为事件元素保存。分类信息作为主事件的检索标签、首段作为摘要，将主事件存储到数据库中。

2、解析页面，按层级拆分标题和正文内容。其中，按段落来拆分每一层级子事件，根据标题判断子事件与主事件的关联关系类型，在数据库中建立“主子事件”的关联关系。获取该子事件的内部链接作为检索标签，子事件内容中出现的人、地点、机构作为事件元素，存储到数据库中。

3、将与主事件属于同一分类标签的其他事件与主事件建立关联关系，关系类型为“同类事件”，将同类事件存储到数据库中。

经过上述操作后，得到每个主事件词条的子事件、同类事件以及事件之间的关系。以主事件词条—“第二次世界大战”为例，可从数据库中查询到该词条的子事件、同类事件及事件关系，表1示出了该词条的部分子事件及主子事件的关系。

表1

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向在线百科的事件识别方法，包括：

步骤1)、从在线百科的分类体系中得到事件类分类标签；所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关；

步骤2)、对于所述在线百科中的词条，根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率，判断所述词条是否是事件类词条。

2.根据权利要求1所述的方法，其中，步骤1)包括：

步骤11)、从在线百科的分类体系中找到表示该分类下的词条与一个或多个事件有关的分类，作为种子分类；

步骤12)、将种子分类以及该种子分类下的所有子分类加入事件类分类标签。

3.根据权利要求2所述的方法，其中，步骤1)还包括：

将所述种子分类下的词条作为种子词条；以及

4.根据权利要求1-3中任何一个所述的方法，其中，步骤1)还包括：

在所述事件类分类标签中过滤掉有歧义的分类标签。

5.根据权利要求1-3中任何一个所述的方法，其中，步骤2)包括：

6.根据权利要求5所述的方法，其中，步骤2)还包括：

7.一种面向在线百科的事件关系抽取方法，包括：

步骤A)、根据权利要求1-3中任何一个所述的面向在线百科的事件识别方法得到所述在线百科的所有事件类词条；

步骤B)、对于所述在线百科中的每个事件类词条，在其对应页面按照页面层级结构抽取其子事件，并且确定所得到的子事件与所述事件类词条的关联关系。

8.根据权利要求7所述的方法，其中，步骤B)包括：

步骤B1)、对于所述在线百科中的每个事件类词条，根据所述在线百科的页面结构提取该事件类词条对应页面下每一级页面的段落作为子事件，并且将该事件类词条对应页面到该子事件对应页面的所有标题合并作为该子事件的标题；

步骤B2)、根据子事件的标题判断该子事件与该事件类词条的关联类型；

步骤B3)、将该事件类词条与该子事件存储到数据库，并且根据关联类型建立该事件类词条与该子事件的关联。

9.根据权利要求8所述的方法，其中，步骤B2)包括：

10.根据权利要求7所述的方法，其中，所述关联关系包括：

起因、背景或者结果。

11.根据权利要求7所述的方法，其中，步骤B)还包括：