CN107844609A

CN107844609A - 一种基于文体和词表的突发事件信息抽取方法及系统

Info

Publication number: CN107844609A
Application number: CN201711343022.8A
Authority: CN
Inventors: 邱奇志; 周三三; 刘长发; 陈晖�; 於利艳; 於剑
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2018-03-27

Abstract

本发明公开了一种基于文体和词表的突发事件信息抽取方法及系统，首先分析研究了Web文本和新闻文体的特征，利用Google Word2Vec对专家构建的词表进行扩展，针对突发事件的不同属性制定了不同的抽取方法：采用词表进行事件分类，采用文体特征进行时间、事件摘要的抽取，采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明，采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时，平均准确率分别为87.89％、91.29％，平均召回率分别为81.76％、87.91％，能满足应急管理需求。

Description

一种基于文体和词表的突发事件信息抽取方法及系统

技术领域

本发明属于信息处理技术领域，尤其涉及一种基于文体和词表的突发事件信息抽取方法及系统。

背景技术

近年来在气候变暖、经济全球化、国际政治风云多变的影响下，全球范围内各类突发事件频发，给社会和谐稳定、人民幸福生活带来了极大的危害，应急管理已引起了各级地方政府的高度重视和大力支持，与此同时，在网络高度普及的今天，获取突发事件信息的渠道也从单一的政府公文扩展到各类新闻网站等网络渠道，本发明以Web新闻为研究对象，在深入分析Web新闻特性的基础上，力图借助信息抽取技术，合理有效地结构化新闻内容以满足应急管理的需求，为社会和谐、经济发展保驾护航。

信息抽取(information extraction:IE)是指把文本中包含的无结构无组织的信息进行一系列处理，转化成统一格式的结构化数据保存起来。输入信息抽取系统的是各种非结构化的文档，输出的是结构化的信息点，信息点从各类的文档中被提取出来，按照一定格式储存到数据库中。本发明研究目标是从网络自由化文本得到结构化数据。

信息抽取的方法大致可分为基于统计的方法和基于规则的方法，基于统计的方法以强大的统计学原理为基础，具有较高的可移植性，但准确性不高，基于规则的方法以领域知识为基础，具有较高的准确性，但跨领域移植性几乎为零。

近年来，信息抽取已经在金融、海事、物流等许多领域得到了成功应用。赵小明等提出一种基于统计的金融领域多元关系信息抽取算法，研究收购类事件描述句及事件角色，分别设计了单分类器的算法和多分类器的算法，结果表明多分类器算法比单分类器识别算法F-Measure提高了1.9％。余晨等提出一种基于规则的海事自由文本信息抽取方法，通过定义规则抽取海事新闻中的时间、地点、船舶名和事故类型，实验结果表明，准确率均在94.52％以上，但此方法仅限于单一的海事领域网站。原欢采用基于规则的信息抽取方法，提出了基于GATE的货物动态邮件信息抽取方法，应用货物动态邮件验证了方法的科学性和有效性。基于Web的信息抽取近年已取得一些研究，孙承杰等利用中文网页的特性提出了一种基于统计的信息抽取方法，但是该方法仅适用于使用<table>标签来布局的网页，实现简单，通用性好，但是对于文本内容较短的网页，抽取效果不好。吴平博等人在建立了统一事件框架的基础上，利用句型模板抽取了新闻事件的基础信息，并且通过实验表明，方法的召回率以及精度分别达到了60.82％和94.84％，但仅限于火灾、矿难和空难这三类新闻事件。杨尔弘提出一种自动获取事件信息结构的模型，该模型是在文本词语分析的基础上，通过对句子聚类的方法来进行抽取突发事件的信息，并进一步采用词语串搭配信息的方法来抽取突发事件某方面的具体信息，但仅限于HowNet知识资源不适用于网络自由文本，同时采用词语串替代表达意义，还远不能满足提取的任务要求。

发明内容

为了解决上述技术问题，本发明提出了一种基于文体和词表的突发事件信息抽取方法，针对现有信息抽取方法提出相应改进和整合，从而提出准确率高的信息抽取方法。

本发明所采用的技术方案是：一种基于文体和词表的突发事件信息抽取方法，其特征在于，包括以下步骤：

步骤1：获取新闻网站内容作为初始新闻语料库；

步骤2：事件识别与分类；

对初始新闻语料库进行预处理，判断新闻报道是否为突发事件，并在此基础上对突发事件分类；

步骤3：信息抽取；

本发明的系统所采用的技术方案是：一种基于文体和词表的突发事件信息抽取系统，其特征在于：包括信息获取模块、事件识别与分类模块、信息抽取模块；

所述信息获取模块，用于获取新闻网站内容作为初始新闻语料库；

所述事件识别与分类模块，用于对初始新闻语料库进行预处理，判断新闻报道是否为突发事件，并在此基础上对突发事件分类；

所述信息抽取模块，用于完成突发事件基本属性的抽取，实现突发事件信息结构化。

本方法主要有以下优点：非监督地结构化突发事件信息，是高效开展应急管理的基础，一方面是构建突发事件案例的基础工作，另一方面也是应急决策中案例推理的基础工作；此外所提出的基于文体和词表的信息抽取方法同时也融合了基于规则和统计方法的优点，对于结构化Web信息进行了有效的探索。采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时，平均准确率分别为87.89％、91.29％，平均召回率分别为81.76％、87.91％，能满足应急管理需求。

附图说明

图1是本发明实施例的系统架构图；

图2是本发明实施例的子关键词个数实验结果示意图；

图3是本发明实施例的突发事件识别与分类算法流程图；

图4是本发明实施例的突发事件时间属性抽取算法流程图；

图5是本发明实施例的突发事件伤亡属性抽取算法流程图；

图6是本发明实施例的突发事件经济损失属性抽取算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请见图1，本发明实施例提供的一种基于文体和词表的突发事件信息抽取系统，包括信息获取模块、事件识别与分类模块、信息抽取模块；

信息获取模块，用于获取新闻网站内容作为初始新闻语料库；

事件识别与分类模块，用于对初始新闻语料库进行预处理，判断新闻报道是否为突发事件，并在此基础上对突发事件分类；

信息抽取模块，用于完成突发事件基本属性的抽取，实现突发事件信息结构化。

本发明实施例提供的一种基于文体和词表的突发事件信息抽取方法，包括以下步骤：

步骤1：编写网络爬虫爬取Web网站相关板块的新闻数据；

步骤2：由于网络爬虫过程中出现各种格式错误、乱码、内容失真，进行预处理工作；

网络爬虫获取的新闻，会存在少量的字符乱码和异常数据，需要对数据预处理。本实施例对新闻语料主要进行如下两个步骤：1)去除新闻中因文本爬取保存过程中发生的字符乱码，主要是一些Unicode字符，如xa0等；2)当网站转发其他网站新闻进行多次链接跳转或者分页处理大量的图片新闻，会导致新闻内容严重缺失，本实施例设定当新闻内容字数少于30个字符时，舍弃这条新闻。

步骤3：判断新闻报道是否为突发事件，并在此基础上对突发事件分类；

根据领域专家构建的词表称为基础词表，扩充词表则利用Google Word2Vec构建，以基础词表为核心，无监督地生成扩充词表，选取了相关度最高的前10个词构成子关键词，共同组成了扩充词表，如表1，所展示词表的部分内容；

表1词表(部分)

请见图2和图3，在进行突发事件识别与分类过程中，对关键词个数进行实验，当使用子关键词个数为2时，准确率达到最大为91.84％。首先判断，该条新闻是否包含基础词表中关键词，若包含，读取该关键词所属类型，并将此类型作为突发事件类型属性返回；若不包含，计算该新闻包含扩充词表中子关键词个数，若大于等于2，读取子关键词所属类型，并将此类型作为突发事件类型属性返回；若小于2，则返回“非突发事件”。

最后，对突发事件分类分类，包括自然灾害、社会安全、公共卫生、事故灾害四类。

步骤4：信息抽取；此处主要对事件摘要、时间、地点、伤亡和经济损失5个数据项进行信息抽取。

在进行基于文体的事件文摘信息抽取过程中，使用基于最大边界相关法MMR(Maximal Marginal Relevance)算法自动生成事件摘要。MMR方法是一种重新确定文档序值的方法。具体公式如下：

D_i为当前句子，Q为当前文章的句子集合，S为当前摘要的句子集合，R为当前非摘要的句子集合，λ为相关性系数。sim₁计算的是句子的重要性分值，sim₂计算的是句子与已经被选择成摘要的句子之间的相似度最大值，保障了当前句子的多样性。

如图4，在基于文体的时间属性信息抽取过程中，在此部分主要是两个工作：时间属性的抽取和时间格式的转换。根据文体特点及对突发事件新闻的广泛阅读，发现：突发事件新闻报道在新闻导语都会用最精炼简洁的文字客观阐述事件，且由于新闻遵循倒金字塔型结构组织全文，采用“头重脚轻”重要性递减安排全文结构，因此新闻的发生时间在新闻标题和新闻首段被提及概率在98％左右。对于时间属性抽取，仅针对新闻标题和新闻首段展开。

Web页面上通常存在三个时间，即：新闻的发表时间，新闻报道时间和事件发生时间，其含义为：

新闻的发表时间，记为pt，一般在新闻标题的下方会详细给出发表新闻的时间。

新闻的报道时间，记为rt,一般在新闻的开头，以“电”或“讯”结束。

事件的发生时间，记为et，在新闻内容中给出，多出现在新闻标题和导语部分。

这三者的大小关系为：et<＝rt<＝pt，即事件的发生时间早于新闻的报道时间，新闻报道时间早于新闻的发表时间。

Web新闻的时间表达方式和精度也呈现一定的规律性：

pt常精确到“年”、“月”、“日”、“时”、“分”、“秒”，rt一般仅仅涉及到“月”、“日”，而et可能在rt基础上继续细化或者是只提及“上午”、“下午”、“凌晨”、“时”、“分”、“秒”等时间信息。通过三者直接相互组合，以YYYY-MM-dd格式转换，得到时间的发生时间。时间属性算法如下。

在基于文体和词表的地点属性信息抽取中，根据文体特征、新闻结构和新闻写作特点，地点出现在新闻标题和首段的概率在98％左右。使用Python结巴分词进行命名实体识别，对新闻进行命名实体识别，识别出其中的地点名词，同时根据中国地名库，建立各省市详细的地名表，由于地名具有明显的层次结构，笔者采用树结构存储，层次清晰，简单明了，进行突发事件地点识别。

请见图5，基于文体和词表的伤亡属性信息抽取，结合文体特点，并构建伤亡词表，同时定义相关规则进行突发事件伤亡属性抽取。在四种类型事件抽取伤亡时，表达既有共性又有特性。先建立伤亡的公共词表，又针对其存在的特殊性构建了各自的专有词表。共同识别突发事件的伤亡情况，伤亡属性词表如表2。

表2伤亡属性词表

请见图6，基于文体和词表的经济损失属性信息抽取，结合文体特点，并构建经济损失词表，同时定义相关规则进行突发事件经济损失属性抽取。经济损失多存在于自然灾害和火灾类事件中，经济损失属性词表如表3。

表3损失词表

在研究上海大学公开的突发事件CEC(Chinese Emergency Corpus)中国突发事件语料库、暨南大学突发事件案例库等语料库的基础上，通过使用正则表达式匹配，定义如下的抽取规则：

规则1：(程度副词1)？(数词)*(程度副词1)？(人类数量词)？(受灾对象)？(修饰词)？{触发词}+.{1,4}|{触发词}+(数词)*(程度副词1)？(人类数量词)？(受灾对象)？

程度副词1：左右、大约、多、上下、余、至少等

数词：阿拉伯数字，中文数字，“两”(如：两死两伤)

人类数量词：人、名、例、位、个等

受灾对象：人、儿童、学生、老师、居民、工人、消防员、司机、师生等

修饰词：不同程度、全部、当场、受等

触发词：见触发词表？表示匹配前面字符0-1次

*表示匹配前面字符0-n +表示匹配前面字符1-n次

.表示匹配任意字符

上述表达式对未造成人员伤亡，没有人受伤，未收到人员受伤等信息无法抽取。针对上述情况，补充如下规则：

规则2：(0伤亡词表)+.{1,6}(人类数量词)？(受灾对象)？({伤亡词表})

0伤亡词表：未、没有、无人、尚无、0等

算法如下：

在对事件结果经济损失的抽取过程中，类似于伤亡属性抽取，采用文体、词表和规则相结合的方法。其中所构建经济损失词表见表4。

表4损失词表

对经济损失存在的特点，使用正则表达式方法，定义如下的抽取规则：

规则3：(损失词)+(程度副词2)？(数字\.数字)+(数词)*(程度副词2)？(单位量词)+研究发现上述匹配模式无法对如下表达进行正确匹配，“倒塌房屋30户99间，重损2769户9626间……”，针对此类情况，定义如下规则：

规则4：(损失词)+(程度副词2)？(数词)+(单位量词)？(数字)+(单位量词)？

程度副词2：约、左右、已达、多、至少等

损失词：见损失词表

数字：阿拉伯数字、中文数字、“两”等

数词：十、百、千、万、十万、百万、千万、亿、十亿、百亿、千亿

单位量词：元、人民币、美元、间、公顷、平方米、头、亩、公里、户、只、m3、处等

\.：\转义字符，代表普通圆点符号

本发明实施例采用的设备是4核Intel(R)Core(TM)2.3GHz i5-6200U CPU，Win10。软件环境采用Python3.6编程语言，使用PyCharm编程工具，该文算法由Python语言实现，包括网络爬虫、数据预处理、Word2Vec、核心算法实现等。选择中文维基百科语料库，训练Word2Vec模型，命名实体识别使用Python结巴分词

本发明选择湖北地区新闻为研究对象，新闻网站选择影响力大、涉及范围广、权威性高的网站。通过对各大网站的浏览和分析，选择合适新闻板块，爬虫获取新闻内容，保存新闻标题、报道时间、新闻内容、新闻链接。总计爬取新闻共有11865条新闻，去除部分异常错误、图片新闻等，共收集8123条内容完整新闻。从新闻预料库筛选出的突发事件新闻，随机选取100条进行结果测试。

本发明在基于文体和词表的同时并入了基于规则的思想精准提取事件中的数据项，本发明算法框架本文采用Python语言实现，PyCharm编程工具编写，MYSQL数据库，调用结巴分词库命名实体识别算法以及gensim库实现Word2Vec算法，下面介绍算法的过程：

编写网络爬虫脚本，调用re、BeautifulSoup、requests、xml库，解析网页结构，获取网页新闻，保存新闻的标题、报道时间、新闻内容、报社信息、新闻链接到数据库中。

新闻预处理，利用字符串替换新闻中的字符乱码，使用len函数计算新闻内容的长度，当长度小于30时，从数据库中删除这条新闻。

突发事件的识别与分类，根据构建的基础词表和子关键词表，使用决策表方法进行突发事件分类，根据突发事件的识别与分类算法流程，识别出新闻预料中的突发事件并对突发事件分类。

(1)突发事件信息抽取模块，基于文体的事件摘要获取，调用MMR算法。

(2)基于文体的时间属性获取，根据分析的突发事件时间属性特点和时间表达规律，主要进行突发事件时间属性的识别和时间格式的转换，先使用正则表达式识别出新闻标题和新闻首段包含的各类时间信息，统一转换为YYYY-MM-dd形式，比较时间大小，返回时间发生时间。

(3)基于文体和词表的地点属性获取，先根据中国地名表，建立好各省市的详细地名信息，根据数据结构算法，对地名信息采用树结构。使用结巴分词中，命名实体识别方法，识别出新闻标题和新闻手段中出现的地点信息，根据建立的树结构，返回完整的突发事件地点信息。

(4)基于文体和词表的伤亡属性获取，先构建的伤亡词表，根据正则表达式方法，定义相关规则1、2，上述有具体说明，识别出突发事件中的伤亡属性。

(5)基于文体和词表的经济损失属性获取，同伤亡属性的提取，先构建的经济损失词表，根据正则表达式方法，定义相关规则3、4，上述有具体说明，识别出突发事件中的经济损失属性。

根据文体和词表的方法，对突发事件基本信息5个数据项的提取，针对提出的方法，进行新闻语料库和公开语料库测试，平均准确率分别为87.89％、91.29％，平均召回率分别为81.76％、87.91％，结果见表1，表2所示。

表1突发事件信息抽取结果

表2突发事件信息抽取结果

本发明对新闻语料库和公开语料库进行测试，做了结果对比分析：

网络自由文本，表达方式多变、来源广泛且目前没有针对突发事件新闻的报道的统一写作方式，因此需要定制各种各样的规则，导致新闻语料库平均准确度略低。

使用公开语料库的准确率和召回率普遍高于自定义构建的新闻语料库，主要是因为CEC语料库是半结构化的语料库，经过众多专家学者精心挑选新闻构建，结构规范，表达具有一定的规律性。

地点属性抽取结果低于前者，主要原因是100条新闻数据中包含了大量的交通事故类型突发事件，导致抽取过程中一些路段名无法识别，因此地点属性识别效果准确率只有79.38％，召回率为77.00％。

本发明针对非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题，提出了从Web新闻中抽取突发事件属性的方法，该方法首先分析研究了Web文本和新闻文体的特征，利用Google Word2Vec对专家构建的词表进行扩展，针对突发事件的不同属性制定了不同的抽取方法：采用词表进行事件分类，采用文体特征进行时间、事件摘要的抽取，采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明，采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时，平均准确率分别为87.89％、91.29％，平均召回率分别为81.76％、87.91％，能满足应急管理需求。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于文体和词表的突发事件信息抽取方法，其特征在于，包括以下步骤：

步骤1：获取新闻网站内容作为初始新闻语料库；

步骤2：事件识别与分类；

对初始新闻语料库进行预处理，判断新闻报道是否为突发事件，并在此基础上对获取新闻进行分类；

步骤3：信息抽取；

完成突发事件基本属性的抽取，实现突发事件信息结构化。

2.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤2中，所述对初始新闻语料库进行预处理，包括去除新闻中因文本爬取保存过程中发生的字符乱码，舍弃新闻内容字数少于30个字符的新闻。

3.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤2中，判断新闻报道是否为突发事件，首先以突发事件类型构建基础词表，基础词表由领域专家构建；利用Google Word2Vec，以基础词表为核心，无监督地生成扩充词表，选取Word2Vec计算出来的词中相关度最高的前10个词构成子关键词；

然后判断输入新闻是否包含基础词表中关键词，若包含则属于该基础词表所属类型，若不包含则统计输入新闻包含扩充词表中子关键词个数，若大于2，则该新闻属于扩充词表所属类型，反之，该新闻不属于突发事件。

4.根据权利要求3所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤2中，所述对突发事件分类，包含四类：事故灾害、公共卫生、社会安全、自然灾害。

5.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤3中，将web新闻时间分为新闻发表时间pt、新闻报道时间rt、事件发生时间et；在突发事件时间基本属性抽取过程中，对于新闻的时间属性抽取，依次提取新闻发表时间pt、新闻报道时间rt、事件发生时间et，若成功提取，则覆盖前一时间。

6.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤3中，在突发事件基本属性抽取过程中，对于事件摘要属性抽取，采用基于最大边界相关法MMR，分别计算句子在文本中的重要性分值和句子与已被选择成摘要的句子之间的相似度最大值，按照比例相减，取得分最高的句子加入摘要集。

7.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤3中，在突发事件基本属性抽取过程中，对于突发事件地点属性抽取，根据中国地名，建立各省市详细的地名表，采用树结构存储；在对新闻中地名实体进行识别后，遍历地名结构树，从而得到突发事件完整地点。

8.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤3中，在突发事件基本属性抽取过程中，对于突发事件伤亡属性抽取，采用文体、词表和规则相结合的方法，首先构建伤亡词表，同时定义相关规则进行突发事件伤亡属性抽取。

9.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤3中，在突发事件基本属性抽取过程中，对于突发事件的经济损失属性抽取，采用文体、词表和规则相结合的方法，首先构建损失词表识别描述经济损失的句子，然后根据文体特点和规则定义正则抽取经济损失属性。

10.一种基于文体和词表的突发事件信息抽取系统，其特征在于：包括信息获取模块、事件识别与分类模块、信息抽取模块；