CN106055658A

CN106055658A - 一种针对Twitter文本事件抽取的方法

Info

Publication number: CN106055658A
Application number: CN201610387008.7A
Authority: CN
Inventors: 郭利翔; 张鑫; 丁兆云; 李沛; 王晖; 邓经升; 乔凤才; 程佳军; 沈大勇; 曹建平
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2016-10-26

Abstract

本发明公开了一种针对Twitter文本事件抽取的方法，主要包括以下步骤：步骤一，从Twitter平台上采集推文数据，并存入数据库；步骤二，数据去重处理和文本预处理；步骤三，事件消息识别联合要素抽取，包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明利用基于规则的事件要素抽取的方法，针对每一个事件，标注其事件要素，主要为事件发生时间、地点、主体以及活动主题，可以更加准确地对采集到的推文进行事件抽取，实现事件的快速检测与发现。

Description

一种针对Twitter文本事件抽取的方法

技术领域

本发明属于信息技术领域，涉及一种针对Twitter文本事件抽取的方法。

背景技术

世界上每天都会发生大量不同社会事件，给日常生活与社会秩序带来利弊和程度不同的影响。其中，游行、静坐、罢工、罢课、罢市、“占领”之类的群体性抗议事件，往往会或大或小冲击社会稳定，有些甚至引发动荡、造成灾难性后果。以早几年爆发于北非和中东的“阿拉伯之春”运动为例，该事件引发了长达两年、横跨数国的动乱，使无数人流离失所、陷入困境，甚至卷入战争、失去生命，其后作用至今仍在中东、北非延续。

正因为与人类生活息息相关，所以人们一直期待能及时感知、甚至预知将会发生的群体性抗议事件，以便趋利避害或者未雨绸缪，尽可能免于灾难性后果。但长期以来，由于社会系统极度复杂、事件爆发地域相对分散，因而若非置身当地，则通常只能依靠新闻媒体或口口相传来获取相关消息，如此不仅导致信号不全不准，而且往往滞后明显，及时感知群体性抗议事件非常困难，更谈不上提前预测预判。

进入新世纪以后，随着各类社交网络的兴起与飞速普及，这种情况发生了巨大改观：全球各地的用户可以随时随地、随心随意地通过社交平台发布信息、分享自己的所听所见和所感所思。这样，单个的社交用户就起到了智能“社会传感器”的作用，而拥有大量不同用户的社交平台则构成了“社会传感网络”，可以为感知、甚至预知社会事件提供强有力的数据支撑。在众多社交平台中，微博平台Twitter的社会传感能力尤为突出，这主要由于：它具有轻载、易用、与移动互联网结合紧密、信息更新和扩散速度快、用户众多且位置分布等特点，人们用它实时记录和分享自己的见闻感思，由此构成了一个覆盖世界上所有有手机信号地域的庞大“社会传感网络”。特别是，Twitter通常并不对用户内容进行审查过滤，所以越来越多地被应用到群体性抗议事件中，用以发布实况、表达感想，甚至进行事前策划组织和通知广告。这些Twitter微博文本(以下简称“推文”)信息为快速准确检测群体性抗议事件提供了数据基础，使得利用计算科学与数据科学的理论、方法与工具来感知和预测这类社会事件成为可能。

但长期以来，针对Twitter事件检测技术的研究主要集中于两类方法：一类通过话题建模与聚类，以无监督方式实现开放域(或者说通用)事件发现；另一类借助关键词匹配或者一些有监督分类器来实现特定类事件发现。前一类方法存在的问题是：将事件与话题混淆，用关键词(主要是实体名和触发词)的词频向量或者概率分布来形式化描述事件，借助无监督聚类来实现事件发现，这就导致所检测到的常常是一系列事件的集合(实际上是话题)，而且检测结果中一般并不包含事发时间与地点、参与群体等重要信息。而后一类方法存在的问题是：由于通常没有把时间、地点约束加入事件消息识别过程，所以所检测到的常常只是一些事件推文集合，一般也不能直接提供事发时间与地点等重要信息。

从实际应用的需要来看，在海量推文中快速发现群体性抗议事件的相关信息固然重要，但能够第一时间知悉其时间、地点、参与群体、所表达诉求等信息，对于准确感知和提早预判这类事件更具意义，因为这些信息是我们开展社会管理、危机管控、风险规避等工作的重要决策依据。

发明内容

针对上述现有技术存在的缺陷，以及现实需求，本发明的目的旨在采集twitter上的推文数据，对之进行事件抽取，得到相应的事件结构化描述。

为实现上述发明目的，本发明采用的基本技术方案包括如下内容：一种针对Twitter文本事件抽取的方法，主要包括以下步骤：

步骤一，从Twitter平台上采集推文数据，并存入数据库；

步骤二，文本数据预处理：(1)数据去重处理，把内容基本或完全一致的推文进行去重处理；(2)文本预处理，首先是切句处理，将文本处理为句子级；然后对句子进行中文分词，以满足后续分析需要；

步骤三，事件消息识别联合要素抽取，包括：基于触发词匹配的事件消息识别，使用事件触发词对已采集的去重数据进行过滤，得到目标结果；时间表达式识别，利用时间正则表达式以及自定义时间词库作为文本特征，对推文进行时间要素抽取，如果存在时间信息，则认为推文确实为事件推文，反之则认为是垃圾信息，不再提取其他要素；基于词库的地名实体识别，构建地名词典，并加入命名实体识别工具，从事件推文内容中抽取地名，从而得到事件的位置信息；基于词库的主体抽取，构建人物、团体词典，将这些词典加入命名实体识别工具，完成事件主体的抽取；活动主题抽取，根据活动主题要素完成事件抽取。

进一步地，步骤一包括两种数据采集模式：1)基于关键词查询的推文采集，初始采集的过程主要基于关键词在Twitter API中进行搜索的到相关推文；2)基于重点用户的推文采集，根据关键词查询采集得到的推文，选取其中重点关注的用户专门采集这些用户的推文。

进一步地，其中步骤二文本数据预处理还包括以下内容：针对使用Twitter自带的转发功能进行转发的推文，在去重之前使用预置的正则表达式对Twitter特殊标记符号以及URL网址字符串进行过滤。

进一步地，步骤三中，在触发词模式匹配之前，进行摘要句提取，在摘要句提取完毕后，根据触发词模式匹配推文文本，若匹配的句子为摘要句，则继续匹配，得到事件详情句，若触发词仅出现在摘要句中，则将摘要句视为详情句。

进一步地，步骤二中文本数据去重采用Google的CityHash64算法进行处理。

进一步地，步骤二中，切句是根据推文文本中表示停顿的标点符号对文本进行划分，形成具有较完整要素的句子和分句，切句分为两个层次：句子划分与分句划分，即：

D＝{s₁；s₂；...；s_n}＝{c₁,c₂,...,c_m}

其中，s_i(i＝1,2,...,n)为句子，c_j(j＝1,2,...,m)为分句，然后对切句后的推文进行中文分词和命名实体识别。

综上所述，本发明利用基于规则的事件要素抽取的方法，针对每一个事件，标注其事件要素，主要为事件发生时间、地点、主体以及活动主题，可以更加准确地对采集到的推文进行事件抽取，实现事件的快速检测与发现。

附图说明

图1为本发明法的针对Twitter文本事件抽取方法的一实施例的流程示意图；

图2为本发明所述Twitter数据采集模块结构图；

图3是本发明所述Twitter文本切句流程图。

具体实施方式

下面通过具体实施例对本发明作进一步的说明。

本发明的针对Twitter文本事件抽取的方法，主要包括以下步骤：

步骤一，从Twitter平台上采集推文数据，并存入数据库；

步骤二，文本数据预处理，主要包括：(1)数据去重处理，把内容基本或完全一致的推文进行去重处理；(2)文本预处理，首先是切句处理，将文本处理为句子级；然后对句子进行中文分词，以满足后续分析需要；

步骤三，事件消息识别联合要素抽取，主要包括基于触发词匹配的事件消息识别，时间表达式识别，基于词库的地名实体识别，基于词库的主体抽取以及活动主题抽取。

其中步骤一包括两种数据采集模式，如图2所示：

1)基于关键词查询的推文采集

初始采集的过程主要基于关键词在Twitter API中进行搜索的到相关推文，即用关键词列表中的关键词在Twitter中搜索。

2)基于重点用户的推文采集

根据关键词查询采集得到的推文，选取其中重点关注的用户专门采集这些用户的推文。

其中步骤二文本数据预处理具体包括以下内容：

1)数据去重处理。Twitter用户在进行推文转发时存在两种情形：一种是直接复制粘贴后一字不变地或是稍微修改后将原始推文重新发布；另一种则是大部分用户使用Twitter自带的转发功能进行转发，转发的关系错综复杂，既可能是将原始推文转发，也可能是将他人转发的推文再次转发。第二种情形通常会在正文前面加上一些特殊的符号进行标记(如“rt@”)，当这些标记长度过长时，将导致推文长度超出Twitter字数限制，从而使得正文末尾部分被截除，使得信息不再完整。因此，需要对转发推文进行去重处理，寻找到原始推文。由于Twitter特殊标记符号的存在，不能简单地利用文本完全一致进行匹配，需要在去重之前对“rt@”以及URL网址字符串进行过滤，使用如下正则表达式(大小写不敏感)进行匹配：

文本去重算法采用Google的CityHash64算法进行处理。

2)文本预处理。Twitter单推文事件抽取是逐句进行的，为更好地匹配事件抽取模式，需要对推文进行切句处理，将Twitter文本划分为具有较完整要素的句子和分句。Twitter短文本切句实际上是对标点符号的处理。标点符号是句子中表示停顿与句调的辅助性符号。即切句是根据推文文本中表示停顿的标点符号对文本进行划分，形成具有较完整要素的句子和分句的过程。根据这个定义，切句分为两个层次：句子划分与分句划分，即：

D＝{s₁；s₂；...；s_n}＝{c₁,c₂,...,c_m}

其中，s_i(i＝1,2,...,n)为句子，c_j(j＝1,2,...,m)为分句。切句的流程图参见图3。

然后要对切句后的推文进行中文分词，选用中科院NLPIR/ICTCLAS汉语分词系统2015版进行分词和命名实体识别。

以群体性抗议事件为例，其中步骤三包括五种要素抽取识别过程：

1)基于触发词匹配的事件消息识别。

事件触发词是进行要素抽取的核心和前提。由于事件由事件触发词驱动，因此进行事件消息识别，必须依赖于触发词。事件触发词，简称触发词，通常为动词，但在某些情况下也可能为名词或者形容词。输入文本中是否包含事件触发词，是判别文本是否包含事件描述最重要的特征。

以群体性抗议事件为例，为检索出相关的事件推文，本发明使用一些表示具体抗议行为的词对已采集的去重数据进行过滤，得到目标结果。此外，本文引入了一组新的词组，用以更好地匹配群体性抗议事件的前期策划类推文，这些词组均表示策划组织的含义，例如“举行”、“举办”、“组织”、“发起”、“号召”、“呼吁”等。为表示区别，根据词性与功能不同，可以上述提及的群体性抗议事件的两类触发词划分，分别称为行为词和计划词。通过计划词与行为词的组合，可以对抗议事件的通知策划以及现场报道进行初步检测，从而为事件要素抽取提供帮助。

针对群体性抗议事件，根据计划词和行为词的组合不同，可以形成触发词匹配模式：

(举行|举办|发起|组织|号召|呼吁|吁)(.*)(游行|示威|抗议|静坐|罢工|罢课|请愿|占领|连署|联署)

在群体性抗议事件推文中，存在大量“事件摘要句+事件详情句”的结构。由于事件摘要句通常是首句，位于事件详情句之前，且包含上述模式，因此在进行触发词匹配的过程中，通常只能匹配到摘要句，而无法对包含详细要素信息的详情句进行匹配。因此，为了更加准确地定位事件详情句，需要在触发词模式匹配之前，进行摘要句提取。

事件摘要句是对事件的总结性语句，这类语句通常位于推文的首句，以起总括和提示下文的作用。摘要句通常使用冒号(尤其是中文推文中的英文冒号)作为提示下文的标点符号。因此，根据首句是否以冒号结尾进行摘要句提取是一种较为准确的方法。此外，部分推文在进行事件概要描述时，可能会在首句中使用中括号结构，因此可以将中括号内的长文本内容认定为摘要句。这里使用的推文在文本去重处理时，已经将句首的一些Twitter标签，例如“rt@”以及URL等过滤，因此可以在判定中括号结构时判断是否以左中括号开头。

在摘要句提取完毕后，根据触发词模式匹配推文文本，若匹配的句子为摘要句，则继续匹配，得到事件详情句。部分推文也可能存在触发词模式仅出现在摘要句中，此时将摘要句视为详情句。即触发词模式匹配成功的句子称为事件详情句，也称为核心句，触发词所在的分句称为核心分句。核心(分)句中一般是对事件的详细描述，且不包含其他噪音信息，是下一步进行要素抽取的良好素材。

2)时间表达式识别

通常，事件推文文本中会存在一些描述时刻或时间段的数字及词组，通过识别和理解这些非结构化时间信息可以完成大部分时间信息的抽取。本发明利用复旦大学分词工具FNLP中的时间正则表达式以及自定义时间词库(法定节假日)作为文本特征，对推文文本进行匹配，得到时间的描述文本。在提取到时间描述文本的同时，FNLP还可以对这些时间表达式进行解析得到标准化形式。对于农历节日，例如“中秋”等，还进行了农历日期转换。

部分推文中存在多个时间表达式，需要进行筛选得到正确的事件时间。如果多个时间的标准化形式一致，则进行合并。如果两个时间表达式位于同一分句，且后者以括号分隔紧接前者，如“下周三(7月1日)”，则后者是对前者的解释，为同一时间，进行合并。如果两个时间表达式位于同一分句中，且之间有“到”、“至”一类的词，则引入时间段进行表示。在上述情况均不能满足的条件下，需要借助时间的位置特征进行判断，选择最合理的时间表达式。一般而言，时间与触发词的位置关系按照出现可能性大小进行排序分别为：位于核心分句前部分，计划词与行为词之间，且靠近计划词；位于核心句中核心分句之前单独形成子句；位于摘要句中。

在对推文进行时间要素抽取后，如果存在时间信息，则认为推文确实为事件推文；反之则认为是垃圾信息，不再提取其他要素。

3)基于词库的地名实体识别

Twitter中存在多种位置信息：推文附带的地理位置信息、用户信息中的位置、推文文本提及的位置。事件地点信息抽取的大部分相关研究，都是基于前二者的，尤其是通过用户社交关系推断推文发布位置。这些研究工作的基本假设是推文发布的地点为事件发生的地点，即用户在事件现场第一时间发布了该事件。对于面向事件快速发现的应用而言，这个假设是合理的。然而，对于群体性抗议事件而言，尤其是策划阶段的推文，这个假设通常不成立。即使是推文附带的位置信息，也不一定是事件发生地点，更不用提用户的位置或者其好友或粉丝的位置。因此，本文主要从事件推文内容中抽取地名，从而得到事件的位置信息。

Twitter文本的不规范性为地名抽取带来了挑战。不少地名存在一些独特的简称或别称，命名实体识别工具在进行识别时存在一定困难。为保证抽取准确，本文事先构建了地名词典(含每个地点的简称和别称)，并加入到命名实体识别工具的自定义词典中，较好地解决了地名的抽取。通过观察和统计，我们发现以顿号分隔的并列结构中常常可以为地名识别提供帮助。顿号并列结构中的词组词性是一致的，如果其中的某一个词被识别为地名，则其他词也很可能为地名。基于此，可以对地名词典进行扩展。

地名也存在多值的情况，通过其相对于触发词的位置关系，可以对地名进行筛选。地名一般位于核心分句的前部分，在计划词与行为词之间，且靠近计划词。少数情况下，可能只在摘要句中提及地名。

4)基于词库的抗议主体抽取

抗议主体一般为群体性抗议事件的发起或组织策划者。因此，抗议主体通常是个人或组织，其对应的命名实体为人名和机构名。群体性抗议事件，通常是由一些民间社团或者政党进行组织策划的，借助Wikipedia中关于近年来社会事件的描述，人工构建社会事件风云人物词典和社会事件组织团体(含简称或别称)词典。通过将这些词典加入命名实体识别工具，可以较好地完成主办方实体的抽取。

抗议主体一般紧贴计划词之前，中间不隔实词，可能会有少量的“将”、“将于”之类的虚词，即主办方后的动词或名词一般为计划词。此外，在摘要句中也可能存在抗议主体。

上述提及的抗议主体均为活动的组织策划者或发起人，并没有实现对活动参与者的抽取。通常，活动的组织策划者或发起人也为活动参与者。此外，一些泛指性名词，例如工人、学生通常是活动的参与者。通常，这些参与者以“数量词+泛指性名词”形式(如上千工人、数万学生等)出现在文本中。提取这类活动参与者需要构建人物团体泛指性名词词典。

5)活动主题抽取

活动主题通常位于核心句中核心分句后，以上文提到的动词开头，单独形成活动主题分句。也可能作为抗议的具体名称出现在行为词和计划词之间，因引号或书名号标记。极少数情况下存在于摘要句中。

本实施例以从Twitter平台上采集的数据集为实验分析的数据集，时间跨度为2015年5月至10月，用户的推文总数为173,783条。选择其中的中文推文，并经过去重后的数量为14,182条，如表1所示。

表1推文数量统计

推文总数	中文推文数量	去重后数量
			173,783	82,904	14,182

1、推文事件相关性与事件要素标注

测试数据集采用手工标注的方式，包括事件相关性标注与事件要素标注两部分内容。事件相关性标注主要构建Twitter事件消息识别的测试数据集。采集的推文数据过于庞大，而群体性抗议事件往往只占其中很少的部分。对整个推文数据进行相关性标注无疑是费时费力的，为减轻工作量，本文采用随机采样方式对整个推文数据集进行采样，对采样后的每条推文进行逐条标注，区分群体性抗议事件相关推文和其他推文。对于群体性抗议事件相关推文，还需要额外对事件要素进行位置标注，形成事件要素标注测试数据集。针对每一个事件，标注其事件要素，主要为事件发生时间、地点、抗议主体以及活动主题。为避免引起评价不便，要求事件要素标注文本必须选自推文文本，而非其他来源。

2、实验结果分析

从采集并去重后的数据集中检测并抽取群体性抗议事件的结构化描述信息。

(1)事件消息识别结果评价

对于推文的事件消息识别，使用F1-score作为评价准则，其中查准率为系统正确抽取的事件推文数量占所有抽取出的事件推文数量的比例，查全率为系统正确抽取的事件推文数量占所有正确事件推文数量的比例，即

经过实验，系统检测到的事件推文数量为499条(去重后)，其中正确的检测的事件推文为472条，所有标注的事件推文总数为598条。事件消息识别的F1-score如表2所示。

表2事件消息识别结果评价

查准率Precision	查全率Recall	F₁-score
			0.946	0.789	0.861

(2)事件要素抽取结果评价

单推文的事件要素抽取，使用F1-score对每个要素的抽取结果进行评价：

其中，se_i(i＝1,2,...,5)为第i个事件要素。由于事件行为要素有触发词直接确定，因此不予评价。

对于每个要素而言，系统正确抽取的要素项数TP为

T P = Σ_{k = 1}^{n} {isture}_{k}

其中，n为系统所有抽取出的事件推文总数，即n＝TP+FP。isture_k是评价第k条推文中该要素是否被正确抽取的指标。直观地，有

由于事件要素的描述文本完全来自于原始推文内容，因此可以通过比较事件要素抽取结果和标注结果实现评价工作。考虑到事件要素抽取工作和事件要素标注工作中可能出现的偏差，无法做到标注结果与抽取结果完全一致。在事件要素标注过程中，可能遇到同一个要素对应多个值的情况，需要进行多个标注，由于标注习惯不同，导致顺序可能不一致甚至是漏标。因此在进行比较时，使用最长公共字符串，共有字符串分为最长公共子串(Longest Common Substring)和最长公共子序列(Longest Common Subsequence)两种。其中，最长公共子串指的是两个字符串中的最长公共子串，要求子串一定连续。最长公共子序列指的是两个字符串中的最长公共子序列，不要求子序列连续。若匹配最长公共子串会出现错误，因此本文使用最长公共子序列占的比例作为标注结果与抽取结果的相似性：

当相似性crate大于等于阈值T(0＜T＜1)时，认为该要素被正确抽取，反之则不然，即

i s t u r e = \{\begin{matrix} 1, & i f c r a t e &GreaterEqual; T \\ 0, & o t h e r w i s e \end{matrix}

其中，阈值T可以灵活调节。

取阈值T＝0.5，则单推文事件要素抽取性能评价结果如表3所示。

表3单推文事件要素抽取评价

要素	查准率Precision	查全率Recall	F₁-score
				时间time	59.07％	84.67％	0.696
地点location	51.62％	74％	0.608
				抗议主体agent	51.16％	73.33％	0.603
活动主题theme	47.90％	68.67％	0.564

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种针对Twitter文本事件抽取的方法，其特征在于，主要包括以下步骤：

步骤一，从Twitter平台上采集推文数据，并存入数据库；

2.如权利要求1所述的针对Twitter文本事件抽取的方法，其特征在于：其中步骤一包括两种数据采集模式：

1)基于关键词查询的推文采集，初始采集的过程主要基于关键词在Twitter API中进行搜索的到相关推文；

2)基于重点用户的推文采集，根据关键词查询采集得到的推文，选取其中重点关注的用户专门采集这些用户的推文。

3.如权利要求1所述的针对Twitter文本事件抽取的方法，其特征在于：其中步骤二文本数据预处理还包括以下内容：针对使用Twitter自带的转发功能进行转发的推文，在去重之前使用预置的正则表达式对Twitter特殊标记符号以及URL网址字符串进行过滤。

4.如权利要求1所述的针对Twitter文本事件抽取的方法，其特征在于：步骤二中，在触发词模式匹配之前，进行摘要句提取，在摘要句提取完毕后，根据触发词模式匹配推文文本，若匹配的句子为摘要句，则继续匹配，得到事件详情句，若触发词仅出现在摘要句中，则将摘要句视为详情句。

5.如权利要求1所述的针对Twitter文本事件抽取的方法，其特征在于：步骤二中文本数据去重采用Google的CityHash64算法进行处理。

6.如权利要求1所述的针对Twitter文本事件抽取的方法，其特征在于：步骤二中，切句是根据推文文本中表示停顿的标点符号对文本进行划分，形成具有较完整要素的句子和分句，切句分为两个层次：句子划分与分句划分，即：

D＝{s₁；s₂；...；s_n}＝{c₁,c₂,...,c_m}