CN108763333B

CN108763333B - 一种基于社会媒体的事件图谱构建方法

Info

Publication number: CN108763333B
Application number: CN201810445536.2A
Authority: CN
Inventors: 张日崇; 马宏远; 王飞; 杜翠兰; 王玥; 柳毅; 李建欣; 赵晓航; 胡春明
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2022-05-17
Anticipated expiration: 2038-05-11
Also published as: CN108763333A

Abstract

本发明则提出一种基于社会媒体的事件图谱构建方法，首先进行多源数据预处理，接着对预处理后的数据进行多源事件信息抽取，然后通过事件关系评价对事件间关系进行判定，最后进行实体信息融合，对异构图中的实体进行属性补全。本发明将事件看做抽象实体，基于社会媒体文本数据对抽取事件基本构成要素，事件进行关联，并融合已有结构化知识库构建事件图谱，这样能够提供更全面更直接的面向事件的信息检索服务，还能通过将传统非结构化文本内容的研究转化为基于图的研究，有利于发掘更深层次的信息。

Description

一种基于社会媒体的事件图谱构建方法

技术领域

本发明涉及一种事件图谱构建方法，尤其涉及一种基于社会媒体的事件图谱构建方法。

背景技术

随着互联网的迅速普及，各类社会网络媒体蓬勃发展，这些社会媒体已成为人们发布、获取、传播事件资讯最为重要的渠道，对这些事件进行整理和研究有助于人们了解事件发展规律、指导生产生活，在新闻推荐、舆情分析等领域也有广泛需求和应用。然而数据源及数据量的爆炸式增长固然意味着更丰富信息，但无结构的组织方式、低价值密度等特性也给事件信息挖掘带来了挑战，将这些数据转化成结构化的、带层级关联关系的事件知识，将有助于解决该问题。

从数据源总体情况来看，当前社会网络媒体中的事件数据往往散布在各种非结构化网页中，包含大量无用数据，不利于对信息的有效分析和利用，其主要存在以下三方面问题：①信息冗余度高而价值密度低，网页数据噪声多；②数据规模大且分散，难以实现对海量事件数据高效查询获取；③缺乏统一规范，难以发现信息与信息间的层次结构和关联性。

现有技术中，对事件进行结构化表示的主流方法是利用事件抽取技术，从自然语言文本中抽取事件有用的信息。如元事件抽取主要针对短文句、段落中的独立事件，首先对事件触发词进行识别找到事件句，再对时间、地点、人物等基本要素进行抽取，而主题事件抽取则在此基础上面向长文本或者多文本，对与同一主题直接相关的元事件进行聚合。然而事件抽取技术仅仅针对文本进行浅层处理，最终产物以事件库为主，并未深入到语义层面，难以满足如关联分析、关联查询等需求，且事件抽取往往针对单一数据源进行处理，不能充分发挥多源数据优势丰富事件库中的要素信息，提升信息价值密度。

发明内容

针对以上问题，为挖掘社会媒体事件结构信息及事件间关联关系，提高多源事件信息的浏览、检索效率，强化事件库归纳、推理能力，本发明则提出将事件看做抽象实体，基于社会媒体文本数据对抽取事件基本构成要素，事件进行关联，并融合已有结构化知识库构建事件图谱，这样能够提供更全面更直接的面向事件的信息检索服务，还能通过将传统非结构化文本内容的研究转化为基于图的研究，有利于发掘更深层次的信息。本发明对以新闻、百科、微博为代表的多源社会化网络媒体数据进行采集作为数据输入，以事件为核心实体，识别数据中事件及其相关要素形成事件元组，通过事件关系评价、实体信息融合等技术，再利用百科知识库对事件信息进行补全，完成社会媒体的事件图谱构建。

本发明提出一种基于社会媒体的事件图谱构建方法，首先进行多源数据预处理，接着对预处理后的数据进行多源事件信息抽取，然后通过事件关系评价对事件间关系进行判定，最后进行实体信息融合，对异构图中的实体进行属性补全。

附图说明

图1为本发明一实施例的事件图谱；

图2为本发明的图谱构建任务流程图；

图3为本发明的新闻爬虫基本工作流程；

图4为本发明的信息抽取的主要技术和任务图；

图5为本发明的信息融合子模块的流程图。

图6为本发明一实施例的转移量矩阵。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

近年来，知识图谱及相关的技术逐渐受到重视，不同于传统的信息抽取，知识图谱技术从数据获取、数据融合、知识计算三方面都强调对多源数据尤其已有知识库的利用，通过“实体-关系-实体”三元组，将现实世界中的实体与概念映射到一个语义网络中，能够有效解决开放互联网大数据信息价值密度低的问题，特别适用于实体相关、语义相关的信息检索任务。传统知识图谱主要研究对象多是客观实体，对实体相关属性、关系进行挖掘。

为挖掘社会媒体事件结构信息及事件间关联关系，提高多源事件信息的浏览、检索效率，强化事件库归纳、推理能力，本发明则提出将事件看做抽象实体，基于社会媒体文本数据对抽取事件基本构成要素，事件进行关联，并融合已有结构化知识库构建事件图谱，这样能够提供更全面更直接的面向事件的信息检索服务，还能通过将传统非结构化文本内容的研究转化为基于图的研究，有利于发掘更深层次的信息。

本发明对以新闻、百科、微博为代表的多源社会化网络媒体数据进行采集作为数据输入，以事件为核心实体，识别数据中事件及其相关要素形成事件元组，通过事件关系评价、实体信息融合等技术，再利用百科知识库对事件信息进行补全，完成社会媒体的事件图谱构建。如图1所示的实施例是“朝鲜第五次核试验”事件的部分图谱展示，图中将一系列相关事件关联且具备一定的预测能力。

如图2所示为本发明的社会媒体的事件图谱构建任务分解图。具体构建过程分为以下四部分：

(1)数据采集预处理

构建事件图谱需要大量的事件文本语料，本发明选取了国内外新闻、百科及部分特定微博号进行定向采集，为实现大规模采集，通过预设爬虫解析模板保证采集精度，当因页面改版等原因导致模板失效时，通过无监督网页标签打分进行通用抽取，实现自适应解析，可以有效减少人工模板制定工作量。

(2)多源事件信息抽取

本发明提出以多维度事件要素元组作为事件表示，利用实体识别等技术结合排序算法，对事件实体(人物、组织、时间等)、主题类别、谓词等要素进行抽取。并通过聚类、索引辅助解决跨源多文本事件发现、要素合并问题，将非结构化的多源社会媒体文本转化为结构化的元事件要素八元组。

(3)事件关系评价

为降低冗余、实现关联查询，需要对事件间关系进行判定。结合现实需求，本发明指定了事件间的三类关系：共指(描述同一主题的不同事件)、关联(同一主题不同阶段事件，顺承或因果)、同类(具有相同属性的不同事件)关系，本发明在事件要素元组基础上，提出实体相似度和语义相似度相结合的方法对事件关系进行量化，完成事件关系评价，构建事件异构图。

(4)实体信息融合

为丰富图中信息，可以融合已有百科实体知识，对异构图中的实体进行属性补全，这涉及到事件实体指称与百科词条之间的实体链接问题。本发明提出利用百科搜索自动构建同义词库，利用WMD算法对实体指称上下文与百科词条描述相关度进行评价，结合两者解决链接问题。

本发明中数据采集工作均采用网络爬虫的方式完成，主要针对百科数据、新闻网站、部分新浪微博数据进行采集：其中一则新闻往往就是一个事件，可以辅助事件发现，而微博(及新闻评论)信息维度更广，更能体现民意等信息，百科数据可构建结构化知识库，用于融合丰富事件知识。为了保证数据采集过程中文本信息的统一性(同一类数据格式规范一致)、完整性(不丢失某些字段信息)和实用性(避免无价值字段的采集)，需要针对不同网站的页面格式进行定制，出于对易用性和易维护性的考虑，本发明使用了WebMagic开源爬虫框架来实现基本爬虫功能，同时移植ContentExtractor网页正文解析工具实现网页自适应解析。如下表1是数据采集总体说明：

表1

对于百科类网页，主要针对包含Linked Data信息的Description半结构化字段以及包含结构化信息的InfoBox字段进行采集；对于微博数据针对主流媒体账号进行了定向爬取。新闻是本发明事件分析的重点，如图3所示为新闻爬虫基本工作流程。以新闻网站为例介绍爬虫工作原理：对于主流新闻网页，页面逻辑均为列表页-详情页两级结构，可以通过定制解析器实现递归爬取。

元事件指的是描述单一动作发生或单一状态变化的事件，从本发明所使用的数据来看，一则新闻或一条微博通常都只包含一个事件，所以本发明重点研究了对元事件信息的抽取。本发明将事件定义为一个八元组<时间，地点，人物(组织)，谓词(动作)，摘要(描述)，关键词，情感(评价)，类别>，其中前三类可以看做传统的命名实体识别任务。如图4所示为信息抽取的主要技术和任务，下面对事件抽取生成八元组结构化信息的过程进行分别阐述。

本发明使用了CRF++工具基于MSRA公开数据集对CRF模型进行训练，根据社会媒体事件一步优化训练特征，选取窗口大小为3而非1。实体抽取的一个示例如表2所示：

表2

结合社会媒体事件特征，主要将事件划分为五大类，参考国务院应急管理条例确定分类标准，具体类别如下表3。

表1

对于其他类型的事件，则直接予以忽略，由于新闻一般自带经过人工整理的类别标签(如国际新闻、军事新闻等)，这部分标签可以辅助分类，所以实现过程中首先对事件相关新闻的类别标签进行映射。如果不能确定所属类别，接下来则对文本中关键字利用项目提供的类别关键词库进行匹配分析，类别关键词库由开源细胞词库与word2vec近义词扩展得到，可以实现常见词的分类，如“地震”对应“自然灾害类”，“雾霾”及其相关近义词如“PM2.5”对应环境卫生类。但是对于部分词如“火灾”，词库无法判定是自然灾害还是安全事故类，使用SVM多分类器对文本主题进行判定。

这里的谓词主要指动作，即元事件触发词，如“某国元首访问”中的“访问”这一动作。谓词通常是动词或动词性短语，本发明使用开源工具jieba词性标注后动词词性的词作为谓词候选词，但是经过了两步筛选和打分：①谓词通常与命名实体出现在同一句话中，所以将谓词抽取范围限制在命名实体出现的左右两句话中。②因为同一事件相关文本较多，同一个动作表示方式有很多种形式，所以本发明首先对相关谓词候选词利用word2vec向量化表示，对近义词进行合并，在通过频率排序的方式，选取出现频率最高的动词作为事件谓词。

事件摘要抽取指的是从事件相关文本中，选取或生成最能概括表达该事件的句子。在具体实现过程中，针对不同微博和新闻不同数据各自特点，设计了不同摘要提取方法。首先是新闻，对于主流新闻网站，一般会有对新闻的人工编辑摘要，对这部分有用信息可以利用爬虫直接爬取复用，对于缺少人工摘要的新闻，可以直接选取标题作为摘要。对于微博文本，首先需要对其内容进行过滤HTML标签、表情符等预处理，接着判断是否带有话题标签，如果带有话题标签则使用话题标签作为摘要，如果缺少话题标签，则通过对比句中单词TF-IDF值之和，对句子重要程度进行打分，排序选取摘要句。

摘要抽取最后一步是要对上述处理之后的摘要候选句进行排序，同样经过句向量比较、合并之后，按照出现频次排序的方式，选取出出现频率最高的摘要句作为事件摘要。具体实现过程中，通常直接采用人工编辑的新闻摘要作为相关事件摘要，以保证准确度。

事件关键词抽取指的是对刻画该事件的最重要的词进行抽取，该任务与事件摘要抽取类似。同样针对不同数据类型各自特点，分步骤进行计算。对于新闻数据，同样一般会有人工编辑整理的关键词集，可以直接爬取复用，对于缺少人工整理关键词的新闻，可以选择命名实体识别得到的高频实体、谓词及高频实体词以及TF-IDF权重较高的词加入关键词集。对于微博文本，通过构建微博文本单词共现图，并通过快速异常子图检测算法快速得到表示微博的一些关键词图。运用该方法可以得到一个关于微博事件的关键词集合，通过word2vec计算相似度合并近义词后，选取top-5作为微博事件关键词。

经过上述处理，事件相关的每一份新闻和全部微博文本都形成了一个关键词集，同样在经过词向量相似度计算合并近义词，在按照的出现频次排序，选取出现次数最多的top-5关键词作为关键词集合。

本发明中事件关系指定为“共指”、“关联”、“同属”三类(“无关”关系不考虑)，分别针对以下场景：未合并的关于同一元事件的相关事件；与另一元事件具有演化(如出访行程)/因果(如案件的发生调查追责三个阶段)等时序关系的相关事件；发现同类/同主体的事件。在得到事件要素八元组的基础上，本发明采用基于元组异构图的方式对上述关系进行挖掘，相较于直接文本比较的方式，这种方式属性和结构更加清晰，便于关系计算。

当事件要素信息确定之后，事件与事件之间的关系也基本可以确定，通过计算主体、地点以及文本摘要等属性综合相似度来对事件关联度进行量化，给定两个事件E_i和E_j，对应要素元组表示为E_i:<time_i,loc_i,par_i,verb_i,desc_i,keys_i,topice_i>和E_j:<time_j,loc_j,par_j,verb_j,desc_j,keys_j,topic_j>，其中各项要素解释如表5：

表2

事件关联度主要基于现实规律：时间上相近的两个事件存在“共指”或“关联”关系的可能性更高，而发生在同一或相邻地点的事件同样具有“同属”或“关联”，同理，具有其他其他相似要素的事件可以被认为具有同属关系。定义事件E_i和E_j关联度为R_ij，当关系R_ij>θ(θ为预设阈值)时说明事件相关,i,j为正整数。具体量化公式主要分为两部分：实体关联度和语义关联度，其中实体关联度定义如式(1)：

式中满足α+β+γ+δ＝1，且α,β,γ,δ>0，根据事件主题类型，进行动态调整。事件实体关联度，包括时间、地点、人物、类型四者的相似度，这些是传统事件表示的基本要素，不涉及语义层面的计算。

其中时间相似度Sim_time是两个事件时间差(按小时计算)的反比函数，即事件时间越接近，相关度越高，取值区间为[0,1]；

对于主题相似度，考虑到“自然灾害类”和“安全事故类”事件可能带来次生影响，如“B地核爆炸”、“B地地震”和“C地发布核污染黄色预警”三者之间存在一定联系，所以具体实现时，如果两个事件类型一致，则Sim_topic(topic_i,topic_j)取1，如果存在自然灾害或安全事故，则将Sim_topic(topic_i,topic_j)取经验值1/2，如果不满足上述情形，则取0。

如果两个事件地点完全一致或某个地点包含于另一地点(如“K市”和“K市H区)，则认为事件地点相似度为1，否则取0，因此地点相似度量化公式如式(2)：

易知Sim_loc(loc_i,loc_j)取值区间为{0，1}。

对于事件人物相似度的计算，考虑到参与者集合一般元素较少，因此采用Jaccard相关系数进行量化，及考虑参与人物重叠度，具体公式如式(3)，取值区间为[0,1]：

另一部分是事件语义关联度，包括事件描述和动作词的相似度，利用词向量化中带有的事件语义信息，对事件相关度进行深层挖掘，其量化公式如下：

其中A+B＝1，且A,B>0，同样实现时根据事件主题类型进行动态调整。新闻描述和动词相似度计算方式为比较词向量与句向量之间的余弦相似度，取值区间均为[0,1]。

本发明中使用了一个四段函数来区分关系R_ij的类型，定义见式(5)：

其中0<θ₃<θ₂<θ₁<2，为关系划分所设置的阈值。

通过上述处理，最终将事件和事件关联，可以得到关于事件的异构图。对于共指事件，需要对要素元组及相关文本集合进行合并，而对于关联事件(通常是一些时间上间隔稍长或关键实体相同的相关事件)需要在图数据库中进行关联。

在构建社会媒体事件图谱过程中，需要对多源信息数据融合，由于中文自然语言本身的表达多样性和歧义性，而不同来源的数据间又缺少指向链接，所以需要计算事件实体指称项与候选百科词条实体间的语义相似度，分别针对一词多义(实体消歧)和多词一义(共指消歧)的情况进行处理。在抽取实体指称项之后，本发明选取百度百科词条作为实体名统一表述，提出了一种利用百科搜索引擎自动跳转功能，构建本发明信息融合子模块的方式，其总体处理步骤如图5所示为融合子模块处理流程图。

本发明以百度百科词条名作为同一实体的唯一表述，而实体消歧就是处理事件文本中实体指称项与多个词条名重名(一词多义)的问题。本发明根据指称项上下文与词条描述间的语义接近程度，利用词向量对词的语义相关度进行计算，实现实体消歧。例如事件描述“苹果市值突破X亿”中“苹果”的上下文，语义上更接近“苹果公司是美国的一家高科技公司”中的“苹果”，而非“苹果是蔷薇科苹果亚科苹果属植物”中的“苹果”。

首先利用词袋模型(nBOW)对文本进行表示，本发明中使用该实体指称项出现的前后三句作为输入，经过分词、去除停用词及指称项本身，组成词袋，

对于单词t_i，特征量为该词的word2vec词向量，

表示该词权重，其中i,j为正整数，c_i为该词在文档中出现次数，利用欧式距离计算词与词之间的相似度(相似度越高，转移代价越小)。

如图6所示构建转移量矩阵T_n×n，其中n为词袋中词的总个数，T_ij表示词t_i有多少语义转移到词t_j。以c(i,j)表示t_i、t_j间的转移代价(使用欧式距离衡量)，算法目标函数为最小化

约束条件为

求解得到wmd值即最终两个词袋之间的相转移代价，对“公司”、“市值”这类统计语义上接近的词转移代价更小，WMD方法可以进行实体消歧。

本发明使用共指消歧解决多个指称项对应于统一实体的问题，例如新闻中出现“北京航空航天大学”或“北航”等多个指称项都指向同一命名实体。其核心问题是定义不同指称项间的相似度，本发明采取了构建利用同义词表的方式，将不同名的指称项对统一应到标准唯一实体名(百度百科词条名)，以解决该问题。

对于事件中发现的命名实体，首先检索现有同义词典，如没有对应匹配，则通过百科网页API提交检索，解析网页抽取同义词，词条Description和InfoBox字段中往往也有“又称”“别名”等属性，使用正则表达式进行匹配抽取，因而也在抽取词条Description和InfoBox字段的同时将相关同一词对追加进同义词典。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于社会媒体的事件图谱构建方法，其特征在于，首先进行多源数据预处理，接着对预处理后的数据进行多源事件信息抽取，然后通过事件关系评价对事件间关系进行判定，最后进行实体信息融合，对异构图中的实体进行属性补全；

在所述多源数据预处理中使用了WebMagic开源爬虫框架来实现基本爬虫功能，同时移植ContentExtractor网页正文解析工具实现网页自适应解析，针对百科数据、新闻网站、新浪文本进行采集；在所述多源事件信息抽取中，包括五个任务，所述任务包括命名实体识别，事件分类，谓词抽取，摘要抽取，关键词抽取；在命名实体识别中，基于CRF++工具基于MSRA公开数据集对CRF模型进行训练，根据社会媒体事件一步优化训练特征，选取窗口大小为3；

事件具体类别包括自然灾害类，安全事故类，环境卫生类，社会安全类，政治军事类；所述事件分类中，首先对事件相关新闻的类别标签进行映射，如果不能确定所属类别，对文本中关键字利用项目提供的类别关键词库进行匹配分析，所述类别关键词库由开源细胞词库与word2vec近义词扩展得到实现常见词的分类，使用SVM多分类器对文本主题进行判定实现非常见词分类；

在所述摘要抽取中，对于主流新闻网站利用爬虫直接爬取复用，对于缺少人工摘要的新闻，直接选取标题作为摘要；对于微博文本，首先需要对其内容进行过滤HTML标签、表情符预处理，接着判断是否带有话题标签，如果带有话题标签则使用话题标签作为摘要，如果缺少话题标签，则通过对比句中单词TF-IDF值之和，对句子重要程度进行打分，排序选取摘要句；对所述摘要候选句进行排序，经过句向量比较、合并之后，按照出现频次排序的方式，选取出出现频率最高的摘要句作为事件摘要；

所述事件关系评价中，定义事件E_i和E_j关联度为R_ij，当关联度R_ij＞θ时说明事件相关，具体量化公式主要分为两部分：实体关联度和语义关联度，其中实体关联度公式为

所述time为事件时间，loc为事件地点，par为事件参与人物，topic为事件主体分类，式中满足α+β+γ+δ＝1，且α，β，γ，δ＞0，其中时间相似度Sim_time是两个事件时间差的反比函数，事件时间越接近，相关度越高，取值区间为[0，1]，对于主题相似度，如果两个事件类型一致，则Sim_topic(topic_i，topic_j)为1，如果存在自然灾害或安全事故，则Sim_topic(topic_i，topic_j)为1/2，如果均不满足上述情形，则Sim_topic(topic_i，topic_j)取0；如果两个事件地点完全一致或某个地点包含于另一地点，则认为事件地点相似度sim_loc(loc_i，loc_j)为1，否则取0；所述

所述事件语义关联度计算公式为：sim_sematic(E_i，E_j)＝A·Sim_desc(dese_i，desc_j)+B·Sim_verb(verb_i，verb_j)，所述desc为事件描述，所述verb为事件动作词，其中A+B＝1，且A，B＞0；所述关联度R_ij为：

其中0＜θ₃＜θ₂＜θ₁＜2，θ₁，θ₂，θ₃为关系划分阈值。

2.如权利要求1所述的方法，其特征在于，在所述实体信息融合中包括实体消歧和共指消歧，所述实体消歧首先利用词袋模型对文本进行表示，使用该实体指称项出现的前后三句作为输入，经过分词、去除停用词及指称项本身，组成词袋，对于单词t_i，特征量为该词的word2vec词向量

表示该词权重，其中c_i为该词在文档中出现次数，利用欧式距离计算词与词之间的相似度，以c(i，j)表示t_i、t_j间的转移代价，算法目标函数为最小化

约束条件为

求解得到wmd值即最终两个词袋之间的相转移代价；所述共指消歧采取了构建利用同义词表的方式，将不同名的指称项统一对应到标准唯一实体名。