CN108763333B - 一种基于社会媒体的事件图谱构建方法 - Google Patents

一种基于社会媒体的事件图谱构建方法 Download PDF

Info

Publication number
CN108763333B
CN108763333B CN201810445536.2A CN201810445536A CN108763333B CN 108763333 B CN108763333 B CN 108763333B CN 201810445536 A CN201810445536 A CN 201810445536A CN 108763333 B CN108763333 B CN 108763333B
Authority
CN
China
Prior art keywords
event
topic
entity
events
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810445536.2A
Other languages
English (en)
Other versions
CN108763333A (zh
Inventor
张日崇
马宏远
王飞
杜翠兰
王玥
柳毅
李建欣
赵晓航
胡春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN201810445536.2A priority Critical patent/CN108763333B/zh
Publication of CN108763333A publication Critical patent/CN108763333A/zh
Application granted granted Critical
Publication of CN108763333B publication Critical patent/CN108763333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

本发明则提出一种基于社会媒体的事件图谱构建方法,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全。本发明将事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究,有利于发掘更深层次的信息。

Description

一种基于社会媒体的事件图谱构建方法
技术领域
本发明涉及一种事件图谱构建方法,尤其涉及一种基于社会媒体的事件图谱构建方法。
背景技术
随着互联网的迅速普及,各类社会网络媒体蓬勃发展,这些社会媒体已成为人们发布、获取、传播事件资讯最为重要的渠道,对这些事件进行整理和研究有助于人们了解事件发展规律、指导生产生活,在新闻推荐、舆情分析等领域也有广泛需求和应用。然而数据源及数据量的爆炸式增长固然意味着更丰富信息,但无结构的组织方式、低价值密度等特性也给事件信息挖掘带来了挑战,将这些数据转化成结构化的、带层级关联关系的事件知识,将有助于解决该问题。
从数据源总体情况来看,当前社会网络媒体中的事件数据往往散布在各种非结构化网页中,包含大量无用数据,不利于对信息的有效分析和利用,其主要存在以下三方面问题:①信息冗余度高而价值密度低,网页数据噪声多;②数据规模大且分散,难以实现对海量事件数据高效查询获取;③缺乏统一规范,难以发现信息与信息间的层次结构和关联性。
现有技术中,对事件进行结构化表示的主流方法是利用事件抽取技术,从自然语言文本中抽取事件有用的信息。如元事件抽取主要针对短文句、段落中的独立事件,首先对事件触发词进行识别找到事件句,再对时间、地点、人物等基本要素进行抽取,而主题事件抽取则在此基础上面向长文本或者多文本,对与同一主题直接相关的元事件进行聚合。然而事件抽取技术仅仅针对文本进行浅层处理,最终产物以事件库为主,并未深入到语义层面,难以满足如关联分析、关联查询等需求,且事件抽取往往针对单一数据源进行处理,不能充分发挥多源数据优势丰富事件库中的要素信息,提升信息价值密度。
发明内容
针对以上问题,为挖掘社会媒体事件结构信息及事件间关联关系,提高多源事件信息的浏览、检索效率,强化事件库归纳、推理能力,本发明则提出将事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究,有利于发掘更深层次的信息。本发明对以新闻、百科、微博为代表的多源社会化网络媒体数据进行采集作为数据输入,以事件为核心实体,识别数据中事件及其相关要素形成事件元组,通过事件关系评价、实体信息融合等技术,再利用百科知识库对事件信息进行补全,完成社会媒体的事件图谱构建。
本发明提出一种基于社会媒体的事件图谱构建方法,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全。
附图说明
图1为本发明一实施例的事件图谱;
图2为本发明的图谱构建任务流程图;
图3为本发明的新闻爬虫基本工作流程;
图4为本发明的信息抽取的主要技术和任务图;
图5为本发明的信息融合子模块的流程图。
图6为本发明一实施例的转移量矩阵。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
近年来,知识图谱及相关的技术逐渐受到重视,不同于传统的信息抽取,知识图谱技术从数据获取、数据融合、知识计算三方面都强调对多源数据尤其已有知识库的利用,通过“实体-关系-实体”三元组,将现实世界中的实体与概念映射到一个语义网络中,能够有效解决开放互联网大数据信息价值密度低的问题,特别适用于实体相关、语义相关的信息检索任务。传统知识图谱主要研究对象多是客观实体,对实体相关属性、关系进行挖掘。
为挖掘社会媒体事件结构信息及事件间关联关系,提高多源事件信息的浏览、检索效率,强化事件库归纳、推理能力,本发明则提出将事件看做抽象实体,基于社会媒体文本数据对抽取事件基本构成要素,事件进行关联,并融合已有结构化知识库构建事件图谱,这样能够提供更全面更直接的面向事件的信息检索服务,还能通过将传统非结构化文本内容的研究转化为基于图的研究,有利于发掘更深层次的信息。
本发明对以新闻、百科、微博为代表的多源社会化网络媒体数据进行采集作为数据输入,以事件为核心实体,识别数据中事件及其相关要素形成事件元组,通过事件关系评价、实体信息融合等技术,再利用百科知识库对事件信息进行补全,完成社会媒体的事件图谱构建。如图1所示的实施例是“朝鲜第五次核试验”事件的部分图谱展示,图中将一系列相关事件关联且具备一定的预测能力。
如图2所示为本发明的社会媒体的事件图谱构建任务分解图。具体构建过程分为以下四部分:
(1)数据采集预处理
构建事件图谱需要大量的事件文本语料,本发明选取了国内外新闻、百科及部分特定微博号进行定向采集,为实现大规模采集,通过预设爬虫解析模板保证采集精度,当因页面改版等原因导致模板失效时,通过无监督网页标签打分进行通用抽取,实现自适应解析,可以有效减少人工模板制定工作量。
(2)多源事件信息抽取
本发明提出以多维度事件要素元组作为事件表示,利用实体识别等技术结合排序算法,对事件实体(人物、组织、时间等)、主题类别、谓词等要素进行抽取。并通过聚类、索引辅助解决跨源多文本事件发现、要素合并问题,将非结构化的多源社会媒体文本转化为结构化的元事件要素八元组。
(3)事件关系评价
为降低冗余、实现关联查询,需要对事件间关系进行判定。结合现实需求,本发明指定了事件间的三类关系:共指(描述同一主题的不同事件)、关联(同一主题不同阶段事件,顺承或因果)、同类(具有相同属性的不同事件)关系,本发明在事件要素元组基础上,提出实体相似度和语义相似度相结合的方法对事件关系进行量化,完成事件关系评价,构建事件异构图。
(4)实体信息融合
为丰富图中信息,可以融合已有百科实体知识,对异构图中的实体进行属性补全,这涉及到事件实体指称与百科词条之间的实体链接问题。本发明提出利用百科搜索自动构建同义词库,利用WMD算法对实体指称上下文与百科词条描述相关度进行评价,结合两者解决链接问题。
本发明中数据采集工作均采用网络爬虫的方式完成,主要针对百科数据、新闻网站、部分新浪微博数据进行采集:其中一则新闻往往就是一个事件,可以辅助事件发现,而微博(及新闻评论)信息维度更广,更能体现民意等信息,百科数据可构建结构化知识库,用于融合丰富事件知识。为了保证数据采集过程中文本信息的统一性(同一类数据格式规范一致)、完整性(不丢失某些字段信息)和实用性(避免无价值字段的采集),需要针对不同网站的页面格式进行定制,出于对易用性和易维护性的考虑,本发明使用了WebMagic开源爬虫框架来实现基本爬虫功能,同时移植ContentExtractor网页正文解析工具实现网页自适应解析。如下表1是数据采集总体说明:
表1
Figure GDA0003555692960000051
对于百科类网页,主要针对包含Linked Data信息的Description半结构化字段以及包含结构化信息的InfoBox字段进行采集;对于微博数据针对主流媒体账号进行了定向爬取。新闻是本发明事件分析的重点,如图3所示为新闻爬虫基本工作流程。以新闻网站为例介绍爬虫工作原理:对于主流新闻网页,页面逻辑均为列表页-详情页两级结构,可以通过定制解析器实现递归爬取。
元事件指的是描述单一动作发生或单一状态变化的事件,从本发明所使用的数据来看,一则新闻或一条微博通常都只包含一个事件,所以本发明重点研究了对元事件信息的抽取。本发明将事件定义为一个八元组<时间,地点,人物(组织),谓词(动作),摘要(描述),关键词,情感(评价),类别>,其中前三类可以看做传统的命名实体识别任务。如图4所示为信息抽取的主要技术和任务,下面对事件抽取生成八元组结构化信息的过程进行分别阐述。
本发明使用了CRF++工具基于MSRA公开数据集对CRF模型进行训练,根据社会媒体事件一步优化训练特征,选取窗口大小为3而非1。实体抽取的一个示例如表2所示:
表2
Figure GDA0003555692960000052
Figure GDA0003555692960000061
结合社会媒体事件特征,主要将事件划分为五大类,参考国务院应急管理条例确定分类标准,具体类别如下表3。
表1
Figure GDA0003555692960000062
对于其他类型的事件,则直接予以忽略,由于新闻一般自带经过人工整理的类别标签(如国际新闻、军事新闻等),这部分标签可以辅助分类,所以实现过程中首先对事件相关新闻的类别标签进行映射。如果不能确定所属类别,接下来则对文本中关键字利用项目提供的类别关键词库进行匹配分析,类别关键词库由开源细胞词库与word2vec近义词扩展得到,可以实现常见词的分类,如“地震”对应“自然灾害类”,“雾霾”及其相关近义词如“PM2.5”对应环境卫生类。但是对于部分词如“火灾”,词库无法判定是自然灾害还是安全事故类,使用SVM多分类器对文本主题进行判定。
这里的谓词主要指动作,即元事件触发词,如“某国元首访问”中的“访问”这一动作。谓词通常是动词或动词性短语,本发明使用开源工具jieba词性标注后动词词性的词作为谓词候选词,但是经过了两步筛选和打分:①谓词通常与命名实体出现在同一句话中,所以将谓词抽取范围限制在命名实体出现的左右两句话中。②因为同一事件相关文本较多,同一个动作表示方式有很多种形式,所以本发明首先对相关谓词候选词利用word2vec向量化表示,对近义词进行合并,在通过频率排序的方式,选取出现频率最高的动词作为事件谓词。
事件摘要抽取指的是从事件相关文本中,选取或生成最能概括表达该事件的句子。在具体实现过程中,针对不同微博和新闻不同数据各自特点,设计了不同摘要提取方法。首先是新闻,对于主流新闻网站,一般会有对新闻的人工编辑摘要,对这部分有用信息可以利用爬虫直接爬取复用,对于缺少人工摘要的新闻,可以直接选取标题作为摘要。对于微博文本,首先需要对其内容进行过滤HTML标签、表情符等预处理,接着判断是否带有话题标签,如果带有话题标签则使用话题标签作为摘要,如果缺少话题标签,则通过对比句中单词TF-IDF值之和,对句子重要程度进行打分,排序选取摘要句。
摘要抽取最后一步是要对上述处理之后的摘要候选句进行排序,同样经过句向量比较、合并之后,按照出现频次排序的方式,选取出出现频率最高的摘要句作为事件摘要。具体实现过程中,通常直接采用人工编辑的新闻摘要作为相关事件摘要,以保证准确度。
事件关键词抽取指的是对刻画该事件的最重要的词进行抽取,该任务与事件摘要抽取类似。同样针对不同数据类型各自特点,分步骤进行计算。对于新闻数据,同样一般会有人工编辑整理的关键词集,可以直接爬取复用,对于缺少人工整理关键词的新闻,可以选择命名实体识别得到的高频实体、谓词及高频实体词以及TF-IDF权重较高的词加入关键词集。对于微博文本,通过构建微博文本单词共现图,并通过快速异常子图检测算法快速得到表示微博的一些关键词图。运用该方法可以得到一个关于微博事件的关键词集合,通过word2vec计算相似度合并近义词后,选取top-5作为微博事件关键词。
经过上述处理,事件相关的每一份新闻和全部微博文本都形成了一个关键词集,同样在经过词向量相似度计算合并近义词,在按照的出现频次排序,选取出现次数最多的top-5关键词作为关键词集合。
本发明中事件关系指定为“共指”、“关联”、“同属”三类(“无关”关系不考虑),分别针对以下场景:未合并的关于同一元事件的相关事件;与另一元事件具有演化(如出访行程)/因果(如案件的发生调查追责三个阶段)等时序关系的相关事件;发现同类/同主体的事件。在得到事件要素八元组的基础上,本发明采用基于元组异构图的方式对上述关系进行挖掘,相较于直接文本比较的方式,这种方式属性和结构更加清晰,便于关系计算。
当事件要素信息确定之后,事件与事件之间的关系也基本可以确定,通过计算主体、地点以及文本摘要等属性综合相似度来对事件关联度进行量化,给定两个事件Ei和Ej,对应要素元组表示为Ei:<timei,loci,pari,verbi,desci,keysi,topicei>和Ej:<timej,locj,parj,verbj,descj,keysj,topicj>,其中各项要素解释如表5:
表2
Figure GDA0003555692960000081
事件关联度主要基于现实规律:时间上相近的两个事件存在“共指”或“关联”关系的可能性更高,而发生在同一或相邻地点的事件同样具有“同属”或“关联”,同理,具有其他其他相似要素的事件可以被认为具有同属关系。定义事件Ei和Ej关联度为Rij,当关系Rij>θ(θ为预设阈值)时说明事件相关,i,j为正整数。具体量化公式主要分为两部分:实体关联度和语义关联度,其中实体关联度定义如式(1):
Figure GDA0003555692960000082
式中满足α+β+γ+δ=1,且α,β,γ,δ>0,根据事件主题类型,进行动态调整。事件实体关联度,包括时间、地点、人物、类型四者的相似度,这些是传统事件表示的基本要素,不涉及语义层面的计算。
其中时间相似度Simtime是两个事件时间差(按小时计算)的反比函数,即事件时间越接近,相关度越高,取值区间为[0,1];
对于主题相似度,考虑到“自然灾害类”和“安全事故类”事件可能带来次生影响,如“B地核爆炸”、“B地地震”和“C地发布核污染黄色预警”三者之间存在一定联系,所以具体实现时,如果两个事件类型一致,则Simtopic(topici,topicj)取1,如果存在自然灾害或安全事故,则将Simtopic(topici,topicj)取经验值1/2,如果不满足上述情形,则取0。
如果两个事件地点完全一致或某个地点包含于另一地点(如“K市”和“K市H区),则认为事件地点相似度为1,否则取0,因此地点相似度量化公式如式(2):
Figure GDA0003555692960000091
易知Simloc(loci,locj)取值区间为{0,1}。
对于事件人物相似度的计算,考虑到参与者集合一般元素较少,因此采用Jaccard相关系数进行量化,及考虑参与人物重叠度,具体公式如式(3),取值区间为[0,1]:
Figure GDA0003555692960000092
另一部分是事件语义关联度,包括事件描述和动作词的相似度,利用词向量化中带有的事件语义信息,对事件相关度进行深层挖掘,其量化公式如下:
Figure GDA0003555692960000093
其中A+B=1,且A,B>0,同样实现时根据事件主题类型进行动态调整。新闻描述和动词相似度计算方式为比较词向量与句向量之间的余弦相似度,取值区间均为[0,1]。
本发明中使用了一个四段函数来区分关系Rij的类型,定义见式(5):
Figure GDA0003555692960000101
其中0<θ321<2,为关系划分所设置的阈值。
通过上述处理,最终将事件和事件关联,可以得到关于事件的异构图。对于共指事件,需要对要素元组及相关文本集合进行合并,而对于关联事件(通常是一些时间上间隔稍长或关键实体相同的相关事件)需要在图数据库中进行关联。
在构建社会媒体事件图谱过程中,需要对多源信息数据融合,由于中文自然语言本身的表达多样性和歧义性,而不同来源的数据间又缺少指向链接,所以需要计算事件实体指称项与候选百科词条实体间的语义相似度,分别针对一词多义(实体消歧)和多词一义(共指消歧)的情况进行处理。在抽取实体指称项之后,本发明选取百度百科词条作为实体名统一表述,提出了一种利用百科搜索引擎自动跳转功能,构建本发明信息融合子模块的方式,其总体处理步骤如图5所示为融合子模块处理流程图。
本发明以百度百科词条名作为同一实体的唯一表述,而实体消歧就是处理事件文本中实体指称项与多个词条名重名(一词多义)的问题。本发明根据指称项上下文与词条描述间的语义接近程度,利用词向量对词的语义相关度进行计算,实现实体消歧。例如事件描述“苹果市值突破X亿”中“苹果”的上下文,语义上更接近“苹果公司是美国的一家高科技公司”中的“苹果”,而非“苹果是蔷薇科苹果亚科苹果属植物”中的“苹果”。
首先利用词袋模型(nBOW)对文本进行表示,本发明中使用该实体指称项出现的前后三句作为输入,经过分词、去除停用词及指称项本身,组成词袋,
对于单词ti,特征量为该词的word2vec词向量,
Figure GDA0003555692960000111
表示该词权重,其中i,j为正整数,ci为该词在文档中出现次数,利用欧式距离计算词与词之间的相似度(相似度越高,转移代价越小)。
如图6所示构建转移量矩阵Tn×n,其中n为词袋中词的总个数,Tij表示词ti有多少语义转移到词tj。以c(i,j)表示ti、tj间的转移代价(使用欧式距离衡量),算法目标函数为最小化
Figure GDA0003555692960000112
约束条件为
Figure GDA0003555692960000113
Figure GDA0003555692960000114
求解得到wmd值即最终两个词袋之间的相转移代价,对“公司”、“市值”这类统计语义上接近的词转移代价更小,WMD方法可以进行实体消歧。
本发明使用共指消歧解决多个指称项对应于统一实体的问题,例如新闻中出现“北京航空航天大学”或“北航”等多个指称项都指向同一命名实体。其核心问题是定义不同指称项间的相似度,本发明采取了构建利用同义词表的方式,将不同名的指称项对统一应到标准唯一实体名(百度百科词条名),以解决该问题。
对于事件中发现的命名实体,首先检索现有同义词典,如没有对应匹配,则通过百科网页API提交检索,解析网页抽取同义词,词条Description和InfoBox字段中往往也有“又称”“别名”等属性,使用正则表达式进行匹配抽取,因而也在抽取词条Description和InfoBox字段的同时将相关同一词对追加进同义词典。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (2)

1.一种基于社会媒体的事件图谱构建方法,其特征在于,首先进行多源数据预处理,接着对预处理后的数据进行多源事件信息抽取,然后通过事件关系评价对事件间关系进行判定,最后进行实体信息融合,对异构图中的实体进行属性补全;
在所述多源数据预处理中使用了WebMagic开源爬虫框架来实现基本爬虫功能,同时移植ContentExtractor网页正文解析工具实现网页自适应解析,针对百科数据、新闻网站、新浪文本进行采集;在所述多源事件信息抽取中,包括五个任务,所述任务包括命名实体识别,事件分类,谓词抽取,摘要抽取,关键词抽取;在命名实体识别中,基于CRF++工具基于MSRA公开数据集对CRF模型进行训练,根据社会媒体事件一步优化训练特征,选取窗口大小为3;
事件具体类别包括自然灾害类,安全事故类,环境卫生类,社会安全类,政治军事类;所述事件分类中,首先对事件相关新闻的类别标签进行映射,如果不能确定所属类别,对文本中关键字利用项目提供的类别关键词库进行匹配分析,所述类别关键词库由开源细胞词库与word2vec近义词扩展得到实现常见词的分类,使用SVM多分类器对文本主题进行判定实现非常见词分类;
在所述摘要抽取中,对于主流新闻网站利用爬虫直接爬取复用,对于缺少人工摘要的新闻,直接选取标题作为摘要;对于微博文本,首先需要对其内容进行过滤HTML标签、表情符预处理,接着判断是否带有话题标签,如果带有话题标签则使用话题标签作为摘要,如果缺少话题标签,则通过对比句中单词TF-IDF值之和,对句子重要程度进行打分,排序选取摘要句;对所述摘要候选句进行排序,经过句向量比较、合并之后,按照出现频次排序的方式,选取出出现频率最高的摘要句作为事件摘要;
所述事件关系评价中,定义事件Ei和Ej关联度为Rij,当关联度Rij>θ时说明事件相关,具体量化公式主要分为两部分:实体关联度和语义关联度,其中实体关联度公式为
Figure FDA0003527402910000021
所述time为事件时间,loc为事件地点,par为事件参与人物,topic为事件主体分类,式中满足α+β+γ+δ=1,且α,β,γ,δ>0,其中时间相似度Simtime是两个事件时间差的反比函数,事件时间越接近,相关度越高,取值区间为[0,1],对于主题相似度,如果两个事件类型一致,则Simtopic(topici,topicj)为1,如果存在自然灾害或安全事故,则Simtopic(topici,topicj)为1/2,如果均不满足上述情形,则Simtopic(topici,topicj)取0;如果两个事件地点完全一致或某个地点包含于另一地点,则认为事件地点相似度simloc(loci,locj)为1,否则取0;所述
Figure FDA0003527402910000022
所述事件语义关联度计算公式为:simsematic(Ei,Ej)=A·Simdesc(desei,descj)+B·Simverb(verbi,verbj),所述desc为事件描述,所述verb为事件动作词,其中A+B=1,且A,B>0;所述关联度Rij为:
Figure FDA0003527402910000023
其中0<θ3<θ2<θ1<2,θ1,θ2,θ3为关系划分阈值。
2.如权利要求1所述的方法,其特征在于,在所述实体信息融合中包括实体消歧和共指消歧,所述实体消歧首先利用词袋模型对文本进行表示,使用该实体指称项出现的前后三句作为输入,经过分词、去除停用词及指称项本身,组成词袋,对于单词ti,特征量为该词的word2vec词向量
Figure FDA0003527402910000024
表示该词权重,其中ci为该词在文档中出现次数,利用欧式距离计算词与词之间的相似度,以c(i,j)表示ti、tj间的转移代价,算法目标函数为最小化
Figure FDA0003527402910000031
Figure FDA0003527402910000032
约束条件为
Figure FDA0003527402910000033
Figure FDA0003527402910000034
求解得到wmd值即最终两个词袋之间的相转移代价;所述共指消歧采取了构建利用同义词表的方式,将不同名的指称项统一对应到标准唯一实体名。
CN201810445536.2A 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法 Active CN108763333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810445536.2A CN108763333B (zh) 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810445536.2A CN108763333B (zh) 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法

Publications (2)

Publication Number Publication Date
CN108763333A CN108763333A (zh) 2018-11-06
CN108763333B true CN108763333B (zh) 2022-05-17

Family

ID=64009696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810445536.2A Active CN108763333B (zh) 2018-05-11 2018-05-11 一种基于社会媒体的事件图谱构建方法

Country Status (1)

Country Link
CN (1) CN108763333B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543034B (zh) * 2018-11-07 2021-07-16 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109635107A (zh) * 2018-11-19 2019-04-16 北京亚鸿世纪科技发展有限公司 多数据源的语义智能分析及事件场景还原的方法及装置
CN109582958B (zh) * 2018-11-20 2023-07-18 厦门大学深圳研究院 一种灾难故事线构建方法及装置
CN109684629B (zh) * 2018-11-26 2022-12-16 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109635194A (zh) * 2018-12-12 2019-04-16 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109614603A (zh) * 2018-12-12 2019-04-12 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109918639B (zh) * 2018-12-13 2024-02-13 北京海致星图科技有限公司 一种基于深度学习技术和规则库的银行授信文本解析方法
CN109726819B (zh) * 2018-12-29 2021-09-14 东软集团股份有限公司 一种实现事件推理的方法及装置
CN111428486B (zh) * 2019-01-08 2023-06-23 北京沃东天骏信息技术有限公司 物品信息数据处理方法、装置、介质及电子设备
CN109902144B (zh) * 2019-01-11 2020-01-31 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN110020433B (zh) * 2019-04-01 2023-04-18 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110134842B (zh) * 2019-04-03 2021-08-31 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN109977237B (zh) * 2019-05-27 2019-09-10 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法
CN110287338B (zh) * 2019-06-21 2022-04-29 北京百度网讯科技有限公司 行业热点确定方法、装置、设备和介质
CN110287491B (zh) * 2019-06-25 2024-01-12 北京百度网讯科技有限公司 事件名生成方法及装置
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110543574B (zh) * 2019-08-30 2022-05-17 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110807104B (zh) * 2019-11-08 2023-04-14 上海明胜品智人工智能科技有限公司 异常信息的确定方法及装置、存储介质、电子装置
CN111177311B (zh) * 2019-12-10 2024-03-29 华能集团技术创新中心有限公司 一种事件处理结果的数据分析模型及分析方法
CN112995110A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种恶意事件信息的获取方法、装置及电子设备
CN110990574B (zh) * 2019-12-17 2023-05-09 上饶市中科院云计算中心大数据研究院 一种新闻资讯管理方法及装置
CN111125352B (zh) * 2019-12-23 2023-05-16 同方知网数字出版技术股份有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN111191466B (zh) * 2019-12-25 2022-04-01 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111475612A (zh) * 2020-03-02 2020-07-31 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质
CN113449101A (zh) * 2020-03-26 2021-09-28 北京中科闻歌科技股份有限公司 公共卫生安全事件检测及事件集合构建方法及系统
CN113495951A (zh) * 2020-04-03 2021-10-12 源析(青岛)信息技术有限公司 一种面向持续性社会事件的知识图谱的构建方法
CN111597333B (zh) * 2020-04-27 2022-08-02 国家计算机网络与信息安全管理中心 一种面向区块链领域的事件与事件要素抽取方法及装置
CN111694947A (zh) * 2020-06-15 2020-09-22 中国银行股份有限公司 一种文本摘要展示方法、装置、存储介质及设备
CN112559756A (zh) * 2020-08-07 2021-03-26 新华智云科技有限公司 一种地震事件知识图谱构建方法、应用方法
CN112101022B (zh) * 2020-08-12 2024-02-20 新华智云科技有限公司 一种地震事件实体链接方法
CN112100324B (zh) * 2020-08-28 2023-05-05 广州探迹科技有限公司 一种知识图谱的扩展方法、装置、存储介质和计算设备
CN112148863B (zh) * 2020-10-15 2022-07-01 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112149423B (zh) * 2020-10-16 2024-01-26 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112364627B (zh) * 2020-10-23 2023-07-25 北京建筑大学 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质
CN112287118B (zh) * 2020-10-30 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件模式频繁子图挖掘与预测方法
CN112612817B (zh) * 2020-12-07 2024-02-27 深圳价值在线信息科技股份有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
CN112559762A (zh) * 2020-12-09 2021-03-26 中电科新型智慧城市研究院有限公司 一种公共安全知识图谱构建方法、装置及可读存储介质
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法
CN112633000A (zh) * 2020-12-25 2021-04-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112598563B (zh) * 2020-12-29 2023-11-17 中国科学技术大学 一种基于知识图谱的智慧城市数据构建方法
CN112749239B (zh) * 2021-01-20 2022-10-21 青岛海信网络科技股份有限公司 一种事件图谱构建方法、装置及计算设备
CN112818668B (zh) * 2021-02-05 2024-03-29 上海市气象灾害防御技术中心(上海市防雷中心) 气象灾情数据语义识别分析方法和系统
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN112948552B (zh) * 2021-02-26 2023-06-02 北京信息科技大学 一种事理图谱在线扩展方法及装置
CN114706992B (zh) * 2022-02-17 2022-09-30 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理系统
CN114398891B (zh) * 2022-03-24 2022-06-24 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EventKG: A Multilingual Event-Centric Temporal Knowledge Graph;Simon Gottschalk;《arXiv》;20180412;第1-15页 *
融合词向量和主题模型的领域实体消歧;马晓军等;《模式识别与人工智能》;20171231;第1130-1137页 *

Also Published As

Publication number Publication date
CN108763333A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763333B (zh) 一种基于社会媒体的事件图谱构建方法
Harb et al. Web Opinion Mining: How to extract opinions from blogs?
Kowalski Information retrieval architecture and algorithms
Caldarola et al. An approach to ontology integration for ontology reuse
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
Vicient et al. An automatic approach for ontology-based feature extraction from heterogeneous textualresources
Varma et al. IIIT Hyderabad at TAC 2009.
US20100228711A1 (en) Enterprise Search Method and System
Van de Camp et al. The socialist network
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
Remi et al. Domain ontology driven fuzzy semantic information retrieval
Serra et al. A process for extracting non-taxonomic relationships of ontologies from text
Long et al. Relevance ranking for vertical search engines
CN104346382A (zh) 使用语言查询的文本分析系统和方法
Anoop et al. A topic modeling guided approach for semantic knowledge discovery in e-commerce
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
Sharma et al. Shallow neural network and ontology-based novel semantic document indexing for information retrieval
Ermakova et al. Query expansion by local context analysis
Asa et al. A comprehensive survey on extractive text summarization techniques
Qumsiyeh et al. Enhancing web search by using query-based clusters and multi-document summaries
JP4864095B2 (ja) 知識相関サーチエンジン
Dray et al. Opinion mining from blogs
Suhariyanto et al. Aspect based sentiment analysis: a systematic literature review
Segura-Tinoco et al. An Argument-based Search Framework: Implementation on a Spanish Corpus in the E-Participation Domain.
Xu et al. Open relation extraction from chinese microblog text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant