CN113495951A - 一种面向持续性社会事件的知识图谱的构建方法 - Google Patents
一种面向持续性社会事件的知识图谱的构建方法 Download PDFInfo
- Publication number
- CN113495951A CN113495951A CN202010260822.9A CN202010260822A CN113495951A CN 113495951 A CN113495951 A CN 113495951A CN 202010260822 A CN202010260822 A CN 202010260822A CN 113495951 A CN113495951 A CN 113495951A
- Authority
- CN
- China
- Prior art keywords
- data
- events
- event
- corpus
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种面向持续性社会事件的知识图谱的构建方法及装置,该方法包括:获取原始数据,确定主体事件及关键词,得到基础语料库;基于所述基础语料库,获得贴合主体事件的数据;形成新的关键词,更新基础语料库。本发明通过围绕社会性主体事件的社会性资讯数据确定TF‑IDF值,对比社会性资讯语料库确定新的关键词,并将新的关键词添加到主体事件的基础语料库中,对基础语料库进行更新,从而实现对主体事件的持续跟踪。本发明的方法能够实现对社会性事件的持续跟踪,达到事件的动态关注效果,解决了现有技术识别事件只能构建单一事件,无法对主体事件进行持续跟踪的问题。
Description
技术领域
本发明属于数据处理领域,涉及知识图谱的构建方法,具体涉及一种面向持续性社会事件的知识图谱的构建方法。
背景技术
目前,面向互联网海量文本数据的知识抽取是研究的主流,已有很多信息抽取的方法被提出用来解决该问题,按照抽取对象的不同,可分为实体抽取、关系抽取、属性抽取和事件抽取。事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
知识图谱是一种由实体及实体关系组成的知识体系,其能够提供高质量的结构化数据,已广泛应用于人工智能的多个领域,例如自动问答、搜索引擎和信息抽取等。
目前已存在的知识资源(如维基百科等)所描述实体及实体间的关联关系大多是静态的。并且现有技术识别事件只能构建单一事件,无法对一个主体事件进行持续跟踪。
因此,针对现有技术的不足,需要开发一种面向持续性社会事件的知识图谱的构建方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,研究出一种面向持续性社会事件的知识图谱的构建方法及装置,该方法包括:获取原始数据,确定主体事件及关键词,得到基础语料库;基于所述基础语料库,获得贴合主体事件的数据;形成新的关键词,更新基础语料库。本发明通过围绕社会性主体事件的社会性资讯数据确定TF-IDF值,对比社会性资讯语料库确定新的关键词,并将新的关键词添加到主体事件的关键词集合中,对关键词集合进行更新,从而实现对主体事件的持续跟踪。本发明的方法能够实现对社会性事件的持续跟踪,达到事件的动态关注效果,解决了现有技术识别事件只能构建单一事件,无法对主体事件进行持续跟踪的问题,从而完成本发明。
本发明的目的在于提供一种面向持续性社会事件的知识图谱的构建方法,所述方法包括:
获取原始数据;
确定主体事件及关键词,得到基础语料库;
基于所述基础语料库,获得贴合主体事件的数据;
形成新的关键词,更新基础语料库。
通过爬虫技术实时获取原始数据,所述原始数据包括半结构化数据、非结构化数据,所述原始数据为与社会性事件相关的数据,优选为社会资讯文档数据。
所述基础语料库包括所述关键词,基于所述基础语料库,对原始数据进行查询清洗,获得贴合主体事件的数据。
对获得的贴合主体事件的数据进行关键词提取,所述关键词的提取方法为TF-IDF方法、TextRank方法、ExpandRank方法中的一种或几种,优选地,确定新的关键词,所述新的关键词通过TF-IDF方法确定,
优选地,所述通过TF-IDF方法确定新的关键词的过程包括:
对所述贴合主体事件的数据进行分词处理,获得词及相应的词频;
计算逆文档频率;
计算TF-IDF值。
根据TF-IDF值由高到低进行排序,保留TF-IDF值高于设定阈值的词,确定新的关键词,将新的关键词添加到基础语料库中,对基础语料库进行更新,优选地,基于所述新的关键词,溯源所述新的关键词的原始社会性资讯文档数据,基于标本文档,需要对多篇社会性资讯文档进行相似度分析,按照相似度排序,优选地,根据余弦相似度方法,判断两篇文档的相似度,更优选地,两篇文档的相似度分析过程包括:
根据TF-IDF方法,确定两篇文档的关键词;
分别确定两篇文档中的关键词的词频;
分别形成两篇文档的词频向量;
计算两个词频向量的余弦相似度。
将多篇文档数据按照相似度由高到低进行排序。
所述方法还包括:更新基础语料库后,根据热度热点聚类的方式确定关键词,进而确定新的分支事件,优选地,所述热度热点聚类的方式为根据话题热度确定,所述话题热度的影响因素包括报道速度、报道相似度以及报道权威度。
本发明还提供一种知识图谱的构建装置,所述装置包括:
获取模块,用于获取原始数据,所述原始数据为与社会性事件相关的数据;
预处理模块,用于根据主体事件及关键词对原始数据进行查询清洗,获得贴合主体事件的数据;
更新模块,用于从贴合主体事件的数据中确定新的关键词,并更新关键词集合,确定分支事件;
构建模块,用于确定主体事件与分支之间的关系,构建知识图谱。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现本发明第一方面所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序,所述一个或多个程序包括指令,所述指令当被计算机执行时使得所述计算机执行本发明第一方面所述的方法。
本发明所具有的有益效果为:
(1)本发明将知识图谱运用到事件领域,构建面向持续社会性事件的知识图谱,以主体事件为基础,将时间线上分散的情报融合,提高了事件脉络的分析能力,达到对社会性事件进行动态关注的效果;
(2)本发明通过不断获取社会性资讯文档中的新的关键词,并将新的关键词添加到基础语料库中,对基础语料库进行不断更新,由新的关键词得到新的分支事件,从而能够实现对主体事件进行持续跟踪;
(3)本发明所提供的方法解决了现有技术中识别事件只能构建单一事件,无法对一个主体事件进行持续跟踪的问题;
(4)本发明通过构建知识图谱实现了对事件的持续跟踪,提高了事件跟踪的效率与准确度。
附图说明
图1示出本发明一种优选实施方式的知识图谱的构建方法流程示意图;
图2示出本发明一种优选实施方式的知识图谱的构建装置的结构示意图。
具体实施方式
下面通过附图和优选实施方式对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
根据本发明,提供一种面向持续性事件的知识图谱的构建方法,该方法包括:
确定主体事件
获取原始数据确定关键词,得到基础语料库;
基于基础语料库,获得贴合主体事件的数据;
形成新的关键词,更新基础语料库。
根据本发明,由相关领域专业人员根据专业及业务知识确定用户需要关注的主体事件。
根据本发明,根据所确定的主题时间的性质和内容,获取原始数据,通过爬虫技术实时获取或获取某一段时间内的原始数据,原始数据包括半结构化数据、非结构化数据等,非结构化数据包括网页、文档等数据,优选地,所述原始数据为文档数据或文本数据,更优选地,所述原始数据为与社会性事件相关的文本数据,例如社会资讯文档数据。所述原始数据包括标题、正文内容、发布时间等信息。
本发明中,在获取原始数据时,初次获取可按照时长设置进行获取,也可获取该时间节点之前所有的信息。
根据本发明,所述原始数据的数据源为内部资源和/或外部资源,内部资源为舆情信息系统中的内部资源,外部资源为互联网上与社会性事件相关的权威媒体或网站,如人民日报、人民网、凤凰网、新浪网等新闻网站,也可为社会媒体如微博、微信公众号、贴吧等。
根据本发明,爬虫技术选择本领域常用的数据爬取工具,例如基于Python的Scrapy、基于Java的WebMagic等。
根据本发明,根据社会性语料库结合所确定的主体事件,由专业人员根据主体事件的性质和内容,确定该主体事件的初始的语料库,进一步地,由专业人员依据业务知识确定该主体事件的基础关键词,将基础关键词添加到初始的语料库中,形成该主体事件的基础语料库。
本发明中,建立社会性语料库的规则首先是确定的属性是单语语料库(现阶段只面向中文),其次是社会性语料库的基础是中文事件语料库(Chinese Event Corpus,CEC),在这个基础上标注社会性资讯的词语。
本发明中,中文事件语料库由上海大学语义智能实验室构建,旨在填补中文突发事件语料库的空白,包含CEC-1和CEC-2 两个语料库。CEC-1是针对200篇国内外突发事件的中文新闻报道的标注,包含了1228个句子、3133个事件和4878个事件元素,但标注的粒度相对较大,尤其是对事件元素,且未对事件关系分类。为弥补上述不足,CEC-2选取333篇关于地震、火灾、交通事故、恐怖袭击及食物中毒五类突发事件的互联网新闻报道作为待标注语料。
本发明中,在CEC-1和CEC-2两个语料库的基础上,需要对语料类别进行添加和优化,例如针对“社会性”的特点增加的词语:“游行”“集结”“集会”“口罩”“xx法”“xx政策”“策划暴力”“路障”等。这些词语涵盖了动词、名词、形容词、属性词等,针对性较强。
根据本发明,基于以CEC1和CEC2为基础的社会性语料库结合所确定的主体事件,确定初始的语料库。
根据本发明,依据确定的主体事件的关键词,将关键词添加到初始的语料库中,形成基础语料库,实现对语料库的更新和优化。
本发明中,基础语料库在建立应用的过程中,随着事件的不断进展,需要添加更多的词语,实现对基础语料库的迭代更新。
根据本发明,基于基础语料库,对获取的原始数据进行处理,优选对获取的原始数据进行查询清洗,得到贴合主体事件的文本数据,去除与主体事件或关键词无关的数据。
本发明中,查询清洗可根据查询语句检索得到,查询语句可报考与主体事件有关的关键词、连接符、时间段以及其他的限定信息。
根据本发明,对原始数据查询清洗时,可通过预设的主体事件的关键词进行查询清洗,也可直接输入相应时间的文本信息进行查询清洗,以得到贴合主体事件的文档数据。
根据本发明优选的实施方式,可采用基于SQL的查询,基于文件索引的检索等方式检索原始数据,得到贴合主体事件的文档数据,每篇文档数据可包括标题、正文、时间戳、URL等信息。
本发明中,通过对获取的原始数据进行查询清洗,得到与主体事件或关键词相关联的数据,即贴合主体事件的文档数据。根据本发明,获得贴合主体事件的文档数据后,提取新的关键词。。
根据本发明,新的关键词的提取方法选自TF-IDF方法、 TextRank方法、ExpandRank方法中的一种或几种。
根据本发明,新的关键词通过TF-IDF方法确定,优选地,通过TF-IDF方法确定新的关键词的过程包括:
对所述文档数据进行分词处理,获得词及相应的词频;
计算逆文档频率;
计算TF-IDF值。
根据本发明,对得到的贴合主体事件的数据如社会性资讯文档进行分词处理,并对分词处理后得到的词进行词频统计,优选地,所述词频统计可通过Python工具进行。
根据本发明,分词处理采用分词工具进行,优选可采用斯坦福分词工具、哈工大LTP、中科院计算所NLPIR、清华大学 THULAC和基于Python的jieba(结巴)分词工具,优选采用基于Python的jieba分词工具进行分词。
本发明中,jieba分词工具具有较高的分词准确率,分词速度极快,在处理大规模文本数据时极具优势,除分词外,还具备词性标注等常见的自然语言处理功能,且代码调用便捷,支持自定义加载内容(如自定义分词词典),方便基于任务实现更好的分词效果。
本发明中,经过分词处理后,会在数据中存在出现次数较多的停用词,如“的”、“是”“在”等常用的停用词,需要去除掉以排除干扰,以保证所获取的为有意义的对主体事件有实际意义的数据。
根据本发明优选的实施方式,分词处理后,对分词后的文档进行去停用词处理,优选采用去停用词表去除停用词,如“的”、“是”、“在”等常用的停用词,优选地,去停用词表选自中文停用词表、百度停用词表、哈工大停用词表和四川大学机器智能实验室停用词库中的一种或几种。
根据本发明,获得词及相应的词频后,考虑到文档或文章有长短之分,为便于不同的文章的比较,对词频进行标准化处理,采用相对词频进行计算,相对词频可通过如下式(1)或(2) 获得,式(1)中,相对词频通过某个词在文章中出现的次数与文章的总词数的比值,式(2)中,相对词频为某个词在文章中出现的次数与该文章出现次数最多的词的出现次数。
本发明中,通过标准化处理后,采用相对词频进行后续处理能够排除文章的长短对词频的影响。
根据本发明,对分词处理后的词按照相对词频由高到低进行排列,选取高频词,优选地,选取前50个高频词进行后续处理。
本发明中,针对分词后的词,需要对每个词赋予权重,即该词的重要性权重,以确定新的关键词。
根据本发明,分词处理后词的重要性权重为逆文档频率,式(3)为逆文档频率的计算公式,从式(3)可知,逆文档频率为分子与分母所得结果的对数值,分母为包含该词的文档数与1之和,分子为语料库的文档总数。
一般来说,如果一个词为常用词,则包含该词的文档数就越多,那么分母就越大,逆文档频率就越小越接近0,分母加1 是为避免分母为0(即所有文档都不包含该词)而导致结果没有意义,逆文档频率的大小与一个词的常见程度成反比。
根据本发明,高频词与基础语料库进行比对,以获得与该主体事件的性质和内容相关的词,删除与社会性事件无法的词,从而得到与社会性语料库的对应的词汇,以及该词在文档中的相对词频。
根据本发明,根据相对词频和逆文档频率计算TF-IDF值,如式(4)所示,
TF-IDF=词频(TF)×逆文档频率(IDF) 式(4)。
可知,某个词对文章的重要性越高,它的TF-IDF值就越大, TF-IDF与一个词在文档中出现次数成正比,与该词在整个语料库中的出现次数成反比。
根据本发明,计算出文档中每个词的TF-IDF值,然后将词按照TF-IDF值的大小进行降序排序,即按照TF-IDF值由高到低的顺序排序,取排序靠前的词作为文档的新的关键词,新的关键词是作为跟踪持续事件的基础,用于分析新分支事件。
根据本发明,选取TF-IDF在设定阈值以上或均值以上的词确定为新的关键词(如计算五个词的TF-IDF值的均值为0.5,则需要将在这个均值0.5以上的词选中,确定为新的关键词),以作为获取分支事件的基础。
根据本发明,确定新的关键词后,将新的关键词添加到基础语料库中,实现对基础语料库的更新。
本发明中,基于基础语料库的不断迭代更新,实现对主体事件的持续追踪。
根据本发明,确定新的关键词后,确定分支事件。
根据本发明,确定新的关键词后,溯源该新的关键词的原始报道,这些报道就是该主体事件的分支事件。
根据本发明优选的实施方式,需要依据标本文档对文档数据例如多篇社会性资讯文档进行相似度分析,按照相似度排序,以确定分支事件。
根据本发明,确定标本文档,将多篇文档与该标本文档进行相似度分析,其中,标本文档由专业人员根据事件中具有一定权威的文档,根据文档的发布时间,文档来源的网站的权威度等因素来确定标本文档。
根据本发明优选的实施方式,相似度分析采用余弦相似度方法进行,余弦相似度方法是基于向量模型,利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度,余弦值在0~1之间,余弦值越大说明两篇文档越相似。
本发明中,利用余弦相似度方法判断两个句子的相似时,将两个句子转化为向量,计算两个向量的余弦值,余弦值越接近于1,则越相似。
根据本发明,采用余弦相似度方法对两篇文档的相似度分析过程包括:根据TF-IDF方法,确定两篇文档的关键词;分别确定两篇文档中的关键词的词频;分别形成两篇文档的词频向量;计算两个词频向量的余弦相似度。
根据本发明,根据TF-IDF方法的过程包括:对文档进行分词处理,得到词及词频,优选采用基于Python的结巴分词工具进行分词处理,采用Python进行词频统计,计算逆文档频率,得到TF-IDF值,将TF-IDF值由高至低排序,分别确定两篇文档的关键词。
根据本发明,分别确定两篇文档的关键词的词频,根据词频,分别确定两篇文档的词频向量,根据余弦相似度计算两个词频向量的余弦相似度。
根据本发明,根据每篇文档的关键词,将每篇文档的转化为1*n维的词频向量,n为关键词的个数。
根据本发明,在词频向量中,以0补位词频向量中的词的个数,以保证两个文档的维度相同。
根据本发明,将文档转化为词频向量后,采用余弦相似度方法计算词频向量的相似度,即为两篇文档的相似度,通过计算两个词频向量的夹角的大小,来判断向量的相似程度,夹角越小,则越相似。在对多篇文档的相似度进行判断时,需要专业人员通过实际经验选取一篇文档作为标本文档(参照文档),其它文档的计算结果需要与该标本文档进行比对。判断其它文档与标本文档的相似度的目的是将重复文档筛选出来舍弃。如果两篇文档比对相似度较高(如在0.5以上)时,需要筛选重复,如果相似度较低(如小于0.1),则需要判断两篇文档的事件是否为同一事件。
根据本发明一种优选的实施方式,为了达到持续跟踪事件的目的,对于文档中关键词词频为0的,对该关键词进行单独存储,并记录关键词在多数文档中的词频,如果该关键词在多数文档中只偶然出现1次,则可判定该词为没有实际作用的词,可进行舍弃,若该词出现的次数大于1,则该词可作为一个分支事件的依据进行存储,并能够在应用中推送给用户进行判别,
例如,句子A:A地突发公共卫生事件,专家指出新型冠状病毒可通过飞沫传播,组织者号召减少人员聚集。
句子B:A地爆发疫情,确诊病例持续增加,组织者号召减少聚众活动,并对确诊病例密切接触者采用隔离手段以阻断传播途径。
通过上述词频和余弦相似度计算,两句中有“飞沫”、“隔离”均为在各自句式中词频为0的情况,但是在社会性资讯的业务中,这两种词语包含的意义非常大,可以预示着事件持续的严重性或者体现了事态的升级,所以这两个词语会推送给用户,进行进一步判别,同时也是下一步找寻分支事件的一个起点。
本发明中,通过判断两篇文档的相似度,对多篇文档按照相似度高低进行排序,选取排序靠前的N个文档,N≥10,建立与主体事件的链接,以跟进主体事件衍生出的分支事件。
本发明中,针对分支事件的跟踪,权重TF-IDF在计算时考虑两个因素:与所在文档相关的词频率、与整个文档集相关的逆文档频率,而没有考虑文章的结构信息对权重的影响,将不同属性、不同位置的词语同等看待。但是,分析网络新闻报道的特点,一篇报道中总会出现人名、地名、组织名、时间等信息。对于如何区分是否为主体事件的同一话题而言,社会性资讯的新闻要素比报道中一般词汇区分能力更强。因此,需要给新的词汇确定好向量判别值,根据新词在报道中出现的多少进行第一步的判别。
一般来说,报道分为标题和正文,作为社会性的新闻报道,标题的信息量很大,报道的关键词一般都会在标题中出现,大部分报道从标题就可以看出该报道将要讨论的话题。
本发明中,除了运用余弦相似度来聚类主体事件的分支事件,还需要考虑更多的因素。对于持续性事件的新闻报道聚类来说,仅仅考虑文章词频向量的相似度计算是不够的。
根据本发明,文档的发布时间(时间戳)是持续性事件的重要因素,话题生成过程中如果考虑时间因素会提高主体事件的聚类精度。一般来说,对于某个话题的发布时间越远,这篇报道属于该主体事件的可能性越小,因此根据文档的发布时间,去除无关文档数据。
例如,“A地爆发新冠病毒疫情”与“A地爆发流感病毒”两个话题比较接近,因此在文本内容上会频繁出现“A地”、“爆发”、“病毒”等相同的词汇,如果仅仅计算文本向量相似度,非常容易出现误判。但是两个话题的发生的时间相隔较远,如果考虑时间距离,那么两个话题就很容易区分开。
本发明中,利用话题热度确定新分支事件的起点,实现对主体事件的不断监督与跟踪。在已有的话题发现的基础上,需要确定在一段时间内受关注度大、影响相对突出的话题。
本发明中,由新的关键词,溯源其原始报道,这些原始报道就是该主体事件的分支事件,通过话题热度确定新的分支事件的起点。
一个话题是由多个报道组成的,话题的热度可以从它在一段时间内的报道数量、报道内容相似度以及报道权威度等因素进行考虑的,以确定新的分支事件的起点。
(1)报道速度rp,在一个时间单元内有关该话题的报道越多,说明该话题的受关注度越大。可通过如下公式(1)计算:
其中,rq是报道数量,rt是报道时间。
(2)报道相似度rs,在一个时间单元内组成一个话题的相关报道互相之间越相似,说明该话题的指向越集中,越有可能成为热点话题,报道相似度rs可通过话题内任意两篇报道的相似度的算术平均数求得。
(3)报道权威度ra,一篇报道在网页中一般会出现报道来源,有的来自官方的权威媒体或网站,如人民日报、人民网;还有来自网络门户网站,如凤凰网、新浪等。考虑到网络的虚拟性,信息的质量参差不齐,一个话题是否是真正的热点,还需要考虑报道来源的权威度。一般认为官方媒体的权威度最高,传统平面媒体的权威度次之,网络门户网站的权威度最低。
根据以上话题热度特征分析,综合考虑报道速度、报道相似度、报道权威度对话题热度的影响,提出如下计算公式(2):
Hot(c)=rp*rs*ra 公式(2),
可知,话题热度通过报道速度、报道相似度及报道权威度的乘积得到,热度很高的话题在计算余弦相似度的值具有很高的参考意义,专业人员在查看这些热度高的文档时,会根据业务经验将该热度高的文档上升为新的分支事件的标本文档,从而确定新的分支事件的起点。
本发明中,以话题热度很高的话题作为分支事件进行跟踪,确定新的分支事件的起点,实现对主体事件的不断监控和跟踪,实现事件的动态持续跟踪的目的。
根据本发明,确定新的分支事件包括:首先要从文章标题和内容中提炼新的词汇,然后将文章转化为词频向量,分析多篇文章的相似度,并根据相似度由高至低进行排序,然后根据报道时间去除无关词汇(关键词),运用热度热点聚类的方式确定新分支事件的起点,并将新的关键词添加到主体事件的基础语料库中,完成知识图谱的构建。通过事件的推进,实现对事件的不断监控。
根据本发明,基于更新后的基础语料库对原始数据进行查询清洗,并根据关键提提取方法形成新的关键词,新的关键词填充到更新后的基础语料库中,对基础语料库进行迭代更新,同时新的关键词推出新的分支事件,实现对主体事件的持续追踪。
本发明所提供的方法通过对围绕主体事件汇集过来的数据如社会性资讯文档计算出TF-IDF值,对比基础语料库找到新的关键词,并填充到主体事件的基础语料库,根据新的关键词,可确定新的分支事件。可以做到对主体事件的持续跟踪并推送出新的分支事件。
本发明第二方面提供一种知识图谱的构建装置,该装置包括:
获取模块,用于获取原始数据;
预处理模块,用于根据主体事件及基础语料库对原始数据进行查询清洗,获得贴合主体事件的数据;
更新模块,用于从贴合主体事件的数据中确定新的关键词,并更新基础语料库,确定分支事件;
构建模块,用于建立主体事件与分支之间的关系,构建知识图谱。
本发明第三方面提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现本发明第一方面所述的方法。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序,所述一个或多个程序包括指令,所述指令当被计算机执行时使得所述计算机执行如本发明第一方面所述的方法进行。
实施例
该领域专业人员根据专业及业务知识确定用户需要关注的主体事件,例如确定主体事件为“某地流感疫情”,根据该主体事件的社会性性质和内容,利用爬虫工具爬取近两个月内新华网、人民网、凤凰网等权威新闻网站上的相关文档数据(原始数据),所得原始数据为文本数据,包括标题、正文内容等;
根据该主体事件确定所需的社会性语料库,社会性语料库以CEC1和CEC2为基础,结合“某地流感疫情”主体事件,由专业人员根据主体事件的性质和内容,确定该主体事件初始的语料库,进一步地,根据业务知识确定该主体事件中的“XX 病毒”、“XX地爆发”、“隔离”、“卫生事件”为基础关键词,将基础关键词添加到初始的语料库中,形成该主体事件的基础语料库;
根据该基础语料库对获取的原始数据进行清洗去噪,得到贴合主体事件的文本数据,采用TF-IDF方法提取关键词,对清洗去噪后的数据进行分词处理,得到词语,计算词频,根据词频大小排序,提取词频排序前100的词语,运用基础语料库进行计算算出TF-IDF值,根据计算出的TF-IDF值进行排序,将 TF-IDF值在均值以上的词语确定为新的关键词,如在最新一天的“疫情”报道中,通过运算,得到“意大利”、“韩国”、“冠状病毒”等新词,根据专业人员的人工判断或直接进入基础语料库,实现了基础语料库的迭代更新,得到第二语料库;
例如通过计算某天的报道信息,根据计算的词频得到排序前10个高频词分别为“意大利”、“韩国”、“冠状病毒”、“世卫组织”、“美国”、“口罩”、“传播”、“卫生”、“病床”、“社区”,计算得到上述高频词的TF-IDF值并排序,所得结果如表1所示,
表1
高频词 | TF-IDF值 |
冠状病毒 | 0.92 |
意大利 | 0.85 |
韩国 | 0.81 |
世卫组织 | 0.62 |
美国 | 0.53 |
口罩 | 0.33 |
传播 | 0.12 |
卫生 | 0.11 |
病床 | 0.09 |
社区 | 0.05 |
从表1可见,根据结果设定TF-IDF值在0.8以上的词确定为新的关键词,得到“冠状病毒”的TF-IDF值最高,“意大利”其次,再次为“韩国”,因此,“冠状病毒”、“意大利”和“韩国”自动添加到基础语料库中或根据专业人员判断添加到基础语料库中,从而得到第二语料库。
根据新的关键词,可以溯源其原始报道,将原始包括这些报道就是该主体事件的分支事件,实现对该主体事件的跟踪,专业人员可选定一篇文档作为标本文档,利用余弦相似度法对新的关键词的原始报道与标本文档的相似度进行判断,按照相似度由高到低将原始报道进行排序。
对分支事件的跟踪,作为社会性的新闻报道,标题的信息量很大,报道的关键词一般都会在标题中出现,大部分报道从标题就可以看出该报道将要讨论的话题。利用话题热度确定新分支事件的起点,实现对主体事件的不断监控与跟踪。如新的分支事件是“意大利爆发疫情”,实现了对主体事件的跟踪。
以上结合优选实施方式和范例性实例对本发明进行了详细说明。不过需要声明的是,这些具体实施方式仅是对本发明的阐述性解释,并不对本发明的保护范围构成任何限制。在不超出本发明精神和保护范围的情况下,可以对本发明技术内容及其实施方式进行各种改进、等价替换或修饰,这些均落入本发明的保护范围内。本发明的保护范围以所附权利要求为准。
Claims (10)
1.一种面向持续性社会事件的知识图谱的构建方法,其特征在于,所述方法包括:
获取原始数据;
确定主体事件及关键词,得到基础语料库;
基于所述基础语料库,获得贴合主体事件的数据;
形成新的关键词,更新基础语料库。
2.根据权利要求1所述的方法,其特征在于,通过爬虫技术实时获取原始数据,所述原始数据包括半结构化数据、非结构化数据,所述原始数据为与社会性事件相关的数据,优选为社会资讯文档数据。
3.根据权利要求1所述的方法,其特征在于,所述基础语料库包括所述关键词,基于所述基础语料库,对原始数据进行查询清洗,获得贴合主体事件的数据。
4.根据权利要求1所述的方法,其特征在于,对获得的贴合主体事件的数据进行关键词提取,确定新的关键词,所述关键词的提取方法为TF-IDF方法、TextRank方法、ExpandRank方法中的一种或几种,优选地,所述新的关键词通过TF-IDF方法确定,
优选地,所述通过TF-IDF方法确定新的关键词的过程包括:
对所述贴合主体事件的数据进行分词处理,获得词及相应的词频;
计算逆文档频率;
计算TF-IDF值。
5.根据权利要求4所述的方法,其特征在于,根据TF-IDF值由高到低进行排序,保留TF-IDF值高于设定阈值的词,确定新的关键词,将新的关键词添加到基础语料库中,对基础语料库进行更新,优选地,基于所述新的关键词,溯源所述新的关键词的原始社会性资讯文档数据,基于标本文档,需要对多篇社会性资讯文档进行相似度分析,按照相似度排序,优选地,根据余弦相似度方法,判断两篇文档的相似度,更优选地,两篇文档的相似度分析过程包括:
根据TF-IDF方法,确定两篇文档的关键词;
分别确定两篇文档中的关键词的词频;
分别形成两篇文档的词频向量;
计算两个词频向量的余弦相似度。
6.根据权利要求5所述的方法,其特征在于,将多篇文档数据按照相似度由高到低进行排序,优选地,标记相似度最高的文档为新的标本文档。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:更新基础语料库后,根据热度热点聚类的方式确定关键词,进而确定新的分支事件,优选地,所述热度热点聚类的方式为根据话题热度确定,所述话题热度的影响因素包括报道速度、报道相似度以及报道权威度。
8.一种知识图谱的构建装置,其特征在于,所述装置包括:
获取模块,用于获取原始数据,所述原始数据为与社会性事件相关的数据;
预处理模块,用于根据主体事件及关键词对原始数据进行查询清洗,获得贴合主体事件的数据;
更新模块,用于从贴合主体事件的数据中确定新的关键词,并更新关键词集合,确定分支事件;
构建模块,用于确定主体事件与分支之间的关系,构建知识图谱。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令处理器执行时实现权利要求1至7之一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括一个或多个程序,所述一个或多个程序包括指令,所述指令当被计算机执行时使得所述计算机执行如权利要求1-7之一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010260822.9A CN113495951A (zh) | 2020-04-03 | 2020-04-03 | 一种面向持续性社会事件的知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010260822.9A CN113495951A (zh) | 2020-04-03 | 2020-04-03 | 一种面向持续性社会事件的知识图谱的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113495951A true CN113495951A (zh) | 2021-10-12 |
Family
ID=77995276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010260822.9A Pending CN113495951A (zh) | 2020-04-03 | 2020-04-03 | 一种面向持续性社会事件的知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113495951A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
WO2017076263A1 (zh) * | 2015-11-03 | 2017-05-11 | 中兴通讯股份有限公司 | 融合知识库处理方法和装置及知识库管理系统、存储介质 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109597926A (zh) * | 2018-12-03 | 2019-04-09 | 山东建筑大学 | 一种基于社交媒体突发事件的信息获取方法及系统 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
-
2020
- 2020-04-03 CN CN202010260822.9A patent/CN113495951A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017076263A1 (zh) * | 2015-11-03 | 2017-05-11 | 中兴通讯股份有限公司 | 融合知识库处理方法和装置及知识库管理系统、存储介质 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109597926A (zh) * | 2018-12-03 | 2019-04-09 | 山东建筑大学 | 一种基于社交媒体突发事件的信息获取方法及系统 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | A survey of Web crawlers for information retrieval | |
US20090125549A1 (en) | Method and system for calculating competitiveness metric between objects | |
US20040083205A1 (en) | Continuous knowledgebase access improvement systems and methods | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
WO2007140364A2 (en) | Method for scoring changes to a webpage | |
Zheng et al. | Sogou-qcl: A new dataset with click relevance label | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN109284441B (zh) | 动态自适应网络敏感信息检测方法及装置 | |
Najadat et al. | Automatic keyphrase extractor from arabic documents | |
Kumar et al. | Term-frequency inverse-document frequency definition semantic (TIDS) based focused web crawler | |
Annadurai et al. | Architecture of personalized web search engine using suffix tree clustering | |
CN113495951A (zh) | 一种面向持续性社会事件的知识图谱的构建方法 | |
Yang et al. | Study on food safety semantic retrieval system based on domain ontology | |
Johnny et al. | Key phrase extraction system for agricultural documents | |
Gurini et al. | Trec microblog 2012 track: Real-time algorithm for microblog ranking systems | |
KR20220068793A (ko) | Rpa 모니터링을 이용한 뉴스 분석 서비스 제공 방법 | |
Xu et al. | Generating personalized web search using semantic context | |
Guo et al. | Web-based chinese term extraction in the field of study | |
Yuan et al. | OPO: Online public opinion analysis system over text streams | |
Cagliero | Summarization of emergency news articles driven by relevance feedback | |
Xu et al. | Method of deep web collection for mobile application store based on category keyword searching | |
Aggarwal et al. | Improving the efficiency of weighted page content rank algorithm using clustering method | |
CN103995849B (zh) | 一种事件跟踪方法及系统 | |
US11941052B2 (en) | Online content evaluation system and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |