CN109726293B - 一种因果事件图谱构建方法、系统、装置及存储介质 - Google Patents
一种因果事件图谱构建方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN109726293B CN109726293B CN201811354870.3A CN201811354870A CN109726293B CN 109726293 B CN109726293 B CN 109726293B CN 201811354870 A CN201811354870 A CN 201811354870A CN 109726293 B CN109726293 B CN 109726293B
- Authority
- CN
- China
- Prior art keywords
- event
- causal
- causal event
- sentence
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 213
- 238000010276 construction Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 230000008451 emotion Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000003908 quality control method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 229910000831 Steel Inorganic materials 0.000 description 5
- 238000013515 script Methods 0.000 description 5
- 239000010959 steel Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004880 explosion Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000003306 harvesting Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010006895 Cachexia Diseases 0.000 description 1
- 241001479578 Packera contermina Species 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种因果事件图谱构建方法、系统、装置及存储介质,涉及自然语言处理大数据分析领域,包括:构建因果事件模式知识库;根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;对抽取后获得的原因事件语句和结果事件语句进行结构化表示;对完成结构化表示的因果事件关系对进行融合;将融合后的因果事件数据存储至图数据库中。本发明只需在质量控制时加以人工干预,通过语言学专家整理的方式构建起知识库,事件表示方法能够更完备地表示出事件,将情感分析技术融入到事件表示当中能够增加事件另一维度上的信息。本发明使用图数据库进行因果事件图谱存储,灵活性高且可支持深度因果事件查询。
Description
技术领域
本发明涉及自然语言处理大数据分析领域,尤其涉及一种因果事件图谱构建方法、系统、装置及存储介质。
背景技术
当今时代是信息爆炸时代,每天有大量的非结构化文本产生,而这些非结构化文本中隐藏着大量的客观事实或逻辑规律,即内部描绘出了现实生活中的逻辑世界。举例来说,“瑞雪兆丰年”这一句话,描述了大雪与来年收成之间的一种关联关系,即“大雪了”,“来年收成就会好”,这是人们在从事社会生产劳动中总结出来的一种规律,类似的事件有很多,比如:地震会造成房屋倒塌,经济危机会导致国家经济下行等。
以上的例子,有的是基本的常识,有的是专业上的知识,将其统称为逻辑。这些逻辑并没有类似知识库一样结构化出来,以一种结构化的语义形式呈现出来;而这些逻辑本身又隐藏在海量的非结构化文本当中,往往需要借助自然语言处理技术进行挖掘。
目前,“事件图谱”还是一个较新的概念;由于以概念-实际例为核心的实体知识图谱不同,事件图谱涉及到事件表示、事件抽取、事件存储等多个方面的难题,无论是学术界还是工业界目前都还没有一个成熟的框架出来。
就研究方向而言,与事件图谱最相关的两个研究方向是统计脚本学习和事件关系识别。统计脚本学习是与事件图谱非常接近的一个研究领域;1975年,美国学者Schank提出脚本概念;2003年,日本学者提出自动获取脚本的方法;2008年,Dan Jurafsky利用无监督的方法构建事件链,成为该方向一个具有代表性的先驱工作。2014至今,统计脚本相关研究工作进入了复苏和发展阶段。
在国内,目前在这个领域代表性的工作有:哈尔滨工业大学信息检索实验室的工作在因果事件图谱上的一些探索,利用因果事件模板规则方式,建立起了金融领域因果事件图谱,并将该事件图谱应用于股票预测;而通过调研论文和材料来看,其所面对领域比较单一,因果模式也并不多,此外,在因果事件的表示上也并没有提出一个很好的解决方案;因此,总结的来说,目前在因果事件图谱的构建上还存在以下不足:
1)因果事件图谱目前还是一个比较新的概念,关于事件图谱的构建还处于初步阶段;
2)基于模板和规则进行因果事件抽取仍是主流方法,模式和规则的制定需要大量的人工,单纯以“XX导致XX”的模式太为局限,需要尽可能扩展;
3)因果事件的表示问题目前还没有很好的解决,以原文短句,还是以取形容词、动词、名词作为事件表示,对于事件语义的真实表示还存在一些问题;
4)因果事件本质是一个由多个因果对组织形成的一张因果事件网络;因果事件往往本身携带者情感色彩,即“善有善果,恶有恶报”,这些因素在事件中的表示还没有看到。
发明内容
本发明针对背景技术的问题提出一种因果事件图谱构建方法、系统、装置及存储介质,减少人工干预,更完备地表达事件,灵活性高,可支持深度因果事件查询。
一种因果事件图谱构建方法,包括如下步骤:
构建因果事件模式知识库;
根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
对完成结构化表示的因果事件关系对进行融合;
将融合后的因果事件数据存储至图数据库中。
优选地,所述根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取具体包括:
对输入文本进行短句主语补全处理;
采用长句标点符号作为分割点对文本进行分割处理;
将分割处理后的句子切分成多个以单个词语为单位的序列;
借助因果事件模式库中的因果事件模式进行原因句子和结果句子识别,将原因成分和结果成分进行切分,形成原因句子集和结果句子集;
采用短句分割符号作为标记对原因句子集和结果句子集进行短句切分处理,获得原因短句集和结果短句集。
优选地,所述对抽取后获得的原因事件语句和结果事件语句进行结构化表示,具体包括:
构建事件组成规则知识库;
对抽取后获得的原因事件语句和结果事件语句进行词性处理;
根据事件组成规则对经过词性处理后的短句进行过滤和判定处理;
根据情感词表和否定词表对短句进行事件情感分析;
根据事件对构造规则对短句进行处理,构造因果事件关系对,完成结构化表示。
优选地,所述对完成结构化表示的因果事件关系对进行融合,具体为:采用事件向量表示,结合相似度度量方法进行事件相似度计算,将相似度满足设定的阈值的事件进行融合。
优选地,所述事件向量表示,即利用句子向量表示方法对事件句子进行表示,具体包括:
对于给定的事件,对事件进行分词处理,形成若干个词列表;
使用预训练词向量对若干个词列表的词向量进行拼接,通过加权求和的方式形成事件语义向量表示;
对事件进行情感分析,形成事件情绪向量;
将事件语义向量表示和事件情绪向量进行拼接,形成最终的事件向量表示。
对于给定的事件,对事件进行向量表示;向量表示的方式包括但不限于以下方式:
利用事件中的笔画向量、词向量、字向量、短语向量,进行向量加权求和、拼接、内积运算等形成事件向量表示。
本发明还提出一种融合情感与语义规则的因果事件图谱构建系统,包括:因果事件模式知识库、因果事件抽取单元、因果事件表示单元、因果事件融合单元、因果事件存储单元;其中,
所述的因果事件抽取单元,用于根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
所述的因果事件表示单元,用于对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
所述的因果事件融合单元,用于对完成结构化表示的因果事件关系对进行融合;
所述的因果事件存储单元,用于将融合后的因果事件数据存储至图数据库中。
本发明还提出一种因果事件图谱构建装置,包括:
处理器;
存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行所述的因果事件图谱构建方法的步骤。
本发明还提出一种计算机可读取存储介质,所述计算机可读取存储介质存储有因果事件图谱构建方法的应用程序,所述应用程序实现如所述的因果事件图谱构建方法的步骤。
本发明提出一种因果事件图谱构建方法、系统、装置及存储介质,具有如下优点:
(1)本发明提出了一套领域自动化的因果事件图谱构建方法,只需在质量控制时加以人工干预。
(2)本发明通过语言学专家整理的方式,构建起了一定规模的知识库。
(3)本发明提出了一种基于词性与事件语义结构的事件表示方法,这种事件表示方法能够更完备地表示出事件。
(4)本发明将情感分析技术融入到事件表示当中,能够增加事件另一维度上的信息。
(5)本发明将上下位因果事件、共现因果事件引入到因果事件图谱中,能够为基于因果事件的挖掘提供数据资源。
(6)本发明使用图数据库进行因果事件图谱存储,灵活性高,可支持深度因果事件查询。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明一种因果事件图谱构建方法的流程图;
图2为本发明一种实施例中因果事件图谱自动构建框架图;
图3为本发明一种实施例中因果事件抽取的流程图;
图4为本发明一种实施例中对因果事件模式抽取结果进行结构化表示的流程图;
图5为本发明一种实施例中事件向量表示的流程图;
图6为本发明一种实施例中相似度计算的流程图;
图7为本发明一种实施例中因果事件图谱构建系统的结构框图;
图8为本发明一种实施例中因果事件图谱构建装置的结构框图;
图9为本发明一种实施例中计算机可读取存储介质的结构框图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种因果事件图谱构建方法,该方法融合情感与语义规则,一种优选实施例中,如图1所示,包括如下步骤:
S10、构建因果事件模式知识库;
S20、根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
S30、对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
S40、对完成结构化表示的因果事件关系对进行融合;
S50、将融合后的因果事件数据存储至图数据库中。
针对S10,本发明实施例中,所述的因果事件模式知识库通过人工和机器协同工作而构建,因果事件模式知识库包括因果连词库、因果结果词库和因果事件模式库。
所述因果连词库,在汉语语法中充当因果连词性成分的词,包括关联连词以及因果动词;因果连词库的构建工作主要靠人工收集完成,所述因果连词库包括:标记原因的关联词、标记结果的关联词和标记结果的因果动词;其中:
所述标记原因的关联词,包括:“加上”、“受制于”、“只要”、“因为”、“由于”、“迫于”、“碍于”、“受限于”、“如果”、“假如”、“是因为”、“受”、“在”、“因”、“因为”、“受到”等词;
所述标记结果的关联词,包括:“从而”、“为此”、“那么”、“因而”、“从而”、“所以”、“故而”、“于是”、“预计”、“因此”、“令”、“之所以”、“从而”、“为此”、“那么”、“因而”、“从而”、“所以”、“故而”、“于是”、“故”等词。
所述标记结果的因果动词,具体为具有明显结果导向的结果前置性动词;包括:“牵动了?”、“以致”、“拖累了?”、“已致”、“使动”、“导致了?”、“使得了?”、“促成了?”、“造成了?”、“引导”、“造就了?”、“是故”、“结果”、“打压了?”、“促使了?”、“酿成了?”、“引发了?”、“引起了?”、“诱导了?”、“引来了?”、“促发了?”、“那么不排除”、“引致了?”、“引爆了?”、“抑制了?”、“诱发了?”、“诱致了?”、“推动了?”、“招致”、“致使”、“滋生了?”、“那么”、“不排除”、“带来了?”、“限制了?”、“触发了?”、“诱使了?”等词,其中的“?”表示“了”可不出现。
所述因果结果词库具体为与业务相关的具有明显结果趋势的动词集合;因果结果词库的构建工作主要是人机协作的方式来完成;所述因果结果词库的构建方式遵循以下步骤:
1)人工标注结果种子词,如“上涨”、“下跌”、“萎靡”、“慌张”等词;
2)加载领域词向量库,通过计算词语之间相似度并设定相似度阈值的方式对1)中的种子词进行扩展。
本发明实施例中,最终的因果结果词,例如:一哄而上、一场空、一帆风顺、一波三折、一泻千里、一筹莫展、一落千丈、一败涂地、一跌再跌、一路高歌、一蹴而就、一蹶不振、万劫不复、上不去、上冲。
所述因果事件模式库是基于因果连词库和因果结果词库构造出来的。因果事件模式是用于识别原因事件句和结果事件句的模式,具体包括以下几种大类模式:
模式1:(原因事件)因果动词(结果事件)结果词
模式2:原因标记词(原因事件)结果标记词(结果事件)结果词
模式3:(结果事件)结果词[是|由]+(原因事件)因果动词[的]?
模式4:之所以(结果事件)结果词[是因为|缘于|原因在于]原因标记词(原因事件)
模式5:原因标记词(原因事件)因果动词(结果事件)结果词
针对S20,本发明一种优选实施例中,针对每一篇领域文本,在进行因果事件抽取之前,先进行文本预处理。所述文本预处理,是剔除空白符等无用词,对文本进行规范化处理;针对规范化好的文本,借助因果事件模式知识库,进行因果事件抽取。
如图3所示,因果事件抽取的流程具体如下:
S201、短句主语补全:对输入文本进行短句主语补全处理;
本发明实施例中所述短句主语补全,即对输入文本中的短句明显存在着主语缺失的进行补全处理;具体补全策略为:对于引用词:“这些因素”、“这些”、“这儿”、“这”,若这些引用词后面直接与因果动词相接,则将引用词和引用词前接的句子标点进行组合,并从原句去除;
例如:
原句:“北京接连几天的暴雨,这导致了内涝”;
补全后:“北京接连几天的暴雨导致了内涝”;
S202、长句切分:采用长句标点符号作为分割点对文本进行分割处理;
本发明实施例中所述长句切分,即利用长句标点符号作为分割点对文本进行分割;文本分割的标点符号为:“??!!。;;.:\n\r”。
S203、分词:将分割处理后的句子切分成多个以单个词语为单位的序列;
本发明实施例中所述分词,即将句子切分成一个个以单个词语为单位的序列;分词主要采用开源分词工具进行切分。
S204、因果模式匹配:借助因果事件模式库中的因果事件模式进行原因句子和结果句子识别,将原因成分和结果成分进行切分,形成原因句子集和结果句子集;
由于原因部分还可能存在因果序列,因此这是个循环的过程,如图3中的循环箭头所示。例如:
原句:“一个是昨天本钢爆炸事件引发了钢厂检修预期,这样会造成供应收缩”;
抽取结果:
因果事件1:
原因部分:“一个是昨天本钢爆炸事件”;
结果部分:“钢厂检修预期”;
因果标记:“引发”;
因果事件2:
原因部分:“钢厂检修预期”;
结果部分:“供应收缩”;
因果标记:“造成”。
S205、短句切分:采用短句分割符号作为标记对原因句子集和结果句子集进行短句切分处理,获得原因短句集和结果短句集;
本发明实施例中所述短句切分,即利用短句分割符号标记进行短句切分的操作,是因果事件抽取的最后一道工序。步骤S204得到的是一个个长句集合,为了下一步结构化,则需要将长句进一步切分为短句,获得原因短句集和结果短句集;切分短句的符号标记为:中英文逗号:″,,″。
针对S30,本发明一种优选实施例中,对因果事件进行表示,即对因果事件模式抽取结果进行结构化表示,如图4所示,具体包括如下步骤:
S301、构建事件组成规则知识库;
事件组成规则知识库包括词性规则库、停用词库、主观词库等。
本发明实施例中,所述事件定义为:一个事件需具备语义完整性,即能够描述“什么主体做了什么事”这样一种事实,落实到汉语语法中,则需符合“主谓结构”或者“主谓宾结构”。
S302、对抽取后获得的原因事件语句和结果事件语句进行词性处理;
词性处理包括词性标注、命名实体识别、实词性成分抽取、连接成分抽取、实词性成分二次过滤。
本发明实施例中,利用开源工具对短句集进行词性标注和命名实体识别。词性标记集为:n-名词、v-动词、j-缩略词、i-成语、a-形容词、b-区别词、c-连词、w-标点。
本发明实施例中,对上一步得到的词性标注结果,依照词性标注、停用词表、否定词表、过滤规则过滤出实词性成分及连接成分;停用词表:噪声词表,包括“是”等词;否定词表:具有显示否定反转意义的中文词汇合集,包括“不”、“非”、“不是”等;过滤规则为:对于短句的每个词,若该词属于否定词,或者该词的词性属于所述词性标注集且词语不在停用词表中时,则这个词加以保留。
本发明实施例中,对上一步骤所获事件表示进行二次过滤,二次过滤规则为:若短句首词或末尾词为连词或者标点符号,则加以剔除,反复迭代,直至首尾词不为标点和连词。
S303、根据事件组成规则对经过词性处理后的短句进行过滤和判定处理;
本发明实施例中,对经过词性标注和命名实体识别的短句按照事件组成规则加以过滤;所述事件组成规则为:
1)符合以名词或缩略词开头,以动词、形容词、成语结尾的短句为候选事件表示;
2)符合以区别词或形容词为首词,名词或缩略词为第二个词,以动词、形容词、成语结尾的短句为候选事件表示;
3)符合以名词或缩略词开头,动词位于短句中间,并以名词或缩略词结尾的短句为候选事件表示;
4)符合以区别词或形容词为首词,名词或缩略词为第二个词,动词位于短句中间,并以名词或缩略词结尾的短句为候选事件表示。
本发明实施例中,所述事件短句判定,即利用主观性词表及规则对候选事件表示进行事件短句判定;
本发明实施例中,所述主观性词表,包括表示观点标记词,如:“认为”、“采访”、“表示”、“认为”等词;
本发明实施例中,所述规则为:若该短句词语序列中包含观点词,那么这个事件则从候选事件中移除。
S304、根据情感词表和否定词表对短句进行事件情感分析;
本发明实施例中,所述情感词表:为领域相关表达词语情感倾向的词表,其中包括情感词、情感词对应的极性信息、程度修正词表等;
本发明实施例中,所述否定词表:为具有明显否定反转含义的词语集合,能够对情绪的极性起到一种颠覆和反转的作用;
本发明融合基于情感词表、否定词表配合情感计算规则的方式对给定事件进行情感标签生成,信息包括事件的情感极性与强度;
例如:
给定事件:“上市公司股价暴跌”;
事件情感标签:“负向,强度0.85”;
S305、根据事件对构造规则对短句进行处理,构造因果事件关系对,完成结构化表示;
本发明实施例中,首先将经过情感分析后的短句进行汇总,形成事件池。然后根据事件对构造规则,构造因果事件关系对。所述事件对构造规则如下:
1)因果事件的组合;
本发明实施例中所述因果事件组合遵循以下规则:
给定一个长句中得到的原因事件集causes和结果事件集effects,由于往往是多因对多果的情况,因此,将原因事件集中的每一个事件和结果事件集中每一个事件进行组合,事件之间的关系标记为因果,因果标记词作为事件之间的标签。
如给定:
causes:[“暴雨袭击”,“供电站倒塌”];
effects:[“人民财产遭受损失”,“供电紧张”];
因果标记词:“造成”;
事件因果对为:
<暴雨袭击,造成,人民财产遭受损失>;
<供电站倒塌,造成,人民财产遭受损失>;
<暴雨袭击,造成,供电紧张>;
<供电站倒塌,造成,供电紧张>;
2)上下位事件的组合;
本发明实施例中所述上下位事件的组合遵循以下规则:
对于事件池的事件e1,e2,若事件e1的文字描述以事件e2结尾或e2为e1的一部分,那么则认为事件e2是事件e1的一个上位事件;
例如:
给定两个事件:
E1:“价格上涨”;
E2:“猪肉价格上涨”;
事件上下位关系对为:<价格上涨,下位,猪肉价格上涨>;
3)共现事件的组合;
本发明实施例中,所述共现事件的组合遵循以下规则:
给定两个事件,如果两个事件同时出现在一个长句中抽取出来的原因事件集或结果事件集中时,那么两个事件之间就存在着一种共现事件关系。
例如:
causes:[“暴雨袭击”,“供电站倒塌”];
effects:[“人民财产遭受损失”,“供电紧张”];
共现事件关系对为:
<暴雨袭击,供电站倒塌>,<人民财产遭受损失,供电紧张>;
本发明实施例中共现关系是双向的事件关系。
针对S40,本发明一种优选实施例中,所述事件融合,即将具有相同含义的不同事件表述融合统一成一种事件的过程。所述事件融合采用事件向量表示,结合相似度度量方法进行事件相似度计算,将相似度满足设定的阈值的事件进行融合,并通过以事件字符串排序的方式保留第一个事件作为事件映射目标事件。
本发明实施例中,所述事件向量表示,即利用句子向量表示方法对事件句子进行表示,如图5所示,所述句子向量表示方法为:
S401、对于给定的事件,对事件进行分词处理,形成若干个词列表;
S402、使用预训练词向量对事件中的若干个词向量进行拼接,通过加权求和等方式,形成事件语义向量表示;
S403、对事件进行情感分析,形成事件情绪向量;
S404、将事件语义向量表示和事件情绪向量进行拼接,形成最终的事件向量表示;
本发明实施例中,所述相似度计算,即编辑距离计算和余弦相似度计算,如图6所示,计算遵循以下操作步骤:
S411、编辑距离计算;
本发明实施例中,给定两个事件e1,e2,将字符操作数定义为编辑距离。若编辑距离小于等于编辑距离相似度阈值且事件e1与事件e2的情感极性一致,那么则认为两个事件是同一事件。
S412、余弦相似度计算;
本发明实施例中,给定两个事件e1,e2,将两个事件向量之间的夹角作为两个事件之间的相似度。若两个事件的相似度数值大于等于设定的阈值时,则认为两个事件是同一事件。
针对S50,本发明实施例可以使用的图数据库有Neo4j、FlockDB、AllegroGrap、GraphDB、InfiniteGraph等。
所述图数据库设计遵循以下规则:
1)节点设定;
设定事件节点标签,节点中设定名称、时间、所述文档等属性信息;
2)关系设定;
设定事件关系类型,包括共现关系、上下位关系、因果关系三大类事件关系;属性包括名称、关联频次等属性信息。
本发明还提出一种融合情感与语义规则的因果事件图谱构建系统。
本发明一种优选实施例中,如图7所示,包括:因果事件模式知识库、因果事件抽取单元、因果事件表示单元、因果事件融合单元、因果事件存储单元。
本发明实施例中,关于因果事件模式知识库构建的具体实施细节,在上文中关于步骤S10中阐述,包括具体细节步骤,因此,此处不再复述。
所述的因果事件抽取单元,用于根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
本发明实施例中,关于因果事件抽取单元的具体实施细节,在上文中关于步骤S20中阐述,包括具体细节步骤,因此,此处不再复述。
所述的因果事件表示单元,用于对抽取所获的原因事件和结果事件语句进行结构化表示,结构化表示包括基于语义结构规则的结构化和基于情感分析的事件标签表示;
本发明实施例中,关于因果事件表示单元的具体实施细节,在上文中关于步骤S30中阐述,包括具体细节步骤,因此,此处不再复述。
所述的因果事件融合单元,用于对完成结构化表示的因果事件关系对进行融合;
本发明实施例中,关于因果事件融合单元的具体实施细节,在上文中关于步骤S40中阐述,包括具体细节步骤,因此,此处不再复述。
所述的因果事件存储单元,用于将融合后的因果事件数据存储至图数据库中;
本发明实施例中,关于因果事件存储单元的具体实施细节,在上文中关于步骤S50中阐述,包括具体细节步骤,因此,此处不再复述。
本发明还提出一种因果事件图谱构建装置,如图8所示,包括:
处理器;
存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行实现所述的融合情感与语义规则的因果事件图谱构建方法的步骤,例如:
S10、构建因果事件模式知识库;
S20、根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
S30、对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
S40、对完成结构化表示的因果事件关系对进行融合;
S50、将融合后的因果事件数据存储至图数据库中。
此处具体实施细节,在上文中关于因果事件图谱构建方法已经阐述,因此,此处不再复述。
本发明实施例中,所述的因果事件图谱构建装置内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行因果事件图谱构建的各种功能和处理数据。
存储器用于存储程序代码和各种数据,安装在融合情感与语义规则的因果事件图谱构建装置中,并在运行过程中实现高速、自动地完成程序或数据的存取。所述存储器包括只读存储器、随机存储器、可编程只读存储器、可擦除可编程只读存储器、一次可编程只读存储器、电子擦除式可复写只读存储器、只读光盘或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本发明还提出一种计算机可读取存储介质,如图9所示,所述计算机可读取存储介质存储有因果事件图谱构建方法的应用程序,所述应用程序实现如所述的因果事件图谱构建方法的步骤,例如:
S10、构建因果事件模式知识库;
S20、根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
S30、对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
S40、对完成结构化表示的因果事件关系对进行融合;
S50、将融合后的因果事件数据存储至图数据库中。
此处具体实施细节,在上文中关于因果事件图谱构建方法已经阐述,因此,此处不再复述。
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器,只读存储器,可擦除可编辑只读存储器,光纤装置,以及便携式光盘只读存储器。另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (7)
1.一种因果事件图谱构建方法,其特征在于,包括:
构建因果事件模式知识库;
根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
对完成结构化表示的因果事件关系对进行融合;
将融合后的因果事件数据存储至图数据库中;
所述根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取具体包括:
对输入文本进行短句主语补全处理;
采用长句标点符号作为分割点对文本进行分割处理;
将分割处理后的句子切分成多个以单个词语为单位的序列;
借助因果事件模式库中的因果事件模式进行原因句子和结果句子识别,将原因成分和结果成分进行切分,形成原因句子集和结果句子集;
采用短句分割符号作为标记对原因句子集和结果句子集进行短句切分处理,获得原因短句集和结果短句集。
2.根据权利要求1所述的因果事件图谱构建方法,其特征在于,所述对抽取后获得的原因事件语句和结果事件语句进行结构化表示,具体包括:
构建事件组成规则知识库;
对抽取后获得的原因事件语句和结果事件语句进行词性处理;
根据事件组成规则对经过词性处理后的短句进行过滤和判定处理;
根据情感词表和否定词表对短句进行事件情感分析;
根据事件对构造规则对短句进行处理,构造因果事件关系对,完成结构化表示。
3.根据权利要求1所述的因果事件图谱构建方法,其特征在于,所述对完成结构化表示的因果事件关系对进行融合,具体为:采用事件向量表示,结合相似度度量方法进行事件相似度计算,将相似度满足设定的阈值的事件进行融合。
4.根据权利要求3所述的因果事件图谱构建方法,其特征在于,所述事件向量表示,即利用句子向量表示方法对事件句子进行表示,具体包括:
对于给定的事件,对事件进行分词处理,形成若干个词列表;
使用预训练词向量对若干个词列表的词向量进行拼接,通过加权求和的方式形成事件语义向量表示;
对事件进行情感分析,形成事件情绪向量;
将事件语义向量表示和事件情绪向量进行拼接,形成最终的事件向量表示。
5.一种因果事件图谱构建系统,其特征在于,包括:因果事件模式知识库、因果事件抽取单元、因果事件表示单元、因果事件融合单元、因果事件存储单元;其中,
所述的因果事件抽取单元,用于根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取;
所述的因果事件表示单元,用于对抽取后获得的原因事件语句和结果事件语句进行结构化表示;
所述的因果事件融合单元,用于对完成结构化表示的因果事件关系对进行融合;
所述的因果事件存储单元,用于将融合后的因果事件数据存储至图数据库中;
所述根据所构建的因果事件模式知识库自动对输入文本进行因果事件抽取具体包括:
对输入文本进行短句主语补全处理;
采用长句标点符号作为分割点对文本进行分割处理;
将分割处理后的句子切分成多个以单个词语为单位的序列;
借助因果事件模式库中的因果事件模式进行原因句子和结果句子识别,将原因成分和结果成分进行切分,形成原因句子集和结果句子集;
采用短句分割符号作为标记对原因句子集和结果句子集进行短句切分处理,获得原因短句集和结果短句集。
6.一种因果事件图谱构建装置,其特征在于,包括:
处理器;
存储器,耦合至所述的处理器并存储有指令,所述的指令在由所述处理器执行实现权利要求1至4中任一项所述的因果事件图谱构建方法的步骤。
7.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质存储有因果事件图谱构建方法的应用程序,所述应用程序实现如权利要求1至4中任一项所述的因果事件图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811354870.3A CN109726293B (zh) | 2018-11-14 | 2018-11-14 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811354870.3A CN109726293B (zh) | 2018-11-14 | 2018-11-14 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726293A CN109726293A (zh) | 2019-05-07 |
CN109726293B true CN109726293B (zh) | 2020-12-01 |
Family
ID=66295086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811354870.3A Active CN109726293B (zh) | 2018-11-14 | 2018-11-14 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726293B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977237B (zh) * | 2019-05-27 | 2019-09-10 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
CN110297904B (zh) * | 2019-06-17 | 2022-10-04 | 北京百度网讯科技有限公司 | 事件名的生成方法、装置、电子设备及存储介质 |
US20200401910A1 (en) * | 2019-06-18 | 2020-12-24 | International Business Machines Corporation | Intelligent causal knowledge extraction from data sources |
CN110895569A (zh) * | 2019-10-10 | 2020-03-20 | 卓尔智联(武汉)研究院有限公司 | 案卷事理图谱构建方法、电子装置及存储介质 |
CN110968699B (zh) * | 2019-11-01 | 2023-07-18 | 数地工场(南京)科技有限公司 | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 |
CN111026852B (zh) * | 2019-11-28 | 2023-06-30 | 广东工业大学 | 一种面向金融事件的混合型因果关系发现方法 |
CN111222330B (zh) * | 2019-12-26 | 2022-07-12 | 中国电力科学研究院有限公司 | 一种中文事件的检测方法和系统 |
CN111797233B (zh) * | 2020-06-12 | 2021-04-30 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN115516444A (zh) * | 2020-06-30 | 2022-12-23 | 西门子股份公司 | 基于语义的因果事件概率分析方法、装置和系统 |
CN111967256B (zh) * | 2020-06-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 事件关系的生成方法、装置、电子设备和存储介质 |
CN111753102A (zh) * | 2020-07-02 | 2020-10-09 | 武汉卓尔数字传媒科技有限公司 | 一种基于事理图谱的舆情分析方法、装置及电子设备 |
CN112100324B (zh) * | 2020-08-28 | 2023-05-05 | 广州探迹科技有限公司 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
CN112507691A (zh) * | 2020-12-07 | 2021-03-16 | 数地科技(北京)有限公司 | 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置 |
CN112966079B (zh) * | 2021-03-02 | 2022-09-30 | 中国电子科技集团公司第二十八研究所 | 一种用于对话系统的面向事件画像的文本分析方法 |
CN113312490B (zh) * | 2021-04-28 | 2023-04-18 | 乐山师范学院 | 一种针对突发事件的事件知识图谱构建方法 |
CN113312500B (zh) * | 2021-06-24 | 2022-05-03 | 河海大学 | 一种面向大坝安全运行的事件图谱构建方法 |
CN113642321B (zh) * | 2021-06-28 | 2024-03-29 | 浙江工业大学 | 面向金融领域的因果关系提取方法和系统 |
CN113590824A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 因果事理图谱的构建方法、装置及相关设备 |
CN114201611A (zh) * | 2021-10-27 | 2022-03-18 | 北京仿真中心 | 一种基于质量文本数据的事理图谱构建方法 |
CN114064937A (zh) * | 2022-01-14 | 2022-02-18 | 云孚科技(北京)有限公司 | 一种事理图谱自动构建方法和系统 |
CN116561184B (zh) * | 2023-07-11 | 2023-11-24 | 荣耀终端有限公司 | 一种数据查询方法、电子设备、服务器及数据查询系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8627335B2 (en) * | 2006-11-13 | 2014-01-07 | Oracle America, Inc. | Method and apparatus for data space profiling of applications across a network |
CN103440347B (zh) * | 2013-09-13 | 2016-05-11 | 武汉大学 | 一种异质灾害事件通用建模方法及系统 |
CN108052576B (zh) * | 2017-12-08 | 2021-04-23 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108270785B (zh) * | 2018-01-15 | 2020-06-30 | 中国人民解放军国防科技大学 | 一种基于知识图谱的分布式安全事件关联分析方法 |
CN108492887B (zh) * | 2018-04-13 | 2020-09-22 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
-
2018
- 2018-11-14 CN CN201811354870.3A patent/CN109726293B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
Non-Patent Citations (1)
Title |
---|
"一种基于文献的科研事件库构建方法";李鲲;《情报理论与实践》;20170930;第129-139页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109726293A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726293B (zh) | 一种因果事件图谱构建方法、系统、装置及存储介质 | |
CN110968700B (zh) | 融合多类事理与实体知识的领域事件图谱构建方法和装置 | |
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
US20210342371A1 (en) | Method and Apparatus for Processing Knowledge Graph | |
CN106934069B (zh) | 数据检索方法及系统 | |
CN111401058B (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN113609838B (zh) | 文档信息抽取及图谱化方法和系统 | |
CN113076133A (zh) | 基于深度学习的Java程序内部注释的生成方法及系统 | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN110795544A (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
CN111161861A (zh) | 用于医院后勤运维的短文本数据处理方法、装置 | |
CN101271448A (zh) | 汉语基本名词短语的识别及其规则的生成方法和装置 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN111062216B (zh) | 命名实体识别方法、装置、终端及可读介质 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |