CN113590824A - 因果事理图谱的构建方法、装置及相关设备 - Google Patents
因果事理图谱的构建方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113590824A CN113590824A CN202110875362.5A CN202110875362A CN113590824A CN 113590824 A CN113590824 A CN 113590824A CN 202110875362 A CN202110875362 A CN 202110875362A CN 113590824 A CN113590824 A CN 113590824A
- Authority
- CN
- China
- Prior art keywords
- event
- causal
- target
- text
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 225
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000007774 longterm Effects 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 238000011161 development Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 16
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 12
- 229910052802 copper Inorganic materials 0.000 description 12
- 239000010949 copper Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 235000010469 Glycine max Nutrition 0.000 description 2
- 244000068988 Glycine max Species 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理技术,提供一种因果事理图谱的构建方法、装置、计算机设备及存储介质,包括:获取预先存储于数据库中的目标文本;解析所述目标文本,得到短期事件文本集与长期事件文本集;确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对;预处理所述初始因果事件对,得到目标因果事件对;根据所述目标因果事件对构建因果事理图谱。本申请能够提高因果事理图谱构建的准确性,可用于智慧城市的各个功能模块中,促进智慧城市的快速发展。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种因果事理图谱的构建方法、装置、计算机设备及介质。
背景技术
金融系统是现代经济发展重要支柱之一,随着网络化、信息化的快速发展,社会中发生的事件、国家政策以及各方各面的信息的传播快速,往往这些事件会对金融市场的变化有着极为重要的影响。目前主要通过构建事件图谱实现事件追踪,从而辅助研究人员对金融市场的变化进行判断。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:现有技术在对金融市场的相关事件的抽取过程中,并未对短期事件与长期事件进行区分,而短期事件与长期事件对某一结果的影响程度并不相同。若通过研究人员依据自身经验对事理图谱中的短期事件与长期事件进行分辨,将会导致事理图谱构建的准确性较差。
因此,有必要提供一种因果事理图谱的构建方法,能够提高因果事理图谱构建的准确性。
发明内容
鉴于以上内容,有必要提出一种因果事理图谱的构建方法、因果事理图谱的构建装置、计算机设备及介质,能够提高因果事理图谱构建的准确性。
本申请实施例第一方面提供一种因果事理图谱的构建方法,所述因果事理图谱的构建方法包括:
获取预先存储于数据库中的目标文本;
解析所述目标文本,得到短期事件文本集与长期事件文本集;
确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对;
预处理所述初始因果事件对,得到目标因果事件对;
根据所述目标因果事件对构建因果事理图谱。
进一步地,在本申请实施例提供的上述因果事理图谱的构建方法中,所述获取预先存储于数据库中的目标文本包括:
获取预先存储于数据库中的初始文本;
分句处理所述初始文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标文本。
进一步地,在本申请实施例提供的上述因果事理图谱的构建方法中,所述解析所述目标文本,得到短期事件文本集与长期事件文本集包括:
解析所述目标文本,得到原因事件与所述原因事件对应的结果事件;
获取每一所述结果事件对应的若干原因事件集;
调用预先训练好的影响时长计算模型处理所述若干原因事件集,得到所述若干原因事件集中每一原因事件的影响时长;
选取所述影响时长未超过预设时长阈值的第一原因事件及对应的结果事件作为短期事件文本集,并选取所述影响时长超过预设时长阈值的第二原因事件及对应的结果事件作为长期事件文本集。
进一步地,在本申请实施例提供的上述因果事理图谱的构建方法中,所述解析所述目标文本,得到原因事件与所述原因事件对应的结果事件包括:
解析所述目标文本,得到所述目标文本中的事件触发词;
获取包含所述事件触发词的语句作为目标因果句;
根据所述事件触发词确定所述目标因果句中的原因句与结果句;
分别对所述原因句与所述结果句进行事件抽取,得到原因事件以及所述原因事件对应的结果事件。
进一步地,在本申请实施例提供的上述因果事理图谱的构建方法中,所述确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对包括:
获取所述短期事件文本集中的第一结果事件集与所述长期事件文本集中的第二结果事件集;
匹配所述第一结果事件集与所述第二结果事件集;
选取所述第一结果事件集与所述第二结果事件集中相同的目标结果事件集,并获取所述目标结果事件集对应的第一原因事件集与第二原因事件集;
按照预定数据格式组合所述第一原因事件集、第二原因事件集以及所述目标结果事件集,得到初始因果事件对。
进一步地,在本申请实施例提供的上述因果事理图谱的构建方法中,所述预处理所述初始因果事件对,得到目标因果事件对包括:
获取所述初始因果事件对中的目标元素信息;
检测所述目标元素信息是否符合预设元素形式;
当检测结果为所述目标元素信息不符合预设元素形式时,修正所述目标元素信息至符合所述预设元素形式;
向量化处理所述初始因果事件对,并计算所述初始因果事件对中任意两个因果事件对的相似度;
检测所述初始因果事件对中任意两个因果事件对的相似度是否超过预设相似度阈值;
当检测结果为所述初始因果事件对中任意两个因果事件对的相似度超过预设相似度阈值时,删除其中之一的因果事件对,得到目标因果事件对。
进一步地,在本申请实施例提供的上述因果事理图谱的构建方法中,所述根据所述目标因果事件对构建因果事理图谱包括:
根据所述目标因果事件中包含的事件设置事件节点;
获取所述目标因果事件对中事件之间的关联关系;
根据所述目标因果事件对中事件的发生概率确定转移概率;
根据所述关联关系和转移概率确定所述事件节点之间的边,生成因果事理图谱。
本申请实施例第二方面还提供一种因果事理图谱的构建装置,所述因果事理图谱的构建装置包括:
文本获取模块,用于获取预先存储于数据库中的目标文本;
文本解析模块,用于解析所述目标文本,得到短期事件文本集与长期事件文本集;
关系确定模块,用于确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对;
事件对获取模块,用于预处理所述初始因果事件对,得到目标因果事件对;
图谱构建模块,用于根据所述目标因果事件对构建因果事理图谱。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述因果事理图谱的构建方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述因果事理图谱的构建方法。
本申请实施例提供的上述因果事理图谱的构建方法、因果事理图谱的构建装置、计算机设备以及计算机可读存储介质,将一个结果的产生分为由短期内随机事件与长期内重大事件共同驱动完成,通过解析目标金融文本,得到短期事件文本集与长期事件文本集,并依据所述短期事件文本集与所述长期事件文本集确定因果事件对,继而构建因果事理图谱,能够避免通过研究人员的自身经验分辨短期事件与长期事件,提高因果事理图谱构建的准确性;此外,本申请通过预处理所述初始因果事件对的方式,得到目标因果事件对,并依据所述目标因果事件对构建因果事理图谱,能够避免事件对不完整或者事件对重复对因果事理图谱的影响,提高了因果事理图谱构建的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务或智慧交通的因果事理图谱的构建模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的因果事理图谱的构建方法的流程图。
图2是本申请实施例二提供的因果事理图谱的构建装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本发明实施例提供的因果事理图谱的构建方法由计算机设备执行,相应地,因果事理图谱的构建装置运行于计算机设备中。
图1是本申请第一实施方式的因果事理图谱的构建方法的流程图。如图1所示,所述因果事理图谱的构建方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取预先存储于数据库中的目标文本。
在本申请的至少一实施例中,所述目标文本可以是包含预设逻辑关系的描述语句,例如,所述目标文本可以是包含事件因果关系的描述语句。在一实施例中,所述目标文本可以为金融文本,所述金融文本是指与金融专业领域(例如,财经、证券、行业、交易所等金融领域)有关的说明文档,例如,所述金融文本可以为上市公司的招股说明书、上市公司年报、上市公司其他公告、券商公司研报、券商行业研报以及金融新闻等。在其他实施例中,所述目标文本还可以为新闻文本,所述新闻文本是指与新闻领域有关的说明文档,例如,所述新闻文本可以为某一灾害带来的相关影响报道等,在此不做限制。所述目标文本预先存储于数据库中,考虑到数据的隐私性与保密性,所述数据库可以为区块链中的目标节点。
所述目标文本是指对初始文本进行自然语言处理技术处理后的文本数据,由若干目标文本组成训练语句组。最终提取的训练语句组的数量可以根据系统人员根据应用场景的数据精度需要确定的。例如,可以提取10000组训练语句组供模型训练使用,另外提取2000组训练语句组供模型测试使用。
可选地,所述获取预先存储于数据库中的目标文本包括:
获取预先存储于数据库中的初始文本;
分句处理所述初始文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标文本。
其中,在进行分句处理时,基于jieba库以标点符号对所述初始文本进行分句处理,所述标点符号包括逗号、顿号、句号、叹号和/或问号。依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的依存关系。一般使用句法分析工具,将一段文本进行分句处理,依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser),得到目标文本。在一实施例中,所述目标文本可以为动宾关系的词组如代表产量变化的事件,例如:“美国大豆产量增加xx万吨达xx万吨”),此外,所述目标文本还可包括时间属性(如过去、现在、将来等时间区间)。
S12,解析所述目标文本,得到短期事件文本集与长期事件文本集。
在本申请的至少一实施例中,一个结果的产生可能由短期内随机事件完成,也可能由长期内重大事件完成,还可能由短期内随机事件与长期内重大事件共同驱动完成。以金融专业领域为例,大宗商品(期货或现货)价格一般伴随着短期内随机事件的小波动以及长期内重大事件驱动的大波动,这些事件包括宏观政策的发布、供给变化、需求变化、库存变化等。例如,随着人工智能迎来发展高潮,以及“我国将人工智能列为国家发展战略”,科大讯飞等人工智能企业的股价迎来了一波大涨。又例如,从目标文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通胀”,进而导致“股市下跌”这样的远距离事件依赖。
在一实施例中,所述目标文本是包含事件因果关系的描述语句,所述目标文本中可以包含短期事件、长期事件或者短期事件与长期事件的组合。其中,本申请提及的“短期”与“长期”是指按照预先选择的适当的时间尺度(或时间间隔)进行划分,时间尺度可以以日、周、月等为单位。示例性地,所述短期事件可以包括但不限于粮食减产、库存变化、智利地震等,所述长期事件可以包括但不限于宏观政策发布等。
在一实施例中,所述短期事件与所述长期事件可以通过计算目标文本中记载的历史事件对金融市场(例如,大宗商品价格)的影响时长确定,历史事件对大宗商品价格的影响时长超过预设时长阈值的事件,确定该事件属于长期事件;历史事件对大宗商品价格的影响时长未超过所述预设时长阈值的事件,确定该事件为短期事件,所述预设时长阈值为预先设置的时间值,例如,所述预设时长阈值为1个月。可选地,所述计算目标文本中记载的历史事件对市场的影响时长可以通过训练影响时长计算模型的方式,所述影响时长计算模型可以为深度学习网络模型,模型训练的方法为现有技术,在此不做赘述。
可选地,所述解析所述目标文本,得到短期事件文本集与长期事件文本集包括:
解析所述目标文本,得到原因事件与所述原因事件对应的结果事件;
获取每一所述结果事件对应的若干原因事件集;
调用预先训练好的影响时长计算模型处理所述若干原因事件集,得到所述若干原因事件集中每一原因事件的影响时长;
选取所述影响时长未超过预设时长阈值的第一原因事件及对应的结果事件作为短期事件文本集,并选取所述影响时长超过预设时长阈值的第二原因事件及对应的结果事件作为长期事件文本集。
其中,所述短期事件文本集中包含若干所述影响时长未超过预设时长阈值的第一原因事件以及对应所述第一原因事件的第一结果事件,所述长期事件文本集中包含若干所述影响时长超过预设时长阈值的第二原因事件以及对应所述第二原因事件的第二结果事件。
在一实施例中,可通过确定事件触发词(Trigger,例如,“导致”、“引发”、“带来”等)的方式确定原因事件与所述原因事件对应的结果事件,所述事件触发词为表示事件发生的核心词,用于识别事件类型,所述事件触发词多为动词。例如,当所述目标文本为新闻文本时,通过解析该新闻文本,得到该新闻文本的主题为“智利地震”,可以得知“智利地震”为原因事件,遍历该新闻文本,得到若干事件触发词“引发”、“导致”,例如,“智利地震”引发铜市场供应恐慌,导致市场铜短期供应不足,导致铜价上涨。由“引发”、“导致”这些事件触发词可知,“铜市场供应恐慌”、“市场铜短期供应不足”以及“铜价上涨”这些均属于“智利地震”这一原因事件对应的结果事件。
可选地,所述解析所述目标文本,得到原因事件与所述原因事件对应的结果事件包括:
解析所述目标文本,得到所述目标文本中的事件触发词;
获取包含所述事件触发词的语句作为目标因果句;
根据所述事件触发词确定所述目标因果句中的原因句与结果句;
分别对所述原因句与所述结果句进行事件抽取,得到原因事件以及所述原因事件对应的结果事件。
其中,所述目标文本中可以包含多个事件触发词,通过提取所述目标文本中包含所述事件触发词的语句,能够得到目标因果句,所述目标因果句也即包含原因事件、事件触发词以及结果事件的语句。所述目标文本中包含的所述目标因果句的数量可以为1个,也可以为多个,在此不做限制。
S13,确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对。
在本申请的至少一实施例中,对于存在因果关系的若干事件,可以通过事件对的形式存储,所述事件对的数据格式例如:(长期亏损,导致,股票ST)、(大股东减持,引发,股票遭遇做空)等。所述初始因果事件对中包含所述短期事件文本集、所述长期事件文本集或者所述短期事件文本集与所述长期事件文本集的组合,所述短期事件文本集与所述长期事件文本集可以通过添加预设标记的方式加以区分,所述预设标记可以为颜色标记、字母标记或者数字标记等,在此不做限制。由于短期事件与长期事件对结果产生的影响度(例如,对结果产生的影响时效)有差异,本申请通过对所述初始因果事件对中的长期事件文本集与短期事件文本集添加预设标记加以区分的方式,能够在构建因果事理图谱时分辨出短期事件与长期事件,从而更加准确地辅助研究人员形成对大类资产未来趋势的判断。
可选地,所述确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对包括:
获取所述短期事件文本集中的第一结果事件集与所述长期事件文本集中的第二结果事件集;
匹配所述第一结果事件集与所述第二结果事件集;
选取所述第一结果事件集与所述第二结果事件集中相同的目标结果事件集,并获取所述目标结果事件集对应的第一原因事件集与第二原因事件集;
按照预定数据格式组合所述第一原因事件集、第二原因事件集以及所述目标结果事件集,得到初始因果事件对。
其中,所述短期事件文本集中包含第一结果事件集与第一原因事件集,所述长期事件文本集中包含第二结果事件集与第二原因事件集,所述第一结果事件集与所述第二结果事件集可以是相同的。通过选取所述第一结果事件集与所述第二结果事件集中相同的目标结果事件集,并获取所述目标结果事件集对应的第一原因事件集与第二原因事件集,能够得到一个结果事件对应的短期原因事件与长期原因事件,由所述短期原因事件、所述长期原因事件与所述结果事件能够构成初始因果事件对。
S14,预处理所述初始因果事件对,得到目标因果事件对。
在本申请的至少一实施例中,由于目标文本表述的独特性导致抽取的事件可能存在时间和地点等元素信息不完善且非标准化,但时序关系与空间关系抽取的性能又与这两个元素质量息息相关。因此,采用结构化事件中存在的上下文事件时间或新闻报道时间,来对事件发生时间进行补充修正,并将其统一转化为形如“20200303”的形式。同时,采用Python中的cpca模块作为外部知识对空间信息,如省、市、区等不同地名信息进行修正。此外,由于同一事件的不同描述会导致文本中存在大量的共指事件,并会造成事件图谱冗余或冲突,故采用语义相似度计算将事件对齐。
在一实施例中,采用word2vec训练词向量将事件元素表示成文本空间向量,将相似度计算简化成向量空间的向量计算,通过向量的夹角余弦距离度量两事件的语义相似度。示例性地,若a1i=(x11,x12,…,x1n),a2i=(x21,x22,…,x2n)分别表示事件event1和事件event2的事件元素,事件元素的余弦相似度计算与归一化如下:
在事件的表述过程中,表示事件发生的关键事件元素经过过滤与补全后,都不能为空,因此,在事件event1和事件event2的相似度计算过程中,仅选取两事件间均不为空的事件元素来衡量两事件间的语义相似度,其计算如下:
事件间相似度越接近于1,则两个事件的相似度越高,且这两事件越可能是共指事件,故若事件语义相似度大于设置阈值μ时,则认为两事件共指,则过滤掉其中事件元素较少的事件。
可选地,所述预处理所述初始因果事件对,得到目标因果事件对包括:
获取所述初始因果事件对中的目标元素信息;
检测所述目标元素信息是否符合预设元素形式;
当检测结果为所述目标元素信息不符合预设元素形式时,修正所述目标元素信息至符合所述预设元素形式;
向量化处理所述初始因果事件对,并计算所述初始因果事件对中任意两个因果事件对的相似度;
检测所述初始因果事件对中任意两个因果事件对的相似度是否超过预设相似度阈值;
当检测结果为所述初始因果事件对中任意两个因果事件对的相似度超过预设相似度阈值时,删除其中之一的因果事件对,得到目标因果事件对。
其中,所述目标元素信息可以包括时间元素和地点元素,所述预设元素形式是指系统人员预先设置的所述目标元素信息存储的预设数据格式。所述因果事理对中的长期事件与短期事件均添加预设标记加以区分,能够在构建因果事理图谱时分辨出短期事件与长期事件,从而更加准确地辅助研究人员形成对大类资产未来趋势的判断。
S15,根据所述目标因果事件对构建因果事理图谱。
在本申请的至少一实施例中,在图结构上,因果事理图谱是一个有向有环图,其中节点表示事件,有向边表示事件之间的演化关系。因果事理图谱可以体现现实世界中事件演化规律的复杂性。本质上,因果事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式,提高所呈现的信息的逻辑性和完整性。
所述因果事理图谱是指存在因果关系的事件间的事理图谱,因果关系是指两个事件之间,在先事件(原因)的发生导致在后事件(结果)的发生。
在一实施例中,所述因果事理图谱按照预设时间间隔进行更新以保证事件图谱中的知识尽可能的为最新状态,所述预设时间间隔为系统人员预先设置的时间值。数据源的更新是知识更新的基础,一方面采用网络爬虫或者直接下载的方式定期同步金融网站上的数据。另一方面以社交媒体网站上的与目标文本相关的热门事件以及各大搜索引擎的热门词为候选事件。
可选地,所述根据所述目标因果事件对构建因果事理图谱包括:
根据所述目标因果事件中包含的事件设置事件节点;
获取所述目标因果事件对中事件之间的关联关系;
根据所述目标因果事件对中事件的发生概率确定转移概率;
根据所述关联关系和转移概率确定所述事件节点之间的边,生成因果事理图谱。其中,计算事件A和事件B之间的转移概率,统计目标因果事件对中事件A的发生的概率Pa=(事件A出现的次数/事件总数),目标因果事件对中计算事件A和事件B的发生概率Pab=(事件A和事件B同时出现的次数/事件总数),那么事件A和事件B之间的转移概率为Pab/Pa。也即事件A和事件B之间的转移概率为(事件A和事件B同时出现的次数/事件A出现的次数)。这样形成的因果事理图谱中边就代表前一个事件A发生后,后一个事件B发生的概率。此外,所述因果事理图谱中还包含预设标记用于区分长期事件与短期事件,更加准确地辅助研究人员形成对大类资产未来趋势的判断。
示例性地,当获取到某一个企业发生事件A后,根据因果事理图谱,计算在该企业当事件A发生后,进而发生风险事件(如退市、债务违约、破产清算等)的概率。如果计算的风险事件概率大于风险阈值,进行风险事件预警。
本申请实施例提供的上述因果事理图谱的构建方法,将一个结果的产生分为由短期内随机事件与长期内重大事件共同驱动完成,通过解析目标金融文本,得到短期事件文本集与长期事件文本集,并依据所述短期事件文本集与所述长期事件文本集确定因果事件对,继而构建因果事理图谱,能够避免通过研究人员的自身经验分辨短期事件与长期事件,提高因果事理图谱构建的准确性;此外,本申请通过预处理所述初始因果事件对的方式,得到目标因果事件对,并依据所述目标因果事件对构建因果事理图谱,能够避免事件对不完整或者事件对重复对因果事理图谱的影响,提高了因果事理图谱构建的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的因果事理图谱的构建模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的因果事理图谱的构建装置的结构图。
在一些实施例中,所述因果事理图谱的构建装置20可以包括多个由计算机程序段所组成的功能模块。所述因果事理图谱的构建装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)轮椅租赁处理的功能。
本实施例中,所述因果事理图谱的构建装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:文本获取模块201、文本解析模块202、关系确定模块203、事件对获取模块204以及图谱构建模块205。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述文本获取模块201用于获取预先存储于数据库中的目标文本。
在本申请的至少一实施例中,所述目标文本可以是包含预设逻辑关系的描述语句,例如,所述目标文本可以是包含事件因果关系的描述语句。在一实施例中,所述目标文本可以为金融文本,所述金融文本是指与金融专业领域(例如,财经、证券、行业、交易所等金融领域)有关的说明文档,例如,所述金融文本可以为上市公司的招股说明书、上市公司年报、上市公司其他公告、券商公司研报、券商行业研报以及金融新闻等。在其他实施例中,所述目标文本还可以为新闻文本,所述新闻文本是指与新闻领域有关的说明文档,例如,所述新闻文本可以为某一灾害带来的相关影响报道等,在此不做限制。所述金融文本预先存储于数据库中,考虑到数据的隐私性与保密性,所述数据库可以为区块链中的目标节点。
所述目标文本是指对初始文本进行自然语言处理技术处理后的文本数据,由若干目标文本组成训练语句组。最终提取的训练语句组的数量可以根据系统人员根据应用场景的数据精度需要确定的。例如,可以提取10000组训练语句组供模型训练使用,另外提取2000组训练语句组供模型测试使用。
可选地,所述获取预先存储于数据库中的目标文本包括:
获取预先存储于数据库中的初始文本;
分句处理所述初始文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标文本。
其中,在进行分句处理时,基于jieba库以标点符号对所述初始文本进行分句处理,所述标点符号包括逗号、顿号、句号、叹号和/或问号。依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的依存关系。一般使用句法分析工具,将一段文本进行分句处理,依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser),得到目标文本。在一实施例中,所述目标文本可以为动宾关系的词组如代表产量变化的事件,例如:“美国大豆产量增加xx万吨达xx万吨”),此外,所述目标文本还可包括时间属性(如过去、现在、将来等时间区间)。
所述文本解析模块202用于解析所述目标文本,得到短期事件文本集与长期事件文本集。
在本申请的至少一实施例中,一个结果的产生可能由短期内随机事件完成,也可能由长期内重大事件完成,还可能由短期内随机事件与长期内重大事件共同驱动完成。以金融专业领域为例,大宗商品(期货或现货)价格一般伴随着短期内随机事件的小波动以及长期内重大事件驱动的大波动,这些事件包括宏观政策的发布、供给变化、需求变化、库存变化等。例如,随着人工智能迎来发展高潮,以及“我国将人工智能列为国家发展战略”,科大讯飞等人工智能企业的股价迎来了一波大涨。又例如,从目标文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通胀”,进而导致“股市下跌”这样的远距离事件依赖。
在一实施例中,所述目标文本是包含事件因果关系的描述语句,所述目标文本中可以包含短期事件、长期事件或者短期事件与长期事件的组合。其中,本申请提及的“短期”与“长期”是指按照预先选择的适当的时间尺度(或时间间隔)进行划分,时间尺度可以以日、周、月等为单位。示例性地,所述短期事件可以包括但不限于粮食减产、库存变化、智利地震等,所述长期事件可以包括但不限于宏观政策发布等。
在一实施例中,所述短期事件与所述长期事件可以通过计算目标文本中记载的历史事件对金融市场(例如,大宗商品价格)的影响时长确定,历史事件对大宗商品价格的影响时长超过预设时长阈值的事件,确定该事件属于长期事件;历史事件对大宗商品价格的影响时长未超过所述预设时长阈值的事件,确定该事件为短期事件,所述预设时长阈值为预先设置的时间值,例如,所述预设时长阈值为1个月。可选地,所述计算目标文本中记载的历史事件对市场的影响时长可以通过训练影响时长计算模型的方式,所述影响时长计算模型可以为深度学习网络模型,模型训练的方法为现有技术,在此不做赘述。
可选地,所述解析所述目标文本,得到短期事件文本集与长期事件文本集包括:
解析所述目标文本,得到原因事件与所述原因事件对应的结果事件;
获取每一所述结果事件对应的若干原因事件集;
调用预先训练好的影响时长计算模型处理所述若干原因事件集,得到所述若干原因事件集中每一原因事件的影响时长;
选取所述影响时长未超过预设时长阈值的第一原因事件及对应的结果事件作为短期事件文本集,并选取所述影响时长超过预设时长阈值的第二原因事件及对应的结果事件作为长期事件文本集。
其中,所述短期事件文本集中包含若干所述影响时长未超过预设时长阈值的第一原因事件以及对应所述第一原因事件的第一结果事件,所述长期事件文本集中包含若干所述影响时长超过预设时长阈值的第二原因事件以及对应所述第二原因事件的第二结果事件。
在一实施例中,可通过确定事件触发词(Trigger,例如,“导致”、“引发”、“带来”等)的方式确定原因事件与所述原因事件对应的结果事件,所述事件触发词为表示事件发生的核心词,用于识别事件类型,所述事件触发词多为动词。
例如,当所述目标文本为新闻文本时,通过解析该新闻文本,得到该新闻文本的主题为“智利地震”,可以得知“智利地震”为原因事件,遍历该新闻文本,得到若干事件触发词“引发”、“导致”,例如,“智利地震”引发铜市场供应恐慌,导致市场铜短期供应不足,导致铜价上涨。由“引发”、“导致”这些事件触发词可知,“铜市场供应恐慌”、“市场铜短期供应不足”以及“铜价上涨”这些均属于“智利地震”这一原因事件对应的结果事件。
可选地,所述解析所述目标文本,得到原因事件与所述原因事件对应的结果事件包括:
解析所述目标文本,得到所述目标文本中的事件触发词;
获取包含所述事件触发词的语句作为目标因果句;
根据所述事件触发词确定所述目标因果句中的原因句与结果句;
分别对所述原因句与所述结果句进行事件抽取,得到原因事件以及所述原因事件对应的结果事件。
其中,所述目标文本中可以包含多个事件触发词,通过提取所述目标文本中包含所述事件触发词的语句,能够得到目标因果句,所述目标因果句也即包含原因事件、事件触发词以及结果事件的语句。所述目标文本中包含的所述目标因果句的数量可以为1个,也可以为多个,在此不做限制。
所述关系确定模块203用于确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对。
在本申请的至少一实施例中,对于存在因果关系的若干事件,可以通过事件对的形式存储,所述事件对的数据格式例如:(长期亏损,导致,股票ST)、(大股东减持,引发,股票遭遇做空)等。所述初始因果事件对中包含所述短期事件文本集、所述长期事件文本集或者所述短期事件文本集与所述长期事件文本集的组合,所述短期事件文本集与所述长期事件文本集可以通过添加预设标记的方式加以区分,所述预设标记可以为颜色标记、字母标记或者数字标记等,在此不做限制。由于短期事件与长期事件对结果产生的影响度(例如,对结果产生的影响时效)有差异,本申请通过对所述初始因果事件对中的长期事件文本集与短期事件文本集添加预设标记加以区分的方式,能够在构建因果事理图谱时分辨出短期事件与长期事件,从而更加准确地辅助研究人员形成对大类资产未来趋势的判断。
可选地,所述确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对包括:
获取所述短期事件文本集中的第一结果事件集与所述长期事件文本集中的第二结果事件集;
匹配所述第一结果事件集与所述第二结果事件集;
选取所述第一结果事件集与所述第二结果事件集中相同的目标结果事件集,并获取所述目标结果事件集对应的第一原因事件集与第二原因事件集;
按照预定数据格式组合所述第一原因事件集、第二原因事件集以及所述目标结果事件集,得到初始因果事件对。
其中,所述短期事件文本集中包含第一结果事件集与第一原因事件集,所述长期事件文本集中包含第二结果事件集与第二原因事件集,所述第一结果事件集与所述第二结果事件集可以是相同的。通过选取所述第一结果事件集与所述第二结果事件集中相同的目标结果事件集,并获取所述目标结果事件集对应的第一原因事件集与第二原因事件集,能够得到一个结果事件对应的短期原因事件与长期原因事件,由所述短期原因事件、所述长期原因事件与所述结果事件能够构成初始因果事件对。
所述事件对获取模块204用于预处理所述初始因果事件对,得到目标因果事件对。
在本申请的至少一实施例中,由于目标文本表述的独特性导致抽取的事件可能存在时间和地点等元素信息不完善且非标准化,但时序关系与空间关系抽取的性能又与这两个元素质量息息相关。因此,采用结构化事件中存在的上下文事件时间或新闻报道时间,来对事件发生时间进行补充修正,并将其统一转化为形如“20200303”的形式。同时,采用Python中的cpca模块作为外部知识对空间信息,如省、市、区等不同地名信息进行修正。此外,由于同一事件的不同描述会导致文本中存在大量的共指事件,并会造成事件图谱冗余或冲突,故采用语义相似度计算将事件对齐。
在一实施例中,采用word2vec训练词向量将事件元素表示成文本空间向量,将相似度计算简化成向量空间的向量计算,通过向量的夹角余弦距离度量两事件的语义相似度。示例性地,若a1i=(x11,x12,…,x1n),a2i=(x21,x22,…,x2n)分别表示事件event1和事件event2的事件元素,事件元素的余弦相似度计算与归一化如下:
在事件的表述过程中,表示事件发生的关键事件元素经过过滤与补全后,都不能为空,因此,在事件event1和事件event2的相似度计算过程中,仅选取两事件间均不为空的事件元素来衡量两事件间的语义相似度,其计算如下:
事件间相似度越接近于1,则两个事件的相似度越高,且这两事件越可能是共指事件,故若事件语义相似度大于设置阈值μ时,则认为两事件共指,则过滤掉其中事件元素较少的事件。
可选地,所述预处理所述初始因果事件对,得到目标因果事件对包括:
获取所述初始因果事件对中的目标元素信息;
检测所述目标元素信息是否符合预设元素形式;
当检测结果为所述目标元素信息不符合预设元素形式时,修正所述目标元素信息至符合所述预设元素形式;
向量化处理所述初始因果事件对,并计算所述初始因果事件对中任意两个因果事件对的相似度;
检测所述初始因果事件对中任意两个因果事件对的相似度是否超过预设相似度阈值;
当检测结果为所述初始因果事件对中任意两个因果事件对的相似度超过预设相似度阈值时,删除其中之一的因果事件对,得到目标因果事件对。
其中,所述目标元素信息可以包括时间元素和地点元素,所述预设元素形式是指系统人员预先设置的所述目标元素信息存储的预设数据格式。所述因果事理对中的长期事件与短期事件均添加预设标记加以区分,能够在构建因果事理图谱时分辨出短期事件与长期事件,从而更加准确地辅助研究人员形成对大类资产未来趋势的判断。
所述图谱构建模块205用于根据所述目标因果事件对构建因果事理图谱。
在本申请的至少一实施例中,在图结构上,因果事理图谱是一个有向有环图,其中节点表示事件,有向边表示事件之间的演化关系。因果事理图谱可以体现现实世界中事件演化规律的复杂性。本质上,因果事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式,提高所呈现的信息的逻辑性和完整性。
所述因果事理图谱是指存在因果关系的事件间的事理图谱,因果关系是指两个事件之间,在先事件(原因)的发生导致在后事件(结果)的发生。
在一实施例中,所述因果事理图谱按照预设时间间隔进行更新以保证事件图谱中的知识尽可能的为最新状态,所述预设时间间隔为系统人员预先设置的时间值。数据源的更新是知识更新的基础,一方面采用网络爬虫或者直接下载的方式定期同步金融网站上的数据。另一方面以社交媒体网站上的与目标文本相关的热门事件以及各大搜索引擎的热门词为候选事件。
可选地,所述根据所述目标因果事件对构建因果事理图谱包括:
根据所述目标因果事件中包含的事件设置事件节点;
获取所述目标因果事件对中事件之间的关联关系;
根据所述目标因果事件对中事件的发生概率确定转移概率;
根据所述关联关系和转移概率确定所述事件节点之间的边,生成因果事理图谱。其中,计算事件A和事件B之间的转移概率,统计目标因果事件对中事件A的发生的概率Pa=(事件A出现的次数/事件总数),目标因果事件对中计算事件A和事件B的发生概率Pab=(事件A和事件B同时出现的次数/事件总数),那么事件A和事件B之间的转移概率为Pab/Pa。也即事件A和事件B之间的转移概率为(事件A和事件B同时出现的次数/事件A出现的次数)。这样形成的因果事理图谱中边就代表前一个事件A发生后,后一个事件B发生的概率。此外,所述因果事理图谱中还包含预设标记用于区分长期事件与短期事件,更加准确地辅助研究人员形成对大类资产未来趋势的判断。
示例性地,当获取到某一个企业发生事件A后,根据因果事理图谱,计算在该企业当事件A发生后,进而发生风险事件(如退市、债务违约、破产清算等)的概率。如果计算的风险事件概率大于风险阈值,进行风险事件预警。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的因果事理图谱的构建方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的因果事理图谱的构建方法的全部或者部分步骤;或者实现因果事理图谱的构建装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种因果事理图谱的构建方法,其特征在于,所述因果事理图谱的构建方法包括:
获取预先存储于数据库中的目标文本;
解析所述目标文本,得到短期事件文本集与长期事件文本集;
确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对;
预处理所述初始因果事件对,得到目标因果事件对;
根据所述目标因果事件对构建因果事理图谱。
2.根据权利要求1所述的因果事理图谱的构建方法,其特征在于,所述获取预先存储于数据库中的目标文本包括:
获取预先存储于数据库中的初始文本;
分句处理所述初始文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标文本。
3.根据权利要求1所述的因果事理图谱的构建方法,其特征在于,所述解析所述目标文本,得到短期事件文本集与长期事件文本集包括:
解析所述目标文本,得到原因事件与所述原因事件对应的结果事件;
获取每一所述结果事件对应的若干原因事件集;
调用预先训练好的影响时长计算模型处理所述若干原因事件集,得到所述若干原因事件集中每一原因事件的影响时长;
选取所述影响时长未超过预设时长阈值的第一原因事件及对应的结果事件作为短期事件文本集,并选取所述影响时长超过预设时长阈值的第二原因事件及对应的结果事件作为长期事件文本集。
4.根据权利要求2所述的因果事理图谱的构建方法,其特征在于,所述解析所述目标文本,得到原因事件与所述原因事件对应的结果事件包括:
解析所述目标文本,得到所述目标文本中的事件触发词;
获取包含所述事件触发词的语句作为目标因果句;
根据所述事件触发词确定所述目标因果句中的原因句与结果句;
分别对所述原因句与所述结果句进行事件抽取,得到原因事件以及所述原因事件对应的结果事件。
5.根据权利要求1所述的因果事理图谱的构建方法,其特征在于,所述确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对包括:
获取所述短期事件文本集中的第一结果事件集与所述长期事件文本集中的第二结果事件集;
匹配所述第一结果事件集与所述第二结果事件集;
选取所述第一结果事件集与所述第二结果事件集中相同的目标结果事件集,并获取所述目标结果事件集对应的第一原因事件集与第二原因事件集;
按照预定数据格式组合所述第一原因事件集、第二原因事件集以及所述目标结果事件集,得到初始因果事件对。
6.根据权利要求1所述的因果事理图谱的构建方法,其特征在于,所述预处理所述初始因果事件对,得到目标因果事件对包括:
获取所述初始因果事件对中的目标元素信息;
检测所述目标元素信息是否符合预设元素形式;
当检测结果为所述目标元素信息不符合预设元素形式时,修正所述目标元素信息至符合所述预设元素形式;
向量化处理所述初始因果事件对,并计算所述初始因果事件对中任意两个因果事件对的相似度;
检测所述初始因果事件对中任意两个因果事件对的相似度是否超过预设相似度阈值;
当检测结果为所述初始因果事件对中任意两个因果事件对的相似度超过预设相似度阈值时,删除其中之一的因果事件对,得到目标因果事件对。
7.根据权利要求1所述的因果事理图谱的构建方法,其特征在于,所述根据所述目标因果事件对构建因果事理图谱包括:
根据所述目标因果事件中包含的事件设置事件节点;
获取所述目标因果事件对中事件之间的关联关系;
根据所述目标因果事件对中事件的发生概率确定转移概率;
根据所述关联关系和转移概率确定所述事件节点之间的边,生成因果事理图谱。
8.一种因果事理图谱的构建装置,其特征在于,所述因果事理图谱的构建装置包括:
文本获取模块,用于获取预先存储于数据库中的目标文本;
文本解析模块,用于解析所述目标文本,得到短期事件文本集与长期事件文本集;
关系确定模块,用于确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对;
事件对获取模块,用于预处理所述初始因果事件对,得到目标因果事件对;
图谱构建模块,用于根据所述目标因果事件对构建因果事理图谱。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述因果事理图谱的构建方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述因果事理图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875362.5A CN113590824B (zh) | 2021-07-30 | 2021-07-30 | 因果事理图谱的构建方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875362.5A CN113590824B (zh) | 2021-07-30 | 2021-07-30 | 因果事理图谱的构建方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590824A true CN113590824A (zh) | 2021-11-02 |
CN113590824B CN113590824B (zh) | 2024-09-10 |
Family
ID=78253034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875362.5A Active CN113590824B (zh) | 2021-07-30 | 2021-07-30 | 因果事理图谱的构建方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590824B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328661A (zh) * | 2021-12-23 | 2022-04-12 | 北京百度网讯科技有限公司 | 事件处理、知识库处理方法、装置、设备以及存储介质 |
CN114707004A (zh) * | 2022-05-24 | 2022-07-05 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN116069831A (zh) * | 2023-03-28 | 2023-05-05 | 粤港澳大湾区数字经济研究院(福田) | 一种事件关系的挖掘方法及相关装置 |
CN116579433A (zh) * | 2023-07-13 | 2023-08-11 | 北京融信数联科技有限公司 | 一种基于智能体图谱的事件因果推断方法、系统和介质 |
CN117573809A (zh) * | 2024-01-12 | 2024-02-20 | 中电科大数据研究院有限公司 | 一种基于事件图谱的舆情推演方法以及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN110377759A (zh) * | 2019-07-22 | 2019-10-25 | 中国工商银行股份有限公司 | 事件关系图谱构建方法及装置 |
CN110781369A (zh) * | 2018-07-11 | 2020-02-11 | 天津大学 | 一种基于依存句法和泛化因果网络进行情感原因挖掘方法 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN112559656A (zh) * | 2020-12-09 | 2021-03-26 | 河海大学 | 基于水文事件的事理图谱构建方法 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
-
2021
- 2021-07-30 CN CN202110875362.5A patent/CN113590824B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781369A (zh) * | 2018-07-11 | 2020-02-11 | 天津大学 | 一种基于依存句法和泛化因果网络进行情感原因挖掘方法 |
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN110377759A (zh) * | 2019-07-22 | 2019-10-25 | 中国工商银行股份有限公司 | 事件关系图谱构建方法及装置 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN112559656A (zh) * | 2020-12-09 | 2021-03-26 | 河海大学 | 基于水文事件的事理图谱构建方法 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
丁效: "基于社会媒体的市场行情预测方法研究", 中国博士学位论文全文数据库 信息科技辑, no. 02, pages 138 - 217 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328661A (zh) * | 2021-12-23 | 2022-04-12 | 北京百度网讯科技有限公司 | 事件处理、知识库处理方法、装置、设备以及存储介质 |
CN114707004A (zh) * | 2022-05-24 | 2022-07-05 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN114707004B (zh) * | 2022-05-24 | 2022-08-16 | 国网浙江省电力有限公司信息通信分公司 | 基于图像模型和语言模型的事理关系抽取处理方法及系统 |
CN116069831A (zh) * | 2023-03-28 | 2023-05-05 | 粤港澳大湾区数字经济研究院(福田) | 一种事件关系的挖掘方法及相关装置 |
CN116069831B (zh) * | 2023-03-28 | 2023-08-15 | 粤港澳大湾区数字经济研究院(福田) | 一种事件关系的挖掘方法及相关装置 |
CN116579433A (zh) * | 2023-07-13 | 2023-08-11 | 北京融信数联科技有限公司 | 一种基于智能体图谱的事件因果推断方法、系统和介质 |
CN116579433B (zh) * | 2023-07-13 | 2023-11-03 | 北京融信数联科技有限公司 | 一种基于智能体图谱的事件因果推断方法、系统和介质 |
CN117573809A (zh) * | 2024-01-12 | 2024-02-20 | 中电科大数据研究院有限公司 | 一种基于事件图谱的舆情推演方法以及相关装置 |
CN117573809B (zh) * | 2024-01-12 | 2024-05-10 | 中电科大数据研究院有限公司 | 一种基于事件图谱的舆情推演方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113590824B (zh) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN113590824A (zh) | 因果事理图谱的构建方法、装置及相关设备 | |
CN112417096A (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
CN111475612A (zh) | 预警事件图谱的构建方法、装置、设备及存储介质 | |
CN111950625A (zh) | 基于人工智能的风险识别方法、装置、计算机设备及介质 | |
CN113592019A (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN111489105B (zh) | 一种企业风险识别方法、装置及设备 | |
CN113656805A (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN113946690A (zh) | 潜在客户挖掘方法、装置、电子设备及存储介质 | |
CN112905868A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN114997263B (zh) | 基于机器学习的结训率分析方法、装置、设备及存储介质 | |
CN113919336A (zh) | 基于深度学习的文章生成方法、装置及相关设备 | |
CN115274122A (zh) | 健康医疗数据的管理方法、系统、电子设备及存储介质 | |
CN111428503A (zh) | 同名人物的识别处理方法及处理装置 | |
Guo et al. | Text quality analysis of emergency response plans | |
CN112651782B (zh) | 基于缩放点积注意力的行为预测方法、装置、设备及介质 | |
CN113658002A (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN112395401A (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN116701752A (zh) | 基于人工智能的新闻推荐方法、装置、电子设备及介质 | |
CN114708073B (zh) | 一种围标串标智能检测方法、装置、电子设备及存储介质 | |
CN113240325B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
CN113590825A (zh) | 文本质检方法、装置及相关设备 | |
CN115221323A (zh) | 基于意图识别模型的冷启动处理方法、装置、设备及介质 | |
CN113987351A (zh) | 基于人工智能的智能推荐方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |