CN116228383A - 风险预测方法及装置、存储介质和电子设备 - Google Patents

风险预测方法及装置、存储介质和电子设备 Download PDF

Info

Publication number
CN116228383A
CN116228383A CN202310260960.0A CN202310260960A CN116228383A CN 116228383 A CN116228383 A CN 116228383A CN 202310260960 A CN202310260960 A CN 202310260960A CN 116228383 A CN116228383 A CN 116228383A
Authority
CN
China
Prior art keywords
event
target
word
vector
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310260960.0A
Other languages
English (en)
Inventor
沈超
王晓锐
余凡
许有加
饶翔
文若愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310260960.0A priority Critical patent/CN116228383A/zh
Publication of CN116228383A publication Critical patent/CN116228383A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种风险预测方法及装置、存储介质和电子设备,涉及人工智能技术领域。该方法包括:获取目标事件和事理图谱,其中,目标事件为目标机构中待进行风险预测的至少一个事件,事理图谱基于多个事件之间的因果关系和多个事件构建;依据事理图谱,确定目标事件对应的原因事件和结果事件,其中,原因事件用于表示发生目标事件的原因,结果事件用于表示发生目标事件时产生的结果;基于原因事件和结果事件对目标事件进行风险预测,得到预测结果,其中,预测结果用于表示目标事件是否存在风险。通过本申请,解决了相关技术中难以提前预测企业机构中的事件是否存在风险,影响企业机构的安全的问题。

Description

风险预测方法及装置、存储介质和电子设备
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种风险预测方法及装置、存储介质和电子设备。
背景技术
目前,在经济金融领域,金融行业所涉及的市场数据、公司数据、交易数据和行业指数也呈现指数级爆发式增长。另外,金融行业已经成为国家经济的关键行业,一家金融机构或者企业引发的风险,往往会造成连锁反应,产生严重的后果,因此防范金融风险的发生成为重中之重。
而且,在面向金融机构或企业的自动风险监控产品上,相关技术中的风控系统一般只能在导致金融风险的事件发生后才能被监测到,无法提前知晓风险事件的发生,从而会影响金融机构或企业的安全。
针对相关技术中难以提前预测企业机构中的事件是否存在风险,影响企业机构的安全的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种风险预测方法及装置、存储介质和电子设备,以解决相关技术中难以提前预测企业机构中的事件是否存在风险,影响企业机构的安全的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种风险预测方法。该方法包括:获取目标事件和事理图谱,其中,所述目标事件为目标机构中待进行风险预测的至少一个事件,所述事理图谱基于多个事件之间的因果关系和所述多个事件构建;依据所述事理图谱,确定所述目标事件对应的原因事件和结果事件,其中,所述原因事件用于表示发生所述目标事件的原因,所述结果事件用于表示发生所述目标事件时产生的结果;基于所述原因事件和所述结果事件对所述目标事件进行风险预测,得到预测结果,其中,所述预测结果用于表示所述目标事件是否存在风险。
进一步地,在获取目标事件和事理图谱之前,所述方法还包括:获取与所述目标机构相关的多个目标文本数据;对所述多个目标文本数据进行处理,得到目标向量;依据所述目标向量,确定所述多个事件;依据所述多个事件,确定每两个事件之间的因果关系;基于每两个事件之间的因果关系和所述多个事件构建所述事理图谱。
进一步地,依据所述目标向量,确定所述多个事件包括:依据所述目标向量确定第一向量和第二向量,其中,所述第一向量用于表示所述多个目标文本数据中每个句子的语义特征,所述第二向量用于表示所述多个目标文本数据中每个字词的语义特征;对所述第一向量和所述第二向量进行融合处理,得到第三向量;基于所述第三向量对所述多个目标文本数据中的词语进行分类,得到多个分类后的词语;依据所述多个分类后的词语确定所述多个事件。
进一步地,依据所述多个事件,确定每两个事件之间的因果关系包括:依据所述多个事件,确定每两个事件之间的关系值;依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
进一步地,对所述多个目标文本数据进行处理,得到目标向量包括:对所述多个目标文本数据进行预处理,得到词语集合,其中,所述词语集合中至少包括多个词语;依据所述词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;对所述多个第一词向量和所述多个第二词向量进行拼接处理,得到所述目标向量。
进一步地,依据所述词语集合得到多个第一词向量和多个第二词向量包括:依据所述词语集合得到多个第三词向量,其中,每个第三词向量为所述词语集合中每个词语对应的词向量;依据所述多个第三词向量得到语义信息集合,其中,所述语义信息集合中至少包括每个第三词向量对应的语义信息;基于所述语义信息集合得到所述多个第一词向量;获取所述词语集合中每个词语的词性信息;依据每个词语的词性信息得到所述多个第二词向量。
进一步地,对所述多个目标文本数据进行预处理,得到词语集合包括:确定所述多个目标文本数据之间的相似度;依据所述多个目标文本数据之间的相似度,从所述多个目标文本数据中确定第一文本数据,其中,所述第一文本数据与第二文本数据之间的相似度大于预设值,所述第二文本数据为所述多个目标文本数据中除所述第一文本数据之外的文本数据;从所述多个目标文本数据中删除所述第一文本数据,得到多个第三文本数据;对所述多个第三文本数据进行分词处理,得到所述多个词语,并将所述多个词语进行汇总,得到所述词语集合。
为了实现上述目的,根据本申请的另一方面,提供了一种风险预测装置。该装置包括:第一获取单元,用于获取目标事件和事理图谱,其中,所述目标事件为目标机构中待进行风险预测的至少一个事件,所述事理图谱基于多个事件之间的因果关系和所述多个事件构建;第一确定单元,用于依据所述事理图谱,确定所述目标事件对应的原因事件和结果事件,其中,所述原因事件用于表示发生所述目标事件的原因,所述结果事件用于表示发生所述目标事件时产生的结果;第一预测单元,用于基于所述原因事件和所述结果事件对所述目标事件进行风险预测,得到预测结果,其中,所述预测结果用于表示所述目标事件是否存在风险。
进一步地,所述装置还包括:第二获取单元,用于在获取目标事件和事理图谱之前,获取与所述目标机构相关的多个目标文本数据;第一处理单元,用于对所述多个目标文本数据进行处理,得到目标向量;第二确定单元,用于依据所述目标向量,确定所述多个事件;第三确定单元,用于依据所述多个事件,确定每两个事件之间的因果关系;第一构建单元,用于基于每两个事件之间的因果关系和所述多个事件构建所述事理图谱。
进一步地,所述第二确定单元包括:第一确定模块,用于依据所述目标向量确定第一向量和第二向量,其中,所述第一向量用于表示所述多个目标文本数据中每个句子的语义特征,所述第二向量用于表示所述多个目标文本数据中每个字词的语义特征;第一处理模块,用于对所述第一向量和所述第二向量进行融合处理,得到第三向量;第一分类模块,用于基于所述第三向量对所述多个目标文本数据中的词语进行分类,得到多个分类后的词语;第二确定模块,用于依据所述多个分类后的词语确定所述多个事件。
进一步地,所述第三确定单元包括:第三确定模块,用于依据所述多个事件,确定每两个事件之间的关系值;第四确定模块,用于依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
进一步地,所述第一处理单元包括:第二处理模块,用于对所述多个目标文本数据进行预处理,得到词语集合,其中,所述词语集合中至少包括多个词语;第五确定模块,用于依据所述词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;第三处理模块,用于对所述多个第一词向量和所述多个第二词向量进行拼接处理,得到所述目标向量。
进一步地,所述第五确定模块包括:第一确定子模块,用于依据所述词语集合得到多个第三词向量,其中,每个第三词向量为所述词语集合中每个词语对应的词向量;第二确定子模块,用于依据所述多个第三词向量得到语义信息集合,其中,所述语义信息集合中至少包括每个第三词向量对应的语义信息;第三确定子模块,用于基于所述语义信息集合得到所述多个第一词向量;第一获取定子模块,用于获取所述词语集合中每个词语的词性信息;第四确定子模块,用于依据每个词语的词性信息得到所述多个第二词向量。
进一步地,所述第二处理模块包括:第五确定子模块,用于确定所述多个目标文本数据之间的相似度;第六确定子模块,用于依据所述多个目标文本数据之间的相似度,从所述多个目标文本数据中确定第一文本数据,其中,所述第一文本数据与第二文本数据之间的相似度大于预设值,所述第二文本数据为所述多个目标文本数据中除所述第一文本数据之外的文本数据;第一删除子模块,用于从所述多个目标文本数据中删除所述第一文本数据,得到多个第三文本数据;第一处理子模块,用于对所述多个第三文本数据进行分词处理,得到所述多个词语,并将所述多个词语进行汇总,得到所述词语集合。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储程序,其中,所述程序执行上述的任意一项所述的风险预测方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任意一项所述的风险预测方法。
通过本申请,采用以下步骤:获取目标事件和事理图谱,其中,目标事件为目标机构中待进行风险预测的至少一个事件,事理图谱基于多个事件之间的因果关系和多个事件构建;依据事理图谱,确定目标事件对应的原因事件和结果事件,其中,原因事件用于表示发生目标事件的原因,结果事件用于表示发生目标事件时产生的结果;基于原因事件和结果事件对目标事件进行风险预测,得到预测结果,其中,预测结果用于表示目标事件是否存在风险,解决了相关技术中难以提前预测企业机构中的事件是否存在风险,影响企业机构的安全的问题。通过依据基于多个事件之间的因果关系和多个事件构建的事理图谱,确定目标机构中待进行风险预测的至少一个事件对应的原因事件和结果事件,并基于原因事件和结果事件预测目标机构中待进行风险预测的至少一个事件是否存在风险,从而可以提前预测企业机构中的事件是否存在风险,进而达到了保护企业机构安全的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的风险预测方法的流程图;
图2是本申请实施例中动态知识图谱(事理图谱)构建的流程图;
图3是本申请实施例中知识抽取模型的示意图;
图4是根据本申请实施例提供的风险预测装置的示意图;
图5是根据本申请实施例提供的电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
事理图谱(Event Logic Graph,缩写ELG)是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的风险预测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标事件和事理图谱,其中,目标事件为目标机构中待进行风险预测的至少一个事件,事理图谱基于多个事件之间的因果关系和多个事件构建。
例如,获取金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件(上述的目标事件),并获取基于事件抽取和事件关系抽取构建的事理图谱。另外,上述的事理图谱是由多个抽取的事件(上述的多个事件)构成的,也即,上述的事理图谱中的节点可以为抽取的多个事件,上述的事理图谱中的节点可以为有向边可以为抽取的多个事件之间的因果关系。即可以先进行知识抽取,且在知识抽取的过程中可以先抽取多个事件(上述的多个事件),再抽取多个事件之间的因果关系,然后基于抽取的多个事件和多个事件之间的因果关系构建上述的事理图谱。然后获取金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件(上述的目标事件),再将获取到的金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件(上述的目标事件)输入至构建好的事理图谱中。
步骤S102,依据事理图谱,确定目标事件对应的原因事件和结果事件,其中,原因事件用于表示发生目标事件的原因,结果事件用于表示发生目标事件时产生的结果。
例如,可以根据构建的事理图谱确定导致发生金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件的原因,并将该原因对应的事件作为上述的原因事件,再确定发生金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件之后可能会产生的结果,并将这个结果对应的事件作为上述的结果事件。
步骤S103,基于原因事件和结果事件对目标事件进行风险预测,得到预测结果,其中,预测结果用于表示目标事件是否存在风险。
例如,判断确定出的金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件对应的原因事件和结果事件中的任意一个事件是否具有风险,如果确定出的这些原因事件和结果事件中的任意一个事件是具有风险的,则表示金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件也是存在风险的。反之,如果确定出的这些原因事件和结果事件中事件全部不是具有风险的事件,则表示金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件也不存在风险,也即金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件没风险,即金融机构或企业(上述目标机构)中待进行风险预测的至少一个事件不是风险事件,是安全的事件。
通过上述的步骤S101至S103,通过依据基于多个事件之间的因果关系和多个事件构建的事理图谱,确定目标机构中待进行风险预测的至少一个事件对应的原因事件和结果事件,并基于原因事件和结果事件预测目标机构中待进行风险预测的至少一个事件是否存在风险,从而可以提前预测企业机构中的事件是否存在风险,进而达到了保护企业机构安全的效果。
可选地,在本申请实施例提供的风险预测方法中,在获取目标事件和事理图谱之前,该方法还包括:获取与目标机构相关的多个目标文本数据;对多个目标文本数据进行处理,得到目标向量;依据目标向量,确定多个事件;依据多个事件,确定每两个事件之间的因果关系;基于每两个事件之间的因果关系和多个事件构建事理图谱。
例如,可以从与企业或者金融机构相关的网站中获取金融文本数据,且这些金融文本数据可以包含金融机构公告文件、行业政策解读等内容。然后将这些金融文本数据用向量的格式表示,然后依据这些向量表示的金融文本数据抽取出多个事件,再抽取这些事件之间的因果关系,并可以这些事件之间的因果关系作为事理图谱的有向边,将抽取的多个事件作为事理图谱的节点,从而构建好上述的事理图谱。
另外,传统的知识图谱技术通过将非结构化的金融数据文本进行实体抽取、关系抽取、事件抽取等操作后得到事件触发词信息、金融实体信息以及实体间的相互联系,着重表示的是金融实体的静态特征,而动态知识图谱(上述的事理图谱)可以描述粒度更大的、动态的事件特征,能发现金融事件之间的潜在发展规律,在金融风险预测方面发挥着重要的作用。
而且,动态知识图谱(上述的事理图谱)的构建关键在于知识抽取结果的好坏,具体流程包括事件抽取、事件关系抽取。其中事件抽取包括触发词识别和论元分类识别两个子任务,事件关系主要包括因果、时序、转折、顺承等,本实施例为了探索金融事件的发展逻辑,主要专注于事件的因果关系抽取。
而且,目前知识抽取的方法主要有三种,分别是基于规则模式的知识抽取、基于机器学习的知识抽取以及基于深度学习的知识抽取,其中第一种方式利用人工总结规律制定规则来对标注语料进行训练,在特定条件下准确率高,但是可移植性较差;第二种方式在特定的场景下通过拟合模型参数来学习特征表示,克服了过度依赖手工规则的问题,但是模型的训练结果依赖于标注数据的规模及质量;第三种方式可以利用深度神经网络自动地从语料中抽取特征并加以学习,但是把知识抽取分为多个独立的子任务去学习,造成误差的累积。
综上所述,通过事件抽取,再通过事件关系抽取的联合抽取方式可以快速准确的构建事理图谱。
可选地,在本申请实施例提供的风险预测方法中,对多个目标文本数据进行预处理,得到词语集合包括:确定多个目标文本数据之间的相似度;依据多个目标文本数据之间的相似度,从多个目标文本数据中确定第一文本数据,其中,第一文本数据与第二文本数据之间的相似度大于预设值,第二文本数据为多个目标文本数据中除第一文本数据之外的文本数据;从多个目标文本数据中删除第一文本数据,得到多个第三文本数据;对多个第三文本数据进行分词处理,得到多个词语,并将多个词语进行汇总,得到词语集合。
例如,在知识抽取阶段,本实施例采用的原始数据(金融文本数据)可以包含金融机构公告文件、行业政策解读等等,且数据可以来源于与企业或者金融机构相关的网站。而且,在数据预处理阶段,首先计算文本的相似度,清洗掉重复程度过高的数据,然后利用中文数据分词系统(Natural Language Processing And Information Retrieval,NLPIR)进行分词操作,并得到上述的多个词语。
通过上述的方案,可以快速准确的对获取到的原始金融文本数据进行预处理。
可选地,在本申请实施例提供的风险预测方法中,依据词语集合得到多个第一词向量和多个第二词向量包括:依据词语集合得到多个第三词向量,其中,每个第三词向量为词语集合中每个词语对应的词向量;依据多个第三词向量得到语义信息集合,其中,语义信息集合中至少包括每个第三词向量对应的语义信息;基于语义信息集合得到多个第一词向量;获取词语集合中每个词语的词性信息;依据每个词语的词性信息得到多个第二词向量。
例如,先将分词处理后的多个词语用词向量表示,且具体过程为:由于机器无法直接处理文本数据,需要先将数据转换为词向量的形式。word2vec模型可以将词语射到高维的向量语义空间中,但是一个词语对应语义空间中的一个向量,和其他词向量没有关联。在本实施例中,可以使用预训练模型(Bidirectional Encoder Representations fromTransformers,BERT),得到的词向量带有上下文语义信息,有利于事件的抽取分类。对于一个句子,将其中的字词转换为多维的向量形式输入到BERT模型中,得到词向量分布式表示。
再进行词性向量表示:对数据进行词性标注有助于事件的检测,利用语言技术平台(Language Technology Platform,LTP)中的Pyltp工具进行词性标注工作。
通过上述的方案,可以方便的将分词后的词语用词向量和词性向量的格式表示。
可选地,在本申请实施例提供的风险预测方法中,对多个目标文本数据进行处理,得到目标向量包括:对多个目标文本数据进行预处理,得到词语集合,其中,词语集合中至少包括多个词语;依据词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;对多个第一词向量和多个第二词向量进行拼接处理,得到目标向量。
例如,将对金融文本数据进行分词操作后得到的多个词语(上述的词语集合)用词向量和词性向量的格式表示之后,将得到的多个词向量(上述的多个第一词向量)和词性向量(上述的多个第二词向量)拼接起来可以得到上述的目标向量,并将拼接后的向量作为知识抽取模型中的嵌入层的输入。
综上所述,通过对向量进行拼接可以快速准确的得到嵌入层的输入序列。
可选地,在本申请实施例提供的风险预测方法中,依据目标向量,确定多个事件包括:依据目标向量确定第一向量和第二向量,其中,第一向量用于表示多个目标文本数据中每个句子的语义特征,第二向量用于表示多个目标文本数据中每个字词的语义特征;对第一向量和第二向量进行融合处理,得到第三向量;基于第三向量对多个目标文本数据中的词语进行分类,得到多个分类后的词语;依据多个分类后的词语确定多个事件。
例如,事件抽取可以分为以下几个步骤:
(1)句子级特征提取层BiLSTM
传统循环神经网络(Recurrent Neural Network,RNN)在处理序列数据时能够记忆前面序列的输出结果,加强了向量间的语义关联度,但是在处理长序列时容易引发梯度消失和梯度爆炸等问题。在本实施例中,引入双向长短时记忆网络(Bi-directional LongShort-Term Memory,BiLSTM)对句子进行双向学习以获得句子级语义特征。而且,LSTM的主要结构包括输入门、遗忘门、输出门和一个记忆单元,计算原理如下所示:
it=σ(wi[ht-1,xt]+bi])
ct=tanh(wc[ht-1,xt]+bc])
ft=σ(wf[ht-1,xt]+bf])
ot=σ(wo[ht-1,xt]+bo])
Figure BDA0004131261910000091
Figure BDA0004131261910000092
其中,it、ct、ft、ot、ct分别表示t时刻的输入、候选记忆状态、遗忘门、输出门、细胞状态,σ、tanh分别表示sigmoid激活函数和双曲正切激活函数,ht表示t时刻的隐藏输出,wi、wc、wf、wo表示权重矩阵,bi、bc、bf、bo表示偏置项。
另外,由于LSTM网络只能从单个方向对序列表示进行编码,所以利用双层网络BiLSTM对序列进行双向编码。
Figure BDA0004131261910000093
/>
其中,
Figure BDA0004131261910000094
表示正向LSTM的输出,/>
Figure BDA0004131261910000095
表示反向LSTM的输出。
(2)字词级注意力特征向量层
近几年,注意力机制在各领域都取得了良好的表现,其本质原理是将注意力聚焦于重要的信息上。同样地,在特征提取任务上,引入注意力机制来建立任意距离词之间的依赖关系,得到字词级注意力特征向量。
假定嵌入层表示X=[x1,…,xi,…,xN],首先计算X中其他词向量xj对xi的注意力权重wi,j
Figure BDA0004131261910000101
Figure BDA0004131261910000102
其中,score(xj,xi)表示xi和xj之间的相似度得分,
Figure BDA0004131261910000103
表示xi的转换矩阵。
接下来将得到的注意力权重对单词本身进行加权,得到融合上下文语义信息的向量ki,依次对句子中所有词向量计算一遍,得到融合注意力机制的特征向量R=[r1,…,ri]。
Figure BDA0004131261910000104
(3)特征融合层
将通过BiLSTM编码层得到的句子级特征向量和通过注意力机制层得到的字词级注意力特征向量进行融合,得到深层次的语义特征序列表示G=[g1,...,gi]。
gi=wif(ri,hi)
其中,wi表示权重矩阵,f表示融合函数。
(4)CRF分类层
由于词与词的标签之间通常具有一定的关联性,所以为了让分类效果更好,引入条件随机场(Conditional Random Field,CRF),在对一个字词进行分类时,将与它相邻的字词的标签信息也考虑进来,获得一个包含全局信息的标签序列。
对于序列表示X,假设其对应的标签序列为L=(l1,...,li,...,lN),其和经过特征融合得到的向量表示G的得分函数如下:
Figure BDA0004131261910000105
其中,
Figure BDA0004131261910000106
表示标签li-1到标签li的转移特征,/>
Figure BDA0004131261910000107
表示位置i对应标签为li的状态特征。
通过上述公式可以得到多个预测序列,但是只有一个预测是对的,为此需要最大化目标标签得分,计算函数如下:
Figure BDA0004131261910000111
其中,
Figure BDA0004131261910000115
为所有可能出现的标签集合,最后返回单词对应的触发词标签序列向量C。
在元素分类识别阶段,对于触发词-论元对,利用注意力机制,计算候选论元与特征向量之间的依赖关系,更好地判断出论元角色类型。候选论元的计算方式如下:
Figure BDA0004131261910000112
其中,i1和im分别表示候选论元的起始位置和终点位置。
将特征融合向量G和触发词标签序列向量C拼接起来,计算其与候选论元的注意力权重αi,j,最终得到融合实体注意力的特征向量。
Figure BDA0004131261910000113
Figure BDA0004131261910000114
将特征向量yi输入到CRF分类层,可以判别论元及其类型。
通过上述的方案,可以快速准确的进行动态知识图谱(上述的事理图谱)中知识抽取步骤中的事件抽取的内容。
可选地,在本申请实施例提供的风险预测方法中,依据多个事件,确定每两个事件之间的因果关系包括:依据多个事件,确定每两个事件之间的关系值;依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
例如,事件关系抽取的步骤具体可以为:
对于文档格式的数据,其标题往往包含了文章的主要事件,其余事件归为次要事件,以此定义事件集合E=[e1,...,ei,…,eN],其中,e1表示主要事件,由事件抽取层得到的事件信息及文档主题特征向量加权而来,ei表示次要事件,由事件抽取层得到的事件信息向量拼接而来。
事件间的因果关系是研究事物演化的重要相关关系,一件事情的发生,既有主要原因次要原因一起导致,也有主要结果次要结果一起产生。本实施例根据事件因果相关程度从浅层因果和深层因果两个方面进行考虑。
首先构造出<事件,关系,事件>形式的事件三元组标签,关系值为1表示事件有因果关系,关系值为0表示无因果关系。对于浅层因果关系,其意义是句子中包含直接表明因果关系的词语,其事件间关系值为1。对本实施例所用的语料进行整理后,得出以下常用因果关系词:“因为”、“所以”、“由于”、“以至于”、“故”、“故而”、“缘于”、“致使”等等。
对于深层因果关系,其意义是句子中间接表明因果关系的事件。将事件向量E输入到注意力层,计算出事件之间的注意力权重得分γi,j,将其与向量ei加权得到融合事件注意力的特征向量。
Figure BDA0004131261910000121
Figure BDA0004131261910000122
最后输入到CRF分类层,得到事件因果关系信息,且事件因果关系抽取的伪代码算法如下:
输入:原始输入序列E=[e1,…,ei,…,eN],最大训练轮数M;
输出:因果抽取序列;
For j从1到M do;
For i从1到N do;
计算注意力权重;
计算加权向量zi
end for;
计算打分函数score(Z,L);
计算损失F(L|Z)以最大化标记的概率,并更新模型的参数;
end for。
例如,图2是本申请实施例中动态知识图谱(事理图谱)构建的流程图,如图2所示,动态知识图谱(事理图谱)系统的构建流程包括金融文本数据选择、知识抽取、图谱存储及构建、图谱查询及可视化。其中知识抽取是整个流程最关键的一环,包括事件抽取及事件关系抽取。
而且,在知识抽取阶段,本实施例采用的原始数据(金融文本数据)可以包含金融机构公告文件、行业政策解读等等,且数据可以来源于与企业或者金融机构相关的网站。而且,在数据预处理阶段,首先计算文本的相似度,清洗掉重复程度过高的数据,然后利用中文数据分词系统(Natural Language Processing And Information Retrieval,NLPIR)进行分词操作。
另外,图3是本申请实施例中知识抽取模型的示意图,如图3所示,本实施例的模型结构可以分为嵌入层表示、事件抽取、事件关系抽取三层。
1、嵌入层表示
在嵌入层,输入的序列分布式表示可以由四部分组成,分别是词向量表示、词性向量表示和金融实体向量式表示以及主题特征向量表示。
(1)词向量表示
由于机器无法直接处理文本数据,需要先将数据转换为词向量的形式。word2vec模型可以将词语射到高维的向量语义空间中,但是一个词语对应语义空间中的一个向量,和其他词向量没有关联。本实施例使用预训练模型(Bidirectional EncoderRepresentations from Transformers,BERT),得到的词向量带有上下文语义信息,有利于事件的抽取分类。对于一个句子,将其中的字词转换为d维的向量形式输入到BERT模型中,得到词向量分布式表示。
(2)词性向量表示
对数据进行词性标注有助于事件的检测,利用语言技术平台(LanguageTechnology Platform,LTP)中的Pyltp工具进行词性标注工作。
(3)金融实体向量表示
通过判断句子中有无金融实体及实体类型,有助于事件的触发词识别和要素分类,可以利用LTP中的Pyltp工具进行命名实体识别,得到金融实体向量表示。
(4)主题特征向量表示
由于在本实施例中需要处理的数据多为文档格式,其中基本都包含了中心事件,因此句子所处的文章背景知识有助于事件关系的分类识别,利用LDA模型可以得到文本主题特征向量表示。
将以上四个向量表示拼接起来可以得到嵌入层的输入表示X。
2、事件抽取
(1)句子级特征提取层BiLSTM
传统循环神经网络(Recurrent Neural Network,RNN)在处理序列数据时能够记忆前面序列的输出结果,加强了向量间的语义关联度,但是在处理长序列时容易引发梯度消失和梯度爆炸等问题。在本实施例中,引入双向长短时记忆网络(Bi-directional LongShort-Term Memory,BiLSTM)对句子进行双向学习以获得句子级语义特征。而且,LSTM的主要结构包括输入门、遗忘门、输出门和一个记忆单元,计算原理如下所示:
it=σ(wi[ht-1,xt]+bi])
ct=tanh(wc[ht-1,xt]+bc])
ft=σ(wf[ht-1,xt]+bf])
ot=σ(wo[ht-1,xt]+bo])
Figure BDA0004131261910000141
Figure BDA0004131261910000142
其中,it、ct、ft、ot、ct分别表示t时刻的输入、候选记忆状态、遗忘门、输出门、细胞状态,σ、tanh分别表示sigmoid激活函数和双曲正切激活函数,ht表示t时刻的隐藏输出,wi、wc、wf、wo表示权重矩阵,bi、bc、bf、bo表示偏置项。
另外,由于LSTM网络只能从单个方向对序列表示进行编码,所以利用双层网络BiLSTM对序列进行双向编码。
Figure BDA0004131261910000143
其中,
Figure BDA0004131261910000144
表示正向LSTM的输出,/>
Figure BDA0004131261910000145
表示反向LSTM的输出。
(2)字词级注意力特征向量层
近几年,注意力机制在各领域都取得了良好的表现,其本质原理是将注意力聚焦于重要的信息上。同样地,在特征提取任务上,引入注意力机制来建立任意距离词之间的依赖关系,得到字词级注意力特征向量。
假定嵌入层表示X=[x1,…,xi,…,xN],首先计算X中其他词向量xj对xi的注意力权重wi,j
Figure BDA0004131261910000151
Figure BDA0004131261910000152
其中,score(xj,xi)表示xi和xj之间的相似度得分,
Figure BDA0004131261910000153
表示xi的转换矩阵。
接下来将得到的注意力权重对单词本身进行加权,得到融合上下文语义信息的向量ki,依次对句子中所有词向量计算一遍,得到融合注意力机制的特征向量R=[r1,…,ri]。
Figure BDA0004131261910000154
/>
(3)特征融合层
将通过BiLSTM编码层得到的句子级特征向量和通过注意力机制层得到的字词级注意力特征向量进行融合,得到深层次的语义特征序列表示G=[g1,…,gi]。
gi=wif(ri,hi)
其中,wi表示权重矩阵,f表示融合函数。
(4)CRF分类层
由于词与词的标签之间通常具有一定的关联性,所以为了让分类效果更好,引入条件随机场(Conditional Random Field,CRF),在对一个字词进行分类时,将与它相邻的字词的标签信息也考虑进来,获得一个包含全局信息的标签序列。
对于序列表示X,假设其对应的标签序列为L=(l1,…,li,…,lN),其和经过特征融合得到的向量表示G的得分函数如下:
Figure BDA0004131261910000155
其中,
Figure BDA0004131261910000156
表示标签li-1到标签li的转移特征,/>
Figure BDA0004131261910000157
表示位置i对应标签为li的状态特征。
通过上述公式可以得到多个预测序列,但是只有一个预测是对的,为此需要最大化目标标签得分,计算函数如下:
Figure BDA0004131261910000158
其中,
Figure BDA0004131261910000161
为所有可能出现的标签集合,最后返回单词对应的触发词标签序列向量C。
在元素分类识别阶段,对于触发词-论元对,利用注意力机制,计算候选论元与特征向量之间的依赖关系,更好地判断出论元角色类型。候选论元的计算方式如下:
Figure BDA0004131261910000162
其中,i1和im分别表示候选论元的起始位置和终点位置。
将特征融合向量G和触发词标签序列向量C拼接起来,计算其与候选论元的注意力权重αi,j,最终得到融合实体注意力的特征向量。
Figure BDA0004131261910000163
Figure BDA0004131261910000164
将特征向量yi输入到CRF分类层,可以判别论元及其类型。
3、事件关系抽取层
对于文档格式的数据,其标题往往包含了文章的主要事件,其余事件归为次要事件,以此定义事件集合E=[e1,…,ei,…,eN],其中,e1表示主要事件,由事件抽取层得到的事件信息及文档主题特征向量加权而来,ei表示次要事件,由事件抽取层得到的事件信息向量拼接而来。
事件间的因果关系是研究事物演化的重要相关关系,一件事情的发生,既有主要原因次要原因一起导致,也有主要结果次要结果一起产生。本实施例根据事件因果相关程度从浅层因果和深层因果两个方面进行考虑。
首先构造出<事件,关系,事件>形式的事件三元组标签,关系值为1表示事件有因果关系,关系值为0表示无因果关系。对于浅层因果关系,其意义是句子中包含直接表明因果关系的词语,其事件间关系值为1。对本实施例所用的语料进行整理后,得出以下常用因果关系词:“因为”、“所以”、“由于”、“以至于”、“故”、“故而”、“缘于”、“致使”等等。
对于深层因果关系,其意义是句子中间接表明因果关系的事件。将事件向量E输入到注意力层,计算出事件之间的注意力权重得分γi,j,将其与向量ei加权得到融合事件注意力的特征向量。
Figure BDA0004131261910000171
Figure BDA0004131261910000172
最后输入到CRF分类层,得到事件因果关系信息,且事件因果关系抽取的伪代码算法如下:
输入:原始输入序列E=[e1,…,ei,…,eN],最大训练轮数M;
输出:因果抽取序列;
For j从1到M do;
For i从1到N do;
计算注意力权重;
计算加权向量zi
end for;
计算打分函数score(Z,L);
计算损失F(L|Z)以最大化标记的概率,并更新模型的参数;
end for。
另外,在图谱存储阶段,对于本实施例中使用的源数据,可以将其存储于MongoDB数据库中。对于经过知识抽取得到的数据,可以利用Neo4j数据库来存储结构化的事件信息,包括金融事件类型、实体类型及关系以及事件因果关系等。而且,在图谱构建阶段,可以利用函数将读取结构化数据并化为事件节点及事件关系边。在图谱查询及可视化阶段,输入某一事件可以查询其原因事件及结果事件信息,充分了解事件的发展规律。
因此,通过基于因果事件联合抽取的动态知识图谱系统的构建方法,利用注意力机制挖掘出深层次的语义特征信息,自动分析出金融事件之间的演化规律,从而可以预知所有可能发生的金融风险事件,让经济效益损失最小化。且在词嵌入层使用预训练模型BERT以及在特征提取层使用注意力机制,可以得到融合上下文语义信息的字词级特征向量,提升了知识抽取模型效果。而且,利用融合函数,将句子级特征和字词级特征融合在一起,可以得到更深层次的特征信息。另外,通过提出知识联合抽取方法,将触发词识别、论元分类识别及事件关系抽取多任务学习整合成端对端的形式,避免了级联误差的产生,提高了事件预测的准确性。
综上,本申请实施例提供的风险预测方法,通过获取目标事件和事理图谱,其中,目标事件为目标机构中待进行风险预测的至少一个事件,事理图谱基于多个事件之间的因果关系和多个事件构建;依据事理图谱,确定目标事件对应的原因事件和结果事件,其中,原因事件用于表示发生目标事件的原因,结果事件用于表示发生目标事件时产生的结果;基于原因事件和结果事件对目标事件进行风险预测,得到预测结果,其中,预测结果用于表示目标事件是否存在风险,解决了相关技术中难以提前预测企业机构中的事件是否存在风险,影响企业机构的安全的问题。通过依据基于多个事件之间的因果关系和多个事件构建的事理图谱,确定目标机构中待进行风险预测的至少一个事件对应的原因事件和结果事件,并基于原因事件和结果事件预测目标机构中待进行风险预测的至少一个事件是否存在风险,从而可以提前预测企业机构中的事件是否存在风险,进而达到了保护企业机构安全的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种风险预测装置,需要说明的是,本申请实施例的风险预测装置可以用于执行本申请实施例所提供的用于风险预测方法。以下对本申请实施例提供的风险预测装置进行介绍。
图4是根据本申请实施例的风险预测装置的示意图。如图4所示,该装置包括:第一获取单元401、第一确定单元402和第一预测单元403。
具体地,第一获取单元401,用于获取目标事件和事理图谱,其中,目标事件为目标机构中待进行风险预测的至少一个事件,事理图谱基于多个事件之间的因果关系和多个事件构建;
第一确定单元402,用于依据事理图谱,确定目标事件对应的原因事件和结果事件,其中,原因事件用于表示发生目标事件的原因,结果事件用于表示发生目标事件时产生的结果;
第一预测单元403,用于基于原因事件和结果事件对目标事件进行风险预测,得到预测结果,其中,预测结果用于表示目标事件是否存在风险。
综上,本申请实施例提供的风险预测装置,通过第一获取单元401获取目标事件和事理图谱,其中,目标事件为目标机构中待进行风险预测的至少一个事件,事理图谱基于多个事件之间的因果关系和多个事件构建;第一确定单元402依据事理图谱,确定目标事件对应的原因事件和结果事件,其中,原因事件用于表示发生目标事件的原因,结果事件用于表示发生目标事件时产生的结果;第一预测单元403基于原因事件和结果事件对目标事件进行风险预测,得到预测结果,其中,预测结果用于表示目标事件是否存在风险,解决了相关技术中难以提前预测企业机构中的事件是否存在风险,影响企业机构的安全的问题。通过依据基于多个事件之间的因果关系和多个事件构建的事理图谱,确定目标机构中待进行风险预测的至少一个事件对应的原因事件和结果事件,并基于原因事件和结果事件预测目标机构中待进行风险预测的至少一个事件是否存在风险,从而可以提前预测企业机构中的事件是否存在风险,进而达到了保护企业机构安全的效果。
可选地,在本申请实施例提供的风险预测装置中,该装置还包括:第二获取单元,用于在获取目标事件和事理图谱之前,获取与目标机构相关的多个目标文本数据;第一处理单元,用于对多个目标文本数据进行处理,得到目标向量;第二确定单元,用于依据目标向量,确定多个事件;第三确定单元,用于依据多个事件,确定每两个事件之间的因果关系;第一构建单元,用于基于每两个事件之间的因果关系和多个事件构建事理图谱。
可选地,在本申请实施例提供的风险预测装置中,第二确定单元包括:第一确定模块,用于依据目标向量确定第一向量和第二向量,其中,第一向量用于表示多个目标文本数据中每个句子的语义特征,第二向量用于表示多个目标文本数据中每个字词的语义特征;第一处理模块,用于对第一向量和第二向量进行融合处理,得到第三向量;第一分类模块,用于基于第三向量对多个目标文本数据中的词语进行分类,得到多个分类后的词语;第二确定模块,用于依据多个分类后的词语确定多个事件。
可选地,在本申请实施例提供的风险预测装置中,第三确定单元包括:第三确定模块,用于依据多个事件,确定每两个事件之间的关系值;第四确定模块,用于依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
可选地,在本申请实施例提供的风险预测装置中,第一处理单元包括:第二处理模块,用于对多个目标文本数据进行预处理,得到词语集合,其中,词语集合中至少包括多个词语;第五确定模块,用于依据词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;第三处理模块,用于对多个第一词向量和多个第二词向量进行拼接处理,得到目标向量。
可选地,在本申请实施例提供的风险预测装置中,第五确定模块包括:第一确定子模块,用于依据词语集合得到多个第三词向量,其中,每个第三词向量为词语集合中每个词语对应的词向量;第二确定子模块,用于依据多个第三词向量得到语义信息集合,其中,语义信息集合中至少包括每个第三词向量对应的语义信息;第三确定子模块,用于基于语义信息集合得到多个第一词向量;第一获取定子模块,用于获取词语集合中每个词语的词性信息;第四确定子模块,用于依据每个词语的词性信息得到多个第二词向量。
可选地,在本申请实施例提供的风险预测装置中,第二处理模块包括:第五确定子模块,用于确定多个目标文本数据之间的相似度;第六确定子模块,用于依据多个目标文本数据之间的相似度,从多个目标文本数据中确定第一文本数据,其中,第一文本数据与第二文本数据之间的相似度大于预设值,第二文本数据为多个目标文本数据中除第一文本数据之外的文本数据;第一删除子模块,用于从多个目标文本数据中删除第一文本数据,得到多个第三文本数据;第一处理子模块,用于对多个第三文本数据进行分词处理,得到多个词语,并将多个词语进行汇总,得到词语集合。
风险预测装置包括处理器和存储器,上述第一获取单元401、第一确定单元402和第一预测单元403等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提前预测企业机构中的事件是否存在风险,进而达到了保护企业机构安全的效果。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述风险预测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述风险预测方法。
如图5所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标事件和事理图谱,其中,所述目标事件为目标机构中待进行风险预测的至少一个事件,所述事理图谱基于多个事件之间的因果关系和所述多个事件构建;依据所述事理图谱,确定所述目标事件对应的原因事件和结果事件,其中,所述原因事件用于表示发生所述目标事件的原因,所述结果事件用于表示发生所述目标事件时产生的结果;基于所述原因事件和所述结果事件对所述目标事件进行风险预测,得到预测结果,其中,所述预测结果用于表示所述目标事件是否存在风险。
处理器执行程序时还实现以下步骤:在获取目标事件和事理图谱之前,所述方法还包括:获取与所述目标机构相关的多个目标文本数据;对所述多个目标文本数据进行处理,得到目标向量;依据所述目标向量,确定所述多个事件;依据所述多个事件,确定每两个事件之间的因果关系;基于每两个事件之间的因果关系和所述多个事件构建所述事理图谱。
处理器执行程序时还实现以下步骤:依据所述目标向量,确定所述多个事件包括:依据所述目标向量确定第一向量和第二向量,其中,所述第一向量用于表示所述多个目标文本数据中每个句子的语义特征,所述第二向量用于表示所述多个目标文本数据中每个字词的语义特征;对所述第一向量和所述第二向量进行融合处理,得到第三向量;基于所述第三向量对所述多个目标文本数据中的词语进行分类,得到多个分类后的词语;依据所述多个分类后的词语确定所述多个事件。
处理器执行程序时还实现以下步骤:依据所述多个事件,确定每两个事件之间的因果关系包括:依据所述多个事件,确定每两个事件之间的关系值;依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
处理器执行程序时还实现以下步骤:对所述多个目标文本数据进行处理,得到目标向量包括:对所述多个目标文本数据进行预处理,得到词语集合,其中,所述词语集合中至少包括多个词语;依据所述词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;对所述多个第一词向量和所述多个第二词向量进行拼接处理,得到所述目标向量。
处理器执行程序时还实现以下步骤:依据所述词语集合得到多个第一词向量和多个第二词向量包括:依据所述词语集合得到多个第三词向量,其中,每个第三词向量为所述词语集合中每个词语对应的词向量;依据所述多个第三词向量得到语义信息集合,其中,所述语义信息集合中至少包括每个第三词向量对应的语义信息;基于所述语义信息集合得到所述多个第一词向量;获取所述词语集合中每个词语的词性信息;依据每个词语的词性信息得到所述多个第二词向量。
处理器执行程序时还实现以下步骤:对所述多个目标文本数据进行预处理,得到词语集合包括:确定所述多个目标文本数据之间的相似度;依据所述多个目标文本数据之间的相似度,从所述多个目标文本数据中确定第一文本数据,其中,所述第一文本数据与第二文本数据之间的相似度大于预设值,所述第二文本数据为所述多个目标文本数据中除所述第一文本数据之外的文本数据;从所述多个目标文本数据中删除所述第一文本数据,得到多个第三文本数据;对所述多个第三文本数据进行分词处理,得到所述多个词语,并将所述多个词语进行汇总,得到所述词语集合。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标事件和事理图谱,其中,所述目标事件为目标机构中待进行风险预测的至少一个事件,所述事理图谱基于多个事件之间的因果关系和所述多个事件构建;依据所述事理图谱,确定所述目标事件对应的原因事件和结果事件,其中,所述原因事件用于表示发生所述目标事件的原因,所述结果事件用于表示发生所述目标事件时产生的结果;基于所述原因事件和所述结果事件对所述目标事件进行风险预测,得到预测结果,其中,所述预测结果用于表示所述目标事件是否存在风险。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在获取目标事件和事理图谱之前,所述方法还包括:获取与所述目标机构相关的多个目标文本数据;对所述多个目标文本数据进行处理,得到目标向量;依据所述目标向量,确定所述多个事件;依据所述多个事件,确定每两个事件之间的因果关系;基于每两个事件之间的因果关系和所述多个事件构建所述事理图谱。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据所述目标向量,确定所述多个事件包括:依据所述目标向量确定第一向量和第二向量,其中,所述第一向量用于表示所述多个目标文本数据中每个句子的语义特征,所述第二向量用于表示所述多个目标文本数据中每个字词的语义特征;对所述第一向量和所述第二向量进行融合处理,得到第三向量;基于所述第三向量对所述多个目标文本数据中的词语进行分类,得到多个分类后的词语;依据所述多个分类后的词语确定所述多个事件。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据所述多个事件,确定每两个事件之间的因果关系包括:依据所述多个事件,确定每两个事件之间的关系值;依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:对所述多个目标文本数据进行处理,得到目标向量包括:对所述多个目标文本数据进行预处理,得到词语集合,其中,所述词语集合中至少包括多个词语;依据所述词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;对所述多个第一词向量和所述多个第二词向量进行拼接处理,得到所述目标向量。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据所述词语集合得到多个第一词向量和多个第二词向量包括:依据所述词语集合得到多个第三词向量,其中,每个第三词向量为所述词语集合中每个词语对应的词向量;依据所述多个第三词向量得到语义信息集合,其中,所述语义信息集合中至少包括每个第三词向量对应的语义信息;基于所述语义信息集合得到所述多个第一词向量;获取所述词语集合中每个词语的词性信息;依据每个词语的词性信息得到所述多个第二词向量。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:对所述多个目标文本数据进行预处理,得到词语集合包括:确定所述多个目标文本数据之间的相似度;依据所述多个目标文本数据之间的相似度,从所述多个目标文本数据中确定第一文本数据,其中,所述第一文本数据与第二文本数据之间的相似度大于预设值,所述第二文本数据为所述多个目标文本数据中除所述第一文本数据之外的文本数据;从所述多个目标文本数据中删除所述第一文本数据,得到多个第三文本数据;对所述多个第三文本数据进行分词处理,得到所述多个词语,并将所述多个词语进行汇总,得到所述词语集合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种风险预测方法,其特征在于,包括:
获取目标事件和事理图谱,其中,所述目标事件为目标机构中待进行风险预测的至少一个事件,所述事理图谱基于多个事件之间的因果关系和所述多个事件构建;
依据所述事理图谱,确定所述目标事件对应的原因事件和结果事件,其中,所述原因事件用于表示发生所述目标事件的原因,所述结果事件用于表示发生所述目标事件时产生的结果;
基于所述原因事件和所述结果事件对所述目标事件进行风险预测,得到预测结果,其中,所述预测结果用于表示所述目标事件是否存在风险。
2.根据权利要求1所述的方法,其特征在于,在获取目标事件和事理图谱之前,所述方法还包括:
获取与所述目标机构相关的多个目标文本数据;
对所述多个目标文本数据进行处理,得到目标向量;
依据所述目标向量,确定所述多个事件;
依据所述多个事件,确定每两个事件之间的因果关系;
基于每两个事件之间的因果关系和所述多个事件构建所述事理图谱。
3.根据权利要求2所述的方法,其特征在于,依据所述目标向量,确定所述多个事件包括:
依据所述目标向量确定第一向量和第二向量,其中,所述第一向量用于表示所述多个目标文本数据中每个句子的语义特征,所述第二向量用于表示所述多个目标文本数据中每个字词的语义特征;
对所述第一向量和所述第二向量进行融合处理,得到第三向量;
基于所述第三向量对所述多个目标文本数据中的词语进行分类,得到多个分类后的词语;
依据所述多个分类后的词语确定所述多个事件。
4.根据权利要求2所述的方法,其特征在于,依据所述多个事件,确定每两个事件之间的因果关系包括:
依据所述多个事件,确定每两个事件之间的关系值;
依据每两个事件之间的关系值,确定每两个事件之间的因果关系。
5.根据权利要求2所述的方法,其特征在于,对所述多个目标文本数据进行处理,得到目标向量包括:
对所述多个目标文本数据进行预处理,得到词语集合,其中,所述词语集合中至少包括多个词语;
依据所述词语集合得到多个第一词向量和多个第二词向量,其中,每个第一词向量用于表示每个词语的语义信息,每个第二词向量用于表示每个词语的词性信息;
对所述多个第一词向量和所述多个第二词向量进行拼接处理,得到所述目标向量。
6.根据权利要求5所述的方法,其特征在于,依据所述词语集合得到多个第一词向量和多个第二词向量包括:
依据所述词语集合得到多个第三词向量,其中,每个第三词向量为所述词语集合中每个词语对应的词向量;
依据所述多个第三词向量得到语义信息集合,其中,所述语义信息集合中至少包括每个第三词向量对应的语义信息;
基于所述语义信息集合得到所述多个第一词向量;
获取所述词语集合中每个词语的词性信息;
依据每个词语的词性信息得到所述多个第二词向量。
7.根据权利要求5所述的方法,其特征在于,对所述多个目标文本数据进行预处理,得到词语集合包括:
确定所述多个目标文本数据之间的相似度;
依据所述多个目标文本数据之间的相似度,从所述多个目标文本数据中确定第一文本数据,其中,所述第一文本数据与第二文本数据之间的相似度大于预设值,所述第二文本数据为所述多个目标文本数据中除所述第一文本数据之外的文本数据;
从所述多个目标文本数据中删除所述第一文本数据,得到多个第三文本数据;
对所述多个第三文本数据进行分词处理,得到所述多个词语,并将所述多个词语进行汇总,得到所述词语集合。
8.一种风险预测装置,其特征在于,包括:
第一获取单元,用于获取目标事件和事理图谱,其中,所述目标事件为目标机构中待进行风险预测的至少一个事件,所述事理图谱基于多个事件之间的因果关系和所述多个事件构建;
第一确定单元,用于依据所述事理图谱,确定所述目标事件对应的原因事件和结果事件,其中,所述原因事件用于表示发生所述目标事件的原因,所述结果事件用于表示发生所述目标事件时产生的结果;
第一预测单元,用于基于所述原因事件和所述结果事件对所述目标事件进行风险预测,得到预测结果,其中,所述预测结果用于表示所述目标事件是否存在风险。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储程序,其中,所述程序执行权利要求1至7中任意一项所述的风险预测方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的风险预测方法。
CN202310260960.0A 2023-03-13 2023-03-13 风险预测方法及装置、存储介质和电子设备 Pending CN116228383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310260960.0A CN116228383A (zh) 2023-03-13 2023-03-13 风险预测方法及装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310260960.0A CN116228383A (zh) 2023-03-13 2023-03-13 风险预测方法及装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN116228383A true CN116228383A (zh) 2023-06-06

Family

ID=86578608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310260960.0A Pending CN116228383A (zh) 2023-03-13 2023-03-13 风险预测方法及装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN116228383A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662577A (zh) * 2023-08-02 2023-08-29 北京网智天元大数据科技有限公司 基于知识图谱的大型语言模型训练方法及装置
CN117196323A (zh) * 2023-11-07 2023-12-08 之江实验室 一种基于高维图网络的复杂社会事件的预警方法
CN117670017A (zh) * 2023-06-28 2024-03-08 上海期货信息技术有限公司 一种基于事件的风险识别方法、装置以及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670017A (zh) * 2023-06-28 2024-03-08 上海期货信息技术有限公司 一种基于事件的风险识别方法、装置以及电子设备
CN116662577A (zh) * 2023-08-02 2023-08-29 北京网智天元大数据科技有限公司 基于知识图谱的大型语言模型训练方法及装置
CN116662577B (zh) * 2023-08-02 2023-11-03 北京网智天元大数据科技有限公司 基于知识图谱的大型语言模型训练方法及装置
CN117196323A (zh) * 2023-11-07 2023-12-08 之江实验室 一种基于高维图网络的复杂社会事件的预警方法
CN117196323B (zh) * 2023-11-07 2024-02-27 之江实验室 一种基于高维图网络的复杂社会事件的预警方法

Similar Documents

Publication Publication Date Title
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
CN116228383A (zh) 风险预测方法及装置、存储介质和电子设备
US9632998B2 (en) Claim polarity identification
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
CN114428862A (zh) 基于油气管道的知识图谱构建方法及处理器
Perevalov et al. Augmentation-based Answer Type Classification of the SMART dataset.
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN112463960B (zh) 一种实体关系的确定方法、装置、计算设备及存储介质
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN115034302A (zh) 优化信息融合策略的关系抽取方法、装置、设备及介质
CN114254622A (zh) 一种意图识别方法和装置
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
Momtazi et al. Question Answering Over Text and Knowledge Base
Oswal Identifying and Categorizing Offensive Language in Social Media
Tsai et al. Generating Construction Safety Observations via CLIP-Based Image-Language Embedding
Li Question and Answer Techniques for Financial Audits in Universities Based on Deep Learning
Sreekantan et al. Expert system for question answering on anomalous events and mitigation strategies using bidirectional transformers and knowledge graphs
CN115114915B (zh) 短语识别方法、装置、设备和介质
Kabra et al. Automated Content Generation System Using Neural Text Generation
Chiplunkar et al. Prediction of pos tagging for unknown words for specific Hindi and Marathi language
Ziolkowski Vox populism: Analysis of the anti-elite content of presidential candidates’ speeches
Huang et al. NeuralConflict: Using neural networks to identify norm conflicts in normative documents
Tripathi Aspect Based Sentiment Analysis In Text Reviews
Zhilin et al. News-driven financial warning based on label information attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination