CN115526390A

CN115526390A - 用于预测企业风险的方法、装置及存储介质

Info

Publication number: CN115526390A
Application number: CN202211142873.7A
Authority: CN
Inventors: 马宁亚; 林廷懋
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-27

Abstract

本申请实施例提供一种用于预测企业风险的方法、装置及存储介质。该方法包括：获取风险预测场景的初始事理图谱；将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵；根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱；在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图；将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件；根据目标风险事件和相关事件进行风险预测。本申请在挖掘隐藏关系时考虑了预定义矩阵的邻接矩阵以及不同节点的不同重要程度，使得企业风险的预测模型的效果较好且泛化能力较高。

Description

用于预测企业风险的方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种用于预测企业风险的方法、装置及存储介质。

背景技术

随着市场经济的发展，需要对市场上不断发生的金融事件进行事件驱动的风险预测，评估事件的影响。现有技术中对于企业风险的预测一般是通过从新闻中提取出风险事件的实体以及关系，构建知识图谱，同时进一步根据关联规则挖掘出实体对作为隐藏的关系更新到知识图谱中，然后利用有监督数据和图计算方法进行关联交易预测预测。其核心在于：1)通过运用信息抽取，从超过阈值的可信数据中提取出实体以及实体之间的关系；2)根据节点属性和关系属性进行基于关联规则的实体对挖掘，从而得出隐藏关系；3)基于有监督数据，基于Deepwalk进行分类算法训练学习和预测。此类方法在预测时存在以下缺陷：1)关联规则的本质还是词频统计，对于语义关注较少，没有利用预训练模型强大的语义表达能力；2)Deepwalk方式的图嵌入方式运用随机游走，并不能很好地在嵌入中保持图的拓扑结构；3)将新挖掘的隐藏关系直接补充进原始图结构中，融合挖掘的信息和原始信息的方式过于简单，没有考虑到二者之间置信度不同。因此，现有技术中对于企业风险的预测模型的效果较差且泛化能力较低。

发明内容

本申请实施例的目的是提供一种用于预测企业风险的方法、装置及存储介质，用以解决现有技术中对于企业风险的预测模型的效果较差且泛化能力较低的问题。

为了实现上述目的，本申请第一方面提供一种用于预测企业风险的方法，该方法包括：

获取风险预测场景的初始事理图谱；

将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵；

根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱；

在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图；

将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件；

根据目标风险事件和相关事件进行风险预测。

在本申请实施例中，获取风险预测场景的初始事理图谱包括：

从原始金融语料中抽取风险事件和风险事件元素；

对风险事件的因果关系进行抽取，以确定风险事件之间的关系；

根据风险事件、风险事件的元素以及风险事件之间的关系构建风险预测场景的初始事理图谱。

在本申请实施例中，将初始事理图谱中的事件进行嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵包括：

将初始事理图谱中的事件输入至预训练模型，以得到初始事件表示矩阵；

将初始事件表示矩阵与预定义邻接矩阵结合，以得到结合了预定义邻接矩阵信息的事件表示矩阵；

从结合了预定义邻接矩阵信息的事件表示矩阵选取事件的预定义相关信息，以得到结合了预定义图信息的事件表示矩阵。

在本申请实施例中，结合了预定义图信息的事件表示矩阵满足公式(1)：

H^si*＝LayerNorm(E^(u)*+H^si)； (1)

其中，H^si*为结合了预定义图信息的事件表示矩阵，E^(u)*为与事件si相关的事件图信息，H^si为预训练模型的第si层的隐状态。

在本申请实施例中，根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱包括：

确定事件表示矩阵中任意两个事件之间的相关性；

根据事件表示矩阵中任意两个事件之间的相关性确定隐藏关系矩阵；

通过门机制将预定义矩阵和隐藏关系矩阵进行融合，以得到目标邻接矩阵；

根据目标邻接矩阵更新初始事理图谱，以得到目标事理图谱。

在本申请实施例中，目标邻接矩阵满足公式(2)：

A^*＝U_r*A+(1-U_r)*E； (2)

其中，A^*为目标邻接矩阵，U_r为门机制，A为预定义矩阵，E为隐藏关系矩阵。

在本申请实施例中，在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图包括：

通过BM25算法确定目标事理图谱中任意事件与目标风险事件的相似度，以得到锚点事件；

通过广度优先算法，确定锚点事件在目标事理图谱的证据事件；

将目标风险事件、锚点事件和证据事件根据因果关系进行连接，以得到目标风险事件的相关子图；

其中，目标风险事件包括目标前提事件和目标猜想事件。

在本申请实施例中，将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件包括：

将相关子图中的事件节点进行编码，以得到事件序列；

将事件序列输入至预训练模型，以得到事件的表示向量序列；

将表示向量序列确定为目标风险事件对应的相关事件。

在本申请实施例中，根据相关事件对目标风险事件进行风险预测包括：

将表示向量序列输入双层注意机制的图注意力模型，以得到事件节点的实体表示；

将事件节点的实体表示输入预测器，以确定目标风险事件与对应的相关事件构成因果关系的预测概率；

根据预测概率确定目标风险事件的评分。

本申请第二方面提供一种用于预测企业风险的装置，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从存储器调用指令以及在执行指令时能够实现上述的用于预测企业风险的方法。

本申请第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的用于预测企业风险的方法。

本申请第四方面提供一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述的用于预测企业风险的方法。

通过上述技术方案，先构建风险预测场景的初始事理图谱，将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵，再根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱；进而在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图，再将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件，最后根据目标风险事件和相关事件进行风险预测。本申请以事理图谱为基础，运用半监督方式，从节点特征出发，挖掘隐藏关系，对预定义的图谱的依赖性更低，且以事件为颗粒度更符合实际的金融应用场景需求；并且本申请在挖掘隐藏关系时考虑了预定义矩阵的邻接矩阵以及不同节点的不同重要程度，更符合金融场景和逻辑。综上，本申请使得企业风险的预测模型的效果较好且泛化能力较高。

本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1示意性示出了根据本申请实施例的一种用于预测企业风险的方法的流程图；

图2示意性示出了根据本申请一具体实施例的一种用于预测企业风险的流程图；

图3示意性示出了根据本申请实施例的一种用于预测企业风险的装置的结构框图；

图4示意性示出了根据本申请实施例的计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1示意性示出了根据本申请实施例的一种用于预测企业风险的方法的流程图。如图1所示，在本申请实施例中，提供了一种用于预测企业风险方法，可以包括下列步骤。

步骤102，获取风险预测场景的初始事理图谱。

在本申请实施例中，事理图谱是一个事理逻辑知识库，描述了事件之间的演化规律和模式，结构上是一个有向有环图，节点表示事件，有向边代表事件之间的顺承、因果和上下位等关系。风险预测场景是指以市场上不断发生的企业金融事件的风险为基础的场景。例如，企业亏损事件、企业财务造假事件、企业资产减值事件等。本申请实施例的初始事理图谱是根据原始金融语料抽取的风险事件及风险事件元素以及风险事件之间的关系建立的事理图谱。在初始事理图谱中，节点是结合特定场景一定泛化后的风险事件以及与风险事件相关的事件，边是节点之间的关联关系，如事件的因果关系，属性为事件因果关系的强度，根据事件之间的语义强度计算。初始事理图谱可以根据不断抽取的金融风险事件以及事件之间的关系不断更新。

步骤104，将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵。

在本申请实施例中，事件嵌入是指将事件投影至特定的嵌入空间，用空间中特定维度的稠密向量来表示事件，同时在嵌入空间中保持事件之间的物理含义和关系的不变性。处理器在构建好的初始事理图谱中，可以结合注意力机制得出事件嵌入。注意力机制可以认为是一种资源分配机制，对于原本平均分配的资源根据对象之间的重要程度重新分配资源。对于初始事理图谱中事件结合，可以将其输入预训练模型，得出其对应的事件表示矩阵，再结合预先定义的邻接矩阵，可以得出结合了预定义邻接矩阵信息的事件表示矩阵，再从中选取事件相关信息，以得到结合了预定义图信息的事件表示矩阵。在一个示例中，预训练模型可以为RoBERTa(A Robustly Optimized BERT Pretraining Approach)模型。RoBEATa是对BERT模型的改进算法，其结构与BERT的结构相同，但是在预训练设置上进行了改动，包括使用更大的Batch大小与更大的训练数据，去掉了BERT预测下一个句子的训练任务，使用更长的文本进行预训练，以及在遮罩语言模型预训练任务中动态地对文本进行遮罩。此外，RoBERTa在对文本进行分词时使用双字节编码(Byte-Pair Encoding)，并且去掉了BERT中的Segment Embedding。通过利用预训练模型的语义信息处理能力得到事件嵌入，不会受限于事件表达的多样性，提高了事理图谱的性能。

步骤106，根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱。

在本申请实施例中，隐藏关系是指没有被事理图谱预先定义的，但是在实际中存在并且对推理有重要作用的关系。邻接矩阵是指用矩阵表示任意两个节点(事件)之间的邻接关系，是一个N*N的矩阵，行或者列之和为1。由于不同事件之间的重要程度不相同，因此，处理器在得到结合了预定义图信息的事件表示矩阵之后，需要更新初始事理图谱的邻接矩阵，从而更新初始事理图谱以得到更新后的初始事理图谱，即目标事理图谱。在一个示例中，更新初始事理图谱的邻接矩阵需要先采用注意力机制来计算任意两个事件之间的相关性，从而挖掘任意两个事件之间隐藏的关系强度，以组成隐藏关系矩阵。再通过门机制，将预定义矩阵和隐藏关系矩阵进行融合，以得到更新后的邻接矩阵，即目标邻接矩阵。通过考虑两种来源的信息的置信度不同，可以使得预定义信息和挖掘信息更好地进行融合。需要说明的是，本申请实施例中挖掘隐藏关系还可以通过卷积或相似度等关系进行隐藏关系的挖掘。

步骤108，在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图。

在本申请实施例中，目标事理图谱即包含更新后的邻接矩阵的事理图谱。目标风险事件即用户输入事理图谱中需要进行企业预测的风险事件，可以包括目标前提事件和目标猜想事件。针对输入的目标风险事件，处理器可以在目标事理图谱中进行搜索，以得到与当前输入的目标风险事件的相关子图。相关子图即因果证据图，是通过将目标风险事件、锚点事件和证据事件根据因果关系连接得到的。其中，锚点事件是指与目标风险事件相关的事件。基于这些锚点事件使用广度优先算法可以得到原因及结果事件，即证据事件。通过得到目标风险事件的相关子图以便得到目标风险事件的相关事件。

步骤110，将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件；

在本申请实施例中，在搜索出目标风险事件的相关子图后，即得到了一个证据图之后，处理器需要对该相关子图的事件节点进行编码，将文本形式的事件编码成稠密的向量。将预训练模型作为编码器，将相关子图重新输入预训练模型，以得到相关子图中每个事件的上下文相关的向量，即与目标风险事件对应的相关事件。

步骤112，根据目标风险事件和相关事件进行风险预测。

在本申请实施例中，处理器可以利用分层的图注意力机制进行不同关系下的节点预测，以得到事件的实体表示，即进行图学习，其中，图学习指的是信息的更新。然后再将事件的实体表示输入预测器，以预测目标风险事件与每个相关事件构成因果关系的概率。在一个示例中，处理器可以根据检索和编码后得到的表示向量，将表示向量序列输入双层注意机制的图注意力模型(Heterogeneous Graph Attention Networks，HGAT)，从而得到事件的实体表示。其中，HGAT可以利用异构卷积来考虑不同类型信息的异构性，捕获不同相邻节点的重要性(降低噪声的权重)和不同节点(信息)类型对特定节点的重要性。再将事件的实体表示输入预测器，以确定目标风险事件与对应的相关事件构成因果关系的预测概率，从而根据预测概率确定目标风险事件的评分。需要说明的是，除了从空间域角度运用HGAT进行图学习，还可以从频域的角度，采取关系图卷积的方式进行图学习。本申请实施例在多种关系信息的训练预测中，考虑到多种关系的异质图，因而利用分层的图注意力机制来处理异质图信息，更好地保留了图的拓扑结构。

通过上述技术方案，先构建风险预测场景的初始事理图谱，将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵，再根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱；进而在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图，再将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件，最后根据目标风险事件和相关事件进行风险预测。本申请以事理图谱为基础，运用半监督方式，从节点特征出发，挖掘隐藏关系，对预定义的图谱的依赖性更低，且以事件为颗粒度更符合实际的金融应用场景需求；并且本申请在挖掘隐藏关系时考虑了预定义矩阵的邻接矩阵以及不同节点的不同重要程度，更符合金融场景和逻辑。综上，本申请实施例使得企业风险的预测模型的效果较好且泛化能力较高。

在本申请实施例中，步骤102、获取风险预测场景的初始事理图谱可以包括：

从原始金融语料中抽取风险事件和风险事件元素；

具体地，初始事理图谱是根据原始金融语料(即历史金融语料)构建的事理图谱，处理器可以根据原始金融语料抽取的风险事件及风险事件元素以及风险事件之间的关系建立的事理图谱。当原始金融语料有更新时，初始事理图谱也随之更新。构建初始事理图谱可以先进行风险事件和风险事件元素的抽取、风险事件之间关系的抽取，再根据风险事件、风险事件的元素和风险事件之间的关系构建初始事理图谱。

首先，处理器可以从原始金融语料中抽取所关注的实体、风险事件和风险事件的主体、时间等所关注的要素。其中，风险事件可以包括但不限于亏损事件、财务造假事件、董高监成员异常事件、资产减值事件、减持事件、评级恶化事件等风险事件；实体可以包括但不限于人名、地名和机构名等。在一个示例中，处理器可以通过命名实体识别(NamedEntity Recognition，NER)模型抽取风险事件和风险事件元素。

其次，处理器可以对风险事件的因果关系进行抽取，以确定风险事件之间的关系。同样，处理器也可以通过NER模型对关系进行抽取。另外，处理器还需要根据抽取的事件计算出其因果强度作为事件关系的属性。

最后，在抽取处风险事件、风险事件元素以及风险事件之间的关系后，处理器可以基于风险事件和风险事件之间的因果关系，建立起在违约预测场景的事理图谱，将数据整合为点、边、属性形式的三元组并导入图数据库进行存储。此处的三元组指的是“起点-边-终点”的形式。初始事理图谱的机构包括节点和边。其中，节点是处理器提取出的结合特定场景一定泛化后的风险事件以及根据公司积累的事理图谱，从中提取的和风险事件相关的事件。边是实体之间的关联关系，一般事理图谱包含因果、条件、顺承和上下位等关系。而本申请实施例中的事理图谱关系重点研究节点(事件)之间的因果关系，属性为事件之间因果关系的强度，根据事件之间的语义强度来计算。

需要说明的是，若基于已构建的事理图谱加入新数据，则按照上述构建事理图谱的方法和结构对初始事理图谱进行更新，用于处理不断抽取的金融风险事件以及事件之间的关系。

在本申请实施例中，步骤104、将初始事理图谱中的事件进行嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵可以包括：

具体地，处理器在构建好的初始事理图谱中，可以结合注意力机制得出事件嵌入。对于初始事理图谱中事件结合X，可以将其输入预训练模型，如RoBERTa，得出其对应的事件表示矩阵E，再结合预先定义的邻接矩阵A，可以得出结合了预定义邻接矩阵信息的事件表示矩阵E^u。事件表示矩阵E^u满足公式(3)：

E^u＝σ(AEW_u)； (3)

其中，E^u为结合了预定义邻接矩阵信息的事件表示矩阵，A为预先定义的邻接矩阵，E为事件表示矩阵，W_u为一个权重矩阵，σ为sigmoid函数。

接着，从结合了预定义邻接矩阵信息的事件表示矩阵E^u中选取事件的预定义相关信息，以更新Transformer层的隐含状态，从而得到结合了预定义图信息的事件表示矩阵。

在本申请实施例中，结合了预定义图信息的事件表示矩阵可以满足公式(1)：

H^si*＝LayerNorm(E^(u)*+H^si)； (1)

其中，与事件si相关的事件图信息E^(u)*满足公式(4)：

E^(u)*＝MultiAtten(H^si，E^u)； (4)

其中，E^(u)*为与事件si相关的事件图信息，H^si为预训练模型的第si层的隐状态，E^u为结合了预定义邻接矩阵信息的事件表示矩阵。

本申请实施例通过利用预训练模型的语义信息处理能力得到事件嵌入，不会受限于事件表达的多样性，提高了事理图谱的性能。

在本申请实施例中，步骤106、根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱可以包括：

确定事件表示矩阵中任意两个事件之间的相关性；

具体地，由于不同事件之间的重要程度不相同，因此，处理器在得到结合了预定义图信息的事件表示矩阵之后，需要更新初始事理图谱的邻接矩阵，从而更新初始事理图谱以得到更新后的初始事理图谱，即目标事理图谱。在一个示例中，更新初始事理图谱的邻接矩阵需要先采用注意力机制来计算任意两个事件之间的相关性R_ij，任意两个事件之间的相关性R_ij满足公式(5)：

R_ij＝LeakyReLU(W_r[H^si*||H^sj*])； (5)

其中，H^si*和H^sj*为事件si和事件sj的结合了预定义图信息的事件表示矩阵，W_r为权重矩阵。

接着，根据任意两个事件之间的相关性可以挖掘任意两个事件之间隐藏的关系强度E_ij，以组成隐藏关系矩阵E。其中，任意两个事件之间隐藏的关系强度E_ij满足公式(6)：

E_ij＝softmax(R_ij)； (6)

其中，E_ij为任意两个事件之间隐藏的关系强度，R_ij为任意两个事件之间的相关性。

最后再通过门机制，将预定义矩阵A和隐藏关系矩阵E进行融合，以得到更新后的邻接矩阵A*，即目标邻接矩阵。在本申请实施例中，目标邻接矩阵可以满足公式(2)：

A^*＝U_r*A+(1-U_r)*E； (2)

其中，A^*为目标邻接矩阵，U_r为门机制，A为预定义矩阵，E为隐藏关系矩阵。其中，门机制U_r满足公式(7)：

其中，U_r为门机制，A为预定义矩阵，E为隐藏关系矩阵，

为参数矩阵，b_u为偏置矩阵。

本申请实施例通过考虑两种来源的信息的置信度不同，可以使得预定义信息和挖掘信息更好地进行融合。需要说明的是，本申请实施例中挖掘隐藏关系还可以通过卷积或相似度等关系进行隐藏关系的挖掘。

在本申请实施例中，步骤108、在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图可以包括：

其中，目标风险事件包括目标前提事件和目标猜想事件。

具体地，针对输入的目标风险事件，处理器可以在目标事理图谱中进行搜索，以得到与当前输入的目标风险事件的相关子图。对于给定的目标前提(Premise)事件以及目标猜想(Hypothesis)事件，处理器可以对这两个事件分别在构建并扩充好的事理图谱，即目标事理图谱里面进行检索，获取到与前提事件以及猜想事件类似的一个或多个事件，具体的检索方法可以通过BM25算法。为了方便，不妨将目标前提事件和目标猜想事件表示为P和H，不失一般性。用目标前提事件P举例，对于目标事理图谱中所有事件集合中任意一个事件e，它与前提P的BM25得分的计算方法满足公式(8)和公式(9)：

BM25_score(P，e)＝∑_t∈Pw(t，e)； (8)

其中，P为目标前提事件，t为目标前提事件中的任意事件，e为目标事理图谱中所有事件集合中任意一个事件，w(t，e)为目标前提事件中分词的相关性，qtf为目标前提事件中前提事件t的频率，tf为任意一个事件中前提事件t的频率，d为目标文本，l_d为目标文本的长度，avg_l为事件的平均长度，b为常数，df为目标前提事件中包含目标文本d的频率，N为文本的总数，k₁为和k₃为超参数。

在获取到了与目标前提事件P或者目标猜想事件H相关的几个事件后，可以记为

以及

也将其记为锚点事件。然后处理器基于这些锚点事件使用广度优先算法，搜索处其在目标事理图谱中θ跳内的原因及结果事件，将其称之为证据事件。最终将这些证据事件、锚点事件、目标前提事件和目标猜想事件根据它们的因果关系连接成为目标事理图谱的一个子图，即因果证据图，记为G_sub＝(V_sub，R_sub)，其中，V_sub＝{V^P，V^H，P，H}。通过得到目标风险事件的相关子图以便得到目标风险事件的相关事件。

在本申请实施例中，步骤110、将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件可以包括：

将相关子图中的事件节点进行编码，以得到事件序列；

将表示向量序列确定为目标风险事件对应的相关事件。

具体地，在搜索出目标风险事件的相关子图后，即得到了一个证据图之后，处理器需要对该相关子图的事件节点进行编码，将文本形式的事件编码成稠密的向量。本申请实施例可以将预训练模型作为编码器，将相关子图重新输入预训练模型，以得到相关子图中每个事件的上下文相关的向量，即与目标风险事件对应的相关事件。

首先，可以将相关子图展开形成一个事件序列，处理后的事件序列可以表示为：[CLS]C[SEP]I₁…[SEP]I_n[SEP]E[SEP]。其中，[CLS]为整个序列的表示字符，[SEP]起到分隔不同事件的作用，也可以作为每个事件的表示字符，C为原因，如果Ask-for为原因，则C为猜想事件，如果Ask-for为结果，则C为前提事件，I＝{I₁，…，I_n}则为一系列的证据事件，E为结果，如果Ask-for为原因，则E为前提事件，如果Ask-for为结果，则E为猜想事件。

将图展开成以上的序列之后，处理器可以将其输入至预训练模型中。得到预训练模型的输出之后，将每个事件后面的[SEP]字符的表示向量作为这个事件的表示向量，所有事件的表示向量记为x＝{x₁，…，x_i，…，x_n+2}，其中，

为相关图中第i个事件的向量表示，并且x₁为原因事件的向量表示，x_n+2为结果事件的向量表示。

在本申请实施例中，步骤112、根据相关事件对目标风险事件进行风险预测可以包括：

根据预测概率确定目标风险事件的评分。

具体地，处理器可以利用分层的图注意力机制进行不同关系下的节点预测，以得到事件的实体表示，即进行图学习，其中，图学习指的是信息的更新。然后再将事件的实体表示输入预测器，以预测目标风险事件与每个相关事件构成因果关系的概率。

在本申请实施例中，处理器可以根据检索和编码后得到的表示向量，将表示向量序列输入HGAT模型，从而得到事件的实体表示。处理器运用HGAT分别在节点和关系层次进行GAT，针对邻域节点做邻居聚合，从而得到事件节点i的实体表示

其中，事件节点i的实体表示

满足公式(10)：

其中，

为事件节点i的实体表示，K为注意力权重的次数，δ为δ函数，

为第k个节点权重，w^k为k的权重系数，x_ij为节点ij的向量，vi为节点i聚合之后的点，vj为任意邻域节点，N(vi)为邻域节点的集合。

α_ij为节点ij之间的注意力权重，满足公式(11)：

其中，α_ij为节点ij之间的注意力权重，α^T为目标邻接矩阵A*，Wx_i为x_i的权重系数，Wx_j为x_i的权重系数，v(k)为节点k的邻域节点，N(v_i)为邻域节点的集合。

其中，HGAT可以利用异构卷积来考虑不同类型信息的异构性，捕获不同相邻节点的重要性(降低噪声的权重)和不同节点(信息)类型对特定节点的重要性。

需要说明的是，除了从空间域角度运用HGAT进行图学习，还可以从频域的角度，采取关系图卷积的方式进行图学习。本申请实施例在多种关系信息的训练预测中，考虑到多种关系的异质图，因而利用分层的图注意力机制来处理异质图信息，更好地保留了图的拓扑结构。

最后，处理器使用一个预测器对目标风险事件进行预测，处理器可以将向量经过一个线形层，并经过归一化操作，以得到目标风险事件与对应的相关事件构成因果关系的预测概率，从而根据预测概率确定目标风险事件的评分。其中，预测器的预测满足公式(12)：

其中，Y为目标风险事件与对应的相关事件构成因果关系的预测概率，

为事件节点i的实体表示，W_y为系数矩阵，b_y为偏置矩阵。

图2示意性示出了根据本申请一具体实施例的一种用于预测企业风险的流程图。如图2所示，在一具体实施例中，用于预测企业风险的整体流程包括数据准备A、模型训练B和评估C三个步骤。其中，数据准备A包括事件和事件元素抽取A-1、关系抽取A-2、事理图谱构建A-3和事理图谱更新A-3’；模型训练B包括事件嵌入B-1、邻接矩阵更新B-2、事件检索和编码B-3以及图学习B-4。其中，事件嵌入B-1即将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵。邻接矩阵更新B-2即根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱。事件检索和编码B-3即在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图，再将相关子图重新输入预训练模型，以得到表示向量序列，即与目标风险事件对应的相关事件。最后根据目标风险事件和相关事件进行风险预测，图学习B-4先将表示向量序列输入双层注意机制的图注意力模型HGAT，以得到事件节点的实体表示；再将事件节点的实体表示输入预测器，以确定目标风险事件与对应的相关事件构成因果关系的预测概率。评估模块C根据预测概率确定目标风险事件的评分。

本申请实施例相比较于现有技术有诸多优点。首先，相比较之前发明和现有技术注重专家经验和以实体为粒度的知识图谱关系挖掘为主的方案，本申请实施例以事件为基本粒度的事理图谱为基础，从节点本身特征出发，挖掘隐藏关系，对预定义的图谱的依赖性更低，且以事件为粒度更符合实际的金融应用场景需求。其次，现有技术或者利用关联规则，或者利用有监督的网络训练，或是对语义的利用较少，或者对数据存在较大的依赖，本申请实施例运用半监督方式从节点特征挖掘隐藏关系，并且在挖掘隐藏关系时考虑了预定义的邻接矩阵以及不同节点的不同重要程度，更符合场景和逻辑。再者，目前针对挖掘出的隐藏关系和预定义关系的融合没有很好地进行处理，大部分都同等看待，而本申请实施例采用门机制赋予二者不同的处理，在理论和实际中都显示了优越性。最后，在模型训练的过程中，本申请实施例关注到事件背景知识中存在的多种类型的节点的边的异质图的问题，因此，采取分层的GAT来处理异质的背景知识，更好地保留了事理图谱的拓扑结构。

应该理解的是，虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图3示意性示出了根据本申请实施例的一种用于预测企业风险的装置的结构框图。如图3所示，本申请实施例提供一种用于预测企业风险的装置，可以包括：

存储器310，被配置成存储指令；以及

处理器320，被配置成从存储器310调用指令以及在执行指令时能够实现上述的用于预测企业风险的方法。

具体地，在本申请实施例中，处理器320可以被配置成：

获取风险预测场景的初始事理图谱；

根据目标风险事件和相关事件进行风险预测。

进一步地，处理器320还可以被配置成：

获取风险预测场景的初始事理图谱包括：

从原始金融语料中抽取风险事件和风险事件元素；

进一步地，处理器320还可以被配置成：

将初始事理图谱中的事件进行嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵包括：

H^si*＝LayerNorm(E^(u)*+H^si)； (1)

进一步地，处理器320还可以被配置成：

根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱包括：

确定事件表示矩阵中任意两个事件之间的相关性；

在本申请实施例中，目标邻接矩阵满足公式(2)：

A^*＝U_r*A+(1-U_r)*E； (2)

进一步地，处理器320还可以被配置成：

在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图包括：

其中，目标风险事件包括目标前提事件和目标猜想事件。

进一步地，处理器320还可以被配置成：

将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件包括：

将相关子图中的事件节点进行编码，以得到事件序列；

将表示向量序列确定为目标风险事件对应的相关事件。

进一步地，处理器320还可以被配置成：

根据相关事件对目标风险事件进行风险预测包括：

根据预测概率确定目标风险事件的评分。

通过上述技术方案，先构建风险预测场景的初始事理图谱，将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵，再根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱；进而在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图，再将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件，最后根据目标风险事件和相关事件进行风险预测。本申请以事理图谱为基础，运用半监督方式，从节点特征出发，挖掘隐藏关系，对预定义的图谱的依赖性更低，且以事件为颗粒度更符合实际的金融应用场景需求；并且本申请在挖掘隐藏关系时考虑了预定义矩阵的邻接矩阵以及不同节点的不同重要程度，更符合金融场景和逻辑。本申请在挖掘隐藏关系时考虑了预定义矩阵的邻接矩阵以及不同节点的不同重要程度，使得企业风险的预测模型的效果较好且泛化能力较高。

本申请实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的用于预测企业风险的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，当在处理器上执行时，适于执行初始化有如下方法步骤的程序：获取风险预测场景的初始事理图谱；将初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵；根据事件表示矩阵中任意两个事件之间的隐藏关系更新初始事理图谱的邻接矩阵，以得到目标事理图谱；在目标事理图谱中对目标风险事件进行搜索，以得到目标风险事件的相关子图；将相关子图重新输入预训练模型，以得到与目标风险事件对应的相关事件；根据目标风险事件和相关事件进行风险预测。

在一个实施例中，从原始金融语料中抽取风险事件和风险事件元素；对风险事件的因果关系进行抽取，以确定风险事件之间的关系；根据风险事件、风险事件的元素以及风险事件之间的关系构建风险预测场景的初始事理图谱。

在一个实施例中，将初始事理图谱中的事件输入至预训练模型，以得到初始事件表示矩阵；将初始事件表示矩阵与预定义邻接矩阵结合，以得到结合了预定义邻接矩阵信息的事件表示矩阵；从结合了预定义邻接矩阵信息的事件表示矩阵选取事件的预定义相关信息，以得到结合了预定义图信息的事件表示矩阵。

在一个实施例中，确定事件表示矩阵中任意两个事件之间的相关性；根据事件表示矩阵中任意两个事件之间的相关性确定隐藏关系矩阵；通过门机制将预定义矩阵和隐藏关系矩阵进行融合，以得到目标邻接矩阵；根据目标邻接矩阵更新初始事理图谱，以得到目标事理图谱。

在一个实施例中，通过BM25算法确定目标事理图谱中任意事件与目标风险事件的相似度，以得到锚点事件；通过广度优先算法，确定锚点事件在目标事理图谱的证据事件；将目标风险事件、锚点事件和证据事件根据因果关系进行连接，以得到目标风险事件的相关子图；其中，目标风险事件包括目标前提事件和目标猜想事件。

在一个实施例中，将相关子图中的事件节点进行编码，以得到事件序列；将事件序列输入至预训练模型，以得到事件的表示向量序列；将表示向量序列确定为目标风险事件对应的相关事件。

在一个实施例中，将表示向量序列输入双层注意机制的图注意力模型，以得到事件节点的实体表示；将事件节点的实体表示输入预测器，以确定目标风险事件与对应的相关事件构成因果关系的预测概率；根据预测概率确定目标风险事件的评分。

图4示意性示出了根据本申请实施例的计算机设备的内部结构图。如图4所示，在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图Y所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中，该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现一种用于预测企业风险方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于预测企业风险的方法，其特征在于，所述方法包括：

获取风险预测场景的初始事理图谱；

将所述初始事理图谱中的事件嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵；

根据所述事件表示矩阵中任意两个事件之间的隐藏关系更新所述初始事理图谱的邻接矩阵，以得到目标事理图谱；

在所述目标事理图谱中对目标风险事件进行搜索，以得到所述目标风险事件的相关子图；

将所述相关子图重新输入所述预训练模型，以得到与所述目标风险事件对应的相关事件；

根据所述目标风险事件和所述相关事件进行风险预测。

2.根据权利要求1所述的方法，其特征在于，所述获取风险预测场景的初始事理图谱包括：

从原始金融语料中抽取风险事件和风险事件元素；

对所述风险事件的因果关系进行抽取，以确定所述风险事件之间的关系；

根据所述风险事件、所述风险事件的元素以及所述风险事件之间的关系构建所述风险预测场景的初始事理图谱。

3.根据权利要求1所述的方法，其特征在于，所述将所述初始事理图谱中的事件进行嵌入预训练模型，以得到结合了预定义图信息的事件表示矩阵包括：

将所述初始事理图谱中的事件输入至所述预训练模型，以得到初始事件表示矩阵；

将所述初始事件表示矩阵与预定义邻接矩阵结合，以得到结合了预定义邻接矩阵信息的事件表示矩阵；

从所述结合了预定义邻接矩阵信息的事件表示矩阵选取所述事件的预定义相关信息，以得到结合了预定义图信息的事件表示矩阵。

4.根据权利要求3所述的方法，其特征在于，所述结合了预定义图信息的事件表示矩阵满足公式(1)：

H^si*＝LayerNorm(E^(u)*+H^si)； (1)

其中，H^si*为所述结合了预定义图信息的事件表示矩阵，E^(u)*为与事件si相关的事件图信息，H^si为所述预训练模型的第si层的隐状态。

5.根据权利要求1所述的方法，其特征在于，所述根据所述事件表示矩阵中任意两个事件之间的隐藏关系更新所述初始事理图谱的邻接矩阵，以得到目标事理图谱包括：

确定所述事件表示矩阵中任意两个事件之间的相关性；

根据所述事件表示矩阵中任意两个事件之间的相关性确定隐藏关系矩阵；

通过门机制将预定义矩阵和所述隐藏关系矩阵进行融合，以得到目标邻接矩阵；

根据所述目标邻接矩阵更新所述初始事理图谱，以得到所述目标事理图谱。

6.根据权利要求5所述的方法，其特征在于，所述目标邻接矩阵满足公式(2)：

A^*＝U_r*A+(1-U_r)*E； (2)

其中，A^*为所述目标邻接矩阵，U_r为门机制，A为所述预定义矩阵，E为所述隐藏关系矩阵。

7.根据权利要求1所述的方法，其特征在于，所述在所述目标事理图谱中对目标风险事件进行搜索，以得到所述目标风险事件的相关子图包括：

通过BM25算法确定所述目标事理图谱中任意事件与所述目标风险事件的相似度，以得到锚点事件；

通过广度优先算法，确定所述锚点事件在所述目标事理图谱的证据事件；

将所述目标风险事件、所述锚点事件和所述证据事件根据因果关系进行连接，以得到所述目标风险事件的相关子图；

其中，所述目标风险事件包括目标前提事件和目标猜想事件。

8.根据权利要求1所述的方法，其特征在于，所述将所述相关子图重新输入所述预训练模型，以得到与所述目标风险事件对应的相关事件包括：

将所述相关子图中的事件节点进行编码，以得到事件序列；

将所述事件序列输入至所述预训练模型，以得到事件的表示向量序列；

将所述表示向量序列确定为所述目标风险事件对应的相关事件。

9.根据权利要求8所述的方法，其特征在于，所述根据所述相关事件对所述目标风险事件进行风险预测包括：

将所述表示向量序列输入双层注意机制的图注意力模型，以得到所述事件节点的实体表示；

将所述事件节点的实体表示输入预测器，以确定所述目标风险事件与对应的相关事件构成因果关系的预测概率；

根据所述预测概率确定所述目标风险事件的评分。

10.一种用于预测企业风险的装置，其特征在于，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从所述存储器调用所述指令以及在执行所述指令时能够实现根据权利要求1至9中任一项所述的用于预测企业风险的方法。

11.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至9中任一项所述的用于预测企业风险的方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的用于预测企业风险的方法。