CN112214614B

CN112214614B - 基于知识图谱挖掘风险传播路径的方法及其系统

Info

Publication number: CN112214614B
Application number: CN202011111237.9A
Authority: CN
Inventors: 李振; 刘恒; 吴梅; 赵兴莹; 李毓瑞; 秦培歌; 张泽; 李勇辉
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2024-02-09
Anticipated expiration: 2040-10-16
Also published as: CN112214614A

Abstract

本发明属于金融数据风险分析技术领域，涉及一种基于知识图谱挖掘风险传播路径的方法及其系统，方法的步骤为：构建知识图谱；根据构建知识图谱，提取每一种金融关系下的邻接矩阵；利用随机游走算法计算风险转移概率，得到风险转移概率矩阵Π,将n种金融关系代入风险转移概率矩阵的计算公式，得到n种金融关系的风险转移概率矩阵Π，对得到风险转移概率矩阵Π进行求和平均,得到矩阵I；建立邻接表，直接在邻接表中查询风险传播路径。本发明利用知识图谱的核心概念是实体和关系，以三元组的形式存储实体与实体间的关系，能够将不同层次的实体和不同类型的关系整合在一个系统中。通过同实体如公司和人之间的关系，从全局角度更全面的分析解决问题。

Description

基于知识图谱挖掘风险传播路径的方法及其系统

技术领域

本发明属于金融数据风险分析技术领域，尤其涉及一种基于知识图谱挖掘风险传播路径的方法及其系统。

背景技术

目前，在全球性的金融危机爆发之后，金融风险成为监管机构和研究学者的研究热点。原因在于金融风险的扩散范围广、传播路径多、破坏力度大，对金融体系的安全构成了巨大威胁。因此，如何挖掘金融风险在经济实体间的传播路径是一个非常重要的问题，可以对早期金融风险进行预警，并采取措施防止大规模的金融危机爆发。

金融风险的类型很多，但是局限于某些数据的可得性，本发明讨论的风险范围包括，新闻领域和网络媒体的舆情的风险，以下统称为风险。目前分析风险的传播路径的方法主要通过网络分析法，即网络传播动力学。该方法构建了银行机构间的互联网络，依据在资产负债表或支付结算体系中产生的关系，通过模拟的方式分析单个机构产生的信用风险或者流动性风险在机构间的传导机制。但是该方法只关注单一关系和单一风险源，网络结构简单，无法找出风险在不同关系间的传播路径，如某个人的重大负面新闻可能会对他持股、投资的公司产生较大影响，从而波及到这家公司的上下游。现实社会中，风险种类多样，传播实体间的关系非常复杂。

发明内容

本发明公开了一种基于知识图谱挖掘风险传播路径的方法及其系统，以解决现有技术的上述技术问题以及其他潜在问题中的任意问题。

本发明的技术方案是：一种基于知识图谱挖掘风险传播路径的方法，所述方法具体包括以下步骤：

S1)构建知识图谱；

S2)根据构建知识图谱，提取每一种金融关系下的邻接矩阵；

S3)利用随机游走算法计算风险转移概率，得到风险转移概率矩阵Π,将S2)提取每一种金融关系下的邻接矩阵代入风险转移概率矩阵的计算公式，得到每一种金融关系的风险转移概率矩阵Π，

S4)对得到每一种金融关系的风险转移概率矩阵Π进行求和平均,得到矩阵I；

S5)根据矩阵I建立邻接表，直接在邻接表中查询风险传播路径。

进一步的，所述知识图谱包括舆情知识图谱与金融知识图谱。

进一步的，所述S1)的具体步骤为：

S1.1)根据构建知识图谱的构建需求确定数据，按照三元组的形式处理数据，公式如下所示：

l＝<s,r,e> (1)，

式中：l表示一个三元组，s和e表示实体，r是s和e间的关系；

S1.2)根据S1.1)得到的处理数据，分别构建舆情知识图谱和金融知识图谱；

S1.3)将舆情知识图谱的实体-舆情，连接到与之相关的金融知识图谱的实体，即获得了包含不同类型实体和多种关系的知识图谱。

进一步的，所述S1.2)的具体步骤为：

S1.21)金融知识图谱的构建：

提取公司、机构和人物三种实体，以及n种金融关系，记为关系集R，利用开源图数据库neo4j构建包含3实体，n种金融关系的金融知识图谱；

S1.22)舆情知识图谱的构建：

S1.221)以公司实体作为搜索词，从若干个国家级媒体、知名媒体或网站，实时获取非结构化的舆情数据，记为D₂，利用自然语言处理技术，抽取其中的关键实体信息，从而转化为结构化数据，

S1.222)采取规则引擎剔除标题中不包含完整搜索词的舆情，剔除正文内包含完整搜索词数量少于2个的舆情，

S1.223)利用simHash算法进行查重，根据舆情文本串计算海明距离，当海明距离较小时，建立重复舆情的关系；

S1.224)根据收集的文本情感分类的数据集，将所述数据集输入预训练模型得到文本情感分类模型，对收集的舆情数据进行情感分类，获得舆情情感正负面标签；

S1.225)根据获得的舆情情感正负面标签对舆情数据集整理，构建了包含舆情、媒体两种实体和相关主体、重复舆情和发布媒体三种关系的舆情知识图谱；

进一步的，所述S2)的具体步骤为：

S2.1)根据S1.224)得到舆情的正负面标签，对于负面舆情N，通过公式(2)，求出舆情N的风险分数D(N)，公式如下：

D(N)＝L(media)*prob(N) (2)

式中，L(media)为媒体等级，取值范围为[0,1]，prob(N)为舆情情感的确定性程度，取值范围为[0,1]；

S2.2)初始化矩阵：假设舆情传播过程在m个实体间进行，定义邻接矩阵：

M_r∈R^mxm，r∈{n₁，n₂，n₃，…，n_i}，i的取值范围是正整数；

根据S1.21)建立的金融知识图谱中的实体间的六种关系代入所述邻接矩阵，获得n种金融关系的邻接矩阵，公式如下所示：

M_i∈R^mxm，i的取值范围是正整数， (3)。

进一步的，所述S3)的具体步骤为：

S3.1)根据节点相似性的局部随机游走指标，定义初始概率矩阵P＝M，P_ij＝M_ij表示风险从实体e_i向e_j传播的概率，

假设t时刻风险从源头实体e_i产生，π_ij(t-1)表示t时刻风险从e_i转移到e_j的概率，那么演化方程为：

π_i(t)＝P^T*π_i(t-1) (4)

其中，π_i(0)是m*1维向量，第i个位置的数值为1，其余均为0；P^T表示矩阵P的转置矩阵；

当π_ij的数值不再发生变化时，随机游走过程结束，此时的矩阵Π表示在一种确定的关系下，风险在实体间的传播概率矩阵Π，取值范围在[0,1]之间；

S3.2)将S2.2)中得到的n种金融关系的邻接矩阵依次设定为S3.1)中的初始概率矩阵，通过S3.1)步骤，得到n种金融关系的风险传播概率矩阵，风险传播概率矩阵如下所示：

Π_i∈R^m×m，i＝1，2，..，n。

进一步的，所述S4)的具体步骤为：

S4.1)对S3.2)得到的n种金融关系的风险传播概率矩阵进行加权求和，

S4.2)将S4.1)得到结果代入公式(5)，求出矩阵I，公式如下所示：

式中，W_i为第i种关系的权重，k为金融知识图谱中的实体间的不同金融关系数量。

本发明的另一目的是提供实现上述基于知识图谱挖掘风险传播路径方法的系统，所述系统包括：

数据采集模块，用于采集所需数据，包括舆情数据、金融数据；

数据处理模块，对所述数据采集模块采集的数据进行去重、实体识别、情感分析操作，生成结构化和半结构化数据；

知识图谱构建模块，用于从结构化、半结构化数据中提取实体和不同金融关系，构建所需的知识图谱；

风险传播计算模块，用于从知识图谱中提取初始化概率矩阵，计算风险在实体间的传播矩阵，并将风险传播矩阵转化成邻接表来获得风险传播路径。

一种实现上述的基于知识图谱挖掘风险传播路径的方法的信息处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的一种基于知识图谱挖掘风险传播路径的方法。

本发明的有益技术效果是：由于采用上述技术方案，本发明利用知识图谱的核心概念是实体和关系，以三元组的形式存储实体与实体间的关系，能够将不同层次的实体和不同类型的关系整合在一个系统中。如公司之间的投资参股、交易、合作等等，以及不同实体如公司和人之间的关系，从全局角度更全面的分析解决问题。

附图说明

图1为本发明方法建立的知识图谱的示意图。

图2为本发明方法的风险转移概率矩阵示意图。

图3为本发明方法中的风险转移概率矩阵的概率大小降序连接的邻接表的示意图。

图4为本发明一种基于知识图谱挖掘风险传播路径方法的逻辑框图。

图5为本发明一种基于知识图谱挖掘风险传播路径系统的逻辑框图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步说明。

如图4所示，本发明一种基于知识图谱挖掘风险传播路径方法，所述方法具体包括以下步骤：

S1)构建知识图谱；

S2)根据构建知识图谱，提取每一种金融关系下的邻接矩阵；

S3)利用随机游走算法计算风险转移概率，得到风险转移概率矩阵Π,将S2)提取每一种金融关系下的邻接矩阵代入风险转移概率矩阵Π的计算公式，得到每一种金融关系的风险转移概率矩阵Π，

所述知识图谱包括舆情知识图谱与金融知识图谱。

所述S1)的具体步骤为：

l＝<s,r,e> (1)，

式中：l表示一个三元组，s和e表示实体，r是s和e间的关系；

所述S1.2)的具体步骤为：

S1.21)金融知识图谱的构建：

S1.22)舆情知识图谱的构建：

所述S2)的具体步骤为：

D(N)＝L(media)*prob(N) (2)

M_i∈R^mxm，i的取值范围是正整数， (3)。

所述S3)的具体步骤为：

π_i(t)＝P^T*π_i(t-1) (4)

Π_i∈R^m×m，i＝1，2，..，n。

进一步的，所述S4)的具体步骤为：

如图5所示，一种实现上述基于知识图谱挖掘风险传播路径方法的系统，所述系统包括：

一种实现桑述的基于知识图谱挖掘风险传播路径的方法的信息处理终端。

实施例：

一种基于知识图谱挖掘风险传播路径方法，具体包括以下步骤：

步骤一：构建特定领域的知识图谱：金融知识图谱和舆情知识图谱

101根据知识图谱的构建需求确定数据，通常按照三元组的形式处理数据，如公式(1)所示,其中s和e表示实体，r是s和e间的关系。

l＝<s,r,e> (1)

金融知识图谱:对于自有的结构化数据D₁，提取公司、机构和人物三种实体，以及股东、分公司、子公司、上下游供应商、投资等等六种关系，记为关系集R。实体和关系的数据字段描述如表1和表2所示，在实体和关系数据的基础上，选用开源图数据库neo4j，构建了包含3种实体，6种关系的金融知识图谱。

表1金融知识图谱中的实体的定义

表2金融知识图谱中的关系的定义

102舆情知识图谱：现有数据已经包括一部分舆情数据，但是这些数据的时效性较低。因此我们利用信息搜集技术，以公司实体作为搜索词，从若干个国家级媒体、知名媒体等等网站，实时获取非结构化的舆情数据，记为D₂。对于这部分数据。利用自然语言处理技术，抽取其中的关键实体信息，从而转化为结构化数据。

1020搜索词和非结构化的舆情数据的相关性检验，由于大多数搜索引擎的算法缺陷，导致收集的数据存在一小部分与搜索词毫无关系。本发明采取规则引擎过滤掉不相关的内容。如剔除标题中不包含完整搜索词的舆情；剔除正文内包含完整搜索词数量少于2个的舆情等等规则。这是一个不断迭代的过程。

1021舆情数据的查重，相同舆情数据往往在不同时间以不同标题，发布在各个网站中。在建立知识图谱之前，本发明利用simHash算法进行去重。对中文文本来说，首先需要分词获得特征向量，然后以分词后的词语出现次数作为权重，在对特征向量hash后加权累加求和后，得到一个序列串，将序列串中的元素大于0设置为1，小于0设置为0。最后根据两个文本的序列串计算海明距离，当海明距离较小时，我们认为文本重复。在此基础上可以建立重复舆情的关系。

1022舆情数据的情感分析，根据自有的舆情数据和收集的文本情感分类的数据集，我们利用预训练模型bert训练了一个文本情感分类模型。对收集的舆情数据进行情感分类，获得舆情情感正负面标签。

103根据整理好的舆情数据集，本发明构建了舆情、媒体两种实体和相关主体、重复舆情和发布媒体三种关系。舆情知识图谱的实体和关系的数据结构如表3和表4所示，

表3舆情知识图谱中的实体的定义

表4舆情知识图谱中的关系的定义

104将舆情知识图谱的实体-舆情，连接到与之相关的金融知识图谱的实体，如公司、机构、人物，我们获得了包含不同类型实体和多种关系的知识图谱。在此基础上，本发明提出一种风险传播分析的方法。图1是知识图谱的示意图。

步骤二：计算风险在实体间的转移概率矩阵

201问题描述：在本发明中的知识图谱中，可以获得负面的舆情，这对于公司、机构、人物实体来说都是风险信息。根据舆情情感判别概率的大小和媒体等级确认的不同，本发明实现了对负面舆情的风险程度的评估。对舆情N,N的风险分数P(N)的计算如公式(2)所示，

D(N)＝L(media)*prob(N) (2)

式中，L(media)为媒体等级，prob(N)为舆情情感的确定性程度，取值范围为[0,1]；根据国家公布的中央级、国家级、省级、市级、其它媒体，根据媒体等级的重要性，L(media)分别取值1，0.8，0.6，0.4，0.2。

对同一实体对<e₁,e₂>，通过知识图谱可以构造关系序列，即一对公司间存在不止一种关系r∈{r₁,r₂,...,r_i},i≤6，那么，对于某一个舆情N(key,t,s)，与实体key相关，发布时间为t，情感色彩为s。以key作为源点，沿着关系向外传播。当实体间的联系较弱或较少，舆情的传播趋于停滞。而风险的传播路径挖掘就是分析发生在T时刻有关实体e₁的负面舆情N(key＝e₁,t＝T,s＝negative)的传播过程。因此，接下来将说明风险实体间的转移矩阵的计算。

202初始化矩阵：假设舆情传播过程在m个实体间进行。定义矩阵M∈R^m×m，对于任一关系，r∈{股东，子公司，分公司，上游，下游，投资}。如果r＝股东，假设e₁,e₂间存在e₁指向e₂的股东关系，那么M₁₂中的数值为持股比例的数值。如果r是其它5种关系，M₁₂取值为0或者1。此时M是一个非对称矩阵，也可以理解为一个加权有向网络的邻接矩阵，用边上的属性数值为邻接矩阵初始化。对于知识图谱中的所有实体间的六种关系，可以获得六个矩阵M_i∈R^m ^×m,＝1,2,...,6。最后将每个矩阵中的数值归一化到[0,1]之间。

203随机游走过程是指由随机游走者依次访问不同节点的马尔可夫链，随机游走可以描述网络中节点间相互作用。风险从源头实体开始，倾向于往相关性高的实体转移，经过若干步的随机游走后，风险传播过程趋于稳定。

根据节点相似性的局部随机游走指标(Local random work,LRW)，可定义初始概率矩阵P，P_ij＝M_ij。表示风险从实体e_i向e_j传播的概率。假设t时刻风险从源头实体e_i产生，π_ij(t)表示t+1时刻风险从e_i转移到e_j的概率，那么，根据

π_i(t)＝P^T*π_i(t-1) (4)

其中，π_i(0)是m维向量，第1个位置的数值为1，其余均为0。

当π_ij的数值不再发生变化时，随机游走过程结束，此时的Π表示在确定的关系下，风险的传播概率矩阵，取值范围在[0,1]之间。而生产应用中，由于图谱中的实体数量非常多，算法复杂度很高，所有当π_ij的数值在小范围波动时，可以提前终止算法。

204对于本发明构建的知识图谱，关系并不唯一，根据203步骤计算得到的概率转移矩阵也不唯一，那么对于关系集R中的6种关系，可以得到6个不同的概率矩阵Π_i∈R^m×m,i＝1,2,...,k。本发明采用加权求和平均的思想来计算最终的风险转移概率矩阵。如公式(5)所示，其中W_i表示第i种关系的权重，在本发明中W_i取值为1/6。

205指定时间段T，根据上述步骤均可以计算出一个风险概率转移矩阵I，对矩阵中每一个节点n_i构建一个单链表，表示依附于顶点n_i的边，最后获得一个邻接表。由某一实体e_i产生的风险源，可以从邻接表中查询获得。在图1中，存在公司A、公司B、公司C、公司D、机构A、机构B、人物1、人物2、舆情a、舆情b、舆情c、舆情d、舆情e、舆情f、媒体a和媒体b,共计16个实体。这些实体之间存在股东、上下游供应商、投资、高管、相关实体、发布媒体、重复舆情8种关系，步骤203计算了在股东、上下游供应商、投资、高管的关系情况下的风险转移概率，步骤204应用公式(5)获得最终的基于多关系的风险转移概率矩阵I。此时，这个概率矩阵是8×8的矩阵，行列下标对应的实体分别是公司A、公司B、公司C、公司D、机构A、机构B、人物1和人物2。假设I如下图所示，以公司A为例，在图2基础上构建按概率大小降序连接的邻接表，如图3所示，

根据图1可知，舆情e的相关实体是公司A，假设舆情e的风险分数是0.8，在转移概率阈值为的条件下，根据图3，公司A第一个连接实体是公司C，舆情e对公司C的风险分数为0.48，依此类推，随着不断的转移，负面舆情对实体的风险影响分数是不断下降的。接下来到公司C的邻接实体查找。公司C的邻接实体又指向公司A，跳过已经找过的实体，继续找到公司D，此时公司C到公司D的转移概率/>继续搜索，最终会获得风险转移路径公司A->公司C->公司D->公司B，此时公司B的连接实体公司CD已经走过，下一个连接实体人物1的转移概率小于/>停止搜索。

以上对本申请实施例所提供的一种基于知识图谱挖掘风险传播路径方法及系统，进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

如在说明书及权利要求书当中使用了某些词汇来指称特定组件，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语，故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求书的保护范围内。

Claims

1.基于知识图谱挖掘风险传播路径的方法，其特征在于，所述方法具体包括以下步骤：S1)构建知识图谱；

具体步骤为：

S1.1)根据构建知识图谱的构建需求确定数据，按照三元组的形式处理数据，公式如下所示：l＝<s,r,e>(1)，

式中：l表示一个三元组，s和e表示实体，r是s和e间的关系；

具体步骤为：

S1.21)金融知识图谱的构建：提取公司、机构和人物三种实体，以及n种金融关系，记为关系集R，利用开源图数据库neo4j构建包含3实体，n种金融关系的金融知识图谱；

S1.22)舆情知识图谱的构建：

S1.3)将舆情知识图谱的实体-舆情，连接到与之相关的金融知识图谱的实体，即获得了包含不同类型实体和多种关系的知识图谱；

S2)根据构建知识图谱，提取每一种金融关系下的邻接矩阵；

具体步骤为：

D(N)＝L(media)*prob(N)(2)，

S2.2)初始化矩阵：假设舆情传播过程在m个实体间进行，定义邻接矩阵：M_r∈R^mxm，r∈{n₁，n₂，n₃，...，n_i}，i的取值范围是正整数；

M_i∈R^mxm，i的取值范围是正整数，(3)；

具体步骤为：

S3.1)根据节点相似性的局部随机游走指标，定义初始概率矩阵P＝M，P_ij＝M_ij表示风险从实体e_i向e_j传播的概率，假设t时刻风险从源头实体e_i产生，π_ij(t-1)表示t时刻风险从e_i转移到e_j的概率，那么演化方程为：π_i(t)＝PT*π_i(t-1)(4)，

其中，π_i(0)是m*1维向量，第i个位置的数值为1，其余均为0；PT表示矩阵P的转置矩阵；当π_ij的数值不再发生变化时，随机游走过程结束，此时的矩阵Π表示在一种确定的关系下，风险在实体间的传播概率矩阵Π，取值范围在[0,1]之间；

S3.2)将S2.2)中得到的n种金融关系的邻接矩阵依次设定为S3.1)中的初始概率矩阵，通过S3.1)步骤，得到n种金融关系的风险传播概率矩阵，风险传播概率矩阵如下所示：Π_i∈R^m×m，i＝1，2，…，n；

2.根据权利要求1所述的方法，其特征在于，所述知识图谱包括舆情知识图谱与金融知识图谱。

3.根据权利要求1所述的方法，其特征在于，所述S4)的具体步骤为：

S4.1)对S3.2)得到的n种金融关系的风险传播概率矩阵进行加权求和，n＝6，

4.一种实现如权利要求1-3任一项所述的基于知识图谱挖掘风险传播路径的方法的信息处理终端。

5.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的一种基于知识图谱挖掘风险传播路径的方法。