CN112214614B - 基于知识图谱挖掘风险传播路径的方法及其系统 - Google Patents
基于知识图谱挖掘风险传播路径的方法及其系统 Download PDFInfo
- Publication number
- CN112214614B CN112214614B CN202011111237.9A CN202011111237A CN112214614B CN 112214614 B CN112214614 B CN 112214614B CN 202011111237 A CN202011111237 A CN 202011111237A CN 112214614 B CN112214614 B CN 112214614B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- risk
- financial
- matrix
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005065 mining Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 238000012546 transfer Methods 0.000 claims abstract description 16
- 238000005295 random walk Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000008451 emotion Effects 0.000 claims description 27
- 230000007704 transition Effects 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000012502 risk assessment Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 6
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于金融数据风险分析技术领域,涉及一种基于知识图谱挖掘风险传播路径的方法及其系统,方法的步骤为:构建知识图谱;根据构建知识图谱,提取每一种金融关系下的邻接矩阵;利用随机游走算法计算风险转移概率,得到风险转移概率矩阵Π,将n种金融关系代入风险转移概率矩阵的计算公式,得到n种金融关系的风险转移概率矩阵Π,对得到风险转移概率矩阵Π进行求和平均,得到矩阵I;建立邻接表,直接在邻接表中查询风险传播路径。本发明利用知识图谱的核心概念是实体和关系,以三元组的形式存储实体与实体间的关系,能够将不同层次的实体和不同类型的关系整合在一个系统中。通过同实体如公司和人之间的关系,从全局角度更全面的分析解决问题。
Description
技术领域
本发明属于金融数据风险分析技术领域,尤其涉及一种基于知识图谱挖掘风险传播路径的方法及其系统。
背景技术
目前,在全球性的金融危机爆发之后,金融风险成为监管机构和研究学者的研究热点。原因在于金融风险的扩散范围广、传播路径多、破坏力度大,对金融体系的安全构成了巨大威胁。因此,如何挖掘金融风险在经济实体间的传播路径是一个非常重要的问题,可以对早期金融风险进行预警,并采取措施防止大规模的金融危机爆发。
金融风险的类型很多,但是局限于某些数据的可得性,本发明讨论的风险范围包括,新闻领域和网络媒体的舆情的风险,以下统称为风险。目前分析风险的传播路径的方法主要通过网络分析法,即网络传播动力学。该方法构建了银行机构间的互联网络,依据在资产负债表或支付结算体系中产生的关系,通过模拟的方式分析单个机构产生的信用风险或者流动性风险在机构间的传导机制。但是该方法只关注单一关系和单一风险源,网络结构简单,无法找出风险在不同关系间的传播路径,如某个人的重大负面新闻可能会对他持股、投资的公司产生较大影响,从而波及到这家公司的上下游。现实社会中,风险种类多样,传播实体间的关系非常复杂。
发明内容
本发明公开了一种基于知识图谱挖掘风险传播路径的方法及其系统,以解决现有技术的上述技术问题以及其他潜在问题中的任意问题。
本发明的技术方案是:一种基于知识图谱挖掘风险传播路径的方法,所述方法具体包括以下步骤:
S1)构建知识图谱;
S2)根据构建知识图谱,提取每一种金融关系下的邻接矩阵;
S3)利用随机游走算法计算风险转移概率,得到风险转移概率矩阵Π,将S2)提取每一种金融关系下的邻接矩阵代入风险转移概率矩阵的计算公式,得到每一种金融关系的风险转移概率矩阵Π,
S4)对得到每一种金融关系的风险转移概率矩阵Π进行求和平均,得到矩阵I;
S5)根据矩阵I建立邻接表,直接在邻接表中查询风险传播路径。
进一步的,所述知识图谱包括舆情知识图谱与金融知识图谱。
进一步的,所述S1)的具体步骤为:
S1.1)根据构建知识图谱的构建需求确定数据,按照三元组的形式处理数据,公式如下所示:
l=<s,r,e> (1),
式中:l表示一个三元组,s和e表示实体,r是s和e间的关系;
S1.2)根据S1.1)得到的处理数据,分别构建舆情知识图谱和金融知识图谱;
S1.3)将舆情知识图谱的实体-舆情,连接到与之相关的金融知识图谱的实体,即获得了包含不同类型实体和多种关系的知识图谱。
进一步的,所述S1.2)的具体步骤为:
S1.21)金融知识图谱的构建:
提取公司、机构和人物三种实体,以及n种金融关系,记为关系集R,利用开源图数据库neo4j构建包含3实体,n种金融关系的金融知识图谱;
S1.22)舆情知识图谱的构建:
S1.221)以公司实体作为搜索词,从若干个国家级媒体、知名媒体或网站,实时获取非结构化的舆情数据,记为D2,利用自然语言处理技术,抽取其中的关键实体信息,从而转化为结构化数据,
S1.222)采取规则引擎剔除标题中不包含完整搜索词的舆情,剔除正文内包含完整搜索词数量少于2个的舆情,
S1.223)利用simHash算法进行查重,根据舆情文本串计算海明距离,当海明距离较小时,建立重复舆情的关系;
S1.224)根据收集的文本情感分类的数据集,将所述数据集输入预训练模型得到文本情感分类模型,对收集的舆情数据进行情感分类,获得舆情情感正负面标签;
S1.225)根据获得的舆情情感正负面标签对舆情数据集整理,构建了包含舆情、媒体两种实体和相关主体、重复舆情和发布媒体三种关系的舆情知识图谱;
进一步的,所述S2)的具体步骤为:
S2.1)根据S1.224)得到舆情的正负面标签,对于负面舆情N,通过公式(2),求出舆情N的风险分数D(N),公式如下:
D(N)=L(media)*prob(N) (2)
式中,L(media)为媒体等级,取值范围为[0,1],prob(N)为舆情情感的确定性程度,取值范围为[0,1];
S2.2)初始化矩阵:假设舆情传播过程在m个实体间进行,定义邻接矩阵:
Mr∈Rmxm,r∈{n1,n2,n3,…,ni},i的取值范围是正整数;
根据S1.21)建立的金融知识图谱中的实体间的六种关系代入所述邻接矩阵,获得n种金融关系的邻接矩阵,公式如下所示:
Mi∈Rmxm,i的取值范围是正整数, (3)。
进一步的,所述S3)的具体步骤为:
S3.1)根据节点相似性的局部随机游走指标,定义初始概率矩阵P=M,Pij=Mij表示风险从实体ei向ej传播的概率,
假设t时刻风险从源头实体ei产生,πij(t-1)表示t时刻风险从ei转移到ej的概率,那么演化方程为:
πi(t)=PT*πi(t-1) (4)
其中,πi(0)是m*1维向量,第i个位置的数值为1,其余均为0;PT表示矩阵P的转置矩阵;
当πij的数值不再发生变化时,随机游走过程结束,此时的矩阵Π表示在一种确定的关系下,风险在实体间的传播概率矩阵Π,取值范围在[0,1]之间;
S3.2)将S2.2)中得到的n种金融关系的邻接矩阵依次设定为S3.1)中的初始概率矩阵,通过S3.1)步骤,得到n种金融关系的风险传播概率矩阵,风险传播概率矩阵如下所示:
Πi∈Rm×m,i=1,2,..,n。
进一步的,所述S4)的具体步骤为:
S4.1)对S3.2)得到的n种金融关系的风险传播概率矩阵进行加权求和,
S4.2)将S4.1)得到结果代入公式(5),求出矩阵I,公式如下所示:
式中,Wi为第i种关系的权重,k为金融知识图谱中的实体间的不同金融关系数量。
本发明的另一目的是提供实现上述基于知识图谱挖掘风险传播路径方法的系统,所述系统包括:
数据采集模块,用于采集所需数据,包括舆情数据、金融数据;
数据处理模块,对所述数据采集模块采集的数据进行去重、实体识别、情感分析操作,生成结构化和半结构化数据;
知识图谱构建模块,用于从结构化、半结构化数据中提取实体和不同金融关系,构建所需的知识图谱;
风险传播计算模块,用于从知识图谱中提取初始化概率矩阵,计算风险在实体间的传播矩阵,并将风险传播矩阵转化成邻接表来获得风险传播路径。
一种实现上述的基于知识图谱挖掘风险传播路径的方法的信息处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的一种基于知识图谱挖掘风险传播路径的方法。
本发明的有益技术效果是:由于采用上述技术方案,本发明利用知识图谱的核心概念是实体和关系,以三元组的形式存储实体与实体间的关系,能够将不同层次的实体和不同类型的关系整合在一个系统中。如公司之间的投资参股、交易、合作等等,以及不同实体如公司和人之间的关系,从全局角度更全面的分析解决问题。
附图说明
图1为本发明方法建立的知识图谱的示意图。
图2为本发明方法的风险转移概率矩阵示意图。
图3为本发明方法中的风险转移概率矩阵的概率大小降序连接的邻接表的示意图。
图4为本发明一种基于知识图谱挖掘风险传播路径方法的逻辑框图。
图5为本发明一种基于知识图谱挖掘风险传播路径系统的逻辑框图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步说明。
如图4所示,本发明一种基于知识图谱挖掘风险传播路径方法,所述方法具体包括以下步骤:
S1)构建知识图谱;
S2)根据构建知识图谱,提取每一种金融关系下的邻接矩阵;
S3)利用随机游走算法计算风险转移概率,得到风险转移概率矩阵Π,将S2)提取每一种金融关系下的邻接矩阵代入风险转移概率矩阵Π的计算公式,得到每一种金融关系的风险转移概率矩阵Π,
S4)对得到每一种金融关系的风险转移概率矩阵Π进行求和平均,得到矩阵I;
S5)根据矩阵I建立邻接表,直接在邻接表中查询风险传播路径。
所述知识图谱包括舆情知识图谱与金融知识图谱。
所述S1)的具体步骤为:
S1.1)根据构建知识图谱的构建需求确定数据,按照三元组的形式处理数据,公式如下所示:
l=<s,r,e> (1),
式中:l表示一个三元组,s和e表示实体,r是s和e间的关系;
S1.2)根据S1.1)得到的处理数据,分别构建舆情知识图谱和金融知识图谱;
S1.3)将舆情知识图谱的实体-舆情,连接到与之相关的金融知识图谱的实体,即获得了包含不同类型实体和多种关系的知识图谱。
所述S1.2)的具体步骤为:
S1.21)金融知识图谱的构建:
提取公司、机构和人物三种实体,以及n种金融关系,记为关系集R,利用开源图数据库neo4j构建包含3实体,n种金融关系的金融知识图谱;
S1.22)舆情知识图谱的构建:
S1.221)以公司实体作为搜索词,从若干个国家级媒体、知名媒体或网站,实时获取非结构化的舆情数据,记为D2,利用自然语言处理技术,抽取其中的关键实体信息,从而转化为结构化数据,
S1.222)采取规则引擎剔除标题中不包含完整搜索词的舆情,剔除正文内包含完整搜索词数量少于2个的舆情,
S1.223)利用simHash算法进行查重,根据舆情文本串计算海明距离,当海明距离较小时,建立重复舆情的关系;
S1.224)根据收集的文本情感分类的数据集,将所述数据集输入预训练模型得到文本情感分类模型,对收集的舆情数据进行情感分类,获得舆情情感正负面标签;
S1.225)根据获得的舆情情感正负面标签对舆情数据集整理,构建了包含舆情、媒体两种实体和相关主体、重复舆情和发布媒体三种关系的舆情知识图谱;
所述S2)的具体步骤为:
S2.1)根据S1.224)得到舆情的正负面标签,对于负面舆情N,通过公式(2),求出舆情N的风险分数D(N),公式如下:
D(N)=L(media)*prob(N) (2)
式中,L(media)为媒体等级,取值范围为[0,1],prob(N)为舆情情感的确定性程度,取值范围为[0,1];
S2.2)初始化矩阵:假设舆情传播过程在m个实体间进行,定义邻接矩阵:
Mr∈Rmxm,r∈{n1,n2,n3,…,ni},i的取值范围是正整数;
根据S1.21)建立的金融知识图谱中的实体间的六种关系代入所述邻接矩阵,获得n种金融关系的邻接矩阵,公式如下所示:
Mi∈Rmxm,i的取值范围是正整数, (3)。
所述S3)的具体步骤为:
S3.1)根据节点相似性的局部随机游走指标,定义初始概率矩阵P=M,Pij=Mij表示风险从实体ei向ej传播的概率,
假设t时刻风险从源头实体ei产生,πij(t-1)表示t时刻风险从ei转移到ej的概率,那么演化方程为:
πi(t)=PT*πi(t-1) (4)
其中,πi(0)是m*1维向量,第i个位置的数值为1,其余均为0;PT表示矩阵P的转置矩阵;
当πij的数值不再发生变化时,随机游走过程结束,此时的矩阵Π表示在一种确定的关系下,风险在实体间的传播概率矩阵Π,取值范围在[0,1]之间;
S3.2)将S2.2)中得到的n种金融关系的邻接矩阵依次设定为S3.1)中的初始概率矩阵,通过S3.1)步骤,得到n种金融关系的风险传播概率矩阵,风险传播概率矩阵如下所示:
Πi∈Rm×m,i=1,2,..,n。
进一步的,所述S4)的具体步骤为:
S4.1)对S3.2)得到的n种金融关系的风险传播概率矩阵进行加权求和,
S4.2)将S4.1)得到结果代入公式(5),求出矩阵I,公式如下所示:
式中,Wi为第i种关系的权重,k为金融知识图谱中的实体间的不同金融关系数量。
如图5所示,一种实现上述基于知识图谱挖掘风险传播路径方法的系统,所述系统包括:
数据采集模块,用于采集所需数据,包括舆情数据、金融数据;
数据处理模块,对所述数据采集模块采集的数据进行去重、实体识别、情感分析操作,生成结构化和半结构化数据;
知识图谱构建模块,用于从结构化、半结构化数据中提取实体和不同金融关系,构建所需的知识图谱;
风险传播计算模块,用于从知识图谱中提取初始化概率矩阵,计算风险在实体间的传播矩阵,并将风险传播矩阵转化成邻接表来获得风险传播路径。
一种实现桑述的基于知识图谱挖掘风险传播路径的方法的信息处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的一种基于知识图谱挖掘风险传播路径的方法。
实施例:
一种基于知识图谱挖掘风险传播路径方法,具体包括以下步骤:
步骤一:构建特定领域的知识图谱:金融知识图谱和舆情知识图谱
101根据知识图谱的构建需求确定数据,通常按照三元组的形式处理数据,如公式(1)所示,其中s和e表示实体,r是s和e间的关系。
l=<s,r,e> (1)
金融知识图谱:对于自有的结构化数据D1,提取公司、机构和人物三种实体,以及股东、分公司、子公司、上下游供应商、投资等等六种关系,记为关系集R。实体和关系的数据字段描述如表1和表2所示,在实体和关系数据的基础上,选用开源图数据库neo4j,构建了包含3种实体,6种关系的金融知识图谱。
表1金融知识图谱中的实体的定义
表2金融知识图谱中的关系的定义
102舆情知识图谱:现有数据已经包括一部分舆情数据,但是这些数据的时效性较低。因此我们利用信息搜集技术,以公司实体作为搜索词,从若干个国家级媒体、知名媒体等等网站,实时获取非结构化的舆情数据,记为D2。对于这部分数据。利用自然语言处理技术,抽取其中的关键实体信息,从而转化为结构化数据。
1020搜索词和非结构化的舆情数据的相关性检验,由于大多数搜索引擎的算法缺陷,导致收集的数据存在一小部分与搜索词毫无关系。本发明采取规则引擎过滤掉不相关的内容。如剔除标题中不包含完整搜索词的舆情;剔除正文内包含完整搜索词数量少于2个的舆情等等规则。这是一个不断迭代的过程。
1021舆情数据的查重,相同舆情数据往往在不同时间以不同标题,发布在各个网站中。在建立知识图谱之前,本发明利用simHash算法进行去重。对中文文本来说,首先需要分词获得特征向量,然后以分词后的词语出现次数作为权重,在对特征向量hash后加权累加求和后,得到一个序列串,将序列串中的元素大于0设置为1,小于0设置为0。最后根据两个文本的序列串计算海明距离,当海明距离较小时,我们认为文本重复。在此基础上可以建立重复舆情的关系。
1022舆情数据的情感分析,根据自有的舆情数据和收集的文本情感分类的数据集,我们利用预训练模型bert训练了一个文本情感分类模型。对收集的舆情数据进行情感分类,获得舆情情感正负面标签。
103根据整理好的舆情数据集,本发明构建了舆情、媒体两种实体和相关主体、重复舆情和发布媒体三种关系。舆情知识图谱的实体和关系的数据结构如表3和表4所示,
表3舆情知识图谱中的实体的定义
表4舆情知识图谱中的关系的定义
104将舆情知识图谱的实体-舆情,连接到与之相关的金融知识图谱的实体,如公司、机构、人物,我们获得了包含不同类型实体和多种关系的知识图谱。在此基础上,本发明提出一种风险传播分析的方法。图1是知识图谱的示意图。
步骤二:计算风险在实体间的转移概率矩阵
201问题描述:在本发明中的知识图谱中,可以获得负面的舆情,这对于公司、机构、人物实体来说都是风险信息。根据舆情情感判别概率的大小和媒体等级确认的不同,本发明实现了对负面舆情的风险程度的评估。对舆情N,N的风险分数P(N)的计算如公式(2)所示,
D(N)=L(media)*prob(N) (2)
式中,L(media)为媒体等级,prob(N)为舆情情感的确定性程度,取值范围为[0,1];根据国家公布的中央级、国家级、省级、市级、其它媒体,根据媒体等级的重要性,L(media)分别取值1,0.8,0.6,0.4,0.2。
对同一实体对<e1,e2>,通过知识图谱可以构造关系序列,即一对公司间存在不止一种关系r∈{r1,r2,...,ri},i≤6,那么,对于某一个舆情N(key,t,s),与实体key相关,发布时间为t,情感色彩为s。以key作为源点,沿着关系向外传播。当实体间的联系较弱或较少,舆情的传播趋于停滞。而风险的传播路径挖掘就是分析发生在T时刻有关实体e1的负面舆情N(key=e1,t=T,s=negative)的传播过程。因此,接下来将说明风险实体间的转移矩阵的计算。
202初始化矩阵:假设舆情传播过程在m个实体间进行。定义矩阵M∈Rm×m,对于任一关系,r∈{股东,子公司,分公司,上游,下游,投资}。如果r=股东,假设e1,e2间存在e1指向e2的股东关系,那么M12中的数值为持股比例的数值。如果r是其它5种关系,M12取值为0或者1。此时M是一个非对称矩阵,也可以理解为一个加权有向网络的邻接矩阵,用边上的属性数值为邻接矩阵初始化。对于知识图谱中的所有实体间的六种关系,可以获得六个矩阵Mi∈Rm ×m,=1,2,...,6。最后将每个矩阵中的数值归一化到[0,1]之间。
203随机游走过程是指由随机游走者依次访问不同节点的马尔可夫链,随机游走可以描述网络中节点间相互作用。风险从源头实体开始,倾向于往相关性高的实体转移,经过若干步的随机游走后,风险传播过程趋于稳定。
根据节点相似性的局部随机游走指标(Local random work,LRW),可定义初始概率矩阵P,Pij=Mij。表示风险从实体ei向ej传播的概率。假设t时刻风险从源头实体ei产生,πij(t)表示t+1时刻风险从ei转移到ej的概率,那么,根据
πi(t)=PT*πi(t-1) (4)
其中,πi(0)是m维向量,第1个位置的数值为1,其余均为0。
当πij的数值不再发生变化时,随机游走过程结束,此时的Π表示在确定的关系下,风险的传播概率矩阵,取值范围在[0,1]之间。而生产应用中,由于图谱中的实体数量非常多,算法复杂度很高,所有当πij的数值在小范围波动时,可以提前终止算法。
204对于本发明构建的知识图谱,关系并不唯一,根据203步骤计算得到的概率转移矩阵也不唯一,那么对于关系集R中的6种关系,可以得到6个不同的概率矩阵Πi∈Rm×m,i=1,2,...,k。本发明采用加权求和平均的思想来计算最终的风险转移概率矩阵。如公式(5)所示,其中Wi表示第i种关系的权重,在本发明中Wi取值为1/6。
205指定时间段T,根据上述步骤均可以计算出一个风险概率转移矩阵I,对矩阵中每一个节点ni构建一个单链表,表示依附于顶点ni的边,最后获得一个邻接表。由某一实体ei产生的风险源,可以从邻接表中查询获得。在图1中,存在公司A、公司B、公司C、公司D、机构A、机构B、人物1、人物2、舆情a、舆情b、舆情c、舆情d、舆情e、舆情f、媒体a和媒体b,共计16个实体。这些实体之间存在股东、上下游供应商、投资、高管、相关实体、发布媒体、重复舆情8种关系,步骤203计算了在股东、上下游供应商、投资、高管的关系情况下的风险转移概率,步骤204应用公式(5)获得最终的基于多关系的风险转移概率矩阵I。此时,这个概率矩阵是8×8的矩阵,行列下标对应的实体分别是公司A、公司B、公司C、公司D、机构A、机构B、人物1和人物2。假设I如下图所示,以公司A为例,在图2基础上构建按概率大小降序连接的邻接表,如图3所示,
根据图1可知,舆情e的相关实体是公司A,假设舆情e的风险分数是0.8,在转移概率阈值为的条件下,根据图3,公司A第一个连接实体是公司C,舆情e对公司C的风险分数为0.48,依此类推,随着不断的转移,负面舆情对实体的风险影响分数是不断下降的。接下来到公司C的邻接实体查找。公司C的邻接实体又指向公司A,跳过已经找过的实体,继续找到公司D,此时公司C到公司D的转移概率/>继续搜索,最终会获得风险转移路径公司A->公司C->公司D->公司B,此时公司B的连接实体公司CD已经走过,下一个连接实体人物1的转移概率小于/>停止搜索。
以上对本申请实施例所提供的一种基于知识图谱挖掘风险传播路径方法及系统,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。
Claims (5)
1.基于知识图谱挖掘风险传播路径的方法,其特征在于,所述方法具体包括以下步骤:S1)构建知识图谱;
具体步骤为:
S1.1)根据构建知识图谱的构建需求确定数据,按照三元组的形式处理数据,公式如下所示:l=<s,r,e>(1),
式中:l表示一个三元组,s和e表示实体,r是s和e间的关系;
S1.2)根据S1.1)得到的处理数据,分别构建舆情知识图谱和金融知识图谱;
具体步骤为:
S1.21)金融知识图谱的构建:提取公司、机构和人物三种实体,以及n种金融关系,记为关系集R,利用开源图数据库neo4j构建包含3实体,n种金融关系的金融知识图谱;
S1.22)舆情知识图谱的构建:
S1.221)以公司实体作为搜索词,从若干个国家级媒体、知名媒体或网站,实时获取非结构化的舆情数据,记为D2,利用自然语言处理技术,抽取其中的关键实体信息,从而转化为结构化数据,
S1.222)采取规则引擎剔除标题中不包含完整搜索词的舆情,剔除正文内包含完整搜索词数量少于2个的舆情,
S1.223)利用simHash算法进行查重,根据舆情文本串计算海明距离,当海明距离较小时,建立重复舆情的关系;
S1.224)根据收集的文本情感分类的数据集,将所述数据集输入预训练模型得到文本情感分类模型,对收集的舆情数据进行情感分类,获得舆情情感正负面标签;
S1.225)根据获得的舆情情感正负面标签对舆情数据集整理,构建了包含舆情、媒体两种实体和相关主体、重复舆情和发布媒体三种关系的舆情知识图谱;
S1.3)将舆情知识图谱的实体-舆情,连接到与之相关的金融知识图谱的实体,即获得了包含不同类型实体和多种关系的知识图谱;
S2)根据构建知识图谱,提取每一种金融关系下的邻接矩阵;
具体步骤为:
S2.1)根据S1.224)得到舆情的正负面标签,对于负面舆情N,通过公式(2),求出舆情N的风险分数D(N),公式如下:
D(N)=L(media)*prob(N)(2),
式中,L(media)为媒体等级,取值范围为[0,1],prob(N)为舆情情感的确定性程度,取值范围为[0,1];
S2.2)初始化矩阵:假设舆情传播过程在m个实体间进行,定义邻接矩阵:Mr∈Rmxm,r∈{n1,n2,n3,...,ni},i的取值范围是正整数;
根据S1.21)建立的金融知识图谱中的实体间的六种关系代入所述邻接矩阵,获得n种金融关系的邻接矩阵,公式如下所示:
Mi∈Rmxm,i的取值范围是正整数,(3);
S3)利用随机游走算法计算风险转移概率,得到风险转移概率矩阵Π,将S2)提取每一种金融关系下的邻接矩阵代入风险转移概率矩阵Π的计算公式,得到每一种金融关系的风险转移概率矩阵Π,
具体步骤为:
S3.1)根据节点相似性的局部随机游走指标,定义初始概率矩阵P=M,Pij=Mij表示风险从实体ei向ej传播的概率,假设t时刻风险从源头实体ei产生,πij(t-1)表示t时刻风险从ei转移到ej的概率,那么演化方程为:πi(t)=PT*πi(t-1)(4),
其中,πi(0)是m*1维向量,第i个位置的数值为1,其余均为0;PT表示矩阵P的转置矩阵;当πij的数值不再发生变化时,随机游走过程结束,此时的矩阵Π表示在一种确定的关系下,风险在实体间的传播概率矩阵Π,取值范围在[0,1]之间;
S3.2)将S2.2)中得到的n种金融关系的邻接矩阵依次设定为S3.1)中的初始概率矩阵,通过S3.1)步骤,得到n种金融关系的风险传播概率矩阵,风险传播概率矩阵如下所示:Πi∈Rm×m,i=1,2,…,n;
S4)对得到每一种金融关系的风险转移概率矩阵Π进行求和平均,得到矩阵I;
S5)根据矩阵I建立邻接表,直接在邻接表中查询风险传播路径。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱包括舆情知识图谱与金融知识图谱。
3.根据权利要求1所述的方法,其特征在于,所述S4)的具体步骤为:
S4.1)对S3.2)得到的n种金融关系的风险传播概率矩阵进行加权求和,n=6,
S4.2)将S4.1)得到结果代入公式(5),求出矩阵I,公式如下所示:
式中,Wi为第i种关系的权重,k为金融知识图谱中的实体间的不同金融关系数量。
4.一种实现如权利要求1-3任一项所述的基于知识图谱挖掘风险传播路径的方法的信息处理终端。
5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的一种基于知识图谱挖掘风险传播路径的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011111237.9A CN112214614B (zh) | 2020-10-16 | 2020-10-16 | 基于知识图谱挖掘风险传播路径的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011111237.9A CN112214614B (zh) | 2020-10-16 | 2020-10-16 | 基于知识图谱挖掘风险传播路径的方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112214614A CN112214614A (zh) | 2021-01-12 |
CN112214614B true CN112214614B (zh) | 2024-02-09 |
Family
ID=74055522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011111237.9A Active CN112214614B (zh) | 2020-10-16 | 2020-10-16 | 基于知识图谱挖掘风险传播路径的方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214614B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699250A (zh) * | 2021-01-13 | 2021-04-23 | 北京创安恒宇科技有限公司 | 知识图谱的构建方法、装置、可读存储介质及电子设备 |
CN112529681B (zh) * | 2021-02-08 | 2021-05-07 | 南京审计大学 | 一种基于信用主体关联强度的信用风险传递方法 |
CN113988724B (zh) * | 2021-12-28 | 2022-03-22 | 深圳市迪博企业风险管理技术有限公司 | 一种上市公司金融活动知识图谱的风险分析方法 |
CN114884727B (zh) * | 2022-05-06 | 2023-02-24 | 天津大学 | 一种基于动态层次化知识图谱的物联网络风险定位方法 |
CN114936884A (zh) * | 2022-05-30 | 2022-08-23 | 布瑞克(苏州)农业互联网股份有限公司 | 一种确定农产品价格影响参数的方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN109033303A (zh) * | 2018-07-17 | 2018-12-18 | 东南大学 | 一种基于约简锚点的大规模知识图谱融合方法 |
CN109670049A (zh) * | 2018-11-19 | 2019-04-23 | 平安科技(深圳)有限公司 | 图谱路径查询方法、装置、计算机设备和存储介质 |
CN109858740A (zh) * | 2018-12-21 | 2019-06-07 | 中化资本有限公司 | 企业风险的评估方法、装置、计算机设备及存储介质 |
CN110113314A (zh) * | 2019-04-12 | 2019-08-09 | 中国人民解放军战略支援部队信息工程大学 | 用于动态威胁分析的网络安全领域知识图谱构建方法及装置 |
CN110611651A (zh) * | 2019-07-19 | 2019-12-24 | 中国工商银行股份有限公司 | 网络监控方法、网络监控装置和电子设备 |
CN111241300A (zh) * | 2020-01-09 | 2020-06-05 | 中信银行股份有限公司 | 舆情预警以及风险传播分析方法、系统、设备及存储介质 |
CN111402064A (zh) * | 2020-06-03 | 2020-07-10 | 天云融创数据科技(北京)有限公司 | 一种风险值的评估方法及装置 |
CN111538794A (zh) * | 2020-04-24 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种数据融合方法、装置及设备 |
CN111612635A (zh) * | 2020-04-18 | 2020-09-01 | 北京淇瑀信息科技有限公司 | 用户金融风险分析方法、装置及电子设备 |
CN111753094A (zh) * | 2019-03-27 | 2020-10-09 | 杭州海康威视数字技术股份有限公司 | 事件知识图谱的构建方法、装置及事件确定方法、装置 |
-
2020
- 2020-10-16 CN CN202011111237.9A patent/CN112214614B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN109033303A (zh) * | 2018-07-17 | 2018-12-18 | 东南大学 | 一种基于约简锚点的大规模知识图谱融合方法 |
CN109670049A (zh) * | 2018-11-19 | 2019-04-23 | 平安科技(深圳)有限公司 | 图谱路径查询方法、装置、计算机设备和存储介质 |
CN109858740A (zh) * | 2018-12-21 | 2019-06-07 | 中化资本有限公司 | 企业风险的评估方法、装置、计算机设备及存储介质 |
CN111753094A (zh) * | 2019-03-27 | 2020-10-09 | 杭州海康威视数字技术股份有限公司 | 事件知识图谱的构建方法、装置及事件确定方法、装置 |
CN110113314A (zh) * | 2019-04-12 | 2019-08-09 | 中国人民解放军战略支援部队信息工程大学 | 用于动态威胁分析的网络安全领域知识图谱构建方法及装置 |
CN110611651A (zh) * | 2019-07-19 | 2019-12-24 | 中国工商银行股份有限公司 | 网络监控方法、网络监控装置和电子设备 |
CN111241300A (zh) * | 2020-01-09 | 2020-06-05 | 中信银行股份有限公司 | 舆情预警以及风险传播分析方法、系统、设备及存储介质 |
CN111612635A (zh) * | 2020-04-18 | 2020-09-01 | 北京淇瑀信息科技有限公司 | 用户金融风险分析方法、装置及电子设备 |
CN111538794A (zh) * | 2020-04-24 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种数据融合方法、装置及设备 |
CN111402064A (zh) * | 2020-06-03 | 2020-07-10 | 天云融创数据科技(北京)有限公司 | 一种风险值的评估方法及装置 |
Non-Patent Citations (2)
Title |
---|
Construction of Multidimensional Dynamic Knowledge Map Based on Knowledge Requirements and Knowledge Connection;Yanjie Lv 等;《Knowledge Engineering and Management》;83-94 * |
资本市场企业信息系统人物和企业关系图谱的设计与实现;张巍;《中国优秀硕士学位论文全文数据库 信息科技 辑》(第02期);I138-699 * |
Also Published As
Publication number | Publication date |
---|---|
CN112214614A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214614B (zh) | 基于知识图谱挖掘风险传播路径的方法及其系统 | |
CN108415953B (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
Bu et al. | A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Golam Mostafa et al. | Investigation of different machine learning algorithms to determine human sentiment using Twitter data | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
Kumar et al. | Battling fake news: A survey on mitigation techniques and identification | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
CN117149974A (zh) | 一种子图检索优化的知识图谱问答方法 | |
Zhao | RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation | |
Bakirli et al. | DTreeSim: A new approach to compute decision tree similarity using re-mining | |
Rana et al. | A conceptual model for decision support systems using aspect based sentiment analysis | |
Jayakody et al. | Sentiment analysis on product reviews on twitter using Machine Learning Approaches | |
CN112784049B (zh) | 一种面向文本数据的在线社交平台多元知识获取方法 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Surekha et al. | Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures | |
Gupta et al. | A comparative study of Amazon product reviews using sentiment analysis | |
Alnasrawi et al. | Improving sentiment analysis using text network features within different machine learning algorithms | |
Shamal et al. | Sentiment analysis using Token2Vec and LSTMs: user review analyzing module | |
Wang et al. | Towards fake news refuter identification: Mixture of Chi-Merge grounded CNN approach | |
Wang et al. | Preprocessing and feature extraction methods for microfinance overdue data | |
Fu et al. | A study on recursive neural network based sentiment classification of Sina Weibo | |
Singh et al. | Axiomatic Analysis of Pre‐Processing Methodologies Using Machine Learning in Text Mining: A Social Media Perspective in Internet of Things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |