CN116579618B - 基于风险管理的数据处理方法、装置、设备及存储介质 - Google Patents
基于风险管理的数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116579618B CN116579618B CN202310854900.1A CN202310854900A CN116579618B CN 116579618 B CN116579618 B CN 116579618B CN 202310854900 A CN202310854900 A CN 202310854900A CN 116579618 B CN116579618 B CN 116579618B
- Authority
- CN
- China
- Prior art keywords
- risk
- feature
- matrix
- classification
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims description 215
- 239000013598 vector Substances 0.000 claims description 185
- 238000012546 transfer Methods 0.000 claims description 42
- 238000005457 optimization Methods 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 238000003062 neural network model Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000001788 irregular Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 58
- 238000001514 detection method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000012502 risk assessment Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理领域,其具体地公开了一种基于风险管理的数据处理方法、装置、设备及存储介质,其通过采用基于深度学习的神经网络模型挖掘出企业的历史风险事件发生日志的语义理解特征和各个企业之间的风险信息传递拓扑关联特征之间的关联性特征,以此来准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
Description
技术领域
本申请涉及数据处理领域,且更为具体地,涉及一种基于风险管理的数据处理方法、装置、设备及存储介质。
背景技术
在企业合作项目中,风险是不可避免的。不同合作对象企业在不同合作领域的风险也是不同的,因此在合作中需要建立一定的风险管理机制来降低风险事件的发生概率或减少风险可能带来的损失。
现有的风险管理方法通常基于合作企业的风险记录,通过项目相关的技术手段等方面降低风险的发生概率,提升后续合作双方的技术经验。但是,部分风险是源于合作方式以及合作双方的企业管理模式等方面的,例如合作数据的安全问题等,尤其是合作进行的项目数据的泄露,对于合作双方的影响都是十分严重的。
因此,期望一种优化的基于风险管理的数据处理方案,以全面降低风险事件发生的概率,减少风险可能带来的损失。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于风险管理的数据处理方法、装置、设备及存储介质,其通过采用基于深度学习的神经网络模型挖掘出企业的历史风险事件发生日志的语义理解特征和各个企业之间的风险信息传递拓扑关联特征之间的关联性特征,以此来准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
根据本申请的一个方面,提供了一种基于风险管理的数据处理方法,其包括:
获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;
将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;
基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;
将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;
将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;
将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;
将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;
将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。
在上述基于风险管理的数据处理方法中,将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量,包括:对所述风险关联图谱中各个节点的历史风险事件发生日志分别进行分词处理以将所述风险关联图谱中各个节点的历史风险事件发生日志分别转化为由多个词组成的词序列;使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述多个企业历史风险事件语义理解特征向量。
在上述基于风险管理的数据处理方法中,使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局特征向量;计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在上述基于风险管理的数据处理方法中,将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵,包括:使用所述基于卷积神经网络模型的拓扑特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于卷积神经网络模型的拓扑特征提取器的最后一层的输出为所述风险拓扑邻接特征矩阵,所述基于卷积神经网络模型的拓扑特征提取器的第一层的输入为所述风险拓扑邻接矩阵。
在上述基于风险管理的数据处理方法中,将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵,包括:使用所述图神经网络模型以可学习的神经网络参数对所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵进行图结构编码以得到包含不规则的风险拓扑关联特征和各个企业的历史风险全局语义理解特征信息的所述分类特征矩阵。
在上述基于风险管理的数据处理方法中,将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵,包括:以如下优化公式对所述分类特征矩阵的多个行特征向量进行多源信息融合验前分布评估优化以得到所述优化分类特征矩阵的多个优化行特征向量;其中,所述优化公式为:
;
;
其中,是所述分类特征矩阵的第/>个行特征向量,/>是所述分类特征矩阵的第/>个行特征向量,/>是均值特征向量,/>为邻域设置超参数,/>表示以2为底的对数函数值,/>表示按位置减法,/>是所述优化分类特征矩阵的第/>个优化行特征向量。
在上述基于风险管理的数据处理方法中,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签,包括:将所述优化分类特征矩阵基于行向量或列向量展开为分类特征向量;使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种基于风险管理的数据处理装置、设备及存储介质,其包括:
信息采集模块,用于获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;
上下文语义编码模块,用于将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;
拓扑矩阵构造模块,用于基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;
拓扑特征提取模块,用于将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;
排列模块,用于将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;
图神经网络模块,用于将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;
特征分布优化模块,用于将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;
分类结果生成模块,用于将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于风险管理的数据处理方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于风险管理的数据处理方法。
与现有技术相比,本申请提供的一种基于风险管理的数据处理方法、装置、设备及存储介质,其通过采用基于深度学习的神经网络模型挖掘出企业的历史风险事件发生日志的语义理解特征和各个企业之间的风险信息传递拓扑关联特征之间的关联性特征,以此来准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于风险管理的数据处理方法的流程图;
图2为根据本申请实施例的基于风险管理的数据处理方法的系统架构图;
图3为根据本申请实施例的基于风险管理的数据处理方法中上下文语义编码的流程图;
图4为根据本申请实施例的基于风险管理的数据处理方法中拓扑特征提取过程的流程图;
图5为根据本申请实施例的基于风险管理的数据处理方法中分类过程的流程图;
图6为根据本申请实施例的基于风险管理的数据处理装置、设备及存储介质的框图;
图7为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,现有的风险管理方法通常基于合作企业的风险记录,通过项目相关的技术手段等方面降低风险的发生概率,提升后续合作双方的技术经验。但是,部分风险是源于合作方式以及合作双方的企业管理模式等方面的,例如合作数据的安全问题等,尤其是合作进行的项目数据的泄露,对于合作双方的影响都是十分严重的。因此,期望一种优化的基于风险管理的数据处理方案,以全面降低风险事件发生的概率,减少风险可能带来的损失。
相应地,考虑到在实际进行风险管理的过程中,企业之间的风险是相互关联的,因此,在本申请的技术方案中,期望基于历史风险事件发生情况以及与其他企业的风险信息传递关系来构建目标企业的风险关联图谱和风险拓扑邻接矩阵,以此来综合进行目标企业的风险评估,进而采取相应的风险管理措施。但是,由于历史风险事件发生日志存在着较多的繁杂信息,难以对其语义信息进行准确地识别和理解,并且各个企业之间的风险信息传递关系也错综复杂,难以进行这两者的信息融合关联和利用,进而影响对于目标企业的风险评估检测精准度。因此,在此过程中,难点在于如何挖掘所述企业的历史风险事件发生日志的语义理解特征和所述各个企业之间的风险信息传递拓扑关联特征之间的关联性特征信息,以此来准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述企业的历史风险事件发生日志的语义理解特征和所述各个企业之间的风险信息传递拓扑关联特征之间的关联性特征信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系。应可以理解,在风险管理中,企业之间的风险是相互关联的,为了更好地了解目标企业的风险状况,需要获取目标企业的风险关联图谱,包括企业的历史风险事件发生情况以及企业间的风险信息传递关系。这样,有利于后续更准确地评估目标企业的风险等级,并采取相应的风险管理措施。
接着,考虑到由于所述历史风险事件发生日志是由多个词组成的文本数据,并且各个词之间具有着上下文的协同语义关联关系。因此,为了能够对于所述风险关联图谱中各个企业历史风险事件进行语义理解,需要刻画出所述风险关联图谱中各个节点的历史风险事件发生日志的语义关联特征。具体地,在本申请的技术方案中,进一步将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器中进行语义编码,以此来分别提取出所述各个企业历史风险事件发生日志中基于全局的上下文语义关联特征信息,从而得到多个企业历史风险事件语义理解特征向量。也就是说,这里,所述语义编码器可以将文本转化为向量,同时保留文本的语义信息,因此可以更好地表征所述各个企业的历史风险事件语义信息。
然后,由于所述各个企业之间具有着风险信息的传递关系,也就是说,在风险管理中,企业之间的风险是相互关联的,一个企业的风险事件可能会对其他企业产生影响。因此,为了能够准确地捕捉所述各个企业的风险传递特征信息,以此来增强所述各个企业风险事件对于所述目标企业的影响程度特征表达的充分性,在本申请的技术方案中,进一步基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系,如果两个企业之间存在风险信息传递关系,则对应位置的值为1,否则为0。
继而,进一步再使用在隐含关联特征提取方面具有优异表现的卷积神经网络模型来进行所述风险拓扑邻接矩阵的特征提取,具体地,将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器中进行处理,以提取出所述各个企业之间的风险信息传递拓扑关联特征,从而得到风险拓扑邻接特征矩阵。
进一步地,以所述各个企业历史风险事件语义理解特征向量作为节点的特征表示,而以所述风险拓扑邻接特征矩阵作为节点与节点之间的边的特征表示,将由所述多个企业历史风险事件语义理解特征向量经二维排列得到的全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵。具体地,所述图神经网络通过可学习的神经网络参数对所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵进行图结构数据编码以得到包含不规则的风险拓扑关联特征和各个企业的历史风险全局语义理解特征信息的所述分类特征矩阵。这样,能够通过图结构数据关联来融合所述各个企业的历史风险事件语义特征信息和所述各个企业之间的拓扑关联特征信息,有利于后续更好地对企业进行风险分类,为风险管理提供更准确的基础。
然后,将所述分类特征矩阵通过分类器中进行分类处理,以得到用于表示目标企业的风险等级标签的分类结果。也就是说,所述分类器的分类标签为目标企业的风险等级标签,其中,所述分类器通过软最大值函数来确定所述分类特征矩阵属于哪个分类标签。因此,在得到所述分类结果后,可以基于所述分类结果来进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
特别地,在本申请的技术方案中,对于将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型得到的所述分类特征矩阵来说,其与所述企业历史风险事件语义理解特征向量对应的例如行特征向量分别表达历史风险事件的文本语义特征在风险特征传递拓扑下的关联特征,因此所述分类特征矩阵相当于各个行特征向量对应的局部特征集合的组合特征集合。
并且,由于各个行特征向量的特征分布之间具有由图神经网络模型所提取出的风险特征传递拓扑的关联性,因此所述各个行特征向量除了具有相互关联的邻域分布关系外,其间还具有对应于各个企业的风险关联图谱的多源信息关联关系。
因此,为了提升所述分类特征矩阵作为整体对各个企业的风险特征信息的拓扑关联表达效果,本申请的申请人对每个行特征向量,例如记为进行多源信息融合验前分布评估优化,以获得优化后的行特征向量/>,具体表示为:
;
;
其中为邻域设置超参数,且当/>小于等于零或者大于所述分类特征矩阵的行数时,特征向量/>可以为全零向量或者单位向量。
这里,所述多源信息融合验前分布评估优化可以对于由多个相互关联的邻域部分组成的特征局部集合,基于特征分布融合稳健性的类极大似然估计,来实现特征向量各自的验前信息在局部合成分布上的有效折合,并通过多源情况下的验前分布构建,来获得能够用于评估集合内内部关联与集合间变动关系之间的标准期望融合信息的优化范式,以提升特征向量基于多源信息关联融合的信息表达效果。由此,再将优化后的行特征向量排列为所述分类特征矩阵,就可以提升所述分类特征矩阵作为整体对各个企业的风险特征信息的拓扑关联表达效果,从而提升其通过分类器得到的分类结果的准确性。这样,能够准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
基于此,本申请提出了一种基于风险管理的数据处理方法,其包括:获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1为根据本申请实施例的基于风险管理的数据处理方法的流程图。如图1所示,根据本申请实施例的基于风险管理的数据处理方法,包括步骤:S110,获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;S120,将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;S130,基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;S140,将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;S150,将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;S160,将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;S170,将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;S180,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。
图2为根据本申请实施例的基于风险管理的数据处理方法的系统架构图。如图2所示,该网络结构中,首先,获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;接着,将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;然后,将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;进而,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。
更具体地,在步骤S110中,获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系。应可以理解,考虑到企业之间的风险是相互关联的,因此,在本申请的技术方案中,可通过基于历史风险事件发生情况以及与其他企业的风险信息传递关系来构建目标企业的风险关联图谱和风险拓扑邻接矩阵,以此来综合进行目标企业的风险评估,进而采取相应的风险管理措施。因此,在一个具体示例中,首先,获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系。
更具体地,在步骤S120中,将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量。应可以理解,由于所述历史风险事件发生日志是由多个词组成的文本数据,并且各个词之间具有着上下文的协同语义关联关系。因此,为了能够对于所述风险关联图谱中各个企业历史风险事件进行语义理解,需要刻画出所述风险关联图谱中各个节点的历史风险事件发生日志的语义关联特征。具体地,在本申请的技术方案中,进一步将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器中进行语义编码,以此来分别提取出所述各个企业历史风险事件发生日志中基于全局的上下文语义关联特征信息,从而得到多个企业历史风险事件语义理解特征向量。也就是说,这里,所述语义编码器可以将文本转化为向量,同时保留文本的语义信息,因此可以更好地表征所述各个企业的历史风险事件语义信息。
图3为根据本申请实施例的基于风险管理的数据处理方法中上下文语义编码的流程图。如图3所示,在所述上下文语义编码的过程中,包括:S210,对所述风险关联图谱中各个节点的历史风险事件发生日志分别进行分词处理以将所述风险关联图谱中各个节点的历史风险事件发生日志分别转化为由多个词组成的词序列;S220,使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;S230,使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,S240,将所述多个全局上下文语义特征向量进行级联以得到所述多个企业历史风险事件语义理解特征向量。其中,所述S230,包括:将所述词嵌入向量的序列进行一维排列以得到全局特征向量;计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
更具体地,在步骤S130中,基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系。由于所述各个企业之间具有着风险信息的传递关系,也就是说,在风险管理中,企业之间的风险是相互关联的,一个企业的风险事件可能会对其他企业产生影响。因此,为了能够准确地捕捉所述各个企业的风险传递特征信息,以此来增强所述各个企业风险事件对于所述目标企业的影响程度特征表达的充分性,在本申请的技术方案中,进一步基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系,如果两个企业之间存在风险信息传递关系,则对应位置的值为1,否则为0。
更具体地,在步骤S140中,将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵。也就是,在本申请的技术方案中,使用所述在隐含关联特征提取方面具有优异表现的卷积神经网络模型来进行所述风险拓扑邻接矩阵的特征提取,以提取出所述各个企业之间的风险信息传递拓扑关联特征,从而得到风险拓扑邻接特征矩阵。在一个具体示例中,所述基于卷积神经网络模型的拓扑特征提取器包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述拓扑特征提取器的编码过程中,所述拓扑特征提取器的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。
图4为根据本申请实施例的基于风险管理的数据处理方法中拓扑特征提取过程的流程图。如图4所示,在所述拓扑特征提取过程中,包括:使用所述基于卷积神经网络模型的拓扑特征提取器的各层在层的正向传递中分别对输入数据进行:S310,对输入数据进行卷积处理以得到卷积特征图;S320,对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,S330,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于卷积神经网络模型的拓扑特征提取器的最后一层的输出为所述风险拓扑邻接特征矩阵,所述基于卷积神经网络模型的拓扑特征提取器的第一层的输入为所述风险拓扑邻接矩阵。
更具体地,在步骤S150和步骤S160中,将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵,以及,将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵。也就是,以所述各个企业历史风险事件语义理解特征向量作为节点的特征表示,而以所述风险拓扑邻接特征矩阵作为节点与节点之间的边的特征表示,将由所述多个企业历史风险事件语义理解特征向量经二维排列得到的全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵。在本申请的一个具体示例中,在得到所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接矩阵后,进一步使用所述图神经网络模型以可学习的神经网络参数对所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵进行图结构编码以得到包含不规则的风险拓扑关联特征和各个企业的历史风险全局语义理解特征信息的所述分类特征矩阵。这样,能够通过图结构数据关联来融合所述各个企业的历史风险事件语义特征信息和所述各个企业之间的拓扑关联特征信息,有利于后续更好地对企业进行风险分类,为风险管理提供更准确的基础。
更具体地,在步骤S170中,将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵。在本申请的技术方案中,对于将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型得到的所述分类特征矩阵来说,其与所述企业历史风险事件语义理解特征向量对应的例如行特征向量分别表达历史风险事件的文本语义特征在风险特征传递拓扑下的关联特征,因此所述分类特征矩阵相当于各个行特征向量对应的局部特征集合的组合特征集合。并且,由于各个行特征向量的特征分布之间具有由图神经网络模型所提取出的风险特征传递拓扑的关联性,因此所述各个行特征向量除了具有相互关联的邻域分布关系外,其间还具有对应于各个企业的风险关联图谱的多源信息关联关系。因此,为了提升所述分类特征矩阵作为整体对各个企业的风险特征信息的拓扑关联表达效果,对所述分类特征矩阵的多个行特征向量进行多源信息融合验前分布评估优化以得到所述优化分类特征矩阵的多个优化行特征向量,具体表示为:
;
;
其中,是所述分类特征矩阵的第/>个行特征向量,/>是所述分类特征矩阵的第/>个行特征向量,/>是均值特征向量,/>为邻域设置超参数,/>表示以2为底的对数函数值,/>表示按位置减法,/>是所述优化分类特征矩阵的第/>个优化行特征向量。这里,所述多源信息融合验前分布评估优化可以对于由多个相互关联的邻域部分组成的特征局部集合,基于特征分布融合稳健性的类极大似然估计,来实现特征向量各自的验前信息在局部合成分布上的有效折合,并通过多源情况下的验前分布构建,来获得能够用于评估集合内内部关联与集合间变动关系之间的标准期望融合信息的优化范式,以提升特征向量基于多源信息关联融合的信息表达效果。由此,再将优化后的行特征向量/>排列为所述分类特征矩阵,就可以提升所述分类特征矩阵作为整体对各个企业的风险特征信息的拓扑关联表达效果,从而提升其通过分类器得到的分类结果的准确性。这样,能够准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
更具体地,在步骤S180中,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。也就是,在本申请的技术方案中,在得到所述优化分类特征矩阵后,进一步将其通过分类器以得到用于表示目标企业的风险等级标签的分类结果。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,首先将所述优化分类特征矩阵投影为向量,例如,在一个具体的示例中,将所述优化分类特征矩阵沿着行向量或者列向量进行展开为分类特征向量;然后,使用所述分类器的多个全连接层对所述分类特征向量进行多次全连接编码以得到编码分类特征向量;进而,将所述编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到分类标签。特别地,所述分类器的分类标签为目标企业的风险等级标签,其中,所述分类器通过软最大值函数来确定所述分类特征矩阵属于哪个分类标签。因此,在得到所述分类结果后,可以基于所述分类结果来进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
图5为根据本申请实施例的基于风险管理的数据处理方法中分类过程的流程图。如图5所示,在所述分类过程中,包括:S410,将所述优化分类特征矩阵基于行向量或列向量展开为分类特征向量;S420,使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,S430,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的基于风险管理的数据处理方法被阐明,其通过采用基于深度学习的神经网络模型挖掘出企业的历史风险事件发生日志的语义理解特征和各个企业之间的风险信息传递拓扑关联特征之间的关联性特征,以此来准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
示例性系统
图6为根据本申请实施例的基于风险管理的数据处理装置、设备及存储介质的框图。如图6所示,根据本申请实施例的基于风险管理的数据处理装置、设备及存储介质300,包括:信息采集模块310;上下文语义编码模块320;拓扑矩阵构造模块330;拓扑特征提取模块340;排列模块350;图神经网络模块360;特征分布优化模块370;分类结果生成模块380。
其中,所述信息采集模块310,用于获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;所述上下文语义编码模块320,用于将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;所述拓扑矩阵构造模块330,用于基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;所述拓扑特征提取模块340,用于将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;所述排列模块350,用于将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;所述图神经网络模块360,用于将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;所述特征分布优化模块370,用于将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;所述分类结果生成模块380,用于将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签。
在一个示例中,在上述基于风险管理的数据处理装置、设备及存储介质300中,所述上下文语义编码模块320,用于:对所述风险关联图谱中各个节点的历史风险事件发生日志分别进行分词处理以将所述风险关联图谱中各个节点的历史风险事件发生日志分别转化为由多个词组成的词序列;使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述多个企业历史风险事件语义理解特征向量。其中,使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局特征向量;计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在一个示例中,在上述基于风险管理的数据处理装置、设备及存储介质300中,所述拓扑特征提取模块340,用于:使用所述基于卷积神经网络模型的拓扑特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于卷积神经网络模型的拓扑特征提取器的最后一层的输出为所述风险拓扑邻接特征矩阵,所述基于卷积神经网络模型的拓扑特征提取器的第一层的输入为所述风险拓扑邻接矩阵。
在一个示例中,在上述基于风险管理的数据处理装置、设备及存储介质300中,所述图神经网络模块360,用于:使用所述图神经网络模型以可学习的神经网络参数对所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵进行图结构编码以得到包含不规则的风险拓扑关联特征和各个企业的历史风险全局语义理解特征信息的所述分类特征矩阵。
在一个示例中,在上述基于风险管理的数据处理装置、设备及存储介质300中,所述特征分布优化模块370,用于:以如下优化公式对所述分类特征矩阵的多个行特征向量进行多源信息融合验前分布评估优化以得到所述优化分类特征矩阵的多个优化行特征向量;其中,所述优化公式为:
;
;
其中,是所述分类特征矩阵的第/>个行特征向量,/>是所述分类特征矩阵的第/>个行特征向量,/>是均值特征向量,/>为邻域设置超参数,/>表示以2为底的对数函数值,/>表示按位置减法,/>是所述优化分类特征矩阵的第/>个优化行特征向量。
在一个示例中,在上述基于风险管理的数据处理装置、设备及存储介质300中,所述分类结果生成模块380,用于:将所述优化分类特征矩阵基于行向量或列向量展开为分类特征向量;使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的基于风险管理的数据处理装置、设备及存储介质300被阐明,其通过采用基于深度学习的神经网络模型挖掘出企业的历史风险事件发生日志的语义理解特征和各个企业之间的风险信息传递拓扑关联特征之间的关联性特征,以此来准确地进行目标企业的风险检测评估,进而采取相应的风险管理措施,以降低风险发生的概率,并减少风险带来的损失。
如上所述,根据本申请实施例的基于风险管理的数据处理装置、设备及存储介质可以实现在各种终端设备中。在一个示例中,根据本申请实施例的基于风险管理的数据处理装置、设备及存储介质300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于风险管理的数据处理装置、设备及存储介质300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于风险管理的数据处理装置、设备及存储介质300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于风险管理的数据处理装置、设备及存储介质300与该终端设备也可以是分立的设备,并且该基于风险管理的数据处理装置、设备及存储介质300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于风险管理的数据处理方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如优化分类特征矩阵等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于风险管理的数据处理方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于风险管理的数据处理方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (9)
1.一种基于风险管理的数据处理方法,其特征在于,包括:
获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;
将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;
基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;
将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;
将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;
将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;
将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;
将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签;
将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量,包括:
对所述风险关联图谱中各个节点的历史风险事件发生日志分别进行分词处理以将所述风险关联图谱中各个节点的历史风险事件发生日志分别转化为由多个词组成的词序列;
使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;
使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;
以及将所述多个全局上下文语义特征向量进行级联以得到所述多个企业历史风险事件语义理解特征向量。
2.根据权利要求1所述的基于风险管理的数据处理方法,其特征在于,使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:
将所述词嵌入向量的序列进行一维排列以得到全局特征向量;
计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;
分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;
以及将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
3.根据权利要求2所述的基于风险管理的数据处理方法,其特征在于,将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵,包括:使用所述基于卷积神经网络模型的拓扑特征提取器的各层在层的正向传递中分别对输入数据进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行沿通道维度的池化以得到池化特征图;
以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述基于卷积神经网络模型的拓扑特征提取器的最后一层的输出为所述风险拓扑邻接特征矩阵,所述基于卷积神经网络模型的拓扑特征提取器的第一层的输入为所述风险拓扑邻接矩阵。
4.根据权利要求3所述的基于风险管理的数据处理方法,其特征在于,将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵,包括:使用所述图神经网络模型以可学习的神经网络参数对所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵进行图结构编码以得到包含不规则的风险拓扑关联特征和各个企业的历史风险全局语义理解特征信息的所述分类特征矩阵。
5.根据权利要求4所述的基于风险管理的数据处理方法,其特征在于,将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵,包括:
以如下优化公式对所述分类特征矩阵的多个行特征向量进行多源信息融合验前分布评估优化以得到所述优化分类特征矩阵的多个优化行特征向量;
其中,所述优化公式为:
;
;
其中,是所述分类特征矩阵的第/>个行特征向量,/>是所述分类特征矩阵的第/>个行特征向量,/>是均值特征向量,/>为邻域设置超参数,/>表示以2为底的对数函数值,/>表示按位置减法,/>是所述优化分类特征矩阵的第/>个优化行特征向量。
6.根据权利要求5所述的基于风险管理的数据处理方法,其特征在于,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签,包括:
将所述优化分类特征矩阵基于行向量或列向量展开为分类特征向量;
使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;
以及将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
7.一种基于风险管理的数据处理装置,其特征在于,包括:
信息采集模块,用于获取目标企业的风险关联图谱,其中,所述风险关联图谱包括节点和边,所述节点为企业的历史风险事件发生日志,所述边用于表示企业间的风险信息传递关系;
上下文语义编码模块,用于将所述风险关联图谱中各个节点的历史风险事件发生日志分别通过包含词嵌入层的语义编码器以得到多个企业历史风险事件语义理解特征向量;
拓扑矩阵构造模块,用于基于所述风险关联图谱,构造风险拓扑邻接矩阵,其中,所述风险拓扑邻接矩阵中非对角线位置上个各个位置的值用于表示相应两个企业之间是否存在风险信息传递关系;
拓扑特征提取模块,用于将所述风险拓扑邻接矩阵通过基于卷积神经网络模型的拓扑特征提取器以得到风险拓扑邻接特征矩阵;
排列模块,用于将所述多个企业历史风险事件语义理解特征向量排列为全局企业历史风险事件语义理解特征矩阵;
图神经网络模块,用于将所述全局企业历史风险事件语义理解特征矩阵和所述风险拓扑邻接特征矩阵通过图神经网络模型以得到分类特征矩阵;
特征分布优化模块,用于将所述分类特征矩阵进行特征分布优化以得到优化分类特征矩阵;
分类结果生成模块,用于将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示目标企业的风险等级标签;
所述上下文语义编码模块,还用于:
对所述风险关联图谱中各个节点的历史风险事件发生日志分别进行分词处理以将所述风险关联图谱中各个节点的历史风险事件发生日志分别转化为由多个词组成的词序列;
使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;
使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;
以及将所述多个全局上下文语义特征向量进行级联以得到所述多个企业历史风险事件语义理解特征向量。
8.一种电子设备,其特征在于,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至6任一项所述的方法。
9.一种计算机可读介质,其特征在于,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854900.1A CN116579618B (zh) | 2023-07-13 | 2023-07-13 | 基于风险管理的数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854900.1A CN116579618B (zh) | 2023-07-13 | 2023-07-13 | 基于风险管理的数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116579618A CN116579618A (zh) | 2023-08-11 |
CN116579618B true CN116579618B (zh) | 2023-09-22 |
Family
ID=87534530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310854900.1A Active CN116579618B (zh) | 2023-07-13 | 2023-07-13 | 基于风险管理的数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116579618B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777608A (zh) * | 2023-08-25 | 2023-09-19 | 北京佳格天地科技有限公司 | 基于大数据的农业金融风险监管系统、方法及存储介质 |
CN117010697B (zh) * | 2023-09-25 | 2023-12-19 | 山东财经大学 | 一种基于人工智能的可视化企业风险评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282003A (zh) * | 2021-11-30 | 2022-04-05 | 中国建设银行股份有限公司 | 基于知识图谱的金融风险预警方法及装置 |
CN115063056A (zh) * | 2022-08-18 | 2022-09-16 | 西南交通大学 | 基于图拓扑分析改进的建造行为安全风险动态分析方法 |
CN116204266A (zh) * | 2023-05-04 | 2023-06-02 | 深圳市联合信息技术有限公司 | 远程协助的信息创建运维系统及其方法 |
CN116384551A (zh) * | 2023-03-10 | 2023-07-04 | 青岛理工大学 | 一种基于知识图谱的上市企业违法风险预测方法 |
CN116405299A (zh) * | 2023-04-14 | 2023-07-07 | 杜菁 | 一种基于网络安全的报警器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180068241A1 (en) * | 2016-09-07 | 2018-03-08 | Wipro Limited | Methods and systems for integrated risk management in enterprise environments |
-
2023
- 2023-07-13 CN CN202310854900.1A patent/CN116579618B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282003A (zh) * | 2021-11-30 | 2022-04-05 | 中国建设银行股份有限公司 | 基于知识图谱的金融风险预警方法及装置 |
CN115063056A (zh) * | 2022-08-18 | 2022-09-16 | 西南交通大学 | 基于图拓扑分析改进的建造行为安全风险动态分析方法 |
CN116384551A (zh) * | 2023-03-10 | 2023-07-04 | 青岛理工大学 | 一种基于知识图谱的上市企业违法风险预测方法 |
CN116405299A (zh) * | 2023-04-14 | 2023-07-07 | 杜菁 | 一种基于网络安全的报警器 |
CN116204266A (zh) * | 2023-05-04 | 2023-06-02 | 深圳市联合信息技术有限公司 | 远程协助的信息创建运维系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116579618A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116579618B (zh) | 基于风险管理的数据处理方法、装置、设备及存储介质 | |
CN111274134B (zh) | 基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质 | |
CN115796173B (zh) | 针对监管报送需求的数据处理方法和系统 | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN115203380A (zh) | 基于多模态数据融合的文本处理系统及其方法 | |
Chu et al. | Search for Additive Nonlinear Time Series Causal Models. | |
CN113596007B (zh) | 一种基于深度学习的漏洞攻击检测方法和设备 | |
CN115834433B (zh) | 基于物联网技术的数据处理方法及系统 | |
GB2604552A (en) | Fusing multimodal data using recurrent neural networks | |
CN115759658B (zh) | 适用于智慧城市的企业能耗数据管理系统 | |
CN116015837A (zh) | 用于计算机网络信息安全的入侵检测方法及系统 | |
CN116247824B (zh) | 电力设备的控制方法及其系统 | |
CN115827257B (zh) | 用于处理器体系的cpu容量预测方法及其系统 | |
CN116308754B (zh) | 一种银行信贷风险预警系统及其方法 | |
CN115860271A (zh) | 艺术设计用方案管理系统及其方法 | |
CN116055293B (zh) | 路由器的远程故障监控方法及路由器 | |
CN116759053A (zh) | 基于物联网系统的医疗体系防控方法及系统 | |
CN116089648A (zh) | 基于人工智能的档案管理系统及方法 | |
CN116127019B (zh) | 动态参数与可视化模型生成web 2d自动建模引擎系统 | |
CN116167833B (zh) | 基于联邦学习的互联网金融风险控制系统及其方法 | |
CN117421655A (zh) | 工业互联网数据流异常检测方法及系统 | |
CN116467485B (zh) | 一种视频图像检索构建系统及其方法 | |
CN112800217A (zh) | 基于向量关联性矩阵的政务事务处理报告的智能评估方法 | |
CN116383714A (zh) | 用于斗轮机的设备保护系统及其方法 | |
CN116150371A (zh) | 基于shardingJDBC的资产还款计划海量数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |