CN112463981A - 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 - Google Patents
一种基于深度学习的企业内部经营管理风险识别提取方法及系统 Download PDFInfo
- Publication number
- CN112463981A CN112463981A CN202011343570.2A CN202011343570A CN112463981A CN 112463981 A CN112463981 A CN 112463981A CN 202011343570 A CN202011343570 A CN 202011343570A CN 112463981 A CN112463981 A CN 112463981A
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- knowledge
- graph
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 239000002131 composite material Substances 0.000 claims abstract description 7
- 238000007726 management method Methods 0.000 claims description 68
- 238000003860 storage Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000013523 data management Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 41
- 238000005065 mining Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000012502 risk assessment Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000013058 risk prediction model Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000004567 concrete Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于深度学习的企业内部经营管理风险识别提取方法及系统。方法包括如下步骤:步骤一、从不同经营管理主体的经营数据和管理数据中提取风险知识数据,风险知识数据包括结构化数据和非结构化数据,调用知识图谱引擎根据风险知识数据对不同经营管理主体间进行信息关联,并生成企业图谱;步骤二、调用基于深度学习的特征编码模块,通过将状态的时序看作词的序列关系,把企业图谱特征嵌入编码模块中,生成复合深度学习的算法,采用复合深度学习的算法从经营数据和管理数据中提取风险特征数据;步骤三、生成样本邻接关系图;步骤四、从风险特征数据中提取出风险成因因素。本发明可以实现风险数据的提取。
Description
技术领域
本发明涉及软件方法技术领域,尤其涉及一种基于深度学习的企业内部经营管理风险识别提取方法及系统。
背景技术
现有技术中,企业风险管理与内部控制工作还比较局部,主要在财务和物资领域开展。然而,风险的有效预警很大程度上依赖于全面充分的风险信息来源。目前构成风险因素的相关数据来源复杂,缺乏共享,如企业财务的信息存储于财务部门、企业运营状况的信息存储于生产经营各部门、企业人事状况的信息存储于人力资源部门、企业销售与市场的信息存储于营销部门等。而要实现对内部经营风险的预警和全面管控,需要能够及时获取并全面整合相关信息,建立风险预警模型,形成完善的风险预警机制,为风险应对策略的制定提供坚强支撑;另一方面,由于企业内部经营管理风险成因复杂、风险分析和识别难度高,目前企业主要依靠专家经验,风险分析主要局限在各部门各系统,无法满足企业高质量的发展需求。基于企业内部不同来源的经营管理数据,如工程管理数据、营销管理数据、物资管理数据、财务管理数据,以及投诉样本、法律事务、企业文化和廉政建设数据,利用深度学习等技术构建多主体多维度的知识图谱,智能地判别企业内部风险因素、风险指标、风险特征和风险成因,将会是一个复杂工程。
则需要基于深度学习的企业内部经营风险智能分析预警系统,能够对公司的内外部风险进行实时监测分析,对风险点进行及时预警。
发明内容
为此,需要提供一种基于深度学习的企业内部经营管理风险识别提取方法及系统,解决从企业内部经营管理的数据对企业内部经营管理的风险分析预警问题。
为实现上述目的,本发明提供了一种基于深度学习的企业内部经营管理风险识别提取方法,包括如下步骤:
步骤一、从不同经营管理主体的经营数据和管理数据中提取风险知识数据,风险知识数据包括结构化数据和非结构化数据,调用知识图谱引擎根据风险知识数据对不同经营管理主体间进行信息关联,并生成企业图谱;
步骤二、调用基于深度学习的特征编码模块,通过将状态的时序看作词的序列关系,把企业图谱特征嵌入编码模块中,生成复合深度学习的算法,采用复合深度学习的算法从经营数据和管理数据中提取风险特征数据;
步骤三、调用基于图的半监督学习的识别模块,从风险特征数据中得到样本间的相似度,生成样本邻接关系图;
步骤四、调用特征值扰动的风险成因解释模块,从风险特征数据中提取出风险成因因素。
进一步地,所述步骤一包括如下步骤:数据的清洗和治理步骤、知识表示与建模步骤、知识抽取和知识融合步骤、知识存储步骤和构建知识图谱引擎步骤;
数据的清洗和治理步骤包括:对于结构化数据和非结构化数据进行治理,对于结构化数据进行治理包括对所述经营数据和管理数据进行标准化和规范化,并对同一实体的数据进行融合、去重和消除歧义,统一进行知识表示;非结构化数据治理则包括语种识别、乱码发现、格式规整和编码转换;
知识表示与建模步骤包括:使用本体描述语言对于领域中的实体、属性、关系、事件等进行规范化描述,通过结构化的语言来定义和描述领域知识;
知识抽取和知识融合步骤包括:处理非结构化数据,包含正文提取、命名实体识别、关系抽取、实体链接与知识融合;
知识存储步骤包括:采用图数据库作为知识图谱存储的基础存储引擎,存储知识图谱到图数据库中。
进一步地,所述步骤二包括如下步骤:
采用文本序列的流式方式处理企业时序状态,用长短期记忆神经网络方式对其时序做编码;
将每个时间切片的网络结构做图编码;
把输出的图编码加入到时序状态的网络中,通过双层模型的方式训练出带有时序的图谱编码。
进一步地,所述步骤三包括如下步骤:
根据样本间的距离构造邻接关系图,样本作为图中的顶点,而样本间的关系则用顶点之间的边表示,类别标签为通过顶点之间的边从已标记数据传播到未标记数据的。
进一步地,所述步骤四包括如下步骤:特征预选步骤、采样步骤、样本扰动步骤、局部回归步骤和因子聚合步骤;
特征预选步骤包括:从风险知识数据中挑选可解释的特征;
采样步骤包括:在要解释的样本附近采样;
样本扰动步骤包括:对部分样本做随机扰动;
局部回归步骤包括:对于每一个样本扰动,使用预选的特征做回归,并将先验知识通过约束的方式加入到回归方程中;
因子聚合步骤包括:将每个回归方程计算得到的系数通过统计计算得到最后的因子,所述因子为风险成因因素。
进一步地,所述采样步骤包括:采用欧式距离加权的方式进行采样。
本发明提供一种基于深度学习的企业内部经营管理风险识别提取系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明任意一种实施例所述方法的步骤。
区别于现有技术,上述技术方案通过基于深度学习的时序性图信息的特征编码技术,能够对带时序性质的企业经营风险知识图谱进行特征编码。在现有深度学习图特征编码的基础上结合时间轴的演化信息,实现风险分析和成因因素提取。
附图说明
图1为本发明实施例的技术实现方案图;
图2为本发明基于知识图谱的不同经营管理主体间多维度信息关联与管理示意图;
图3为本发明中带时序的图编码网络结构示意图;
图4为本发明中图谱编码网络结构示意图;
图5为本发明中基于图的半监督企业经营管理风险识别结构示意图;
图6为本发明中风险成因算法流程图。
具体实施方式
为详细说明技术方案的技术步骤、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1到图6,本实施例提供一种基于深度学习的企业内部经营管理风险智能识别技术方案,包括基于知识图谱的不同经营管理主体间多维度信息关联技术;基于深度学习的经营管理风险特征编码技术;基于半监督学习的经营管理风险识别技术;基于特征值扰动的风险成因解释技术。
步骤一、基于知识图谱的不同经营管理主体间多维度信息关联技术步骤
1)基于语义标注的知识抽取技术
主要基于语义标注的知识抽取各环节相关技术,包括:经营管理数据分布特征,以便选取合适的算法模型进行知识抽取;数据采样技术,海量经营管理数据中无偏差的采集样本作为待标记语料;数据清洗和预处理技术;半监督的语义标注技术,在减少人工标注的情况下快速构建用于知识抽取模型训练的语料库。利用语义标注法快速、高效实现从结构化资源(关系型数据库)、半结构化资源(HTML、XML等)和非结构化资源(文本、图像等)抽取实体、属性和关系。
2)基于知识图谱的经营管理数据建模及引擎技术
解决企业中各个经营管理业务系统彼此割裂,无法有效关联和融合的问题。统一数据模型是统一知识图谱设计与物理实现的基础,设计完善的统一风险知识图谱数据模型对于统一风险知识图谱的设计与建设有着指导意义;确保数据的准确性、一致性、完整性的有效手段。具体内容包括概念模型、逻辑模型和物理模型。
3)基于知识图谱的主数据匹配模型技术
基于知识图谱的跨业务跨领域数据的实体对齐技术,包括基于实体上下文环境,上下文特征表示的方法;利用上下文特征,数据判重和融合的关键技术,包括基于相似性度量和基于神经网络的判重技术。采用语义消岐技术,消除异构数据中的实体冲突、指向不明等跨系统数据不一致问题,包括无监督语义消岐、有监督语义消岐和基于词典的语义消岐。
4)经营管理实体与知识图谱的信息关联技术
不同类型、不同来源数据之间的关联,包括业务系统数据、文本、多媒体等非结构化数据,包括显式关联和隐式关联,显式关联明确指示信息的关联,隐式关联指需要没有明确指示信息,需要经过分析挖掘得到的关联关系。基于知识图谱实现跨系统之间的数据到图谱实体的关联,为跨系统风险信息协同和共享奠定基础。
5)知识图谱智能分析引擎技术
基于知识图谱的智能分析技术,在知识图谱之上引入数据挖掘和机器学习算法,实现风险智能分析。比如图挖掘技术,进行实体聚类,最大子图挖掘,关联规则分析。
步骤二、基于深度学习的经营管理风险特征编码技术步骤
1)时序操作的特征编码技术
在企业经营风险管理中,数据具有时间演化性,传统的时序问题通常需要首先用人力进行特征工程,才能将预处理的数据输入到机器学习算法中,并且这种特征工程需要特定领域的专业知识,进一步加大了预处理成本。基于深度学习的编码技术是指通过设置适当的训练目标训练神经网络找到一种新的映射方式,利用该映射方式将特征投射到另外一个空间,不仅可以去除噪音,还能通过神经网络的学习,找到特征的共性和规律,提高特征的泛化性。在文本(word2vec),图(deep walk)和图像领域(CNN),都有比较成熟的深度学习编码技术。本发明将借鉴深度学习的嵌入算法思想应用于时间序列数据,包括对时序数据做预处理,以及借助文本嵌入的思想对时间序列编码,并分析不同的特征嵌入方式在特征编码中的有效性。
2)带有时序特征的风险图谱的特征编码技术
在企业经营风险项目中,数据是以图谱的方式来呈现的,并且图谱还具有时间演化性,将本发明提出的特征编码技术应用于具有时序特征的图谱数据,并将该方法应用于实际经营管理风险问题的特征编码,解决实际经营管理风险问题。图谱数据实体和实体之间的关联有多种,首先是单一关系下的图谱编码,其次是多种关系下的图谱编码方法,包括有效关系的挑选技术,通过多种关系的图谱编码融合技术,最后将融合后的图谱编码嵌入到时序操作的模型中。
步骤三、基于半监督学习的经营管理风险识别技术步骤
1)基于知识图谱的样本临接关系图构造
基于图的半监督学习标签传播算法是在样本邻接关系图上进行的,因此,在标签传播前需要构造相应的样本邻接关系图。通常情况下,边的权重是由连接的两个样本之间特征的相似度决定的,权重随着距离的增大而减小。目前常用的相似性度量方法,主要为欧式距离、马氏距离、麦考斯基距离、相关距离等,但是这些度量方法的衡量标准比较偏重于局部,没有对数据集的全局分布情况分析,标签传播的概率无法符合真实类别情况。风险知识图谱具有数据集的全局分布信息,风险样本的特征表示也是从知识图谱中得到。这里在邻接关系图顶点一定的情况下,基于知识图谱图自底向上层次聚类的方法得到顶点权重的样本邻接关系图构造方法。
2)基于图的半监督风险识别
一次标签传播过程可以用矩阵相乘来表示。在传播过程中,每个样本把自己的标签以概率转移矩阵中相应的概率可能传播给另一个样本。两个样本越相似,就越容易将自己的标签赋给对方标签分布上,即更容易传播过去。随着已标记数据标签的不断传播,将分类决策边界不断地从高密度数据区域,推到低密度数据区域内,也就是为样本空间划分到了不同类别。本项目将迭代使用标签传播算法,已达到准确的风险识别。
步骤四、基于特征值扰动的风险成因解释技术步骤
1)具有先验知识的风险成因解释技术
企业风险成因解释技术属于模型可解释问题。在应用中,利用企业风险预测模型以提前预警出某个企业是否在未来会发生风险,更重要的是,希望可以定位发生风险的原因,提前做好预防措施及早介入干预。企业风险预测模型是一个复杂的很难解释的深度学习模型,本发明采用模型局部可解释理论来实现风险成因解释技术。企业风险成因一般具有专家规则和先验知识,将利用专家规则的可解释性的特征,将专家规则和先验知识加入到风险成因解释技术中。
2)稳定的风险成因解释技术
企业风险成因的另外一个特点是标注不完善、数据有噪声。将分析现有解释技术的稳定性,提高其稳定性的标签和特征扰动添加方法和多次回归算法,进而提供一种稳定的风险成因解释技术。
基于深度学习的企业内部经营管理风险智能识别技术方案如图1所示,下面分别阐述各个方法步骤的技术路线和技术方案。
步骤一、基于知识图谱的不同经营管理主体间多维度信息关联技术步骤
A)技术路线
本方法步骤负责从经营管理数据中获取和存储风险知识,即从非结构化、半结构化、以及结构化数据中获取知识,以及将不同数据源获取的知识进行融合构建数据之间的关联,将大规模的知识数据进行存储。最后,基于知识图谱引擎中的图计算引擎和知识推理引擎,实现异常分析、不一致性检验、风险传导等风险分析模型。该模块的技术实现需包含数据清洗与治理、知识表示与建模、知识抽取、知识融合、知识存储和管理、图计算与知识推理等内容,主要技术手段结构图如图2所示。
B)具体技术方案
1、数据的清洗和治理:包含对于结构化数据和非结构化数据的两方面治理过程。前者主要是通过数据集成、数据清洗、数据转换、数据融合等手段见来自于不同系统不同数据源中的数据进行标准化、规范化,并对同一实体的数据进行融合,去重,消除歧义,统一进行知识表示。而非结构化数据清洗则需要进行语种识别、乱码发现、格式规整、编码转换等针对非结构化数据的清洗过程。
2、知识表示与建模:是使用本体描述语言对于领域中的实体、属性、关系、事件等进行规范化描述,通过结构化的语言来定义和描述领域知识,是需要业务专家和建模技术人员结合对于数据情况的理解,合作进行的知识建模过程。在风险使用OWL语言来定义和描述领域本体,使用RDF三元组来表示知识,并且通过图的存储结构进行知识存储。
3、知识抽取和知识融合:同样包含在结构化和非结构化数据的两部分内容。其主要技术主要在处理非结构化数据方面,包含正文提取、命名实体识别(常见的有基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法)、关系抽取(常见的有开放式实体关系抽取、基于联合推理的实体关系抽取等方法)、实体链接与知识融合等技术步骤。
4、知识存储:采用图数据库作为知识图谱存储的基础存储引擎。而单纯的图数据库并不足以满足所有的知识使用场景,本发明辅助以搜索引擎、列式存储、文件存储等多种存储模块来形成知识图谱数据库,统一封装知识服务接口对上层提供知识存储、查找和计算引擎。其中对于存储部分,在超大规模(十亿实体百亿边)知识图谱带来的存储和计算效率问题,以及边爆炸、超级节点、多点碰撞等一些在海量数据下产生的问题场景。
5、构建知识图谱引擎:图计算引擎可分为图指标和图挖掘两方面。图指标包含中介性中心度、PageRank、图直径、连通分量等指标计算,而图挖掘包含广度有限搜索、标签传播、置信传播、紧密联通子图、谱聚类、频繁子图等图挖掘算法模型。知识推理则包含基础的规则推理引擎如RDF Reasoner、OWL Reasoner、SWRL Reasoner等,以及基于机器学习、深度学习的推理挖掘模型,如基于路径排序算法的关系发现、基于知识图谱的文本语义分析、基于一阶元路径约束的聚类模型、基于多阶元路径相似度的文本分类、基于深度学习的图卷积网络等。
步骤二、基于深度学习的经营管理风险特征编码技术步骤
A)技术路线
深度学习的特征嵌入方法可以产生有用的特征编码,特征嵌入的本质是找到一种有效的特征表达映射方式。由于在特征嵌入的过程中加入了适量的信息(如词向量模型中加入共现信息),使得该特征表达方式比原有特征更稳健。尽管深度学习具有很强的表达性,不需要做很多的特征工程,但是大量的工业实践发现对原始特征采用合适的特征嵌入预处理,可以取得更好的预测效果。
本发明首先针对时序操作的特征编码问题,借助词向量嵌入算法的思想,将状态的时序看作词的序列关系,以解决时序状态的编码问题。然后,针对带有时序特征的图谱的特征编码问题,在时序操作的特征编码技术的基础上,把企业图谱特征嵌入其中,构造复合深度学习算法,实现更有效的风险特征编码技术。
B)具体技术方案
1、基于图3的网络结构来实现对企业时序状态的编码。本发明首先采用文本序列的流式方式处理企业时序状态,用LSTM(长短期记忆神经网络)方式对其时序做编码;然后,将每个时间切片的网络结构做图编码;最后,把输出的图编码加入到时序状态的网络中,通过双层模型的方式训练出最后的带有时序的图谱编码,如图4所示。
2、网络图数据不同于传统的数据,它不仅包含节点信息,还包含丰富的节点间关系数据,传统的机器学习算法,很难完全利用节点信息和节点间关系信息。DeepWalk可以将一个网络图中的每个节点映射成一个低维的向量,并且这些向量同时表征了网络中的节点关系信息,即在原始网络图中关系越紧密的节点对应的向量在其向量空间中距离越近。经过DeepWalk编码之后的节点向量可以比较方便的被常用的机器学习算法处理。
3、传统的社交图谱节点之间只有单一的邻居关系,而知识图谱节点和节点之间的关系是有多种不同的业务含义的,首先采用DeepWalk的图编码方式给出单一关系的图谱编码,其次,通过先验的方式,挑选出有代表性的关系,将多种关系的图谱编码拼接起来。
步骤三、基于半监督学习的经营管理风险识别技术步骤
A)技术路线
基于图的半监督学习方法计算速度快且准确性高,但由于算法时间复杂度较高,往往很难直接适用于大规模的训练数据。基于图的半监督方法具有坚实的数学理论基础,邻接关系图的构造通常需要依赖大量的领域知识,图的构造方式是半监督学习的难点和关键点。这里从全局风险知识图谱中得到样本间的相似度,构建样本邻接关系图。
基于图的半监督学习方法进行风险识别是基于“相似输入也会有相似输出”的思想,实质是标签传播。首先根据样本间的距离构造邻接关系图,样本看作图中的顶点,而样本间的关系则用顶点之间的边表示,类别标签就是通过顶点之间的边从已标记数据传播到未标记数据的。一般来说,顶点越相似,标签就越容易传播,它们的概率分布也基本相似。最终分类结果形成的分布不局限于特定的形状,更加符合数据的真实分布。
基于知识图谱提取样本的企业风险特征并对企业经营管理风险进行全面刻画。首先,可根据领域风控专家经验,将知识图谱中的风险要素(敏感实体及属性)、风险事件、风险点、风险发生规则作为低维的企业风险特征;基于知识图谱计算和知识图谱推理技术,利用异常分析、风险挖掘、因果挖掘、风险传导和不一致性验证等图谱引擎挖掘得到风险传导和风险结构等作为较高维度企业风险特征。
B)具体技术方案
基于知识图谱提取企业风险特征并对企业经营管理风险进行全面刻画,首先,可根据领域风控专家经验,将知识图谱中的风险要素(敏感实体及属性)、风险事件、风险点、风险发生规则作为低维的企业风险特征;基于知识图谱计算和知识图谱推理技术,利用异常分析、风险挖掘、因果挖掘、风险传导和不一致性验证等图谱引擎挖掘得到风险传导和风险结构等作为较高维度企业风险特征。
基于图的半监督企业经营管理风险识别流程如图5所示。一次标签传播过程可以用矩阵相乘来表示。在传播过程中,每个样本把自己的标签以概率转移矩阵T中相应的概率可能传播给另一个样本。两个样本越相似,就越容易将自己的标签赋给对方标签分布上,即更容易传播过去。而每次标签传播结束后,将已标记样本的标签置到最初状态,则是因为已标记样本的标签都是已知的,且默认是完整的、正确的标签,是不能被改变的。随着已标记数据标签的不断传播,将分类决策边界不断地从高密度数据区域,推到低密度数据区域内,也就是为样本空间划分到了不同类别。
标签传播算法过程主要可由概率转移矩阵和标签矩阵来表示,标签在传播过程中的变化都可以在标签矩阵中显现出来。因此,在算法开始之前应先构造概率转移矩阵和标签矩阵,以保证标签传播过程。
步骤四、基于特征值扰动的风险成因解释技术步骤
A)技术路线
本发明首先通过专家规则的可解释性的特征,提出能够反映专家规则和先验知识的约束项,然后将该约束项加入到风险成因解释技术(例如LIME等方法)中。然后,针对新提出的解释技术,分析其稳定性,给出减弱其稳定性的因素。通过样本的标签和特征的扰动添加方法和多次回归算法,有针对性的提出改善稳定性的方案。
B)具体技术方案
风险成因的主流程图如图6所示,分为特征预选、采样、样本扰动、局部回归、因子聚合等五个部分。
1、特征预选:利用专家经验,从所有的因子库中挑选可解释的特征,同时对于部分重要特征,专家给予正面或者负面的经验指导。
2、采样:在要解释的样本附近采样,本发明采用欧式距离加权的方式采样
3、样本扰动:为了保证模型可解释的稳定性,由于企业经营风险的标注存在一定的误差,本发明对部分样本点做随机扰动,比如修改label,或者在特征上做一定的移动
4、局部回归:对于每一个样本扰动,本发明使用预选的特征做回归,并将先验知识通过约束的方式加入到回归方程中
5、因子聚合:将每个回归方程计算得到的系数通过统计计算(如均值或者集体voting)得到最后的因子。
通过本发明的技术方案,具有以下有益效果:
1)通过构建自适应企业风险知识图谱,将企业内部工程管理、营销管理、物资管理、财务管理,以及投诉样本、法律事务、企业文化和廉政建设等不同经营管理数据中的主体和风险要素,进行多维度信息关联和知识融合。基于对风险知识图谱的高效存储和管理,通过图计算和图推理等知识图谱引擎技术,挖掘出低维的企业风险特征。企业风险知识图谱作为企业风险智能分析与预警的底层,为上层人工智能算法应用提供了坚实的数据保障和充分的风险分析支撑。
2)实现企业经营管理风险特征精确编码,基于深度学习,将知识图谱提取的风险特征和基于领域专家先验知识得到的风险特征,融合先验风险操作的时序性和图谱的演化性,提高特征抽取的精度和特征的泛化能力。
3)实现基于半监督学习的经营管理风险高效识别,通过知识图谱的全局语义信息高效构建样本的邻接关系图,并基于迭代的标签传播算法提高风险识别的精度。
4)实现基于特征值扰动的风险成因强效解释,基于模型局部可解释理论,将专家规则和先验知识融入解释因素,并基于特征扰动添加方法提高风险成因解释的稳定性。
本发明提供基于深度学习的企业内部经营管理风险识别提取系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本实施例的存储介质可以是设置在电子设备中的存储介质,电子设备可以读取存储介质的内容并实现本发明的效果。存储介质还可以是单独的存储介质,将该存储介质与电子设备连接,电子设备就可以读取存储介质里的内容并实现本发明的方法步骤。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (7)
1.一种基于深度学习的企业内部经营管理风险识别提取方法,其特征在于,包括如下步骤:
步骤一、从不同经营管理主体的经营数据和管理数据中提取风险知识数据,风险知识数据包括结构化数据和非结构化数据,调用知识图谱引擎根据风险知识数据对不同经营管理主体间进行信息关联,并生成企业图谱;
步骤二、调用基于深度学习的特征编码模块,通过将状态的时序看作词的序列关系,把企业图谱特征嵌入编码模块中,生成复合深度学习的算法,采用复合深度学习的算法从经营数据和管理数据中提取风险特征数据;
步骤三、调用基于图的半监督学习的识别模块,从风险特征数据中得到样本间的相似度,生成样本邻接关系图;
步骤四、调用特征值扰动的风险成因解释模块,从风险特征数据中提取出风险成因因素。
2.根据权利要求1所述的一种基于深度学习的企业内部经营管理风险识别提取方法,其特征在于,所述步骤一包括如下步骤:数据的清洗和治理步骤、知识表示与建模步骤、知识抽取和知识融合步骤、知识存储步骤和构建知识图谱引擎步骤;
数据的清洗和治理步骤包括:对于结构化数据和非结构化数据进行治理,对于结构化数据进行治理包括对所述经营数据和管理数据进行标准化和规范化,并对同一实体的数据进行融合、去重和消除歧义,统一进行知识表示;非结构化数据治理则包括语种识别、乱码发现、格式规整和编码转换;
知识表示与建模步骤包括:使用本体描述语言对于领域中的实体、属性、关系、事件等进行规范化描述,通过结构化的语言来定义和描述领域知识;
知识抽取和知识融合步骤包括:处理非结构化数据,包含正文提取、命名实体识别、关系抽取、实体链接与知识融合;
知识存储步骤包括:采用图数据库作为知识图谱存储的基础存储引擎,存储知识图谱到图数据库中。
3.根据权利要求1所述的一种基于深度学习的企业内部经营管理风险识别提取方法,其特征在于,所述步骤二包括如下步骤:
采用文本序列的流式方式处理企业时序状态,用长短期记忆神经网络方式对其时序做编码;
将每个时间切片的网络结构做图编码;
把输出的图编码加入到时序状态的网络中,通过双层模型的方式训练出带有时序的图谱编码。
4.根据权利要求1所述的一种基于深度学习的企业内部经营管理风险识别提取方法,其特征在于,所述步骤三包括如下步骤:
根据样本间的距离构造邻接关系图,样本作为图中的顶点,而样本间的关系则用顶点之间的边表示,类别标签为通过顶点之间的边从已标记数据传播到未标记数据的。
5.根据权利要求1所述的一种基于深度学习的企业内部经营管理风险识别提取方法,其特征在于,所述步骤四包括如下步骤:特征预选步骤、采样步骤、样本扰动步骤、局部回归步骤和因子聚合步骤;
特征预选步骤包括:从风险知识数据中挑选可解释的特征;
采样步骤包括:在要解释的样本附近采样;
样本扰动步骤包括:对部分样本做随机扰动;
局部回归步骤包括:对于每一个样本扰动,使用预选的特征做回归,并将先验知识通过约束的方式加入到回归方程中;
因子聚合步骤包括:将每个回归方程计算得到的系数通过统计计算得到最后的因子,所述因子为风险成因因素。
6.根据权利要求5所述的一种基于深度学习的企业内部经营管理风险识别提取方法,其特征在于,所述采样步骤包括:采用欧式距离加权的方式进行采样。
7.一种基于深度学习的企业内部经营管理风险识别提取系统,其特征在于:包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到6任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343570.2A CN112463981A (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343570.2A CN112463981A (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463981A true CN112463981A (zh) | 2021-03-09 |
Family
ID=74808406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011343570.2A Pending CN112463981A (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463981A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222610A (zh) * | 2021-05-07 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 风险识别方法和装置 |
CN113254782A (zh) * | 2021-06-15 | 2021-08-13 | 济南大学 | 问答社区专家推荐方法及系统 |
CN113393155A (zh) * | 2021-07-02 | 2021-09-14 | 中国工商银行股份有限公司 | 一种风险成因识别方法、装置及存储介质 |
CN113449921A (zh) * | 2021-07-06 | 2021-09-28 | 中国工商银行股份有限公司 | 一种风险成因识别方法、装置及存储介质 |
CN113849659A (zh) * | 2021-08-18 | 2021-12-28 | 国网天津市电力公司 | 一种审计制度时序知识图谱的构建方法 |
CN115049316A (zh) * | 2022-08-12 | 2022-09-13 | 青岛巨商汇网络科技有限公司 | 一种经营数据的数字化管理方法 |
CN115358201A (zh) * | 2022-08-03 | 2022-11-18 | 浙商期货有限公司 | 一种期货领域的投研报告处理方法和系统 |
CN116091208A (zh) * | 2023-01-16 | 2023-05-09 | 张一超 | 基于图神经网络的信贷风险企业识别方法和装置 |
CN116304207A (zh) * | 2023-02-22 | 2023-06-23 | 中广核智能科技(深圳)有限责任公司 | 一种基于图数据库的数据关联方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100128401A (ko) * | 2009-05-28 | 2010-12-08 | (주)케이디비아이 | 기업의 위험 관리를 위한 데이터 제공 방법 및 시스템 |
CN109583620A (zh) * | 2018-10-11 | 2019-04-05 | 平安科技(深圳)有限公司 | 企业潜在风险预警方法、装置、计算机设备和存储介质 |
US20190266528A1 (en) * | 2018-02-25 | 2019-08-29 | Graphen, Inc. | System for Discovering Hidden Correlation Relationships for Risk Analysis Using Graph-Based Machine Learning |
CN110472845A (zh) * | 2019-07-30 | 2019-11-19 | 中国建设银行股份有限公司 | 风险指标估计模型的检查系统、方法及存储介质 |
CN110717816A (zh) * | 2019-07-15 | 2020-01-21 | 上海氪信信息技术有限公司 | 一种基于人工智能技术的全域金融风险知识图谱构建方法 |
CN110889556A (zh) * | 2019-11-28 | 2020-03-17 | 福建亿榕信息技术有限公司 | 一种企业经营风险预测方法和系统 |
CN111539493A (zh) * | 2020-07-08 | 2020-08-14 | 北京必示科技有限公司 | 一种告警预测方法、装置、电子设备及存储介质 |
CN111652704A (zh) * | 2020-06-09 | 2020-09-11 | 唐松 | 一种基于知识图谱和图深度学习的金融信用风险评估方法 |
-
2020
- 2020-11-26 CN CN202011343570.2A patent/CN112463981A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100128401A (ko) * | 2009-05-28 | 2010-12-08 | (주)케이디비아이 | 기업의 위험 관리를 위한 데이터 제공 방법 및 시스템 |
US20190266528A1 (en) * | 2018-02-25 | 2019-08-29 | Graphen, Inc. | System for Discovering Hidden Correlation Relationships for Risk Analysis Using Graph-Based Machine Learning |
CN109583620A (zh) * | 2018-10-11 | 2019-04-05 | 平安科技(深圳)有限公司 | 企业潜在风险预警方法、装置、计算机设备和存储介质 |
CN110717816A (zh) * | 2019-07-15 | 2020-01-21 | 上海氪信信息技术有限公司 | 一种基于人工智能技术的全域金融风险知识图谱构建方法 |
CN110472845A (zh) * | 2019-07-30 | 2019-11-19 | 中国建设银行股份有限公司 | 风险指标估计模型的检查系统、方法及存储介质 |
CN110889556A (zh) * | 2019-11-28 | 2020-03-17 | 福建亿榕信息技术有限公司 | 一种企业经营风险预测方法和系统 |
CN111652704A (zh) * | 2020-06-09 | 2020-09-11 | 唐松 | 一种基于知识图谱和图深度学习的金融信用风险评估方法 |
CN111539493A (zh) * | 2020-07-08 | 2020-08-14 | 北京必示科技有限公司 | 一种告警预测方法、装置、电子设备及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222610A (zh) * | 2021-05-07 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 风险识别方法和装置 |
CN113254782A (zh) * | 2021-06-15 | 2021-08-13 | 济南大学 | 问答社区专家推荐方法及系统 |
CN113393155A (zh) * | 2021-07-02 | 2021-09-14 | 中国工商银行股份有限公司 | 一种风险成因识别方法、装置及存储介质 |
CN113449921A (zh) * | 2021-07-06 | 2021-09-28 | 中国工商银行股份有限公司 | 一种风险成因识别方法、装置及存储介质 |
CN113849659A (zh) * | 2021-08-18 | 2021-12-28 | 国网天津市电力公司 | 一种审计制度时序知识图谱的构建方法 |
CN115358201A (zh) * | 2022-08-03 | 2022-11-18 | 浙商期货有限公司 | 一种期货领域的投研报告处理方法和系统 |
CN115358201B (zh) * | 2022-08-03 | 2023-06-20 | 浙商期货有限公司 | 一种期货领域的投研报告处理方法和系统 |
CN115049316A (zh) * | 2022-08-12 | 2022-09-13 | 青岛巨商汇网络科技有限公司 | 一种经营数据的数字化管理方法 |
CN116091208A (zh) * | 2023-01-16 | 2023-05-09 | 张一超 | 基于图神经网络的信贷风险企业识别方法和装置 |
CN116091208B (zh) * | 2023-01-16 | 2023-10-27 | 张一超 | 基于图神经网络的信贷风险企业识别方法和装置 |
CN116304207A (zh) * | 2023-02-22 | 2023-06-23 | 中广核智能科技(深圳)有限责任公司 | 一种基于图数据库的数据关联方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN112463981A (zh) | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 | |
CN112612902B (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
Lu et al. | Research on classification and similarity of patent citation based on deep learning | |
CN109241199B (zh) | 一种面向金融知识图谱发现的方法 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN116541472B (zh) | 一种医疗领域知识图谱构建的方法 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
CN114661914A (zh) | 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质 | |
Yin et al. | A deep natural language processing‐based method for ontology learning of project‐specific properties from building information models | |
Frolov et al. | Parsimonious generalization of fuzzy thematic sets in taxonomies applied to the analysis of tendencies of research in data science | |
CN117687824A (zh) | 基于质量问题知识图谱的卫星故障诊断系统 | |
Kureychik | Overview and problem state of ontology models development | |
Sanprasit et al. | A semantic approach to automated design and construction of star schemas. | |
Mitov | Class association rule mining using multidimensional numbered information spaces | |
Bova et al. | Multi-level ontological model of big data processing | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
Tang et al. | Toward detecting mapping strategies for ontology interoperability | |
Wei et al. | A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing | |
Nagarajan et al. | Efficiency Improvisation of Large-Scale Knowledge Systems in Feature Determination using Proposed HVGAN Architecture | |
Fu et al. | Prediction of hot topics of agricultural public opinion based on attention mechanism LSTM model | |
Chen | English translation template retrieval based on semantic distance ontology knowledge recognition algorithm | |
d’Amato | Mining the Semantic Web with Machine Learning: Main Issues that Need to Be Known | |
Zhou et al. | Spatiotemporal data cleaning and knowledge fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |
|
RJ01 | Rejection of invention patent application after publication |