CN117893019A - 投放企业信息化管控系统及操作风险管控方法 - Google Patents

投放企业信息化管控系统及操作风险管控方法 Download PDF

Info

Publication number
CN117893019A
CN117893019A CN202410074117.8A CN202410074117A CN117893019A CN 117893019 A CN117893019 A CN 117893019A CN 202410074117 A CN202410074117 A CN 202410074117A CN 117893019 A CN117893019 A CN 117893019A
Authority
CN
China
Prior art keywords
data
migration
risk
value
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410074117.8A
Other languages
English (en)
Inventor
胡恒
吕韬
邹宇婷
罗乾荻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Industrial Investment Development Co ltd
Original Assignee
Guizhou Industrial Investment Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Industrial Investment Development Co ltd filed Critical Guizhou Industrial Investment Development Co ltd
Priority to CN202410074117.8A priority Critical patent/CN117893019A/zh
Publication of CN117893019A publication Critical patent/CN117893019A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术,提供了一种投放企业信息化管控系统的操作风险管控方法,包括:获取投放企业信息化管控系统的业务数据;对所述业务数据进行潜在风险评估,所述潜在风险包括数据上线切换风险、数据稽查风险和数据清洗风险;若所述业务数据具有数据清洗风险,则对所述业务数据进行数据清洗和标准化处理;若所述业务数据具有数据上线切换风险,则制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作;若所述业务数据具有数据稽查风险,则利用人工智能技术对所述业务数据进行自动稽查。

Description

投放企业信息化管控系统及操作风险管控方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种投放企业信息化管控系统及操作风险管控方法。
背景技术
当前,随着信息化技术的发展,企业信息化管控系统的数量逐渐增多,行业涵盖范围广泛,业务板块复杂多样。这导致风险管控成为一个紧迫的问题,尤其是在组织协调、数据准备、上线切换、后续运行维护、线下稽核团队等环节。传统的风险管理手段往往依赖于人工经验,效率低下,难以满足当前的需求。
发明内容
本申请提供了一种投放企业信息化管控系统及操作风险管控方法,为解决现有技术中投放企业管控效率低且风险管控能力弱的问题。
鉴于上述问题,本申请提供了一种投放企业信息化管控系统及操作风险管控方法。
一种投放企业信息化管控系统的操作风险管控方法,包括:
获取投放企业信息化管控系统的业务数据;
对所述业务数据进行潜在风险评估,所述潜在风险包括数据上线切换风险、数据稽查风险和数据清洗风险;
若所述业务数据具有数据清洗风险,则对所述业务数据进行数据清洗和标准化处理;
若所述业务数据具有数据上线切换风险,则制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作;
若所述业务数据具有数据稽查风险,则利用人工智能技术对所述业务数据进行自动稽查。
可选地,对所述业务数据进行潜在风险评估,包括:
获取历史业务数据,并进行预处理,将所述历史业务数据整理成序列数据;
对所述序列数据进行风险类型和风险等级的标注;
构建循环神经网络RNN模型并初始化;
将所述序列数据输入所述RNN模型中进行训练;
将训练后的RNN模型对所述业务数据进行风险评估,输出风险类型和风险等级。
可选地,对所述业务数据进行数据清洗和标准化处理,包括:
对所述业务数据进行质量检查,识别出缺失值、异常值和重复值;
对所述缺失值进行填充,对所述异常值进行校正,对所述重复值进行删除;
将所述业务数据的格式和度量单位统一化,其中,对于非数值型数据,转换为数值型数据。
可选地,制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作,包括:
确定数据迁移需求;
选择数据迁移工具;
将所述业务数据的格式转换为目标系统的数据格式;
测试数据迁移;
若测试数据迁移成功,进行正式的数据迁移;
在迁移成功后,进行数据校验。
可选地,测试数据迁移之后,所述方法还包括:
计算测试的迁移数据的基本统计量,所述基本统计量包括均值、中位数、标准差、最小值和最大值;
对所述测试的迁移数据进行可视化分析;
验证迁移前后的数据的均值误差;
若均值误差小于预设阈值,则针对所述测试的迁移数据的基本统计量计算置信区间;
使用IQR或Z-score方法检测所述测试迁移数据中的异常值或离群点。
可选地,针对所述测试迁移数据的基本统计量计算置信区间,包括:
设置置信度;
从所述测试的迁移数据中计算样本的基本统计量;
将样本设定为正态分布或t分布;
若设定为正态分布,则查找z分数,若设定为t分布,则查找t分数;
计算置信区间:
对于正态分布,置信区间为
对于t分布,置信区间为
其中,为样本均值,s为样本标准差,z为z分数,t为t分数,n为样本数量。
可选地,若测试数据迁移成功,进行正式的数据迁移,包括:
确定迁移数据的大小、增长速度以及迁移目标;
利用Apache Kafka工具设置实时迁移策略,并应用主成分分析PCA对所述迁移数据进行数据简化操作;
设置同步触发器,当有数据更新或新增时自动启动所述触发器,将更新或新增的数据标记为待同步;
使用CDC工具捕获数据变化情况;
利用Apache Kafka进行数据传输,并监控数据同步情况;
其中,应用主成分分析对所述迁移数据进行数据简化操作,包括:
对所述迁移数据进行标准化处理,以使得所述迁移数据的每个特征具有零均值和单位方差;
基于标准化后的迁移数据,计算协方差矩阵;
计算协方差矩阵的特征值和特征向量;
根据特征值的大小,选择前k个主成分,其中k为自定义自然数;
使用选择的主成分将原始数据转换到新建的特征空间中。
可选地,利用人工智能技术对所述业务数据进行自动稽查,包括:
设计LSTM模型的网络结构,所述LSTM包括输入层、LSTM层、全连接层和输出层;
使用样本训练集对LSTM模型进行训练;
使用样本验证集对训练后的LSTM模型进行验证;
将所述LSTM模型进行部署,并将所述业务数据输入至所述LSTM模型,输出自动稽查结果。
可选地,使用样本训练集对LSTM模型进行训练,包括:
初始化LSTM模型店参数;
定义损失函数、优化器和学习率;
使用所述样本训练集对LSTM模型进行训练;
根据验证指标的表现,进行超参数的调整。
本申请实施例还提供一种投放企业信息化管控系统,所述系统内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例针对投资的企业信息化管控系统特点,即数量多、行业复杂、业务板块多、区域范围广,提出了一套完整的操作风险管控方法。该方案着重对组织协调、数据准备、上线切换、后续运行维护、线下稽核团队的操作风险进行规避,采用先进的技术手段,如深度学习、人工智能和大数据技术,确保整体风险处于可控状态,提升了管理效率和风险管控的能力。
附图说明
图1为本申请提供的投放企业信息化管控系统的操作风险管控方法流程示意图;
图2为本申请提供的对业务数据进行潜在风险评估的细化流程图;
图3为本申请提供对对业务数据进行数据清洗和标准化处理的流程图;
图4为本申请提供的制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作流程图;
图5为本申请提供的利用人工智能技术对所述业务数据进行自动稽查的细化流程图;
图6为本申请提供的投放企业信息化管控系统结构示意图。
具体实施方式
本申请实施例针对投资的企业信息化管控系统特点,即数量多、行业复杂、业务板块多、区域范围广,提出了一套完整的操作风险管控方法。该方案着重对组织协调、数据准备、上线切换、后续运行维护、线下稽核团队的操作风险进行规避,采用先进的技术手段,如深度学习、人工智能和大数据技术,确保整体风险处于可控状态,提升了管理效率和风险管控的能力。
实施例一
如图1所示,本申请提供了一种投放企业信息化管控系统的操作风险管控方法,包括:
S101.获取投放企业信息化管控系统的业务数据;
投放企业是指被投资企业,这类企业每天都会产生不同的业务数据,因此,对于投资企业而言,需要了解所有的被投资企业的信息,才能够更好的进行企业发展的评估。
因此,管控系统需要获取到不同的业务数据进行分析,具体的,收集与企业信息化管控系统相关的所有数据,包括但不限于系统日志、用户反馈、历史事故记录等。此外,在获取到不同企业的业务数据之前,企业都已经书面同意将该部分数据分享给投资企业。
S102.对所述业务数据进行潜在风险评估,所述潜在风险包括数据上线切换风险、数据稽查风险和数据清洗风险;
由于不同企业的行业不同,经营情况不同,因此存在着不同的业务风险,需要采用数据分析技术,对不同企业的不同业务数据进行潜在的风险评估,一次来识别存在的隐患或风险点。此外,还需要将不同的潜在问题均进行记录,为后续的风险分级分类和评估提供数据支持。
在本申请实施例中,如图2,对所述业务数据进行潜在风险评估,包括步骤A1-A5:
A1.获取历史业务数据,并进行预处理,将所述历史业务数据整理成序列数据;
历史业务数据即以前收集的各类企业数据,其目的是用于训练风险评估模型RNN。此外,根据RNN的特点,预先将数据整理成序列形式,如时间序列数据。
A2.对所述序列数据进行风险类型和风险等级的标注;
根据企业的实际业务情况,定义并标注风险的影响程度和性的指标,并基于不同的指标进行风险等级的划分,常用的风险等级可以划分为高风险、中风险和低风险。
在本发明实施例中,风险类型可以是如下三类,即:数据上线切换风险、数据稽查风险和数据清洗风险。其中,数据上线切换风险表示数据需要进行迁移这一目标下存在的风险,例如非结构化数据不能顺利实现迁移、数据丢失等风险,数据稽查风险则是数据需要稽查过程中出现了数据核对有误的风险,而数据清洗风险这是数据没有办法清洗成功或掺杂了无效或伪数据。
A3.构建循环神经网络RNN模型并初始化;
构建一个基本RNN模型,如基础的RNN模型、LSTM(长短时记忆网络)模型和GRU(门控循环单元)模型。
对RNN的权重和偏置进行初始化,可以选择如随机初始化、Xavier初始化等方法。
选择合适的损失函数,如交叉熵损失、均方误差等,根据具体的评估目标来确定。
选择优化器,如Adam、SGD等,并设置学习率、衰减因子等参数。
A4.将所述序列数据输入所述RNN模型中进行训练;
将准备好的序列数据输入RNN模型。
在每个训练周期(epoch)中,进行前向传播计算输出,然后通过损失函数计算误差。
利用选择的优化器进行反向传播,更新模型的权重和偏置。
重复上述步骤,直至模型收敛或达到预设的训练周期数。
将模型在独立的验证集和测试集上进行验证,确保模型的泛化能力和准确性。
A5.将训练后的RNN模型对所述业务数据进行风险评估,输出风险类型和风险等级。
利用训练好的RNN模型,对新的业务数据进行风险评估,输出风险等级和的影响。
以制造业企业为例:
步骤1:制造业企业数据收集:
针对制造业的特点,收集与生产线、供应链、产品质量、机器故障等相关的数据,并预先进行风险等级和类型等信息的标注。
步骤2:数据转换为RNN可接受的格式:
将制造业企业的数据整理成时间序列形式,以便输入到RNN模型中。
步骤3:利用RNN模型进行风险评估:
将整理好的数据输入之前训练好的RNN模型。
模型会输出每个时间点的风险评估结果,例如:生产线的故障风险、供应链的延迟风险等。
根据RNN模型的输出结果,生成详细的风险评估报告,指出的风险点、风险级别及建议的风险防范措施。
示例性地,制造业企业风险评估报告如下:
1.报告摘要:
本报告对「典型制造业企业名称」进行了全面的风险评估,使用了基于LSTM的深度学习模型,评估了该企业在制造、供应链、销售等关键环节的潜在风险。
2.数据来源与处理:
本次评估使用的数据来源于企业的内部系统,包括生产数据、销售数据、供应链数据等。数据经过预处理,包括清洗、去噪、归一化等。
3.风险评估结果:
生产环节:预测出潜在的设备故障率较高的生产线,导致生产中断。
供应链环节:某些供应商的供货稳定性存在问题,影响生产进度。
销售环节:某些销售渠道的销售数据存在异常,需进一步调查。
4.风险等级分类:
根据风险的影响程度和发生概率,将风险分为:高、中、低三个等级。
高风险:生产线的设备故障。
中风险:供应商供货不稳。
低风险:销售数据异常。
5.推荐的风险应对措施:
生产环节:增加备用设备,定期维护检查。
供应链环节:多渠道采购,建立备选供应商名单。
销售环节:加强销售数据审核,及时沟通调查。
6.总结:
通过深度学习模型,本发明实施例对「典型制造业企业名称」的风险进行了系统的评估,希望该评估报告能为企业提供有价值的参考,帮助企业做好风险防范工作。
具体示例:
假设有一个制造汽车零部件的企业。该企业近期发现供应链中的某些环节出现了延迟,导致生产线停滞。为了评估这种情况带来的风险,企业决定采用RNN模型进行风险评估。
首先,企业收集了过去一年内与供应链、生产线、产品质量等相关的数据。然后,这些数据被整理成时间序列形式,并输入到RNN模型中。模型对每个时间点的数据进行评估,输出了的风险点和风险级别。
根据模型的输出,企业发现供应链中的某个供应商经常出现延迟,导致生产线停滞的风险增大。为了防范这种风险,企业决定与该供应商进行沟通,或寻找其他的供应商作为替代。
S103.若所述业务数据具有数据清洗风险,则对所述业务数据进行数据清洗和标准化处理;
对数据进行清洗的目的是:确保数据的质量和准确性。可以利用数据统一化技术,确保各个业务板块的数据格式和结构统一。
然而对于企业的业务数据而言,由于不同企业的数字化程度不同,个别企业数据缺失,甚至只是通过线下记录在纸上的方式进行敏感数据记录,会出现缺失值、异常值、重复值的问题,定义其具有数据清洗风险。
本发明实施例中,对所述业务数据进行数据清洗和标准化处理,如图3,包括步骤B1-B3:
B1.对所述业务数据进行质量检查,识别出缺失值、异常值和重复值;
B2.对所述缺失值进行填充,对所述异常值进行校正,对所述重复值进行删除;
B3.将所述业务数据的格式和度量单位统一化,其中,对于非数值型数据,转换为数值型数据。如采用One-Hot编码、标签编码等方法。
S104.若所述业务数据具有数据上线切换风险,则制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作;
本发明实施例中,制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作,如图4,包括步骤C1-C6:
C1.确定数据迁移需求;
分析现有数据的结构、大小以及目标系统的要求,确定数据迁移的具体需求。
C2.选择数据迁移工具;
根据数据的来源和目标系统,选择合适的数据迁移工具,如ETL工具、数据库迁移工具等。
C3.将所述业务数据的格式转换为目标系统的数据格式;
如果源数据和目标系统的数据格式或结构不同,需要进行数据转换。例如,XML转换为JSON,关系型数据库转换为NoSQL数据库等。
C4.测试数据迁移;
在正式迁移之前,首先在测试环境中进行数据迁移,确保数据的完整性、准确性和性能。
可选地,测试数据迁移之后,所述方法还包括:
C41.计算测试的迁移数据的基本统计量,所述基本统计量包括均值、中位数、标准差、最小值和最大值,为后续分析提供基础;
C42.对所述测试的迁移数据进行可视化分析;
利用直方图、盒图等方法,对迁移数据的分布进行可视化,直观地了解数据的形状和特点。
C43.验证迁移前后的数据的均值误差;
检验迁移前后数据的均值是否存在显著差异,验证数据迁移过程中是否引入了偏差。
C44.若均值误差小于预设阈值,则针对所述测试的迁移数据的基本统计量计算置信区间;
在统计学中,置信区间是用来估计某个未知参数的一个区间范围。例如,当本发明实施例想要估计迁移数据的平均值时,而不是给出一个单一的数值,本发明实施例可以提供一个区间,并声称这个区间以一定的置信度包含真实的平均值。
以下是计算置信区间的步骤:
步骤C441:选择置信度:
确定本发明实施例希望的置信度,常见的置信度有90%、95%、99%等。例如,95%的置信度意味着在多次采样中,95%的样本的置信区间将包含总体参数。
步骤C442:计算样本统计量:
从迁移数据中计算样本均值和样本标/准差(s)。
步骤C443:确定分布类型:
如果样本量大(通常n>30被认为是大样本),那么可以使用正态分布。
如果样本量小((n小于等于30被认为是大样本)),并且数据来源于正态分布,那么应使用t分布。
步骤C444:查找临界值:
对于正态分布,查找z分数;对于t分布,查找t分数。这些值与所选择的置信度相关。
步骤C445:计算置信区间:
·对于大样本(正态分布):
·对于小样本(t分布):
步骤C446:报告结果:
根据上述计算,得到一个区间,如(a,b),表示在所选择的置信度下,即相信真实的参数值落在这个区间内。
C45.使用IQR或Z-score方法检测所述测试迁移数据中的异常值或离群点。
异常值检测是识别与大多数其他观测值显著不同的观测值的过程。这些点是由于仪器误差、数据处理错误或其他未知原因引起的,并对数据分析造成偏差。
以下是使用统计学方法进行异常值检测的步骤:
步骤C45.1:绘制数据分布图:
使用箱线图或散点图对数据进行可视化,直观地查看的异常值。
步骤C45.2:IQR方法:
步骤C45.2.1:计算四分位数:
Q1(第一四分位数)是数据的25%分位数,Q3(第三四分位数)是数据的75%分位数。
步骤C45.2.2:计算IQR:
IQR(四分位距)=Q3 Q1
步骤C45.2.3:确定异常值范围:
下界=Q11.5 x IQR
上界=Q3+1.5 x IQR
超出这个范围的任何数据点都被视为异常值。
步骤C45.3:Z分数方法:
步骤C45.3.1:计算平均值和标准差:
对整个数据集计算平均值μ和标准差σ。
步骤C45.3.2:计算Z分数:
对每一个数据点,计算其Z分数:
其中X是数据点的值。
步骤C45.3.3:确定异常值:
通常,具有Z分数大于3或小于-3的数据点被视为异常值。
将所有检测到的异常值记录下来,并考虑进一步的处理,如删除、替换或保留并标记为特殊情况。并根据上述统计分析结果,编写数据质量确认报告,包括数据的基本统计量、数据分布、异常值检测结果等,为后续的数据迁移提供决策支持。
在C45中,在监测出异常值后,可以采用贝叶斯定理应对数据的异常值。
使用贝叶斯定理应对数据损坏或丢失,具体包括:
步骤1:建立先验概率:
根据历史数据迁移的经验,估计数据损坏或丢失的先验概率。
步骤2:计算似然概率:
当数据迁移完成后,检查数据完整性,计算在给定数据迁移结果下,数据损坏或丢失的似然概率。
步骤2.1:定义事件A与事件B:
事件A:数据损坏或丢失。
事件B:观察到的数据迁移结果。
步骤2.2:搜集历史数据:
收集之前的数据迁移经验,统计在数据损坏或丢失的情况下,各种迁移结果的出现次数。
步骤2.3:计算条件概率:
根据历史数据,计算在数据损坏或丢失的情况下,出现当前数据迁移结果的概率,即似然概率P(B|A)。
步骤2.4:考虑其他因素:
若有其他外部因素影响数据迁移结果,需要将这些因素考虑在内,对似然概率进行调整。
步骤2.5:记录似然概率:
将计算出的似然概率记录下来,为后续的贝叶斯分析提供数据支持。
步骤3:更新后验概率:
使用贝叶斯公式,结合先验概率和似然概率,更新数据损坏或丢失的后验概率。
步骤3.1:计算贝叶斯公式:
使用公式P(A|B)=P(B|A)\[P(A)P(B)],其中:
P(A|B)是后验概率,即在给定数据迁移结果下,数据损坏或丢失的概率。
P(B|A)是似然概率,即在数据损坏或丢失的情况下,观察到当前数据迁移结果的概率。
P(A)是先验概率,即数据损坏或丢失的原始概率。
P(B)是边缘概率,即观察到当前数据迁移结果的总概率。
步骤3.2:插入已知数值:
将从步骤1和步骤2得到的先验概率和似然概率代入贝叶斯公式,计算后验概率。
步骤3.3:解析结果:
如果后验概率显著增加,这意味着在考虑了数据迁移的结果后,数据损坏或丢失的性变得更大。
步骤3.4:记录后验概率:
将计算出的后验概率记录下来,用于后续的风险决策和应对。
步骤4:决策与应对:
如果后验概率超过某个阈值,说明数据有较大风险损坏或丢失,需要采取措施,如回滚数据迁移、重新迁移、或使用备份数据进行恢复。
步骤5:持续监控与调整:
在后续的数据迁移中,持续使用贝叶斯方法进行风险评估,根据新的数据迁移经验不断调整先验概率,提高风险应对的准确性。
C5.若测试数据迁移成功,进行正式的数据迁移;
包括:
C51.确定迁移数据的大小、增长速度以及迁移目标;
本发明实施例将利用大数据技术,如Hadoop、Spark等,对大量的动态数据进行高效的迁移和存储,确保数据的完整性和安全性。
在开始迁移前,分析当前数据的规模、增长速度以及迁移的目标,以确定迁移的具体需求和策略。
C52.利用Apache Kafka工具设置实时迁移策略,并应用主成分分析PCA对所述迁移数据进行数据简化操作;
根据数据的特点和迁移的目标,选择合适的大数据迁移工具,如Apache Kafka、Apache Nifi等。优选地,采用Apache Kafka作为迁移工具,并根据数据的特点、迁移工具的能力以及迁移的目标,设计详细的数据迁移策略。
其中,应用主成分分析对所述迁移数据进行数据简化操作,通过应用PCA,本发明实施例可以大大简化数据的维度,从而减少数据同步过程中的数据损坏或丢失的风险。同时,PCA还能保留数据中的主要变异,使得简化后的数据仍然具有较高的信息价值。具体包括:
C521.对所述迁移数据进行标准化处理,以使得所述迁移数据的每个特征具有零均值和单位方差;
在应用PCA之前,需要确保数据的每个属性(或称为特征)具有零均值和单位方差。
C522.基于标准化后的迁移数据,计算协方差矩阵;
具体的,选择数据属性:从数据集中选择需要进行PCA的属性或特征。
计算每对属性之间的协方差,并将所有属性对之间的协方差值组成一个矩阵。
C523.计算协方差矩阵的特征值和特征向量;
使用线性代数的方法,如QR算法或幂方法,计算协方差矩阵的特征值和特征向量。
将计算出的特征值按降序排列。排在前面的特征值对应的特征向量能够捕获数据中的更多变异。
根据排序后的特征值选择对应的特征向量,这些特征向量将作为新的特征空间的基。
C524.根据特征值的大小,选择前k个主成分,其中k为自定义自然数;
根据特征值的大小,选择前k个主成分,其中k远小于原始特征的数量,但可以捕获大部分数据的变异。
根据应用的需要,决定要保留的数据的信息量(例如,保留原始数据的95%的方差)。对排序后的特征值进行累加,直到达到所需的信息量。根据累计方差选择对应数量的特征向量作为主成分。
C525.使用选择的主成分将原始数据转换到新建的特征空间中。
将选择的特征向量组成一个矩阵,这个矩阵将用于将原始数据投影到新的特征空间。
将原始数据与投影矩阵相乘,得到投影后的数据。
将投影后的数据保存起来,用于后续的分析或其他操作,例如,将PCA简化后的数据同步到目标系统。
C53.设置同步触发器,当有数据更新或新增时自动启动所述触发器,将更新或新增的数据标记为待同步;
在源数据系统中设置触发器,当有数据更新或新增时,触发器自动启动,将这部分数据标记为待同步。
C54.使用CDC工具捕获数据变化情况;
使用Change Data Capture(CDC)工具或技术,捕获源数据系统中的数据变化,如新增、修改、删除的数据。
C55.利用Apache Kafka进行数据传输,并监控数据同步情况;
将捕获到的数据变化通过数据传输工具或中间件,如Apache Kafka,传输到目标系统。并进行监控。
C6.在迁移成功后,进行数据校验。
此外,C5还可以采用最短路径算法进行数据迁移,包括如下步骤:
步骤H1:建立迁移流程图:
基于数据迁移的整体流程,将每一个步骤和操作作为一个节点,将每一个操作之间的转换作为一个边,并为每一个边赋予一个权重,代表从一个操作转到另一个操作的难易度或成本。
基于数据迁移的整体流程,将每一个步骤和操作作为一个节点,将每一个操作之间的转换作为一个边,并为每一个边赋予一个权重,代表从一个操作转到另一个操作的难易度或成本。
假设本发明实施例有一个简化的数据迁移流程,包括以下步骤:
1.数据备份(节点A)
2.数据清洗(节点B)
3.数据转换(节点C)
4.数据同步(节点D)
5.数据验证(节点E)
6.数据迁移完成(节点F)
流程中,每一步都因为某些原因导致失败,例如数据清洗中会出现不可识别的格式,数据同步中因为网络问题导致失败等。
本发明实施例可以将这些步骤视为迁移流程图中的节点。每一个节点之间的边代表从一个步骤转移到下一个步骤。边的权重可以基于过去的经验或者某些评估方法来设定,表示从一个步骤转移到另一个步骤的难易度或成本。
例如,从节点A到节点B的边的权重是2,意味着进行数据备份到数据清洗的转换相对简单。但从节点B到节点C的边的权重是5,因为数据清洗后的数据转换会涉及到复杂的格式转换和数据结构调整。
当在数据迁移过程中出现异常时,例如在节点B出现了数据清洗异常,本发明实施例可以使用最短路径算法,从节点B找到一个到节点F的最短路径,这条路径代表了处理异常后的最佳迁移策略。
步骤H2:检测异常:
在数据迁移过程中,通过监控和日志记录来检测出现的异常。
步骤H3:应用最短路径算法:
当检测到异常时,找到当前操作的节点,然后使用最短路径算法(如Dijkstra算法)找到从当前节点到成功完成数据迁移的最短路径。这个路径代表了处理异常后最佳的迁移策略。
步骤H3.1:定义起始和终止节点:
在迁移流程图中,当前异常出现的位置被定义为起始节点,而迁移完成的状态为终止节点。
步骤H3.2:初始化节点状态:
为每个节点分配一个临时的最短路径值。起始节点的值设为0,因为本发明实施例从这里开始,其他所有节点的值设为无穷大,表示本发明实施例还不知道从起始节点到这些节点的最短路径。
步骤H3.3:使用Dijkstra算法计算最短路径:
从当前未处理的节点中选择一个具有最小临时路径值的节点。
更新该节点的所有邻居节点。如果从当前节点到某个邻居的距离加上当前节点的最短路径值小于这个邻居的现有值,那么更新这个邻居的值。
标记当前节点为已处理。
重复这个过程,直到所有节点都被处理,或者终止节点被标记为已处理。
步骤H3.4:回溯最短路径:
从终止节点开始,回溯到起始节点,找到完整的最短路径。
步骤H3.5:记录最短路径策略:
将计算出的最短路径以及对应的操作和步骤记录下来,以备在实际处理异常时使用。
步骤H4:实施异常处理策略:
根据计算出的最短路径,按照路径上的每一个步骤和操作来处理异常,并继续数据迁移。
步骤H5:验证结果:
在处理完异常后,验证数据的完整性和准确性,确保数据迁移的成功。
S105.若所述业务数据具有数据稽查风险,则利用人工智能技术对所述业务数据进行自动稽查。
具体而言,本发明中,根据特定行业(如养殖企业),制定不同的企业信息获取方案和企业风控方案,确保稽查的高效和准确。
一方面,需要根据企业的业务需求和风险管理策略,明确稽查的目标和关键指标。,另一方面,需要根据稽查的具体需求和数据特点,选择合适的AI模型,如分类模型、聚类模型、时间序列分析模型等。
利用人工智能技术对所述业务数据进行自动稽查,如图5,包括:
步骤D1:设计LSTM模型的网络结构,所述LSTM包括输入层、LSTM层、全连接层和输出层;
步骤D2:使用样本训练集对LSTM模型进行训练;
步骤D3:使用样本验证集对训练后的LSTM模型进行验证;
步骤D4:将所述LSTM模型进行部署,并将所述业务数据输入至所述LSTM模型,输出自动稽查结果。
可选地,使用样本训练集对LSTM模型进行训练,包括:
初始化LSTM模型店参数;
定义损失函数、优化器和学习率;
使用所述样本训练集对LSTM模型进行训练;
根据验证指标的表现,进行超参数的调整。
示例:养殖企业的稽查
步骤1:了解养殖企业的业务特点:
对养殖企业的主要业务流程、产量、销售、供应链等关键环节进行深入了解。
步骤2:确定信息获取的关键点:
针对养殖企业,确定信息获取的关键点,如饲料使用、动物健康状况、销售渠道等。
步骤3:制定企业信息获取方案:
根据养殖企业的特点,制定详细的信息获取方案,例如:
通过物联网设备实时监测动物的健康状况。
通过供应链管理系统,追踪饲料来源和质量。
利用AI技术,对销售数据进行预测和分析。
步骤4:制定企业风控方案:
根据信息获取的结果,制定针对养殖企业的风控方案,例如:
对于检测到的动物健康问题,及时隔离并处理,防止疾病扩散。
对于饲料质量问题,及时更换供应商,确保动物的健康和产品的安全。
利用AI技术,对销售渠道进行风险评估,避免潜在的销售风险。
步骤5:持续监控和优化:
利用AI技术,持续监控养殖企业的业务数据,发现潜在的风险,并及时进行调整和优化。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例针对投资的企业信息化管控系统特点,即数量多、行业复杂、业务板块多、区域范围广,提出了一套完整的操作风险管控方法。该方案着重对组织协调、数据准备、上线切换、后续运行维护、线下稽核团队的操作风险进行规避,采用先进的技术手段,如深度学习、人工智能和大数据技术,确保整体风险处于可控状态,提升了管理效率和风险管控的能力。
实施例二
基于与前述实施例中投后管理方法相同的发明构思,本申请还提供了一种计算机可读存储介质和/或系统,所述计算机可读存储介质和/或系统上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一内的方法。
实施例三
本发明实施例还提供了投放企业信息化管控系统6000,如图6所示,包括存储器64和处理器61,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。在实际应用中,系统还可以分别包含必要的其他元件,包含但不限于任意数量的输入系统62、输出系统63、处理器61、控制器、存储器64等,而所有可以实现本申请实施例的方法都在本申请的保护范围之内。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(readonly memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read only memory,CD至ROM),该存储器用于相关指令及数据。
输入系统62用于输入数据和/或信号,以及输出系统63用于输出数据和/或信号。输出系统63和输入系统62可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatiledisc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。

Claims (10)

1.一种投放企业信息化管控系统的操作风险管控方法,其特征在于,包括:
获取投放企业信息化管控系统的业务数据;
对所述业务数据进行潜在风险评估,所述潜在风险包括数据上线切换风险、数据稽查风险和数据清洗风险;
若所述业务数据具有数据清洗风险,则对所述业务数据进行数据清洗和标准化处理;
若所述业务数据具有数据上线切换风险,则制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作;
若所述业务数据具有数据稽查风险,则利用人工智能技术对所述业务数据进行自动稽查。
2.根据权利要求1所述的方法,其特征在于,对所述业务数据进行潜在风险评估,包括:
获取历史业务数据,并进行预处理,将所述历史业务数据整理成序列数据;
对所述序列数据进行风险类型和风险等级的标注;
构建循环神经网络RNN模型并初始化;
将所述序列数据输入所述RNN模型中进行训练;
将训练后的RNN模型对所述业务数据进行风险评估,输出风险类型和风险等级。
3.根据权利要求1所述的方法,其特征在于,对所述业务数据进行数据清洗和标准化处理,包括:
对所述业务数据进行质量检查,识别出缺失值、异常值和重复值;
对所述缺失值进行填充,对所述异常值进行校正,对所述重复值进行删除;
将所述业务数据的格式和度量单位统一化,其中,对于非数值型数据,转换为数值型数据。
4.根据权利要求1所述的方法,其特征在于,制定数据上线迁移策略,并基于所述数据上线迁移策略进行数据上线操作,包括:
确定数据迁移需求;
选择数据迁移工具;
将所述业务数据的格式转换为目标系统的数据格式;
测试数据迁移;
若测试数据迁移成功,进行正式的数据迁移;
在迁移成功后,进行数据校验。
5.根据权利要求4所述的方法,其特征在于,测试数据迁移之后,所述方法还包括:
计算测试的迁移数据的基本统计量,所述基本统计量包括均值、中位数、标准差、最小值和最大值;
对所述测试的迁移数据进行可视化分析;
验证迁移前后的数据的均值误差;
若均值误差小于预设阈值,则针对所述测试的迁移数据的基本统计量计算置信区间;
使用IQR或Z-score方法检测所述测试迁移数据中的异常值或离群点。
6.根据权利要求5所述的方法,其特征在于,针对所述测试迁移数据的基本统计量计算置信区间,包括:
设置置信度;
从所述测试的迁移数据中计算样本的基本统计量;
将样本设定为正态分布或t分布;
若设定为正态分布,则查找z分数,若设定为t分布,则查找t分数;
计算置信区间:
对于正态分布,置信区间为
对于t分布,置信区间为
其中,为样本均值,s为样本标准差,z为z分数,t为t分数,n为样本数量。
7.根据权利要求4所述的方法,其特征在于,若测试数据迁移成功,进行正式的数据迁移,包括:
确定迁移数据的大小、增长速度以及迁移目标;
利用Apache Kafka工具设置实时迁移策略,并应用主成分分析PCA对所述迁移数据进行数据简化操作;
设置同步触发器,当有数据更新或新增时自动启动所述触发器,将更新或新增的数据标记为待同步;
使用CDC工具捕获数据变化情况;
利用Apache Kafka进行数据传输,并监控数据同步情况;
其中,应用主成分分析对所述迁移数据进行数据简化操作,包括:
对所述迁移数据进行标准化处理,以使得所述迁移数据的每个特征具有零均值和单位方差;
基于标准化后的迁移数据,计算协方差矩阵;
计算协方差矩阵的特征值和特征向量;
根据特征值的大小,选择前k个主成分,其中k为自定义自然数;
使用选择的主成分将原始数据转换到新建的特征空间中。
8.根据权利要求1所述的方法,其特征在于,利用人工智能技术对所述业务数据进行自动稽查,包括:
设计LSTM模型的网络结构,所述LSTM包括输入层、LSTM层、全连接层和输出层;
使用样本训练集对LSTM模型进行训练;
使用样本验证集对训练后的LSTM模型进行验证;
将所述LSTM模型进行部署,并将所述业务数据输入至所述LSTM模型,输出自动稽查结果。
9.根据权利要求8所述的方法,其特征在于,使用样本训练集对LSTM模型进行训练,包括:
初始化LSTM模型店参数;
定义损失函数、优化器和学习率;
使用所述样本训练集对LSTM模型进行训练;
根据验证指标的表现,进行超参数的调整。
10.一种投放企业信息化管控系统,其特征在于,所述系统内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一方法的步骤。
CN202410074117.8A 2024-01-18 2024-01-18 投放企业信息化管控系统及操作风险管控方法 Pending CN117893019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410074117.8A CN117893019A (zh) 2024-01-18 2024-01-18 投放企业信息化管控系统及操作风险管控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410074117.8A CN117893019A (zh) 2024-01-18 2024-01-18 投放企业信息化管控系统及操作风险管控方法

Publications (1)

Publication Number Publication Date
CN117893019A true CN117893019A (zh) 2024-04-16

Family

ID=90644295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410074117.8A Pending CN117893019A (zh) 2024-01-18 2024-01-18 投放企业信息化管控系统及操作风险管控方法

Country Status (1)

Country Link
CN (1) CN117893019A (zh)

Similar Documents

Publication Publication Date Title
US10592386B2 (en) Fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
US11720068B2 (en) Autonomous industrial process control system and method that provides autonomous retraining of forecast model
WO2021052031A1 (zh) 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN112395170A (zh) 智能故障分析方法、装置、设备及存储介质
US10444746B2 (en) Method for managing subsystems of a process plant using a distributed control system
CN103513983A (zh) 用于预测性警报阈值确定工具的方法和系统
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
CN112379325A (zh) 一种用于智能电表的故障诊断方法及系统
Herraiz et al. Impact of installation counts on perceived quality: A case study on debian
CN117234785B (zh) 基于人工智能自查询的集控平台错误分析系统
CN110399278B (zh) 基于数据中心异常监控的告警融合系统及方法
CN117893019A (zh) 投放企业信息化管控系统及操作风险管控方法
Kirschenmann et al. Decision dependent stochastic processes
US11954945B2 (en) Systems and methods for analyzing machine performance
CN115185932A (zh) 数据处理方法及装置
Su et al. Big data preventive maintenance for hard disk failure detection
Goosen A system to quantify industrial data quality
Harutyunyan et al. Challenges and Experiences in Designing Interpretable KPI-diagnostics for Cloud Applications
JP2020135739A (ja) 障害予兆検知システム
US11749070B2 (en) Identification of anomalies in an automatic teller machine (ATM) network
Wan et al. ENMAX Asset Failure Susceptibility Ranking
CN117971337A (zh) 一种基于lstm模型的混合云自动配置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination