CN117094184A

CN117094184A - 基于内网平台的风险预测模型的建模方法、系统及介质

Info

Publication number: CN117094184A
Application number: CN202311355873.XA
Authority: CN
Inventors: 程栋; 杨昊; 张雪强; 周寒
Original assignee: Shanghai Digital Governance Research Institute Co ltd
Current assignee: Shanghai Digital Governance Research Institute Co ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2023-11-21
Anticipated expiration: 2043-10-19
Also published as: CN117094184B

Abstract

本发明提供了一种基于内网平台的风险预测模型的建模方法、系统及介质，所述建模方法包括如下步骤：通过内网平台收集模型相关数据；对所述模型相关数据进行数据预处理得到筛选数据，所述数据预处理至少包括赋能授权、数据清洗、预处理和验证中的至少一种；在所述筛选数据中筛选出关键风险特征，并通过计算信息增益确定特征分裂点，根据所述关键风险特征和所述特征分裂点建立初始模型；对所述初始模型进行优化处理得到最终的风险预测模型。本发明通过建立风险预测模型对内网平台的数据进行风险预测，提高了内网平台的安全性。

Description

基于内网平台的风险预测模型的建模方法、系统及介质

技术领域

本发明涉及数据建模，具体涉及基于内网平台的风险预测模型的建模方法、系统及介质，属于数据处理技术领域。

背景技术

随着信息技术的发展，政务信息化已经成为了现代政府的重要组成部分。政务信息化的发展，不仅可以提高政府的工作效率，还可以提高政府的公信力和透明度。但是，政务信息化也存在着一些风险点，这些风险点可能会对政府的工作产生不利影响。在现有政务网扩展建设背景下，对风险控制的建设已成为政务网络建设必不可少的一部分，目前政务领域风险控制主要基于部门内部独立系统和业务范围，存在数据质量较低、数据安全和合规得不到保证、特征选取困难、人为因素干扰等问题。

现有技术已经不能满足现有政务网扩展建设的需求，基于现状，急需对现有技术进行改进。

发明内容

为了克服现有技术中政务内网平台数据安全存在问题的不足，本发明提出了基于内网平台的风险预测模型的建模方法、系统及介质。

为了实现上述目的，本发明采用以下技术方案：一种基于内网平台的风险预测模型的建模方法，其特征在于，包括如下步骤：

通过内网平台收集模型相关数据；

对所述模型相关数据进行数据预处理得到筛选数据，所述数据预处理至少包括赋能授权、数据清洗、预处理和验证中的至少一种；

在所述筛选数据中筛选出关键风险特征，并通过计算信息增益确定特征分裂点，根据所述关键风险特征和所述特征分裂点建立初始模型；

对所述初始模型进行优化处理得到最终的风险预测模型。

可选的，所述在所述筛选数据中筛选出关键风险特征，包括：

在所述筛选数据中选出各种类型的初始特征，并确定每一种所述初始特征对应的潜在风险；

计算所述初始特征与对应的所述潜在风险之间的相关性参数；

选择所述相关性参数大于预设阈值对应的所述初始特征作为所述关键风险特征。

可选的，所述相关性参数的计算过程满足如下公式：

;

其中，表示相关性参数，X表示所述初始特征，Y表示所述初始特征X对应的潜在风险，/>表示X的标准差，/>表示Y的标准差，/>表示X和Y的协方差。

可选的，所述并通过计算信息增益确定特征分裂点，包括：

在所述筛选数据中选出一组相同类型的数据作为数据集，并计算所述数据集的数据集熵；

在所述数据集中依次选择每一种用户行为特征作为已知量，并根据所述已知量的大小对应计算目标变量的条件熵，所述目标变量表示当前的用户是否存在风险；

根据所述数据集熵和不同已知量的条件下对应的所述条件熵计算所述已知量对应的信息增益；

比较不同的用户行为特征作为所述已知量时的信息增益的大小，并选择最大的所述信息增益对应的所述用户行为特征作为所述特征分裂点。

可选的，所述对所述初始模型进行优化处理得到最终的风险预测模型，包括：

将所述相关数据划分为多个K个互斥的子集，选择其中一个子集作为验证集，选择其它的子集作为训练集；

对所述初始模型进行K次训练和验证，根据训练结果对所述初始模型进行优化，对所述初始模型的参数进行调整优化后得到最终的所述风险预测模型；

其中，每一次验证和训练过程中使用的所述验证集均不相同，每一个所述子集的数据对应的风险概率通过逻辑回归模型计算。

可选的，所述逻辑回归模型满足如下条件：

；

其中，表示每一个子集中的数据对应的风险概率；

所述初始模型的调整优化过程满足如下约束条件：

；

其中，x表示特征矩阵，y为目标变量，表示权重向量和所述特征矩阵x的内积，w表示权重向量，b表示偏置项，特征矩阵x包括登录各个系统的次数、浏览各个标签的页面统计、下载文件次数和各系统操作数据重合集，/>为松弛变量，表示样本点的分类错误度，/>表示样本的真实类别标签。

可选的，所述通过内网平台收集模型相关数据，包括：

将所述内网平台中各系统的各功能点注册至赋能网关进行统一管理，以通过所述赋能网关获取所述模型相关数据，其中所述赋能网关用于记录用户行为数据，并对各系统的硬件变化、数据流峰值以及功能点的实时检测进行统计以得到所述模型相关数据。

可选的，所述对所述模型相关数据进行数据预处理得到筛选数据，包括：

处理所述模型相关数据中的缺失值，并对其中的连续数据标准化处理，对离散数据标签化处理第一数据；

根据特征维度对原始数据进行转换以得到第二数据；

对所述模型相关数据中用户行为模式、系统活跃度以及各个系统各功能点进行统计分析以提取相关的信息和模式，得到第三数据；

将所述第一数据、所述第二数据和所述第三数据整合在一起形成一个二维宽表，以得到所述筛选数据。

本发明公开了一种风险评估方法，应用于上述的基于内网平台的风险预测模型的建模方法建模得到的所述风险预测模型，所述风险评估方法包括如下步骤：

根据所述风险预测模型搭建实时风险监控体系，以对内网平台中的用户进行实时监测得到预测结果；

根据所述风险预测模型的预测结果，对所述内网平台中的用户、业务和部门进行风险评估；

根据风险评估结果进行风险预警。

可选的，所述风险评估方法还包括：通过赋能网关为所述内网平台中各系统、各功能点和各部门之间建立连接，以在所述内网平台建立内网风险信息共享机制。

可选的，所述风险评估方法还包括：根据所述内网平台的实际运行情况，持续优化和更新所述风险预测模型，并定期进行安全审计和模型评估，以确保所述风险预测模型的预测准确性和泛化能力。

本发明提供了一种基于内网平台的风险预测模型的建模系统，包括：

数据获取模块，用于通过内网平台收集模型相关数据；

数据处理模块，用于对所述模型相关数据进行数据预处理得到筛选数据，所述数据预处理至少包括赋能授权、数据清洗、预处理和验证中的至少一种；

模型建立模块，用于通过计算信息增益在所述筛选数据中筛选出关键风险特征，并根据所述关键风险特征建立初始模型；

模型优化模块，用于对所述初始模型进行优化处理得到最终的风险预测模型。

本发明还公开了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于内网平台的风险预测模型的建模方法和/或风险评估方法。

本发明的有益效果在于：

通过收集内网平台的模型相关数据，基于数据建模的方式建立初始模型并进行优化处理以得到满足当前要求的风险预测模型，以便于在后续通过风险预测模型对内网平台上的数据进行风险预估，从而提高风险识别能力，并进行系统化风险管理，通过赋能网关进行精细化风险评估，促进跨部门协同防范，提高模型在实际应用中的可信度和接受度，从而提高政府部门在信息安全方面的管理，更有效地应对内部数据安全、业务风险和合规问题。

附图说明

图1为本发明所述的基于内网平台的风险预测模型的建模方法的流程图；

图2为本发明所述的风险评估方法的流程图；

图3为本发明所述的基于内网平台的风险预测模型的建模系统的结构框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明实施例1提供了一种基于内网平台的风险预测模型的建模方法，参考图1，包括如下步骤：

S101、通过内网平台收集模型相关数据。

由于用户可以通过赋能网关桥梁，在其中执行多个系统的操作，因此可以通过用户足迹收集用户的行为数据，包括登录次数、浏览页面数量、下载文件次数、提交申请次数等。同时，通过系统注册收集一组系统行为数据，记录系统的活跃度、各功能点的使用情况等。此外，还可以利用实时监测数据收集系统硬件状态、连接质量、峰值记录等信息。以便于后续根据上述的数据建立风险预测模型对用户行为数据进行分析，以了解用户的操作习惯和活跃程度，判断其风险程度。同时，通过赋能网关实时获取数据，以便于了解内网平台的稳定性和性能状况，以及可能存在的异常情况。

在一些实施例中，所述通过内网平台收集模型相关数据，包括：

具体的，通过将内网平台中各系统的各个功能点注册在赋能网关之后，便于赋能网关对数据进行统一处理授权，以通过赋能网关记录用户行为数据，以便于后续基于赋能网关收集的数据建立风险预测模型。

示例性的，所述用户行为数据包括业务数据、用户信息、审批流程。

S102、对所述模型相关数据进行数据预处理得到筛选数据，所述数据预处理至少包括赋能授权、数据清洗、预处理和验证中的至少一种。

在一些实施例中，所述对所述模型相关数据进行数据预处理得到筛选数据，包括：

根据特征维度对原始数据进行转换以得到第二数据；

在得到模型相关数据之后，为了保证后续建模过程的准确性，对得到的模型相关数据进行预处理以得到筛选数据，以便于后续根据筛选数据进行建模。

具体的，处理筛选数据中的缺失值、对连续数据进行标准化、对离散数据进行标签化处理。同时，根据特征维度对原始的模型相关数据进行转换。例如，将用户操作、系统活跃度以及各功能点作为特征维度，将相关数据汇聚起来，形成静态特征与动态特征的数据。然后，对于用户行为模式、系统活跃度以及各系统各功能点进行统计分析。这可以包括使用统计方法、机器学习算法等对数据进行分析，以提取相关的信息和模式。最后，形成一个二维宽表，将上述分析结果整合起来。该二维宽表包含各功能点的静态特征与动态特征数据，以及对用户行为模式、系统活跃度等进行的统计分析结果。通过这样的流程，可以将各系统各功能点的数据整合到一张宽表中，以便后续的风控模型构建和分析。

S103、在所述筛选数据中筛选出关键风险特征，并通过计算信息增益确定特征分裂点，根据所述关键风险特征和所述特征分裂点建立初始模型。

在一些实施例中，所述在所述筛选数据中筛选出关键风险特征，包括：

在对数据进行预处理以得到筛选数据之后，挖掘筛选数据中的关键风险特征，比如用户行为特征（登录次数、操作频率）、业务操作特征（审批时长、审批人与申请人的关系）和数据访问特征（访问频次、访问时长），从而筛选出与风险高度相关的特征，提高后续建立的风险预测模型的准确性。

在本实施例中，所述相关性参数通过皮尔逊公式计算，以根据相关性参数的大小确定当前特征与对应风险的线性关系。

具体的，所述相关性参数的计算过程满足如下公式：

其中，所述相关性参数的大小在-1至1之间，所述相关性参数为-1时表示当前特征与对应风险完全负相关，相关性参数为1时表示当前特征与对应风险完全正相关，相关性参数为0时表示当前特征与对应风险完全无关。通过计算对应特征与风险的相关性参数，可以确定哪些特征与风险之间存在较强的线性相关性。相关性参数的绝对值大小越大，表示该特征与风险的关联性越大。根据相关性分析的结果，可以选择具有较高相关性的特征作为风控模型的输入变量建立模型，这样可以减少特征维度，提高模型的效率和解释性。

在一些实施例中，所述通过计算信息增益确定特征分裂点，包括：

示例性的，以行为数据为例，收集一组用户的行为数据作为数据集，包括用户在D系统浏览页面数量、下载文件次数等，用户在B系统频繁登录，提交申请等，同时将目标变量作为判断表示用户是否存在风险的依据。

首先，需要计算整个数据集的熵，用来衡量目标变量的混乱程度。然后，在数据集中选择一个特定的用户行为特征，例如各系统浏览页面次数，计算在已知浏览次数的条件下，目标变量的条件熵。假设将浏览页面次数分为三个取值范围：低、中、高，则可以分别计算出每个取值范围下目标变量的条件熵。接下来，根据每个取值范围下的条件熵计算信息增益。重复上述步骤，以计算其他用户行为特征的信息增益，如各系统浏览页面数量、下载文件次数等。最后就可以得到各个行为特征对应的信息增益，而信息增益越大则表示该特征对于风险的预测具有更大的贡献，选择具有最大信息增益的用户行为特征作为风险预测模型的特征分裂点，能够提高后续风险预测模型的准确性。例如，当计算并比较之后确定浏览页面次数的信息增益最大，那么可以将浏览页面次数作为决策树模型的一个重要特征分裂点，用于判断用户的风险。通过计算信息增益并选择具有最大信息增益的特征，可以确定哪些用户行为特征与风险相关性较高，从而用于风险预测模型的构建，提高风险预测模型的准确性。

其中，在已知特征A的条件下，信息增益的计算过程满足如下公式：

IG(D, A) = H(D) - H(D | A)

其中H(D)表示整个数据集的熵，H(D | A)是在已知特征A的条件下的条件熵， IG(D, A)表示所述信息增益。

S104、对所述初始模型进行优化处理得到最终的风险预测模型。

在得到初始模型之后，

在一些实施例中，所述对所述初始模型进行优化处理得到最终的风险预测模型，包括：

具体的，在训练过程中，每一个子集中的数据对应的风险概率通过逻辑回归模型计算得到，以便于在后续训练过程中，根据将训练集的数据输入至初始模型之后进行训练，并通过验证集的数据进行验证，每次使用不同的子集作为验证集，并在训练之后根据训练结果对初始模型的参数进行调整优化，以得到最终的风险预测模型。

在一些实施例中，所述逻辑回归模型满足如下条件：

其中，表示每一个子集中的数据对应的风险概率，y表示目标变量，w表示权重向量，T为常数，/>表示权重向量与所述特征矩阵x的内积，b表示偏置项，y=1表示存在异常，y=0表示正常，特征矩阵x包括登录各个系统的次数、浏览各个标签的页面统计、下载文件次数和各系统操作数据重合集。

在内网风控中，通过训练适当的模型，可以确定最优的权重向量 w 和偏置项 b，以使得根据给定的输入特征矩阵，计算出的概率尽可能地反映实际风险事件的发生情况，从而帮助做出决策和采取适当的措施来减少风险。

所述初始模型的调整优化过程满足如下约束条件：

其中，其中，x表示特征矩阵，y为目标变量，表示权重向量和所述特征矩阵x的内积，w表示权重向量，b表示偏置项，特征矩阵x包括登录各个系统的次数、浏览各个标签的页面统计、下载文件次数和各系统操作数据重合集，/>为松弛变量，表示样本点的分类错误度，/>表示样本的真实类别标签（1或-1），/> 是样本点在特征空间中的线性组合，/>是一个非负约束条件，表示松弛变量/>的取值必须大于等于零。/>的值越大，表示对样本点的误分类程度越高，这个约束条件确保了松弛变量的合理性。

通过上述约束条件确保每个数据都位于正确的分类边界上或正确的一侧，并且松弛变量允许一些样本点落在超平面的错误一侧或在间隔边界内，通过上述的约束条件确保了风险预测模型在训练过程中能够正确分类大多数样本，并适应少数异常样本。使用测试集对训练好的模型进行评估，计算准确率、精确率、召回率、F1值等指标，了解模型的性能和泛化能力。使用训练好的模型对新的用户行为数据进行预测，并根据预测结果确定行为是否异常。

优化目标：

该优化目标分为两部分：第一部分是正则化项，/>表示权重向量的范数的平方，用于控制模型的复杂度，通过对其最小化可以使得决策边界更平滑，提高模型的泛化能力；第二部分是误分类项/> ，C表示正则化参数，通过调整正则化参数C的值能够平衡模型对复杂度和误分类的权衡，以最小化误分类样本的惩罚项，Σ(ξ_i) 表示所有样本的误分类程度之和。通过最小化这一部分，可以降低误分类样本的影响，从而提高模型的预测准确性。

在内网风控中，SVM模型的训练过程就是通过调整权重向量 w 和偏置项 b 的值，以使优化目标最小化，并满足约束条件。这样可以构建一个能够有效分隔风险和非风险的决策边界，用于风险预测和分类。正则化参数 C 的设置可以控制模型对误分类的惩罚程度，允许根据具体情况调整模型的鲁棒性。

通过优化目标和约束条件，训练后的模型可以根据用户行为数据的特征提取和训练数据的标注，构建一个能够检测用户行为异常的风控模型。这样的模型可以应用于实时监测和预测，以及提供及时的风险提示和决策支持。

示例性的，在模型训练完成之后，为了对模型进行验证，首先收集用户行为数据，包括登录历史、访问频率、操作记录、活跃度对比，下载文件次数等行为特征，根据需要，收集相关的系统硬件、连接、峰值记录等数据，创建一个数据集，将这些特征作为输入变量，并标记每个样本的类别（正常或异常）。之后对数据进行预处理，包括对数据进行清洗，处理缺失值和异常值、进行特征选择或特征工程，提取关键特征、对连续数据进行标准化，使其具有相似的尺度、对分类特征进行编码，如独热编码。在完成数据预处理之后对数据划分，将数据集分为训练集和测试集，通常采用交叉验证方法。之后进行模型训练，使用训练集训练SVM模型，选择合适的核函数（线性核、多项式核、高斯核等），调整模型的超参数，如正则化参数C和核函数参数，以优化模型性能。通过最小化目标函数来找到最优的决策边界，确保正常和异常数据点之间有足够的间隔，从而得到优化后的模型。之后对模型评估，使用测试集评估模型性能，计算准确率、精确率、召回率、F1分数等指标。绘制ROC曲线和AUC（曲线下面积）来评估模型的整体性能。在确定模型评估测试符合要求之后，使用训练好的SVM模型对新的用户行为数据进行预测。根据模型的预测结果来判断用户行为是否异常。同时还可以通过设定适当的阈值，以控制误报率和漏报率。

进一步的，将训练好的SVM模型部署到内网平台，以实时或批量方式进行用户行为异常检测。监测和维护：定期监测模型的性能，确保其持续有效。如果需要，根据新的数据或变化的业务需求来重新训练模型。SVM模型在内网风控中的应用可以帮助检测潜在的用户行为异常，例如未经授权的访问、用户贴额调用，用户活跃度异常,大规模数据下载等。模型的性能和鲁棒性取决于数据质量、特征工程和超参数的选择，因此需要不断优化和维护，以适应不断变化的风险情境。

本发明实施例2公开了一种风险评估方法，应用于上述的基于内网平台的风险预测模型的建模方法建模得到的所述风险预测模型，参考图2，所述风险评估方法包括如下步骤：

S201、根据所述风险预测模型搭建实时风险监控体系，以对内网平台中的用户进行实时监测得到预测结果。

在得到风险预测模型之后，搭建实时风险监控体系，对内网平台中的用户行为、业务操作、数据访问等进行实时监测。一旦发现潜在风险，及时触发预警机制，通知相关人员进行处理。

具体的，以用户的贴额行为为例，当风险预测模型检测到用户贴额行为包含了贴额调用的各种特征和相应的风险标签时，对贴额调用行为数据进行特征工程处理，例如统计每个用户的贴额调用次数、调用频率、调用的时间间隔等。还可以考虑其他相关特征，调用的地理位置等。使用训练好的风险预测模型对新的贴额调用行为数据进行预测，根据预测结果确定是否存在风险。

S202、根据所述风险预测模型的预测结果，对所述内网平台中的用户、业务和部门进行风险评估。

S203、根据风险评估结果进行风险预警。

以便于在存在风险时及时预警，并为相关人员提供针对性的应对策略。

在一些实施例中，所述风险评估方法还包括：通过赋能网关为所述内网平台中各系统、各功能点和各部门之间建立连接，以在所述内网平台建立内网风险信息共享机制。通过共享风险信息和应对经验，提高整个内网平台的安全水平。

进一步的，还可以将整个内网平台的风险管理界面设置为可视化，使得整个内网平台的管理者能够直观地了解政务内网的风险状况，包括风险分布、风险趋势、风险事件等。

具体的，通过构建多个决策树来提高预测准确性，使用随机森林进行风险预测和评估，以用户行为异常为例，准备好特征矩阵x和目标变量 y，在进行数据划分之后，对行为数据进行特征工程处理，例如统计每个用户的贴额调用次数、调用频率、调用的时间间隔等。还可以考虑其他相关特征，调用的地理位置等。根据处理后的数据对风险预测模型进行训练，以便于提高风险预测模型预测结果的准确性。

在另外一些实施例中，所述风险评估方法还包括：根据所述内网平台的实际运行情况，持续优化和更新所述风险预测模型，并定期进行安全审计和模型评估，以确保所述风险预测模型的预测准确性和泛化能力。

根据政务内网的实际运行情况，持续优化和更新风控模型，以应对不断变化的风险环境。定期进行安全审计和模型评估，确保风控模型的预测准确性和泛化能力。

具体的，可由用户自定义风控模型检测，对于高风险点可每日审计评估，对于中风险点可每周审计评估，对于低风险点可每月审计评估，为灵活自定义，使用更加方便。

进一步的，上述内网平台选择政务内网平台，通过建立实时风险监控体系，对政务内网中的用户行为、业务操作、数据访问等进行实时监测。一旦发现潜在风险，及时触发预警机制，通知相关人员进行处理。根据政务内网的实际风险状况，动态调整风险预警阈值，提高风险识别的灵敏度和准确性。建立政务内网风险信息共享机制，促进各部门之间的风险防范协同。通过共享风险信息和应对经验，提高整个政务内网的安全水平。开发可视化风险管理界面，使管理层能够直观地了解政务内网的风险状况，包括风险分布、风险趋势、风险事件等。有助于提高模型的可解释性和实际应用效果。根据政务内网的实际运行情况，持续优化和更新风控模型，以应对不断变化的风险环境。此外，定期进行安全审计和模型评估，确保风控模型的有效性和合规性。

本发明可以提高政务内网的风险识别和应对能力，实现系统化、智能化的风险管理，提高政府部门的形象和公信力。提高风险识别能力，帮助及时发现潜在风险，如信息泄露、非法访问、数据篡改等。通过实时监控和预警机制，可以实现对潜在风险的快速响应，为相关人员提供有针对性的应对策略，降低风险事件对政务内网的影响。政务内网赋能平台风控模型实现了风险管理的系统化、自动化和智能化，减轻了人工干预的负担，提高了风险管理的效率。基于政务内网赋能平台的风控模型促进了各部门之间的风险防范协同，共享风险信息和应对经验，提高整个政务内网的安全水平。风控模型能够对政务内网中的各个用户、业务和部门进行精细化风险评估，有助于制定更为针对性的风险应对策略。风控模型具有动态适应能力，能够实时调整和优化模型以应对不断变化的风险环境，提高风险预测的准确性。通过实施高效的风险管理，提高政务内网的安全性和稳定性，有助于提升政府部门的形象和公信力。风控模型的实施有助于整合政务内网的多源数据，提高数据的利用率和价值，为政府部门提供更加全面和准确的决策依据。

本发明实施例3还提供了一种基于内网平台的风险预测模型的建模系统，参考图3，包括：

数据获取模块301，用于通过内网平台收集模型相关数据；

数据处理模块302，用于对所述模型相关数据进行数据预处理得到筛选数据，所述数据预处理至少包括赋能授权、数据清洗、预处理和验证中的至少一种；

模型建立模块303，用于通过计算信息增益在所述筛选数据中筛选出关键风险特征，并根据所述关键风险特征建立初始模型；

模型优化模块304，用于对所述初始模型进行优化处理得到最终的风险预测模型。

由于上述基于内网平台的风险预测模型的建模系统的各个模块与前述基于内网平台的风险预测模型的建模方法中的步骤一一对应，此处不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（Application Specific Integrated Circuit，ASIC），或，一个或多个数字信号处理器（Digital Signal Processor，DSP），或，一个或者多个现场可编程门阵列（Field Programmable Gate Array，FPGA）等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器（CentralProcessing Unit，CPU）或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统（System-On-a-Chip，SOC）的形式实现。

需要说明的是，本发明的基于内网平台的风险预测模型的建模系统可以实现本发明的基于内网平台的风险预测模型的建模方法，但本发明的基于内网平台的风险预测模型的建模方法的实现装置包括但不限于本实施例列举的基于内网平台的风险预测模型的建模系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

本发明实施例4还公开了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于内网平台的风险预测模型的建模方法和/或上述的基于内网平台的风险预测模型的风险评估方法。

所述存储介质包括：只读存储器（Read-Only Memory，ROM）、随机访问存储器（Random Access Memory，RAM）、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于内网平台的风险预测模型的建模方法，其特征在于，包括如下步骤：

通过内网平台收集模型相关数据；

对所述模型相关数据进行数据预处理得到筛选数据，所述数据预处理包括赋能授权、数据清洗、预处理和验证中的至少一种；

对所述初始模型进行优化处理得到最终的风险预测模型。

2.根据权利要求1所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述在所述筛选数据中筛选出关键风险特征，包括：

3.根据权利要求2所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述相关性参数的计算过程满足如下公式：

;

4.根据权利要求1所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述通过计算信息增益确定特征分裂点，包括：在所述筛选数据中选出一组相同类型的数据作为数据集，并计算所述数据集的数据集熵；

5.根据权利要求1所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述对所述初始模型进行优化处理得到最终的风险预测模型，包括：

6.根据权利要求5所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述逻辑回归模型满足如下条件：

；

其中，表示每一个子集中的数据对应的风险概率；

所述初始模型的调整优化过程满足如下约束条件：

；

其中，x表示特征矩阵，y为目标变量，表示权重向量和所述特征矩阵x的内积，w表示权重向量，b表示偏置项，特征矩阵x包括登录各个系统的次数、浏览各个标签的页面统计、下载文件次数和各系统操作数据重合集，/>为松弛变量，表示样本点的分类错误度，表示样本的真实类别标签。

7.根据权利要求1所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述通过内网平台收集模型相关数据，包括：

8.根据权利要求7所述的基于内网平台的风险预测模型的建模方法，其特征在于，所述对所述模型相关数据进行数据预处理得到筛选数据，包括：

根据特征维度对原始数据进行转换以得到第二数据；

9.一种风险评估方法，其特征在于，基于权利要求1至8任一项所述的基于内网平台的风险预测模型的建模方法建模得到的风险预测模型，方法包括如下步骤：

根据风险评估结果进行风险预警。

10.根据权利要求9所述的风险评估方法，其特征在于，所述风险评估方法还包括：通过赋能网关为所述内网平台中各系统、各功能点和各部门之间建立连接，以在所述内网平台建立内网风险信息共享机制。

11.根据权利要求9所述的风险评估方法，其特征在于，所述风险评估方法还包括：根据所述内网平台的实际运行情况，持续优化和更新所述风险预测模型，并定期进行安全审计和模型评估，以确保所述风险预测模型的预测准确性和泛化能力。

12.一种基于内网平台的风险预测模型的建模系统，其特征在于，包括：

数据获取模块，用于通过内网平台收集模型相关数据；

模型建立模块，用于在所述筛选数据中筛选出关键风险特征，并通过计算信息增益确定特征分裂点，根据所述关键风险特征和所述特征分裂点建立初始模型；

13.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于内网平台的风险预测模型的建模方法和/或权利要求9至11中任一项所述的风险评估方法。