CN112884570A

CN112884570A - 一种模型安全性的确定方法、装置和设备

Info

Publication number: CN112884570A
Application number: CN202110205073.4A
Authority: CN
Inventors: 魏博言; 朱佳宁; 金焰; 施燕华
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-01

Abstract

本说明书实施例提供了一种模型安全性的确定方法、装置和设备，涉及人工智能技术领域，其中，该方法包括：采集目标模型的模型信息集；对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。在本说明书实施例中，可以基于多维度的特征参数利用目标预测模型确定目标模型的安全性，有效提高了预测结果的准确性和稳定性。

Description

一种模型安全性的确定方法、装置和设备

技术领域

本说明书实施例涉及人工智能技术领域，特别涉及一种模型安全性的确定方法、装置和设备。

背景技术

目前模型风险主要有两个来源：一是其模型自身缺陷，也就是模型设计、模型开发以及模型实施中引入的错误，例如依赖了错误的统计原理、应用了错误的数据来建模；二是模型使用不当，例如忽略产品更新而直接套用已有模型，从而导致已有模型分类效果迅速下降。模型风险的评级是模型风险管理的目标之一，它可以实现对模型风险的量化，以及对模型风险偏好的预测甚至对模型风险根源做出判断。

现有技术中的模型风险评级的方法主要是基于规则的专家打分制，专家根据经验基于大数据指定相关的评分规则。由于现有技术中的模型风险评级的方法依赖专家经验，不同专家对于模型风险评级标准存在主观因素，使得评级的有效性和客观性难以保证，稳定性较低。由此可见，采用现有技术中的技术方案无法客观地确定模型的风险。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书实施例提供了一种模型安全性的确定方法、装置和设备，以解决现有技术中无法客观地量化模型的风险的问题。

本说明书实施例提供了一种模型安全性的确定方法，包括：采集目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据；对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。

本说明书实施例还提供了一种模型安全性的确定装置，包括：采集模块，用于采集目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据；预处理模块，用于对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；确定模块，用于基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。

本说明书实施例还提供了一种模型安全性的确定设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述模型安全性的确定方法的步骤。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述模型安全性的确定方法的步骤。

本说明书实施例提供了一种模型安全性的确定方法，可以采集包含多个在所述目标模型开发、运行过程中统计的数据的模型信息集，从而可以获取目标模型多维度的信息数据。可以对所述模型信息集进行预处理，得到所述目标模型的目标特征向量，从而可以去除模型信息集中的冗余数据并是数据格式符合目标预测模型的输入规范。进一步的，可以基于所述目标特征向量，利用目标预测模型便捷、高效的确定出所述目标模型的特征值，所述特征值可以用于表征所述目标模型的安全性。由于所述目标特征向量中包含多维度的用于表征所述目标模型的特征参数，目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，因此，可以有效提升预测结果的准确性和稳定性。

附图说明

此处所说明的附图用来提供对本说明书实施例的进一步理解，构成本说明书实施例的一部分，并不构成对本说明书实施例的限定。在附图中：

图1是根据本说明书实施例提供的模型安全性的确定方法的步骤示意图；

图2是根据本说明书实施例提供的模型安全性的确定装置的结构示意图；

图3是根据本说明书实施例提供的模型安全性的确定设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例，而并非以任何方式限制本说明书实施例的范围。相反，提供这些实施方式是为了使本说明书实施例公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域的技术人员知道，本说明书实施例的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此，本说明书实施例公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

虽然下文描述流程包括以特定顺序出现的多个操作，但是应该清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

模型风险即金融模型在设计及实施等过程中所引入的对风险计量、业务决策、经营成果及行业声誉带来潜在不利后果的风险。目前在确定某个模型的安全性时是将模型信息录入系统后，依据已构建的判断规则，对模型的各项指标进行打分，最后进行汇总评级。采用该方式会存在一下缺陷：1、一个模型在录入系统后，通常会经过多个审批流程。每次流程都会有新的专家基于同一张规则表对模型风险进行复评，以新的复评结果作为当前模型评级。由于不同专家对于模型风险评级标准存在主观因素，因此模型风险评级结果有可能出现较大差异；2、需要构建庞大的规则体系，维护成本高。构建规则体系需要花费大量人力物力，并且后续更新规则库也会引入新的工作量，整个迭代过程效率较低；3、当前的风险评级指标体系主要为预评级体系，在模型上线之前基于模型训练及验证阶段的性能表现进行评级，并未引入常见的模型表现因素如AR(Accuracy Ratio，准确度比)、KS值(Kolmogorov-Smirnov，区分正负样本分隔程度的评价指标)、PSI值(Population Stability Index，稳定度指标)，其中，AR和KS值都可以用于衡量模型的区分能力，PSI可以衡量模型表现是否稳定，它们是监控模型风险的重要指标。这些模型性能关键指标的缺失，会导致评级结果的倾斜，进而诱使风险评级体系对泛化能力不足的模型产生过高的评价。

基于此，请参阅图1，本实施方式可以提供一种模型安全性的确定方法。该模型安全性的确定方法可以用于根据目标模型的模型信息和目标预测模型客观、便捷地确定出表征目标模型安全性的特征值。上述模型安全性的确定方法可以包括以下步骤。

S101：采集目标模型的模型信息集；其中，模型信息集中包含多个在目标模型开发、运行过程中统计的数据。

在本实施方式中，可以采集目标模型的模型信息集。其中，上述目标模型可以为待检测安全性的模型，目标模型可以为仍在开发的模型也可以为已上线的模型，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

在本实施方式中，由于每个模型在开发、测试、上线运行等过程中均会产生很多数据，该些数据能够较好的表征模型的性能、属性等多方面的情况，因此，可以采集在目标模型开发、运行过程中统计的数据，从而生成目标模型的模型信息集。模型信息集中可以包括：模型属性信息、用户反馈的模型初评信息、模型文档信息和模型投产后的指标表现信息、模型出现的问题信息等，当然可以理解的是上述模型信息集中还可以包含其它可能的信息，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

在本实施方式中，不同的模型可以有不同的身份标识用以区分，上述模型信息集中还可以包含目标模型的ID(Identity，身份标识)，目标模型的ID可以作为唯一身份标识来区分不同的模型。其中，上述目标模型的ID可以是字符串，例如：M202000001、M202000103等，具体的可以根据实际情况确定，本说明实施例对此不作限定。

在本实施方式中，上述模型信息集中的数据可以以关系型数据库可用的格式数据机理，上述模型信息集中可以包含主键(模型ID)和字段(模型信息)。

在本实施方式中，采集目标模型的模型信息集的方式可以包括：从预设数据库中拉取得到，或者，结合语料库使用规则抽取方法从文本描述中挖掘得到。其中，上述预设数据库可以为银行或者其它金融机构中存储历史数据以及用户实时提交、产生的数据的数据库。当然可以理解的是，还可以采用其它可能的方式获取上述样本数据集，例如，利用爬虫机器按照一定的时间间隔抓取得到，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

S102：对模型信息集进行预处理，得到目标模型的目标特征向量；其中，目标特征向量中包含多个用于表征目标模型的特征参数。

在本实施方式中，由于初始采集到的模型信息集中可能会存在冗余信息或者数据格式不规范等问题，因此，可以对模型信息集进行预处理，从而得到目标模型的目标特征向量。其中，上述目标特征向量中可以包含多个用于表征目标模型的特征参数，上述特征参数可以是模型信息集中的原数据，也可以是将模型信息集中的数据进行格式变换得到的，也可以是对模型信息集中的数据进行统计分析计算得到的。具体的可以根据实际情况确定，本说明书对此不作限定。

在本实施方式中，上述预处理可以包括：数据清洗、格式转换、归一化处理等。当然可以理解的是，在一些实施例中还可以包含其它可能的预处理步骤，例如：特征降维等，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

在本实施方式中，上述目标特征向量中可以包含多个特征参数，在一些实施例中，上述特征参数可以包括但不限于以下至少之一：风险类型、模型开发日期、文档缺失数量、模型AR值、市场风险、模型KS值、模型PSI值等。当然，特征参数不限于上述举例，所属领域技术人员在本说明书实施例技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本说明书实施例相同或相似，均应涵盖于本说明书实施例保护范围内。

在本实施方式中，KS值是在模型中用去区分尝试正负样本分隔程度的评价指标，KS取值范围是0至1，通常来说KS值越大，表明正负样本区分的程度越好，在模型构建初期KS基本要满足在0.3以上，后续模型监测期间，如果KS持续下降恶化，就要考虑是市场发生了变化所致，或者是客群发生了偏移等情况。PSI(稳定度指标)可衡量测试样本及模型开发样本评分的分布差异，为最常见的模型稳定度评估指针。AR取值范围在0到1之间，AR越大，模型就越有区分度，可以更好地将正负样本分开。

在本实施方式中，上述目标特征向量可以以向量的形式记录，例如：(风险类型，模型AR值，模型开发日期，模型KS值，模型PSI值)，当然，目标特征向量不限于上述举例，所属领域技术人员在本说明书实施例技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本说明书实施例相同或相似，均应涵盖于本说明书实施例保护范围内。

S103：基于目标特征向量，利用目标预测模型确定目标模型的特征值；其中，目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，特征值用于表征目标模型的安全性。

在本实施方式中，可以将目标特征向量作为目标预测模型的输入，从而可以利用目标预测模型高效准确的确定出目标模型的特征值。上述目标预测可以为利用支持向量机(SVM)预先训练得到的用于预测目标模型特征值的机器学习模型，支持向量机是使用分类与回归分析来分析数据的监督学习模型及其相关的学习算法。

在本实施方式中，上述特征值可以用于表征目标模型的安全性，上述特征值可以为一个具体的数值，也可以为等级描述，例如：1、2、3、4，其中，1表示安全性极低、2表示安全性低、3表示安全性中等、4表示安全性高；或者为极低、低、中、高等，其中，安全性越低则表示模型风险越大。当然，特征值不限于上述举例，所属领域技术人员在本说明书实施例技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本说明书实施例相同或相似，均应涵盖于本说明书实施例保护范围内。

在本实施方式中，利用支持向量机预先训练得到的目标预测模型确定目标模型的特征值可以提高风险评级结果的稳定性，减少了预测结果的波动性。输入数据中包含了多个可以表征目标模型的特征参数，引入多项影响因子，从而有效提升了预测结果的准确性。

从以上的描述中，可以看出，本说明书实施例实现了如下技术效果：可以采集包含多个在所述目标模型开发、运行过程中统计的数据的模型信息集，从而可以获取目标模型多维度的信息数据。可以对所述模型信息集进行预处理，得到所述目标模型的目标特征向量，从而可以去除模型信息集中的冗余数据并是数据格式符合目标预测模型的输入规范。进一步的，可以基于所述目标特征向量，利用目标预测模型便捷、高效的确定出所述目标模型的特征值，所述特征值可以用于表征所述目标模型的安全性。由于所述目标特征向量中包含多维度的用于表征所述目标模型的特征参数，目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，因此，可以有效提升预测结果的准确性和稳定性。

在一个实施方式中，上述模型信息集中可以包含：模型属性信息、模型文档信息、模型问题信息、模型质量信息和模型重要性信息。其中，上述模型属性信息中可以包含：模型风险类别、模型种类、模型来源、模型状态、模型使用机构，模型名称、模型开发日期、是否监管批复模型、模型适用区域等；上述模型文档信息中可以包含：模型开发文档、模型审批文档、模型验证文档等；上述模型问题信息可以表征模型历史出现的问题，可以包含：模型问题状态、模型问题种类等；上述模型质量信息中可以包含：模型成熟度、模型适用性等；上述模型重要性信息中可以包含：模型敞口范围、模型用途等。当然，模型信息集不限于上述举例，所属领域技术人员在本说明书实施例技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本说明书实施例相同或相似，均应涵盖于本说明书实施例保护范围内。

在一个实施方式中，对所述模型信息集进行预处理，得到所述目标模型的目标特征向量，可以包括：对所述模型信息集进行数据清洗，得到清洗后的模型信息集；对所述清洗后的模型信息集中的数据进行向量映射，得到第一特征向量。并将所述第一特征向量中的离散型特征转换为连续型特征，得到第二特征向量。进一步的，可以对所述第二特征向量中各个特征参数进行归一化处理，得到第三特征向量，并利用主成分分析法对所述第三特征向量进行降维，得到目标特征向量。

在本实施方式中，由于模型信息的来源纷繁复杂，包含大量人工输入内容或上传文件内容，通常会存在数据缺失、数据范围不合理、数据重复等问题，因此，可以模型信息集进行数据清洗，从而发现并纠正模型信息集中可识别的错误。

在本实施方式中，数据清洗是可以遵循以下方式：1、缺失率大于等于90％的特征删除；2、缺失特征为属性类特征，缺失值填充为“数据缺失”作为该特征新分类；3、缺失特征为连续型特征，使用中位数进行填充；4、金额单位统一为“元”；5、时间特征转换为“YYYY-MM-DD”的时间格式。当然，数据清洗的方式不限于上述举例，所属领域技术人员在本说明书实施例技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本说明书实施例相同或相似，均应涵盖于本说明书实施例保护范围内。

在本实施方式中，在进行向量映射是可以将清洗后的模型信息集中的每个模型信息均作为一个特征，从而生成第一特征向量。由于机器学习模型无法有效识别和学习离散型特征，因此可以将第一特征向量中的离散型特征转换为连续型特征，从而得到第二特征向量。

在本实施方式中，在将所有特征值均转换为连续型特征后，可以对第二特征向量中的所有特征做归一化处理，从而消除特征量纲差异带来的影响。在一些实施例中，可以利用z-score(zero-mean normalization，标准化)对第二特征向量中的所有特征做归一化处理，z-score也叫标准差标准化，通过给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。

在本实施方式中，由于第三特征向量中可能会存在冗余特征，会对特征值产生影响的特征参数是有限的，有些特征参数对预测结果的影响较小，有些情况下可以忽略。由于特征参数较多的情况下会对目标预测模型的学习和训练带来难度，合理的降维方法可以增加数据的易用性、去除噪声并降低模型训练的计算开销。

在本实施方式中，由于在模型训练前已确定出需要采用哪些特征参数进行预测，因此，此处可以直接从第三特征向量中提取出之前确定出的特征参数，而无需在针对第三特征向量利用主成分分析法进行降维处理，从而可以提高数据处理的效率。当然可以理解的是，也可以利用主成分分析法对所述第三特征向量进行降维，以确保得到的目标特征向量的准确性，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

在本实施方式中，上述主成分分析法可以为PCA(Principal ComponentAnalysis)，PCA是一种常用的数据分析方法，通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

在本实施方式中，可以利用数据清洗、向量映射、将离散型特征转换为连续型特征、归一化处理、特征降维等技术手段对模型信息集进行预处理，从而发现并纠正模型信息集中可识别的错误、消除特征量纲差异带来的影响并去除冗余信息，从而使得目标特征向量符合目标预测模型的输入规范，进而可以提高预测结果的准确性。

在一个实施方式中，所述目标模型所属类别为目标类别，所述目标预测模型为利用支持向量机预先训练得到的用于预测类别为目标类别的模型特征值的机器学习模型。

在本实施方式中，不同类型的模型由于其构建的目的、方式等均会存在差异，因此，不同类型的模型评估安全性的方式也会存在差异，需要输入预测模型的特征参数也会存在差异。为了提高预测结果的准确性，可以针对不同类型的模型构建对应的目标预测模型。

在本实施方式中，模型的类别可以根据实际需求进行划分，例如，可以根据模型的目的进行划分，模型的类别可以包括：信用风险模型、数据挖掘模型、风险预警模型等。当然可以理解的是，还可以采用其它方式对模型进行划分，例如按照所属领域进行划分，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

在本实施方式中，目标模型所属的类别可以为目标类别，相应的，目标预测模型可以为利用属于目标类别的模型的历史数据预先训练得到的针对目标类别的预测模型，从而可以更准确的预测目标模型的特征值。

在一个实施方式中，在基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值之前，还可以包括：获取多个样本模型的模型信息集；其中，所述样本模型所属类别为目标类别。对各个样本模型的模型信息集进行预处理，得到各个样本模型的特征向量，并获取各个样本模型的特征值。进一步的，可以基于所述各个样本模型的特征向量和特征值，生成训练样本数据集，并根据所述训练样本数据集，利用支持向量机、目标损失函数和默认超参数集训练得到初始预测模型。进一步的，可以利用所述验证样本数据集对所述初始预测模型进行交叉验证，在确定验证通过的情况下，将所述初始预测模型作为所述目标预测模型。

在本实施方式中，可以将属于目标类别的模型作为样本模型，样本模型可以是已上线并确定特征值的历史模型。在确定出多个样本模型之后，可以获取多个样本模型的模型信息集，从而可以基于多个样本模型的模型信息集确定训练样本数据集和验证样本数据集。

在本实施方式中，可以利用数据清洗、向量映射、将离散型特征转换为连续型特征、归一化处理、特征降维等技术手段对各个样本模型的模型信息集进行预处理，从而发现并纠正各个样本模型的模型信息集中可识别的错误、消除特征量纲差异带来的影响并去除冗余信息，从而使得各个样本模型的特征向量符合预测模型的输入规范，进而可以提高训练的准确性和有效性。

在本实施方式中，可以获取各个样本模型的特征值，并将各个样本模型的特征值作为预测模型输出数据的标签值。其中，上述各个样本模型的特征值可以是历史评估得到并验证正确的数据，可以将各个样本模型的特征值作为实际值验证预测模型预测的准确性，从而可以提高目标预测模型预测的准确性。

在本实施方式中，可以将每个样本模型的特征向量和特征值作为一组样本数据，从而可以得到多组样本数据。在一些实施例中，可以将上述多组样本数据按照预设比例随机生成训练样本数据集和验证样本数据集。其中，上述预设比例可以为训练样本数据集：验证样本数据集＝4:1，当然可以理解是，还可以为其它任何可能的比例，具体的可以根据实际情况确定，本说明书实施例对此不作限定。

在本实施方式中，可以根据所述训练样本数据集，利用支持向量机、目标损失函数和默认超参数集训练得到初始预测模型。其中，上述超参数集中包含至少一个超参数，超参数是指算法模型中无法通过学习数据来更新的参数，通常在训练时先用一组默认值。

在本实施方式中，SVM(支持向量机)分类算法的迭代优化过程如下：

(1)输入训练样本数据集D＝{(x₁,y₁),(x₂,y₂),...,(x_M,y_M)}，其中，

y_i∈{+1,-1},i＝1,2,...,M；x_i为第i个训练样本的特征向量；y_i为第i个训练样本中的特征值；

为训练样本量；M为训练样本数据集中训练样本的总数量。

选取适当的核函数K(x,y)和惩罚参数C，其中C大于0，构造并求解凸二次规划问题，得到最优解。选择最优解α^*的一个分量

满足条件

按照以下公式计算b^*：

其中，b^*为分类超平面的常数项；

和

均为拉格朗日乘子α^*的分量；K(x_i,y_i)为第i个训练样本的核函数。

(2)分类决策函数：

选取高斯径向基函数分类器，得到最终分类决策函数为：

其中，

作为超参数传入；

为正实数集合。

(3)损失函数：由于模型的安全性评级受到模型重要性的影响，可以在损失函数中引入模型重要性的权重，重要性越高的模型，其错误分类的损失越高。可以令模型重要性参数为s，s∈N，N为自然数集。s越大表示模型越重要，可以按照以下公式对模型重要性参数进行归一化：

其中，s’_i为第i个训练样本归一化后的重要性参数；s_i为第i个训练样本的重要性参数；M为训练样本数据集中训练样本的总数量；s_max为M个训练样本的重要性参数中的最大值；s_min为M个训练样本的重要性参数中的最小值。

将s’_i引入支持向量机的原损失函数，可以得到：

在一个实施方式中，由于特征值标签本身并非平行分类，因此，可以将特征值的预测值与特征值的实际值之间的距离

引入损失函数，可以得到目标损失函数：

其中，L为目标损失函数；M为训练样本数据集中训练样本的总数量；i为变量，i的最大值为M；j为第i个训练样本的预测值；y_i为第i个训练样本中的特征值；R_j为第i个训练样本的特征值的预测值对应的表征值；

为第i个训练样本的特征值的实际值对应的表征值；s’_i为第i个训练样本归一化后的重要性参数；x_i为第i个训练样本中的特征向量；W为所有参数向量；f(x_i；W)_j为第i个训练样本的特征值除实际值外其它值的得分；

为第i个训练样本的特征值的实际值的得分。

在本实施方式中，在输出的特征值为评级的情况下，可以将输出的特征值对应的表征值表示为R。例如：特征值包括极低、低、中、高四个等级，则R_高＝4，R_中＝3，R_低＝2，R_极低＝1。采用引入模型重要性参数和特征值的预测值与特征值的实际值之间的距离的目标损失函数，可以在实现快速迭代、提高训练效率的同时提高准确率。

在本实施方式中，可以利用所述训练样本数据集对所述初始预测模型进行交叉验证，在一些实施例中可以使用k-折验证法，即需要k次验证。由于每次交叉验证的验证集不重复，训练样本数据集中所有数据都有机会被验证，因此k-折交叉验证法可以很好地降低模型过拟合的风险，提高模型的泛化能力。具体的方法如下：

首先可以将上述训练样本数据集D按照数量平均分为k份，可以得到：D＝{D₁,D₂,...,D_k}，对于均分后的训练样本数据集，需要进行k次交叉验证，每次验证时，将训练样本数据集D中的1份数据作为验证数据集，其他k-1份作为训练数据集。可以用SVM模型在训练数据集上进行训练，得到一组参数paramsi(SVM非超参数部分)，再用这组参数和验证数据集进行拟合，可以得到第i折时验证数据集的特征值预测值，并计算与验证数据集的特征值真实值的均方误差MSE_i。其中，上述参数paramsi可以包括b^*、α、分类决策函数，上述α为拉格朗日乘子的分量。

其中，MSE_i为第i折的均方误差；n为第i折的验证数据集中数据总量；j为变量；y_i为第i折时验证数据集的特征值真实值；

为第i折时验证数据集的特征值预测值。

在本实施方式中，经过k次验证后，可以得到相应的k组参数和均方误差，选取最小均方误差作为验证条件，当其小于预设阈值时，则通过验证，对应的参数组合可以作为最终目标预测模型的参数组合。否则不通过验证，需要对初始预测模型的超参数进行优化。

在本实施方式中，可以基于所属类别为目标类别的样本模型的特征向量和特征值生成训练样本数据集，并根据所述训练样本数据集，利用支持向量机、目标损失函数和默认超参数集训练得到初始预测模型。进一步的，可以利用所述训练样本数据集对所述初始预测模型进行交叉验证，从而可以确保最终训练得到的目标预测模型的准确性。

在一个实施方式中，在利用所述训练样本数据集对所述初始预测模型进行交叉验证之后，还可以包括：在确定验证未通过的情况下，确定初始超参数集。可以利用贝叶斯优化算法对所述初始超参数集进行迭代优化，得到目标超参数集。进一步的，可以根据所述训练样本数据集，利用支持向量机、所述目标损失函数和所述目标超参数集训练得到更新后的预测模型，并利用所述训练样本数据集对所述更新后的预测模型进行交叉验证。在确定验证未通过的情况下，可以继续调整所述初始超参数集，直至验证通过。

在本实施方式中，在验证未通过的情况下，可以初始预测模型的超参数进行优化。超参数是指算法模型中无法通过学习数据来更新的参数，通常在训练时先用一组默认值。超参数往往对模型效果有较大的影响，因此，需要合理选择超参数。超参数寻优的常见方法有网格搜索、随机搜索等，这些方法都是穷举法的延伸，将超参数的不同取值采样后进行随机排列组合，遍历所有组合寻找最优方案，不同的是网格搜索全样本采样，随机搜索使用连续值随机采样，需要的算力更小，效率更高。

在本实施方式中，可以采用贝叶斯优化算法对超参数进行优化，其核心思路是先确定一个初始超参数集合，根据这些集合中的点确定下一个可能的极值点，并将这个新的点加入集合中，重复这个步骤直到迭代完成，至此会得到一个新的集合，从新的集合中找出极值点，作为最终的超参数最优解。使用集合中的点对下一个点进行估计的方法，遵循以下步骤：1、根据已有点对应的函数值，用高斯过程回归，估计真实目标函数值的均值和方差；2、根据步骤1的均值和方差，构造采集函数，对每一个点是函数极值点的可能性进行估计，该函数的极值点即为下一个加入集合的点。

在本实施方式中，由于SVM分类器采用了高斯径向基函数，因此，超参数集中的超参数考可以包括惩罚参数C和核函数的参数σ，贝叶斯优化算法可以如下所示。

Input：F，X，S，M

D←InitSamples(f，x)

for i in D to T do

p(y|x,D)←FitModel(M,D)

xi←arg maxx∈XS(x，p(y|x,D))

yi←f(xi)

D←D∪(xi,yi)

end for

其中，F为交叉验证后未通过验证的初始预测模型；X为初始超参数集；D表示一个由若干对数据(x，y)组成的数据集，x是一组超参数，y表示该超参数对应的结果；S表示指根据前步求得的均值和方差所构造的采集函数；M表示对数据集D利用高斯模型拟合得到的模型；T表示迭代次数。

在本实施方式中，可以利用优化得到的目标超参数集对初始预测模型进行重新训练，从而更新初始预测模型，并再次进行交叉验证，直到满足验证条件，得到目标预测模型，得到最终得到的目标预测模型可以准确地进行预测。

在一个实施方式中，对各个样本模型的模型信息集进行预处理，得到各个样本模型的特征向量，可以包括：对所述各个样本模型的模型信息集进行数据清洗，得到清洗后的各个样本模型的模型信息集。并对所述清洗后的各个样本模型的模型信息集中的数据进行向量映射，得到所述各个样本模型的第一特征向量。进一步的，可以将所述各个样本模型的第一特征向量中的离散型特征转换为连续型特征，得到所述各个样本模型的第二特征向量。并对所述各个样本模型的第二特征向量中各个特征参数进行归一化处理，得到所述各个样本模型的第三特征向量。可以利用主成分分析法对所述各个样本模型的第三特征向量进行降维，得到各个样本模型的特征向量样本。

在本实施方式中，对各个样本模型的模型信息集进行预处理的方式与对目标模型的模型信息集进行预处理的方式相似，重复之处不再赘述。

在本实施方式中，特征向量中的各个特征之间也并非完全孤立，往往会存在一定程度的相关性，对特征独立进行孤立分析则会忽略其中的相关性，从而损失信息增益，合理的降维方法可以增加数据的易用性、去除噪声、降低后续模型训练的计算开销。因此们可以采用PCA(主成分分析)的降维方法，首先，对于样本量为M的n维特征向量集H，可以表示为一个m×n的样本矩阵X：

对样本矩阵X去中心化，可以得到：

其中，μ_i是维度为i的m个特征的均值，

在本实施方式中，PCA算法可以实现将样本的维度从n维降到n′维，并且这m个n′维度的样本能够最大限度的代表原样本集的信息。可以先计算样本矩阵X′的协方差矩阵X′X′^T，再通过奇异值分解方法求协方差矩阵的特征值和特征向量。按照特征值从大到小的顺序，可以将对应的特征向量按行排列成矩阵，取前n′行组成降维后的特征向量矩阵W，则降维后的特征向量集H’＝(z₁,z₂,...,z_m)，z_i＝W^Tx_i。其中，z_i为第i个降维后的特征向量；x_i为第i个降维前的特征向量。

在本实施方式中，可以利用数据清洗、向量映射、将离散型特征转换为连续型特征、归一化处理、特征降维等技术手段对模型信息集进行预处理，从而发现并纠正模型信息集中可识别的错误、消除特征量纲差异带来的影响并去除冗余信息，从而可以为模型训练提供准确的数据基础。

在一个实施方式中，将所述各个样本模型的第一特征向量中的离散型特征转换为连续型特征，得到所述各个样本模型的第二特征向量，可以包括：利用One-Hot编码将所述各个样本模型的第一特征向量中的离散型分类特征转换为连续型数值特征，并通过求取距离当前日期的天数将日期类特征转换为连续型数值特征。进一步的，通过线性分段将连续型数值特征中的时序特征转换为多维特征，并利用滑动窗口将所述多维特征取平均值和极值，得到所述各个样本模型的第二特征向量。

在本实施方式中，One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

在本实施方式中，模型信息集可以包含多种类型的特征，通常可以包含连续型特征和离散型特征，可以如表1中所示。

表1

在本实施方式中，表1中的“风险类型”数据为离散型分类特征，可以采用One-Hot编码将一维特征映射成多维特征，有此特征则取值1，无此特征则取0，利用One-Hot编码处理后的结果可以如表2中所示。

表2

模型ID	模型开发日期	零售信用风险	非零售信用风险	市场风险
					M202000001	2019年12月	1	0	0
M202000002	2020年4月	0	1	0
					M202000003	2020年5月	0	0	1

在本实施方式中“模型开发日期”为日期类特征，可以通过求取距离当前日期的天数转换成连续型数值特征；“文档缺失数量”和“模型AR值”都为连续型数值特征，可保持值不变。

在本实施方式中，由于连续型数值特征中时序特征通常为单一时刻的特征，无法体现出模型的变化趋势。因此，可以通过线性分段表示的方法将模型表现的变化趋势转换为多维特征。当前大部分线上模型的使用频率均为每月一次，因此，可以将最近一年的模型指标分数按月映射成12维的连续型数值特征。当然可以理解的是，上述线性分段的时间间隔可以根据实际情况确定，本说明书实施例对此不作限定。例如，对于模型M202000001，映射得到的AR可以如表3中所示。

表3

时间	2020-01-01	2020-02-29	2020-03-31	2020-04-30	...
						AR	0.45	0.46	0.47	0.42	...

在本实施方式中，在对AR线性分段后，在当前日期为2020年5月30日时，可得到相对于当前日期的特征值，可以如表4中所示。

表4

模型ID	4个月前AR值	3个月前AR值	2个月前AR值	1个月前AR值	...
						M202000001	0.45	0.46	0.47	0.42	...

在本实施方式中，可以利用滑动窗口(时间为1年)算法求取平均值和极值，从而可以得到如表5中所示的特征。当然可以理解的是，上述滑动窗口的时间可以根据实际情况调整，本说明书实施例对此不作限定。

表5

在本实施方式中，可以利用One-Hot编码和求取距离当前日期的天数将离散型特征转换为连续型数值特征。进一步的，可以针对连续型数值时序特征引入滑动窗口和线性分段的方法，将某个时间段内的数据特性反馈成一个或多个特征，与单一时间点的数据相比，更加能反应模型的整体特性，进行可以提高预测的准确率。

基于同一发明构思，本说明书实施例中还提供了一种模型安全性的确定装置，如下面的实施例所述。由于模型安全性的确定装置解决问题的原理与模型安全性的确定方法相似，因此模型安全性的确定装置的实施可以参见模型安全性的确定方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图2是本说明书实施例的模型安全性的确定装置的一种结构框图，如图2所示，可以包括：采集模块201、预处理模块202、确定模块203，下面对该结构进行说明。

采集模块201，可以用于采集目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据；

预处理模块202，可以用于对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；

确定模块203，可以用于基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。

本说明书实施例实施方式还提供了一种电子设备，具体可以参阅图3所示的基于本说明书实施例提供的模型安全性的确定方法的电子设备组成结构示意图，所述电子设备具体可以包括输入设备31、处理器32、存储器33。其中，所述输入设备31具体可以用于输入目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据。所述处理器32具体可以用于对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。所述存储器33具体可以用于存储特征值等参数。

在本实施方式中，所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说明书实施例实施方式中还提供了一种基于模型安全性的确定方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时可以实现：采集目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据；对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、缓存(Cache)、硬盘(Hard DiskDrive，HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本说明书实施例不限制于任何特定的硬件和软件结合。

虽然本说明书实施例提供了如上述实施例或流程图所述的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本说明书实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此，本说明书实施例的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。

以上所述仅为本说明书实施例的优选实施例而已，并不用于限制本说明书实施例，对于本领域的技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

Claims

1.一种模型安全性的确定方法，其特征在于，包括：

采集目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据；

对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；

基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。

2.根据权利要求1所述的方法，其特征在于，所述模型信息集中包含：模型属性信息、模型文档信息、模型问题信息、模型质量信息和模型重要性信息。

3.根据权利要求1所述的方法，其特征在于，对所述模型信息集进行预处理，得到所述目标模型的目标特征向量，包括：

对所述模型信息集进行数据清洗，得到清洗后的模型信息集；

对所述清洗后的模型信息集中的数据进行向量映射，得到第一特征向量；

将所述第一特征向量中的离散型特征转换为连续型特征，得到第二特征向量；

对所述第二特征向量中各个特征参数进行归一化处理，得到第三特征向量；

利用主成分分析法对所述第三特征向量进行降维，得到目标特征向量。

4.根据权利要求1所述的方法，其特征在于，所述目标模型所属类别为目标类别，所述目标预测模型为利用支持向量机预先训练得到的用于预测类别为目标类别的模型特征值的机器学习模型。

5.根据权利要求4所述的方法，其特征在于，在基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值之前，还包括：

获取多个样本模型的模型信息集；其中，所述样本模型所属类别为目标类别；

对各个样本模型的模型信息集进行预处理，得到各个样本模型的特征向量；

获取各个样本模型的特征值；

基于所述各个样本模型的特征向量和特征值，生成训练样本数据集；

根据所述训练样本数据集，利用支持向量机、目标损失函数和默认超参数集训练得到初始预测模型；

利用所述训练样本数据集对所述初始预测模型进行交叉验证；

在确定验证通过的情况下，将所述初始预测模型作为所述目标预测模型。

6.根据权利要求5所述的方法，其特征在于，在利用所述训练样本数据集对所述初始预测模型进行交叉验证之后，还包括：

在确定验证未通过的情况下，确定初始超参数集；

利用贝叶斯优化算法对所述初始超参数集进行迭代优化，得到目标超参数集；

根据所述训练样本数据集，利用支持向量机、所述目标损失函数和所述目标超参数集训练得到更新后的预测模型；

利用所述训练样本数据集对所述更新后的预测模型进行交叉验证；

在确定验证未通过的情况下，调整所述初始超参数集，直至验证通过。

7.根据权利要求5所述的方法，其特征在于，所述目标损失函数如下所示：

为第i个训练样本的特征值的实际值对应的表征值；s'_i为第i个训练样本归一化后的重要性参数；x_i为第i个训练样本中的特征向量；W为所有参数向量；f(x_i；W)_j为第i个训练样本的特征值除实际值外其它值的得分；

为第i个训练样本的特征值的实际值的得分。

8.根据权利要求5所述的方法，其特征在于，对各个样本模型的模型信息集进行预处理，得到各个样本模型的特征向量，包括：

对所述各个样本模型的模型信息集进行数据清洗，得到清洗后的各个样本模型的模型信息集；

对所述清洗后的各个样本模型的模型信息集中的数据进行向量映射，得到所述各个样本模型的第一特征向量；

将所述各个样本模型的第一特征向量中的离散型特征转换为连续型特征，得到所述各个样本模型的第二特征向量；

对所述各个样本模型的第二特征向量中各个特征参数进行归一化处理，得到所述各个样本模型的第三特征向量；

利用主成分分析法对所述各个样本模型的第三特征向量进行降维，得到各个样本模型的特征向量样本。

9.根据权利要求8所述的方法，其特征在于，将所述各个样本模型的第一特征向量中的离散型特征转换为连续型特征，得到所述各个样本模型的第二特征向量，包括：

利用One-Hot编码将所述各个样本模型的第一特征向量中的离散型分类特征转换为连续型数值特征；

通过求取距离当前日期的天数将日期类特征转换为连续型数值特征；

通过线性分段将连续型数值特征中的时序特征转换为多维特征，并利用滑动窗口将所述多维特征取平均值和极值，得到所述各个样本模型的第二特征向量。

10.一种模型安全性的确定装置，其特征在于，包括：

采集模块，用于采集目标模型的模型信息集；其中，所述模型信息集中包含多个在所述目标模型开发、运行过程中统计的数据；

预处理模块，用于对所述模型信息集进行预处理，得到所述目标模型的目标特征向量；其中，所述目标特征向量中包含多个用于表征所述目标模型的特征参数；

确定模块，用于基于所述目标特征向量，利用目标预测模型确定所述目标模型的特征值；其中，所述目标预测模型为利用支持向量机预先训练得到的用于预测目标模型特征值的机器学习模型，所述特征值用于表征所述目标模型的安全性。

11.一种模型安全性的确定设备，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至9中任一项所述方法的步骤。