CN113962515A

CN113962515A - 模型数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113962515A
Application number: CN202111054775.3A
Authority: CN
Inventors: 丁开荣
Original assignee: Shanghai Shuhe Information Technology Co Ltd
Current assignee: Shanghai Shuhe Information Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-01-21

Abstract

本申请涉及一种模型数据处理方法、装置、计算机设备和存储介质。该方法包括：获取目标模块数据集，根据目标模块数据集构建得到目标子模型集；在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型；在目标模块数据集发生数据缺失时，确定缺失模块数据；对缺失模块数据进行编码，得到编码后的缺失模块数据；根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集；将中间子模型集进行模型融合，得到第二主模型；获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分；根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告。采用本方法能够节约了大量的人力成本。

Description

模型数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种模型数据处理方法、装置、计算机设备和存储介质。

背景技术

在金融风控建模领域，模型的稳定性能对于公司的风控政策制定及实施极为重要。模型的稳定性强，拥有优秀的抗波动能力，鲁棒性高，能极大的降低公司因风控模型变动而造成的业务影响，有利于公司把控全局，平稳发展。

但是，在实际业务当中，模型稳定性会受到诸多因素的干扰，其中最大的影响因素在于模型所使用到的变量突然缺失，例如数据供应商下线，政策禁止等等，这对模型的预测准确性及模型效果造成极大的影响。

然而，在已有的解决方案中，大多数情况下是通过对模型的重新评估、迭代，将缺失的变量数据剔除出模型的输入项，重新进行模型的开发，这种工作量巨大，且模型的开发周期较长，难以及时的应对缺失数据的影响。

发明内容

基于此，有必要针对上述技术问题，提供一种模型数据处理方法、装置、计算机设备和存储介质，能够极大的降低因部分数据缺失对模型造成的影响，模型开发人员不需要对模型进行重新迭代开发，仅需业务人员进行策略微调即可，减少了大量的工作量，极大提升工作效率，节约了大量的人力成本。

一种模型数据处理方法，该方法包括：

获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据；

在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型；

在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据；

对缺失模块数据进行编码，得到编码后的缺失模块数据；

根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集；

将中间子模型集进行模型融合，得到第二主模型；

获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分；

根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

在其中一个实施例中，获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，包括：获取当前数据集，当前数据集包括至少一个当前数据，当前数据携带当前数据信息和当前数据供应商信息，根据当前数据信息或当前数据供应商信息对当前数据集中的各当前数据进行模块化分类，得到目标模块数据集，目标模块数据集包括目标预设数目个目标模块数据，在目标模块数据集中，随机抽取当前预设数目个当前模块数据，根据各当前模块数据进行模型构建，得到目标子模型，获取下一个预设数目，将下一个预设数目确定为当前预设数目，返回步骤在目标模块数据集中，随机抽取当前预设数目个当前模块数据，直至得到目标子模型集。

在其中一个实施例中，将目标子模型集进行模型融合，得到第一主模型，包括：获取各目标子模型对应的第一模型评估指标值和第二模型评估指标值，第一模型评估指标值和第二模型评估指标值是目标子模型在进行模型训练时计算得到的，第一模型评估指标值和第二模型评估指标值都是反映模型对好坏样本的区分能力的评价指标，根据各目标子模型对应的第一模型评估指标值或第二模型评估指标值将各目标子模型进行模型融合，得到第一主模型。

在其中一个实施例中，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，包括：检测目标模块数据集中各目标模块数据中的各目标数据是否存在对应的反馈信息，将不存在反馈信息对应的目标数据所在的模块数据确定为目标模块数据集发生数据缺失对应的缺失模块数据。

在其中一个实施例中，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，包括：将目标子模型集中使用到编码后的缺失模块数据的目标子模型进行剔除，将目标子模型集中剩余的目标子模型组成得到中间子模型集，其中，中间子模型集为目标子模型集中未使用到编码后的缺失模块数据的目标子模型的集合。

在其中一个实施例中，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，包括：获取各目标子模型对应的目标模型评估指标值，以及获取各目标子模型对应的目标模型输出分数，根据各目标模型评估指标值和各目标模型输出分数计算得到第一主模型对应的第一模型融合分，获取中间子模型集中各中间子模型对应的中间模型评估指标值，以及获取各中间子模型对应的中间模型输出分数，根据各中间模型评估指标值和各中间模型输出分数计算得到第二主模型对应的第二模型融合分。

在其中一个实施例中，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略，包括：计算第一模型融合分与第二模型融合分的模型融合分差值，根据融合分差值与预设融合分阈值得到缺失数据评估报告，根据缺失评估报告制定缺失模块数据对应的风险应对策略。

一种模型数据处理装置，该装置包括：

第一获取模块，用于获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据；

第一融合模块，用于在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型；

确定模块，用于在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据；

编码模块，用于对缺失模块数据进行编码，得到编码后的缺失模块数据；

筛选模块，用于根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集；

第二融合模块，用于将中间子模型集进行模型融合，得到第二主模型；

第二获取模块，用于获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分；

生成模块，用于根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对缺失模块数据进行编码，得到编码后的缺失模块数据；

将中间子模型集进行模型融合，得到第二主模型；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对缺失模块数据进行编码，得到编码后的缺失模块数据；

将中间子模型集进行模型融合，得到第二主模型；

上述模型数据处理方法、装置、计算机设备和存储介质，获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据，在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，对缺失模块数据进行编码，得到编码后的缺失模块数据，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，将中间子模型集进行模型融合，得到第二主模型，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

因此，通过目标模块数据集进行目标子模型的构建，通过融合目标子模型，得到第一主模型，第一主模型是目标模块数据集未发生数据缺失前的主模型，当目标模块数据集发生数据缺失时，通过融合中间子模型，得到第二主模型，第二主模型是目标模块数据集发生数据缺失后的主模型，通过对比数据缺失前的主模型的模型融合分和数据缺失后的主模型的模型融合分，得到缺失模块数据对应的缺失数据评估报告，通过该方法能够极大的降低因部分数据缺失对模型造成的影响，模型开发人员不需要对模型进行重新迭代开发，仅需业务人员进行策略微调即可，减少了大量的工作量，极大提升工作效率，节约了大量的人力成本。

附图说明

图1为一个实施例中模型数据处理方法的应用环境图；

图2为一个实施例中模型数据处理方法的流程示意图；

图3为一个实施例中目标模块数据集获取步骤的流程示意图；

图4为一个实施例中目标子模型集融合步骤的流程示意图；

图5为一个实施例中缺失模块数据确定步骤的流程示意图；

图6为一个实施例中模型融合分获取步骤的流程示意图；

图7为一个实施例中模型数据处理步骤的流程示意图；

图8为一个实施例中模型数据处理装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的模型数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，终端102将目标模块数据集发送至服务器104中，服务器104获取到目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据，在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，对缺失模块数据进行编码，得到编码后的缺失模块数据，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，将中间子模型集进行模型融合，得到第二主模型，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。最后，服务器104可将缺失模块数据对应的缺失数据评估报告返回至终端102。

在一个实施例中，如图2所示，提供了一种模型数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据。

其中，这里的目标模块数据集是目标模块数据组成的集合，目标模块数据包括多个目标数据，目标数据可以是用于建模的原始数据，也可以与实际业务相关的数据，例如与金融相关的数据，目标数据的来源可以是数据供应商或者自有数据。

其中，在得到目标模块数据集后，可以根据目标模块数据集构建得到目标子模型集，具体可以是，可以从目标模块数据集中随机抽取一些目标模块数据，根据这些抽取的目标模块数据进行模型开发，得到对应的目标子模型，其中，目标子模型可以是金融风险控制模型，不断重复从目标模块数据集中抽取目标模块数据，得到目标子模型集。其中，模型开发就是进行常规的建模流程，与正常建模方式一样，样本提取，模型构建，模型效果验证等等。

步骤204，在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型。

其中，目标模块数据集都是完整，说明目标模块数据集中的各目标模块数据中的目标数据并未发生数据缺失时，可以将各目标子模型集进行融合，得到汇总后的第一主模型。其中，将各目标子模型进行模型融合，具体可以是，获取各目标子模型对应的目标模型评估指标值，根据各目标模型评估指标值进行融合，得到汇总后的第一主模型。其中，目标模型评估指标值是用来反映目标子模型对好坏样本的区分能力评价指标。

步骤206，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据。

其中，在实际情况中，由于各种影响因素可能会导致目标模块数据集发生数据缺失，例如数据供应商下线，政策禁止，接口问题等等，因此，在目标模块数据集中的目标模块数据中某个目标数据发生数据缺失时，将该发生数据缺失的目标模块数据确定为目标模块数据集中发生数据缺失的缺失模块数据，即该发生数据缺失的目标数据所在的目标模块数据为缺失模块数据。

步骤208，对缺失模块数据进行编码，得到编码后的缺失模块数据。

具体地，在得到缺失模块数据后，需要对缺失模块数据进行编码，得到编码后的缺失模块数据，编码可以是运用现有的编码算法进行编码。通过编码可以将缺失模块数据进行数据统一化，消除各数据之间的差异性。例如，缺失模块数据为缺失A模块和缺失B模块，则分别对这两个模块进行编码，得到编码后的缺失A模块和编码后的缺失B模块。

步骤210，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集。

其中，这里的中间子模型集是目标子模型集中未使用到编码后的缺失模块数据的目标子模型的集合，由于目标子模型都是通过目标模块数据集进行构建得到的，因此，可以根据编码后的缺失模块数据从目标子模型集中筛选出未使用到编码后的缺失模块数据的中间子模型集。也就是说，将目标子模型集中使用到缺失模块数据的目标子模型进行剔除，剩余的目标子模型组成中间子模型集。

在一个实施例中，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，包括：将目标子模型集中使用到编码后的缺失模块数据的目标子模型进行剔除，将目标子模型集中剩余的目标子模型组成得到中间子模型集，其中，中间子模型集为目标子模型集中未使用到编码后的缺失模块数据的目标子模型的集合。

其中，由于目标子模型都是通过目标模块数据集进行构建得到的，因此，可以根据各目标子模型是否使用过缺失模块数据对目标子模型集进行筛选，具体是，将目标子模型集中使用到编码后的缺失模块数据的目标子模型进行剔除，将目标子模型集中剩余的目标子模型组成中间子模型集。

步骤212，将中间子模型集进行模型融合，得到第二主模型。

具体地，在得到中间子模型集后，将中间子模型集中的各中间子模型进行模型融合，得到汇总后的第二主模型。其中，将各中间子模型进行模型融合，具体可以是，获取各中间子模型对应的中间模型评估指标值，根据各中间模型评估指标值将各中间子模型进行模型融合，得到汇总后的第二主模型。其中，中间模型评估指标值是用来反映中间子模型对好坏样本的区分能力评价指标。

其中，融合后的模型自身抗干扰能力强，稳定性高，能够及时有效的应对各种变量缺失的突发情况，不需要模型开发人员重新进行模型开发，提升了整体风控效率，节省大量的人力成本，保障风控水平的平稳性。

步骤214，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分。

其中，模型融合分是主模型的模型输出分数，用来体现主模型的模型预测效果的，获取发生数据缺失前的第一主模型对应的第一模型融合分，以及获取发生数据缺失后的第二主模型对应的第二模型融合分。第一主模型和第二主模型在构建好后，会根据输入数据进行模型效果验证，得到对应的模型融合分。

步骤216，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

其中，在得到发生数据缺失前的第一模型融合分和发生数据缺失后的第二模型融合分后，对比缺失前和缺失后的模型融合分的变化，得到缺失模块数据对应的缺失数据评估报告。而缺失数据评估报告可用于指示制定缺失模块数据对应的风险应对策略，将该风险应对策略与缺失模块数据进行绑定，当后续实际业务中发生缺失模块数据中部分数据发生缺失时，可直接调用匹配的风险应对策略，无需对模型进行重新迭代开发，仅需要业务人员进行处理微调即可，减少了大量的工作量，极大提升工作效率，节约了大量的人力成本。

上述模型数据处理方法中，获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据，在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，对缺失模块数据进行编码，得到编码后的缺失模块数据，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，将中间子模型集进行模型融合，得到第二主模型，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

在一个实施例中，如图3所示，获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，包括：

步骤302，获取当前数据集，当前数据集包括至少一个当前数据，当前数据携带当前数据信息和当前数据供应商信息。

步骤304，根据当前数据信息或当前数据供应商信息对当前数据集中的各当前数据进行模块化分类，得到目标模块数据集，目标模块数据集包括目标预设数目个目标模块数据。

其中，这里的当前数据集是由原始数据组成的集合，当前数据可以是与实际业务相关的数据，也可以是用于建模的数据。其中，当前数据携带当前数据信息和当前数据供应商信息，所谓当前数据信息是当前数据的基本属性信息，包括当前数据所包含的业务含义、当前数据的数据来源等，而当前数据供应商信息是当前数据对应的供应商相关的信息。

具体地，对当前数据集中的所有当前数据进行模块化分类，具体可以根据各当前数据对应的当前数据信息或者是当前数据供应商信息进行模块化分类，得到目标模块数据集。例如，可以将相同数据供应商对应的当前数据分为一组，或者是可以将相同数据来源对应的当前数据分为一组。其中，目标模块数据集包括目标预设数目个目标模块数据，目标模块数据中包括多个目标数据。其中，目标预设数目个是目标模块数据对应的模块个数，可以根据实际业务情况、实际产品需求或实际应用场景进行确定的到。

例如，将全部可用的当前数据(记为V)进行模块化分类，可以按照不同数据供应商分类，或按照数据不同业务含义分类等等，假设分为A、B、C、D、E、F、G、H、I、J共10个(具体模块数量可根据实际情况而定)，称之为10个目标模块数据。

步骤306，在目标模块数据集中，随机抽取当前预设数目个当前模块数据，根据各当前模块数据进行模型构建，得到目标子模型。

步骤308，获取下一个预设数目，将下一个预设数目确定为当前预设数目，返回步骤在目标模块数据集中，随机抽取当前预设数目个当前模块数据，直至得到目标子模型集。

其中，在目标模块数据集中，随机抽取当前预设数目个当前模块数据，也就是说，从目标模块数据集中随机抽取当前模块数据，当前模块数据对应的当前预设数目具体可以根据实际业务情况、实际产品需求或实际应用场景进行确定得到。其中，当前预设数目小于目标预设数目，肯定不能将目标模块数据集中的各目标模块数据都确定未当前模块数据，这样就没有任何意义了。

具体地，从目标模块数据集中随机抽取当前预设数目个当前模块数据，再根据各当前模块数据进行模型构建，得到目标子模型。进一步地，需要不断地从目标模块数据集中随机抽取得到当前模块数据，具体可以是，获取下一个预设数目，其中，下一个预设数目依旧需要未超过目标预设数目，且与当前预设数目为不同的数值，再将下一个预设数目确定为当前预设数目，返回步骤在目标模块数据集中，随机抽取当前预设数目个当前模块数据，直至得到目标子模型集。

例如，在10个目标模块数据中，随机抽取5个(抽取个数根据实际情况而定)目标模块数据作为当前模块数据，组成可选变量池，在这5个当前模块数据构成的变量池中开发目标子模型M1，重复上述中操作100次(具体次数可根据实际情况调整)，得到100个目标子模型M1～M100。

在一个实施例中，如图4所示，将目标子模型集进行模型融合，得到第一主模型，包括：

步骤402，获取各目标子模型对应的第一模型评估指标值和第二模型评估指标值，第一模型评估指标值和第二模型评估指标值是目标子模型在进行模型训练时计算得到的，第一模型评估指标值和第二模型评估指标值都是反映模型对好坏样本的区分能力的评价指标。

步骤404，根据各目标子模型对应的第一模型评估指标值或第二模型评估指标值将各目标子模型进行模型融合，得到第一主模型。

其中，第一模型评估指标值和第二模块评估指标值是两个不同类型的模型评估指标值，但是都是用来反映模型对好坏样本的区分能力的评价指标，第一模型评估指标值可以是KS指标值，所谓KS指标值是信用评分和其他很多学科中常见的统计量，在金融风控领域中，常用于衡量模型对正负样本的区分度。通常来说，值越大，模型区分正负样本的能力越强，一般0.3以上，说明模型的效果比较好。

其中，第二模型评估指标值可以是AUC指标值，所谓AUC指标值是用来反映的是模型对样本的排序能力，从物理意义上来说，AUC反映的是正样本的预测结果大于负样本预测结果的概率。

其中，第一模型评估指标值和第二模型评估指标值在目标子模型进行模型训练时的定值，用来目标子模型在进行模型融合时加权使用的。具体地，获取各目标子模型对应的第一模型评估指标值和第二模型评估指标值，可以根据各目标子模型对应的第一模型评估指标值或第二模型评估指标值将各目标子模型进行模型融合，得到第一主模型。

其中，将各子模型进行模型融合时，可以将各目标子模型对应的第一模型评估指标值或第二模型评估指标值作为模型融合时的权重，可以进行加权平均等方式进行模型融合，得到融合后的第一主模型。

在一个实施例中，如图5所示，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，包括：

步骤502，检测目标模块数据集中各目标模块数据中的各目标数据是否存在对应的反馈信息。

步骤504，将不存在反馈信息对应的目标数据所在的模块数据确定为目标模块数据集发生数据缺失对应的缺失模块数据。

其中，在实际情况中，由于各种影响因素可能会导致目标模块数据集发生数据缺失，例如数据供应商下线，政策禁止，接口问题等等，因此，需要检测目标模块数据集中各目标模块数据中的目标数据是否发生数据缺失。具体可以是，通过检测目标模块数据集中各目标模块数据中的各目标数据是否存在对应的反馈信息，如果存在反馈信息，说明该目标数据并没有丢失或者出现任何异常，反之，如果该目标数据不存在反馈信息时，说明该目标数据可能出现数据供应商下线、数据传输接口出现问题等，发生了数据缺失，因此，将不存在反馈信息对应的目标数据所在的模块数据确定为目标模块数据集发生数据缺失对应的缺失模块数据。其中，缺失模块数据可以是一个模块，也可以是多个模块，也就是说，发生数据缺失有可能是一个模块数据发生数据缺失，也有可能是多个模块数据中都发生了数据缺失。

在一个实施例中，如图6所示，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，包括：

步骤602，获取各目标子模型对应的目标模型评估指标值，以及获取各目标子模型对应的目标模型输出分数。

步骤604，根据各目标模型评估指标值和各目标模型输出分数计算得到第一主模型对应的第一模型融合分。

其中，目标模型评估指标值是用来反映目标子模型对好坏样本的区分能力的评价指标，目标模型评估指标值可以是KS指标值或AUC指标值，而目标模型输出分数是目标子模型的输出数据，可以通过目标模型输出分数体现出目标子模型的模型效果，是目标子模型的预测准确性的一个体现。

具体地，获取各目标子模型对应的目标模型评估指标和目标模型输出分数，可以根据各目标模型评估指标值和各目标模型输出分数计算得到第一主模型对应的第一模型融合分。具体计算可以是通过加权平均等方式进行计算。

例如，计算各目标子模型M1～M100的KS指标值，记为KS1～KS100，同时S1～S100分别为目标子模型M1～M100的模型输出分数，则第一主模型M对应的的第一模型融合分即可为：

(S1*KS1+S2*KS2+…+S100*KS100)/100

步骤606，获取中间子模型集中各中间子模型对应的中间模型评估指标值，以及获取各中间子模型对应的中间模型输出分数。

步骤608，根据各中间模型评估指标值和各中间模型输出分数计算得到第二主模型对应的第二模型融合分。

同样地，中间模型评估指标值是用来反映中间子模型对好坏样本的区分能力的评价指标，中间子模型评估指标值可以是KS指标值或AUC指标值，而中间子模型输出分数是中间子模型的输出数据，是中间子模型的预测准确性的一个体现。

具体地，获取中间子模型集中各中间子模型对应的中间模型评估指标值和中间模型输出分数，再根据各中间模型评估指标值和各中间模型输出分数计算得到第二主模型对应的第二模型融合分。计算方式具体可以是加权平均、加权求和等方式进行计算。

例如，计算各中间子模型M1～M100的AUC指标值，记为AUC1～AUC100，同时S1～S100分别为中间子模型M1～M100的模型输出分数，则第二主模型M对应的的第二模型融合分即可为：

(S1*AUC1+S2*AUC2+…+S100*AUC100)/100

在一个实施例中，如图7所示，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略，包括：

步骤702，计算第一模型融合分与第二模型融合分的模型融合分差值。

步骤704，根据融合分差值与预设融合分阈值得到缺失数据评估报告。

步骤706，根据缺失评估报告制定缺失模块数据对应的风险应对策略。

具体地，在得到缺失前的第一模型融合分和缺失后的第二模型融合分后，对比缺失前的模型融合分和缺失后的模型融合分，得到缺失前和缺失后模型融合分的变化。具体可以是，通过计算第一模型融合分和第二模型融合分的模型融合分差值，获取预设融合分阈值，预设融合分阈值可以根据实际业务需求、实际产品需求或实际应用场景进行设置得到。进一步地，根据融合分差值与预设融合分阈值得到缺失数据评估报告，缺失数据评估报告中可以描述融合分差值与预设融合分阈值的大小，以及分析出现该情况的原因等，最后，可根据缺失评估报告制定缺失模块数据对应的风险应对策略，将该风险应对策略与缺失模块数据进行绑定，当后续实际业务中发生缺失模块数据中部分数据发生缺失时，可直接调用匹配的风险应对策略，无需对模型进行重新迭代开发，仅需要业务人员进行处理微调即可，减少了大量的工作量，极大提升工作效率，节约了大量的人力成本。

在一个提升风险模型稳定性的混合建模的应用场景中，具体包括以下步骤：

1、将全部可用的变量(记为V)进行模块化分类，可以按照不同数据供应商分类，或按照数据不同业务含义分类等等，假设分为A、B、C、D、E、F、G、H、I、J共10个(具体模块数量可根据实际情况而定)，称之为10个变量子模块。

2、在10个变量子模块中，随机抽取5个(抽取个数根据实际情况而定)变量子模块作为可选变量池，在这5个变量子模块构成的变量池中开发子模型M1。

3、重复步骤2中操作100次(具体次数可根据实际情况调整)，得到100个子模型M1～M100。

4、在全量数据完整的情况下，将100个子模型根据模型训练时各自的模型评估指标KS、AUC进行模型融合，最终得到第一主模型M。

5、将变量子模块进行编码，当数据发生缺失时，假设变量子模块A的数据发生缺失，则将A的模块编码输入系统，系统将M1～M100中所有用到变量子模块A的子模型剔除，假设有X个，剩下的(100-X)子模型根据模型训练时各自的模型评估指标KS、AUC进行模型融合，得到第二主模型M。

其中，AUC和KS都是常规的反映模型对好坏样本的区分能力评价指标，取值在0～1之间。

因此，在利用子模型的KS融合成主模型M时，可以进行加权平均等方式进行融合。例如：分别计算子模型M1～M100的KS值，记为KS1～KS100，同时S1～S100分别为子模型M1～M100的模型输出分数，则主模型M的融合输出分数即可为(S1*KS1+S2*KS2+…+S100*KS100)/100，AUC计算方法与KS计算类似。

最终得到100个子模型融合后的主模型M的分数，同时计算M的KS，AUC等指标，作为最终的模型效果。

6、对主模型M进行变量子模块缺失评估，即分别在数据完整的情况以及A～J 10个变量子模块中单个(或多个)缺失的情况下，分析模型的效果，得到完整的模型报告。

例如：评估变量子模块A的缺失影响，即将步骤4训练好的100个子模型中，所有用到子模块A的子模型剔除，剩余的子模型进行步骤5的加权平均，得到主模型M的融合模型分，并计算融合分的KS，AUC，对比缺失前和缺失A模块后的AUC，KS变化，即得到缺失模块A的缺失评估报告，对所有变量子模块进行相同的操作，即可得到完整的模型缺失影响报告。

7、策略人员根据完整的模型报告，进行线上测试，分别输入不同的子模块编码，模拟缺失情况，进行样本积累及模型线上分析，制定不同的审核策略。当数据真正发生因下线等情况而缺失，仅需进行策略切换模型即可正常使用。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种模型数据处理装置800，包括：第一获取模块802、第一融合模块804、确定模块806、编码模块808、筛选模块810、第二融合模块812、第二获取模块814和生成模块816，其中：

第一获取模块802，用于获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据。

第一融合模块804，用于在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型。

确定模块806，用于在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据。

编码模块808，用于对缺失模块数据进行编码，得到编码后的缺失模块数据。

筛选模块810，用于根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集。

第二融合模块812，用于将中间子模型集进行模型融合，得到第二主模型。

第二获取模块814，用于获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分。

生成模块816，用于根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

在一个实施例中，第一获取模块802获取当前数据集，当前数据集包括至少一个当前数据，当前数据携带当前数据信息和当前数据供应商信息，根据当前数据信息或当前数据供应商信息对当前数据集中的各当前数据进行模块化分类，得到目标模块数据集，目标模块数据集包括目标预设数目个目标模块数据，在目标模块数据集中，随机抽取当前预设数目个当前模块数据，根据各当前模块数据进行模型构建，得到目标子模型，获取下一个预设数目，将下一个预设数目确定为当前预设数目，返回步骤在目标模块数据集中，随机抽取当前预设数目个当前模块数据，直至得到目标子模型集。

在一个实施例中，第一融合模块804获取各目标子模型对应的第一模型评估指标值和第二模型评估指标值，第一模型评估指标值和第二模型评估指标值是目标子模型在进行模型训练时计算得到的，第一模型评估指标值和第二模型评估指标值都是反映模型对好坏样本的区分能力的评价指标，根据各目标子模型对应的第一模型评估指标值或第二模型评估指标值将各目标子模型进行模型融合，得到第一主模型。

在一个实施例中，确定模块806检测目标模块数据集中各目标模块数据中的各目标数据是否存在对应的反馈信息，将不存在反馈信息对应的目标数据所在的模块数据确定为目标模块数据集发生数据缺失对应的缺失模块数据。

在一个实施例中，编码模块808将目标子模型集中使用到编码后的缺失模块数据的目标子模型进行剔除，将目标子模型集中剩余的目标子模型组成得到中间子模型集，其中，中间子模型集为目标子模型集中未使用到编码后的缺失模块数据的目标子模型的集合。

在一个实施例中，第二获取模块814获取各目标子模型对应的目标模型评估指标值，以及获取各目标子模型对应的目标模型输出分数，根据各目标模型评估指标值和各目标模型输出分数计算得到第一主模型对应的第一模型融合分，获取中间子模型集中各中间子模型对应的中间模型评估指标值，以及获取各中间子模型对应的中间模型输出分数，根据各中间模型评估指标值和各中间模型输出分数计算得到第二主模型对应的第二模型融合分。

在一个实施例中，生成模块816计算第一模型融合分与第二模型融合分的模型融合分差值，根据融合分差值与预设融合分阈值得到缺失数据评估报告，根据缺失评估报告制定缺失模块数据对应的风险应对策略。

关于模型数据处理装置的具体限定可以参见上文中对于XXX方法的限定，在此不再赘述。上述模型数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储缺失数据评估报告。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9或图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据，在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，对缺失模块数据进行编码，得到编码后的缺失模块数据，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，将中间子模型集进行模型融合，得到第二主模型，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取当前数据集，当前数据集包括至少一个当前数据，当前数据携带当前数据信息和当前数据供应商信息，根据当前数据信息或当前数据供应商信息对当前数据集中的各当前数据进行模块化分类，得到目标模块数据集，目标模块数据集包括目标预设数目个目标模块数据，在目标模块数据集中，随机抽取当前预设数目个当前模块数据，根据各当前模块数据进行模型构建，得到目标子模型，获取下一个预设数目，将下一个预设数目确定为当前预设数目，返回步骤在目标模块数据集中，随机抽取当前预设数目个当前模块数据，直至得到目标子模型集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取各目标子模型对应的第一模型评估指标值和第二模型评估指标值，第一模型评估指标值和第二模型评估指标值是目标子模型在进行模型训练时计算得到的，第一模型评估指标值和第二模型评估指标值都是反映模型对好坏样本的区分能力的评价指标，根据各目标子模型对应的第一模型评估指标值或第二模型评估指标值将各目标子模型进行模型融合，得到第一主模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：检测目标模块数据集中各目标模块数据中的各目标数据是否存在对应的反馈信息，将不存在反馈信息对应的目标数据所在的模块数据确定为目标模块数据集发生数据缺失对应的缺失模块数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将目标子模型集中使用到编码后的缺失模块数据的目标子模型进行剔除，将目标子模型集中剩余的目标子模型组成得到中间子模型集，其中，中间子模型集为目标子模型集中未使用到编码后的缺失模块数据的目标子模型的集合。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取各目标子模型对应的目标模型评估指标值，以及获取各目标子模型对应的目标模型输出分数，根据各目标模型评估指标值和各目标模型输出分数计算得到第一主模型对应的第一模型融合分，获取中间子模型集中各中间子模型对应的中间模型评估指标值，以及获取各中间子模型对应的中间模型输出分数，根据各中间模型评估指标值和各中间模型输出分数计算得到第二主模型对应的第二模型融合分。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算第一模型融合分与第二模型融合分的模型融合分差值，根据融合分差值与预设融合分阈值得到缺失数据评估报告，根据缺失评估报告制定缺失模块数据对应的风险应对策略。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取目标模块数据集，根据目标模块数据集构建得到目标子模型集，目标模块数据集包括至少一个目标模块数据，目标模块数据包括多个目标数据，在目标模块数据集完整时，将目标子模型集进行模型融合，得到第一主模型，在目标模块数据集发生数据缺失时，确定目标模块数据集发生数据缺失对应的缺失模块数据，对缺失模块数据进行编码，得到编码后的缺失模块数据，根据编码后的缺失模块数据从目标子模型集中筛选得到中间子模型集，将中间子模型集进行模型融合，得到第二主模型，获取第一主模型对应的第一模型融合分，获取第二主模型对应的第二模型融合分，根据第一模型融合分和第二模型融合分得到缺失模块数据对应的缺失数据评估报告，缺失数据评估报告用于指示制定缺失模块数据对应的风险应对策略。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种模型数据处理方法，所述方法包括：

获取目标模块数据集，根据所述目标模块数据集构建得到目标子模型集，所述目标模块数据集包括至少一个目标模块数据，所述目标模块数据包括多个目标数据；

在所述目标模块数据集完整时，将所述目标子模型集进行模型融合，得到第一主模型；

在所述目标模块数据集发生数据缺失时，确定所述目标模块数据集发生数据缺失对应的缺失模块数据；

对所述缺失模块数据进行编码，得到编码后的缺失模块数据；

根据所述编码后的缺失模块数据从所述目标子模型集中筛选得到中间子模型集；

将所述中间子模型集进行模型融合，得到第二主模型；

获取所述第一主模型对应的第一模型融合分，获取所述第二主模型对应的第二模型融合分；

根据所述第一模型融合分和第二模型融合分得到所述缺失模块数据对应的缺失数据评估报告，所述缺失数据评估报告用于指示制定所述缺失模块数据对应的风险应对策略。

2.根据权利要求1所述的方法，其特征在于，所述获取目标模块数据集，根据所述目标模块数据集构建得到目标子模型集，包括：

获取当前数据集，所述当前数据集包括至少一个当前数据，所述当前数据携带当前数据信息和当前数据供应商信息；

根据所述当前数据信息或所述当前数据供应商信息对所述当前数据集中的各所述当前数据进行模块化分类，得到目标模块数据集，所述目标模块数据集包括目标预设数目个目标模块数据；

在所述目标模块数据集中，随机抽取当前预设数目个当前模块数据，根据各所述当前模块数据进行模型构建，得到目标子模型；

获取下一个预设数目，将所述下一个预设数目确定为当前预设数目，返回步骤在所述目标模块数据集中，随机抽取当前预设数目个当前模块数据，直至得到目标子模型集。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标子模型集进行模型融合，得到第一主模型，包括：

获取各所述目标子模型对应的第一模型评估指标值和第二模型评估指标值，所述第一模型评估指标值和所述第二模型评估指标值是目标子模型在进行模型训练时计算得到的，所述第一模型评估指标值和所述第二模型评估指标值都是反映模型对好坏样本的区分能力的评价指标；

根据各所述目标子模型对应的第一模型评估指标值或第二模型评估指标值将各所述目标子模型进行模型融合，得到第一主模型。

4.根据权利要求1所述的方法，其特征在于，所述在所述目标模块数据集发生数据缺失时，确定所述目标模块数据集发生数据缺失对应的缺失模块数据，包括：

检测所述目标模块数据集中各所述目标模块数据中的各目标数据是否存在对应的反馈信息；

将不存在反馈信息对应的目标数据所在的模块数据确定为所述目标模块数据集发生数据缺失对应的缺失模块数据。

5.根据权利要求1所述的方法，其特征在于，所述根据所述编码后的缺失模块数据从所述目标子模型集中筛选得到中间子模型集，包括：

将所述目标子模型集中使用到编码后的缺失模块数据的目标子模型进行剔除，将所述目标子模型集中剩余的目标子模型组成得到中间子模型集，其中，中间子模型集为所述目标子模型集中未使用到编码后的缺失模块数据的目标子模型的集合。

6.根据权利要求1所述的方法，其特征在于，所述获取所述第一主模型对应的第一模型融合分，获取所述第二主模型对应的第二模型融合分，包括：

获取各所述目标子模型对应的目标模型评估指标值，以及获取各所述目标子模型对应的目标模型输出分数；

根据各所述目标模型评估指标值和各所述目标模型输出分数计算得到所述第一主模型对应的第一模型融合分；

获取所述中间子模型集中各中间子模型对应的中间模型评估指标值，以及获取各所述中间子模型对应的中间模型输出分数；

根据各所述中间模型评估指标值和各所述中间模型输出分数计算得到所述第二主模型对应的第二模型融合分。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一模型融合分和第二模型融合分得到所述缺失模块数据对应的缺失数据评估报告，所述缺失数据评估报告用于指示制定所述缺失模块数据对应的风险应对策略，包括：

计算所述第一模型融合分与所述第二模型融合分的模型融合分差值；

根据所述融合分差值与预设融合分阈值得到缺失数据评估报告；

根据所述缺失评估报告制定所述缺失模块数据对应的风险应对策略。

8.一种模型数据处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标模块数据集，根据所述目标模块数据集构建得到目标子模型集，所述目标模块数据集包括至少一个目标模块数据，所述目标模块数据包括多个目标数据；

第一融合模块，用于在所述目标模块数据集完整时，将所述目标子模型集进行模型融合，得到第一主模型；

确定模块，用于在所述目标模块数据集发生数据缺失时，确定所述目标模块数据集发生数据缺失对应的缺失模块数据；

编码模块，用于对所述缺失模块数据进行编码，得到编码后的缺失模块数据；

筛选模块，用于根据所述编码后的缺失模块数据从所述目标子模型集中筛选得到中间子模型集；

第二融合模块，用于将所述中间子模型集进行模型融合，得到第二主模型；

第二获取模块，用于获取所述第一主模型对应的第一模型融合分，获取所述第二主模型对应的第二模型融合分；

生成模块，用于根据所述第一模型融合分和第二模型融合分得到所述缺失模块数据对应的缺失数据评估报告，所述缺失数据评估报告用于指示制定所述缺失模块数据对应的风险应对策略。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。