CN116468144A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN116468144A
CN116468144A CN202310162931.0A CN202310162931A CN116468144A CN 116468144 A CN116468144 A CN 116468144A CN 202310162931 A CN202310162931 A CN 202310162931A CN 116468144 A CN116468144 A CN 116468144A
Authority
CN
China
Prior art keywords
model
sample
prediction
prediction sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310162931.0A
Other languages
English (en)
Inventor
李越杰
胡男
马崇洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang eCommerce Bank Co Ltd
Original Assignee
Zhejiang eCommerce Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang eCommerce Bank Co Ltd filed Critical Zhejiang eCommerce Bank Co Ltd
Priority to CN202310162931.0A priority Critical patent/CN116468144A/zh
Publication of CN116468144A publication Critical patent/CN116468144A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供数据处理方法及装置,该方法包括:获取针对业务模型的预测样本,根据预测样本确定业务模型的模型质量分;在模型质量分大于质量分阈值的情况下,确定预测样本的训练标签;基于预测样本以及预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;获取业务模型针对目标数据集的至少两个输出结果,并将至少两个输出结果输入第一目标质量检测模型,确定业务模型的质量数据。根据获取业务模型针对目标数据集的至少两个输出结果,并将至少两个输出结果输入第一目标质量检测模型,确定业务模型的质量数据,从而实现了对业务模型进行评分,可以达到监测业务模型质量的目的,提高了模型质量保障的效率。

Description

数据处理方法及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及数据处理方法。
背景技术
目前,越来越多的平台使用机器学习模型,作为预测或者评分的工具。随着平台的网络流量增加,客户也越来越多。对于正在使用的机器学习模型来说,输入的数据变化,也会影响模型的准确率,所以要对模型的质量进行监测。由此,亟需一种更好的方案。
发明内容
有鉴于此,本说明书实施例提供了数据处理方法。本说明书一个或者多个实施例同时涉及数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:
获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;
在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;
基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;
获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。
根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:
样本获取模块,被配置为获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;
标签确定模块,被配置为在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;
模型训练模块,被配置为基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;
质量确定模块,被配置为获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述数据处理方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述数据处理方法的步骤。
本说明书实施例提供数据处理方法及装置,其中所述数据处理方法包括:获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。根据获取业务模型针对目标数据集的至少两个输出结果,并将至少两个输出结果输入第一目标质量检测模型,确定业务模型的质量数据,从而实现了对业务模型进行评分,可以达到监测业务模型质量的目的,提高了模型质量保障的效率。
附图说明
图1是本说明书一个实施例提供的一种数据处理方法的架构示意图
图2a是本说明书一个实施例提供的一种数据处理方法的流程图;
图2b是本说明书一个实施例提供的一种数据处理方法的问题分类模型架构图;
图2c是本说明书一个实施例提供的一种数据处理方法的整体架构图;
图2d是本说明书一个实施例提供的一种数据处理方法的样本质量保障体系架构图;
图3是本说明书一个实施例提供的一种数据处理装置的结构示意图;
图4是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
PSI:样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用于衡量样本的稳定程度。
样本信息量:衡量样本之间的差异程度,样本信息量越高,则样本之间的差异越大。
训练样本:用于业务模型训练的样本集合。
预测样本:训练好业务模型后,输入模型的线上数据。
空值率:一组样本中为空的样本占比。
单值率:一组样本中占比最高的值的样本占比。
目前,基于深度模型的算法质量和技术风险隐患增多,技术风险隐患包括算法黑盒带来的决策不透明性,数据歧视带来的决策偏见。并且技术风险隐患还包括算法开发过程中由于数据问题引发的线上问题多,具体包括算法模型对数据变化不够敏感,特征指标空值率和单值率异常难以感知,以及训练数据与新增样本分布不符导致新增数据评分分布与预期不符,还包括新增样本中出现训练数据中未曾出现类型的数据导致模型判断出错。
进一步的,技术风险隐患还包括指标监测体系的关注点与业务需求不够贴合。具体的包括,指标监测需要根据需求设置核对规则,且每次只能对单字段设置监测。目前常用的指标监测不适合算法需求,如样本分布改变等。指标数据的监测难以对齐至用户维度,导致对于指标的波动和时序异常检测不敏感。
基于此,在本说明书中,提供了数据处理方法,本说明书同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种数据处理方法的架构示意图。
算法业务质量保障任务主要包括两个方向:分别为模型质量保障和样本质量保障。
模型质量保障主要用于保障业务模型对于业务问题的稳定计算能力。模型质量保障主要从模型长期性能稳定和新增预测样本的稳定性评估两方面进行质量保障。其中,性能稳定具体是通过PSI得分稳定性计算确定,能够实现业务性能感知。新增预测样本的稳定性评估具体是通过新增样本问题预测实现,能够进行业务问题预警。
样本质量保障主要用于保障输入业务模型的预测样本分布稳定。样本质量保障通过将预测样本与训练样本进行分布比对、统计指标分析和样本信息量计算三个方面进行质量保障。预测样本与训练样本样本信息量计算的实现训练样本评估,预测样本与训练样本进行分布比对、统计指标分析可以通过计算空值率或单值率实现,也可以通过计算指征或特征PSI实现,能够进行模型异常的感知。
本说明书实施例的数据处理方法实现了对业务模型进行评分,可以达到监测业务模型质量的目的,提高了模型质量保障的效率。
参见图2a,图2a示出了根据本说明书一个实施例提供的一种数据处理方法的流程图,具体包括以下步骤。
步骤202:获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分。
其中,业务模型可以为用于业务的机器学习模型,业务模型也称为业务算法模型,例如,借贷场景下的对借款人进行评分的模型和理财场景下对用户进行评分的模型等。预测样本可以为一段时间内收集到的样本,如,在一个月内收集到的业务平台的数据样本。模型质量分用于评价该模型性能质量的评分。
实际应用中,模型质量保障主要用于保障业务模型对于业务问题的稳定计算能力。模型质量保障主要从模型长期性能稳定和新增预测样本的稳定性评估两方面进行质量保障。可以使用样本稳定指数评价模型输入的样本是否稳定,从而可以确定该模型是否需要进行调整,以使更加符合目前的样本数据。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,根据这5000个用户的数据确定借贷用户评分的模型的质量分。这里的借贷用户评分的模型可以为对借贷人进行评分,根据评分可以确定该借贷人的还款信用评分。
本说明书实施例,通过获取针对业务模型的预测样本,从而确定业务模型的模型质量分,可以实现对业务模型的质量进行检测。
具体的,可以从业务平台周期性的获取数据,并将样本输入业务模型中,确定模型的质量分,具体实现方式如下所述。
在一种可实现的方式中,所述获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分,包括:
在业务平台获取预设周期内的业务数据,将所述预设周期内的业务数据作为所述预测样本,其中,所述业务平台包括所述业务模型;
将所述预测样本输入所述业务模型,获得针对所述预测样本的样本得分分布;
根据所述样本得分分布确定所述业务模型的模型质量分。
其中,业务平台可以为进行业务处理的平台,例如,理财平台或借贷平台等。预设周期可以为一个时间周期,例如,一个月。业务数据可以为业务平台有关的数据,例如,用户数据,用户的年岁和生日等数据。样本得分分布可以为评分结果的分布情况,例如,每个用户的评分在0到1之间,样本得分分布可以为5000个用户的得分分布。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
在实际应用中,将预测样本输入业务算法模型后,通过模型输出的得分分布可以计算出其PSI值。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,确定业务模型的模型质量分。
本说明书实施例,通过对模型的结果进行计算,从而确定模型质量分,可以实现模型质量分的监测。
具体的,可以使用模型稳定性计算公式确定模型的质量分,具体实现方式如下所述。
在一种可实现的方式中,所述根据所述样本得分分布确定所述业务模型的模型质量分,包括:
根据所述样本得分分布确定所述预测样本中的第一样本和第二样本;
基于模型稳定性计算公式,根据所述第一样本和所述第二样本,确定所述业务模型的模型质量分。
其中,第一样本和第二样本为预测样本中具有两种属性特征的样本,例如,第一样本对应的年岁分布在六十岁以上,第二样本对应的年岁分布在十八岁以下。模型稳定性计算公式可以为PSI计算公式。
在实际应用中,可以通过PSI计算公式确定模型质量分。当模型输入一批样本时,业务人员或者样本标签对模型输出的结果具有一定分布预期,即对于每个得分区间占比有大致预估,通过PSI计算可以评估模型输出得分分布与预期分布之间的偏差情况。从结果来看,PSI分数越高,则模型输出得分分布与预期分布之间的偏差情况越大,同时设置PSI的区间越多,则分布偏差计算越精准,但同时也更容易受样本噪声的影响。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,使用PSI计算公式确定模型质量分。
本说明书实施例通过PSI计算公式确定业务模型输出结果的稳定性,从而达到对业务模型进行评分的效果。
进一步的,不仅可以基于业务模型的输出结果进行质量保障,还可以基于输入业务模型的数据进行质量保障,具体实现方式如下所述。
在一种可实现的方式中,在所述获取针对业务模型的预测样本之后,还包括:
将所述预测样本输入分布特征提取网络层,获得所述分布特征;
将所述分布特征输入第二初始质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签所述训练标签,调整所述第二初始质量检测模型的模型参数,得到第二目标质量检测模型。
其中,分布特征提取网络层可以为进行特征提取的网络层,第二初始质量检测模型可以为进行业务模型的数据质量监测的模型。
在实际应用中,参见图2b,图2b是本说明书一个实施例提供的一种数据处理方法的问题分类模型架构图,基于预测样本的问题类别预测链路:将预测样本输入分布特征提取器获取预测样本的分布特征,将分布特征输入训练好的问题预测网络中进行问题预测,最后将模型输出的问题类别与人工判别类别进行比较计算模型性能。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入分布特征提取网络层,得到分布特征,并根据分布特征输入第二初始质量检测模型,得到第二初始质量检测模型输出的问题分类,确定第二初始质量检测模型输出的问题分类与实际的问题分类是否对应,如果不对应,说明模型的预测结果不准确,需要继续进行模型参数的调整,得到第二目标质量检测模型。
本说明书实施例,通过对第二初始质量检测模型进行训练,从而使得第二初始质量检测模型的参数发生改变,得到更加准确的第二目标质量检测模型。提高了问题分类的准确性。
在训练好第二目标质量检测模型之后,即可进行业务模型的输入数据的检测,具体实现方式如下所述。
在一种可实现的方式中,在所述得到第二目标质量检测模型之后,还包括:
将所述预测样本发送至所述第二目标质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签,确定所述业务模型的质量数据。
其中,第二目标质量检测模型可以为训练好的检测模型。预测问题标签可以为第二目标质量检测模型输出的标签,即,输出的问题分类。
在实际应用中,可以使用训练好的第二目标质量检测模型对模型的输入数据进行质量保障。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入分布特征提取网络层,得到分布特征,将分布特征输入第二目标质量检测模型得到数据对应的问题分类。
本说明书实施例,通过将输入业务模型的数据,输入第二目标质量检测模型进行问题检测,从而确定业务模型的数据的问题,实现了质量保障。
步骤204:在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签。
其中,质量分阈值可以为设定的阈值,用于判定预测样本是否出现异常。
在实际应用中,参见图2b,将预测样本输入业务算法模型后,通过模型输出的得分分布可以计算出其PSI值,当PSI值大于我们预设的阈值后,判定为此时预测样本出现异常,由业务人员人工定位到问题类别后落库。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,使用PSI计算公式确定模型质量分。在模型质量分大于质量分阈值的情况下,为预测样本打上对应的训练标签。
本说明书实施例,通过在预测样本出现异常的情况下,对样本进行打标签,从而可以训练用于进行质量保障的模型。
具体的,可以通过设定相应的分类规则确定不同的问题标签,作为预测样本的训练标签。具体实现方式如下所述。
在一种可实现的方式中,所述确定所述预测样本的训练标签,包括:
确定所述预测样本的特征,根据所述预测样本的特征通过预设分类规则进行问题分类,确定所述预测样本的训练标签。
其中,预测样本的特征可以为用户的年岁等特征。预设分类规则可以为预先设定好的问题分类规则,例如,对于理财项目来说,年岁在18岁以下的用户为年岁偏小的问题。
在实际应用中,参见图2b,基于模型得分的问题类别预测链路:将预测样本输入业务算法模型后,通过分布特征提取器获取模型输出得分的分布特征,将分布特征输入训练好的问题预测网络中进行问题预测,最后将模型输出的问题类别与人工判别类别进行比较计算模型性能。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,使用PSI计算公式确定模型质量分。在模型质量分大于质量分阈值的情况下,确定预测样本的特征,如,对于理财项目来说,年岁在18岁以下的用户为年岁偏小的问题,则为预测样本中年岁在18岁以下的用户打上对应的训练标签。
本说明书实施例通过对预测样本进行打标签,从而可以进行训练第一初始质量检测模型。
步骤206:基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型。
其中,第一初始质量检测模型可以为未经训练的,用于检测业务模型的输出结果的检测模型。相应的,第一目标质量检测模型可以为经过训练的,用于检测业务模型的输出结果的检测模型。
在实际应用中,在使用第一目标质量检测模型之前,还需要对第一初始质量检测模型进行训练,以使第一初始质量检测模型可以对业务模型的结果进行判别。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,将这5000个用户的评分输入分布特征提取网络层,得到分布特征,将分布特征输入第一初始质量检测模型得到数据对应的问题分类。确定第一初始质量检测模型输出的问题分类与实际的问题分类是否对应,如果不对应,说明模型的预测结果不准确,需要继续进行模型参数的调整,得到第一目标质量检测模型。
在一种可实现的方式中,所述基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型,包括:
将所述预测样本输入所述业务模型,获得所述业务模型的针对所述预测样本的样本得分分布;
根据分布特征提取网络层对所述样本得分分布进行特征提取,获得分布特征;
将所述分布特征输入所述第一初始质量检测模型,获得针对所述分布特征的预测问题标签;
根据所述针对所述分布特征的预测问题标签和所述训练标签,调整所述第一初始质量检测模型的模型参数,得到第一目标质量检测模型。
在实际应用中,将预测样本输入分布特征提取器获取预测样本的分布特征,将分布特征输入训练好的问题预测网络中进行问题预测,最后将模型输出的问题类别与人工判别类别进行比较计算模型性能。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,将这5000个用户的评分输入分布特征提取网络层,得到分布特征,将分布特征输入第一初始质量检测模型得到数据对应的问题分类。确定第一初始质量检测模型输出的问题分类与实际的问题分类是否对应,如果不对应,说明模型的预测结果不准确,需要继续进行模型参数的调整,得到第一目标质量检测模型。
本说明书实施例通过对第一初始质量检测模型进行训练,得到第一目标质量检测模型,以使实现对业务模型输出结果的质量保障。
步骤208:获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。
其中,目标数据集可以为业务平台获取到的实时数据集。
在实际应用中,对第一初始质量检测模型进行训练,得到第一目标质量检测模型之后,即可进行应用。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,将这5000个用户的评分输入分布特征提取网络层,得到分布特征,将分布特征输入第一初始质量检测模型得到数据对应的问题分类。确定第一初始质量检测模型输出的问题分类与实际的问题分类是否对应,如果不对应,说明模型的预测结果不准确,需要继续进行模型参数的调整,得到第一目标质量检测模型。实时获取借贷平台的输入数据,并将输入数据输入业务模型,至少两个输出结果,并将至少两个输出结果输入第一目标质量检测模型,得到至少两个输出结果对应的问题分类。
本说明书实施例通过第一目标质量检测模型对业务模型的输出结果进行质量保障,确保了能够进行业务模型输出结果的监测。
在一种可实现的方式中,所述将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据,包括:
将所述至少两个输出结果输入所述第一目标质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签,确定所述业务模型的质量数据。
在实际应用中,在得到第一目标质量检测模型输出的结果后,即可确定业务模型的质量数据。
例如,在借贷场景下,从借贷平台收集借贷人的数据,则获取到预测样本,预测样本为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,根据这5000个用户的评分,将这5000个用户的评分输入分布特征提取网络层,得到分布特征,将分布特征输入第一初始质量检测模型得到数据对应的问题分类。确定第一初始质量检测模型输出的问题分类与实际的问题分类是否对应,如果不对应,说明模型的预测结果不准确,需要继续进行模型参数的调整,得到第一目标质量检测模型。实时获取借贷平台的输入数据,并将输入数据输入业务模型,将业务模型的输出结果,输入分布特征提取网络层,得到分布特征,将分布特征输入第一目标质量检测模型得到至少两个输出结果对应的问题分类。
在一种可实现的方式中,所述获取所述业务模型针对目标数据集的至少两个输出结果,包括:
从业务平台获取所述目标数据集,将所述目标数据集输入所述业务模型,获得所述至少两个输出结果。
在实际应用中,可以通过业务平台实时获取数据,并通过业务模型对数据进行处理,从而得到输出结果。
例如,在借贷场景下,从借贷平台实时获取借贷人对应的目标数据集,目标数据集为5000个用户的数据,将这5000个用户的数据输入借贷用户评分的模型,确定5000个用户的评分,即得到输出结果。
进一步的,参见图2c,图2c是本说明书一个实施例提供的一种数据处理方法的整体架构图,综上所述,业务模型首先利用训练样本进行训练,使用预测样本以及业务模型输出的模型得分通过分类网络,进行预测问题类别。在进行通过分类网络,进行预测问题类别之前,海迅要对分类网络进行训练。具体的,根据业务模型针对预测样本输出的模型得分计算PSI得分,并判断PSI得分是否大于PSI阈值,在PSI得分大于PSI阈值的情况下,说明对应的预测样本存在问题,对其进行打标签,并存入数据库中。在PSI得分不大于PSI阈值的情况下,说明对应的预测样本为好样本,同样存入数据库中。通过数据库中的有标签的样本对分类网络进行训练,得到能够准确预测问题类别的分类网络。
需要说明的是,除上述模型质量保障意外,还包括样本质量保障,样本质量保障主要用于保障输入业务模型的预测样本分布稳定。样本质量保障通过将预测样本与训练样本进行分布比对、统计指标分析和样本信息量计算三个方面进行质量保障。样本质量保障核心在于保证模型训练数据与预测数据在数据整体分布上保持一致,并且训练样本应该完全覆盖预测样本类型,参见图2d,本说明书实施例的样本质量保障体系架构如图2d所示,样本质量保障模块主要包括四个指标:单值率、空值率、特征PSI和样本信息量,在预测样本满足这四个指标之后,才能作为驯良样本对业务模型进行训练,否则被打上标签,即进行问题分类。
在一种可实现的方式中,在所述获取针对业务模型的预测样本之后,还包括:
获取所述业务模型的训练样本,确定所述训练样本和所述预测样本的差异度;
根据所述差异度确定所述预测样本的样本质量数据。
其中,差异度可以为训练样本和预测样本之间信息量的差异度,也可以为训练样本和所述预测样本之间PSI得分的差异度。
在实际应用中,模型得分稳定性监测仅能反应得分分布与预设分布之间的偏差情况,在用户数据分批接入过程中并不能完全保证每一批的接入样本都是分布均匀的,因此得分分布预警需要结合预测样本信息量和预测样本分布来进行性能评估。
具体的,主要逻辑有两种:预测样本信息量如果大于训练样本信息量,说明训练样本不能完全包含预测样本的用户情况,模型需要评估后增加训练数据。预测样本分布与训练样本分布PSI大于0.1,说明预测样本与训练样本分布不一致,此时可能导致得分PSI的误差,需要进行人工排查。
在一种可实现的方式中,在所述获取针对业务模型的预测样本之后,还包括:
确定所述预测样本中的目标数据,根据所述目标数据的比例确定所述预测样本的样本质量数据。
其中,目标数据可以为样本对应的数据中的空值或者相同的值。
在实际应用中,还包括预测样本空值率和单值率监测,样本空值率和单值率主要有两个布防逻辑:监测指标变化情况和监测指标加工变化。其中,监测指标变化情况:由于部分指标在计算过程中会出现变动,比如改变指标名,通过监测空值率即可发现此种类型的指标变动。监测指标加工变化:指标加工逻辑改变会改变一些值的定义,如指标值从[0,1]变为了[0,10],通过监测指标单值率即可发现此类变化。
本说明书实施例提供数据处理方法及装置,其中所述数据处理方法包括:获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。根据获取业务模型针对目标数据集的至少两个输出结果,并将至少两个输出结果输入第一目标质量检测模型,确定业务模型的质量数据,从而实现了对业务模型进行评分,可以达到监测业务模型质量的目的,提高了模型质量保障的效率。
与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图3示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图3所示,该装置包括:
样本获取模块302,被配置为获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;
标签确定模块304,被配置为在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;
模型训练模块306,被配置为基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;
质量确定模块308,被配置为获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。
在一种可实现的方式中,所述样本获取模块302,还被配置为:
在业务平台获取预设周期内的业务数据,将所述预设周期内的业务数据作为所述预测样本,其中,所述业务平台包括所述业务模型;
将所述预测样本输入所述业务模型,获得针对所述预测样本的样本得分分布;
根据所述样本得分分布确定所述业务模型的模型质量分。
在一种可实现的方式中,所述样本获取模块302,还被配置为:
根据所述样本得分分布确定所述预测样本中的第一样本和第二样本;
基于模型稳定性计算公式,根据所述第一样本和所述第二样本,确定所述业务模型的模型质量分。
在一种可实现的方式中,所述标签确定模块304,还被配置为:
确定所述预测样本的特征,根据所述预测样本的特征通过预设分类规则进行问题分类,确定所述预测样本的训练标签。
在一种可实现的方式中,所述模型训练模块306,还被配置为:
将所述预测样本输入所述业务模型,获得所述业务模型的针对所述预测样本的样本得分分布;
根据分布特征提取网络层对所述样本得分分布进行特征提取,获得分布特征;
将所述分布特征输入所述第一初始质量检测模型,获得针对所述分布特征的预测问题标签;
根据所述针对所述分布特征的预测问题标签和所述训练标签,调整所述第一初始质量检测模型的模型参数,得到第一目标质量检测模型。
在一种可实现的方式中,所述质量确定模块308,还被配置为:
将所述至少两个输出结果输入所述第一目标质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签,确定所述业务模型的质量数据。
在一种可实现的方式中,所述质量确定模块308,还被配置为:
从业务平台获取所述目标数据集,将所述目标数据集输入所述业务模型,获得所述至少两个输出结果。
在一种可实现的方式中,所述模型训练模块306,还被配置为:
将所述预测样本输入分布特征提取网络层,获得所述分布特征;
将所述分布特征输入第二初始质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签所述训练标签,调整所述第二初始质量检测模型的模型参数,得到第二目标质量检测模型。
在一种可实现的方式中,所述模型训练模块306,还被配置为:
将所述预测样本发送至所述第二目标质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签,确定所述业务模型的质量数据。
在一种可实现的方式中,所述质量确定模块308,还被配置为:
获取所述业务模型的训练样本,确定所述训练样本和所述预测样本的差异度;
根据所述差异度确定所述预测样本的样本质量数据。
在一种可实现的方式中,所述质量确定模块308,还被配置为:
确定所述预测样本中的目标数据,根据所述目标数据的比例确定所述预测样本的样本质量数据。
本说明书实施例提供数据处理方法及装置,其中所述数据处理装置包括:获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。根据获取业务模型针对目标数据集的至少两个输出结果,并将至少两个输出结果输入第一目标质量检测模型,确定业务模型的质量数据,从而实现了对业务模型进行评分,可以达到监测业务模型质量的目的,提高了模型质量保障的效率。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图4示出了根据本说明书一个实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
其中,处理器420用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述数据处理方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的数据处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种数据处理方法,包括:
获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;
在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;
基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;
获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。
2.根据权利要求1所述的方法,所述获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分,包括:
在业务平台获取预设周期内的业务数据,将所述预设周期内的业务数据作为所述预测样本,其中,所述业务平台包括所述业务模型;
将所述预测样本输入所述业务模型,获得针对所述预测样本的样本得分分布;
根据所述样本得分分布确定所述业务模型的模型质量分。
3.根据权利要求2所述的方法,所述根据所述样本得分分布确定所述业务模型的模型质量分,包括:
根据所述样本得分分布确定所述预测样本中的第一样本和第二样本;
基于模型稳定性计算公式,根据所述第一样本和所述第二样本,确定所述业务模型的模型质量分。
4.根据权利要求1所述的方法,所述确定所述预测样本的训练标签,包括:
确定所述预测样本的特征,根据所述预测样本的特征通过预设分类规则进行问题分类,确定所述预测样本的训练标签。
5.根据权利要求1所述的方法,所述基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型,包括:
将所述预测样本输入所述业务模型,获得所述业务模型的针对所述预测样本的样本得分分布;
根据分布特征提取网络层对所述样本得分分布进行特征提取,获得分布特征;
将所述分布特征输入所述第一初始质量检测模型,获得针对所述分布特征的预测问题标签;
根据所述针对所述分布特征的预测问题标签和所述训练标签,调整所述第一初始质量检测模型的模型参数,得到第一目标质量检测模型。
6.根据权利要求1所述的方法,所述将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据,包括:
将所述至少两个输出结果输入所述第一目标质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签,确定所述业务模型的质量数据。
7.根据权利要求1所述的方法,所述获取所述业务模型针对目标数据集的至少两个输出结果,包括:
从业务平台获取所述目标数据集,将所述目标数据集输入所述业务模型,获得所述至少两个输出结果。
8.根据权利要求1所述的方法,在所述获取针对业务模型的预测样本之后,还包括:
将所述预测样本输入分布特征提取网络层,获得所述分布特征;
将所述分布特征输入第二初始质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签所述训练标签,调整所述第二初始质量检测模型的模型参数,得到第二目标质量检测模型。
9.根据权利要求8所述的方法,在所述得到第二目标质量检测模型之后,还包括:
将所述预测样本发送至所述第二目标质量检测模型,获得针对所述预测样本的预测问题标签;
根据所述针对所述预测样本的预测问题标签,确定所述业务模型的质量数据。
10.根据权利要求1所述的方法,在所述获取针对业务模型的预测样本之后,还包括:
获取所述业务模型的训练样本,确定所述训练样本和所述预测样本的差异度;
根据所述差异度确定所述预测样本的样本质量数据。
11.根据权利要求1所述的方法,在所述获取针对业务模型的预测样本之后,还包括:
确定所述预测样本中的目标数据,根据所述目标数据的比例确定所述预测样本的样本质量数据。
12.一种数据处理装置,包括:
样本获取模块,被配置为获取针对业务模型的预测样本,根据所述预测样本确定所述业务模型的模型质量分;
标签确定模块,被配置为在所述模型质量分大于质量分阈值的情况下,确定所述预测样本的训练标签;
模型训练模块,被配置为基于所述预测样本以及所述预测样本的训练标签,对第一初始质量检测模型进行训练,得到第一目标质量检测模型;
质量确定模块,被配置为获取所述业务模型针对目标数据集的至少两个输出结果,并将所述至少两个输出结果输入所述第一目标质量检测模型,确定所述业务模型的质量数据。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述数据处理方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述数据处理方法的步骤。
CN202310162931.0A 2023-02-13 2023-02-13 数据处理方法及装置 Pending CN116468144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310162931.0A CN116468144A (zh) 2023-02-13 2023-02-13 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310162931.0A CN116468144A (zh) 2023-02-13 2023-02-13 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN116468144A true CN116468144A (zh) 2023-07-21

Family

ID=87174151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310162931.0A Pending CN116468144A (zh) 2023-02-13 2023-02-13 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN116468144A (zh)

Similar Documents

Publication Publication Date Title
CN109784528A (zh) 基于时间序列和支持向量回归的水质预测方法及装置
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN112632179B (zh) 模型构建方法、装置、存储介质及设备
CN111583012B (zh) 融合文本信息的信用债发债主体违约风险评估方法
CN116028870B (zh) 一种数据检测的方法、装置、电子设备及存储介质
CN113793332B (zh) 一种实验仪器缺陷识别分类方法及系统
CN110766481A (zh) 客户数据处理方法、装置、电子设备及计算机可读介质
CN111275338A (zh) 一种企业欺诈行为的判定方法、装置、设备及存储介质
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN108920428B (zh) 一种基于联合模糊扩张原理的模糊距离判别方法
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
CN116468144A (zh) 数据处理方法及装置
CN116627781A (zh) 目标模型验证方法以及装置
CN115904955A (zh) 性能指标的诊断方法、装置、终端设备及存储介质
CN116384223A (zh) 基于退化状态智能辨识的核设备可靠性评估方法及系统
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN115494431A (zh) 一种变压器故障告警方法、终端设备和计算机可读存储介质
CN114239964B (zh) 用户风险预测模型处理方法、装置及电子设备
CN107704446A (zh) 一种度量文档健康度的方法及装置
US20240193460A1 (en) Data processing method and data processing apparatus
CN114218996A (zh) 券商客户账号类别的识别方法、异常账号预警方法及系统
CN118365444A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN116797010A (zh) 工号识别方法、装置、电子设备和存储介质
CN115481118A (zh) 一种会计科目数据标准化方法、装置、设备、存储介质
CN117808337A (zh) 一种数据处理的方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination