CN115481694B - 一种训练样本集的数据增强方法、装置、设备及存储介质 - Google Patents

一种训练样本集的数据增强方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115481694B
CN115481694B CN202211173668.7A CN202211173668A CN115481694B CN 115481694 B CN115481694 B CN 115481694B CN 202211173668 A CN202211173668 A CN 202211173668A CN 115481694 B CN115481694 B CN 115481694B
Authority
CN
China
Prior art keywords
data sample
subset
data
attribution
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211173668.7A
Other languages
English (en)
Other versions
CN115481694A (zh
Inventor
唐剑飞
夏正勋
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xinghuan Intelligent Technology Co ltd
Original Assignee
Nanjing Xinghuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xinghuan Intelligent Technology Co ltd filed Critical Nanjing Xinghuan Intelligent Technology Co ltd
Priority to CN202211173668.7A priority Critical patent/CN115481694B/zh
Publication of CN115481694A publication Critical patent/CN115481694A/zh
Application granted granted Critical
Publication of CN115481694B publication Critical patent/CN115481694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种训练样本集的数据增强方法、装置、设备及存储介质。该方法包括:确定数据样本集的归因特征集合,并根据归因特征集合中的归因特征,将数据样本集划分为至少两个数据样本子集;根据数据样本子集的第一评估指标数值对数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;根据归因特征对错误数据样本子集中的各错误数据样本推理错误的贡献度,从正常数据样本子集中确定错误数据样本子集对应的对照数据样本子集;根据错误数据样本子集和对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,从而提升了训练样本集的数据增强效率,进而提升了模型的性能。

Description

一种训练样本集的数据增强方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种训练样本集的数据增强方法、装置、设备及存储介质。
背景技术
为了满足人们对于人工智能性能不断增长的需求,需要不断的更新训练训练样本集,以训练并更新人工智能模型。研究者们不断的创造出新的模型结构、提出新的模型训练的技巧,这些方法使得人工智能模型在特定领域的公开数据集上获得了超出人类表现水平的成绩,但是在基于实际使用场景数据学习时,反而容易出现对不同子集数据表现出偏差的现象,导致缺失公平性。
为了解决上述问题,可以根据模型训练和线上模型部署过程中收集到的反馈对训练样本集进行数据调整,以保证高质量的训练集。常用的数据调整方法主要是数据增强,常见的数据增强方法包括有监督的数据增强和无监督的数据增强方法。以图像数据为例,有监督的数据增强方法包括基于几何变换类和颜色变换类等;几何变换类即对图像进行几何变换,包括:翻转、旋转、裁剪、变形和缩放等;颜色变换类的数据增强,包括噪声、模糊、颜色变换、擦除和填充等。无监督的数据增强方法是通过模型学习数据的分布随机生成与训练数据集分布一致的图像,代表方法为生成对抗网络(Generate Adversarial Network,GAN)。
但是,上述的传统的数据调整方法,无法准确定位训练样本集中导致模型精度不佳的训练样本,进而无法针对缺陷增强训练样本集,使得训练样本集改进效率低下,无法保证模型的性能提升效果。
发明内容
本发明提供了一种训练样本集的数据增强方法、装置、设备及存储介质,以解决现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本,进而无法针对缺陷增强训练样本集,使得训练样本集改进效率低下的问题,实现准确定位导致模型精度不佳的训练样本进行有针对性的数据增强,提升训练样本集的数据增强效率,进而提升模型的性能。
根据本发明的一方面,提供了一种训练样本集的数据增强方法,该方法包括:
确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;
根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;
根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;
根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集。
根据本发明的另一方面,提供了一种训练样本集的数据增强装置,该装置包括;
特征集合确定模块,用于确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;
集合分类模块,用于根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;
对照样本确定模块,用于根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;
增强样本确定模块,用于根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的训练样本集的数据增强方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的训练样本集的数据增强方法。
本发明实施例的技术方案,通过确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,解决了现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本,进而无法针对缺陷增强训练样本集,使得训练样本集改进效率低下的问题,实现了准确定位导致模型精度不佳的训练样本进行有针对性的数据增强,提升了训练样本集的数据增强效率,进而提升了模型的性能。
本发明所提供的技术方案,可利用的数据集对诸如分类器和回归器等数据挖掘工具进行训练,提升训练效果。根据本发明所提供的技术方案能够针对特定的精细化场景(如电力领域的负荷预测、故障检测或者金融风控数据处理领域的贷款偿还预测),由于数据集质量不佳或者数据集过于集中,在处理现实场景中不断更新的数据时,很容易在部分更新后的数据中出现低级错误,对数据中的不同子集表现出偏差,缺乏公平性的问题,根据归因特征对错误数据样本推理错误的贡献度准确定位训练样本集中导致模型精度不佳的训练样本,进而对训练样本进行有针对性的数据增强,达到提升训练样本集的数据增强效率,以及提升利用增强后的数据集训练得到的训练模型的性能的有益效果。
示例性的,针对电力领域的负荷预测系统,负荷预测系统的数据样本可能体现出与负荷所处地区的地理位置、天气状况、用户结构和经济发展情况等特征相关,地理位置会影响天气状况和经济发展情况,地理位置与电力负荷具有一定的因果关系,但是地理位置不是导致电力负荷不同的直接原因,根据地理位置预测的电力负荷存在较大的推理错误。因此,利用本发明所提供的技术方案,能够根据归因特征对错误数据样本推理错误的贡献度准确定位训练样本集中导致模型精度不佳的训练样本,进而对训练样本进行有针对性的数据增强,提升负荷预测的训练样本集的数据增强效率,提升利用增强后的数据集训练得到的负荷预测模型的性能。
针对电力领域的故障检测系统,故障检测系统的数据样本的故障状态可能体现出与待检测电力元件所处地区的地理位置、天气状况、使用时间等特征相关,地理位置与电力元件的故障状态具有一定的因果关系,但是地理位置不是导致电力元件的故障的直接原因,根据地理位置检测电力元件的故障状态存在较大的推理错误。因此,利用本发明所提供的技术方案,能够根据归因特征对错误数据样本推理错误的贡献度准确定位训练样本集中导致模型精度不佳的训练样本,进而对训练样本进行有针对性的数据增强,提升故障检测的训练样本集的数据增强效率,提升利用增强后的数据集训练得到的故障检测模型的性能。
针对金融风控数据处理领域的贷款偿还预测场景,贷款申请人的归因特征集合可以包括:申请人年龄,申请人年收入,申请人婚姻状况。利用本发明所提供的技术方案,能够根据归因特征对错误数据样本推理错误的贡献度,找出对错误数据样本推理错误的贡献度最大的归因特征,从而定位训练样本集中导致模型精度不佳的训练样本,进而对训练样本进行有针对性的数据增强,提升贷款偿还预测的训练样本集的数据增强效率,提升利用增强后的数据集训练得到的贷款偿还预测模型的性能。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种训练样本集的数据增强方法的流程图;
图2为一种数据样本子集的划分方法示意图;
图3为本发明实施例二提供的一种训练样本集的数据增强方法的流程图;
图4为一种数据样本子集的分类方法示意图;
图5为本发明实施例三提供的一种训练样本集的数据增强方法的流程图;
图6为一种模型优化方法的流程图;
图7为一种示例的模型优化的流程图;
图8为本发明实施例四提供的一种训练样本集的数据增强装置的结构示意图;
图9为实现本发明实施例的训练样本集的数据增强方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
实施例一
图1为本发明实施例一提供的一种训练样本集的数据增强方法的流程图,本实施例可适用于人工智能领域中训练样本集时,提升模型性能的情况,该方法可以由训练样本集的数据增强装置来执行,该装置可以采用硬件和/或软件的形式实现。如图1所示,该方法包括:
S110、确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集。
其中,数据样本集由多项数据样本构成的集合,每个数据样本可以由多项样本特征构成。由于数据样本集中可能存在导致模型精度不佳的训练样本,因此需要对数据样本集进行数据增强。本发明实施例中的数据样本集可以理解为还未进行数据增强的原始数据样本集。
归因特征集合是由数据样本集与模型推理结果有因果关系的归因特征所构成的集合。根据数据样本集和模型的不同,所对应的归因特征集合也可以不同。数据样本子集是根据数据样本集所划分得到的子集。
具体的,根据数据样本集Do和数据样本集Do输入待优化模型Mo所确定的模型结果,确定数据样本集的归因特征集合Ac,并根据归因特征集合Ac中的归因特征,将数据样本集划分为至少两个数据样本子集。
示例性的,确定数据样本集中构成归因特征集合的归因特征的方式可以是从数据样本的所有样本特征中筛选出与模型推理结果有因果关系的因特征集合Ac。本发明实施例对样本特征的筛选过程不所限定,可以采用任何现有的算法。
示例性的,根据归因特征集合中的归因特征对数据样本集进行划分的方式可以为根据一个归因特征的预设取值范围将数据样本集划分为至少两个数据样本子集;或者可以为根据多个不同归因特征的取值范围的组合所确定的分类条件,将数据样本集划分为至少两个数据样本子集。
示例性的,当模型的应用场景包括金融风控任务,模型执行的任务可以是根据贷款申请人的特征判断申请人违约的概率,以此决定是否给申请人放款。此时数据样本集Do中的样本可以有以下样本特征:用户编号、申请人年龄、申请人受教育程度、申请人婚姻状况、申请人年收入、贷款金额、贷款期限、贷款利率、就业年限等。模型Mo可以用于输入数据样本集中的样本,输出预测的贷款申请人违约与不违约的概率。根据数据样本集Do和模型Mo确定的归因特征集合可以包括:申请人年龄(Fag),申请人年收入(Fai),申请人婚姻状况(Fms)。
S120、根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集。
其中,第一评估指标数值是基于预设评估指标对数据样本子集进行计算得到的数值,可以用于反映数据样本子集在预设评估指标上的得分。预设评估指标可以根据实际需求设定,例如可以为精确度、召回率、或错误率中的任一种,或者多种评估指标所构成的综合评估指标。
错误数据样本子集可以理解为基于待优化模型所确定的模型结果发生推理错误的数据样本所构成的子集;正常数据样本子集可以理解为基于待优化模型所确定的模型结果未发生推理错误,即推理正常的数据样本所构成的子集。
具体的,根据预设评估指标对每个数据样本子集Gs进行计算得到第一评估指标数值;根据每个数据样本子集Gs对应的第一评估指标数值对数据样本子集Gs进行分类,形成存在推理错误的错误数据样本子集AGq={Gq-1,Gq-2,…}和不存在推理错误的正常数据样本子集AGn={Gn-1,Gn-2,…}。
示例性的,根据数据样本子集的第一评估指标数值对数据样本子集进行分类的方式可以为:若数据样本子集的第一评估指标数值小于预设评估指标,则确定该数据样本子集为存在推理错误的错误数据样本子集,否则,确定该数据样本子集为不存在推理错误的正常数据样本子集。或者可以为若数据样本子集的第一评估指标数值大于或等于预设评估指标,则确定该数据样本子集为存在推理错误的错误数据样本子集,否则,确定该数据样本子集为不存在推理错误的正常数据样本子集。
S130、根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集。
其中,贡献度可以理解为归因特征对错误数据样本子集中的错误数据样本推理错误所作出贡献(或所产生影响)的程度。对照数据样本子集是能够和错误数据样本的归因特征形成对照的正常数据样本子集。
具体的,对于每个归因特征,计算该归因特征对错误数据样本子集中的各错误数据样本推理错误的贡献度,根据各归因特征对应的贡献度,从各归因特征中选出能够使对照数据样本子集和错误数据样本子集形成对照的归因特征,从正常数据样本子集中确定与错误数据样本子集在所选出的归因特征上形成对照的对照数据样本子集。
示例性的,归因特征包括:A1、A2、A3、B1、B2和C1,根据每个归因特征对应的贡献度FA1、FB1和FC1,确定对照数据样本子集和错误数据样本子集形成对照的归因特征的贡献度为FA1,错误数据样本子集对应的归因特征包括:A1、B2和C1,对照数据样本子集可以为包含归因特征A2、B2和C1的正常数据样本子集,或者包含归因特征A3、B2和C1的正常数据样本子集。
示例性的,计算各错误数据样本推理错误的贡献度的方法可以为基于沙普利可加性模型解释SHAP方法,也可以采用其他方法计算错误数据样本推理错误的贡献度,本发明实施例对此不做限定。
S140、根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集。
其中,数据增强的训练样本集是数据样本集经过数据增强后所得到的数据样本子集。
倾向得分的定义为个体在一组既定的协变量下,接受某种参与的可能性,其解决的问题是:如果针对多个可观察特征X进行对比匹配非常困难,可将多维协变量X用一个一维变量,即倾向得分P(x)来代替,这样,研究者就只需要对单一的倾向得分变量进行匹配,从而大大减少了匹配的困难。
具体的,计算错误数据样本子集和对照数据样本子集中每个数据样本的倾向得分,并根据倾向得分确定数据增强的训练样本集。
示例性的,根据错误数据样本子集和对照数据样本子集中每个数据样本的倾向得分,将倾向得分匹配的错误数据样本和对照数据样本确定为训练样本,根据所确定的训练样本构成训练样本集,该训练样本集相对数据样本集得到数据增强。
示例性的,倾向得分的确定方法可以为:将错误数据样本子集和对照数据样本子集中除了取值不同的归因特征之外的所有其他样本特征作为协变量,组别作为label,采用logistic回归等方法,训练一个模型,估算在给定协变量条件下,个体划分到不同组别的概率,将该值作为存在问题的精细化场景数据与其比照场景数据的倾向得分。
本发明通过第一评估指标数值确定错误数据样本子集,准确定位导致模型精度不佳的训练样本,并根据归因特征对错误数据样本推理错误的贡献度确定错误数据样本子集对应的对照数据样本子集,根据错误数据样本子集和对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,实现了有针对性的数据增强,提升了训练样本集的数据增强效率。
本发明实施例的技术方案,通过确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,解决了现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本,进而无法针对缺陷增强训练样本集,使得训练样本集改进效率低下的问题,实现了准确定位导致模型精度不佳的训练样本进行有针对性的数据增强,提升了训练样本集的数据增强效率,进而提升了模型的性能。
可选的,所述根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,包括:
计算所述错误数据样本子集中各错误数据样本的第一倾向得分;
计算所述对照数据样本子集中各对照数据样本的第二倾向得分;
基于倾向得分匹配方法,将所述第一倾向得分和所述第二倾向得分匹配时,所对应的错误数据样本和对照数据样本确定为增强训练样本;
根据所述增强训练样本形成得到数据增强的训练样本集。
其中,第一倾向得分是错误数据样本子集中各错误数据样本的倾向得分,第二倾向得分是对照数据样本子集中各对照数据样本的倾向得分。增强训练样本是对数据样本集中的数据样本后得到增强的训练样本。
倾向得分匹配方法(Propensity Score Matching,PSM)是一种统计学方法,用于处理观察研究的数据。由于种种原因,数据偏差和混杂变量较多,倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响,以便对实验组和对照组进行更合理的比较,能够消除组别之间的干扰因素。
具体的,计算错误数据样本子集中各错误数据样本的第一倾向得分,以及对照数据样本子集中各对照数据样本的第二倾向得分,基于倾向得分匹配方法,将第一倾向得分和第二倾向得分匹配时,所对应的错误数据样本和对照数据样本确定为增强训练样本,根据增强训练样本形成数据增强的训练样本集。
示例性的,判断第一倾向得分和第二倾向得分是否匹配的方法可以包括:当第一倾向得分和第二倾向得分的数值相等时判断为匹配,不相等时判断为不匹配;当第一倾向得分和第二倾向得分的差值小于/大于预设阈值时,判断为匹配,否则不匹配。
可选的,所述确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集,包括:
基于因果关系的特征分析方法,从所述数据样本集的样本特征中确定归因特征所构成的归因特征集合;
根据所述归因特征集合中各所述归因特征对应的每个预设取值范围的排列组合,确定数据样本子集的样本分类条件;
根据所述样本分类条件对所述数据样本集进行划分,得到至少两个数据样本子集。
其中,归因特征的预设取值范围可以根据归因特征的属性和实际应用场景所确定,例如归因特征为婚姻状况,对应的预设取值范围可以包括已婚和未婚;归因特征为年收入,对应的预设取值范围可以包括小于30000,或者大于等于100000。样本分类条件是根据数据样本的归因特征的取值范围,对数据样本集进行分类的条件。
示例性的,归因特征的取值范围的划分方式可以为基于该因特征的数据分布根据数据分布拐点进行取值范围的划分;或者可以根据归因特征的自身属性进行取值范围的划分。当然,也可以根据实际情况采用其他划分标准,本发明实施例对此不设限制。示例性的,单个归因特征的预设取值范围可以为Px={Ax-1,Ax-2,Ax-n,……},其中,Ax-1,Ax-2,Ax-3分别为归因特征的一个取值范围。例如,归因特征为婚姻状况,对应的预设取值范围可以包括Px={已婚和未婚},即Ax-1=已婚;Ax-1=未婚。
示例性的,因果关系的特征分析方法可以包括:基于约束的马尔科夫边界学习算法(Parents and Children based Markov Boundary,PCMB),基于打分的同步马尔科夫边界学习算法(Score-based Simultaneous MB,STMB),以及其他可以用于进行因果关系分析的算法,本发明对此不做限定。
示例性的,当归因特征集合包括:申请人年龄(Fag),申请人年收入(Fai),申请人婚姻状况(Fms)时,申请人年龄Fag的预设取值范围可以包括:Fag=′20-30岁′,Fag=′31-40岁′,Fag=′41-55岁′;申请人年收入Fai的预设取值范围可以包括:Fai<30000,Fai≥1000000。对于申请人的婚姻状况Fms的预设取值范围可以包括:Fms=′已婚′,Fms≠′已婚′。
示例性的,在得到每个归因特征的预设取值范围后,可以确定样本分类的条件。例如,可以根据申请人年龄(Fag),申请人年收入(Fai)和申请人婚姻状况(Fms)的取值范围的不同组合,将数据样本子集Gs划分为:
Gs1={Fag=′31-40岁′∩Fai<30000∩Fms=′已婚′}、
Gs2={Fag=′20-30岁′∩Fai<30000∩Fms=′已婚′}、
Gs3={Fag=′41-55岁′∩Fai<30000∩Fms=′已婚′}、
Gs4={Fag=′31-40岁′∩Fai≥1000000∩Fms=′已婚′}、
Gs5={Fag=′20-30岁′∩Fai≥1000000∩Fms=′已婚′}、
Gs6={Fag=′41-55岁′∩Fai≥1000000∩Fms=′已婚′}、
Gs7={Fag=′31-40岁∩30000≤Fai<1000000∩Fms=′已婚′}、
Gs8={Fag=′20-30岁′∩30000≤Fai<1000000∩Fms=′已婚′}、
Gs9={Fag=′41-55岁′∩30000≤Fai<1000000∩Fms=′已婚′}、
Gs10={Fag=′31-40岁′∩Fai<30000∩Fms≠′已婚′}、
Gs11={Fag=′20-30岁′∩Fai<30000∩Fms≠′已婚′}、
Gs12={Fag=′41-55岁′∩Fai<30000∩Fms≠′已婚′}、
Gs13={Fag=′31-40岁′∩Fai≥1000000∩Fms≠′已婚′}、
Gs14={Fag=′20-30岁′∩Fai≥1000000∩Fms≠′已婚′}、
Gs15={Fag=′41-55岁′∩Fai≥1000000∩Fms≠′已婚′}、
Gs16={Fag=′31-40岁′∩30000≤Fai<1000000∩Fms≠′已婚′}、
Gs17={Fag=′20-30岁′∩30000≤Fai<1000000∩Fms≠′已婚′}、
Gs18={Fag=′41-55岁′∩30000≤Fai<1000000∩Fms≠′已婚′}。
在一个具体的实施例中,图2为一种数据样本子集的划分方法示意图。
如图2所示,该划分方法包括以下步骤:
步骤1、获取原始模型Mo与数据集Do
步骤2、基于模型对数据集进行因果分析,以得到归因特征集合Ac=(F1,F2,…,Fn)。
步骤3、按照设定规则,对数据集Do上的每个归因特征进行数据分布分析,得到每个归因特征的预设取值范围的划分方法。步骤4、根据不同归因特征的预设取值范围的和剩余取值范围排列组合,将数据集Do划分得到至少两个数据样本子集。
实施例二
图3为本发明实施例二提供的一种训练样本集的数据增强方法的流程图,本实施例为上述实施例的步骤S130的进一步细化。如图3所示,该方法包括:
S210、确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集。
S220、根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集。
S230、对于所述错误数据样本子集,基于沙普利可加性模型解释SHAP方法,计算各所述归因特征对应的SHAP值,所述SHAP值表征所述归因特征对所述错误数据样本推理错误的贡献度。
其中,沙普利可加性模型解释(Shapley Additive explanations,SHAP)是一种针对合作博弈的解决方案,SHAP方法对于每个样本模型都产生一个预测值。SHAP值是数据样本子集的样本中每个归因特征所分配到的数值,用于表征归因特征对错误数据样本推理错误的贡献度。
具体的,对于错误数据样本子集,可以基于沙普利可加性模型解释SHAP方法,计算各归因特征对应的SHAP值,SHAP值表征归因特征对错误数据样本推理错误的贡献度。计算归因特征对错误数据样本推理错误的贡献度的方法也可以为用针对样本的可解释性AI方法,如Kernel SHAP等,本发明实施例对此不做限定。
S240、基于各所述归因特征对应的SHAP值,确定所述错误数据样本子集的对照归因特征,并将所述错误数据样本子集中的除所述对照归因特征之外的归因特征确定为共有归因特征。
其中,对照归因特征是对照数据样本所包含的归因特征,共有归因特征是错误数据样本子集中除对照归因特征之外的归因特征。
具体的,基于各归因特征对应的SHAP值,可以确定错误数据样本子集的对照归因特征,并将错误数据样本子集中的除对照归因特征之外的归因特征确定为共有归因特征。
示例性的,基于各归因特征对应的SHAP值,确定错误数据样本子集的对照归因特征的方法可以为:根据各个归因特征对应的SHAP值的大小选取对照归因特征,将SHAP最大/最小的归因特征确定为对照归因特征;或者也可以根据各个归因特征对应的SHAP值的众数或中数等其他方法来选取对照归因特征。
S250、对于所述正常数据样本子集中的正常数据样本,若与所述错误数据样本集中的错误数据样本的共有归因特征相同且所述对照归因特征不同,则确定为所述错误数据样本对应的对照数据样本。
具体的,从正常数据样本子集中的正常数据样本中,找到与错误数据样本集中的错误数据样本的共有归因特征相同且对照归因特征不同的正常数据样本,可以将该正常数据样本确定为错误数据样本对应的对照数据样本。
示例性的,若错误数据样本子集为Gs1、Gs3、Gs5,且Gs1的对照归因特征为年龄Fag,Gs3的对照归因特征为年收入Fai,Gs5的对照归因特征为婚姻状况Fms。则可以从正常数据样本子集中的正常数据样本为Gs1选择只有年龄不同的正常数据样本作为对照数据样本子集;Gs3可以选择只有年收入不同的正常数据样本作为对照数据样本子集;Gs5可以选择只有婚姻状况不同的正常数据样本作为对照数据样本子集。
S260、根据所述错误数据样本集中各所述错误数据样本对应的对照数据样本,形成对照数据样本子集。
示例性的,在根据错误数据样本子集Gs1、Gs3、Gs5确定其各自对应的对照数据样本后,根据对照数据样本形成对照数据样本子集。例如,若Gs1={Fag=′31-40岁′∩Fai<30000∩Fms=′已婚′}、Gs3={Fag=′41-55岁′∩Fai<30000∩Fms=′已婚′}、Gs5={Fag=′20-30岁′∩Fai≥1000000∩Fms=′已婚′},则对照数据样本子集可以为:
Gs2={Fag=′20-30岁′∩Fai<30000∩Fms=′已婚′}、
Gs6={Fag=′41-55岁′∩Fai≥1000000∩Fms=′已婚′}、
Gs14={Fag=′20-30岁′∩Fai≥1000000∩Fms≠′已婚′}。
S270、根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集。
本发明实施例的技术方案,通过确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;对于所述错误数据样本子集,基于沙普利可加性模型解释SHAP方法,计算各所述归因特征对应的SHAP值,所述SHAP值表征所述归因特征对所述错误数据样本推理错误的贡献度;基于各所述归因特征对应的SHAP值,确定所述错误数据样本子集的对照归因特征,并将所述错误数据样本子集中的除所述对照归因特征之外的归因特征确定为共有归因特征;对于所述正常数据样本子集中的正常数据样本,若与所述错误数据样本集中的错误数据样本的共有归因特征相同且所述对照归因特征不同,则确定为所述错误数据样本对应的对照数据样本;根据所述错误数据样本集中各所述错误数据样本对应的对照数据样本,形成对照数据样本子集;根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,解决了现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本,进而无法针对缺陷增强训练样本集,使得训练样本集改进效率低下的问题,实现了准确定位导致模型精度不佳的训练样本进行有针对性的数据增强,提升了训练样本集的数据增强效率,进而提升了模型的性能。
可选的,所述基于各所述归因特征对应的SHAP值,确定所述错误数据样本子集的对照归因特征,包括:
根据各所述错误数据样本的SHAP值,确定所述错误数据样本子集的平均SHAP值;
将最大平均SHAP值对应的归因特征确定为所述错误数据样本子集的对照归因特征。
其中,平均SHAP值是错误数据样本子集中各错误数据样本的SHAP值的平均值。
具体的,根据各错误数据样本的SHAP值,确定错误数据样本子集的平均SHAP值,将最大平均SHAP值对应的归因特征确定为错误数据样本子集的对照归因特征。
示例性的,可以使用Kernel SHAP方法,计算每一个推理样本错误样本中归因特征错误分类的Sharp值,并求平均值。对于Gs1,年龄的平均SHAP值Ss1-ag=5.62,年收入的平均SHAP值Ss1-ai=2.36,婚姻状况的平均SHAP值Ss1-ms=0.98;对于Gs3,年龄的平均SHAP值Ss3-ag=0.76,年收入的平均SHAP值Ss3-ai=4.66,婚姻状况的平均SHAP值Ss3-ms=1.29;对于Gs5,年龄的平均SHAP值Ss5-ag=2.48,收入的平均SHAP值Ss5-sc=1.07,婚姻状况的平均SHAP值Ss5-ms=3.24。
将错误数据样本子集中每个归因特征的贡献度进行排序,Gs1中造成分类错误的归因特征按影响从大到小排列为[Fag>Fai>Fms](年龄>年收入>婚姻状况);对于Gs3,造成分类错误的归因特征按影响从大到小排列为[Fai>Fms>Fag](年收入>婚姻状况>年龄);对于Gs5,造成分类错误的因特征按影响从大到小排列为[Fms>Fag>Fai](婚姻状况>年龄>年收入)。因此将贡献度排序最大的归因特征作为对照归因特征,则Gs1的对照归因特征为年龄Fag,Gs3的对照归因特征为年收入Fai,Gs5的对照归因特征为婚姻状况Fms
可选的,所述第一评估指标数值包括:第一精确度;所述根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集,包括:
将所述数据样本子集输入待优化模型,确定所述数据样本子集的第一精确度;
将所述第一精确度小于预设精度阈值的数据样本子集,确定为存在推理错误的错误数据样本子集;
将所述第一精确度大于或等于所述预设精度阈值的数据样本子集,确定为不存在推理错误的正常数据样本子集。
其中,第一精确度是每个数据样本子集中样本的精确度,可以根据第一精确度判断数据样本子集中的样本是否存在问题。待优化模型可以是模型Mo,可以用于输出数据样本子集的第一评估指标数值。预设精度阈值是根据实际情况设置的判断数据样本子集中样本是否满足一定精度的数值。
具体的,将数据样本子集输入待优化模型,确定数据样本子集的第一精确度,判断数据样本子集的第一精确度是否大于预设精度阈值;若否,则确定该数据样本子集为存在推理错误的错误数据样本子集;若是,则确定该数据样本子集为不存在推理错误的正常数据样本子集。
示例性的,计算得到的各个数据样本子集的第一精确度如下表1所示。若设置预设精度阈值为0.7,从表1可以看出Gs1、Gs3、Gs5的精度小于0.7,则Gs1、Gs3、Gs5为存在推理错误的错误数据样本子集,除Gs1、Gs3、Gs5之外的其他数据样本子集为不存在推理错误的正常数据样本子集。
表1
在一个具体的实施例中,图4为一种数据样本子集的分类方法示意图。
如图4所示,示例性的,所述方法包括以下步骤:
步骤1、获取数据样本子集,选择合适的第一评估指标数值。
步骤2、判断数据样本子集的第一评估指标数值是否大于预设精度阈值。
步骤3、若是,则认为该数据样本子集为存在推理错误的错误数据样本子集。
步骤4、若否,则认为该数据样本子集为不存在推理错误的正常数据样本子集。
步骤5、对于存在推理错误的错误数据样本子集,通过可解释AI方法,筛选出该错误数据样本子集中所有在模型Mo上推理错误的样本,并确定错误数据样本子集的平均SHAP值并排序。
实施例三
图5为本发明实施例三提供的一种训练样本集的数据增强方法的流程图,本实施例为实施例一的进一步细化。如图5所示,该方法包括:
S310、确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集。
S320、根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集。
S330、根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集。
S340、根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集。
S350、基于所述训练样本集训练待优化模型得到第一优化模型。
其中,第一优化模型是根据训练样本集优化待优化模型Mo后的模型。
示例性的,训练待优化模型的方法可以为PSM匹配方法或分层等方法,本发明实施例对此不作限定。
示例性的,在对模型的优化过程中,可以对错误数据样本及其对应的对照数据样本使用PSM的匹配方法,在使用到存在推理错误的错误数据样本子集及其对照数据样本子集的数据进行训练时,通过对应的倾向得分计算模型计算出每个样本的倾向得分,然后从对照数据样本子集的样本中选择一个倾向得分相似的样本加入训练,最终得到数据增强的第一优化模型M1
S360、将所述错误数据样本子集输入所述第一优化模型,确定所述错误数据样本子集的第二评估指标数值;所述第二评估指标数值和所述第一评估指标数值对应相同的评估指标。
其中,第二评估指标数值是用于评估错误数据样本子集中的样本是否满足评估条件的数值,第二评估指标数值的数值类型和第一评估指标相同。
具体的,将错误数据样本子集输入所述第一优化模型,确定错误数据样本子集的第二评估指标数值,第二评估指标数值和第一评估指标数值对应相同的评估指标。例如,当第一评估指标数值为精确度时,第二评估指标数值也为精确度。
S370、根据所述第二评估指标数值对所述增强训练样本集进行验证,以验证所述训练样本集是否得到增强。
可以理解的是,根据第二评估指标数值对增强训练样本集进行验证的方法,与根据第一评估指标数值对数据样本子集进行分类的方法类似。
示例性的,根据第二评估指标数值对训练样本集进行验证的方法可以为:判断第二评估指标数值是否大于或等于预设精度阈值;或者也可以为判断第二评估指标数值是否大于/小于第一评估指标数值,本发明实施例对此不做限定。例如,当错误数据样本子集中某数据样本的第一评估指标数值为0.4,若该数据样本的第二评估指标数值大于0.4,则可以认为该数据样本得到了增强。
本发明实施例的技术方案,通过确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集;基于所述训练样本集训练待优化模型得到第一优化模型;将所述错误数据样本子集输入所述第一优化模型,确定所述错误数据样本子集的第二评估指标数值;所述第二评估指标数值和所述第一评估指标数值对应相同的评估指标;根据所述第二评估指标数值对所述增强训练样本集进行验证,以验证所述训练样本集是否得到增强。本发明实施例的技术方案,解决了现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本,进而无法针对缺陷增强训练样本集,使得训练样本集改进效率低下的问题,实现了准确定位导致模型精度不佳的训练样本进行有针对性的数据增强,提升了训练样本集的数据增强效率,进而提升了模型的性能。
可选的,所述第二评估指标数值包括:第二精确度;所述根据所述第二评估指标数值对所述训练样本集进行验证,包括:
若所述第二精确度大于或等于预设精度阈值,则确定所述训练样本集得到增强;
若所述第二精确度小于预设精度阈值,则返回根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集的步骤,以确定新的对照数据样本子集;
直到确定所述训练样本集得到增强,或者所述正常数据样本子集中不存在新的对照数据样本子集。
其中,第二精确度是每个训练样本集中样本的精确度,可以根据第二精确度判断训练样本集中的样本是否存在问题。待优化模型可以是模型Mo。
具体的,判断第二精确度是否大于预设精度阈值,若是,则确定训练样本集得到增强;若否,则返回根据归因特征对错误数据样本子集中的各错误数据样本推理错误的贡献度,从正常数据样本子集中确定错误数据样本子集对应的对照数据样本子集的步骤,以确定新的对照数据样本子集;直到确定训练样本集得到增强,或者正常数据样本子集中不存在新的对照数据样本子集,则结束此时模型优化。其中,预设精度阈值可以与上述预设精度阈值相同,也可以不同。
示例性的,在获取到错误数据样本子集中的各错误数据样本Gs1,Gs3,Gs5的第二评估指标数值,如第二精确度后,可以判断第二精确度是否大于预设精度阈值。例如,若预设精度阈值为0.7,且Gs1的第二精确度为As1-r=0.88>0.7,Gs5的第二精确度为As5-r=0.90>0.7,Gs3的第二精确度为As3-r=0.65<0.7。则可以判断Gs1和Gs5满足质量要求,数据增强成功,但Gs3仍不符合质量要求,需要进一步的调整。
此时可以为Gs3重新选择对照数据样本子集,例如将同样只有收入与Gs3不同的Gs9作为对照数据样本,并重新训练Gs3与Gs9的倾向得分模型。对模型进行优化,得到数据增强的第二优化模型,并再次测试Gs1,Gs3,Gs5在第二优化模型上的质量指标。若As1-r=0.87>0.7,As3-r=0.86>0.7,As5-r=0.92>0.7,则可以判断Gs1,Gs3,Gs5均符合质量指标要求,训练样本集得到增强,模型性能提升完成。
在一个具体的实施例中,图6为一种模型优化方法的流程图。如图6所示,示例性的,所述方法包括:
步骤1、获取存在推理错误的错误数据样本子集,错误数据样本子集的贡献度排序,以及不存在推理错误的正常数据样本子集。
步骤2、进行应用场景分析,选取合适的归因特征作为对照归因特征。
步骤3、根据对照归因特征确定对照数据样本子集。
步骤4、进行训练倾向得分计算,得到错误数据样本子集及其对应的对照数据样本子集的倾向得分的计算模型。
步骤5、基于倾向得分匹配方法、或分层等方法进行模型精调,得到数据增强的新模型。
在另一个具体的实施例中,图7为一种示例的模型优化流程图。如图7所示,模型优化的具体步骤包括:
步骤1、获取数据样本子集,对数据样本子集进行质量检测。
步骤2、对模型进行数据增强,并对模型精调。
步骤3、对新模型进行性能检验,以判断是否所有数据样本质量均达标。
步骤4、若有数据样本质量未达标,则返回步骤2。
步骤5、若所有数据样本质量均达标,则认为模型增强成功,可以上架。
实施例四
图8为本发明实施例四提供的一种训练样本集的数据增强装置的结构示意图。如图8所示,该装置包括:特征集合确定模块410,集合分类模块420,对照样本确定模块430和增强样本确定模块440。
特征集合确定模块410,用于确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集。
集合分类模块420,用于根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集。
对照样本确定模块430,用于根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集。
增强样本确定模块440,用于根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集。
可选的,对照样本确定模块430还包括:
贡献度推理单元,用于对于所述错误数据样本子集,基于沙普利可加性模型解释SHAP方法,计算各所述归因特征对应的SHAP值,所述SHAP值表征所述归因特征对所述错误数据样本推理错误的贡献度。
对照归因特征确定单元,用于基于各所述归因特征对应的SHAP值,确定所述错误数据样本子集的对照归因特征。
共有归因特征确定单元,用于将所述错误数据样本子集中的除所述对照归因特征之外的归因特征确定为共有归因特征。
对照数据样本确定单元,用于对于所述正常数据样本子集中的正常数据样本,若与所述错误数据样本集中的错误数据样本的共有归因特征相同且所述对照归因特征不同,则确定为所述错误数据样本对应的对照数据样本。
对照数据样本子集生成单元,用于根据所述错误数据样本集中各所述错误数据样本对应的对照数据样本,形成对照数据样本子集。
可选的,所述对照归因特征确定单元,还用于:
根据各所述错误数据样本的SHAP值,确定所述错误数据样本子集的平均SHAP值。
将最大平均SHAP值对应的归因特征确定为所述错误数据样本子集的对照归因特征。
可选的,增强样本确定模块440还包括:
第一倾向得分获取单元,用于计算所述错误数据样本子集中各错误数据样本的第一倾向得分。
第二倾向得分获取单元,用于计算所述对照数据样本子集中各对照数据样本的第二倾向得分。
增强训练样本获取单元,用于基于倾向得分匹配方法,将所述第一倾向得分和所述第二倾向得分匹配时,所对应的错误数据样本和对照数据样本确定为增强训练样本。
训练样本集获取单元,用于根据所述增强训练样本形成得到数据增强的训练样本集。
可选的,特征集合确定模块410还包括:
归因特征集合确定单元,用于基于因果关系的特征分析方法,从所述数据样本集的样本特征中确定归因特征所构成的归因特征集合。
样本分类条件确定单元,用于根据所述归因特征集合中各所述归因特征对应的每个预设取值范围的排列组合,确定数据样本子集的样本分类条件。
数据样本子集获取单元,用于根据所述样本分类条件对所述数据样本集进行划分,得到至少两个数据样本子集。
其中,所述第一评估指标数值包括:第一精确度;相应的,集合分类模块420还包括:
第一精确度确定单元,用于将所述数据样本子集输入待优化模型,确定所述数据样本子集的第一精确度。
错误数据样本子集确定单元,用于将所述第一精确度小于预设精度阈值的数据样本子集,确定为存在推理错误的错误数据样本子集。
正常数据样本子集确定单元,用于将所述第一精确度大于或等于所述预设精度阈值的数据样本子集,确定为不存在推理错误的正常数据样本子集。
可选的,所述装置还包括:
第一优化模型获取单元,用于基于所述训练样本集训练待优化模型得到第一优化模型;
第二评估指标数值确定单元,用于将所述错误数据样本子集输入所述第一优化模型,确定所述错误数据样本子集的第二评估指标数值;所述第二评估指标数值和所述第一评估指标数值对应相同的评估指标;
训练样本集验证单元,用于根据所述第二评估指标数值对所述训练样本集进行验证,以验证所述训练样本集是否得到增强。
其中,所述第二评估指标数值包括:第二精确度;相应的,训练样本集验证单元包括:
若所述第二精确度大于或等于预设精度阈值,则确定所述训练样本集得到增强。
若所述第二精确度小于预设精度阈值,则返回根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集的步骤,以确定新的对照数据样本子集。
直到确定所述训练样本集得到增强,或者所述正常数据样本子集中不存在新的对照数据样本子集。
本发明实施例所提供的一种训练样本集的数据增强装置可执行本发明任意实施例所提供的训练样本集的数据增强装置方法,具备执行方法相应的功能模块和有益效果。
实施例五
图9示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图9所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如训练样本集的数据增强方法。
在一些实施例中,训练样本集的数据增强方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的训练样本集的数据增强方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行训练样本集的数据增强方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种训练样本集的数据增强方法,其特征在于,包括:
确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;其中,所述归因特征集合是由数据样本集与模型推理结果有因果关系的归因特征所构成的集合;所述数据样本集中的数据样本为图像数据;
根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;
根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;
根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集;
所述第一评估指标数值包括:第一精确度;所述根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集,包括:
将所述数据样本子集输入待优化模型,确定所述数据样本子集的第一精确度;
将所述第一精确度小于预设精度阈值的数据样本子集,确定为存在推理错误的错误数据样本子集;
将所述第一精确度大于或等于所述预设精度阈值的数据样本子集,确定为不存在推理错误的正常数据样本子集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集,包括:
对于所述错误数据样本子集,基于沙普利可加性模型解释SHAP方法,计算各所述归因特征对应的SHAP值,所述SHAP值表征所述归因特征对所述错误数据样本推理错误的贡献度;
基于各所述归因特征对应的SHAP值,确定所述错误数据样本子集的对照归因特征,并将所述错误数据样本子集中的除所述对照归因特征之外的归因特征确定为共有归因特征;
对于所述正常数据样本子集中的正常数据样本,若与所述错误数据样本集中的错误数据样本的共有归因特征相同且所述对照归因特征不同,则确定为所述错误数据样本对应的对照数据样本;
根据所述错误数据样本集中各所述错误数据样本对应的对照数据样本,形成对照数据样本子集。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述归因特征对应的SHAP值,确定所述错误数据样本子集的对照归因特征,包括:
根据各所述错误数据样本的SHAP值,确定所述错误数据样本子集的平均SHAP值;
将最大平均SHAP值对应的归因特征确定为所述错误数据样本子集的对照归因特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集,包括:
计算所述错误数据样本子集中各错误数据样本的第一倾向得分;
计算所述对照数据样本子集中各对照数据样本的第二倾向得分;
基于倾向得分匹配方法,将所述第一倾向得分和所述第二倾向得分匹配时,所对应的错误数据样本和对照数据样本确定为增强训练样本;
根据所述增强训练样本形成得到数据增强的训练样本集。
5.根据权利要求1所述的方法,其特征在于,所述确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集,包括:
基于因果关系的特征分析方法,从所述数据样本集的样本特征中确定归因特征所构成的归因特征集合;
根据所述归因特征集合中各所述归因特征对应的每个预设取值范围的排列组合,确定数据样本子集的样本分类条件;
根据所述样本分类条件对所述数据样本集进行划分,得到至少两个数据样本子集。
6.根据权利要求1所述的方法,其特征在于,还包括:
基于所述训练样本集训练待优化模型得到第一优化模型;
将所述错误数据样本子集输入所述第一优化模型,确定所述错误数据样本子集的第二评估指标数值;所述第二评估指标数值和所述第一评估指标数值对应相同的评估指标;
根据所述第二评估指标数值对所述训练样本集进行验证,以验证所述训练样本集是否得到增强。
7.根据权利要求6所述的方法,其特征在于,所述第二评估指标数值包括:第二精确度;所述根据所述第二评估指标数值对所述训练样本集进行验证,包括:
若所述第二精确度大于或等于预设精度阈值,则确定所述训练样本集得到增强;
若所述第二精确度小于预设精度阈值,则返回根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集的步骤,以确定新的对照数据样本子集;
直到确定所述训练样本集得到增强,或者所述正常数据样本子集中不存在新的对照数据样本子集。
8.一种训练样本集的数据增强装置,其特征在于,包括:
特征集合确定模块,用于确定数据样本集的归因特征集合,并根据所述归因特征集合中的归因特征,将所述数据样本集划分为至少两个数据样本子集;其中,所述归因特征集合是由数据样本集与模型推理结果有因果关系的归因特征所构成的集合;所述数据样本集中的数据样本为图像数据;
集合分类模块,用于根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类,形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集;
对照样本确定模块,用于根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度,从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集;
增强样本确定模块,用于根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分,确定得到数据增强的训练样本集;
所述第一评估指标数值包括:第一精确度;相应的,集合分类模块还包括:
第一精确度确定单元,用于将所述数据样本子集输入待优化模型,确定所述数据样本子集的第一精确度;
错误数据样本子集确定单元,用于将所述第一精确度小于预设精度阈值的数据样本子集,确定为存在推理错误的错误数据样本子集;
正常数据样本子集确定单元,用于将所述第一精确度大于或等于所述预设精度阈值的数据样本子集,确定为不存在推理错误的正常数据样本子集。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的训练样本集的数据增强方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的训练样本集的数据增强方法。
CN202211173668.7A 2022-09-26 2022-09-26 一种训练样本集的数据增强方法、装置、设备及存储介质 Active CN115481694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211173668.7A CN115481694B (zh) 2022-09-26 2022-09-26 一种训练样本集的数据增强方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211173668.7A CN115481694B (zh) 2022-09-26 2022-09-26 一种训练样本集的数据增强方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115481694A CN115481694A (zh) 2022-12-16
CN115481694B true CN115481694B (zh) 2023-09-05

Family

ID=84393688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211173668.7A Active CN115481694B (zh) 2022-09-26 2022-09-26 一种训练样本集的数据增强方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115481694B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117871790B (zh) * 2024-03-11 2024-05-17 四川国蓝中天环境科技集团有限公司 基于多种数据融合的路边监测站数据分析和交通溯源方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
CN111539467A (zh) * 2020-04-17 2020-08-14 北京工业大学 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法
WO2021046951A1 (zh) * 2019-09-09 2021-03-18 安徽继远软件有限公司 图像识别方法、系统及存储介质
CN112699776A (zh) * 2020-12-28 2021-04-23 南京星环智能科技有限公司 训练样本优化方法、目标检测模型生成方法、设备及介质
WO2021114832A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 样本图像数据增强方法、装置、电子设备及存储介质
CN113223000A (zh) * 2021-04-14 2021-08-06 江苏省基础地理信息中心 一种提高小目标分割精度的综合方法
CN113378763A (zh) * 2021-06-25 2021-09-10 长沙理工大学 一种面向sar图像的目标自动检测方法及系统
CN113610552A (zh) * 2021-06-25 2021-11-05 清华大学 一种用户流失预测方法及装置
CN113723618A (zh) * 2021-08-27 2021-11-30 南京星环智能科技有限公司 一种shap的优化方法、设备及介质
CN113822428A (zh) * 2021-08-06 2021-12-21 中国工商银行股份有限公司 神经网络训练方法及装置、图像分割方法
CN114022706A (zh) * 2021-10-29 2022-02-08 际络科技(上海)有限公司 一种图像分类模型的优化方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
WO2021046951A1 (zh) * 2019-09-09 2021-03-18 安徽继远软件有限公司 图像识别方法、系统及存储介质
CN111539467A (zh) * 2020-04-17 2020-08-14 北京工业大学 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法
WO2021114832A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 样本图像数据增强方法、装置、电子设备及存储介质
CN112699776A (zh) * 2020-12-28 2021-04-23 南京星环智能科技有限公司 训练样本优化方法、目标检测模型生成方法、设备及介质
CN113223000A (zh) * 2021-04-14 2021-08-06 江苏省基础地理信息中心 一种提高小目标分割精度的综合方法
CN113378763A (zh) * 2021-06-25 2021-09-10 长沙理工大学 一种面向sar图像的目标自动检测方法及系统
CN113610552A (zh) * 2021-06-25 2021-11-05 清华大学 一种用户流失预测方法及装置
CN113822428A (zh) * 2021-08-06 2021-12-21 中国工商银行股份有限公司 神经网络训练方法及装置、图像分割方法
CN113723618A (zh) * 2021-08-27 2021-11-30 南京星环智能科技有限公司 一种shap的优化方法、设备及介质
CN114022706A (zh) * 2021-10-29 2022-02-08 际络科技(上海)有限公司 一种图像分类模型的优化方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCGAN:合成单类别表格数据的生成对抗网络;曹爽;《计算机时代》(第4期);25-27 *

Also Published As

Publication number Publication date
CN115481694A (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
WO2021155706A1 (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
WO2017133492A1 (zh) 一种风险评估方法和系统
EP3931734A1 (en) Multi-page online application origination (oao) service for fraud prevention systems
US20190220924A1 (en) Method and device for determining key variable in model
CN111125529A (zh) 产品匹配方法、装置、计算机设备及存储介质
CN115481694B (zh) 一种训练样本集的数据增强方法、装置、设备及存储介质
CN113139134A (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN115004652B (zh) 业务风控处理方法、装置、电子设备以及存储介质
CN117235608B (zh) 风险检测方法、装置、电子设备及存储介质
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
CN113657538A (zh) 模型训练、数据分类方法、装置、设备、存储介质及产品
CN116226628A (zh) 一种特征优化方法、装置、设备及介质
CN115600818A (zh) 多维评分方法、装置、电子设备和存储介质
CN113612777B (zh) 训练方法、流量分级方法、装置、电子设备以及存储介质
CN113032251B (zh) 应用程序服务质量的确定方法、设备和存储介质
CN114037518A (zh) 风险预测模型的构建方法、装置、电子设备和存储介质
CN114186646A (zh) 区块链异常交易识别方法及装置、存储介质及电子设备
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN111325350A (zh) 可疑组织发现系统和方法
CN114037058B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN113642727B (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN113987309B (zh) 个人隐私数据识别方法、装置、计算机设备及存储介质
CN114037057B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN117611324A (zh) 信用评级方法、装置、电子设备和存储介质
CN117474669A (zh) 一种贷款逾期预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant