CN114462541A - 数据处理方法、装置、存储介质和处理器 - Google Patents

数据处理方法、装置、存储介质和处理器 Download PDF

Info

Publication number
CN114462541A
CN114462541A CN202210130563.7A CN202210130563A CN114462541A CN 114462541 A CN114462541 A CN 114462541A CN 202210130563 A CN202210130563 A CN 202210130563A CN 114462541 A CN114462541 A CN 114462541A
Authority
CN
China
Prior art keywords
data
sample
label
preset rule
sample label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210130563.7A
Other languages
English (en)
Inventor
张保龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202210130563.7A priority Critical patent/CN114462541A/zh
Publication of CN114462541A publication Critical patent/CN114462541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本发明公开了一种数据处理方法、装置、存储介质和处理器。其中,该方法包括:在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据;在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据;基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。本发明解决了预测信贷场景准确率低的技术问题。

Description

数据处理方法、装置、存储介质和处理器
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、装置、存储介质和处理器。
背景技术
目前,在可疑案例模型训练过程中,以是否上报作为可疑案例的标签训练模型或者评判模型效果。但是,由于样本标签存在差别,使模型对样本的分类效果变差,从而存在信贷场景准确率低的技术问题。
针对上述预测信贷场景准确率低的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置、存储介质和处理器,以至少解决了预测信贷场景准确率低的技术问题
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据;在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据;基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。
可选地,获取第一原始数据的第一审批数据,其中,第一审批数据为第一原始数据的最后一次审批的数据;在第一原始数据中,获取第一样本标签数据,包括:标记第一审批数据满足第一预设规则的第一原始数据,得到第一样本标签数据,其中,第一审批数据满足第一预设规则的第一原始数据为可疑的数据。
可选地,在第一原始数据中,获取第二样本标签数据,包括:标记第一审批数据未满足第一预设规则的第一原始数据,得到第二样本标签数据,其中,第一审批数据未满足第一预设规则的第一原始数据为可信的数据。
可选地,确定历史数据的关键字和历史数据的数据类型,其中,历史数据为数据库中的数据,且包括第一原始数据;对关键字和数据类型进行拟合迭代,得到第二预设规则。
可选地,数据类型不同,则对应的关键字不同。
可选地,基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型,还包括:第一样本标签数据的样本标签和第三样本标签数据的样本标签相同,目标样本标签为样本的实际标签;基于样本标签训练子模型,得到目标模型。
可选地,确定第一原始数据的预测标签;基于第一原始数据的预测标签和目标样本标签,训练子模型,得到目标模型。
可选地,确定第一原始数据的预测标签,还包括:基于第一原始数据的特征数据确定第一原始数据的预测标签。
可选地,在第一原始数据中,获取第四样本标签数据和第五样本标签数据,其中,第四样本标签数据为以下至少之一的样本数据:满足第一预设规则的样本数据、满足第二预设规则的样本数据、未满足第三预设规则的样本数据;第五样本标签数据为以下至少之一的样本数据:未满足第一预设规则的样本数据、未满足第二预设规则的样本数据、满足第三预设规则的样本数据。
根据本发明实施例的另一方面,还提供了一种数据处理装置。该装置包括:第一获取单元,用于在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据;第二获取单元,用于在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据;确定单元,用于基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质。该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行本发明实施例的数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器。该处理器用于运行程序,其中,程序运行时执行本发明实施例的数据处理方法。
在本发明实施例中,在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据;在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据;基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。也就是说,本发明基于第一预设规则对第一原始数据中的第一审批数据进行处理,得到第一样本标签数据和第二样本标签数据,基于第二预设规则对第二样本标签数据进行处理,得到第三样本标签数据,经过多次预设规则的处理,从而准确确认了第一原始数据类型,进而实现了提高预测信贷场景准确率的技术效果,解决了预测信贷场景准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据处理的方法的流程图;
图2是根据相关技术中的一种数据流向的流程图;
图3是根据本发明实施例的一种全部案例总计关键字和提取规则的数据流向的流程图;
图4是根据本发明实施例的一种原始标签为0的案例数据流向的流程图;
图5是根据本发明实施例的一种数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据处理的方法的流程图。如图1所示,该方法包括如下步骤:
步骤S102,在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据。
在本发明上述步骤S102提供的技术方案中,基于第一预设规则对第一原始数据中的案例进行处理,对满足第一预设规则的第一原始数据进行标记,得到第一样本标签数据,对不满足第一预设规则的第一原始数据进行标记,得到第二样本标签数据,其中,第一原始数据可以为一段时间内的案例数据,第一样本标签数据可以为正样本标签数据,可以为标签为1的可疑案例数据,第二样本标签数据可以为负样本标签数据,可以为标签为0的可信案例数据。
可选地,第一预设规则可以为根据实际需要设定的规则,可以为上报案例规则,可以将满足第一预设规则(上报案例规则)的案例数据作为正样本数据,标记案例标签为1,可以将未满足第一预设规则的案例数据作为负样本数据,标记案例标签为0。
步骤S104,在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据。
在本发明上述步骤S104提供的技术方案中,基于第二预设规则,在第二样本标签数据中选取满足第二预设规则的样本标签数据,以得到第三样本标签数据,可以为对满足第二预设规则的第二样本标签数据的标签进行修改,以得到第三样本标签数据,其中,第三样本标签数据可以为样本标签为1的样本数据;第二预设规则,可以为可疑未上报案例规则,可以用于判断第二样本标签数据是否为正样本数据,其中,正样本数据可以用于表示为可疑案例数据。
可选地,基于第二预设规则,对第二样本标签数据进行处理,得到满足第二预设规则的第三样本标签数据,比如:当第二样本标签数据满足第二预设规则时,可以说明第二样本标签数据满足可疑未上报案例规则,可以将第二样本标签数据的标签修改为1,得到样本标签为1的第三样本标签数据。
步骤S106,基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。
在本发明上述步骤S106提供的技术方案中,在第一原始数据中,基于第一预设规则得到第一样本标签数据,在第二样本标签数据中,基于第二预设规则得到第三样本标签数据样本,基于第一样本标签数据和第二样本标签数据,确定目标样本标签,目标标签用于训练子模型,得到目标模型,其中,目标样本标签可以为标签为1的正样本标签,也可以为标签为0的负样本标签,可以为对原始数据处理之后得到的样本标签,即,可以为第一原始数据实际的样本标签。
可选地,在有监督模型中,可以基于目标样本标签计算模型评估指标,评估模型好坏,基于评估结果对模型进行调整,得到目标模型。
本申请上述步骤S102至步骤S106,在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据;在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据;基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。也就是说,本发明基于第一预设规则对第一原始数据中的第一审批数据进行处理,得到第一样本标签数据和第二样本标签数据,基于第二预设规则对第二样本标签数据进行处理,得到第三样本标签数据,经过多次预设规则的处理,从而准确确认第一原始数据类型,进而实现了提高预测信贷场景准确率的技术效果,解决了预测信贷场景准确率低的技术问题。
下面对该实施例的上述方法进行进一步介绍。
作为一种可选的实施方式,获取第一原始数据的第一审批数据,其中,第一审批数据为第一原始数据的最后一次审批的数据;在第一原始数据中,获取第一样本标签数据,包括:标记第一审批数据满足第一预设规则的第一原始数据,得到第一样本标签数据,其中,第一审批数据满足第一预设规则的第一原始数据为可疑数据。
在该实施例中,获取第一原始数据的第一审批数据,基于第一预设规则,对第一审批数据满足第一预设规则的第一原始数据进行标记,得到第一样本标签数据,其中,满足第一预设规则的第一原始数据可以为可疑数据,可疑数据可以为上报的案例数据,可以用标签1表示;第一审批数据可以为第一原始数据的最后一次审批的数据,因流程返回等原因导致第一原始数据有多个审批数据,可以按照生成审批数据的日期,取最后一次的审批数据。
可选地,在第一原始数据的多个审批数据中,按照生成审批数据的日期,选取最后一次的审批数据得到第一审批数据,基于第一预设规则,对满足第一预设规则的第一原始数据的第一审批数据进行标记,可以得到允许上报的第一样本标签数据,即,标记为1的样本标签数据。
作为一种可选的实施方式,在第一原始数据中,获取第二样本标签数据,包括:标记第一审批数据未满足第一预设规则的第一原始数据,得到第二样本标签数据,其中,第一审批数据未满足第一预设规则的第一原始数据为可信数据。
在该实施例中,基于第一预设规则,对不满足第一预设规则的第一审批数据的第一原始数据进行标记,得到第二样本标签数据,其中,第一审批数据未满足第一预设规则的第一原始数据可以为可信数据,可信数据可以为不可疑的样本标签数据,第二样本标签数据可以为未上报的数据,可以为标记0的样本标签数据。
作为一种可选的实施方式,确定历史数据的关键字和历史数据的数据类型,其中,历史数据为数据库中的数据,且包括第一原始数据;对关键字和数据类型进行拟合迭代,得到第二预设规则。
在该实施例中,确定历史数据的关键字和历史数据的数据类型,可以为对可疑未上报案例中提取到的关键字和历史数据的类型,构建模糊匹配规则,将历史数据的关键字和数据类型的模糊匹配结果进行拟合迭代,得到第二预设规则,其中,历史数据的数据类型可以为历史数据的案件类型;第二预设规则可以用于判断第二样本标签数据是否为正样本数据;历史数据可以包括可疑案例和可信案例。
可选地,可以为存在“确认上报”的关键字所对应数据类型为正样本,比如,历史数据中存在“确认上报”的关键字,则修改对应案例的标签为1;历史数据中存在“无洗钱风险”则表示历史数据为可信案例,则修改对应案例的标签为0。
作为一种可选的实施方式,对应的数据类型不同,则对应的关键字不同。
在该实施例中,根据案例的数据类型,可提取对应的关键字,对应的数据类型不同,则对应的关键字也不相同,比如,上报案例和不上报案例对应的关键字不可能都为“确认上报”。
作为一种可选的实施方式,基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型,还包括:第一样本标签数据的样本标签和第三样本标签数据的样本标签相同,目标样本标签为样本的实际标签;基于样本标签训练子模型,得到目标模型。
在该实施例中,基于第一预设规则得到第一样本标签数据,基于第二预设规则得到第三样本标签数据,第一样本标签数据的样本标签和第三样本标签数据的样本标签相同,均为标签为1的样本标签数据,基于样本标签训练子模型,以得到目标模型,其中,目标样本标签为样本实际的标签,可以包括标签为1的正样本标签,也可以包括标签为0的负样本标签,基于样本标签训练子模型,从而得到目标模型。
作为一种可选的实施方式,确定第一原始数据的预测标签;基于第一原始数据的预测标签和所述目标样本标签,训练子模型,得到目标模型。
在该实施例中,基于第一样本标签数据和第二样本标签数据得到第一原始数据的目标样本标签,将第一原始数据的实际标签与目标样本标签进行对比,如果一致,则基于样本标签数据训练子模型,得到目标模型,其中,第一原始数据的实际标签可以为标签为1的正样本标签,也可以为标签为0的负样本标签。
作为一种可选的实施方式,确定第一原始数据的预测标签,还包括:基于第一原始数据的特征数据确定第一原始数据的预测标签。
在该实施例中,确定第一原始数据的特征数据,基于第一原始数据的特征数据确定第一原始数据的预测标签,其中,特征数据可以为用户年龄、性别、一段时间的累积交易金额、交易笔数等。
可选地,对第一原始数据进行处理,提取第一原始数据中的特征数据,基于第一原始数据中的特征数据,确定第一原始数据的预测标签,比如,当特征数据中的一段时间的累积交易金额超过设定的阈值时,则可以判断第一原始数据为可疑数据,即标签为1的正样本数据。
可选地,目标模型可以为有监督模型,对于有监督模型,在训练模型之前,基于对关键字和数据类型进行拟合和迭代,得到第二预设规则,可以将第二预设规则在终端以代码的形式输入系统中,基于第一预设规则和第二预设规则对第一原始数据进行判断,得到目标样本标签,即,样本的实际标签;在训练模型时,将第一原始数据输入子模型中,基于特征数据,得到第一原始数据的预测标签;在模型评估的时候,基于目标样本标签和预测标签一起用来计算模型评估指标,评估模型好坏,迭代优化模型,以得到目标模型。
可选地,目标模型也可以为无监督模型,对于无监督模型,目标样本标签和预测标签仅用来评估模型好坏,不参与模型训练过程。
作为一种可选的实施方式,在第一原始数据中,获取第四样本标签数据和第五样本标签数据,其中,第四样本标签数据为以下至少之一的样本数据:满足第一预设规则的样本数据、满足第二预设规则的样本数据、未满足第三预设规则的样本数据;第五样本标签数据为以下至少之一的样本数据:未满足第一预设规则的样本数据、未满足第二预设规则的样本数据、满足第三预设规则的样本数据。
在该实施例中,在第一原始数据中获取满足以下至少之一规则的样本数据,可以为满足第一预设规则的样本数据、满足第二预设规则的样本数据、未满足第三预设规则的样本数据,将获取的样本数据作为第四样本标签数据,获取满足以下至少之一规则的样本数据,可以为满足第三预设规则的样本数据、不满足第一预设规则的样本数据、第二预设规则的样本数据、将获取的样本数据作为第五样本标签数据,其中,第四样本标签数据可以为正样本标签数据,可以为上报案例,可以为可疑案例;第五样本标签数据可以为负样本标签数据,可以为未上报案例,可以为可信案例。
可选地,在第一原始数据中,获取第四样本标签数据,可以包括:在第一原始数据中,标记以下至少之一规则的样本数据,满足第一预设规则的样本数据、满足第二预设规则的样本数据、未满足第三预设规则的样本数据,得到第四样本标签数据。
可选地,第一原始数据中,获取第五样本标签数据,可以包括:在第一原始数据中,标记满足以下至少之一的样本数据,未满足第一预设规则的样本数据、未满足第二预设规则的样本数据、满足第三预设规则的样本数据,从而得到第五样本标签数据。
可选地,在第一原始数据中获取第四样本标签数据和第五样本标签数据,可以同时基于第一预设规则、第二预设规则和第三预设规则对第一原始数据进行处理,也可以先基于第一预设规则进行处理,再基于第二预设规则进行处理,最后基于第三预设规则进行处理,需要说明的是,此处仅做举例说明,不做具体限制。
可选地,在第一原始数据中获取第四样本标签数据和第五样本标签数据,可以为基于第一预设规则对第一原始数据进行匹配,如果匹配失败,则基于第二预设规则进行匹配,如果匹配成功,则不需要继续进行匹配,得到标记有目标样本标签的第四样本标签数据和/或第五样本标签数据。
可选地,在第一原始数据中获取第四样本标签数据和第五样本标签数据,可以基于第二预设规则对第一原始数据进行匹配,如果匹配失败,则基于第三预设规则进行匹配,如果匹配成功,则不需要继续进行匹配,得到标记有目标样本标签的第四样本标签数据和/或第五样本标签数据。
该实施例基于第一预设规则对第一原始数据中的第一审批数据进行处理,得到第一样本标签数据和第二样本标签数据,基于第二预设规则对第二样本标签数据进行处理,得到第三样本标签数据,经过多次预设规则的处理,准确确认第一原始数据类型,从而实现了提高预测信贷场景准确率的技术效果,解决了预测信贷场景准确率低的技术问题。
实施例2
下面结合优选的实施方式对本发明实施例的技术方案进行举例说明。
现有反洗钱可疑案例模型训练过程中,不论是有监督还是无监督模型,在训练模型的过程中,训练数据为反洗钱生成的可疑案例,以是否上报作为可疑案例的标签,进而训练模型或者评判模型效果。
在相关技术中,由于样本标签会存在差别,因此会导致模型对样本的分类效果变差。图2是根据相关技术中的一种数据流向的流程图,如图2所示,该数据流向可以包括:
步骤S201,获取数据库信息。
在存储设备或者服务器中提取数据库信息,其中,数据库信息包括所要进行分析的案例信息。
步骤S202,获取案例数据信息。
从数据库中获取案例信息,并对案例信息进行进一步分析。
步骤S207,判断是否上报。
根据是否上报案例规则对获取的案例数据进行处理,将上报的案例标记为正样本标签,标记为1,未上报的案例标记为负样本标签,标记为0。
步骤S208,获取标签。
对案例数据标记完成后,提取案例数据所对应的标签,得到案例的实际标签。
步骤S203,获取交易数据信息。
从数据库中获取案例的交易数据,其中,交易数据信息可以包括一个人的年龄、一段时间的交易详情,比如,可以为交易时间点,交易金额,交易之后的余额,交易方式等,此处不做具体限定。
步骤S204,分析、提取特征。
对交易数据信息进行分析,提取关键字,识别可以判断案例是否可疑的因素。
可选地,特征数据信息可以包括一个人的年龄、一段时间的累积交易金额、交易笔数等,此处仅做举例说明,不做具体限制。
步骤S206,获取特征数据。
基于交易数据的分析结果,获取特征数据,其中,特征数据应该可以为交易或者客户的静态属性。
可选地,特征数据可以为客户特征,如年龄、性别等,此处不作具体限定。
步骤S209,模型训练。
将所获取的案例数据的预测标签与实际标签进行对比,评估模型效果,如果效果较差,即,如果预测标签与实际标签差距过大,则对模型参数进行调整与训练。
在相关技术步骤S201至步骤S209中,有部分案例虽然实际上是可疑的,但因为一个客户在一段时间内不重复上报的原因,并没有上报,按照上述方式,该案例会被判断为负样本。
可选地,在模型调参训练阶段,每次训练结束会根据模型对验证数据预测标签和验证数据实际标签的差距来评判模型效果,来确定当前模型是否已经能够很好的进行预测,如果训练数据的实际标签存在偏差,会导致评判为很好的模型,在对新数据进行预测的时候结果并不准确。
为解决上述问题,本发明提出了一种可疑案例模型训练数据优化方式,通过对所有案例的实际处理意见进行整理,找出真正可疑的案例处理意见中的相同字段,比如,确认可疑、进行上报等,在训练模型的时候,按照是否上报,生成初次标签,再拿取可疑案例的处理意见,对训练数据中案例的标签进行更新,使用新标签训练模型或者评判模型效果,这样训练数据的标签都是正确的,使得模型的区分效果更好。
根据本发明该实施例,提出了一种可疑案例模型训练数据优化方法,该方法可以包括如下。
第一步:案例数据获取。
从数据库中获取案例编号、审批意见、是否上报。案例编号需要是唯一值,同一个案例只取一次;审批意见只取最终意见,因流程返回等原因导致有多个审批意见的案例,按照生成审批意见的日期,选取最后一次的审批意见。
第二步:生成初始标签。
判断最后一次的审批意见是否为上报,将最后一次的审批意见为上报的案例作为正样本,标记为1,最后一次的审批意见为未上报的案例作为负样本,标记为0,得到案例的初始标签。
可选地,案例可以为:初始标签为1的已上报案例;因为不重复上报的原因没有进行上报的初始标签为0的可疑未上报案例;初始标签为0的可信案例,即,确认可信且未上报的案例。
第三步:分析案例并进行后续步骤。
在分析案例审批意见,提取关键字时,需要注意:不同类型的案例之间,关键字不能重复;已上报和未上报案例的规则需要分开,按照案例初始标签执行对应的规则。
对获取到的审批意见进行分析,可以包括以下两种情况。
第一种,针对全部案例。
如图3所示,图3是根据本发明实施例的一种全部案例总计关键字和提取规则的数据流向的流程图,可以包括。
步骤S301,获取案例数据。
从数据库中提取案例数据,其中,案例数据可以为用于建立模型训练的案例的审批信息或者案例相关信息。
步骤S302,根据上报案例规则、可疑未上报案例规则和可信案例规则对案例数据进行处理。
可以通过分析审批意见,使用关键字构建模糊匹配规则,得到上报案例规则、可疑未上报案例规则和可信案例规则,然后提取案例关键字,基于上报案例规则、可疑未上报案例规则和可信案例规则对案例数据进行匹配。可选地,在对案例进行处理时,三种上报案例规则可以同时进行处理,也可以先后进行处理,举例而言,可以先基于上报案例规则对案例进行匹配,如果匹配失败,再基于可疑未上报案例规则对案例进行匹配,匹配失败后,最后基于可信未上报案例规则对案例进行匹配,从而可以达到对可疑未上报案例进行筛选的目的。
可选地,构建模糊匹配规则可以包括:根据提取到的关键字和案例对应的类型,构建模糊匹配规则。如:审批意见中存在“确认上报”的关键字,则对应案例的类型为已上报案例;审批意见中存在“无洗钱风险”的关键字,则对应案例的类型为未上报案例。
可选地,不同类型的案例之间,关键字不能重复,已上报和未上报案例的规则需要分开,按照案例初始标签执行对应的规则。
可选地,该方式需要对全部案例进行分析,分析量大,每种类型的案例都需要总结关键字,而且要注意关键字是否重复。
步骤S303,输出样本标签。
基于案例上报规则对案例的匹配结果输出相应的样本标签,其中,样本标签可以包括:正样本标签,可以标记为1,用于表征可疑的案例,负样本标签,可以标记为0,同于表征可信的案例。
可选地,可以基于上报案例规则对案例进行匹配,如果匹配成功,则该样本为正样本,案例为可疑案例,如果匹配失败,则该样本为负样本,案例为可信案例;可以基于可疑未上报案例规则对可信案例进行匹配,如果匹配成功,则该样本为正样本,即,案例为可疑案例,则将案例标签修改为正样本标签;如果匹配失败,则该样本为负样本,案例为可信案例;可以基于可信未上报案例规则对案例进行匹配,如果匹配成功,则该样本为负样本,案例为可信案例,如果匹配失败,则该案例为可疑案例,确定案例标签为正样本标签。
可选地,本发明技术方案所涉及的上报案例规则,都只用于修改样本标签,不用于对案例进行处理。
可选地,本发明所有数据均为离线处理,不修改原有数据库。
第二种,针对未上报案例。
如图4所示,图4是根据本发明实施例的一种原始标签为0的案例数据流向的流程图,该数据流向可以包括:
步骤S401,初始标签为负样本。
基于原始审批意见是否上报给案例信息打上初始标签,基于初始标签得到负样本。
步骤S402,可疑未上报案例规则。基于可疑未上报案例规则对初始标签为负样本的案例进行处理,例如,可以将案例信息与可疑未上报案例规则进行匹配,基于匹配结果确定该案例的实际标签。
步骤S403,判断是否可疑。
基于可疑未上报案例规则,对初始标签为负样本的案例进行处理,判断案例是否可疑。
举例而言,将案例信息与可疑未上报案例规则进行匹配,判断其是否匹配成功,如果匹配成功,则该案例的实际标签为正样本标签,则将该案例的初始标签修改为1,即该案例为可疑案例;如果匹配失败,则该案例的不进行修改,则实际标签为负样本标签,即该案例为可信案例。
步骤S404,获取最终标签。
基于可疑未上报案例规则对初始标签为负样本的案例进行判断,如果可信,则不对初始标签进行修改,如果可疑,则对初始标签进行修改,即将负样本修改为正样本标签,获取最终的标签。
在该实施例中,通过步骤S401至步骤S404,只分析原始标签为0的案例(未上报的案例),提取可疑但未上报案例的关键字,可信且未上报案例不需要提取关键字。
可选地,该方式只需要分析大部分案例,分析量较第一种方式有所降低;只需要关注实际可疑但没有上报的案例,只需要对这种案例提取关键字,生成关键字较为容易,不需要考虑关键字重复的问题。
对于无监督模型,修改后的标签只在模型评估的时候,实际标签和模型预测标签一起用来计算模型评估指标,评估模型好坏。
对于有监督模型,在使用训练集数据训练模型的时候就需要使用到实际标签,将基于关键字和数据类型匹配所得到的标签和特征数据传入模型,模型根据标签和特征数据进行拟合和迭代;在模型评估的时候,标签和特征数据一起用来计算模型评估指标,得到目标样本标签,基于目标样本标签(实际标签)和预测标签来评估模型的好坏。
可选地,在该实施例中,可以将可疑未上报案例单独作为一个类别,在训练模型的过程中可以设置模型为多分类模型,即模型可以将案例分为上报案例、不上报案例和可疑未上报案例。举例而言,模型可以通过分别为案例打上标签进行区分,如,将上报案例标记为1、将不上报案例标记为0、将可疑未上报案例标记为2。
在该实施例中,通过对所有案例的实际处理意见进行整理,找出真正可疑的案例处理意见中的相同字段(如:确认可疑、进行上报等),在训练模型的时候,按照是否上报初次生成标签后,再拿取可疑案例的处理意见,使用模糊匹配和真正可疑案例处理意见中的字段进行匹配,对训练数据中案例的标签进行更新,使用新标签训练模型或者评判模型效果,从而解决了预测信贷场景准确率低的技术问题,实现了提高预测信贷场景准确率的技术效果。
实施例3
根据本发明实施例,还提供了一种数据处理装置。需要说明的是,该数据处理装置可以用于执行实施例1中的数据处理的方法。
图5是根据本发明实施例的一种数据处理装置的示意图。如图5所示,该数据处理装置500可以包括:第一获取单元501、第二获取单元502和确定单元503。
第一获取单元501,用于在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,第一样本标签数据为满足第一预设规则的样本数据,第二样本标签数据为未满足第一预设规则的样本数据。
第二获取单元502,用于在第二样本标签数据中获取第三样本标签数据,其中,第三样本标签数据是从第二样本标签数据中选取的满足第二预设规则的样本数据。
确定单元503,用于基于第一样本标签数据和第三样本标签数据,确定目标样本标签,其中,目标样本标签用于训练得到目标模型。
可选地,该装置还可以包括:第三获取单元,用于获取第一原始数据的第一审批数据,其中,第一审批数据为第一原始数据的最后一次审批的数据;
可选地,第一获取单元501包括:第一获取模块,用于标记第一审批数据满足第一预设规则的第一原始数据,得到第一样本标签数据,其中,第一审批数据满足第一预设规则的第一原始数据为可疑数据。
可选地,该装置还可以包括:第五获取单元,用于标记第一审批数据未满足第一预设规则的第一原始数据,得到第二样本标签数据,其中,第一审批数据未满足第一预设规则的第一原始数据为可信数据。
可选地,该装置还可以包括:第一确定单元,用于确定历史数据的关键字和历史数据的数据类型,其中,历史数据为数据库中的数据,且包括第一原始数据;对关键字和数据类型进行拟合迭代,得到第二预设规则。
可选地,确定单元503包括:训练模块,用于当第一样本标签数据的样本标签和第三样本标签数据的样本标签相同,目标样本标签为样本的实际标签;基于样本标签训练子模型,得到目标模型。
可选地,训练模块包括:第二确定子模块,用于确定第一原始数据的预测标签;基于第一原始数据的预测标签和目标样本标签,训练子模型,得到目标模型。
可选地,训练模块包括:第三确定子模块,用于基于第一原始数据的特征数据确定第一原始数据的预测标签。
可选地,还装置还包括:第六获取单元,用于在第一原始数据中,获取第四样本标签数据和第五样本标签数据,其中,第四样本标签数据为以下至少之一的样本数据:满足第一预设规则的样本数据、满足第二预设规则的样本数据、未满足第三预设规则的样本数据;第五样本标签数据为以下至少之一的样本数据:未满足第一预设规则的样本数据、未满足第二预设规则的样本数据、满足第三预设规则的样本数据。
在该实施例的数据处理装置中,通过第一获取单元在第一原始数据中,获取第一样本标签数据和第二样本标签数据,通过第二获取单元在第二样本标签数据中获取第三样本标签数据,通过确定单元基于第一样本标签数据和第三样本标签数据,从而确定目标样本标签,进而实现了提高预测信贷场景准确率的技术效果,解决了预测信贷场景准确率低的技术问题。
实施例4
根据本发明实施例,还提供了一种存储介质,该存储介质包括存储的程序,其中,程序被处理器运行时控制该计算机可读存储介质所在设备执行本发明实施例1中的数据处理的方法。
实施例5
根据本发明实施例,还提供了一种处理器,该处理器用于运行程序,其中,所述程序运行时执行实施例1中所述的数据处理的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,所述第一样本标签数据为满足第一预设规则的样本数据,所述第二样本标签数据为未满足所述第一预设规则的样本数据;
在所述第二样本标签数据中获取第三样本标签数据,其中,所述第三样本标签数据是从所述第二样本标签数据中选取的满足第二预设规则的样本数据;
基于所述第一样本标签数据和所述第三样本标签数据,确定目标样本标签,其中,所述目标样本标签用于训练得到目标模型。
2.根据权利要求1所述的方法,其特征在于,
所述方法还包括:获取所述第一原始数据的第一审批数据,其中,所述第一审批数据为所述第一原始数据的最后一次审批的数据;
在第一原始数据中,获取第一样本标签数据,包括:标记所述第一审批数据满足所述第一预设规则的所述第一原始数据,得到所述第一样本标签数据,其中,所述第一审批数据满足所述第一预设规则的所述第一原始数据为可疑的数据。
3.根据权利要求2所述的方法,其特征在于,在第一原始数据中,获取第二样本标签数据,包括:
标记所述第一审批数据未满足所述第一预设规则的所述第一原始数据,得到所述第二样本标签数据,其中,所述第一审批数据未满足所述第一预设规则的所述第一原始数据为可信的数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定历史数据的关键字和所述历史数据的数据类型,其中,所述历史数据为数据库中的数据,且包括所述第一原始数据;
对所述关键字和所述数据类型进行拟合迭代,得到所述第二预设规则。
5.根据权利要求4所述的方法,其特征在于,所述数据类型不同,则对应的所述关键字不同。
6.根据权利要求1所述的方法,其特征在于,基于所述第一样本标签数据和所述第三样本标签数据,确定目标样本标签,其中,所述目标样本标签用于训练得到所述目标模型,还包括:
所述第一样本标签数据的样本标签和所述第三样本标签数据的样本标签相同,所述目标样本标签为所述样本的实际标签;
基于所述目标样本标签训练子模型,得到所述目标模型。
7.根据权利要求6所述的方法,其特征在于,
所述方法还包括:确定所述第一原始数据的预测标签;
基于所述第一原始数据的预测标签和所述目标样本标签,训练所述子模型,得到所述目标模型。
8.根据权利要求7所述的方法,其特征在于,确定所述第一原始数据的预测标签,包括:基于所述第一原始数据的特征数据确定所述第一原始数据的预测标签。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述第一原始数据中,获取第四样本标签数据和第五样本标签数据,其中,所述第四样本标签数据为以下至少之一的样本数据:满足所述第一预设规则的样本数据、满足所述第二预设规则的样本数据、未满足第三预设规则的样本数据;所述第五样本标签数据为以下至少之一的样本数据:未满足所述第一预设规则的样本数据、未满足所述第二预设规则的样本数据、满足所述第三预设规则的样本数据。
10.一种数据处理装置,其特征在于,包括:
第一获取单元,用于在第一原始数据中,获取第一样本标签数据和第二样本标签数据,其中,所述第一样本标签数据为满足第一预设规则的样本数据,所述第二样本标签数据为未满足所述第一预设规则的样本数据;
第二获取单元,用于在所述第二样本标签数据中获取第三样本标签数据,其中,所述第三样本标签数据是从所述第二样本标签数据中选取的满足第二预设规则的样本数据;
确定单元,用于基于所述第一样本标签数据和所述第三样本标签数据,确定目标样本标签,其中,所述目标样本标签用于训练得到目标模型。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的数据处理方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序被处理器运行时执行权利要求1至8中任意一项所述的数据处理方法。
CN202210130563.7A 2022-02-11 2022-02-11 数据处理方法、装置、存储介质和处理器 Pending CN114462541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210130563.7A CN114462541A (zh) 2022-02-11 2022-02-11 数据处理方法、装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210130563.7A CN114462541A (zh) 2022-02-11 2022-02-11 数据处理方法、装置、存储介质和处理器

Publications (1)

Publication Number Publication Date
CN114462541A true CN114462541A (zh) 2022-05-10

Family

ID=81413350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210130563.7A Pending CN114462541A (zh) 2022-02-11 2022-02-11 数据处理方法、装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN114462541A (zh)

Similar Documents

Publication Publication Date Title
CN108648074B (zh) 基于支持向量机的贷款评估方法、装置及设备
CN106485562B (zh) 一种基于用户历史行为的商品信息推荐方法及系统
CN112348519A (zh) 一种欺诈用户识别方法、装置和电子设备
US11562262B2 (en) Model variable candidate generation device and method
CN111160745A (zh) 用户账户数据的处理方法及装置
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN110866832A (zh) 一种风险控制方法、系统、存储介质及计算设备
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN107644042B (zh) 软件程序点击率预估排序方法及服务器
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
EP3493082A1 (en) A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
CN114462541A (zh) 数据处理方法、装置、存储介质和处理器
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN114626940A (zh) 数据分析方法、装置及电子设备
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113052604A (zh) 一种对象检测方法、装置、设备及存储介质
CN111563775A (zh) 人群划分方法及装置
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
CN116954591B (zh) 银行领域的广义线性模型训练方法、装置、设备和介质
CN111858291B (zh) 计费系统迁移测试中数据异常的根因确定方法、设备及系统
CN116308807A (zh) 模型更新方法、装置、非易失性存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination