CN113128594A - 基于跨域数据的评估模型的优化方法及设备 - Google Patents
基于跨域数据的评估模型的优化方法及设备 Download PDFInfo
- Publication number
- CN113128594A CN113128594A CN202110426307.8A CN202110426307A CN113128594A CN 113128594 A CN113128594 A CN 113128594A CN 202110426307 A CN202110426307 A CN 202110426307A CN 113128594 A CN113128594 A CN 113128594A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation model
- original data
- data source
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013210 evaluation model Methods 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims description 18
- 238000012549 training Methods 0.000 claims abstract description 114
- 230000001419 dependent effect Effects 0.000 claims abstract description 57
- 238000011156 evaluation Methods 0.000 claims abstract description 52
- 238000012795 verification Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 10
- 238000011157 data evaluation Methods 0.000 claims description 9
- 238000011056 performance test Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 230000015654 memory Effects 0.000 description 15
- 230000005291 magnetic effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请的目的是提供基于跨域数据的评估模型的优化方法及设备,本申请通过获取并确定至少三种数据源的原始数据和准确率;其中,每种所述数据源的原始数据包括至少两条;将所述准确率最高时对应的数据源的原始数据作为训练集;按照准确率从高到低的顺序将数据源的原始数据加入至训练集进行模型训练,以得到模型性能最优的且用于对不同数据源的原始数据进行因变量评估的最终评估模型,不仅保证了模型训练过程中的训练集的多样性,还能使模型能最大化的满足实际应用场景的需求,进一步提高训练所得模型的精确度,从而可以最大程度避免错误的且来源于不同分布的数据源所带来的负面影响,以克服机器学习实践中常见的跨域数据的数据质量问题。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于跨域数据的评估模型的优化方法及设备。
背景技术
现有技术中,在有监督的统计、机器学习及深度学习建模中,训练数据的一致性分布和准确性是一个基础。绝大部分预测算法的前提假设都是:训练数据因变量100%准确和训练数据来自同一个分布,但在解决真实的业务问题时,常常难以保证以上两点。例如,训练欺诈侦测模型需要收集欺诈交易作为训练样本,一笔历史交易是否存在欺诈,由不同的审核人员人工审核,每个人员的审核的标准存在一定差异;又例如,短视频内容分类模型需要大量已分类的短视频作为训练样本,但分类工作通常由多个外包供应商提供,每个机构的分类标准和分类准度都不同;又例如,商户经营分类模型需要已分好类的商户数据作为训练样本,但商户的经营类目通常由不同收单机构的商业拓展人员手工输入,每个人员的判断标准都不一样,有些人甚至是胡乱填写,导致进行模型训练的数据不完整且存在实际偏差,使得训练所得的模型的精确度不高,无法反应真实应用场景的需求。
发明内容
本申请的一个目的是提供基于跨域数据的评估模型的优化方法及设备,以解决数据源不完整且无法满足实际应用场景的需求的问题,使得不仅保证了模型训练过程中的训练集的多样性,还能使模型能最大化的满足实际应用场景的需求,进一步提高训练所得模型的精确度,从而可以最大程度避免错误的且来源于不同分布的数据源所带来的负面影响,以克服机器学习实践中常见的跨域数据的数据质量问题。
根据本申请的一个方面,提供了基于跨域数据的评估模型的优化方法,应用于客户端,其中,所述方法包括:
步骤一、获取并确定至少三种数据源的原始数据和准确率;其中,每种所述数据源的原始数据包括至少两条;
步骤二、将所述准确率最高时对应的数据源的原始数据作为训练集;
步骤三、对所述训练集中的所有原始数据进行模型训练,得到用于数据的因变量评估的第一评估模型,并测试所述第一评估模型的性能得到第一性能值;
步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值;
步骤五、根据所述第一性能值和所述第二性能值判断所述第二评估模型是否比所述第一评估模型的性能提升,若是则将所述第二评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;
步骤六、对所述至少三种数据源中的、除所述准确率最高时对应的数据源和所述下一准确率对应的数据源以外的其他数据源重复所述步骤四和所述步骤五,直至累计加入完所述至少三种数据源至所述训练集,得到用于对不同数据源的原始数据进行因变量评估的最终评估模型。
进一步地,上述方法中,所述步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值,包括:
步骤四一、按照所述准确率从高到低的顺序,基于所述第一评估模型分别对所述下一准确率对应的数据源的每条原始数据进行因变量预测,得到所述下一准确率对应的数据源中的每条原始数据的预测结果;
步骤四二、计算所述下一准确率对应的数据源中的每条原始数据的实际因变量值与所述预测结果之间的差值的绝对值;
步骤四三、按照所述绝对值从小到大的顺序,对所述下一准确率对应的数据源的原始数据进行排序,并将所述下一准确率对应的数据源的、排序后的原始数据均分为N组,得到所述下一准确率对应的数据源的N组原始数据,N为大于等于2的正整数;
步骤四四、将所述N组原始数据中的、绝对值最大时对应的一组原始数据累计加入至所述训练集,并重复所述步骤三得到第二子评估模型及其第二子性能值;
步骤四五、根据所述第一性能值和所述第二子性能值判断所述第二子评估模型是否比所述第一评估模型的性能提升,若是则将所述第二子评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;
步骤四六、按照所述绝对值从小到大的顺序,将所述N组原始数据中的其他组原始数据累计加入至所述训练集,并重复所述步骤三和所述步骤四五,直至所述第二子评估模型的性能不再提升,得到第二评估模型及其第二性能值。
进一步地,上述方法中,所述方法还包括:
获取用于对各评估模型进行模型性能测试的验证集,其中,所述验证集中的原始数据来自于所述至少三种数据源中的各所述数据源;
其中,所述步骤三中的测试所述第一评估模型的性能得到第一性能值,包括:
基于所述验证集对所述第一评估模型进行模型性能测试,得到所述第一评估模型的第一性能值。
进一步地,上述方法中,所述方法还包括:
获取一条或多条待预测的数据;
将每条所述待预测的数据输入至所述最终评估模型进行因变量预测,得到每条所述待预测的数据的因变量值。
进一步地,上述方法中,所述方法还包括:
获取目标数据源,所述目标数据源包括至少两条目标原始数据,所述目标原始数据包括实际目标因变量值;
将所述目标数据源中的每条所述目标原始数据输入至所述最终评估模型进行因变量预测,得到每条所述目标原始数据的目标预测结果;
基于每条所述目标原始数据的实际目标因变量值和目标预测结果,对所述目标数据源中的目标原始数据进行过滤处理,得到过滤后的目标数据源。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于跨域数据的评估模型的优化方法。
根据本申请的另一方面,还提供了一种基于跨域数据的评估模型的优化设备,其中,所述设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于跨域数据的评估模型的优化方法。
与现有技术相比,本申请通过步骤一、获取并确定至少三种数据源的原始数据和准确率;其中,每种所述数据源的原始数据包括至少两条;步骤二、将所述准确率最高时对应的数据源的原始数据作为训练集;步骤三、对所述训练集中的所有原始数据进行模型训练,得到用于数据的因变量评估的第一评估模型,并测试所述第一评估模型的性能得到第一性能值;步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值;步骤五、根据所述第一性能值和所述第二性能值判断所述第二评估模型是否比所述第一评估模型的性能提升,若是则将所述第二评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;步骤六、对所述至少三种数据源中的、除所述准确率最高时对应的数据源和所述下一准确率对应的数据源以外的其他数据源重复所述步骤四和所述步骤五,直至累计加入完所述至少三种数据源至所述训练集,得到用于对不同数据源的原始数据进行因变量评估的最终评估模型,本申请将所有数据源的原始数据均累计放入模型训练中,不仅保证了模型训练过程中的训练集的多样性,还能使模型能最大化的满足实际应用场景的需求,进一步提高训练所得模型的精确度,从而可以最大程度避免错误的且来源于不同分布的数据源所带来的负面影响,以克服机器学习实践中常见的跨域数据的数据质量问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出现有技术中的跨域数据的评估模型的训练样本的选择示意图;
图2示出根据本申请一个方面的基于跨域数据的评估模型的优化方法的流程示意图;
图3示出根据本申请一个方面的基于跨域数据的评估模型的优化方法中的训练集的数据的累计加入示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在现有技术中,为了对跨域数据进行评估模型的训练,采用不同数据源中的准确率相对较高的几个数据源作为训练样本(训练集)进行模型的训练,如图1所示,导致模型训练过程中抽样评估的不同数据源的因变量不全面,还由于丢弃了一部分数据源,导致训练样本丧失了多样性,使得模型性能不能最大化。为了解决上述问题,如图2所示,根据本申请一个方面的实施例提供的基于跨域数据的评估模型的优化方法的流程示意图,该方法包括步骤一、步骤二、步骤三、步骤四、步骤五及步骤六,具体包括如下步骤:
步骤一、获取并确定至少三种数据源的原始数据和准确率;其中,每种所述数据源的原始数据包括至少两条;在实际训练模型的应用场景中,为了进一步提高训练所得模型的准确度更高,需要获取所有不同的数据源的原始数据,以确保数据的完整性和多样性。
步骤二、将所述准确率最高时对应的数据源的原始数据作为训练集。
步骤三、对所述训练集中的所有原始数据进行模型训练,得到用于数据的因变量评估的第一评估模型,并测试所述第一评估模型的性能得到第一性能值。
步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值。
步骤五、根据所述第一性能值和所述第二性能值判断所述第二评估模型是否比所述第一评估模型的性能提升,若是则将所述第二评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变。
步骤六、对所述至少三种数据源中的、除所述准确率最高时对应的数据源和所述下一准确率对应的数据源以外的其他数据源重复所述步骤四和所述步骤五,直至累计加入完所述至少三种数据源至所述训练集,得到用于对不同数据源的原始数据进行因变量评估的最终评估模型。
例如,在所述步骤一中,从不同的数据收集端获取不同的数据源,比如,数据源A、数据源B、数据源C、数据源D……,及每种数据源中的所有的原始数据,为了更好地体现不同数据源的数据,每种所述数据源中的原始数据的数量至少为两条,在获取了所有的数据源的原始数据后,根据每种数据源的原始数据,统计每种数据源的准确率,以得到获取的数据源A、数据源B、数据源C、数据源D……中的每种数据源的准确率,并按照所述准确率从高到低的顺序,对数据源A、数据源B、数据源C、数据源D……中的所有数据源进行排序,以得到排序后的数据源,如图3所示,比如,数据源A的准确率为95%,数据源B的准确率为85%,数据源C的准确率为80%,数据源D的准确率为78%,及后续较低准确率的数据源的准确率的值再此不再一一阐述,使得按照准确率从高到低排序后的数据源的顺序为:数据源A、数据源B、数据源C、数据源D……,以实现对不同数据源进行准确率排序。
在所述步骤二中,对将所述准确率最高时对应的数据源(即数据源A)的原始数据作为训练集,即所述训练集中的数据为所述数据源A中的所有原始数据,训练集:{数据源A}。
在所述步骤三中、对所述训练集:{数据源A}中的所有原始数据进行模型训练,得到用于数据的因变量评估的第一评估模型Model1,并测试所述第一评估模型Model1的性能得到第一性能值。
在所述步骤四中,按照所述准确率从高到低的顺序,将累计加入下一准确率对应的数据源:数据源B的原始数据至所述训练集,训练集为{数据源A+数据源B},并重复上述步骤三对训练集:{数据源A+数据源B}进行模型训练,得到用于数据的因变量评估的第二评估模型Model2及其第二性能值。
在所述步骤五中,根据所述第一性能值和所述第二性能值判断所述第二评估模型是否比所述第一评估模型的性能提升,比如,若所述性能值体现在准确率上,则就是准确率越高的模型,性能就越好,就是有所提升,若性能值体现在误差率上,则就是误差率越低的模型,性能就越好,也就性能有所提升,所述性能值可以体现在不同的性能特征上,在此不再一一举例说明。根据步骤三计算得到的第一性能值和步骤四计算得到的第二性能值,可以判断第二评估模型是否比第一评估模型的性能提升,若是,则将所述第二评估模型作为更新后的第一评估模型Model1’=Model2,若否,则保持所述第一评估模型不变。
在所述步骤六中,按照准确率从高到低排序后的数据源的顺序为:数据源A、数据源B、数据源C、数据源D……,再将数据源C的原始数据累计加入至所述训练集,训练集为{数据源A+数据源B+数据源C},并重复上述步骤三对训练集:{数据源A+数据源B+数据源C}进行模型训练,得到用于数据的因变量评估的第三评估模型Model3及其第三性能值,若在训练集{数据源A+数据源B}进行模型训练后确定的模型还是第一评估模型Model1,则根据第一性能值和第三性能值,判断第三评估模型Model3是否比第一评估模型Model1的性能提升,若是,则将第三评估模型Model3更新为第一评估模型,若否,则维持所述第一评估模型Model1不变;若在训练集{数据源A+数据源B}进行模型训练后确定的模型是更新后的第一评估模型Model1’=Model2,则根据第二性能值和第三性能值,判断第三评估模型model3是否比更新后的第一评估模型Model1’=Model2的性能提升,若是,则将第三评估模型Model3更新为第一评估模型Model1”=Model3,若否,则维持所述第一评估模型Model1不变。如图3所示,按照准确率从高到低排序后的数据源的顺序为:数据源A、数据源B、数据源C、数据源D……,将剩余的数据源:数据源D……,累计加入至训练集中并重复所述步骤四和所述步骤五,直至累计加入完数据源A、数据源B、数据源C、数据源D……至训练集,得到用于对不同数据源的原始数据进行因变量评估的最终评估模型Mt,实现了按照准确率从高到低的顺序,将所有的数据源依序加入至训练集进行模型训练,使得训练所得的用于对不同数据源的原始数据进行因变量评估的最终评估模型,不仅保证了模型训练过程中的训练集的多样性,还能使模型能最大化的满足实际应用场景的需求,进一步提高训练所得模型的精确度,从而可以最大程度避免错误的且来源于不同分布的数据源所带来的负面影响,以克服机器学习实践中常见的跨域数据的数据质量问题。
接着本申请的上述实施例,所述步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值,包括:
步骤四一、按照所述准确率从高到低的顺序,基于所述第一评估模型分别对所述下一准确率对应的数据源的每条原始数据进行因变量预测,得到所述下一准确率对应的数据源中的每条原始数据的预测结果;
步骤四二、计算所述下一准确率对应的数据源中的每条原始数据的实际因变量值与所述预测结果之间的差值的绝对值;
步骤四三、按照所述绝对值从小到大的顺序,对所述下一准确率对应的数据源的原始数据进行排序,并将所述下一准确率对应的数据源的、排序后的原始数据均分为N组,得到所述下一准确率对应的数据源的N组原始数据,N为大于等于2的正整数;
步骤四四、将所述N组原始数据中的、绝对值最大时对应的一组原始数据累计加入至所述训练集,并重复所述步骤三得到第二子评估模型及其第二子性能值;
步骤四五、根据所述第一性能值和所述第二子性能值判断所述第二子评估模型是否比所述第一评估模型的性能提升,若是则将所述第二子评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;
步骤四六、按照所述绝对值从小到大的顺序,将所述N组原始数据中的其他组原始数据累计加入至所述训练集,并重复所述步骤三和所述步骤四五,直至所述第二子评估模型的性能不再提升,得到第二评估模型及其第二性能值。
例如,在步骤三中,根据训练集{数据源A}进行模型训练得到第一评估模型Model1,然后在步骤四一中,按照所述准确率从高到低的顺序,基于步骤三中评估得到的第一评估模型Model1分别对数据源B中的每条原始数据进行因变量预测,得到数据源B中的每条原始数据的预测结果;在步骤四二中,计算数据源B中的每条原始数据的实际因变量值与所述预测结果之间的差值的绝对值,其中,差值的绝对值越小,代表因变量值与训练所得的模型对因变量的预测结果越接近;在步骤四三中,按照所述绝对值从小到大的顺序,对所述数据源B中的所有原始数据进行排序,并将数据源B中的排序后的原始数据均分为N组,得到数据源B中的N组原始数据,按照绝对值从小到大的顺序则N组原始数据依序为:B1、B2、B3、……、B(n-1)及Bn,N为大于等于2的正整数。
在步骤四四中,如图3所示,将数据源B中的排序最靠前的第一组原始数据B1累计加入至训练集,即训练集{数据源A+数据源B中的B1},并重复上述步骤三对训练集:{数据源A+数据源B中的B1}进行模型训练,得到用于数据的因变量评估的评估模型Mode(B1)及其性能值;在步骤四五中,根据第一性能值和评估模型Mode(B1)的性能值,判断评估模型Mode(B1)是否比第一评估模型Model1的性能有所提升,若是,则将评估模型Mode(B1)作为更新后的第一评估模型Model1B1’=Mode(B1),若否,则保持所述第一评估模型Model1不变。按照所述绝对值从小到大的顺序:数据源B中的B1、B2、B3、……、B(n-1)及Bn,将数据源B中的B2累计加入至训练集,此时训练集为{数据源A+数据源B中的B1和B2},对训练集{数据源A+数据源B中的B1和B2}重复上述步骤三对训练集:{数据源A+数据源B中的B1和B2}进行模型训练,得到用于数据的因变量评估的评估模型Model(B2)及其性能值,若在训练集{数据源A+数据源B中的B1}进行模型训练后确定的模型还是第一评估模型Model1,然后判断评估模型Model(B2)是否比第一评估模型Model1的性能提升,若是,则将评估模型Model(B2)更新为第一评估模型Model1B2’=Mode(B2),若否,则维持所述第一评估模型model1不变;若在训练集{数据源A+数据源B中的B1}进行模型训练后确定的模型为评估模型Model(B1),然后判断评估模型Model(B2)是否比评估模型Model(B1)的性能提升,若是,则将评估模型Model(B2)更新为第一评估模型Model1B2’=Mode(B2),若否,则维持所述评估模型Model(B1)不变。
在步骤四六中,按照所述绝对值从小到大的顺序:数据源B中的B1、B2、B3、……、B(n-1)及Bn,将数据源B中的n组原始数据中的其他组原始数据:B3、……、B(n-1)及Bn,按序累计加入至所述训练集,并重复所述步骤三和所述步骤四五,直至加入数据源B中的第m组原始数据时,所得的评估模型的性能不再提升,得到第二评估模型及Model2其第二性能值;若累计加入数据源B中的N组原始数据中的m组原始数据后,所得的评估模型的性能不再提升,则将训练集{数据源A+数据源B中的B1+B2+……+Bm}所得到的评估模型Model(Bm)确定为第二评估模型及其第二性能值,以实现将数据源B中累计加入训练集进行训练,以得到加入数据源A和数据源B之后以得到性能不再提升的第二评估模型Model2=Model(Bm)。
接着本申请的上述实施例,所述方法还包括:
获取用于对各评估模型进行模型性能测试的验证集,其中,所述验证集中的原始数据来自于所述至少三种数据源中的各所述数据源;
其中,所述步骤三中的测试所述第一评估模型的性能得到第一性能值,包括:
基于所述验证集对所述第一评估模型进行模型性能测试,得到所述第一评估模型的第一性能值。
例如,为了便于对多次训练的评估模型进行验证,以评判每个训练过程训练所得的评估模型的性能,则获取用于对各评估模型进行模型性能测试的验证集,为了便于对已训练得到的评估模型进行全方位且多样性性能评估,获取的验证集中的原始数据来自于数据源A、数据源B、数据源C、数据源D、……中的各个数据源中的原始数据,以便后续通过该验证集评判性能所得到性能值更具有可参考性。在实际评判性能的应用场景中,比如,在训练完数据源A得到第一评估模型Model1后,可以通过该验证集对第一评估模型Model1进行模型性能测试,以得到第一评估模型Model1的第一性能值,实现对数据源A进行训练后得到的第一评估模型Model1的性能的评估。当然,在本申请所有次累计加入其它数据源的原始数据至训练集进行模型训练后,均通过该验证集对训练所得的评估模型进行模型性能评估,使得通过该验证集可以得到具有可参考性的性能值,以便根据性能值来选取性能更好的评估模型进行后,续数据源及其原始数据加入至训练进行评估模型的继续训练,实现对不同阶段训练所得的评估模型的性能验证。
接着本申请的上述实施例,其中,所述方法还包括:
获取一条或多条待预测的数据;
将每条所述待预测的数据输入至所述最终评估模型进行因变量预测,得到每条所述待预测的数据的因变量值。
例如,在实际的应用场景中,若获取的很多待预测的数据并没有因变量标签,即没有因变量值,则可以将获取的一条或多条待预测的数据输入至最终评估模型Mt中进行因变量预测,得到每条所述待预测的数据的因变量值,实现对实际应用场景中的需要预测因变量标签的数据的因变量预测。
接着本申请的上述实施例,所述方法还包括:
获取目标数据源,所述目标数据源包括至少两条目标原始数据,所述目标原始数据包括实际目标因变量值;
将所述目标数据源中的每条所述目标原始数据输入至所述最终评估模型进行因变量预测,得到每条所述目标原始数据的目标预测结果;
基于每条所述目标原始数据的实际目标因变量值和目标预测结果,对所述目标数据源中的目标原始数据进行过滤处理,得到过滤后的目标数据源。
例如,在实际的应用场景中,在获取了目标数据源后,由于不知道目标数据源中的每条目标原始数据是否为真实的数据,则可以利用训练所得到最终评估模型Mt对目标数据源中的每条目标原始数据进行验证,其中,目标数据源中的目标原始数据包括至少两条,每条目标原始数据包括实际目标因变量值,为了对每条目标原始数据进行因变量值的评判,将每条目标原始数据输入至最终评估模型Mt中,以得到每条目标原始数据的目标预测结果;然后获取每条目标原始数据的实际目标因变量值,针对每条目标原始数据,比对目标原始数据的实际目标因变量值和目标预测结果,若一致,则认为该目标原始数据可视为真实数据,若不一致,则认为该条目标原始数据存在虚假,则可以直接将存在虚假的错误目标原始数据从目标数据源中挑出来过滤掉,以得到过滤后的目标数据源,通过对目标数据源中的所有条目标原始数据进行过滤处理的同时,也可以根据目标数据源中过滤掉的目标原始数据的数量和该目标数据源中本来的目标原始数据的总数量,计算得到该目标原始数据的准确率,不仅实现了对实际应用场景中的目标数据源的目标原始数据的正确与否的评判,还可以实现对目标数据源的准确率的计算。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于跨域数据的评估模型的优化方法。
根据本申请的另一方面,还提供了一种基于跨域数据的评估模型的优化设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于跨域数据的评估模型的优化方法。
在此,所述基于跨域数据的评估模型的优化设备中的各实施例的详细内容,具体可参见上述基于跨域数据的评估模型的优化方法的实施例的对应部分,在此,不再赘述。
综上所述,本申请通过步骤一、获取并确定至少三种数据源的原始数据和准确率;其中,每种所述数据源的原始数据包括至少两条;步骤二、将所述准确率最高时对应的数据源的原始数据作为训练集;步骤三、对所述训练集中的所有原始数据进行模型训练,得到用于数据的因变量评估的第一评估模型,并测试所述第一评估模型的性能得到第一性能值;步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值;步骤五、根据所述第一性能值和所述第二性能值判断所述第二评估模型是否比所述第一评估模型的性能提升,若是则将所述第二评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;步骤六、对所述至少三种数据源中的、除所述准确率最高时对应的数据源和所述下一准确率对应的数据源以外的其他数据源重复所述步骤四和所述步骤五,直至累计加入完所述至少三种数据源至所述训练集,得到用于对不同数据源的原始数据进行因变量评估的最终评估模型,本申请将所有数据源的原始数据均累计放入模型训练中,不仅保证了模型训练过程中的训练集的多样性,还能使模型能最大化的满足实际应用场景的需求,进一步提高训练所得模型的精确度,从而可以最大程度避免错误的且来源于不同分布的数据源所带来的负面影响,以克服机器学习实践中常见的跨域数据的数据质量问题。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (7)
1.一种基于跨域数据的评估模型的优化方法,应用于客户端,其中,所述方法包括:
步骤一、获取并确定至少三种数据源的原始数据和准确率;其中,每种所述数据源的原始数据包括至少两条;
步骤二、将所述准确率最高时对应的数据源的原始数据作为训练集;
步骤三、对所述训练集中的所有原始数据进行模型训练,得到用于数据的因变量评估的第一评估模型,并测试所述第一评估模型的性能得到第一性能值;
步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值;
步骤五、根据所述第一性能值和所述第二性能值判断所述第二评估模型是否比所述第一评估模型的性能提升,若是则将所述第二评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;
步骤六、对所述至少三种数据源中的、除所述准确率最高时对应的数据源和所述下一准确率对应的数据源以外的其他数据源重复所述步骤四和所述步骤五,直至累计加入完所述至少三种数据源至所述训练集,得到用于对不同数据源的原始数据进行因变量评估的最终评估模型。
2.根据权利要求1所述的方法,其中,所述步骤四、按照所述准确率从高到低的顺序,累计加入下一准确率对应的数据源的原始数据至所述训练集,并重复所述步骤三得到第二评估模型及其第二性能值,包括:
步骤四一、按照所述准确率从高到低的顺序,基于所述第一评估模型分别对所述下一准确率对应的数据源的每条原始数据进行因变量预测,得到所述下一准确率对应的数据源中的每条原始数据的预测结果;
步骤四二、计算所述下一准确率对应的数据源中的每条原始数据的实际因变量值与所述预测结果之间的差值的绝对值;
步骤四三、按照所述绝对值从小到大的顺序,对所述下一准确率对应的数据源的原始数据进行排序,并将所述下一准确率对应的数据源的、排序后的原始数据均分为N组,得到所述下一准确率对应的数据源的N组原始数据,N为大于等于2的正整数;
步骤四四、将所述N组原始数据中的、绝对值最大时对应的一组原始数据累计加入至所述训练集,并重复所述步骤三得到第二子评估模型及其第二子性能值;
步骤四五、根据所述第一性能值和所述第二子性能值判断所述第二子评估模型是否比所述第一评估模型的性能提升,若是则将所述第二子评估模型作为更新后的第一评估模型,若否,则保持所述第一评估模型不变;
步骤四六、按照所述绝对值从小到大的顺序,将所述N组原始数据中的其他组原始数据累计加入至所述训练集,并重复所述步骤三和所述步骤四五,直至所述第二子评估模型的性能不再提升,得到第二评估模型及其第二性能值。
3.根据权利要求1所述的方法,其中,所述方法还包括:
获取用于对各评估模型进行模型性能测试的验证集,其中,所述验证集中的原始数据来自于所述至少三种数据源中的各所述数据源;
其中,所述步骤三中的测试所述第一评估模型的性能得到第一性能值,包括:
基于所述验证集对所述第一评估模型进行模型性能测试,得到所述第一评估模型的第一性能值。
4.根据权利要求1至3中任一项所述的方法,其中,所述方法还包括:
获取一条或多条待预测的数据;
将每条所述待预测的数据输入至所述最终评估模型进行因变量预测,得到每条所述待预测的数据的因变量值。
5.根据权利要求1至3中任一项所述的方法,其中,所述方法还包括:
获取目标数据源,所述目标数据源包括至少两条目标原始数据,所述目标原始数据包括实际目标因变量值;
将所述目标数据源中的每条所述目标原始数据输入至所述最终评估模型进行因变量预测,得到每条所述目标原始数据的目标预测结果;
基于每条所述目标原始数据的实际目标因变量值和目标预测结果,对所述目标数据源中的目标原始数据进行过滤处理,得到过滤后的目标数据源。
6.一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如权利要求1至5中任一项所述的方法。
7.一种基于跨域数据的评估模型的优化设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110426307.8A CN113128594A (zh) | 2021-04-20 | 2021-04-20 | 基于跨域数据的评估模型的优化方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110426307.8A CN113128594A (zh) | 2021-04-20 | 2021-04-20 | 基于跨域数据的评估模型的优化方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128594A true CN113128594A (zh) | 2021-07-16 |
Family
ID=76778500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110426307.8A Pending CN113128594A (zh) | 2021-04-20 | 2021-04-20 | 基于跨域数据的评估模型的优化方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128594A (zh) |
-
2021
- 2021-04-20 CN CN202110426307.8A patent/CN113128594A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009225A (zh) | 风险评估系统构建方法、装置、计算机设备和存储介质 | |
CN112017056B (zh) | 一种智能双录方法及系统 | |
CN115545790B (zh) | 价格数据预测方法、装置、电子设备及存储介质 | |
CN111882140A (zh) | 风险评测方法、模型训练方法、装置、设备及存储介质 | |
CN111191889A (zh) | 一种基于逻辑回归与投票式模型集成的评分卡开发方法 | |
CN114519519A (zh) | 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质 | |
CN113554228A (zh) | 还款率预测模型的训练方法及还款率的预测方法 | |
CN110852443B (zh) | 特征稳定性检测方法、设备及计算机可读介质 | |
CN112527573B (zh) | 一种接口测试方法、装置及存储介质 | |
CN112926991B (zh) | 一种套现团伙严重等级划分方法及系统 | |
CN111798246A (zh) | 一种金融风险等级评估方法和装置 | |
CN113791980B (zh) | 测试用例的转化分析方法、装置、设备及存储介质 | |
CN113128594A (zh) | 基于跨域数据的评估模型的优化方法及设备 | |
US20240152818A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN112561713A (zh) | 一种保险行业理赔反欺诈识别方法及装置 | |
KR102159574B1 (ko) | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 결과의 정확도 추정 및 관리 방법 | |
CN113792961A (zh) | 基于审计大数据的任中经济责任审计决策方法及设备 | |
CN110458707B (zh) | 基于分类模型的行为评估方法、装置及终端设备 | |
CN107369093A (zh) | 一种业务确定方法和装置 | |
CN112434471A (zh) | 提升模型泛化能力的方法、系统、电子设备及存储介质 | |
CN112150276A (zh) | 一种机器学习模型的训练方法、使用方法、装置和设备 | |
CN112823502A (zh) | 针对资源访问规则配置的实时反馈服务 | |
CN112380125B (zh) | 测试案例的推荐方法、装置、电子设备及可读存储介质 | |
Santoro et al. | Process Mining Techniques in Internal Auditing: A Stepwise Case Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210716 |