CN112598326A - 模型迭代方法、装置、电子设备及存储介质 - Google Patents

模型迭代方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112598326A
CN112598326A CN202011636870.XA CN202011636870A CN112598326A CN 112598326 A CN112598326 A CN 112598326A CN 202011636870 A CN202011636870 A CN 202011636870A CN 112598326 A CN112598326 A CN 112598326A
Authority
CN
China
Prior art keywords
model
target
data
service data
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011636870.XA
Other languages
English (en)
Inventor
庄伟�
史忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN202011636870.XA priority Critical patent/CN112598326A/zh
Publication of CN112598326A publication Critical patent/CN112598326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种模型迭代方法、装置、电子设备及存储介质,可以随机将利用预设策略模型筛选后的线上业务数据划分到训练集和测试集中;而后,利用训练集中的业务数据训练目标模型;利用测试集中的业务数据对目标模型进行效果评估;最后,在目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为目标模型,以完成模型的迭代。本发明的技术方案相比于当前人工收集并分析业务数据而言,基于预先训练好的策略模型自动筛选样本业务数据,能够加快模型迭代的效率,缩短模型迭代的周期。

Description

模型迭代方法、装置、电子设备及存储介质
技术领域
本发明涉及软件开发技术领域,尤其涉及一种模型迭代方法、装置、电子设备及存储介质。
背景技术
风险控制系统中包含多种实时风险控制模型用以审核业务数据等,由于风险控制模型均使用已有业务数据(历史数据)进行数据工程、特征挖掘和模型拟合等,从而导致风险控制模型对线上真实业务数据的测量有一定的偏差,也有一定的滞后性。为了保证线上风险控制模型能及时拟合线上真实业务数据,通常需要定期地对线上的风险控制模型进行迭代更换。并且迭代后的风险控制模型效果对比当前的风险控制模型效果应该有明显地提升。
目前,通常是基于人工分析已有的业务数据,而后利用分析后的业务数据训练成新的风险控制模型,再将新的风险控制模型替换线上正在使用的风险控制模型,以完成模型的迭代。然而,已有的业务数据量通常较大,人工分析的已有业务数据的时间会比较长,导致人工分析的效率较低,进而导致风险控制模型的迭代周期变长。
发明内容
本发明提供了一种模型迭代方法、装置、电子设备及存储介质,以解决目前风控模型的迭代周期长的问题。
第一方面,本发明提供了一种模型迭代方法,包括:
随机将样本数据库中的目标业务数据划分到训练集和测试集中;所述目标业务数据为利用预设策略模型筛选后的线上业务数据;
利用训练集中的目标业务数据训练目标模型;
利用测试集中的目标业务数据对所述目标模型进行效果评估;
在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型。
结合第一方面,在第一方面的一种可实施方式中,所述随机将样本数据库中的业务数据划分到训练集和测试集中的步骤之前,包括:
获取业务线上前一天全部的业务数据;
选取预设策略模型对业务数据进行打分;
对分值处于预设范围的目标业务数据进行审核并根据审核结果进行标记;
将标记后的目标业务数据存入样本数据库中。
结合第一方面,在第一方面的一种可实施方式中,所述随机将样本数据库中的目标业务数据划分到训练集和测试集中的步骤,包括:
从样本数据库中获取到目标类别的目标业务数据;
将所述目标业务数据随机划分到所述目标类别下的训练集和测试集中。
结合第一方面,在第一方面的一种可实施方式中,所述利用测试集中的目标业务数据以及历史评估数据对所述目标模型进行效果评估的步骤,包括:
将测试集中的目标业务数据作为输入数据输入到所述目标模型中;
评估所述目标模型输出的对于所述输入数据的判断结果与所述输入数据的标记内容是否一致;
统计全部输入数据中判断结果与标记内容一致的目标输入数据;
计算所述目标输入数据的出现概率,并将其作为所述目标模型的评估效果;所述出现概率也用于表示目标模型对于输入数据判断的正确率。
结合第一方面,在第一方面的一种可实施方式中,所述在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型的步骤,包括:
获取当前模型在线上使用过程中对于线上数据判断的正确率;
在所述目标模型的正确率大于所述当前模型的正确率的情况下,确认所述目标模型的评估效果达到评估指标;
将所述当前模型替换为所述目标模型。
第二方面,本发明提供了一种模型迭代装置,包括:
数据划分模块,用于随机将样本数据库中的目标业务数据划分到训练集和测试集中;所述目标业务数据为利用预设策略模型筛选后的线上业务数据;
模型训练模块,用于利用训练集中的目标业务数据训练目标模型;
模型测试模块,用于利用测试集中的目标业务数据对所述目标模型进行效果评估;
模型迭代模块,用于在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型。
结合第二方面,在第二方面的一种可实施方式中,所述装置还包括:数据获取模块,用于获取业务线上前一天全部的业务数据;数据打分模块,用于选取预设策略模型对业务数据进行打分;数据标记模块,用于对分值处于预设范围的目标业务数据进行审核并根据审核结果进行标记;数据保存模块,用于将标记后的目标业务数据存入样本数据库中。
结合第二方面,在第二方面的一种可实施方式中,所述数据划分模块,包括:数据获取单元,用于从样本数据库中获取到目标类别的目标业务数据;数据划分单元,用于所述目标业务数据随机划分到所述目标类别下的训练集和测试集中。
结合第二方面,在第二方面的一种可实施方式中,所述模型测试模块,包括:输入单元,用于将测试集中的目标业务数据作为输入数据输入到所述目标模型中;评估单元,用于评估所述目标模型输出的对于所述输入数据的判断结果与所述输入数据的标记内容是否一致;统计单元,用于统计全部输入数据中判断结果与标记内容一致的目标输入数据;计算单元,用于计算所述目标输入数据的出现概率,并将其作为所述目标模型的评估效果;所述出现概率也用于表示目标模型对于输入数据判断的正确率。
结合第二方面,在第二方面的一种可实施方式中,所述模型迭代模块,还用于:获取当前模型在线上使用过程中对于线上数据判断的正确率;在所述目标模型的正确率大于所述当前模型的正确率的情况下,确认所述目标模型的评估效果达到评估指标;将所述当前模型替换为所述目标模型。
第三方面,本发明提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的模型迭代方法。
第四方面,本发明提供还提供了一种存储介质,所述存储介质中存储有计算机程序,当模型迭代装置的至少一个处理器执行所述计算机程序时,模型迭代装置执行第一方面所述的模型迭代方法。
由以上技术方案可知,本发明提供的模型迭代方法、装置、电子设备及存储介质,可以随机将利用预设策略模型筛选后的线上业务数据划分到训练集和测试集中;而后,利用训练集中的业务数据训练目标模型;利用测试集中的业务数据对目标模型进行效果评估;最后,在目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为目标模型,以完成模型的迭代。本发明的技术方案相比于当前人工收集并分析业务数据而言,基于预先训练好的策略模型自动筛选样本数据,能够加快模型迭代的效率,缩短模型迭代的周期。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例示出的一种模型迭代方法的流程图;
图2为本发明实施例示出的业务数据筛选的方法流程图;
图3为本发明实施例示出的目标模型效果评估的方法流程图;
图4为本发明实施例示出的模型迭代过程的方法流程图;
图5为本发明实施例示出的一种模型迭代装置的结构框图;
图6为本发明实施例示出的电子设备硬件结构示意图。
具体实施方式
为使本发明的目的和实施方式更加清楚,下面将结合本发明示例性实施例中的附图,对本发明示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本发明一部分实施例,而不是全部的实施例。
需要说明的是,本发明中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本发明的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
风险控制系统中包含多种实时风险控制模型用以审核业务数据等,由于风险控制模型均使用已有业务数据(历史数据)进行数据工程、特征挖掘和模型拟合等,从而导致风险控制模型对线上真实业务数据的测量有一定的偏差,也有一定的滞后性。为了保证线上风险控制模型能及时拟合线上真实业务数据,通常需要定期地对线上的风险控制模型进行迭代更换。并且迭代后的风险控制模型效果对比当前的风险控制模型效果应该有明显地提升。
目前,通常是基于人工分析已有的业务数据,而后利用分析后的业务数据训练成新的风险控制模型,再将新的风险控制模型替换线上正在使用的风险控制模型,以完成模型的迭代。然而,已有的业务数据量通常较大,人工分析的已有业务数据的时间会比较长,导致人工分析的效率较低,进而导致风险控制模型的迭代周期变长。
基于上述内容,本发明实施例提供了一种模型迭代方法、装置、电子设备及存储介质,相比于当前人工收集并分析业务数据而言,基于预先训练好的策略模型自动筛选样本数据,能够加快模型迭代的效率,缩短模型迭代的周期。
图1为本发明实施例示出的一种模型迭代方法的流程图。如图1所示,本发明实施例提供的模型迭代方法包括:
步骤S101,随机将样本数据库中的目标业务数据划分到训练集和测试集中。
其中,目标业务数据为利用预设策略模型筛选后的线上业务数据。线上业务数据通常是用户使用各种业务时,产生的真实数据。
为了使训练出的目标模型与线上真实的业务数据尽可能地拟合,进而对线上数据做出比较准确地审核结果,本发明实施例中在训练目标模型之前,需要先利用一定的手段对线上业务数据进行筛选,从而筛选出符合训练内容的业务数据。
筛选业务数据可以利用预先训练好的策略模型等,筛选的过程可以看作是判断业务数据是否能命中策略模型中的策略等根据命中的情况对业务数据进行标记,例如,对于能命中的业务数据分别进行低风险标记,而对于未能命中的业务数据分别进行高风险标记等,或者对业务数据进行打分,将分值在一定范围的业务数据标记低风险或者高风险等。而后,将筛选后的业务数据保存到样本数据库中。
为了保证目标模型能够基于不同标记的业务数据进行训练,进而使得训练的结果能够更加准确,本发明实施例中,需要随机地将样本数据库中的目标业务数据划分为训练数据或者测试数据,例如,样本数据库中存在1000个目标业务数据,那么可以随机将其中600个目标业务数据划分到训练集中作为训练数据,而将剩下的400个目标业务数据划分到测试集中作为测试数据。
步骤S102,利用训练集中的目标业务数据训练目标模型。
利用训练集中的数据训练出的目标模型,可以判断出一个新的业务数据是高风险业务数据还是低风险业务数据。可以的操作方式通常是,将新的业务数据作为输入数据输入到目标模型中,而后目标模型将输出对于该业务数据的审核结果。
步骤S103,利用测试集中的目标业务数据对目标模型进行效果评估。
本发明实施例中测试目标模型的阶段,需利用测试集中的业务数据对目标模型进行测试,如果测试效果(即评估效果)好,则说明目标模型既可以拟合当前的线上业务数据也可以拟合历史业务数据,使用的范围更广。
步骤S104,在目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为目标模型。
在本发明实施例中,目标模型的评估效果到达评估指标可以理解为目标模型的评估效果要比线上使用的当前模型的使用效果更好。只有在评估效果更好的情况下,才会对当前模型进行迭代更新,否则,仍使用当前模型进行对线上业务数据进行审核。
由以上内容可知,本发明实施例提供的模型迭代方法,相比于当前人工收集并分析业务数据而言,基于预先训练好的策略模型自动筛选样本数据,能够加快模型迭代的效率,缩短模型迭代的周期。同时,基于策略模型进行业务数据筛选,筛选出的业务数据比人工手动标记的更加准确,进而训练出的目标模型也能具有更好的评估效果。
图2为本发明实施例示出的业务数据筛选的方法流程图。
如前述实施例所述,预设的策略模型可以对业务数据进行打分,进而对业务数据进行标记。基于此,如图2所示,在一些实施例中,在随机将样本数据库中的业务数据划分到训练集和测试集中的之前,还可以包括:
步骤S201,获取业务线上前一天全部的业务数据。
为了保证线上业务数据的时效性,在本发明实施例中,通常只获取业务线上前一天的全部业务数据,以免业务数据时间较长影响其训练目标模型的效果。
步骤S202,选取预设策略模型对业务数据进行打分。
通常业务平台上会同时存在若干种业务,进而会有若干种业务线运行,每一种业务线上都有其各自的业务数据,并且由于业务的种类不同,对其进行审核的标准以及策略均存在一定的差别。进而,在筛选业务数据之前,需要针对于不同的业务线训练不同的策略模型,例如,针对于业务线A,需要提取业务线A中的业务数据并且基于业务线A的特点或者功能等训练出策略模型A。
在本发明实施例中,还需要根据业务数据的类型,即业务线的类型等选择相应的预设策略模型进行打分,进而根据分值确定出业务数据是否正常。
但是,在一些情况下,策略模型也不能够完全准确地确定出目标业务数据是否是正常数据,例如,策略模型A中打分的策略为:在目标业务数据的分值大于0.6并且小于1时,将所述目标业务数据标记为正常数据或者低风险数据;在目标业务数据的分值小于0.4并且大于0时,将所述目标业务数据标记为不正常数据或者高风险数据;而当目标业务数据的分值接近0.5时,即处于0.4~0.5或者0.5~0.6之间时,其属于正常数据和不正常数据的概率非常接近,很容易出现误判的情况。针对于这种情况,本发明实施例中可以引入准确度更高的审核方式将例如上述处于0.4~0.5或者0.5~0.6之间的业务数据进行进一步的判断,具体参见以下步骤的内容。
步骤S203,对分值处于预设范围的目标业务数据进行审核并根据审核结果进行标记。
例如,业务数据的分值处于0.4~0.5或者0.5~0.6之间时,可以由技术人员查看业务数据的具体内容,进而判断出业务数据的内容是否违规,或者是否属于不能发布在业务平台的内容。如果业务数据违规,则需要将其标记为不正常数据或者高风险数据,而业务数据未违规,则需要将其标记为正常数据或者低风险数据。
另外,本发明实施例中采用人工审核的方式只是一种示例,在具有可以替代人工审核的更高级审核模型或者语义模型等情况下,也可以使用这类模型对业务数据进行进一步地审核。
步骤S204,将标记后的目标业务数据存入样本数据库中。标记后的目标业务数据即具有明确的标记,均可以作为训练数据或者测试数据使用。
值得说明的是,前述实施例中提到,在筛选业务数据之前,需要针对于不同的业务线训练不同的策略模型。那么在一些实施例中,在对线上模型进行迭代时,线上模型也具有对应的业务线,即目标业务线,此时目标业务线的类别即为目标类别,需要获取到目标类别的目标业务数据进行筛选并存入样本数据库。而后,再随机将目标类别的目标业务数据划分为训练数据和测试数据。进而最后训练出的目标模型与线上模型才会属于同于类别,才能进行迭代。
在从业务线获取业务数据时,也需要遵循一些规则,例如,样本获取数量规则、样本获取多样性规则、样本区分复杂程度规则、任务类型区分获取规则等,进而保证获取到的业务数据具有多样性和全面性等。
另外,本发明实施例中,将目标业务数据划分到训练集和测试集的操作可以看作是对数据的数据集划分管理,判断目标业务数据是否正常的操作可以看作是对数据的可信度管理。并且,除了本发明实施例所涉及的数据集划分管理和数据可信度管理以外,也可以从其他不同的方面管理样本数据库中的目标业务数据,例如,数据时间管理、数据来源管理、数据格式管理等。这样,可以保证目标业务数据的有效性、高效性以及复用性。
图3为本发明实施例示出的目标模型效果评估的方法流程图。
在前述实施例中,训练好的目标模型即具有判断业务数据是否为正常数据的功能,进而在一些实施例中,对目标模型效果评估的方法,可以包括:
步骤S301,将测试集中的目标业务数据作为输入数据输入到目标模型中。
其中,如前述实施例所述,目标业务数据具有其各自的标记。并且,标记的内容可以准确地体现出数据的属性,例如数据是否为正常数据等等。
如图3所示的全部过程也可以看作是对目标模型进行测试的步骤。将输入数据输入到目标模型中,目标模型输出的判断结果即为测试结果。
步骤S302,评估目标模型输出的对于输入数据的判断结果与输入数据的标记内容是否一致。
如果输入数据的判断结果与其标记内容是一致的,说明目标模型对于输入数据的判断结果是正确的,而如果输入数据的判断结果与其标记内容不一致,则说明目标模型对于输入数据的判断结果是错误的。
步骤S303,统计全部输入数据中判断结果与标记内容一致的目标输入数据。
即,统计出全部输入数据中,目标模型判断正确的目标输入数据的数量,进而确定目标模型的正确率。
步骤S304,计算目标输入数据的出现概率,并将其作为所述目标模型的评估效果。其中,出现概率也用于表示目标模型对于输入数据判断的正确率。并且,出现概率(正确率)=(M/X)*100%,其中,M表示判断结果与标记内容一致的目标输入数据的数量,X表示全部输入数据的数量。
图4为本发明实施例示出的模型迭代过程的方法流程图。
如前述实施例所述,只有在目标模型的评估效果要比线上使用的当前模型的使用效果更好的情况下,才会将线上模型替换下来,进而在一些实施例中,在目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为目标模型的步骤,还可以包括:
步骤S401,获取当前模型在线上使用过程中的使用效果。其中,当前模型的使用效果即为当前模型对于线上数据判断的正确率。
步骤S402,在目标模型的正确率大于当前模型的正确率的情况下,确认目标模型的评估效果达到评估指标。即目标模型的评估效果要比线上使用的当前模型的使用效果更好。
步骤S403,将当前模型替换为目标模型,进而完成模型的迭代过程。
本发明实施例中,也可以根据线上当前模型的使用情况,设置一个针对于模型正确率的阈值作为评估指标,在目标模型的正确率大于这个阈值时,认为这个目标模型的评估效果达到了评估指标,则可以将当前模型替换为目标模型;而在目标模型的正确率小于或者等于这个阈值时,认为这个目标模型的评估效果没有达到评估指标,则不进行迭代。
由以上内容可知,本发明实施例提供的模型迭代方法,可以随机将利用预设策略模型筛选后的线上业务数据划分到训练集和测试集中;而后,利用训练集中的业务数据训练目标模型;利用测试集中的业务数据对目标模型进行效果评估;最后,在目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为目标模型,以完成模型的迭代。相比于当前人工收集并分析业务数据而言,本发明实施例中基于预先训练好的策略模型自动筛选样本数据,能够加快模型迭代的效率,缩短模型迭代的周期。
图5为本发明实施例示出的一种模型迭代装置的结构框图。如图5所示,本发明实施例中的模型迭代装置,可以包括:数据划分模块501,用于随机将样本数据库中的目标业务数据划分到训练集和测试集中;所述目标业务数据为利用预设策略模型筛选后的线上业务数据;模型训练模块502,用于利用训练集中的目标业务数据训练目标模型;模型测试模块503,用于利用测试集中的目标业务数据对所述目标模型进行效果评估;模型迭代模块504,用于在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型。
在一些实施例中,所述装置还包括:数据获取模块,用于获取业务线上前一天全部的业务数据;数据打分模块,用于选取预设策略模型对业务数据进行打分;数据标记模块,用于对分值处于预设范围的目标业务数据进行审核并根据审核结果进行标记;数据保存模块,用于将标记后的目标业务数据存入样本数据库中。
在一些实施例中,所述数据划分模块,包括:数据获取单元,用于从样本数据库中获取到目标类别的目标业务数据;数据划分单元,用于所述目标业务数据随机划分到所述目标类别下的训练集和测试集中。
在一些实施例中,所述模型测试模块,包括:输入单元,用于将测试集中的目标业务数据作为输入数据输入到所述目标模型中;评估单元,用于评估所述目标模型输出的对于所述输入数据的判断结果与所述输入数据的标记内容是否一致;统计单元,用于统计全部输入数据中判断结果与标记内容一致的目标输入数据;计算单元,用于计算所述目标输入数据的出现概率,并将其作为所述目标模型的评估效果;所述出现概率也用于表示目标模型对于输入数据判断的正确率。
在一些实施例中,所述模型迭代模块,还用于:获取当前模型在线上使用过程中的使用效果;所述使用效果用于表示所述当前模型对于线上数据判断的正确率;在所述目标模型的正确率大于所述当前模型的正确率的情况下,确认所述目标模型的评估效果达到评估指标;将所述当前模型替换为所述目标模型。
图6为本发明实施例示出的电子设备硬件结构示意图。如图6所示,本发明实施例还提供了一种电子设备,包括:存储器61,用于存储程序指令;处理器62,用于调用并执行所述存储器中的程序指令,以实现上述实施例中所述的模型迭代方法。具体可以参见前述实施例中的相关描述。
本发明实施例中,处理器62和存储器61可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当模型迭代装置的至少一个处理器执行所述计算机程序时,模型迭代装置执行上述实施例中所述的模型迭代方法。
所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (12)

1.一种模型迭代方法,其特征在于,包括:
随机将样本数据库中的目标业务数据划分到训练集和测试集中;所述目标业务数据为利用预设策略模型筛选后的线上业务数据;
利用训练集中的目标业务数据训练目标模型;
利用测试集中的目标业务数据对所述目标模型进行效果评估;
在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型。
2.根据权利要求1所述的方法,其特征在于,所述随机将样本数据库中的业务数据划分到训练集和测试集中的步骤之前,包括:
获取业务线上前一天全部的业务数据;
选取预设策略模型对业务数据进行打分;
对分值处于预设范围的目标业务数据进行审核并根据审核结果进行标记;
将标记后的目标业务数据存入样本数据库中。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述随机将样本数据库中的目标业务数据划分到训练集和测试集中的步骤,包括:
从样本数据库中获取到目标类别的目标业务数据;
将所述目标业务数据随机划分到所述目标类别下的训练集和测试集中。
4.根据权利要求1所述的方法,其特征在于,所述利用测试集中的目标业务数据以及历史评估数据对所述目标模型进行效果评估的步骤,包括:
将测试集中的目标业务数据作为输入数据输入到所述目标模型中;
评估所述目标模型输出的对于所述输入数据的判断结果与所述输入数据的标记内容是否一致;
统计全部输入数据中判断结果与标记内容一致的目标输入数据;
计算所述目标输入数据的出现概率,并将其作为所述目标模型的评估效果;所述出现概率也用于表示目标模型对于输入数据判断的正确率。
5.根据权利要求4所述的方法,其特征在于,所述在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型的步骤,包括:
获取当前模型在线上使用过程中对于线上数据判断的正确率;
在所述目标模型的正确率大于所述当前模型的正确率的情况下,确认所述目标模型的评估效果达到评估指标;
将所述当前模型替换为所述目标模型。
6.一种模型迭代装置,其特征在于,包括:
数据划分模块,用于随机将样本数据库中的目标业务数据划分到训练集和测试集中;所述目标业务数据为利用预设策略模型筛选后的线上业务数据;
模型训练模块,用于利用训练集中的目标业务数据训练目标模型;
模型测试模块,用于利用测试集中的目标业务数据对所述目标模型进行效果评估;
模型迭代模块,用于在所述目标模型的评估效果达到评估指标的情况下,将线上使用的当前模型替换为所述目标模型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
数据获取模块,用于获取业务线上前一天全部的业务数据;
数据打分模块,用于选取预设策略模型对业务数据进行打分;
数据标记模块,用于对分值处于预设范围的目标业务数据进行审核并根据审核结果进行标记;
数据保存模块,用于将标记后的目标业务数据存入样本数据库中。
8.根据权利要求6-7任一项所述的装置,其特征在于,所述数据划分模块,包括:
数据获取单元,用于从样本数据库中获取到目标类别的目标业务数据;
数据划分单元,用于所述目标业务数据随机划分到所述目标类别下的训练集和测试集中。
9.根据权利要求6所述的装置,其特征在于,所述模型测试模块,包括:
输入单元,用于将测试集中的目标业务数据作为输入数据输入到所述目标模型中;
评估单元,用于评估所述目标模型输出的对于所述输入数据的判断结果与所述输入数据的标记内容是否一致;
统计单元,用于统计全部输入数据中判断结果与标记内容一致的目标输入数据;
计算单元,用于计算所述目标输入数据的出现概率,并将其作为所述目标模型的评估效果;所述出现概率也用于表示目标模型对于输入数据判断的正确率。
10.根据权利要求9所述的装置,其特征在于,所述模型迭代模块,还用于:获取当前模型在线上使用过程中对于线上数据判断的正确率;在所述目标模型的正确率大于所述当前模型的正确率的情况下,确认所述目标模型的评估效果达到评估指标;将所述当前模型替换为所述目标模型。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现权利要求1-5任一项所述的模型迭代方法。
12.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,当模型迭代装置的至少一个处理器执行所述计算机程序时,模型迭代装置执行权利要求1-5任一项所述的模型迭代方法。
CN202011636870.XA 2020-12-31 2020-12-31 模型迭代方法、装置、电子设备及存储介质 Pending CN112598326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011636870.XA CN112598326A (zh) 2020-12-31 2020-12-31 模型迭代方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011636870.XA CN112598326A (zh) 2020-12-31 2020-12-31 模型迭代方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112598326A true CN112598326A (zh) 2021-04-02

Family

ID=75206628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011636870.XA Pending CN112598326A (zh) 2020-12-31 2020-12-31 模型迭代方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112598326A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704117A (zh) * 2021-08-31 2021-11-26 北京三快在线科技有限公司 一种算法测试系统、方法及装置
WO2023093015A1 (zh) * 2021-11-23 2023-06-01 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109934352A (zh) * 2019-03-06 2019-06-25 北京深度奇点科技有限公司 智能模型的自动进化方法
CN111008706A (zh) * 2019-12-09 2020-04-14 长春嘉诚信息技术股份有限公司 一种自动标注、训练、预测海量数据的处理方法
WO2020077672A1 (zh) * 2018-10-17 2020-04-23 网宿科技股份有限公司 一种服务质量评估模型的训练方法及装置
CN111882140A (zh) * 2019-12-17 2020-11-03 马上消费金融股份有限公司 风险评测方法、模型训练方法、装置、设备及存储介质
CN111914936A (zh) * 2020-08-05 2020-11-10 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
WO2020077672A1 (zh) * 2018-10-17 2020-04-23 网宿科技股份有限公司 一种服务质量评估模型的训练方法及装置
CN109934352A (zh) * 2019-03-06 2019-06-25 北京深度奇点科技有限公司 智能模型的自动进化方法
CN111008706A (zh) * 2019-12-09 2020-04-14 长春嘉诚信息技术股份有限公司 一种自动标注、训练、预测海量数据的处理方法
CN111882140A (zh) * 2019-12-17 2020-11-03 马上消费金融股份有限公司 风险评测方法、模型训练方法、装置、设备及存储介质
CN111914936A (zh) * 2020-08-05 2020-11-10 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐炜: "《大数据与企业财务危机预警》", 31 August 2019 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704117A (zh) * 2021-08-31 2021-11-26 北京三快在线科技有限公司 一种算法测试系统、方法及装置
WO2023093015A1 (zh) * 2021-11-23 2023-06-01 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN105580032B (zh) 用于降低升级软件时的不稳定性的方法和系统
CN113434485A (zh) 一种基于多维分析技术的数据质量健康度分析方法及系统
CN112199293A (zh) 软件质量评价方法、装置、终端设备及存储介质
CN112598326A (zh) 模型迭代方法、装置、电子设备及存储介质
CN110764999A (zh) 自动化测试方法、装置、计算机装置及存储介质
CN111275338A (zh) 一种企业欺诈行为的判定方法、装置、设备及存储介质
CN112801315A (zh) 电力二次设备的状态诊断方法、装置及终端
CN115952081A (zh) 一种软件测试方法、装置、存储介质及设备
CN113806343B (zh) 一种车联网数据质量的评估方法和系统
Herraiz et al. Impact of installation counts on perceived quality: A case study on debian
CN113269378A (zh) 一种网络流量处理方法、装置、电子设备和可读存储介质
CN111209180B (zh) 一种基于模糊匹配的回归测试方法和装置
CN116627804A (zh) 基于人工智能的测试方法、系统、电子设备及存储介质
CN114595216A (zh) 数据校验方法、装置、存储介质及电子设备
CN115576831A (zh) 一种测试案例推荐方法、装置、设备及存储介质
CN115660451A (zh) 基于rpa的供应商风险预警方法、装置、设备及介质
CN111385342B (zh) 一种物联网行业识别方法、装置、电子设备及存储介质
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN110096430B (zh) 第三方sdk准入测试方法、装置、终端及存储介质
CN115511428A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN115982153A (zh) 指标库生成方法、模型建立方法、装置、设备及存储介质
CN117609039A (zh) 策略评估方法、装置、终端设备以及存储介质
CN117333303A (zh) 外汇业务风险等级的评定及评定引擎的创建方法和系统
CN116861236A (zh) 违规用户识别方法、装置、设备、存储介质以及产品
CN116187846A (zh) 数据处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210402

RJ01 Rejection of invention patent application after publication