CN110751227A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110751227A
CN110751227A CN201911030979.6A CN201911030979A CN110751227A CN 110751227 A CN110751227 A CN 110751227A CN 201911030979 A CN201911030979 A CN 201911030979A CN 110751227 A CN110751227 A CN 110751227A
Authority
CN
China
Prior art keywords
model
data
processing
candidate
historical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911030979.6A
Other languages
English (en)
Inventor
郑健
沈丽忠
谢立东
李婉华
陈铭新
李晓敦
赵世辉
唐景峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911030979.6A priority Critical patent/CN110751227A/zh
Publication of CN110751227A publication Critical patent/CN110751227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及存储介质。该方法包括:将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;第一历史数据为从第一历史时刻至当前时刻接收到的数据;从至少一个更新模型中选取候选模型,将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,采用新的目标模型对新的数据进行处理。本发明实施例通过在线测试各模型处理当前数据的性能,从而准确高效地确定最优模型作为目标模型,实现模型的快速平滑更新。

Description

数据处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
机器学习是通过对已知数据进行分析,获得数据模型,利用该模型对未知数据进行预测的过程。基于不同的具体算法和逻辑准则可以训练得到不同的机器学习模型。
随着在线类业务的发展,数据规模不断增大,数据变化速率越来越快,开发训练过程中使用的训练数据与应用该机器学习模型时的预测数据存在差异,利用传统的机器学习算法得到的模型不能很好地适应新增的数据的变化规律,使得利用该模型对未知数据的预测的准确率降低。因此,往往需要不断对机器学习模型进行更新,使用新模型替代历史模型。
然而机器学习的算法丰富多样,不同的算法在不同的数据场景下各有优势。在一定训练数据的支持下,得到的更新模型之间的准确率可能相差无几,在没有更多数据的支持下,无法判断哪个模型更能适应未知的数据变化,如果逐一测试各模型的性能,则效率低下。
发明内容
本发明实施例提供一种数据处理方法、装置、设备及存储介质,以实现平滑快速地对模型进行更新,从而更加准确高效地对数据进行处理。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
第二方面,本发明实施例提供了一种数据处理装置,该装置包括:
更新模型确定模块,用于将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
候选模型选取模块,用于从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
新的目标模型确定模块,用于根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法。
本发明实施例中,通过将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型,第一历史数据为从第一历史时刻至当前时刻接收到的数据,从而实现根据新增数据确定至少一个更新模型,以实现模型的优化,提高对数据处理的准确性;通过从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理,根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理,从而通过处理当前的数据,在线对模型的性能进行测试,测试结果更具准确性和可靠性,从而使根据测试结果确定的目标模型更能适用于对当前数据的处理,从而提高数据处理的准确性。
附图说明
图1为本发明一种实施例提供的一种数据处理方法的流程图;
图2为本发明又一实施例提供的一种数据处理方法的流程图;
图3为本发明一种实施例提供的一种数据处理装置结构示意图;
图4为本发明一种实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明一种实施例提供的一种数据处理方法的流程图。本实施例提供的数据处理方法可适用于对数据进行处理的情况,典型的,本发明实施例可以适用于在数据不断增加时,根据新增的数据确定更新模型,以更新模型对正在使用的模型进行更新的情况。该方法具体可以由数据处理装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在设备中。参见图1,本发明实施例的方法具体包括:
S110、将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据。
其中,数据可以为用户输入的数据,也可以为检测到用户的触发操作时,获取的用户数据。示例性的,用户在银行办理业务时,会输入用户数据以及业务相关数据,将用户输入的用户数据以及业务相关数据进行保存。也可以是,在检测到用户办理业务时,根据用户的触发操作查询数据库中与该用户对应的数据。
具体的,可以设置更新模型生成的触发点,若当前时刻为更新模型生成的触发点时,则获取第一历史时刻至当前时刻接收到的数据。第一历史时刻可以为上一更新模型触发点。第一历史数据的处理结果可以为技术人员根据第一历史数据,或者与第一历史数据对应的其他辅助数据确定的处理结果。例如,技术人员可以根据对用户在银行办理业务时,输入的用户数据以及业务相关数据,对该用户的业务进行实际的调查,以确定该用户的业务是否为合法业务,作为处理结果。或者,当用户通过设备输入搜索关键词时,根据用户输入的关键词向用户推荐相关的文章,并根据用户对推荐文章的点击率,确定该用户感兴趣的文章,作为处理结果。
示例性的,将获取的第一历史数据以及第一历史数据的处理结果作为训练数据,并基于至少一种机器学习算法进行训练,得到至少一个更新模型,其中,机器学习算法可以根据实际情况进行选取,例如可以选取遗传算法、进化算法、神经网络、支持向量机、集成学习算法等算法中的至少一个。通过根据第一历史数据以及第一历史数据的处理结果,训练得到至少一个更新模型,从而及时得到适用于新增数据的更新模型,以对模型进行替换更新,以模型对数据处理的准确性。
S120、从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理。
具体的,由于基于各算法训练得到的更新模型的性能可能相差不大,并且无法得知各更新算法在处理当前获取的待处理数据时的性能差异,若逐一测试各候选模型的性能,则效率低耗时长,影响模型的及时更新,因此,在本发明实施例中,从至少一个更新模型中选取候选模型,并将当前的待处理数据分配至候选模型以及正在使用的目标模型中进行处理,从而使各候选模型线上处理待处理数据,以便根据各候选模型线上处理待处理数据的性能,对各候选模型的性能进行分析。
示例性的,可以根据实际情况从至少一个更新模型中选取候选模型,可以根据至少一个更新模型的性能排序选取候选模型,例如,根据模型的准确率、置信度、查准率、查全率和对数损失等至少一项,确定至少一个更新模型的性能排序。
S130、根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
具体的,由于通过线下确定候选模型中的目标模型的方式,无法确定个模型处理线上当前获取的待处理数据的性能,因此线下选取的方式具有片面性,无法准确地获取适用于处理当前获取的待处理数据变化规律的目标模型。因此,在本发明实施例中,令候选模型线上处理当前获取的待处理数据,根据候选模型对当前获取的待处理数据进行处理的处理结果,从候选模型中确定新的目标模型,从而通过对候选模型进行线上测试确定候选模型中的目标模型,以使确定的目标模型能够适用于处理当前获取的待处理数据,根据从而提高数据处理的准确性。
本发明实施例中,通过将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型,第一历史数据为从第一历史时刻至当前时刻接收到的数据,从而实现根据新增数据确定至少一个更新模型,以实现模型的优化,提高对数据处理的准确性;通过从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理,根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理,从而通过处理当前的数据,实现线上对模型的性能进行测试,测试结果更具准确性和可靠性,从而使根据测试结果确定的目标模型更能适用于对当前数据的处理,从而提高数据处理的准确性。
图2为本发明又一实施例提供的一种数据处理方法的流程图。本发明实施例在上述实施例的基础上进行了优化,未在本实施例中详细描述的细节详见上述实施例。参见图2,本实施例提供的数据处理方法可以包括:
S210、若接收到的第一历史数据以及第一历史数据的处理结果的数量满足预设数据数量阈值,则获取第一历史数据以及第一历史数据的处理结果,并将第一历史数据以及第一历史数据的处理结果作为训练样本。其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据。
具体的,若用于训练得到更新模型的第一历史数据以及第一历史数据的处理结果的数量过少,则导致训练的更新模型准确性低,无法满足对当前获取的待处理数据的要求。若用于训练得到更新模型的第一历史数据以及第一历史数据的处理结果的数量过多,则会导致训练时间过长,影响模型更新的效率。因此,在本发明实施例中,统计接收到的第一历史数据以及第一历史数据的处理结果的数量,若接收到的第一历史数据以及第一历史数据的处理结果的数量满足预设数据数量阈值,则获取第一历史数据以及第一历史数据的处理结果,并将其作为训练数据,从而使根据第一历史数据以及第一历史数据的处理结果训练得到的更新模型既能够满足准确率的要求,又能够提高更新模型训练的效率。
S220、基于至少一种机器学习算法进行训练得到至少一个更新模型。
S230、根据第二历史数据以及第二历史数据的处理结果,确定至少一个更新模型的质量得分;其中,所述第二历史数据与所述第一历史数据不同。
其中,第二历史数据可以为当前时刻之前所接收到的数据,由于更新模型为第一历史数据以及第一历史数据的处理结果训练得到的模型,因此若根据第一历史数据以及第一历史数据的处理结果对更新模型进行测试,则不具参考性,因此,选取与第一历史数据不同的第二历史数据确定至少一个更新模型的质量得分,从而客观的确定至少一个更新模型处理历史数据的性能。
S240、若任一更新模型的质量得分大于预设质量得分,则将该更新模型作为候选模型。
示例性的,若至少一个更新模型中任一更新模型的质量得分大与预设质量得分,则说明该更新模型对处理数据具有较好的性能,因此,将该更新模型作为候选模。
S250、将满足第一预设数量的待处理数据平均分配至候选模型中进行处理,将满足第二预设数量的待处理数据分配至正在使用的目标模型中进行处理。
示例性的,为了保证对候选模型进行测试时保持客观性和公平性,将第一预设数量的待处理数据平均分配至候选模型中进行处理,从而使候选模型处理的待处理数据数量相等,从而使质量得分准确客观。
示例性的,第一预设数量和第二预设数量可以根据实际情况进行确定。可选的,令第一预设数量小于第二预设数量,使正在使用的目标模型处理较多的待处理数据,使候选模型处理较少的待处理数据,从而保证对待处理数据处理的稳定性,避免将较多的待处理数据分配至性能较低的候选模型进行处理而导致数据处理准确性差的问题。
S260、根据所述处理结果,确定候选模型以及正在使用的目标模型的质量得分。
可选的,根据所述处理结果,确定候选模型以及正在使用的目标模型的质量得分,包括:若候选模型以及正在使用的目标模型处理的数据的数量均满足预设处理数量,则根据处理当前获取的待处理数据得到的处理结果,确定候选模型以及正在使用的目标模型的质量得分。
示例性的,为了使对模型进行性能测试的结果更具有准确性,因此选取预设处理数量的处理结果,对候选模型和正在使用的目标模型进行性能测试,得到质量得分。为了保证对个模型测试的公平性和准确性,避免模型处理结果的偶然性影响该模型的质量得分,因此,若候选模型以及正在使用的目标模型处理的数据均满足预设处理数量时,则根据处理数据得到的处理结果确定各模型的质量的分,从而在各模型处理的数据数量相等的情况下,对各模型的性能进行测试,从而保证质量得分的准确性。
S270、根据候选模型以及正在使用的目标模型的质量得分,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
根据候选模型以及正在使用的目标模型的质量得分,从候选模型以及正在使用的目标模型中确定新的目标模型,包括:将候选模型以及正在使用的目标模型中质量得分最高的模型作为新的目标模型。
示例性的,若候选模型以及正在使用的目标模型中存在任一模型的质量的分最高,则说明该模型对处理当前获取的待处理数据存在最好的处理性能,最适用于处理当前获取的待处理数据,因此,将该模型作为新的目标模型,对新的数据进行处理,以保证目标模型对数据了处理的准确性,实现模型的稳定平滑更新。
本发明实施例的技术方案,通过获取数量满足预设数据数量阈值的第一历史数据以及第一历史数据的处理结果,从而及时地得到更新模型,以便于对模型进行更新;通过第一预设数量的待处理数据平均分配至候选模型中进行处理,从而使候选模型处理的待处理数据数量相等,从而使质量得分准确客观;通过若候选模型以及正在使用的目标模型处理的数据均满足预设处理数量时,则根据处理数据得到的处理结果确定各模型的质量的分,从而在各模型处理的数据数量相等的情况下,对各模型的性能进行测试,从而保证质量得分的准确性。
图3为本发明一种实施例提供的一种数据处理装置结构示意图。该装置适用于对数据进行处理的情况,典型的,本发明实施例可以适用于在数据不断增加时,根据新增的数据确定更新模型,以更新模型对正在使用的模型进行更新的情况。该装置可以由软件和/或硬件的方式实现,该装置可以集成在设备中。参见图3,该装置具体包括:
更新模型确定模块310,用于将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
候选模型选取模块320,用于从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
新的目标模型确定模块330,用于根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
可选的,所述更新模型确定模块310,,包括:
训练样本确定单元,用于若接收到的第一历史数据处理请求以及第一历史数据处理请求结果的数量满足预设请求数量阈值,则获取第一历史数据处理请求以及第一历史数据处理请求的处理结果,并将第一历史数据处理请求以及第一历史数据处理请求的处理结果作为训练样本。
可选的,所述候选模型选取模块320,包括:
第一质量得分确定单元,用于根据第二历史数据以及第二历史数据的处理结果,确定至少一个更新模型的质量得分;其中,所述第二历史数据与所述第一历史数据不同;
候选模型确定单元,用于若任一更新模型的质量得分大于预设质量得分,则将该更新模型作为候选模型。
可选的,所述候选模型选取模块320,还包括:
分配单元,用于将满足第一预设数量的待处理数据平均分配至候选模型中进行处理,将满足第二预设数量的待处理数据分配至正在使用的目标模型中进行处理。
可选的,所述新的目标模型确定模块330,包括:
第二质量得分确定单元,用于根据所述处理结果,确定候选模型以及正在使用的目标模型的质量得分;
目标模型选取单元,用于根据候选模型以及正在使用的目标模型的质量得分,从候选模型以及正在使用的目标模型中确定新的目标模型。
可选的,所述第二质量得分确定单元,具体用于:
若候选模型以及正在使用的目标模型处理的数据的数量均满足预设处理数量,则根据处理当前获取的待处理数据得到的处理结果,确定候选模型以及正在使用的目标模型的质量得分。
可选的,所述目标模型选取单元,具体用于:
将候选模型以及正在使用的目标模型中质量得分最高的模型作为新的目标模型。
本发明实施例的技术方案,通过更新模型确定模块将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据,从而实现根据新增数据确定至少一个更新模型,以实现模型的优化,提高对数据处理的准确性;通过候选模型选取模块从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理,新的目标模型确定模块根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理,从而通过处理当前的数据,实现线上对模型的性能进行测试,测试结果更具准确性和可靠性,从而使根据测试结果确定的目标模型更能适用于对当前数据的处理,从而提高数据处理的准确性。
图4为本发明一种实施例提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施例的示例性设备412的框图。图4显示的设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备412包括:一个或多个处理器416;存储器428,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器416执行,使得所述一个或多个处理器416实现本发明实施例所提供的数据处理方法,包括:
将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
以通用设备的形式表现。设备412的组件可以包括但不限于:一个或者多个处理器或者处理器416,系统存储器428,连接不同系统组件(包括系统存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备412典型地包括多种计算机系统可读存储介质。这些存储介质可以是任何能够被设备412访问的可用存储介质,包括易失性和非易失性存储介质,可移动的和不可移动的存储介质。
系统存储器428可以包括易失性存储器形式的计算机系统可读存储介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁存储介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光存储介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据存储介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块462包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块462通常执行本发明所描述的实施例中的功能和/或方法。
设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器426等)通信,还可与一个或者多个使得用户能与该设备412交互的设备通信,和/或与使得该设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与设备412的其它模块通信。应当明白,尽管图4中未示出,可以结合设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在系统存储器428中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据处理方法。
本发明一种实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据处理方法:
将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的存储介质的任意组合。计算机可读存储介质可以是计算机可读信号存储介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号存储介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的存储介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
2.根据权利要求1所述的方法,其特征在于,将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,包括:
若接收到的第一历史数据以及第一历史数据的处理结果的数量满足预设数据数量阈值,则获取第一历史数据以及第一历史数据的处理结果,并将第一历史数据以及第一历史数据的处理结果作为训练样本。
3.根据权利要求1所述的方法,其特征在于,从至少一个更新模型中选取候选模型,包括:
根据第二历史数据以及第二历史数据的处理结果,确定至少一个更新模型的质量得分;其中,所述第二历史数据与所述第一历史数据不同;
若任一更新模型的质量得分大于预设质量得分,则将该更新模型作为候选模型。
4.根据权利要求1所述的方法,其特征在于,将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理,包括:
将满足第一预设数量的待处理数据平均分配至候选模型中进行处理,将满足第二预设数量的待处理数据分配至正在使用的目标模型中进行处理。
5.根据权利要求1所述的方法,其特征在于,根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理,包括:
根据所述处理结果,确定候选模型以及正在使用的目标模型的质量得分;
根据候选模型以及正在使用的目标模型的质量得分,从候选模型以及正在使用的目标模型中确定新的目标模型。
6.根据权利要求5所述的方法,其特征在于,根据所述处理结果,确定候选模型以及正在使用的目标模型的质量得分,包括:
若候选模型以及正在使用的目标模型处理的数据的数量均满足预设处理数量,则根据处理当前获取的待处理数据得到的处理结果,确定候选模型以及正在使用的目标模型的质量得分。
7.根据权利要求6所述的方法,其特征在于,根据候选模型以及正在使用的目标模型的质量得分,从候选模型以及正在使用的目标模型中确定新的目标模型,包括:
将候选模型以及正在使用的目标模型中质量得分最高的模型作为新的目标模型。
8.一种数据处理装置,其特征在于,所述装置包括:
更新模型确定模块,用于将获取的第一历史数据以及第一历史数据的处理结果作为训练样本,基于至少一种机器学习算法进行训练得到至少一个更新模型;其中,所述第一历史数据为从第一历史时刻至当前时刻接收到的数据;
候选模型选取模块,用于从至少一个更新模型中选取候选模型,并将当前获取的待处理数据分配至候选模型以及正在使用的目标模型中进行处理;
新的目标模型确定模块,用于根据处理结果,从候选模型以及正在使用的目标模型中确定新的目标模型,用于采用新的目标模型对新的数据进行处理。
9.一种设备,其特征在于,所述设备包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的一种数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的一种数据处理方法。
CN201911030979.6A 2019-10-28 2019-10-28 数据处理方法、装置、设备及存储介质 Pending CN110751227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911030979.6A CN110751227A (zh) 2019-10-28 2019-10-28 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911030979.6A CN110751227A (zh) 2019-10-28 2019-10-28 数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110751227A true CN110751227A (zh) 2020-02-04

Family

ID=69280452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911030979.6A Pending CN110751227A (zh) 2019-10-28 2019-10-28 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110751227A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778984A (zh) * 2021-08-16 2021-12-10 维沃移动通信(杭州)有限公司 处理组件的选择方法和装置
CN115014821A (zh) * 2022-05-31 2022-09-06 三一重机有限公司 作业机械异常检测方法、装置及作业机械

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065657A1 (en) * 2000-11-30 2002-05-30 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
CN107316083A (zh) * 2017-07-04 2017-11-03 北京百度网讯科技有限公司 用于更新深度学习模型的方法和装置
CN108573355A (zh) * 2018-05-08 2018-09-25 阿里巴巴集团控股有限公司 模型更新后替换运行的方法、装置、及业务服务器
CN109063736A (zh) * 2018-06-29 2018-12-21 考拉征信服务有限公司 数据分类方法、装置、电子设备及计算机可读存储介质
CN109074502A (zh) * 2018-07-26 2018-12-21 深圳前海达闼云端智能科技有限公司 训练人工智能模型的方法、装置、存储介质及机器人
CN109634140A (zh) * 2018-12-25 2019-04-16 珠海格力电器股份有限公司 运行环境数据的更新方法、装置、机组及计算机设备
CN110188910A (zh) * 2018-07-10 2019-08-30 第四范式(北京)技术有限公司 利用机器学习模型提供在线预测服务的方法及系统
CN110321422A (zh) * 2018-03-28 2019-10-11 腾讯科技(深圳)有限公司 在线训练模型的方法、推送方法、装置以及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065657A1 (en) * 2000-11-30 2002-05-30 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
CN107316083A (zh) * 2017-07-04 2017-11-03 北京百度网讯科技有限公司 用于更新深度学习模型的方法和装置
CN110321422A (zh) * 2018-03-28 2019-10-11 腾讯科技(深圳)有限公司 在线训练模型的方法、推送方法、装置以及设备
CN108573355A (zh) * 2018-05-08 2018-09-25 阿里巴巴集团控股有限公司 模型更新后替换运行的方法、装置、及业务服务器
CN109063736A (zh) * 2018-06-29 2018-12-21 考拉征信服务有限公司 数据分类方法、装置、电子设备及计算机可读存储介质
CN110188910A (zh) * 2018-07-10 2019-08-30 第四范式(北京)技术有限公司 利用机器学习模型提供在线预测服务的方法及系统
CN109074502A (zh) * 2018-07-26 2018-12-21 深圳前海达闼云端智能科技有限公司 训练人工智能模型的方法、装置、存储介质及机器人
CN109634140A (zh) * 2018-12-25 2019-04-16 珠海格力电器股份有限公司 运行环境数据的更新方法、装置、机组及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAIYANG LIU等: "Robust tracking using local sparse appearance model and K-selection", 《CVPR 2011》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778984A (zh) * 2021-08-16 2021-12-10 维沃移动通信(杭州)有限公司 处理组件的选择方法和装置
CN115014821A (zh) * 2022-05-31 2022-09-06 三一重机有限公司 作业机械异常检测方法、装置及作业机械

Similar Documents

Publication Publication Date Title
US10671933B2 (en) Method and apparatus for evaluating predictive model
US20210216915A1 (en) Systems and Methods for Predictive Coding
CN112889042A (zh) 机器学习中超参数的识别与应用
CN110059894B (zh) 设备状态评估方法、装置、系统及存储介质
CN111400600A (zh) 一种消息推送方法、装置、设备和存储介质
US20170322931A1 (en) Integration and combination of random sampling and document batching
US11481707B2 (en) Risk prediction system and operation method thereof
CN109656815B (zh) 有配置文件的测试语句编写方法、装置、介质及电子设备
CN113535773B (zh) 数据库优化方法、数据库优化装置、电子设备和存储介质
US11809505B2 (en) Method for pushing information, electronic device
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN110751227A (zh) 数据处理方法、装置、设备及存储介质
CN110728306B (zh) 反向代理评价模型中目标参数选取方法及相关装置
US10853130B1 (en) Load balancing and conflict processing in workflow with task dependencies
CN111563172A (zh) 基于动态知识图谱构建的学术热点趋势预测方法和装置
CN110602207A (zh) 基于离网预测推送信息的方法、装置、服务器和存储介质
CN113114540B (zh) 一种带宽预测器的设置、服务调整方法及相关装置
CN112905885B (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
JP2015184818A (ja) サーバ、モデル適用可否判定方法およびコンピュータプログラム
US20210382947A1 (en) Accuracy metric for regular expression
CN114185938A (zh) 基于数字金融及大数据溯源的项目溯源分析方法及系统
US11335433B2 (en) Feature selection for efficient epistasis modeling for phenotype prediction
CN109918293B (zh) 系统测试方法及装置、电子设备、计算机可读存储介质
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN113407102A (zh) 一种虚拟按键的展示方法、装置、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220919

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204