CN113627513A - 一种训练数据生成方法、系统、电子设备及存储介质 - Google Patents

一种训练数据生成方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113627513A
CN113627513A CN202110897524.5A CN202110897524A CN113627513A CN 113627513 A CN113627513 A CN 113627513A CN 202110897524 A CN202110897524 A CN 202110897524A CN 113627513 A CN113627513 A CN 113627513A
Authority
CN
China
Prior art keywords
sample
training
groups
data
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110897524.5A
Other languages
English (en)
Inventor
熊伟灼
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Duxiaoman Youyang Technology Co ltd
Original Assignee
Chongqing Duxiaoman Youyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Duxiaoman Youyang Technology Co ltd filed Critical Chongqing Duxiaoman Youyang Technology Co ltd
Priority to CN202110897524.5A priority Critical patent/CN113627513A/zh
Publication of CN113627513A publication Critical patent/CN113627513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明实施例提供了训练数据生成方法、系统、电子设备及存储介质。训练数据生成方法包括:随机生成多组训练样本组,并基于训练样本组分别训练得到相应的样本模型;获取当前数据,并通过当前数据确定每个样本模型的预测评价分;预测评价分用于确定样本模型的预测准确率;根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组;通过新的训练样本组再次分别生成相应的样本模型,直至满足预设条件,将预测评价分最高的样本模型对应训练样本组,作为训练数据。

Description

一种训练数据生成方法、系统、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种训练数据生成方法、系统、电子设备及存储介质。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习的基础是不断发展的大数据分析,理论上来说,没有数据的支持,机器学习方法也是无法存在的,但是,一方面随着业务量的累积,使用的样本量会逐步增大,增多模型的训练时间。另一方面,由于模型需要用实际用户表现来评估模型效果,所以在建立长周期模型时,训练样本的时间范围距离实际线上表现的观测有较长的时间差。随着模型和线上策略的迭代升级,模型真实应用时的客群和训练模型的客群可能有一定偏差造成模型表现衰减,进而导致通过历史数据训练得到的模型无法对当前的用户进行准确的预测。综上,现有技术存在通过历史数据训练得到的模型无法对当前用户进行准确分析的问题。
发明内容
本发明的至少一个实施例提供了一种训练数据生成方法、装置、电子设备及存储介质,以便于解决现有技术通过历史数据进行建模,导致模型预测不准的问题。
第一方面,本发明实施例提供了一种训练数据生成方法,所述生成方法包括:
随机生成多组训练样本组,并基于所述训练样本组分别训练得到相应的样本模型;
获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。
基于上述技术方案,本发明实施例还可以做出如下改进。
结合第一方面,在第一方面的第一种实施例中,
所述预设条件包括:重新训练得到样本模型的次数达到预设阈值;
所述通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据,包括:
S1、通过新的所述训练样本组再次分别生成相应的样本模型;
S2、获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
S3、判断重新训练得到样本模型的次数是否达到预设阈值;
S4a、若是,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据;
S4b、若否,根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,执行S1。
结合第一方面,在第一方面的第二种实施例中,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:
根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;
对所述优选样本组进行重组,得到多组新的所述训练样本组。
结合第一方面的第二种实施例,在第一方面的第三种实施例中,所述对所述优选样本组进行重组,得到多组新的所述训练样本组,包括:
提取所有所述优选样本组中的样本数据,组成待重组样本组;
随机对所述待重组样本组中的预设条数的所述样本数据进行复制扩展;
对扩展后的待重组样本组进行拆分,得到多组新的所述训练样本组。
结合第一方面的第二种实施例,在第一方面的第四种实施例中,随机生成多组训练样本组,包括:
随机生成预设条数的样本数据;
基于遗传算法,分别对所述样本数据分别添加第一基因编码或第二基因编码;所述第一基因编码用于表示所述样本数据包含预设基因片段,所述第二基因编码用于表示所述样本数据不包含所述预设基因片段;
将所述样本数据进行组合得到所述训练样本组;
通过上述步骤得到多组所述训练样本组。
结合第一方面的第四种实施例,在第一方面的第五种实施例中,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:
根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;
基于所述遗传算法,对所述优选样本组进行交叉、变异,生成新的所述训练样本组。
结合第一方面或第一方面的第一、第二、第三、第四或第五种实施例,在第一方面的第六种实施例中,所述获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分,包括:
获取当前数据;所述当前数据包括:当前参数和当前参数对应的当前结果;
针对每个所述样本模型,将所述当前参数输入所述样本模型,得到预测结果,并根据所述当前结果确定所述预测结果是否准确;
针对每个所述样本模型,根据所述样本模型对于当前参数的预测结果的准确率,得到所述样本模型的预测评价分。
第二方面,本发明实施例提供了一种训练数据生成系统,包括:
样本生成单元,用于随机生成多组训练样本组;
模型训练单元,用于基于所述训练样本组分别训练得到相应的样本模型;
第一处理单元,用于获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
第二处理单元,用于根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;
第三处理单元,用于通过所述模型训练单元,基于新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面中任一实施例所述的训练数据生成方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一实施例所述训练数据生成方法。
本发明的上述技术方案与现有技术相比具有如下优点:本发明实施例通过随机构建训练样本组,并分别构建相应的样本模型,通过当前数据来对样本模型的有效性进行验证,并分别得到预测评价分,并进一步重组训练样本组,重新构建样本模型,在满足了预设条件后,停止循环,将预测评价分最高的训练样本组作为训练数据,实现生成用以训练模型的数据,由于本方案时通过当前数据进行反馈得到训练数据,不仅可以避免直接使用历史数据训练模型的数据处理量较大的问题,还可以保证通过训练数据训练得到的模型与当前环境的情况相适配,预测结果更加准确。
附图说明
图1是本发明实施例提供的训练数据生成方法流程示意图;
图2是本发明另一实施例提供的训练数据生成方法流程示意图;
图3是本发明又一实施例提供的训练数据生成方法流程示意图其一;
图4是本发明又一实施例提供的训练数据生成方法流程示意图其二;
图5是本发明又一实施例提供的一种训练数据生成系统结构示意图;
图6是本发明又一实施例提供的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为实现本发明各个实施例,本发明提供了一种训练数据生成装置,包括终端,其中,终端可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigitalAssistant,PDA)、便捷式媒体播放器(PortableMediaPlayer,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
如图1,本发明实施例提供的一种训练数据生成方法。参照图1,方法包括如下步骤:
S11、随机生成多组训练样本组,并基于训练样本组分别训练得到相应的样本模型。
在本实施例中,通过随机生成训练样本组来训练得到相应的样本模型,虽然训练得到的样本模型不再受到历史数据的影响,但是直接得到的样本模型的预测精度是非常低的,通过后续步骤完善样本模型的精度。
在本实施例中,为了使得训练得到的样本模型可以与所要预测的事件相对应,本方案中随机生成的训练样本组与实际事件对应的参数和结果的数据类型保持一致,比如,实际事件是对人的行为进行预测,在依照历史数据构建样本模型时,所采集的训练样本包括:输入为用户的属性参数,输出为用户的行为结果,此时,本方案中随机生成的训练样本组中的训练样本包括:随机生成的用户的属性参数和相对应的行为结果,总的来说,本方案中随机生成的训练样本组与需要进行训练样本模型的数据的类型一致,以实现最终生成用于训练样本模型的训练数据。
S12、获取当前数据,并通过当前数据确定每个样本模型的预测评价分;预测评价分用于确定样本模型的预测准确率。
在本实施例中,获取训练样本组对应的当前数据,参照上述实施例,即获取当前的用户的属性参数和当前的用户的行为结果;通过当前数据来确定每个样本模型的预测评价分,即通过当前环境下的实际数据来对样本模型进行校验,可以理解,若将当前数据中的输入数据输入到样本模型,得到的预测结果和当前数据中的输出数据的一致性越高,则越能证明这个样本模型与当前环境相匹配,反之,则说明训练得到的样本模型无法适配当前环境。
具体的,本方案包括如下步骤:获取当前数据;当前数据包括:当前参数和当前参数对应的当前结果;针对每个样本模型,将当前参数输入样本模型,得到预测结果,并根据当前结果确定预测结果是否准确;针对每个样本模型,根据样本模型对于当前参数的预测结果的准确率,得到样本模型的预测评价分。
在本实施例中,当前数据的数据量越大,就能能减少因为偶然导致的误判,对于样本模型的验证越准确。
在本实施例中,通过当前数据确定各个样本模型的预测评价分最直接的方式就是将样本模型对于当前数据的预测准确率作为预测评价分,预测准确率越高越能说明样本模型越符合当前环境。也可以提前设定不同预测准确率区间对应不同的预测评价分,比如,预测准确率达到百分之90,可以设置第一预测评价分,预测准确率达到百分之95,设置第二预测评价分,通过准确率区间来划分预测评价分,当然,为了提高准确率和预测评价分的联系,因为预测准确率越高,其难度就越大,所以预测评价分的分值可以随准确率增长呈指数增加,以此来增加效果更好的样本模型的评价分。
在本实施例中,在很多预测模型中,预测模型只是输出一个概率数值,比如,只有是或否的预测事件中,一般会将训练样本中为是的结果设置标签数值1,为否的结果设置标签数值0,将输入和对应的标签数值进行训练得到预测模型,最终预测模型在实际应用中也会输出一个0~1的数值,当数值大于0.5时,模型输出的预测结果为是,反之,模型输出的预测结果为否,在本实施例中,我们可以根据样本模型的输出结果来确定预测评价分,具体的,比如,当将任一输入输入样本模型后,实际结果为是,而样本模型得到的预测结果是0.7,我们可以将预测结果减去0.5,作为本次预测的预测评价分,而实际结果为否的情况,则用0.5减去预测结果作为预测的预测评价分,当预测错误时,该预测评价分就会相应的成为负值,在对所有当前数据分别进行预测后,将所有的预测评价分相加,即可得到本方案中对于样本模型的预测评价分,用以确定各个样本模型的预测效果。
S13、根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组;通过新的训练样本组再次分别生成相应的样本模型,直至满足预设条件,将预测评价分最高的样本模型对应训练样本组,作为训练数据。
在本实施例中,在确定各个训练样本组的预测评价分后,根据预测评价分从训练样本组中选择预设数量的训练样本组来进行重组,得到新的训练样本组,并重新训练得到样本模型,直至满足预设条件时,将预测评价分最高的样本模型对应的训练样本组作为训练数据,以得到用以训练模型的训练数据。
在本实施例中,可以根据预测评价分的大小来从所有训练样本组中获取预设数量的训练样本组来进行重组,由于预测评价分的分值越高,样本模型的预测准确率越高,则样本模型的效果越好,这也就说明训练样本组越与当前实际情况越贴近,所以,可以将预测评价分较大,且在前预设名次的预测评价分对应的训练样本组拿来进行重组。
在本实施例中,预设条件可以是重新构建样本模型的次数,在重新构建样本模型的次数达到预设次数时,停止重组训练样本组,得到训练数据;也可以是预测评分的数值达到预设数值,在出现任一样本模型的预测评价分的数值达到预设数值时,停止重组训练样本组,得到训练数据。
在本实施例中,本方案通过随机构建训练样本组,并分别构建相应的样本模型,通过当前数据来对样本模型的有效性进行验证,并分别得到预测评价分,并进一步重组训练样本组,重新构建样本模型,在满足了预设条件后,停止循环,将预测评价分最高的训练样本组作为训练数据,实现生成用以训练模型的数据,由于本方案时通过当前数据进行反馈得到训练数据,不仅可以避免直接使用历史数据训练模型的数据处理量较大的问题,还可以保证通过训练数据训练得到的模型与当前环境的情况相适配,预测结果更加准确,而不会出现模型真实应用时的数据和训练模型的数据可能有一定偏差造成模型表现衰减的问题。
在本实施例中,本方案最终生成的训练数据可以理解为对当前的实际数据的扩展,因为仅仅只使用当前的数据是无法得到一个稳定的模型的,而只用历史数据训练模型又有可能与当前的情况存在偏差,导致模型预测出现误差,本方案通过循环的方式,对随机生成的样本数据进行筛选,使得最终得到的训练数据与当前的环境相适配,又可以有效的扩展数据数量,同时,本方案还可以对那些还未建立历史数据库的模型构建过程提供支持,提高数据处理效率。
具体的,预设条件包括:重新训练得到样本模型的次数达到预设阈值。
如图2所示,S13中通过新的训练样本组再次分别生成相应的样本模型,直至满足预设条件,将预测评价分最高的样本模型对应训练样本组,作为训练数据,包括如下步骤:
S21、通过新的训练样本组再次分别生成相应的样本模型。
在本实施例中,通过新的训练样本组生成相应的样本模型可以参考上述实施例中S11中的表述,本方案在此不再赘述。
S22、获取当前数据,并通过当前数据确定每个样本模型的预测评价分;预测评价分用于确定样本模型的预测准确率。
有关步骤S22,详细可参见步骤S12中的描述,本实施例在此不再赘述。
S23、判断重新训练得到样本模型的次数是否达到预设阈值。
在本实施例中,设置预设阈值限定重新训练得到样本模型的次数,避免训练次数,提高数据处理效率。
S24a、若是,将预测评价分最高的样本模型对应训练样本组,作为训练数据。
S24b、若否,根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组,执行S21。
在本实施例中,在重新训练得到样本模型的次数未达到预设阈值时,根据预测评价分重新获取训练样本组进行重组,得到新的训练样本组,通过新的训练样本组再次分别生成相应的样本模型;在重新训练得到样本模型的次数达到预设阈值时,将预测评价分最高的样本模型对应训练样本组,作为训练数据。
在本实施例中,上述实施例中根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组,包括:根据预测评价分从大至小的顺序对训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;对优选样本组进行重组,得到多组新的训练样本组。
进一步的,如图3所示对优选样本组进行重组,得到多组新的训练样本组,包括如下步骤:
S31、提取所有优选样本组中的样本数据,组成待重组样本组。
在本实施例中,将优选样本组进行混合得到待重组样本组,以便于对样本数据进行处理,确定数据量。
S32、随机对待重组样本组中的预设条数的样本数据进行复制扩展。
在本实施例中,由于选择的优选样本组是所有训练样本组中较优的数据,所以,在本实施例中,随机对待重组样本组中的样本数据进行复制扩展,最终能得到的数据会优于在先的训练样本组中的样本数据,当样本数据的数量较大时,通过本方案最终可以筛选出合适的训练样本组。
S33、对扩展后的待重组样本组进行拆分,得到多组新的训练样本组。
在本实施例中,对完成扩展后的待重组样本组进行切分,得到新的训练样本组。通过本方案可以完成对于预测评价分较高的样本模型对应的样本数据的扩展,而且由于不断的循环,最终能不断的优化样本数据,使得样本数据更贴合当前的实际数据。
如图4所示,在另一个具体实施例中,S11中随机生成多组训练样本组,包括如下步骤:
S41、随机生成预设条数的样本数据。
在本实施例中,样本数据的数量可以由用户进行设定或者系统自动生成预设条数的数值。
S42、基于遗传算法,分别对样本数据分别添加第一基因编码或第二基因编码;第一基因编码用于表示样本数据包含预设基因片段,第二基因编码用于表示样本数据不包含预设基因片段。
在本实施例中,遗传算法(Genetic Algorithm,GA)最早是由美国的John holland于20世纪70年代提出,该算法是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
在本实施例中,第一基因编码和第二基因编码可以是1和0的数值,当然也可以是其他标记,本方案对此不做特别限定。
S43、将样本数据进行组合得到训练样本组。
S44、通过上述步骤得到多组训练样本组。
在本实施例中,可以将所有样本按时间排序,以每预设条作为切分点切分数据作为基因编码,编码有0和1两种取值,编码为1表明染色体包含该基因片段,编码为0表明染色体不包含该基因片段,整个样本集作为一条染色体。这样就可以用一系列0/1来编码整个样本。
基于如图4所示实施例,在S13中根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组,包括:根据预测评价分从大至小的顺序对训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;基于遗传算法,对优选样本组进行交叉、变异,生成新的训练样本组。
在本实施例中,在遗传算法中,若第一基因编码为1,第二基因编码为0,变异是指,染色体的编码有一定概率从0变为1或者从1变为0。交叉是指,两条染色体同一位置的编码进行交换,其他位置保持不变。
在本实施例中,本方案中基于遗传算法中的交叉、变异过程,提高样本数据中数据的多样性,保证最终筛选除的训练数据的有效性。
如图5所示,本发明实施例提供了一种训练数据生成系统,包括:样本生成单元11、模型训练单元12、第一处理单元13、第二处理单元14和第三处理单元15。
在本实施例中,样本生成单元11,用于随机生成多组训练样本组。
在本实施例中,模型训练单元12,用于基于训练样本组分别训练得到相应的样本模型。
在本实施例中,第一处理单元13,用于获取当前数据,并通过当前数据确定每个样本模型的预测评价分;预测评价分用于确定样本模型的预测准确率。
在本实施例中,第二处理单元14,用于根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组。
在本实施例中,第三处理单元15,用于通过模型训练单元12,基于新的训练样本组再次分别生成相应的样本模型,直至满足预设条件,将预测评价分最高的样本模型对应训练样本组,作为训练数据。
在本实施例中,第三处理单元15,具体用于通过新的训练样本组再次分别生成相应的样本模型;获取当前数据,并通过当前数据确定每个样本模型的预测评价分;预测评价分用于确定样本模型的预测准确率;判断重新训练得到样本模型的次数是否达到预设阈值;若是,将预测评价分最高的样本模型对应训练样本组,作为训练数据;若否,根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组,直至重新训练得到样本模型的次数达到预设阈值。
在本实施例中,第二处理单元14,具体用于根据预测评价分从大至小的顺序对训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;对优选样本组进行重组,得到多组新的训练样本组。
在本实施例中,第二处理单元14,具体用于提取所有优选样本组中的样本数据,组成待重组样本组;随机对待重组样本组中的预设条数的样本数据进行复制扩展;对扩展后的待重组样本组进行拆分,得到多组新的训练样本组。
在本实施例中,样本生成单元11,具体用于随机生成预设条数的样本数据;基于遗传算法,分别对样本数据分别添加第一基因编码或第二基因编码;第一基因编码用于表示样本数据包含预设基因片段,第二基因编码用于表示样本数据不包含预设基因片段;将样本数据进行组合得到训练样本组。
在本实施例中,第二处理单元14,具体用于根据预测评价分从大至小的顺序对训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;基于遗传算法,对优选样本组进行交叉、变异,生成新的训练样本组。
在本实施例中,第一处理单元13,具体用于获取当前数据;当前数据包括:当前参数和当前参数对应的当前结果;针对每个样本模型,将当前参数输入样本模型,得到预测结果,并根据当前结果确定预测结果是否准确;针对每个样本模型,根据样本模型对于当前参数的预测结果的准确率,得到样本模型的预测评价分。
本发明实施例的装置的功能已经在上述的方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
如图6所示,本发明实施例提供了一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现上述任一实施例的训练数据生成方法。
本发明实施例提供的电子设备,处理器1110通过执行存储器1130上所存放的程序通过随机构建训练样本组,并分别构建相应的样本模型,通过当前数据来对样本模型的有效性进行验证,并分别得到预测评价分,并进一步重组训练样本组,重新构建样本模型,在满足了预设条件后,停止循环,将预测评价分最高的训练样本组作为训练数据,实现生成用以训练模型的数据,由于本方案时通过当前数据进行反馈得到训练数据,不仅可以避免直接使用历史数据训练模型的数据处理量较大的问题,还可以保证通过训练数据训练得到的模型与当前环境的情况相适配,预测结果更加准确。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器1130(RandomAccessMemory,简称RAM),也可以包括非易失性存储器1130(non-volatilememory),例如至少一个磁盘存储器1130。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器1110,包括中央处理器1110(CentralProcessingUnit,简称CPU)、网络处理器1110(NetworkProcessor,简称NP)等;还可以是数字信号处理器1110(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器1110执行,以实现上述任一实施例的训练数据生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种训练数据生成方法,其特征在于,所述生成方法包括:
随机生成多组训练样本组,并基于所述训练样本组分别训练得到相应的样本模型;
获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。
2.根据权利要求1所述的训练数据生成方法,其特征在于,
所述预设条件包括:重新训练得到样本模型的次数达到预设阈值;
所述通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据,包括:
S1、通过新的所述训练样本组再次分别生成相应的样本模型;
S2、获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
S3、判断重新训练得到样本模型的次数是否达到预设阈值;
S4a、若是,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据;
S4b、若否,根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,执行S1。
3.根据权利要求1所述的训练数据生成方法,其特征在于,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:
根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;
对所述优选样本组进行重组,得到多组新的所述训练样本组。
4.根据权利要求3所述的训练数据生成方法,其特征在于,所述对所述优选样本组进行重组,得到多组新的所述训练样本组,包括:
提取所有所述优选样本组中的样本数据,组成待重组样本组;
随机对所述待重组样本组中的预设条数的所述样本数据进行复制扩展;
对扩展后的待重组样本组进行拆分,得到多组新的所述训练样本组。
5.根据权利要求3所述的训练数据生成方法,其特征在于,随机生成多组训练样本组,包括:
随机生成预设条数的样本数据;
基于遗传算法,分别对所述样本数据分别添加第一基因编码或第二基因编码;所述第一基因编码用于表示所述样本数据包含预设基因片段,所述第二基因编码用于表示所述样本数据不包含所述预设基因片段;
将所述样本数据进行组合得到所述训练样本组;
通过上述步骤得到多组所述训练样本组。
6.根据权利要求5所述的训练数据生成方法,其特征在于,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:
根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;
基于所述遗传算法,对所述优选样本组进行交叉、变异,生成新的所述训练样本组。
7.根据权利要求1~6中任一所述的训练数据生成方法,其特征在于,所述获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分,包括:
获取当前数据;所述当前数据包括:当前参数和当前参数对应的当前结果;
针对每个所述样本模型,将所述当前参数输入所述样本模型,得到预测结果,并根据所述当前结果确定所述预测结果是否准确;
针对每个所述样本模型,根据所述样本模型对于当前参数的预测结果的准确率,得到所述样本模型的预测评价分。
8.一种训练数据生成系统,其特征在于,包括:
样本生成单元,用于随机生成多组训练样本组;
模型训练单元,用于基于所述训练样本组分别训练得到相应的样本模型;
第一处理单元,用于获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
第二处理单元,用于根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;
第三处理单元,用于通过所述模型训练单元,基于新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7中任一所述的训练数据生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一所述训练数据生成方法。
CN202110897524.5A 2021-08-05 2021-08-05 一种训练数据生成方法、系统、电子设备及存储介质 Pending CN113627513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110897524.5A CN113627513A (zh) 2021-08-05 2021-08-05 一种训练数据生成方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110897524.5A CN113627513A (zh) 2021-08-05 2021-08-05 一种训练数据生成方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113627513A true CN113627513A (zh) 2021-11-09

Family

ID=78382996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110897524.5A Pending CN113627513A (zh) 2021-08-05 2021-08-05 一种训练数据生成方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113627513A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151392A (zh) * 2023-02-28 2023-05-23 北京百度网讯科技有限公司 训练样本生成方法、训练方法、推荐方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151392A (zh) * 2023-02-28 2023-05-23 北京百度网讯科技有限公司 训练样本生成方法、训练方法、推荐方法以及装置
CN116151392B (zh) * 2023-02-28 2024-01-09 北京百度网讯科技有限公司 训练样本生成方法、训练方法、推荐方法以及装置

Similar Documents

Publication Publication Date Title
CN110366734B (zh) 优化神经网络架构
US11194860B2 (en) Question generation systems and methods for automating diagnosis
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
US20210110409A1 (en) False detection rate control with null-hypothesis
JP6172317B2 (ja) 混合モデル選択の方法及び装置
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN111275205A (zh) 虚拟样本的生成方法、终端设备及存储介质
CN111461757B (zh) 信息处理方法及装置、计算机存储介质、电子设备
CN115185804A (zh) 服务器性能预测方法、系统、终端及存储介质
CN113627513A (zh) 一种训练数据生成方法、系统、电子设备及存储介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN107644042B (zh) 软件程序点击率预估排序方法及服务器
CN113448821A (zh) 一种识别工程缺陷的方法和装置
CN116703466A (zh) 基于改进灰狼算法的系统访问量预测方法及其相关设备
JP7303243B2 (ja) 試験問題予測システム及び試験問題予測方法
WO2021159095A1 (en) Population-based black-box optimization
CN115516473A (zh) 混合人机学习系统
CN116340864B (zh) 一种模型漂移检测方法、装置、设备及其存储介质
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质
CN110796262B (zh) 机器学习模型的测试数据优化方法、装置及电子设备
US20240119366A1 (en) Online training of machine learning models using bayesian inference over noise
CN115953031A (zh) 风险预测模型的训练方法及装置、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination