CN114185962A - 模型训练方法、装置、电子设备及存储介质 - Google Patents

模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114185962A
CN114185962A CN202111391307.5A CN202111391307A CN114185962A CN 114185962 A CN114185962 A CN 114185962A CN 202111391307 A CN202111391307 A CN 202111391307A CN 114185962 A CN114185962 A CN 114185962A
Authority
CN
China
Prior art keywords
data set
merging
data
target data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111391307.5A
Other languages
English (en)
Inventor
赵智维
黄轩
胡文泽
王孝宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intellifusion Technologies Co Ltd filed Critical Shenzhen Intellifusion Technologies Co Ltd
Priority to CN202111391307.5A priority Critical patent/CN114185962A/zh
Publication of CN114185962A publication Critical patent/CN114185962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种模型训练方法、装置、电子设备及存储介质,该方法包括:接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据;将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;利用所述结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出所述模型。使用户不需要对数据集格式进行修改,提升了数据集的整体可用性以及可靠性,提升产出数据模型的效率,使数据模型的效果提升更好,降低了用户对数据集的操作成本。

Description

模型训练方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种模型训练方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的进步,业界对深度学习模型效果的要求也越来越高。一般来说,对于提升模型效果的传统做法都是通过优化网络结构来进行的,近几年的研究发现,通过主动学习等方式,对模型训练数据进行选择,对模型效果的提升更显著。在现有技术中,无法以统一的方式高效开始模型训练与数据挖掘,由于每个用户所写的模型训练与数据挖掘代码都不同,导致了用户在拿到一套模型训练和数据挖掘代码以后,都需要调整自己的数据,或调整代码使之符合彼此;对于这些核心代码的修改,以及数据集格式的修改,将会降低数据集的整体可用性以及可靠性,使产出数据模型的效果降低,对数据模型的效果提升不足,用户操作成本高。
发明内容
第一方面,本发明的主要目的是提供一种模型训练方法,包括:
接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;所述原始数据集中包含元数据和资源数据,所述元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据;
将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;
利用所述结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出所述模型。
可选地,所述接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集包括:
根据所述筛选命令确定对应的第一类关键字和/或第二类关键字;
判断所述原始数据集中的数据是否包含所述第一类关键字和/或所述第二类关键字,以得到判断结果;
根据所述判断结果确定对应的数据以得到多个目标数据集。
可选地,所述预设策略包括第一合并策略、第二合并策略及第三合并策略;所述将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集包括:
在所述预设策略为第一合并策略的情况下,在合并至少两个所述目标数据集中的相同资源数据时,将第一个资源数据作为结果进行合并;
在所述预设策略为第二合并策略的情况下,在合并至少两个所述目标数据集中的相同资源数据时,将最后一个资源数据作为结果进行合并;
在所述预设策略为第三合并策略的情况下,在合并至少两个所述目标数据集中的相同资源数据时,确定终止合并。
可选地,所述将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集,还包括:
对所述目标数据集标注第一前导符、第二前导符或第三前导符;
将标注有第一前导符的所述目标数据集确定为第一目标数据集,将所述第一目标数据集作为训练集进行合并;
将标注有第二前导符的所述目标数据集确定为第二目标数据集,将所述第二目标数据集作为验证集进行合并;
将标注有第三前导符的所述目标数据集确定为第三目标数据集,将所述第三目标数据集作为测试集进行合并。
可选地,所述模型训练方法,还包括:
从所述预设数据库中确定出对应的待挖掘数据集;
基于主动学习从所述待挖掘数据集中确定出样本数据集;
将所述样本数据集合并至所述目标数据集中,得到新的结果数据集;
根据所述新的结果数据集对所述待训练模型进行重复训练,直至满足预设终止条件。
可选地,所述基于主动学习从所述待挖掘数据集中确定出样本数据集包括:
根据所述待训练模型对所述待挖掘数据集中的每个样本数据进行评估,得到评估结果;
根据所述评估结果对每个所述样本数据进行排序,确定出多个评估结果最优的样本数据;
将所述多个最优的样本数据进行标注处理,确定出样本数据集。
可选地,所述将所述多个最优的样本数据进行标注处理,确定出样本数据集包括:
判断每个最优的样本数据是否包含标注信息;
当所述最优的样本数据为不包含标注信息的第一类样本数据时,将所述第一类样本数据进行标注,得到标注完成的样本数据集;
当所述最优的样本数据中包含标注信息的第二类样本数据时,将所述第二类样本数据更新至所述样本数据集。
第二方面,本发明实施例提供了一种模型训练装置,包括:
筛选模块,用于接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;所述原始数据集中包含元数据和资源数据,所述元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据;
合并模块,用于将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;
训练模块,用于利用所述结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出所述模型。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的模型训练方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述的模型训练方法的步骤。
本发明的上述方案至少包括以下有益效果:
本发明实施例提供的模型训练方法,首先接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储资源数据时作为引用信息及标注集以指向对应的资源数据;将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;利用所述结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出所述模型;由此用户不需要对数据集格式进行修改,提升了数据集的整体可用性以及可靠性,提升产出数据模型的效率,使数据模型的效果提升更好,降低了用户对数据集的操作成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的模型训练方法的整体流程示意图;
图2为本发明实施例提供的模型训练方法中步骤S10的具体流程示意图;
图3为本发明实施例提供的模型训练方法中步骤S20的具体流程示意图;
图4为本发明实施例提供的模型训练方法中预设策略合并的示意图;
图5为本发明实施例提供的模型训练方法的另一流程示意图;
图6为本发明实施例提供的模型训练方法中步骤S41的具体流程示意图;
图7为本发明实施例提供的模型训练装置的结构框图;
图8为本发明实施例提供的电子设备的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先结合相关附图来举例介绍下本申请实施例的方案。
如图1所示,本发明的具体实施例提供了一种模型训练方法,包括:
S10、接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储资源数据时作为引用信息及标注集以指向对应的资源数据。
在本实施例中,原始数据集中包括有资源集和元数据,资源集中包括多种资源数据,例如图像资源和视频资源等,元数据中包括每个资源数据的引用信息和对应的标注集,标注集中包括已经完成的图像资源和视频资源的标注信息,标注信息表示对物体位置、边缘或特征的表达,一般由人工识别并记录,可细分为检测标注,属性标注和分割标注,检测标注表示了每张图像,或每个视频帧内有多少个物体,物体的种类,以及物体所在的矩形框的位置;属性标注表示每张图像或每个视频帧内的每个物体的所在的矩形边框的位置,以及每个物体属性的信息;分割标注表示每张图像或每个视频帧内有多少个物体,物体的种类,以及物体边缘多边形顶点的坐标;可以理解的是,每个资源数据都具有与其对应的多个元数据,通过元数据可以得到与其对应的资源数据,例如版本1、版本2、版本3均包含一个资源数据,那么每个版本中都包含一个对应到该资源数据的元数据,而且每个版本中的元数据是可以更新变化的,即标注集和引用信息是可能变化的,根据元数据对每个资源数据进行存储可以保存在同一位置,以在存储资源数据时能够实现去重的效果。
在本实施例中,元数据和资源集是分开存储的,用户存储元数据的是工作区,在对原始数据集筛选之前,可以将外部的资源集和元数据导入并存储,然后在工作区将不同版本的资源数据进行存储,并建立形成多个工作分支,即以树状结构存储资源数据,在需要对资源数据进行变更时,则可以对每个工作分支中的资源数据进行变更,并得到新的工作分支;例如,根节点是版本1,版本2中对版本1中的部分数据进行变更,那么版本2中存储的可以直接是变更后的总结果,也可以是版本1加上版本1基础上的变更。
其中,多个目标数据集具有不同用途,多个目标数据集包括有训练集、验证集及测试集,训练集用于模型拟合的数据样本,验证集用于验证模型的泛化能力(准确率,召回率等),测试集用于评估模型的训练结果,通过结果数据集对待训练模型进行训练,从而可以得到用户需要的模型;可以通过用户输入的筛选命令筛选出原始数据集中符合用户需求的目标数据集,进而可以将不同的原始数据集进行筛选处理,以减少用户的处理成本,筛选命令表示为多种不同的筛选条件进行组合,可以对原始数据集进行依次筛选,以从中确定出满足多种不同用途的目标数据集,可以理解的是,通过用户输入的筛选命令进行筛选,能够满足不同原始数据集的筛选,可以提高原始数据集的筛选效率,可以有效地降低成本,并且筛选更为全面。
如图2所示,上述步骤S10的具体实现方式包括:
S11、根据筛选命令确定对应的第一类关键字和/或第二类关键字;
S12、判断原始数据集中的数据是否包含第一类关键字和/或第二类关键字,以得到判断结果;
S13、根据判断结果确定对应的数据以得到多个目标数据集。
其中,第一类关键字可以是预定义关键字,可以由标注集得到,例如图像的标注中表明图像中含有一个人,一只猫,一个杯子,那该图像对应的第一类关键字就是人,猫,杯子;第二类关键字可以是自定义关键字,可以由用户自行指定,例如图像的拍摄地点、拍摄时间、来源地址及天气情况;可以理解的是,资源集中的每个资源数据可以根据上述的用户输入的筛选命令进行筛选,从而确定出目标数据集;因此,在对第一类关键字和第二类关键字进行判断时,可以判断每个资源数据中是否同时包括第一类关键字和第二类关键字,当然,在其他的一些实施例中,也可以判断每个资源数据中是否同时包括第一类关键字或第二类关键字,该筛选命令可以根据用户的需求进行设置,例如筛选命令可以设置成:A、资源数据中必须含有第一类关键字;B、资源数据中必不能含有第一类关键字;C、资源数据中必须含有第二类关键字;D、资源数据中必不能含有第二类关键字,采用“并且”的方式进行设置,其中,A和B中的第一类关键字是不同的,且C和D中的第二类关键字是不同的;如此,通过上述的筛选命令进行组合可以得到符合用户需求的资源数据。
举例来说,在用户需要人和树木但不需要房屋的图像,且需要的天气为晴天,不需要两个月前的图像时,则可以将筛选命令设置成:A、资源中必须含有人和树木;B、资源中必不能含有房屋;C、资源中必须含有晴天;D、资源中必不能含有两个月前的图像;在对图像进行筛选时,可以将原始数据集中的3000张图像按照上述的筛选逻辑依次进行筛选,在筛选得到后的图像有1000张图像,将得到的1000张图像可以确定为目标数据集,由此,使得原始数据集的处理成本更低,并且提高了筛选效率且更贴近用户需求。
S20、将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集。
在本实施例中,不同类型的目标数据集可以是来源不同、时间不同等,在筛选出符合用户需求的目标数据集后,可以选择不同类型的目标数据集进行合并,例如其中一个类型的目标数据集可以是从A地区在2021年10月所采集的1000张图像,另一个类型的目标数据集可以是从B地区在2021年11月所采集的1000张图像,由此,通过将至少两个不同类型的目标数据集进行合并,从而可以确定出结果数据集。
如图3所示,上述步骤S20的具体实现方式包括:
S21、在预设策略为第一合并策略的情况下,在合并至少两个目标数据集中的相同资源数据时,将第一个资源数据作为结果进行合并;
S22、在预设策略为第二合并策略的情况下,在合并至少两个目标数据集中的相同资源数据时,将最后一个资源数据作为结果进行合并;
S23、在预设策略为第三合并策略的情况下,在合并至少两个目标数据集中的相同资源数据时,确定终止合并。
其中,预设策略可以是用户设定的,包括第一合并策略、第二合并策略及第三合并策略,由于不同类型的目标数据集中包含有相同的资源,例如相同的图片,则表示两种目标数据集在合并时会出现冲突,通过采用第一合并策略、第二合并策略或第三合并策略,可以得到不同的合并结果。
如图4所示,举例来说,在对目标数据集a和目标数据集b进行合并时,当目标数据集a和目标数据集b中同时包含相同的图像x,在目标数据集a中图像x的标注为猫和人,在目标数据集b中,图像x的标注为猫和狗,通过第一合并策略进行合并则可以将猫和人作为图像x的标注并记录为结果;在采用第二合并策略进行合并时则可以将猫和狗作为图像x的标注并记录为结果;在采用第三合并策略时则停止合并图像x;因此,目标数据集a和目标数据集b在采用第一合并策略进行合并时,得到的结果数据集中包含目标数据集a和目标数据集b的不相同部分以及目标数据集a和目标数据集b中的相同部分在目标数据集a中的标注信息;目标数据集a和目标数据集b采用第二合并策略进行合并时,得到的结果数据集中包含目标数据集a和目标数据集b的不相同部分以及目标数据集a和目标数据集b中的相同部分在目标数据集b中的标注信息;目标数据集a和目标数据集b采用第三合并策略进行合并时,在目标数据集a和目标数据集b的出现相同部分则停止合并,在目标数据集a和目标数据集b的没有出现相同部分则继续合并;可以理解的是,在合并目标数据集时,可以根据用户的需求进行选择预设策略,使合并得到的结果数据集更符合用户需求。
S30、利用结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出模型。
在本实施例中,在训练模型过程中,可以通过训练集进行训练,然后通过验证集验证模型的训练效果,最后可以通过测试集对模型进行测试,待训练模型可以是由用户指定或输入的模型,预设终止条件可以是在模型达到性能或精确度要求也可以是达到用户设定的训练次数,在对待训练模型进行训练时,通过对待训练模型训练至满足用户要求后,如此能够提高模型的迭代速度和模型的最终效果。
如图5所示,本发明提供的模型训练方法,还包括:
S40、从预设数据库中确定出对应的待挖掘数据集;
S41、基于主动学习从待挖掘数据集中确定出样本数据集;
S42、将样本数据集合并至目标数据集中,得到新的结果数据集;
S43、根据新的结果数据集对待训练模型进行重复训练,直至满足训练终止条件。
在本实施例中主动学习表示通过机器学习的方法获取到对待训练模型提升最优的样本数据,并通过人工进行确认和审核,然后将人工标注得到的样本数据再次使用对模型进行训练,以逐步提升模型的效果,当然,也可以通过模型进行标注,例如是否有人脸可以直接通过人脸识别模型进行识别,在识别为人脸时则可以对应地标注为人脸;其中,待挖掘数据集和原始数据集可以是互斥关系,即待挖掘数据集中的资源数据没有在原始数据集中出现;在每次训练完成后,用户可以查看待训练模型是否达到训练终止条件,在训练没有达到终止条件的情况下,可以从预设数据库中获取待挖掘数据,并对待挖掘数据集中的每个样本数据进行评估,进而确定出样本数据集,通过将该样本数据集和目标数据集再次进行合并,从而可以得到新的结果数据集,通过新的结果数据集对待训练模型进行重新训练,训练完成后用户再次查看是否满足终止条件,在满足终止条件时则训练终止,在不满足终止条件时可以可以重复上述步骤进行数据挖掘、合并、训练,直至满足终止条件,如此可以使得训练得到的模型效果更好。
如图6所示,上述步骤S41的具体实现方式包括:
S411、根据待训练模型对待挖掘数据集中的每个样本数据进行评估,得到评估结果;
S412、根据评估结果对每个样本数据进行排序,确定出多个评估结果中最优的样本数据;
S413、将多个最优的样本数据进行标注处理,确定出样本数据集。
在本实施例中,在主动学习中,可以通过主动学习中的查询函数查询出待挖掘数据集中对待训练模型下一步提升最优的样本数据,例如查询函数可以采用不确定性准则,不确定准则表示不确定性越大,包含的信息量也就越丰富,通过不确定性准则查询得到的样本数据,进而从中确定出对待训练模型提升最大的样本数据,将得到的样本数据进行评估计分,并可以根据评估计分的结果对多个样本数据进行排序,在排序完成后,可以从排序结果取topk个结果,即得到排序结果中的前K个,进而确定出多个评估结果中最优的样本数据,通过对未标注的样本数据进行标注,进而确定出样本数据集以合并至上述的目标数据集中,如此再次对待训练模型进行训练,使模型训练效果更好。
进一步的,上述步骤S413的具体实现方式包括:
步骤一,判断每个最优的样本数据是否包含标注信息;
步骤二,当最优的样本数据为不包含标注信息的第一类样本数据时,将第一类样本数据进行标注,得到标注完成的样本数据集;
步骤三,当最优的样本数据中包含标注信息的第二类样本数据时,将第二类样本数据更新至样本数据集。
在本实施例中,第一类样本数据是没有标注信息的样本数据,第二类样本数据为有标注信息的样本数据,在多个最优的样本数据中包含有标注时,则表示为第一类样本数据且不需要对其进行标注,在多个最优的样本数据中没有标注时,则表示为第二类样本数据并可以通过人工进行标注,然后将具有标注信息的样本数据集和目标数据集进行合并,然后再次对待训练模型进行训练,以提升模型的训练效果。
在一个可选的实施例中,上述步骤S20的具体实现方式还包括:
步骤一,对目标数据集标注第一前导符、第二前导符或第三前导符;
步骤二,将标注有第一前导符的目标数据集确定为第一目标数据集,将第一目标数据集作为训练集进行合并;
步骤三,将标注有第二前导符的目标数据集确定为第二目标数据集,将第二目标数据集作为验证集进行合并;
步骤四,将标注有第三前导符的目标数据集确定为第三目标数据集,将第三目标数据集作为测试集进行合并。
在本实施例中,前导符可以用于说明每个资源数据的作用,在合并目标数据集时,可以根据用户需求将每个目标数据集标注不同的前导符,通过第一前导符可以确定其对应的第一目标数据集可以作为训练集进行合并,在模型训练过程中,第一目标数据集则进行用于模型训练;通过第二前导符可以确定其对应的第二目标数据集可以作为验证集进行合并,在模型训练过程中,第二目标数据集则进行用于验证模型的训练效果;通过第三前导符可以确定其对应的第三目标数据集可以作为测试集进行合并,在模型训练完成后,第三目标数据集则可以用于测试模型的训练效果,使用户可以通过统一的方式进行模型训练,模型训练效果更好。
本发明实施例提供的模型训练方法,首先接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储资源数据时作为引用信息及标注集以指向对应的资源数据;将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;利用结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出模型;由此用户不需要对数据集格式进行修改,提升了数据集的整体可用性以及可靠性,提升产出数据模型的效率,使数据模型的效果提升更好,降低了用户对数据集的操作成本。
如图7所示,本发明实施例提供了一种模型训练装置10,包括:
筛选模块11,用于接收筛选命令对预设数据库中存储的原始数据进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储原始数据时作为引用信息及标注集以指向对应的原始数据;
合并模块12,用于将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;
训练模块13,用于利用结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出模型。
本发明实施例提供的模型训练装置10,首先接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储资源数据时作为引用信息及标注集以指向对应的资源数据;将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;利用结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出模型;由此用户不需要对数据集格式进行修改,提升了数据集的整体可用性以及可靠性,提升产出数据模型的效率,使数据模型的效果提升更好。
需要说明的是,本发明具体实施例提供的模型训练装置10为与上述模型训练方法对应的装置,上述模型训练方法的所有实施例均适用于该模型训练装置10,上述模型训练装置10实施例中均有相应的模块对应上述模型训练方法中的步骤,能达到相同或相似的有益效果,为避免过多重复,在此不对模型训练装置2中的每一模块进行过多赘述。
如图8所示,本发明的具体实施例还提供了一种电子设备20,包括存储器202、处理器201以及存储在存储器202中并可在处理器201上运行的计算机程序,该处理器201执行计算机程序时实现上述的模型训练方法的步骤。
具体的,处理器201用于调用存储器202存储的计算机程序,执行如下步骤:
接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;原始数据集中包含元数据和资源数据,元数据用于在存储资源数据时作为引用信息及标注集以指向对应的资源数据;
将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;
利用结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出模型。
可选的,处理器201执行的接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集包括:
根据筛选命令确定对应的第一类关键字和/或第二类关键字;
判断原始数据集中的数据是否包含第一类关键字和/或第二类关键字,以得到判断结果;
根据判断结果确定对应的数据以得到多个目标数据集。
可选的,预设策略包括第一合并策略、第二合并策略及第三合并策略;处理器201执行的将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集包括:
在预设策略为第一合并策略的情况下,在合并至少两个目标数据集中的相同资源数据时,将第一个资源数据作为结果进行合并;
在预设策略为第二合并策略的情况下,在合并至少两个目标数据集中的相同资源数据时,将最后一个资源数据作为结果进行合并;
在预设策略为第三合并策略的情况下,在合并至少两个目标数据集中的相同资源数据时,确定终止合并。
可选的,处理器201执行的将多个目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集,还包括:
对目标数据集标注第一前导符、第二前导符或第三前导符;
将标注有第一前导符的目标数据集确定为第一目标数据集,将第一目标数据集作为训练集进行合并;
将标注有第二前导符的目标数据集确定为第二目标数据集,将第二目标数据集作为验证集进行合并;
将标注有第三前导符的目标数据集确定为第三目标数据集,将第三目标数据集作为测试集进行合并。
可选的,处理器201执行的模型训练方法,还包括:
从预设数据库中确定出对应的待挖掘数据集;
基于主动学习从待挖掘数据集中确定出样本数据集;
将样本数据集合并至目标数据集中,得到新的结果数据集;
根据新的结果数据集对模型进行重复训练,直至满足预设终止条件。
可选的,处理器201执行的基于主动学习从待挖掘数据集中确定出样本数据集包括:
根据模型对待挖掘数据集中的每个样本数据进行评估,得到评估结果;
根据评估结果对每个样本数据进行排序,确定出多个评估结果中最优的样本数据;
将多个最优的样本数据进行标注处理,确定出样本数据集。
可选的,处理器201执行的将多个最优的样本数据进行标注处理,确定出样本数据集包括:
判断每个最优的样本数据是否包含标注信息;
当最优的样本数据为不包含标注信息的第一类样本数据时,将第一类样本数据进行标注,得到标注完成的样本数据集;
当最优的样本数据中包含标注信息的第二类样本数据时,将第二类样本数据更新至样本数据集。
即,在本发明的具体实施例中,电子设备20的处理器201执行计算机程序时实现上述模型训练方法的步骤,由此用户不需要对数据集格式进行修改,提升了数据集的整体可用性以及可靠性,提升产出数据模型的效率,使数据模型的效果提升更好,降低了用户对数据集的操作成本。
需要说明的是,由于电子设备20的处理器201执行计算机程序时实现上述模型训练方法的步骤,因此上述模型训练方法的所有实施例均适用于该电子设备20,且均能达到相同或相似的有益效果。
本发明实施例中提供的计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的模型训练方法或应用端模型训练方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;所述原始数据集中包含元数据和资源数据,所述元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据;
将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;
利用所述结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出所述模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集包括:
根据所述筛选命令确定对应的第一类关键字和/或第二类关键字;
判断所述原始数据集中的数据是否包含所述第一类关键字和/或所述第二类关键字,以得到判断结果;
根据所述判断结果确定对应的数据以得到多个目标数据集。
3.根据权利要求1所述的模型训练方法,其特征在于,所述预设策略包括第一合并策略、第二合并策略及第三合并策略;所述将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集包括:
在所述预设策略为第一合并策略的情况下,在合并至少两个所述目标数据集中的相同资源数据时,将第一个资源数据作为结果进行合并;
在所述预设策略为第二合并策略的情况下,在合并至少两个所述目标数据集中的相同资源数据时,将最后一个资源数据作为结果进行合并;
在所述预设策略为第三合并策略的情况下,在合并至少两个所述目标数据集中的相同资源数据时,确定终止合并。
4.根据权利要求3所述的模型训练方法,其特征在于,所述将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集,还包括:
对所述目标数据集标注第一前导符、第二前导符或第三前导符;
将标注有第一前导符的所述目标数据集确定为第一目标数据集,将所述第一目标数据集作为训练集进行合并;
将标注有第二前导符的所述目标数据集确定为第二目标数据集,将所述第二目标数据集作为验证集进行合并;
将标注有第三前导符的所述目标数据集确定为第三目标数据集,将所述第三目标数据集作为测试集进行合并。
5.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法,还包括:
从所述预设数据库中确定出对应的待挖掘数据集;
基于主动学习从所述待挖掘数据集中确定出样本数据集;
将所述样本数据集合并至所述目标数据集中,得到新的结果数据集;
根据所述新的结果数据集对所述模型进行重复训练,直至满足预设终止条件。
6.根据权利要求5所述的模型训练方法,其特征在于,所述基于主动学习从所述待挖掘数据集中确定出样本数据集包括:
根据所述模型对所述待挖掘数据集中的每个样本数据进行评估,得到评估结果;
根据所述评估结果对每个所述样本数据进行排序,确定出多个评估结果中最优的样本数据;
将所述多个最优的样本数据进行标注处理,确定出样本数据集。
7.根据权利要求6所述的模型训练方法,其特征在于,所述将所述多个最优的样本数据进行标注处理,确定出样本数据集包括:
判断每个最优的样本数据是否包含标注信息;
当所述最优的样本数据为不包含标注信息的第一类样本数据时,将所述第一类样本数据进行标注,得到标注完成的样本数据集;
当所述最优的样本数据中包含标注信息的第二类样本数据时,将所述第二类样本数据更新至所述样本数据集。
8.一种模型训练装置,其特征在于,包括:
筛选模块,用于接收筛选命令对预设数据库中存储的原始数据集进行筛选,得到多个目标数据集;所述原始数据集中包含元数据和资源数据,所述元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据;
合并模块,用于将多个所述目标数据集按照预设策略进行合并,并根据合并结果确定出结果数据集;
训练模块,用于利用所述结果数据集对待训练模型进行训练,并在满足预设终止条件时,终止训练输出所述模型。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的模型训练方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型训练方法的步骤。
CN202111391307.5A 2021-11-23 2021-11-23 模型训练方法、装置、电子设备及存储介质 Pending CN114185962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111391307.5A CN114185962A (zh) 2021-11-23 2021-11-23 模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111391307.5A CN114185962A (zh) 2021-11-23 2021-11-23 模型训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114185962A true CN114185962A (zh) 2022-03-15

Family

ID=80602354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111391307.5A Pending CN114185962A (zh) 2021-11-23 2021-11-23 模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114185962A (zh)

Similar Documents

Publication Publication Date Title
CN109741332B (zh) 一种人机协同的图像分割与标注方法
CN108416003A (zh) 一种图片分类方法和装置、终端、存储介质
CN105117387B (zh) 一种智能机器人交互系统
CN109360550A (zh) 语音交互系统的测试方法、装置、设备和存储介质
WO2019242442A1 (zh) 基于多模型特征的恶意软件识别方法、系统及相关装置
CN111949522B (zh) 用户界面自动化测试方法及装置
CN110163268A (zh) 一种图像处理方法、装置及服务器、存储介质
CN107798082B (zh) 一种文件标签的处理方法及装置
WO2019095899A1 (zh) 素材标注方法以及装置、终端和计算机可读存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN114185962A (zh) 模型训练方法、装置、电子设备及存储介质
CN110413795A (zh) 一种数据驱动的专业知识图谱构建方法
CN115185625A (zh) 基于可配置卡片的自推荐式界面更新方法及其相关设备
CN115129902A (zh) 媒体数据处理方法、装置、设备及存储介质
CN110471721A (zh) 页面展示方法及系统、电子设备和存储介质
CN114493360A (zh) 基于rpa和ai的流程创意评估方法、装置、设备及介质
CN114969544A (zh) 基于热点数据的推荐内容生成方法、装置、设备及介质
CN112948251A (zh) 软件自动测试方法及装置
CN113033536A (zh) 工作笔记生成方法及装置
CN113515280A (zh) 页面代码生成方法、装置
CN111091198A (zh) 一种数据处理方法及装置
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
CN117668671B (zh) 一种基于机器学习的教育资源治理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination