CN114580517A - 一种图像识别模型的确定方法及装置 - Google Patents

一种图像识别模型的确定方法及装置 Download PDF

Info

Publication number
CN114580517A
CN114580517A CN202210187143.2A CN202210187143A CN114580517A CN 114580517 A CN114580517 A CN 114580517A CN 202210187143 A CN202210187143 A CN 202210187143A CN 114580517 A CN114580517 A CN 114580517A
Authority
CN
China
Prior art keywords
model
data set
training
preset
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210187143.2A
Other languages
English (en)
Inventor
胡晓纤
黄轩
赵智维
王孝宇
陈宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intellifusion Technologies Co Ltd filed Critical Shenzhen Intellifusion Technologies Co Ltd
Priority to CN202210187143.2A priority Critical patent/CN114580517A/zh
Publication of CN114580517A publication Critical patent/CN114580517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别模型的确定方法及装置,该图像识别模型的确定方法包括:获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型;通过所述初始数据集对所述待训练模型进行训练,得到原始模型;获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本;在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型。本发明生成的图像识别模型可以筛选出海量无标签的数据或者重复性高的冗余数据中的有效数据,减低了人工标注的成本,提高了开发效率。

Description

一种图像识别模型的确定方法及装置
技术领域
本发明涉及计算机科学技术领域,具体涉及一种图像识别模型的确定方法及装置。
背景技术
随着人工智能技术的发展与进步,人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,极大地方便了人们的工作和生活。人工智能应用在产品落地过程中相当依赖高质量的有效数据,但在实际场景中,存在的都是海量无标签的数据或者重复性高的冗余数据需要处理。
目前对于这一类海量无标签的数据或者重复性高的冗余数据主要是通过外包给第三方标注系统进行标注,但是该标注方法人力的成本会非常高。即便是有一些图像识别模型,但是在模型训练、挖掘过程中经常面临深度学习算法框架的选择,需要算法人员对各类算法框架有比较深入的了解才能根据数据集的特性来选择合适的算法框架。缺乏人工智能专业知识的用户,在算法框架选择时常常面临困难。
发明内容
因此,本发明为了解决目前海量无标签的图像数据或者重复性高的图像数据筛选过程消耗人力成本高的问题,从而提供一种图像识别模型的确定方法及装置。
为实现上述目的,本发明采用如下技术方案:
本发明实施例提供了一种图像识别模型的确定方法,包括:获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型;通过所述初始数据集对所述待训练模型进行训练,得到原始模型;获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本;在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型。
本发明通过获取标注后的初始数据集,再根据该初始数据集中训练样本的样本信息,配置待训练模型,进而通过初始数据集对待训练模型进行训练得到原始模型,再结合获取的扩展数据集,并利用原始模型以及预设的挖掘算法,从扩展数据集中筛选出指定数量的优化样本,最后对优化样本进行标注,利用标注后的优化样本对原始模型再次进行训练,得到优化后的图像识别模型。本发明得到的图像识别模型在实际应用中可以对无标签的图像数据以及重复性高的图像数据进行筛选,得到具有标签以及重复性低的高质量的有效数据,进而利用有效数据进行人工智能应用模型的开发,提高人工智能应用的开发效率。
可选地,所述标注后的初始数据集按照以下方式获取:采集图像数据,并利用预设的去重规则集,对所述图像数据进行去重处理;通过创建的标注任务,对去重处理后的图像数据进行标注,生成标注后的初始数据集。
本发明通过对采集的图像数据进行基于规则集的去重处理,并对去重处理后的图像数据进行标注,减少图像数据中相似度高的初始数据,降低后续对待训练模型训练的成本。
可选地,所述初始数据集中训练样本的样本信息,包括:所述训练样本中正样本和负样本的平衡性、所述初始数据集的大小以及各类标签在所述初始数据集中的占比。
可选地,所述根据所述初始数据集中训练样本的样本信息,配置待训练模型,包括:根据所述初始数据集中训练样本的样本信息,配置所述待训练模型的超参数、算法框架和骨干网络层数。
本发明可以通过结合训练样本的正样本和负样本的平衡性、初始数据集的大小以及各类标签在初始数据集中的占比,配置待训练模型的超参数、待训练模型的算法框架,以及待训练模型的骨干网络层数。本发明通过利用训练样本的正样本和负样本的平衡性、初始数据集的大小以及各类标签在初始数据集中的占比,可以更精准的完成对待训练模型的超参数、算法框架,以及骨干网络层数的配置,提高该待训练模型的适用性。
可选地,所述获取扩展数据集,包括:判断完成当前训练轮次后的所述原始模型是否满足预设训练标准;当所述原始模型不满足所述预设训标准时,获取所述扩展数据集。
可选地,所述原始模型不满足所述预设训练标准包括:当所述原始模型迭代训练的次数未达到预设的次数,或者所述原始模型的模型精度未达到预设的模型精度时,确定所述原始模型不满足所述预设训练标准。
本发明通过判断训练后得到的原始模型是否满足预设的条件,当该原始模型不符合预设的训练标准时,获取扩展数据集,再使用该扩展数据集对原始模型进行优化;当该原始模型符合预设的训练标准时,可以直接使用该原始模型进行图像识别。
可选地,所述预设挖掘算法基于所述扩展数据集的大小和所述指定数量确定;从所述扩展数据集中筛选出指定数量的优化样本,包括:将所述扩展数据集中的各个扩展样本输入到所述原始模型中,得到各个所述扩展样本的评分信息;通过所述预设挖掘算法,按照所述评分信息对各个所述扩展样本进行排序,并从排序后的扩展样本中筛选出指定数量的优化样本。
本发明可以根据扩展数据集的大小以及扩展数据集中优化样本的指定数量选择合适的挖掘算法,便于对不满足预设训练标准的原始模型进行优化,并通过将扩展数据集输入到原始模型中进行处理,得到扩展数据集中各个扩展数据集的评分,再结合预设挖掘算法对扩展数据集中扩展样本进行排序,最终从排序后的扩展样本中筛选出指定数量的优化样本,并利用该优化样本对该原始模型进行优化,得到效果良好且用户满意的图像识别模型。
根据第二方面,本发明还公开了一种图像识别模型的确定方法装置,该装置包括:获取配置模块,用于获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型;模型训练模块,用于通过所述初始数据集对所述待训练模型进行训练,得到原始模型;获取筛选模块,用于获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本;迭代训练模块,用于在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型。
根据第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的图像识别模型的确定方法步骤。
根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的图像识别模型的确定方法步骤。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中图像识别模型的确定方法的流程示意图;
图2为本发明实施例中图像识别模型的确定方法的一个流程示意图;
图3为本发明实施例中图像识别模型的确定方法的另一个具体模块流程示意图;
图4为本发明实施例中图像识别模型的确定方法的另一个具体模块流程示意图;
图5为本发明实施例中一种图像识别模型的确定装置的结构示意图;
图6为本发明实施例中电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,在本申请说明书和所附权利要求书中使用的术语“及/和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。本发明实施例公开了一种图像识别模型的确定方法,如图1所示,该方法包括如下步骤:
步骤101,获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型。
具体的,获取标注后的初始数据集,包括:采集图像数据,利用预设的去重规则集,对图像数据进行去重处理,并通过创建的标注任务,对去重处理后的图像数据进行标注,生成标注后的初始数据集。
作为具体的实施方式,如图2所示,为了提高模型训练的效率,可以先利用预设的去重规则集,对采集的图像数据进行去重处理。具体地,该去重处理过程可以是获取图像数据中预设的标签体系。其中,预设的标签体系中的标签包括但不仅限于:摄像头ID、时间戳等。再利用预设的去重规则集对图像数据进行去重处理,剔除相似度较高的重复数据,后续可以通过创建标注任务的方式,利用第三方标注系统,对剩余的图像数据中不具备标签的图像数据进行标注,从而生成标注后的初始数据集。
其中,预设的去重规则集为数据规则定义的集合,数据规则包括但不仅限于:规则A:和已经保留的图像数据进行对比,不属于同一摄像头ID下拍摄的图像数据;规则B:和已经保留的图像数据进行对比,不属于同一时间戳下拍摄的图像数据。本发明中的规则可以为规则A和规则B或根据实际情况选择的其他对图像数据的筛选规则,本发明对此不作限定。
当利用预设的去重规则集对图像数据进行筛选时,基于预设的去重规则集的规则逻辑来评估数据,当图像数据中的数据1不符合规则A时,证明该数据1为异常数据,将该数据1进行删除;当图像数据中的数据2不符合规则B时,证明该数据2为异常数据,将该数据2进行删除;当图像数据中的数据3既满足A和B时,将该数据3进行保留,进而得到满足预设的去重规则集的图像数据,进而再将不具备标签的图像数据通过创建的标注任务,发送至第三方标注系统进行标注,最终得到具有重复性低的特点且带有标注的初始数据集。其中,带有标注的初始数据集中包含人脸的为正样本集,不包含人脸的为负样本集。
具体的,在得到具有重复性低特点且带有标注的初始数据集之后,根据初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型。
更具体的,在获取到初始数据集训练样本的样本信息之后,可以根据训练样本中正样本和负样本的平衡性,初始数据集中训练样本的大小以及各类标签在初始数据集中的占比,配置待训练模型的超参数、算法框架和骨干网络层数,从而完成待训练模型的配置过程。
其中,超参数、算法框架和骨干网络层数的组合可以作为训练方案,在实际应用中,不同的训练方案可以与不同的样本信息相互映射,这种映射关系就可以作为训练方案规则集。具体地,在识别出初始数据集中训练样本的样本信息后,可以从训练方案规则集中确定与该样本信息相映射的训练方案,并根据训练方案中的超参数、算法框架和骨干网络层数配置待训练模型。
作为具体的实施方式,可以根据训练样本中正样本和负样本的平衡性、初始数据集中训练样本的大小以及各类标签在初始数据集中的占比,配置待训练模型的学习率、正则化参数、神经网络的层数、每一个隐层中神经元的个数、学习的回合数、输出神经元的编码方式、代价函数的选择、权重初始化的方法、神经元激活函数的种类等等,以及对待训练模型的输入层、隐含层、输出层等进行配置,具体的,对隐含层的配置包括但不仅限于对卷积层、池化层、谱池层、全连接层等进行配置。通过对待训练模型的超参数、算法框架和骨干网络层数的配置,最终得到待训练模型。
步骤102,通过所述初始数据集对所述待训练模型进行训练,得到原始模型。
具体的,通过初始数据集对所述待训练模型进行训练,可以根据初始数据集中训练样本进行正向计算得到误差函数,反向求导梯度下降。例如可以采用最常用的神经网络训练方式反向传播算法进行训练,还可以使用其他神经网络训练算法,本发明对此不做限定。
步骤103,获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本。
考虑到初始数据集中训练样本的数量有限,训练得到的原始模型可能只适用于一些特定的场景。例如,初始数据集中的训练样本都是在室内环境下拍摄的人脸图像,那么训练得到的原始模型对于室内场景下的人脸识别精度会比较高,但对于室外场景下的人脸识别精度就不够高。鉴于此,在训练得到原始模型之后,可以利用训练样本更加丰富的扩展数据集,对原始模型进行进一步的优化训练,从而得到精度更高的模型。
具体地,在一个实施方式中,在完成当前训练轮次得到原始模型后,可以判断原始模型是否满足预设的训练标准,当该原始模型不满足预设的训练标准时,表明模型精度或者训练次数还未达标,此时可以进一步获取扩展数据集,并基于扩展数据集对原始模型继续进行优化训练;当该原始模型满足预设的训练标准时,则表明模型精度或者训练次数已经达标,此时可以停止训练,并将该原始模型作为图像识别模型进行输出。
需要说明的是,在实际应用中,原始模型可以通过多个轮次进行迭代训练,在每个轮次中,对原始模型进行训练的训练数据是保持不变的。只有当一个轮次结束之后,才会根据判断结果,确定是否基于扩展数据集对原始模型继续进行下个轮次的优化训练。在一个轮次内,会依次利用训练数据中的各个训练样本,对原始模型进行多次训练。在一个轮次内的多次训练的过程中,并不涉及判断原始模型是否满足预设的训练标准的步骤。
其中,判断原始模型是否满足预设的训练标准包括但不仅限于:判断该原始模型迭代训练的次数是否达到预设的次数,或者判断该原始模型的模型精度是否达到预设的模型精度。其中,这里的预设的次数,指的就是训练的轮次。
作为具体的实施方式,当原始模型迭代训练的次数未达到预设的次数,或者原始模型的模型精度未达到预设的模型精度时,确定原始模型不满足预设训练标准;当原始模型迭代训练的次数达到预设的次数,且原始模型的模型精度达到预设的模型精度时,可以确定原始模型满足所述预设训练标准。
当原始模型不满足预设的训练标准时,获取扩展数据集,将该扩展数据集中的各个扩展样本输入到原始模型中,得到扩展数据集中各个扩展样本的评分信息,进而利用预设挖掘算法按照评分信息对各个扩展样本进行排序,并从排序后的扩展样本中筛选出指定数量的优化样本。在实际应用中,预设挖掘算法可以通过挖掘算法规则集进行筛选。具体地,该挖掘算法规则集可以根据扩展数据集的大小和扩展数据集中筛选的优化样本的指定数量,来确定实际选用的预设挖掘算法。在实际应用中,预设挖掘算法例如可以包括C4.5算法、最大期望算法、Apriori算法等。根据实际的扩展数据集的大小以及最终需要筛选出的优化样本的数量,可以灵活地选用对应的挖掘算法。具体地,不同的预设挖掘算法,对扩展数据集的挖掘效率都各不相同。在实际应用中,可以建立预设挖掘算法与扩展数据集的大小和筛选出的优化样本的指定数量之间的映射关系。该映射关系可以遵循挖掘效率最大化的原则,即在保持扩展数据集的大小和优化样本的指定数量不变的情况下,将挖掘效率最大的预设挖掘算法,作为映射得到的挖掘算法。这样,通过改变扩展数据集的大小和优化样本的指定数量,可以映射得到不同的预设挖掘算法。最终,通过识别当前实际的扩展数据集的大小和优化样本的指定数量,可以从遵循挖掘效率最大化原则的映射关系中,查找到对应的预设挖掘算法。该遵循挖掘效率最大化原则的映射关系,就可以作为实际的挖掘算法规则集。
作为具体的实施方式,当原始模型不满足预设的训练标准时,获取扩展数据集,将该扩展数据集输入到原始模型中,由原始模型对扩展数据集中的扩展样本进行评分,得到扩展数据集中扩展样本的评分信息,再结合数据挖掘算法对扩展样本进行排序,筛选出扩展数据集中排序靠前的指定数量的优化样本。
在实际场景中,经常会存在未标注的数据过多的情况,针对这些图片数据一一进行人工标注耗时过长,且质量难以保证。本发明通过利用原始模型对扩展数据集进行评分,根据扩展数据集的、数据集大小来推荐挖掘算法,判断哪些是对优化原始模型最有利的数据并保留,这种方式能够大幅度降低标注的工作量,进而完成后续模型训练的过程,最终的得到用户满意的模型。
步骤104,在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型。
在筛选出扩展数据集中评分较高的指定数量的优化样本之后,将该指定数量的优化样本交由第三方标注系统进行标注,得到标注后的优化样本,进而利用标注后的优化样本对原始模型再次进行训练,得到优化后的图像识别模型。判断该优化后的图像识别模型是否满足预设的标准,当该优化后的图像识别模型不满足预设的标准时,再次对该图像识别模型进行迭代训练,直至得到最优的模型作为图像识别模型。
其中,该预设的标准包括但不仅限于:某一次迭代训练时,模型的图像识别效果低于上一次训练得到的模型的图像识别效果,可以避免图像识别模型训练的过拟合;图像识别模型的训练次数达到预设的次数,该预设的次数可以由用户自定义;图像识别模型的模型精度达到预设的精度,该预设的精度可以由用户自定义。
示例性的,作为本发明的一种可选实施方式,如图3和图4所示,获取图像数据,将该图像数据输入到预设的规则集中,通过预设的规则集对图像数据进行去重处理,得到去重处理后的图像数据,再将去重处理后的图像数据输入到第三方标注系统,完成对该筛选后的图像数据的标注,得到标注后的初始数据集A,进而根据标注后的初始数据集A,配置待训练模型的超参数、算法框架和骨干网络层数,进而基于初始数据集A对待训练模型进行训练,得到模型1。
判断该模型1是否符合预设的标准,当模型1符合预设的标准时,将该模型1作为图像识别模型进行输出,结束训练过程;
当该模型1不符合预设的标准时,如图4所示,导入数据集B,利用数据集B输入到模型1中,得到数据B中扩展样本的评分,再结合挖掘算法筛选出数据集B中排序靠前的优化样本生成数据集B1。
进而,将已经生成的数据集B1交由第三方标注系统进行标注,得到标注后的数据集B2,再将数据集B2输入到模型1中对模型1进行迭代训练,得到优化后的模型2,经过多次迭代训练,直至得到最优的模型n,将该模型n作为图像识别模型进行输出。
本发明得到的图像识别模型在实际应用中可以对无标签的图像数据以及重复性高的图像数据进行筛选,得到具有标签以及重复性低的高质量的有效数据集,降低了人工标注的成本,进而利用有效数据进行人工智能应用模型的开发,提高人工智能应用的开发效率。
本发明还提供了一种图像识别模型的确定装置,如图5所示,该装置包括:
获取配置模块51,用于获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型,详细内容参考步骤101所述;
模型训练模块52,用于通过所述初始数据集对所述待训练模型进行训练,得到原始模型,详细内容参考步骤101所述;
获取筛选模块53,用于获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本,详细内容参考步骤101所述;
迭代训练模块54,用于在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型,详细内容参考步骤101所述。
本发明实施例还提供了一种电子设备,如图6所示,该电子设备可以包括处理器601和存储器602,其中处理器601和存储器602可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器601可以为中央处理器(Central ProceAAing Unit,CPU)。处理器601还可以为其他通用处理器、数字信号处理器(Digital AignalProceAAor,DAP)、专用集成电路(Application Apecific Integrated Circuit,AAIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器602作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的图像识别模型的确定方法装置按键屏蔽方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的图像识别模型的确定方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器601所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至处理器601。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器602中,当被所述处理器601执行时,执行如图1-4所示实施例中的图像识别模型的确定方法。
上述电子设备具体细节可以对应参阅图1-4所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AcceAAMemory,RAM)、快闪存储器(FlaAhMemory)、硬盘(Hard DiAk Drive,缩写:HDD)或固态硬盘(Aolid-Atate Drive,AAD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种图像识别模型的确定方法,其特征在于,所述方法包括:
获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型;
通过所述初始数据集对所述待训练模型进行训练,得到原始模型;
获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本;
在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述标注后的初始数据集按照以下方式获取:
采集图像数据,并利用预设的去重规则集,对所述图像数据进行去重处理;
通过创建的标注任务,对去重处理后的图像数据进行标注,生成标注后的初始数据集。
3.根据权利要求1所述的方法,其特征在于,所述初始数据集中训练样本的样本信息,包括:
所述训练样本中正样本和负样本的平衡性、所述初始数据集的大小以及各类标签在所述初始数据集中的占比。
4.根据权利要求1所述的方法,其特征在于,所述根据所述初始数据集中训练样本的样本信息,配置待训练模型,包括:
根据所述初始数据集中训练样本的样本信息,配置所述待训练模型的超参数、算法框架和骨干网络层数。
5.根据权利要求1所述的方法,其特征在于,所述获取扩展数据集包括:
判断完成当前训练轮次后的所述原始模型是否满足预设训练标准;
当所述原始模型不满足所述预设训练标准时,获取所述扩展数据集。
6.根据权利要求5所述的方法,其特征在于,所述原始模型不满足所述预设训练标准包括:
当所述原始模型迭代训练的次数未达到预设的次数,或者所述原始模型的模型精度未达到预设的模型精度时,确定所述原始模型不满足所述预设训练标准。
7.根据权利要求1所述的方法,其特征在于,所述预设挖掘算法基于所述扩展数据集的大小和所述指定数量确定;
从所述扩展数据集中筛选出指定数量的优化样本,包括:
将所述扩展数据集中的各个扩展样本输入到所述原始模型中,得到各个所述扩展样本的评分信息;
通过所述预设挖掘算法,按照所述评分信息对各个所述扩展样本进行排序,并从排序后的扩展样本中筛选出指定数量的优化样本。
8.一种图像识别模型的确定装置,其特征在于,所述装置包括:
获取配置模块,用于获取标注后的初始数据集,并根据所述初始数据集中训练样本的样本信息,通过训练方案规则集,配置待训练模型;
模型训练模块,用于通过所述初始数据集对所述待训练模型进行训练,得到原始模型;
获取筛选模块,用于获取扩展数据集,基于挖掘算法规则集确定预设挖掘算法,并利用所述原始模型和所述预设挖掘算法,从所述扩展数据集中筛选出指定数量的优化样本;
迭代训练模块,用于在所述优化样本被标注后,利用标注后的优化样本对所述原始模型再次进行训练,得到优化后的图像识别模型。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-7任一所述的图像识别模型的确定方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序呗处理器执行时实现如权利要求1-7任一所述的图像识别模型的确定方法的步骤。
CN202210187143.2A 2022-02-28 2022-02-28 一种图像识别模型的确定方法及装置 Pending CN114580517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210187143.2A CN114580517A (zh) 2022-02-28 2022-02-28 一种图像识别模型的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210187143.2A CN114580517A (zh) 2022-02-28 2022-02-28 一种图像识别模型的确定方法及装置

Publications (1)

Publication Number Publication Date
CN114580517A true CN114580517A (zh) 2022-06-03

Family

ID=81777002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210187143.2A Pending CN114580517A (zh) 2022-02-28 2022-02-28 一种图像识别模型的确定方法及装置

Country Status (1)

Country Link
CN (1) CN114580517A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412346A (zh) * 2022-08-30 2022-11-29 重庆长安汽车股份有限公司 一种报文检测方法、装置、电子设备及存储介质
CN115510330A (zh) * 2022-11-01 2022-12-23 潍坊医学院附属医院 基于数据挖掘的信息智能处理方法及系统
CN115412346B (zh) * 2022-08-30 2024-06-04 重庆长安汽车股份有限公司 一种报文检测方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412346A (zh) * 2022-08-30 2022-11-29 重庆长安汽车股份有限公司 一种报文检测方法、装置、电子设备及存储介质
CN115412346B (zh) * 2022-08-30 2024-06-04 重庆长安汽车股份有限公司 一种报文检测方法、装置、电子设备及存储介质
CN115510330A (zh) * 2022-11-01 2022-12-23 潍坊医学院附属医院 基于数据挖掘的信息智能处理方法及系统

Similar Documents

Publication Publication Date Title
CN109741332B (zh) 一种人机协同的图像分割与标注方法
CN109740657B (zh) 一种用于图像数据分类的神经网络模型的训练方法与设备
CN110188227B (zh) 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN108681752B (zh) 一种基于深度学习的图像场景标注方法
CN110147700B (zh) 视频分类方法、装置、存储介质以及设备
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN109389037B (zh) 一种基于深度森林和迁移学习的情感分类方法
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
JP2017224027A (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
CN112507901A (zh) 一种基于伪标签自纠正的无监督行人重识别方法
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
WO2023284465A1 (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN111047563A (zh) 一种应用于医学超声图像的神经网络构建方法
CN111259812B (zh) 基于迁移学习的内河船舶重识别方法、设备及存储介质
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN112861659A (zh) 一种图像模型训练方法、装置及电子设备、存储介质
CN114580517A (zh) 一种图像识别模型的确定方法及装置
CN112836755B (zh) 基于深度学习的样本图像生成方法及其系统
CN112528058B (zh) 基于图像属性主动学习的细粒度图像分类方法
WO2024040941A1 (zh) 神经网络结构搜索方法、装置及存储介质
CN112541469B (zh) 基于自适应分类的人群计数方法及系统
CN115294405A (zh) 农作物病害分类模型的构建方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination