CN115131631A - 图像识别模型训练方法、装置、计算机设备和存储介质 - Google Patents

图像识别模型训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115131631A
CN115131631A CN202210896895.6A CN202210896895A CN115131631A CN 115131631 A CN115131631 A CN 115131631A CN 202210896895 A CN202210896895 A CN 202210896895A CN 115131631 A CN115131631 A CN 115131631A
Authority
CN
China
Prior art keywords
target
recognition
training
image
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210896895.6A
Other languages
English (en)
Inventor
戴晶帼
陈�光
苏新铎
叶鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking Equipment Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202210896895.6A priority Critical patent/CN115131631A/zh
Publication of CN115131631A publication Critical patent/CN115131631A/zh
Priority to PCT/CN2022/128994 priority patent/WO2024021350A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像识别模型训练方法、装置、计算机设备和存储介质。本申请能够根据实际情况模拟出满足相应的全局非独立同分布程度值的训练样本进行训练,在兼顾隐私安全的同时,提高训练准确率。该方法包括:从主节点获取全量训练样本图像集合和全局非独立同分布程度值;全量训练样本图像集合中包括多种识别对象;确定本地的目标识别对象,并计算全量训练样本图像集合中每种识别对象的初始数量;基于预设的数据构造规则,根据全局非独立同分布程度值,计算得到每种目标识别对象的目标数量;根据每种目标识别对象的目标数量,构造目标训练样本图像集合;利用目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。

Description

图像识别模型训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像识别模型训练方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,深度神经网络被用于各行各业。在图像识别领域,可通过事先标记的图像样本对深度神经网络模型进行训练,使得训练后的深度神经网络模型能够识别出待识别图像中出现的各种目标,例如识别出待识别图像中的人、汽车、猫、狗等。
在模型训练过程中,通常是先收集训练样本,对训练样本进行标注,使用带标注的训练样本对模型进行训练。现有的分布式训练方法中,通常是假设不同本地设备(即边缘端)上的训练样本中各种目标数量满足独立同分布的假设条件,即各设备上收集到的样本的目标数量分布相互独立、互不影响,且满足同一种概率分布属性。
然而,在现实应用过程中,由于实际环境的不同,导致不同设备(即边缘端)上收集到的训练样本中的待识别目标具有不同的分布属性,甚至高度偏态,例如普通居民街道上的摄像头采集的图像中,行人和自行车占据较大比例,而在高速公路上的摄像头采集到的图像中行人和自行车较少,各种类型的汽车更多。还例如,某些特色服饰只会出现在少数民族区域或特定国家,某类动物只会出现在特定区域的动物园监控摄像头中,而如果在图像识别模型的训练过程中,采用上述理想的独立同分布的样本进行分布式模型训练,获得的模型识别准确率不够高,另一方面,在现实中受到数据收集场景的局限,例如,考虑到隐私保护和数据安全的现实问题,无法收集边缘端上产生的历史实际数据,因此,在边缘端上使用历史数据训练得到的模型无法适用于当前场景,适应性不够高。
发明内容
基于此,有必要针对上述技术问题,提供一种图像识别模型训练方法、装置、计算机设备和存储介质。
一种图像识别模型训练方法,所述方法包括:
从主节点获取全量训练样本图像集合以及全局非独立同分布程度值;所述全量训练样本图像集合中包括多种识别对象;
确定本地的目标识别对象,并计算所述全量训练样本图像集合中每种所述识别对象的初始数量;
基于预设的数据构造规则,根据所述全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;
根据所述每种目标识别对象的目标数量,构造目标训练样本图像集合;
利用所述目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。
在其中一个实施例中,所述目标识别对象包括主类识别对象和次类识别对象;所述基于预设的数据构造规则,根据所述全局非独立同分布程度值和所述每种识别对象的初始数量,计算得到每种目标识别对象的目标数量,包括:
确定本地的所述主类识别对象和所述次类识别对象;
根据预设的数据构造规则,根据所述全局非独立同分布程度值,分别计算所述主类识别对象的目标数量和所述次类识别对象的目标数量;其中,所述主类识别对象在本地对象类别中数量占比最大。
在其中一个实施例中,所述确定本地的所述主类识别对象和所述次类识别对象,包括:
接收用户预设命令,按照用户预设命令生成所述主类识别对象和所述次类识别对象。
在其中一个实施例中,所述根据预设的数据构造规则,基于所述全局非独立同分布程度值,分别计算所述主类识别对象的目标数量和所述次类识别对象的目标数量,包括:
根据所述预设的数据构造规则,计算每种目标识别对象的目标数量为:
Figure BDA0003769250180000031
其中,i表示第i种目标识别对象,total_num_label(i)表示第i种目标识别对象的目标数量。当第i种目标识别对象是主类识别对象时,其目标数量由两部分组成:num_basic_part(i)和num_label(i),其中num_basic_part(i)表示第i种目标识别对象的基础目标数量,num_label(i)表示第i种目标识别对象的附加目标数量;当第i种目标识别对象是次类识别对象时,其目标数量仅由附加目标数量num_label(i)构成。
在其中一个实施例中,所述全局非独立同分布程度值的取值范围为R∈[0,1],其中,R为全局非独立同分布程度值。
一种图像识别方法,所述方法包括:
获取待识别图像;所述待识别图像中包含目标识别对象中的至少一个;
利用上述任一种图像识别模型训练方法训练得到训练好的图像识别模型;
将所述待识别图像输入至所述训练好的图像识别模型,以识别出所述目标识别对象的类别。
一种图像识别模型训练装置,所述装置包括:
训练样本获取模块,用于从主节点获取全量训练样本图像集合以及全局非独立同分布程度值;所述全量训练样本图像集合中包括多种识别对象;
目标识别对象确定模块,用于确定本地的目标识别对象,并计算所述全量训练样本图像集合中每种所述识别对象的初始数量;
目标数量计算模块,用于基于预设的数据构造规则,根据所述全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;
目标训练样本构造模块,用于根据所述每种目标识别对象的目标数量,构造目标训练样本图像集合;
图像识别模型训练模块,用于利用所述目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。
一种图像识别装置,所述装置包括:
待识别图像获取模块,用于获取待识别图像;所述待识别图像中包含目标识别对象中的至少一个;
模型训练模块,用于上述任一种图像识别模型训练方法训练得到训练好的图像识别模型;
类别识别模块,用于将所述待识别图像输入至所述训练好的图像识别模型,以识别出所述目标识别对象的类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述图像识别模型训练方法实施例中的各步骤以及上述图像识别方法实施例中的各步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像识别模型训练方法实施例中的各步骤以及上述图像识别方法实施例中的各步骤。
一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述图像识别模型训练方法实施例中的各步骤以及上述图像识别方法实施例中的各步骤。
上述图像识别模型训练方法、装置、计算机设备和存储介质,包括从主节点获取全量训练样本图像集合和全局非独立同分布程度值;全量训练样本图像集合中包括多种识别对象;确定本地的目标识别对象,并计算全量训练样本图像集合中每种识别对象的初始数量;基于预设的数据构造规则,根据全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;根据每种目标识别对象的目标数量,构造目标训练样本图像集合;利用目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。本申请能够将任意一个用于分类任务的整体数据集(即上述主节点中的数据集)改造成满足一定全局非独立同分布程度的分布式目标训练样本集合。该分布式样本集合能够模拟出现实分布式机器学习场景中不同环境下各边缘端或终端设备采集到的异构数据集。基于上述构思,本申请能够考虑到实际场景中隐私保护和数据安全的需求,不需要收集各个场景下的历史实际数据,可根据实际情况模拟出满足相应的全局非独立同分布程度值的训练样本进行训练,在兼顾隐私安全的同时,提高训练准确率,提高模型适应性。
进一步地,目前的分布式数据集构造方法通常仅限于按照类别划分整体数据集,即不同设备拥有的目标类别不同,这类方法生成的分布式数据集并未包含实际场景中的其它非独立同分布情况,例如各设备收集到的数据目标类别都相同,但每个类别的数量不同。而本申请提出的数据集构造方法除了包含上述传统方法生成的不同设备包含不同类别数据的情况,还能够更加全面的涵盖各种不同的非独立同分布情况。因此使用这种方法构造的数据集对图像识别模型进行训练,能够更好地模拟出实际场景中非独立同分布数据集训练上述模型的效果。这样做的好处是:一方面不需要企业或组织提供真实场景下的分布式数据集,降低泄露隐私的风险;另一方面,通过本申请提供的数据集构造方法可以生成满足各种不同非独立同分布情况的分布式数据集,在此基础上训练目标识别算法模型,能够更加全面地了解不同偏态情况下的数据集对分布式训练获得的模型效果的影响,从而起到指导作用,根据上述模型预测结果,更准确地对实际场景中的模型进行调参或训练方案选择,提高模型训练效率,降低试错成本。
附图说明
图1为一个实施例中图像识别模型训练方法的应用环境图;
图2为一个实施例中图像识别模型训练方法的流程示意图;
图3为一个实施例中图像识别方法的流程示意图;
图4为一个实施例中图像识别模型训练装置的结构框图;
图5为一个实施例中图像识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像识别模型训练方法,可以应用于如图1所示的应用环境中。其中,从节点101通过网络与主节点102进行通信。其中,从节点101用于获取待识别图像并对图像中的对象进行识别,从节点可以是位于不同场景下的从节点各种摄像装置或其他传感装置,主节点102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种图像识别模型训练方法,以该方法应用于图1中的从节点101为例进行说明,包括以下步骤:
步骤S201,从主节点获取全量训练样本图像集合和全局非独立同分布程度值;全量训练样本图像集合中包括多种识别对象。
具体地,全量训练样本图像集合是指包含所有数据样本的集合,该全量训练样本图像集合中的每个识别对象都被标注了标签,例如对于其中的自行车、行人、汽车都被标注了对应的标签。
其中,非独立同分布程度值是指满足非独立同分布的程度,本申请中的非独立同分布是指样本的数据分布属性相互独立但分布不同,其中,分布不同体现在同一系统中不同节点上拥有的同一类别样本的数据量有差异,例如道路摄像识别体系中,公路摄像识别节点和社区摄像识别节点采集到的样本图像中,总共有3个类别:行人、非机动车和机动车。显然,公路摄像识别节点采集到的机动车图像数量远远高于其他两个类别的样本数量,而社区摄像识别节点获得的行人和非机动车样本图像数量远远多于机动车类别的数量。在类似于上述场景的检测节点中,获得的数据样本为高度偏态数据。
具体地,主节点确定全局非独立同分布程度值R,该数值R是用户根据实际需要灵活设置的,R∈[0,1]。整个系统包含一个主节点和多个从节点,整个系统中只有一个全局非独立同分布程度值R,表示一个系统中所有节点上的数据分布之间满足全局非独立同分布程度值R。
步骤S202,确定本地的目标识别对象,并计算上述全量训练样本图像集合中每种识别对象的初始数量。
具体地,从节点101确定本地的目标识别对象。目标识别对象也是由用户根据实际需要灵活设置的,例如公路上的摄像装置需要设置目标识别对象为机动车和行人。从节点101根据全量训练样本图像集合中每种识别对象的标签计算每种目标识别对象的初始数量ni(其中,i表示第i种类别)。
步骤S203,基于预设的数据构造规则,根据全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量。
其中,预设的数据构造规则是指如何构造全局非独立同分布程度值为R的数据集的规则。该规则如下:
以某一个拥有主类识别对象为j1,j2的图像识别节点
Figure BDA0003769250180000071
为例,对其进行数据分配(其它图像识别节点的数据分配方式相同),具体过程如下:
(1)从节点101确定本地的目标识别对象的主类类别为j1和j2,并从主节点上获取全局非独立同分布程度值为R。计算全量训练样本图像集中类别j1和类别j2对应的初始数量为
Figure BDA0003769250180000072
Figure BDA0003769250180000073
将类别标签分别为j1和j2
Figure BDA0003769250180000074
Figure BDA0003769250180000075
个数据同时分配给图像识别节点
Figure BDA0003769250180000076
其中,
Figure BDA0003769250180000077
为类别j1的初始数量;
Figure BDA0003769250180000078
为类别j2的初始数量;R为全局非独立同分布程度值;此时,
Figure BDA0003769250180000079
Figure BDA00037692501800000710
是基础目标数量num_basic_part(i)。
(2)在此基础上,对于每一个标签类别i=1,2,…d(d为该节点中目标识别对象的类别总数,例如行人、非机动车和机动车共3种目标识别对象,则d=3),将
Figure BDA00037692501800000711
个数据分配给
Figure BDA00037692501800000712
(其中ni为第i种类别的识别对象对应的初始数量,
Figure BDA00037692501800000713
分别为主类识别对象j1、j2在全量训练样本图像集合中的数量占比),则使用上述数据分配规则生成的数据集的集合,其全局非独立同分布程度的度量值是R。上述预设数据构造规则用公式A表达如下:
Figure BDA00037692501800000714
Figure BDA00037692501800000715
Figure BDA00037692501800000716
其中,当i为主类识别对象(例如主类识别对象j1或j2)时,每种主类识别对象的数量由两部分相加构成,第一部分为基础目标数量
Figure BDA00037692501800000717
Figure BDA0003769250180000081
第二部分为附加目标数量
Figure BDA0003769250180000082
是前述公式total_num_label中的第j1种或第j2种目标识别对象的目标数量中的第二个组成部分:剩余目标数量num_label的值。当i为次类识别对象时,则每种次类识别对象的数量为附加目标数量
Figure BDA0003769250180000083
上述规则的证明过程如下:
根据上述数据构造规则,对于任意从节点,即图像识别节点
Figure BDA0003769250180000084
其所拥有的每一个类别的目标识别对象对应的数据量为:
Figure BDA0003769250180000085
根据式(A.1),图像识别节点
Figure BDA0003769250180000086
上的总数据量为:
Figure BDA0003769250180000087
因为
Figure BDA0003769250180000088
Figure BDA0003769250180000089
因此式(A.2)可以变为:
Figure BDA00037692501800000810
基于式(A.1)和式(A.3)可知,主类j1在主类为j1、j2的图像识别节点
Figure BDA00037692501800000811
上的总样本中的数量占比
Figure BDA00037692501800000812
为:
Figure BDA0003769250180000091
因为
Figure BDA0003769250180000092
式(A.4)可变为:
Figure BDA0003769250180000093
同理,对于主类j2有:
Figure BDA0003769250180000094
对于标签类别i∈{1,2,…,d}/{j1,j2},有
Figure BDA0003769250180000095
因此,结合式(A.6)、式(A.7)和式(A.8),有
Figure BDA0003769250180000096
当两个图像识别节点拥有的两个主类都不相同时,假设图像识别节点
Figure BDA0003769250180000097
的主类为j11和j12,图像识别节点
Figure BDA0003769250180000101
的主类为j21和j22。考虑到需要计算以上两个节点上的数据分布差异,因此令节点
Figure BDA0003769250180000102
和节点
Figure BDA0003769250180000103
上d个类别的概率分布分别为
Figure BDA0003769250180000104
Figure BDA0003769250180000105
其中
Figure BDA0003769250180000106
Figure BDA0003769250180000107
根据式(A.9),有
Figure BDA0003769250180000108
式(A.10)中,||·||1表示L1范式。因此,对于任意两个拥有不同两个主类的节点,他们之间的数据概率分布之差的L1范式的值均为2R。根据R值计算公式:
Figure BDA0003769250180000109
其中K是系统中工作节点(设备)数量,Qk是第k个节点上拥有的数据的概率分布,基于式(A.10),有:
Figure BDA00037692501800001010
因此按照上述步骤生成的数据集,其非独立同分布程度为R。定理得证。
值得注意的是,由上述证明过程可知,若需生成非独立同分布程度为R的数据集,按照上述步骤要求每个从节点上的主类不重叠,但并不要求主类数目相同。
步骤S204,根据每种目标识别对象的目标数量,构造目标训练样本图像集合。
具体地,根据上述主类和次类的目标数量,从图像数据库中选取相应类别的图像,形成目标训练样本图像集合,并分配给本地节点;
步骤S205,利用目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。
具体地,利用上述重新构造的目标训练样本图像集合对相应的图像识别节点上所使用的模型进行训练,得到训练好的图像识别模型。其中图像识别模型可以是VGG(一种用于图像分类和定位问题的深度神经网络)、ResNet或MobileNet等深度神经网络模型。
上述实施例,通过从主节点获取全量训练样本图像集合和全局非独立同分布程度值;全量训练样本图像集合中包括多种识别对象;确定本地的目标识别对象,并计算全量训练样本图像集合中每种识别对象的初始数量;基于预设的数据构造规则,根据全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;根据每种目标识别对象的目标数量,构造目标训练样本图像集合;利用目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。本实施例能够将任意一个用于分类任务的整体数据集(即上述主节点中的数据集)改造成满足一定非独立同分布程度的分布式目标训练样本集合。该分布式样本集合能够模拟出现实分布式机器学习场景中不同环境下各边缘端或终端设备采集到的异构数据集。基于上述构思,本实施例能够考虑到实际场景中隐私保护和数据安全的需求,不需要收集各个场景下的历史实际数据,可根据实际情况模拟出满足相应的全局非独立同分布程度值的训练样本进行训练,在兼顾隐私安全的同时,提高训练准确率,提高模型适应性。
在一实施例中,本地的目标识别对象包括主类识别对象和次类识别对象;上述步骤S203,包括:确定本地的主类识别对象和次类识别对象;根据预设的数据构造规则,基于所述全局非独立同分布程度值,分别计算主类识别对象的目标数量和次类识别对象的目标数量;其中,主类识别对象在本地对象类别中数量占比最大。
具体地,首先,确定整个分布式训练系统中参与图像识别任务的从节点数量num_party,num_party∈[2,K]和全局非独立同分布程度值R,其中,R∈[0,1];确定各个从节点的主类识别对象和次类识别对象;计算全量训练样本图像集合中每一种识别对象的初始数量ni和相应的概率分布qi,i=1,2,……d,d为该全量训练样本图像集合中识别对象的种类数量,例如道路摄像识别体系中,总共有3个类别:行人、非机动车和机动车,则d=3;确定第k个从节点上主类识别对象的种类数num_major(k):
Figure BDA0003769250180000121
其中,num_major(k)是第k个从节点拥有的主类识别对象的种类数;d为该全量训练样本图像集合中识别对象的种类数;num_party为参与图像识别任务的节点数量。
对于任意从节点k,根据全局非独立同分布程度值R和全量训练样本图像集合中每一种识别对象的初始数量ni,计算第i个主类识别对象的基础目标数量num_basic_part(i):
num_basic_part(i)=R·ni
其中,R为全局非独立同分布程度值;ni为全量训练样本图像集合中第i种识别对象的初始数量。
计算每个类别的识别对象i对应的剩余样本数num_label_remain(i):
num_label_remain(i)=ni-num_basic_part(i)=ni-R·ni
接着,为本地节点k分配各类目标识别对象i的附加目标数量num_label(i):
Figure BDA0003769250180000131
其中,qi表示全量训练样本图像集合中第i种识别对象的概率分布;num_major(k)是第k个从节点拥有的主类识别对象的种类数;label_major(k,j)表示第k个从节点的第j个主类识别对象;num_label_remain(label_major(k,j))表示第k个从节点的第j个主类识别对象的剩余样本数;k∈[1,K],其中k表示第k个从节点;K表示总共有K个节点。
综上,第k个图像识别节点上的第i个类别的目标数量为:
Figure BDA0003769250180000132
上述实施例,通过预设的数据构造规则为从节点k分配不同目标识别对象对应的目标数量,为后续构造新的目标训练样本图像集合提供铺垫。
在一实施例中,上述确定本地的主类识别对象和次类识别对象,包括:
接收用户预设命令,按照用户预设命令生成主类识别对象和次类识别对象。
具体地,用户可为每一个从节点指定主类识别对象和次类识别对象。
可选地,上述主类识别对象和次类识别对象也可以由本地节点随机生成。
上述实施例,通过用户指令灵活设置主类识别对象和次类识别对象,能够提高系统的适应性。
在一实施例中,根据预设的数据构造规则,分别计算每种主类识别对象的目标数量和每种次类识别对象的目标数量,包括:根据所述预设的数据构造规则,计算每种目标识别对象的目标数量为:
Figure BDA0003769250180000133
其中,i表示第i种目标识别对象,total_num_label(i)表示第i种目标识别对象的目标数量。当第i种目标识别对象是主类识别对象时,其目标数量由两部分组成:num_basic_part(i)和num_label(i),其中前者表示第i种目标识别对象的基础目标数量,后者表示第i种目标识别对象的附加目标数量;当第i种目标识别对象是次类识别对象时,其目标数量仅由附加目标数量num_label(i)构成。
上述实施例,通过预设的数据构造规则为图像识别节点k上的不同样本类别分配目标数量,为后续构造新的目标训练样本图像集合提供铺垫。
在一实施例中,如图3所示,本申请还提供了一种图像识别方法,该方法包括:
步骤S301,获取待识别图像;该待识别图像中包含目标识别对象中的至少一个。
具体地,从节点101获取待识别图像;待识别图像中包含有目标对象,例如目标识别对象为行人。
步骤S302,利用上述图像识别模型训练方法训练得到训练好的图像识别模型。
具体地,利用上述图像识别模型训练方法训练得到训练好的图像识别模型。
步骤S303,将上述待识别图像输入至该训练好的图像识别模型,以识别出该目标识别对象的类别。
具体地,将上述待识别图像输入至该训练好的图像识别模型,以识别出目标识别对象的类别,例如识别出该待识别图像中包含有行人,则将该对象的标签用行人标注。
上述实施例,通过上述图像识别模型训练方法训练得到训练好的图像识别模型进行目标对象识别,能够提高目标对象识别的准确性。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种图像识别模型训练装置400,包括:训练样本获取模块401、目标识别对象确定模块402、目标数量计算模块403、目标训练样本构造模块404和图像识别模型训练模块405,其中:
训练样本获取模块401,用于从主节点获取全量训练样本图像集合以及全局非独立同分布程度值;所述全量训练样本图像集合中包括多种识别对象;
目标识别对象确定模块402,用于确定本地的目标识别对象,并计算所述全量训练样本图像集合中每种所述识别对象的初始数量;
目标数量计算模块403,用于基于预设的数据构造规则,根据所述全局非独立同分布程度值和所述每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;
目标训练样本构造模块404,用于根据所述每种目标识别对象的目标数量,构造目标训练样本图像集合;
图像识别模型训练模块405,用于利用所述目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。
在一实施例中,所述目标识别对象包括主类识别对象和次类识别对象;上述目标数量计算模块403,进一步用于,确定本地的所述主类识别对象和所述次类识别对象;根据预设的数据构造规则,基于所述全局非独立同分布程度值,分别计算所述主类识别对象的目标数量和所述次类识别对象的目标数量;其中,所述主类识别对象在本地对象类别中数量占比最大。
在一实施例中,上述目标数量计算模块403,进一步用于:接收用户预设命令,按照用户预设命令生成所述主类识别对象和所述次类识别对象。
在一实施例中,上述目标数量计算模块403,进一步用于,根据所述预设的数据构造规则,计算每种目标识别对象的目标数量为:
Figure BDA0003769250180000151
其中,i表示第i种目标识别对象,total_num_label(i)表示第i种目标识别对象的目标数量;当第i种目标识别对象是主类识别对象时,其目标数量由两部分组成:num_basic_part(i)和num_label(i),其中num_basic_part(i)表示第i种目标识别对象的基础目标数量,num_label(i)表示第i种目标识别对象的附加目标数量;当第i种目标识别对象是次类识别对象时,其目标数量仅由附加目标数量num_label(i)构成。
在一实施例中,所述全局非独立同分布程度值的取值范围为R∈[0,1],其中,R为全局非独立同分布程度值。
在一个实施例中,如图5所示,提供了一种图像识别装置500,包括:待识别图像获取模块501、模型训练模块502和类别识别模块503,其中:
待识别图像获取模块501,用于获取待识别图像;所述待识别图像中包含所述目标识别对象中的至少一个;
模型训练模块502,利用如上述图像识别模型训练方法实施例中的方法训练得到训练好的图像识别模型;
类别识别模块503,用于将所述待识别图像输入至所述训练好的图像识别模型,以检测出所述目标识别对象的类别。
关于图像识别模型训练装置和图像识别装置的具体限定可以参见上文中对于图像识别模型训练方法和图像识别方法的限定,在此不再赘述。上述图像识别模型训练装置和图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本数据以及识别结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别模型训练方法和图像识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上述图像识别模型训练方法实施例以及图像识别方法实施例中的各步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述图像识别模型训练方法实施例以及图像识别方法实施例中的各步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像识别模型训练方法,其特征在于,所述方法包括:
从主节点获取全量训练样本图像集合以及全局非独立同分布程度值;所述全量训练样本图像集合中包括多种识别对象;
确定本地的目标识别对象,并计算所述全量训练样本图像集合中每种所述识别对象的初始数量;
基于预设的数据构造规则,根据所述全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;
根据所述每种目标识别对象的目标数量,构造目标训练样本图像集合;
利用所述目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述目标识别对象包括主类识别对象和次类识别对象;所述基于预设的数据构造规则,根据所述全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量,包括:
确定本地的所述主类识别对象和所述次类识别对象;
根据预设的数据构造规则,基于所述全局非独立同分布程度值,分别计算所述主类识别对象的目标数量和所述次类识别对象的目标数量;其中,所述主类识别对象在本地对象类别中数量占比最大。
3.根据权利要求2所述的方法,其特征在于,所述确定本地的所述主类识别对象和所述次类识别对象,包括:
接收用户预设命令,按照用户预设命令生成所述主类识别对象和所述次类识别对象。
4.根据权利要求2所述的方法,其特征在于,所述根据预设的数据构造规则,基于所述全局非独立同分布程度值,分别计算所述主类识别对象的目标数量和所述次类识别对象的目标数量,包括:
根据所述预设的数据构造规则,计算每种目标识别对象的目标数量为:
Figure FDA0003769250170000011
其中,i表示第i种目标识别对象,total_num_label(i)表示第i种目标识别对象的目标数量;当第i种目标识别对象是主类识别对象时,其目标数量由两部分组成:num_basic_part(i)和num_label(i),其中num_basic_part(i)表示第i种目标识别对象的基础目标数量,num_label(i)表示第i种目标识别对象的附加目标数量;当第i种目标识别对象是次类识别对象时,其目标数量仅由附加目标数量num_label(i)构成。
5.根据权利要求1所述的方法,其特征在于,所述全局非独立同分布程度值的取值范围为R∈[0,1],其中,R为全局非独立同分布程度值。
6.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;所述待识别图像中包含目标识别对象中的至少一个;
利用如权利要求1至5任一项所述的图像识别模型训练方法训练得到训练好的图像识别模型;
将所述待识别图像输入至所述训练好的图像识别模型,以识别出所述目标识别对象的类别。
7.一种图像识别模型训练装置,其特征在于,所述装置包括:
训练样本获取模块,用于从主节点获取全量训练样本图像集合以及全局非独立同分布程度值;所述全量训练样本图像集合中包括多种识别对象;
目标识别对象确定模块,用于确定本地的目标识别对象,并计算所述全量训练样本图像集合中每种所述识别对象的初始数量;
目标数量计算模块,用于基于预设的数据构造规则,根据所述全局非独立同分布程度值和每种识别对象的初始数量,计算得到每种目标识别对象的目标数量;
目标训练样本构造模块,用于根据所述每种目标识别对象的目标数量,构造目标训练样本图像集合;
图像识别模型训练模块,用于利用所述目标训练样本图像集合对图像识别模型进行训练,得到训练好的图像识别模型。
8.一种图像识别装置,其特征在于,所述装置包括:
待识别图像获取模块,用于获取待识别图像;所述待识别图像中包含目标识别对象中的至少一个;
模型训练模块,用于利用如权利要求1至5任一项所述的图像识别模型训练方法训练得到训练好的图像识别模型;
类别识别模块,用于将所述待识别图像输入至所述训练好的图像识别模型,以识别出所述目标识别对象的类别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210896895.6A 2022-07-28 2022-07-28 图像识别模型训练方法、装置、计算机设备和存储介质 Pending CN115131631A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210896895.6A CN115131631A (zh) 2022-07-28 2022-07-28 图像识别模型训练方法、装置、计算机设备和存储介质
PCT/CN2022/128994 WO2024021350A1 (zh) 2022-07-28 2022-11-01 图像识别模型训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210896895.6A CN115131631A (zh) 2022-07-28 2022-07-28 图像识别模型训练方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115131631A true CN115131631A (zh) 2022-09-30

Family

ID=83386534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210896895.6A Pending CN115131631A (zh) 2022-07-28 2022-07-28 图像识别模型训练方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN115131631A (zh)
WO (1) WO2024021350A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024021350A1 (zh) * 2022-07-28 2024-02-01 广州广电运通金融电子股份有限公司 图像识别模型训练方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182691B1 (en) * 2014-08-14 2021-11-23 Amazon Technologies, Inc. Category-based sampling of machine learning data
CN110162627B (zh) * 2019-04-28 2022-04-15 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN113692589A (zh) * 2019-04-29 2021-11-23 西门子(中国)有限公司 分类模型训练方法、装置和计算机可读介质
US11651275B2 (en) * 2019-08-19 2023-05-16 International Business Machines Corporation Tree-based associative data augmentation
US11631029B2 (en) * 2019-09-09 2023-04-18 Adobe Inc. Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples
CN115131631A (zh) * 2022-07-28 2022-09-30 广州广电运通金融电子股份有限公司 图像识别模型训练方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024021350A1 (zh) * 2022-07-28 2024-02-01 广州广电运通金融电子股份有限公司 图像识别模型训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2024021350A1 (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
Tran-Thanh et al. Efficient budget allocation with accuracy guarantees for crowdsourcing classification tasks
CN112417273B (zh) 区域画像图生成方法、装置、计算机设备及存储介质
CN112232293A (zh) 图像处理模型训练、图像处理方法及相关设备
CN113673530B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN109635056B (zh) 用电地址数据处理方法、装置、计算机设备和存储介质
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN112770265B (zh) 一种行人身份信息获取方法、系统、服务器和存储介质
CN109474691B (zh) 一种物联网设备识别的方法及装置
CN115131631A (zh) 图像识别模型训练方法、装置、计算机设备和存储介质
CN110807409A (zh) 人群密度检测模型训练方法和人群密度检测方法
CN109359689B (zh) 一种数据识别方法及装置
CN113285960B (zh) 一种服务数据共享云平台的数据加密方法及系统
CN111914809A (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
CN115563117B (zh) 一种基于SaaS技术的多租户管理应用及其实现方法
CN115391596A (zh) 视频档案生成方法、装置及存储介质
CN113761033B (zh) 基于档案数字化管理的信息整理方法及系统
CN113255531B (zh) 活体检测模型的处理方法、装置、计算机设备和存储介质
CN113592902A (zh) 目标跟踪方法、装置、计算机设备和存储介质
WO2021134231A1 (zh) 基于推理引擎的计算资源分配方法、装置和计算机设备
CN111985531A (zh) 异常资源需求集群的确定方法、装置、设备和存储介质
CN111159450A (zh) 图片分类方法、装置、计算机设备和存储介质
CN110765817A (zh) 人群计数模型的选择方法、装置、设备及其存储介质
CN114663830B (zh) 一种基于图结构匹配的多相机场景下的人数计算方法
CN117274992A (zh) 植物三维分割模型构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination