CN112508078A - 图像多任务多标签识别方法、系统、设备及介质 - Google Patents

图像多任务多标签识别方法、系统、设备及介质 Download PDF

Info

Publication number
CN112508078A
CN112508078A CN202011394086.2A CN202011394086A CN112508078A CN 112508078 A CN112508078 A CN 112508078A CN 202011394086 A CN202011394086 A CN 202011394086A CN 112508078 A CN112508078 A CN 112508078A
Authority
CN
China
Prior art keywords
label
training
image
preset
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011394086.2A
Other languages
English (en)
Inventor
成丹妮
杨凯
彭佳慧
康睿文
邵旻昊
罗超
邹宇
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN202011394086.2A priority Critical patent/CN112508078A/zh
Publication of CN112508078A publication Critical patent/CN112508078A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像多任务多标签识别方法、系统、设备及介质,所述图像多任务多标签识别方法包括步骤:基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;基于所述多个目标单标签识别模型,获得一多标签识别模型;本申请避免了需要收集多标签数据集,导致数据集收集难度大的问题,降低了训练数据集的获取难度;并且利用单标签数据集训练模型,有利于提高模型的训练效果。

Description

图像多任务多标签识别方法、系统、设备及介质
技术领域
本发明涉及图像识别技术领域,具体地说,涉及一种图像多任务多标 签识别方法、系统、设备及介质。
背景技术
图像可直观表示与传达信息,因此在互联网的信息传播中大规模应用, 有效准确地展示图像能极大地提升用户体验。由于网络图像来源广泛,内 容通常比较复杂,单幅图像往往含有多个语义,具有多个标签属性。当前 这些标签的维护极大程度依赖于运营人工维护,人工成本高昂,且不同的 运营人员对图像的理解有偏差,因此人工标签往往不全面且内容难以统一 规范。因此通过图像识别算法来自动化提取标签成为一种必然趋势,可极大地节省人力成本,提高图像标注效率。
当前图像识别领域常规的方法是通过单标签识别模型来识别图像的 信息,而单标签识别模型对于单幅图像来说只能预测得到一个标签,难以 满足更复杂且个性化的图像识别要求。另一种常见方法是利用多标签数据 集训练多标签识别模型,即训练集的每一张图片标注有多个标签,然而多 标签数据集的收集难度成本较高,并且模型训练计算复杂度高。
如果利用多个归属于不同属性的单标签数据集训练多个单标签识别 模型,来联合预测图像的不同标签。则会存在多个模型的部署计算成本较 高,并含有大量的冗余计算的问题。
如果利用多个归属于不同属性的单标签数据集训练一个多标签识别 模型,则无法得到准确的模型参数,模型训练效果较差。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种图像多任务多标 签识别方法、系统、设备及介质,不仅能够对图像进行多标签标注,而且 避免了需要收集多标签数据集,导致数据集收集难度大的问题,降低了训 练数据集的获取难度。
为实现上述目的,本发明提供了一种图像多任务多标签识别方法,所 述方法包括以下步骤:
S20,基于第一训练集对多个预设单标签识别模型分别进行训练,生 成多个初始单标签识别模型;所述第一训练集为开源数据集;
S30,基于第二训练集对所述初始单标签识别模型进行训练,生成多 个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集 中的标签标注生成;
S40,基于所述多个目标单标签识别模型,获得一多标签识别模型;
S50,利用所述多标签识别模型对待测图像进行识别,输出待测图像 对应的多个标签。
可选地,用于训练所有所述预设单标签识别模型的所述第一训练集相 同;训练每一个所述初始单标签识别模型的所述第二训练集均不同;
所述第二训练集具有多个,所述第二训练集的数量与所述初始单标签 识别模型的数量相同;所述第二训练集中的每一图像均标注有一所述标签, 每一所述标签归属于一属性;每一所述第二训练集中的所有图像标注的标 签归属于同一属性。
可选地,所述预设单标签识别模型中包含多个残差层;所述步骤S30 还包括:
在训练过程中,保持所述初始单标签识别模型中前m个残差层的参 数不变,对其他所述残差层的参数进行更新;m为预设整数。
可选地,所述基于所述多个目标单标签识别模型,获得一多标签识别 模型,包括:
对所述多个目标单标签识别模型进行合成,获得一多标签识别模型。
可选地,所述对所述多个目标单标签识别模型进行合成,获得一多标 签识别模型,包括:
对所述前m个残差层进行合并,获得一多标签识别模型。
可选地,所述预设标签集中的每一所述标签归属于一属性;所述多标 签识别模型具有N个特征提取分支网络,每一所述特征提取分支网络用 于对一个所述属性进行提取,N为所述属性的数量,所述属性的数量与所 述初始单标签识别模型的数量相同。
可选地,在所述步骤S20之前,所述方法还包括步骤:
S10,构建损失函数;
所述步骤S20包括:
基于第一训练集和所述损失函数对多个预设单标签识别模型分别进 行训练;
所述步骤S30包括:
基于第二训练集和所述损失函数对所述初始单标签识别模型进行训 练;
所述损失函数为:
Figure BDA0002813963410000031
其中,
Figure RE-GDA0002912407490000032
zk为所述特征提取分支网络输出的特征向量 中的第k个元素,Q为所述特征提取分支网络提取的所述属性中包含的标 签数量,zi为所述特征提取分支网络输出的特征向量中的第i个元素,pi表 示所述特征提取分支网络提取的所述属性中第i个标签的输出概率;yi表 示所述特征提取分支网络提取的所述属性中第i个标签的真实概率值;yi为0或1;Loss表示所述损失函数。
可选地,所述预设单标签识别模型均基于Resnet50卷积神经网络构 建。
本发明还提供了一种图像多任务多标签识别系统,用于实现上述图像 多任务多标签识别方法,所述系统包括:
第一训练模块,基于第一训练集对多个预设单标签识别模型分别进行 训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
第二训练模块,基于第二训练集对所述初始单标签识别模型进行训练, 生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设 标签集中的标签标注生成;
多标签识别模型获取模块,基于所述多个目标单标签识别模型,获得 一多标签识别模型;
识别模块,利用所述多标签识别模型对待测图像进行识别,输出待测 图像对应的多个标签。
本发明还提供了一种图像多任务多标签识别设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一 项图像多任务多标签识别方法的步骤。
本发明还提供了一种计算机可读存储介质,用于存储程序,所述程序 被处理器执行时实现上述任意一项图像多任务多标签识别方法的步骤。
本发明与现有技术相比,具有以下优点及突出性效果:
本发明提供的图像多任务多标签识别方法、系统、设备及介质通过先 利用开源数据集训练模型形成初始单标签识别模型,然后只需利用小数据 量的第二训练集训练初始单标签识别模型,即可达到较佳的训练效果;减 小了模型训练所需数据量,同时避免了需要收集多标签数据集,导致数据 集收集难度大的问题,降低了训练数据集的获取难度;并且利用单标签数 据集训练模型,有利于提升模型的训练效果,从而提高模型识别的准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的 其它特征、目的和优点将会变得更明显。
图1为本发明一实施例公开的一种图像多任务多标签识别方法的示 意图;
图2为本发明一实施例公开的多标签识别模型的结构示意图;
图3为本发明另一实施例公开的一种图像多任务多标签识别方法的 示意图;
图4为本发明一实施例公开的一种图像多任务多标签识别系统的结 构示意图;
图5为本发明一实施例公开的一种图像多任务多标签识别设备的结 构示意图;
图6为本发明一实施例公开的一种计算机可读存储介质的结构示意 图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能 够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提 供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面 地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结 构,因而将省略对它们的重复描述。
如图1所示,本发明实施例公开了一种图像多任务多标签识别方法, 该方法包括以下步骤:
S20,基于第一训练集对多个预设单标签识别模型分别进行训练,生 成多个初始单标签识别模型。上述第一训练集为开源数据集。比如,开源 数据集可以为ImageNet数据集。上述预设单标签识别模型均基于Resnet50 卷积神经网络构建。用于训练所有上述预设单标签识别模型的第一训练集 相同。也即,基于同一第一训练集对上述多个预设单标签识别模型分别进 行训练。
其中,第一训练集包含有多个图像,每个图像标注有预设标签集中的 一个标签。预设标签集中的每一个标签归属于一个属性。每一个属性可以 包含多个标签。比如,属性为“时段”时,对应包含的标签可以有:“白 天”、“黄昏”以及“黑夜”。在其他实施例中,多个预设单标签识别模 型也可以采用不同的卷积神经网络构建。也即,第一训练集为单标签数据 集。需要说明的是,本申请对上述开源数据集的选择、卷积神经网络的选 择均不作限定。
S30,基于第二训练集对上述初始单标签识别模型进行训练,生成多 个目标单标签识别模型。上述第二训练集为对预设数据集依据预设标签集 中的标签标注生成。其中,上述预设单标签识别模型、初始单标签识别模 型以及目标单标签识别模型对图像进行识别后,均只能输出一个标签。
本实施例中,基于不同的第二训练集对上述初始单标签识别模型进行 训练。并且,训练每一个初始单标签识别模型的上述第二训练集均不同。 也即,上述第二训练集具有多个。且上述第二训练集的数量与上述初始单 标签识别模型的数量相同。每一个第二训练集用来训练一个初始单标签识 别模型。
上述第二训练集中的每一图像均标注有归属于预设标签集中的一标 签。也即,第二训练集也是单标签数据集。每一个第二训练集中的所有图 像标注的标签归属于同一属性。不同第二训练集中的标签归属的属性是不 同的。也即,每两个第二训练集标注的标签归属的属性是不同的。上述属 性的数量与上述初始单标签识别模型的数量相同。
本实施例中,上述预设单标签识别模型中包含多个残差层。
在其他实施例中,在上述步骤S30的基础上,步骤S30还可以包括:
在训练过程中,保持上述初始单标签识别模型中前m个残差层的参 数不变,仅对其他上述残差层的参数进行更新。m为预设整数。具体来说, 可以根据得到的预设单标签识别模型的训练效果,确定前m个残差层的 参数固定不变。也即,前m个残差层的参数不随初始单标签识别模型的 训练过程进行更新,仅对除了前m个残差层之外的其他残差层的参数进 行更新。并且前m个残差层的参数是共享的,可以保证在具有较佳训练 效果的前提下,降低模型训练的计算量,提高模型训练速度。
S40,基于上述多个目标单标签识别模型,获得一多标签识别模型。 也即,对上述多个目标单标签识别模型进行合成,获得一个多标签识别模 型。具体来说,对N个目标单标签识别模型中的前m个残差层进行合并, 形成多标签识别模型的主干网络。主干网络的前m个残差层的参数完全 相同,所以可以直接合并。对各个目标单标签识别模型除前m个残差层 之外的其它层保留下来,作为多标签识别模型的各个分支网络,也即形成 N个特征提取分支网络。
所以,作为主干网络的前m个残差层的参数是经过第一训练集训练 后确定的。N个特征提取分支网络的各层参数是依次经过第一训练集和第 二训练集训练后确定的。这样实现了利用较小数据量的第二训练集来训练, 即可达到良好的训练效果。
以及S50,利用所述多标签识别模型对待测图像进行识别,输出待测 图像对应的多个标签。其中,多标签识别模型中的每一个特征提取分支网 络输出一个标签。每一特征提取分支网络输出的标签匹配一个属性。
图2为本实施例公开的多标签识别模型的结构示意图。如图2所示, 上述多标签识别模型具有N个特征提取分支网络。每一上述特征提取分 支网络用于对一个上述属性进行提取,得到归属于该属性下的一个标签。 这样多标签识别模型可以提取到N个属性各自包含的标签,也即提取出N 个标签。N为上述属性的数量,也是初始单标签识别模型的数量,也是目 标单标签识别模型的数量,也是多标签识别模型输出的标签数量。
这样使得后续利用多标签识别模型对待测图像进行识别时,每个特征 提取分支网络只负责提取一个属性包含的一个标签即可。多个特征提取分 支网络可以实现多任务并行推理,同时提取N个属性各自对应的标签。 这样利用多个单标签数据集即可训练生成一个较佳的多标签识别模型,解 决了多标签数据集获取困难的问题,并且并非直接利用多标签数据集来训 练多标签识别模型,降低了模型训练计算量以及复杂度,提高模型训练效率。
另一方面,将训练后的多个单标签识别模型重组形成一多标签识别模 型,相比于直接利用训练后的多个单标签识别模型进行后续预测推理的方 案,一是可以避免多个模型的部署计算成本较高,并含有大量的冗余计算 的问题;二是可以提高模型对利用单幅图像标注多个标签情况下的推理速 度。
参考图2,示例性地,input image为输入图像,即待测图像。Resblock_a 和Resblock_b形成主干网络,分别表示第1个、第2个残差层。 Resblock_c_1、Resblock_d_1、Task_specific_layers_1和Output_1分别表 示第一个特征提取分支网络的第3个残差层、第4个残差层、任务适应层 和输出层。Resblock_c_2、Resblock_d_2、Task_specific_layers_2和Output_2 分别表示第二个特征提取分支网络的第3个残差层、第4个残差层、任务 适应层和输出层。Resblock_c_N、Resblock_d_N、Task_specific_layers_N 和Output_N分别表示第N个特征提取分支网络的第3个残差层、第4个 残差层、任务适应层和输出层。
其中,任务适应层为全连接层。输出层输出每一个特征提取分支网络 提取得到的标签。需要说明的是,本实施例中,主干网络具有2个残差层, 但本申请不以此为限,本领域技术人员可以根据模型训练效果确定其他数 量的残差层作为主干网络。
构建损失函数。具体而言,损失函数用于计算训练结果中的数据与属 性标签信息中标注的数据之间的差异。步骤S30包括:
分别构建上述属性预测分支网络以及上述特征提取分支网络各自对 应的损失函数。
其中,属性预测分支网络对应的损失函数用于计算属性预测分支网络 训练结果的损失。特征提取分支网络对应的损失函数用于计算特征提取分 支网络训练结果的损失。构建属性预测分支网络对应的损失函数利用现有 技术即可实现,比如Softmax(一种逻辑回归模型)分类损失函数等。
如图3所示,在本申请的另一实施例中,在上述实施例的基础上,在 上述步骤S20之前,上述方法还包括步骤:
S10,构建损失函数。损失函数用于计算训练结果中的数据与预设的 真实概率值之间的差异。
上述步骤S20包括:基于第一训练集和上述损失函数对多个预设单标 签识别模型分别进行训练,生成多个初始单标签识别模型。
上述步骤S30包括:基于第二训练集和上述损失函数对上述初始单标 签识别模型进行训练,生成多个目标单标签识别模型。
上述损失函数为:
Figure BDA0002813963410000081
其中,
Figure RE-GDA0002912407490000082
zk为上述特征提取分支网络输出的特征向量 中的第k个元素。Q为特征提取分支网络提取的在某一属性中包含的标签 数量。zi为特征提取分支网络输出的特征向量中的第i个元素。pi表示特 征提取分支网络提取的某一属性中第i个标签的输出概率。yi表示特征提 取分支网络提取的某一属性中第i个标签的预设的真实概率值。yi取值0 或1。Loss表示上述损失函数。
如图4所示,本发明实施例还公开了一种图像多任务多标签识别系统 4,该系统包括:
第一训练模块41,基于第一训练集对多个预设单标签识别模型分别 进行训练,生成多个初始单标签识别模型;上述第一训练集为开源数据集。
第二训练模块42,基于第二训练集对上述初始单标签识别模型进行 训练,生成多个目标单标签识别模型;上述第二训练集为对预设数据集依 据预设标签集中的标签标注生成。
多标签识别模型获取模块43,基于上述多个目标单标签识别模型, 获得一多标签识别模型;
识别模块44,利用所述多标签识别模型对待测图像进行识别,输出 待测图像对应的多个标签。
可以理解的是,本发明的图像多任务多标签识别系统还包括其他支持 图像多任务多标签识别系统运行的现有功能模块。图4显示的图像多任务 多标签识别系统仅仅是一个示例,不应对本发明实施例的功能和使用范围 带来任何限制。
本实施例中的图像多任务多标签识别系统用于实现上述的图像多任 务多标签识别方法,因此对于图像多任务多标签识别系统的具体实施步骤 可以参照上述对图像多任务多标签识别方法的描述,此处不再赘述。
本发明实施例还公开了一种图像多任务多标签识别设备,包括处理器 和存储器,其中存储器存储有所述处理器的可执行指令;处理器配置为经 由执行可执行指令来执行上述图像多任务多标签识别方法中的步骤。图5 是本发明公开的图像多任务多标签识别设备的结构示意图。下面参照图5 来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备 600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备 600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单 元620、连接不同平台组件(包括存储单元620和处理单元610)的总线 630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行, 使得处理单元610执行本说明书上述图像多任务多标签识别方法部分中 描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以 执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存 取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包 括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程 序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个 或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或 某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总 线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多 种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设 备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备 600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计 算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种 通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可 以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域 网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通 过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出, 可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微 代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁 带驱动器以及数据备份存储平台等。
本发明还公开了一种计算机可读存储介质,用于存储程序,所述程序 被执行时实现上述图像多任务多标签识别方法中的步骤。在一些可能的实 施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括 程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执 行本说明书上述图像多任务多标签识别方法中描述的根据本发明各种示 例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,通过先 利用开源数据集训练模型形成初始单标签识别模型,然后只需利用小数据 量的第二训练集训练初始单标签识别模型,即可达到较佳的训练效果;减 小了模型训练所需数据量的同时,降低了多标签识别模型训练过程的复杂 度,提高模型对多标签预测过程的推理速度。
图6是本发明的计算机可读存储介质的结构示意图。参考图6所示, 描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可 以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在 终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在 本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序 可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是 可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、 磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的 组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或 多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、 便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者 上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种 形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存 储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、 传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用 的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明 操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、 C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序 设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设 备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远 程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域 网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接 到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例提供的图像多任务多标签识别方法、系统、设备及介质 通过先利用开源数据集训练模型形成初始单标签识别模型,然后只需利用 小数据量的第二训练集训练初始单标签识别模型,即可达到较佳的训练效 果;减小了模型训练所需数据量,同时避免了需要收集多标签数据集,导 致数据集收集难度大的问题,降低了训练数据集的获取难度;并且利用单 标签数据集训练模型,有利于提升模型的训练效果,从而提高模型识别的准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说 明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术 领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若 干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (11)

1.一种图像多任务多标签识别方法,其特征在于,包括以下步骤:
S20,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
S30,基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;
S40,基于所述多个目标单标签识别模型,获得一多标签识别模型;
S50,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。
2.如权利要求1所述的图像多任务多标签识别方法,其特征在于,用于训练所有所述预设单标签识别模型的所述第一训练集相同;训练每一个所述初始单标签识别模型的所述第二训练集均不同;
所述第二训练集具有多个,所述第二训练集的数量与所述初始单标签识别模型的数量相同;所述第二训练集中的每一图像均标注有一所述标签,每一所述标签归属于一属性;每一所述第二训练集中的所有图像标注的标签归属于同一属性。
3.如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述预设单标签识别模型中包含多个残差层;所述步骤S30还包括:
在训练过程中,保持所述初始单标签识别模型中前m个残差层的参数不变,对其他所述残差层的参数进行更新;m为预设整数。
4.如权利要求3所述的图像多任务多标签识别方法,其特征在于,所述基于所述多个目标单标签识别模型,获得一多标签识别模型,包括:
对所述多个目标单标签识别模型进行合成,获得一多标签识别模型。
5.如权利要求4所述的图像多任务多标签识别方法,其特征在于,所述对所述多个目标单标签识别模型进行合成,获得一多标签识别模型,包括:
对所述前m个残差层进行合并,获得一多标签识别模型。
6.如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述预设标签集中的每一所述标签归属于一属性;所述多标签识别模型具有N个特征提取分支网络,每一所述特征提取分支网络用于对一个所述属性进行提取,N为所述属性的数量,所述属性的数量与所述初始单标签识别模型的数量相同。
7.如权利要求6所述的图像多任务多标签识别方法,其特征在于,在所述步骤S20之前,所述方法还包括步骤:
S10,构建损失函数;
所述步骤S20包括:
基于第一训练集和所述损失函数对多个预设单标签识别模型分别进行训练;
所述步骤S30包括:
基于第二训练集和所述损失函数对所述初始单标签识别模型进行训练;
所述损失函数为:
Figure RE-FDA0002912407480000021
其中,
Figure RE-FDA0002912407480000022
zk为所述特征提取分支网络输出的特征向量中的第k个元素,Q为所述特征提取分支网络提取的所述属性中包含的标签数量,zi为所述特征提取分支网络输出的特征向量中的第i个元素,pi表示所述特征提取分支网络提取的所述属性中第i个标签的输出概率;yi表示所述特征提取分支网络提取的所述属性中第i个标签的真实概率值;yi为0或1;Loss表示所述损失函数。
8.如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述预设单标签识别模型均基于Resnet50卷积神经网络构建。
9.一种图像多任务多标签识别系统,用于实现如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述系统包括:
第一训练模块,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
第二训练模块,基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;
多标签识别模型获取模块,基于所述多个目标单标签识别模型,获得一多标签识别模型;
识别模块,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。
10.一种图像多任务多标签识别设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所述图像多任务多标签识别方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至8中任意一项所述图像多任务多标签识别方法的步骤。
CN202011394086.2A 2020-12-02 2020-12-02 图像多任务多标签识别方法、系统、设备及介质 Pending CN112508078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011394086.2A CN112508078A (zh) 2020-12-02 2020-12-02 图像多任务多标签识别方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011394086.2A CN112508078A (zh) 2020-12-02 2020-12-02 图像多任务多标签识别方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN112508078A true CN112508078A (zh) 2021-03-16

Family

ID=74969369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011394086.2A Pending CN112508078A (zh) 2020-12-02 2020-12-02 图像多任务多标签识别方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN112508078A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627477A (zh) * 2021-07-07 2021-11-09 武汉魅瞳科技有限公司 车辆多属性识别方法及系统
CN113723341A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN116070119A (zh) * 2023-03-31 2023-05-05 北京数慧时空信息技术有限公司 基于小样本的多任务组合模型的训练方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132512A1 (en) * 2015-11-06 2017-05-11 Google Inc. Regularizing machine learning models
CN107679552A (zh) * 2017-09-11 2018-02-09 北京飞搜科技有限公司 一种基于多分支训练的场景分类方法以及系统
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
WO2019169816A1 (zh) * 2018-03-09 2019-09-12 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN110378410A (zh) * 2019-07-16 2019-10-25 北京字节跳动网络技术有限公司 多标签场景分类方法、装置及电子设备
WO2020083073A1 (zh) * 2018-10-23 2020-04-30 苏州科达科技股份有限公司 非机动车图像多标签分类方法、系统、设备及存储介质
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111753966A (zh) * 2020-07-02 2020-10-09 成都睿码科技有限责任公司 利用缺失多标签数据实现多标签模型训练框架的实现方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132512A1 (en) * 2015-11-06 2017-05-11 Google Inc. Regularizing machine learning models
WO2017079568A1 (en) * 2015-11-06 2017-05-11 Google Inc. Regularizing machine learning models
CN107679552A (zh) * 2017-09-11 2018-02-09 北京飞搜科技有限公司 一种基于多分支训练的场景分类方法以及系统
WO2019169816A1 (zh) * 2018-03-09 2019-09-12 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
WO2020083073A1 (zh) * 2018-10-23 2020-04-30 苏州科达科技股份有限公司 非机动车图像多标签分类方法、系统、设备及存储介质
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN110378410A (zh) * 2019-07-16 2019-10-25 北京字节跳动网络技术有限公司 多标签场景分类方法、装置及电子设备
CN111753966A (zh) * 2020-07-02 2020-10-09 成都睿码科技有限责任公司 利用缺失多标签数据实现多标签模型训练框架的实现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627477A (zh) * 2021-07-07 2021-11-09 武汉魅瞳科技有限公司 车辆多属性识别方法及系统
CN113723341A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN113723341B (zh) * 2021-09-08 2023-09-01 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN116070119A (zh) * 2023-03-31 2023-05-05 北京数慧时空信息技术有限公司 基于小样本的多任务组合模型的训练方法
CN116070119B (zh) * 2023-03-31 2023-10-27 北京数慧时空信息技术有限公司 基于小样本的多任务组合模型的训练方法

Similar Documents

Publication Publication Date Title
US11392792B2 (en) Method and apparatus for generating vehicle damage information
CN108171260B (zh) 一种图片识别方法及系统
CN109104620B (zh) 一种短视频推荐方法、装置和可读介质
CN107832662B (zh) 一种获取图片标注数据的方法和系统
CN112508078A (zh) 图像多任务多标签识别方法、系统、设备及介质
CN110059734B (zh) 一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质
CN113326764A (zh) 训练图像识别模型和图像识别的方法和装置
CN113158909B (zh) 基于多目标跟踪的行为识别轻量化方法、系统、设备
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN111753746B (zh) 属性识别模型训练方法、识别方法、电子设备、存储介质
CN110781818B (zh) 视频分类方法、模型训练方法、装置及设备
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN112052840B (zh) 图片筛选方法、系统、设备及存储介质
CN113705733A (zh) 医疗票据图像处理方法及装置、电子设备、存储介质
CN112766284A (zh) 图像识别方法和装置、存储介质和电子设备
CN112837466B (zh) 票据识别方法、装置、设备以及存储介质
CN112712005B (zh) 识别模型的训练方法、目标识别方法及终端设备
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN116863116A (zh) 基于人工智能的图像识别方法、装置、设备及介质
CN112070093A (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
CN108446693B (zh) 待识别目标的标记方法、系统、设备及存储介质
CN114818685B (zh) 关键词提取方法、装置、电子设备及存储介质
CN114741697B (zh) 恶意代码分类方法、装置、电子设备和介质
CN116363365A (zh) 基于半监督学习的图像分割方法及相关设备
CN110704650A (zh) Ota图片标签的识别方法、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination