CN109919214B - 一种神经网络模型的训练方法及训练装置 - Google Patents

一种神经网络模型的训练方法及训练装置 Download PDF

Info

Publication number
CN109919214B
CN109919214B CN201910144904.4A CN201910144904A CN109919214B CN 109919214 B CN109919214 B CN 109919214B CN 201910144904 A CN201910144904 A CN 201910144904A CN 109919214 B CN109919214 B CN 109919214B
Authority
CN
China
Prior art keywords
training
neural network
preset
network model
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910144904.4A
Other languages
English (en)
Other versions
CN109919214A (zh
Inventor
黄河
吴玉东
何泽文
黄冠
叶云
陈新泽
都大龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Horizon Robotics Technology Co Ltd
Original Assignee
Nanjing Horizon Robotics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Horizon Robotics Technology Co Ltd filed Critical Nanjing Horizon Robotics Technology Co Ltd
Priority to CN201910144904.4A priority Critical patent/CN109919214B/zh
Publication of CN109919214A publication Critical patent/CN109919214A/zh
Application granted granted Critical
Publication of CN109919214B publication Critical patent/CN109919214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种神经网络模型的训练方法,包括:根据预设的n个放缩系数将训练数据集中的样本图像进行放缩,得到n个不同分辨率的图像;n≥1,且n为整数;针对所述n个不同分辨率的图像中的每一图像,确定对应的m个训练区域;m≥1,且m为整数;对所述m个训练区域中每一个训练区域所包含的物体进行标注;基于标注后的训练数据集训练神经网络模型。本申请减小了神经网络模型训练过程中物体的尺度变化,降低了神经网络模型训练难度,提高了训练效果。

Description

一种神经网络模型的训练方法及训练装置
技术领域
本申请涉及数据处理领域,尤其涉及一种神经网络模型的训练方法及 训练装置。
背景技术
在图像处理技术中,现有技术通过神经网络模型提取图像中的特征, 神经网络模型在提取特征之前,需要先训练出神经网络模型。目前,在机 器学习、深度学习、数据挖掘等任务中,通过各种不同类别的大量数据样 本对神经网络模型进行训练,可使得神经网络模型能够完成不同的计算任 务。
然而,在实际训练神经网络模型的过程中,当图像或者视频中物体的 尺度变化较大时,通过现有技术训练得到的神经网络模型识别物体的精度 较低。
发明内容
本申请提供了一种神经网络模型的训练方法及训练装置,本申请减小 了神经网络模型训练过程中物体的尺度变化,降低了神经网络模型训练难 度,提高了训练效果。
根据本申请的一个方面,提供了一种神经网络模型的训练方法,包括:
根据预设的n个放缩系数将训练数据集中的样本图像进行放缩,得到 n个不同分辨率的图像;n≥1,且n为整数;
针对所述n个不同分辨率的图像中的每一图像,确定对应的m个训练 区域;m≥1,且m为整数;
对所述m个训练区域中每一个训练区域所包含的物体进行标注;
基于标注后的训练数据集训练神经网络模型。
根据本申请的另一个方面,提供了一种图像中目标物的预测方法,包 括:将实际图像按照上述n个放缩系数进行放缩,得到n个具有不同预设 分辨率的图像;n≥1;
将所述n个具有不同预设分辨率的每个图像逐一输入所述的神经网络 模型进行预测,得到预测任务对应的中间预测结果;
将处于预设尺度范围内的中间预测结果根据放缩系数映射到实际图 像,并融合映射后的中间预测结果,得到所述预测任务对应的最终预测结 果。
根据本申请的再一个方面,提供了一种图像中物体识别模型的训练装 置,包括:
放缩模块,用于根据预设的n个放缩系数将训练数据集中的目标图像 进行放缩,得到n个具有不同预设分辨率的图像;n≥1;
确定模块,用于针对所述n个不同分辨率的图像中的每一图像,确定 对应的m个训练区域;m≥1;
标注模块,用于对所述m个训练区域中每一个训练区域所包含的物体 进行标注;
训练模块,基于标注后的训练数据集训练神经网络模型。
根据本申请的又一个方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述可执行指令在被所述处理器运行时使得所述处理器执行上述的 神经网络模型的训练方法,或者,执行上述的一种图像中目标物的预测方 法。
根据本申请的再一个方面,提供了一种计算机可读存储介质,其上存 储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处 理器执行所述的神经网络模型的训练方法,或者,执行上述一种图像中目 标物的预测方法。
本申请能产生的有益效果包括:
1)本申请通过根据预设的n个放缩系数将训练数据集中的样本图像 进行放缩,得到n个不同分辨率的图像,针对所述n个不同分辨率的图像 中的每一图像,确定对应的m个训练区域,然后对所述m个训练区域中每 一个训练区域所包含的物体进行标注,最后基于标注后的训练数据集训练 神经网络模型。由于通过标注,参与神经网络模型训练的均为预设尺度范 围内的物体,这减小了神经网络模型训练过程中物体的尺度变化,降低了 神经网络模型的训练难度,提高了模型的训练效果。
2)本申请根据图像采集模块采集的实际图像按照n个放缩系数进行 放缩,得到n个具有不同预设分辨率的图像,将n个具有不同预设分辨率 的每个图像逐一输入所述的神经网络模型进行预测,得到预测任务对应的 中间预测结果,然后将处于预设尺度范围内的中间预测结果根据放缩系数 映射到实际图像,并融合映射后的中间预测结果,得到所述预测任务对应 的最终预测结果。由于参与神经网络模型训练的均为预设尺度范围内的物 体因此该神经网络模型只需预设尺度范围的预测结果,忽略超出预设尺度 范围的预测结果,从而大大提升了预测精度,尤其在待预测的实际图像中 物体尺度变化大的情况下,预测精度远远高于现有技术的预测精度。
附图说明
图1是本申请提供的一种神经网络模型的训练方法流程示意图。
图2是本申请提供的另一种神经网络模型的训练方法流程示意图。
图3是本申请提供的另一种神经网络模型的训练方法流程示意图。
图4是本申请提供的另一种神经网络模型的训练方法流程示意图。
图5是本申请提供的一种图像中目标物的预测方法流程示意图。
图6是本申请提供的一种神经网络模型的训练装置的结构示意图。
图7是本申请提供的另一种神经网络模型的训练装置结构示意图。
图8是本申请提供的另一种神经网络模型的训练装置结构示意图。
图9是本申请提供的电子设备的框图。
具体实施方式
下面结合实施例详述本申请,但本申请并不局限于这些实施例。
申请概述
如上所述,在机器学习、深度学习、数据挖掘等任务中,利用图像中 大量的数据样本进行训练,来获得各种形式的神经网络模型。当图像或者 视频中物体尺度变化不大时,训练出的神经网络模型精度还比较理想,但 是当图像或者视频中物体尺度变化较大时,训练出的神经网络模型精度较 低。
现有技术中使用图像金字塔进行多尺度训练和多尺度测试,在训练过 程中将原图像放缩到多个尺度送入卷积神经网络(Convolutional Neural Networks,以下简称CNN)模型进行训练,从而对不同大小的物体进行学 习,使CNN模型具有尺度不变性;在测试阶段同样进行多尺度测试,并 将不同尺度的预测结果融合。但是由于CNN模型尺度不变性,在放缩原 图像的过程中,原图像中物体也被放缩,小物体变更小,大物体变更大, 尺度差异进一步加剧,因此网络更加难以学习,难以具有较好的尺度不变 性。
针对上述技术问题,本申请的构思是提出一种神经网络模型的训练方 法及训练装置、电子设备,通过根据预设的n个放缩系数将训练数据集中 的样本图像进行放缩,得到n个不同分辨率的图像,针对所述n个不同分 辨率的图像中的每一图像,确定对应的m个训练区域,然后对所述m个训 练区域中每一个训练区域所包含的物体进行标注,最后基于标注后的训练 数据集训练神经网络模型,经过上述步骤得到的神经网络模型精度高,可 以适用于图像中物体尺度变化较大时的场景。
示例性方法
图1是本申请提供的一种神经网络模型的训练方法流程示意图。本实 施例可应用在电子设备上,如图1所示,包括如下步骤:,
步骤S101、根据预设的n个放缩系数将训练数据集中的样本图像进行 放缩,得到n个不同分辨率的图像;n≥1,且n为整数;
具体地,预设的n个放缩系数构成放缩系数集Ω,Ω(Ω={ωi|i= 1,2,…,n}),根据放缩系数集Ω将训练数据集中的目标图像放缩ωi∈Ω (i=1,2,…,n)倍,得到n个不同分辨率的图像,这n个不同分辨率的图像 可形成n层目标图像金字塔Ii(i=1,…,n)。
步骤S102、针对所述n个不同分辨率的图像中的每一图像,确定对应 的m个训练区域;m≥1,且m为整数;
其中,每一图像均可通过采样得到m个训练区域,也就是说每一图像 被划分为m个训练区域。
步骤S103、对所述m个训练区域中每一个训练区域所包含的物体进行 标注;
例如,当样本图像包含尺度变化较大的多个物体时,例如样本图像包 括飞机、火车、汽车和背景,该样本图像被划分为m个训练区域,每个训 练区域包括不同物体的不同部位及该物体所处的背景,例如,划分的其中 一个训练区域中包含汽车的大部分车体,且车体大小处于预设尺度范围 内,则保持该汽车的原始标注,划分的另一个训练区域中只包含汽车的一 小部分车尾,则在该训练区域中原始标注的汽车代表的物体就太小了,因 此可以将其标注为背景或者忽略区域,从而使得每一图像中的物体均处于 预设的尺度范围内参与神经网络模型训练,解决了训练过程中物体尺度变 化较大的问题。
步骤S104、基于标注后的训练数据集训练神经网络模型。
本申请通过根据预设的n个放缩系数将训练数据集中的样本图像进行 放缩,得到n个不同分辨率的图像,针对所述n个不同分辨率的图像中的 每一图像,确定对应的m个训练区域,然后对所述m个训练区域中每一个 训练区域所包含的物体进行标注,最后基于标注后的训练数据集训练神经 网络模型。由于通过标注,参与神经网络模型训练的均为预设尺度范围内 的物体,这减小了神经网络模型训练过程中物体的尺度变化,降低了神经 网络模型的训练难度,提高了模型的训练效果。
图2是本申请提供的另一种神经网络模型的训练方法流程示意图, 如图2所示,在图1所示实施例的基础上,步骤S103可包括如下步骤:
S1031、基于上述每一图像中的每个物体与所属训练区域的面积确定 每个物体与所属训练区域的关系数值;
S1032、基于每个物体对应的关系数值和预设阈值的大小关系,对所 述每个物体进行标注。
具体地,若第一物体与所属训练区域的关系数值符合第一预设条件并 且所述第一物体的大小处于预设尺度范围内,维持所述第一物体在其所属 训练区域中的原始标注;
若第二物体与所属训练区域的关系数值符合第二预设条件,将所述第 二物体标注为背景类别;
若第三物体与所属训练区域的关系数值符合上述第一预设条件,且所 述第三物体的大小超出预设尺度范围内时;或者第三物体与所属训练区域 的关系数值符合第三预设条件,将所述第三物体标注为忽略区域。
例如,设第一物体i与所属训练区域的关系数值为IOB1,则第一预设 条件为IOB1≥第一阈值φ,且该第一物体i的大小处于预设尺度范围[sl,su] 内时,维持第一物体i在其所属训练区域中的原始标注;
本发明实施例中物体i的大小可以通过来量化表示,其中,w表 示该物体的长度,h表示该物体的宽度。其中,[sl,su]中,sl表示预设的物 体尺度下界,su表示预设的物体尺度上界。
例如,对于样本图像中一个长和宽的像素分别为80和20的汽车,汽 车的大小可以量化表示为
设第二物体i与所属训练区域的关系数值为IOB2,则第二预设条件为 IOB2≤第二阈值θ,将该第二物体i标注为背景类别0;
设第三物体i与所属训练区域的关系数值为IOB3,当且该 第三物体i的大小超出预设范围内时,或者当第三预设条件/> 将第三物体i标注为忽略区域。
继续以样本图像包括飞机、火车、汽车和背景为例进行具体描述,设 第一物体为汽车,将样本图像划为为m个训练区域后,包含汽车的一个训 练区域中汽车对应的关系数值符合第一预设条件并且所述第一物体的大 小处于预设尺度范围内,例如,该训练区域中包含汽车的大部分车体,因 此保持其原始标注不变,在该训练区域中仍将第一物体标注为汽车;
设第二物体为飞机,包含飞机的一个训练区域中该飞机对应的关系数 值符合第二预设条件,例如,该训练区域中包含飞机的一小部分,因此将 该训练区域中的飞机标注为背景类别;
设第三物体为火车,包含火车的一个训练区域中火车对应的关系数值 符合第一预设条件,但是该训练区域中火车的大小超出预设尺度范围,例 如,该训练区域中全部为火车的车体,超出了预设尺度范围,或者该训练 区域中的火车对应的关系数值符合第三预设条件,将火车标注为忽略类 别,不参与后续的神经网络模型训练,也就是说,将极小物体标注为背景 类别,忽略了极大物体,从而减小了训练过程中的物体尺度变化,减轻了 神经网络模型的学习难度。
图3是本申请提供的另一种神经网络模型的训练方法流程示意图。 如图3所示,在上述图2所示实施例的基础上,步骤S1031中基于图像中的 每个物体与所属训练区域的面积确定每个物体与所属训练区域的关系数 值,包括:
S1031a、确定每一图像中每个物体与所属训练区域的重叠面积;
S1031b、基于所述重叠面积与对应的物体面积的比值确定所述关系数 值。
具体地,设上述每一图像中每个物体对应的关系数值为IOB, IOB=Si,t/Si,其中Si,t为每个物体与其自身所属训练区域的重叠面积,Si为 该物体的面积。
图4是本申请提供的另一种神经网络模型的训练方法流程示意图。 如图4所示,步骤S102中针对所述n个不同分辨率的图像中的每一图像, 确定对应的m个训练区域,包括:
S1021、对所述n个不同预设分辨率的每一图像进行采样,得到t个 候选图像区域;t≥m;
S1022、从所述t个候选图像区域中确定m个训练区域。
具体地,对n个不同预设分辨率的每一图像进行均匀采样,得到t个 候选图像区域,也可以根据n个不同预设分辨率的每一图像的实际内容进 行非均匀的采样,本发明实施例对具体的采样过程不作限定。本申请中,n,m和t均为自然数。
实际应用中,可以采用预设滑动窗口对n个不同预设分辨率的每一图 像进行采样,滑动窗口大小可以是600*600,或者是800*800,本发明实 施例对滑动窗口的具体大小不作限制,实际应用中可以根据样本图像中物 体的尺寸来确定滑动窗口的大小。
具体地,步骤S1022从所述t个候选图像区域中确定m个训练区域, 包括:
在所述n个具有不同预设分辨率的每一图像中确定处于预设尺度范围 内的物体,将确定的处于预设尺度范围内的物体称为物体集;
确定所述t个候选图像区域中的每个候选图像区域包含的来自所述物 体集中的物体数量;
将所述物体数量大于预设阈值的候选图像区域确定为训练区域,得到 m个训练区域。
例如,设物体集为M,确定t个候选图像区域中的每个候选图像区域 包含的来自物体集M中的物体数量,将数量最多的候选图像区域ti确定为 训练区域,将候选图像区域ti中包含的物体从物体集M中删除,然后再确 定剩下的t-1个候选图像区域中的每个候选图像区域包含的来自物体集M 中的物体数量,将数量最多的候选图像区域tj再确定为训练区域,将候选 图像区域tj中包含的物体从物体集M中删除,以此类推,直至物体集M为 空集。如果还有剩下的候选图像区域,则还可以从剩下的候选图像区域中 随机选择预设的k个背景图像作为训练区域,k为自然数。本发明实施例 中训练区域的数量也可以根据实际需求来设定,也就是训练区域m的数量 可以根据自行设定,但是为了后续的训练精度高,训练区域m的数量越多 越好。
实际应用中,也可以采用枚举算法从t个候选图像区域中确定m个训 练区域。本发明实施例对从t个候选图像区域中确定m个训练区域的具体 方式不作限定。
本发明实施例中,神经网络模型可以是特征金字塔网络模型、物体检 测模型、实例分割模型或其他实例预测相关的模型。
例如,当神经网络模型是FPN时,可构建高性能检测系统,从而大幅 提升物体尺度变化大时的检测精度,当神经网络模型是实例分割模型时, 可构建高性能分割系统,从而大幅提升物体尺度变化大时的实例分割精 度。
本申请通过根据预设的n个放缩系数将训练数据集中的样本图像进行 放缩,得到n个不同分辨率的图像,针对所述n个不同分辨率的图像中的 每一图像,确定对应的m个训练区域,然后对所述m个训练区域中每一个 训练区域所包含的物体进行标注,最后基于标注后的训练数据集训练神经 网络模型,由于通过标注,将预设尺度范围以外的物体都被标记成背景类 别或者忽略区域,参与神经网络模型训练的均为预设尺度范围内的物体, 因此减小了神经网络模型训练过程中物体的尺度变化,降低了神经网络模 型的训练难度,提高了神经网络模型的训练效果。由于上述的标注过程可 以使得参与神经网络模型训练的均为预设尺度范围内的物体,因此本申请 的神经网络模型可以适用于尺度变化较大的视觉任务,例如,物体检测, 实例分割,人体关键点检测等,由于训练的神经网络模型精度高,从而也 提高了具体检测任务的检测精度。
图5是本申请提供的一种图像中目标物的预测方法流程示意图,如图 5所示,该方法包括:
S201、将实际图像按照上述n个放缩系数进行放缩,得到n个具有不 同预设分辨率的图像;n≥1;
本发明实施例中,实际图像可以由图像采集模块实时采集得到,也可 以是预先存储的图像。
S202、将所述n个具有不同预设分辨率的每个图像逐一输入上述的神 经网络模型进行预测,得到预测任务对应的中间预测结果;
S203、将处于预设尺度范围内的中间预测结果根据放缩系数映射到实 际图像,并融合映射后的中间预测结果,得到所述预测任务对应的最终预 测结果。
在应用阶段,图像采集模块采集的实际图像中物体的大小是未知的, 所以预测结果有可能超出[sl,su]的范围,因此,需获取处于[sl,su]之间的 预测结果Ri
其中,具体融合方法可以根据具体的预测任务来确定,例如,当预测 任务是物体检测时,则融合映射后的中间预测结果,具体为:
采用Soft-NMS算法融合映射到实际图像之后的中间预测结果。
当预测任务是实例分割或人体关键点检测时,采用平均或加权求和的 方式融合映射到实际图像之后的中间预测结果。
本申请根据图像采集模块采集的实际图像按照n个放缩系数进行放 缩,得到n个具有不同预设分辨率的图像,将n个具有不同预设分辨率的 每个图像逐一输入所述的神经网络模型进行预测,得到预测任务对应的中 间预测结果,然后将处于预设尺度范围内的中间预测结果根据放缩系数映 射到实际图像,并融合映射后的中间预测结果,得到所述预测任务对应的 最终预测结果。由于参与神经网络模型训练的均为预设尺度范围内的物 体,因此该神经网络模型只需预设尺度范围的预测结果,忽略超出预设尺 度范围的预测结果,从而大大提升了预测精度,尤其在待预测的实际图像 中物体尺度变化大的情况下,预测精度远远高于现有技术的预测精度。
示例性装置
图6示出了本申请实施例提供的神经网络模型的训练装置的结构示意 图。如图6所示,根据本申请实施例的神经网络模型的训练装置30,包括: 放缩模块31,确定模块32,标注模块33和训练模块34;
其中,放缩模块31,用于根据预设的n个放缩系数将训练数据集中的 目标图像进行放缩,得到n个具有不同预设分辨率的图像;n≥1;
确定模块32,用于针对所述n个不同分辨率的图像中的每一图像,确 定对应的m个训练区域;m≥1;
标注模块33,用于对所述m个训练区域中每一个训练区域所包含的物 体进行标注;
训练模块34,基于标注后的训练数据集训练神经网络模型。
本申请通过根据预设的n个放缩系数将训练数据集中的样本图像进行 放缩,得到n个不同分辨率的图像,针对所述n个不同分辨率的图像中的 每一图像,确定对应的m个训练区域,然后对所述m个训练区域中每一个 训练区域所包含的物体进行标注,最后基于标注后的训练数据集训练神经 网络模型。由于通过标注,参与神经网络模型训练的均为预设尺度范围内 的物体,这减小了神经网络模型训练过程中物体的尺度变化,降低了神经 网络模型的训练难度,提高了模型的训练效果。
图7示出了本申请实施例提供的另一种神经网络模型的训练装置结构 示意图。
如图7所示,在上述神经网络模型的训练装置30中,所述标注模块 33包括第一确定单元331和标注单元332;
第一确定单元331,基于每一图像中的每个物体与所属训练区域的面 积确定每个物体与所属训练区域的关系数值;
标注单元332,基于每个物体对应的关系数值和预设阈值的大小关系, 对所述每个物体进行标注。
具体地,标注单元332包括第一标注子单元,第二标注子单元,第三 标注子单元;
第一标注子单元,用于确认第一物体对应的关系数值符合第一预设条 件并且所述第一物体的大小处于预设尺度范围内,维持所述第一物体在其 所属训练区域中的原始标注;
第二标注子单元,用于确认第二物体对应的关系数值符合第二预设条 件,将所述第二物体标注为背景类别;
第三标注子单元,用于确认第三物体对应的关系数值符合第三预设条 件,且所述第三物体的大小超出预设尺度范围内时;或者第三物体对应的 关系数值符合第四预设条件,将所述第三物体标注为忽略区域。
具体地,第一确定单元331包括:面积子单元和关系确定子单元;
面积确定子单元,用于确定每一图像中每个物体与所属训练区域的重 叠面积;
关系确定子单元,用于根据所述重叠面积与对应的物体面积的比值确 定所述关系数值。
图8示出了本申请实施例提供的另一种神经网络模型的训练装置结构 示意图。如图8所示,本申请的神经网络模型的训练装置30中,确定模 块32包括:采样单元321和第二确定单元322;
采样单元321,用于对所述n个不同预设分辨率的每一图像进行采样, 得到t个候选图像区域;t≥m;
第二确定单元322,用于从所述t个候选图像区域中确定m个训练区 域。
具体地,第二确定单元322包括物体集确定子单元,数量确定子单元 和训练区域确定子单元;
物体集确定子单元,用于在所述n个具有不同预设分辨率的每一图像 中确定处于预设尺度范围内的物体,将确定的处于预设尺度范围内的物体 称为物体集;
数量确定子单元,用于确定所述t个候选图像区域中的每个候选图像 区域包含的来自所述物体集中的物体数量;
训练区域确定子单元,用于将所述物体数量大于预设阈值的候选图像 区域确定为训练区域,得到m个训练区域。
这里,本领域技术人员可以理解,上述前景掩模特征图的确定装置40 中的各个模块和单元的具体功能和操作已经在上面参考图1至3描述的前 景掩模特征图的确定方法中详细介绍,因此,示例性装置中省略部分重复 描述。
如上所述,根据本申请实施例的神经网络模型的训练装置30可以实 现在各种终端设备中。在一个示例中,根据本申请实施例的神经网络模型 的训练装置30可以一个软件模块和/或硬件模块而集成到终端设备中。例 如,该装置30可以是该终端设备的操作系统中的一个软件模块,或者也 可以是针对于该终端设备所开发的一个应用程序;当然,该装置30同样 可以是该终端设备的众多硬件模块之一。
替换地,在另一个示例中,该神经网络模型的训练装置30与终端设 备也可以是分立的设备,并且该装置30可以通过有线和/或无线网络连接 到终端设备,并且按照约定的数据格式来传输交互信息。
本申请通过根据预设的n个放缩系数将训练数据集中的样本图像进行 放缩,得到n个不同分辨率的图像,针对所述n个不同分辨率的图像中的 每一图像,确定对应的m个训练区域,然后对所述m个训练区域中每一个 训练区域所包含的物体进行标注,最后基于标注后的训练数据集训练神经 网络模型,由于通过标注,将预设尺度范围以外的物体都被标记成背景类 别或者忽略区域,参与神经网络模型训练的均为预设尺度范围内的物体, 因此减小了神经网络模型训练过程中物体的尺度变化,降低了神经网络模 型的训练难度,提高了神经网络模型的训练效果。由于上述的标注过程可 以使得参与神经网络模型训练的均为预设尺度范围内的物体,因此本申请 的神经网络模型可以适用于尺度变化较大的视觉任务,例如,物体检测, 实例分割,人体关键点检测等,由于训练的神经网络模型精度高,从而也 提高了具体检测任务的检测精度。
示例性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。图9示出了本 申请实施例提供的电子设备的框图。
如图9所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或 指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其 他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产 品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非 易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只 读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存 储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实 现上文所述的本申请的各个实施例的神经网络模型的训练方法以及/或者 其他期望的功能,或者,执行本申请所述的一种图像中目标物的预测方 法。在所述计算机可读存储介质中还可以存储诸如样本图像,训练数据 集、训练区域等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14, 这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以包括摄像装置,用于采集输入图像。此外, 该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的前景掩模特 征图。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信 网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的 组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外, 根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产 品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得 所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请 各种实施例的神经网络模型的训练方法中的步骤。或者,执行本申请所述 的一种图像中目标物的预测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来 编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向 对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计 语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用 户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执 行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程 计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计 算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执 行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的 神经网络模型的训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组 合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如 可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或 器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列 表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存 储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或 闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储 器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的 是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为 这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述 公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述 细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例 子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配 置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这 些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的 词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上 下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限 于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤 是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等 效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出 或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常 显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申 请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在 此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将 本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方 面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添 加和子组合。

Claims (9)

1.一种神经网络模型的训练方法,包括:
根据预设的n个放缩系数将训练数据集中的样本图像进行放缩,得到n个不同分辨率的图像;,且n为整数;
针对所述n个不同分辨率的图像中的每一图像,确定对应的m个训练区域;,且m为整数;
对所述m个训练区域中每一个训练区域所包含的物体进行标注,具体为,基于所述每一图像中的每个物体与所属训练区域的面积确定每个物体与所属训练区域的关系数值,基于每个物体对应的关系数值和预设阈值的大小关系,对所述每个物体进行标注;
基于标注后的训练数据集训练神经网络模型。
2.根据权利要求1所述的方法,其中,基于每个物体对应的关系数值和预设阈值的大小关系,对所述每个物体进行标注,包括:
若第一物体对应的关系数值符合第一预设条件并且所述第一物体的大小处于预设尺度范围内,维持所述第一物体在其所属训练区域中的原始标注;
若第二物体对应的关系数值符合第二预设条件,将所述第二物体标注为背景类别;
若第三物体对应的关系数值符合所述第一预设条件,且所述第三物体的大小超出预设尺度范围内时;或者第三物体对应的关系数值符合第三预设条件,将所述第三物体标注为忽略区域。
3.根据权利要求1所述的方法,其中,基于所述每一图像中的每个物体与所属训练区域的面积确定每个物体与所属训练区域的关系数值包括:
确定所述每一图像中每个物体与所属训练区域的重叠面积;
基于所述重叠面积与对应的物体面积的比值确定所述关系数值。
4.根据权利要求1所述的方法,其中,针对所述n个不同分辨率的图像中的每一图像,确定对应的m个训练区域,包括:
对所述n个不同预设分辨率的每一图像进行采样,得到t个候选图像区域;
从所述t个候选图像区域中确定m个训练区域。
5.根据权利要求4所述的方法,其中,从所述t个候选图像区域中确定m个训练区域,包括:
在所述n个具有不同预设分辨率的每一图像中确定处于预设尺度范围内的物体,将确定的处于预设尺度范围内的物体称为物体集;
确定所述t个候选图像区域中的每个候选图像区域包含的来自所述物体集中的物体数量;
将所述物体数量大于预设阈值的候选图像区域确定为训练区域,得到m个训练区域。
6.一种图像中目标物的预测方法,包括:
将实际图像按照上述n个放缩系数进行放缩,得到n个具有不同预设分辨率的图像;
将所述n个具有不同预设分辨率的每个图像逐一输入权利要求1至5中任一一项所述的神经网络模型的训练方法得到的神经网络模型进行预测,得到预测任务对应的中间预测结果;
将处于预设尺度范围内的中间预测结果根据放缩系数映射到实际图像,并融合映射后的中间预测结果,得到所述预测任务对应的最终预测结果。
7.一种神经网络模型的训练装置,包括:
放缩模块,用于根据预设的n个放缩系数将训练数据集中的目标图像进行放缩,得到n个具有不同预设分辨率的图像;
确定模块,用于针对所述n个不同分辨率的图像中的每一图像,确定对应的m个训练区域;
标注模块,用于对所述m个训练区域中每一个训练区域所包含的物体进行标注;
训练模块,基于标注后的训练数据集训练神经网络模型;
所述标注模块包括第一确定单元和标注单元;
第一确定单元,基于每一图像中的每个物体与所属训练区域的面积确定每个物体与所属训练区域的关系数值;
标注单元,基于每个物体对应的关系数值和预设阈值的大小关系,对所述每个物体进行标注。
8.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述可执行指令在被所述处理器运行时使得所述处理器执行上述权利要求1~5中任一项所述的神经网络模型的训练方法,或者,执行上述权利要求6所述的一种图像中目标物的预测方法。
9.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1~5中任一项所述的神经网络模型的训练方法,或者,执行上述权利要求6所述的一种图像中目标物的预测方法。
CN201910144904.4A 2019-02-27 2019-02-27 一种神经网络模型的训练方法及训练装置 Active CN109919214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910144904.4A CN109919214B (zh) 2019-02-27 2019-02-27 一种神经网络模型的训练方法及训练装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910144904.4A CN109919214B (zh) 2019-02-27 2019-02-27 一种神经网络模型的训练方法及训练装置

Publications (2)

Publication Number Publication Date
CN109919214A CN109919214A (zh) 2019-06-21
CN109919214B true CN109919214B (zh) 2023-07-21

Family

ID=66962454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910144904.4A Active CN109919214B (zh) 2019-02-27 2019-02-27 一种神经网络模型的训练方法及训练装置

Country Status (1)

Country Link
CN (1) CN109919214B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472593B (zh) * 2019-08-20 2021-02-09 重庆紫光华山智安科技有限公司 训练图像获取方法、模型训练方法及相关装置
CN110909768B (zh) * 2019-11-04 2023-03-07 北京地平线机器人技术研发有限公司 一种标注数据获取方法及装置
CN111242162B (zh) * 2019-12-27 2023-06-20 北京地平线机器人技术研发有限公司 图像分类模型的训练方法、装置、介质以及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722712A (zh) * 2012-01-02 2012-10-10 西安电子科技大学 基于连续度的多尺度高分辨图像目标检测方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN107871134A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置
CN107944369A (zh) * 2017-11-17 2018-04-20 大连大学 一种基于级联区域生成网络和增强随机森林的行人检测方法
CN108230292A (zh) * 2017-04-11 2018-06-29 北京市商汤科技开发有限公司 物体检测方法和神经网络的训练方法、装置及电子设备
CN108416378A (zh) * 2018-02-28 2018-08-17 电子科技大学 一种基于深度神经网络的大场景sar目标识别方法
CN108416440A (zh) * 2018-03-20 2018-08-17 上海未来伙伴机器人有限公司 一种神经网络的训练方法、物体识别方法及装置
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108829683A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 混合标注学习神经网络模型及其训练方法、装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722712A (zh) * 2012-01-02 2012-10-10 西安电子科技大学 基于连续度的多尺度高分辨图像目标检测方法
CN107871134A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置
CN108230292A (zh) * 2017-04-11 2018-06-29 北京市商汤科技开发有限公司 物体检测方法和神经网络的训练方法、装置及电子设备
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN107944369A (zh) * 2017-11-17 2018-04-20 大连大学 一种基于级联区域生成网络和增强随机森林的行人检测方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108416378A (zh) * 2018-02-28 2018-08-17 电子科技大学 一种基于深度神经网络的大场景sar目标识别方法
CN108416440A (zh) * 2018-03-20 2018-08-17 上海未来伙伴机器人有限公司 一种神经网络的训练方法、物体识别方法及装置
CN108829683A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 混合标注学习神经网络模型及其训练方法、装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
An analysis of scale invariance in object detection snip;Singh B等;《Proceedings of the IEEE conference on computer vision and pattern recognition》;20181231;第3578-3587页 *
Consistent scale normalization for object perception;He Zewen等;《Applied Intelligence》;20210104;第51卷(第7期);第4490-4502页 *
Deepedge: A multi-scale bifurcated deep network for top-down contour detection;Bertasius G等;《Proceedings of the IEEE conference on computer vision and pattern recognition》;20151231;第4380-4389页 *
Instance Scale Normalization for image understanding;He Zewen等;《arXiv preprint arXiv:1908.07323》;20190820;第1-10页 *
SNIPER: Efficient Multi-Scale Training;Bharat Singh等;《arXiv:1805.09300v3 [cs.CV]》;20181231;第1-11页 *
Soft-NMS--improving object detection with one line of code;Bodla N等;《Proceedings of the IEEE international conference on computer vision》;20171231;第5561-5569页 *
基于Faster R-CNN多特征融合的人类活动检测网络;刘登生等;《桂林电子科技大学学报》;20181231;第38卷(第5期);第364-368页 *

Also Published As

Publication number Publication date
CN109919214A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN108038474B (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN109471945B (zh) 基于深度学习的医疗文本分类方法、装置及存储介质
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
US12008698B2 (en) Image segmentation using text embedding
CN106980856B (zh) 公式识别方法及系统和符号推理计算方法及系统
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN110647829A (zh) 一种票据的文本识别方法及系统
CN109919214B (zh) 一种神经网络模型的训练方法及训练装置
CN111476256A (zh) 基于半监督学习的模型训练方法、装置及电子设备
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN111667066A (zh) 网络模型的训练、文字识别方法、装置和电子设备
KR102250728B1 (ko) 샘플 처리 방법, 장치, 기기 및 저장 매체
CN112329476A (zh) 一种文本纠错方法及装置、设备、存储介质
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN114896067A (zh) 任务请求信息的自动生成方法、装置、计算机设备及介质
WO2019092868A1 (ja) 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
WO2019092867A1 (ja) 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN111523351A (zh) 神经网络的训练方法、装置和电子设备
CN111414913A (zh) 一种文字识别方法以及识别装置、电子设备
CN112465805A (zh) 用于钢筋冲压折弯的质量检测的神经网络的训练方法
CN108829896B (zh) 回复信息反馈方法和装置
CN115618043A (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant