CN111931836A - 获取神经网络训练图像的方法和装置 - Google Patents
获取神经网络训练图像的方法和装置 Download PDFInfo
- Publication number
- CN111931836A CN111931836A CN202010762363.4A CN202010762363A CN111931836A CN 111931836 A CN111931836 A CN 111931836A CN 202010762363 A CN202010762363 A CN 202010762363A CN 111931836 A CN111931836 A CN 111931836A
- Authority
- CN
- China
- Prior art keywords
- training
- commodity
- neural network
- image
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种应用深度卷积神经网络进行商品识别的方法,包括:控制多个摄像机对商品进行拍摄,生成多个商品图像,所述多个摄像机的拍摄角度互不相同;获取背景图像;根据所述多个商品图像和所述背景图像生成多个训练图像,所述多个训练图像中每个训练图像包括所述背景图像的画面和至少一个所述商品图像的画面。商品图像可以是仅包含商品画面的图像,背景图像是环境图像。通过不同的商品图像和不同的背景图像的组合,能够合成出不同的合成图像用于神经网络训练,用于模拟更加接近真实场景的图像。上述方法无需人工拍摄图像即可获得大量高质量的图像进行训练,从而提高了神经网络的训练效率。
Description
技术领域
本申请涉及人工智能领域,具体涉及一种获取神经网络训练图像的方法和装置。
背景技术
计算机视觉是人工智能的一个重要分支,其利用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等处理,在生活中有广泛的应用。实现计算机视觉的基础是神经网络,神经网络是一种数学模型,由大量的节点互相连接构成。每个节点代表一种特定的输出函数,两个节点之间的连接关系代表该两个节点之间传输的信号。
神经网络需要通过训练才能正常使用,一种获取神经网络训练图像的方法是通过人工拍摄大量的包含商品和背景的图像,通过这些图像来训练神经网络,以便于神经网络能够正确识别出图像中的商品。该方法需要消耗大量的人力资源,效率较低,如何提高获取神经网络训练图像的效率是当前需要解决的问题。
发明内容
本申请提供了一种获取神经网络训练图像的方法和装置,能够提高获取神经网络训练图像的效率。
第一方面,提供了一种获取神经网络训练图像的方法,包括:控制多个摄像机对商品进行拍摄,生成多个商品图像,所述多个摄像机的拍摄角度互不相同;获取背景图像;根据所述多个商品图像和所述背景图像生成多个训练图像,所述多个训练图像中每个训练图像包括所述背景图像的画面和至少一个所述商品图像的画面。
商品图像可以是仅包含商品画面的图像,例如,可以通过图像分割获取商品图像。背景图像是环境图像,例如,包含收银台背景或者货架背景的图像。通过不同的商品图像和不同的背景图像的组合,能够合成出不同的合成图像用于神经网络训练。上述方法无需人工拍摄图像即可获得大量可用的图像进行训练,从而提高了获取神经网络训练图像的效率。
第二方面,提供了一种训练神经网络的方法,其特征在于,包括:获取如第一方面所述的训练图像;对所述训练图像进行下采样生成多个特征图,所述多个特征图的尺度互不相同;通过所述神经网络对所述多个特征图对应的训练图像进行二分类处理,确定包含对象的ROI边框;通过所述神经网络对所述ROI边框中的对象进行多分类处理,确定所述对象的种类;根据所述二分类处理的损失函数和所述多分类处理的损失函数训练所述神经网络。
由于真实场景中商品的图像除了多角度特征外,还包括细粒度特征和多尺度特征。其中,细粒度特征指的是有些商品之间的区别特征非常小,例如,在方便面类商品中不同口为的方便面的外形相似,仅图案稍有差异;多尺度特征指的是不同场景中摄像头与商品的距离不同,摄像头拍摄到的相同商品的尺度也会不同。上述方法使用不同尺度的特征图进行训练,能够提高神经网络正确识别出真实环境中商品的能力。此外,通过两个阶段的处理(二分类处理和多分类处理)能够提高ROI边框的准确度。
第三方面,提供了一种采集图像的装置,包括:支架;设置于所述支架上的多个摄像头,所述多个摄像头的拍摄距离相等,并且,所述多个摄像头的拍摄角度不同;控制模块,与所述多个摄像头连接,控制所述多个摄像头进行拍摄。
由于多个摄像头与目标物体的拍摄距离相等,并且,由于多个摄像头的拍摄角度不同,该多个摄像头能够拍摄出多个角度不同的图像或视频,并且,该多个角度不同的图像或视频中待拍摄物体的画面大小基本相同,有利于在后续数据增强过程中控制目标的缩放比例。
第四方面,提供了一种获取神经网络训练图像的装置,包括用于执行第一方面所述方法的单元。
第五方面,提供了一种训练神经网络的装置,包括用于执行第二方面所述方法的单元。
第六方面,提供了一种获取神经网络训练图像的设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第一方面所述的方法。
第七方面,提供了一种训练神经网络的设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第二方面所述的方法。
第八方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被训练神经网络的装置运行时,使得该装置执行第一方面所述的方法。
第九方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被训练神经网络的装置运行时,使得该装置执行第二方面所述的方法。
第十方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第一方面所述方法的指令。
第十一方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第二方面所述方法的指令。
附图说明
图1是本申请提供的一种商品识别系统的示意图;
图2是本申请提供的一种训练神经网络的方法的示意图;
图3是本申请提供的另一种训练神经网络的方法的示意图;
图4是本申请提供的一种图像采集装置的示意图;
图5是本申请提供的一种图像采集方法的示意图;
图6是本申请提供的一种获取神经网络训练图像的装置的结构示意图;
图7是本申请提供的一种训练神经网络的装置的结构示意图;
图8是本申请提供的一种训练神经网络的设备的结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请可以应用于商品识别场景,图1是本申请提供的一种商品识别系统的示意图。
商品识别系统100包括数据采集模块110、数据增强模块120、和模型训练模块130。
数据采集模块110用于采集商品图像,其可以直接采集一个或多个角度的商品图像,也可以采集一个或多角度的商品视频,并抽取商品视频中的帧作为商品图像。
数据采集模块110可以包括支架、设置于所述支架上的多个摄像头以及控制模块,其中,所述多个摄像头的拍摄距离相等,并且,所述多个摄像头的拍摄角度不同;控制模块与所述多个摄像头连接,控制所述多个摄像头进行拍摄。下文会详细介绍数据采集模块110的结构和使用方法。
由于多个摄像头与目标物体的拍摄距离相等,并且,由于多个摄像头的拍摄角度不同,该多个摄像头能够拍摄出多个角度不同的图像或视频,并且,该多个角度不同的图像或视频中待拍摄物体的画面大小基本相同,因此,该可选的实施例可以更加方便快速的获取到全方位、多角度的商品图像特征,而不需要耗费大量人力去实际场景中拍摄。
可选地,上述多个角度的图像为基于多个视角不同的视频中拍摄时刻相同的帧获取的图像,拍摄时刻相同的帧具有相同的环境参数(如光照条件、商品形态变化)。
数据增强模块120用于对获取的图像(如包含商品画面的帧)进行增强处理,以获取更加接近真实场景的训练数据。例如,可以利用Canny边缘检测方法识别帧中的商品的轮廓,并从帧中分割出商品图像,随后可以对分割出的商品图像标注商品名称,该商品名称为后续神经网络训练时的真实值。
从帧中分割出商品图像后可以对商品图像进行缩放,以使得商品图像的尺寸与背景图像的尺寸匹配。背景图像例如是货架图像或者自助收银台图像,将商品图像缩放至合适尺寸后与背景图像进行合成,得到包含至少一个商品的画面和背景画面的合成图像(即,训练图像)。
可选地,可以基于背景类型确定合成图像中商品画面的排布。
例如,真实场景中,货架上的商品通常是摆放整齐的商品,因此,当背景图像是货架图像时,在生成合成图像时可以将多个商品的画面整齐地排布在货架画面上。
又例如,真实场景中,自助收银台上的商品通常是摆放凌乱地商品,因此,当背景图像是自助收银台时,在生成合成图像时可以将多个商品地画面随机排布在自助收银台画面上。
上述实施例能够合成出接近真实场景的合成图像,能够增强神经网络的训练效果。
数据增强模块120还可以根据实际需要对合成图像进行色彩增强、亮度增强、饱和度增强、以及对比度增强等处理。
获取可用的合成图像后,可以进行神经网络训练。模型训练模块130可以将合成图像输入待训练的神经网络,利用先前标注的商品名称作为真实值进行训练。例如,模型训练模块130从合成图像中提取特征,在特征图上寻找对应的原图中的像素点,与目标真实框的标注数据,计算预测框与真实框的交并比,根据与选框图像特征,进行分类回归训练。
由于真实场景中商品的图像除了多角度特征外,还包括细粒度特征和多尺度特征。其中,细粒度特征指的是有些商品之间的区别特征非常小,例如,在方便面类商品中不同口为的方便面的外形相似,仅图案稍有差异;多尺度特征指的是不同场景中摄像头与商品的距离不同,摄像头拍摄到的相同商品的尺度也会不同。需要针对上述特征选择针对性的解决方案。
针对细粒度特征,一方面可以利用数据采集模块110获取的全面丰富的商品特征图片进行训练,有利于提高检测和分类的结果准确度;另一方面,可以对合成图像进行滑动窗口处理,进行前背景二分类回归训练,提取出可能包含商品画面的区域候选框,然后对这些区域候选框进行分类回归训练,确定包含商品画面的区域和商品类别,以便于神经网络能够学习到正确的商品特征。
针对多尺度特征,可以对数据增强模块120输出的合成图像进行下采样,不同程度的下采样能够生成不同尺度的特征图,以便于神经网络学习不同尺度的商品图像的特征。
模型训练模块130训练神经网络的过程如图2所示。合成图像输入主干网后提取多尺度特征图,分别对多尺度特征图进行感兴趣区域(region of interest,ROI)池化回归分类处理和区域候选网络(region proposal network,RPN)边框回归处理,输出商品在合成图像中的位置、类别、置信度等信息。可以将合成图像中标注的商品信息作为真实值对神经网络进行训练,本申请对神经网络的具体类型以及训练神经网络的具体方法不做限定。
上述从获取图像到训练完成的流程如图3所示。
神经网络(fasterRCNN)输入的数据包括:数据采集模块110拍摄的同一个商品的多角度图像与背景图像的合成图像,合成图像中商品的标注信息,该标注信息包括商品在合成图像中的位置的四边形真实标注框(ground truth)和商品的类别。
合成图像输入神经网络后,神经网络通过Resnet对合成图像进行特征抽取,并进行不同程度的下采样,得到多尺度特征图(Featuremap)。
对该多尺度特征图分别进行ROI处理和ROIHead处理。
ROI处理的过程如下:
生成锚框(anchor):基于特征图的像素点对应到原图(合成图像),每个像素点生成9个不同尺度不同比例的锚框。
正负样本分类标签:将与真实标注框的iou>0.7的锚框划分为正样本(前景),将iou<0.3的锚框划分为负样本(后景)。
前后景二分类:对所有锚框进行前后景分类预测,粗筛出分类得分,将得分最高的前2000个锚框作为候选框(proposals)。
候选框回归:对2000个候选框的位置坐标(x, y, w, h)与真实标注框之间进行回归,对候选框的位置进行微调,使其更接近真实标注框的位置。
非最大值抑制(non-maximum suppression,NMS):去掉多余框,在局部选出最大框,去掉与最大得分的iou>0.7的重复框,获取最后的可能为前景的ROI边框。
ROIHead处理的过程如下:
ROI边框回归:对NMS后的ROI边框再次与真实标注框之间进行回归,微调ROI边框,使其与真实标注框更接近。
ROI边框类别多分类:计算ROI边框的类别特征与真实标注框的类别特征相似度,对回归后的ROI边框进行类别判定,最终输出商品的类别和位置信息。
上述训练过程中,ROI处理的作用主要是筛选出可能包含商品的ROI,其中的分类为前后景二分类问题,不涉及到目标类别的分类。ROIHead处理是用来最终对ROI边框进行精确定位和类别划分,分类问题为多分类,与训练图像中商品的类别数一致。
上述训练过程中的损失函数包括:ROI处理的二分类损失函数和回归损失函数,以及ROIHead处理的多分类损失函数和回归损失函数。其中,二分类损失函数和多分类损失函数均为交叉熵损失函数,回归损失为候选框(proposals)与真实标注框之间的坐标偏移量(△x,△y,△w)的L1范数,如下所示。
训练过程的参数设置和停止条件如下:
初始学习率为0.1;每2500次迭代保存一次所述神经网络的模型,当迭代次数达到90000时停止训练;每个GPU每次处理的训练图像的数量为2。
经测试,损失函数下降至0.0035时,模型收敛,在新的测试集货架图片上,预测准确度为0.98。
训练完成后,模型训练模块130输出可用的神经网络,该神经网络例如是卷积神经网络(convolutional neural network,CNN)。可以将待识别图像输入CNN进行推理,该待识别图像例如是商场中的货架,CNN可以从该待识别图像中识别出货架上的商品的类别和数量,可以与标准货架图进行对比,确定缺货信息,提醒用户补充货源。
在推理过程中,若获取到商品被遮挡的帧,可以丢弃该帧,从监控视频中继续抽取帧,直到抽取到商品未被遮挡的帧,将该帧作为待是被图像输入CNN进行推理。其中,可以对当前帧进行高斯混合处理,估计每个像素值的变化,若当前帧相比于标准货架图有较大区域的像素值发生较大的变化,则可以确定当前帧存在被遮挡的商品。
上文详细介绍了训练神经网络的方法,下面介绍数据采集模块110的结构和使用方法。
图4示出了本申请提供的一种数据采集模块110。
在图4所示的数据采集模块110中,支架为1/4圆弧形支架,1/4圆弧形支架使得摄像头无需移动即可在一次拍摄中获取俯视、平视和侧视等角度的商品图像,若将商品倒置,还可以拍摄到仰视视角的商品图像。可选地,也可以选择其它弧度的支架或者其它形状支架,通过改变商品与支架之间的相对位置来获取所需视角的商品图像。
1/4圆弧形支架上可以每隔15度设置一个卡槽,用于安装摄像头。商品可以位于1/4圆弧形支架的圆弧对应的圆心处,从而使得多个摄像头的拍摄距离相等。
可选地,数据采集模块110还包括旋转平台,该旋转平台用于承载待拍摄的商品。相比于旋转圆弧形支架,通过旋转平台获取360°的多角度视频所需的旋转机构更小,能够减小数据采集模块110的体积。
在拍摄过程中,旋转平台可以匀速旋转,多个摄像头同步开始录像,获取商品的360°的多角度视频。随后,用户可以通过电脑(即控制器)从该360°的多角度视频中抽取拍摄时刻相同的帧,例如,可以在旋转平台每旋转12°对应的视频位置抽取一个帧。随后,对抽取的各个帧进行图像分割,将图像分割出的多个商品图像作为商品的多角度的图像。该实施例使得用户省略了对焦选角度等步骤,能够快速获得全方位视角的商品图像。
可选地,数据采集模块110可以包括纯白色的背景板,商品的颜色通常是彩色的,纯白色的背景板与商品的颜色差异较大,有利于图像分割时从摄像头拍摄的图像中精确识别出商品轮廓,从而正确分割出商品图像。
通过数据采集模块110采集商品图像的过程如图5所示。
上文详细介绍了本申请提供的获取神经网络训练图像的方法以及训练神经网络的方法的示例。可以理解的是,相应的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请可以根据上述方法示例对装置进行功能单元的划分,例如,可以将各个功能划分为各个功能单元,也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6示出了本申请提供的一种获取神经网络训练图像的装置的结构示意图。装置600包括处理单元610。
所述处理单元610用于:控制多个摄像机对商品进行拍摄,生成多个商品图像,所述多个摄像机的拍摄角度互不相同;获取背景图像;根据所述多个商品图像和所述背景图像生成多个训练图像,所述多个训练图像中每个训练图像包括所述背景图像的画面和至少一个所述商品图像的画面。
可选地,所述多个摄像机设置于圆弧支架上,所述圆弧支架的半径与水平面垂直,所述商品位于所述圆弧支架的圆心处,所述处理单元610具体用于:控制所述圆弧支架沿水平面旋转一周对所述商品进行拍摄。
可选地,所述处理单元610具体用于:将所述商品的画面从所述多个商品图像中分割出来;对所述商品的画面进行缩放处理;将缩放处理后的所述商品的画面粘贴至所述背景图像中,生成所述多个训练图像。
可选地,缩放处理后的所述商品的画面的排布与所述背景图像的背景类型存在关联关系。
可选地,所述处理单元610还用于:对所述多个训练图像进行色彩增强处理。
装置600执行获取神经网络训练图像的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。
图7示出了本申请提供的一种训练神经网络的装置的结构示意图。装置700包括处理单元710。
处理单元710用于:获取装置600生成的训练图像;对所述训练图像进行下采样生成多个特征图,所述多个特征图的尺度互不相同;通过所述神经网络对所述多个特征图对应的训练图像进行二分类处理,确定包含对象的ROI边框;通过所述神经网络对所述ROI边框中的对象进行多分类处理,确定所述对象的种类;根据所述二分类处理的损失函数和所述多分类处理的损失函数训练所述神经网络。
可选地,所述处理单元710具体用于:通过所述神经网络确定所述多个特征图对应的每个训练图像的锚框;确定所述每个训练图像的锚框与真实标注框的iou;对iou大于阈值的锚框进行回归处理,所述回归处理用于基于所述真实标注框的位置微调所述锚框的位置;对回归处理后的锚框进行NMS处理,确定所述ROI边框。
可选地,所述处理单元710具体用于:通过所述神经网络对所述ROI边框进行回归处理,所述回归处理用于基于所述真实标注框的位置微调所述ROI边框的位置;对回归处理后的所述ROI边框进行所分类处理,确定所述对象的种类。
可选地,所述二分类处理的损失函数和所述多分类处理的损失函数包括分类损失函数和回归损失函数,所述分类损失函数为交叉熵损失函数,所述回归损失函数为所述ROI边框与包含所述真实标注框之间的坐标偏移量的L1范数。
可选地,所述神经网络的训练条件包括:初始学习率为0.1;每2500次迭代保存一次所述神经网络的模型,当迭代次数达到90000时停止训练;每个GPU每次处理的训练图像的数量为2。
装置700执行训练神经网络的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。
图8示出了本申请提供的一种训练神经网络的设备的结构示意图。图8中的虚线表示该单元或该模块为可选的。设备800可用于实现上述方法实施例中描述的方法。设备800可以是终端设备或服务器或芯片。
设备800包括一个或多个处理器801,该一个或多个处理器801可支持设备800实现方法实施例中的方法。处理器801可以是通用处理器或者专用处理器。例如,处理器801可以是中央处理器(central processing unit,CPU)。CPU可以用于对设备800进行控制,执行软件程序,处理软件程序的数据。设备800还可以包括通信单元805,用以实现信号的输入(接收)和/或输出(发送)。
例如,设备800可以是芯片,通信单元805可以是该芯片的输入和/或输出电路,或者,通信单元805可以是该芯片的通信接口,该芯片可以作为终端设备或网络设备或其它电子设备的组成部分。
又例如,设备800可以是终端设备或服务器,通信单元805可以是该终端设备或该服务器的收发器,或者,通信单元805可以是该终端设备或该服务器的收发电路。
设备800中可以包括一个或多个存储器802,其上存有程序804,程序804可被处理器801运行,生成指令803,使得处理器801根据指令803执行上述方法实施例中描述的方法。可选地,存储器802中还可以存储有数据。可选地,处理器801还可以读取存储器802中存储的数据,该数据可以与程序804存储在相同的存储地址,该数据也可以与程序804存储在不同的存储地址。
处理器801和存储器802可以单独设置,也可以集成在一起,例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
处理器801执行方法实施例的具体方式可以参见方法实施例中的相关描述。
应理解,上述方法实施例的各步骤可以通过处理器801中的硬件形式的逻辑电路或者软件形式的指令完成。处理器801可以是CPU、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,例如,分立门、晶体管逻辑器件或分立硬件组件。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器801执行时实现本申请中任一方法实施例所述的方法。
该计算机程序产品可以存储在存储器802中,例如是程序804,程序804经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器801执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器802。存储器802可以是易失性存储器或非易失性存储器,或者,存储器802可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和设备的具体工作过程以及产生的技术效果,可以参考前述方法实施例中对应的过程和技术效果,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例的一些特征可以忽略,或不执行。以上所描述的装置实施例仅仅是示意性的,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统。另外,各单元之间的耦合或各个组件之间的耦合可以是直接耦合,也可以是间接耦合,上述耦合包括电的、机械的或其它形式的连接。
在本申请的各种实施例中,序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
另外,本文中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种获取神经网络训练图像的方法,其特征在于,包括:
控制多个摄像机对商品进行拍摄,生成多个商品图像,所述多个摄像机的拍摄角度互不相同;
获取背景图像;
根据所述多个商品图像和所述背景图像生成多个训练图像,所述多个训练图像中每个训练图像包括所述背景图像的画面和至少一个所述商品图像的画面。
2.根据权利要求1所述的方法,其特征在于,所述多个摄像机设置于圆弧支架上,所述圆弧支架的半径与水平面垂直,所述商品位于所述圆弧支架的圆心处,所述控制多个摄像机对商品进行拍摄,包括:
控制所述圆弧支架沿水平面旋转一周对所述商品进行拍摄。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个商品图像和所述背景图像生成多个训练图像,包括:
将所述商品的画面从所述多个商品图像中分割出来;
对所述商品的画面进行缩放处理;
将缩放处理后的所述商品的画面粘贴至所述背景图像中,生成所述多个训练图像。
4.根据权利要求3所述的方法,其特征在于,缩放处理后的所述商品的画面的排布与所述背景图像的背景类型存在关联关系。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述多个训练图像进行色彩增强处理。
6.一种训练神经网络的方法,其特征在于,包括:
获取如权利要求1至5中任一项所述的训练图像;
对所述训练图像进行下采样生成多个特征图,所述多个特征图的尺度互不相同;
通过所述神经网络对所述多个特征图对应的训练图像进行二分类处理,确定包含对象的感兴趣区域ROI边框;
通过所述神经网络对所述ROI边框中的对象进行多分类处理,确定所述对象的种类;
根据所述二分类处理的损失函数和所述多分类处理的损失函数训练所述神经网络。
7.根据权利要求6所述的方法,其特征在于,所述通过所述神经网络对所述多个特征图进行二分类处理,确定包含对象的感兴趣区域ROI边框,包括:
通过所述神经网络确定所述多个特征图对应的每个训练图像的锚框;
确定所述每个训练图像的锚框与真实标注框的重叠度iou;
对iou大于阈值的锚框进行回归处理,所述回归处理用于基于所述真实标注框的位置微调所述锚框的位置;
对回归处理后的锚框进行非最大值抑制NMS处理,确定所述ROI边框。
8.根据权利要求6或7所述的方法,其特征在于,所述通过所述神经网络对所述ROI边框中的对象进行多分类处理,确定所述对象的种类,包括:
通过所述神经网络对所述ROI边框进行回归处理,所述回归处理用于基于所述真实标注框的位置微调所述ROI边框的位置;
对回归处理后的所述ROI边框进行多分类处理,确定所述对象的种类。
9.根据权利要求6或7所述的方法,其特征在于,所述二分类处理的损失函数和所述多分类处理的损失函数包括分类损失函数和回归损失函数,所述分类损失函数为交叉熵损失函数,所述回归损失函数为所述ROI边框与所述真实标注框之间的坐标偏移量的L1范数。
10.根据权利要求9所述的方法,其特征在于,所述神经网络的训练条件包括:
初始学习率为0.1;每2500次迭代保存一次所述神经网络的模型,当迭代次数达到90000时停止训练;每个图像处理器GPU每次处理的训练图像的数量为2。
11.一种获取训练图像的装置,其特征在于,包括:用于执行权利要求1至5中任一项所述的方法的单元。
12.一种训练神经网络的装置,其特征在于,包括:用于执行权利要求6至10中任一项所述的方法的单元。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至5中任一项所述的方法,和/或,使得处理器执行权利要求6至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762363.4A CN111931836A (zh) | 2020-07-31 | 2020-07-31 | 获取神经网络训练图像的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762363.4A CN111931836A (zh) | 2020-07-31 | 2020-07-31 | 获取神经网络训练图像的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931836A true CN111931836A (zh) | 2020-11-13 |
Family
ID=73316062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010762363.4A Pending CN111931836A (zh) | 2020-07-31 | 2020-07-31 | 获取神经网络训练图像的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931836A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508132A (zh) * | 2021-01-29 | 2021-03-16 | 广州市玄武无线科技股份有限公司 | 一种识别sku的训练方法及装置 |
CN112528941A (zh) * | 2020-12-23 | 2021-03-19 | 泰州市朗嘉馨网络科技有限公司 | 基于神经网络的自动化参数设定系统 |
CN112836756A (zh) * | 2021-02-04 | 2021-05-25 | 上海明略人工智能(集团)有限公司 | 图像识别模型训练方法、系统和计算机设备 |
CN113344180A (zh) * | 2021-05-31 | 2021-09-03 | 上海商汤智能科技有限公司 | 神经网络训练与图像处理方法、装置、设备和存储介质 |
CN113609323A (zh) * | 2021-07-20 | 2021-11-05 | 上海德衡数据科技有限公司 | 基于神经网络的图像降维方法及系统 |
CN114648814A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 人脸活体检测方法及模型的训练方法、装置、设备及介质 |
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
WO2023020103A1 (zh) * | 2021-08-17 | 2023-02-23 | 北京京东乾石科技有限公司 | 目标检测模型的更新方法及装置 |
CN116128954A (zh) * | 2022-12-30 | 2023-05-16 | 上海强仝智能科技有限公司 | 一种基于生成网络的商品布局识别方法、装置及存储介质 |
-
2020
- 2020-07-31 CN CN202010762363.4A patent/CN111931836A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528941A (zh) * | 2020-12-23 | 2021-03-19 | 泰州市朗嘉馨网络科技有限公司 | 基于神经网络的自动化参数设定系统 |
CN112528941B (zh) * | 2020-12-23 | 2021-11-19 | 芜湖神图驭器智能科技有限公司 | 基于神经网络的自动化参数设定系统 |
CN112508132B (zh) * | 2021-01-29 | 2021-08-03 | 广州市玄武无线科技股份有限公司 | 一种识别sku的训练方法及装置 |
CN112508132A (zh) * | 2021-01-29 | 2021-03-16 | 广州市玄武无线科技股份有限公司 | 一种识别sku的训练方法及装置 |
CN112836756B (zh) * | 2021-02-04 | 2024-02-27 | 上海明略人工智能(集团)有限公司 | 图像识别模型训练方法、系统和计算机设备 |
CN112836756A (zh) * | 2021-02-04 | 2021-05-25 | 上海明略人工智能(集团)有限公司 | 图像识别模型训练方法、系统和计算机设备 |
CN113344180A (zh) * | 2021-05-31 | 2021-09-03 | 上海商汤智能科技有限公司 | 神经网络训练与图像处理方法、装置、设备和存储介质 |
WO2022252558A1 (zh) * | 2021-05-31 | 2022-12-08 | 上海商汤智能科技有限公司 | 神经网络训练与图像处理方法、装置、设备和存储介质 |
CN113609323A (zh) * | 2021-07-20 | 2021-11-05 | 上海德衡数据科技有限公司 | 基于神经网络的图像降维方法及系统 |
CN113609323B (zh) * | 2021-07-20 | 2024-04-23 | 上海德衡数据科技有限公司 | 基于神经网络的图像降维方法及系统 |
WO2023020103A1 (zh) * | 2021-08-17 | 2023-02-23 | 北京京东乾石科技有限公司 | 目标检测模型的更新方法及装置 |
CN114648814A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 人脸活体检测方法及模型的训练方法、装置、设备及介质 |
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
CN115131570B (zh) * | 2022-05-27 | 2023-08-22 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
CN116128954B (zh) * | 2022-12-30 | 2023-12-05 | 上海强仝智能科技有限公司 | 一种基于生成网络的商品布局识别方法、装置及存储介质 |
CN116128954A (zh) * | 2022-12-30 | 2023-05-16 | 上海强仝智能科技有限公司 | 一种基于生成网络的商品布局识别方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931836A (zh) | 获取神经网络训练图像的方法和装置 | |
US11068741B2 (en) | Multi-resolution feature description for object recognition | |
CN109583285B (zh) | 对象识别方法 | |
US11182592B2 (en) | Target object recognition method and apparatus, storage medium, and electronic device | |
US10192323B2 (en) | Remote determination of containers in geographical region | |
US8379920B2 (en) | Real-time clothing recognition in surveillance videos | |
Rozantsev et al. | On rendering synthetic images for training an object detector | |
Prisacariu et al. | Integrating object detection with 3D tracking towards a better driver assistance system | |
EP2874097A2 (en) | Automatic scene parsing | |
CN105512683A (zh) | 基于卷积神经网络的目标定位方法及装置 | |
US20080193020A1 (en) | Method for Facial Features Detection | |
US20140341421A1 (en) | Method for Detecting Persons Using 1D Depths and 2D Texture | |
CN110634116B (zh) | 一种面部图像评分方法及摄像机 | |
CN107016344A (zh) | 视频中品牌识别系统及其实现方法 | |
CN111368682B (zh) | 一种基于faster RCNN台标检测与识别的方法及系统 | |
US20220301277A1 (en) | Target detection method, terminal device, and medium | |
CN111753782A (zh) | 一种基于双流网络的假脸检测方法、装置及电子设备 | |
CN111832556A (zh) | 一种基于深度学习的船舷字符精准检测方法 | |
CN112070077B (zh) | 一种基于深度学习的食物识别方法和装置 | |
CN112347967A (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
CN112749664A (zh) | 一种手势识别方法、装置、设备、系统及存储介质 | |
CN111476056A (zh) | 目标物体的识别方法、装置、终端设备及计算机存储介质 | |
Wang et al. | A detection and tracking system for fisheye videos from traffic intersections | |
CN111291756B (zh) | 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质 | |
Qu et al. | Double domain guided real-time low-light image enhancement for ultra-high-definition transportation surveillance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |