CN111753730A - 一种图像审查方法及装置 - Google Patents
一种图像审查方法及装置 Download PDFInfo
- Publication number
- CN111753730A CN111753730A CN202010590176.2A CN202010590176A CN111753730A CN 111753730 A CN111753730 A CN 111753730A CN 202010590176 A CN202010590176 A CN 202010590176A CN 111753730 A CN111753730 A CN 111753730A
- Authority
- CN
- China
- Prior art keywords
- image
- bounding box
- target
- determining
- indicating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 124
- 238000011176 pooling Methods 0.000 claims description 33
- 238000012552 review Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002187 spin decoupling employing ultra-broadband-inversion sequences generated via simulated annealing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像审查方法及装置,将图像输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识。依据边界框的位置信息和边长信息,确定边界框在图像中所处的位置。基于处于图像的中心位置的各个边界框的面积,确定目标边界框。分割目标边界框所包含的图像内容,得到物品图像,依据目标边界框的分类标识,确定物品图像的类别。可见,本申请提供的技术方案,能够有效提高目标检测的准确性,保证图像审查结果的可靠性。并且,本申请提供的目标检测网络,还能对图像中的物品类别进行识别,适用性较强。
Description
技术领域
本申请涉及图像识别技术领域,尤其涉及一种图像审查方法及装置。
背景技术
在电商系统中,商品上架审核需要对商家上传的图像进行审核,而随着电商业务的多样化发展,商品图像的数据量以亿级单位增长,面对如此庞大的数据量,需要构建目标检测网络辅助进行商品图像的审查。
在审核商品图像的过程中,需要将商品图像中的物品提取出来,目前,现有的目标检测网络所采用的方法是物体边缘提取方法。所谓的物体边缘提取方法,是先通过边缘算子找到商品图像中可能的边缘点,再将边缘点连接起来形成封闭的边界,并提取边界内的图像,得到物品图像。以常见的SUSAN算子(一种基于图像局部灰度特征的算法)为例,其利用一个圆形的模板对商品图像进行扫描,比较模板内部的点与模板中心点的灰度值,在灰度值差值处于预设范围的情况下,确定点与中心点的灰度一致。统计模板内部中与中心点灰度一致的各个点,将各个点的灰度值与预设阈值进行比较,在灰度值大于预设阈值的情况下,确定该点为预设区域的边缘点。
然而,现有的物体边缘提取方法,可能存在非边缘点的灰度值大于预设阈值的情况,因此,可能出现假边缘,使得目标检测的准确性降低,进一步降低物品提取的准确性,从而影响图像的审查结果。
发明内容
本申请提供了一种图像审查方法及装置,目的在于提高目标检测的准确性,保证图像审查结果的可靠性。
为了实现上述目的,本申请提供了以下技术方案:
一种图像审查方法,包括:
将图像输入至预先构建的目标检测网络,对所述图像中的物品进行检测,得到所述目标检测网络输出的检测结果;所述检测结果用于指示所述图像中各个边界框的位置信息、边长信息、以及分类标识,所述位置信息用于指示所述边界框的直角点的坐标,所述边长信息用于指示所述边界框的长和宽,所述分类标识用于指示所述边界框内所包含的物品类别;
依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置;
基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,所述目标边界框为各个所述边界框中的任意一个;
分割所述目标边界框所包含的图像内容,得到物品图像;
依据所述目标边界框的所述分类标识,确定所述物品图像的类别;
其中,所述目标检测网络包括:
检测结构,用于对所述图像进行不同尺度的卷积,得到所述图像在不同尺度下的特征图,并利用预设的卷积核,对所述特征图进行预测,得到多个预测结果;所述预测结果用于指示所述特征图中各个所述边界框的所述位置信息、所述边长信息、以及所述分类标识;
池化结构,用于对多个所述预测结果进行池化处理,输出所述检测结果。
可选的,所述检测结构包括:
输入层和卷积层。
可选的,所述输入层包括:
卷积神经网络的基础网络结构。
可选的,所述卷积层包括:
第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、以及第六卷积层;其中,所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层、以及所述第六卷积层的大小互不相同。
可选的,所述池化结构包括:
池化层。
可选的,所述依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置,包括:
依据所述直角点的所述坐标、所述长和所述宽,计算所述边界框的中心点的坐标;
依据所述中心点的所述坐标、以及所述图像的中心点的坐标,计算所述边界框的所述中心点与所述图像的所述中心点之间的距离;
在所述距离小于预设阈值的情况下,确定所述边界框处于所述图像的中心位置。
可选的,所述基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,包括:
计算第一边界框的所述长和所述宽的乘积,得到第一面积;所述第一边界框为,处于所述图像的中心位置的所述边界框;
计算各个所述第一面积与所述图像的面积之间的比值;
比较各个所述比值的大小;
依据比较结果,确定目标边界框,所述目标边界框的面积与所述图像的面积之间的所述比值,大于其他所述第一边界框的面积与所述图像的面积之间的所述比值。
一种图像审查装置,包括:
检测单元,用于将图像输入至预先构建的目标检测网络,对所述图像中的物品进行检测,得到所述目标检测网络输出的检测结果;所述检测结果用于指示所述图像中各个边界框的位置信息、边长信息、以及分类标识,所述位置信息用于指示所述边界框的直角点的坐标,所述边长信息用于指示所述边界框的长和宽,所述分类标识用于指示所述边界框内所包含的物品类别;其中,所述目标检测网络包括:检测结构,用于对所述图像进行不同尺度的卷积,得到所述图像在不同尺度下的特征图,并利用预设的卷积核,对所述特征图进行预测,得到多个预测结果;所述预测结果用于指示所述特征图中各个所述边界框的所述位置信息、所述边长信息、以及所述分类标识;池化结构,用于对多个所述预测结果进行池化处理,输出所述检测结果;
第一确定单元,用于依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置;
第二确定单元,用于基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,所述目标边界框为各个所述边界框中的任意一个;
分割单元,用于分割所述目标边界框所包含的图像内容,得到物品图像;
第三确定单元,用于依据所述目标边界框的所述分类标识,确定所述物品图像的类别。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序所述的图像审查方法。
一种图像审查设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的图像审查方法。
本申请提供的技术方案,将图像输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识。依据边界框的位置信息和边长信息,确定边界框在图像中所处的位置。基于处于图像的中心位置的各个边界框的面积,确定目标边界框。分割目标边界框所包含的图像内容,得到物品图像,依据目标边界框的分类标识,确定物品图像的类别。其中,目标检测网络包括:检测结构,用于对图像进行不同尺度的卷积,得到图像在不同尺度下的特征图,并利用预设的卷积核,对特征图进行预测,得到多个预测结果。池化结构,用于对多个预测结果进行池化处理,输出检测结果。相较于现有的物体边缘提取方法,本申请所采用的目标检测网络,利用预设的卷积核,对图像的特征图中的每个位置都进行预测,得到数量较多的预测值,依据数量较多的预测值,得到准确性较高的边界框,该边界框内所包含物品的完整性和准确性,远高于基于物体边缘提取方法所得到的物品。可见,本申请提供的技术方案,能够有效提高目标检测的准确性,保证图像审查结果的可靠性。并且,本申请提供的目标检测网络,还能对图像中的物品类别进行识别,适用性较强。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像审查方法的示意图;
图2为本申请实施例提供一种目标检测网络的结构示意图;
图3为本申请实施例提供的另一种图像审查方法的示意图;
图4为本申请实施例提供的一种确定边界框在图像中所处的位置的流程示意图;
图5为本申请实施例提供的一种确定目标边界框的流程示意图;
图6为本申请实施例提供的一种图像审查装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请实施例提供的一种图像审查方法的示意图,包括如下步骤:
S101:对用户上传的图像文件进行格式转换,得到编码文件。
其中,编码文件的具体格式可以为Base64,在本实施例中,对图像文件进行格式转换的具体实现过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S102:将编码文件输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果。
其中,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识。
需要说明的是,在本实施例中,边界框的形状为矩形,因此,位置信息用于指示边界框的直角点的坐标(具体为左上角的坐标),边长信息用于指示边界框的长和宽,分类标识用于指示边界框内所包含的物品类别。
在本实施例中,目标检测网络在VGG16模型(一种现有的卷积神经网络)为的基础上改进得到:将VGG16模型的全连接层fc6替换成38*38卷积层,全连接层fc7替换成19*19卷积层,并移除dropout层和全连接层fc8,在19*19卷积层之后新增4个卷积层,新增的4个卷积层依次为:10*10卷积层、5*5卷积层、3*3卷积层、1*1卷积层。并在最后的1*1卷积层后还增加了一个池化层,用于对特征图的预测结果(即利用卷积核对特征图进行特征提取的结果)进行池化处理(例如,最大池化、或者平均池化)。
需要说明的是,38*38卷积层、19*19卷积层、10*10卷积层、5*5卷积层、3*3卷积层、1*1卷积层对图像进行卷积的过程中所使用的损失函数,包括但不限于是:focal loss损失函数、或者relu损失函数等。
基于上述改进点,本实施例中的目标检测网络的输入层为VGG16模型的基础网络结构(base network)。在基础网络结构后,依次为上述提及的6个卷积层。目标检测网络中的各个卷积层所采用的卷积方式为VALID模式,VALID模式会让卷积后的图像会变小,从而得到不同尺度的特征图。因此,在目标检测网络中,新增的卷积层的大小是逐层递减。
在目标检测网络中,还会使用预设的一系列卷积核(即卷积核的大小不同),对基础网络结构中的任意一个特征层、以及新增的卷积层进行预测(即利用卷积核对特征图进行特征提取),得到多个预测值(predictions),例如,使用3*3的卷积核,对一个大小为m*n*p的特征图进行预测,在特征图的某个位置上预测出一个预测值,该预测值可以表示为物品类别的得分(例如,水果的得分、或者衣服的得分等物品类别的得分),也可以表示为该位置相对于初始边界框(defaultboundingboxes)的偏移量。针对特征图中的每个位置,使用卷积核对该位置进行预测,都会预测得到一个预测值,若预测值用于表示该位置相对于初始边界框的偏移量,则还会得到一个先验框(box),每个特征图单元会设置尺度或长宽比不同的box,初始边界框也都是以这些box作为基准,从而减少目标检测网络的训练难度。
针对特征图中的每个位置,预测k个box,对于每个box,预测C个物品类别的得分、以及该位置相对于初始边界框的4个偏移量(以二维坐标系为参考系,分别是横坐标的正负方向、以及纵坐标的正负方向上的偏移量)。为了最大限度地得到包含整个检测目标的边界框,在目标检测网络中,特征图的每个特征图单元中都设置有(C+4)*k个预测器(即卷积核),进一步的,m*n的特征图将会预测得到(C+4)*k*m*n个预测值,依据(C+4)*k*m*n个预测值,得到一个较为准确的边界框(即预测值的数量越多,边界框的准确性越高)。
需要强调的是,目标检测网络的训练过程,与现有的卷积神经网络的训练过程相同,都是本领域技术人员所熟悉的公知常识,这里不再赘述。
如图2所示,为本申请实施例提供一种目标检测网络的结构示意图,将像素300*300图像的编码文件输入目标检测网络,得到图像的检测结果,该检测结果指示了图像中各个边界框的位置信息、边长信息、以及分类标识。
具体的,按照图2所示的结构,目标检测网络对像素300*300图像进行目标检测的具体流程为:
1、图像先进入输入层,得到第一预测结果。
其中,输入层为VGG16模型的基础网络结构,用于对图像进行卷积,得到300*300的特征图,并利用预设的(C+4)*k个卷积核,对300*300的特征图上的每一个位置进行预测,得到(C+4)*k*300*300个预测值,从而输出第一预测结果,第一预测结果用于指示300*300的特征图上各个边界框的位置信息、边长信息、以及分类标识。
2、第一预测结果输入38*38卷积层,得到第二预测结果。
其中,38*38卷积层对300*300的特征图进行卷积,得到38*38的特征图,并利用预设的(C+4)*k个卷积核,对38*38的特征图上的每一个位置进行预测,得到(C+4)*k*38*38个预测值,从而输出第二预测结果,第二预测结果用于指示38*38的特征图上各个边界框的位置信息、边长信息、以及分类标识。
3、第二预测结果输入19*19卷积层,得到第三预测结果。
其中,19*19卷积层对38*38的特征图进行卷积,得到19*19的特征图,并利用预设的(C+4)*k个卷积核,对19*19的特征图上的每一个位置进行预测,得到(C+4)*k*19*19个预测值,从而输出第三预测结果,第三预测结果用于指示19*19的特征图上各个边界框的位置信息、边长信息、以及分类标识。
4、第三预测结果输入10*10卷积层,得到第四预测结果。
其中,10*10卷积层对19*19的特征图进行卷积,得到10*10的特征图,并利用预设的(C+4)*k个卷积核,对10*10的特征图上的每一个位置进行预测,得到(C+4)*k*10*10个预测值,从而输出第四预测结果,第四预测结果用于指示10*10的特征图上各个边界框的位置信息、边长信息、以及分类标识。
5、第四预测结果输入5*5卷积层,得到第五预测结果。
其中,5*5卷积层对10*10的特征图进行卷积,得到5*5的特征图,并利用预设的(C+4)*k个卷积核,对5*5的特征图上的每一个位置进行预测,得到(C+4)*k*5*5个预测值,从而输出第五预测结果,第五预测结果用于指示5*5的特征图上各个边界框的位置信息、边长信息、以及分类标识。
6、第五预测结果输入3*3卷积层,得到第六预测结果。
其中,3*3卷积层对5*5的特征图进行卷积,得到3*3的特征图,并利用预设的(C+4)*k个卷积核,对3*3的特征图上的每一个位置进行预测,得到(C+4)*k*3*3个预测值,从而输出第六预测结果,第六预测结果用于指示3*3的特征图上各个边界框的位置信息、边长信息、以及分类标识。
7、第六预测结果输入1*1卷积层,得到第七预测结果。
其中,1*1卷积层对3*3的特征图进行卷积,得到1*1的特征图,并利用预设的(C+4)*k个卷积核,对1*1的特征图上的每一个位置进行预测,得到(C+4)*k*1*1个预测值,从而输出第七预测结果,第七预测结果用于指示1*1的特征图上各个边界框的位置信息、边长信息、以及分类标识。
8、将第一预测结果、第二预测结果、第三预测结果、第四预测结果、第五预测结果、第六预测结果、以及第七预测结果输入池化层,得到检测结果。
其中,池化层对各个尺度的特征图的预测结果进行池化处理,输出检测结果,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识。
需要说明的是,本实施例提供的目标检测网络提取了不同尺度的特征图进行检测,大尺度特征图可以用于检测图像中的小物体,小尺度特征图可以用于检测图像中的大物体。
S103:依据边界框的左上角的坐标、以及长和宽,计算边界框的中心点坐标。
其中,边界框的中心点坐标的计算过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S104:依据边界框的中心点的坐标、以及图像的中心点的坐标,计算边界框的中心点与图像的中心点之间的距离。
其中,边界框的中心点与图像的中心点之间的距离的计算过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S105:在边界框的中心点与图像的中心点之间的距离,小于预设阈值的情况下,确定边界框处于图像的中心位置。
其中,根据以往经验可知,商家所上传的商品图像中,商品图像的中心位置通常都是商品所处的位置,即处于图像中心位置的边界框中所包含的物品,可以确定为商品。
S106:依据边界框的长和宽,计算处于图像的中心位置的各个边界框的面积。
其中,边界框的面积为,长和宽的乘积。
S107:计算处于图像的中心位置的各个边界框的面积与图像的面积之间的比值。
S108:比较处于图像的中心位置的各个边界框的面积与图像的面积之间的比值,得到目标边界框。
其中,目标边界框的面积与图像的面积之间的比值,大于其他边界框的面积与图像的面积之间的比值。
S109:利用opencv图像库分割目标边界框所包含的图像内容,得到物品图像。
其中,利用opencv图像库分割目标边界框所包含的图像内容的具体实现过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S110:依据目标边界框的分类标识,确定物品图像的类别。
S111:将物品图像、以及物品图像的类别发送给用户。
综上所述,利用预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果。其中,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识,位置信息用于指示边界框的直角点的坐标,边长信息用于指示边界框的长和宽,分类标识用于指示边界框内所包含的物品类别。相较于现有的物体边缘提取方法,本实施例所采用的目标检测网络,利用预设的卷积核,对图像的特征图中的每个位置都进行预测,得到数量较多的预测值,依据数量较多的预测值,得到准确性较高的边界框,该边界框内所包含物品的完整性和准确性,远高于基于物体边缘提取方法所得到的物品。可见,本实施例提供的技术方案,能够有效提高目标检测的准确性,保证图像审查结果的可靠性。并且,本实施例提供的目标检测网络,还能对图像中的物品类别进行识别,适用性较强。
需要说明的是,上述实施例中,提供的图像审查方法可以概括为图3所示的流程。
如图3所示,为本申请实施例提供的另一种图像审查方法的示意图,包括如下步骤:
S301:将图像输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果。
其中,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识,位置信息用于指示边界框的直角点的坐标,边长信息用于指示边界框的长和宽,分类标识用于指示边界框内所包含的物品类别。
在本实施例中,目标检测网络包括:
检测结构,用于对图像进行不同尺度的卷积,得到图像在不同尺度下的特征图,并利用预设的卷积核,对特征图进行预测,得到多个预测结果,预测结果用于指示特征图中各个边界框的位置信息、边长信息、以及分类标识。
池化结构,用于对多个预测结果进行池化处理,输出检测结果。
可选的,检测结构包括输入层和卷积层。
可选的,输入层包括卷积神经网络的基础网络结构。需要说明的是,上述实施例提及的VGG16模型,为本实施例所述卷积神经网络的一种具体表现方式。
可选的,卷积层包括:第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、以及第六卷积层,其中,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、以及第六卷积层的大小互不相同。
需要说明的是,上述实施例提及的38*38卷积层为第一卷积层的一种具体表现方式,19*19卷积层为第二卷积层的一种具体表现方式,10*10卷积层为第三卷积层的一种具体表现方式,5*5卷积层为第四卷积层的一种具体表现方式,3*3卷积层为第五卷积层的一种具体表现方式,1*1卷积层为第六卷积层的一种具体表现方式。
可选的,池化结构包括池化层。
S302:依据坐标、长和宽,确定边界框在图像中所处的位置。
其中,依据坐标、长和宽,确定边界框在图像中所处的位置的具体实现过程,可以参见下述图4示出的步骤、以及步骤的解释说明。
S303:基于处于图像的中心位置的各个边界框的面积,确定目标边界框。
其中,目标边界框为各个边界框中的任意一个。
需要说明的是,基于处于图像的中心位置的各个边界框的面积,确定目标边界框的具体实现过程,可以参见下述图5示出的步骤、以及步骤的解释说明。
S304:分割目标边界框所包含的图像内容,得到物品图像。
其中,S304的具体执行过程和实现原理,与上述S109的具体执行过程和实现原理一致,这里不再赘述。
S305:依据目标边界框的分类标识,确定物品图像的类别。
其中,S305的具体执行过程和实现原理,与上述S110的具体执行过程和实现原理一致,这里不再赘述。
综上所述,将图像输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识。依据边界框的位置信息和边长信息,确定边界框在图像中所处的位置。基于处于图像的中心位置的各个边界框的面积,确定目标边界框。分割目标边界框所包含的图像内容,得到物品图像,依据目标边界框的分类标识,确定物品图像的类别。其中,目标检测网络包括:检测结构,用于对图像进行不同尺度的卷积,得到图像在不同尺度下的特征图,并利用预设的卷积核,对特征图进行预测,得到多个预测结果。池化结构,用于对多个预测结果进行池化处理,输出检测结果。相较于现有的物体边缘提取方法,本实施例所采用的目标检测网络,利用预设的卷积核,对图像的特征图中的每个位置都进行预测,得到数量较多的预测值,依据数量较多的预测值,得到准确性较高的边界框,该边界框内所包含物品的完整性和准确性,远高于基于物体边缘提取方法所得到的物品。可见,本实施例提供的技术方案,能够有效提高目标检测的准确性,保证图像审查结果的可靠性。并且,本实施例提供的目标检测网络,还能对图像中的物品类别进行识别,适用性较强。
如图4所示,为本申请实施例提供的一种确定边界框在图像中所处的位置的流程示意图,包括如下步骤:
S401:依据边界框的直角点的坐标、长和宽,计算边界框的中心点的坐标。
其中,上述实施例中提及的左上角的坐标,为直角点的坐标的一种具体表现方式。
S402:依据边界框的中心点的坐标、以及图像的中心点的坐标,计算边界框的中心点与图像的中心点之间的距离。
其中,计算两个坐标之间的距离的具体实现过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
S403:在距离小于预设阈值的情况下,确定边界框处于图像的中心位置。
其中,在距离不小于预设阈值的情况下,确定边界框处于图像的非中心位置。
综上所述,基于本实施例提供的流程,能够有效确定处于图像的中心位置的边界框。
如图5所示,为本申请实施例提供的一种确定目标边界框的流程示意图,包括如下步骤:
S501:计算第一边界框的长和宽的乘积,得到第一面积。
其中,第一边界框为,处于图像的中心位置的边界框。
S502:计算各个第一面积与图像的面积之间的比值。
S503:比较各个比值的大小。
S504:依据比较结果,确定目标边界框。
其中,目标边界框的面积与图像的面积之间的比值,大于其他第一边界框的面积与图像的面积之间的比值。
综上所述,基于本实施例提供的流程,能够有效从图像中的各个边界框中选择出目标边界框。
与上述本申请实施例提供的图像审查方法相对应,本申请还提供了一种图像审查装置。
如图6所示,为本申请实施例提供的一种图像审查装置的结构示意图,包括:
检测单元100,用于将图像输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果。检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识,位置信息用于指示边界框的直角点的坐标,边长信息用于指示边界框的长和宽,分类标识用于指示边界框内所包含的物品类别。
其中,目标检测网络包括:检测结构,用于对图像进行不同尺度的卷积,得到图像在不同尺度下的特征图,并利用预设的卷积核,对特征图进行预测,得到多个预测结果,预测结果用于指示特征图中各个边界框的位置信息、边长信息、以及分类标识。池化结构,用于对多个预测结果进行池化处理,输出检测结果。检测结构包括输入层和卷积层,池化结构包括池化层。输入层包括卷积神经网络的基础网络结构,卷积层包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、以及第六卷积层,并且,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、以及第六卷积层的大小互不相同。
第一确定单元200,用于依据坐标、长和宽,确定边界框在图像中所处的位置。
其中,第一确定单元200依据坐标、长和宽,确定边界框在图像中所处的位置的具体实现过程包括:依据直角点的坐标、长和宽,计算边界框的中心点的坐标,依据中心点的坐标、以及图像的中心点的坐标,计算边界框的中心点与图像的中心点之间的距离,在距离小于预设阈值的情况下,确定边界框处于图像的中心位置。
第二确定单元300,用于基于处于图像的中心位置的各个边界框的面积,确定目标边界框,目标边界框为各个边界框中的任意一个。
其中,第二确定单元300基于处于图像的中心位置的各个边界框的面积,确定目标边界框的具体实现过程包括:计算第一边界框的长和宽的乘积,得到第一面积,第一边界框为,处于图像的中心位置的边界框。计算各个第一面积与图像的面积之间的比值,比较各个比值的大小,依据比较结果,确定目标边界框,目标边界框的面积与图像的面积之间的比值,大于其他第一边界框的面积与图像的面积之间的比值。
分割单元400,用于分割目标边界框所包含的图像内容,得到物品图像。
第三确定单元500,用于依据目标边界框的分类标识,确定物品图像的类别。
综上所述,将图像输入至预先构建的目标检测网络,对图像中的物品进行检测,得到目标检测网络输出的检测结果,检测结果用于指示图像中各个边界框的位置信息、边长信息、以及分类标识。依据边界框的位置信息和边长信息,确定边界框在图像中所处的位置。基于处于图像的中心位置的各个边界框的面积,确定目标边界框。分割目标边界框所包含的图像内容,得到物品图像,依据目标边界框的分类标识,确定物品图像的类别。相较于现有的物体边缘提取方法,本实施例所采用的目标检测网络,利用预设的卷积核,对图像的特征图中的每个位置都进行预测,得到数量较多的预测值,依据数量较多的预测值,得到准确性较高的边界框,该边界框内所包含物品的完整性和准确性,远高于基于物体边缘提取方法所得到的物品。可见,本实施例提供的技术方案,能够有效提高目标检测的准确性,保证图像审查结果的可靠性。并且,本实施例提供的目标检测网络,还能对图像中的物品类别进行识别,适用性较强。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的图像审查方法。
本申请还提供了一种图像审查设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的图像审查方法,包括如下步骤:
将图像输入至预先构建的目标检测网络,对所述图像中的物品进行检测,得到所述目标检测网络输出的检测结果;所述检测结果用于指示所述图像中各个边界框的位置信息、边长信息、以及分类标识,所述位置信息用于指示所述边界框的直角点的坐标,所述边长信息用于指示所述边界框的长和宽,所述分类标识用于指示所述边界框内所包含的物品类别;其中,所述目标检测网络包括:检测结构,用于对所述图像进行不同尺度的卷积,得到所述图像在不同尺度下的特征图,并利用预设的卷积核,对所述特征图进行预测,得到多个预测结果;所述预测结果用于指示所述特征图中各个所述边界框的所述位置信息、所述边长信息、以及所述分类标识;池化结构,用于对多个所述预测结果进行池化处理,输出所述检测结果;
依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置;
基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,所述目标边界框为各个所述边界框中的任意一个;
分割所述目标边界框所包含的图像内容,得到物品图像;
依据所述目标边界框的所述分类标识,确定所述物品图像的类别。
可选的,所述依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置,包括:
依据所述直角点的所述坐标、所述长和所述宽,计算所述边界框的中心点的坐标;
依据所述中心点的所述坐标、以及所述图像的中心点的坐标,计算所述边界框的所述中心点与所述图像的所述中心点之间的距离;
在所述距离小于预设阈值的情况下,确定所述边界框处于所述图像的中心位置。
可选的,所述基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,包括:
计算第一边界框的所述长和所述宽的乘积,得到第一面积;所述第一边界框为,处于所述图像的中心位置的所述边界框;
计算各个所述第一面积与所述图像的面积之间的比值;
比较各个所述比值的大小;
依据比较结果,确定目标边界框,所述目标边界框的面积与所述图像的面积之间的所述比值,大于其他所述第一边界框的面积与所述图像的面积之间的所述比值。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种图像审查方法,其特征在于,包括:
将图像输入至预先构建的目标检测网络,对所述图像中的物品进行检测,得到所述目标检测网络输出的检测结果;所述检测结果用于指示所述图像中各个边界框的位置信息、边长信息、以及分类标识,所述位置信息用于指示所述边界框的直角点的坐标,所述边长信息用于指示所述边界框的长和宽,所述分类标识用于指示所述边界框内所包含的物品类别;
依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置;
基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,所述目标边界框为各个所述边界框中的任意一个;
分割所述目标边界框所包含的图像内容,得到物品图像;
依据所述目标边界框的所述分类标识,确定所述物品图像的类别;
其中,所述目标检测网络包括:
检测结构,用于对所述图像进行不同尺度的卷积,得到所述图像在不同尺度下的特征图,并利用预设的卷积核,对所述特征图进行预测,得到多个预测结果;所述预测结果用于指示所述特征图中各个所述边界框的所述位置信息、所述边长信息、以及所述分类标识;
池化结构,用于对多个所述预测结果进行池化处理,输出所述检测结果。
2.根据权利要求1所述的方法,其特征在于,所述检测结构包括:
输入层和卷积层。
3.根据权利要求2所述的方法,其特征在于,所述输入层包括:
卷积神经网络的基础网络结构。
4.根据权利要求2所述的方法,其特征在于,所述卷积层包括:
第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、以及第六卷积层;其中,所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层、以及所述第六卷积层的大小互不相同。
5.根据权利要求1所述的方法,其特征在于,所述池化结构包括:
池化层。
6.根据权利要求1所述的方法,其特征在于,所述依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置,包括:
依据所述直角点的所述坐标、所述长和所述宽,计算所述边界框的中心点的坐标;
依据所述中心点的所述坐标、以及所述图像的中心点的坐标,计算所述边界框的所述中心点与所述图像的所述中心点之间的距离;
在所述距离小于预设阈值的情况下,确定所述边界框处于所述图像的中心位置。
7.根据权利要求1所述的方法,其特征在于,所述基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,包括:
计算第一边界框的所述长和所述宽的乘积,得到第一面积;所述第一边界框为,处于所述图像的中心位置的所述边界框;
计算各个所述第一面积与所述图像的面积之间的比值;
比较各个所述比值的大小;
依据比较结果,确定目标边界框,所述目标边界框的面积与所述图像的面积之间的所述比值,大于其他所述第一边界框的面积与所述图像的面积之间的所述比值。
8.一种图像审查装置,其特征在于,包括:
检测单元,用于将图像输入至预先构建的目标检测网络,对所述图像中的物品进行检测,得到所述目标检测网络输出的检测结果;所述检测结果用于指示所述图像中各个边界框的位置信息、边长信息、以及分类标识,所述位置信息用于指示所述边界框的直角点的坐标,所述边长信息用于指示所述边界框的长和宽,所述分类标识用于指示所述边界框内所包含的物品类别;其中,所述目标检测网络包括:检测结构,用于对所述图像进行不同尺度的卷积,得到所述图像在不同尺度下的特征图,并利用预设的卷积核,对所述特征图进行预测,得到多个预测结果;所述预测结果用于指示所述特征图中各个所述边界框的所述位置信息、所述边长信息、以及所述分类标识;池化结构,用于对多个所述预测结果进行池化处理,输出所述检测结果;
第一确定单元,用于依据所述坐标、所述长和所述宽,确定所述边界框在所述图像中所处的位置;
第二确定单元,用于基于处于所述图像的中心位置的各个所述边界框的面积,确定目标边界框,所述目标边界框为各个所述边界框中的任意一个;
分割单元,用于分割所述目标边界框所包含的图像内容,得到物品图像;
第三确定单元,用于依据所述目标边界框的所述分类标识,确定所述物品图像的类别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-7所述的图像审查方法。
10.一种图像审查设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-7所述的图像审查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010590176.2A CN111753730A (zh) | 2020-06-24 | 2020-06-24 | 一种图像审查方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010590176.2A CN111753730A (zh) | 2020-06-24 | 2020-06-24 | 一种图像审查方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753730A true CN111753730A (zh) | 2020-10-09 |
Family
ID=72677168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010590176.2A Pending CN111753730A (zh) | 2020-06-24 | 2020-06-24 | 一种图像审查方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753730A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232361A (zh) * | 2020-10-13 | 2021-01-15 | 国网电子商务有限公司 | 图像处理的方法及装置、电子设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665336A (zh) * | 2017-09-20 | 2018-02-06 | 厦门理工学院 | 智能冰箱中基于Faster‑RCNN的多目标检测方法 |
KR101932009B1 (ko) * | 2017-12-29 | 2018-12-24 | (주)제이엘케이인스펙션 | 다중 객체 검출을 위한 영상 처리 장치 및 방법 |
US10289938B1 (en) * | 2017-05-16 | 2019-05-14 | State Farm Mutual Automobile Insurance Company | Systems and methods regarding image distification and prediction models |
CN109977872A (zh) * | 2019-03-27 | 2019-07-05 | 北京迈格威科技有限公司 | 动作检测方法、装置、电子设备及计算机可读存储介质 |
CN110232713A (zh) * | 2019-06-13 | 2019-09-13 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
CN110766081A (zh) * | 2019-10-24 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种界面图像检测的方法、模型训练的方法以及相关装置 |
CN111079741A (zh) * | 2019-12-02 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像边框位置检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-24 CN CN202010590176.2A patent/CN111753730A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10289938B1 (en) * | 2017-05-16 | 2019-05-14 | State Farm Mutual Automobile Insurance Company | Systems and methods regarding image distification and prediction models |
CN107665336A (zh) * | 2017-09-20 | 2018-02-06 | 厦门理工学院 | 智能冰箱中基于Faster‑RCNN的多目标检测方法 |
KR101932009B1 (ko) * | 2017-12-29 | 2018-12-24 | (주)제이엘케이인스펙션 | 다중 객체 검출을 위한 영상 처리 장치 및 방법 |
CN109977872A (zh) * | 2019-03-27 | 2019-07-05 | 北京迈格威科技有限公司 | 动作检测方法、装置、电子设备及计算机可读存储介质 |
CN110232713A (zh) * | 2019-06-13 | 2019-09-13 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
CN110766081A (zh) * | 2019-10-24 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种界面图像检测的方法、模型训练的方法以及相关装置 |
CN111079741A (zh) * | 2019-12-02 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像边框位置检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王高峰;徐子同;卢玮;王翠翠;高涛;: "基于卷积神经网络的目标检测与识别", 计算机与数字工程, no. 02, 20 February 2020 (2020-02-20) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232361A (zh) * | 2020-10-13 | 2021-01-15 | 国网电子商务有限公司 | 图像处理的方法及装置、电子设备及计算机可读存储介质 |
CN112232361B (zh) * | 2020-10-13 | 2021-09-21 | 国网电子商务有限公司 | 图像处理的方法及装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10896349B2 (en) | Text detection method and apparatus, and storage medium | |
CN107358149B (zh) | 一种人体姿态检测方法和装置 | |
CN110400332B (zh) | 一种目标检测跟踪方法、装置及计算机设备 | |
CN108470354B (zh) | 视频目标跟踪方法、装置和实现装置 | |
CN108520254B (zh) | 一种基于格式化图像的文本检测方法、装置以及相关设备 | |
CN111640089B (zh) | 一种基于特征图中心点的缺陷检测方法及装置 | |
CN107622489B (zh) | 一种图像篡改检测方法及装置 | |
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
Medina-Carnicer et al. | Unimodal thresholding for edge detection | |
CN111340023B (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN112669275A (zh) | 基于YOLOv3算法的PCB表面缺陷检测方法及装置 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN113205041A (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN105786957A (zh) | 一种基于单元格邻接关系与深度优先遍历的表格排序方法 | |
CN111753730A (zh) | 一种图像审查方法及装置 | |
CN111340139B (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN110969640A (zh) | 视频图像的分割方法、终端设备以及计算机可读存储介质 | |
CN114067186B (zh) | 一种行人检测方法、装置、电子设备及存储介质 | |
CN112199984B (zh) | 一种大尺度遥感图像的目标快速检测方法 | |
CN114550062A (zh) | 图像中运动对象的确定方法、装置、电子设备和存储介质 | |
CN114627456A (zh) | 一种票据文本信息检测方法、装置及系统 | |
CN113392455A (zh) | 基于深度学习的户型图比例尺检测方法、装置及电子设备 | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN113724296B (zh) | 一种运动背景下的物料跟踪方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |