CN110287950A - 目标检测及目标检测模型的训练方法、装置和电子设备 - Google Patents
目标检测及目标检测模型的训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN110287950A CN110287950A CN201910485419.3A CN201910485419A CN110287950A CN 110287950 A CN110287950 A CN 110287950A CN 201910485419 A CN201910485419 A CN 201910485419A CN 110287950 A CN110287950 A CN 110287950A
- Authority
- CN
- China
- Prior art keywords
- target object
- image
- frame
- target
- external frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开公开一种目标检测及目标检测模型的方法、装置和电子设备方法、装置和电子设备。其中,该目标检测方法包括:获取待检测图像;对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。本公开实施例的方法,通过目标检测方法从待检测图像中抠出目标对象的大致区域,进而再针对该大致区域利用训练好的目标预测模型进行识别,得到目标对象的边框,这种方式对待检测图像的要求不高,目标对象在待检测图像中可以呈现各种状态,降低了目标对象的图像采集要求,提高了目标对象的识别精度。
Description
技术领域
本公开涉及图像处理领域,特别是涉及一种目标检测及目标检测模型的方法、装置和电子设备。
背景技术
目前的身份证等目标对象的边框检测技术中,由于待检测图像的大小不一,且目标对象在待检测图像中的状态不同,例如有的图像中目标对象呈歪斜状,有的图像中目标对象在整个图像中占很小一部分;另外受光照影响,拍摄得到的图像中目标对象所在区域比较亮或者比较暗,无法精确地获取目标对象的边框。
因此亟需一种速度快、对计算能力要求不高的目标检测方法。
发明内容
根据本公开的一个方面,提供以下技术方案:
一种目标检测方法,包括:
获取待检测图像;
对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;
将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
进一步的,所述待检测图像中的目标对象具有规则形状的边框;和/或
所述目标检测模型的模型结构为卷积神经网络。
进一步的,对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框,包括:
通过SSD方法对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框。
进一步的,将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框,包括:
将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的各顶点坐标以及所述各顶点坐标之间的连接顺序;
按照所述连接顺序连接所述各顶点坐标,获得所述目标对象的边框。
进一步的,还包括:
将所述目标对象的边框内的图像信息透视变换到预设的标准图像上。
根据本公开的另一个方面,提供以下技术方案:
一种目标检测模型的训练方法,包括:
获取样本图像;
确定所述样本图像中目标对象所在区域的外接框;
获取所述外接框内所述目标对象的边框;
利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
进一步的,所述样本图像中的目标对象具有规则形状的边框;和/或
所述目标检测模型的模型结构为卷积神经网络。
进一步的,确定所述样本图像中目标对象所在区域的外接框,包括:
对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
进一步的,对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框,包括:
通过SSD对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
进一步的,获取所述外接框内所述目标对象的边框,包括:
获取所述外接框内所述目标对象的各顶点坐标以及各顶点坐标之间的连接顺序。
根据本公开的另一个方面,还提供以下技术方案:
一种目标检测装置,包括:
第一获取模块,被配置为获取待检测图像;
检测模块,被配置为对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;
第二获取模块,被配置为将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
根据本公开的再一个方面,还提供以下技术方案:
一种目标检测模型的训练装置,包括:
第三获取模块,被配置为获取样本图像;
确定模块,被配置为确定所述样本图像中目标对象所在区域的外接框;
第四获取模块,被配置为获取所述外接框内所述目标对象的边框;
训练模块,被配置为利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
根据本公开的又一个方面,还提供以下技术方案:
一种电子设备,包括:存储器,用于存储非暂时性计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述处理器执行时实现上述任一方法中所述的步骤。
根据本公开的又一个方面,还提供以下技术方案:
一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行上述任一方法中所述的步骤。
本公开公开一种目标检测方法、装置和电子设备。其中,该目标检测方法包括:获取待检测图像;对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。本公开实施例的目标检测方法,通过目标检测方法从待检测图像中抠出目标对象的大致区域,进而再针对该大致区域利用训练好的目标预测模型进行识别,得到目标对象的边框,这种方式对待检测图像的要求不高,目标对象在待检测图像中可以呈现各种状态,降低了目标对象的图像采集要求,提高了目标对象的识别精度。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为根据本公开一个实施例的目标检测方法的流程示意图;
图2为根据图1所示实施例中步骤S103的流程示意图;、
图3为根据本公开一个实施例的目标检测模型的训练方法的流程示意图;
图4为根据本公开一个实施例的目标检测装置的结构示意图;
图5为根据本公开一个实施例的目标检测模型的训练装置的结构示意图;
图6为根据本公开实施例提供的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种目标检测方法。本实施例提供的该目标检测方法可以由一计算装置来执行,该计算装置可以实现为软件,或者实现为软件和硬件的组合,该计算装置可以集成设置在服务器、终端设备等中。如图1所示,该目标检测方法主要包括如下步骤:
步骤S101:获取待检测图像。
在本公开实施例中,待检测图像可以是利用图像传感器采集到包括目标对象的图像,目标对象在该待检测图像中的位置、大小、目标对象的采集角度等可以是任意的。例如,目标对象相对于待检测图像较小,可以仅占据待检测图像的一小部分,此外由于采集角度的影响可能使得目标对象在待检测图像中呈倾斜状,或者目标对象的大小比例相较于其真实大小比例有所失调,如长方形的目标对象相平行的两条边在待检测图像中的长度不等,另两条边呈现出不平行的情形等。
在一些可选的实施例中,待检测图像中的目标对象具有规则形状的边框,该目标对象可以具有固定数量的顶点,且该顶点之间连接形成该目标对象的边框。例如,目标对象可以为具有四个顶点的正方形、长方形等。
在另一些可选的实施例中,待检测图像中的目标对象的表面可以具有文字,且这些文字在目标对象表面的固定位置处,例如身份证、银行卡、驾驶证、名片、以及其他证书等。本公开实施例可以针对具有规则形状的边框的目标对象进行目标检测,进而对检测出来的目标对象进行文字识别,以便能够从中检测出对应的文字内容。例如,本公开实施例可以应用在身份证的检测及识别中。
步骤S102:对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框。
本公开实施例中,针对待检测图像可以利用已有的目标检测方法进行目标检测,粗略定位目标对象所在的大致区域,该大致区域可以称之为目标对象所在区域的外接框。
需要说明的是,目标对象的外接框可以是样本图像的一部分,但是该外接框内可以包括目标对象的全部图像信息,而该外接框上的边与目标对象的边框上的点可以有重合也可以完全重合,也即外接框的边框和目标对象的边框可以没有交集。
需要说明的是,目标检测得到的外接框可以为长方形或者正方形,其在待检测图像上的呈现角度与待检测图像的一致,也即该外接框的各边可以与待检测图像的各边相互平行。
但是还需要说明的是,待检测图像中目标对象的呈现角度不一定与待检测图像的一致,也即目标对象的边框上的各边与待检测图像上的各边不一定相互平行,或者说目标对象上的文字内容相对于待检测图像而言呈歪斜状。例如目标对象为正方形或者长方形时,其四条边不一定与待检测图像的四条边相互平行,可能呈一定的角度差,也即呈一定的倾斜状态,这是由采集待检测图像时图像传感器采集角度导致的。因此,目标对象所在区域的外接框的边与目标对象的边不一定相互平行或者一致,如该目标对象的各顶点分别外接于该外接框的各条边。由于该外接框仅是目标对象所在区域的一个大致区域,因此,还需要对该外接框内的图像信息进一步进行检测,以精确获得目标对象的边框。
在一些可选的实施例中,步骤S102,即对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框的步骤,进一步包括:
通过SSD方法对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框。
目标检测的主流方法主要分为两个类型:(1)两步法(two-stage),如R-CNN系算法(基于卷积神经网络的目标检测方法),其主要思路是先通过启发式方法(selectivesearch)或者CNN网络(卷积神经网络)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高;(2)一步法(one-stage),如Yolo和SSD(Single Shot MultiBox Detector),其主要思路是均匀地在图像的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但是检测得到的目标对象的精确度较低。
本公开实施例中采用SSD这种目标检测方法,可以快速地从待检测图像中检测出目标对象的大致区域,也即外接框,之后再对该外接框内的图像信息进行进一步检测,得到目标对象的精确区域,也即目标对象的边框。
步骤S103:将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
本公开实施例中,利用已有的目标检测方法检测出目标对象大致的区域后,可以抠出该大致区域中的图像信息,并将其输入至预先训练好的目标检测模型中,由目标检测模型输出该目标对象的边框。目标检测模型输出的目标对象的边框为目标对象的精确区域。
在一些可选的实施例中,如图2所示,步骤S103,即将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框的步骤,进一步包括:
步骤S201:将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的各顶点坐标以及所述各顶点坐标之间的连接顺序;
步骤S202:按照所述连接顺序连接所述各顶点坐标,获得所述目标对象的边框。
该可选的实现方式中,目标预测模型可以被训练成输出目标对象的顶点坐标,而由于目标对象的形状是由各个顶点构成的规则图形,因此在预测出目标对象的各顶点之后,可以将各顶点连接起来获得目标对象的边框。
目标预测模型在训练过程中,样本图像对应的标签数据可以是目标对象的各顶点坐标,且这些顶点坐标之间具有顺序关系,按照该顺序关系连接起来即可形成目标对象的边框。例如,对于呈长方形的身份证图像,在标签数据中可以按照顺序关系分别标注出身份证的四个顶点坐标p1(x1,y1),p2(x2,y2),p3(x3,y3),p4(x4,y4),且这四个顶点坐标的顺序关系分别为左上角、右上角、右下角、左下角,而目标预测模型的可以包括按顺序排列的八个输出,分别为x1、y1、x2、y2、x3、y3、x4、y4,分别对应身份证左上角、右上角、右下角、左下角四个顶点坐标的x和y坐标值,这样在输入外接框内的图像信息后,可以从目标检测模型的八个输出分别得到身份证左上角、右上角、右下角、左下角顶点的坐标。
在一些可选的实施例中,目标检测方法还包括:
将所述目标对象的边框内的图像信息透视变换到预设大小及预设形状的图像上。
该可选的实现方式中,如上所述,由于利用传感器采集待检测图像时,采集角度等影响,可能导致待检测图像上目标对象的呈现角度相对于待检测图像有所倾斜、和/或目标对象的形状有所变形等。为了使得最终检测出来的目标对象的边框具有规则形状、且呈现角度与待检测图像一致,便于后续对目标对象上的文字内容进行识别,可以对目标对象的边框内的图像信息进行透视变换。
透视变换(Perspective Transformation)是将图片投影到一个新的视平面(Viewing Plane),也称作投影映射(Projective Mapping)。本公开实施例中,用于将目标对象边框内的图像信息投影到预设大小和预设形状的标准图像,该预设大小和预设形状的标准图像的形状与目标对象的真实形状一致,且其预设的大小与目标对象的真实大小呈一定比例关系;例如身份证的形状固定,其长宽比是固定的,因此可以将标准图像的形状以及长宽比设置成与身份证的一致。在将检测到的目标对象的边框内的图像信息透视变换到该标准图像上之后,变换得到的图像与目标对象的形状、各边比例等一致,而变换得到的图像上的像素信息等与目标对象边框内的图像信息基本上一致,即使有差别,肉眼也可以忽略。透视变换为已知的技术,在此不再赘述。
本公开实施例还提供一种目标检测模型的训练方法。本实施例提供的该目标检测模型的训练方法可以由一计算装置来执行,该计算装置可以实现为软件,或者实现为软件和硬件的组合,该计算装置可以集成设置在服务器、终端设备等中。如图3所示,该目标检测模型的训练方法主要包括如下步骤:
步骤S301:获取样本图像;
本公开实施例中,样本图像可以为从网络收集到的包括目标对象的图像,也可以是通过选用不同的采集角度、不同的采集环境、不同大小等方式,利用图像传感器对目标对象进行采集得到的图像。
为了适应各种不同的情况,样本图像中的目标对象的呈现方式可以各种各样,例如,目标对象相对于样本图像较小,可以仅占据样本图像的一小部分,此外由于采集角度的影响可能使得目标对象在样本图像图像中呈倾斜状,或者目标对象的大小比例相较于其真实大小比例有所失调,如长方形的目标对象相平行的两条边在样本图像图像中的长度不等,另两条边呈现出不平行的情形等。
在一些可选的实施例中,样本图像中的目标对象具有规则形状的边框,该目标对象可以具有固定数量的顶点,且该顶点之间连接形成该目标对象的边框。例如,目标对象可以为具有四个顶点的正方形、长方形等。
在另一些可选的实施例中,样本图像中的目标对象的表面可以具有文字,且这些文字在目标对象表面的固定位置处,例如身份证、银行卡、驾驶证、名片、以及其他证书等。本公开实施例训练得到的目标检测模型可以针对具有规则形状的边框的目标对象进行目标检测,进而对检测出来的目标对象进行文字识别,以便能够从中检测出对应的文字内容。例如,本公开实施例训练得到的目标检测模型可以应用在身份证的检测及识别中。
步骤S302:确定所述样本图像中目标对象所在区域的外接框;
本公开实施例中,获得样本图像之后,可以从样本图像中确定出目标对象所在的大致区域,该大致区域可以称之为目标对象所在区域的外接框。需要说明的是,目标对象的外接框可以是样本图像的一部分,但是该外接框内可以包括目标对象的全部图像信息,而该外接框上的边与目标对象的边框上的点可以有重合也可以完全不重合,也即外接框的边框和目标对象的边框可以没有交集。通过这种方式,可以防止样本图像中由于目标对象过小,而导致后续训练过程中目标检测模型的识别精度不佳的情况出现。
需要说明的是,目标对象的外接框可以为长方形或者正方形,其在样本图像上的呈现角度与样本图像的一致,也即该外接框的各边与样本图像的各边相互平行。
但是还需要说明的是,样本图像中目标对象的呈现角度不一定与样本图像的一致,也即目标对象的边框上的各边与样本图像上的各边不一定相互平行,或者说目标对象上的文字内容相对于样本图像而言呈歪斜状。例如目标对象为正方形或者长方形时,其四条边不一定与样本图像的四条边相互平行,可能呈一定的角度差,也即呈一定的倾斜状态,这是由于在采集待检测图像时的角度导致的。因此,目标对象所在区域的外接框的边与目标对象的边不一定相互平行或者一致,例如该目标对象的各顶点分别外接于该外接框的各条边,该外接框仅是目标对象所在区域的一个大致区域。
在一些可选的实施例中,目标对象的外接框可以利用已有的目标检测方法检测得到,也可以人工从样本图像上标示出。
在一些可选的实施例中,步骤S302,即确定所述样本图像中目标对象所在区域的外接框的步骤,包括:
对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
该可选的实施例中,针对样本图像可以利用已有的目标检测方法进行目标检测,粗略定位目标对象所在区域,,该大致区域可以称之为目标对象所在区域的外接框。
在一些可选的实施例中,对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框的步骤,包括:
通过SSD对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
目标检测的主流方法主要分为两个类型:(1)两步法(two-stage),如R-CNN系算法(基于卷积神经网络的目标检测方法),其主要思路是先通过启发式方法(selectivesearch)或者CNN网络(卷积神经网络)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高;(2)一步法(one-stage),如Yolo和SSD(Single Shot MultiBox Detector),其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但是均匀的密集采样的一个重要缺点是训练比较困难,这主要是因为正样本与负样本(背景)极其不均衡,导致模型准确度稍低。
本公开实施例中采用SSD这种目标检测方法,可以快速地从样本图像中检测出目标对象的大致区域,也即外接框,之后再对该外接框内的图像信息进行标注,得到目标对象的精确区域,也即目标对象的边框。
步骤S303:获取所述外接框内所述目标对象的边框;
在收集到大量的样本图像之后,可以针对样图像中的目标对象进行目标检测,以确定目标对象的大致区域,也即目标对象的外接框。并在确定了目标对象的外接框之后,将包括目标对象外接框内的图像信息从样本图像中抠出,进而由人工进行标注,生成该样本图像的标签数据。标签数据可以包括但不限于目标对象在外接框内的边框。
在一些可选的实施例中,步骤S303,即获取所述外接框内所述目标对象的边框,包括:
获取所述外接框内所述目标对象的各顶点坐标以及各顶点坐标之间的连接顺序。
该可选的实施例中,由于目标对象的形状是由各个顶点构成的规则图形,因此可以仅标注出目标对象的各顶点坐标以及各顶点坐标之间的连接顺序,使得各顶点连接起来能够获得目标对象的边框即可。也即标签数据可以包括但不限于目标对象的各顶点坐标以及各顶点坐标之间的连接顺序。
目标预测模型在训练过程中,样本图像对应的标签数据可以是目标对象的各顶点坐标,且这些顶点坐标之间具有顺序关系,按照该顺序关系连接起来即可形成目标对象的边框。例如,对于呈长方形的身份证图像,在标签数据中可以按照顺序关系分别标注出身份证的四个顶点坐标p1(x1,y1),p2(x2,y2),p3(x3,y3),p4(x4,y4),且这四个顶点坐标的顺序关系分别为左上角、右上角、右下角、左下角,而目标预测模型的可以包括按顺序排列的八个输出,分别为x1、y1、x2、y2、x3、y3、x4、y4,分别对应身份证左上角、右上角、右下角、左下角四个顶点坐标的x和y坐标值,这样在输入外接框内的图像信息后,可以从目标检测模型的八个输出分别得到身份证左上角、右上角、右下角、左下角顶点的坐标。
通过这种方式最终可以得到样本图像中目标对象所在区域的外接框以及该外接框内目标对象的边框(如目标对象的各顶点坐标以及各顶点之间的顺序关系)。
步骤S304:利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
本公开实施例中,经过前述几个步骤,可以获得用于训练目标检测模型的特征数据以及标签数据,特征数据包括目标对象所在区域的外接框内的图像信息,标签数据为目标对象在该外接框内的边框(如目标对象的各顶点坐标以及各顶点之间的顺序关系)。
在一些可选的实施例中,目标检测模型可以选用卷积神经网络。
在训练过程中,可以将收集到的样本图像中外接框内的图像信息作为目标检测模型的输入数据,该输入数据输入至目标检测模型之后,可以得到对应的输出结果,输出结果可以为目标对象的边框,例如可以为按顺序排列的四个顶点的坐标值。之后,可以利用目标检测模型的训练方法将该输出结果与该样本图像对应的标签数据(该标签数据包括该样本图像中目标对象真实的边框信息)进行比较,以更新目标检测模型的模型参数,经过大量样本图像的训练之后,该目标检测模型的模型参数不断被更新,最终使得该目标检测模型的输出结果与样本图像中的标签数据无限接近。
经过上述训练过程得到的目标检测模型即可用于识别待检测图像中的目标对象。相关细节可以参见上述对目标检测方法实施例的描述,在此不再赘述。
在上文中,虽然按照上述的顺序描述了上述方法实施例中的各个步骤,本领域技术人员应清楚,本公开实施例中的步骤并不必然按照上述顺序执行,其也可以倒序、并行、交叉等其他顺序执行,而且,在上述步骤的基础上,本领域技术人员也可以再加入其他步骤,这些明显变型或等同替换的方式也应包含在本公开的保护范围之内,在此不再赘述。
下面为本公开装置实施例,本公开装置实施例可用于执行本公开方法实施例实现的步骤,为了便于说明,仅示出了与本公开实施例相关的部分,具体技术细节未揭示的,请参照本公开方法实施例。
本公开实施例提供一种目标检测装置。该装置可以执行上述目标检测方法实施例中所述的步骤。如图4所示,该装置400主要包括:
第一获取模块401,被配置为获取待检测图像;
检测模块402,被配置为对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;
第二获取模块403,被配置为将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
进一步的,所述待检测图像中的目标对象具有规则形状的边框;和/或
所述目标检测模型的模型结构为卷积神经网络。
进一步的,所述检测模块402,包括:
第一检测子模块,被配置为通过SSD方法对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框。
进一步的,所述第二获取模块403,包括:
第一获取子模块,被配置为将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的各顶点坐标以及所述各顶点坐标之间的连接顺序;
第二获取子模块,被配置为按照所述连接顺序连接所述各顶点坐标,获得所述目标对象的边框。
进一步的,目标检测装置还包括:
变换模块,被配置为将所述目标对象的边框内的图像信息透视变换到预设的标准图像上。
图4所示装置可以执行图1所示及相关实施例所示的目标检测方法,本实施例未详细描述的部分,可参考对图1所示及相关实施例的相关说明。该技术方案的执行过程和技术效果参见图1所示及相关实施例中的描述,在此不再赘述。
本公开实施例提供一种目标检测装置。该装置可以执行上述目标检测方法实施例中所述的步骤。如图5所示,该装置500主要包括:
第三获取模块501,被配置为获取样本图像;
确定模块502,被配置为确定所述样本图像中目标对象所在区域的外接框;
第四获取模块503,被配置为获取所述外接框内所述目标对象的边框;
训练模块504,被配置为利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
进一步的,所述样本图像中的目标对象具有规则形状的边框;和/或
所述目标检测模型的模型结构为卷积神经网络。
进一步的,所述确定模块502,包括:
第二检测子模块,被配置为对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
进一步的,所述第二检测子模块,包括:
第三检测子模块,被配置为通过SSD对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
进一步的,所述第四获取模块,包括:
第三获取子模块,被配置为获取所述外接框内所述目标对象的各顶点坐标以及各顶点坐标之间的连接顺序。
图5所示装置可以执行图3所示及相关实施例所示的目标检测模型的训练方法,本实施例未详细描述的部分,可参考对图3所示及相关实施例的相关说明。该技术方案的执行过程和技术效果参见图3所示及相关实施例中的描述,在此不再赘述。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置409可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待检测图像;对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,还使得该电子设备:获取样本图像;确定所述样本图像中目标对象所在区域的外接框;获取所述外接框内所述目标对象的边框;利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种目标检测方法,包括:
获取待检测图像;
对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;
将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
2.如权利要求1中所述的方法,其中,所述待检测图像中的目标对象具有规则形状的边框;和/或
所述目标检测模型的模型结构为卷积神经网络。
3.如权利要求1或2中所述的方法,其中,对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框,包括:
通过SSD方法对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框。
4.如权利要求1或2中所述的方法,其中,将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框,包括:
将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的各顶点坐标以及所述各顶点坐标之间的连接顺序;
按照所述连接顺序连接所述各顶点坐标,获得所述目标对象的边框。
5.如权利要求1或2中所述的方法,其中,还包括:
将所述目标对象的边框内的图像信息透视变换到预设的标准图像上。
6.一种目标检测模型的训练方法,包括:
获取样本图像;
确定所述样本图像中目标对象所在区域的外接框;
获取所述外接框内所述目标对象的边框;
利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
7.如权利要求6中所述的方法,其中,所述样本图像中的目标对象具有规则形状的边框;和/或
所述目标检测模型的模型结构为卷积神经网络。
8.如权利要求6或7中所述的方法,其中,确定所述样本图像中目标对象所在区域的外接框,包括:
对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
9.如权利要求6或7中所述的方法,其中,对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框,包括:
通过SSD对所述样本图像进行目标检测,以确定所述样本图像中的所述外接框。
10.如权利要求6或7中所述的方法,其中,获取所述外接框内所述目标对象的边框,包括:
获取所述外接框内所述目标对象的各顶点坐标以及各顶点坐标之间的连接顺序。
11.一种目标检测装置,包括:
第一获取模块,被配置为获取待检测图像;
检测模块,被配置为对所述待检测图像进行目标检测,以确定所述待检测图像中目标对象所在区域的外接框;
第二获取模块,被配置为将所述外接框内的图像信息输入至预先训练好的目标检测模型中,获得所述目标对象的边框。
12.一种目标检测模型的训练装置,包括:
第三获取模块,被配置为获取样本图像;
确定模块,被配置为确定所述样本图像中目标对象所在区域的外接框;
第四获取模块,被配置为获取所述外接框内所述目标对象的边框;
训练模块,被配置为利用所述外接框内的图像信息以及所述边框对目标检测模型进行训练。
13.一种电子设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器运行时实现根据权利要求1-10中任意一项所述的方法。
14.一种非暂态计算机可读存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-10中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485419.3A CN110287950A (zh) | 2019-06-05 | 2019-06-05 | 目标检测及目标检测模型的训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485419.3A CN110287950A (zh) | 2019-06-05 | 2019-06-05 | 目标检测及目标检测模型的训练方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287950A true CN110287950A (zh) | 2019-09-27 |
Family
ID=68003137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910485419.3A Pending CN110287950A (zh) | 2019-06-05 | 2019-06-05 | 目标检测及目标检测模型的训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287950A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781887A (zh) * | 2019-10-25 | 2020-02-11 | 上海眼控科技股份有限公司 | 车牌螺丝检测方法、装置和计算机设备 |
CN110796669A (zh) * | 2019-10-28 | 2020-02-14 | 上海悦易网络信息技术有限公司 | 一种垂直边框定位方法及设备 |
CN111079741A (zh) * | 2019-12-02 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像边框位置检测方法、装置、电子设备及存储介质 |
CN112850436A (zh) * | 2019-11-28 | 2021-05-28 | 宁波微科光电股份有限公司 | 一种电梯智能光幕的行人趋势检测方法及系统 |
CN114092690A (zh) * | 2020-08-06 | 2022-02-25 | 杭州睿琪软件有限公司 | 对象边缘识别和处理方法、系统及计算机可读存储介质 |
WO2024065976A1 (zh) * | 2022-09-28 | 2024-04-04 | 广东利元亨智能装备股份有限公司 | 电芯对齐度检测方法、控制器、检测系统以及存储介质 |
CN118474523A (zh) * | 2023-11-03 | 2024-08-09 | 荣耀终端有限公司 | 文档拍摄方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330363A (zh) * | 2017-05-26 | 2017-11-07 | 浙江大学 | 一种快速的互联网广告牌检测方法 |
CN107403141A (zh) * | 2017-07-05 | 2017-11-28 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107590489A (zh) * | 2017-09-28 | 2018-01-16 | 国家新闻出版广电总局广播科学研究院 | 基于级联卷积神经网络的目标检测方法 |
CN109146843A (zh) * | 2018-07-11 | 2019-01-04 | 北京飞搜科技有限公司 | 基于深度神经网络的目标检测方法及装置 |
CN109670503A (zh) * | 2018-12-19 | 2019-04-23 | 北京旷视科技有限公司 | 标识检测方法、装置和电子系统 |
-
2019
- 2019-06-05 CN CN201910485419.3A patent/CN110287950A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330363A (zh) * | 2017-05-26 | 2017-11-07 | 浙江大学 | 一种快速的互联网广告牌检测方法 |
CN107403141A (zh) * | 2017-07-05 | 2017-11-28 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107590489A (zh) * | 2017-09-28 | 2018-01-16 | 国家新闻出版广电总局广播科学研究院 | 基于级联卷积神经网络的目标检测方法 |
CN109146843A (zh) * | 2018-07-11 | 2019-01-04 | 北京飞搜科技有限公司 | 基于深度神经网络的目标检测方法及装置 |
CN109670503A (zh) * | 2018-12-19 | 2019-04-23 | 北京旷视科技有限公司 | 标识检测方法、装置和电子系统 |
Non-Patent Citations (2)
Title |
---|
ZHAOWEI CAI ET AL: "Cascade R-CNN: Delving into High Quality Object Detection", 《ARXIV》 * |
李帅杰 等: "基于级联神经网络的人脸检测", 《现代计算机》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781887A (zh) * | 2019-10-25 | 2020-02-11 | 上海眼控科技股份有限公司 | 车牌螺丝检测方法、装置和计算机设备 |
CN110796669A (zh) * | 2019-10-28 | 2020-02-14 | 上海悦易网络信息技术有限公司 | 一种垂直边框定位方法及设备 |
CN112850436A (zh) * | 2019-11-28 | 2021-05-28 | 宁波微科光电股份有限公司 | 一种电梯智能光幕的行人趋势检测方法及系统 |
CN111079741A (zh) * | 2019-12-02 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像边框位置检测方法、装置、电子设备及存储介质 |
CN114092690A (zh) * | 2020-08-06 | 2022-02-25 | 杭州睿琪软件有限公司 | 对象边缘识别和处理方法、系统及计算机可读存储介质 |
WO2024065976A1 (zh) * | 2022-09-28 | 2024-04-04 | 广东利元亨智能装备股份有限公司 | 电芯对齐度检测方法、控制器、检测系统以及存储介质 |
CN118474523A (zh) * | 2023-11-03 | 2024-08-09 | 荣耀终端有限公司 | 文档拍摄方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287950A (zh) | 目标检测及目标检测模型的训练方法、装置和电子设备 | |
EP4243425A1 (en) | Screen projection control method and device, and electronic device | |
EP4006847A1 (en) | Virtual object processing method and apparatus, and storage medium and electronic device | |
CN109584276A (zh) | 关键点检测方法、装置、设备及可读介质 | |
CN108846440A (zh) | 图像处理方法及装置、计算机可读介质和电子设备 | |
JP2023547917A (ja) | 画像分割方法、装置、機器および記憶媒体 | |
CN110058685A (zh) | 虚拟对象的显示方法、装置、电子设备和计算机可读存储介质 | |
CN111783626B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN110276346A (zh) | 目标区域识别模型训练方法、装置和计算机可读存储介质 | |
CN109063653A (zh) | 图像处理方法和装置 | |
CN111368668B (zh) | 三维手部识别方法、装置、电子设备及存储介质 | |
CN110969159B (zh) | 图像识别方法、装置及电子设备 | |
WO2021244650A1 (zh) | 控制方法、装置、终端及存储介质 | |
CN109981989A (zh) | 渲染图像的方法、装置、电子设备和计算机可读存储介质 | |
CN110334650A (zh) | 物体检测方法、装置、电子设备及存储介质 | |
CN110287817A (zh) | 目标识别及目标识别模型的训练方法、装置和电子设备 | |
CN112270242B (zh) | 轨迹的显示方法、装置、可读介质和电子设备 | |
CN113253874B (zh) | 显示装置的控制方法、装置、终端和存储介质 | |
CN112231023A (zh) | 一种信息显示方法、装置、设备及存储介质 | |
CN108595095A (zh) | 基于手势控制模拟目标体运动轨迹的方法和装置 | |
CN116560552A (zh) | 一种信息处理方法、装置、电子设备及介质 | |
CN111401182B (zh) | 针对饲喂栏的图像检测方法和装置 | |
CN108874141A (zh) | 一种体感浏览方法和装置 | |
CN113032282B (zh) | 一种手势识别装置的测试方法、装置及设备 | |
CN114911564B (zh) | 一种页面移动处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190927 |
|
RJ01 | Rejection of invention patent application after publication |