CN111860413A - 目标对象的检测方法、装置、电子设备及存储介质 - Google Patents
目标对象的检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111860413A CN111860413A CN202010745760.0A CN202010745760A CN111860413A CN 111860413 A CN111860413 A CN 111860413A CN 202010745760 A CN202010745760 A CN 202010745760A CN 111860413 A CN111860413 A CN 111860413A
- Authority
- CN
- China
- Prior art keywords
- region
- candidate
- image
- target
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本申请公开了一种目标对象的检测方法、装置、电子设备及存储介质,该方法包括:获取输入图像,输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,扩展区域包括对应的候选区域以及候选区域的周围区域;将多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得每个候选区域与其对应的扩展区域之间的图像特征差值,其中,孪生差值网络根据包含目标对象的样本图像中的候选区域及其对应的扩展区域训练得到;如果多个候选区域中存在目标候选区域,则确定输入图像中存在目标对象,其中,目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。本方法可以准确地实现目标对象的检测。
Description
技术领域
本申请涉及图像处理技术领域,更具体地,涉及一种目标对象的检测方法、装置、电子设备及存储介质。
背景技术
随着科技水平的迅速发展,对象检测引起了人们极大的研究兴趣,并同时在许多应用产品中成功部署,智能化地解决了许多实际问题。传统的进行对象检测的技术中,通常是根据待识别的对象手动设计特征,来进行对象的识别和检测,但是这种方式对于对象与背景相似度高的图像时,其准确性欠佳。
发明内容
鉴于上述问题,本申请提出了一种目标对象的检测方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种目标对象的检测方法,所述方法包括:获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围;将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到;如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
第二方面,本申请实施例提供了一种目标对象的检测装置,所述装置包括:图像获取模块、图像输入模块以及对象确定模块,其中,所述图像获取模块用于获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围;所述图像输入模块用于将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到;所述对象确定模块用于如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的目标对象的检测方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的目标对象的检测方法。
本申请提供的方案,通过获取输入图像,根据输入图像中的多个候选区域以及每个候选区域对应的扩展区域,并且扩展区域包括对应的候选区域以及候选区域的周围区域,将多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得每个候选区域与其对应的扩展区域之间的图像特征差值,其中,孪生差值网络根据包含目标对象的样本图像中的候选区域及其对应的扩展区域训练得到,如果多个候选区域中存在目标候选区域,该目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件,则确定输入图像中存在目标对象。从而通过利用孪生差值网络获取输入图像中各个候选区域与其扩展区域之间的图像特征差值,确定出存在特征差值满足设定阈值条件的目标候选区域时,确定输入图像中存在目标对象,实现在检测出特征过度区域时,确定输入图像中存在目标对象,提升对于图像中的目标对象检测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请一个实施例的目标对象的检测方法流程图。
图2示出了根据本申请另一个实施例的目标对象的检测方法流程图。
图3示出了本申请另一个实施例提供的一种显示效果图。
图4示出了本申请另一个实施例提供的另一种显示效果图。
图5示出了根据本申请又一个实施例的目标对象的检测方法流程图。
图6示出了根据本申请再一个实施例的目标对象的检测方法流程图。
图7示出了根据本申请又另一个实施例的目标对象的检测方法流程图。
图8示出了根据本申请一个实施例的目标对象的检测装置的一种框图。
图9是本申请实施例的用于执行根据本申请实施例的目标对象的检测方法的电子设备的框图。
图10是本申请实施例的用于保存或者携带实现根据本申请实施例的目标对象的检测方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图像场景理解作为图像分类理解的一项基本而重要的任务,近年来引起了人们极大的研究兴趣,并同时在许多应用产品中成功部署,智能化地解决了许多实际问题。图像场景理解包括以下子任务:图像场景分类、图像场景检索、图像场景目标检测。随着近年来深度学习技术的快速发展,深度学习也已成为图像场景理解中的重点技术。
传统的对目标对象的检测技术中,通过对待识别的图像进行区域选择,然后对区域进行特征提取后,输入到分类器中,从而确定是否存在包括目标对象的区域。由于目标对象的形态多样性,光照变化多样性,背景多样性等因素,使得设计一个鲁棒性较佳的特征较为困难,然而提取到的特征的好坏将影响到分类的准确性。
另外,被检测对象的纹理颜色与背景具有极高的相似性,同时物体目标小不易于识别,这样的话,在对物体目标进行识别时,准确性会较差。例如,在对鸟类的检测任务中,由于被检测物体鸟类通常所处环境为自然环境,背景复杂,被检测物体的纹理颜色和环境背景有着极高的相似性,同时物体目标小不易于识别,为后续功能的准备优化提供信息带来不便。
除了上述的对目标对象的检测技术以外,也有基于深度学习的方案对图像中的目标对象进行检测。目前主要有One-stage和Two-stage的方案。其中,One-stage是使用一个卷积神经网络(Convolutional Neural Networks,CNN)直接预测不同目标的类别与位置。Two-stage需要先使用启发式方法(selective search)或者CNN网络(RPN)产生候选区域(Region Proposal),然后再在Region Proposal上做分类与回归。
其中,目标检测首先是从Two-stage方法开始的,Two-stage方法主要是通过候选区域,提取特征图,然后将特征图与类别标签联合,通过多个分类器进行分类,以及特征图与位置标签联合,通过线性回归模型预测真实边界框。当然,也有其他方法在此基础上进行改进,例如,在得到候选区域后,将其输入训练模型,将候选框映射到特征图中进行提取感兴趣区域,然后不同大小的区域通过RoI Pooling(池化)层得到相同大小的特征向量,最后通过两个全连接层得到类别和边界框的预测;又例如,在候选区域的获取中,将选择性搜索替换成区域候选网络(RPN),通过网络自动学习提取好的候选区域,从而可以减少候选区域的数目,提高速度并保证了精度。另外,One-stage方法中,通常是将整张图像划分为网格,如果某个目标的中心落在了网格内,则该目标最后由该网格预测。
但是,基于深度学习的方案对图像中的目标对象进行检测中,One-stage和Two-stage的方案在放到开放式场景,其在小目标和易混淆背景下的目标检测精度不理想,One-stage在开放式场景下的劣势就更加明显。同时,即便考虑了不同尺度的问题,但是,由于现实中物体和背景的尺度不固定,很难适应现实应用。
针对上述问题,发明人提出了本申请实施例提供的目标对象的检测方法、装置、电子设备以及存储介质,可以实现通过利用孪生差值网络获取输入图像中各个候选区域与其扩展区域之间的图像特征差值,确定出存在特征差值满足设定阈值条件的目标候选区域时,确定输入图像中存在目标对象,实现在检测出特征过度区域时,确定输入图像中存在目标对象,提升对于图像中的目标对象检测的准确性。其中,具体的目标对象的检测方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请一个实施例提供的目标对象的检测方法的流程示意图。在具体的实施例中,所述目标对象的检测方法应用于如图8所示的目标对象的检测装置400以及配置有所述目标对象的检测装置400的电子设备100(图9)。下面将以电子设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备可以为智能手机、平板电脑、智能手表、智能眼镜、笔记本电脑、服务器等,在此不做限定。下面将针对图1所示的流程进行详细的阐述,所述目标对象的检测方法具体可以包括以下步骤:
步骤S110:获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围区域。
在本申请实施例中,电子设备可以待进行目标对象的检测的图像,并将其作为输入图像。作为一种实施方式,电子设备为智能手机、平板电脑、智能手表等移动终端时,可以通过前置摄像头或者后置摄像头进行图像采集,从而获得待进行目标对象的检测的图像,例如,电子设备可以通过后置摄像头采集图像,并将获得的图像作为输入图像;作为又一种实施方式,电子设备为移动终端或者电脑时,可以从本地获取待进行目标对象的检测的图像,也就是说,电子设备可以从本地存储的文件中获取待进行目标对象的检测的图像。例如,电子设备可以从相册获取待进行目标对象的检测的图像,即电子设备预先通过摄像头采集图像后存储在本地相册,或者预先从网络下载图像后存储在本地相册等,然后在需要对图像进行目标对象的检测时,从相册中读取待进行目标对象的检测的图像;作为再一种方式,电子设备为移动终端或者电脑时,也可以从网络下载待进行目标对象的检测的图像,例如,电子设备可以通过无线网络、数据网络等从相应的服务器下载需求的图像,以进行对下载的图像进行目标对象的检测;作为还一种实施方式,电子设备也可以通过用户的输入操作,对输入的待进行目标对象的检测的图像进行接收,从而获得输入图像;作为又另一种实施方式,电子设备为服务器时,还可以从数据库服务器或者从用户的客户端获取输入图像。当然,电子设备具体获取输入图像的方式可以不作为限定。
在本申请实施例中,输入图像中可以包括多个候选区域以及与每个候选区域对应的扩展区域,每个扩展区域均包括对应的候选区域以及候选区域的周围区域。其中,候选区域可以为输入图像中候选出的用于进行目标对象的检测的区域,多个候选区域可以包括重叠的内容,并且多个候选区域中的所有内容包含输入图像所有内容,也就是说,多个候选区域遍布输入图像的整个区域;每个扩展区域为在候选区域的基础上进行区域扩展后获得的区域,也就是说,扩展区域包括其对应的候选区域以及在该候选区域上进行扩展的周围区域,并且扩展的区域为候选区域的周围区域。
在一些实施方式中,候选区域可以为形状规则的区域,例如,矩形区域,圆形区域等,候选区域也可以为不规则的区域,在此不做限定。扩展区域可以为在候选区域基础上,向周围进行延伸设定尺寸大小的区域,也就是说,扩展区域中扩展的区域为在候选区域的周围延伸相同大小的区域;当然,扩展区域中扩展的区域也可以为在候选区域的周围延伸不同大小的区域。
在一些实施方式中,电子设备在获取到输入图像之后,可以根据输入图像,获取输入图像中的候选区域以及扩展区域。作为一种实施方式,电子设备可以根据预先存储的候选区域所在位置,确定输入图像中的候选区域,例如,不同的图像尺寸与候选区域的位置的对应关系不同,电子设备可以根据输入图像的图像尺寸,确定与该图像尺寸相对应的对应关系,再根据确定出的对应关系,确定输入图像中各个候选区域所在位置(像素位置),然后确定出输入图像中的候选区域;作为另一种实施方式,由于目标对象可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,电子设备可以采用滑动窗口的策略对整幅图像进行遍历,从而根据滑动窗口在输入图像中的不同位置,确定出输入图像中不同的候选区域。当然,电子设备获取输入图像中的候选区域的方式可以不作为限定。电子设备在获取到输入图像中的候选区域之后,则可以根据候选区域,对候选区域进行区域扩展,从而获得每个候选区域所对应的扩展区域。
在另一些实施方式中,电子设备获取到的输入图像中的候选区域以及扩展区域也可以被提前标注,也就是说,用户或者其他设备可以对输入图像中的候选区域以及扩展区域进行标注后输入至电子设备,从而电子设备获取到的输入图像中包括多个候选区域以及与每个候选区域对应的扩展区域。
在一些实施方式中,输入图像中的候选区域以及扩展区域的尺寸可以根据需要检测的目标对象,可以理解的,通常目标对象不同时,在图像中的大小也不相同,因此,可以根据不同的目标对象,设置不同的尺寸。例如,电子设备可以根据包含目标对象的多张图像,并根据多张图像中目标对象在图像中的尺寸大小、尺寸比例等,统计该类型的目标对象在输入图像中的尺寸。另外,每个候选区域的大小可以相同,每个扩展区域的大小也可以相同。
步骤S120:将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到。
在本申请实施例中,电子设备可以将输入图像中的每个候选区域以及每个候选区域所对应的扩展区域输入至预先训练的孪生差值网络,也就是说,将每个候选区域与其对应的扩展区域,作为一组输入图像,将其输入至预先训练的孪生差值网络。其中,孪生差值网络中包括用于提取图像特征的两个网络,以及用于计算图像特征差值的模块。用于提取图像特征的两个网络的网络结构相同,并且共享权值,也就是说,这两个网络为相同的网络和权重,这样的话,同一个输入数据分别输入到两个网络,最后的输出也一样。
在一些实施方式中,孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域预先训练得到。孪生差值网络中用于提取图像特征的两个网络可以为神经网络,通过将样本图像的候选区域以及扩展区域分别输入至用于提取图像特征的两个网络后,可以获得样本图像的候选区域以及扩展区域的图像特征,再利用用于计算图像特征差值的模块,计算样本图像的候选区域的图像特征以及扩展区域的图像特征之间图像特征之后,可以根据预先获取的样本图像中候选区域与扩展区域的图像特征差值,计算图像特征差值的损失函数的值,并根据计算的损失函数的值,调整孪生差值网络中用于提取图像特征的两个网络的参数,通过不断根据损失值和梯度下降法,不断的迭代更新网络参数,在最终满足迭代终止条件时,获得训练完成的孪生差值网络。获得的孪生差值网络中,由于损失值在迭代过程中不断变小,因此最终满足预设的迭代终止条件时获得的孪生差值网络,能够准确地提取包含目标对象的候选区域和扩展区域的图像特征,也能准确提取不包含目标对象的候选区域和扩展区域的图像特征,并且准确计算图像特征之间的图像特征差值。其中,梯度下降法(gradient descent)是一个最优化算法,通常也称为最速下降法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。其中,迭代终止条件可以包括:损失函数的值最小、损失函数的值小于预设值、或者迭代次数达到预设次数等。
在一些实施方式中,预先训练的孪生差值网络可以存储于电子设备本地,电子设备在需要获取输入图像中候选区域与扩展区域之间的图像特征差值时,可以从本地调用孪生差值网络,从而提升图像特征差值的获取效率;预先训练的孪生差值网络可以存储于服务器,电子设备可以通过将输入的候选区域以及扩展区域发送至服务器,从服务器获取每个候选区域与其对应的扩展区域之间的图像特征差值,这样的话,当孪生差值网络较大,而电子设备为移动终端时,可以有效节省电子设备的存储空间,以及节约电子设备的运行资源。当然,当电子设备为移动终端时,预先训练的孪生差值网络中的用于提取图像特征的网络可以为Mobilenet网络,可以有效节省移动终端的存储空间,提升移动终端的运行效率。
从而,电子设备在将多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络之后,可以获得每个候选区域与其对应的扩展区域之间的图像特征差值。
步骤S130:如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
在本申请实施例中,电子设备在获取到输入图像中与其对应的扩展区域之间的图像特征差值之后,可以根据多个图像特征差值,从多个候选区域中,确定是否存在图像特征差值满足设定阈值条件的目标候选区域,也就是说,目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
在一些实施方式中,设定阈值条件可以包括:图像特征差值大于指定阈值,该指定阈值的具体数值可以不作为限定。其中,目标候选区域与扩展区域的图像特征差值大于设定阈值时,即候选区域与周围区域的图像特征过度较大,并且,待识别的目标对象,如现实中的鸟类、鲜花、美食等的边缘区域与周围区域都会有明显过渡,因此,在存在目标候选区域时,可以确定输入图像中存在目标对象。反之,当多个候选区域中不存在目标候选区域时,则确定输入图像中不存在所述目标对象。
本申请实施例提供的目标对象的检测方法,通过利用孪生差值网络获取输入图像中各个候选区域与其扩展区域之间的图像特征差值,确定出存在特征差值满足设定阈值条件的目标候选区域时,确定输入图像中存在目标对象,实现在检测出特征过度区域时,确定输入图像中存在目标对象,通过以上方法,无论目标对象与背景的相似程度几何,待识别的目标对象与周围区域都会有明显过渡,因此可以有效提升对于图像中的目标对象检测的准确性。
请参阅图2,图2示出了本申请另一个实施例提供的目标对象的检测方法的流程示意图。该目标对象的检测方法应用于上述电子设备,下面将针对图2所示的流程进行详细的阐述,所述目标对象的检测方法具体可以包括以下步骤:
步骤S210:获取输入图像。
在本申请实施例中,步骤S210可以参阅前述实施例的内容,在此不再赘述。
步骤S220:将预设窗口大小的轮询窗口,按照预设步长以及预设滑动方向于所述输入图像中进行多次滑动,获得每次滑动对应的轮询窗口所在区域,作为候选区域。
在本申请实施例中,电子设备在获取到输入图像之后,电子设备可以采用滑动窗口的策略对整幅图像进行遍历,从而根据滑动窗口在输入图像中的不同位置,确定出输入图像中不同的候选区域。
在一些实施方式中,电子设备可以将预设窗口大小的轮询窗口,按照预设步长以及预设滑动方向于所述输入图像中进行多次滑动,获得每次滑动对应的轮询窗口所在区域,作为候选区域。其中,轮询窗口可以位于输入图像的角落,然后从角落按照预设滑动方向和预设滑动补偿开始滑动。作为一种方式,轮询窗口可以位于输入图像的左上角,并按照从左到右的方向开始滑动,在轮询窗口位于输入图像的右边边界处时,再往下滑动预设步长后,开始从右往左开始滑动,在滑动到最左边的位置后,再往下滑动预设步长后,从左到右的方向开始滑动,如此重复,直至轮询窗口滑动的遍历完整个输入图像。作为另一种方式,轮询窗口可以位于输入图像的左上角,并按照从上到下的方向开始滑动,在轮询窗口位于输入图像的最下边的边界处时,再往右滑动预设步长后,开始从下往上开始滑动,在滑动到最上边的位置后,再往右滑动预设步长后,从上到下的方向开始滑动,如此重复,直至轮询窗口滑动的遍历完整个输入图像。当然,滑动窗口具体滑动遍历的方向可以不作为限定。
在一些实施方式中,预设步长可以根据滑动窗口的大小以及输入图像的尺寸确定。例如,预设步长需要保证在滑动窗口在从一个边界往另一端的边界滑动多次后,滑动窗口能刚好处于边界,即滑动窗口的边缘与输入图像的边缘重合。另外,目标对象不同,其在图像中的尺寸也不同,因此可以根据待识别的目标对象,确定滑动窗口的尺寸大小。
步骤S230:根据预设的填充区域大小,于所述输入图像中对每次滑动对应的轮询窗口所在区域进行区域扩展,获得所述候选区域对应的扩展区域。
在本申请实施例中,在对滑动窗口进行滑动,获取每次滑动对应的轮询窗口所在区域,作为候选区域的过程中,还可以根据预设的填充区域大小,于输入图像中对每次滑动对应的轮询窗口所在区域进行区域扩展,获得每次获得的候选区域对应的扩展区域。具体地,可以根据填充区域大小,于候选区域的周围生成一个外扩区域,该外扩区域的大小与填充区域大小相同,例如,填充区域大小为N个像素的区域,则在候选区域周围增加N个像素的区域,并根据增加N个像素的区域后的区域位置,确定输入图像中的扩展区域,其中,N为正整数,例如,N可以为3等。
在一些实施方式中,填充区域大小指的是对输入图像进行周围区域的填充时的填充区域大小。具体地,电子设备在根据输入图像获取候选区域以及扩展区域之前,可以根据以上填充区域大小,对输入图像的边缘区域进行像素填充。可以理解的,如果需要扩展区域的外扩距离为N像素点,则需要将输入图像(原图像)的周围区域外扩N个像素点,外扩的像素点的像素值可以取0,以减少对图像处理时的影响。通过对输入图像进行边缘区域的像素填充,即对输入图像的边缘区域进行外扩,从而可以防止图像的溢出,即当候选区域正好位于输入图像的边缘时,此时获取候选区域的扩展区域时,会存在扩展区域的部分区域没有位于输入图像中,此时无法获取到扩展区域,而对输入图像进行外扩,可以有效避免该问题。
步骤S240:将每次滑动获得的候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,直至所述轮询窗口滑动遍历完所述输入图像,获得每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到。
在本申请实施例中,电子设备在将滑动窗口于输入图像中进行滑动的过程中,可以将每次滑动时获取到的候选区域以及扩展区域,输入至孪生差值网络,从而获得输入的候选区域与扩展区域之间的图像特征差值,在轮询窗口滑动遍历完输入图像之后,则可以获取到每个候选区域与扩展区域之间的图像特征差值。
步骤S250:如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
在本申请实施例中,步骤S250可以参阅前述实施例的内容,在此不再赘述。
步骤S260:将所述目标候选区域输入至预先训练的特征提取模型中,提取所述目标候选区域的图像特征。
在本申请实施例中,为更加精确地确定输入图像中是否存在目标对象,电子设备还可以将目标候选区域输入至预先训练的特征提取模型中,提取目标候选区域的全局特征,以对目标候选区域进行进一步地判断是否为包括目标对象的区域。
在一些实施方式中,特征提取模型可以为神经网络,例如,电子设备为服务器时,可选取AlexNet、VGGNet、Google Inception Net和ResNet等神经网络,电子设备为手机等移动终端时,可以选取Mobilenet等神经网络。其中,整个AlexNet有8个需要训练参数的层(不包括池化层和LRN层),前5层为卷积层,后3层为全连接层。AlexNet最后一层是有1000类输出的Softmax层用作分类。LRN层出现在第1个及第2个卷积层后,而最大池化层出现在两个LRN层及最后一个卷积层后;VGGNet探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。VGGNet相比之前state-of-the-art的网络结构,错误率大幅下降,由于imageNet中预训练的VGGNet已经有很强的特征提取能力,因此不需要重新训练,基于imageNet中预训练的卷积神经网络即可对上述特征进行提取,该网络还通过对卷积的分解来进一步降低计算量。例如一层5x5卷积可以用两层3x3卷积替代,而一层3x3卷积又可以用一层1x3卷积和3x1卷积替代,大大减小计算量。ResNet可以解决卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题,通过通过残差结构,直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。
另外,在ResNet基础上,还可以使用SE-Net,SE-Ne引入了注意力机制。SENet的核心思想在于通过网络根据loss去学习特征权重,使得有效的feature map权重大,无效或效果小的feature map权重小的方式训练模型达到更好的结果。直接接入上述网络结构的模块中,大大提升分类准确度。
步骤S270:将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果,所述输出结果用于表征所述目标候选区域为所述目标对象所在区域的概率。
在本申请实施例中,电子设备在获得目标候选区域的图像特征之后,则可以将图像特征输入至预先训练的分类器,获得分类器输出的输出结果。该分类器为根据包含目标对象的至少部分区域的区域样本图像,对分类器进行训练后,获得的分类器,该分类器可以输出表征输入的候选区域为目标对象所在区域的概率。
在一些实施方式中,如果多个目标候选区域中存在至少一个目标候选区域所对应的输出结果为指定输出结果,该指定输出结果用于表征目标候选区域为目标对象所在区域的概率大于指定概率,则可以确定出该输入图像包含目标对象。如果多个目标候选区域中存在任意目标候选区域所对应的输出结果为指定输出结果,则可以确定出该输入图像包含目标对象。其中,指定概率的具体数值可以不作为限定,可以理解的,当目标候选区域为目标对象所在区域的概率大于指定概率时,则表示目标候选区域中包含目标对象;当目标候选区域为目标对象所在区域的概率小于或等于指定概率时,则表示目标候选区域中不包含目标对象。通过以上方式,对输入图像是否包含目标对象进行进一步确定,可以进一步提升目标对象检测的准确性。
步骤S280:在所述多个目标候选区域中存在至少两个目标候选区域对应的输出结果为指定输出结果时,确定所述至少两个目标候选区域之间的相交区域的大小是否大于第一阈值,其中,所述指定输出结果用于表征目标候选区域为所述目标对象所在区域的概率大于指定概率。
在本申请实施例中,电子设备还可以根据目标候选区域确定输入图像中目标对象所在的区域。具体地,当多个目标候选区域中存在至少两个目标候选区域对应的输出结果为指定输出结果时,则表示电子设备获取到了多个包含目标对象的区域,因此可以确定这些目标候选区域是否相交,并确定相交区域的大小是否大于第一阈值。可以理解的,当相交区域的大小大于第一阈值时,表示这些目标候选区域为输入图像中同一目标对象所在的区域;当相交区域的大小不大于第一阈值时,表示这些目标候选区域不为输入图像中同一目标对象所在的区域,即输入图像中为包括多个目标对象所在区域。
步骤S290:如果所述至少两个目标候选区域之间的相交区域的大小大于第一阈值,将所述至少两个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域。
在一些实施方式中,如果以上至少两个目标候选区域中,这些目标候选区域均相交,则可以直接从至少两个目标候选区域中确定相交区域的大小大于第一阈值的目标候选区域,并将确定出的目标候选区域进行图像融合,从而获得输入图像中目标对象所在区域。其中,图像融合可以是,根据确定出的目标候选区域,确定这些区域中处于最外围的顶点,并根据顶点形成目标对象所在区域。
在另一些实施方式中,如果以上至少两个目标候选区域中,存在部分目标候选区域相交,且相交区域大于第一阈值,则可以将这些部分目标候选区域进行图像融合,获得目标对象所在区域,而至少两个目标候选区域中不相交的目标候选区域,或者相交但相交区域不大于第一阈值的目标候选区域,则可以单独作为目标对象所在区域。
在本申请实施例中,如果多个目标候选区域中不存在相交的区域,或者存在相交但相交区域不大于第一阈值的目标候选区域,则可以多个目标候选区域分别作为输入图像中目标对象所在区域。
例如,请同时参阅图3及图4,在鸟类识别的场景中,输入图像中最后筛选出的目标候选区域包括矩形区域A1和矩形区域A2,矩形区域A1对应的扩展区域为矩形区域B1,矩形区域A2对应的扩展区域为矩形区域B2,通过对矩形区域A1和矩形区域A2进行融合后,可以获得矩形区域A3,矩形区域A3即为最终获得的输入图像中鸟类所在的区域。
通过本申请实施例提供的目标对象的检测方法,实现在检测出特征过度区域时,确定输入图像中存在目标对象,通过以上方法,无论目标对象与背景的相似程度几何,待识别的目标对象与周围区域都会有明显过渡,因此可以有效提升对于图像中的目标对象检测的准确性。另外,对目标候选区域进行全局的图像特征提取后,再利用分类器进行进一步地确定,更进一步地提升了目标对象检测的准确性。另外,由于是根据候选区域与周围区域的特征过度较大的特性,确定出的目标候选区域,因此通过对目标候选区域进行二次筛选后,根据筛选出的目标候选区域来进行输入图像中目标对象所在区域的确定,可以准确地确定出目标对象所在的区域。
请参阅图5,图5示出了本申请又一个实施例提供的目标对象的检测方法的流程示意图。该目标对象的检测方法应用于上述电子设备,下面将针对图5所示的流程进行详细的阐述,所述目标对象的检测方法具体可以包括以下步骤:
步骤S301:获取包含所述目标对象的至少部分区域的区域样本图像,并将所述区域样本图像输入至预先训练的图像特征提取模型中,提取所述区域样本图像的图像特征。
在本申请实施例中,还提供了对分类器进行训练的过程。具体地,电子设备可以获取包含目标对象的至少部分区域的区域样本图像,并将区域样本图像输入至预先训练的图像特征提取模型中,提取区域样本图像的图像特征。其中,提取图像特征的方式可以参阅前述实施例的内容,在此不再赘述。
步骤S302:将所述区域样本图像的图像特征输入至所述分类器,获得所述分类器输出的结果。
在本申请实施例中,在获得区域样本图像的图像特征之后,则可以将区域样本图像的图像特征输入至分类器,获得分类器输出的结果,即表征区域样本图像是否包含目标对象的概率值。
步骤S303:根据所述分类器输出的结果与所述区域样本图像对应的真实输出结果的差异,获得损失函数的值。
在对分类器进行训练的过程中,在每次训练时,获得到分类器输出的结果之后,则可以计算损失函数的值,其中,损失函数的值可以根据分类器输出的结果与区域样本图像对应的真实输出结果的差异计算获得,即计算输出的概率值与真实概率之间的差值。真实输出结果可以为预先对区域样本图像是否包含目标对象进行标注的结果。
步骤S304:根据所述损失函数的值对所述分类器进行迭代训练,获得训练后的分类器。
在本申请实施例中,在每次获得损失函数的值之后,并根据获得的损失函数的值,调整分类器的参数,通过不断根据损失值和梯度下降法,不断的迭代更新网络参数,在最终满足迭代终止条件时,获得训练完成的分类器。获得的分类器中,由于损失值在迭代过程中不断变小,因此最终满足预设的迭代终止条件时获得的分类器,能够准确输出输入的目标候选区域是否包含目标对象的结果。其中,梯度下降法(gradient descent)是一个最优化算法,通常也称为最速下降法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。其中,迭代终止条件可以包括:损失函数的值最小、损失函数的值小于预设值、或者迭代次数达到预设次数等。
在一些实施方式中,分类器可以采用非线性分类器,非线性分类器能有效拓展分类维度,降低softmax在非线性分类上的缺陷,以支持向量机(Support Vector Machine,SVM)为例,SVM是将特征投影到高维空间中,再对特征进行非线性区分。对于Softmax、全连接层等线性分类器,只对低维度线性分类有较好效果。因此使用此方案,能降低Softmax(通常分类方案的端到端架构都是采取CNN+Softmax组合或者CNN+全连接层组合)在非线性分类上的缺陷。
步骤S305:获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围区域。
步骤S306:将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到。
步骤S307:如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
步骤S308:将所述目标候选区域输入至预先训练的特征提取模型中,提取所述目标候选区域的图像特征。
步骤S309:将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果,所述输出结果用于表征所述目标候选区域为所述目标对象所在区域的概率。
步骤S310:在所述多个目标候选区域中存在至少两个目标候选区域对应的输出结果为指定输出结果时,确定所述至少两个目标候选区域之间的相交区域的大小是否大于第一阈值,其中,所述指定输出结果用于表征目标候选区域为所述目标对象所在区域的概率大于指定概率。
步骤S311:如果所述至少两个目标候选区域之间的相交区域的大小大于第一阈值,将所述至少两个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域。
在本申请实施例中,步骤S305至步骤S311可以参阅前述实施例的内容,在此不再赘述。
本申请实施例提供的目标对象的检测方法,提供了对分类器的训练方法,通过训练得到的分类器,可以对目标候选区域是否包含目标对象进行进一步确定,更进一步地提升了目标对象检测的准确性。另外,由于是根据候选区域与周围区域的特征过度较大的特性,确定出的目标候选区域,因此通过对目标候选区域进行二次筛选后,根据筛选出的目标候选区域来进行输入图像中目标对象所在区域的确定,可以准确地确定出目标对象所在的区域。
请参阅图6,图6示出了本申请再一个实施例提供的目标对象的检测方法的流程示意图。该目标对象的检测方法应用于上述电子设备,下面将针对图6所示的流程进行详细的阐述,所述目标对象的检测方法具体可以包括以下步骤:
步骤S410:获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围区域。
步骤S420:将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到。
步骤S430:如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
在本申请实施例中,步骤S410至步骤S430可以参阅前述实施例的内容,在此不再赘述。
步骤S440:当所述目标候选区域为多个时,确定所述多个目标候选区域之间的相交区域的大小是否大于第二阈值。
在本申请实施例中,电子设备在确定出图像特征差值满足设定阈值条件的目标候选区域之后,可以确定目标候选区域是否为多个。当存在多个目标候选区域时,表示电子设备获取到了多个包含目标对象的区域,因此可以确定这些目标候选区域是否相交,并确定相交区域的大小是否大于第二阈值。可以理解的,当相交区域的大小大于第二阈值时,表示这些目标候选区域为输入图像中同一目标对象所在的区域;当相交区域的大小不大于第二阈值时,表示这些目标候选区域不为输入图像中同一目标对象所在的区域,即输入图像中为包括多个目标对象所在区域。
步骤S450:如果所述多个目标候选区域之间的相交区域的大小大于第二阈值,将所述多个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域的区域图像。
在一些实施方式中,如果以上多个目标候选区域中,这些目标候选区域均相交,则可以直接从多个目标候选区域中确定相交区域的大小大于第二阈值的目标候选区域,并将确定出的目标候选区域进行图像融合,从而获得输入图像中目标对象所在区域。
在另一些实施方式中,如果以上多个目标候选区域中,存在部分目标候选区域相交,且相交区域大于第二阈值,则可以将这些部分目标候选区域进行图像融合,获得目标对象所在区域,而多个目标候选区域中不相交的目标候选区域,或者相交但相交区域不大于第二阈值的目标候选区域,则可以单独作为目标对象所在区域。
在本申请实施例中,如果多个目标候选区域中不存在相交的区域,或者存在相交但相交区域不大于第二阈值的目标候选区域,则可以多个目标候选区域分别作为输入图像中目标对象所在区域。
通过本申请实施例提供的目标对象的检测方法,由于是根据候选区域与周围区域的特征过度较大的特性,确定出的目标候选区域,因此根据确定出的目标候选区域来进行输入图像中目标对象所在区域的确定,可以准确地确定出目标对象所在的区域。
请参阅图7,图7示出了本申请又另一个实施例提供的目标对象的检测方法的流程示意图。该目标对象的检测方法应用于上述电子设备,下面将针对图7所示的流程进行详细的阐述,所述目标对象的检测方法具体可以包括以下步骤:
步骤S510:获取包含所述目标对象的样本图像中的候选区域及其对应的扩展区域。
在本申请实施例中,还提供了对孪生差值网络的训练方法,电子设备可以获取训练样本,训练样本可以包括:包含所述目标对象的样本图像中的候选区域及其对应的扩展区域。训练样本的获取方式可以不作为限定,例如可以从提供图集的平台获取,也可以为电子设备本地存储的。
在本申请实施例中,孪生差值网络中包括用于计算图像特征差值的模块、、用于提取图像特征的第一网络以及第二网络。第一网络与第二网络的网络结构相同,并且共享权值,也就是说,第一网络与第二网络为相同的网络和权重,这样的话,同一个输入数据分别输入到第一网络与第二网络,最后的输出也一样。
步骤S520:将所述样本图像中的候选区域输入所述第一网络,获得第一图像特征,以及将所述样本图像中的候选区域所对应的扩展区域输入所述第二网络,获得第二图像特征。
步骤S530:获取所述第一图像特征与所述第二图像特征之间的特征差值,以及所述样本图像中候选区域与其对应的扩展区域之间的真实特征差值。
在本申请实施例张红,通过将样本图像的候选区域以及扩展区域分别输入至用于提取图像特征的第一网络以及第二网络后,可以获得样本图像的候选区域的第一图像特征以及扩展区域的第二图像特征,再利用用于计算图像特征差值的模块,计算样本图像的候选区域的第一图像特征以及扩展区域的第二图像特征之间图像特征差值。
在一些实施方式中,电子设备获取第一图像特征与第二图像特征之间的特征差值,包括:获取所述第一图像特征与所述第二图像特征之间的特征距离;对所述特征距离进行回归运算,获得所述第一图像特征与所述第二图像特征之间的特征差值。可以理解的,在分别提取本图像的候选区域的第一图像特征以及扩展区域的第二图像特征之后,可以对图像特征进行差值计算,再通过全连接层进行回归得到一个回归值,即获得以上图像特征差值。
步骤S540:根据所述特征差值以及所述真实特征差值,确定损失函数的值。
在本申请实施例中,电子设备还可以获取预先标注的样本图像的候选区域的图像特征以及扩展区域的图像特征之间的图像特征差值,即真实的特征差值,该特征差值,可以由现有的特征提取模型提取特征之后,并且计算后进行标注。电子设备在获取到以上第一图像特征与第二图像特征之间的特征差值之后,则可以根据计算的特征差值以及真实特征差值,确定损失函数的值,即获取计算的特征差值与真实特征差值,获得损失函数的值。
步骤S550:根据所述损失函数的值,对所述孪生差值网络进行迭代训练,获得训练后的孪生差值网络。
在本申请实施例中,电子设备在获得损失函数的值之后,可以根据损失函数的值,调整孪生差值网络中用于提取图像特征的两个网络的参数,通过不断根据损失值和梯度下降法,不断的迭代更新网络参数,在最终满足迭代终止条件时,获得训练完成的孪生差值网络。获得的孪生差值网络中,由于损失值在迭代过程中不断变小,因此最终满足预设的迭代终止条件时获得的孪生差值网络,能够准确地提取包含目标对象的候选区域和扩展区域的图像特征,也能准确提取不包含目标对象的候选区域和扩展区域的图像特征,并且准确计算图像特征之间的图像特征差值。其中,梯度下降法(gradient descent)是一个最优化算法,通常也称为最速下降法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。其中,迭代终止条件可以包括:损失函数的值最小、损失函数的值小于预设值、或者迭代次数达到预设次数等。
步骤S560:获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围区域。
步骤S570:将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到。
步骤S580:如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
在本申请实施例中,步骤S560至步骤S580可以参阅前述实施例的内容,在此不再赘述。
本申请实施例提供的目标对象的检测方法,提供了对孪生差值网络的训练方法,通过训练得到的孪生差值网络,可以检测出输入图像中的特征过度区域,并在在检测出特征过度区域时,确定输入图像中存在目标对象,通过以上方法,无论目标对象与背景的相似程度几何,待识别的目标对象与周围区域都会有明显过渡,因此可以有效提升对于图像中的目标对象检测的准确性。
需要说明的是,以上实施例提供的目标对象的检测方法,可以应用于任意的场景。在一些场景中,电子设备为移动终端时,可以应用于拍照场景,用户通过移动终端对目标对象进行拍照后,通过以上目标对象的检测方法,可以准确检测出目标对象,以及目标对象所在的区域。进一步地,在一些需要寻找目标对象的情况时,通过该方法,还可以帮助用户快速寻找到现实场景中待寻找的物体,提升用户体验。
请参阅图8,其示出了本申请实施例提供的一种目标对象的检测装置400的结构框图。该目标对象的检测装置400应用上述的电子设备,该目标对象的检测装置400包括:图像获取模块410、图像输入模块420以及对象确定模块430。其中,所述图像获取模块410用于获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围;所述图像输入模块420用于将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到;所述对象确定模块430用于如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
在一些实施方式中,该目标对象的检测装置400还可以包括:特征提取模块以及特征输入模块。特征提取模块用于在所述如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象之后,将所述目标候选区域输入至预先训练的特征提取模型中,提取所述目标候选区域的图像特征;特征输入模块用于将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果,所述输出结果用于表征所述目标候选区域为所述目标对象所在区域的概率。
在该实施方式中,该目标对象的检测装置400还可以包括:第一区域确定模块以及第一区域融合模块。第一区域确定模块用于当所述目标候选区域为多个时,在所述将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果之后,在所述多个目标候选区域中存在至少两个目标候选区域对应的输出结果为指定输出结果时,确定所述至少两个目标候选区域之间的相交区域的大小是否大于第一阈值,其中,所述指定输出结果用于表征目标候选区域为所述目标对象所在区域的概率大于指定概率;第一区域融合模块用于如果所述至少两个目标候选区域之间的相交区域的大小大于第一阈值,将所述至少两个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域。
在该实施方式中,该目标对象的检测装置400还可以包括:样本区域输入模块、样本特征输入模块、第一损失获取模块以及第一迭代训练模块。样本区域输入模块用于在所述将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果之前,获取包含所述目标对象的至少部分区域的区域样本图像,并将所述区域样本图像输入至预先训练的图像特征提取模型中,提取所述区域样本图像的图像特征;样本特征输入模块用于将所述区域样本图像的图像特征输入至所述分类器,获得所述分类器输出的结果;第一损失获取模块用于根据所述分类器输出的结果与所述区域样本图像对应的真实输出结果的差异,获得损失函数的值;第一迭代训练模块用于根据所述损失函数的值对所述分类器进行迭代训练,获得训练后的分类器。
在另一些实施方式中,该目标对象的检测装置400还可以包括:第二区域确定模块以及第二区域融合模块。第二区域确定模块用于在所述如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象之后,当所述目标候选区域为多个时,确定所述多个目标候选区域之间的相交区域的大小是否大于第二阈值;;第二区域融合模块用于如果所述多个目标候选区域之间的相交区域的大小大于第二阈值,将所述多个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域的区域图像。
在一些实施方式中,该目标对象的检测装置400还可以包括:区域滑动模块以及区域选取模块。区域滑动模块用于在所述将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络之前,将预设窗口大小的轮询窗口,按照预设步长以及预设滑动方向于所述输入图像中进行多次滑动,获得每次滑动对应的轮询窗口所在区域,作为候选区域;区域选取模块用于根据预设的填充区域大小,于所述输入图像中对每次滑动对应的轮询窗口所在区域进行区域扩展,获得所述候选区域对应的扩展区域。
在该方式下,图像输入模块420可以具体用于:将每次滑动获得的候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,直至所述轮询窗口滑动遍历完所述输入图像。
在一些实施方式中,该目标对象的检测装置400还可以包括:图像填充模块。图像填充模块用于根据所述填充区域大小,对所述输入图像的边缘区域进行像素填充。
在一些实施方式中,所述孪生差值网络包括第一网络以及第二网络。该目标对象的检测装置400还可以包括:区域样本获取模块、区域样本输入模块、特征差值确定模块、第二损失获取模块以及第二迭代训练模块。区域样本获取模块用于在所述将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络之前,获取包含所述目标对象的样本图像中的候选区域及其对应的扩展区域;区域样本输入模块用于将所述样本图像中的候选区域输入所述第一网络,获得第一图像特征,以及将所述样本图像中的候选区域所对应的扩展区域输入所述第二网络,获得第二图像特征;特征差值确定模块用于获取所述第一图像特征与所述第二图像特征之间的特征差值,以及所述样本图像中候选区域与其对应的扩展区域之间的真实特征差值;第二损失获取模块用于根据所述特征差值以及所述真实特征差值,确定损失函数的值;第二迭代训练模块用于根据所述损失函数的值,对所述孪生差值网络进行迭代训练,获得训练后的孪生差值网络。
在该实施方式中,特征差值获取模块可以具体用于:获取所述第一图像特征与所述第二图像特征之间的特征距离;对所述特征距离进行回归运算,获得所述第一图像特征与所述第二图像特征之间的特征差值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请提供的方案,通过获取输入图像,根据输入图像中的多个候选区域以及每个候选区域对应的扩展区域,并且扩展区域包括对应的候选区域以及候选区域的周围区域,将多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得每个候选区域与其对应的扩展区域之间的图像特征差值,其中,孪生差值网络根据包含目标对象的样本图像中的候选区域及其对应的扩展区域训练得到,如果多个候选区域中存在目标候选区域,该目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件,则确定输入图像中存在目标对象。从而通过利用孪生差值网络获取输入图像中各个候选区域与其扩展区域之间的图像特征差值,确定出存在特征差值满足设定阈值条件的目标候选区域时,确定输入图像中存在目标对象,实现在检测出特征过度区域时,确定输入图像中存在目标对象,提升对于图像中的目标对象检测的准确性。
请参考图9,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、智能手表、智能眼镜、笔记本电脑、服务器等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图10,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (12)
1.一种目标对象的检测方法,其特征在于,所述方法包括:
获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围区域;
将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到;
如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
2.根据权利要求1所述的方法,其特征在于,在所述如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象之后,所述方法还包括:
将所述目标候选区域输入至预先训练的特征提取模型中,提取所述目标候选区域的图像特征;
将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果,所述输出结果用于表征所述目标候选区域为所述目标对象所在区域的概率。
3.根据权利要求2所述的方法,其特征在于,当所述目标候选区域为多个时,在所述将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果之后,所述方法还包括:
在所述多个目标候选区域中存在至少两个目标候选区域对应的输出结果为指定输出结果时,确定所述至少两个目标候选区域之间的相交区域的大小是否大于第一阈值,其中,所述指定输出结果用于表征目标候选区域为所述目标对象所在区域的概率大于指定概率;
如果所述至少两个目标候选区域之间的相交区域的大小大于第一阈值,将所述至少两个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域。
4.根据权利要求2所述的方法,其特征在于,在所述将所述图像特征输入至预先训练的分类器,获得所述分类器输出的输出结果之前,所述方法还包括:
获取包含所述目标对象的至少部分区域的区域样本图像,并将所述区域样本图像输入至预先训练的图像特征提取模型中,提取所述区域样本图像的图像特征;
将所述区域样本图像的图像特征输入至所述分类器,获得所述分类器输出的结果;
根据所述分类器输出的结果与所述区域样本图像对应的真实输出结果的差异,获得损失函数的值;
根据所述损失函数的值对所述分类器进行迭代训练,获得训练后的分类器。
5.根据权利要求1所述的方法,其特征在于,在所述如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象之后,所述方法还包括:
当所述目标候选区域为多个时,确定所述多个目标候选区域之间的相交区域的大小是否大于第二阈值;
如果所述多个目标候选区域之间的相交区域的大小大于第二阈值,将所述多个目标候选区域进行图像融合,获得所述输入图像中所述目标对象所在区域的区域图像。
6.根据权利要求1所述的方法,其特征在于,在所述将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络之前,所述方法还包括:
将预设窗口大小的轮询窗口,按照预设步长以及预设滑动方向于所述输入图像中进行多次滑动,获得每次滑动对应的轮询窗口所在区域,作为候选区域;
根据预设的填充区域大小,于所述输入图像中对每次滑动对应的轮询窗口所在区域进行区域扩展,获得所述候选区域对应的扩展区域;
所述将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,包括:
将每次滑动获得的候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,直至所述轮询窗口滑动遍历完所述输入图像。
7.根据权利要求6所述的方法,其特征在于,在所述将预设窗口大小的轮询窗口,按照预设步长以及预设滑动方向于所述输入图像中进行多次滑动,获得每次滑动对应的轮询窗口所在区域,作为候选区域之前,所述方法还包括:
根据所述填充区域大小,对所述输入图像的边缘区域进行像素填充。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述孪生差值网络包括第一网络以及第二网络,在所述将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络之前,所述方法还包括:
获取包含所述目标对象的样本图像中的候选区域及其对应的扩展区域;
将所述样本图像中的候选区域输入所述第一网络,获得第一图像特征,以及将所述样本图像中的候选区域所对应的扩展区域输入所述第二网络,获得第二图像特征;
获取所述第一图像特征与所述第二图像特征之间的特征差值,以及所述样本图像中候选区域与其对应的扩展区域之间的真实特征差值;
根据所述特征差值以及所述真实特征差值,确定损失函数的值;
根据所述损失函数的值,对所述孪生差值网络进行迭代训练,获得训练后的孪生差值网络。
9.根据权利要求8所述的方法,其特征在于,所述获取所述第一图像特征与所述第二图像特征之间的特征差值,包括:
获取所述第一图像特征与所述第二图像特征之间的特征距离;
对所述特征距离进行回归运算,获得所述第一图像特征与所述第二图像特征之间的特征差值。
10.一种目标对象的检测装置,其特征在于,所述装置包括:图像获取模块、图像输入模块以及对象确定模块,其中,
所述图像获取模块用于获取输入图像,所述输入图像包括多个候选区域以及与每个候选区域对应的扩展区域,所述扩展区域包括对应的候选区域以及所述候选区域的周围;
所述图像输入模块用于将所述多个候选区域中每个候选区域及其对应的扩展区域输入至预先训练的孪生差值网络,获得所述每个候选区域与其对应的扩展区域之间的图像特征差值,其中,所述孪生差值网络根据包含所述目标对象的样本图像中的候选区域及其对应的扩展区域训练得到;
所述对象确定模块用于如果所述多个候选区域中存在目标候选区域,则确定所述输入图像中存在所述目标对象,其中,所述目标候选区域与其对应的扩展区域之间的图像特征差值满足设定阈值条件。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。
12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745760.0A CN111860413A (zh) | 2020-07-29 | 2020-07-29 | 目标对象的检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745760.0A CN111860413A (zh) | 2020-07-29 | 2020-07-29 | 目标对象的检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860413A true CN111860413A (zh) | 2020-10-30 |
Family
ID=72946039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010745760.0A Pending CN111860413A (zh) | 2020-07-29 | 2020-07-29 | 目标对象的检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860413A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344198A (zh) * | 2021-06-09 | 2021-09-03 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
CN113762248A (zh) * | 2021-01-20 | 2021-12-07 | 北京京东振世信息技术有限公司 | 一种目标落地检测方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130163844A1 (en) * | 2011-12-21 | 2013-06-27 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method, non-transitory computer-readable medium, and image processing system |
CN107203754A (zh) * | 2017-05-26 | 2017-09-26 | 北京邮电大学 | 一种基于深度学习的车牌定位方法及装置 |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN109410185A (zh) * | 2018-10-10 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种图像分割方法、装置和存储介质 |
CN110503097A (zh) * | 2019-08-27 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
CN110956646A (zh) * | 2019-10-30 | 2020-04-03 | 北京迈格威科技有限公司 | 目标跟踪方法、装置、设备及存储介质 |
CN111178162A (zh) * | 2019-12-12 | 2020-05-19 | 北京迈格威科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
-
2020
- 2020-07-29 CN CN202010745760.0A patent/CN111860413A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130163844A1 (en) * | 2011-12-21 | 2013-06-27 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method, non-transitory computer-readable medium, and image processing system |
CN107203754A (zh) * | 2017-05-26 | 2017-09-26 | 北京邮电大学 | 一种基于深度学习的车牌定位方法及装置 |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN109410185A (zh) * | 2018-10-10 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种图像分割方法、装置和存储介质 |
CN110503097A (zh) * | 2019-08-27 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
CN110956646A (zh) * | 2019-10-30 | 2020-04-03 | 北京迈格威科技有限公司 | 目标跟踪方法、装置、设备及存储介质 |
CN111178162A (zh) * | 2019-12-12 | 2020-05-19 | 北京迈格威科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762248A (zh) * | 2021-01-20 | 2021-12-07 | 北京京东振世信息技术有限公司 | 一种目标落地检测方法、装置、电子设备和存储介质 |
CN113344198A (zh) * | 2021-06-09 | 2021-09-03 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
CN113344198B (zh) * | 2021-06-09 | 2022-08-26 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
US11798132B2 (en) | Image inpainting method and apparatus, computer device, and storage medium | |
CN111368893B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US11676283B2 (en) | Iteratively refining segmentation masks | |
CN109815770B (zh) | 二维码检测方法、装置及系统 | |
CN113159016A (zh) | 文本位置定位方法和系统以及模型训练方法和系统 | |
CN111178183A (zh) | 人脸检测方法及相关装置 | |
CN109343920B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN110363753B (zh) | 图像质量评估方法、装置及电子设备 | |
CN112101359B (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
CN111860413A (zh) | 目标对象的检测方法、装置、电子设备及存储介质 | |
CN112364873A (zh) | 弯曲文本图像的文字识别方法、装置及计算机设备 | |
CN111814913A (zh) | 图像分类模型的训练方法、装置、电子设备及存储介质 | |
CN112418327A (zh) | 图像分类模型的训练方法、装置、电子设备以及存储介质 | |
CN110490058B (zh) | 行人检测模型的训练方法、装置、系统和计算机可读介质 | |
CN111461070A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN111814749A (zh) | 人体特征点的筛选方法、装置、电子设备以及存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111222557A (zh) | 图像分类方法、装置、存储介质及电子设备 | |
CN111292377A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
US20230128792A1 (en) | Detecting digital objects and generating object masks on device | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 | |
US11887356B2 (en) | System, method and apparatus for training a machine learning model | |
CN111488476B (zh) | 图像推送方法、模型训练方法及对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |