CN109657678A - 图像处理的方法、装置、电子设备和计算机存储介质 - Google Patents

图像处理的方法、装置、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN109657678A
CN109657678A CN201811547790.XA CN201811547790A CN109657678A CN 109657678 A CN109657678 A CN 109657678A CN 201811547790 A CN201811547790 A CN 201811547790A CN 109657678 A CN109657678 A CN 109657678A
Authority
CN
China
Prior art keywords
frame
prediction
surrounded
target
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811547790.XA
Other languages
English (en)
Other versions
CN109657678B (zh
Inventor
郑安林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201811547790.XA priority Critical patent/CN109657678B/zh
Publication of CN109657678A publication Critical patent/CN109657678A/zh
Application granted granted Critical
Publication of CN109657678B publication Critical patent/CN109657678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像处理的方法、装置、电子设备和计算机存储介质,该方法包括:获取待检测图像的预测包围框;在各个类型的预测包围框中提取目标包围框;基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框。在本发明中,先在各个类型的预测包围框中提取目标包围框,再基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,最终确定的有效包围框更加准确,使得待检测图像中的每个目标对象对应一个有效包围框,缓解了现有的图像处理方法准确性差的技术问题。

Description

图像处理的方法、装置、电子设备和计算机存储介质
技术领域
本发明涉及图像处理的技术领域,尤其是涉及一种图像处理的方法、装置、电子设备和计算机存储介质。
背景技术
近年来,基于深度学习的图像处理方法已经取得了非常出色的成功。在图像处理中针对稠密物体检测任务,通常有两种思路:一种是利用通用的物体检测框架预测图像中每个物体的包围框,之后将预测的包围框利用非极大值抑制的启发式方法对所有预测的包围框进行后处理,得到图像中物体的最终包围框。这种方法存在的缺陷是图像中重叠率很大的两个对象通过非极大值抑制后仅有一个对象保留了包围框;第二种是利用神经网络替换传统的非极大值抑制方法对物体检测框架预测得到的预测包围框进行后处理,得到最终的对象包围框。但这种方式仍旧存在缺陷,对所有预测包围框进行后处理的神经网络无法处理预测包围框中的多峰问题,也即如果图像中的一个物体具有多个相同的预测包围框,在后处理阶段这些预测包围框彼此之间存在竞争关系,导致神经网络无法输出正确的包围框。
综上,现有的图像处理方法准确性差。
发明内容
有鉴于此,本发明的目的在于提供一种图像处理的方法、装置、电子设备和计算机存储介质,以缓解现有的图像处理方法准确性差的技术问题。
第一方面,本发明实施例提供了一种图像处理的方法,包括:获取待检测图像的预测包围框,所述预测包围框中包括多种类型的预测包围框,所述预测包围框的类型是按照预测包围框的重叠率确定的;在各个类型的预测包围框中提取目标包围框,其中,所述目标包围框为所述预测包围框中包含所述待检测图像中的一个或多个完整目标对象的包围框;基于每种类型的预测包围框的目标包围框确定所述待检测图像的有效包围框,其中,所述有效包围框的数量为一个或多个,且所述待检测图像中的每个目标对象对应一个有效包围框。
进一步地,获取待检测图像的预测包围框包括:通过物体检测框架对所述待检测图像进行检测处理,得到初始预测包围框,其中,所述初始预测包围框全部包含或者部分包含所述待检测图像中的目标对象;基于每个初始预测包围框的类别分值对所述初始预测包围框进行过滤处理,得到过滤后的初始预测包围框,其中,所述类别分值用于表征所述初始预测包围框中包含所述目标对象的概率;对所述过滤后的初始预测包围框进行分类处理,得到所述多种类型的预测包围框。
进一步地,对所述过滤后的初始预测包围框进行分类处理,得到所述多种类型的预测包围框包括:采用第一重叠率阈值的非极大值抑制方法对所述过滤后的初始预测包围框进行再次过滤处理,得到过滤之后的初始预测包围框;采用第二重叠率阈值的非极大值抑制方法对所述过滤之后的初始预测包围框进行分类处理,得到所述多种类型的预测包围框,其中,所述第二重叠率阈值小于所述第一重叠率阈值,且所述第二重叠率阈值为一个或多个。
进一步地,所述多种类型的预测包围框包括第一类型的预测包围框和第二类型的预测包围框;在各个类型的预测包围框中提取目标包围框包括:利用净化神经网络在所述第一类型的预测包围框中提取目标包围框,得到第一组目标包围框;利用恢复神经网络在所述第二类型的预测包围框中提取目标包围框,得到第二组目标包围框,其中,所述第一类型的预测包围框中各个预测包围框的重叠率小于所述第二类型的预测包围框中各个预测包围框的重叠率。
进一步地,利用净化神经网络在所述第一类型的预测包围框中提取目标包围框,得到第一组目标包围框包括:获取所述第一类型的预测包围框中各个预测包围框的特征信息,其中,所述特征信息包括:所述待检测图像位于所述第一类型的预测包围框中各个预测包围框内图像的图像特征信息、所述第一类型的预测包围框的类别分值和所述第一类型的预测包围框的面积;将所述特征信息输入至所述净化神经网络,输出第一预测结果;根据所述第一预测结果在所述第一类型的预测包围框中确定所述第一组目标包围框。
进一步地,利用恢复神经网络在所述第二类型的预测包围框中提取目标包围框,得到第二组目标包围框包括:获取所述第二类型的预测包围框中各个预测包围框的邻居包围框;构建所述第二类型的预测包围框中各个预测包围框与其所述邻居包围框之间的特征关系;将所述特征关系输入至所述恢复神经网络,输出第二预测结果;根据所述第二预测结果在所述第二类型的预测包围框中确定所述第二组目标包围框。
进一步地,获取所述第二类型的预测包围框中各个预测包围框的邻居包围框包括:计算所述第二类型的预测包围框中的预测包围框Ai与所述第一组目标包围框中各个目标包围框之间重叠率,得到第一重叠率,其中,所述i依次取1至I,所述I为所述第二类型的预测包围框中的预测包围框的数量;将所述第一重叠率不小于预设重叠率的目标包围框作为所述预测包围框Ai的邻居包围框。
进一步地,构建所述第二类型的预测包围框中各个预测包围框与其所述邻居包围框之间的特征关系包括:将所述第二类型的预测包围框中各个预测包围框的图像特征信息与其对应的邻居包围框的图像特征信息进行拼接,得到第一特征关系;计算所述第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的相对位置坐标,得到第二特征关系;计算所述第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的重叠率,得到第三特征关系;确定所述第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的编码特征,得到第四特征关系;将所述第一特征关系、所述第二特征关系、所述第三特征关系和所述第四特征关系作为所述第二类型的预测包围框各个预测包围框与其对应的邻居包围框的特征关系。
进一步地,所述净化神经网络包括:第一全连接神经网络,所述第一全连接神经网络包括:全连接层和归一化层,所述恢复神经网络包括:第二全连接神经网络,所述第二全连接神经网络包括:残差模块、全连接层和归一化层。
进一步地,基于所述每种类型的预测包围框的目标包围框确定所述待检测图像的有效包围框包括:对所述第二组目标包围框中的各个目标包围框进行非极大值抑制处理,得到第三组目标包围框;将所述第一组目标包围框和所述第三组目标包围框作为所述待检测图像的有效包围框。
进一步地,在获取待检测图像的预测包围框之前,所述方法还包括:获取训练样本,其中,所述训练样本包括:训练图像的第一类型的训练包围框和第二类型的训练包围框;将所述第一类型的训练包围框中各个训练包围框与其对应的训练图像的基准包围框进行最优二分图匹配,得到所述第一类型的训练包围框中各个训练包围框的第一标签信息,其中,所述第一标签信息用于表示所述第一类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;基于所述第一类型的训练包围框中各个训练包围框的特征信息和所述第一标签信息对第一初始全连接神经网络进行训练,得到所述净化神经网络。
进一步地,在训练得到所述净化神经网络之后,所述方法还包括:将所述第一类型的训练包围框中各个训练包围框的特征信息输入至所述净化神经网络,得到所述第一类型的训练包围框的第一组目标训练包围框;确定所述第二类型的训练包围框中各个训练包围框的标签信息,得到第二标签信息,其中,所述第二标签信息用于表征所述第二类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;构建所述第二类型的训练包围框中各个训练包围框与所述第一组目标训练包围框中的各个目标训练包围框的特征关系;基于所述第二类型的训练包围框中各个训练包围框与所述第一组目标训练包围框中的各个目标训练包围框的特征关系和所述第二标签信息对第二初始全连接神经网络进行训练,得到所述恢复神经网络。
进一步地,确定所述第二类型的训练包围框中各个训练包围框的标签信息,得到第二标签信息包括:在所述第一组目标训练包围框中获取所述第二类型的训练包围框中各个训练包围框的邻居包围框;将所述第二类型的训练包围框中各个训练包围框的邻居包围框与训练图像的基准包围框进行最优二分图匹配,得到与所述第二类型的训练包围框中各个训练包围框的邻居包围框不匹配的目标基准包围框;计算所述第二类型的训练包围框中各个训练包围框与所述目标基准包围框的第二重叠率;基于所述第二重叠率确定所述第二类型的训练包围框中的各个训练包围框的标签信息。
进一步地,构建所述第二类型的训练包围框中各个训练包围框与所述第一组目标训练包围框中的各个目标训练包围框的特征关系包括:在所述第一组目标训练包围框中确定所述第二类型的训练包围框中各个训练包围框的邻居包围框;构建所述第二类型的训练包围框中各个训练包围框的与其邻居包围框之间的特征关系。
第二方面,本发明实施例还提供了一种图像处理的装置,包括:获取单元,用于获取待检测图像的预测包围框,所述预测包围框中包括多种类型的预测包围框,所述预测包围框的类型是按照预测包围框的重叠率确定的;提取单元,用于在各个类型的预测包围框中提取目标包围框,其中,所述目标包围框为所述预测包围框中包含所述待检测图像中的一个或多个完整目标对象的包围框;确定单元,用于基于每种类型的预测包围框的目标包围框确定所述待检测图像的有效包围框,其中,所述有效包围框的数量为一个或多个,且所述待检测图像中的每个目标对象对应一个有效包围框。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面任一项所述的方法的步骤。
在本发明实施例中,首先获取待检测图像的预测包围框,该预测包围框包括多种类型的预测包围框,并且预测包围框的类型是按照预设包围框的重叠率确定的;然后,在各个类型的预测包围框中的提取目标包围框,目标包围框为预测包围框中包含待检测图像中的一个或多个完整目标对象的包围框;最后,基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,该有效包围框的数量为一个或多个,且待检测图像中的每个目标对象对应一个有效包围框。通过上述描述可知,在本实施例中,先在各个类型的预测包围框中提取目标包围框,再基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,最终确定的有效包围框更加准确,使得待检测图像中的每个目标对象对应一个有效包围框,缓解了现有的图像处理方法准确性差的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子设备的示意图;
图2为本发明实施例提供的一种图像处理的方法的流程图;
图3为本发明实施例提供的获取待检测图像的预测包围框的方法流程图;
图4为本发明实施例提供的图像处理的方法过程中得到的各种包围框的示意图;
图5为本发明实施例提供的利用净化神经网络在第一类型的预测包围框中提取目标包围框的方法流程图;
图6为本发明实施例提供的利用恢复神经网络在第二类型的预测包围框中提取目标包围框的方法流程图;
图7为本发明实施例提供的净化神经网络的结构示意图;
图8为本发明实施例提供的恢复神经网络的结构示意图;
图9为本发明实施例提供的基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框的方法流程图;
图10为本发明实施例提供的不同方法得到的有效包围框的对比示意图;
图11为本发明实施例提供的训练净化神经网络的方法流程图;
图12为本发明实施例提供的训练恢复神经网络的方法流程图;
图13为本发明实施例提供的一种图像处理的装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
首先,参照图1来描述用于实现本发明实施例的电子设备100,该电子设备可以用于运行本发明各实施例的图像处理的方法。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及摄像机110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述摄像机110用于进行获取待检测图像,其中,摄像机所获取的待检测图像经过所述图像处理的方法进行处理之后得到待检测图像的有效包围框,例如,摄像机可以拍摄用户期望的图像(例如照片、视频等),然后,将该图像经过所述图像处理的方法进行处理之后得到待检测图像的有效包围框,摄像机还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像处理的方法的电子设备可以被实现为诸如智能手机、平板电脑等智能移动终端。
实施例2:
根据本发明实施例,提供了一种图像处理的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种图像处理的方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取待检测图像的预测包围框,预测包围框中包括多种类型的预测包围框,预测包围框的类型是按照预测包围框的重叠率确定的;
在本发明实施例中,待检测图像可以为稠密物体检测图像,比如,存在遮挡的多个人的图像,存在遮挡的多个动物的图像或存在遮挡的多个其它实物的图像;当然,待检测图像也可以为稀疏物体检测图像,比如,不存在遮挡的多个人的图像,单个人的图像,不存在遮挡的多个动物的图像,单个动物的图像等等,本发明实施例对待检测图像不进行具体限制。
具体的,预测包围框中包括多种类型的预测包围框,预测包围框的类型是按照预测包围框的重叠率确定的。下文中再对获取待检测图像的预测包围框的过程进行详细描述。
步骤S204,在各个类型的预测包围框中提取目标包围框,其中,目标包围框为预测包围框中包含待检测图像中的一个或多个完整目标对象的包围框;
具体的,当要对待检测图像中的人进行检测时,目标对象即为人;当要对待检测图像中的动物进行检测时,目标对象即为动物,也就是目标对象可根据具体的检测情况设定。
步骤S206,基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,其中,有效包围框的数量为一个或多个,且待检测图像中的每个目标对象对应一个有效包围框。
在本发明实施例中,首先获取待检测图像的预测包围框,该预测包围框包括多种类型的预测包围框,并且预测包围框的类型是按照预设包围框的重叠率确定的;然后,在各个类型的预测包围框中的提取目标包围框,目标包围框为预测包围框中包含待检测图像中的一个或多个完整目标对象的包围框;最后,基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,该有效包围框的数量为一个或多个,且待检测图像中的每个目标对象对应一个有效包围框。通过上述描述可知,在本实施例中,先在各个类型的预测包围框中提取目标包围框,再基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,最终确定的有效包围框更加准确,使得待检测图像中的每个目标对象对应一个有效包围框,缓解了现有的图像处理方法准确性差的技术问题。
上述内容对本发明的图像处理的方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本发明的一个可选实施例中,参考图3,获取待检测图像的预测包围框包括如下步骤:
步骤S301,通过物体检测框架对待检测图像进行检测处理,得到初始预测包围框,其中,初始预测包围框全部包含或者部分包含待检测图像中的目标对象;
具体的,对于输入到物体检测框架中的待检测图像,物体检测框架会检测出待检测图像中目标对象的初始预测包围框。如图4中的第一张图所示(从左往右的顺序),一张存在遮挡的多个人的图像输入至物体检测框架后,物体检测框架会对其检测得到初始预测包围框。
步骤S302,基于每个初始预测包围框的类别分值对初始预测包围框进行过滤处理,得到过滤后的初始预测包围框,其中,类别分值用于表征初始预测包围框中包含目标对象的概率;
在得到初始预测包围框后,由于初始预测包围框中包含有大量的无效预测包围框,而这些无效预测包围框一般具有较低的类别分值,因此,可以基于预设类别分值阈值和每个初始预测包围框的类别分值对初始预测包围框进行过滤处理,保留那些类别分值大于预设类别分值阈值的初始预测包围框,即得到过滤后的初始预测包围框。其中,上述预设类别分值阈值优选为0.35,本发明实施例对预设类别分值阈值的值不进行具体限制。
需要说明的是,每个初始预测包围框的类别分值也是通过物体检测框架得到的。
步骤S303,对过滤后的初始预测包围框进行分类处理,得到多种类型的预测包围框。
在得到过滤后的初始预测包围框后,进一步对过滤后的初始预测包围框进行分类处理,得到多种类型的预测包围框。
可选地,对过滤后的初始预测包围框进行分类处理,得到多种类型的预测包围框包括如下(1)-(2)步骤:
(1)采用第一重叠率阈值的非极大值抑制方法对过滤后的初始预测包围框进行再次过滤处理,得到过滤之后的初始预测包围框;
在本发明实施例中,首先采用第一重叠率阈值的非极大值抑制方法(NMS,None-Maximum Suppression)对过滤后的初始预测包围框进行再次过滤处理,得到过滤之后的初始预测包围框。
具体的,再次过滤处理过程中,去除过滤后的初始预测包围框中重叠率大于第一重叠率阈值的初始包围框,就得到了过滤之后的初始预测包围框,其中,上述第一重叠率阈值优选为0.85,本发明实施例对第一重叠率阈值的值不进行具体限制。
如图4中的第二张图(从左往右的顺序),即为经过两次过滤处理之后得到的过滤之后的初始预测包围框。
(2)采用第二重叠率阈值的非极大值抑制方法对过滤之后的初始预测包围框进行分类处理,得到多种类型的预测包围框,其中,第二重叠率阈值小于第一重叠率阈值,且第二重叠率阈值为一个或多个。
在得到过滤之后的初始预测包围框后,进一步采用第二重叠率阈值的非极大值抑制方法(NMS,None-Maximum Suppression)对过滤之后的初始预测包围框进行分类处理,得到多种类型的预测包围框,其中,上述第二重叠率阈值可以为一个,也可以为多个。当第二重叠率阈值为一个时,就将过滤之后的初始预测包围框分为了两类,如果第二重叠率阈值为两个时,就将过滤之后的初始预测包围框分为了三类,以此类推。
比如,如果第二重叠率阈值为0.5时,就可以将过滤之后的初始预测包围分为两类,其中,一类为重叠率小于0.5的预测包围框,另一类为重叠率在0.5至0.85之间的预测包围框;
而如果第二重叠率阈值为0.3,0.5时,就可以将过滤之后的初始预测包围分为三类,其中,第一类为重叠率小于0.3的预测包围框,第二类为重叠率在0.3至0.5之间的预测包围框,第三类为重叠率在0.5至0.85之间的预测包围框。
在本发明实施例中,优选地,第二重叠率阈值为一个,且第二重叠率阈值为0.5,本发明实施例对第二重叠率阈值的个数以及第二重叠率阈值的值不进行具体限制。
当第二重叠率阈值为一个时,分得的两类预测包围框即为下文中的第一类型的预测包围框和第二类型的预测包围框。
在本发明的一个可选实施例中,多种类型的预测包围框包括第一类型的预测包围框和第二类型的预测包围框;
在各个类型的预测包围框中提取目标包围框包括如下(i)-(ii)步骤:
(i)利用净化神经网络在第一类型的预测包围框中提取目标包围框,得到第一组目标包围框;
具体的,参考图5,在第一类型的预测包围框中提取目标包围框具体包括如下步骤:
步骤S501,获取第一类型的预测包围框中各个预测包围框的特征信息,其中,特征信息包括:待检测图像位于第一类型的预测包围框中各个预测包围框内图像的图像特征信息、第一类型的预测包围框的类别分值和第一类型的预测包围框的面积;
具体的,上述特征信息是通过物体检测框架得到的,其中的待检测图像位于第一类型的预测包围框中各个预测包围框内图像的图像特征信息可以是全连接层特征。
步骤S502,将特征信息输入至净化神经网络,输出第一预测结果;
具体的,第一预测结果用于表征输入的特征信息所对应的预测包围框是否为目标包围框。
步骤S503,根据第一预测结果在第一类型的预测包围框中确定第一组目标包围框。
如图4中的第三张图(从左往右的顺序),即为通过净化神经网络处理后得到的第一组目标包围框。
(ii)利用恢复神经网络在第二类型的预测包围框中提取目标包围框,得到第二组目标包围框,其中,第一类型的预测包围框中各个预测包围框的重叠率小于第二类型的预测包围框中各个预测包围框的重叠率。
具体的,参考图6,在第二类型的预测包围框中提取目标包围框具体包括如下步骤:
步骤S601,获取第二类型的预测包围框中各个预测包围框的邻居包围框;
得到邻居包围框的过程具体包括如下(a)-(b)步骤:
(a)计算第二类型的预测包围框中的预测包围框Ai与第一组目标包围框中各个目标包围框之间重叠率,得到第一重叠率,其中,i依次取1至I,I为第二类型的预测包围框中的预测包围框的数量;
(b)将第一重叠率不小于预设重叠率的目标包围框作为预测包围框Ai的邻居包围框。
在本发明实施例中,预设重叠率优选为0.1,本发明实施例对预设重叠率的值不进行具体限制。
步骤S602,构建第二类型的预测包围框中各个预测包围框与其邻居包围框之间的特征关系;
特征关系的构建过程具体如下:
1)将第二类型的预测包围框中各个预测包围框的图像特征信息与其对应的邻居包围框的图像特征信息进行拼接,得到第一特征关系;
具体的,这里的图像特征信息是指待检测图像位于对应预测包围框内图像的图像特征信息,具体是通过将待检测图像输入至物体检测框架后得到的。其中,将该第一特征关系记为Fij
2)计算第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的相对位置坐标,得到第二特征关系,其中,第二特征关系即为相对位置坐标;
具体的,在计算相对位置坐标时,采用了如下算式:
其中,Fg表示相对位置坐标,表示第二类型的预测包围框中预测包围框Ai的左上顶点坐标和右下顶点坐标,表示预测包围框Ai的邻居包围框Bj的左上顶点坐标和右下顶点坐标,W表示待检测图像的宽,H表示待检测图像的长。
3)计算第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的重叠率,得到第三特征关系,其中,第三特征关系即为重叠率;
具体的,采用算式Fiou=IOU(Ai,Bj)计算重叠率,其中,Fiou表示重叠率,Ai表示第二类型的预测包围框中预测包围框,Bj表示第二类型的预测包围框中预测包围框Ai的邻居包围框,IOU(*,*)表示两个包围框之间的重叠率。
4)确定第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的编码特征,得到第四特征关系;
具体的,采用算式计算编码特征,其中,FC表示编码特征,Cε表示最终编码长度,i为预设参数,且(cxi,cyi)表示第二类型的预测包围框中预测包围框Ai的中心点坐标,(cxj,cyj)表示第二类型的预测包围框中预测包围框Ai的邻居包围框Bj的中心点坐标,(wi,hi)表示第二类型的预测包围框中预测包围框Ai的宽和长,(wj,hj)表示第二类型的预测包围框中预测包围框Ai的邻居包围框Bj的宽和长。
5)将第一特征关系、第二特征关系、第三特征关系和第四特征关系作为第二类型的预测包围框各个预测包围框与其对应的邻居包围框的特征关系。
其中,特征关系记为Fr,即Fr=(Fij,Fg,Fiou,FC)。
步骤S603,将特征关系输入至恢复神经网络,输出第二预测结果;
具体的,第二预测结果用于表征输入的特征关系所对应的预测包围框是否为目标包围框。
步骤S604,根据第二预测结果在第二类型的预测包围框中确定第二组目标包围框。
需要说明的是,上述步骤S501-步骤S503,步骤S601-步骤S604是对在两种类型的预测包围框中分别提取目标包围框的过程进行的描述,而当通过第二重叠率阈值得到大于两种类型的预测包围时,比如得到了三种类型的预测包围框,那在三种类型的预测包围框中分别提取目标包围框的过程时,可以参照上述步骤S501-步骤S503的过程在第一类型的预测包围框提取第一组目标包围框,同时参照步骤S601-步骤S604的过程分别在第二类型的预测包围框和第三类型的预测包围框中提取第二组目标包围框和第三组目标包围框。
具体实现时,可以只有一个恢复神经网络,严格参照步骤S601-步骤S604的过程分别在第二类型的预测包围框和第三类型的预测包围框中提取第二组目标包围框和第三组目标包围框;还可以有两个恢复神经网络,通过第一个恢复神经网络在第二类型的预测包围框中提取第二组目标包围框(该过程严格参照步骤S601-步骤S604的过程执行),通过第二个恢复神经网络在第三类型的预测包围框中提取第三组目标包围框(该过程仿照步骤S601-步骤S604的过程执行,不同的是,在得到第三类型的预测包围框中各个预测包围框的邻居包围框时,是基于第二组目标包围框中各个目标包围框得到的。
在本发明实施例中,参考图7,净化神经网络包括:第一全连接神经网络,第一全连接神经网络包括:全连接层和归一化层,参考图8,恢复神经网络包括:第二全连接神经网络,第二全连接神经网络包括:残差模块、全连接层和归一化层。
具体的,第一全连接神经网络包括:五个全连接层和一个归一化层(即softmax层),第二全连接神经网络包括:三个残差模块,三个全连接层和一个归一化层(即softmax层),当然,本发明实施例对第一全连接神经网络和第二全连接神经网络的结构不进行具体限制。
在本发明的一个可选实施例中,参考图9,基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框包括如下步骤:
步骤S901,对第二组目标包围框中的各个目标包围框进行非极大值抑制处理,得到第三组目标包围框;
具体的,通过恢复神经网络处理后得到的第二组目标包围框中,待检测图像中的一个目标对象可能对应第二组目标包围框中的多个目标包围框,即恢复神经网络认为这些目标包围框都应该被保留下来,而实际上,待检测图像中的一个目标对象只能存在一个包围框,所以需要通过对第二组目标包围框中的各个目标包围框进行非极大值抑制处理,得到第三组目标包围框。
如图4的第四张图(从左往右的顺序)中的虚线框,即为通过恢复神经网络处理后且经过非极大值抑制处理后得到的第三组目标包围框。
步骤S902,将第一组目标包围框和第三组目标包围框作为待检测图像的有效包围框。
如图4的第四张图(从左往右的顺序)中的实线框和虚线框,即为本发明的图像处理方法得到的待检测图像的有效包围框。
为了进一步说明本发明的图像处理方法得到的有效包围框准确性好,发明人将传统的非极大值抑制的启发式方法(即NMS方法,对应于背景技术中的第一种思路),神经网络方法(对应于背景技术中的第二种思路,也即下表中的RelationNet—相关神经网络)与本发明的方法通过评价指标mJC进行了对比,如下表所示:
非极大值抑制的启发式方法 RelationNet 本发明的方法
mJC 0.730 0.628 0.764
通过上表可知,本发明的方法在评价指标mJC上相较于非极大值抑制的启发式方法提高了3.4%,而相较于相关神经网络的方法提高了13.6%。
需要说明的是,评价指标mJC的表达式为:
其中,|GT|表示待检测图像中的基准包围框的数量(基准包围框是指人工对待检测图像中的目标对象进行框选得到的包围框,可以理解为最准确的包围框),|Sf|表示通过各种方法处理后得到的待检测图像的有效包围框的数量(该值与|GT|的值越接近越好),|M|表示通过各种方法处理后得到的待检测图像的有效包围框与待检测图像中的基准包围框进行最优二分图匹配后得到的与基准包围框相匹配的有效包围框的数量(可以理解为上述有效包围框Sf中,与基准包围框GT相同的包围框的数量)。
通过上述对评价指标mJC的表达式中各参量含义的解读可知,评价指标mJC越大,则说明得到的有效包围框越准确,且评价指标mJC的最大值为1。
参考图10,图10中示出了非极大值抑制的启发式方法与本发明的方法得到的有效包围框的示意图,其中,图10中第一行(从上到下的顺序)的为待检测图像的初始预测包围框的示意图,图10中第二行(从上到下的顺序)为非极大值抑制的启发式方法处理后得到的有效包围框的示意图,图10中的第三行(从上到下的顺序)为本发明的图像处理方法处理后得到的有效包围框的示意图。通过图10中第二行和第三行的对比可知,本发明的图像处理方法得到的有效包围框更加准确。
上述内容对本发明的图像处理的方法进行了详细介绍,下面对训练净化神经网络和训练恢复神经网络的过程进行详细介绍。
在本发明的一个可选实施例中,参考图11,在获取待检测图像的预测包围框之前,该方法还包括如下步骤:
步骤S111,获取训练样本,其中,训练样本包括:训练图像的第一类型的训练包围框和第二类型的训练包围框;
在本发明实施例中,训练样本来自于CrowdHuman数据集。
得到第一类型的训练包围框和第二类型的训练包围框的过程与上述步骤S301至步骤S303,上述(1)-(2)步骤相同,在此不再赘述。
步骤S112,将第一类型的训练包围框中各个训练包围框与其对应的训练图像的基准包围框进行最优二分图匹配,得到第一类型的训练包围框中各个训练包围框的第一标签信息,其中,第一标签信息用于表示第一类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;
具体的,训练图像的基准包围框是指人工对训练图像中的目标对象进行框选得到的包围框,可以理解为最准确的包围框。
在构建二分图匹配的过程中,二分图的每个顶点是第一类型的训练包围框中的各个训练包围框以及与其对应的基准包围框(Ground-truth),而二分图的边则是第一类型的训练包围框中的各个训练包围框与其对应的基准包围框之间的重叠率。将重叠率高于一定阈值(优选为0.5)的两个顶点定义为连通的,反之,则两个顶点之间不连通,进一步地,将能够与基准包围框相匹配的各个训练包围框定义为正样本(即包含完整目标对象的包围框),反之则为负样本(即未包含完整目标对象的包围框),其中,正样本和负样本即为第一标签信息。
步骤S113,基于第一类型的训练包围框中各个训练包围框的特征信息和第一标签信息对第一初始全连接神经网络进行训练,得到净化神经网络。
在得到第一类型的训练包围框中各个训练包围框的第一标签信息后,进一步基于第一类型的训练包围框中各个训练包围框的特征信息和第一标签信息对第一初始全连接神经网络进行训练,得到净化神经网络。
具体的,第一类型的训练包围框中各个训练包围框的特征信息与上述步骤S501中的特征信息所包含的参量相同。具体包括:训练图像位于第一类型的训练包围框中各个训练包围框内图像的图像特征信息,第一类型的训练包围框的类别分值,第一类型的训练包围框的面积。上述特征信息也是通过物体检测框架得到的。
如图7所示,将各个特征信息作为第一初始全连接神经网络的输入,输出得到各个特征信息所对应的各个训练包围框为正负样本的标签信息,比如输出为1,表示对应的训练包围框为正样本;输出为0,表示对应的训练包围框为负样本,然后再与前面确定的各个训练包围框的第一标签进行比较,得到误差,将该误差反向传播,以对第一初始全连接神经网络中的参数进行优化,得到净化神经网络。
具体的,本发明利用前向传播和反向传播的以及随机梯度下降的方法来优化第一初始全连接神经网络中的参数,同时利用对数似然函数作为第一初始全连接神经网络的损失函数。
损失函数的表达式为L=-∑iyilog pi,其中i表示第一类型的训练包围框中的训练包围框bi的索引,yi表示训练包围框bi的标签,标签的值是1或0,pi表示预测得到的训练包围框bi正负样本的概率,ai和ak表示分别表示softmax层输出的激活响应值。
上述过程即完成了净化神经网络的训练,下面对恢复神经网络的训练过程进行详细描述
在本发明的一个可选实施例中,在训练得到净化神经网络之后,参考图12,该方法还包括:
步骤S121,将第一类型的训练包围框中各个训练包围框的特征信息输入至净化神经网络,得到第一类型的训练包围框的第一组目标训练包围框;
在得到净化神经网络后,将第一类型的训练包围框中各个训练包围框的特征信息(与步骤S113中的特性信息相同)输入至净化神经网络,就能得到第一类型的训练包围框的第一组目标训练包围框,也就是得到第一类型的训练包围框中的正样本。
步骤S122,确定第二类型的训练包围框中各个训练包围框的标签信息,得到第二标签信息,其中,第二标签信息用于表征第二类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;
具体过程如下:在第一组目标训练包围框中获取第二类型的训练包围框中各个训练包围框的邻居包围框;将第二类型的训练包围框中各个训练包围框的邻居包围框与训练图像的基准包围框进行最优二分图匹配,得到与第二类型的训练包围框中各个训练包围框的邻居包围框不匹配的目标基准包围框;计算第二类型的训练包围框中各个训练包围框与目标基准包围框的第二重叠率;基于第二重叠率确定第二类型的训练包围框中的各个训练包围框的标签信息。
下面对该过程进行详细描述:在第一组目标训练包围框中获取第二类型的训练包围框中各个训练包围框的邻居包围框的过程和前面步骤S601的过程相似,在此不再赘述。
在得到第二类型的训练包围框中各个训练包围框的邻居包围框后,将第二类型的训练包围框中各个训练包围框的邻居包围框与训练图像的基准包围框进行最优二分图匹配,最优二分图匹配的过程与步骤S112中的过程相似,在此也不赘述。匹配完成后,得到与第二类型的训练包围框中各个训练包围框的邻居包围框不匹配的目标基准包围框。
然后,再计算第二类型的训练包围框中各个训练包围框与目标基准包围框的第二重叠率;最后,基于第二重叠率确定第二类型的训练包围框中的各个训练包围框的标签信息。具体的,如果第二重叠率大于0.5,则将对应的训练包围框定义为正样本(即包含完整目标对象的包围框);反之,为负样本(即未包含完整目标对象的包围框),其中,正样本和负样本即为第二标签信息。
步骤S123,构建第二类型的训练包围框中各个训练包围框与第一组目标训练包围框中的各个目标训练包围框的特征关系;
具体过程如下:在第一组目标训练包围框中确定第二类型的训练包围框中各个训练包围框的邻居包围框(和前面步骤S601的过程相似,在此不再赘述);构建第二类型的训练包围框中各个训练包围框的与其邻居包围框之间的特征关系(与前面步骤S602中的过程相似,在此不再赘述)。
步骤S124,基于第二类型的训练包围框中各个训练包围框与第一组目标训练包围框中的各个目标训练包围框的特征关系和第二标签信息对第二初始全连接神经网络进行训练,得到恢复神经网络。
具体为,基于第二类型的训练包围框中各个训练包围框与其邻居包围框之间的特征关系和第二标签信息对第二初始全连接神经网络进行训练,得到恢复神经网络。
如图8所示,将各个特征关系作为第二初始全连接神经网络的输入,针对每一个训练包围框,输入到第二初始全连接神经网络的特征关系是一个N×L的特征矩阵,其中N表示其邻居包围框的数量,L为特征关系的长度。在经过3个残差模块的特征非线性变换后,具体的,3个残差模块根据对特征矩阵进行整合编码,得到的整合编码特征Fbi。其中Frj表示输入到第二初始全连接神经网络中的关于训练包围框bi的对于第j个邻居包围框bj的特征关系向量;θ表示网络中的3个级联的残差模块中的参数。随后,将训练包围框bi的整合编码特征Fbi输入到第二初始全连接神经网络中的3层全连接层,并由softmax层预测训练包围框bi是正样本或负样本的概率。和训练净化神经网络的方法相同,同样利用前向传播和反向传播的以及随机梯度下降的方法来优化第二初始全连接神经网络中的参数,同时利用对数似然函数作为第二初始全连接神经网络的损失函数。在此不再赘述。
通过本发明的图像处理方法可以得到准确的有效包围框,基于该准确的有效包围框为后续的有效包围框中的目标对象的进一步识别提供了依据,一方面能够避免遗漏对某个目标对象的识别,另一方面也能避免重复对某个目标对象的识别,实用性好。
实施例3:
本发明实施例还提供了一种图像处理的装置,该图像处理的装置主要用于执行本发明实施例上述内容所提供的图像处理的方法,以下对本发明实施例提供的图像处理的装置做具体介绍。
图13是根据本发明实施例的一种图像处理的装置的示意图,如图13所示,该图像处理的装置主要包括获取单元10,提取单元20和确定单元30,其中:
获取单元,用于获取待检测图像的预测包围框,预测包围框中包括多种类型的预测包围框,预测包围框的类型是按照预测包围框的重叠率确定的;
提取单元,用于在各个类型的预测包围框中提取目标包围框,其中,目标包围框为预测包围框中包含待检测图像中的一个或多个完整目标对象的包围框;
确定单元,用于基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,其中,有效包围框的数量为一个或多个,且待检测图像中的每个目标对象对应一个有效包围框。
在本发明实施例中,首先获取待检测图像的预测包围框,该预测包围框包括多种类型的预测包围框,并且预测包围框的类型是按照预设包围框的重叠率确定的;然后,在各个类型的预测包围框中的提取目标包围框,目标包围框为预测包围框中包含待检测图像中的一个或多个完整目标对象的包围框;最后,基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,该有效包围框的数量为一个或多个,且待检测图像中的每个目标对象对应一个有效包围框。通过上述描述可知,在本实施例中,先在各个类型的预测包围框中提取目标包围框,再基于每种类型的预测包围框的目标包围框确定待检测图像的有效包围框,最终确定的有效包围框更加准确,使得待检测图像中的每个目标对象对应一个有效包围框,缓解了现有的图像处理方法准确性差的技术问题。
可选地,获取单元还用于:通过物体检测框架对待检测图像进行检测处理,得到初始预测包围框,其中,初始预测包围框全部包含或者部分包含待检测图像中的目标对象;基于每个初始预测包围框的类别分值对初始预测包围框进行过滤处理,得到过滤后的初始预测包围框,其中,类别分值用于表征初始预测包围框中包含目标对象的概率;对过滤后的初始预测包围框进行分类处理,得到多种类型的预测包围框。
可选地,获取单元还用于:采用第一重叠率阈值的非极大值抑制方法对过滤后的初始预测包围框进行再次过滤处理,得到过滤之后的初始预测包围框;采用第二重叠率阈值的非极大值抑制方法对过滤之后的初始预测包围框进行分类处理,得到多种类型的预测包围框,其中,第二重叠率阈值小于第一重叠率阈值,且第二重叠率阈值为一个或多个。
可选地,多种类型的预测包围框包括第一类型的预测包围框和第二类型的预测包围框;提取单元还用于:利用净化神经网络在第一类型的预测包围框中提取目标包围框,得到第一组目标包围框;利用恢复神经网络在第二类型的预测包围框中提取目标包围框,得到第二组目标包围框,其中,第一类型的预测包围框中各个预测包围框的重叠率小于第二类型的预测包围框中各个预测包围框的重叠率。
可选地,提取单元还用于:获取第一类型的预测包围框中各个预测包围框的特征信息,其中,特征信息包括:待检测图像位于第一类型的预测包围框中各个预测包围框内图像的图像特征信息、第一类型的预测包围框的类别分值和第一类型的预测包围框的面积;将特征信息输入至净化神经网络,输出第一预测结果;根据第一预测结果在第一类型的预测包围框中确定第一组目标包围框。
可选地,提取单元还用于:获取第二类型的预测包围框中各个预测包围框的邻居包围框;构建第二类型的预测包围框中各个预测包围框与其邻居包围框之间的特征关系;将特征关系输入至恢复神经网络,输出第二预测结果;根据第二预测结果在第二类型的预测包围框中确定第二组目标包围框。
可选地,提取单元还用于:计算第二类型的预测包围框中的预测包围框Ai与第一组目标包围框中各个目标包围框之间重叠率,得到第一重叠率,i依次取1至I,I为第二类型的预测包围框中的预测包围框的数量;将第一重叠率不小于预设重叠率的目标包围框作为预测包围框Ai的邻居包围框。
可选地,提取单元还用于:将第二类型的预测包围框中各个预测包围框的图像特征信息与其对应的邻居包围框的图像特征信息进行拼接,得到第一特征关系;计算第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的相对位置坐标,得到第二特征关系;计算第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的重叠率,得到第三特征关系;确定第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的编码特征,得到第四特征关系;将第一特征关系、第二特征关系、第三特征关系和第四特征关系作为第二类型的预测包围框各个预测包围框与其对应的邻居包围框的特征关系。
可选地,净化神经网络包括:第一全连接神经网络,第一全连接神经网络包括:全连接层和归一化层,恢复神经网络包括:第二全连接神经网络,第二全连接神经网络包括:残差模块、全连接层和归一化层。
可选地,确定单元还用于:对第二组目标包围框中的各个目标包围框进行非极大值抑制处理,得到第三组目标包围框;将第一组目标包围框和第三组目标包围框作为待检测图像的有效包围框。
可选地,该装置还用于:获取训练样本,其中,训练样本包括:训练图像的第一类型的训练包围框和第二类型的训练包围框;将第一类型的训练包围框中各个训练包围框与其对应的训练图像的基准包围框进行最优二分图匹配,得到第一类型的训练包围框中各个训练包围框的第一标签信息,其中,第一标签信息用于表示第一类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;基于第一类型的训练包围框中各个训练包围框的特征信息和第一标签信息对第一初始全连接神经网络进行训练,得到净化神经网络。
可选地,该装置还用于:将第一类型的训练包围框中各个训练包围框的特征信息输入至净化神经网络,得到第一类型的训练包围框的第一组目标训练包围框;确定第二类型的训练包围框中各个训练包围框的标签信息,得到第二标签信息,其中,第二标签信息用于表征第二类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;构建第二类型的训练包围框中各个训练包围框与第一组目标训练包围框中的各个目标训练包围框的特征关系;基于第二类型的训练包围框中各个训练包围框与第一组目标训练包围框中的各个目标训练包围框的特征关系和第二标签信息对第二初始全连接神经网络进行训练,得到恢复神经网络。
可选地,该装置还用于:在第一组目标训练包围框中获取第二类型的训练包围框中各个训练包围框的邻居包围框;将第二类型的训练包围框中各个训练包围框的邻居包围框与训练图像的基准包围框进行最优二分图匹配,得到与第二类型的训练包围框中各个训练包围框的邻居包围框不匹配的目标基准包围框;计算第二类型的训练包围框中各个训练包围框与目标基准包围框的第二重叠率;基于第二重叠率确定第二类型的训练包围框中的各个目标训练包围框的标签信息。
可选地,该装置还用于:在第一组目标训练包围框中确定第二类型的训练包围框中各个训练包围框的邻居包围框;构建第二类型的训练包围框中各个训练包围框的与其邻居包围框之间的特征关系。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本发明的另一个实施例中,还提供了一种计算机存储介质,其上存储有计算机程序,计算机运行计算机程序时执行上述方法实施例所述的方法的步骤。
在本发明的另一个实施例中,还提供了一种计算机程序,该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的所述方法的相应步骤,并且用于实现根据本发明实施例的图像处理的装置中的相应模块。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个分析单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个分析器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (17)

1.一种图像处理的方法,其特征在于,包括:
获取待检测图像的预测包围框,所述预测包围框中包括多种类型的预测包围框,所述预测包围框的类型是按照预测包围框的重叠率确定的;
在各个类型的预测包围框中提取目标包围框,其中,所述目标包围框为所述预测包围框中包含所述待检测图像中的一个或多个完整目标对象的包围框;
基于每种类型的预测包围框的目标包围框确定所述待检测图像的有效包围框,其中,所述有效包围框的数量为一个或多个,且所述待检测图像中的每个目标对象对应一个有效包围框。
2.根据权利要求1所述的方法,其特征在于,获取待检测图像的预测包围框包括:
通过物体检测框架对所述待检测图像进行检测处理,得到初始预测包围框,其中,所述初始预测包围框全部包含或者部分包含所述待检测图像中的目标对象;
基于每个初始预测包围框的类别分值对所述初始预测包围框进行过滤处理,得到过滤后的初始预测包围框,其中,所述类别分值用于表征所述初始预测包围框中包含所述目标对象的概率;
对所述过滤后的初始预测包围框进行分类处理,得到所述多种类型的预测包围框。
3.根据权利要求2所述的方法,其特征在于,对所述过滤后的初始预测包围框进行分类处理,得到所述多种类型的预测包围框包括:
采用第一重叠率阈值的非极大值抑制方法对所述过滤后的初始预测包围框进行再次过滤处理,得到过滤之后的初始预测包围框;
采用第二重叠率阈值的非极大值抑制方法对所述过滤之后的初始预测包围框进行分类处理,得到所述多种类型的预测包围框,其中,所述第二重叠率阈值小于所述第一重叠率阈值,且所述第二重叠率阈值为一个或多个。
4.根据权利要求1所述的方法,其特征在于,所述多种类型的预测包围框包括第一类型的预测包围框和第二类型的预测包围框;
在各个类型的预测包围框中提取目标包围框包括:
利用净化神经网络在所述第一类型的预测包围框中提取目标包围框,得到第一组目标包围框;
利用恢复神经网络在所述第二类型的预测包围框中提取目标包围框,得到第二组目标包围框,其中,所述第一类型的预测包围框中各个预测包围框的重叠率小于所述第二类型的预测包围框中各个预测包围框的重叠率。
5.根据权利要求4所述的方法,其特征在于,利用净化神经网络在所述第一类型的预测包围框中提取目标包围框,得到第一组目标包围框包括:
获取所述第一类型的预测包围框中各个预测包围框的特征信息,其中,所述特征信息包括:所述待检测图像位于所述第一类型的预测包围框中各个预测包围框内图像的图像特征信息、所述第一类型的预测包围框的类别分值和所述第一类型的预测包围框的面积;
将所述特征信息输入至所述净化神经网络,输出第一预测结果;
根据所述第一预测结果在所述第一类型的预测包围框中确定所述第一组目标包围框。
6.根据权利要求4所述的方法,其特征在于,利用恢复神经网络在所述第二类型的预测包围框中提取目标包围框,得到第二组目标包围框包括:
获取所述第二类型的预测包围框中各个预测包围框的邻居包围框;
构建所述第二类型的预测包围框中各个预测包围框与其所述邻居包围框之间的特征关系;
将所述特征关系输入至所述恢复神经网络,输出第二预测结果;
根据所述第二预测结果在所述第二类型的预测包围框中确定所述第二组目标包围框。
7.根据权利要求6所述的方法,其特征在于,获取所述第二类型的预测包围框中各个预测包围框的邻居包围框包括:
计算所述第二类型的预测包围框中的预测包围框Ai与所述第一组目标包围框中各个目标包围框之间重叠率,得到第一重叠率,其中,所述i依次取1至I,所述I为所述第二类型的预测包围框中的预测包围框的数量;
将所述第一重叠率不小于预设重叠率的目标包围框作为所述预测包围框Ai的邻居包围框。
8.根据权利要求6所述的方法,其特征在于,构建所述第二类型的预测包围框中各个预测包围框与其所述邻居包围框之间的特征关系包括:
将所述第二类型的预测包围框中各个预测包围框的图像特征信息与其对应的邻居包围框的图像特征信息进行拼接,得到第一特征关系;
计算所述第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的相对位置坐标,得到第二特征关系;
计算所述第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的重叠率,得到第三特征关系;
确定所述第二类型的预测包围框中各个预测包围框与其对应的邻居包围框之间的编码特征,得到第四特征关系;
将所述第一特征关系、所述第二特征关系、所述第三特征关系和所述第四特征关系作为所述第二类型的预测包围框各个预测包围框与其对应的邻居包围框的特征关系。
9.根据权利要求4所述的方法,其特征在于,所述净化神经网络包括:第一全连接神经网络,所述第一全连接神经网络包括:全连接层和归一化层,所述恢复神经网络包括:第二全连接神经网络,所述第二全连接神经网络包括:残差模块、全连接层和归一化层。
10.根据权利要求4所述的方法,其特征在于,基于所述每种类型的预测包围框的目标包围框确定所述待检测图像的有效包围框包括:
对所述第二组目标包围框中的各个目标包围框进行非极大值抑制处理,得到第三组目标包围框;
将所述第一组目标包围框和所述第三组目标包围框作为所述待检测图像的有效包围框。
11.根据权利要求4所述的方法,其特征在于,在获取待检测图像的预测包围框之前,所述方法还包括:
获取训练样本,其中,所述训练样本包括:训练图像的第一类型的训练包围框和第二类型的训练包围框;
将所述第一类型的训练包围框中各个训练包围框与其对应的训练图像的基准包围框进行最优二分图匹配,得到所述第一类型的训练包围框中各个训练包围框的第一标签信息,其中,所述第一标签信息用于表示所述第一类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;
基于所述第一类型的训练包围框中各个训练包围框的特征信息和所述第一标签信息对第一初始全连接神经网络进行训练,得到所述净化神经网络。
12.根据权利要求11所述的方法,其特征在于,在训练得到所述净化神经网络之后,所述方法还包括:
将所述第一类型的训练包围框中各个训练包围框的特征信息输入至所述净化神经网络,得到所述第一类型的训练包围框的第一组目标训练包围框;
确定所述第二类型的训练包围框中各个训练包围框的标签信息,得到第二标签信息,其中,所述第二标签信息用于表征所述第二类型的训练包围框中的各个训练包围框是否为包含完整目标对象的包围框;
构建所述第二类型的训练包围框中各个训练包围框与所述第一组目标训练包围框中的各个目标训练包围框的特征关系;
基于所述第二类型的训练包围框中各个训练包围框与所述第一组目标训练包围框中的各个目标训练包围框的特征关系和所述第二标签信息对第二初始全连接神经网络进行训练,得到所述恢复神经网络。
13.根据权利要求12所述的方法,其特征在于,确定所述第二类型的训练包围框中各个训练包围框的标签信息,得到第二标签信息包括:
在所述第一组目标训练包围框中获取所述第二类型的训练包围框中各个训练包围框的邻居包围框;
将所述第二类型的训练包围框中各个训练包围框的邻居包围框与训练图像的基准包围框进行最优二分图匹配,得到与所述第二类型的训练包围框中各个训练包围框的邻居包围框不匹配的目标基准包围框;
计算所述第二类型的训练包围框中各个训练包围框与所述目标基准包围框的第二重叠率;
基于所述第二重叠率确定所述第二类型的训练包围框中的各个训练包围框的标签信息。
14.根据权利要求12所述的方法,其特征在于,构建所述第二类型的训练包围框中各个训练包围框与所述第一组目标训练包围框中的各个目标训练包围框的特征关系包括:
在所述第一组目标训练包围框中确定所述第二类型的训练包围框中各个训练包围框的邻居包围框;
构建所述第二类型的训练包围框中各个训练包围框的与其邻居包围框之间的特征关系。
15.一种图像处理的装置,其特征在于,包括:
获取单元,用于获取待检测图像的预测包围框,所述预测包围框中包括多种类型的预测包围框,所述预测包围框的类型是按照预测包围框的重叠率确定的;
提取单元,用于在各个类型的预测包围框中提取目标包围框,其中,所述目标包围框为所述预测包围框中包含所述待检测图像中的一个或多个完整目标对象的包围框;
确定单元,用于基于每种类型的预测包围框的目标包围框确定所述待检测图像的有效包围框,其中,所述有效包围框的数量为一个或多个,且所述待检测图像中的每个目标对象对应一个有效包围框。
16.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至14中任一项所述的方法的步骤。
17.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至14中任一项所述的方法的步骤。
CN201811547790.XA 2018-12-17 2018-12-17 图像处理的方法、装置、电子设备和计算机存储介质 Active CN109657678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811547790.XA CN109657678B (zh) 2018-12-17 2018-12-17 图像处理的方法、装置、电子设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811547790.XA CN109657678B (zh) 2018-12-17 2018-12-17 图像处理的方法、装置、电子设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN109657678A true CN109657678A (zh) 2019-04-19
CN109657678B CN109657678B (zh) 2020-07-24

Family

ID=66114756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811547790.XA Active CN109657678B (zh) 2018-12-17 2018-12-17 图像处理的方法、装置、电子设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN109657678B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503152A (zh) * 2019-08-26 2019-11-26 北京迈格威科技有限公司 用于目标检测的双路神经网络训练方法及图像处理方法
CN113469174A (zh) * 2021-04-12 2021-10-01 北京迈格威科技有限公司 稠密物体检测方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355188A (zh) * 2015-07-13 2017-01-25 阿里巴巴集团控股有限公司 图像检测方法及装置
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统
CN107944437A (zh) * 2017-12-31 2018-04-20 广州二元科技有限公司 一种基于神经网络和积分图像的人脸定位方法
CN108363998A (zh) * 2018-03-21 2018-08-03 北京迈格威科技有限公司 一种对象的检测方法、装置、系统和电子设备
CN108960174A (zh) * 2018-07-12 2018-12-07 广东工业大学 一种目标检测结果优化方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统
CN106355188A (zh) * 2015-07-13 2017-01-25 阿里巴巴集团控股有限公司 图像检测方法及装置
CN107944437A (zh) * 2017-12-31 2018-04-20 广州二元科技有限公司 一种基于神经网络和积分图像的人脸定位方法
CN108363998A (zh) * 2018-03-21 2018-08-03 北京迈格威科技有限公司 一种对象的检测方法、装置、系统和电子设备
CN108960174A (zh) * 2018-07-12 2018-12-07 广东工业大学 一种目标检测结果优化方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503152A (zh) * 2019-08-26 2019-11-26 北京迈格威科技有限公司 用于目标检测的双路神经网络训练方法及图像处理方法
CN113469174A (zh) * 2021-04-12 2021-10-01 北京迈格威科技有限公司 稠密物体检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN109657678B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN110728224B (zh) 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
EP3882820A1 (en) Node classification method, model training method, device, apparatus, and storage medium
CN106485230A (zh) 基于神经网络的人脸检测模型的训练、人脸检测方法及系统
JP2020501238A (ja) 顔検出トレーニング方法、装置及び電子機器
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN111401516A (zh) 一种神经网络通道参数的搜索方法及相关设备
CN108664897A (zh) 票据识别方法、装置及存储介质
CN106530305A (zh) 语义分割模型训练和图像分割方法及装置、计算设备
CN111008640A (zh) 图像识别模型训练及图像识别方法、装置、终端及介质
CN109815770A (zh) 二维码检测方法、装置及系统
CN112613581A (zh) 一种图像识别方法、系统、计算机设备和存储介质
CN110163813A (zh) 一种图像去雨方法、装置、可读存储介质及终端设备
CN112116001A (zh) 图像识别方法、装置及计算机可读存储介质
CN112381763A (zh) 一种表面缺陷检测方法
US20210142175A1 (en) Neural networks having reduced number of parameters
CN111178196B (zh) 一种细胞分类的方法、装置及设备
US20240232575A1 (en) Neural network obtaining method, data processing method, and related device
TWI812888B (zh) 影像辨識方法及影像辨識系統
CN112132279A (zh) 卷积神经网络模型压缩方法、装置、设备及存储介质
CN109657678A (zh) 图像处理的方法、装置、电子设备和计算机存储介质
CN112801063A (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN110427912A (zh) 一种基于深度学习的人脸检测方法及其相关装置
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN112364747A (zh) 一种有限样本下的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant