CN110490054A - 目标区域的检测方法、装置、电子设备及可读存储介质 - Google Patents

目标区域的检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110490054A
CN110490054A CN201910609918.9A CN201910609918A CN110490054A CN 110490054 A CN110490054 A CN 110490054A CN 201910609918 A CN201910609918 A CN 201910609918A CN 110490054 A CN110490054 A CN 110490054A
Authority
CN
China
Prior art keywords
layer
target area
predicted vector
vector
convolution kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910609918.9A
Other languages
English (en)
Other versions
CN110490054B (zh
Inventor
柴振华
孟欢欢
赖申其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910609918.9A priority Critical patent/CN110490054B/zh
Publication of CN110490054A publication Critical patent/CN110490054A/zh
Application granted granted Critical
Publication of CN110490054B publication Critical patent/CN110490054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例提供了一种目标区域的检测方法、装置、电子设备及可读存储介质,所述方法包括:将目标图片输入至卷积层中,得到第一预测向量,卷积层由一个或多个低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;将低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,上下文敏感预测层包括两个或以上预设卷积核的级联结构,预设卷积核在每个维度上的变量数目大于1;将高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,代表特征提取层仅包括一个预设卷积核;根据第二预测向量和第三预测向量确定目标区域。可以在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。

Description

目标区域的检测方法、装置、电子设备及可读存储介质
技术领域
本公开的实施例涉及人脸识别技术领域,尤其涉及一种目标区域的检测方法、装置、电子设备及可读存储介质。
背景技术
基于人脸特征的智能分析应用越来越广,例如,年龄估计、表情分析、性别识别、智能视频监控、人脸虚拟化身、人脸美学评价、内容过滤、装备识别、人物智能相册、广告投放、人脸僵尸化游戏。上述过程均以目标区域的检测为基础。
现有技术中,目标区域的检测方法通常采用深度学习网络从大量图片中学习人脸特征,并在训练好模型之后对目标图片进行目标区域的检测。Pyramidbox网络模型作为一种典型的目标区域的检测网络模型,包括多语义层的卷积层、上下文敏感预测层、金字塔方盒损失层。具体地,将图片输入至多语义层的卷积层,每个卷积层的输出接入上下文敏感预测层,上下文敏感预测层的输出输入至金字塔方盒损失层,得到预测结果。
然而,发明人在对上述方案进行研究之后发现,高语义层的卷积层的输出也通过上下文敏感预测层,会导致过拟合和网络结构的复杂度较高。
发明内容
本公开的实施例提供一种目标区域的检测方法、装置、电子设备及可读存储介质,可以在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。
根据本公开的实施例的第一方面,提供了一种目标区域的检测方法,所述方法包括:
将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;
将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;
将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;
根据所述第二预测向量和所述第三预测向量确定目标区域。。
根据本公开的实施例的第二方面,提供了一种目标区域的检测装置,所述装置包括:
卷积运算模块,用于将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;
上下文预测模块,用于将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;
代表特征提取模块,用于将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;
目标区域确定模块,用于根据所述第二预测向量和所述第三预测向量确定目标区域。
根据本公开的实施例的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述目标区域的检测方法。
根据本公开的实施例的第四方面,提供了一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述目标区域的检测方法。
本公开的实施例提供了一种目标区域的检测方法、装置、电子设备及可读存储介质,所述方法包括:将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;根据所述第二预测向量和所述第三预测向量确定目标区域。本公开的实施例在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的一种实施例中的目标区域的检测方法步骤流程图;
图2示出了本公开的另一种实施例中的目标区域的检测方法步骤流程图;
图3示出了本公开的网络模型的结构示意图;
图4(A、B)分别为普通卷积和空洞卷积的示意图;
图5示出了本公开的一种标注的目标区域和预测的目标区域的位置示意图;
图6示出了Maxout层的结构示意图;
图7示出了本公开的一种实施例中的目标区域的检测装置的结构图;
图8示出了本公开的另一种实施例中的目标区域的检测装置的结构图;
图9示出了本公开的一种实施例中的电子设备的结构图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,其示出了本公开的一种实施例中的目标区域的检测方法的步骤流程图,具体如下。
步骤101,将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成。
其中,卷积层可以由多个卷积核级联组成,即前一个卷积核的输出为后一个卷积核的输入,从而使得卷积层中不同位置的卷积核输出的第一预测向量包含的信息不同。
在本公开的实施例中,将根据卷积核的位置将卷积核划分为低语义层和高语义层。例如,如图3所示,从左向右,前三个卷积核CC1、CC2、CC3处于低语义层,后三个卷积核CC4、CC5、CC6处于高语义层。可以理解,高语义层和低语义层的划分可以根据实际应用场景设定,本公开的实施例对其不加以限制。
需要说明的是,卷积核CC1、CC2、CC3、CC4、CC5、CC6可以根据实际应用场景选取不同大小的卷积核。例如,CC1、CC2、CC3、CC5、CC6分别为3X3、4X5、5X3、6X2、7X2的卷积核,而CC4为空洞卷积,可以进一步扩大感受野。
而在空洞卷积中,在标准的卷积里注入空洞,以此来增加接收域。相比普通卷积,空洞卷积多了一个成为膨胀率的超参,即空洞的数目占比。如图4(A)所示为普通的3X3卷积,也可以理解为特殊的空洞卷积,只不过膨胀率为0,如图4(B)所示为3X3的空洞卷积,相邻两个卷积像素之间存在一个空洞,从而膨胀率可以为1,中间空洞不参与到当前卷积运算中,仅通过阴影的像素进行卷积运算。可以看出,图4(A)的普通卷积的感受野为3X3,图4(B)的感受野扩展到7X7,从而相对于普通卷积,相同大小的空洞卷积的感受野更大。
步骤102,将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1。
在本公开的实施例中,将低语义层和高语义层分开进行处理。如图3所示,将低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层。其中,上下文敏感预测层包含了三条路径,第一条路径中仅存在1X1和3X3卷积核的级联,第二条路径中存在两个3X3卷积核的级联,第三路径中存在三个3X3卷积核的级联。
可以理解,由于3X3卷积核的两个维度的变量数据均为3,从而图3中的3X3卷积核为预设卷积核。需要说明的是,在本公开的实施例中,预设卷积核设定为3X3卷积核,但并不局限于此,例如还包括:5X5卷积核、或5X7卷积核等。当然,卷积核越大,计算效率越低,为了保证效率,本公开的实施例优选3X3卷积核和1X1卷积核的级联结构。
步骤103,将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到。
如图3所示,将卷积核CC4、CC5、CC6输出的第一预测向量输入至特征提取层,其中,包括1X1卷积核与3X3卷积核的级联结构,并不包括3X3卷积核与3X3卷积核的级联结构,这是代表特征提取层与上下文敏感预测层之间的最大区别。
在本公开的实施例中,对高语义层采用简单的1X1卷积核与3X3卷积核的级联结构进行预测,从而可以有效降低网络结构的复杂度,以及避免过拟合现象;在低语义层采用多尺度预测,即通过不同数目的3X3卷积核的级联结构(如图3中包括1、2、3个3X3卷积核的级联),从而使得尽量提取较多的特征。
步骤104,根据所述第二预测向量和所述第三预测向量确定目标区域。
其中,目标区域可以为任何具有一定特征的区域,例如,人脸区域。可以理解,目标区域通常可以用矩形框或其他类型的框表示,例如,矩形框通常仅需要用左上角、右下角的坐标,或右上角、左下角的坐标表示即可。
具体地,在可以通过一定的分类函数进行分类。可以理解,本发明实施例对分类函数不加以限制,例如,归一化指数函数。
综上所述,本公开的实施例提供了一种目标区域的检测方法,所述方法包括:将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;根据所述第二预测向量和所述第三预测向量确定目标区域。本公开的实施例在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。
实施例二
参照图2,其示出了在本公开的另一种实施例中的目标区域的检测方法的具体步骤流程图,具体如下。
步骤201,针对所述图片样本集中的每个图片样本,计算所述图片样本中标注的目标区域和预测的目标区域的交并比。
其中,交并比可以为标注的目标区域以及预测的目标区域的重叠区域在并集区域中的占比。
可选地,在本公开的另一种实施例中,步骤201包括子步骤A1至A3:
子步骤A1,确定所述图片样本中标注的目标区域和所述预测的目标区域中重叠的像素点数目。
具体地,可以根据目标区域的坐标位置确定两个目标区域中重叠的像素点数目。通常情况下,标注的目标区域和预测的目标区域为同种类型,仅位置或大小不同,例如,如图5所示,标注的目标区域为实线围合的区域,预测的目标区域为虚线为何的区域,从而重叠的像素点数目为所述重叠区域包含的像素点数目,如图5中灰色区域R1包含的像素点数目。
子步骤A2,确定所述图片样本中标注的目标区域和所述预测的目标区域的总像素点数目。
具体地,可以将标注的目标区域的像素点数目与预测的目标区域的像素点数目之和作为总像素点数目,也可以在前述总像素点数目中减去子步骤A1得到的重叠的像素点数目,作为总像素点数目。
子步骤A3,计算所述重叠的像素点数目与所述总像素点数目的比值,得到交并比。
具体地,可以将比值直接作为交并比,也可以对比值进行转换得到在一定数值范围内的交并比,本公开的实施例对其不加以限制。
步骤202,确定所述图片样本是否包含预设关键信息。
其中,预设关键信息与目标区域相关,可以根据目标区域的特征确定。例如,若目标区域为人脸区域,则预设关键信息可以为五官信息。
步骤203,在所述交并比大于或等于预设交并比阈值,或,所述交并比小于预设交并比阈值,且所述图片样本包含预设关键信息的情况下,确定所述图片样本为正样本。
其中,交并比阈值可以根据实际应用场景设定,本公开的实施例对其不加以限制。例如,交并比阈值可以设置为0.8,从而可以理解为,重叠区域在总区域的占比在80%以上时,图片样本为正样本。
在本公开的实施例中还存在一种情况,交并比很小,例如小于0.8,但图片样本包含了关键信息,例如包含眼睛,此时,将图片样本确定为正样本。
步骤204,在所述交并比小于预设交并比阈值,且所述图片样本不包含预设关键信息的情况下,确定所述图片样本为负样本。
在本公开的实施例中,可以结合交并比以及针对目标区域的特征预先设定的关键信息,对样本进行挖掘,提高了样本挖掘的准确度,以及模型的准确度。
步骤205,将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成。
该步骤可以参照步骤101的详细说明,在此不再赘述。
步骤206,将所述处于低语义层的卷积核输出的第一预测向量经过规范化层处理之后输入至输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1,所述上下文敏感预测层采用可分离卷积,所述代表特征提取层采用Xception结构。
在本公开的实施例中,如图3所示,上下文敏感预测层可以采用典型的可分离卷积,代表特征提取层可以采用Xception结构,由于卷积核均较小,从而可以有效保证运算效率。
步骤207,将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到。
该步骤可以参照步骤103的详细说明,在此不再赘述。
步骤208,分别将所述第二预测向量、第三预测向量输入至权重预测层,得到第一权重向量、第二权重向量,所述权重预测层包括:全局平均单元、全连接单元、激活单元。
步骤209,通过所述第一权重向量对所述第二预测向量进行加权,得到第一加权预测向量。
具体地,第一加权预测向量可以根据如下公式计算得到:
VP1i=V1i·P1i (1)
其中,VP1i为第一加权预测向量的第i项,V1i为第一权重向量的第i项,P1i为第二预测向量的第i项。
可以理解,VP1i、V1i、P1i的大小相同。
步骤210,通过所述第二权重向量对所述第三预测向量进行加权,得到第二加权预测向量。
具体地,第二加权预测向量可以根据如下公式计算得到:
VP2i=V2i·P2i (2)
其中,VP2i为第二加权预测向量的第i项,V2i为第二权重向量的第i项,P2i为第三预测向量的第i项。
可以理解,VP2i、V2i、P2i的大小相同,在实际应用中,通常VP1i、V1i、P1i、VP2i、V2i、P2i的大小可以均相同。
步骤211,根据所述第一加权预测向量、第二加权预测向量确定目标区域。
具体地,根据第一加权预测向量、第二加权预测向量确定目标区域的具体实现可以参照步骤104的详细说明,仅不同的是,采用的向量为加权之后的向量。
本公开的实施例可以对第二预测向量和第三预测向量的权重进行调整,以实现高语义层和低语义层对预测结果的动态影响,使得预测结果更加灵活。
可选地,在本发明的另一种实施例中,所述步骤211包括子步骤B1至B2:
子步骤B1,对处于低语义层的卷积核,将对应的第一加权预测向量输入至Maxout层中得到最大化预测向量。
需要说明的是,可以将步骤102中的低语义层中部分语义层对应的第一加权预测向量输入至Maxout层,以提高运算速度;若不考虑运算速度,则可以将步骤102中的所有低语义层对应的第一加权预测向量输入至Maxout层。
其中,Maxout层可以根据不同的参数针对第一加权预测向量中的每项,进行运算得到所述每项的多个预测值,然后从预测值中选取最大值作为输出向量的每一项,从而得到最大化预测向量。
如图6所示的Maxout层结构,图中仅给出了计算最大化预测向量的第一项y1的示意,若第一加权预测向量为[x1,x2,x3],y1为中间量z1,1、z2,1、z3,1的最大值,即:y1=max(z1,1,z2,1,z3,1),而中间量z1,1、z2,1、z3,1均为x1、x2、x3的函数,具体公式如下:
其中,w1,1、w1,2、w1,3、w2,1、w2,2、w2,3、w3,1、w3,2、w3,3、b1、b2、b3均为参数,需要训练得到。
同理,可以计算得到y2、y3、y4,在此不再赘述,最终得到最大化预测向量为[y1,y2,y3,y4]。
子步骤B2,将所述最大化预测向量、第二加权预测向量输入至激活层中预测得到目标区域。
其中,激活层可以将最大化预测向量、第二加权预测向量输入至激活函数中进行运算,并根据运算结果确定目标区域。当然,激活函数的参数需要根据预先标注的样本进行训练,从而可以从中识别得到目标区域。
需要说明的是,本公开的实施例对激活层选取的激活函数不加以限制,在实际应用时可以选取现有技术中的任意激活函数,例如,Sigmod、Relu、Tanh等激活函数。
综上所述,本公开的实施例提供了一种目标区域的检测方法,所述方法包括:将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;根据所述第二预测向量和所述第三预测向量确定目标区域。本公开的实施例在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。
实施例三
参照图7,其示出了在本公开的另一种实施例中的目标区域的检测装置的结构图,具体如下。
卷积运算模块301,用于将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成。
上下文预测模块302,用于将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1。
代表特征提取模块303,用于将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到。
目标区域确定模块304,用于根据所述第二预测向量和所述第三预测向量确定目标区域。
综上所述,本公开的实施例提供了一种目标区域的检测装置,所述装置包括:卷积运算模块,用于将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;上下文预测模块,用于将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;代表特征提取模块,用于将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;目标区域确定模块,用于根据所述第二预测向量和所述第三预测向量确定目标区域。本公开的实施例在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。
实施例三为实施例一对应的装置实施例,详细说明可以参照实施例一,在此不再赘述。
实施例四
参照图8,其示出了在本公开的一种实施例中的目标区域的检测装置的结构图,具体如下。
交并比计算模块401,用于针对所述图片样本集中的每个图片样本,计算所述图片样本中标注的目标区域和预测的目标区域的交并比。
可选地,在本公开的另一种实施例中,交并比计算模块401包括:
重叠的像素点数目确定模块,用于确定所述图片样本中标注的目标区域和所述预测的目标区域中重叠的像素点数目。
总像素点确定模块,用于确定所述图片样本中标注的目标区域和所述预测的目标区域的总像素点数目。
交并比计算子模块,用于计算所述重叠的像素点数目与所述总像素点数目的比值,得到交并比。
关键信息确定模块402,用于确定所述图片样本是否包含预设关键信息。
正样本确定模块403,用于在所述交并比大于或等于预设交并比阈值,或,所述交并比小于预设交并比阈值,且所述图片样本包含预设关键信息的情况下,确定所述图片样本为正样本。
负样本确定模块404,用于在所述交并比小于预设交并比阈值,且所述图片样本不包含预设关键信息的情况下,确定所述图片样本为负样本。
卷积运算模块405,用于将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成。
上下文预测模块406,用于将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1,所述上下文敏感预测层采用可分离卷积,所述代表特征提取层采用Xception结构;可选地,在本公开的实施例中,所述上下文预测模块406包括:
上下文预测子模块4061,用于将所述处于低语义层的卷积核输出的第一预测向量经过规范化层处理之后输入至输入至上下文敏感预测层,得到第二预测向量。
代表特征提取模块407,用于将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到。
目标区域确定模块408,用于根据所述第二预测向量和所述第三预测向量确定目标区域;可选地,在本公开的另一种实施例中,目标区域确定模块408包括:
权重预测子模块4081,用于分别将所述第二预测向量、第三预测向量输入至权重预测层,得到第一权重向量、第二权重向量,所述权重预测层包括:全局平均单元、全连接单元、激活单元。
第一加权计算子模块4082,用于通过所述第一权重向量对所述第二预测向量进行加权,得到第一加权预测向量。
第二加权计算子模块4083,用于通过所述第二权重向量对所述第三预测向量进行加权,得到第二加权预测向量。
目标区域确定子模块4084,用于根据所述第一加权预测向量、第二加权预测向量确定目标区域。
可选地,在本发明的另一种实施例中,所述目标区域确定子模块4084包括:
最大化计算单元,用于对处于低语义层的卷积核,将对应的第一加权预测向量输入至Maxout层中得到最大化预测向量。
激活单元,用于将所述最大化预测向量、第二加权预测向量输入至激活层中预测得到目标区域。
综上所述,本公开的实施例提供了一种目标区域的检测装置,所述装置包括:卷积运算模块,用于将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;上下文预测模块,用于将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;代表特征提取模块,用于将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;目标区域确定模块,用于根据所述第二预测向量和所述第三预测向量确定目标区域。本公开的实施例在高语义层采用有效降低网络结构的复杂度,以及避免过拟合现象。
实施例四为实施例二对应的装置实施例,详细说明可以参照实施例二,在此不再赘述。
本公开的实施例还提供了一种电子设备,参照图9,包括:处理器501、存储器502以及存储在所述存储器502上并可在所述处理器上运行的计算机程序5021,所述处理器501执行所述程序时实现前述实施例的目标区域的检测方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的目标区域的检测方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的实施例的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的目标区域的检测设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种目标区域的检测方法,其特征在于,所述方法包括:
将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;
将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;
将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;
根据所述第二预测向量和所述第三预测向量确定目标区域。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二预测向量和所述第三预测向量确定目标区域的步骤,包括:
分别将所述第二预测向量、第三预测向量输入至权重预测层,得到第一权重向量、第二权重向量;
通过所述第一权重向量对所述第二预测向量进行加权,得到第一加权预测向量;
通过所述第二权重向量对所述第三预测向量进行加权,得到第二加权预测向量;
根据所述第一加权预测向量、第二加权预测向量确定目标区域。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一加权预测向量、第二加权预测向量确定目标区域的步骤,包括:
对处于低语义层的卷积核,将对应的第一加权预测向量输入至Maxout层中得到最大化预测向量;
将所述最大化预测向量、第二加权预测向量输入至激活层中预测得到目标区域。
4.根据权利要求1所述的方法,其特征在于,所述图片样本集通过如下步骤进行分类:
针对所述图片样本集中的每个图片样本,计算所述图片样本中标注的目标区域和预测的目标区域的交并比;
确定所述图片样本是否包含预设关键信息;
在所述交并比大于或等于预设交并比阈值,或,所述交并比小于预设交并比阈值,且所述图片样本包含预设关键信息的情况下,确定所述图片样本为正样本;
在所述交并比小于预设交并比阈值,且所述图片样本不包含预设关键信息的情况下,确定所述图片样本为负样本。
5.根据权利要求4所述的方法,其特征在于,所述计算所述图片样本中标注的目标区域和预测的目标区域的交并比的步骤,包括:
确定所述图片样本中标注的目标区域和所述预测的目标区域中重叠的像素点数目;
确定所述图片样本中标注的目标区域和所述预测的目标区域的总像素点数目;
计算所述重叠的像素点数目与所述总像素点数目的比值,得到交并比。
6.根据权利要求1所述的方法,其特征在于,将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量的步骤,包括:
将所述处于低语义层的卷积核输出的第一预测向量经过规范化层处理之后输入至输入至上下文敏感预测层,得到第二预测向量。
7.根据权利要求2所述的方法,其特征在于,所述权重预测层包括:全局平均单元、全连接单元、激活单元。
8.根据权利要求1所述的方法,其特征在于,所述上下文敏感预测层采用可分离卷积,所述代表特征提取层采用Xception结构。
9.一种目标区域的检测装置,其特征在于,所述装置包括:
卷积运算模块,用于将目标图片输入至卷积层中,得到第一预测向量,所述卷积层由一个或多个处于低语义层的卷积核和一个或多个处于高语义层的卷积核连接组成;
上下文预测模块,用于将所述处于低语义层的卷积核输出的第一预测向量输入至上下文敏感预测层,得到第二预测向量,所述上下文敏感预测层包括两个或以上预设卷积核的级联结构,所述预设卷积核在每个维度上的变量数目大于1;
代表特征提取模块,用于将处于高语义层的卷积核输出的第一预向量分别输入至代表特征提取层,得到第三预测向量,所述代表特征提取层仅包括一个所述预设卷积核,所述卷积层、上下文敏感预测层、代表特征提取层通过预先标注了目标区域的图片样本集训练得到;
目标区域确定模块,用于根据所述第二预测向量和所述第三预测向量确定目标区域。
10.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中一个或多个所述的目标区域的检测方法。
11.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-8中一个或多个所述的目标区域的检测方法。
CN201910609918.9A 2019-07-08 2019-07-08 目标区域的检测方法、装置、电子设备及可读存储介质 Active CN110490054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910609918.9A CN110490054B (zh) 2019-07-08 2019-07-08 目标区域的检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910609918.9A CN110490054B (zh) 2019-07-08 2019-07-08 目标区域的检测方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110490054A true CN110490054A (zh) 2019-11-22
CN110490054B CN110490054B (zh) 2021-03-09

Family

ID=68546695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910609918.9A Active CN110490054B (zh) 2019-07-08 2019-07-08 目标区域的检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110490054B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538929A (zh) * 2020-07-08 2020-08-14 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930454A (zh) * 2010-07-27 2010-12-29 武汉大学 上下文敏感的空间信息服务推送方法
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN108960230A (zh) * 2018-05-31 2018-12-07 中国科学院自动化研究所 基于旋转矩形框的轻量化目标识别方法及装置
CN109101899A (zh) * 2018-07-23 2018-12-28 北京飞搜科技有限公司 一种基于卷积神经网络的人脸检测方法及系统
CN109377448A (zh) * 2018-05-20 2019-02-22 北京工业大学 一种基于生成对抗网络的人脸图像修复方法
CN109816092A (zh) * 2018-12-13 2019-05-28 北京三快在线科技有限公司 深度神经网络训练方法、装置、电子设备及存储介质
CN109919010A (zh) * 2019-01-24 2019-06-21 北京三快在线科技有限公司 图像处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930454A (zh) * 2010-07-27 2010-12-29 武汉大学 上下文敏感的空间信息服务推送方法
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN109377448A (zh) * 2018-05-20 2019-02-22 北京工业大学 一种基于生成对抗网络的人脸图像修复方法
CN108960230A (zh) * 2018-05-31 2018-12-07 中国科学院自动化研究所 基于旋转矩形框的轻量化目标识别方法及装置
CN109101899A (zh) * 2018-07-23 2018-12-28 北京飞搜科技有限公司 一种基于卷积神经网络的人脸检测方法及系统
CN109816092A (zh) * 2018-12-13 2019-05-28 北京三快在线科技有限公司 深度神经网络训练方法、装置、电子设备及存储介质
CN109919010A (zh) * 2019-01-24 2019-06-21 北京三快在线科技有限公司 图像处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU TANG等: "PyramidBox: A Context-assisted Single Shot Face Detector", 《ECCV2018》 *
陈龙等: "一种上下文敏感的多尺度人脸检测方法", 《激光与光电子学进展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538929A (zh) * 2020-07-08 2020-08-14 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN111538929B (zh) * 2020-07-08 2020-12-18 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110490054B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN111401516B (zh) 一种神经网络通道参数的搜索方法及相关设备
KR20210097762A (ko) 이미지 처리 방법, 장치 및 디바이스, 및 저장 매체
CN111480169B (zh) 用于模式识别的方法、系统和装置
CN110009556A (zh) 图像背景虚化方法、装置、存储介质及电子设备
US20240112035A1 (en) 3d object recognition using 3d convolutional neural network with depth based multi-scale filters
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN107330439A (zh) 一种图像中物体姿态的确定方法、客户端及服务器
CN107278314A (zh) 具有自适应有向空间滤波器的非局部均值图像去噪
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN110084313A (zh) 一种生成物体检测模型的方法
KR20230084486A (ko) 이미지 효과를 위한 세그먼트화
CN108596944A (zh) 一种提取运动目标的方法、装置及终端设备
CN108235116A (zh) 特征传播方法和装置、电子设备、程序和介质
CN106575364A (zh) 使用定向滤波的目标检测
CN109635630B (zh) 手部关节点检测方法、装置及存储介质
CN107749987A (zh) 一种基于块运动估计的数字视频稳像方法
CN113095106A (zh) 一种人体姿态估计方法、装置
CN110084175A (zh) 一种目标检测方法、目标检测装置及电子设备
CN109215037A (zh) 目标图像分割方法、装置及终端设备
CN106874906A (zh) 一种图片的二值化方法、装置及终端
CN110490203A (zh) 图像分割方法及装置、电子设备和计算机可读存储介质
CN110033424A (zh) 图像处理的方法、装置、电子设备及计算机可读存储介质
CN110415263A (zh) 图像分割方法以及图像分割装置
US11138812B1 (en) Image processing for updating a model of an environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant