CN108229650B - 卷积处理方法、装置及电子设备 - Google Patents

卷积处理方法、装置及电子设备 Download PDF

Info

Publication number
CN108229650B
CN108229650B CN201711132000.7A CN201711132000A CN108229650B CN 108229650 B CN108229650 B CN 108229650B CN 201711132000 A CN201711132000 A CN 201711132000A CN 108229650 B CN108229650 B CN 108229650B
Authority
CN
China
Prior art keywords
convolution
network
processing
image
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711132000.7A
Other languages
English (en)
Other versions
CN108229650A (zh
Inventor
钱晨
胡晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201711132000.7A priority Critical patent/CN108229650B/zh
Publication of CN108229650A publication Critical patent/CN108229650A/zh
Application granted granted Critical
Publication of CN108229650B publication Critical patent/CN108229650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施方式公开了卷积处理方法、装置、电子设备及存储介质,其中的卷积处理方法包括:将待处理图像提供给神经网络;所述待处理图像在经过所述神经网络中的位于不同网络深度的网络结构单元的依次处理后,形成所述待处理图像的图像特征,并输出;其中,至少一网络深度的网络结构单元所执行的处理包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征。

Description

卷积处理方法、装置及电子设备
技术领域
本申请涉及计算机视觉技术,尤其是涉及一种卷积处理方法、卷积处理装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
在文字识别以及动作识别等众多应用中,往往需要先通过卷积处理,获得待处理图像的图像特征,之后,通过对待处理图像的图像特征进行进一步的处理,可以实现文字识别以及动作识别等多种任务。
通常情况下,可以将待处理图像提供给神经网络(如卷积神经网络),由神经网络形成待处理图像的图像特征。如何使神经网络能够针对待处理图像形成更为准确的图像特征,从而有利于提高图像处理结果的准确性,是一个值得关注的技术问题。
发明内容
本申请实施方式提供一种卷积处理的技术方案。
根据本申请实施方式的其中一个方面,提供了一种卷积处理方法,该方法主要包括:将待处理图像提供给神经网络;所述待处理图像在经过所述神经网络中的位于不同网络深度的网络结构单元的依次处理后,形成所述待处理图像的图像特征,并输出;其中,至少一网络深度的网络结构单元所执行的处理包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征。
在本申请一实施方式中,所述网络深度包括:基于时序而形成的网络深度;所述至少一网络深度的网络结构单元所执行的处理包括:对由上一时刻网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前时刻网络深度的图像特征。
在本申请又一实施方式中,所述对卷积处理后的卷积结果进行门控制处理包括:根据门控制函数对所述卷积处理后的卷积结果进行门控制处理;其中,所述门控制函数包括:Sigmoid函数或线性函数。
在本申请再一实施方式中,所述根据门控制函数对所述卷积处理后的卷积结果进行门控制处理包括:利用Sigmoid函数或线性函数形成门控制矩阵;根据所述门控制矩阵与所述卷积处理后的卷积结果的运算结果,获得门控制处理的结果。
在本申请再一实施方式中,所述对卷积处理后的卷积结果进行门控制处理包括:将上一网络深度的网络结构单元形成的图像特征与上一网络深度对当前网络深度的网络结构单元形成图像特征影响的卷积参数的卷积的批规范化处理结果,与当前网络深度的门控制函数进行点积操作,并对点积操作后的结果进行批规范化处理。
在本申请再一实施方式中,所述当前网络深度的门控制函数包括:针对待处理图像的初始图像特征与初始图像特征对门控制函数影响的卷积参数的卷积的批规范化处理结果,与上一网络深度的图像特征对门控制函数影响的卷积参数与上一网络深度的图像特征的卷积的批规范化处理结果之和,进行Sigmoid处理或线性处理。
在本申请再一实施方式中,所述至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征。
在本申请再一实施方式中,所述根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:利用网络结构单元中的激活层的激活函数对待处理图像的初始图像特征与第0网络深度对形成图像特征影响的卷积参数的卷积的批规范化处理结果,与所述门控制处理后的卷积结果之和,进行处理,形成当前网络深度的图像特征。
在本申请再一实施方式中,所述方法还包括:根据神经网络输出的图像特征进行以下至少之一处理:文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测。
在本申请再一实施方式中,所述方法还包括:将神经网络输出的图像特征分割为多个图像特征序列;将所述多个图像特征序列依次输入至用于文字识别的神经网络中,经由所述用于文字识别的神经网络输出文字识别结果信息。
在本申请再一实施方式中,所述用于文字识别的神经网络包括:长短期记忆网络LSTM。
根据本申请实施方式的其中另一个方面,提供了一种卷积处理装置,该装置主要包括:神经网络,包括位于不同网络深度的网络结构单元;输入模块,用于将待处理图像提供给神经网络,所述待处理图像在经过所述神经网络中的位于不同网络深度的网络结构单元的依次处理后,形成所述待处理图像的图像特征,并输出;其中,所述至少一网络深度的网络结构单元所执行的处理包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征。
在本申请一实施方式中,所述网络深度包括:基于时序而形成的网络深度;至少一网络深度的网络结构单元具体用于,对由上一时刻网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前时刻网络深度的图像特征。
在本申请又一实施方式中,所述至少一网络深度的网络结构单元所执行的对卷积处理后的卷积结果进行门控制处理包括:根据门控制函数对所述卷积处理后的卷积结果进行门控制处理;其中,所述门控制函数包括:Sigmoid函数或线性函数。
在本申请再一实施方式中,所述至少一网络深度的网络结构单元所执行的根据门控制函数对所述卷积处理后的卷积结果进行门控制处理包括:利用Sigmoid函数或线性函数形成门控制矩阵;根据所述门控制矩阵与所述卷积处理后的卷积结果的运算结果,获得门控制处理的结果。
在本申请再一实施方式中,所述至少一网络深度的网络结构单元所执行的对卷积处理后的卷积结果进行门控制处理包括:将上一网络深度的网络结构单元形成的图像特征与上一网络深度对当前网络深度的网络结构单元形成图像特征影响的卷积参数的卷积的批规范化处理结果,与当前网络深度的门控制函数进行点积操作,并对点积操作后的结果进行批规范化处理。
在本申请再一实施方式中,所述当前网络深度的门控制函数包括:针对待处理图像的初始图像特征与初始图像特征对门控制函数影响的卷积参数的卷积的批规范化处理结果,与上一网络深度的图像特征对门控制函数影响的卷积参数与上一网络深度的图像特征的卷积的批规范化处理结果之和,进行Sigmoid处理或线性处理。
在本申请再一实施方式中,所述至少一网络深度的网络结构单元所执行的至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征。
在本申请再一实施方式中,所述根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:利用网络结构单元中的激活层的激活函数对待处理图像的初始图像特征与第0网络深度对形成图像特征影响的卷积参数的卷积的批规范化处理结果,与所述门控制处理后的卷积结果之和,进行处理,形成当前网络深度的图像特征。
在本申请再一实施方式中,所述装置还包括:处理模块,用于根据神经网络输出的图像特征进行以下至少之一处理:文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测。
在本申请再一实施方式中,所述处理模块具体用于:将神经网络输出的图像特征分割为多个图像特征序列;将所述多个图像特征序列依次输入至用于文字识别的神经网络中,经由所述用于文字识别的神经网络输出文字识别结果信息。
在本申请再一实施方式中,所述用于文字识别的神经网络包括:长短期记忆网络LSTM。
根据本申请实施方式的再一个方面,提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,执行本申请方法实施方式中的各步骤。
根据本申请实施方式的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行本申请方法实施方式中的各步骤。
根据本申请实施方式的再一个方面,提供一种计算机程序,该计算机程序在被处理器执行时,执行本申请方法实施方式中的各步骤。
基于本申请提供的卷积处理方法、装置、电子设备以及计算机可读存储介质,本申请的神经网络中的至少一网络深度的网络结构单元通过对上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,可以实现对带入到当前网络深度的上下文进行门控制处理,使减弱不必要的上下文对当前网络深度形成的图像特征的影响成为可能。由此可知,本申请的卷积处理的技术方案有利于提高神经网络中的网络结构单元形成图像特征的质量,进而有利于提高通过神经网络形成图像特征的准确性。
下面通过附图和实施方式,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施方式,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请神经网络一个实施方式的示意图;
图2为本申请神经网络应用于文字识别的一个实施方式的流程图;
图3为本申请卷积处理方法一个实施方式的流程图;
图4为本申请卷积处理装置一个实施方式的结构示意图;
图5为实现本申请实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或者使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法及设备应当被视为说明书的一部分。
应注意到:相似的标号以及字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统以及服务器等电子设备中,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统以及包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
下面结合图1至图5对本申请提供的卷积处理的技术方案进行说明。
本申请的卷积处理方法和装置均涉及了神经网络,下面先对本申请实施方式的卷积处理方法和装置所涉及的神经网络进行说明。
本申请实施方式中的神经网络主要用于针对输入的待处理图像形成图像特征,并输出该图像特征。本申请的神经网络的网络深度为N,且N为大于1的整数。神经网络中的至少一网络深度对应有网络结构单元。
在一个可选示例中,本申请中的网络结构单元可以是由卷积层、激活层及BN(Batch Normalization,批规范化)层形成的结构块,网络结构单元中的激活层可以具体为ReLU(Rectified Linear Unit,修正线性单元)层等。本申请中的网络结构单元可以采用现有的网络结构单元,例如,本申请中的网络结构单元可以具体为Inception-block或Residual-block等。
在一个可选示例中,在本申请的神经网络为递归神经网络的情况下,该神经网络通常包括一个网络结构单元,该网络结构单元中的卷积层为递归卷积层。此时,本申请的神经网络的网络深度可以是指在基于时序的展开,而使网络结构单元被时序性展开所形成的网络深度,该网络结构单元也可以称为递归网络结构单元。由于递归神经网络中的网络深度是递归网络结构单元被展开而形成的,因此,递归神经网络中位于不同网络深度的网络结构单元共享网络参数,例如,卷积层中各卷积核的权值等网络参数共享。
在一个可选示例中,在本申请的神经网络为非递归神经网络的情况下,该神经网络通常包括多个网络结构单元。此时,神经网络的网络深度可以是由这多个网络结构单元形成的,即一个网络结构单元对应神经网络中的一个网络深度,而不同的网络结构单元对应神经网络中的不同网络深度。由于神经网络中的网络深度是由多个网络结构单元形成的,因此,神经网络中位于不同网络深度的网络结构单元可以具有各自的网络参数,即神经网络中位于不同网络深度的网络结构单元的网络参数可以不相同。当然,本申请也不排除神经网络中位于不同网络深度的网络结构单元的网络参数相同的情况。
在一个可选示例中,神经网络中至少一网络深度的网络结构单元(如任一不小于1的网络深度的网络结构单元)所执行的操作主要包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,然后,至少根据门控制处理后的卷积结果,形成当前网络深度的图像特征。特别的,在神经网络的网络深度指在基于时序的展开,而使网络结构单元被时序性展开所形成的网络深度的情况下,可以将神经网络中至少一网络深度的网络结构单元所执行的操作描述为:对由上一时刻网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据门控制处理后的卷积结果,形成当前时刻网络深度的图像特征。
在一个可选示例中,本申请中的对卷积处理后的卷积结果进行门控制处理的作用包括:对带入到当前网络深度的上下文进行控制处理,以调整带入到当前网络深度的上下文,对形成当前网络深度的图像特征的影响。本申请中的带入到当前网络深度的上下文可以理解为当前网络深度的卷积核的感受野超过前馈卷积核的感受野的区域,即反馈卷积核覆盖的面积,也可以认为是当前网络深度的卷积核的感受野超过第0网络深度的卷积核的感受野的区域。也就是说,由于当前网络深度的卷积核的感受野在会上一网络深度的卷积核的感受野的基础上,有所扩大,因此,当前网络深度被代入了上下文。
本申请通过对卷积处理后的卷积结果进行门控制处理,可以实现对经由上一网络深度带入到当前网络深度的上下文进行控制处理,使减弱不必要的上下文对当前网络深度形成的图像特征的影响成为可能,从而有利于提高神经网络中的网络结构单元形成图像特征的质量,进而有利于提高神经网络形成图像特征的准确性。
在一个可选示例中,本申请对卷积处理后的卷积结果进行门控制处理(即对带入到当前网络深度的上下文进行控制处理)的实现方式可以为:根据门控制函数对卷积处理后的卷积结果进行门控制处理,本申请中的门控制函数可以具体为Sigmoid函数,也可以为线性函数等,函数的具体数学表达方式非常灵活,并非本申请限定的范围。一个可选例子,本申请可以利用Sigmoid函数或线性函数等形成门控制矩阵,并利用该门控制矩阵与卷积处理后的卷积结果进行运算,该运算结果即为门控制处理的结果。一个可选例子,本申请可以将上一网络深度的网络结构单元形成的图像特征与上一网络深度对当前网络深度的网络结构单元形成图像特征影响的卷积参数wr的卷积的批规范化处理结果,与当前网络深度的门控制函数进行点积操作,并对点积操作后的结果进行批规范化处理。该门控制处理的实现方式可以表示但不限于为下述公式(1)的形式:
BN(BN(wr*x(t-1))⊙G(t));t>0 公式(1)
在上述公式(1)中,BN表示批规范化处理;wr表示上一网络深度对当前网络深度形成图像特征影响的卷积参数;x(t-1)表示上一网络深度的图像特征;*表示卷积运算;⊙表示点积运算;G(t)表示当前网络深度的门控制函数(也可以称为上下文门控制函数);t表示当前网络深度,而在递归神经网络中,可以将t理解为当前时间点(即当前时刻);t-1表示上一网络深度,而在递归神经网络中,可以将t-1理解为上一时间点(即上一时刻)。由于wr*x(t-1)的运算结果(即wr和x(t-1)的卷积运算结果)可以表示出当前网络深度的卷积核的感受野,因此,本申请通过利用当前网络深度的门控制函数G(t)对批规范化处理后的当前深度的卷积核的感受野进行控制处理,可以使减弱不必要的上下文对当前网络深度形成的图像特征的影响成为可能。
需要特别说明的是,在本申请的神经网络为递归神经网络的情况下,上述公式(1)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr通常是共享的卷积参数;在本申请的神经网络为非递归神经网络的情况下,上述公式(1)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr可以不是共享的卷积参数,此时,上述公式(1)中的wr可以表示为
Figure BDA0001469762760000101
当然,在本申请的神经网络为非递归神经网络的情况下,上述公式(1)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr也可以是共享的卷积参数。
在一个可选示例中,本申请中的当前网络深度的门控制函数G(t)可以利用待处理图像的初始图像特征u(0)、初始图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000111
上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000112
以及上一网络深度的图像特征,来设置;例如,本申请中的当前网络深度的门控制函数G(t)可以具体为:针对待处理图像的初始图像特征u(0)与初始图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000113
的卷积的批规范化处理结果,与上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000114
与上一网络深度的图像特征的卷积的批规范化处理结果之和,进行Sigmoid处理或线性处理等。本申请中的当前网络深度的门控制函数G(t)可以表示但不限于为下述公式(2)的形式:
G(t)=0;t=0
Figure BDA0001469762760000115
在上述公式(2)中,G(t)表示当前网络深度(即第t网络深度或者t时刻的网络深度)的门控制函数;BN表示批规范化处理;
Figure BDA0001469762760000116
表示初始图像特征对门控制函数影响的卷积参数;u(t)可以采用u(0)实现,即待处理图像的初始图像特征;
Figure BDA0001469762760000117
表示上一网络深度的图像特征对门控制函数影响的卷积参数;*表示卷积运算;t表示当前网络深度,而在递归神经网络中,可以将t理解为当前时间点或者当前时刻或者t时刻等;t-1表示上一网络深度,而在递归神经网络中,可以将t-1理解为上一时间点或者上一时刻或者t-1时刻等;x(t-1)表示上一网络深度所形成的图像特征。
需要特别说明的是,在本申请的神经网络为递归神经网络的情况下,上述公式(2)中的上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000121
通常是共享卷积参数;在本申请的神经网络为非递归神经网络的情况下,上述公式(2)中的上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000122
通常不是共享卷积参数,此时,上述公式(2)中的
Figure BDA0001469762760000123
可以表示为
Figure BDA0001469762760000124
当然,在本申请的神经网络为非递归神经网络的情况下,上述公式(2)中的上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000125
也可以是共享卷积参数。
在一个可选示例中,本申请的至少根据门控制处理后的图像特征,形成当前网络深度的图像特征的实现方式可以具体为:根据待处理图像的初始图像特征u(0)与第0网络深度对形成图像特征影响的卷积参数wf的卷积以及控制处理后的图像特征,形成当前网络深度的图像特征。更具体而言,本申请可以利用网络结构单元中的激活层的激活函数对待处理图像的初始图像特征u(0)与第0网络深度对形成图像特征影响的卷积参数wf的卷积的批规范化处理结果,与控制处理后的图像特征之和,进行处理,从而形成当前网络深度的图像特征。本申请中的形成当前网络深度的图像特征可以表示但不限于为下述公式(3)的形式:
x(t)=F(BN(wf*u(t)))0;t=0
x(t)=F(BN(wf*u(t))+BN(BN(wr*x(t-1))⊙G(t)));t>0
公式(3)
在上述公式(3)中,x(t)表示当前网络深度(即第t网络深度或者t时刻的网络深度)所形成的图像特征;F表示激活函数,BN表示批规范化处理;wf表示第0网络深度对形成图像特征影响的卷积参数;u(t)可以采用u(0)实现,即待处理图像的初始图像特征;wr表示上一网络深度对当前网络深度形成图像特征影响的卷积参数;*表示卷积运算;t表示当前网络深度,而在递归神经网络中,可以将t理解为当前时间点或者当前时刻或者t时刻等;t-1表示上一网络深度,而在递归神经网络中,可以将t-1理解为上一时间点或者上一时刻或者t-1时刻等;x(t-1)表示上一网络深度所形成的图像特征。
需要特别说明的是,在本申请的神经网络为递归神经网络的情况下,上述公式(3)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr通常是共享卷积参数;而在本申请的神经网络为非递归神经网络的情况下,上述公式(3)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr通常不是共享卷积参数,此时,上述公式(3)中的wr可以表示为
Figure BDA0001469762760000131
当然,在本申请的神经网络为非递归神经网络的情况下,上述公式(3)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr也可以是共享卷积参数。
在网络结构单元中的激活层的激活函数采用ReLU激活函数的情况下,上述公式(3)可以表示为下述公式(4)的形式:
x(t)=ReLU(BN(wf*u(t)))0;t=0
x(t)=ReLU(BN(wf*u(t))+BN(BN(wr*x(t-1))⊙G(t)));t>0
公式(4)
在上述公式(4)中,ReLU表示激活函数,公式(4)中其他字母以及符号的含义可以参见上述针对公式(3)中的相关说明。
上述公式(4)可以被认为是对本申请的网络结构单元的定义,也可以被认为是描述了本申请的网络结构单元所执行的操作。由公式(4)形成的网络深度为3的递归神经网络的一个具体例子,如图1所示。
图1中的
Figure BDA0001469762760000141
表示点积运算,
Figure BDA0001469762760000142
表示向量/矩阵相加。下面对图1所示的递归神经网络进行说明。
首先,待处理图像的初始图像特征u(0)被作为神经网络的输入,分别与wf
Figure BDA0001469762760000143
进行卷积运算,即在图1中最上面的包含有wf的方框和包含有
Figure BDA0001469762760000144
的方框处执行卷积运算;初始图像特征u(0)与wf的卷积运算结果在进行BN处理后,由ReLU函数进行处理,即在图1中最上面的包含有ReLU的方框处执行ReLU函数的处理,ReLU函数处理后的结果被作为第0网络深度的网络结构单元形成的图像特征x(0)。
其次,第0网络深度的网络结构单元形成的图像特征x(0)与wr进行卷积运算,即在图1中最上面的包含有wr的方框处执行卷积运算;卷积运算结果在进行BN处理后,与第1网络深度的门控制函数G(1)进行点积运算,即在图1中最上面的一个点积运算符
Figure BDA0001469762760000145
处执行点积运算;点积运算后的结果与图1中包含有wf的方框输出的结果(BN处理后的卷积运算结果)进行矩阵相加,矩阵相加后的结果由ReLU函数进行处理,即在图1的中间位置处的包含有ReLU的方框处执行ReLU函数的处理,ReLU函数处理后的结果被作为第1网络深度的网络结构单元形成的图像特征x(1)。上述G(1)为图1中最上面的包含有sigmoid的方框的输出结果。上述G(1)的形成过程为:初始图像特征u(0)与
Figure BDA0001469762760000146
的卷积运算结果在进行BN处理后,与图1中最上面的包含有
Figure BDA0001469762760000147
的方框的输出进行矩阵相加,相加后的结果在进行sigmoid函数运算后,形成G(1)。图1中最上面的包含有
Figure BDA0001469762760000148
的方框的输出具体为:第0网络深度的网络结构单元形成的图像特征x(0)与
Figure BDA0001469762760000151
进行卷积运算,卷积运算的结果在进行BN处理后,形成图1中最上面的包含有
Figure BDA0001469762760000152
的方框的输出。包含有wf的方框的输出结果具体为:初始图像特征u(0)与wf的卷积运算结果在进行BN处理后,形成包含有wf的方框的输出结果。
再次,第1网络深度的网络结构单元形成的图像特征x(1)与wr进行卷积运算,即在图1中最下面的包含有wr的方框处执行卷积运算;卷积运算结果在进行BN处理后,与第2网络深度的门控制函数G(2)进行点积运算,即在图1中最下面的一个点积运算符
Figure BDA0001469762760000153
处执行点积运算;点积运算后的结果与图1中包含有wf的方框输出的结果进行矩阵相加,矩阵相加后的结果由ReLU函数进行处理,即在图1的最下面位置处的包含有ReLU的方框处执行ReLU函数处理,ReLU函数处理后的结果被作为第2网络深度的网络结构单元形成的图像特征x(2)。第2网络深度的网络结构单元形成的图像特征x(2)可以被作为神经网络输出的图像特征。
上述G(2)为图1中最下面的包含有sigmoid的方框的输出结果。上述G(2)的形成过程为:初始图像特征u(0)与
Figure BDA0001469762760000154
的卷积运算结果在进行BN处理后,与图1中最下面的包含有
Figure BDA0001469762760000155
的方框的输出进行矩阵相加,相加后的结果在进行sigmoid函数运算后,形成G(1)。图1中最下面的包含有
Figure BDA0001469762760000156
的方框的输出具体为:第1网络深度的网络结构单元形成的图像特征x(1)与
Figure BDA0001469762760000157
进行卷积运算,卷积运算的结果在进行BN处理后,形成图1中最下面的包含有
Figure BDA0001469762760000158
的方框的输出。图1中包含有wf的方框的输出结果具体为:初始图像特征u(0)与wf的卷积运算结果在进行BN处理后,形成包含有wf的方框的输出结果。
在神经网络为非递归神经网络的情况下,图1中的最上面的包含有
Figure BDA0001469762760000161
的方框可以替换为包含有
Figure BDA0001469762760000162
的方框,图1中的最下面的包含有
Figure BDA0001469762760000163
的方框可以替换为包含有
Figure BDA0001469762760000164
的方框,图1中的最上面的包含有wr的方框可以替换为包含有
Figure BDA0001469762760000165
的方框,图1中的最下面的包含有wr的方框可以替换为包含有
Figure BDA0001469762760000166
的方框,从而形成非递归的网络深度为3的神经网络。
在一个可选示例中,本申请的神经网络中的
Figure BDA0001469762760000167
wr、wf以及
Figure BDA0001469762760000168
等网络参数通常是通过神经网络的训练而学习到的。本申请可以采用现有训练方式对该神经网络进行训练,只是在训练过程中,需要学习的网络参数比现有的神经网络需要学习的网络参数多了
Figure BDA0001469762760000169
Figure BDA00014697627600001610
在一个可选示例中,本申请的神经网络所输出的图像特征可以被用于需要针对图像特征进行进一步处理,以完成相应任务的多种应用场景中,也就是说,需要图像特征的各种应用均可以使用本申请提供的神经网络。具体而言,由于文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测等应用中均需要在待处理图像的图像特征上进行进一步处理,以完成相应的任务,因此,本申请的神经网络可以应用于文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测等应用中。本申请不限制神经网络的具体应用场景。
本申请的神经网络应用在文字识别中的一个具体例子如图2所示。
图2中,最左侧的包含有“ESTATE”的待处理图像被输入至GRCNN(Gate RegionConvolutional Neural Network,基于门控的区域卷积神经网络)中,由于本申请的神经网络中设置有门控制函数,因此,本申请的神经网络在文字识别的应用场景中,可以称为GRCNN。GRCNN输出包含有“ESTATE”的待处理图像的图像特征,该图像特征被分割为多个序列,例如,按照从左到右的方向,该图像特征被分割为多个特征序列,每一个特征序列的宽度可以是1,这样,每一个特征序列可以是相应行中的所有图像特征的链接。每一个特征序列均会按照先后顺序,被输入循环神经网络(即图2中的Recurrent Network)中,该循环神经网络输出文字识别结果,可选的,本申请可以对文字识别结果进行转换处理(即图2中的Transcription),从而形成其他形式的文字识别结果,如语音形式的文字识别结果等。
图2中的循环神经网络可以具体为LSTM(Long Short-Term Memory,长短期记忆网络)等。循环神经网络可以采用现有的多种序列建模方式,其中一种序列建模方式可以为如下所示:
i=σ(Wxixt+Whiht-11Wcict-1+bi),
f=σ(Wxfxt+Whfht-12Wcfct-1+bf),
o=σ(Wxoxt+Whoht-13Wcoct+bo),
γi∈{0,1}.
在上述序列建模方式中,xt表示GRCNN输出的图像特征被分割出的第t个特征序列,如GRCNN输出的图像特征被分割出的第t行中的所有图像特征的链接。上述序列建模方式的具体内容可以参见F.A Gers and J Schmidhuber.Recurrent nets that time andcount.In Intemational Joint Conference on Neural Networks,pages 189-194,2000.在此不再详细说明。
图3为本申请卷积处理方法一个实施例的流程图。如图3所示,该卷积处理方法包括:步骤S300以及步骤S310。
S300、将待处理图像提供给神经网络。
在一个可选示例中,本申请中的待处理图像可以为呈现静态的图片或者照片等图像,也可以为呈现动态的视频中的视频帧等。在本申请的图像处理技术被用于文字识别应用中的情况下,该待处理图像通常包含有文字(如英文、数字以及其他语种的文字等),如图2中包含有“ESTATE”的待处理图像。在本申请的图像处理技术被用于人脸识别、人脸位置检测(如人脸外接框检测)或者人脸关键点检测等与人脸相关的应用中的情况下,该待处理图像通常包含有人脸,待处理图像中的人脸可以为正脸,也可以为侧脸。在本申请的图像处理技术被用于人体关键点检测或者人体位置检测或者人体动作识别或者行人识别等与人体相关的应用中的情况下,该待处理图像通常包含有人体。在本申请的图像处理技术被用于手势识别或者手位置检测等与手相关的应用中的情况下,该待处理图像通常包含有手。在本申请的图像处理技术被用于活体检测等与活体相关的应用中的情况下,该待处理图像通常包含有活体(如猫、狗等动物)。在本申请的图像处理技术被用于车辆识别的应用中的情况下,该待处理图像通常包含有车辆。在本申请的图像处理技术被用于场景识别的应用中的情况下,该待处理图像通常包含有具体的场景。
在一个可选示例中,本申请中的待处理图像可以为灰度图像,也可以为非灰度图像。非灰度图像可以为RGB(红绿蓝)图像等。本申请不限制待处理图像的具体表现形式。
在一个可选示例中,本申请的神经网络的网络深度为N,且N为大于1的整数。神经网络中的至少一网络深度对应有网络结构单元。本申请中的网络结构单元可以是由卷积层、激活层以及BN(Batch Normalization,批规范化)层形成的结构块,网络结构单元中的激活层可以具体为ReLU层等。本申请中的网络结构单元可以采用现有的网络结构单元,例如,本申请中的网络结构单元可以具体为Inception-block或Residual-block等。
在一个可选示例中,在本申请的神经网络为递归神经网络的情况下,该神经网络通常包括一个网络结构单元,该网络结构单元中的卷积层为递归卷积层。此时,本申请的神经网络的网络深度可以是指在基于时序的展开,而使网络结构单元被时序性展开所形成的网络深度,该网络结构单元也可以称为递归网络结构单元。由于递归神经网络中的网络深度是递归网络结构单元被展开而形成的,因此,递归神经网络中位于不同网络深度的网络结构单元共享网络参数,例如,卷积层中各卷积核的权值等网络参数共享。在本申请的神经网络为非递归神经网络的情况下,该神经网络通常包括多个网络结构单元。此时,神经网络的网络深度可以是由这多个网络结构单元形成的,即一个网络结构单元对应神经网络中的一个网络深度,而不同的网络结构单元对应神经网络中的不同网络深度。由于神经网络中的网络深度是由多个网络结构单元形成的,因此,神经网络中位于不同网络深度的网络结构单元可以具有各自的网络参数,即神经网络中位于不同网络深度的网络结构单元的网络参数可以不相同。当然,本申请也不排除神经网络中位于不同网络深度的网络结构单元的网络参数相同的情况。
S310、待处理图像在经过神经网络中的位于不同网络深度的网络结构单元的依次处理后,形成待处理图像的图像特征,并输出。
在一个可选示例中,本申请中的至少一网络深度的网络结构单元所执行的处理操作包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,然后,至少根据门控制处理后的卷积结果,形成当前网络深度的图像特征。特别的,在神经网络的网络深度指在基于时序的展开,而使网络结构单元被时序性展开所形成的网络深度的情况下,可以将神经网络中至少一网络深度的网络结构单元所执行的操作描述为:对由上一时刻网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据门控制处理后的卷积结果,形成当前时刻网络深度的图像特征。
在一个可选示例中,本申请中的对卷积处理后的卷积结果进行门控制处理的作用包括:对带入到当前网络深度的上下文进行控制处理,以调整带入到当前网络深度的上下文,对形成当前网络深度的图像特征的影响。本申请中的带入到当前网络深度的上下文可以理解为当前网络深度的卷积核的感受野超过前馈卷积核的感受野的区域,即反馈卷积核覆盖的面积,也可以认为是当前网络深度的卷积核的感受野超过第0网络深度的卷积核的感受野的区域。也就是说,由于当前网络深度的卷积核的感受野在会上一网络深度的卷积核的感受野的基础上,有所扩大,因此,当前网络深度被代入了上下文。
本申请通过对卷积处理后的卷积结果进行门控制处理,可以实现对经由上一网络深度带入到当前网络深度的上下文进行控制处理,使减弱不必要的上下文对当前网络深度形成的图像特征的影响成为可能,从而有利于提高神经网络中的网络结构单元形成图像特征的质量,进而有利于提高神经网络形成图像特征的准确性。
在一个可选示例中,本申请对卷积处理后的卷积结果进行门控制处理(即对带入到当前网络深度的上下文进行控制处理)的实现方式可以为:根据门控制函数对卷积处理后的卷积结果进行门控制处理,本申请中的门控制函数可以具体为Sigmoid函数,也可以为线性函数等。一个具体的可选例子,本申请可以利用Sigmoid函数或线性函数等形成门控制矩阵,并利用该门控制矩阵与卷积处理后的卷积结果进行运算,该运算结果即为门控制处理的结果。一个更为具体的可选例子,本申请可以将上一网络深度的网络结构单元形成的图像特征与上一网络深度对当前网络深度的网络结构单元形成图像特征影响的卷积参数wr的卷积的批规范化处理结果,与当前网络深度的门控制函数进行点积操作,并对点积操作后的结果进行批规范化处理。该门控制处理的实现方式可以表示为上述公式(1)的形式,在此不再详细说明。
需要特别说明的是,在本申请的神经网络为递归神经网络的情况下,上述公式(1)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr通常是共享的卷积参数;在本申请的神经网络为非递归神经网络的情况下,上述公式(1)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr可以不是共享的卷积参数,此时,上述公式(1)中的wr可以表示为
Figure BDA0001469762760000211
当然,在本申请的神经网络为非递归神经网络的情况下,上述公式(1)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr也可以是共享的卷积参数。
在一个可选示例中,本申请中的当前网络深度的门控制函数G(t)可以利用待处理图像的初始图像特征u(0)、初始图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000212
上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000213
以及上一网络深度的图像特征,来设置;例如,本申请中的当前网络深度的门控制函数G(t)可以具体为:针对待处理图像的初始图像特征u(0)与初始图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000214
的卷积的批规范化处理结果,与上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000215
与上一网络深度的图像特征的卷积的批规范化处理结果之和,进行Sigmoid处理或线性处理等。本申请中的当前网络深度的门控制函数G(t)可以表示为上述公式(2)的形式,在此不再详细说明。
需要特别说明的是,在本申请的神经网络为递归神经网络的情况下,上述公式(2)中的上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000216
通常是共享卷积参数;在本申请的神经网络为非递归神经网络的情况下,上述公式(2)中的上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA0001469762760000217
通常不是共享卷积参数,此时,上述公式(2)中的
Figure BDA0001469762760000218
可以表示为
Figure BDA0001469762760000219
当然,在本申请的神经网络为非递归神经网络的情况下,上述公式(2)中的上一网络深度的图像特征对门控制函数影响的卷积参数
Figure BDA00014697627600002110
也可以是共享卷积参数。
在一个可选示例中,本申请的至少根据门控制处理后的图像特征,形成当前网络深度的图像特征的实现方式可以具体为:根据待处理图像的初始图像特征u(0)与第0网络深度对形成图像特征影响的卷积参数wf的卷积以及控制处理后的图像特征,形成当前网络深度的图像特征。更具体而言,本申请可以利用网络结构单元中的激活层的激活函数对待处理图像的初始图像特征u(0)与第0网络深度对形成图像特征影响的卷积参数wf的卷积的批规范化处理结果,与控制处理后的图像特征之和,进行处理,从而形成当前网络深度的图像特征。本申请中的形成当前网络深度的图像特征可以表示为上述述公式(3)的形式,在此不再详细说明。
需要特别说明的是,在本申请的神经网络为递归神经网络的情况下,上述公式(3)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr通常是共享卷积参数;而在本申请的神经网络为非递归神经网络的情况下,上述公式(3)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr通常不是共享卷积参数,此时,上述公式(3)中的wr可以表示为
Figure BDA0001469762760000221
当然,在本申请的神经网络为非递归神经网络的情况下,上述公式(3)中的上一网络深度对当前网络深度形成图像特征影响的卷积参数wr也可以是共享卷积参数。
在网络结构单元中的激活层的激活函数采用ReLU激活函数的情况下,本申请中的形成当前网络深度的图像特征可以上述公式(4)的形式,在此不再详细说明。上述公式(4)可以被认为是对本申请的网络结构单元的定义,也可以被认为是描述了本申请的网络结构单元所执行的操作。
在一个可选示例中,本申请的神经网络输出的图像特征可以被使用在多种应用中,例如,本申请可以根据神经网络输出的图像特征进行以下至少之一处理:文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测等,从而实现相应应用。
一个更为具体的例子,在本申请的卷积处理方法被使用在文字识别应用中的情况下,本申请的卷积处理方法还可以可选的包括下述步骤:将神经网络输出待处理图像的图像特征分割为多个序列,例如,按照从左到右的方向,将神经网络输出的图像特征分割为多个序列;并将每一个序列按照先后顺序输入递归神经网络(如基于上述公式进行序列建模所形成的递归神经网络)中,由该递归神经网络输出文字识别结果。另外,该文字识别结果可以进行转换处理后,从而形成其他形式的文字识别结果,如语音形式的文字识别结果等。
图4为本申请卷积处理装置一个实施例的结构示意图。如图4所示,该实施例的卷积处理装置主要包括:神经网络400以及输入模块410。其中的神经网络400包括位于不同网络深度的网络结构单元。其中的输入模块410主要用于将待处理图像(如图2中包含有“ESTATE”的待处理图像)提供给神经网络400,待处理图像在经过神经网络400中的位于不同网络深度的网络结构单元的依次处理后,形成待处理图像的图像特征,并输出。也就是说,神经网络400中的至少一网络深度的网络结构单元所执行的处理可以包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据门控制处理后的卷积结果,形成当前网络深度的图像特征。神经网络400中的至少一网络深度的网络结构单元所执行的处理的具体内容可以参见上述针对神经网络以及卷积处理方法的描述,在此不再重复说明。
示例性设备
图5示出了适于实现本申请的示例性设备500,设备500可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图5中,设备500包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)501,和/或,一个或者多个图像描述模型的训练器(GPU)513等,处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器502和/或随机访问存储器530中通信以执行可执行指令,通过总线504与通信部512相连、并经通信部512与其他目标设备通信,从而完成本申请中的卷积处理方法中的相应步骤。上述各指令在执行后所实现的步骤,可以参见上述卷积处理方法实施例中的相关描述,在此不再详细说明。
此外,在RAM 503中,还可以存储有装置操作所需的各种程序以及数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下,ROM502为可选模块。RAM503存储可执行指令,或在运行时向ROM502中写入可执行指令,可执行指令使中央处理单元501执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装在存储部分508中。
需要特别说明的是,如图5所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU和CPU可分离设置,再如理,可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本申请实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本申请提供的卷积处理方法中的各步骤对应的指令,从而实现卷积处理方法中的各步骤。
在这样的实施方式中,该计算机程序可以通过通信部分509从网络上被下载及安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请中记载的上述指令。
可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施方式是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施方式。

Claims (22)

1.一种卷积处理方法,其特征在于,所述方法包括:
将待处理图像提供给神经网络;
所述待处理图像在经过所述神经网络中的位于不同网络深度的网络结构单元的依次处理后,形成所述待处理图像的图像特征,并输出;
其中,至少一网络深度的网络结构单元所执行的处理包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征;
所述至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:
根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征。
2.根据权利要求1所述的方法,其特征在于,所述网络深度包括:基于时序而形成的网络深度;
所述至少一网络深度的网络结构单元所执行的处理包括:
对由上一时刻网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前时刻网络深度的图像特征。
3.根据权利要求1或2所述的方法,其特征在于,所述对卷积处理后的卷积结果进行门控制处理包括:
根据门控制函数对所述卷积处理后的卷积结果进行门控制处理;
其中,所述门控制函数包括:Sigmoid函数或线性函数。
4.根据权利要求3所述的方法,其特征在于,所述根据门控制函数对所述卷积处理后的卷积结果进行门控制处理包括:
利用Sigmoid函数或线性函数形成门控制矩阵;
根据所述门控制矩阵与所述卷积处理后的卷积结果的运算结果,获得门控制处理的结果。
5.根据权利要求3所述的方法,其特征在于,所述对卷积处理后的卷积结果进行门控制处理包括:
将上一网络深度的网络结构单元形成的图像特征与上一网络深度对当前网络深度的网络结构单元形成图像特征影响的卷积参数的卷积的批规范化处理结果,与当前网络深度的门控制函数进行点积操作,并对点积操作后的结果进行批规范化处理。
6.根据权利要求5所述的方法,其特征在于,所述当前网络深度的门控制函数包括:
针对待处理图像的初始图像特征与初始图像特征对门控制函数影响的卷积参数的卷积的批规范化处理结果,与上一网络深度的图像特征对门控制函数影响的卷积参数与上一网络深度的图像特征的卷积的批规范化处理结果之和,进行Sigmoid处理或线性处理。
7.根据权利要求1所述的方法,其特征在于,所述根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:
利用网络结构单元中的激活层的激活函数对待处理图像的初始图像特征与第0网络深度对形成图像特征影响的卷积参数的卷积的批规范化处理结果,与所述门控制处理后的卷积结果之和,进行处理,形成当前网络深度的图像特征。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
根据神经网络输出的图像特征进行以下至少之一处理:
文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测。
9.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
将神经网络输出的图像特征分割为多个图像特征序列;
将所述多个图像特征序列依次输入至用于文字识别的神经网络中,经由所述用于文字识别的神经网络输出文字识别结果信息。
10.根据权利要求9所述的方法,其特征在于,所述用于文字识别的神经网络包括:长短期记忆网络LSTM。
11.一种卷积处理装置,其特征在于,所述装置包括:
神经网络,包括位于不同网络深度的网络结构单元;
输入模块,用于将待处理图像提供给神经网络,所述待处理图像在经过所述神经网络中的位于不同网络深度的网络结构单元的依次处理后,形成所述待处理图像的图像特征,并输出;
其中,至少一网络深度的网络结构单元所执行的处理包括:对由上一网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征;
所述至少一网络深度的网络结构单元所执行的至少根据所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:
根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征。
12.根据权利要求11所述的装置,其特征在于,所述网络深度包括:基于时序而形成的网络深度;
至少一网络深度的网络结构单元具体用于,对由上一时刻网络深度的网络结构单元形成的图像特征进行卷积处理,并对卷积处理后的卷积结果进行门控制处理,至少根据所述门控制处理后的卷积结果,形成当前时刻网络深度的图像特征。
13.根据权利要求11所述的装置,其特征在于,所述至少一网络深度的网络结构单元所执行的对卷积处理后的卷积结果进行门控制处理包括:
根据门控制函数对所述卷积处理后的卷积结果进行门控制处理;
其中,所述门控制函数包括:Sigmoid函数或线性函数。
14.根据权利要求13所述的装置,其特征在于,所述至少一网络深度的网络结构单元所执行的根据门控制函数对所述卷积处理后的卷积结果进行门控制处理包括:
利用Sigmoid函数或线性函数形成门控制矩阵;
根据所述门控制矩阵与所述卷积处理后的卷积结果的运算结果,获得门控制处理的结果。
15.根据权利要求13所述的装置,其特征在于,所述至少一网络深度的网络结构单元所执行的对卷积处理后的卷积结果进行门控制处理包括:
将上一网络深度的网络结构单元形成的图像特征与上一网络深度对当前网络深度的网络结构单元形成图像特征影响的卷积参数的卷积的批规范化处理结果,与当前网络深度的门控制函数进行点积操作,并对点积操作后的结果进行批规范化处理。
16.根据权利要求15所述的装置,其特征在于,所述当前网络深度的门控制函数包括:
针对待处理图像的初始图像特征与初始图像特征对门控制函数影响的卷积参数的卷积的批规范化处理结果,与上一网络深度的图像特征对门控制函数影响的卷积参数与上一网络深度的图像特征的卷积的批规范化处理结果之和,进行Sigmoid处理或线性处理。
17.根据权利要求11所述的装置,其特征在于,所述根据待处理图像的初始图像特征与第0网络深度的网络结构单元对形成图像特征影响的卷积参数的卷积以及所述门控制处理后的卷积结果,形成当前网络深度的图像特征包括:
利用网络结构单元中的激活层的激活函数对待处理图像的初始图像特征与第0网络深度对形成图像特征影响的卷积参数的卷积的批规范化处理结果,与所述门控制处理后的卷积结果之和,进行处理,形成当前网络深度的图像特征。
18.根据权利要求11至17中任一项所述的装置,其特征在于,所述装置还包括:
处理模块,用于根据神经网络输出的图像特征进行以下至少之一处理:
文字识别、行人检索、人脸识别、人脸位置检测、人脸关键点检测、人体位置检测、人体动作识别、人体关键点检测、手势识别、手位置检测、行人识别、车辆识别、场景识别以及活体检测。
19.根据权利要求18所述的装置,其特征在于,所述处理模块具体用于:将神经网络输出的图像特征分割为多个图像特征序列;将所述多个图像特征序列依次输入至用于文字识别的神经网络中,经由所述用于文字识别的神经网络输出文字识别结果信息。
20.根据权利要求19所述的装置,其特征在于,所述用于文字识别的神经网络包括:长短期记忆网络LSTM。
21.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-10中任一项所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述权利要求1-10中任一项所述的方法。
CN201711132000.7A 2017-11-15 2017-11-15 卷积处理方法、装置及电子设备 Active CN108229650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711132000.7A CN108229650B (zh) 2017-11-15 2017-11-15 卷积处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711132000.7A CN108229650B (zh) 2017-11-15 2017-11-15 卷积处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108229650A CN108229650A (zh) 2018-06-29
CN108229650B true CN108229650B (zh) 2021-04-09

Family

ID=62655051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711132000.7A Active CN108229650B (zh) 2017-11-15 2017-11-15 卷积处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108229650B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829520B (zh) * 2019-01-31 2021-12-21 北京字节跳动网络技术有限公司 图像处理方法和装置
CN111275054B (zh) * 2020-01-16 2023-10-31 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111523402B (zh) * 2020-04-01 2023-12-12 车智互联(北京)科技有限公司 一种视频处理方法、移动终端及可读存储介质
CN111832517A (zh) * 2020-07-22 2020-10-27 福建帝视信息科技有限公司 基于门控卷积的低清人脸关键点检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014105865A1 (en) * 2012-12-24 2014-07-03 Google Inc. System and method for parallelizing convolutional neural networks
KR20160061856A (ko) * 2014-11-24 2016-06-01 삼성전자주식회사 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN106203376A (zh) * 2016-07-19 2016-12-07 北京旷视科技有限公司 人脸关键点定位方法及装置
CN106407971A (zh) * 2016-09-14 2017-02-15 北京小米移动软件有限公司 文字识别方法及装置
CN106557778A (zh) * 2016-06-17 2017-04-05 北京市商汤科技开发有限公司 通用物体检测方法和装置、数据处理装置和终端设备
CN106934397A (zh) * 2017-03-13 2017-07-07 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014105865A1 (en) * 2012-12-24 2014-07-03 Google Inc. System and method for parallelizing convolutional neural networks
KR20160061856A (ko) * 2014-11-24 2016-06-01 삼성전자주식회사 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN106557778A (zh) * 2016-06-17 2017-04-05 北京市商汤科技开发有限公司 通用物体检测方法和装置、数据处理装置和终端设备
CN106203376A (zh) * 2016-07-19 2016-12-07 北京旷视科技有限公司 人脸关键点定位方法及装置
CN106407971A (zh) * 2016-09-14 2017-02-15 北京小米移动软件有限公司 文字识别方法及装置
CN106934397A (zh) * 2017-03-13 2017-07-07 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition;Baoguang Shi et al.;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20161229;全文 *
FACE ATTRIBUTE CLASSIFICATION USING ATTRIBUTE-AWARE CORRELATION MAP AND GATED CONVOLUTIONAL NEURAL NETWORKS;Sunghun Kang et al.;《2015 IEEE International Conference on Image Processing (ICIP)》;20151210;全文 *

Also Published As

Publication number Publication date
CN108229650A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
US11301719B2 (en) Semantic segmentation model training methods and apparatuses, electronic devices, and storage media
US12067733B2 (en) Video target tracking method and apparatus, computer device, and storage medium
US11521095B2 (en) Methods and systems for CNN network adaption and object online tracking
US11501415B2 (en) Method and system for high-resolution image inpainting
US11704817B2 (en) Method, apparatus, terminal, and storage medium for training model
CN109035319B (zh) 单目图像深度估计方法及装置、设备、程序及存储介质
US9971958B2 (en) Method and system for generating multimodal digital images
CN108229650B (zh) 卷积处理方法、装置及电子设备
CN109190720B (zh) 智能体强化学习方法、装置、设备及介质
TWI721510B (zh) 雙目圖像的深度估計方法、設備及儲存介質
CN109784153B (zh) 情绪识别方法、装置、计算机设备及存储介质
US20190130217A1 (en) Trainable vision scaler
US20230237841A1 (en) Occlusion Detection
JP2020519995A (ja) 3d時空畳み込みニューラルネットワークを使用した映像におけるアクション認識
CN108230346B (zh) 用于分割图像语义特征的方法和装置、电子设备
US10776662B2 (en) Weakly-supervised spatial context networks to recognize features within an image
KR102570562B1 (ko) 영상 처리 장치 및 그 동작방법
CN109643383A (zh) 域分离神经网络
US20220012612A1 (en) System, method, and program for predicting information
US11921822B2 (en) Image processing device for improving details of an image, and operation method of the same
US10817991B2 (en) Methods for deep-learning based super-resolution using high-frequency loss
KR20200102409A (ko) 키 프레임 스케줄링 방법 및 장치, 전자 기기, 프로그램과 매체
CN110532891B (zh) 目标对象状态识别方法、装置、介质和设备
US20230360359A1 (en) Image processing apparatus and operation method thereof
CN109543556B (zh) 动作识别方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant