CN110516678A - 图像处理方法和装置 - Google Patents
图像处理方法和装置 Download PDFInfo
- Publication number
- CN110516678A CN110516678A CN201910796565.8A CN201910796565A CN110516678A CN 110516678 A CN110516678 A CN 110516678A CN 201910796565 A CN201910796565 A CN 201910796565A CN 110516678 A CN110516678 A CN 110516678A
- Authority
- CN
- China
- Prior art keywords
- feature
- local
- target
- characteristic pattern
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 4
- 241000406668 Loxodonta cyclotis Species 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Abstract
本申请实施例公开了图像处理方法和装置。该方法的一具体实施方式包括:获取目标图像的特征图,其中,该目标图像包含目标对象;在该特征图中,确定目标尺寸的局部特征图;将该局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;基于该局部纹理特征图,得到该目标对象的位置信息。本申请实施例能够通过组合不同通道之间的特征,让各个通道的特征得以融合,使组合后的特征更加丰富,更能够反映出图像的特点。从而,利用组合后的特征可以得到更加准确的位置检测结果。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及图像处理方法和装置。
背景技术
随着图像处理技术的发展,产生了各种各样可以用于图像语义解析的技术。在相关技术中,可以利用图像检测技术、图像识别技术等等对图像进行处理。
举例来说,可以利用检测图像的模型,实现对图像中不同语义的区域的分割,比如,该模型可以是卷积神经网络。
发明内容
本申请实施例提出了图像处理方法和装置。
第一方面,本申请实施例提供了一种图像处理方法,包括:获取目标图像的特征图,其中,目标图像包含目标对象;在特征图中,确定目标尺寸的局部特征图;将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;基于局部纹理特征图,得到目标对象的位置信息。
在一些实施例中,将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图,包括:在局部特征图中的每个像素点,对于每个通道的特征,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘;确定该像素点对应的各个乘积的和;生成由各个像素点对应的和组成的局部纹理特征图。
在一些实施例中,基于局部纹理特征图,得到目标对象的位置,包括:通过预先训练的深度神经网络处理局部纹理特征图,得到目标对象在目标图像中所在的像素点组成的区域的位置信息,其中,深度神经网络用于表征目标图像与其包含的目标对象所在的像素点组成的区域的位置信息之间的对应关系。
在一些实施例中,深度神经网络包括组合处理层;以及在特征图中,确定目标尺寸的局部特征图,包括:利用组合处理层,在特征图中,确定目标尺寸的局部特征图;以及将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图,包括:利用组合处理层,将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图。
在一些实施例中,获取目标图像的特征图,包括:将目标图像输入预先训练的深度神经网络,将深度神经网络的目标卷积层的输出作为特征图。
第二方面,本申请实施例提供了一种图像处理装置,包括:获取单元,被配置成获取目标图像的特征图,其中,目标图像包含目标对象;确定单元,被配置成在特征图中,确定目标尺寸的局部特征图;组合单元,被配置成将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;位置确定单元,被配置成基于局部纹理特征图,得到目标对象的位置信息。
在一些实施例中,组合单元,包括:第一模块,被配置成在局部特征图中的每个像素点,对于每个通道的特征,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘;确定该像素点对应的各个乘积的和;第二模块,被配置成生成由各个像素点对应的和组成的局部纹理特征图。
在一些实施例中,位置确定单元,进一步被配置成:通过预先训练的深度神经网络处理局部纹理特征图,得到目标对象在目标图像中所在的像素点组成的区域的位置信息,其中,深度神经网络用于表征目标图像与其包含的目标对象所在的像素点组成的区域的位置信息之间的对应关系。
在一些实施例中,深度神经网络包括组合处理层;以及确定单元,进一步被配置成:利用组合处理层,在特征图中,确定目标尺寸的局部特征图;以及组合单元,进一步被配置成:利用组合处理层,将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图。
在一些实施例中,获取单元,进一步被配置成:将目标图像输入预先训练的深度神经网络,将深度神经网络的目标卷积层的输出作为特征图。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如图像处理方法中任一实施例的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图像处理方法中任一实施例的方法。
本申请实施例提供的图像处理方案,首先,获取目标图像的特征图,其中,目标图像包含目标对象。之后,在特征图中,确定目标尺寸的局部特征图。然后,将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图。最后,基于局部纹理特征图,得到目标对象的位置信息。本申请实施例能够通过组合不同通道之间的特征,让各个通道的特征得以融合,使组合后的特征更加丰富,更能够反映出图像的特点。从而,利用组合后的特征可以得到更加准确的位置检测结果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的图像处理方法的一个实施例的流程图;
图3是根据本申请的图像处理方法的一个应用场景的示意图;
图4是根据本申请的图像处理方法的又一个实施例的流程图;
图5是根据本申请的图像处理装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的图像处理方法或图像处理装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图像处理应用、视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。
这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的图像或图像的特征图等数据进行分析等处理,并将处理结果(例如图像中目标对象的位置)反馈给终端设备。
需要说明的是,本申请实施例所提供的图像处理方法可以由服务器105或者终端设备101、102、103执行,相应地,图像处理装置可以设置于服务器105或者终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的图像处理方法的一个实施例的流程200。该图像处理方法,包括以下步骤:
步骤201,获取目标图像的特征图,其中,目标图像包含目标对象。
在本实施例中,图像处理方法的执行主体(例如图1所示的服务器或终端设备)可以获取目标图像的特征图。具体地,上述执行主体可以采用多种方式获取特征图。举例来说,上述执行主体可以获取目标图像,并将目标图像输入用于检测对象的深度神经网络,比如deeplab或金字塔场景分析网络(Pyramid Scene Parsing Network,PSPnet),得到该深度神经网络的卷积层输出的特征图。此外,上述执行主体还可以从本地或者其他电子设备获取现有的上述特征图。上述目标对象可以是设定的任意对象,比如可以是人体或人脸,也可以是目标图像中的每个目标。
在实践中,上述执行主体或者其他电子设备可以根据目标图像包括的每个像素点的颜色值,生成包括三个通道(分别为R通道、G通道、B通道)的特征图,每个通道对应于一个特征矩阵,其中的元素为相应颜色的颜色值。
在本实施例的一些可选的实现方式中,步骤201可以包括:
将目标图像输入预先训练的深度神经网络,将深度神经网络的目标卷积层的输出作为特征图。
在这些可选的实现方式中,这里的深度神经网络中的卷积层可以包括一个或多个。上述执行主体可以将这些卷积层中的任意一个卷积层作为目标卷积层,并将该目标卷积层输出的特征图作为目标图像的特征图。
这些实现方式可以让组合各通道特征的技术方案灵活地应用于任选的目标卷积层之后,而不拘泥于固定的某个卷积层,从而让上述技术方案得以应用得更加广泛。
步骤202,在特征图中,确定目标尺寸的局部特征图。
在本实施例中,上述执行主体可以在上述特征图中,确定目标尺寸的局部特征图。上述执行主体可以采用多种方式确定局部特征图。比如,上述执行主体可以采用滑动窗口的方式,将窗口设定为上述目标尺寸,利用该窗口在特征图中滑动。每滑动到特征图的一处,将窗口所框定的区域作为一个局部特征图。此外,上述执行主体还可以利用划分的方式,将特征图划分为多个目标尺寸的局部特征图。这里的目标尺寸可以通过长和宽来表示,比如,长和宽分别对应多少个像素点,或者长和宽分别对应的长度数值。
步骤203,将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图。
在本实施例中,上述执行主体可以将局部特征图中,不同通道的特征组合成局部纹理特征图。在实践中,上述执行主体可以采用多种方式进行组合。比如,上述执行主体可以对于局部特征图中的每个通道的特征,将各个通道的特征与该通道的特征相加,得到该通道的组合特征。这样,上述执行主体可以得到该局部特征图的每个通道的组合特征,并将每个通道的组合特征相拼接,得到局部纹理特征图。
步骤204,基于局部纹理特征图,得到目标对象的位置信息。
在本实施例中,上述执行主体可以基于所得到的局部纹理特征图,确定出目标对象所在的位置。在实践中,上述执行主体可以直接利用各个局部纹理特征图得到目标对象的位置。例如,上述执行主体可以将特征图中的各个局部特征图对应的局部纹理特征图分别输入深度神经网络的某个特征处理层,以进行后续处理。比如,特征处理层可以是卷积层或者全连接层。最终,得到深度神经网络输出的目标对象的位置。
在本实施例的一些可选的实现方式中,步骤204可以包括:对于特征图的各个局部特征图,对各个局部特征图对应的局部纹理特征图进行组合,得到组合特征图;将组合特征图输入预先训练的深度神经网络中的全连接层或者卷积层,得到目标对象的位置。
在这些可选的实现方式中,上述执行主体可以将各个局部特征图对应的局部纹理特征图进行拼接,得到与特征图的整体相对应的组合特征图。之后,上述执行主体将该组合特征图输入深度神经网络的某个特征处理层,得到深度神经网络输出的目标对象的位置。具体地,上述执行主体可以按照各个局部特征图之间的位置关系,对各个局部特征图对应的局部纹理特征图进行组合。组合特征图中像素点的数量与对目标图像获取的特征图的像素点的数量一致。
这些实现方式可以通过对各个局部特征图对应的局部纹理特征图进行拼接,得到对应目标图像整体的组合特征图,从而能够更好地获取到各个局部特征图之间的关联特征。
继续参见图3,图3是根据本实施例的图像处理方法的应用场景的一个示意图。在图3的应用场景中,执行主体301可以获取目标图像的特征图302,其中,目标图像包含目标对象即人脸。在特征图302中,确定目标尺寸的局部特征图303。将局部特征图303中,不同通道的特征进行组合,得到局部纹理特征图304。基于局部纹理特征图304,得到上述人脸的位置信息305。
本申请的上述实施例提供的方法能够通过组合不同通道之间的特征,让各个通道的特征得以融合,使组合后的特征更加丰富,更能够反映出图像的特点。从而,利用组合后的特征可以得到更加准确的检测结果。
进一步参考图4,其示出了图像处理方法的又一个实施例的流程400。该图像处理方法的流程400,包括以下步骤:
步骤401,获取目标图像的特征图,其中,目标图像包含目标对象。
在本实施例中,图像处理方法的执行主体(例如图1所示的服务器或终端设备)可以获取目标图像的特征图。具体地,上述执行主体可以采用多种方式获取特征图。
步骤402,在特征图中,确定目标尺寸的局部特征图。
在本实施例中,上述执行主体可以在上述特征图中,确定至少两个目标尺寸的局部特征图。上述执行主体可以采用多种方式确定局部特征图。比如,上述执行主体可以采用滑动窗口的方式,将窗口设定为上述目标尺寸,利用该窗口在特征图中滑动。每滑动到特征图的一处,将窗口所框定的区域作为一个局部特征图。此外,上述执行主体还可以利用划分的方式,将特征图划分为多个局部特征图。
步骤403,在局部特征图中的每个像素点,对于每个通道的特征,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘;确定该像素点对应的各个乘积的和。
在本实施例中,上述执行主体可以对于局部特征图中的每个像素点的每个通道的特征,将该通道的特征与该像素点的各个通道的特征相乘,从而得到该通道的组合特征。在这里,该通道的特征可以包含于上述的各个通道的特征。或者,上述执行主体可以将该通道的特征与该像素点的各个其他通道的特征相乘,以得到该通道的组合特征。
举例来说,上述执行主体可以利用深度神经网络的第l层得到特征图Fl,Fl的通道数为Nl。上述执行主体在特征图Fl中,确定出窗口大小为(h,w)的局部特征图fl,其高为h,宽为w。局部特征图fl可以表示为Nl×h×w。
上述局部特征图可以表示为Nl个尺寸是h×w的特征,比如,可以是3个通道分别对应的3个尺寸是h×w的特征。上述执行主体可以对于局部特征图中每个通道对应的特征,在每个像素点,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘。
上述执行主体可以对于局部特征图的每个像素点,对在该像素点得到的所有乘积求和,所得到的和可以记为比如,每个像素点的3个通道一共对应9个乘积,可以对这9个乘积求和。
对局部特征图计算上述乘积以及求和过程所采用的局部纹理算子可以表示为其中,fc l和fc' l分别为fl中第c通道的特征和第c’通道的特征。
步骤404,生成由各个像素点对应的和组成的局部纹理特征图。
在本实施例中,上述执行主体可以生成由各个和组成的局部纹理特征图,其为尺寸是Nl×Nl的矩阵,局部纹理特征图的每个元素皆为得到的其中一个和。这样,局部特征图fl的尺寸被转换为Nl×Nl。
在实践中,可以针对目标图像的特征图Nl×H×W中的每个像素点,确定该像素点和周边像素点组成的局部特征图h×w。并利用该局部特征图的局部特征信息,通过上述局部纹理算子,将Nl×1的特征变换为的局部纹理特征。对目标图像的特征图的每个像素点,做相同的局部纹理特征计算,从而将输入的特征图Nl×H×W,变换为
本实施例可以对各个像素点的不同通道的特征相乘,从而使不同通道之间的特征能够更好的融合,这样,所得到的局部纹理特征图的特征信息更丰富,更好地反映出图像各个像素点的特点。
步骤405,基于局部纹理特征图,得到目标对象的位置信息。
在本实施例中,上述执行主体可以基于所得到的局部纹理特征图,得到目标对象的位置。在实践中,上述执行主体可以直接利用各个局部纹理特征图得到目标对象的位置。例如,上述执行主体可以将特征图中的各个局部特征图对应的局部纹理特征图分别输入深度神经网络的某个特征处理层,从而进行后续处理。
在本实施例的一些可选的实现方式中,步骤405可以包括:通过预先训练的深度神经网络处理局部纹理特征图,得到目标对象所在的像素点组成的区域的位置信息,其中,深度神经网络用于表征目标图像与其包含的目标对象所在的像素点组成的区域的位置信息之间的对应关系。
在这些可选的实现方式中,上述执行主体可以利用像素级分割的深度神经网络处理局部纹理特征图,实现对目标图像进行逐像素分割。深度神经网络可以表征目标图像与目标图像包含的目标对象的位置信息之间的对应关系。利用深度神经网络预测得到的位置信息精确到像素点。
这些实现方式可以利用对各个像素点的不同通道进行特征融合所得到局部纹理特征图,增强现有语义分割网络对像素纹理的表达能力,从而提升深度神经网络对各像素的检测准确度。
在上述任一实现方式的一些可选的应用场景中,深度神经网络包括组合处理层;以及步骤402,可以包括:利用组合处理层,执行步骤402;以及步骤403,可以包括:利用组合处理层,步骤403。
在这些可选的应用场景中,深度神经网络中可以存在一个独立的层:组合处理层。上述执行主体可以利用上述组合处理层执行步骤402以及步骤403。该组合处理层可以包括用于实现步骤402和步骤403的算子。
这些应用场景可以将组合处理层嵌入深度神经网络的架构中,以实现各个通道之间的特征融合。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种图像处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的图像处理装置500包括:获取单元501、确定单元502、组合单元503和位置确定单元504。其中,获取单元501,被配置成获取目标图像的特征图,其中,目标图像包含目标对象;确定单元502,被配置成在特征图中,确定目标尺寸的局部特征图;组合单元503,被配置成将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;位置确定单元504,被配置成基于局部纹理特征图,得到目标对象的位置信息。
在一些实施例中,图像处理装置500的获取单元501可以获取目标图像的特征图。具体地,上述执行主体可以采用多种方式获取特征图。举例来说,上述执行主体可以获取目标图像,并将目标图像输入用于检测对象的深度神经网络。
在一些实施例中,确定单元502在上述特征图中,确定目标尺寸的局部特征图。上述执行主体可以采用多种方式确定局部特征图。比如,上述执行主体可以采用滑动窗口的方式,将窗口设定为上述目标尺寸,利用该窗口在特征图中滑动。每滑动到特征图的一处,将窗口所框定的区域作为一个局部特征图。
在一些实施例中,组合单元503将局部特征图中,不同通道的特征组合成局部纹理特征图。在实践中,上述执行主体可以采用多种方式进行组合。
在一些实施例中,位置确定单元504可以基于所得到的局部纹理特征图,确定出目标对象所在的位置。在实践中,上述执行主体可以直接利用各个局部纹理特征图得到目标对象的位置。例如,上述执行主体可以将特征图中的各个局部特征图对应的局部纹理特征图分别输入深度神经网络的某个特征处理层,以进行后续处理。
在本实施例的一些可选的实现方式中,组合单元,包括:第一模块,被配置成在局部特征图中的每个像素点,对于每个通道的特征,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘;确定该像素点对应的各个乘积的和;第二模块,被配置成生成由各个像素点对应的和组成的局部纹理特征图。
在本实施例的一些可选的实现方式中,位置确定单元,进一步被配置成:通过预先训练的深度神经网络处理局部纹理特征图,得到目标对象在目标图像中所在的像素点组成的区域的位置信息,其中,深度神经网络用于表征目标图像与其包含的目标对象所在的像素点组成的区域的位置信息之间的对应关系。
在本实施例的一些可选的实现方式中,深度神经网络包括组合处理层;以及确定单元,进一步被配置成:利用组合处理层,在特征图中,确定目标尺寸的局部特征图;以及组合单元,进一步被配置成:利用组合处理层,将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图。
在本实施例的一些可选的实现方式中,获取单元,进一步被配置成:将目标图像输入预先训练的深度神经网络,将深度神经网络的目标卷积层的输出作为特征图。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、确定单元、组合单元和位置确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取目标图像的特征图的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取目标图像的特征图,其中,目标图像包含目标对象;在特征图中,确定目标尺寸的局部特征图;将局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;基于局部纹理特征图,得到目标对象的位置信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种图像处理方法,包括:
获取目标图像的特征图,其中,所述目标图像包含目标对象;
在所述特征图中,确定目标尺寸的局部特征图;
将所述局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;
基于所述局部纹理特征图,得到所述目标对象的位置信息。
2.根据权利要求1所述的方法,其中,所述将所述局部特征图中,不同通道的特征进行组合,得到局部纹理特征图,包括:
在所述局部特征图中的每个像素点,对于每个通道的特征,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘;确定该像素点对应的各个乘积的和;
生成由各个像素点对应的和组成的所述局部纹理特征图。
3.根据权利要求2所述的方法,其中,所述基于所述局部纹理特征图,得到所述目标对象的位置信息,包括:
通过预先训练的深度神经网络处理所述局部纹理特征图,得到所述目标对象在所述目标图像中所在的像素点组成的区域的位置信息,其中,所述深度神经网络用于表征目标图像与其包含的目标对象所在的像素点组成的区域的位置信息之间的对应关系。
4.根据权利要求3所述的方法,其中,所述深度神经网络包括组合处理层;以及
所述在所述特征图中,确定目标尺寸的局部特征图,包括:
利用所述组合处理层,在所述特征图中,确定目标尺寸的局部特征图;以及
所述将所述局部特征图中,不同通道的特征进行组合,得到局部纹理特征图,包括:
利用所述组合处理层,将所述局部特征图中,不同通道的特征进行组合,得到所述局部纹理特征图。
5.根据权利要求1所述的方法,其中,所述获取目标图像的特征图,包括:
将所述目标图像输入预先训练的深度神经网络,将所述深度神经网络的目标卷积层的输出作为所述特征图。
6.一种图像处理装置,包括:
获取单元,被配置成获取目标图像的特征图,其中,所述目标图像包含目标对象;
确定单元,被配置成在所述特征图中,确定目标尺寸的局部特征图;
组合单元,被配置成将所述局部特征图中,不同通道的特征进行组合,得到局部纹理特征图;
位置确定单元,被配置成基于所述局部纹理特征图,得到所述目标对象的位置信息。
7.根据权利要求6所述的装置,其中,所述组合单元,包括:
第一模块,被配置成在所述局部特征图中的每个像素点,对于每个通道的特征,将该通道的特征与各个通道的特征对应相乘,或将该通道的特征与各个其他通道的特征相乘;确定该像素点对应的各个乘积的和;
第二模块,被配置成生成由各个像素点对应的和组成的所述局部纹理特征图。
8.根据权利要求7所述的装置,其中,所述位置确定单元,进一步被配置成:
通过预先训练的深度神经网络处理所述局部纹理特征图,得到所述目标对象在所述目标图像中所在的像素点组成的区域的位置信息,其中,所述深度神经网络用于表征目标图像与其包含的目标对象所在的像素点组成的区域的位置信息之间的对应关系。
9.根据权利要求8所述的装置,其中,所述深度神经网络包括组合处理层;以及
所述确定单元,进一步被配置成:
利用所述组合处理层,在所述特征图中,确定目标尺寸的局部特征图;以及
所述组合单元,进一步被配置成:
利用所述组合处理层,将所述局部特征图中,不同通道的特征进行组合,得到所述局部纹理特征图。
10.根据权利要求6所述的装置,其中,所述获取单元,进一步被配置成:
将所述目标图像输入预先训练的深度神经网络,将所述深度神经网络的目标卷积层的输出作为所述特征图。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910796565.8A CN110516678B (zh) | 2019-08-27 | 2019-08-27 | 图像处理方法和装置 |
US16/869,024 US11514263B2 (en) | 2019-08-27 | 2020-05-07 | Method and apparatus for processing image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910796565.8A CN110516678B (zh) | 2019-08-27 | 2019-08-27 | 图像处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516678A true CN110516678A (zh) | 2019-11-29 |
CN110516678B CN110516678B (zh) | 2022-05-06 |
Family
ID=68627229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910796565.8A Active CN110516678B (zh) | 2019-08-27 | 2019-08-27 | 图像处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11514263B2 (zh) |
CN (1) | CN110516678B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084912A (zh) * | 2020-08-28 | 2020-12-15 | 安徽清新互联信息科技有限公司 | 一种基于自适应信息增强的人脸特征点定位方法及系统 |
CN113689373A (zh) * | 2021-10-21 | 2021-11-23 | 深圳市慧鲤科技有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
WO2021249520A1 (zh) * | 2020-06-12 | 2021-12-16 | 华为技术有限公司 | 图像处理方法、装置及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092591B (zh) * | 2022-01-20 | 2022-04-12 | 中国科学院自动化研究所 | 图像生成方法、装置、电子设备及存储介质 |
WO2024015639A1 (en) * | 2022-07-15 | 2024-01-18 | Bytedance Inc. | Neural network-based image and video compression method with parallel processing |
CN116503863B (zh) * | 2023-06-26 | 2023-09-15 | 尚特杰电力科技有限公司 | 光伏板编号方法、存储介质、控制器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN107577758A (zh) * | 2017-08-31 | 2018-01-12 | 桂林电子科技大学 | 一种基于多区域交叉权值的图像卷积特征的生成方法 |
CN109086768A (zh) * | 2018-07-13 | 2018-12-25 | 南京邮电大学 | 卷积神经网络的语义图像分割方法 |
CN110110617A (zh) * | 2019-04-22 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 医学影像分割方法、装置、电子设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779492B1 (en) * | 2016-03-15 | 2017-10-03 | International Business Machines Corporation | Retinal image quality assessment, error identification and automatic quality correction |
CN108205813B (zh) * | 2016-12-16 | 2022-06-03 | 微软技术许可有限责任公司 | 基于学习网络的图像风格化 |
US10783394B2 (en) * | 2017-06-20 | 2020-09-22 | Nvidia Corporation | Equivariant landmark transformation for landmark localization |
US10885608B2 (en) * | 2018-06-06 | 2021-01-05 | Adobe Inc. | Super-resolution with reference images |
-
2019
- 2019-08-27 CN CN201910796565.8A patent/CN110516678B/zh active Active
-
2020
- 2020-05-07 US US16/869,024 patent/US11514263B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN107577758A (zh) * | 2017-08-31 | 2018-01-12 | 桂林电子科技大学 | 一种基于多区域交叉权值的图像卷积特征的生成方法 |
CN109086768A (zh) * | 2018-07-13 | 2018-12-25 | 南京邮电大学 | 卷积神经网络的语义图像分割方法 |
CN110110617A (zh) * | 2019-04-22 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 医学影像分割方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
LONG CHEN ET.AL: "SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
侯建华 等: "基于深度特征和相关滤波器的视觉目标跟踪", 《中南民族大学学报( 自然科学版)》 * |
刘烨 等: "基于混合神经网络和注意力机制的软件缺陷自动分派方法", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021249520A1 (zh) * | 2020-06-12 | 2021-12-16 | 华为技术有限公司 | 图像处理方法、装置及存储介质 |
CN112084912A (zh) * | 2020-08-28 | 2020-12-15 | 安徽清新互联信息科技有限公司 | 一种基于自适应信息增强的人脸特征点定位方法及系统 |
CN113689373A (zh) * | 2021-10-21 | 2021-11-23 | 深圳市慧鲤科技有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN113689373B (zh) * | 2021-10-21 | 2022-02-11 | 深圳市慧鲤科技有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110516678B (zh) | 2022-05-06 |
US11514263B2 (en) | 2022-11-29 |
US20210064919A1 (en) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516678A (zh) | 图像处理方法和装置 | |
CN109308681A (zh) | 图像处理方法和装置 | |
CN108492364A (zh) | 用于生成图像生成模型的方法和装置 | |
CN108898185A (zh) | 用于生成图像识别模型的方法和装置 | |
CN109410253B (zh) | 用于生成信息的方法、装置、电子设备和计算机可读介质 | |
CN109995877A (zh) | 信息推送方法和装置 | |
CN109166170A (zh) | 用于渲染增强现实场景的方法和装置 | |
CN109255337A (zh) | 人脸关键点检测方法和装置 | |
CN109389640A (zh) | 图像处理方法和装置 | |
CN109389072A (zh) | 数据处理方法和装置 | |
CN109242801A (zh) | 图像处理方法和装置 | |
CN108280413A (zh) | 人脸识别方法和装置 | |
CN110032978A (zh) | 用于处理视频的方法和装置 | |
CN109255767A (zh) | 图像处理方法和装置 | |
CN110472558B (zh) | 图像处理方法和装置 | |
CN110502665A (zh) | 视频处理方法和装置 | |
CN109272050B (zh) | 图像处理方法和装置 | |
CN110377440A (zh) | 信息处理方法和装置 | |
CN109754464A (zh) | 用于生成信息的方法和装置 | |
CN109117758A (zh) | 用于生成信息的方法和装置 | |
CN109871890A (zh) | 图像处理方法和装置 | |
CN109242892B (zh) | 用于确定图像间的几何变换关系的方法和装置 | |
CN109840109A (zh) | 用于生成软件开发工具包的方法和装置 | |
CN109816670A (zh) | 用于生成图像分割模型的方法和装置 | |
CN109871465A (zh) | 一种时间轴计算方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |