CN113096001A - 图像处理方法、电子设备及可读存储介质 - Google Patents
图像处理方法、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113096001A CN113096001A CN202110354178.6A CN202110354178A CN113096001A CN 113096001 A CN113096001 A CN 113096001A CN 202110354178 A CN202110354178 A CN 202110354178A CN 113096001 A CN113096001 A CN 113096001A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- decoder
- neural network
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000003062 neural network model Methods 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 15
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供一种图像处理方法、电子设备及可读存储介质,如何通过神经网络输出多种类型的图像特征的问题。本发明的方法包括:获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,其中,所述编码器的输出层为每个所述解码器的输入层。本发明的神经网络模型中的编码器的输出层为每个所述解码器的输入层,从而通过一个该神经网络模型便可以得到第一图像的多种类型的特征信息,进而便于用户基于多种类型的特征信息进行各种特效处理。
Description
技术领域
本发明实施例涉及图像处理技术领域,尤其是涉及一种图像处理方法、电子设备及可读存储介质。
背景技术
相关技术中,需要对视频做特效处理,例如更换背景,添加手部光彩特效等,这就需要将人物从原背景中抠出来,合成上新的背景,并识别人体轮廓,以便添加各种特效。在一些场景中,需要识别出图像的不同类型的特征,例如,输入一张人物舞蹈的图片,需要输出人物骨骼14点关键点坐标、轮廓63点关键点坐标、人物占据像素的掩膜(mask)、人物表情等多种类型的特征,但现有神经网络的输出无法满足用户的需求,进而不便于用户对图像进行各种特效处理。
发明内容
本发明实施例提供一种图像处理方法、电子设备及可读存储介质,以解决现有神经网络的输出无法满足用户的需求,进而不便于用户对图像进行各种特效处理的问题。
第一方面,本发明的实施例提供了一种图像处理方法,包括:
获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;
利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,其中,所述编码器的输出层为每个所述解码器的输入层。
可选地,所述获取第一图像的编码信息之前,还包括:
对所述神经网络模型中的编码器和解码器分别进行训练;
或者,对所述神经网络模型中的编码器和解码器同时进行训练。
可选地,所述至少两个解码器包括第一解码器和至少一个第二解码器;则
所述对所述神经网络模型中的编码器和解码器分别进行训练,包括:
根据第一训练数据,对所述编码器和第一解码器构成的第一U-net网络结构进行训练,获取训练后的编码器和第一解码器;
根据训练后的所述编码器中的权值和第二训练数据,对至少一个第二U-net网络结构进行训练,获取训练后的至少一个第二解码器,其中,每个所述第二U-net网络结构包括所述训练后的编码器和未经训练的第二解码器。
可选地,所述对所述神经网络模型中的编码器和解码器同时进行训练,包括:
对所述神经网络模型中的变量进行初始化处理后,利用第三训练数据,对所述编码器和所述至少两个解码器同时进行训练,其中,训练过程中所述至少两个解码器的损失权重相同。
可选地,所述获取第一图像的编码信息,包括:
根据第一图像的第一参数,利用轻量化卷积神经网络,获取第一图像的编码信息;
其中,所述第一参数包括第一图像的分辨率、色彩通道数和所述第一图像的数量,所述第一参数通过四维矩阵表示,所述第一图像的编码信息通过三维矩阵表示。
可选地,所述至少两种特征信息包括:人物的轮廓关键点信息和人体语义分割信息;则
所述利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,包括:
利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息;
利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到所述第一图像的人体语义分割信息。
可选地,所述利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息,包括:
对所述第一图像的编码信息进行第一处理,得到所述第一图像的任务的轮廓关键点信息;
其中,所述第一处理包括1*1卷积处理、3*3卷积处理和两次反卷积处理。
可选地,所述利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到人体语义分割信息,包括:
根据所述第一图像的编码信息,使用至少两个网络残差resnet_backbone结构,得到所述第一图像的人体语义分割信息。
依据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的图像处理方法的步骤。
依据本发明的再一方面,提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的图像处理方法的步骤。
本发明的实施例中,获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息。由于上述神经网络模型中的编码器的输出层为每个所述解码器的输入层,从而通过一个该神经网络模型便可以得到第一图像的多种类型的特征信息,进而便于用户基于多种类型的特征信息进行各种特效处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明实施例提供的图像处理方法的流程示意图;
图2表示采用普通的U-net结构的识别示意图;
图3表示本发明实施例的网络结构的识别示意图;
图4表示本发明实施例提供的图像处理装置的模块示意图;
图5表示本发明实施例提供的电子设备的实施结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。另外,本文中术语“系统”和“网络”在本文中常可互换使用。
如图1所示,本发明的实施例提供了一种图像处理方法,由电子设备执行,该方法包括以下步骤:
步骤101:获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的。
其中,第一图像可为直播视频中的图像。可选地,上述步骤101包括:在直播视频中,获取第一图像;获取所述第一图像的编码信息。
本步骤中,将第一图像作为输入图像,由神经网络模型中经训练后的编码器对该第一图像的图像数据使用降采样的方式进行编码,得到编码信息,以分析该第一图像的各种关键信息,如人物像素mask和人体轮廓63个关键点的坐标。
步骤102:利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,其中,所述编码器的输出层为每个所述解码器的输入层。
这里,每个编码器(Encoder)的输出层为每个解码器(Decoder)的输入层,即通过多个解码器可以对同一个编码器的输出数据进行不同的处理,进而得到不同的特征信息,也就是说,使得第一图像通过上述一个神经网络模型便可得到需要的多种输出,从而实现单输入多输出的目的。
本发明实施例的图像处理方法,获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息。由于上述神经网络模型中的编码器的输出层为每个所述解码器的输入层,从而通过一个该神经网络模型便可以得到第一图像的多种类型的特征信息,进而便于用户基于多种类型的特征信息进行各种特效处理。例如,通过人物像素mask,把人物从原图中抠出来,合成到新的背景上去,达到换背景的目的;或者,通过识别人物的轮廓63关键点坐标,在人物指定部位添加特效,如瘦腰或瘦腿。
可选地,所述获取第一图像的编码信息之前,还包括:
对所述神经网络模型中的编码器和解码器分别进行训练;
或者,对所述神经网络模型中的编码器和解码器同时进行训练。
本发明实施例中,通过对编码器和解码器进行训练,以得到用户需要的各种特征信息。
进一步可选地,所述至少两个解码器包括第一解码器和至少一个第二解码器;则
所述对所述神经网络模型中的编码器和解码器分别进行训练,包括:
根据第一训练数据,对所述编码器和第一解码器构成的第一U-net网络结构进行训练,获取训练后的编码器和第一解码器。
根据训练后的所述编码器中的权值和第二训练数据,对至少一个第二U-net网络结构进行训练,获取训练后的至少一个第二解码器,其中,每个所述第二U-net网络结构包括所述训练后的编码器和未经训练的第二解码器。
其中,第一解码器对应的特征数据的数据量大于第二解码器对应的特征数据的数据量。例如,上述第一解码器用于获取人体的轮廓关键点信息,第二解码器用于获取人体语义分割信息,而人体轮廓关键点数据的数据量大于人体语义分割数据的数据量,则先对编码器和第一解码器进行训练。
上述第一训练数据包括第二图像和相应的特征数据,例如人体轮廓关键点数据。首先,设计由所述编码器和第一解码器构成的U-net网络结构,输入第二图像,在编码器中提取特征,然后第一解码器组合人体轮廓关键点识别需要的特征,输出对接标注点位,使用均方误差作为损失函数,训练提取人体类特征的编码器和识别人体的轮廓关键点信息的第一解码器。
作为一种具体的实现方式,编码器采用深度depth=0.75,宽度expand=4和depth=1.0,expand=6的两种轻量化卷积神经网络mobilenet_V2;第一解码器采用对63通道分8组卷积,然后合并之后接1组反卷积和2组卷积。loss计算采用普通的均方误差。
其中,卷积公式可以参见公式(1),反卷积公式参见公式(2),均方误差公式参见公式(3)。
公式(1)中x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;
其中,f(x,y)为卷积中不同层,g(x,y)为补0矩阵,h(x,y)为卷积核矩阵,k表示卷积核大小;
其中,f(x)为计算输出,y为标准输出,i表示输入尺寸。
本发明实施例中,编码器训练好之后,找出编码器中所有节点名称以及命名空间,以便确定编码器的所有权值,并取中间层。针对人体语义分割,参考slim-net的解码器结构,通过编码器节点名称,在编码器中取2,3,4,6,7,14层的输出,并与编码器的最终输出做残差类卷积。最终使用归一化softmax交叉熵作为loss,最后在设置训练梯度时,剔除编码器命名空间的所有节点,这样就能保证只训练解码器分支权值,而不影响编码器的权值,对语义分割标注数据进行训练。
解码器残差具体方案为:考虑编码器的每个下采样最后一层为基准,即2,4,7,14层。第一次取第14层作为输入,与第7层做一个残差结构,并使用与第7层有同样结构的第6层作为一个辅助,最终卷积得到解码器的一个瓶颈bottleneck。同理,使用上一个bottleneck的输出,与上一次下采样的输出层做残差,得到下一个bottleneck的输出。在分别对7,4,2层做了bottleneck之后,最后做2次反卷积的上采样,使最终输出与原图大小相同,然后就可以做像素级别loss。其中,具体计算过程包括:
用公式(4)得到残差1,公式(4):y=F(x,Wi)+x;
其中,F(x,W)为输入通过权值层得到的输出,x为输入,y为输出,W为权值矩阵;
用公式(5)得到残差2,公式(5):F=W2σ(W1x);
其中,W1,W2为2个权值矩阵,σ为系数;
用公式(6)得到残差3,公式(6):y=F(x,Wi)+Wsx;
该公式(6)为另一种resenet的backbone,Ws为权值矩阵;
再用上述公式(5),得到残差4;
其中,xL为最后层输出,xl为第l个backbone叠加的输入,F(x,W)为第l个backbone的输出。
通过公式(9)获取交叉熵,公式(9):
其中,H(p,q)为p(x)和q(x)的交叉熵,p(x)和q(x)表示概率分布。
另,本申请实施例中所应用的公式为现有公式。
本申请实施例中,编码器和多个不同的解码器都训练完成之后,组合到一个模型中,然后将输出节点依次定好节点名,即可实现单输入多输出,编码器的输出为一个多维的矩阵,所有解码器的输入均为编码器的输出,采用“并行”模型进行排列,所以需要保证所有解码器的输入层shape与编码器输出完全相同,即可完成编码器和多个解码器的拼接。然后每个解码器计算各自的输出,以实现多种属性的识别。
进一步可选地,所述对所述神经网络模型中的编码器和解码器同时进行训练,包括:
对所述神经网络模型中的变量进行初始化处理后,利用第三训练数据,对所述编码器和所述至少两个解码器同时进行训练,其中,训练过程中所述至少两个解码器的损失权重相同。
本发明实施例中,当各个解码器对应的特征数据的数据量差值比较小时,即特征数据分布均匀时,则可以同时训练编码器和至少两个解码器,该训练方式会使神经网络模型的整体效果有一定程度的提升。
训练的时候,在一开始,将模型中所有变量都用tensorflow的初始化器做全局初始化,然后将所有变量都加入train_list,以图片为输入,63关键点和语义分割的标注同时作为ground_truth,放到输出位置,并将至少两个解码器的loss做一个经验比例的叠加,即可对编码器和所有解码器同时训练。loss的经验比例是通过实际计算得出的,目的是让多个解码器部分的loss权重相等。例如,人体轮廓63个关键点对应的decoder分支loss为3.5左右,而语义分割loss为0.001左右,所以在叠加的时候,需要将语义分割的loss乘以3000,再与63关键点的loss相加。否则语义分割分支可能得不到有效的训练。
可选地,所述获取第一图像的编码信息,包括:
根据第一图像的第一参数,利用轻量化卷积神经网络,获取第一图像的编码信息;
其中,所述第一参数包括第一图像的分辨率(第一图像的长和宽)、色彩通道数和所述第一图像的数量,所述第一参数通过四维矩阵表示,所述第一图像的编码信息通过三维矩阵表示。
本发明实施例中,编码器的输入层为四维矩阵,例如,该四维矩阵为[batch,256,192,3],其中,batch表示第一图像的数量,256表示第一图像的长度,192表示第一图像的宽度,3表示色彩通道数。上述轻量化卷积神经网络可具体为深度1.0,宽度6的轻量化卷积神经网络mobilenet_v2,第一图像的编码信息可具体为[8,6,160]的三维矩阵,该三维矩阵可以理解为160个8×6的特征矩阵,160为第一图像的数量。
可选地,所述至少两种特征信息包括:人物的轮廓关键点信息和人体语义分割信息;则
所述利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,包括:
利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息;
利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到所述第一图像的人体语义分割信息。
进一步可选地,所述利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息,包括:
对所述第一图像的编码信息进行第一处理,得到所述第一图像的任务的轮廓关键点信息;
其中,所述第一处理包括1*1卷积处理、3*3卷积处理和两次反卷积处理。
进一步可选地,所述利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到人体语义分割信息,包括:
根据所述第一图像的编码信息,使用至少两个网络残差resnet_backbone结构,得到所述第一图像的人体语义分割信息。
这里,针对人物的轮廓63关键点和人体语义分割两个任务,分别设计解码器(上述第三解码器和第四解码器)。人物的轮廓63关键点使用simple_baseline的思想,输入层为[8,6,160]的三维矩阵,中间使用1*1,3*3卷积和2次反卷积,最后使用1*1卷积得到[63,2]的输出结果,该结果分别对应63组二维坐标点;人体语义分割使用slim_net的解码器网络结构思想,输入层为[8,6,160]的三维矩阵,中间使用多个resnet_backbone结构,最终resize为[256,192]的输出结果,该结果则对应与原图大小相同的mask。
本发明实施例的图像处理方法,在人体轮廓63关键点识别和人体语义分割中进行了实验验证,如图2所示,采用普通的编码-解码结构识别人体轮廓63关键点准确率最高为90.2%,语义分割准确率最高85%,模型大小为350M,如图3所示,采用本发明的神经网络模型识别人体轮廓63关键点准确率最高为94.11%,语义分割准确率最高94.4%,模型大小为380M。
在虚拟直播这类项目中,需要将人物从原背景中抠出来,合成上新的背景,并识别人体轮廓,以便添加各种特效。两种神经网络模型的实际效果展现对比也非常明显,图2是普通的推理出来的结果,图3是使用本发明的结构推理出来的结果,可以看到本发明在同时处理人体关键点63点和语义分割任务的时候,准确率都高于普通U-net网络结构。
本发明实施例中,对于同一种类型的图片识别,本发明使用同一个编码器提取图片特征。这里所说的“同一种类型“是指图片中的内容特征是同一种类型,例如:人物识别,都是识别人物特征;物品识别,都是识别一些有轮廓物品;风景识别,都是识别各种景物等。在训练神经网络模型的时候,可以选择图片数据量在5万张以上的数据集来训练编码器,这样的编码器能具有较强的鲁棒性,然后再固定住编码器的权值,编码器的输入接不同的解码器,训练出不同的解码器分支,以在同一模型中实现多个种类的识别。训练编码器和解码器的时候,输入的是图片,输出的是各种类别的标签,例如人体骨骼14点关键点坐标信息、人体轮廓63点关键点坐标信息、人物mask矩阵、人物表情类别标签等。
本发明实施例的图像处理方法,获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息。由于上述神经网络模型中的编码器的输出层为每个所述解码器的输入层,从而通过一个该神经网络模型便可以得到第一图像的多种类型的特征信息,进而便于用户基于多种类型的特征信息进行各种特效处理。
如图4所示,本发明实施例提供了一种图像处理装置,包括:
第一获取模块201,用于获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;
处理模块202,用于利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,其中,所述编码器的输出层为每个所述解码器的输入层。
本发明实施例的图像处理装置,所述获取第一图像的编码信息之前,还包括:
训练模块,用于第一获取模块获取第一图像的编码信息之前,对所述神经网络模型中的编码器和解码器分别进行训练;或者,对所述神经网络模型中的编码器和解码器同时进行训练。
本发明实施例的图像处理装置,所述至少两个解码器包括第一解码器和至少一个第二解码器;则
所述训练模块包括:
第一训练子模块,用于根据第一训练数据,对所述编码器和第一解码器构成的第一U-net网络结构进行训练,获取训练后的编码器和第一解码器;
第二训练子模块,用于根据训练后的所述编码器中的权值和第二训练数据,对至少一个第二U-net网络结构进行训练,获取训练后的至少一个第二解码器,其中,每个所述第二U-net网络结构包括所述训练后的编码器和未经训练的第二解码器。
本发明实施例的图像处理装置,所述训练模块用于对所述神经网络模型中的变量进行初始化处理后,利用第三训练数据,对所述编码器和所述至少两个解码器同时进行训练,其中,训练过程中所述至少两个解码器的损失权重相同。
本发明实施例的图像处理装置,所述第一获取模块用于根据第一图像的第一参数,利用轻量化卷积神经网络,获取第一图像的编码信息;
其中,所述第一参数包括第一图像的分辨率、色彩通道数和所述第一图像的数量,所述第一参数通过四维矩阵表示,所述第一图像的编码信息通过三维矩阵表示。
本发明实施例的图像处理装置,所述至少两种特征信息包括:人物的轮廓关键点信息和人体语义分割信息;则
所述处理模块包括:
第一处理子模块,用于利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息;
第二处理子模块,用于利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到所述第一图像的人体语义分割信息。
本发明实施例的图像处理装置,所述第一处理子模块用于对所述第一图像的编码信息进行第一处理,得到所述第一图像的任务的轮廓关键点信息;
其中,所述第一处理包括1*1卷积处理、3*3卷积处理和两次反卷积处理。
本发明实施例的图像处理装置,所述第二处理子模块用于根据所述第一图像的编码信息,使用至少两个网络残差resnet_backbone结构,得到所述第一图像的人体语义分割信息。
需要说明的是,该装置是与上述图像处理方法对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
如图5所示,本发明实施例还提供了一种电子设备,包括:收发机304、处理器301、存储器303及存储在所述存储器302上并可在所述处理器301上运行的计算机程序,所述处理器301执行所述计算机程序时实现上述的图像处理方法的步骤。具体地,处理器301用于获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,其中,所述编码器的输出层为每个所述解码器的输入层。
可选地,在获取第一图像的编码信息之前,处理器301还用于:
对所述神经网络模型中的编码器和解码器分别进行训练;
或者,对所述神经网络模型中的编码器和解码器同时进行训练。
可选地,所述至少两个解码器包括第一解码器和至少一个第二解码器;则
所述处理器301还用于:
根据第一训练数据,对所述编码器和第一解码器构成的第一U-net网络结构进行训练,获取训练后的编码器和第一解码器;
根据训练后的所述编码器中的权值和第二训练数据,对至少一个第二U-net网络结构进行训练,获取训练后的至少一个第二解码器,其中,每个所述第二U-net网络结构包括所述训练后的编码器和未经训练的第二解码器。
可选地,所述处理器301还用于:对所述神经网络模型中的变量进行初始化处理后,利用第三训练数据,对所述编码器和所述至少两个解码器同时进行训练,其中,训练过程中所述至少两个解码器的损失权重相同。
可选地,所述处理器301还用于:根据第一图像的第一参数,利用轻量化卷积神经网络,获取第一图像的编码信息;
其中,所述第一参数包括第一图像的分辨率、色彩通道数和所述第一图像的数量,所述第一参数通过四维矩阵表示,所述第一图像的编码信息通过三维矩阵表示。
可选地,所述至少两种特征信息包括:人物的轮廓关键点信息和人体语义分割信息;则
所述处理器301还用于:
利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息;
利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到所述第一图像的人体语义分割信息。
可选地,所述处理器301还用于:对所述第一图像的编码信息进行第一处理,得到所述第一图像的任务的轮廓关键点信息;
其中,所述第一处理包括1*1卷积处理、3*3卷积处理和两次反卷积处理。
可选地,所述处理器301还用于:根据所述第一图像的编码信息,使用至少两个网络残差resnet_backbone结构,得到所述第一图像的人体语义分割信息。
需要说明的是,在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器301代表的一个或多个处理器和存储器303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口302提供接口。收发机304可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的终端,用户接口305还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。处理器301负责管理总线架构和通常的处理,存储器303可以存储处理器301在执行操作时所使用的数据。
本领域技术人员可以理解,实现上述实施例的全部或者部分步骤可以通过硬件来完成,也可以通过计算机程序来指示相关的硬件来完成,所述计算机程序包括执行上述方法的部分或者全部步骤的指令;且该计算机程序可以存储于一可读存储介质中,存储介质可以是任何形式的存储介质。
另外,本发明具体实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述图像处理方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
获取第一图像的编码信息,所述编码信息是通过神经网络模型中经训练后的编码器对所述第一图像进行编码处理得到的;
利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,其中,所述编码器的输出层为每个所述解码器的输入层。
2.根据权利要求1所述的图像处理方法,其特征在于,所述获取第一图像的编码信息之前,还包括:
对所述神经网络模型中的编码器和解码器分别进行训练;
或者,对所述神经网络模型中的编码器和解码器同时进行训练。
3.根据权利要求2所述的图像处理方法,其特征在于,所述至少两个解码器包括第一解码器和至少一个第二解码器;则
所述对所述神经网络模型中的编码器和解码器分别进行训练,包括:
根据第一训练数据,对所述编码器和第一解码器构成的第一U-net网络结构进行训练,获取训练后的编码器和第一解码器;
根据训练后的所述编码器中的权值和第二训练数据,对至少一个第二U-net网络结构进行训练,获取训练后的至少一个第二解码器,其中,每个所述第二U-net网络结构包括所述训练后的编码器和未经训练的第二解码器。
4.根据权利要求2所述的图像处理方法,其特征在于,所述对所述神经网络模型中的编码器和解码器同时进行训练,包括:
对所述神经网络模型中的变量进行初始化处理后,利用第三训练数据,对所述编码器和所述至少两个解码器同时进行训练,其中,训练过程中所述至少两个解码器的损失权重相同。
5.根据权利要求1所述的图像处理方法,其特征在于,所述获取第一图像的编码信息,包括:
根据第一图像的第一参数,利用轻量化卷积神经网络,获取第一图像的编码信息;
其中,所述第一参数包括第一图像的分辨率、色彩通道数和所述第一图像的数量,所述第一参数通过四维矩阵表示,所述第一图像的编码信息通过三维矩阵表示。
6.根据权利要求1所述的图像处理方法,其特征在于,所述至少两种特征信息包括:人物的轮廓关键点信息和人体语义分割信息;则
所述利用所述神经网络模型中经训练后的至少两个解码器对所编码信息进行处理,得到所述第一图像的至少两种特征信息,包括:
利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息;
利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到所述第一图像的人体语义分割信息。
7.根据权利要求6所述的图像处理方法,其特征在于,所述利用所述神经网络模型中的第三解码器对所述编码信息进行处理,得到所述第一图像的人物的轮廓关键点信息,包括:
对所述第一图像的编码信息进行第一处理,得到所述第一图像的任务的轮廓关键点信息;
其中,所述第一处理包括1*1卷积处理、3*3卷积处理和两次反卷积处理。
8.根据权利要求6所述的图像处理方法,其特征在于,所述利用所述神经网络模型中的第四解码器对所述编码信息进行处理,得到人体语义分割信息,包括:
根据所述第一图像的编码信息,使用至少两个网络残差resnet_backbone结构,得到所述第一图像的人体语义分割信息。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的图像处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110354178.6A CN113096001A (zh) | 2021-04-01 | 2021-04-01 | 图像处理方法、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110354178.6A CN113096001A (zh) | 2021-04-01 | 2021-04-01 | 图像处理方法、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113096001A true CN113096001A (zh) | 2021-07-09 |
Family
ID=76672351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110354178.6A Pending CN113096001A (zh) | 2021-04-01 | 2021-04-01 | 图像处理方法、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096001A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723480A (zh) * | 2021-08-18 | 2021-11-30 | 北京达佳互联信息技术有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN115177755A (zh) * | 2022-07-07 | 2022-10-14 | 中国人民解放军军事科学院军事医学研究院 | 在线智能紫外辐射消毒系统和方法 |
CN115546491A (zh) * | 2022-11-28 | 2022-12-30 | 中南财经政法大学 | 一种跌倒报警方法、系统、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993082A (zh) * | 2019-03-20 | 2019-07-09 | 上海理工大学 | 卷积神经网络道路场景分类与道路分割方法 |
CN110120009A (zh) * | 2019-05-09 | 2019-08-13 | 西北工业大学 | 基于显著物体检测和深度估计算法的背景虚化实现方法 |
US20200090035A1 (en) * | 2018-09-19 | 2020-03-19 | International Business Machines Corporation | Encoder-decoder memory-augmented neural network architectures |
CN111626298A (zh) * | 2020-04-17 | 2020-09-04 | 中国科学院声学研究所 | 一种实时图像语义分割装置及分割方法 |
CN112287820A (zh) * | 2020-10-28 | 2021-01-29 | 广州虎牙科技有限公司 | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 |
CN112954399A (zh) * | 2021-02-09 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置以及计算机设备 |
CN113079391A (zh) * | 2020-12-31 | 2021-07-06 | 无锡乐骐科技有限公司 | 一种人像图像混合处理方法、设备及计算机可读存储介质 |
-
2021
- 2021-04-01 CN CN202110354178.6A patent/CN113096001A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200090035A1 (en) * | 2018-09-19 | 2020-03-19 | International Business Machines Corporation | Encoder-decoder memory-augmented neural network architectures |
CN109993082A (zh) * | 2019-03-20 | 2019-07-09 | 上海理工大学 | 卷积神经网络道路场景分类与道路分割方法 |
CN110120009A (zh) * | 2019-05-09 | 2019-08-13 | 西北工业大学 | 基于显著物体检测和深度估计算法的背景虚化实现方法 |
CN111626298A (zh) * | 2020-04-17 | 2020-09-04 | 中国科学院声学研究所 | 一种实时图像语义分割装置及分割方法 |
CN112287820A (zh) * | 2020-10-28 | 2021-01-29 | 广州虎牙科技有限公司 | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 |
CN113079391A (zh) * | 2020-12-31 | 2021-07-06 | 无锡乐骐科技有限公司 | 一种人像图像混合处理方法、设备及计算机可读存储介质 |
CN112954399A (zh) * | 2021-02-09 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置以及计算机设备 |
Non-Patent Citations (1)
Title |
---|
MARVIN TEICHMANN ET AL.: "MultiNet: Real-time Joint Semantic Reasoning for Autonomous Driving", 2018 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV), 21 October 2018 (2018-10-21), pages 1013 - 1020 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723480A (zh) * | 2021-08-18 | 2021-11-30 | 北京达佳互联信息技术有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN113723480B (zh) * | 2021-08-18 | 2024-03-05 | 北京达佳互联信息技术有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN115177755A (zh) * | 2022-07-07 | 2022-10-14 | 中国人民解放军军事科学院军事医学研究院 | 在线智能紫外辐射消毒系统和方法 |
CN115546491A (zh) * | 2022-11-28 | 2022-12-30 | 中南财经政法大学 | 一种跌倒报警方法、系统、电子设备及存储介质 |
CN115546491B (zh) * | 2022-11-28 | 2023-03-10 | 中南财经政法大学 | 一种跌倒报警方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3678059B1 (en) | Image processing method, image processing apparatus, and a neural network training method | |
CN113096001A (zh) | 图像处理方法、电子设备及可读存储介质 | |
CN111932445B (zh) | 对风格迁移网络的压缩方法及风格迁移方法、装置和系统 | |
CN107480206B (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
CN110796111B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN108664974A (zh) | 一种基于rgbd图像与全残差网络的语义分割方法 | |
CN109934881A (zh) | 图像编码方法、动作识别的方法及计算机设备 | |
CN110599395B (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN111242068B (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
WO2023179074A1 (zh) | 图像融合方法及装置、电子设备、存储介质、计算机程序、计算机程序产品 | |
CN112258625A (zh) | 基于注意力机制的单幅图像到三维点云模型重建方法及系统 | |
WO2023071806A1 (zh) | 先验空间的生成方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品 | |
CN113762368A (zh) | 数据蒸馏的方法、装置、电子设备和存储介质 | |
CN116168152A (zh) | 人脸图像生成方法、电子设备及计算机可读存储介质 | |
CN113763366A (zh) | 一种换脸方法、装置、设备及存储介质 | |
CN117876535A (zh) | 一种图像处理方法、装置、设备、介质及程序产品 | |
CN114494543A (zh) | 动作生成方法及相关装置、电子设备和存储介质 | |
CN114549387A (zh) | 一种基于伪标签的人脸图像高光去除方法 | |
CN114529785A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN108765549A (zh) | 一种基于人工智能的产品三维展示方法及装置 | |
CN115496993B (zh) | 基于频域融合的目标检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |