CN112218080B

CN112218080B - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN112218080B
Application number: CN201910628056.4A
Authority: CN
Inventors: 蔡育锋; 侯琦; 张无名
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-04-19
Anticipated expiration: 2039-07-12
Also published as: CN112218080A

Abstract

本发明实施例提供了一种图像处理方法、装置、设备及存储介质，方法包括：获取待替换唇形的第一图像和语音对应的唇形特征；对第一图像进行下采样编码，得到第一级图像特征数据；根据唇形区域所在的位置将尺寸调整后的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据；对第N级编码融合图像特征数据进行下采样编码，得到第N+1级图像特征数据；根据唇形区域所在的位置将调整后的唇形特征与第N+1级图像特征数据进行融合，得到第N+1级编码融合图像特征数据，直至下采样编码次数达到预定下采样编码次数，对最后一级编码融合图像特征数据进行编码，得到编码图像特征。本发明实施例所提供的方法，保证互动视频的唇形与语音匹配性。

Description

图像处理方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，以人工智能技术为基础的AI课堂老师(即录制视频老师)也随之出现，通过录制好的视频实现课堂教学，也即：视频课堂。

为了保证视频课堂的上课的质量，通常会设置一些互动环节来调动视频课堂的学习氛围，但是目前在视频课堂中的互动，都是基于设定的节点和已经录制好的视频而进行的定向互动，在整个视频课堂过程中互动次数较少，而且僵化不自然，与真实的上课场景存在较大差距，难以调动学生的积极性。

为了调动学生的积极性，就要根据需要生成互动视频，并保证互动视频的真实性，因此需要互动视频的唇形与语音相匹配。

因此，如何保证互动视频的唇形与语音匹配性，成为亟需解决的技术问题。

发明内容

本发明实施例解决的技术问题是提供一种图像处理方法、装置、设备及存储介质，以提高根据语音所获得的视频图像帧的唇形的真实性。

为解决上述问题，本发明实施例提供一种图像处理方法，包括：

获取待替换唇形的第一图像和语音对应的唇形特征，其中，所述待替换唇形的第一图像的唇形区域的像素值为零；

对所述待替换唇形的第一图像进行下采样编码，得到所述第一图像对应的第一级图像特征数据，记录下采样编码次数为1；

根据所述第一级图像特征数据中的唇形区域的尺寸调整所述唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与所述第一级图像特征数据进行融合，得到第一级编码融合图像特征数据；

对第N级编码融合图像特征数据进行下采样编码，得到第N+1级图像特征数据，调整所述下采样编码次数为N+1次，其中，N为正整数，且N≥1；

根据第N+1级图像特征数据中的唇形区域的尺寸调整所述唇形特征，并根据唇形区域所在的位置将所述调整后的唇形特征与第N+1级图像特征数据进行融合，得到第N+1级编码融合图像特征数据，直至所述下采样编码次数达到预定下采样编码次数，对最后一级编码融合图像特征数据进行编码，得到编码图像特征。

可选地，该方法还包括：

结合最后一级编码融合图像特征数据，对所述编码图像特征进行上采样解码，得到第一级解码图像特征数据，并记录上采样解码次数为1；

结合倒数第M级编码融合图像特征数据，对第M-1级解码图像特征数据进行解码，得到第M级解码图像特征数据，并调整所述上采样解码次数为M次，直至所述上采样解码次数达到预定下采样编码次数，得到已替换唇形的第二图像，其中M为正整数，且M＞1。

为解决上述问题，本发明实施例还提供一种图像处理装置，包括：

第一图像和唇形特征获取单元，适于获取待替换唇形的第一图像和语音对应的唇形特征，其中，所述待替换唇形的第一图像的唇形区域的像素值为零；

第一级图像特征数据获取单元，适于对所述待替换唇形的第一图像进行下采样编码，得到所述第一图像对应的第一级图像特征数据，记录下采样编码次数为1；

第一级编码融合图像特征数据获取单元，适于根据所述第一级图像特征数据中的唇形区域的尺寸调整所述唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与所述第一级图像特征数据进行融合，得到第一级编码融合图像特征数据；

第N+1级图像特征数据获取单元，适于对第N级编码融合图像特征数据进行下采样编码，得到第N+1级图像特征数据，调整所述下采样编码次数为N+1次，其中，N为正整数，且N≥1；

编码图像特征获取单元，适于根据第N+1级图像特征数据中的唇形区域的尺寸调整所述唇形特征，并根据唇形区域所在的位置将所述调整后的唇形特征与第N+1级图像特征数据进行融合，得到第N+1级编码融合图像特征数据，直至所述下采样编码次数达到预定下采样编码次数，对最后一级编码融合图像特征数据进行编码，得到编码图像特征。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的图像处理方法。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于图像处理的程序，以实现如前述的图像处理方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的图像处理方法，首先，将基于语音获取的唇形特征，根据经过下采样编码的第一级图像特征数据中的唇形区域的尺寸进行调整，然后根据唇形区域所在的位置将经过调整的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据，并在第N级编码融合图像特征数据的基础上，进一步进行下采样编码以及与唇形特征的融合，获取第N+1级编码融合图像特征数据，直至达到预定下采样编码次数，得到最后一级编码融合图像特征数据，并对最后一级编码融合图像特征数据进行进一步的编码，得到编码图像特征，从而使得在后的编码融合图像特征数据都包含了在前的编码融合图像特征数据的信息。可见，本发明实施例所提供的图像处理方法，一方面，利用语音生成唇形特征，然后将唇形特征融合至对应的图像特征数据，为后续生成唇部图像做好准备，而无需将语音转换为唇部关键点，降低了语音信息的丢失程度，为后续生成更为真实的唇部图像提供了基础；另一方面，通过至少2次唇形特征与对应的图像特征数据的融合，并且在后的唇形特征与对应的图像数据的融合是在在先融合的特征图像的基础上，从而可以通过多次的运算来进一步提高所得到的编码融合图像特征数据和编码图像特征的准确性，为生成更为自然和真实的唇部图像提供了基础；同时生成过程也较为简单，缩短了运算时间，提高了运算效率。

可选方案中，本发明实施例所提供的图像处理方法，在得到各级编码融合图像特征数据和编码图像特征后，再结合编码融合图像特征数据对解码图像特征数据进行解码，保证了解码过程的准确性，从而进一步保证了所得到的唇部图像的自然性和真实性，提高了根据语音所获得的视频图像帧的唇形的真实性。

附图说明

图1是本发明实施例所提供的图像处理方法的一种流程示意图；

图2为本发明实施例所提供的图像处理方法的获取语音对应的唇形特征步骤的一种可选流程示意图；

图3为本发明实施例所提供的图像处理方法的获取待替换唇形的第一图像步骤的一种可选流程示意图；

图4为本发明实施例所提供的图像处理方法的获取待替换唇形的第一图像步骤的另一种可选流程示意图；

图5为本发明实施例所提供的图像处理方法的获取待替换唇形的第一图像步骤的又一种可选流程示意图；

图6为本发明实施例所提供的图像处理方法的一encoder-decoder模型的结构示意图；

图7是本发明实施例所提供的图像处理装置的一框图；

图8本发明实施例提供的设备的一种可选硬件设备架构。

具体实施方式

为了调动学生的积极性，需要根据语音生成唇形，以提高根据语音所获得的视频图像帧的唇形的真实性。

在一种方法中，为了根据语音生成唇形，首先获取语音特征，然后通过语音特征获取到对应的唇形关键点，实现语音到唇形的映射，然后再通过唇形关键点得到人脸图像。

可以看出，上述方法所经过的步骤较多，首先需要语音编码模块，以实现语音到唇形关键点的获取，并需对其进行训练，而该模型的训练十分困难，不易取得好的结果，同时在语音编码模块中，将语音特征编码成了唇部关键点，导致了语音中的信息部分丢失，进而导致最终的生成效果不够理想；另外还需要从唇形关键点到人脸图像的生成模块，多个模块的设置，导致各个模块间的操作会浪费大量的时间，过程很繁琐，效率较低。

为了提高根据语音所获得的视频图像帧的唇形的真实性，本发明实施例提供了一种图像处理方法、装置、设备及存储介质，图像处理方法包括：获取待替换唇形的第一图像和语音对应的唇形特征，其中，待替换唇形的第一图像的唇形区域的像素值为零；对待替换唇形的第一图像进行下采样编码，得到第一级图像特征数据，记录下采样编码次数为1；根据第一级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据；对第N(其中，N为正整数，且N≥1)级编码融合图像特征数据进行下采样编码，得到第N+1级图像特征数据，调整下采样编码次数为N+1次；并根据唇形区域所在的位置将与第N+1级图像特征数据的唇形区域尺寸相匹配的唇形特征融合至第N+1级图像特征数据，得到第N+1级编码融合图像特征数据，直至下采样编码次数达到预定下采样编码次数，对最后一级编码融合图像特征数据进行编码，得到编码图像特征。

这样，本发明实施例所提供的图像处理方法，首先，将基于语音获取的唇形特征，根据经过下采样编码的第一级图像特征数据中的唇形区域的尺寸进行调整，然后根据唇形区域所在的位置将经过调整的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据，并在第N级编码融合图像特征数据的基础上，进一步进行下采样编码以及与唇形特征的融合，获取第N+1级编码融合图像特征数据，直至达到预定下采样编码次数，得到最后一级编码融合图像特征数据，并对最后一级编码融合图像特征数据进行进一步的编码，得到编码图像特征，从而使得在后的编码融合图像特征数据都包含了在前的编码融合图像特征数据的信息。

可见，本发明实施例所提供的图像处理方法，一方面，利用语音生成唇形特征，然后将唇形特征融合至对应的图像特征数据，为后续生成唇部图像做好准备，而无需将语音转换为唇部关键点，降低了语音信息的丢失程度，为后续生成更为真实的唇部图像提供了基础；另一方面，通过至少2次唇形特征与对应的图像特征数据的融合，并且在后的唇形特征与对应的图像数据的融合是在在先融合的特征图像的基础上，从而可以通过多次的运算来进一步提高所得到的编码融合图像特征数据和编码图像特征的准确性，为生成更为自然和真实的唇部图像提供了基础；同时生成过程也较为简单，缩短了运算时间，提高了运算效率。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的图像处理方法的一种流程示意图。

如图中所示，本发明实施例所提供的图像处理方法包括以下步骤：

步骤S10：获取待替换唇形的第一图像和语音对应的唇形特征，其中，待替换唇形的第一图像的唇形区域的像素值为零。

为了进行图像处理，即将待替换唇形图像的唇形区域更换为与语音相匹配的唇形图像，就需要获取待替换唇形的第一图像和语音对应的唇形特征。

为了获取语音对应的唇形特征，请参考图2，图2为本发明实施例所提供的图像处理方法的获取语音对应的唇形特征步骤的一种可选流程示意图。

步骤S100:获取语音。

为了获取语音特征，首先获取语音的音频，然后提取语音音频的语音特征，可以理解的是，根据语音的音频所获取的语音特征的数量与音频的时间长度和单位播放数量相对应，比如：音频的时间长度为1s，而音频的播放速度为50帧/s，则根据所述音频，会生成50个语音特征。

步骤S101：对语音的语音特征进行编码，获取语音特征对应的唇形特征。

在一种具体实施方式中，语音特征可以为梅尔频率倒谱系数特征，梅尔频率倒谱系数特征具有较高的通用性，可以提高本发明的适用范围，具体可以通过递归神经网络获取梅尔频率倒谱系数特征；在其他具体实施方式中，语音特征也可以为其他种类的特征。

进一步地，为了保证所获取的语音特征具有更好的一致性，方便后续的图像处理，本发明实施例所提供的图像处理方法的获取语音的语音特征还可以首先对语音的音频进行音量归一化处理，去除由于语音的响度不同对所获得的语音特征的影响，得到音量归一化音频，提高后续得到的唇形特征的效果。

得到音量归一化音频后，再提取音量归一化音频的语音特征，得到与语音音频相对应的语音特征。

得到语音特征后，还需要对语音特征进行进一步处理，将语音特征转化为唇形特征，以便后续将唇形特征与第一图像进行结合。

可以理解的是，根据一段语音，所获得的语音特征可以为多个，而唇形特征的数量与语音特征的数量相同，即一个唇形特征基于一个语音特征获取。

在一种具体实施方式中，通过对语音特征的编码就可以获取到与语音特征对应的唇形特征，具体地，可以利用RNN(Recurrent Neural Network)递归神经网络)对语音特征进行编码，获取语音特征对应的唇形特征，这样所获得的唇形特征，不仅仅包含与其对应的语音特征的信息，还包含该语音特征前的语音特征的信息，从而使得所获得的唇形特征更具有关联性和真实性。

可以理解的是，基于语音所获取的唇形特征的数量，会与语音的时间长度相匹配。

可以看出，本发明实施例所提供的图像处理方法，通过首先获取语音以及与语音对应的语音特征，然后根据语音特征获取唇形特征的方式获取进行唇形替换的数据基础，保证了唇形特征与语音的匹配性，从而可以为提高根据语音所获得的视频图像帧的唇形的真实性提供基础。

得到唇形特征，还需要进一步获取待替换唇形的第一图像，从而在后续的处理中，将唇形特征与待替换唇形的第一图像的特征图像相结合，得到基于语音的图像。为了得到第一图像，请参考图3，图3为本发明实施例所提供的图像处理方法的获取待替换唇形的第一图像步骤的一种可选流程示意图。

步骤S200：获取包含人脸的第三图像。

为了获取待替换唇形的第一图像，首先获取包含人脸的第三图像，具体第三图像可以根据替换目标选择，比如：为了适应AI课堂的使用，可以选择一段AI老师之前录制的视频，然后将视频进行逐帧分解，得到相应的视频图像。

需要说明的是，根据视频所得到的视频图像的数量可以与唇形特征的数量不同：如果视频图像的数量小于唇形特征的数量，则可以根据比例进行视频图像的间隔复制，使最终得到的第三图像数量与唇形特征的数量相同；如果视频图像的数量大于唇形特征的数量，则可以根据比例进行视频图像的间隔提取，使最终得到的第三图像数量与唇形特征的数量相同。

比如：当根据视频所得到的视频图像的数量为30，而唇形特征的数量为60时，则将各视频图像复制，并与被复制图像相邻排列，使最终得到的第三图像与唇形特征的数量相同；当根据视频所得到的视频图像的数量为60，而唇形特征的数量为30，则每间隔1帧，提取1个视频图像，使最终得到的第三图像与唇形特征的数量相同。

步骤S201：对第三图像的唇形区域进行裁剪，抠除唇形区域得到待替换唇形的第一图像。

得到第三图像后，需要进一步对第三图像进行处理，得到第一图像，具体通过获取包含人脸的第三图像中的唇形区域，并对唇形区域进行抠除，获取待替换唇形的第一图像。

具体地，对唇形区域进行抠除可以通过将该唇形区域的像素值置零的方式实现。

为了保证唇形区域获取的易操作性，可以获取唇部的框图，即唇部上、下、左、右四边最外点所在的直线所围成的框图，并将框图围成的区域作为唇形区域。

通过将第三图像的唇形区域进行裁剪，得到第一图像，从而可以使得第一图像的唇形区域的像素值为零，为后续的处理提供准备。

在一种具体实施方式中，请参考图4，图4为本发明实施例所提供的图像处理方法的获取待替换唇形的第一图像步骤的另一种可选流程示意图。

步骤S2010：对第三图像进行唇部关键点检测，得到唇部关键点。

为了获取待替换唇形的第一图像，可以利用关键点检测技术，对第三图像进行唇部关键点检测，从而可以得到唇部关键点，可以理解的是，唇部关键点所围成的区域即为唇形区域。

步骤S2011：根据唇部关键点获取第三图像的唇形区域，对唇形区域进行裁剪，抠除唇形区域得到第一图像。

依据所获得的唇部关键点对第三图像进行抠除，即可以得到第一图像。

具体地，可以将所获得的唇形关键点所围成的框图W_lips x H_lips作为唇形区域，然后将其此区域的像素值设置为零，就可以得到第一图像。

利用唇形关键点进行唇形区域的获取和裁剪，降低了操纵难度，同时也可以保证所获取的第一图像的质量。

在另一种具体实施方式中，为了减小第一图像的尺寸，减小运算量，第一图像可以包括待替换人脸唇形图像，请参考图5，图5为本发明实施例所提供的图像处理方法的获取待替换唇形的第一图像步骤的又一种可选流程示意图。

步骤S3010：获取包含人脸的第四图像。

步骤S3011：对第四图像进行人脸关键点检测，得到人脸关键点。

步骤S3012：根据人脸关键点获取第四图像的人脸区域，裁剪出人脸区域，作为第三图像。

得到第三图像后，再进行后续的进一步处理得到第一图像。

当然也可以直接将前述的第四图像作为第三图像，即第三图像不仅包括人脸区域，还包括非人脸区域。

在另一种具体实施方式中，还可以利用关键点检测技术，对第四图像同时进行人脸关键点检测和唇部关键点检测，从而可以得到人脸关键点和唇部关键点。

可以理解的是，人脸关键点的最外周点所围成的区域WxH可以作为人脸区域，唇部关键点所围成的框图W_lips x H_lips作为唇形区域。

在一种具体实施方式中，可以根据人脸关键点的最外周点所围成的区域对第四图像进行裁剪，得到第三图像。

在第三图像的基础上，对唇部关键点所围成的唇形区域进行裁剪，得到第一图像。

可以看出，将根据人脸关键点的最外周点所围成人脸图像外的部分裁剪，减小了图像处理中非必要的部分，从而在保证唇形变换的基础上，降低了运算量。

得到唇形特征和第一图像后，需要进行进一步的处理，请继续参考图1。

步骤S11：对待替换唇形的第一图像进行下采样编码，得到第一图像对应的第一级图像特征数据，记录下采样编码次数为1。

得到第一图像后，对第一图像进行下采样编码，以获取具有较低分辨率的第一级图像特征数据，在降低分辨率的基础上，将图像编码为图像特征数据，从而为唇部特征和第一级图像特征数据的融合做准备。

同时，还需记录下采样编码为1，为后续是否达到采样次数做准备。

在一种具体实施方式中，在进行下采样时，可以使用U-Net结构的encoder-decoder模型的encoder模块进行下采样，encoder模块由卷积层，下采样层和激活函数构成，从而可以利用encoder模块完成下采样编码；可以理解的是，下采样的倍率可以根据需要进行设定。

具体可以参考图6，图6为本发明实施例所提供的图像处理方法的一encoder-decoder模型的结构示意图。

具体地，可以利用图中所示的encoder1模块的第一级图像特征数据获取单元获取第一级图像特征数据。

步骤S12：根据第一级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据。

得到第一级图像特征数据后，由于经过了下采样，第一级图像特征数据的尺寸发生了变换，为了保证唇形特征与第一级图像特征数据的融合，就需要对唇形特征进行尺寸调整，使其与第一级图像特征数据的唇形区域尺寸相同，在一种具体实施方式中，可以通过全链接层进行处理。

得到了与第一级图像特征数据的唇形区域尺寸相同的唇形特征，如图6所示，可以再利用encoder-decoder模型的encoder模块的第一级编码融合图像特征数据获取单元，将第一级唇形特征融合至第一级图像特征数据的唇形区域，从而可以得到融合了唇形特征之后的特征图像，即第一级编码融合图像特征数据。

可以理解的是，唇形特征为一个矩阵，第一级图像特征数据也是一个矩阵，将唇形特征融合至第一级图像特征数据的唇形区域，即为，将唇形特征的矩阵融合至第一级图像特征数据的矩阵中的唇形区域。

步骤S13：对第N级编码融合图像特征数据进行下采样编码，得到第N+1级图像特征数据，调整下采样编码次数为N+1次，其中，N为正整数，且N≥1。

得到第一级编码融合图像特征数据后，在其基础上进行进一步的下采样编码，同样可以利用encoder-decoder模型的encoder模块，得到第N+1级图像特征数据。

再次下采样的倍率可以与对第一图像进行下采样编码的下采样的倍率相同，也可以不同。

当然，为了进行下采样编码次数的控制，需要调整下采样编码次数加1。

同样，当N为1时，如图6所示，可以利用encoder-decoder模型的encoder2模块的第二图像特征数据获取单元对第一级编码融合图像特征数据进行下采样，得到第二级图像特征数据。

步骤S14：根据第N+1级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第N+1级图像特征数据进行融合，得到第N+1级编码融合图像特征数据。

根据第N+1级图像特征数据的唇形区域尺寸，再次调整唇形特征，然后将调整后的唇形特征融合至第N+1级图像特征数据，得到当前编码融合图像特征数据。

在一种具体实施方式中，将调整后的唇形特征融合至第N级图像特征数据的过程，由于除第一级图像特征数据的唇形区域为0像素外，其他级的图像特征数据均已经包含了融合了前几级的唇形特征的信息，当将调整后的唇形特征与其进行融合时，可以将唇形特征与对应的第N级图像特征数据的唇形区域的特征数据进行点积运算，并将通过点积运算得到的结果放置于第N级图像特征数据的唇形区域得到第N+1级图像特征数据。

同样，当N为1时，如图6所示，可以利用encoder-decoder模型的encoder2模块的第二级编码融合图像特征数据获取单元对第二级图像特征数据和第二级唇形特征进行融合，得到第2级编码融合图像特征数据。

步骤S15：判断下采样编码次数是否达到预定下采样编码次数，如果达到，则执行步骤S16，如果未达到，则执行步骤S13。

将调整后的下采样编码次数与预定下采样编码次数进行比较，判断下采样编码次数是否达到预定下采样编码次数，如果达到，则已经完成了唇形特征与第N+1级图像特征数据融合的次数要求，得到最后一级编码融合图像特征数据；如果未达到，则需要继续进行唇形特征与第N+1级图像特征数据的融合，执行步骤S13。

具体地，如图6所示，本发明实施例预定下采样次数为3次，则经过步骤S14，下采样次数为2，未达到预定下采样次数，则继续执行步骤S13，利用encoder-decoder模型的encoder3模块的第三图像特征数据获取单元对第二级编码融合图像特征数据进行下采样，得到第三级图像特征数据；然后利用encoder-decoder模型的encoder3模块的第三级编码融合图像特征数据获取单元对第三级图像特征数据和第三级唇形特征进行融合，得到第3级编码融合图像特征数据，此时达到预定下采样次数，则执行步骤S16。

步骤S16：对最后一级编码融合图像特征数据进行编码，得到编码图像特征。

对最后一级编码融合图像特征数据进行编码，对其进行卷积运算，利用卷积层增加感受野，进而增加信息量，但无需进一步下采样，进一步获取最后一级编码融合唇形特征的编码图像特征，为获取基于语音的图像做好准备，进一步提高图像处理的准确性。

请继续参考图6，将通过encoder3模块的第三级编码融合图像特征数据获取单元获得的第3级编码融合图像特征数据，通过编码图像特征获取单元140进行进一步地编码，从而获取到编码图像特征。

这样，本发明实施例所提供的图像处理方法，首先，将基于语音获取的唇形特征，根据经过下采样编码的第一级图像特征数据中的唇形区域的尺寸进行调整，然后将经过尺寸调整的唇形特征融合至第一级图像特征数据的唇形区域所在的位置，得到编码融合图像特征数据，并在第N级编码融合图像特征数据的基础上，进一步进行下采样编码以及与唇形特征的融合，获取第N+1级编码融合图像特征数据，直至达到预定采样级数，得到最后一级编码融合图像特征数据，并对最后一级编码融合图像特征数据进行进一步的编码，得到编码图像特征，从而使得在后的编码融合图像特征数据都包含了在前的编码融合图像特征数据的信息。

可见，本发明实施例所提供的图像处理方法，一方面，利用语音生成唇形特征，然后将唇形特征融合至对应的图像特征数据，为后续生成唇部图像做好准备，而无需将语音转换为唇部关键点，降低了语音信息的丢失程度，为后续生成更为真实的唇部图像提供了基础；另一方面，通过至少2次唇形特征与对应的图像特征数据的融合，并且在后的唇形特征与对应的特征图像的融合是在在先融合的图像特征数据的基础上，从而可以通过多次的运算来进一步提高所得到的编码融合图像特征数据和编码图像特征的准确性，为生成更为自然和真实的唇部图像提供了基础；同时生成过程也较为简单，缩短了运算时间，提高了运算效率。

为了最终获取基于语音的图像，还需要对基于前述步骤获得编码图像特征和各级编码融合图像特征数据进行进一步的解码，为此，请继续参考图1，在另一种具体实施方式中，本发明实施例所提供的图像处理方法还可以包括：

步骤S17：结合最后一级编码融合图像特征数据，对编码图像特征进行上采样解码，得到第一级解码图像特征数据，并记录上采样解码次数为1。

同时结合对最后一级编码融合图像特征数据进行进一步编码得到的编码图像特征以及最后一级编码融合图像特征数据，利用相应的解码模块进行解码，得到解码图像特征数据，即第一级解码图像特征数据；另一方面，为了确定是否完成解码，还需要记录上采样解码次数。

具体地，将最后一级编码融合图像特征数据与编码图像特征进行结合的过程，可以通过链接的方式实现，比如最后一级编码融合图像特征数据具有3通道，编码图像特征也具有3通道，经过链接后，得到具有6通道的数据，进而进行上采样，得到第一级解码图像特征数据。

在一种具体实施方式中，可以利用encoder-decoder模型的decoder模块进行上采样解码，decoder模块包括卷积层，上采样层和激活函数，从而可以利用decoder模块完成上采样和解码；可以理解的是，上采样的倍率应与最后一级下采样的倍率的倒数相同。

如图6所示，可以利用decoder1模块的第一级解码图像特征数据获取单元，对通过前一步骤获取的编码图像特征进行上采样解码得到第一级解码图像特征数据。

步骤S18：结合倒数第M级编码融合图像特征数据，对第M-1级解码图像特征数据进行解码，得到第M级解码图像特征数据，并调整上采样解码次数为M次，其中M为正整数，且M＞1。

得到第一级解码图像特征数据后，由于下采样编码次数进行了至少2次，因此，上采样解码次数需要与下采样编码次数相同，也需要进行至少2次，并且可以理解的是，上采样的倍率应与下采样的倍率的倒数反向相同：即，当下采样编码次数为2次，当第一次下采样的倍率为1/2，第二次下采样的倍率为1/3时，上采样解码次数也为2次，第一次上采样的倍率为3，第二次上采样的倍率为2。

具体在进行上采样解码时，为了提高解码后所得到特征图像的准确性，可以结合倒数第M级编码融合图像特征数据对第M-1级解码图像特征数据进行解码，得到第M级解码图像特征数据。

具体将倒数第M级编码融合图像特征数据与第M-1级解码图像特征数据进行结合的具体方式可以与前述结合方式相同，在此不再赘述。

需要说明的是，本文所述的倒数第M级编码融合图像特征数据是指，按照编码的顺序反向排列，以最后一级编码融合图像特征数据为第一级，依次排列，直至数到M级。比如：当编码融合图像特征数据有3级，第一级解码图像特征数据是利用第三级编码融合图像特征数据即倒数第一级编码融合图像特征数据结合图像特征经过decoder模型的decoder1模块的第一级解码图像特征数据获取单元获取，而第二级解码图像特征数据则是利用第二级编码融合图像特征数据即倒数第二级编码融合图像特征数据结合第一级解码图像特征数据获取(如利用图6所示的decoder模型的decoder2模块的第二级解码图像特征数据获取单元)，而第三级解码图像特征数据则是利用第一级编码融合图像特征数据即倒数第三级编码融合图像特征数据结合第二级解码图像特征数据获取(如利用图6所示的decoder模型的decoder3模块的第三级解码图像特征数据获取单元)。

当然，可以理解的是，每经过一次上采样解码，同时调整上采样解码次数加1。

步骤S19：判段上采样解码次数是否达到预定下采样编码次数，如果达到，则执行步骤S110，如果未达到，则执行步骤S18。

将调整后的上采样解码次数与预定下采样编码次数进行比较，判断上采样编码次数是否达到预定下采样编码次数，如果达到，则已经解码完成，得到已替换唇形的第二图像；如果未达到，则需要继续进行上采样解码，执行步骤S18，直至得到已替换唇形的第二图像。

步骤S110：得到已替换唇形的第二图像。

可以看出，发明实施例所提供的图像处理方法，在得到各级编码融合图像特征数据和编码图像特征后，再结合编码融合图像特征数据和解码图像特征数据对解码图像特征数据进行解码，保证了解码过程的准确性，从而进一步保证了所得到的唇部图像的自然形和真实形，提高了根据语音所获得的视频图像帧的唇形的真实性。

当然，在另一种具体实施方式中，如果第一图像通过第四图像获取时，为了使替换后的第二图像与其他图片中的内容相匹配，还需要将所得到的第二图像按照前述裁剪所获取的人脸关键点进行还原，具体可以按照人脸关键点将第二图像贴合，以得到替换图像。

当然，为了保证贴合的效果，还可以进行图片的处理，具体的处理方式在此不再赘述。

经过还原的替换图像，与未经过处理的原始图像相比，具有相同的背景和人物信息，仅仅唇形不同。

当然为了与获取待替换唇形的第一图像的原始视频进行拼接，还需要将所形成的替换图像拼接至裁剪位置，得到替换后的图像系列。

最终还可以将语音与替换后的图像系列进行结合，得到语音与图像完成匹配的视频。

下面对本发明实施例提供的图像处理装置进行介绍，下文描述的图像处理装置可以认为是，电子设备(如：PC)为实现本发明实施例提供的图像处理方法所需设置的功能模块架构。下文描述的图像处理装置的内容，可与上文描述的图像处理方法的内容相互对应参照。

图7是本发明实施例所提供的图像处理装置的一框图，该图像处理装置即可应用于客户端，也可应用于服务器端，参考图7，该图像处理装置可以包括：

第一图像和唇形特征获取单元100，适于获取待替换唇形的第一图像和语音对应的唇形特征，其中，待替换唇形的第一图像的唇形区域的像素值为零；

第一级图像特征数据获取单元110，适于对待替换唇形的第一图像进行下采样编码，得到第一级图像特征数据；

第一级编码融合图像特征数据获取单元120，适于根据第一级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据；

第N+1级图像特征数据获取单元130，适于第N级编码融合图像特征数据进行下采样编码，得到第N+1级图像特征数据，调整下采样编码次数为N+1次，其中，N为正整数，且N≥1；

编码图像特征获取单元140，适于根据第N+1级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第N+1级图像特征数据进行融合，得到第N+1级编码融合图像特征数据，直至下采样编码次数达到预定下采样编码次数，对最后一级编码融合图像特征数据进行编码，得到编码图像特征。

在一种具体实施方式中，第一图像和唇形特征获取单元100为了获取语音特征，需要首先获取语音的音频，然后提取语音音频的语音特征，具体地，语音特征可以为梅尔频率倒谱系数特征，梅尔频率倒谱系数特征具有较高的通用性，可以提高本发明的适用范围，具体可以通过递归神经网络获取梅尔频率倒谱系数特征；在其他具体实施方式中，语音特征也可以为其他种类的特征。

进一步地，为了保证所获取的语音特征具有更好的一致性，方便后续的图像处理，本发明实施例所提供的图像处理装置的第一图像和唇形特征获取单元100还可以首先对语音的音频进行音量归一化处理，去除由于语音的响度不同对所获得的语音特征的影响，得到音量归一化音频，提高后续得到的唇形特征的效果。得到音量归一化音频后，再提取音量归一化音频的语音特征，得到与语音音频相对应的多个语音特征。得到语音特征后，再对语音特征进行编码，获取与语音特征对应的唇形特征。

得到语音特征后，还需要对语音特征进行进一步处理，将语音特征转化为唇形特征，以便将唇形特征与第一图像进行结合。

在一种具体实施方式中，通过对语音特征的编码就可以获取到与语音特征对应的唇形特征，具体地，可以利用RNN(Recurrent Neural Network)递归神经网络)对语音特征进行编码，获取语音特征对应的唇形特征。

可以看出，本发明实施例所提供的图像处理装置，通过首先获取语音特征，然后根据语音特征获取唇形特征的方式获取进行唇形替换的数据基础，保证了唇形特征与语音的匹配性，从而可以为提高根据语音所获得的视频图像帧的唇形的真实性提供基础。

得到唇形特征，第一图像和唇形特征获取单元100还需要进一步获取待替换唇形的第一图像，从而在后续的处理中，将唇形特征与第一图像的图像特征数据相结合，得到基于语音的图像。

在一种具体实施方式中，第一图像和唇形特征获取单元100首先获取包含人脸的第三图像，然后再对第三图像的唇形区域进行裁剪，抠除唇形区域得到待替换唇形的第一图像。

具体地，首先获取包含人脸的第三图像，第三图像可以根据替换目标选择，比如：为了适应AI课堂的使用，可以选择一段AI老师之前录制的视频，然后将视频进行逐帧分解，得到相应的视频图像。

得到第三图像后，进一步对第三图像进行处理，得到第一图像，具体通过获取包含人脸的第三图像中得唇形区域，并对唇形区域进行抠除的方式获取待替换唇形的第一图像。

对唇形区域进行抠除可以通过将该唇形区域的像素值置零的方式实现。

通过将第三图像的唇形区域进行抠除，得到第一图像，从而可以使得第一图像的唇形区域的像素值为零，为后续的处理提供准备。

在另一种具体实施方式中，可以首先对第三图像进行唇部关键点检测，得到唇部关键点，然后根据唇部关键点获取第三图像的唇形区域，对唇形区域进行裁剪，抠除唇形区域得到第一图像。

依据所获得的唇部关键点对第三图像进行裁剪，即可以得到第一图像。

可以将所获得的唇形关键点所围成的框图W_lips x H_lips作为唇形区域，然后将其此区域的像素值设置为零，就可以得到第一图像。

在另一种具体实施方式中，为了减小第一图像的尺寸，减小运算量，本发明实施例所提供的图像处理装置的第一图像和唇形特征获取单元100，适于获取第四图像；对第四图像进行人脸关键点检测，得到人脸关键点；根据人脸关键点获取第四图像的人脸区域，裁剪出人脸区域，作为第三图像。

得到第三图像后，再进行后续的进一步处理得到第一图像。

根据人脸关键点的最外周点所围成的区域对第四图像进行裁剪，得到第三图像。

在第三图像的基础上，对唇部关键点所围成的唇形区域进行裁剪，得到包含第一图像。

可以看出，根据人脸关键点的最外周点所围成人脸图像外的部分裁剪，减小了图像处理中非必要的部分，从而在保证唇形变换的基础上，降低了运算量。

得到第一图像后，第一级图像特征数据获取单元110对第一图像进行下采样编码，以获取具有较低分辨率的第一级图像特征数据，在降低分辨率的基础上，将图像编码为图像特征数据，从而为唇部特征和第一级图像特征数据的融合做准备。

在一种具体实施方式中，第一级图像特征数据获取单元110在进行下采样时，可以使用U-Net结构的encoder-decoder模型的encoder模块进行下采样，encoder模块由卷积层，下采样层和激活函数构成，从而可以利用encoder模块完成下采样喝编码；可以理解的是，下采样的倍率可以根据需要进行设定。

得到第一级图像特征数据后，编码融合图像特征数据获取单元120根据第一级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第一级图像特征数据进行融合，得到第一级编码融合图像特征数据。

由于经过了下采样，第一级图像特征数据的尺寸发生了变换，为了保证唇形特征与第一级图像特征数据的融合，就需要对唇形特征进行尺寸调整，使其与第一级图像特征数据的唇形区域尺寸相同，在一种具体是实施方式中，可以通过全链接层进行处理。

得到了与第一级图像特征数据的唇形区域尺寸相同的唇形特征，再利用encoder-decoder模型的encoder模块，将唇形特征融合至第一级图像特征数据的唇形区域所在的位置，从而可以得到融合了唇形特征之后的特征图像，即编码融合图像特征数据。

得到第一级编码融合图像特征数据后，第N+1级图像特征数据获取单元130在其基础上进行进一步的下采样编码，同样可以利用encoder-decoder模型的encoder模块，得到第N+1级图像特征数据。

编码图像特征获取单元140根据第N+1级图像特征数据中的唇形区域的尺寸调整唇形特征，并根据唇形区域所在的位置将调整后的唇形特征与第N+1级图像特征数据进行融合，得到第N+1级编码融合图像特征数据；然后将调整后的下采样编码次数与预定下采样编码次数进行比较，判断下采样编码次数是否达到预定下采样编码次数，如果达到，则已经完成了唇形特征与第N+1级图像特征数据融合的次数要求，得到最后一级编码融合图像特征数据；如果未达到，则需要继续进行唇形特征与下一级图像特征数据的融合，直至达到预定采样级数，再对最后一级编码融合图像特征数据进行编码，对其进行卷积运算，但无需进一步下采样，进一步获取最后一级编码融合唇形特征的编码图像特征，为获取基于语音的图像做好准备。

可见，本发明实施例所提供的图像处理装置，一方面，利用语音生成唇形特征，然后将唇形特征融合至对应的图像特征数据，为后续生成唇部图像做好准备，而无需将语音转换为唇部关键点，降低了语音信息的丢失程度，为后续生成更为真实的唇部图像提供了基础；另一方面，通过至少2次唇形特征与对应的图像特征数据的融合，并且在后的唇形特征与对应的图像特征数据的融合是在在先融合的图像特征数据的基础上，从而可以通过多次的运算来进一步提高所得到的编码融合图像特征数据和编码图像特征的准确性，为生成更为自然和真实的唇部图像提供了基础；同时生成过程也较为简单，缩短了运算时间，提高了运算效率。

为了最终获取基于语音的图像，还需要对基于前述步骤获得图像特征和各级编码融合图像特征数据进行进一步的解码，为此，请继续参考图7，在另一种具体实施方式中，本发明实施例所提供的图像处理装置还可以包括：

解码图像特征数据获取单元150，适于结合最后一级编码融合图像特征数据，对编码图像特征进行上采样解码，得到第一级解码图像特征数据，并记录上采样解码次数为1；

替换后的唇形图像获取单元160，适于结合倒数第M级编码融合图像特征数据，对第M-1级解码图像特征数据进行解码，得到第M级解码图像特征数据，并调整上采样解码次数为M次，直至上采样解码次数达到预定下采样编码次数，得到已替换唇形的第二图像，其中M为正整数，且M＞1。

解码图像特征数据获取单元150，同时结合对最后一级编码融合图像特征数据进行进一步编码得到的图像特征以及最后一级编码融合图像特征数据，利用相应的解码模块进行解码，得到解码图像特征数据，即第一级解码图像特征数据；另一方面，为了确定是否完成解码，还需要记录上采样解码次数。

在一种具体实施方式中，可以利用encoder-decoder模型的decoder模块进行上采样解码，decoder模块包括卷积层，上采样层和激活函数，从而可以利用decoder模块完成上采样编码；可以理解的是，上采样的倍率应与最后一级下采样的倍率的倒数相同。

得到第一级解码图像特征数据后，替换后的唇形图像获取单元160进一步获取替换后的唇形图像。

具体在进行上采样解码时，为了提高解码后所得到图像特征数据的准确性，可以结合倒数同一级的编码融合图像特征数据对上一级解码图像特征数据进行解码。

将调整后的上采样解码次数与预定下采样编码次数进行比较，判断上采样编码次数是否达到预定下采样编码次数，如果达到，则已经解码完成，得到已替换唇形的第二图像；如果未达到，则需要继续进行上采样解码，直至得到已替换唇形的第二图像。

可以看出，发明实施例所提供的图像处理装置，在得到各级编码融合图像特征数据和图像特征后，再结合编码融合图像特征数据和解码图像特征数据对解码图像特征数据进行解码，保证了解码过程的准确性，从而进一步保证了所得到的唇部图像的自然形和真实形，提高了根据语音所获得的视频图像帧的唇形的真实性。

当然，在另一种具体实施方式中，如果第一图像和唇形特征获取单元100获取的第一图像为包含人脸的第三图像时，所得到的替换后的唇形图像即为替换后的人脸唇形图像，为了使替换后的人脸唇形图像与其他图片中的内容相匹配，还可以将所得到的唇形图像按照人脸关键点进行还原，以得到替换图像。

为解决所述问题，本发明实施例还提供一种设备，可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的图像处理装置；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图8示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的图像处理方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的图像处理方法。

本发明实施例中，电子设备可以是能够进行图像处理的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图8所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；处理器1可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

为解决所述问题，本发明实施例还提供一种存储介质，存储介质适于基于语音进行图像处理的程序，当该程序被处理器执行时可以实现如上所述图像处理方法。

本发明实施例所提供的本发明实施例所提供的存储介质所存储的计算机可执行指令，一方面，利用语音生成唇形特征，然后将唇形特征融合至对应的图像特征数据，为后续生成唇部图像做好准备，而无需将语音转换为唇部关键点，降低了语音信息的丢失程度，为后续生成更为真实的唇部图像提供了基础；另一方面，通过至少2次唇形特征与对应的图像特征数据的融合，并且在后的唇形特征与对应的图像数据的融合是在在先融合的特征图像的基础上，从而可以通过多次的运算来进一步提高所得到的编码融合图像特征数据和编码图像特征的准确性，为生成更为自然和真实的唇部图像提供了基础；同时生成过程也较为简单，缩短了运算时间，提高了运算效率.

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

Claims

1.一种图像处理方法，其特征在于，包括：

2.如权利要求1所述的图像处理方法，其特征在于，还包括：

3.如权利要求2所述的图像处理方法，其特征在于，所述获取待替换唇形的第一图像的步骤包括：

获取包含人脸的第三图像；

对所述第三图像的唇形区域进行裁剪，抠除所述唇形区域得到所述待替换唇形的第一图像。

4.如权利要求3所述的图像处理方法，其特征在于，所述对所述第三图像的唇形区域进行裁剪，抠除所述唇形区域得到所述待替换唇形的第一图像的步骤包括：

对所述第三图像进行唇部关键点检测，得到唇部关键点；

根据所述唇部关键点获取所述第三图像的唇形区域，对所述唇形区域进行裁剪，抠除所述唇形区域得到所述第一图像。

5.如权利要求4所述的图像处理方法，其特征在于，所述获取包含人脸的第三图像的步骤还包括：

获取第四图像；

对所述第四图像进行人脸关键点检测，得到人脸关键点；

根据所述人脸关键点获取所述第四图像的人脸区域，裁剪出所述人脸区域，作为所述第三图像。

6.如权利要求5所述的图像处理方法，其特征在于，还包括：

将所述已替换唇形的第二图像按照所述人脸关键点进行还原，得到替换图像。

7.如权利要求1-6任一项所述的图像处理方法，其特征在于，所述获取语音对应的唇形特征的步骤包括：

获取语音；

对所述语音的音频进行音量归一化处理，得到音量归一化音频；

提取所述音量归一化音频的语音特征；

对所述语音特征进行编码，获取与所述语音特征对应的唇形特征。

8.一种图像处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-7任一项所述的图像处理方法。

10.一种存储介质，其特征在于，所述存储介质存储有适于基于语音进行图像处理的程序，所述程序被处理器执行以实现如权利要求1-7任一项所述的图像处理方法。