CN115965724B - 图像生成方法及装置、计算机可读存储介质、终端 - Google Patents
图像生成方法及装置、计算机可读存储介质、终端 Download PDFInfo
- Publication number
- CN115965724B CN115965724B CN202211675468.1A CN202211675468A CN115965724B CN 115965724 B CN115965724 B CN 115965724B CN 202211675468 A CN202211675468 A CN 202211675468A CN 115965724 B CN115965724 B CN 115965724B
- Authority
- CN
- China
- Prior art keywords
- lip
- image
- coefficients
- face image
- audio content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Processing (AREA)
Abstract
一种图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:获取音频内容信息;根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。本申请提供的方案有利于使脸部图像中的唇形更加准确。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像生成方法及装置、计算机可读存储介质、终端。
背景技术
近年来,元宇宙相关技术的发展受到广泛关注,其中,虚拟现实技术是元宇宙相关技术中的重要一项。虚拟现实技术通过多种技术实时生成逼真的虚拟环境,用户可以通过特定的设备进入虚拟环境中并进行交互。在虚拟现实技术中,图像生成是最核心的任务之一。如何生成高质量的脸部图像是当下研究的热点之一。
发明内容
本申请实施例提供一种图像生成方法及装置、计算机可读存储介质、终端,有利于生成高质量的脸部图像。
为解决上述技术问题,本申请实施例提供一种图像生成方法,所述方法包括:获取音频内容信息;根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。
可选的,根据所述音频内容信息得到N组系数包括:将所述音频内容信息输入至预先训练得到的参数计算模型,得到所述参数计算模型输出的所述N组系数。
可选的,所述参数计算模型的训练方法包括:获取样本脸部图像和对应的样本音频内容信息,所述样本脸部图像具有预先标注的多个唇部关键点;
可选的,对所述多个唇部关键点进行曲线拟合,得到所述N组样本系数;将所述N组样本系数和所述对应的样本音频内容信息作为训练数据,对第一预设模型进行训练,直至模型收敛,得到所述参数计算模型。
可选的,所述多个唇部关键点包括:第一嘴角点和第二嘴角点,对多个唇部关键点进行曲线拟合,得到所述N组样本系数包括:对所述多个唇部关键点进行坐标变换,变换后的第一嘴角点和变换后的第二嘴角点均位于第一坐标轴上,且关于第二坐标轴对称;对变换后的多个唇部关键点进行曲线拟合,得到所述N组样本系数。
可选的,将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型之前,所述方法还包括:确定所述唇形图像中唇形的中心点位置和旋转角度;对所述唇形图像中的唇形进行平移,和/或,对所述唇形图像中的唇形进行旋转,得到变换后的唇形图像;其中,所述变换后的唇形图像中唇形的中心点位置和所述预设脸部图像中唇部区域的中心点位置相匹配,且所述变换后的唇形图像中唇形的旋转角度和所述预设脸部图像中唇部区域的旋转角度相匹配。
可选的,所述唇形图像中的唇形包括:上唇线条和下唇线条,确定所述唇形图像中唇形的中心点位置和旋转角度包括:根据所述上唇线条和下唇线条对应的函数表达式,确定第一交点和第二交点;将所述第一交点和第二交点所在线段的中点作为所述中心点,以及将所述线段和所述第一坐标轴的夹角作为所述旋转角度。
可选的,将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像包括:将所述唇形图像和所述预设脸部图像在通道方向上进行拼接,得到拼接后图像;将所述拼接后图像输入至所述图像融合模型,得到所述目标脸部图像。
本申请实施例还提供一种图像生成装置,包括:获取模块,用于获取音频内容信息;函数确定模块,用于根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;唇形生成模块,用于根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;;图像融合模块,用于将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述的图像生成方法的步骤。
本申请实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述的图像生成方法的步骤。
与现有技术相比,本申请实施例的技术方案具有以下有益效果:
本申请实施例的方案中,获取音频内容信息,然后根据音频内容信息得到N组系数,将N组系数代入通用函数以得到N组函数表达式。进一步地,根据N个函数表达式绘制得到N个唇部线条,得到唇形图像,唇形图像中的唇形由N个唇部线条组合形成;然后将唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到图像融合模型输出的目标脸部图像。
上述方案中,采用N个函数表达式表征唇部图像中的唇形,根据音频内容信息生成N组系数,将N组系数代入通用函数即可得到N个表达式。由于N组系数是基于音频内容信息生成的,因此基于N组系数得到的N个函数表达式刻画的唇形和音频内容信息相适配。最后将唇部图像和预设脸部输入图像融合模型,得到目标脸部图像。由于唇部图像中唇形与音频内容信息相适配,因此生成的目标脸部图像也和音频内容信息也相适配。本申请实施例的方案中,根据音频内容信息得到N个用于体现唇部形态的函数表达式,然后再基于N个函数表达式刻画的唇形图像生成目标脸部图像。因此,相较于直接基于音频内容直接生成脸部图像的方案,能够更加稳定地获取准确的唇形。
进一步,本申请实施例的方案中,将音频内容信息输入至预先训练得到的参数计算模型,得到参数计算模型输出的所述N组系数。采用基于深度学习算法训练模型学习音频内容信息和函数系数之间的关联,能够更加准确地计算函数表达式的系数,从而使得绘制得到的唇形图像更加准确。
进一步,本申请实施例的方案中,在训练参数计算模型的过程中,先对唇部关键点进行坐标变换,使得变换后的第一嘴角点和变换后的第二嘴角点均位于第一坐标轴上,且关于第二坐标轴对称,然后对变换后的多个唇部关键点进行曲线拟合,得到N组样本系数,再采用N组样本系数作为训练数据的一部分进行训练。采用这样的方案,通过使训练数据中的样本系数更加标准化,得到的样本函数表达式仅用于刻画样本唇形,而不体现唇部的位置等噪声信息,使得参数计算模型能够更加准确地学习音频内容信息和函数系数之间的关联,从而在模型使用时得到的N组函数表达式能够准确地刻画与音频内容信息匹配的唇形。
附图说明
图1是本申请实施例中一种图像生成方法的流程示意图;
图2是本申请实施例中一种唇形图像的示意图;
图3是本申请实施例中一种参数计算模型的训练方法的流程示意图;
图4是本申请实施例中一种图像生成装置的结构示意图。
具体实施方式
如背景技术所述,如何生成高质量的脸部图像是当下研究的热点之一。在虚拟现实技术中,如何使生成的脸部图像中的唇形与音频相适配是业内目前关注的技术问题。随着计算设备算力的提升,可以考虑基于深度学习算法生成脸部图像。例如,将音频和脸部图像作为训练数据对模型进行训练,以学习音频和脸部图像中唇形之间的关联关系。然而,这种方法依赖的训练数据较多,并且在实际的实施中,由于输入误差和噪声的影响,这种方案也容易出现模型不稳定,在一些情况下并不能生成较为准确的脸部图片的问题。
有鉴于此,本申请实施例提供一种图像生成方法,本申请实施例的方案中,获取音频内容信息,然后根据音频内容信息得到N组系数,将N组系数代入通用函数以得到N组函数表达式。进一步地,根据N个函数表达式绘制得到N个唇部线条,得到唇形图像,唇形图像中的唇形由N个唇部线条组合形成;然后将唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到图像融合模型输出的目标脸部图像。
上述方案中,采用N个函数表达式表征唇部图像中的唇形,根据音频内容信息生成N组系数,将N组系数代入通用函数即可得到N个表达式。由于N组系数是基于音频内容信息生成的,因此基于N组系数得到的N个函数表达式刻画的唇形和音频内容信息相适配。最后将唇部图像和预设脸部输入图像融合模型,得到目标脸部图像。由于唇部图像中唇形与音频内容信息相适配,因此生成的目标脸部图像也和音频内容信息也相适配。本申请实施例的方案中,根据音频内容信息得到N个用于体现唇部形态的函数表达式,然后再基于N个函数表达式刻画的唇形图像生成目标脸部图像。因此,相较于直接基于音频内容直接生成脸部图像的方案,能够更加稳定地获取准确的唇形。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,图1是本申请实施例中一种图像生成方法的流程示意图。所述方法可以由终端执行,所述终端可以是各种恰当的终端,例如,可以是手机、计算机、物联网设备等,但并不限于此。本申请实施例中生成的脸部图像可以是人脸图像,例如,也可以是真实人脸的图像,也可以是虚拟人物的脸部图像。或者,脸部图像还可以是虚拟动物等虚拟形象的脸部图像,本实施例对此并不限制。
图1示出的图像生成方法可以包括:
步骤S11:获取音频内容信息;
步骤S12:根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;
步骤S13:根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;
步骤S14:将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。
可以理解的是,在具体实施中,上述方法可以采用软件程序的方式实现,该软件程序运行于芯片或芯片模组内部集成的处理器中;或者,该方法可以采用硬件或者软硬结合的方式来实现,例如用专用的芯片或芯片模组来实现,或者,用专用的芯片或芯片模组结合软件程序来实现。
在步骤S11的具体实施中,可以获取音频内容信息,所述音频内容信息可以是用于驱动脸部唇形的发音单元(如音节、字、词等)。例如,音频内容信息可以是基于音频信息提取的发音单元,或者,可以是基于文本信息生成的发音单元,本实施例对此并不限制。文本信息和音频信息的内容是相同的,但表现形式不同。需要说明的是,任意长度的语音都可以拆分成一个或多个发音单元的组合,也即,发音单元是构建语音的基本元素。
在具体实施中,音频内容信息具有时间码,基于音频内容信息依次执行步骤S11至步骤S14之后得到的目标脸部图像也具有与音频内容信息相同的时间码。对按照时序排列的多个音频内容信息依次执行步骤S11至步骤S14,可以得到按照时序排列的多个目标脸部图像,从而可以得到脸部视频,且脸部视频中的唇形与音频保持同步。
在步骤S12的具体实施中,通用函数是预先设置的,例如可以是多项式函数。通用函数具有多个系数,至少一部分系数的值待定。根据音频内容信息得到N组系数,其中,每组系数可以包括多个系数,各组系数的数量可以是相同的。其中,N为大于1的整数。例如,每组系数可以包括M个系数,M为大于1的整数。在具体实施中,N和M均可以是预先设置的值。
在一个例子中,可以将音频内容信息输入至预先训练得到的参数计算模型,得到参数计算模型输出的N组系数。也即,通过神经网络模型学习音频内容信息和用于刻画唇形的函数系数之间的关联关系,从而采用训练得到的模型计算音频内容信息匹配的N组系数。
关于参数计算模型的训练方法的内容可以参照下文关于图3的相关描述。
在另一个例子中,可以预先设置有系数库,其中,系数库可以包括多个发音单元以及每个发音单元对应的N组系数。执行步骤S11获取当前的发音单元之后,可以从系数库中查找并读取对应的N组系数。如果系数库中未查找到对应的N组系数,则可以选取与当前的发音单元最相近的发音单元对应的N组系数,作为当前的发音单元对应的N组系数。
进一步地,可以将N组系数代入通用函数,得到N个函数表达式。其中,通用函数可以是预先设置的,N个函数表达式对应同一个通用函数。在其他实施例中,N个函数表达式也可以对应不同的通用函数。
在一个示例中,通用函数为多项式函数。具体地,通用函数可以表示为:
其中,ai为系数,1≤i≤M,且i为正整数。在一个例子中,M=4。
假设N=6,执行步骤S12之后,可以得到N个函数表达式,也即:f1(x)、f2(x)、f3(x)、f4(x)、f5(x)和f6(x)。
需要说明的是,通用函数也可以是其他类型的函数。例如,可以是高斯函数等,但并不限于此。
在步骤S13的具体实施中,根据步骤S12得到N个函数表达式在空白图像中绘制N个唇部线条,从而得到唇形图像,换言之,唇形图像包含由N个唇部线条组合形成的唇形。其中,唇部线条和函数表达式一一对应。唇形图像中的唇形示出唇部的轮廓,其中每一唇部线条为轮廓的一部分。
在具体实施中,可以通过取点连线的方式绘制得到N个唇部线条。
具体地,对于每个函数表达式f(x),在二维坐标系中,可以随机取一定数量的横坐标x的值,然后分别将每个x的值分别代入f(x),得到对应的纵坐标y的值,从而得到该函数表达式对应的点。进一步地,采用直线将相邻的两个点连接,即可绘制得到该函数表达式对应的唇形线条。由此可以得到N个唇形线条。
参照图2,图2是本申请实施例中一种唇形图像的示意图。具体地,图2示出的唇形图像由线条①、线条②、线条③、线条④、线条⑤和线条⑥组合形成。
具体而言,本实施例中唇形图像包括上唇线条和下唇线条。例如,图2中示出的唇形图像中上唇线条包括:线条①、线条②、线条③、线条④;下唇线条包括:线条⑤和线条⑥。
更具体地,上唇线条包括外圈上唇线条和内圈上唇线条,下唇线条包括:外圈下唇线条和内圈下唇线条。例如,图2示出的唇形图像中,外圈上唇线条包括:线条①和线条②,内圈上唇线条包括:线条③和线条④,外圈下唇线条为线条⑥,内圈下唇线条为线条⑤。
继续参照图1,在步骤S14的具体实施中,将得到的唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到图像融合模型输出的目标脸部图像。
其中,预设脸部图像中的唇形可以是标准化的唇形,或者,也可以是任意形态的唇形。其中,标准化的唇形可以是指各个唇部关键点的位置均位于设定的位置。此外,预设脸部图像还可以包括除唇形以外的其他脸部信息,本申请实施例对此并不限制。需要说明的是,本申请实施例的方案中,空白图像的尺寸和预设脸部图像的尺寸是一致的,也即,唇形图像和预设脸部图像的尺寸也是一致的。
在具体实施中,可以将唇形图像和预设脸部图像在通道方向上进行拼接,得到拼接后图像。以唇形图像和预设脸部图像均为三通道图像,则拼接后图像为六通道图像。
进一步地,将拼接后图像输入至图像融合模型,由图像融合模型对拼接后图像进行处理,得到目标脸部图像。其中,目标脸部图像中的唇形与唇形图像相适配,由于唇形图像与音频内容信息相适配,因此,目标脸部图像中的唇形与音频内容信息相适配。更具体地,目标脸部图像中的唇形和发音单元的发音相适配。
本申请实施例的方案中,图像融合模型可以是采用训练数据对第二预设模型进行训练得到的,其中,训练数据可以包括:样本唇形图像和样本脸部图像,样本唇形图像中的唇形可以由N条样本唇部线条组合形成,样本唇形图像中的唇形和样本脸部图像中的唇形相适配或者一致。第二预设模型可以包括编码器和解码器,其中,编码器和解码器可以包括卷积层,且不同的卷积层之间可以跳层连接。
其中,图像融合模型的训练方法可以包括:采用样本唇形图像和样本脸部图像对第二预设模型训练,直至模型收敛。例如,可以采用梯度下降法进行训练直至模型收敛,得到图像融合模型。其中,经过训练,图像融合模型可以具备基于唇形图像和预设脸部图像计算生成唇形与唇形图像中的唇形相适配的目标脸部图像。也即,唇形图像中的唇形对于目标脸部图像中的唇形而言可以视为一个唇形的模板,通过步骤S14可以将预设脸部图像的唇形具有唇形模板的形态或姿态。也即,本申请实施例的方案中,实时地为预设脸部图像提供一个与发音单元匹配的唇形模板,以生成唇形与发音单元匹配的目标脸部图像。
需要说明的是,本申请实施例中的唇形图像仅包括线条,仅用于调整预设脸部图像中的唇形,并不改变唇部的颜色等其他状态。
参照图3,图3是本申请实施例中一种参数计算模型的训练方法的流程示意图。如图3所示,参数计算模型的训练方法可以包括:步骤S31至步骤S33。
步骤S31,获取样本脸部图像和对应的样本音频内容信息,所述样本脸部图像具有预先标注的多个唇部关键点。
其中,样本脸部图像中的唇形和样本音频内容信息相适配,也即,样本脸部图像中的唇形和样本音频内容信息的发音相匹配。
步骤S32,对所述多个唇部关键点进行曲线拟合,得到所述N组样本系数。
在具体实施中,对样本脸部图像中标注的多个唇部关键点进行曲线拟合,得到N组样本系数。
更具体地,可以分别对位于上唇外圈的多个唇部关键点进行拟合,对位于上唇内圈的多个唇部关键点进行拟合,对位于下唇外圈的多个唇部关键点进行拟合,以及对位于下唇内圈的多个唇部关键点进行拟合。曲线拟合的具体方法可以是现有的各种适当的曲线拟合方法,本实施例对此并不限制。
步骤S33,将所述N组样本系数和所述对应的样本音频内容信息作为训练数据,对第一预设模型进行训练,直至模型收敛,得到所述参数计算模型。
在具体实施中,可以采用梯度下降法对第一预设模型进行训练,直至模型收敛,以使得参数计算模型能够基于音频内容信息计算得到用于刻画与音频内容信息相匹配的唇形线条的函数表达式的系数。
在本申请的一个实施例中,可以联合训练参数计算模型和图像融合模型。
具体而言,在步骤S32之后且在步骤S33之前,可以将N组样本系数代入通用函数,得到N个样本函数表达式;然后根据N个样本函数表达式绘制得到N个样本唇部线条,从而得到样本唇形图像。
由此,可以得到第一预设模型的训练数据:样本音频内容信息和样本系数,以及第二预设模型的训练数据:样本唇部图像和样本人脸图像。
进一步地,可以采用两种训练数据对第一预设模型和第二预设模型进行联合训练,从而得到参数计算模型和图像融合模型。
在本申请的另一个实施例中,在步骤S32之前,可以先对各个唇部关键点进行坐标变换。其中,变换后的第一嘴角点和变换后的第二嘴角点均位于第一坐标轴上,且变换后的第一嘴角点和变换后的第二嘴角点关于第二坐标轴对称。其中,第一坐标轴和第二坐标轴可以分别是x轴和y轴。坐标变换可以包括:平移和/或旋转。
进一步地,在步骤S33中,对变换后的多个唇部关键点进行曲线拟合,得到N组样本系数。也即,基于变化后的唇部关键点进行曲线拟合,得到N组样本系数。由此,N个样本函数表达式刻画的唇部线条仅具有唇形的信息,并不具有唇部在脸部图像上的位置、旋转角度等其他信息,用于训练第一预设模型的样本系数更加标准化。通过训练,使得参数计算模型能够更加准确地学习到音频内容信息和函数系数之间的关联。由此,可以使得参数计算模型计算得到系数更加准确,不受噪声的干扰,这里的噪声可以是指除音频内容信息以外的其他信息。
在本申请的又一个实施例中,在得到唇形图像之后,且在将唇形图像和预设脸部输入至图像融合模型之前,还可以对唇形图像中的唇形进行坐标变换。具体而言,在实际应用中,噪声通常是不可避免的,为此,唇形图像中绘制得到的唇形的中心点可能偏移原点,和/或可能具有一定的旋转角度。
为此,本申请的方案中,可以确定唇形图像中唇形的中心点位置和旋转角度。
在具体实施中,可以根据上唇线条和下唇线条对应的函数表达式,确定第一交点和第二交点;将第一交点和第二交点所在线段的中点作为唇形图像中唇形的中心点,以及将第一交点和第二交点所在线段和所述第一坐标轴的夹角作为唇形图像中唇形的旋转角度,所述夹角是指所述线段和第一坐标轴之间的锐角。
在具体实施中,可以根据外圈上唇线条和外圈下唇线条对应的函数表达式,确定第一交点和第二交点。如图2所示,外圈上唇线条②和外圈下唇线条⑥的交点为第一交点A,外圈上唇线条①和外圈下唇线条⑥的交点为第一交点B。
在其他实施例中,也可以根据内圈上唇线条和内圈下唇线条对应的函数表达式,确定第一交点和第二交点。
相应的,还可以获取预设脸部图像中唇部区域的中心点位置和旋转角度,其中,预设脸部图像中唇部区域的中心点位置为第一嘴角点和第二嘴角点之间的线段的中点,以及将第一嘴角点和第二嘴角点所在线段和所述第一坐标轴的夹角作为预设脸部图像中唇部区域的旋转角度。
进一步地,根据预设脸部图像中唇部区域的中心点位置对唇形图像中的唇形平移,和/或,根据预设脸部图像中唇部区域的旋转角度对唇形图像中的唇形进行旋转,得到变换后的唇形图像。其中,变换后的唇形图像中唇形的中心点位置和预设脸部图像中唇部区域的中心点位置相匹配,且变换后的唇形图像中唇形的旋转角度和预设脸部图像中唇部区域的旋转角度相匹配。进一步地,将变换后的唇形图像和预设脸部图像输入至图像融合模型,得到目标脸部图像。
通过执行上述步骤,唇形在唇形图像中的位置和角度与预设脸部图像唇形的位置和角度相一致。采用这样的方案有利于使生成的目标脸部图像更加准确。
在本申请的再一个实施例中,在执行步骤S14之前,还可以对得到的N组系数进行验证,以判断N组系数是否合理。如果验证得到步骤S12中N组系数不合理,则可以重新获取N组系数。
在一个例子中,可以预先设置N个唇部线条的相关关系,以采用所述相关关系对N组系数进行验证。作为一个示例,N个唇部线条的相关关系可以包括:上唇线条位于下唇线条之上,外圈线条位于内圈萧条之外。
在另一个例子中,可以预先设置一个或多个交点的允许范围,如果唇部线条之间的交点超出允许范围,则可以确定N组系数不合理。作为一个示例,可以预先设置第一交点和第二交点的允许范围,得到第一交点和第二交点之后,可以分别判断第一交点是否超出第一交点的允许范围,以及第二交点是否超出第二交点的允许范围,如果任意一个交点超出允许范围,则可以确定系数不准确。
参照图4,图4是本申请实施例中一种图像生成装置的结构示意图。如图4所示,图4示出的图像生成装置可以包括:
获取模块41,用于获取音频内容信息;
函数确定模块42,用于根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;
唇形生成模块43,用于根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;
图像融合模块44,用于将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。
在具体实施中,图4示出的图像生成装置可以对应于终端中具有数据处理功能的芯片;或者对应于终端中包括具有数据处理功能的芯片或芯片模组,或者对应于终端。
关于本申请实施例中的图像生成装置的工作原理、工作方法和有益效果等更多内容,可以参照上文关于图像生成方法的相关描述,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述的图像生成方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本申请实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述的图像生成方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
应理解,本申请实施例中,所述处理器可以为中央处理单元(central processingunit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(application specific integrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(staticRAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
虽然本申请披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种图像生成方法,其特征在于,包括:
获取音频内容信息;
根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;
根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;
将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。
2.根据权利要求1所述的图像生成方法,其特征在于,根据所述音频内容信息得到N组系数包括:
将所述音频内容信息输入至预先训练得到的参数计算模型,得到所述参数计算模型输出的所述N组系数。
3.根据权利要求2所述的图像生成方法,其特征在于,所述参数计算模型的训练方法包括:
获取样本脸部图像和对应的样本音频内容信息,所述样本脸部图像具有预先标注的多个唇部关键点;
对所述多个唇部关键点进行曲线拟合,得到N组样本系数;
将所述N组样本系数和所述对应的样本音频内容信息作为训练数据,对第一预设模型进行训练,直至模型收敛,得到所述参数计算模型。
4.根据权利要求3所述的图像生成方法,其特征在于,所述多个唇部关键点包括:第一嘴角点和第二嘴角点,对多个唇部关键点进行曲线拟合,得到所述N组样本系数包括:
对所述多个唇部关键点进行坐标变换,变换后的第一嘴角点和变换后的第二嘴角点均位于第一坐标轴上,且关于第二坐标轴对称;
对变换后的多个唇部关键点进行曲线拟合,得到所述N组样本系数。
5.根据权利要求1所述的图像生成方法,其特征在于,将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型之前,所述方法还包括:确定所述唇形图像中唇形的中心点位置和旋转角度;
对所述唇形图像中的唇形进行平移,和/或,对所述唇形图像中的唇形进行旋转,得到变换后的唇形图像;
其中,所述变换后的唇形图像中唇形的中心点位置和所述预设脸部图像中唇部区域的中心点位置相匹配,且所述变换后的唇形图像中唇形的旋转角度和所述预设脸部图像中唇部区域的旋转角度相匹配。
6.根据权利要求5所述的图像生成方法,其特征在于,所述唇形图像中的唇形包括:上唇线条和下唇线条,确定所述唇形图像中唇形的中心点位置和旋转角度包括:
根据所述上唇线条和下唇线条对应的函数表达式,确定第一交点和第二交点;
将所述第一交点和第二交点所在线段的中点作为所述中心点,以及将所述线段和第一坐标轴的夹角作为所述旋转角度。
7.根据权利要求1所述的图像生成方法,其特征在于,将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像包括:
将所述唇形图像和所述预设脸部图像在通道方向上进行拼接,得到拼接后图像;
将所述拼接后图像输入至所述图像融合模型,得到所述目标脸部图像。
8.一种图像生成装置,其特征在于,包括:
获取模块,用于获取音频内容信息;
函数确定模块,用于根据所述音频内容信息得到N组系数,将所述N组系数代入通用函数以得到N个函数表达式,N为大于1的整数;
唇形生成模块,用于根据所述N个函数表达式在空白图像中绘制N个唇部线条,得到唇形图像,所述N个唇部线条组合形成所述唇形图像中的唇形;图像融合模块,用于将所述唇形图像和预设脸部图像输入至预先训练得到的图像融合模型,得到所述图像融合模型输出的目标脸部图像,其中,所述目标脸部图像中的唇形与所述唇形图像相适配。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时,执行权利要求1至7中任一项所述的图像生成方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至7中任一项所述的图像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211675468.1A CN115965724B (zh) | 2022-12-26 | 2022-12-26 | 图像生成方法及装置、计算机可读存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211675468.1A CN115965724B (zh) | 2022-12-26 | 2022-12-26 | 图像生成方法及装置、计算机可读存储介质、终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115965724A CN115965724A (zh) | 2023-04-14 |
CN115965724B true CN115965724B (zh) | 2023-08-08 |
Family
ID=87359590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211675468.1A Active CN115965724B (zh) | 2022-12-26 | 2022-12-26 | 图像生成方法及装置、计算机可读存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965724B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101199208A (zh) * | 2005-04-13 | 2008-06-11 | 皮克索尔仪器公司 | 使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品 |
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN105551071A (zh) * | 2015-12-02 | 2016-05-04 | 中国科学院计算技术研究所 | 一种文本语音驱动的人脸动画生成方法及系统 |
WO2018027148A1 (en) * | 2016-08-05 | 2018-02-08 | Nok Nok Labs, Inc. | Authentication techniques including speech and/or lip movement analysis |
CN114220172A (zh) * | 2021-12-16 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种唇动识别的方法、装置、电子设备和存储介质 |
CN114550239A (zh) * | 2022-01-27 | 2022-05-27 | 华院计算技术(上海)股份有限公司 | 视频生成方法及装置、存储介质、终端 |
CN115376211A (zh) * | 2022-10-25 | 2022-11-22 | 北京百度网讯科技有限公司 | 唇形驱动方法、唇形驱动模型的训练方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613450B2 (en) * | 2011-05-03 | 2017-04-04 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech |
-
2022
- 2022-12-26 CN CN202211675468.1A patent/CN115965724B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101199208A (zh) * | 2005-04-13 | 2008-06-11 | 皮克索尔仪器公司 | 使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品 |
CN101199207A (zh) * | 2005-04-13 | 2008-06-11 | 皮克索尔仪器公司 | 用于独立于说话者特征测量音频视频同步的方法、系统和程序产品 |
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN105551071A (zh) * | 2015-12-02 | 2016-05-04 | 中国科学院计算技术研究所 | 一种文本语音驱动的人脸动画生成方法及系统 |
WO2018027148A1 (en) * | 2016-08-05 | 2018-02-08 | Nok Nok Labs, Inc. | Authentication techniques including speech and/or lip movement analysis |
CN114220172A (zh) * | 2021-12-16 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种唇动识别的方法、装置、电子设备和存储介质 |
CN114550239A (zh) * | 2022-01-27 | 2022-05-27 | 华院计算技术(上海)股份有限公司 | 视频生成方法及装置、存储介质、终端 |
CN115376211A (zh) * | 2022-10-25 | 2022-11-22 | 北京百度网讯科技有限公司 | 唇形驱动方法、唇形驱动模型的训练方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
融合生理信息的多模态唇读技术研究;杨帆;《中国优秀硕士学位论文全文数据库信息科技辑》(第06期);I138-1075 * |
Also Published As
Publication number | Publication date |
---|---|
CN115965724A (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209775A1 (en) | Image Processing Method and Apparatus, and Computer Readable Storage Medium | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
US10902283B2 (en) | Method and device for determining handwriting similarity | |
WO2023050650A1 (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN108229301B (zh) | 眼睑线检测方法、装置和电子设备 | |
CN112733797B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN108491808B (zh) | 用于获取信息的方法及装置 | |
KR102211763B1 (ko) | 글자 검출 장치, 방법 및 시스템 | |
CN109948441B (zh) | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111639527A (zh) | 英文手写文本识别方法、装置、电子设备及存储介质 | |
CN110378986B (zh) | 一种习题演示动画生成方法、装置、电子设备和存储介质 | |
WO2023284608A1 (zh) | 字符识别模型生成方法、装置、计算机设备和存储介质 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
WO2023231182A1 (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN113378852A (zh) | 关键点检测方法、装置、电子设备及存储介质 | |
CN111598087A (zh) | 不规则文字的识别方法、装置、计算机设备及存储介质 | |
Fowley et al. | Sign Language Fingerspelling Recognition using Synthetic Data. | |
CN111986117A (zh) | 一种算术作业批改系统及方法 | |
US20220207917A1 (en) | Facial expression image processing method and apparatus, and electronic device | |
CN114742722A (zh) | 文档矫正方法、装置、电子设备及存储介质 | |
US11836839B2 (en) | Method for generating animation figure, electronic device and storage medium | |
CN115965724B (zh) | 图像生成方法及装置、计算机可读存储介质、终端 | |
CN111815748B (zh) | 一种动画处理方法、装置、存储介质及电子设备 | |
CN116071472B (zh) | 图像生成方法及装置、计算机可读存储介质、终端 | |
CN116630992A (zh) | 一种字帖网格文字智能匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |