CN115223214A - 合成嘴型人脸的识别方法、模型获取方法、装置和设备 - Google Patents

合成嘴型人脸的识别方法、模型获取方法、装置和设备 Download PDF

Info

Publication number
CN115223214A
CN115223214A CN202110406215.3A CN202110406215A CN115223214A CN 115223214 A CN115223214 A CN 115223214A CN 202110406215 A CN202110406215 A CN 202110406215A CN 115223214 A CN115223214 A CN 115223214A
Authority
CN
China
Prior art keywords
face
mouth
image
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110406215.3A
Other languages
English (en)
Inventor
陈法圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110406215.3A priority Critical patent/CN115223214A/zh
Publication of CN115223214A publication Critical patent/CN115223214A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本公开涉及人工智能技术领域,提供了一种合成嘴型人脸的识别方法、模型获取方法、装置和设备。该方法包括:对样本图像进行人脸特征点检测得到第一人脸特征数据;将第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据语音转嘴型合成模型的输出确定第二人脸特征数据;根据第一人脸特征数据和第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;将待识别图像输入至合成嘴型人脸识别模型,根据合成嘴型人脸识别模型的输出确定待识别图像是否为合成嘴型人脸图像。本技术方案能够有效识别出图像或视频中的合成嘴型人脸,从而降低由于合成嘴型人脸所引起的造谣、诈骗等行为的发生概率。

Description

合成嘴型人脸的识别方法、模型获取方法、装置和设备
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种合成嘴型人脸的识别方法与装置、一种合成嘴型人脸识别模型的获取方法与装置,以及实现上述方法的电子设备。
背景技术
随着人工智能技术的发展,虚拟人脸合成的技术也愈加成熟。例如,通过人工智能技术能够把视频画面与声音非常逼真的结合,并生成该人脸发出上述语音逼真效果。然而,该技术有可能为不法分子所利用,进而实施造谣、诈骗等行为。
为了尽量避免上述危害的发生,亟需提供一种合成嘴型人脸的识别方案。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种合成嘴型人脸的识别方法与装置、一种合成嘴型人脸识别模型的获取方法与装置,以及实现上述方法的计算机可读存储介质和电子设备,通过该方案提供的合成嘴型人脸的识别方案,能够有效识别出图像或视频中的合成嘴型人脸,从而提升合成嘴型人脸的识别准确度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种合成嘴型人脸的识别方法,包括:对样本图像进行人脸特征点检测得到第一人脸特征数据;将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据;根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;将待识别图像输入至上述合成嘴型人脸识别模型,根据上述合成嘴型人脸识别模型的输出确定上述待识别图像是否为合成嘴型人脸图像。
根据本公开的一个方面,提供一种合成嘴型人脸识别模型的获取方法,包括:对样本图像进行人脸特征点检测得到第一人脸特征数据;将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据;根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
在本公开的一些实施例中,基于前述方案,在对样本图像进行人脸特征点检测得到第一人脸特征数据之前,上述方法还包括:获取样本视频,对上述样本视频的视频帧进行抽帧,得到上述样本图像;对上述样本图像进行人脸检测以确定人脸区域;
对样本图像进行人脸特征点检测得到第一人脸特征数据,包括:对上述样本图像中的上述人脸区域进行人脸特征点检测,得到特征点数据;对上述特征点数据进行人脸对齐处理,将对人脸齐处理后图像中的特征数据确定为上述第一人脸特征数据。
在本公开的一些实施例中,基于前述方案,该方法还包括:对语音进行采样得到语音样本;对上述语音样本进行短时傅里叶变换,以将上述语音样本转换为语音频谱图;通过梅尔滤波器组对上述语音频谱图进行滤波,得到上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,在将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型之前,上述方法还包括:对上述样本图像进行图像增广处理,以通过增广处理后的样本图像确定上述第一人脸特征数据;对采集到的语音进行音频增广处理,以通过增广处理后的语音确定上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据,包括:根据上述预训练的语音转嘴型合成模型将上述待合成的音频特征数据转换为目标嘴型数据;根据上述预训练的语音转嘴型合成模型将上述目标嘴型数据与上述第一人脸特征数据进行融合处理,得到虚拟合成图像;根据上述虚拟合成图像确定上述第二人脸特征数据。
在本公开的一些实施例中,基于前述方案,根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型,包括:根据第i第一人脸特征数据和第i第二人脸特征数据确定第i组样本数据,上述第i第二人脸数据为根据上述第i第一人脸特征数据确定的;通过N组样本数据训练分类模型,得到上述合成嘴型人脸识别模型,i为不大于N的正整数。
在本公开的一些实施例中,基于前述方案,根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型,包括:根据上述第一人脸特征数据确定第一样本,以及根据上述第二人脸特征数据确定第二样本;根据上述第一样本以及上述第一样本的标签确定第一目标函数,以及根据上述第二样本以及上述第二样本的标签确定第二目标函数;根据上述第一目标函数和上述第二目标函数确定模型目标函数;通过最小化上述模型目标函数的函数值训练分类模型,得到合成嘴型人脸识别模型。
在本公开的一些实施例中,基于前述方案,根据上述第一人脸特征数据确定第一样本,包括:对上述样本图像进行预设角度范围内的旋转,得到第一组图像;对上述样本图像进行预设范围内的缩放,得到第二组图像;根据上述第一组图像中图像对应的人脸特征数据、上述第二组图像中图像对应的人脸特征数据,以及上述第一人脸特征数据确定上述第一样本。
在本公开的一些实施例中,基于前述方案,根据上述第一样本以及上述第一样本的标签确定第一目标函数,包括:将上述第一样本输入至上述合成嘴型人脸识别模型得到第一判别结果;根据上述第一判别结果和上述第一样本的标签的对数损失,确定上述第一目标函数。
在本公开的一些实施例中,基于前述方案,根据上述第一目标函数和上述第二目标函数确定模型目标函数,包括:确定上述第一目标函数的第一权重,以及确定上述第二目标函数的第二权重;根据上述第一权重、上述第一目标函数、上述第二权重和上述第二目标函数确定上述模型目标函数。
根据本公开的一个方面,提供了一种合成嘴型人脸的识别装置,包括:第一真实数据获取模块、第一合成数据获取模块、第一识别模型训练模块以及人脸识别模块。
其中,上述第一真实数据获取模块,被配置为:对样本图像进行人脸特征点检测得到第一人脸特征数据;上述第一合成数据获取模块,被配置为:将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据;上述第一识别模型训练模块,被配置为:根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;以及,上述人脸识别模块,被配置为:将待识别图像输入至上述合成嘴型人脸识别模型,根据上述合成嘴型人脸识别模型的输出确定上述待识别图像是否为合成嘴型人脸图像。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第一人脸区域确定模块。
其中,上述第一人脸区域确定模块被配置为:获取样本视频,对上述样本视频的视频帧进行抽帧,得到上述样本图像;以及,对上述样本图像进行人脸检测以确定人脸区域;
上述第一真实数据获取模块,被具体配置为:对上述样本图像中的上述人脸区域进行人脸特征点检测,得到特征点数据;对上述特征点数据进行人脸对齐处理,将人脸对齐处理后图像中的特征数据确定为上述第一人脸特征数据。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第一音频特征数据获取模块。
其中,上述第一音频特征数据获取模块被配置为:对语音进行采样得到语音样本;对上述语音样本进行短时傅里叶变换,以将上述语音样本转换为语音频谱图;通过梅尔滤波器组对上述语音频谱图进行滤波,得到上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第一图像增广模块和第一音频增广模块。
其中,上述第一图像增广模块被配置为:对上述样本图像进行图像增广处理,以通过增广处理后的样本图像确定上述第一人脸特征数据;上述第一音频增广模块被配置为:对采集到的语音进行音频增广处理,以通过增广处理后的语音确定上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,上述第一合成数据获取模块,被具体配置为:根据上述预训练的语音转嘴型合成模型将上述待合成的音频特征数据转换为目标嘴型数据;根据上述预训练的语音转嘴型合成模型将上述目标嘴型数据与上述第一人脸特征数据进行融合处理,得到虚拟合成图像;根据上述虚拟合成图像确定上述第二人脸特征数据。
在本公开的一些实施例中,基于前述方案,上述第一识别模型训练模块,被具体配置为:根据第i第一人脸特征数据和第i第二人脸特征数据确定第i组样本数据,上述第i第二人脸数据为根据上述第i第一人脸特征数据确定的;通过N组样本数据训练分类模型,得到上述合成嘴型人脸识别模型,i为不大于N的正整数。
在本公开的一些实施例中,基于前述方案,上述第一识别模型训练模块,包括:样本确定单元、目标函数确定单元和训练单元。
其中,上述样本确定单元被配置为:根据上述第一人脸特征数据确定第一样本,以及根据上述第二人脸特征数据确定第二样本;上述目标函数确定单元被配置为:根据上述第一样本以及上述第一样本的标签确定第一目标函数,以及根据上述第二样本以及上述第二样本的标签确定第二目标函数;根据上述第一目标函数和上述第二目标函数确定模型目标函数;上述训练单元被配置为:通过最小化上述模型目标函数的函数值训练分类模型,得到合成嘴型人脸识别模型。
在本公开的一些实施例中,基于前述方案,上述样本确定单元,被具体配置为:对上述样本图像进行预设角度范围内的旋转,得到第一组图像;对上述样本图像进行预设范围内的缩放,得到第二组图像;根据上述第一组图像中图像对应的人脸特征数据、上述第二组图像中图像对应的人脸特征数据,以及上述第一人脸特征数据确定上述第一样本。
在本公开的一些实施例中,基于前述方案,上述目标函数确定单元,被具体配置为:将上述第一样本输入至上述合成嘴型人脸识别模型得到第一判别结果;根据上述第一判别结果和上述第一样本的标签的对数损失,确定上述第一目标函数。
在本公开的一些实施例中,基于前述方案,上述目标函数确定单元,还被具体配置为:确定上述第一目标函数的第一权重,以及确定上述第二目标函数的第二权重;根据上述第一权重、上述第一目标函数、上述第二权重和上述第二目标函数确定上述模型目标函数。
在本公开的一些实施例中,基于前述方案,上述人脸识别模块,被具体配置为:获取待识别视频,对上述待识别视频的视频帧进行抽帧,得到上述待识别图像;对上述待识别图像进行人脸检测处理以确定人脸区域;对上述待识别图像中的人脸区域进行人脸特征点检测处理,得到特征点数据;对上述待识别图像中的特征点数据进行人脸对齐处理,并将人脸对齐处理之后的目标图像进行图像缩放后输入至上述合成嘴型人脸识别模型,根据上述合成嘴型人脸识别模型输出的识别结果确定上述待识别图像是否为合成嘴型人脸图。
根据本公开的一个方面,提供了一种合成嘴型人脸识别模型的获取装置包括:第二真实数据获取模块、第二合成数据获取模块以及第二识别模型训练模块。
其中,上述第二真实数据获取模块,被配置为:对样本图像进行人脸特征点检测得到第一人脸特征数据;上述第二合成数据获取模块,被配置为:将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据;上述第二识别模型训练模块,被配置为:根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
根据本公开的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的合成嘴型人脸的识别方法以及实现上述第二方面所述的合成嘴型人脸识别模型的获取方法。
根据本公开的一个方面,提供一种电子设备,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述第一方面所述的合成嘴型人脸的识别方法,以及实现上述第二方面所述的合成嘴型人脸识别模型的获取方法。
根据本公开的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质中读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各个实施例中提供的合成嘴型人脸的识别方法和合成嘴型人脸识别模型的获取方法。
由上述技术方案可知,本公开示例性实施例中的合成嘴型人脸的识别方法、合成嘴型人脸的识别装置、计算机可读存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,通过合成嘴型人脸识别模型来识别待识别图像属于合成嘴型人脸或真实人脸。例如,在发现待识别图像为合成嘴型人脸的情况下,可以向用户发出警告,以提升用户的警惕性,从而降低由于通过人工智能技术能够把视频画面与声音合成技术所引起的造谣、诈骗等行为的发生概率。
其中,上述人脸识别模型的一组训练样本包括第一人脸(真实人脸)特征数据和根据第一人脸特征数据进行合成而得到的第二人脸(合成嘴型人脸)特征数据。而上述第二人脸(合成嘴型人脸)特征数据为将上述第一人脸特征数据与待合成的音频特征数据合成的。从而,通过多组训练数据来训练分类模型,便可以得到用于区分真实人脸和合成嘴型人脸的人脸识别模型。同时本技术方案基于大数据实现对合成嘴型人脸的识别,有利于保证识别结果的准确度。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
图2示出本公开一示例性实施例中合成嘴型人脸的识别方法的流程示意图。
图3示出本公开另一示例性实施例中合成嘴型人脸的识别方法的流程示意图。
图4示出本公开一示例性实施例中第一人脸特征数据的确定方法的流程示意图。
图5示出本公开一示例性实施例中音频特征数据的确定方法的流程示意图。
图6示出本公开一示例性实施例中第二人脸特征数据的确定方法的流程示意图。
图7示出本公开一示例性实施例中合成嘴型人脸识别模型的训练方法的流程示意图。
图8示出本公开另一示例性实施例中合成嘴型人脸识别模型的训练方法的流程示意图。
图9示出本公开一示例性实施例中合成嘴型人脸的识别方法的流程示意图。
图10示出本公开另一示例性实施例中合成嘴型人脸的识别方法的流程示意图。
图11示出本公开一示例性实施例中合成嘴型人脸的识别装置的结构示意图。
图12示出本公开一示例性实施例中合成嘴型人脸识别模型的获取装置的结构示意图。
图13示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、迁移学习、归纳学习、式教学习等技术。
本公开实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
在示例性的实施例中,本技术方案的使用场景可以是当前视频中某个知名人士在讲述某件事,在可以将该当前视频作为待识别目标,通过本技术方案识别视频画面中的人脸和语音是后期合成的,还是该语音是真实由该知名人士发出的。
相较于将图像中原人物a的人脸整体换为另一人物b的人脸情况,本方案所针对的合成嘴型人脸情况中仅对原图像中的嘴部特征进行了变化,但是,脸部的其他特征(例如,眼睛、鼻子等)都是真实的。因此,合成嘴型人脸具有更强的迷惑性,识别难度较大。同时,也正由于迷惑性较强而导致用户更加容易上当,严重危害社会安全。
针对上述技术问题,本技术方案提供一种合成嘴型人脸的识别方法、装置、介质及设备。
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端110、网络120、服务器130。其中,终端110和服务器130通过网络120连接。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中,服务器130的数量不限制,终端110的数量不限制。
具体地,服务器130可以提供本方案中分类模型的训练以得到合成嘴型人脸识别模型,进而实现对待识别图像的识别。示例性的,服务器130获取该包含用户浏览行为的项目,得到项目列表。进而,在服务器130执行以下步骤:对样本图像进行人脸特征点检测得到第一人脸特征数据;将第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,根据语音转嘴型合成模型的输出确定第二人脸特征数据;根据第一人脸特征数据和第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
示例性的,服务器130还可以提供本方案中语音转嘴型合成模型的预训练以将第一人脸(真实人脸)特征数据和待合成的音频特征数据进行合成模型,进而确定第二人脸(合成嘴型人脸)特征数据。服务器130还可以存储合成嘴型人脸的识别装置,将识别结果发送至客户端110,还可以将识别结果存储至服务器130。
另外,用户可以通过终端120提供待识别图像或待识别视频,并发送至服务器130进行合成嘴型人脸的识别。示例性的,待识别视频可以是某个人物形象进行讲话的画面。进一步地,将待识别图像或待识别视频发送至服务器130,示例性的,在服务器130执行以下步骤:将待识别图像输入至上述合成嘴型人脸识别模型,根据合成嘴型人脸识别模型的输出确定待识别图像是否为合成嘴型人脸图像。
本公开实施例中的合成嘴型人脸的识别方法也可以应用于终端。本公开对此不做特殊限定。本公开实施例主要以合成嘴型人脸的识别方法应用于服务器130来举例说明。
接下来介绍本技术方案提供的合成嘴型人脸的识别方法。其中,图2示出本公开一示例性实施例中合成嘴型人脸的识别方法的流程示意图。参考图2,该实施例提供的合成嘴型人脸的识别方法,包括:
步骤S210,对样本图像进行人脸特征点检测得到第一人脸特征数据;
步骤S220,将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据;
步骤S230,根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;以及,
步骤S240,将待识别图像输入至所述合成嘴型人脸识别模型,根据所述合成嘴型人脸识别模型的输出确定所述待识别图像是否为合成嘴型人脸图像。
在本公开的一些实施例所提供的技术方案中,通过合成嘴型人脸识别模型来识别待识别图像属于合成嘴型人脸或真实人脸。例如,在发现待识别图像为合成嘴型人脸的情况下,可以向用户发出警告,以提升用户的警惕性,从而降低由于通过人工智能技术能够把视频画面与声音合成技术所引起的造谣、诈骗等行为的发生概率。其中,上述人脸识别模型的一组训练样本包括第一人脸(真实人脸)特征数据和根据第一人脸特征数据进行合成而得到的第二人脸(合成嘴型人脸)特征数据。而上述第二人脸(合成嘴型人脸)特征数据为将上述第一人脸特征数据与待合成的音频特征数据合成的。从而,通过多组上述训练数据来训练分类模型得到用于区分真实人脸和合成嘴型人脸的人脸识别模型,相较于相关方案中对整张脸进行识别,本技术方案能够得到较为精细的人脸识别结果,具有更强的识别针对性。同时本技术方案基于大数据实现对合成嘴型人脸的识别,有利于保证识别结果的准确度。
其中,本技术方案中所谓的“真实人脸”图像具体指的是图像中人脸的嘴型并非后期合成的。
以下实施例中对图2所示实施例的各个步骤的具体实施方式进行详细阐述:
在示例性的实施例中,图3示意性示出了合成嘴型人脸识别模型的获取方法的流程示意图。参考图3,上述合成嘴型人脸模型400的样本数据的确定过程包括:第一人脸(真实人脸)特征数据的确定过程310、第二人脸(合成嘴型人脸)特征数据的确定过程330,其中为了确定第二人脸特征数据,还需要待合成的音频特征数据的确定过程320。进一步地,根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型400。
需要说明的是,本技术方案提供的合成嘴型人脸识别模型的获取方法正如图2中步骤S210、步骤S220以及步骤S230所示,因此,通过对步骤S210、步骤S220以及步骤S230的具体实施方式来描述合成嘴型人脸识别模型的获取方案。
示例性的,本技术方案确定N组(N为正整数)样本数据来训练分类模型,以得到上述合成嘴型人脸识别模型400。其中,同一组样本数据包括第一人脸(真实人脸)特征数据和根据该第一人脸特征数据进行合成而得到的第二人脸(合成嘴型人脸)特征数据,也就是说,基于相同的第一人脸(真实人脸)特征数据确定该组样本。从而同一组样本数据中两种人脸特征数据的差异在于嘴部,通过其对分类模型进行训练,有利于得到识别准确度较高的合成嘴型人脸识别模型400。
在示例性的实施例中,先介绍第一人脸(真实人脸)特征数据的确定过程310:
参考图3,上述第一人脸特征图像可以来源于视频(记作“样本视频31’”)或图像(记作“样本图像31”)。以下通过图4所示实施例介绍根据样本视频31’来确定第一人脸特征数据34的过程310。参考图4,包括步骤S410-步骤S440。
在步骤S410中,获取样本视频,对所述样本视频的视频帧进行抽帧,得到所述样本图像。
在示例性的实施例中,参考图3,通过视频抽帧处理(步骤S35)在样本视频31’中分离出视频帧,然后间隔一定帧抽取出若干帧的方式得到样本图像31。
需要说明的是,在根据包含人脸的图像(如样本图像31)确定上述第一人脸特征数据的情况下,则直接执行步骤S420。
在步骤S420中,对所述样本图像进行人脸检测以确定人脸区域。
在示例性的实施例中,可以通过人脸检测算法(步骤S31)在上述样本图像31中框出人脸区域。示例性的,为了提升图像处理效率可以采用MTCNN(Multi-taskconvolutional neural network,多任务卷积神经网络)处理上述样本数据。其中,MTCNN是通过CNN模型级联实现了多任务学习网络,示例性的,通过一个浅层的CNN网络快速产生一系列的候选窗口,进一步地通过一个能力更强的CNN网络过滤掉绝大部分非人脸候选窗口,则可以得到样本图像中的人脸区域。同时,还可以对多个样本图像并行处理多个样本图像,进而快速地确定出多个样本图像中的人脸区域。
在步骤S430中,对所述样本图像中的所述人脸区域进行人脸特征点检测,得到特征点数据。以及,在步骤S440中,对所述特征点数据进行人脸对齐处理,将人脸对齐处理后图像中的特征数据确定为所述第一人脸特征数据。
本实施例中通过对人脸的特征点定位(landmark localization),也被称为人脸对齐(face alignment),以通过人脸对齐处理之后图像的人脸特征数据来提升合成嘴型人脸的识别准确度。示例性的,可以通过人脸对齐网络(Face Alignment Network,FAN)实现人脸特征点的检测(步骤S32),如检测得到人脸的68个特征点。进一步地,在示例性的实施例中,根据检测出的特征点进行人脸对齐处理(步骤S33),如通过仿射变换处理将各个图像中的双眼、嘴巴三点映射到预设位置处。进一步地,获取对齐处理后图像中的特征数据确定为得到上述第一人脸(真实人脸)特征数据34。
需要说明的是,上述第一人脸特征数据34一方面将用于与音频特征数据33合成嘴型人脸,以获取第二人脸(合成嘴型人脸)特征数据36;另一方面,上述第一人脸特征数据34还与相应的第二人脸特征数据36构建合成嘴型人脸识别模型400的样本数据。接下来,介绍根据第一人脸特征数据和音频特征数据合成嘴型人脸的相关实施例。
以下通过图5所示实施例介绍音频特征数据33的确定过程320。参考图5,包括:
步骤S510,对语音进行采样得到语音样本。步骤S520,对所述语音样本进行短时傅里叶变换,以将所述语音样本转换为语音频谱图。以及,步骤S530,通过梅尔滤波器组对所述语音频谱图进行滤波,得到所述待合成的音频特征数据。
在示例性的实施例中,参考图3,先对语音32进行分帧处理,可以以0.02s的长度、0.01s的步长采样语音帧得到语音样本。对得的每一帧语音样本进行短时傅里叶变换,示例性的可以保留前257个系数,从而将上述语音样本转换为语音频谱图。示例性的,再通过S个(S为正整数)梅尔过滤器对上述与音频普通滤波,则每一帧语音样本对应的语音频谱图通过上述预设个数的梅尔过滤器后,转换成长度为S的向量,从而得到待合成的音频特征数据33。也就是说,可以根据所需向量的长度设置上述梅尔滤波器的个数。
需要说明的是,获取音频特征数据的方式不限于此,还可以是本领域内的其他获取音频特征数据的方式,在此不做限定。
进一步地,可以根据上述第一人脸(真实人脸)特征数据34与上述待合成的音频特征数据33确定合成嘴型人脸,以得到第二人脸特征数据36。本技术方案为了进一步丰富样本数据,可以对上述样本图像或人脸对齐处理之后的图像进行图像增广处理(步骤S34),并进一步地采用图3所示实施例得到增广处理之后的图像对应的第一人脸特征数据34。另外,还可以对上述语音进行音频增广处理(步骤S36),并进一步地采用图4所示实施例得到增广处理之后的语音对应的音频特征数据33。
示例性的,对图像增广处理(步骤S34)的方式可以包括:对上述样本图像或人脸对齐处理之后的图像进行预设角度范围(如,-5°~5°)内的旋转,或者对上述样本图像进行预设范围(如,0.98倍~1.02倍)内的缩放,当然还可以对样本图像进行预设角度范围内的旋转之后再进行预设范围内的缩放,从而可以得到更加丰富的图像资源。需要说明的是,由于同一组样本中的第二人脸特征数据是根据第一人脸特征数据而确定的,因此,同一组样本数据中两人脸特征数据对应图像的被旋转角度相同且被缩放比例相同。
示例性的,对音频增广处理(步骤S36)的方式可以包括:对上述语音的音频长度进行预设范围(如,0.8倍~1.2倍)内的拉伸,或者对上述语音的音高进行预设范围(如,-1个半音~1个半音)内的调整,便可以得到更加丰富的音频资源,以进一步地合成更加丰富的第二人脸特征数据。
在示例性的实施例中,在步骤S210中确定第一人脸特征数据以及获取上述待合成的音频特征数据之后,在步骤S220中将上述第一人脸特征数据和上述待合成的音频特征数据输入预训练的语音转嘴型合成模型,根据语音转嘴型合成模型的输出确定第二人脸特征数据。以下通过图6所示实施例介绍确定第二人脸特征数据36的确定过程330。
在示例性的实施例中,以下通过图6所示实施例介绍确定上述第二人脸特征数据的确定方案。参考图6,包括步骤S610-步骤S630。
在步骤S610中,根据所述预训练的语音转嘴型合成模型将所述待合成的音频特征数据转换为目标嘴型数据。在步骤S620中,根据所述预训练的语音转嘴型合成模型将所述目标嘴型数据与所述第一人脸特征数据进行融合处理,得到虚拟合成图像。
在示例性的实施例中,可以采用事先训练的语音转嘴型合成模型300(如,wav2lip)。通过wav2lip可将一段人物视频和一段目标语音合二为一,将目标语音转换为视频中人物的嘴型,展现出通过视频中人物说出目标语音的效果。通过预训练的语音转嘴型合成模型可以将上述待合成的音频特征数据转换为目标嘴型数据。进一步地,预训练的语音转嘴型合成模型再通过融合处理的方式,将目标嘴型数据与第一人脸特征数据进行融合,从而得到虚拟合成图像37。
在步骤S630中,根据所述虚拟合成图像确定所述第二人脸特征数据。
在示例性的实施例中,可以采用图3所示的确定第一人脸特征数据的方法实施例得到上述合成图像对应的第二人脸特征数据,在此不再赘述。
在示例性的实施例中,在步骤S230中:根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
本实施例中,根据第i第一人脸特征数据和第i第二人脸特征数据确定第i组样本数据,其中,该第i第二人脸数据为根据第i第一人脸特征数据确定的。进一步地,通过N组样本数据来训练分类模型,以得到所述合成嘴型人脸识别模型,i为不大于N的正整数。
可见,同一组样本数据包括第一人脸(真实人脸)特征数据和根据该第一人脸特征数据进行合成而得到的第二人脸(合成嘴型人脸)特征数据,也就是说,基于相同的第一人脸(真实人脸)特征数据确定该组样本。从而同一组样本数据中两种人脸特征数据的差异在于嘴部,通过其对分类模型进行训练,有利于得到识别准确度较高的合成嘴型人脸识别模型。
具体地,图7示出了通过多组样本数据训练分类模型的实施例。参考图7,包括步骤S710-步骤S740。
在步骤S710中,根据所述第一人脸特征数据确定第一样本,以及根据所述第二人脸特征数据确定第二样本。
在示例性的实施例中,可以对上述样本图像进行预设角度范围(如,-5°~5°)内的旋转,从而得到第一组图像。还可以对上述样本图像进行预设范围(如,0.98倍~1.02倍)内的缩放,从而得到第二组图像。还可以对上述样本图像进行预设角度范围内的旋转之后再进行预设范围内的缩放,从而得到第三组图像。
上述第一组图像、第二组图像以及第三组图像,连同未进行缩放/选择的第一人脸特征数据均可以用于确定如图3/图8中所示出的第一样本35。
在示例性的实施例中,同理,参考图3,可以对上述虚拟合成图像37以及对虚拟合成图像37进行图像增广处理(步骤S37)得到的图像,进行预设角度范围(如,-5°~5°)内的旋转,从而得到第四组图像。还可以对上述虚拟合成图像进行预设范围(如,0.98倍~1.02倍)内的缩放,从而得到第五组图像。还可以对上述虚拟合成图像进行预设角度范围内的旋转之后再进行预设范围内的缩放,从而得到第六组图像。
上述第四组图像、第五组图像以及第六组图像,连同未进行缩放/选择的第二人脸特征数据均可以用于确定如图3/图8中所示出的第二样本38。
综上所述,上述第一样本35代表真实人脸的特征数据,上述第二样本38代表合成嘴型人脸的特征数据。即每组样本数据中包括第一样本35和根据该第一样本35而确定的第二样本38。
在步骤S720中,根据所述第一样本以及所述第一样本的标签确定第一目标函数,以及根据所述第二样本以及所述第二样本的标签确定第二目标函数。
在示例性的实施例中,参考图8,将每组样本数据中的第一样本35的标签设置为“0”,将每组样本数据中的第二样本的标签设置为“1”。
在示例性的实施例中,本方案提供的合成嘴型人脸识别模型400属于二分类模型,则可以采用对数损失binary_crossentropy的方式计算模型损失。需要说明的是,计算模型损失的方式不限于此,还可以是本领域内的其他计算模型损失的方式,在此不做限定。
具体地,参考图8,对于每一组样本数据中的第一样本35,对第一样本35进行图像缩放(步骤S81)后输入至合成嘴型人脸识别模型400得到第一判别结果82,进而根据第一判别结果83和第一样本35的标签“0”的对数损失,从而确定第一目标函数83。
在示例性的实施例中,再次参考图8,对于每一组样本数据中的第二样本38,对第二样本38进行图像缩放(步骤S81)后将其输入至合成嘴型人脸识别模型400得到第二判别结果82’,进而根据第二判别结果82’和第二样本的标签“1”的对数损失,从而确定第二目标函数83’。
在步骤S730中,根据所述第一目标函数和所述第二目标函数确定模型目标函数。
在示例性的实施例中,可以通过对上述第一目标函数83和上述第二目标函数83’进行加权计算的方式来确定该模型目标函数84。具体的,确定第一目标函数的第一权重和第二目标函数的第二权重,其中第一权重和第二权重为归一化权重。示例性的,在第一目标函数对模型总损失的影响与第二目标函数对模型总损失的影响相同时,上述第一权重和上述第二权重均可以取值为0.5,进一步地,计算第一权重和第一目标函数的乘积,以及第二权重和第二目标函数的乘积,并根据两乘积之和确定该模型目标函数。其中,该模型目标函数中涵盖了两方面损失,且能够通过权重灵活调整不同损失对总损失的影响。
示例性的,还可以直接将上述第一模型损失和上述第二模型损失相加求和的方式来确定上述模型目标函数。
需要说明的是,根据上述第一目标函数和上述第二目标函数确定模型目标函数的具体实施方式不限于上述几种,即本方案中模型目标函数中需涵盖上述两方面损失,且对上述第一损失和第二损失进行结合的方式不作限定。
在步骤S740中,通过最小化所述模型目标函数的函数值训练分类模型,得到合成嘴型人脸识别模型。
在示例性的实施例中,可以采用梯度下降法或Adam优化算法来优化上述模型目标函数,以使得合成嘴型人脸模型具有较高的识别准确率。
在示例性的实施例中,表1示出了上述合成嘴型人脸识别模型的网络结构。
表1
Figure BDA0003022384100000191
Figure BDA0003022384100000201
参考表1,由于该合成嘴型人脸识别模型的网络结构中包含全连接层,则输入模型的图像尺寸需统一,示例性的,本网络结构中设置图像输入尺寸“224×224×3”。进一步地,该网络结构还包括多个用于图像处理的卷积层和池化层,同时表1中记载了各个卷积层和池化层以及正则化层的通道数、卷积核大小、步长等信息。其中,各个卷积层以线性整流函数ReLU作为激活函数。
同时,该模型中设置了多层全连接层,从而有效增加了神经元个数,有利于模型复杂度的提升,同时,通过全连接层数的加深有利于模型非线性表达能力的提高,有利于提升模型的学习能力。
另外,为了避免造成过拟合本实施例提高的网络结构中设置了三层全连接层,且为了进一步避免过拟合现象,前两层全连接层后均分别添加dropout层,以提升模型泛化能力。最后一层全连接层以sigmoid函数作为激活函数以实现对待识别图像的分类。
通过上述实施例提供了合成嘴型人脸识别模型的获取方案。进一步地,以下介绍基于获取到的上述合成嘴型人脸识别模型进行识别的方案。具体的,上述合成嘴型人脸识别模型可以用于识别视频中的图像是合成嘴型人脸图像或者真实图像,也可以用于识别单个图像为合成嘴型人脸图像或者真实图像。
示例性的,图9示出合成嘴型人脸的识别方法的流程示意图。结合图10参考图9,该方法包括:
步骤S910,获取待识别视频100,对所述待识别视频100的视频帧进行抽帧,得到所述待识别图像101。步骤S920,对所述待识别图像101进行人脸检测处理以确定人脸区域102。步骤S930,对所述待识别图像中的人脸区域102进行人脸特征点检测处理,得到特征点数据103。步骤S940,对所述待识别图像中的特征点数据103进行人脸对齐处理。以及,步骤S950,将人脸对齐处理之后的目标图像104进行图像缩放后输入至所述合成嘴型人脸识别模型105,根据所述合成嘴型人脸识别模型105输出的识别结果106确定所述待识别图像是否为合成嘴型人脸图像。
其中,步骤S910-步骤S940的具体实施方式与图4所示实施例相类似,在此不再赘述。
在步骤S950中,将人脸对齐处理之后的目标图像缩放至模型所要求的图像大小(如224×224×3)输入至上述合成嘴型人脸识别模型。进一步地,经过表1所示网络结构的卷积处理、池化处理以及正则化处理和全连接处理之后,可以输出上述目标图像的识别结果。示例性的为识别概率值,若该概率值大于0.5,可以认为当前视频中包含合成嘴型人脸图像,反之,若该概率值小于0.5,可以认为当前视频中包含的人脸图像为真实人脸。
在技术方案通过合成嘴型人脸识别模型来识别待识别图像属于合成嘴型人脸或真实人脸。例如,在发现待识别图像为合成嘴型人脸的情况下,可以向用户发出警告,以提升用户的警惕性,从而降低由于通过人工智能技术能够把视频画面与声音合成技术所引起的造谣、诈骗等行为的发生概率。另外,本技术方案通过上述多组训练数据来训练分类模型得到用于区分真实人脸和合成嘴型人脸的人脸识别模型,相较于相关方案中对整张脸进行识别,本技术方案能够得到较为精细的人脸识别结果,具有更强的识别针对性。同时本技术方案基于大数据实现对合成嘴型人脸的识别,有利于保证识别结果的准确度。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器,(包括GPU/CPU)执行的计算机程序。在该计算机程序被GPU/CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下通过图11介绍本公开的合成嘴型人脸的识别装置实施例,可以用于执行本公开上述的合成嘴型人脸的识别方法。
图11示出本公开示例性实施例中合成嘴型人脸的识别装置的结构示意图。如图11所示,上述合成嘴型人脸的识别装置1100包括:第一真实数据获取模块1101、第一合成数据获取模块1102、第一识别模型训练模块1103以及人脸识别模块1104。
其中,上述第一真实数据获取模块1101,被配置为:对样本图像进行人脸特征点检测得到第一人脸特征数据;上述第一合成数据获取模块1102,被配置为:将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据;上述第一识别模型训练模块1103,被配置为:根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;以及,上述人脸识别模块1104,被配置为:将待识别图像输入至上述合成嘴型人脸识别模型,根据上述合成嘴型人脸识别模型的输出确定上述待识别图像是否为合成嘴型人脸图像。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第一人脸区域确定模块。
其中,上述第一人脸区域确定模块被配置为:获取样本视频,对上述样本视频的视频帧进行抽帧,得到上述样本图像;以及,对上述样本图像进行人脸检测以确定人脸区域;
上述第一真实数据获取模块1101,被具体配置为:对上述样本图像中的上述人脸区域进行人脸特征点检测,得到特征点数据;对上述特征点数据进行人脸对齐处理,将人脸对齐处理后图像中的特征数据确定为上述第一人脸特征数据。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第一音频特征数据获取模块。
其中,上述第一音频特征数据获取模块被配置为:对语音进行采样得到语音样本;对上述语音样本进行短时傅里叶变换,以将上述语音样本转换为语音频谱图;通过梅尔滤波器组对上述语音频谱图进行滤波,得到上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第一图像增广模块和第一音频增广模块。
其中,上述第一图像增广模块被配置为:对上述样本图像进行图像增广处理,以通过增广处理后的样本图像确定上述第一人脸特征数据;上述第一音频增广模块被配置为:对采集到的语音进行音频增广处理,以通过增广处理后的语音确定上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,上述第一合成数据获取模块1102,被具体配置为:根据上述预训练的语音转嘴型合成模型将上述待合成的音频特征数据转换为目标嘴型数据;根据上述预训练的语音转嘴型合成模型将上述目标嘴型数据与上述第一人脸特征数据进行融合处理,得到虚拟合成图像;根据上述虚拟合成图像确定上述第二人脸特征数据。
在本公开的一些实施例中,基于前述方案,上述第一识别模型训练模块1103,被具体配置为:根据第i第一人脸特征数据和第i第二人脸特征数据确定第i组样本数据,上述第i第二人脸数据为根据上述第i第一人脸特征数据确定的;通过N组样本数据训练分类模型,得到上述合成嘴型人脸识别模型,i为不大于N的正整数。
在本公开的一些实施例中,基于前述方案,上述第一识别模型训练模块1103,包括:样本确定单元、目标函数确定单元和训练单元。
其中,上述样本确定单元被配置为:根据上述第一人脸特征数据确定第一样本,以及根据上述第二人脸特征数据确定第二样本;上述目标函数确定单元被配置为:根据上述第一样本以及上述第一样本的标签确定第一目标函数,以及根据上述第二样本以及上述第二样本的标签确定第二目标函数;根据上述第一目标函数和上述第二目标函数确定模型目标函数;上述训练单元被配置为:通过最小化上述模型目标函数的函数值训练分类模型,得到合成嘴型人脸识别模型。
在本公开的一些实施例中,基于前述方案,上述样本确定单元,被具体配置为:对上述样本图像进行预设角度范围内的旋转,得到第一组图像;对上述样本图像进行预设范围内的缩放,得到第二组图像;根据上述第一组图像中图像对应的人脸特征数据、上述第二组图像中图像对应的人脸特征数据,以及上述第一人脸特征数据确定上述第一样本。
在本公开的一些实施例中,基于前述方案,上述目标函数确定单元,被具体配置为:将上述第一样本输入至上述合成嘴型人脸识别模型得到第一判别结果;根据上述第一判别结果和上述第一样本的标签的对数损失,确定上述第一目标函数。
在本公开的一些实施例中,基于前述方案,上述目标函数确定单元,还被具体配置为:确定上述第一目标函数的第一权重,以及确定上述第二目标函数的第二权重;根据上述第一权重、上述第一目标函数、上述第二权重和上述第二目标函数确定上述模型目标函数。
在本公开的一些实施例中,基于前述方案,上述人脸识别模块1104,被具体配置为:获取待识别视频,对上述待识别视频的视频帧进行抽帧,得到上述待识别图像;对上述待识别图像进行人脸检测处理以确定人脸区域;对上述待识别图像中的人脸区域进行人脸特征点检测处理,得到特征点数据;对上述待识别图像中的特征点数据进行人脸对齐处理,并将人脸对齐处理之后的目标图像进行图像缩放后输入至上述合成嘴型人脸识别模型,根据上述合成嘴型人脸识别模型输出的识别结果确定上述待识别图像是否为合成嘴型人脸图。
上述合成嘴型人脸的识别装置中各单元的具体细节已经在合成嘴型人脸的识别方法中进行了详细的描述,因此此处不再赘述。
以下通过图12介绍本公开的合成嘴型人脸识别模型的获取装置实施例,可以用于执行本公开上述的合成嘴型人脸的识别方法。
图12示出本公开示例性实施例中合成嘴型人脸识别模型的获取装置的结构示意图。如图12所示,上述合成嘴型人脸识别模型的获取装置1200包括:第二真实数据获取模块1201、第二合成数据获取模块1202以及第二识别模型训练模块1203。
其中,上述第二真实数据获取模块1201,被配置为:对样本图像进行人脸特征点检测得到第一人脸特征数据;上述第二合成数据获取模块1202,被配置为:将上述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据上述语音转嘴型合成模型的输出确定第二人脸特征数据;上述第二识别模型训练模块1203,被配置为:根据上述第一人脸特征数据和上述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第二人脸区域确定模块。
其中,上述第二人脸区域确定模块被配置为:获取样本视频,对上述样本视频的视频帧进行抽帧,得到上述样本图像;以及,对上述样本图像进行人脸检测以确定人脸区域;
上述第二真实数据获取模块1201,被具体配置为:对上述样本图像中的上述人脸区域进行人脸特征点检测,得到特征点数据;对上述特征点数据进行人脸对齐处理,将人脸对齐处理后图像中的特征数据确定为上述第一人脸特征数据。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第二音频特征数据获取模块。
其中,上述第二音频特征数据获取模块被配置为:对语音进行采样得到语音样本;对上述语音样本进行短时傅里叶变换,以将上述语音样本转换为语音频谱图;通过梅尔滤波器组对上述语音频谱图进行滤波,得到上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,上述装置还包括:第二图像增广模块和第二音频增广模块。
其中,上述第二图像增广模块被配置为:对上述样本图像进行图像增广处理,以通过增广处理后的样本图像确定上述第一人脸特征数据;上述第二音频增广模块被配置为:对采集到的语音进行音频增广处理,以通过增广处理后的语音确定上述待合成的音频特征数据。
在本公开的一些实施例中,基于前述方案,上述第二合成数据获取模块1202,被具体配置为:根据上述预训练的语音转嘴型合成模型将上述音频待合成的特征数据转换为目标嘴型数据;根据上述预训练的语音转嘴型合成模型将上述目标嘴型数据与上述第一人脸特征数据进行融合处理,得到虚拟合成图像;根据上述虚拟合成图像确定上述第二人脸特征数据。
在本公开的一些实施例中,基于前述方案,上述第二识别模型训练模块1203,被具体配置为:根据第i第一人脸特征数据和第i第二人脸特征数据确定第i组样本数据,上述第i第二人脸数据为根据上述第i第一人脸特征数据确定的;通过N组样本数据训练分类模型,得到上述合成嘴型人脸识别模型,i为不大于N的正整数。
在本公开的一些实施例中,基于前述方案,上述第二识别模型训练模块1203,包括:样本确定单元、目标函数确定单元和训练单元。
其中,上述样本确定单元被配置为:根据上述第一人脸特征数据确定第一样本,以及根据上述第二人脸特征数据确定第二样本;上述目标函数确定单元被配置为:根据上述第一样本以及上述第一样本的标签确定第一目标函数,以及根据上述第二样本以及上述第二样本的标签确定第二目标函数;根据上述第一目标函数和上述第二目标函数确定模型目标函数;上述训练单元被配置为:通过最小化上述模型目标函数的函数值训练分类模型,得到合成嘴型人脸识别模型。
在本公开的一些实施例中,基于前述方案,上述样本确定单元,被具体配置为:对上述样本图像进行预设角度范围内的旋转,得到第一组图像;对上述样本图像进行预设范围内的缩放,得到第二组图像;根据上述第一组图像中图像对应的人脸特征数据、上述第二组图像中图像对应的人脸特征数据,以及上述第一人脸特征数据确定上述第一样本。
在本公开的一些实施例中,基于前述方案,上述目标函数确定单元,被具体配置为:将上述第一样本输入至上述合成嘴型人脸识别模型得到第一判别结果;根据上述第一判别结果和上述第一样本的标签的对数损失,确定上述第一目标函数。
在本公开的一些实施例中,基于前述方案,上述目标函数确定单元,还被具体配置为:确定上述第一目标函数的第一权重,以及确定上述第二目标函数的第二权重;根据上述第一权重、上述第一目标函数、上述第二权重和上述第二目标函数确定上述模型目标函数。
在技术方案通过合成嘴型人脸识别模型来识别待识别图像属于合成嘴型人脸或真实人脸。例如,在发现待识别图像为合成嘴型人脸的情况下,可以向用户发出警告,以提升用户的警惕性,从而降低由于通过人工智能技术能够把视频画面与声音合成技术所引起的造谣、诈骗等行为的发生概率。另外,本技术方案通过上述多组训练数据(每组训练数据中包括第一人脸特征数据以及由该第一特征人脸数据与待合成的音频特征数据合成的第二人脸特征数据)来训练分类模型得到用于区分真实人脸和合成嘴型人脸的人脸识别模型,相较于相关方案中对整张脸进行识别,本技术方案能够得到较为精细的人脸识别结果,具有更强的识别针对性。同时本技术方案基于大数据实现对合成嘴型人脸的识别,有利于保证识别结果的准确度。
上述合成嘴型人脸识别模型的获取装置中各单元的具体细节已经在合成嘴型人脸识别模型的获取方法中进行了详细的描述,因此此处不再赘述。
图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。其中,上述电子设备可以为图1中的终端110或服务器130。
需要说明的是,图13示出的电子设备的计算机系统1300仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,计算机系统1300包括处理器1301,其中处理器1301又具体可以包括:图像处理单元(Graphics Processing Unit,简称:GPU)和中央处理单元(CentralProcessing Unit,简称:CPU),其可以根据存储在只读存储器(Read-Only Memory,简称:ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory,简称:RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中,还存储有系统操作所需的各种程序和数据。处理器1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output,简称:I/O)接口1305也连接至总线1304。
在一些实施例中,以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(Cathode Ray Tube,简称:CRT)、液晶显示器(Liquid CrystalDisplay,简称:LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如局域网(Local Area Network,简称:LAN)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,对样本图像进行人脸特征点检测得到第一人脸特征数据;步骤S220,将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据;步骤S230,根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;以及,步骤S240,将待识别图像输入至所述合成嘴型人脸识别模型,根据所述合成嘴型人脸识别模型的输出确定所述待识别图像是否为合成嘴型人脸图像。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由前面的权利要求指出。

Claims (15)

1.一种合成嘴型人脸的识别方法,其特征在于,所述方法包括:
对样本图像进行人脸特征点检测得到第一人脸特征数据;
将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据;
根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;
将待识别图像输入至所述合成嘴型人脸识别模型,根据所述合成嘴型人脸识别模型的输出确定所述待识别图像是否为合成嘴型人脸图像。
2.根据权利要求1所述的方法,其特征在于,在对样本图像进行人脸特征点检测得到第一人脸特征数据之前,所述方法还包括:
获取样本视频,对所述样本视频的视频帧进行抽帧,得到所述样本图像;
对所述样本图像进行人脸检测以确定人脸区域;
对样本图像进行人脸特征点检测得到第一人脸特征数据,包括:
对所述样本图像中的所述人脸区域进行人脸特征点检测,得到特征点数据;
对所述特征点数据进行人脸对齐处理,将人脸对齐处理后图像中的特征数据确定为所述第一人脸特征数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对语音进行采样得到语音样本;
对所述语音样本进行短时傅里叶变换,以将所述语音样本转换为语音频谱图;
通过梅尔滤波器组对所述语音频谱图进行滤波,得到所述待合成的音频特征数据。
4.根据权利要求1所述的方法,其特征在于,在将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型之前,所述方法还包括:
对所述样本图像进行图像增广处理,以通过增广处理后的样本图像确定所述第一人脸特征数据;
对采集到的语音进行音频增广处理,以通过增广处理后的语音确定所述待合成的音频特征数据。
5.根据权利要求1所述的方法,其特征在于,将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据,包括:
根据所述预训练的语音转嘴型合成模型将所述待合成的音频特征数据转换为目标嘴型数据;
根据所述预训练的语音转嘴型合成模型将所述目标嘴型数据与所述第一人脸特征数据进行融合处理,得到虚拟合成图像;
根据所述虚拟合成图像确定所述第二人脸特征数据。
6.根据权利要求1所述的方法,其特征在于,根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型,包括:
根据第i第一人脸特征数据和第i第二人脸特征数据确定第i组样本数据,所述第i第二人脸数据为根据所述第i第一人脸特征数据确定的;
通过N组样本数据训练分类模型,得到所述合成嘴型人脸识别模型,i为不大于N的正整数。
7.根据权利要求1所述的方法,其特征在于,根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型,包括:
根据所述第一人脸特征数据确定第一样本,以及根据所述第二人脸特征数据确定第二样本;
根据所述第一样本以及所述第一样本的标签确定第一目标函数,以及根据所述第二样本以及所述第二样本的标签确定第二目标函数;
根据所述第一目标函数和所述第二目标函数确定模型目标函数;
通过最小化所述模型目标函数的函数值训练分类模型,得到合成嘴型人脸识别模型。
8.根据权利要求7所述的方法,其特征在于,根据所述第一人脸特征数据确定第一样本,包括:
对所述样本图像进行预设角度范围内的旋转,得到第一组图像;
对所述样本图像进行预设范围内的缩放,得到第二组图像;
根据所述第一组图像中图像对应的人脸特征数据、所述第二组图像中图像对应的人脸特征数据,以及所述第一人脸特征数据确定所述第一样本。
9.根据权利要求7所述的方法,其特征在于,根据所述第一样本以及所述第一样本的标签确定第一目标函数,包括:
将所述第一样本输入至所述合成嘴型人脸识别模型得到第一判别结果;
根据所述第一判别结果和所述第一样本的标签的对数损失,确定所述第一目标函数。
10.根据权利要求7所述的方法,其特征在于,根据所述第一目标函数和所述第二目标函数确定模型目标函数,包括:
确定所述第一目标函数的第一权重,以及确定所述第二目标函数的第二权重;
根据所述第一权重、所述第一目标函数、所述第二权重和所述第二目标函数确定所述模型目标函数。
11.根据权利要求1至10中任意一项所述的方法,其特征在于,将待识别图像输入至所述合成嘴型人脸识别模型,根据所述合成嘴型人脸识别模型的输出确定所述待识别图像是否为合成嘴型人脸图像,包括:
获取待识别视频,对所述待识别视频的视频帧进行抽帧,得到所述待识别图像;
对所述待识别图像进行人脸检测处理以确定人脸区域;
对所述待识别图像中的人脸区域进行人脸特征点检测处理,得到特征点数据;
对所述待识别图像中的特征点数据进行人脸对齐处理,并将人脸对齐处理之后的目标图像进行图像缩放后输入至所述合成嘴型人脸识别模型,根据所述合成嘴型人脸识别模型输出的识别结果确定所述待识别图像是否为合成嘴型人脸图。
12.一种合成嘴型人脸识别模型的获取方法,其特征在于,所述方法包括:
对样本图像进行人脸特征点检测得到第一人脸特征数据;
将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据;
根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
13.一种合成嘴型人脸的识别装置,其特征在于,所述装置包括:
第一真实数据获取模块,被配置为:对样本图像进行人脸特征点检测得到第一人脸特征数据;
第一合成数据获取模块,被配置为:将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据;
第一识别模型训练模块,被配置为:根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型;
人脸识别模块,被配置为:将待识别图像输入至所述合成嘴型人脸识别模型,根据所述合成嘴型人脸识别模型的输出确定所述待识别图像是否为合成嘴型人脸图像。
14.一种合成嘴型人脸识别模型的获取装置,其特征在于,所述装置包括:
第二真实数据获取模块,被配置为:对样本图像进行人脸特征点检测得到第一人脸特征数据;
第二合成数据获取模块,被配置为:将所述第一人脸特征数据和待合成的音频特征数据输入预训练的语音转嘴型合成模型,并根据所述语音转嘴型合成模型的输出确定第二人脸特征数据;
第二识别模型训练模块,被配置为:根据所述第一人脸特征数据和所述第二人脸特征数据训练分类模型,得到合成嘴型人脸识别模型。
15.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至11中任意一项所述的合成嘴型人脸的识别方法,以及实现如权利要求12所述的合成嘴型人脸识别模型的获取方法。
CN202110406215.3A 2021-04-15 2021-04-15 合成嘴型人脸的识别方法、模型获取方法、装置和设备 Pending CN115223214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110406215.3A CN115223214A (zh) 2021-04-15 2021-04-15 合成嘴型人脸的识别方法、模型获取方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110406215.3A CN115223214A (zh) 2021-04-15 2021-04-15 合成嘴型人脸的识别方法、模型获取方法、装置和设备

Publications (1)

Publication Number Publication Date
CN115223214A true CN115223214A (zh) 2022-10-21

Family

ID=83605088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110406215.3A Pending CN115223214A (zh) 2021-04-15 2021-04-15 合成嘴型人脸的识别方法、模型获取方法、装置和设备

Country Status (1)

Country Link
CN (1) CN115223214A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668611A (zh) * 2023-07-27 2023-08-29 小哆智能科技(北京)有限公司 一种虚拟数字人唇形同步方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668611A (zh) * 2023-07-27 2023-08-29 小哆智能科技(北京)有限公司 一种虚拟数字人唇形同步方法及系统

Similar Documents

Publication Publication Date Title
CN111930992B (zh) 神经网络训练方法、装置及电子设备
Ma et al. Audio-visual emotion fusion (AVEF): A deep efficient weighted approach
Li et al. Mec 2017: Multimodal emotion recognition challenge
CN112131978A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN116824278B (zh) 图像内容分析方法、装置、设备和介质
CN111046757B (zh) 人脸画像生成模型的训练方法、装置及相关设备
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN113555032B (zh) 多说话人场景识别及网络训练方法、装置
CN111401105B (zh) 一种视频表情识别方法、装置及设备
CN111540364A (zh) 音频识别方法、装置、电子设备及计算机可读介质
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
Zhang et al. Teaching chinese sign language with a smartphone
CN111931628A (zh) 人脸识别模型的训练方法、装置及相关设备
Mathur et al. Unsupervised audio-visual subspace alignment for high-stakes deception detection
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备
CN115223214A (zh) 合成嘴型人脸的识别方法、模型获取方法、装置和设备
Liu et al. Discriminative Feature Representation Based on Cascaded Attention Network with Adversarial Joint Loss for Speech Emotion Recognition.
CN116705034A (zh) 声纹特征提取方法、说话人识别方法、模型训练方法及装置
Hong et al. When hearing the voice, who will come to your mind
Akinpelu et al. Lightweight Deep Learning Framework for Speech Emotion Recognition
CN111259698A (zh) 用于获取图像的方法及装置
CN115130650A (zh) 一种模型训练方法及相关装置
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40074959

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination