CN112766166B - 一种基于多音素选择的唇型伪造视频检测方法及系统 - Google Patents

一种基于多音素选择的唇型伪造视频检测方法及系统 Download PDF

Info

Publication number
CN112766166B
CN112766166B CN202110076775.7A CN202110076775A CN112766166B CN 112766166 B CN112766166 B CN 112766166B CN 202110076775 A CN202110076775 A CN 202110076775A CN 112766166 B CN112766166 B CN 112766166B
Authority
CN
China
Prior art keywords
lip
phoneme
shaped
detection result
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110076775.7A
Other languages
English (en)
Other versions
CN112766166A (zh
Inventor
周文柏
张卫明
俞能海
林佳滢
刘泓谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110076775.7A priority Critical patent/CN112766166B/zh
Publication of CN112766166A publication Critical patent/CN112766166A/zh
Application granted granted Critical
Publication of CN112766166B publication Critical patent/CN112766166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明涉及一种基于多音素选择的唇型伪造视频检测方法及系统,其方法包括:步骤S1:建立音素和唇形的映射,得到音素类别集;步骤S2:根据不同唇型篡改方法,从音素类别中,选择对应的多音素类别子集,并根据预设唇形帧个数,构建至少一个音素唇形数据集作为训练样本集合;步骤S3:根据至少一个音素唇形数据集,构建对应的至少一个唇型伪造视频检测子模型,分别训练,得到对应的至少一个唇型检测结果;步骤S4:将至少一个唇型检测结果进行融合,得到融合唇型检测结果。本发明方法建立了音素‑唇形映射关系,并选择音素‑唇形子集训练子模型并融合结果。本发明方法可以区分不同篡改方法,并建立了一个新数据集,有利于后续唇形篡改检测工作发展。

Description

一种基于多音素选择的唇型伪造视频检测方法及系统
技术领域
本发明涉及人脸伪造deepfake、人脸伪造检测以及视听语音识别领域,特别涉及基 于多音素的人脸唇形篡改视频检测方法及系统。
背景技术
由于深度生成模型(generative models)的巨大成功,人脸伪造deepfake成为近年 来一个新兴的研究课题,根据篡改区域的不同,人脸伪造方法大致可以分为两类:1.全脸合成(Full-face synthesis),通常会将整个合成的人脸替换到目标人脸;2.局部区域篡改(Local region forgery),只修改人脸局部区域,例如篡改唇形来匹配音频内容,并达到视觉上的同步(lip forgery)。
全脸合成的典型方法有DeepFakes、FaceSwap、FSGAN和FaceShifter等,其中FaceShifter可以产生高保真和遮挡感知的结果。这类方法通常会“改变身份”,因此 需要篡改一个大的面部区域,有可能出现范围更广的伪影artifacts。
局部区域篡改作为一种更常见的人脸伪造方法,着重于轻微篡改人脸的部分区域, 例如眉毛和唇形,相关方法包括Face2Face、First Order Motion和Neural VoicePuppetry 等。作为开创性工作,Lip sync能够修改讲话视频中的唇形,使其与给定的音频序列精 确同步。Audio driven对人脸视频进行3D建模,更加灵活的控制唇形生成。最近,First Order Motion输入一段动态视频和一张静态人脸图像,动态视频作为驱动篡改静态人脸 的唇形,生成该静态人脸的说话视频。
随着大量伪造视频越来越逼真甚至能轻易欺骗人眼,给社会带来了潜在的安全威胁。 为了遏制恶意使用deepfake带来的风险,许多检测方法分别从空域、时域和频域考虑,在一些公共数据集上取得了显著的检测效果。然而,这些数据集中大部分deepfake视频 都是通过全脸合成进行篡改,导致绝大多数检测方法采取通用方式设计,从整个人脸区 域提取视觉特征,并没有考虑音频匹配的情况。尽管它们在检测全脸合成方面表现很好, 但在检测局部人脸区域伪造时却遇到很大挑战,例如检测唇形篡改Lip sync。这类篡改 中具有区分性的缺陷通常是局部且微小的,难以被通用的deepfake检测框架捕捉。
最近,Komal Chugh等利用了音频特征,通过检测听觉和视觉信息的同步性来鉴别伪造视频。但由于唇形与具体单词并不遵循严格的相关性,网络会混淆而产生误判。Agarwal等则尝试通过音素-视素匹配(phoneme-viseme matching)来检测唇形篡改Lipsync。在单音素下判断唇形张开、闭合的异常来检测唇形是否被篡改,场景有很大的限 制,只对特定的目标人物有效。
因此,如何能快速有效地检测唇形篡改视频成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于多音素选择的唇型伪造视频检测方法 及系统。
本发明技术解决方案为:一种基于多音素选择的唇型伪造视频检测方法,包括:
步骤S1:建立音素和唇形的映射,得到音素类别集;
步骤S2:根据不同的唇型篡改方法,从所述音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样 本集合;
步骤S3:根据至少一个所述音素唇形数据集,构建对应的至少一个唇型伪造视频检 测子模型,分别并行训练,得到对应的至少一个唇型检测结果;
步骤S4:将所述至少一个唇型检测结果进行融合,得到融合唇型检测结果。
本发明与现有技术相比,具有以下优点:
1、本发明方法提出了一个完整的基于多音素的唇形篡改视频检测任务框架,充分利用篡改视频的视觉和听觉信息。
2、本发明方法建立了12种音素-唇形映射关系,比较了每对映射的鲁棒性。进一步,选择区分性在前5的音素-唇形集合来训练子分类模型并集成,极大提高了集成后模 型的判别能力。
3、本发明方法在唇形篡改检测任务中表现优异,可以区分不同篡改方法。此外,本发明还建立了一个新的唇形篡改视频数据集,有利于后续唇形篡改检测工作发展。
附图说明
图1为本发明实施例中同一人在真、假视频中说“apple”单词的嘴唇形状;
图2为本发明实施例中一种基于多音素选择的唇型伪造视频检测方法的流程图;
图3为本发明实施例中一种基于多音素选择的唇型伪造视频检测方法中步骤S1:建 立音素和唇形的映射,得到音素类别集的流程图;
图4本发明实施例中12种音素类别集;
图5本发明实施例中一种基于多音素选择的唇型伪造视频检测方法中步骤S2:根据 不同的唇型篡改方法,从音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样本集合的流程图;
图6是本发明实施例中使用P2FA对音频和单词进行强制对齐的示意图;
图7A、图7B是本发明实施例中使用Xception和本发明方法分别基于Obama Lip-sync篡改方法的特征分布可视化比较示意图;
图7C、图7D是本发明实施例中使用Xception和本发明方法分别基于Audio Driven篡改方法的特征分布可视化比较示意图;
图7E、图7F是本发明实施例中使用Xception和本发明方法分别基于First OrderMotion篡改方法的特征分布可视化比较示意图;
图7G、图7H是本发明实施例中使用Xception和本发明方法分别基于Face Swap篡改方法的特征分布可视化比较示意图;
图8A、图8B是本发明实施例中多分类总数据集上Xception和本发明方法的特征分布可视化比较示意图;
图9本发明实施例中一种基于多音素选择的唇型伪造视频检测方法的结构示意图;
图10本发明实施例中一种基于多音素选择的唇型伪造视频检测系统的结构框图。
具体实施方式
由于视频中的特定人物的唇形可以被窜改以匹配任意音频内容,因此音频和篡改唇形间 有密切联系。但是,由于篡改方法的不完善,可能会产生不可控的视觉伪影,影响语音与唇 形的匹配。如图1所示,在说“apple”这个单词时,真实视频中说话者的嘴唇是张开的,相 反,在伪造视频中,嘴唇通常不能完全张开。虽然这种细微差别不易被人眼察觉,但暴露出 的潜在弱点可以被设计良好的检测器捕捉到。然而,在不同表情下说相同的单词时,唇形本 身也存在一定范围的波动。大的波动表明当前唇形在不同条件下是不鲁棒的,不利于作为检 测的参考。因此,本发明提供了一种基于多音素选择的唇型伪造视频检测方法,用于检测 视频中唇型是否为伪造的。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对 本发明进一步详细说明。
实施例一
如图2所示,本发明实施例提供的一种基于多音素选择的唇型伪造视频检测方法,包 括下述步骤:
步骤S1:建立音素和唇形的映射,得到音素类别集;
步骤S2:根据不同的唇型篡改方法,从音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样本集合;
步骤S3:根据至少一个音素唇形数据集,构建对应的至少一个唇型伪造视频检测子 模型,分别并行训练,得到对应的至少一个唇型检测结果;
步骤S4:将至少一个唇型检测结果进行融合,得到融合唇型检测结果。
如图3所示,在一个实施例中,上述步骤S1:建立音素和唇形的映射,得到音素类别集,包括:
步骤S11:将唇形数据归一化映射到音标类;
首先对真实视频进行处理。根据国际音标下的发音将对应的音频分为48类音标,理论上,每个音标类c对应于一种唇形。唇形数据x可以使用马氏距离d如下述公式(1), 归一化投影到每个音标类c:
Figure BDA0002907825350000041
其中,x表示当前待分类的唇形的开合程度,
Figure BDA0002907825350000042
表示第c类唇形数据开合程度的均值。 对于每个唇形类,计算两个累计的分布:一个是类内样本分布
Figure BDA0002907825350000043
x∈c,另一个 是类外样本分布
Figure BDA0002907825350000044
这里假设是高斯分布,分别满足均值为uc
Figure BDA0002907825350000045
方差为σc
Figure BDA0002907825350000046
对于一个新样本,按照下述公式(2)计算其属于每个类别的概率,并将该样 本分配到归一化概率最高的类别中Pc:
Figure BDA0002907825350000047
其中,p(c|x)为x属于类c的概率,按照下述公式(3)的类内分布与类外分布之间的比 率计算:
Figure BDA0002907825350000048
步骤S12:通过LDA分类器,合并唇形相近的音标类,得到音素类别集。
在得到唇形到音标的映射后,利用预先训练好的LDA多分类器将唇形图像划分为各个音标类。然而,某些不同类别的音标具有相似的唇形外观,例如m,b,p,因此不 能直接使用音标作为可识别单位来区分唇形。为了构建从音频到唇形的鲁棒映射,从而 进行迭代,合并每个步骤中歧义度最高的音标类别。最后得到了12个音素类别,每个 音素类别中包含多个音标(从W1到W12)。这12个音素类别中的唇形可区分,形成 了从音素到唇形的鲁棒映射。如图4所示,是12个音素类别集的示意图。
由于已经建立了音频和唇形之间的12种鲁棒映射,因此通过以下步骤简化其余假视频中唇形分类过程,而无需训练任何额外的分类器。使用语音转文本工具从音频中获 取相应的转录文本,并删除所有标点符号,并确保单词之间用空格分隔。然后将格式化 的文本和音频输入到P2FA工具包中。通过对音素和单词进行强制对齐,得到假视频中 每个音素的起始和结束时间,并将这段时间内的唇形图像分类为当前音素。图3显示单 词和音素之间的对齐过程。
如图5所示,在一个实施例中,上述步骤S2:根据不同的唇型篡改方法,从音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少 一个音素唇形数据集作为训练样本集合,包括:
步骤S21:根据不同的唇型篡改方法中的不同音素的幅度差值,从所述音素类别中选择对应的多音素类别子集;
虽然同一个音素组的唇形是相似的,但是不同音素之间嘴唇的开合幅度却有很大的 不同。本发明实施例使用dlib 68个人脸关键点检测器计算第63和第67个关键点坐标纵轴差值:D=(y_{63}-y_{67}),其中,D表示当前唇形的开合幅度。使用帧数作为横轴, 在音素持续时间内计算每个帧的开合幅度D。对于每个音素类别集,计算两条平均幅度 曲线,如图4所示,其中,上面的曲线代表真视频的平均幅度变化,而下面的曲线代表 假视频。
对于一些音素,例如W1和W2,真假曲线在垂直轴上间隔很大,几乎没有重叠, 而对于其他一些音素(例如W3和W12),两条曲线存在部分堆叠的区域。此结果表 明,真假唇形在某些音素集中,比在其他音素集中更具有区分性。为了选择最具区分性 的音素W进行分类,分别计算了真、假曲线的最大值差值D_{W_{max}}和最小值差值 D_{W_{min}},并定义幅度差值D_W来表示每个音素W真假唇形间的差异:D_W=\frac{1}{2}(D_{W_{max}}+D_{W_{min}})。考虑到不同的篡改方法下假唇形开 合幅度有潜在差异,如表1所示,本发明实施例中计算了4个篡改方法使用的不同数据 集的不同音素的幅度差值。表2中列出了每种篡改方法中不同音素的幅度差值,其中排 在每种篡改方法前5的幅度差值用粗体显示。
表1唇形篡改方法的视频数据集
篡改方法 真/假 总视频数 帧数
Obama Lip-sync 28 56 52534
Audio Driven 14 28 24416
First Order 24 48 50614
Face Swap 22 44 25736
表2 12种音素类别集在不同篡改方法中的真假唇形开合幅度差值
Figure BDA0002907825350000061
根据表2,为每个唇形篡改方法,根据其区分性的大小,本发明实施例选择前5个音素幅度差值最大的音素集,构建其对应的多音素类别子集,如表3所示。本发明不限 定所选择的子集个数,可根据实际情况进行增减。
表3唇形篡改方法对应的多音素类别子集
篡改方法 多音素类别子集
Obama Lip-sync W1-W2-W4-W5-W7
Audio Driven W2-W4-W5-W6-W7
First Order W3-W4-W5-W9-W10
Face Swap W1-W4-W7-W8-W11
步骤S22:根据预设的唇形帧的个数选择唇形帧,以及多音素类别子集,构建至少一个音素唇形数据集作为训练样本集合。
如图6所示,音素的发音通常会持续一段时间,因此一个音素单元包含多个唇形帧。 使用f表示唇形帧的个数,f的大小会影响模型的检测能力。唇形帧太少会导致当前音素 缺乏足够的唇形特征,而唇形帧太多会导致与其他音素发生重叠。考虑到精度和复杂度之间的权衡,本发明实施例选择=4来构建音素唇形数据集。但是本发明对于唇形帧的 个数选择不做具体限定,可根据实际情况选择。下面表4展示了相应实验结果。
表4唇形帧数的选择
帧数 ACC(%) AUC(%)
f=3 96.21 97.45
f=4 97.73 98.89
f=5 96.21 97.45
f=6 96.21 97.45
f=7 97.73 98.89
f=8 97.73 98.89
本发明方法建立了12种音素-唇形映射关系,比较了每对映射的鲁棒性。进一步,选择区分性在前5的音素-唇形集合来训练子分类模型并集成,极大提高了集成后模型的判别能力。
在一个实施例中,上述步骤S3:根据至少一个音素唇形数据集,构建对应的至少一个唇型伪造视频检测子模型,分别并行训练,得到对应的至少一个唇型检测结果,具体 包括:根据每个音素唇形数据集构建其对应的唇型伪造视频检测子模型,并输入音素唇 形数据集进行训练,分别得到每个唇型伪造视频检测子模型的唇形检测结果;其中,唇 型伪造视频检测子模型采用XceptionNet作为骨干网络。
根据上述步骤S2中得到的每个不同篡改方法的不同音素唇形数据集,分别构建并且可并行训练各个唇型伪造视频检测子模型,分别得到唇形检测结果。每个子模型可以 独立用于真/假唇形检测。本发明实施例采用XceptionNet作为每个子模型的骨干网络,XceptionNet是一种用于Deepfake检测的有效网络结构,并广泛用于现有的检测方法中。在本发明实施例中,将输入唇形图像的大小调整为128×128,并将XceptionNet全连接 层fc后默认的1000类分类输出替换为两个类别的输出,即输出当前输入唇形为真或假 的置信度。
在一个实施例中,上述步骤S4:将所述唇型检测结果进行融合,得到融合唇型检测结果,具体包括:将每个所述唇型伪造视频检测子模型的所述唇型检测结果赋予权重后 进行融合计算,得到融合唇型检测结果。
为了获得最终的结果,将上述每种篡改方法的子模型的检测结果进行融合,得到融 合唇型检测结果作为最终的唇形检测结果。本发明实施例为了确保最大程度发挥作用,每个子模型的检测结果赋予相等的平均权重。当然,也可以根据实际情况,对不同子模 型的结果赋予不同的权重,本发明对此不作具体限定。
由于子模型的数量直接影响最终整体模型的检测精度,本发明实施例对不同数量的 子模型的集成性能进行实验。表5中的实验结果表明,5个子模型可以实现出色的性能,同时不会增加额外的复杂度。
表5子模型个数的选择
子模型 N=2 N=3 N=4 N=5 N=6 N=7 N=8 N=9 N=10 N=11 N=12
ACC(%) 93.18 93.94 94.70 97.73 97.73 96.97 97.73 96.97 96.97 96.97 97.73
AUC(%) 94.20 95.10 95.68 98.89 98.89 98.01 98.89 98.01 98.01 98.01 98.89
此外,为了验证本发明提高的方法不受骨干网络的限制,本发明还采用了另一种网 络结构ResNet-50,它在图像分类任务中表现良好。表6的结果表明,我们的方法均大 幅超越不同骨干网络的性能。
表6不同网络结构的分类评估结果
Figure BDA0002907825350000081
为了验证本发明方法在多分类中的有效性,进行了拓展实验,旨在通过本发明框架 不仅能区分真假唇形,还能区分不同的篡改方法。将上述不同篡改方法对应的4个子数据集连续帧中所有的真实唇形用0标记,4个子数据集中的篡改唇形分别用1-5标记。 这里,出于对所有数据集的综合考虑,选择(W1,W6,W7,W10,W11)来训练分类模型。 从表7的结果可以看出,尽管4个子数据集的性能略有下降,但集成模型的平均ACC 和AUC明显比基线模型好。以上结果表明,本发明方法能够在多分类场景中找到高维 空间中唇形的潜在差异,是deepfake检测中的一个重要突破。
表7多分类评估结果
Figure BDA0002907825350000082
进一步,本发明实施例还使用t-SNE将特征分布可视化,分别得到图7A~图7H和图8A~图8B,直观地展示了本发明方法的有效性。图7A~图7H中,同所有的篡改方法 相比,现有的Xception网络结构(如图7A、图7C、图7E、图7G所示)更容易混淆真实 唇形和篡改唇形,而本发明提供的方法(如图7B、图7D、图7F、图7H所示)能够在特 征空间中较好的分割出真类和假类。图8A和图8B所示的多分类特征分布也符合上述结 论。
如图9所示,本发明方法提出了一个完整的基于多音素的唇形篡改视频检测任务框 架,充分利用篡改视频的视觉和听觉信息。本发明方法在唇形篡改检测任务中表现优异, 可以区分不同篡改方法。此外,本发明还建立了一个新的唇形篡改视频数据集,有利于后续唇形篡改检测工作发展。
实施例二
如图10所示,本发明实施例提供了一种基于多音素选择的唇型伪造视频检测系统, 包括下述模块:
构建音素类别集模块51,用于建立音素和唇形的映射,得到音素类别集;
构建音素唇形数据集模块52,用于根据不同的唇型篡改方法,从述音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素 唇形数据集作为训练样本集合;
唇型伪造视频检测子模型训练模块53,用于根据不同的唇型篡改方法,从音素类别 中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样本集合;
唇型检测结果融合模块54,用于将至少一个唇型检测结果进行融合,得到融合唇型 检测结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发 明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修 改,均应涵盖在本发明的范围之内。

Claims (4)

1.一种基于多音素选择的唇型伪造视频检测方法,其特征在于,包括:
步骤S1:建立音素和唇形的映射,得到音素类别集,具体包括:
步骤S11:将唇形数据归一化映射到音标类;
步骤S12:通过LDA分类器,合并唇形相近的所述音标类,得到音素类别集,具体包括:某些不同类别的音标具有相似的唇形外观,不能直接使用音标作为可识别单位来区分唇形;为了构建从音素到唇形的鲁棒映射,合并唇形相近的所述音标类,得到多个音素类别,每个音素类别中包含多个音标,多个音素类别中的唇形可区分,形成了从音素到唇形的鲁棒映射;
步骤S2:根据不同的唇型篡改方法,从所述音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样本集合,具体包括:
步骤S21:根据不同的唇型篡改方法中的不同音素之间嘴唇的开合的幅度差值,从所述音素类别中选择前N个幅度差值最大的音素集,构建多音素类别子集;
步骤S22:根据预设的唇形帧的个数选择唇形帧,以及所述多音素类别子集,构建至少一个音素唇形数据集作为训练样本集合;
步骤S3:根据至少一个所述音素唇形数据集,构建对应的至少一个唇型伪造视频检测子模型,分别并行训练,得到对应的至少一个唇型检测结果;
步骤S4:将所述至少一个唇型检测结果进行融合,得到融合唇型检测结果。
2.根据权利要求1所述的基于多音素选择的唇型伪造视频检测方法,其特征在于,所述步骤S3:根据至少一个所述音素唇形数据集,构建对应的至少一个唇型伪造视频检测子模型,分别并行训练,得到对应的至少一个唇型检测结果,具体包括:
根据每个所述音素唇形数据集构建其对应的唇型伪造视频检测子模型,并输入所述音素唇形数据集进行训练,分别得到每个所述唇型伪造视频检测子模型的唇形检测结果;其中,所述唇型伪造视频检测子模型采用XceptionNet作为骨干网络。
3.根据权利要求1所述的基于多音素选择的唇型伪造视频检测方法,其特征在于,所述步骤S4:将所述唇型检测结果进行融合,得到融合唇型检测结果,具体包括:
将每个所述唇型伪造视频检测子模型的所述唇型检测结果赋予权重后进行融合计算,得到融合唇型检测结果。
4.一种基于多音素选择的唇型伪造视频检测系统,其特征在于,包括下述模块:
构建音素类别集模块,用于建立音素和唇形的映射,得到音素类别集,具体包括:
步骤S11:将唇形数据归一化映射到音标类;
步骤S12:通过LDA分类器,合并唇形相近的所述音标类,得到音素类别集,具体包括:某些不同类别的音标具有相似的唇形外观,不能直接使用音标作为可识别单位来区分唇形;为了构建从音素到唇形的鲁棒映射,合并唇形相近的所述音标类,得到多个音素类别,每个音素类别中包含多个音标,这多个音素类别中的唇形可区分,形成了从音素到唇形的鲁棒映射;
构建音素唇形数据集模块,用于根据不同的唇型篡改方法,从所述音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样本集合,具体包括:
步骤S21:根据不同的唇型篡改方法中的不同音素之间嘴唇的开合的幅度差值,从所述音素类别中选择前N个幅度差值最大的音素集,构建多音素类别子集;
步骤S22:根据预设的唇形帧的个数选择唇形帧,以及所述多音素类别子集,构建至少一个音素唇形数据集作为训练样本集合;
唇型伪造视频检测子模型训练模块,用于根据不同的唇型篡改方法,从所述音素类别中,选择对应的多音素类别子集,并根据预设的唇形帧的个数选择唇形帧,构建至少一个音素唇形数据集作为训练样本集合;
唇型检测结果融合模块,用于将所述至少一个唇型检测结果进行融合,得到融合唇型检测结果。
CN202110076775.7A 2021-01-20 2021-01-20 一种基于多音素选择的唇型伪造视频检测方法及系统 Active CN112766166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110076775.7A CN112766166B (zh) 2021-01-20 2021-01-20 一种基于多音素选择的唇型伪造视频检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110076775.7A CN112766166B (zh) 2021-01-20 2021-01-20 一种基于多音素选择的唇型伪造视频检测方法及系统

Publications (2)

Publication Number Publication Date
CN112766166A CN112766166A (zh) 2021-05-07
CN112766166B true CN112766166B (zh) 2022-09-06

Family

ID=75703595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110076775.7A Active CN112766166B (zh) 2021-01-20 2021-01-20 一种基于多音素选择的唇型伪造视频检测方法及系统

Country Status (1)

Country Link
CN (1) CN112766166B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284513B (zh) * 2021-07-26 2021-10-15 中国科学院自动化研究所 基于音素时长特征的虚假语音检测方法及装置
CN114267374B (zh) * 2021-11-24 2022-10-18 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル
CN116112737A (zh) * 2022-12-29 2023-05-12 南京硅基智能科技有限公司 一种视频数据处理的方法和系统
CN117095672A (zh) * 2023-07-12 2023-11-21 支付宝(杭州)信息技术有限公司 一种数字人唇形生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
KR20130022607A (ko) * 2011-08-25 2013-03-07 삼성전자주식회사 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN110942502A (zh) * 2019-11-29 2020-03-31 中山大学 语音唇形拟合方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
KR20130022607A (ko) * 2011-08-25 2013-03-07 삼성전자주식회사 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN110942502A (zh) * 2019-11-29 2020-03-31 中山大学 语音唇形拟合方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Detecting deep-fake videos from phoneme-viseme mismatches;S. Agarwal 等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops》;20200828;全文 *
Phoneme-to-viseme mappings: The good, the bad, and the ugly;Helen L Bear 等;《Speech Communication》;20170816;全文 *
深度伪造视频检测技术综述;暴雨轩等;《计算机科学》;20200915(第09期);全文 *
说话人认证录音回放检测方法综述;贺前华等;《数据采集与处理》;20150315(第02期);全文 *

Also Published As

Publication number Publication date
CN112766166A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112766166B (zh) 一种基于多音素选择的唇型伪造视频检测方法及系统
CN112989977B (zh) 一种基于跨模态注意力机制的视听事件定位方法及装置
Chetty Biometric liveness checking using multimodal fuzzy fusion
CN108182409A (zh) 活体检测方法、装置、设备及存储介质
Hassanat Visual speech recognition
Datcu et al. Emotion recognition using bimodal data fusion
CN103871417A (zh) 一种移动手机特定连续语音过滤方法及过滤装置
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Fujii et al. HumanGAN: generative adversarial network with human-based discriminator and its evaluation in speech perception modeling
Sayedelahl et al. Audio-based emotion recognition from natural conversations based on co-occurrence matrix and frequency domain energy distribution features
CN112651319B (zh) 一种视频检测方法、装置、电子设备及存储介质
Borzì et al. Is synthetic voice detection research going into the right direction?
Elpeltagy et al. A novel smart deepfake video detection system
Alepis et al. Audio-lingual and visual-facial emotion recognition: Towards a bi-modal interaction system
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
Lin et al. Lip forgery video detection via multi-phoneme selection
Datcu et al. Multimodal recognition of emotions in car environments
Zakeri et al. Whispernet: Deep siamese network for emotion and speech tempo invariant visual-only lip-based biometric
CN113191209A (zh) 基于深度学习的智能预警方法
CN109087628B (zh) 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
Sahrawat et al. " Notic My Speech"--Blending Speech Patterns With Multimedia
Beritelli et al. Performance Evaluation of Multimodal Biometric Systems based on Mathematical Models and Probabilistic Neural Networks.
Seegehalli et al. Deep hybrid architectures and DenseNet35 in speaker-dependent visual speech recognition
Chen et al. Npvforensics: Jointing non-critical phonemes and visemes for deepfake detection
Wang et al. Audiovisual emotion recognition via cross-modal association in kernel space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant