CN115547357B

CN115547357B - 音视频伪造同步方法及其构成的伪造系统

Info

Publication number: CN115547357B
Application number: CN202211528115.9A
Authority: CN
Inventors: 田辉; 邹远方; 彭胜聪; 郭玉刚; 张志翔
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-05-09
Anticipated expiration: 2042-12-01
Also published as: CN115547357A

Abstract

本发明特别涉及一种音视频伪造同步方法及其构成的伪造系统，其中音视频伪造同步方法，包括如下步骤：按照预设时间对伪造视频进行分段，对每个分段时间内的多帧图像进行处理得到该时间段的唇形特征；提取伪造音频对应时间段内的语音特征；根据唇形特征和语音特征的匹配概率确定唇形‑语音匹配点；根据唇形‑语音匹配点对伪造视频和伪造音频进行对齐。根据这唇形特征和语音特征去进行匹配，从而确定匹配点，根据匹配点进行对齐就能方便的实现伪造音视频整体的对齐，匹配点和对齐的过程是可以持续进行的，每寻找到匹配点即可进行一次对齐，因此该对齐方法时效性强，非常适用于远程视频会议、直播等场景。

Description

音视频伪造同步方法及其构成的伪造系统

技术领域

本发明涉及深度伪造技术领域，特别涉及一种音视频伪造同步方法及其构成的伪造系统。

背景技术

目前多媒体的智能伪造与伪造检测相关技术（Deepfake）已经日渐重要。其中，在人脸深度伪造方面，绝大多数技术的研究目标着眼于追求伪造的真实度，通过精细化的技术手段，大规模数据支撑，以及长时间的模型训练，实现高真实度的伪造目标。但当前这种技术思路，大大忽略了结果的实时性，仅能用于离线场景的伪造人脸视频制作，当面临需要实时交互的伪造场景，如视频会议、在线直播等，有多种原因会导致音视频不同步的情况，比如：人脸伪造算法和声音伪造算法处理速度不同会导致输出的音视频延迟不同；相同的伪造算法，针对不同的人脸或声音数据也会有不同的延迟；还有诸如网络波动等其他因素也会导致音视频不同步。造成不同步的深层次原理是：当前的同步技术是根据系统时钟或者传输延时对音视频时间戳进行校准，但是伪造后的音视频内容的语义信息与特征分布都发生了巨大变化，因此导致现有同步技术难以完成伪造音视频的同步任务。对于实时交互的伪造场景，音视频不同步会导致口型和声音对不上，此时，即使伪造的人脸和声音都非常的真实，也会很轻易的被分辨出该视频是伪造的。

发明内容

本发明的目的在于提供一种音视频伪造同步方法，能够在复杂干扰情况下确保伪造的音视频高效同步，提高伪造音视频的真实度。

为实现以上目的，本发明采用的技术方案为：一种音视频伪造同步方法，包括如下步骤：按照预设时间对伪造视频进行分段，对每个分段时间内的多帧图像进行处理得到该时间段的唇形特征；提取伪造音频对应时间段内的语音特征；根据唇形特征和语音特征的匹配概率确定唇形-语音匹配点，其中匹配概率是利用唇形-语音匹配网络，对唇形特征和语音特征进行匹配识别得到的；根据唇形-语音匹配点对伪造视频和伪造音频进行对齐。

与现有技术相比，本发明存在以下技术效果：通过提取唇形特征和语音特征，然后直接根据这两个特征去进行匹配，从而确定匹配点，匹配点对应的就是伪造的音视频应该处于同一个时刻的点，因此根据匹配点进行对齐就能方便的实现伪造音视频整体的对齐，匹配点和对齐的过程是可以持续进行的，每寻找到匹配点即可进行一次对齐，因此该对齐方法时效性强，非常适用于远程视频会议、直播等场景。

本发明的目的在于提供一种音视频伪造系统，能够提供真实感更强的伪造音视频。

为实现以上目的，本发明采用的技术方案为：一种音视频伪造系统，包括采集模块、伪造模块、同步模块以及输出模块；所述的采集模块包括摄像头和麦克风分别用于获取用户实时人脸数据和声音数据；伪造模块包括换脸引擎和变声引擎，换脸引擎用于根据人脸数据伪造目标对象的同表情数据得到伪造视频，变声引擎用于根据声音数据伪造目标对象的声音得到伪造音频；同步模块根据前述步骤对伪造视频和伪造音频进行对齐处理后输出至输出模块；输出模块包括虚拟摄像头和虚拟麦克风分别用于输出对齐后的伪造视频和伪造音频。

与现有技术相比，本发明存在以下技术效果：通过设置独立的换脸引擎和变声引擎，这样就能更加方便的进行系统集成和更新，因为换脸和变声的算法总是在不断的推陈出新，将其作为独立的单元，集成和替换更加方便；同步模块可以让伪造的音视频同步性强，提供更强的真实感；虚拟摄像头和虚拟麦克风可以方便的输出伪造对齐后的音视频，并且能方便的与其他的视频会议或直播系统对接，无需对其他系统或软件作出更改；在使用的时候，只需要打开本系统，再打开视频会议或直播系统，就能在后者中显示伪造对齐后的音视频，非常的方便。

附图说明

图1是本发明的流程示意图；

图2是音视频伪造同步示意图，图中展示的是第一次对齐之前的状态；

图3是经过第一次对齐后的状态示意图；

图4是音视频伪造系统框图。

具体实施方式

下面结合图1至图4，对本发明做进一步详细叙述。

参阅图1，本发明公开了一种音视频伪造同步方法，包括如下步骤：按照预设时间对伪造视频进行分段，对每个分段时间内的多帧图像进行处理得到该时间段的唇形特征；提取伪造音频对应时间段内的语音特征；根据唇形特征和语音特征的匹配概率确定唇形-语音匹配点，其中匹配概率是利用唇形-语音匹配网络，对唇形特征和语音特征进行匹配识别得到的；根据唇形-语音匹配点对伪造视频和伪造音频进行对齐。通过提取唇形特征和语音特征，然后直接根据这两个特征去进行匹配，从而确定匹配点，匹配点对应的就是伪造的音视频应该处于同一个时刻的点，因此根据匹配点进行对齐就能方便的实现伪造音视频整体的对齐，匹配点和对齐的过程是可以持续进行的，每寻找到匹配点即可进行一次对齐，因此该对齐方法时效性强，非常适用于远程视频会议、直播等场景。

如果按视频帧进行匹配和对齐，需要消耗非常多的算力，考虑到人在说话的时候，短时间内唇形变化不会太大，于是可以将伪造的音视频分成一个个的小段进行处理，这里说的小段即前面述及的每个分段时间。根据分段时间的长短、伪造视频的帧率，每个分段时间中包含的视频帧数是不同的。按照人的正常语速，每秒会说2-5个字，说同一个字的时候，其唇形基本无变化，因此本发明中优选地，所述按照预设时间对伪造视频进行分段的步骤中，分段时间长度为200~500ms，以200ms为例，如果视频的帧率是30，那么每个分段时间中就包括6个视频帧，每个分段的时间长度可以根据需要具体设定。

进一步地，所述的唇形-语音匹配点由初始匹配点和非初始匹配点构成，除了初始匹配点以外的所有其他匹配点都称为非初始匹配点。所述的根据唇形特征和语音特征的匹配概率确定唇形-语音匹配点以及根据唇形-语音匹配点对伪造视频和伪造音频进行对齐包括如下步骤：根据唇形特征和语音特征的匹配概率确定初始匹配点；根据初始匹配点对伪造视频和伪造音频进行第一次对齐；初始匹配点的确定及其对齐主要用于消除整体延迟，相当于一次整体上的调整。根据第一次对齐后的唇形特征和语音特征的匹配概率确定非初始匹配点；根据非初始匹配点对伪造视频和伪造音频进行第二次对齐。对于后续的非初始匹配点而言，由于已经有匹配点已经完成匹配和对齐，因此后续获得匹配点后，不能再整体移动了，而是需要以音频或视频的时间轴为参考，调整另一个的长度。

初始匹配点的确定有很多种方式，本发明中优选地，所述的根据唇形特征和语音特征的匹配概率确定初始匹配点包括：计算前M个时间段内的每个唇形特征和每个语音特征的匹配概率；根据匹配概率最大的唇形特征和语音特征对应的时间段确定初始匹配点；这样可以更加准确的确定初始匹配点；在实际计算时，M的取值可以根据需要来选择，比如选择2~10。所述的根据初始匹配点对伪造视频和伪造音频进行第一次对齐包括：根据初始匹配点将伪造视频或伪造音频沿时间轴整体右移使得伪造视频时间轴上的初始匹配点和伪造音频时间轴上的初始匹配点处于同一时刻。下面结合附图和具体的实施例做进一步详细说明。

图2到图3表达的就是第一次对齐前后的状态，图2中，上方是伪造视频及其时间轴，下方是伪造音频时间轴及伪造音频，需要注意的是，伪造视频中的视频帧在实际情况中是等间隔的，为了区分不同的分段时间，在图中是按照多个一组进行的绘制。图2中的虚线框代表的就是每个分段时间。在最开始的时候，我们计算了前M个时间段内的每个唇形特征和每个语音特征的匹配概率，假设伪造视频中第2个时间段的唇形特征2和伪造音频中第1个时间段的语音特征1匹配概率最大，那么，我们就需要将伪造音频整体右移，右移后如图3所示，此时语音特征1和唇形特征2处于同一个时刻。

进一步地，所述的根据第一次对齐后的唇形特征和语音特征的匹配概率确定非初始匹配点包括：在伪造音频时间轴的上一个匹配点之后寻找伪造音频信号幅值大于预设阈值或达到预设间隔的时间点；音频信号幅值越大，说明用户嘴巴张开的较大，其唇形特征越明显，因此可以将这些时刻作为匹配点效果更佳。为了避免用户长时间小声说话导致未能寻找到合适的时间点，这里还设定了预设间隔，即如果达到预设间隔仍未找到音频信号幅值大于设定阈值的时间点，则直接选择达到预设间隔的时间点。根据该时间点确定语音特征时间段，由于上面根据音频信号幅值确定的是某个时间点，因此需要在这里根据时间点确定时间段。在语音特征时间段预设范围内寻找匹配概率最大的唇形特征时间段，比如图3中，假设我们确定的语音特征时间段为第10个，其对应的唇形特征为11，若预设范围是2个时间段，那么应该分别计算唇形特征9~13（即11±2）与语音特征10的匹配概率，并取最大概率对应的唇形特征时间段。同样地，我们需要根据时间段来确定匹配点，即根据匹配概率最大的唇形特征和语音特征对应的时间段确定的下一个匹配点即为非初始匹配点。

在确定下一个匹配点之后，可以继续按照上述步骤将所有的匹配点先确定下来，然后再进行对齐操作；也可以每确定下一个匹配点之后就进行一次对齐操作。本发明中主要针对的是会议或直播，其实时性很强，因此采用的是后一种方案。

具体地，每确定下一个匹配点之后就通过如下任一步骤执行第二次对齐：步骤一、以音频为基准，对上一个匹配点和下一个匹配点之间的伪造视频进行抽帧或补帧处理使得伪造视频时间轴上的下一个匹配点对齐到伪造音频时间轴上的下一个匹配点所在时刻；步骤二、以视频为基准，对上一个匹配点和下一个匹配点之间的伪造音频进行加速或减速处理使得伪造音频时间轴上的下一个匹配点对齐到伪造视频时间轴上的下一个匹配点所在时刻。对齐的操作有两种方式，以音频为基准的，是不修改音频的时间轴，将视频时间轴对齐到音频上；以视频为基准的则正好相反。

前面有多处提及时间段转换成时间点的步骤，具体地，本发明中优选地，所述的根据匹配概率最大的唇形特征和语音特征对应的时间段确定初始匹配点或下一个匹配点的步骤中，以唇形特征和语音特征对应时间段的起点或中点或终点所处时刻作为匹配点，具体操作时，一般多以时间段的中点为匹配点。

前文中，我们提及了唇形-语音匹配网络，但并未详细述及其结构，是因为这种匹配网络非常的常见，网络输入的是特征值、输出的是匹配概率，比如采用CRNN、resnet等网络就能实现这样的功能，该网络的构建和训练都较为常见，因此这里不再赘述。

提取伪造视频每个分段时间内的多帧图像的唇形特征、语音特征也有很多种方案可以实现，本发明中通过如下具体方法进行特征的提取。

优选地，所述的对每个分段时间内的多帧图像进行处理得到该时间段的唇形特征包括如下步骤：对每帧图像按如下步骤进行处理得到每帧图像对应的唇形特征：提取每帧图像中的唇形特征点；对唇形特征点进行曲线拟合得到唇形外轮廓和内轮廓；根据唇形外轮廓曲线求解外唇上下间的距离H1、周长L1、面积P1，根据唇形内轮廓曲线求解内唇上下间的距离H2、周长L2、面积P2；向量V＝(H1,L1,P1,H2,L2,P2)即每帧图像的唇形特征；对每个分段时间内的多帧图像的唇形特征求取平均值得到该时间段的唇形特征，这里说的求取平均值指的是分别对每个参数求取平均值，比如距离H1，求取的是所有帧图像中H1的平均值作为最终特征。从人脸图像中提取唇形特征有很多种方案可以实现，并且每种算法所使用的参数也有所不同。

优选地，所述的提取伪造音频对应时间段内的语音特征包括：按照设定的参数读入伪造音频，常用的参数有声道数、采样频率、量化位数、采样个数等。我们只有一个麦克风的输入，因此声道数设置为1。采样频率越高，对音频采集的效果越佳，本文将采样频率设为16kHz。量化位数表示将模拟信号转化为数字信号之后的数据位数，一般设置为8位。对读入的伪造音频信号依次进行预加重、分帧以及加窗处理后得到多个独立的音频片段；我们在频域中可以发现，语音信号的频谱在较短的时间内是近乎稳定的，所以在采集音频特征之前需要进行预加重操作：让输入的音频信号经过一个高频信号才能通过的滤波器。这样可以提高音频中频率较高的区域，让语音信号频率的分布曲线能够更加平滑。高通滤波器的表达式为：。在音频信号实施预加重处理后，还要实行分帧处理。语音信号的分帧过程类似于图像处理方面的视频分帧。将N个采样点聚集为一个独立的处理对象，这个待处理的独立对象即独立音频片段。一般来说，我们说话时的器官运动方式是具有连贯性的，因此可在短时间内视为稳定信号，常选取N=256或者512（语音时长10-30ms）的音频信号作为文本处理的对象。分帧处理后，还需要进行加窗处理：对每一帧乘一个窗函数，这样让每一帧的左端点和右端点更具有连贯性。我们选用的窗函数是汉明窗。

分帧加窗后语音信号已经分成多个独立的片段。然后利用快速傅里叶变换将音频片段从时域映射到频域上；最后利用梅尔倒谱系数的特征采集算法获取音频片段的MFCC值，这里获取的是每个独立音频片段的特征。再对每个分段时间内的多个独立音频片段的MFCC值求取平均值得到该时间段的语音特征。

关于唇形特征和语音特征的提取，并非本案的重点，现有技术中也有很多文献中记载了其他可用的方案，比如贺杰于2021年4月1日完成的硕士研究生学位论文《基于多模态的语言识别系统设计与实现》（公开日期2021年9月25日）中就有所记载。

参阅图4，本发明还公开了一种音视频伪造系统，包括采集模块、伪造模块、同步模块以及输出模块；所述的采集模块包括摄像头和麦克风分别用于获取用户实时人脸数据和声音数据；伪造模块包括换脸引擎和变声引擎，换脸引擎用于根据人脸数据伪造目标对象的同表情数据得到伪造视频，变声引擎用于根据声音数据伪造目标对象的声音得到伪造音频；同步模块根据前面所述的步骤对伪造视频和伪造音频进行对齐处理后输出至输出模块；输出模块包括虚拟摄像头和虚拟麦克风分别用于输出对齐后的伪造视频和伪造音频。

通过设置独立的换脸引擎和变声引擎，这样就能更加方便的进行系统集成和更新，因为换脸和变声的算法总是在不断的推陈出新，将其作为独立的单元，集成和替换更加方便；同步模块可以让伪造的音视频同步性强，提供更强的真实感；虚拟摄像头和虚拟麦克风可以方便的输出伪造对齐后的音视频，并且能方便的与其他的视频会议或直播系统对接，无需对其他系统或软件作出更改；在使用的时候，只需要打开本系统，再打开视频会议或直播系统，就能在后者中显示伪造对齐后的音视频，非常的方便。

本发明还公开了一种计算机可读存储介质和一种电子设备。其中，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现前述任一项音视频伪造同步方法。一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现前述任一项音视频伪造同步方法。

Claims

1.一种音视频伪造同步方法，其特征在于：包括如下步骤：

按照预设时间对伪造视频进行分段，对每个分段时间内的多帧图像进行处理得到对应时间段的唇形特征；提取伪造音频对应时间段内的语音特征；

根据唇形特征和语音特征的匹配概率确定唇形-语音匹配点，其中匹配概率是利用唇形-语音匹配网络，对唇形特征和语音特征进行匹配识别得到的；

根据唇形-语音匹配点对伪造视频和伪造音频进行对齐；

所述的唇形-语音匹配点由初始匹配点和非初始匹配点构成，所述的根据唇形特征和语音特征的匹配概率确定唇形-语音匹配点以及根据唇形-语音匹配点对伪造视频和伪造音频进行对齐包括如下步骤：

根据唇形特征和语音特征的匹配概率确定初始匹配点；

根据初始匹配点对伪造视频和伪造音频进行第一次对齐；

根据第一次对齐后的唇形特征和语音特征的匹配概率确定非初始匹配点；

根据非初始匹配点对伪造视频和伪造音频进行第二次对齐；

所述的根据第一次对齐后的唇形特征和语音特征的匹配概率确定非初始匹配点包括：

在伪造音频时间轴的上一个匹配点之后寻找伪造音频信号幅值大于预设阈值或达到预设间隔的时间点；

根据该时间点确定语音特征时间段；

在语音特征时间段预设范围内寻找匹配概率最大的唇形特征时间段；

根据匹配概率最大的唇形特征和语音特征对应的时间段确定的下一个匹配点即为非初始匹配点。

2.如权利要求1所述的音视频伪造同步方法，其特征在于：所述的根据唇形特征和语音特征的匹配概率确定初始匹配点包括：

计算前M个时间段内的每个唇形特征和每个语音特征的匹配概率；

根据匹配概率最大的唇形特征和语音特征对应的时间段确定初始匹配点；

所述的根据初始匹配点对伪造视频和伪造音频进行第一次对齐包括：

根据初始匹配点将伪造视频或伪造音频沿时间轴整体右移使得伪造视频时间轴上的初始匹配点和伪造音频时间轴上的初始匹配点处于同一时刻。

3.如权利要求1所述的音视频伪造同步方法，其特征在于：每确定下一个匹配点之后就通过如下任一步骤执行第二次对齐：

步骤一、以音频为基准，对上一个匹配点和下一个匹配点之间的伪造视频进行抽帧或补帧处理使得伪造视频时间轴上的下一个匹配点对齐到伪造音频时间轴上的下一个匹配点所在时刻；

步骤二、以视频为基准，对上一个匹配点和下一个匹配点之间的伪造音频进行加速或减速处理使得伪造音频时间轴上的下一个匹配点对齐到伪造视频时间轴上的下一个匹配点所在时刻。

4.如权利要求1所述的音视频伪造同步方法，其特征在于：所述的根据匹配概率最大的唇形特征和语音特征对应的时间段确定初始匹配点或下一个匹配点的步骤中，以唇形特征和语音特征对应时间段的起点或中点或终点所处时刻作为匹配点。

5.如权利要求1所述的音视频伪造同步方法，其特征在于：所述的对每个分段时间内的多帧图像进行处理得到该时间段的唇形特征包括如下步骤：

对每帧图像按如下步骤进行处理得到每帧图像对应的唇形特征：提取每帧图像中的唇形特征点；对唇形特征点进行曲线拟合得到唇形外轮廓和内轮廓；根据唇形外轮廓曲线求解外唇上下间的距离H1、周长L1、面积P1，根据唇形内轮廓曲线求解内唇上下间的距离H2、周长L2、面积P2；向量V＝(H1,L1,P1,H2,L2,P2)即每帧图像的唇形特征；

对每个分段时间内的多帧图像的唇形特征求取平均值得到该时间段的唇形特征。

6.如权利要求1所述的音视频伪造同步方法，其特征在于：所述的提取伪造音频对应时间段内的语音特征包括：

按照设定的参数读入伪造音频；

对读入的伪造音频信号依次进行预加重、分帧以及加窗处理后得到多个独立的音频片段；

利用快速傅里叶变换将音频片段从时域映射到频域上；

利用梅尔倒谱系数的特征采集算法获取音频片段的MFCC值；

对每个分段时间内的多个独立音频片段的MFCC值求取平均值得到该时间段的语音特征。

7.如权利要求1所述的音视频伪造同步方法，其特征在于：所述按照预设时间对伪造视频进行分段的步骤中，分段时间长度为200~500ms。

8.一种音视频伪造系统，其特征在于：包括采集模块、伪造模块、同步模块以及输出模块；所述的采集模块包括摄像头和麦克风分别用于获取用户实时人脸数据和声音数据；伪造模块包括换脸引擎和变声引擎，换脸引擎用于根据人脸数据伪造目标对象的同表情数据得到伪造视频，变声引擎用于根据声音数据伪造目标对象的声音得到伪造音频；同步模块根据权利要求1中所述的步骤对伪造视频和伪造音频进行对齐处理后输出至输出模块；输出模块包括虚拟摄像头和虚拟麦克风分别用于输出对齐后的伪造视频和伪造音频。