CN114402359B

CN114402359B - 用于检测人的合成视频的系统和方法

Info

Publication number: CN114402359B
Application number: CN202080064673.7A
Authority: CN
Inventors: 李康; 叶夫根尼·卡巴科夫; 温斯顿·德阿马斯; 艾伦·丁; 达尔山·辛格·帕内萨
Original assignee: Nuralogix Corp
Current assignee: Nuralogix Corp
Priority date: 2019-07-18
Filing date: 2020-06-30
Publication date: 2023-11-17
Anticipated expiration: 2040-06-30
Also published as: WO2021007652A1; CA3144143C; CN114402359A; CA3144143A1; US11676690B2; US20220262148A1

Abstract

本发明用于检测人的合成视频的系统和方法。所述方法包括：使用通过血红蛋白浓度(HC)变化训练集训练的第一机器学习模型确定血流信号，所述第一机器学习模型将来自所述被捕获图像序列中的位面集的位值作为输入，所述HC变化训练集包括来自从已知HC变化的受试者集捕获的图像的每个位面的位值；使用第二机器学习模型确定来自所述视频的血流模式是否表明是合成视频，所述第二机器学习模型将所述血流信号作为输入，使用血流训练集训练的所述第二机器学习模型包括来自其他人类受试者的多个视频中的至少一个视频的血流数据信号，对于所述其他人类受试者的多个视频，已知每个视频是否是经合成的。

Description

用于检测人的合成视频的系统和方法

发明领域

下文大体涉及数字视频处理，且更具体来说，涉及用于检测人的合成视频的系统和方法。

背景技术

最近出现的一项技术是可从两个或更多个分量视频合成人脸的人工视频。这些人工视频通常被称为“深度伪造(DeepFake)”，原因是这些视频通常涉及使用“深度学习”(基于计算机的人工学习)技术将一个视频叠加到另一视频上。这可涉及以无缝的写实方式将视频中的一个人类受试者的脸部替换为另一人类受试者的脸部，这会产生合成视频或深度伪造视频。创建深度伪造视频可替代地涉及从个体的其它视频创建所述个体的人工视频。深度伪造视频在本质上可为欺骗性的，例如用于诽谤、误报等目的；然而，在所属领域中检测这类合成视频在技术上有很大挑战性。

发明内容

在一方面中，提供一种用于检测人的合成视频的方法，所述方法在一个或多个处理器上执行，所述方法包括：接收包括从人类受试者的皮肤重发射的光的被捕获图像序列的视频；使用通过血红蛋白浓度(HC)变化训练集训练的第一机器学习模型确定血流信号，所述第一机器学习模型将来自所述被捕获图像序列中的位面集的位值作为输入，所述HC变化训练集包括来自从已知HC变化的受试者集捕获的图像的每个位面的位值；使用第二机器学习模型确定来自所述视频的血流模式是否表明是合成视频，所述第二机器学习模型将所述血流信号作为输入，使用血流训练集训练的所述第二机器学习模型包括来自其他人类受试者的多个视频中的至少一个视频的血流数据信号，对于所述其他人类受试者的多个视频，已知每个视频是否是经合成的；和输出对来自所述视频的所述血流模式是否表明是合成视频的所述确定。

在所述方法的特定情况下，所述第二机器学习模型还将生理信息作为输入，且其中所述血流训练集还包括来自其他人类受试者的所述多个视频中的至少一个视频的生理信息，对于所述其他人类受试者的所述多个视频，已知每个视频是否是经合成的。

在所述方法的另一情况下，确定所述血流信号包括基于所述HC变化确定被捕获所述图像的所述人类受试者的多个预定的关注区(ROI)中的每个ROI的血流信号。

在所述方法的又一情况下，来自所述被捕获图像序列中的所述位面集的所述位值包括被确定为将信噪比(SNR)近似最大化的位值。

在所述方法的又一情况下，所述第二机器学习模型输出与来自所述视频的所述血流模式是否表明是合成视频的必然性等级对应的统计概率。

在所述方法的又一情况下，所述方法另外包括将所述第一机器学习模型输出的所述血流信号分解成频率分布曲线和相位分布曲线，所述频率分布曲线和所述相位分布曲线用作输入到所述第二机器学习模型的所述血流信号。

在所述方法的又一情况下，所述频率分布曲线包括每ROI的频谱分析。

在所述方法的又一情况下，所述频率分布曲线包括在所述频谱上单独定义的频率通带信号，其中每个频率通带信号包括个别的12阶椭圆数字滤波。

在所述方法的又一情况下，所述频率分布曲线包括离散频率通带信号的组合。

在所述方法的又一情况下，所述相位分布曲线包括多个差拍向量，每个差拍向量包括特定ROI中的血流信号相对于另一ROI中的血流信号的运动。

在另一方面中，提供一种用于检测人的合成视频的系统，所述系统包括一个或多个处理器和数据存储装置，所述一个或多个处理器被配置为执行：TOI模块，所述TOI模块用于接收包括从人类受试者的皮肤重发射的光的被捕获图像序列的视频并且使用通过血红蛋白浓度(HC)变化训练集训练的第一机器学习模型确定血流信号，所述第一机器学习模型将来自所述被捕获图像序列中的位面集的位值作为输入，所述HC变化训练集包括来自从已知HC变化的受试者集捕获的图像的每个位面的位值；机器学习模块，所述机器学习模块用于使用第二机器学习模型确定来自所述视频的血流模式是否表明是合成视频，所述第二机器学习模型将所述血流信号作为输入，使用血流训练集训练的所述第二机器学习模型包括来自其他人类受试者的多个视频中的至少一个视频的血流数据信号，对于所述其他人类受试者的多个视频，已知每个视频是否是经合成的；输出模块，所述输出模块用于输出对来自所述视频的所述血流模式是否表明是合成视频的所述确定。

在所述系统的特定情况下，所述第二机器学习模型还将生理信息作为输入，且其中所述血流训练集还包括来自其他人类受试者的所述多个视频中的至少一个视频的生理信息，对于所述其他人类受试者的所述多个视频，已知每个视频是否是经合成的。

在所述系统的另一情况下，通过所述TOI模块确定所述血流信号包括基于所述HC变化确定被捕获所述图像的所述人类受试者的多个预定的关注区(ROI)中的每个ROI的血流信号。

在所述系统的又一情况下，来自所述被捕获图像序列中的所述位面集的所述位值包括被确定为将信噪比(SNR)近似最大化的位值。

在所述系统的又一情况下，所述第二机器学习模型输出与来自所述视频的所述血流模式是否表明是合成视频的必然性等级对应的统计概率。

在所述系统的又一情况下，所述系统还包括分布曲线模块，所述分布曲线模块用于将所述第一机器学习模型输出的所述血流信号分解成频率分布曲线和相位分布曲线，所述频率分布曲线和所述相位分布曲线用作输入到所述第二机器学习模型的所述血流信号。

在所述系统的又一情况下，所述频率分布曲线包括每ROI的频谱分析。

在所述系统的又一情况下，所述系统还包括滤波模块，所述滤波模块用于将所述频谱上的频率通带信号单独定义为所述频率分布曲线，其中每个频率通带信号包括个别的12阶椭圆数字滤波。

在所述系统的又一情况下，所述系统还包括组合模块，所述组合模块用于将离散频率通带信号组合为所述频率。

在所述系统的又一情况下，所述相位分布曲线包括多个差拍向量，每个差拍向量包括特定ROI中的血流信号相对于另一ROI中的血流信号的运动。

本文中考虑和描述这些和其它方面。应了解，前述概要陈述了实施例的代表性方面以帮助所属领域的读者理解以下详细描述。

附图简单说明

本发明的特征在参考附图的以下详细描述中将变得更加显而易见，在所述附图中：

图1是根据一实施例的用于检测人的合成视频的系统的框图；

图2是根据一实施例的用于检测人的合成视频的方法的流程图；

图3是光从皮肤的表皮层和皮下层重发射的实例的图表；

图4是实例表面和对应经皮图像的集，说明特定人类受试者的血红蛋白浓度在特定时间点的变化；

图5是实例存储器单元的图解表示；

图6是说明图1的系统产生的示范性血流信号的图表；

图7是说明图1的实施例的实例实施方案的实例流程图；和

图8是说明三通道图像的位面的实例说明。

具体实施方式

现将参考各图描述实施例。为简单和清楚说明起见，在认为适当时，可在各图当中重复参考标号来指示对应或类似元件。另外，阐述许多细节以便提供对本文中描述的实施例的透彻理解。然而，所属领域的技术人员将理解，本文中描述的实施例可在没有这些细节的情况下实践。在其它情况下，不详细描述众所周知的方法、程序和组件以免模糊本文中描述的实施例。而且，所述描述不被视为限制本文中描述的实施例的范围。

除非上下文指示，否则在本发明的整篇描述中使用的各种术语可阅读和理解如下：通篇使用的“或”是包括性的，就像书写为“和/或”一样；通篇使用的单数冠词和代词包括其复数形式，且反之亦然；类似地，性别代词包括其对应代词，使得代词不应被理解为通过单一性别将本文中描述的任何事项在使用、实施、性能等方面进行限制；“示范性”应被理解为“说明性”或“例证性”，且不必理解为“优于”其它实施例。可在本文中陈述术语的另外定义；如将在阅读本发明描述后理解，这些定义可适用于那些术语的先前和后续情况。

本文中的示范的用以执行指令的任何模块、单元、组件、服务器、计算机、终端、引擎或装置可包括或以其它方式存取计算机可读介质，例如存储介质、计算机存储介质，或数据存储装置(可拆卸和/或不可拆卸)，例如磁盘、光盘或磁带。计算机存储介质可包括以用于存储信息(例如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实施的易失性介质和非易失性介质、可拆卸介质和不可拆卸介质。计算机存储介质的实例包括RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储装置、磁带盒、磁带、磁盘存储装置或其它磁存储装置，或可用于存储所要信息并且可被应用程序、模块或这两者存取的任何其它介质。任何这类计算机存储介质可为所述装置的部分或者可存取或可连接到所述装置。另外，除非上下文清楚地指示，否则本文中的陈述的任何处理器或控制器可实施为单个处理器或实施为多个处理器。可排列或分布多个处理器，且本文中提及的任何处理功能可由一个处理器或多个处理器执行，即使可能示范单个处理器仍可由多个处理器执行。可使用计算机可读/可执行指令实施本文中描述的任何方法、应用程序或模块，所述计算机可读/可执行指令可由这类计算机可读介质存储或以其它方式保存并且由一个或多个处理器执行。

用于识别合成视频的方法可涉及视频特征的解构和评估，所述视频特征例如分辨率、噪声和帧率。这些方法中的一些方法可使用深度学习模型识别和评价这类视频特征是否异常(例如，错位帧、视频的特定区模糊、视频内的分辨率变化)并且接着报告视频中的脸部并非原始记录的可能性。然而，这些方法通常是冗长的、不准确并且需要持续更新以适应一种或多种新的视频合成技术。

本发明实施例可使用远程视频光电容积描记法识别合成视频。以此方式，光穿过皮肤进入浅表血管。特定波长的光被血液中的血红蛋白吸收，血红蛋白的浓度随心搏周期振荡。从皮肤发出的环境光的这些小衰减被摄像机捕获且其数据存储为视频。如本文中所描述，处理这些视频以确定反映血红蛋白浓度的血流信号。对于合成视频的情况，这些血流信号可包含由于将两个相异血流合并成单个视频引起的异常；例如，血流振荡不连续或其它信号失真。有利地，可使用这类异常识别合成视频。有利地，通过处理这些血流信号识别合成视频的行为与其它方法相比通常为较低计算资源密集的且显著更快速。

在本文中描述的系统和方法的实施例中，通过确定指定视频中的指定血流模式是来自单个人的来源还是从多个来源合成，为解决识别合成视频的技术问题提供技术方法。使用在视频内捕获的多个图像上执行的图像处理技术来量化这些合成的人的血流模式有利地，这类分析可相对快速地进行。

本发明实施例的技术方法有利地利用身体特定数据驱动的机器训练模型，针对引入的视频流和/或文件来执行所述身体特定数据驱动的机器训练模型。在一些情况下，引入的视频流人的脸部区域的一系列图像。在其它情况下，引入的视频流可为具有暴露的血管表面区域(例如，没有毛发)的任何人体四肢的一系列图像；例如，脸部、手臂和手部。在大多数情况下，每个捕获的身体四肢需要单独训练的模型。出于以下公开内容的目的，将参考捕获视频内的人脸；然而，应注意，其它区域可与本文中描述的方法一起使用。

现在参考图1，示出根据一实施例的用于检测人类合成视频的系统100。系统100包括处理单元108、一个或多个视频源103、存储装置101和输出装置102。处理单元108可以可通信方式链接到存储装置101，所述存储装置101可预加载、周期地加载和/或连续加载有从一个或多个视频源103(例如，视频文件)获得的视频成像数据。处理单元108包括各种互连元件和模块，包括TOI模块110、机器学习模块112、信号处理模块114、第一滤波模块116、组合模块118、分布曲线模块120、乘法器模块122和输出模块126。TOI模块110包括图像处理单元104。在一些情况下，图像处理单元104直接从一个或多个视频源103接收视频。图像捕获装置捕获的视频图像可存储为视频文件(在一些情况下，所述视频文件可指代按顺序串在一起形成视频的多个图像)。这些视频文件可位于视频源103处的数据库中；且在一些情况下，相机可为视频源103。视频可由图像处理单元104进行处理并且存储于存储装置101上。在另外的实施例中，所述模块中的一个或多个模块可在单独的处理单元或装置(包括视频源103或输出装置102)上执行。在另外的实施例中，所述模块的一些特征可组合、在其它模块上执行或远程执行。在一些情况下，系统100和相机可并置于装置上；所述装置例如，智能手机或手提式计算机。

使用经皮光学成像(TOI)，TOI模块110可将血红蛋白浓度(HC)与从视频源103接收的原始图像隔离。现参考图3，示出说明光从皮肤重发射的图表。光301在皮肤302下方行进，并且在穿过不同的皮组织之后重发射303。重发射的光303接着可被相机304捕获，且所得图像文件存储于视频源103处。影响重发射的光的主要发色团是黑色素和血红蛋白。由于黑色素和血红蛋白具有不同的色彩特征，因此已发现，有可能获得主要反映暴露的(无毛发)表皮下的HC的图像，如图4中所示。

使用经皮光学成像(TOI)，TOI模块110通过图像处理单元104获得视频流和/或视频文件103中的每个被捕获图像，并且对所述图像执行操作以产生受试者的对应最优化血红蛋白浓度(HC)图像。可从HC数据确定血流局部体积浓度。图像处理单元104隔离被捕获视频序列中的HC。在示范性实施例中，以每秒30帧呈现人类受试者的脸部的图像。应了解，TOI模块110使用的图像序列可来自于多种视频源；因此，包括多种分辨率、照明条件和帧率。

在特定情况下，隔离HC可伴随TOI模块110通过分析视频图像序列中的位面来确定和隔离将信噪比(SNR)近似最大化的位面集。参考组成被捕获视频文件序列的图像的第一训练集，结合从人类受试者的真实视频和合成视频收集的人的合成血流模式数据来作出高SNR位面的确定。参考组成被捕获视频序列的HC训练集作出高SNR位面的确定。

位面是数字图像的基本方面。通常，数字图像由某一数目的像素(例如，宽度×高度为1920×1080的像素)组成。数字图像的每个像素具有一个或多个通道(例如，色彩通道红色、绿色和蓝色(RGB))。每个通道具有一动态范围，通常为每通道每像素8个位，但对于高动态范围图像，偶而也会每通道每像素10个位。其中，这类位的阵列组成所谓的位面。在一实例中，对于彩色视频的每个图像，可存在三个通道(例如，红色、绿色和蓝色(RGB))，每通道8个位。因此，对于彩色图像的每个像素，通常存在24个层，每层1个位。在这种情况下，位面是图像的特定层在所有像素上的单个1位映射的视图。对于此类型的彩色图像，因而通常存在24个位面(即，每平面1位图像)。因此，对于每秒30帧的1秒彩色视频，存在至少720(30×24)个位面。图8是三通道图像(具有红色、绿色和蓝色(RGB)通道的图像)的位面的示范性说明。对于图像的每个通道，每个堆叠的层倍增；例如，如说明，RGB图像中的每个通道都存在位面堆叠。在本文中描述的实施例中，申请人认识到使用位面的位值而非仅仅使用例如每个通道的均值的优点。因此，如本文所公开，可使得做出HC变化预测且因此做出合成视频确定的准确度水平更高。特定地，如本文中所描述，更高的准确度是可能的是因为采用位面为训练第一机器学习模型提供更大数据库。

可从人类受试者的关注区(ROI)，例如鼻子、脸颊、耳朵、前额或其它暴露的皮肤区域取得TOI信号，且可手动或自动定义视频图像的TOI信号。ROI优选地不重叠。优选地，这些ROI的选择是在特定地表明HC变化模式的测量的HC是针对哪个ROI的基础上进行的。使用由所有三个R、G、B通道的所有位面组成的本机图像，提取ROI中的每个ROI上的在特定时间周期(例如，10秒)内变化的信号。

可移除信号的已在其中使用计算机视觉或其它手段检测到运动的部分，所述信号的剩余部分重新组合以产生没有并发运动的连续信号。

取决于信号特性，可通过滤波模块116使用一个或多个滤波器预处理原始信号。这类滤波器可包括例如巴特沃斯滤波器、契比雪夫滤波器等等。使用来自两个或更多个ROI的经滤波信号，采用机器学习系统地识别将显著增加信号差异化(例如，其中SNR改进大于0.1db)的位面和将不促进信号差异化或会减小信号差异化的位面。在丢弃不促进信号差异化或会减小信号差异化的位面之后，剩余位面图像可最优地确定通常与对指定血流模式是来自单一的人体来源还是从多个来源合成的确定相关联的血流。

为了传到第一机器学习模型，TOI模块110可首先沿着时间维度使用每个位面的每个像素中的位值来操控位面向量(例如，24个位面×60hz)。在一个实施例中，这可涉及每个位面的减去和添加以在时间周期内将ROI中的信号差异最大化。在一些情况下，可以逐像素方式执行减去或添加。在一些情况下，为了获得可靠且稳健的机器学习模型，可将第一机器学习模型的训练数据分成三个集：训练集(例如，整体受试者数据的80％)、测试集(例如，整体受试者数据的10％)和外部验证集(例如，整体受试者数据的10％)。通常，训练数据的时间周期可取决于原始数据的长度而变化(例如，15秒、60秒或120秒)。第一机器学习模型可使用任何适合的机器学习技术；例如，使用长短期存储器(LSTM)神经网络、高斯过程推断网络(GPNet)或其它类型的人工神经网络(ANN)。可基于在例如确定在特征选择方面哪个(些)位面促成最佳信息以及哪个(些)位面不促成最佳信息的此差异化在准确度上的改进时的准确度和效率，选择用于第一机器学习模型的机器学习技术。

在使用长短期存储器(LSTM)神经网络的实施例中，TOI模块110可执行群组特征选择和分类。以此方式，TOI模块110可获得将与图像序列隔离以反映HC的时间变化的位面集。在一些情况下，如本文中所描述，TOI模块110可使用图像滤波器隔离识别的位面。以此方式，第一机器学习模型可用于评定不同受试者的血红蛋白变化的共同空间-时间模式的存在(例如，前额和脸颊中随时间的血流变化的幅度差异)。

可使用图像中的每个图像的像素从HC变化数据确定随时间变化的血流数据。在一些情况下，为了增加信噪比(SNR)，人脸或皮肤的其它区可分成多个关注区(ROI)。所述划分可根据例如人的有差异的基础生理学，例如按照自主神经系统(ANS)调节机制。以此方式，每个ROI中的数据可取平均值。可手动选择或通过使用脸部跟踪软件或其它关注区跟踪软件自动检测ROI。机器学习模块112接着可取每个ROI中的数据的平均值。此信息接着可形成训练集的基础。作为实例，系统100可通过观察(或用图表表示)选择的ROI HC强度值随时间的所得时间分布曲线(例如，形状)，监测选择的ROI包含的随时间的静止HC变化。在一些情况下，系统100可通过观察(或用图表表示)随时间演变的空间离散(ROI之间的HC分布)，监测多个ROI上的更复杂的迁移HC变化。

因此，系统100可接收人类受试者的视频序列并且将从所选位面提取的HC应用于第二机器学习模型以确定通常与特定人类受试者相关联的血流，进而做出视频是否经合成的确定。对于在血流变化和强度波动下长时间运行的视频流，可使用估计和强度计分随时间的变化，所述变化依赖于以移动的时间窗(例如，10秒)为基础的HC数据。

在使用长短期存储器(LSTM)神经网络的实例中，LSTM神经网络包括至少三层单元。第一层是输入层，接受输入数据。第二(或者额外)层是隐藏层，由存储器单元组成(参加图5的图解实例)。最后层是输出层，基于隐藏层使用逻辑回归产生输出值。

如图5中所说明，每个存储器单元包括四个主要元件：输入门、具有自回归连接(连接到自身)的神经元、遗忘门和输出门。自回归连接具有权重1.0，并确保在排除任何外部干扰的情况下，存储器单元的状态可以在从一个时间步到另一个时间步之间保持恒定。门用于调制存储器单元本身与其环境之间的交互。输入门准许或阻止输入信号更改存储器单元的状态。另一方面，输出门可准许或阻止存储器单元的状态影响其它神经元。最后，遗忘门可调制存储器单元的自回归连接，进而准许单元视需要记得或忘记其前一状态。

以下方程式描述如何在每一时间步t更新存储器单元层。在这些方程式中：

x_t是在时间t输入到存储器单元层的输入阵列。在此应用中，x_t是所有ROI处的血流信号：

W_i、W_f、W_c、W_o、U_i、U_f、U_c、U_o和V_o是权重矩阵；且

b_i、b_f、b_c和b_o是偏置向量。

在时间t确定输入门的值i_t，以及存储器单元的状态的候选值C_t：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

确定存储器单元遗忘门在时间t的激活的值f_t：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

在指定遗忘门激活中的输入门激活的值i_t、遗忘门激活的值f_t和候选状态值C_t的情况下，可确定存储器单元在时间t的新状态C_t：

对于存储器单元的新状态，可确定其输出门的值和其随后的输出：

o_t＝σ(W_ox_t+U_oh_t-1+V_oC_t+b_o)

h_t＝o_t*tan h(C_t)

基于存储器单元的模型，对于每个时间步下的血流分布，系统100可确定来自存储器单元的输出。因此，LSTM层中的存储器单元将从输入序列x₁、x₂、x₃、……、x_n产生表示序列h₀、h₁、h₂、……、h_n。

在一些情况下，目标可为将所述序列分类成不同条件。逻辑回归输出层可基于来自LSTM隐藏层的表示序列产生每种条件的概率。可使用柔性最大值传输函数(softmax)通过以下方程式计算在时间步t处的概率向量：

p_t＝softmax(W_outputh_t+b_output)

机器学习模块112使用TOI模块110确定的关注区(ROI)中的每个ROI处的局部血流局部体积浓度的随时间的动态变化以确定视频是否已经合成。为了确定表明是合成视频的血流模式，机器学习模块112使用第二机器学习模型产生对血流模式来自合成视频的预测性估计。第二机器学习模型将来自TOI模块110的HC变化数据作为输入并且使所述HC变化数据通过训练的第二机器学习模型；且在一些情况下，结合从对受试者的被测量血流的动态观察行为连续地实时提取特征。以此方式，系统100使用第一机器学习模型从例如不同关注区中的血红蛋白浓度变化确定血流信号。可从血流信号提取特征。将这类特征作为输入，第二机器学习模型可用于预测视频是否经合成。

通过机器学习模块112的机器学习过程允许在如本文中所描述，从TOI模块110提取的呈现为训练输入的生物信号与用于确定合成视频的作为输出的所得血流模式估计之间的概率映射或多维传递函数的产生。为了训练第二机器学习模型，机器学习模块112从针对人类受试者的多个训练视频系统地接收TOI数据。在一些情况下，用于训练的人类受试者优选地符合特定群体研究的某一分层准则。

在通过机器学习模块112训练第二机器学习模型期间，分别接收人的多个视频的TOI视频和人的合成视频。在一些情况下，可在受控环境下接收这些训练视频并附有“基础真实”信息(如本文中所描述)。在一些情况下，随着用于训练的人的多样性增加，可以增加的稳健性训练机器学习模型。优选地，用于训练的多个人类受试者涵盖了不同的年龄、性别、文化根源、肤色等等。优选地，用于训练的多人具有多种不同的生理学级别(例如，在血压的情况下，低血压患者与高血压患者)，且真实视频和合成视频的比例为高。

在系统100的实施例中，可根据监督训练过程产生第二机器学习模型；其中“基础真实”级别的指定血流模式标记为目标条件并且使用多种训练实例训练模型。在一些情况下，训练实例可以在训练轮次中依序馈送到第二机器学习模型中。通过本文中描述的技术从人的数据集准备训练实例。这些技术利用先进的数据科学机器学习架构，例如多级感知器和深度(层次)神经网络，所述数据科学机器学习架构能够从大数据集‘辨认’不明显的关系以产生预测结果。在一些情况下，来自这类模型的血流模式估计以及用作合成视频的预测的准确性与训练数据集的数量和质量成线性比例。

在一些情况下，为了增加第二机器学习模型关于血流数据(作为输入)与视频是否经合成的确定(作为输出)之间的关系的准确性，并且为了减少达到训练收敛所需的时间，系统100可例如领域知识来提高输入数据的质量。这类领域知识可包括通过分布曲线模块120收集的输入数据的对于增加输入和输出之间的关系的准确性来说意义重大的某些属性、质量或特征；例如，收缩期上升时间、收缩期峰值的幅度、重搏切迹幅度、重搏切迹时间和脉压。使用这类领域知识在训练期间作为输入到第二机器学习模型中的另外的输入可增加第二机器学习模型的预测的准确性；例如，归因于通过领域知识的某些属性、质量或特征进行强化。

转向图2，示出根据一实施例的用于检测人类合成视频的方法200的流程图。

在框202处，TOI模块110从视频源103接收包括一个或多个图像的视频。

在框206处，如本文中所描述，TOI模块110使用第一机器学习模型从所述视频确定血流。在一些情况下，确定受试者脸部的经定义关注区(ROI)的局部体积浓度的血流。使用包括视频的图像的时间序列，TOI模块110可记录这类局部体积浓度随时间的动态变化。

在一实例中，受试者的脸部可分成‘m’个不同的关注区。在此情况下，存在‘m’个单独的ROI信号，每个ROI信号处理从视频的每个图像提取的唯一性信号。这些‘m’个ROI信号的分组统称为ROI信号库。

图6说明TOI模块110针对特定ROI输出的示范性信号量值(y轴)，其测量为随时间(x轴)而变。如所示，本发明人有利地认识到，从TOI模块110提取的信号可至少部分地类似于从动脉间血压监测器取得的示范性信号并且类似于压力脉冲的特征。在此情况下，虽然TOI信号可比从动脉间血压监测器提取的信号具有略微更大噪声，但可提取信号的相关特性且因此将所述相关特性用以训练第二机器学习模型；例如，所述特性如收缩期上升602、收缩期峰值压力604、收缩期下降606、重搏切迹608、舒张期泄出610和舒张末期压力612。在一实例中，如本文中所描述，可通过以信号处理技术将信号降噪来提取所述特性。在此实例中，可对经降噪的信号进行去趋势处理以移除信号基线随时间的波动。在此实例中，接着可通过检测信号的指定区域中的主频率来将信号分段成脉冲。接着可从所述脉冲提取特征；例如，全局最小值/最大值、局部最小值/最大值、斜率、幅度、变化率等等。

在框208处，在一些情况下，通过信号处理模块114处理来自每个ROI的血流量数据。在一些情况下，可将来自每个ROI的血流量数据视为独立的信号并且路由穿过对应的处理路径。以此方式，多个ROI各自产生信号，信号处理模块114使用数字信号处理(DSP)技术个别地但同时地处理所述信号。DSP技术可包括例如数字滤波(例如，高通、低通、带通)、傅里叶变换(时域和频域)、子波变换(时域-频域)等等。这类DSP技术可用于移除信号捕获过程固有的高频率噪声、移除在人体内自然发生的生理起源的低频和超低频振荡(例如，迈尔波)、等等。TOI模块110产生叠加在图像上方的数量为‘m’个的唯一定义的ROI，所述ROI的边界优选地在面积上不重叠。在其它情况下，ROI边界可重叠。

在框210处，滤波模块116分析在从信号处理模块114接收的图像频谱上单独定义的‘n’个频率通带。利用具有‘带通’(BPF)特性的窄带数字滤波器测量每个通带内的光谱能量。所得带通信号中的每个带通信号被称作“BPF信号”或“BPF个例”。以此方式，每个带通滤波器实施由清楚定义的下频率规范和上频率规范组成的通带，其中(通带范围内的)增益优选地明显大于提供的衰减(通带范围外部)。

在特定情况下，滤波模块116可将每个BPF信号构造为个别的12阶椭圆数字滤波。每个滤波器优选地具有相同的带通开始/停止和增益/衰减特性，但在配置的开始/停止‘边缘’频率上是不同的。滤波模块116有利地使用此高阶滤波架构来使急剧滚降量值特性的需求与最小相位失真达成平衡。在一些情况下，通带‘开始’频率是可配置的。在一些情况下，通带范围(跨距)对于每个BPF固定为0.1Hz；作为实例，这意味着‘末端’频率将计算为‘开始’频率加0.1Hz。

在一些情况下，在框212处，组合模块118组合‘n’个不连续的BPF个例的集。以此方式，可通过将逐步增加的‘开始’频率指配给每个BPF个例来覆盖大的连续频率范围。每个BPF信号因此可在图像可用频谱的一部分上操作。用于BPF‘开始’频率的渐进性指配的部署可确保对光谱的近似完全覆盖；作为实例，介于0.1Hz和6.0Hz之间，具有0.1Hz的粒度，产出总共60个BPF个例。在这些情况下，数量总共为‘m’个的ROI信号中的每个ROI信号将具有数量总共为‘n’个BPF信号的局部指定的BPF集，以划分和处理ROI信号的频谱，如上文所描述。窄带滤波器的此集合统称为“滤波器库”。

在一些情况下，在框214处，分布曲线模块120分解在多个ROI上获取的ROI信号，以产生多维的频率分布曲线(也被称为量值分布曲线)和相位分布曲线(也被称为定时分布曲线或速度分布曲线)。可使用量值分布曲线和定时分布曲线作为机器学习模块112(输入)到第二机器学习模型的特征。此“特征工程化”可有利地用以通过增加用于使确定合成视频的血流模式确定差异化的有用的输入数据来增强机器学习训练过程的有效性；且因此，在识别合成视频的血流模式处具有较高准确性。

在本发明实施例中，分布曲线模块120确定的领域知识可包括用以增强血流输入数据的属性的量值分布曲线。在量值分布曲线的情况下，本发明人已确定(每ROI)血流数据上的频率信息分布，这对表明是合成视频的血流模式估计具有重要意义。因而，如下所述，在此情况下，执行使用固定的数字滤波器库对每ROI的频谱分析。数字滤波器的信号提供时域信号的实时频谱；与执行快速傅里叶变换(FFT)相当但每一帧都进行。使用数字滤波器的意欲优点是创建‘n’个个别的频率经滤波的流，可独立地操控和/或路由所述频率经滤波的流以构建第二机器学习模型。因此接着将所述分析提供到第二机器学习模型以增强确定视频是否经合成的准确性。

在一些情况下，差拍信号可用于导出一个ROI血流信号相对于另一ROI血流信号的运动的指示；其中所得差拍信号的频率与血液流速的差异成比例(被称为外差效应)。对于每个ROI，可相对于其它ROI的一些或全部ROI来创建差拍向量(消除任何冗余对)；借以，此差拍向量集合可被视为定时分布曲线。在一些情况下，定时分布曲线可以固定时间间隔不断更新。因而，定时分布曲线可表示基于血流速度差异的总体复杂干扰模式。因而，可将定时分布曲线提供给第二机器学习模型以强调血流速度，从而提高确定视频是否经合成的准确性。

在这些情况下，量值分布曲线包括‘n’个离散点，它们横跨从分析谱的低端到高端的范围。分布曲线模块120通过创建单求和结点F(i)来产生量值分布曲线，其中T表示用于与频率阶跃‘i’相关联的总数量为‘m’个的BPF输出的求和的频率阶跃或位置指数。每个量值点F(i)表示在‘m’个独立ROI上求和的窄带谱能量的度量。

在一些情况下，分布曲线模块120可从数量为‘s'个的片断构造定时分布曲线‘P’，其中每个P(s)片断表示与频率阶跃‘i’相关联的总数量为‘m’个的BPF输出的所有可能的对组合的总和。在一些情况下，减少潜在的配对以消除冗余组合。

在一些情况下，在框216处，将对组合或剩余的唯一性对组合路由到乘法器模块122以创建新的‘外差’输出信号H(i,k)，所述乘法器模块122表示指数‘k’处的乘法器结点，所述新‘外差’输出信号H(i,k)是通过来自不同输入的信号相乘确定的。对于每个频率阶跃‘i’，‘k’指数的范围穿过总数为((m×(m-1))/2)个的结点。P(s)因而表示指定阶跃‘i’的H(i,k)的求和。输出信号H(i,k)存在总数量为‘n’个的片断以覆盖BPF滤波器的整个谱。

在一些情况下，在框218处，滤波模块116还可通过低通滤波器(LPF)处理‘P’分布曲线。以此方式，滤波模块116可移除外差变更中产生的边带，同时为由信号配对引起的‘差拍’信号能量提供量化度量。

在一些情况下，机器学习模块112可利用量值分布曲线和频率分布曲线提供的时间性(时间变化)特征的选择性构造，例如训练者配置的那些选择性构造，以创建个别训练的模型，每个个别训练的模型强调不同的训练特性。如本文中所描述，这些数值导出的特征还可以与从TOI血流数据确定的一个或多个生理的生物信号组合；例如，心率、心率变异性、迈尔波和其它在人体内自然发生并且连续存在的低频或超低频动脉振荡等等。

滤波模块116输出的特征和来自TOI模块110的经恢复生物信号(生理的)可用于先验地训练第二机器学习模型，如上文所描述，并且在框220处，后验地确定血流模式表明是合成视频。在框222处，输出模块126可输出机器学习模块112的确定；例如，作为发到存储装置的数据、作为通过网络发送给其它系统或通过输出装置102显示给用户的数据。

经训练的第二机器学习模型使用包括来自已知合成视频和/或已知非合成视频的血流模式的已知输入(例如，TOI血流数据)和已知输出(基础真实)的训练实例。机器学习模型估算的关系是估计合成视频中的血流模式和生理信号的TOI血流数据；因此，此关系通常是复杂且多维的。通过反复的机器学习训练，可将这类关系作为权重和/或系数的向量进行输出。经训练的第二机器学习模型能够使用这类向量估算TOI血流输入与表明指定血流模式是来自人类受试者的单个视频还是从多个视频源合成的血流模式的经估计输出之间的输入和输出关系。在一些情况下，多个视频源可包括多个受试者，或在其它情况下，可包括单个受试者的多个视频。

第二机器学习模型的基础真实数据可包括用于训练的视频是否经合成(即，伪造)的二元确定。用以训练第二机器学习模型的视频通常具有已知基础真实；使得第二机器学习模型已知视频是否经合成。以此方式，在一些情况下，第二机器学习模型可充当分类器，所述分类器经训练以预测来自血流输入数据的特征是否来自合成的输入视频。

在一实施例中，系统100使用量值分布曲线F(i)将来自TOI模块110的TOI输入数据流变换成频域值，而(在一些情况下，同时)使用定时分布曲线P(i)将相同的TOI输入数据流变换成数据流对之间的差或‘差拍’信号。在一些情况下，可通过数字滤波器组产生(变换)量值分布曲线F(i)。在此情况下，接收TOI时间序列输入信号并且产生输出到单独的频率‘区间(bin)’中的输出。以上操作被称为变换，原因是其在效果上可与在每单个帧上执行快速傅里叶变换(FFT)相当。此方法的优势在于，除了有可能独立地操控或路由每个输出流的事实之外，在执行时域数字滤波器上要简单得多。在其它情况下，代替数字滤波器组，可使用硬件实施方案产生量值分布曲线F(i)；例如，使用基于硬件的现场可编程门阵列(FPGA)FFT模块。在一些情况下，来自数字滤波器库的每帧输出与相同数字输入信号的每帧FFT输出相当。

可使用频域值和差拍信号作为输入特征并且传送给第二机器学习模型以进一步改进模型且因此提供用于确定视频是否经合成的准确性提高。

图7说明本文中描述的实施例的示范性实施方案。TOI模块110接收来自人类受试者的视频的图像集1202。使用第一机器学习模型，TOI模块110对图像集1202执行位面分析1204以得到每个ROI的TOI信号1206。在一些情况下，此举是为了提高血流模式确定的准确性；所述血流模式确定是确定指定血流模式是来自单个视频源还是从多个来源合成。在一些情况下，TOI模块110可对每个ROI的TOI信号中的每个TOI信号执行特征提取1208并馈送到第二机器学习模型中，如本文中所描述。特征提取1208可包括例如确定信号的波形形态特征；例如，波的水平(时间)和竖直(HC)特征、信号的导数等等。特征提取1208还可包括例如确定信号的频域特征；例如，信号的傅里叶级数的量值和相位等等。特征提取808还可包括例如确定信号的生理特征；例如心率、迈尔波、心率变异性等等。特征提取1208还可包括例如基于信号确定血流速度。在一些情况下，可使用人类受试者的人类特性1210(例如，年龄、身高、体重、性别、肤色等等)通知特征提取1208。机器学习模块112接着可基于每ROI的位面数据1206训练1212第二机器学习模型，在一些情况下，结合特征提取1208，确定血流模式数据是否是从多个视频合成。机器学习模型可为例如卷积神经网络(CNN)、深度神经网络(DNN)、多层感知器(MLP)等等。在一些情况下，血流模式是来自原始视频还是合成视频的基础真实数据1214有利于提高第二机器学习模型的训练准确性。使用经训练的第二机器学习模型，系统100可做出关于血流模式是来自单个视频源还是从多个视频合成的预测1216。

第二机器学习模型的输出是对输入视频是“合成”还是“非合成”的分类。在一些情况下，第二机器学习模型还输出模型具有此分类的确定程度的统计概率。可使用柔性最大值传输函数确定在二元分类模型中每个类别的必然性等级(如从0到1的比例)。所要比例乘以100得到百分比。举例来说，可输出概率0.64来表示分类为“合成”是正确的概率为0.64。在一些情况下，统计概率可显示给用户(例如，显示为64％的必然性)。在一些情况下，可基于其它信息；例如，基于SNR，调整统计概率。

本公开的实施例可例如应用于检测电子数据库、电视、社会媒体、新闻等等中的合成视频。本公开的实施例因此可用以识别各种人员的伪造、假造、篡改、欺骗、欺诈和/或模仿视频。

另外，本公开的实施例可例如用作法院、执法部门和调查研究员检测合成视频的工具；例如，在证据审查中。

其它应用可变得显而易见。

虽然已参考某些具体实施例描述了本发明，但在不脱离如在所附权利要求书概述的本发明的精神和范围的情况下对本发明做出的各种修改对所属领域中的技术人员来说是显而易见的。上述所有参考文献的全部公开内容以引用的方式并入本文中。

Claims

1.一种用于检测人的合成视频的方法，所述方法在一个或多个处理器上执行，所述方法包括：

接收包括从人类受试者的皮肤重发射的光的被捕获图像序列的视频；

使用通过血红蛋白浓度HC变化训练集训练的第一机器学习模型确定血流信号，所述第一机器学习模型将来自所述被捕获图像序列中的位面集的位值作为输入，所述HC变化训练集包括来自从已知HC变化的受试者集捕获的图像的每个位面的位值；

使用第二机器学习模型确定来自所述视频的血流模式是否表明是合成视频，所述第二机器学习模型将所述血流信号作为输入，使用血流训练集训练的所述第二机器学习模型包括来自其他人类受试者的多个视频中的至少一个视频的血流数据信号，对于所述其他人类受试者的多个视频，已知每个视频是否是经合成的；和

输出对来自所述视频的所述血流模式是否表明是合成视频的所述确定。

2.如权利要求1所述的方法，其中所述第二机器学习模型还将生理信息作为输入，且其中所述血流训练集还包括来自其他人类受试者的所述多个视频中的至少一个视频的生理信息，对于所述其他人类受试者的所述多个视频，已知每个视频是否是经合成的。

3.如权利要求1所述的方法，其中确定所述血流信号包括基于所述HC变化确定被捕获所述图像的所述人类受试者的多个预定的关注区ROI中的每个ROI的血流信号。

4.如权利要求1所述的方法，其中来自所述被捕获图像序列中的所述位面集的所述位值包括被确定为将信噪比(SNR)近似最大化的位值。

5.如权利要求1所述的方法，其中所述第二机器学习模型输出与来自所述视频的所述血流模式是否表明是合成视频的必然性等级对应的统计概率。

6.如权利要求3所述的方法，还包括将所述第一机器学习模型输出的所述血流信号分解成频率分布曲线和相位分布曲线，所述频率分布曲线和所述相位分布曲线用作输入到所述第二机器学习模型的所述血流信号。

7.如权利要求6所述的方法，其中所述频率分布曲线包括每ROI的频谱分析。

8.如权利要求7所述的方法，其中所述频率分布曲线包括在所述频谱上单独定义的频率通带信号，其中每个频率通带信号包括个别的12阶椭圆数字滤波。

9.如权利要求8所述的方法，其中所述频率分布曲线包括离散频率通带信号的组合。

10.如权利要求6所述的方法，其中所述相位分布曲线包括多个差拍向量，每个差拍向量包括特定ROI中的血流信号相对于另一ROI中的血流信号的运动。

11.一种用于检测人的合成视频的系统，所述系统包括一个或多个处理器和数据存储装置，所述一个或多个处理器被配置为执行：

TOI模块，所述TOI模块用于接收包括从人类受试者的皮肤重发射的光的被捕获图像序列的视频并且使用通过血红蛋白浓度HC变化训练集训练的第一机器学习模型确定血流信号，所述第一机器学习模型将来自所述被捕获图像序列中的位面集的位值作为输入，所述HC变化训练集包括来自从已知HC变化的受试者集捕获的图像的每个位面的位值；

机器学习模块，所述机器学习模块用于使用第二机器学习模型确定来自所述视频的血流模式是否表明是合成视频，所述第二机器学习模型将所述血流信号作为输入，使用血流训练集训练的所述第二机器学习模型包括来自其他人类受试者的多个视频中的至少一个视频的血流数据信号，对于所述其他人类受试者的多个视频，已知每个视频是否是经合成的；和

输出模块，所述输出模块用于输出对来自所述视频的所述血流模式是否表明是合成视频的所述确定。

12.如权利要求11所述的系统，其中所述第二机器学习模型还将生理信息作为输入，且其中所述血流训练集还包括来自其他人类受试者的所述多个视频中的至少一个视频的生理信息，对于所述其他人类受试者的所述多个视频，已知每个视频是否是经合成的。

13.如权利要求11所述的系统，其中通过所述TOI模块确定所述血流信号包括基于所述HC变化确定被捕获所述图像的所述人类受试者的多个预定的关注区ROI中的每个ROI的血流信号。

14.如权利要求11所述的系统，其中来自所述被捕获图像序列中的所述位面集的所述位值包括被确定为将信噪比(SNR)近似最大化的位值。

15.如权利要求11所述的系统，其中所述第二机器学习模型输出与来自所述视频的所述血流模式是否表明是合成视频的必然性等级对应的统计概率。

16.如权利要求13所述的系统，还包括分布曲线模块，所述分布曲线模块用于将所述第一机器学习模型输出的所述血流信号分解成频率分布曲线和相位分布曲线，所述频率分布曲线和所述相位分布曲线用作输入到所述第二机器学习模型的所述血流信号。

17.如权利要求16所述的系统，其中所述频率分布曲线包括每ROI的频谱分析。

18.如权利要求17所述的系统，还包括滤波模块，所述滤波模块用于将所述频谱上的频率通带信号单独定义为所述频率分布曲线，其中每个频率通带信号包括个别的12阶椭圆数字滤波。

19.如权利要求18所述的系统，还包括组合模块，所述组合模块用于将离散频率通带信号组合为所述频率。

20.如权利要求16所述的系统，其中所述相位分布曲线包括多个差拍向量，每个差拍向量包括特定ROI中的血流信号相对于另一ROI中的血流信号的运动。