CN114600174A

CN114600174A - 伪造视频检测

Info

Publication number: CN114600174A
Application number: CN202080073987.3A
Authority: CN
Inventors: X.叶
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-10-21
Filing date: 2020-10-13
Publication date: 2022-06-07
Also published as: WO2021080815A1; EP4049174A4; EP4049174A1; JP2022552888A

Abstract

使用视频(212)的一个或多个帧的图像分析(306)和频域分析(310)来检测所述视频是否是从原始视频(200)衍生并且进行更改的伪造视频。所述分析可以使用神经网络来实施(302)。

Description

伪造视频检测

技术领域

本申请总体上涉及技术上创新的非常规解决方案，这些解决方案必须源于计算机技术并产生具体的技术改进。

背景技术

如本文所理解，现代数字图像处理与深度学习算法相结合，呈现如下有趣且令人愉快但潜在地险恶的能力：将一个人的视频图像更改为另一个人的图像，或者通过以此人的声音说出此人实际上从未说过的话的这种方式更改此人的视频。虽然这种能力可以轻松的方式使用，但它也可用于通过使得看起来好像此人说了诋毁的话来诽谤个人。因此，本文提供了用于确定视频是真的还是由机器学习生成的伪造品的技术

发明内容

因此，一种系统包括至少一个面部检测模块，其用于接收图像并确定在图像中是否存在图像中的面部上的至少一个纹理不规则性或图像中的面部与背景之间的至少一个纹理不规则性，或两者。系统还包括用于接收图像的至少一个第一神经网络；用于接收图像并将频谱输出到至少一个第二神经网络的至少一个离散傅里叶变换(DFT)；以及用于访问由面部检测模块、第一神经网络和第二神经网络输出的特征以确定图像是否从原始图像更改并提供代表其的输出的至少一个检测模块。

纹理不规则性可以包括棋盘图案。

检测模块可以至少部分地通过检测频谱中的至少一个不规则性来确定图像从原始图像更改。

频谱中的不规则性可以包括比原始图像中的对应区域更亮的至少一个亮度区域。亮度区域可以在频域中沿着图像的周边定位。实际上，频谱中的不规则性可以包括在频域中沿着图像的周边定位的多个亮度区域。

面部检测模块可以被配置用于输出指示图像中的面部上的照明不规则性的特征向量，所述照明不规则性指示图像已从原始图像更改。

在另一方面，一种方法包括通过面部检测模块处理图像以输出特征向量，所述特征向量指示图像中的面部上的至少一个照明不规则性，或图像中的至少一个纹理不规则性，或两者。所述方法还包括通过至少一个离散傅里叶变换(DFT)和至少一个神经网络来处理图像以输出指示在频域中的图像中的至少一个不规则性的特征向量，并至少部分地基于特征向量返回图像已从原始图像更改的指示。

在另一方面，一种设备包括具有指令的至少一个计算机存储介质，所述指令可由至少一个处理器执行以通过图像检测模块处理图像以确定空间域中的图像中是否存在不规则性。指令可执行以将图像转换到频域并在频域中处理图像以确定频域中是否存在不规则性。指令可执行以至少部分地基于确定图像中存在不规则性，输出图像从原始图像数字地更改的指示。

可以响应于确定频域中的不规则性或空间域中的不规则性中的任一个来输出图像从原始图像数字地更改的指示。或者，可以仅响应于确定频域中的不规则性和空间域中的不规则性两者来输出图像从原始图像数字地更改的指示。

可以参考附图最佳地理解本申请的关于其结构和操作两者的细节，在附图中，相同的附图标记指代相同的部分，并且在附图中：

附图说明

图1是包括根据本发明原理的示例的示例系统的框图；

图2是示出真实视频和自真实视频衍生的伪造视频的示意图；

图3是用于使用图像处理和频域分析两者来检测伪造视频的示例逻辑的流程图；

图4是用于训练图3中使用的神经网络的示例逻辑的流程图；

图5示出真实视频帧和对应伪造视频帧的图示，示出了伪造帧中的伪影；

图6是用于执行图3的逻辑的示例神经网络架构的框图；

图7是用于使用视频序列分析检测伪造视频的示例逻辑的流程图；

图8是用于执行图7的逻辑的示例性神经网络架构的框图；

图9是用于采用区块链技术处理伪造视频生成的示例逻辑的流程图；

图10是用于向互联网服务提供商(ISP)或经销商报告伪造视频以便ISP/经销商可以将此视频从公众视野中移除的示例用户界面(UI)的屏幕截图；

图11是用于记录或上传或下载视频以及视频中嵌入的验证散列的示例逻辑的流程图；

图12是用于回放图11中记录或访问的视频的示例逻辑的流程图，其中散列用于验证真实性；

图13是使用先前原理的混合逻辑的示例逻辑的流程图；

图14示出两组真实图像和更改图像中的示例照明伪影；

图15示出图像中的示例生成对抗网络(GAN)伪影或不规则性；以及

图16使用真实和更改图像示出另一与GAN相关的伪影或不规则性。

具体实施方式

本公开总体上涉及计算机生态系统，其包括消费型电子(CE)装置网络的各个方面，例如但不限于计算机模拟网络，例如计算机游戏网络以及独立的计算机模拟系统。本文的系统可以包括通过网络连接的服务器和客户端部件，使得可以在客户端与服务器部件之间交换数据。客户端部件可以包括一个或多个计算装置，所述计算装置包括例如Sony

或由微软(Microsoft)或任天堂(Nintendo)或其他制造商制作的游戏控制台等游戏控制台，虚拟现实(VR)头戴式耳机、增强现实(AR)头戴式耳机、便携式电视机(例如智能TV、启用互联网的TV)、便携式计算机(例如膝上型计算机和平板计算机)以及其他移动装置(包括智能手机和下面讨论的附加示例)。这些客户端装置可在多种操作环境下操作。例如，一些客户端计算机可以采用例如Linux操作系统、来自微软的操作系统或Unix操作系统，或由苹果计算机或谷歌生产的操作系统。可以使用这些操作环境来执行一个或多个浏览程序，例如由微软或谷歌或摩斯拉制作的浏览器，或可访问由下文论述的互联网服务器托管的网站的其他浏览器程序。此外，根据本发明原理的操作环境可以用于执行一个或多个计算机游戏程序。

服务器和/或网关可以包括执行指令的一个或多个处理器，所述指令将服务器配置为通过例如互联网的网络来接收和传输数据。或者，客户端和服务器可以通过本地内联网或虚拟专用网络进行连接。服务器或控制器可以由例如Sony

个人计算机等游戏控制台实例化。

信息可以在客户端与服务器之间通过网络进行交换。为此目的并且为了安全起见，服务器和/或客户端可以包括防火墙、负载平衡器、临时存储装置和代理，以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可以形成一种设备，所述设备实现向网络成员提供例如在线社交网站的安全社区的方法。

如本文使用，指令是指用于处理系统中的信息的计算机实现的步骤。指令可以在软件、固件或硬件中实现，并且包括由系统部件执行的任何类型的编程步骤。

处理器可以是任何常规通用单芯片或多芯片处理器，所述处理器可以借助于例如地址线、数据线和控制线的各种线以及寄存器和移位寄存器来执行逻辑。

通过本文的流程图和用户界面描述的软件模块可以包括各种子例程、程序等。在不限制本公开的情况下，被陈述为由特定模块执行的逻辑可以被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

本文描述的本发明原理可以实现为硬件、软件、固件或它们的组合；因此，说明性部件、框、模块、电路和步骤是依据它们的功能性进行阐述的。

除上文已经提到的内容之外，下文描述的逻辑块、模块和电路可以用被设计成执行本文描述的功能的通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其他可编程逻辑装置(例如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或其任何组合)来实现或执行。处理器可以由控制器或状态机或计算装置的组合来实现。

下文所述的功能和方法当在软件中实现时可以用例如但不限于Java、C#或C++的适当语言编写，并且可以存储在计算机可读存储介质上或通过计算机可读存储介质传输，所述计算机可读存储介质例如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)或其他光盘存储装置(例如数字通用光盘(DVD))、磁盘存储装置或包括可移除拇指驱动器的其他磁存储装置等。连接可以建立计算机可读介质。此类连接可以包括例如硬连线电缆，包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可以包括无线通信连接，包括红外线和无线电。

在一个实施方案中包括的部件可以任何适当的组合用于其他实施方案中。例如，本文中所描述且/或在图中所描绘的各种部件中的任一者可以被组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的系统”(同样地，“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括以下系统：仅具有A；仅具有B；仅具有C；同时具有A和B；同时具有A和C；同时具有B和C；和/或同时具有A、B和C等。

现在具体地参考图1，示出了示例系统10，所述系统可以包括根据本发明原理在上文所提及且在下文进一步描述的示例装置中的一者或多者。系统10中包括的示例装置中的第一示例装置是例如音频视频装置(AVD)12的消费电子(CE)装置，例如但不限于带有TV调谐器(等效地，控制TV的机顶盒)的支持互联网的TV。然而，替代地，AVD 12可以是家电或家居用品，例如，计算机化的支持互联网的冰箱、洗衣机或烘干机。AVD 12替代地还可以是计算机化的支持互联网的(“智能”)手机、平板计算机、笔记本计算机、可穿戴的计算机化装置(例如计算机化的支持互联网的手表、计算机化的支持互联网的手镯)、其他计算机化的支持互联网的装置、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的头戴式耳机、计算机化的支持互联网的可植入装置(例如可植入皮肤装置)等。无论如何，应理解，AVD 12被配置成实现本发明原理(例如，与其他CE装置通信以实现本发明原理，执行本文描述的逻辑，以及执行本文描述的任何其他功能和/或操作)。

因此，为了实现此类原理，AVD 12可以由图1所示的部件中的一些或全部建立。例如，AVD 12可以包括一个或多个显示器14，所述一个或多个显示器可以由高清晰度或超高清晰度“4K”或更高清晰度的平面屏幕实现，并且可以支持触摸以用于经由显示器上的触摸来接收用户输入信号。AVD 12可以包括：一个或多个扬声器16，用于根据本发明的原理输出音频；以及至少一个额外的输入装置18，例如音频接收器/麦克风，用于例如向AVD 12输入可听命令以控制AVD 12。示例AVD 12还可以包括一个或多个网络接口20，用于在一个或多个处理器24的控制下通过例如互联网、WAN、LAN等的至少一个网络22进行通信。还可以包括图形处理器24A。因此，接口20可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，例如但不限于网状网络收发器。将理解，处理器24控制AVD 12来实现本发明原理，包括本文描述的AVD 12的其他元件，例如控制显示器14以在显示器上呈现图像以及从显示器接收输入。此外，应注意，网络接口20可以是例如有线或无线调制解调器或路由器或其他适当接口，例如无线电话收发器，或如上所提及的Wi-Fi收发器等。

除前述内容之外，AVD 12还可以包括一个或多个输入端口26，例如用于物理地连接(例如，使用有线连接)到另一个CE装置的高清晰度多媒体接口(HDMI)端口或USB端口，和/或用于将耳机连接到AVD 12以用于通过耳机将来自AVD 12的音频呈现给用户的耳机端口。例如，输入端口26可以经由导线或无线地连接至音频视频内容的缆线或卫星源26a。因此，源26a可以是例如单独的或集成的机顶盒或卫星接收器。或者，源26a可以是包含内容的游戏控制台或磁盘播放器，所述内容可以被用户视为用于下文进一步描述的信道分配目的的最喜欢内容。当被实现为游戏控制台时，源26a可以包括以下关于CE装置44描述的部件中的一些或全部。

AVD 12还可以包括不是瞬时信号的一个或多个计算机存储器28，例如基于磁盘的存储装置或固态存储装置，在一些情况下，所述一个或多个计算机存储器在AVD的机壳中体现为独立装置，或者体现为在AVD的机壳内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器，或者体现为可移除存储器介质。而且在一些实施方案中，AVD12可以包括位置或定位接收器，例如但不限于手机接收器、GPS接收器和/或高度计30，所述位置或定位接收器被配置成例如从至少一个卫星或手机塔接收地理位置信息并且向处理器24提供所述信息和/或结合处理器24一起确定AVD 12所处的海拔。然而，应理解，根据本发明原理，可以使用除手机接收器、GPS接收器和/或高度计之外的另一种合适的位置接收器，以例如确定AVD 12在例如所有三个维度上的定位。

继续AVD 12的描述，在一些实施方案中，根据本发明原理，AVD 12可以包括一个或多个相机32，所述一个或多个相机可以是例如热成像相机、例如网络摄像头的数字相机和/或集成到AVD 12中并且能够由处理器24控制以收集图片/图像和/或视频的相机。在AVD 12上还可以包括蓝牙收发器34和其他近场通信(NFC)元件36，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。

此外，AVD 12可以包括向处理器24提供输入的一个或多个辅助传感器37(例如，运动传感器，例如加速计、陀螺仪、回转计或磁传感器、红外(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。AVD 12可以包括空中TV广播端口38，用于接收向处理器24提供输入的OTA TV广播。除前述内容之外，应注意，AVD 12还可以包括红外(IR)发射器和/或IR接收器和/或IR收发器42，例如IR数据关联(IRDA)装置。可以提供电池(未示出)以用于为AVD 12供电。

仍参考图1，除AVD 12之外，系统10还可以包括一个或多个其他CE装置类型。在一个示例中，第一CE装置44可以用于经由直接发送至AVD 12的命令和/或通过下文描述的服务器向AVD 12发送计算机游戏音频和视频，而第二CE装置46可以包括与第一CE装置44相似的部件。在所示的示例中，第二CE装置46可以被配置为玩家47所穿戴的VR头戴式装置，如图所示。在所示的示例中，仅示出两个CE装置44、46，但应理解，可以使用更少或更多的装置。例如，下文的原理讨论在玩由游戏控制台向一个或多个AVD 12提供的计算机游戏期间，多个玩家47通过各自的头戴式装置彼此通信。

在所示的示例中，为了说明本发明原理，假设所有三个装置12、44、46都是例如家中娱乐网络的成员，或至少在例如房屋的场所里彼此接近。然而，除非另有明确要求，否则本发明原理不限于虚线48所示的特定位置。

示例非限制性第一CE装置44可以由例如便携式无线膝上型计算机或笔记本计算机或游戏控制器的上文所提及装置中的任何一者来建立，并因此可以具有下文描述的部件中的一者或多者。第一CE装置44可以是用于例如向AVD 12发出AV播放和暂停命令的遥控器(RC)，或者它可以是更复杂的装置，例如平板计算机、经由有线或无线链路与AVD 12和/或游戏控制台通信的游戏控制器、个人计算机、无线电话等。

因此，第一CE装置44可以包括一个或多个显示器50，所述一个或多个显示器可以具有触摸功能以用于经由显示器上的触摸来接收用户输入信号。第一CE装置44可以包括：一个或多个扬声器52，用于根据本发明原理输出音频；以及至少一个额外的输入装置54，例如音频接收器/麦克风，用于例如向第一CE装置44输入可听命令以控制装置44。示例第一CE装置44还可以包括一个或多个网络接口56，用于在一个或多个CE装置处理器58的控制下通过网络22进行通信。还可以包括图形处理器58A。因此，接口56可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，包括网状网络接口。应理解，处理器58控制第一CE装置44来实现本发明原理，包括本文所述的第一CE装置44的其他元件，例如控制显示器50来在显示器上呈现图像和从显示器接收输入。此外，应注意，网络接口56可以是例如有线或无线调制解调器或路由器或其他适当接口，例如无线电话收发器，或如上所提及的Wi-Fi收发器等。

除前述内容之外，第一CE装置44还可以包括用于物理地连接(例如，使用有线连接)到另一个CE装置的一个或多个输入端口60，例如HDMI端口或USB端口和/或用于将耳机连接到第一CE装置44以用于通过耳机将来自第一CE装置44的音频呈现给用户的耳机端口。第一CE装置44还可以包括一个或多个有形计算机可读存储介质62，例如基于磁盘的存储装置或固态存储装置。而且在一些实施方案中，第一CE装置44可以包括位置或定位接收器，例如但不限于手机和/或GPS接收器和/或高度计64，所述位置或定位接收器被配置成例如使用三角测量从至少一个卫星和/或小区发射塔接收地理位置信息，并且向CE装置处理器58提供所述信息和/或结合CE装置处理器58一起确定第一CE装置44所处的海拔。然而，应理解，根据本发明原理，可以使用除手机和/或GPS接收器和/或高度计之外的另一种合适的位置接收器以例如确定第一CE装置44在例如所有三个维度上的定位。

继续对第一CE装置44的描述，在一些实施方案中，根据本发明原理，第一CE装置44可以包括一个或多个相机66，所述一个或多个相机可以是例如热成像相机、例如网络摄像头的数字相机和/或集成到第一CE装置44中并且能够由CE装置处理器58控制以收集图片/图像和/或视频的相机。在第一CE装置44上还可以包括蓝牙收发器68和其他近场通信(NFC)元件70，以用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。

此外，第一CE装置44可以包括向CE装置处理器58提供输入的一个或多个辅助传感器72(例如，运动传感器，例如加速计、陀螺仪、回转计或磁传感器、红外(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)等)。第一CE装置44可以包括向CE装置处理器58提供输入的其他传感器，例如一个或多个气候传感器74(例如，气压计、湿度传感器、风传感器、光传感器、温度传感器等)和/或一个或多个生物识别传感器76。除前述内容之外，应注意，在一些实施方案中，第一CE装置44还可以包括红外(IR)发射器和/或IR接收器和/或IR收发器78，例如IR数据关联(IRDA)装置。可以提供电池(未示出)以用于为第一CE装置44供电。CE装置44可以通过上述通信模式和相关部件中的任一者与AVD 12进行通信。

第二CE装置46可以包括针对CE装置44示出的部件中的一些或全部。任一个或两个CE装置可以由一个或多个电池供电。

现在参考前面提到的至少一个服务器80，所述服务器包括至少一个服务器处理器82、例如基于磁盘的存储装置或固态存储装置的至少一个有形的计算机可读存储介质84，以及至少一个网络接口86，所述网络接口在服务器处理器82的控制下允许在网络22上与图1的其他装置通信，并且实际上可以根据本发明原理便于服务器与客户端装置之间的通信。应注意，网络接口86可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当接口，例如无线电话收发器。

因此，在一些实施方案中，服务器80可以是互联网服务器或整个服务器“群”，并且在例如网络游戏应用的示例实施方案中可以包括并且执行“云”功能，使得系统10的装置可以经由服务器80访问“云”环境。或者，服务器80可以由与图1中示出的其他装置在同一房间或附近的一个或多个游戏控制台或其他计算机来实现。

本文中的方法可以实现为由处理器、适当配置的专用集成电路(ASIC)或现场可编程门阵列(FPGA)模块或如本领域技术人员将理解的任何其他便利方式执行的软件指令。在采用的情况下，软件指令可以体现在例如CD ROM或闪存驱动器的非暂时性装置中。软件代码指令可以可替代地体现为例如无线电或光学信号的瞬态布置，或者经由在互联网上的下载体现。

现在参考图2至图6，示出用于确定图像是否“伪造”，即已从原始图像数字地更改的第一种技术。在图2中，可以呈现在显示器202上的原始图像200显示具有面部204的人在说出可听短语206。图像200可以是例如来自视频流的I帧的图像，并且可以如本文所公开的那样处理视频流的一些或所有帧。

利用例如但不限于键盘的输入装置210操作计算机208的人可以更改图像和/或音频以产生此人的更改图像212，此人可能被描绘为说出更改的可听短语214。本发明原理旨在检测更改图像212实际上已经从原始图像200发生更改。

图3示出可以在第一种技术中执行的逻辑，而图6提供可以体现图3的逻辑的示例架构。在框300开始，接收图像。在框302，可以通过经由例如卷积NN(CNN)的第一神经网络(NN)处理图像来直接分析图像。在框304，第一NN输出表示图像的特征向量。

此外，在框306，可以将图像输入到面部辨识模块，以分析图像的面部和/或背景中的伪影(在本文中也称为不规则性)以及图像中的照明不规则性。可以使用一个或多个NN的面部辨识模块将特征向量输出到框304。

举例来说，图像(空间域)中的面部的不规则性可以包括具有棋盘状外观的小区域，指示由于数字更改导致的模糊分辨率。

此外，可以在框308使用例如输出频谱的离散傅里叶变换(DFT)将图像转换到频域，在框310用例如CNN的另一个NN分析所述频谱以检测频域中的图像中的不规则性。将表示频谱的特征向量提供到框304。

举例来说，频域中的不规则性可以包括沿着频域中图像的图形表示的周边的一个或多个亮点。

移动到决策菱形312，可以包括一个或多个NN的检测模块分析来自框304的特征向量以确定在空间域和/或频域中是否存在一个或多个不规则性。如果不存在不规则性，则过程可以在状态314结束，但是在一些实现方式中，如果在任何域中存在任何不规则性，则可以在框316返回图像是伪造的指示。在其他实现方式中，仅当空间域中存在不规则性并且频域中存在不规则性时，才可以在框316返回图像是伪造的指示。

简要地参考图4，示出用于训练本文讨论的NN的过程。在框400开始，将地面实况的原始、未更改的图像输入到NN。此外，在框402，将地面实况的更改或伪造的图像输入到NN。设计者可以使用“深度伪造”技术从地面实况原始图像生成伪造图像。NN可以被编程为使用例如上文针对频域和空间域两者讨论的任何或示例不规则性开始分析。在框404，在地面实况输入上训练NN。随后可以应用强化学习来完善框404处NN的训练。

图5示出示例空间域不规则性和频域不规则性。在原始空间域502和原始频域504中示出原始图像500。原始图像500的更改图像506具有更改的空间域图像508和在510处描绘的更改频域。

如图所示，更改的空间域图像508中的区域512具有放大并在514处描绘的棋盘图案。原始图像与更改图像之间也可能存在照明不规则性。

也可以在频域510中的图像表示中检测到一个或多个频域不规则性516。如图所示，频域不规则性516可以包括沿着频域图形描绘的边缘或周边的亮点。在所示的示例中，每侧存在两个亮点，指示频域中的图像更改产生的不规则性。

图6示出可以用于体现图3的逻辑的示例架构。将要针对更改进行测试的图像600输入到面部检测模块602，所述面部检测模块分析空间域中的图像以在模块602的神经网络(NN)604处检测图像中的照明不规则性以及在606处进行面部分辨率/不规则性检查。面部检测模块602可以采用图像辨识原理并且可以由一个或多个NN来体现。

此外，可以将图像600直接输入到NN 608，以使用可以是CNN的附加规则进行直接分析。应注意，NN 608提取图像的特征向量。此外，NN 604执行图像处理并且在缺乏足够训练数据的情况下特别有利。然而，NN 604、608可以由单个NN实现。

此外，图像600通过离散傅里叶变换(DFT)610进行处理，所述DFT输出表示频域中的图像600的频谱612。将频谱612发送到CNN 614以用于分析频谱。

面部辨识模块602(包括照明不规则性检查604和面部分辨率/伪影检查606)以及CNN 608和614产生在空间域和频域两者中表示图像600的特征向量组616。可以由一个或多个NN(例如递归NN(RNN)，例如长短期模块(LSTM))实现的检测模块618根据本文提出的原理分析特征向量以查明图像600是否包含从原始图像的数字更改。如果是，则在620处生成图像600可能是伪造品的指示。

图7示出用于检测更改的视频的第二种技术，且图8提供用于体现图7的逻辑的示例架构。在框700，将例如视频剪辑或其他视频帧序列的视频序列输入到NN。在框702，使用NN分析序列，在704，所述NN输出表示视频序列的特征向量。

在分析视频序列时，可以训练NN来学习在例如说话期间的自然人类面部运动模式。如本文所理解，当视频序列被更改时，更改程序可能不会精确地模拟例如嘴唇的自然运动模式，因此NN可能会在伪造视频序列中检测到稍微不自然的运动模式。

此外，在框706，将与视频序列相关联的音频输入到频率变换。在框708，将频率变换706输出的频谱提供给NN，用于分析频谱以向框704输出表示音频的特征向量。

在分析伴随音频时，可以训练NN来学习自然人类语音特性，例如节奏、音调、音高模式和重读。如本文所理解，当例如声音音频的音频被更改时，更改程序可能无法精确地模拟自然的人类语音模式。因此，NN可以在伪造音频序列中检测到轻微不自然的语音模式，例如不自然的节奏或音调或音高。可以沿着图4所示的路线完成训练，其中地面实况音频和自原始地面实况音频衍生的伪造地面实况音频用作训练集。

可以将特征向量704提供给例如RNN 710的NN以分析特征向量，以在决策菱形712检测输入视频序列和/或伴随音频是否已从原始更改。如果没有发现异常/不规则性，则过程可以在状态714结束，但是如果检测到不规则性，则在框716输出视频序列可能已更改的指示。

在一些实施方案中，如果在音频或视频中检测到任何不规则性，则在框716输出伪造品的指示。在其他实施方案中，仅当在音频和视频两者中检测到不规则性时，才在框716处输出伪造品的指示。

图8示出可以用于体现图7的逻辑的架构。将视频序列800输入到例如CNN的NN 802以从中提取特征向量804。此外，将例如语音806的音频输入到例如短时傅里叶变换(STFT)的频率变换808以在频域中生成音频的表示，由例如CNN的NN 810分析所述音频的表示以从中提取特征向量。例如RNN(例如LSTM)的NN 212根据本文描述的原理分析特征向量，以在框814检测视频序列800和音频806中的任何不规则性。状态816指示输入可能是伪造品的指示的输出。

现在转向图9，示出用于使用区块链技术和/或数字指纹技术来解决伪造视频生成的第三种技术。通常，视频的散列/签名可以使用例如网络浏览器集成到例如智能手机或其他记录装置的成像装置中，或编码到硬件中。数字指纹可以从整个视频或子轨道中的数据位生成，使得如果视频内容改变，则指纹也将改变。数字指纹可以与元数据一起生成，所述元数据例如最初制作视频的位置和时间戳。每次尝试重新分发视频时，经销商必须向区块链上的原始视频请求许可并为新(复制)视频链接新区块，从而使得容易追溯到原始视频和黑链上的任何节点。在再次上传视频之前，可以将视频的指纹与原始指纹进行匹配以确定尝试添加的视频是否已被篡改。

例如，视频网站可结合有视频指纹检测器，因此每当上传/下载视频时，所述视频将被记载和加时间戳。如果基于指纹与原始视频指纹不匹配而将视频分类为伪造视频，则可能会在整个链上如此进行记载。这仿效杀毒软件，但在这种情况下，所有用户同时受到保护。

从框900开始，将原始(“真实”)视频与视频的散列一起添加到视频区块链中，所述散列可以用作数字指纹并且通常基于像素值或编码信息或视频中的其他图像相关值。可以在框902接收复制视频的请求，并且可以在框904准许所述请求。

移至框906，可以接收将作为原始视频的副本的新视频添加回区块链中的请求。为使请求有效，可以在新视频上附上散列(指纹)。前进到决策菱形908，将试图添加到区块链的视频的散列与所述视频从其复制的原始视频的散列进行比较，并且如果散列匹配，则可以在框910将新视频添加到区块链。

另一方面，如果在决策菱形908确定散列不匹配，则逻辑可以移至框912以拒绝将新视频添加到区块链，或者将新视频与新视频已从原始视频发生更改并且因此可能是伪造品的指示一起添加到区块链。如果需要，在框914可以使更改的视频无法从区块链访问或以其他方式无法播放。

此外，在检测到更改视频时，逻辑可以移至框916以向新的更改视频的互联网服务提供商(ISP)或其他经销商报告视频实际上已经从原始视频进行数字更改，因此应进行检查以决定是否将新的(更改的)视频从公众视野中移除。图10示出了。

如图所示，用户界面(UI)1000可以呈现在执行图9的逻辑的装置的显示器1002上和/或从执行图9的逻辑的装置接收信息。UI 1000可以包括已经检测到可能伪造视频的提示1004。UI 1000还可以包括选择器1006，以使用户能够将伪造品的存在连同识别信息一起报告给经销商或其他机构。

图11和图12示出附加指纹逻辑。从图11的块1100开始，根据新原始视频的创建和/或在上传或下载视频时，对于所有视频帧的至少一些实施方案以及在所有视频帧的一些实施方案中，在帧中执行散列。前进到框1002，然后将散列嵌入所述散列自其衍生的帧中。

在示例中，视频帧的散列可以通过肉眼不能检测的方式隐写地嵌入视频帧中并且可以跨视频帧均匀地分布。例如，每段隐写散列的像素可以位于已知位置，因为它始终是固定位置，或者因为所述位置包含在帧的视频元数据中(允许每个帧不同)。已知此位置允许从进行散列的视频数据排除表示散列的像素。换句话说，原始散列仅由非隐写更改的像素创建。视频压缩算法也可以使用此位置来确保表示散列的像素不会以将影响散列的方式压缩或更改。

图12示出视频回放软件随后将反转此过程。在框1200处开始，从视频帧提取隐写嵌入的散列。移至框1202，对视频帧的其余像素进行散列。前进到决策菱形1204，将新散列与从帧提取的散列进行比较。如果它们匹配，则所述帧未从原始源视频更改，并且因此如果需要将视频添加到区块链(假设所有或至少阈值数量的帧散列相匹配)，则逻辑移至框1206以指示这一点。如果散列不匹配，则逻辑移至框1208以指示正在观看的视频已从原始视频更改，其中在已被更改的帧周围有(例如)红色边框或突出显示。甚至可以勾勒出帧的更改部分。

此相同验证过程可以在后端服务器上执行，所述后端服务器检测伪造品，并且主动阻止伪造品被发布或向视频附加警告。

如果任何恶意行为者以任何有意义的方式更改源视频，则帧将以不同方式散列和/或嵌入的隐写散列将受到破坏。只要此活动的两端都有善意行为者，就可检测到视频的更改。

图13示出可以采用结合上述原理的混合技术。框1300指示图像处理/视频序列与频域分析相结合可以用于识别视频中的伪影/不规则性。框1302进一步指示语音处理可以与上述技术中的任一种结合使用以识别视频中的伪影/不规则性。框1304指示视频中伪影/不规则性的识别可以与区块链技术结合以跟踪原始(真实)视频及其已被更改(伪造)的副本。

图14至图16提供可能出现在更改图像(在图中标记为“伪造”图像)中的伪影或不规则性的其他示例。图14中的第一真实图像1400已被更改以产生对应的更改图像1402，其中在区域1404中，照明看起来比第一真实图像1400中的对应区域更亮。同样地，第二真实图像1406已被更改以产生更改图像1408，其中面部上的区域1410中的照明看起来比真实图像1406中的更亮。更改图像1402、14108的分辨率也小于对应真实图像1400、1406的分辨率，意指NN可以基于照明不规则性和分辨率降低中的一者或两者学习区分更改图像。

图15示出更改图像1500，其中在小区域1502中，由于执行生成对抗网络(GAN)上采样以产生更改图像1500而存在图像不规则性或伪影。如区域1502的分解图1504所示，GAN不规则性可以包括图像中的均匀纯色区域，其中在原始图像中出现非均匀纯色主题(在所示的示例中，具有不同阴影程度的草)。

图16示出真实图像1600和通过将另一个人的面部叠加到真实图像1600中的对象的面部上而自真实图像1600衍生的更改图像1602。如在1604所示，这种叠加导致面部与头部或身体其他部位不对齐，在这种情况下，鼻子与描绘头部的角度不对齐。

将了解，虽然已经参考一些示例实施方案描述了本发明原理，但是这些实施方案并不意图是限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种系统，其包括：

至少一个面部检测模块，其用于接收图像并确定在所述图像中是否存在所述图像中的面部上的至少一个纹理不规则性或所述图像中的所述面部与背景之间的至少一个纹理不规则性，或两者；

至少一个第一神经网络，其用于接收所述图像；

至少一个离散傅里叶变换(DFT)，其用于接收所述图像并将频谱输出到至少一个第二神经网络；

至少一个检测模块，其用于访问由所述面部检测模块、所述第一神经网络和所述第二神经网络输出的特征以确定所述图像是否从原始图像更改并提供代表其的输出。

2.如权利要求1所述的系统，其中所述纹理不规则性包括棋盘图案。

3.如权利要求1所述的系统，其中所述检测模块至少部分地通过检测所述频谱中的至少一个不规则性来确定所述图像从原始图像更改。

4.如权利要求3所述的系统，其中所述频谱中的所述不规则性包括比所述原始图像中的对应区域更亮的至少一个亮度区域。

5.如权利要求4所述的系统，其中所述亮度区域在频域中沿着所述图像的周边定位。

6.如权利要求3所述的系统，其中所述频谱中的所述不规则性包括多个亮度区域。

7.如权利要求6所述的系统，其中所述多个亮度区域在频域中沿着所述图像的周边定位。

8.如权利要求1所述的系统，其中所述面部检测模块被配置用于输出指示所述图像中的面部上的照明不规则性的特征向量，所述照明不规则性指示所述图像已从所述原始图像更改。

9.一种方法，其包括：

通过面部检测模块处理图像以输出特征向量，所述特征向量指示所述图像中的面部上的至少一个照明不规则性，或所述图像中的至少一个纹理不规则性，或两者；

通过至少一个离散傅里叶变换(DFT)和至少一个神经网络来处理所述图像以输出特征向量，所述特征向量指示在频域中的所述图像中的至少一个不规则性；以及

至少部分地基于所述特征向量返回所述图像已从原始图像更改的指示。

10.如权利要求9所述的方法，其中所述纹理不规则性包括所述图像中的面部上的纹理不规则性或所述图像中的所述面部与背景之间的纹理不规则性，或两者。

11.如权利要求9所述的方法，其中所述纹理不规则性包括棋盘图案。

12.如权利要求9所述的方法，其中所述频域中的所述图像中的所述不规则性包括比所述原始图像中的对应区域更亮的至少一个亮度区域。

13.如权利要求12所述的方法，其中所述亮度区域在所述频域中沿着所述图像的周边定位。

14.如权利要求9所述的方法，其中所述频域中的所述不规则性包括多个亮度区域。

15.如权利要求14所述的方法，其中所述多个亮度区域在频域中沿着所述图像的周边定位。

16.如权利要求9所述的方法，包括输出指示所述图像中的面部上的照明不规则性的特征向量，所述照明不规则性指示所述图像已从所述原始图像更改。

17.一种系统，其包括：

至少一个接收模块，其用于接收视频帧序列并输出特征向量，所述特征向量表示如所述视频帧中所示的人的面部的运动是否表现出自然运动；以及

至少一个检测模块，其用于访问由所述接收模块输出的特征向量以确定视频帧序列图像是否从原始视频帧序列图像更改，并用于提供代表其的输出。

18.如权利要求17所述的系统，其中如所述视频帧序列中所示的所述人的面部的所述运动包括所述人说话时的运动。

19.如权利要求17所述的系统，其中如所述视频帧序列中所示的所述人的面部的所述运动包括所述人的嘴唇的运动。

20.如权利要求17所述的系统，还包括：

至少一个频率变换，其被配置用于接收与所述视频帧序列相关的音频并且被配置用于输出频谱；

至少一个神经网络，其被配置用于接收所述频谱并输出表示所述音频的音频特征向量；以及

至少一个分析模块，其被训练以学习自然人类语音特性，所述至少一个分析模块被配置用于接收所述音频特征向量并基于所述音频特征向量输出关于所述音频从原始音频更改的指示。

21.如权利要求20所述的系统，其中至少一个音频特征向量表示以下至少一个：节奏、音高模式、音调模式、重读。