CN116210052A

CN116210052A - 方法和电子设备

Info

Publication number: CN116210052A
Application number: CN202180059026.1A
Authority: CN
Inventors: 列夫·马哈辛; 斯蒂芬·蒂德曼; 斯特凡·乌利希; 王碧; 廖伟翔; 光藤祐基
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-08-03
Filing date: 2021-07-30
Publication date: 2023-06-02
Also published as: US20230274758A1; WO2022029044A1

Abstract

一种方法包括：基于音频波形确定至少一个音频事件；以及确定该音频事件的深度伪造概率。

Description

方法和电子设备

技术领域

本公开总体上涉及音频处理领域，尤其涉及用于音频分析的方法和设备。

背景技术

随着强大的深度神经网络(DNN)和相应的计算机芯片的出现，特别是在低价格的情况下，对图像内容、视频内容或音频内容的操纵变得更加容易和更加普遍。用DNN操纵图像内容、视频内容或音频内容(称为“深度伪造”)并因此创建逼真的视频、图像和音频伪造已经变得可能，即使对于非专家来说也不需要太多的努力和太多的背景知识。例如，可以改变视频的部分，例如，人的嘴唇运动，或者改变图像的部分，例如，人的面部表情，或者改变音频文件，例如，人的语音。这种技术可用于大规模欺诈或在政治舞台上传播逼真的假新闻。

因此，希望改进对已经被DNN操纵的音频内容的检测。

发明内容

根据第一方面，本公开提供了一种方法，包括：基于音频波形确定至少一个音频事件；以及确定音频事件的深度伪造概率。

根据第二方面，本公开提供了一种电子设备，包括电路，该电路被配置为：基于音频波形确定至少一个音频事件；以及确定音频事件的深度伪造概率。

在从属权利要求、以下描述和附图中阐述了进一步的方面。

附图说明

参考附图通过示例的方式解释实施例，其中：

图1示意性地示出了用于音频深度伪造检测的智能扬声器系统的第一实施例；

图2示意性地示出了用于音频深度伪造检测的智能扬声器系统的第二实施例；

图3a示出了预处理单元的第一实施例；

图3b示出了频谱图的实施例；

图4示意性地示出了借助于盲源分离的音频源分离的一般方法；

图5示出了预处理单元的第二实施例；

图6示意性地示出了用于图像分类的CNN的示例性架构；

图7示出了深度伪造检测器中的DNN分类器的训练过程的流程图；

图8示出了包括经训练的DNN分类器的深度伪造检测器的操作模式；

图9示意性地示出了自动编码器的实施例；

图10示出了包括固有维度估计器的深度伪造检测器的操作模式；

图11示出了包括DNN深度伪造分类器和固有维度估计器的深度伪造检测器；

图12示出了包括差异鉴别器的深度伪造检测器的实施例；

图13示出了包括DNN深度伪造分类器和差异鉴别器的深度伪造检测器；

图14示出了包括DNN深度伪造分类器、差异鉴别器和固有维度估计器的深度伪造检测器；以及

图15示意性地描述了可以实现深度伪造检测功能的电子设备的实施例。

具体实施方式

实施例公开了一种方法，该方法包括：基于音频波形确定至少一个音频事件；以及确定音频事件的深度伪造概率。

音频事件可以是音频波形的任何部分(或全部)，并且可以具有与音频波形相同的格式或任何其他音频格式。音频事件也可以是音频波形的任何部分(或全部)的频谱图，在这种情况下，该音频事件被表示为音频事件频谱图。

音频波形可以是音频文件样本的向量。音频波形可以是任何类型的普通音频波形，例如，一段音乐(即，一首歌)、人的语音、或者像枪声或汽车马达之类的声音。存储的音频波形可以例如存储为WAV、MP3、AAC、FLAC、WMV等。

根据实施例，深度伪造概率可以指示音频波形已经被人工智能技术改变和/或失真或者已经被人工智能技术完全生成的概率。

根据实施例，音频波形可以涉及媒体内容，例如，音频或视频文件或直播流。

根据实施例，确定至少一个音频事件可以包括确定音频波形的或音频波形的一部分的音频事件频谱图。

根据实施例，该方法还可以包括利用经训练的DNN分类器来确定音频事件的深度伪造概率。

经训练的DNN分类器可以输出音频事件是深度伪造的概率，这也可以被指示为DNN分类器的伪造概率值，并且在该实施例中，可以等于音频事件的深度伪造概率。

根据实施例，确定至少一个音频事件可以包括对音频波形执行音频源分离，以获得声音或语音波形，并且其中，基于声音或语音波形的音频事件频谱图来确定深度伪造概率。

在另一个实施例中，音频源分离可以分离音频波形而非声音波形的另一个乐器(音轨)或另一个声音类别(例如，像在咖啡馆、在汽车等中的环境声音)。

根据实施例，确定至少一个音频事件可以包括：确定音频波形的或音频波形的一部分的一个或多个候选频谱图；通过经训练的DNN分类器标记候选频谱图；以及根据其标记过滤标记的频谱图，以获得音频事件频谱图。

经训练的DNN分类器可以被训练来将输入频谱图分类成不同的类别。将特定频谱图与被经训练的DNN分类器分类的类别链接的过程可以被称为标记。标记例如可以是将特定的谱图与其指定类别一起存储到组合的数据结构中。标记例如还可以存储从特定频谱图到其指定类别的指针。

根据实施例，确定音频事件的深度伪造概率可以包括确定音频事件的固有维度概率值。

音频事件的固有维度概率值可以是指示音频事件是深度伪造的概率的值，该概率是基于音频事件的固有维度确定的。

根据实施例，固有维度概率值可以基于音频事件的固有维度与音频事件的特征空间维度的比率以及固有维度概率函数。

根据实施例，确定音频事件频谱图的深度伪造概率是基于确定音频事件频谱图的相关概率值。

音频事件频谱图的相关概率值可以是指示音频事件频谱图是深度伪造的概率的概率值，该概率值是基于音频事件频谱图和已知是真实的(即不是深度伪造)频谱图之间的相关值来确定的。

根据实施例，确定相关概率值是基于相关概率函数以及记录本底噪声的经调整大小的存储的真实音频事件频谱图和音频事件频谱图的纯噪声部分之间的归一化互相关来计算的。

根据实施例，确定方法可以还包括：基于音频波形确定多个音频事件；确定多个音频事件的多个深度伪造概率；以及基于多个深度伪造概率确定音频波形的总深度伪造概率。

根据实施例，该方法还可以包括通过基于深度伪造概率在音频波形上叠加警告消息，来确定修改的音频波形。

根据实施例，该方法可以进一步包括基于深度伪造概率输出警告。

实施例公开了一种电子设备，包括电路，该电路被配置为：基于音频波形确定至少一个音频事件；以及确定音频事件的深度伪造概率。

电路可以包括对于电子设备(计算机、智能手机等)众所周知的处理器、存储器(RAM、ROM等)、GPU、存储器、输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如，液晶、(有机)发光二极管等)、扬声器等、(无线)接口等。例如，DNN可以由GPU(图形处理单元)来实现和训练，这可以将深度学习系统的速度提高大约100倍，因为GPU可能非常适合深度学习中涉及的矩阵/向量数学。

现在参考附图描述实施例。

深度伪造是媒体内容，例如，视频或音频文件或流，该媒体内容已经被人工智能技术部分改变和/或失真或者被人工智能技术完全生成。用于生成深度伪造的人工智能技术包括不同的机器学习方法，例如，人工神经网络，特别是深度神经网络(DNN)。例如，音频深度伪造可能是音频文件(例如，一首歌曲或人的语音)，该音频文件已被DNN改变和/或失真。术语深度伪造可以指音频文件深度伪造的频谱图(在这种情况下也称为深度伪造频谱图)，或者可以指音频文件深度伪造本身。例如，可以通过将音频改变人工智能技术直接应用于音频文件，或者通过将音频改变人工智能技术应用于音频文件的频谱图，然后通过将改变的频谱图重新变换回音频格式(例如，通过逆短时傅里叶变换)来生成改变的音频文件，从而生成音频深度伪造。

图1示意性地示出了用于音频深度伪造检测的智能扬声器系统100的第一实施例。用于音频深度伪造检测的智能扬声器系统100包括预处理单元101、深度伪造检测器102、组合模块103和信息叠加单元104。预处理单元101接收存储的音频波形x∈Rⁿ，作为输入，该音频波形应当通过音频深度伪造检测来验证真实性，作为输入。音频波形x∈Rⁿ可以是表示音频波形的任何类型的数据，例如，一段音乐、人的语音或者像枪声或汽车马达之类的声音。所存储的音频波形可以例如被表示为样本长度为n的音频文件的样本向量或比特流。可以由非压缩音频文件(例如，波形文件WAV)或诸如MP3、AAC、FLAC、WMV等压缩音频流来表示(其中，应用音频解压缩，以获得未压缩的音频)。

音频预处理单元101预处理完整的音频波形x∈Rⁿ或部分或音频波形x∈Rⁿ，以便检测和输出多个音频事件x₁，...，x_K，其中，K∈N。该预处理101可以例如包括对部分或完整的音频波形x∈Rⁿ应用短时傅里叶变换(STFT)，这产生音频事件频谱图的形式的音频事件x₁，...，x_K，如下面参考图3a、3b、5更详细描述的。在替代实施例中，音频事件x₁，...，x_K不是频谱图，而是表示为与深度伪造检测器102接收音频文件的格式相同的音频文件。即，音频事件x₁，...，x_K可以具有与音频波形x∈Rⁿ相同的格式或具有任何其他音频格式。

音频事件(或音频事件频谱图)x₁，...，x_K被转发到深度伪造检测器102，该深度伪造检测器确定音频事件(或音频事件频谱图)x₁，...，x_K的深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}，其指示每个音频事件(或音频事件频谱图)x₁，...，x_K是(计算机生成的)深度伪造的相应概率。下面将参考图8至图14更详细地描述深度伪造检测器的实施例。深度伪造检测器102将深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}输出到组合单元103中。组合单元103组合深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}，并从深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}的组合中推导出音频波形x∈Rⁿ是深度伪造的总深度伪造概率P_{深度伪造,总}。下面更详细地描述组合单元103的实施例。

音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}从组合单元103输出，并输入到信息叠加单元104。信息叠加单元104还接收音频波形x∈Rⁿ，作为输入，并且如果音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}指示音频波形x∈Rⁿ是深度伪造的，则信息叠加单元104向音频波形x∈Rⁿ添加(叠加)警告消息，这产生经修改的音频波形x’∈Rⁿ。经修改的音频波形x’∈Rⁿ的警告消息可以在音频波形x∈Rⁿ播放给收听者之前或期间播放，以警告收听者音频波形x∈Rⁿ可能是深度伪造的。在另一个实施例中，音频波形x∈Rⁿ由信息叠加单元直接播放，并且如果音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}高于预定阈值，例如，0.5，则打开用于音频深度伪造检测的智能扬声器系统100处的警告灯。在另一个实施例中，用于深度伪造检测器智能扬声器系统100可以在屏幕显示器上向用户持续显示音频波形x∈Rⁿ的当前播放部分的警告或信任级别，其中，警告或信任级别基于深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}和/或音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}。信息叠加单元104将在下面更详细地描述。

如图1所示的用于音频深度伪造检测的智能扬声器系统100能够检测出音频深度伪造，并向用户输出音频或视觉警告，这可以防止人们相信或信任伪造的音频(或视频)文件。

在第一实施例中，用于音频深度伪造检测的智能扬声器系统100可以预先分析音频波形x∈Rⁿ，即在播放之前，即音频波形x∈Rⁿ是存储的音频波形x∈Rⁿ。这可以被描述为离线操作模式。在另一个实施例中，用于音频深度伪造检测的智能扬声器系统100可以在播放音频波形x∈Rⁿ时对其进行验证，这可以被描述为在线操作模式。在这种情况下，预处理单元101接收音频波形x∈Rⁿ的当前播放部分，作为输入流，应该对其真实性进行验证。音频预处理单元101可以音频波形x∈Rⁿ的当前播放部分缓冲预定的时间跨度，例如，1秒或5秒或10秒，然后预处理音频流的这个缓冲部分x∈Rⁿ。

图1的实施例中描述的深度伪造检测可以直接在智能扬声器系统中实现。除了直接集成到扬声器中，深度伪造检测处理还可以集成到音频播放器(随身听、智能手机)中，或者集成到PC、笔记本电脑、平板电脑或智能手机的操作系统中。

图2示意性地示出了用于音频深度伪造检测的智能扬声器系统100的第二实施例。图2的用于音频深度伪造检测的智能扬声器系统100包括预处理单元101、深度伪造检测器102和信息叠加单元104。音频预处理单元101基于音频波形x确定至少一个音频事件x₁。预处理单元101要么接收音频波形x∈Rⁿ的当前播放部分，作为输入(即，在线操作模式)，要么接收完整的音频波形x∈Rⁿ，作为输入，其应当被验证真实性。如果预处理单元101接收当前播放的音频，作为输入，则可以将音频波形x∈Rⁿ的当前播放部分缓冲一段预定的时间跨度，并预处理缓冲的输入。在下文中，缓冲部分也将被表示为音频波形x∈Rⁿ。音频预处理单元101预处理音频波形x∈Rⁿ并输出一个事件x₁。事件x₁可以是音频文件，例如，与音频波形x∈Rⁿ相同的格式，或者可以是如上面关于图1描述的频谱图。音频事件(或音频事件频谱图)x₁然后被转发到深度伪造检测器102，该深度伪造检测器确定音频事件频谱图x₁的深度伪造概率P_深度伪造。下面参考图8至图14更详细地描述该过程的实施例。深度伪造检测器102将音频事件x₁的深度伪造概率P_深度伪造输出到信息叠加单元104中。信息叠加单元104进一步接收音频波形x∈Rⁿ，作为输入，并且如果深度伪造概率P_深度伪造指示音频波形x∈Rⁿ可能是深度伪造，则信息叠加单元104向音频波形x∈Rⁿ添加(叠加)警告消息，从而产生经修改的音频波形x’∈Rⁿ。

图3a示出了基于音乐源分离原理的预处理单元101的第一实施例。例如，如果音频波形x∈Rⁿ是一段音乐，则可能是声音被改变/深度伪造或者任何乐器被改变/深度伪造的情况。因此，不同的乐器(音轨)是分开的，以便专注于一个特定的音轨。

音乐源分离301接收音频波形x∈Rⁿ，作为输入。在这个实施例中，音频波形x∈Rⁿ是一段音乐。音乐源分离根据预定条件分离接收的音频波形x∈Rⁿ。在该实施例中，预定条件是将声道x_v与音频波形x∈Rⁿ的其余部分分开。在图4中更详细地描述了音乐源分离单元301(其也可以执行上混)。声道x_v然后被输入到STFT 302中。STFT 302将声道x_v分成预定长度的K个等长声道帧x_v,1，...，x_v,K，例如，1秒。对于这K个声道帧x_v,1，...，x_v,K中的每个帧，应用短时傅里叶变换，产生K个音频事件频谱图x₁，...，x_K。STFT 302操作的K个帧可以重叠或不重叠。

短时傅里叶变换STFT是一种表示信号的频谱随时间变化的技术。虽然傅里叶变换本身不提供关于频谱随时间变化的信息，但是STFT也适合于频率特性随时间变化的信号。为了实现短时傅里叶变换STFT，借助于窗函数(w)将时间信号分成单独的时间段，并且将这些单独的时间段傅里叶变换到单独的频谱范围。

在这个实施例中，到STFT的输入是声轨帧x_v，1，...，x_v，K中的每一个，这些声轨帧是时间离散的实体。因此，应用离散时间短时傅里叶变换STFT。在下文中，描述了将STFT应用于第一声轨帧x_v，1(1是遍历向量x的索引)。使用窗函数w[1-m]对第一声轨帧x_v，1进行STFT，得到复值函数X(m，ω)，即在每个离散时间步长m和频率ω的相位和幅度：

窗口函数w[1-m]以时间步长m为中心，并且对于选定的窗口长度(通常在25ms和1秒之间)仅具有不等于0的值。一个常见的窗口函数是矩形函数。

离散时间短时傅里叶变换X(m，ω)的平方幅度|X(m，ω)|²产生第一声轨帧x_v，1的音频事件频谱图x₁：

x₁＝x₁(m，ω)：＝|X(m，ω)|²＝|STFT{x[l]}(m，ω)|²

音频事件频谱图x₁(m，ω)(在下文中仅表示为x₁)为每个离散时间步长m和频率ω提供标量值，并且可以在密度图中可视地表示为灰度值。这意味着音频事件频谱图x₁可以被存储、处理和显示为灰度图像。图3b中给出了音频频谱图的示例。

如上所述的STFT技术可以应用于完整的声轨x_v或音频波形x∈Rⁿ。

窗口函数w[m]的宽度决定了时间分辨率。重要的是，注意，由于Küpfmüller不确定性关系，不能任意精细地选择时域中的分辨率和频域中的分辨率，而是受到时间和频率的乘积的限制，该乘积是一个恒定值。如果需要时域中最高的可能分辨率，例如确定某个信号开始或停止的时间点，则这将导致频域中的模糊分辨率。如果频域中的高分辨率对于精确地确定频率是必要的，则这将导致时域中的模糊，即，只能模糊地确定精确的时间点。

窗口的移动确定了产生的频谱图的x轴分辨率。频谱图的y轴显示频率。因此，频率可以用Hz或梅尔标度来表示。频谱图中每个点的颜色表示特定时间特定频率的振幅。

在这种情况下，可以根据Hershey、Shawn等人在2017年IEEE声学、语音和信号处理国际会议(ICASSP).IEEE，2017上发表的科学论文“CNNarchitectures for large-scaleaudio classification”来选择参数。也就是说，声轨x_v被分成长度为960ms的帧。窗口长度为25ms，每10ms应用一次。产生的频谱图集成到64个梅尔间隔的频率仓中。这将产生分辨率为96x64像素的频谱图。长度为4分48秒的声轨x_v产生300个频谱图，每个频谱图的分辨率为96×64像素。

在另一个实施例中，用于音乐源分离的预定条件可以是将音频波形x∈Rⁿ分离成旋律/和声音轨和打击乐音轨，或者在另一个实施例中，用于音乐源分离的预定条件可以是将音频波形x∈Rⁿ分离成所有不同的乐器，例如，鼓、弦乐器和钢琴等。

在另一个实施例中，可以向STFT单元302中输入一个以上音轨或者不同于声轨x_v的另一个独立音轨。

在又一实施例中，由STFT 302输出的音频事件频谱图可以由音频事件检测单元进一步分析，如下面在图5中更详细描述的。

图4示意性地示出了通过盲源分离(BSS)(例如，音乐源分离(MSS))进行音频源分离(也称为上混/重混合)的一般方法。首先，执行音频源分离(也称为“解混”)，其将源音频信号1，此处是音频波形x，包括多个声道I和来自多个音频源源1、源2、…、源K(例如，乐器、语音等)的音频，分解成“分离物”，此处是每个声道i的分离源2(例如，人声x_v)和残差信号3，例如，伴奏s_A(n)，其中，K是整数，表示音频源的数量。此处的残差信号是将人声与音频输入信号分离后获得的信号。即，残差信号是在去除输入音频信号的人声之后的“剩余”音频信号。在此处的实施例中，源音频信号1是具有两个声道i＝1和i＝2的立体声信号。随后，分离源2和残差信号3重混并呈现为新的扬声器信号4，此处是包括五个声道4a-4e的信号，即5.0声道系统。可以例如实施音频源分离过程(参见图1中的104)，如Uhlich、Stefan等人的公开论文“Improving music sourceseparation based on deep neural networksthrough data augmentation andnetwork blending”2017年IEEE声学、语音和信号处理国际会议(ICASSP)，IEEE,2017中更详细描述的。

由于音频源信号的分离可能是不完美的，例如，由于音频源的混合，除了分离的音频源信号2a-2d之外，还生成残差信号3(r(n))。残差信号可以例如表示输入音频内容和所有分离的音频源信号之和之间的差异。由每个音频源发出的音频信号在输入音频内容1中由其相应记录的声波来表示。对于具有多于一个音频声道的输入音频内容，例如，立体声或环绕声输入音频内容，音频源的空间信息通常也由输入音频内容包括或表示，例如，由不同音频声道中包括的音频源信号的比例表示。基于盲源分离或能够分离音频源的其他技术来执行将输入音频内容1分离成分离的音频源信号2a-2d和残差信号3。音频源分离可以在此结束，并且分离源可以被输出，用于进一步处理。

在另一个实施例中，在第二(上混合)步骤中，两个以上分离物可以重混在一起(例如，如果网络已经将嘈杂的语音分离成“干语音”和“语音混响”)。在第二步骤中，分离物2a-2d和可能的残差信号3重混并呈现为新的扬声器信号4，此处是包括五个声道4a-4e的信号，即5.0声道系统。基于分离的音频源信号和残差信号，通过基于空间信息混合分离的音频源信号和残差信号，来生成输出音频内容。输出音频内容在图4中用附图标记4示例性地示出和表示。

音频事件检测

图5示出了预处理单元101的第二实施例。在这个实施例中，预处理单元101包括STFT 302，如上面在图3中描述的，并且包括经训练的DNN标记分类器502和基于标记的过滤503。Hershey、Shawn等人在2017年IEEE声学、语音和信号处理国际会议(ICASSP)IEEE，2017上发表的科学论文“CNN architectures for large-scale audio classification”中，更详细地描述了STFT 302，尤其是经训练的DNN标记分类器502的训练和操作。

STFT单元302接收音频波形x∈Rⁿ，作为输入。STFT 302单元将接收的音频波形x∈Rⁿ分成预定长度的L个等长帧。如上面引用的科学论文中所述，STFT 302将接收音频波形x∈Rⁿ分成长度为960ms的帧。窗口长度为25ms，每10ms应用一次。产生的频谱图被集成到64个梅尔间隔的频率仓(frequency bins)中。这将产生分辨率为96x64像素的频谱图。对这些L帧应用短时傅里叶变换，这产生候选频谱图S₁，...，S_L。候选频谱图S₁，...，S_L被输入到经训练的DNN标记分类器501中。经训练的DNN标记分类器501包括经训练的深度神经网络，如上文引用的科学论文中所述进行训练。也就是说，DNN被训练成以监督的方式(即，在学习过程中使用标记的频谱图)标记输入频谱图，其中，使用来自“谷歌知识图谱”数据库的30871个标记，例如，像“歌曲”、“枪击”或“唐纳德特朗普总统”之类的标记。在操作模式中，训练的DNN标记分类器输出候选频谱图S₁，...，S_L，每个候选频谱图都具有一个或多个标记(来自“谷歌知识图”数据库的30871个标记)，这产生了一组标记频谱S’₁，...，S’_L。该组标记频谱图S’₁，...，S’_L被输入到基于标记的过滤503中，该过滤只允许来自该组标记频谱图S’₁，...，S’_L的频谱图通过，这些频谱图是预定通过集的一部分。预定的通过集可以例如包括像“人类语音”或“枪击”或“唐纳德特朗普总统的演讲”之类的标记。允许通过基于标记的过滤503的该组标记频谱图S’₁，...，S’_L的K个频谱图的子集被定义为音频事件频谱图x₁，...，x_K(其中，可以移除或不移除标记)。

包括DNN分类器的深度伪造检测器

在一个实施例中，深度伪造检测器102包括经训练的深度神经网络(DNN)分类器，例如，卷积神经网络(CNN)，其被训练为检测音频深度伪造。在预处理单元101输出的音频事件频谱图x₁，...，x_K是频谱图(即图像(例如，灰度或双通道))的情况下，深度伪造检测器可以利用被开发来检测视频/图像深度伪造的神经网络方法和技术。

在一个实施例中，深度伪造检测器602包括深度伪造图像检测的几种不同方法中的一种，在Tolosana、Ruben等人发表在arXiv preprintarXiv:2001.00179(2020)中的科学论文“DeepFakes and Beyond:A Surveyof Face Manipulation and Fake Detection”中描述了这些方法。

在另一个实施例中，深度伪造检测器包括DNN分类器，如Wang,Sheng-Yu等人发表在arXiv preprint arXiv:l 912.11035(2019)中的科学论文“CNN-generated images aresurprisingly easy to spot...for now”中所述。在该实施例中，使用卷积神经网络(CNN)，这是实现图像的DNN的常见架构。在下面的图7中更详细地描述了该实施例的深度伪造检测器102的训练，并且在图8中更详细地描述了该实施例的深度伪造检测器102的操作模式。

下面在图6中描述了用于图像分类的CNN的一般架构。

在另一个实施例中，预处理单元101输出的音频事件x₁，...，x_K是音频文件，并且深度伪造检测器102被直接训练为区分音频文件，并且能够检测音频文件音频事件x₁，...，x_K中的深度伪造。

图6示意性地示出了用于图像分类的CNN的架构。输入图像矩阵601被输入到CNN中，其中，输入图像矩阵601的每个条目对应于图像(例如，频谱图)的一个像素，该图像应当由CNN处理。输入图像矩阵601的每个条目的值是每个像素的颜色值。例如，输入图像矩阵601的每个条目可能是24位值，其中，红色、绿色和蓝色各占据8位。滤波器(也称为内核或特征检测器)602是矩阵(可以是对称的或非对称的；在音频应用中，使用非对称内核作为音频波形(因此也是频谱图)可能是有利的，可能是不对称的)，具有奇数个行和列(例如，3×3、5×5、7×7等)，从左到右和从上到下移动，使得滤波器602一度位于每个像素的中心。在每次移位时，滤波器602的条目与图像矩阵601中的相应条目逐元素相乘，并且所有逐元素相乘的结果被求和。加法的结果生成第一层矩阵603的条目，其具有与输入图像矩阵601相同的维度。输入图像矩阵601中的滤波器602的中心位置与如上所述的乘法-加法的生成结果放置在第一层矩阵603中的位置相同。第一层矩阵603的所有行彼此相邻放置，以形成第一层向量604。非线性(例如，ReLU)可以放置在第一层矩阵603(卷积层)和第一层向量604(仿射层)之间。第一层向量604乘以最后一层矩阵605，产生结果z。最后一层矩阵605具有与第一层向量的列数一样多的行，并且最后一层向量的S列数对应于CNN应该将输入图像矩阵601分类到的S个不同类别。例如，S＝2，即对应于输入图像矩阵601的图像应该被分类为假的或真的。第一层向量604和最后一层矩阵605之间的矩阵乘法的结果z被输入到Softmax函数中。Softmax函数定义为

其中，i＝1，...，S，这在S个类别上产生概率分布，即CNN应该将输入图像矩阵601分类到的S个不同类别中的每一个类别的概率，在这种情况下，该概率是输入图像矩阵601对应于真实图像的概率P_真实和输入图像矩阵601对应于深度伪造图像的概率P_伪造。对于二进制分类问题，即S＝2，可以仅使用一个具有乙状非线性的输出神经元，并且如果输出低于0.5，则输入可以被标记为类别1，如果高于0.5，则输入可以被标记为类别2。

滤波器602的条目和最后一层矩阵605的条目是在训练过程中训练的CNN的权重(见图7)。

可以通过将输入图像矩阵馈送到CNN中，以监督的方式训练CNN，该输入图像矩阵被标记为对应于真实图像或虚假图像。CNN的当前输出(即图像是真的还是假的概率)被输入到损失函数中，并且通过反向传播算法来调整CNN的权重。

输入图像被经训练的分类器分类为深度伪造的概率P_伪造也被表示为经训练的DNN分类器P_伪造,DNN的伪造概率值，即，P_伪造,DNN＝P_伪造。

存在上述通用CNN架构的几种变体。例如，可以使用一层中的多个滤波器和/或可以使用多层。

如上所述，在一个实施例中，深度伪造检测器使用DNN分类器，如Wang,Sheng-Yu等人发表在arXiv preprint arXiv:l 912.11035(2019)中的科学论文“CNN-generatedimages are surprisingly easy to spot...for now”中所述。在这种情况下，用ImageNet预训练的Resnet 50 CNN用于二元分类设置(即，频谱图是真的还是假的)。在图7中更详细地描述该CNN的训练过程。

图7示出了深度伪造检测器102中的DNN分类器的训练过程的流程图。在步骤701中，生成包括真实频谱图和深度伪造频谱图的标记频谱图的大规模数据库，例如，用类似ProGAN的生成对抗网络生成这些频谱图，如例如Tero Karras、Timo Aila、Samuli Laine和Jaakko Lehtinen发布于ICLR、2018的科学论文“Progressive growing of GANs forimproved quality,stability,and variation”中所述。在步骤702中，从大规模数据库中随机选择一个标记图像。在步骤703，随机选择的图像通过CNN层进行前向传播。在步骤704，基于Softmax函数确定类别“真实”和类别“深度伪造”的输出概率。在步骤705，确定随机选择的图像的标记和输出的概率之间的误差。在步骤706，误差被反向传播，以调整权重。步骤702到706重复数次，以适当地训练网络。

许多深度伪造都是通过生成式对抗网络(GAN)生成的。GAN由两个执行零和游戏的人工神经网络组成。其中一个创建候选者(生成器)，第二个神经网络评估候选者(鉴别器)。通常，生成器从潜在变量的向量映射到期望的结果空间。生成器的目标是学习根据一定的分布产生结果。另一方面，训练鉴别器，来区分生成器的结果和真实的给定分布的数据。生成器的目标函数是产生鉴别器不能区分的结果。这样，生成的分布应该逐渐调整到真实的分布。存在GAN的许多不同的实现方式和架构。

如上面引用的科学论文中所描述的，尽管深度伪造检测器102中的CNN仅用一种人工智能技术(例如，GAN架构ProGAN)生成的深度伪造频谱图来训练，但是能够检测从几个不同模型生成的深度伪造频谱图。

在另一个实施例中，深度伪造检测器102中的CNN可以用由不同于ProGAN的另一个模型生成的深度伪造来训练，或者深度伪造检测器102中的CNN可以用由几个不同模型生成的深度伪造来训练。

在另一个实施例中，可以通过将音频改变的人工智能技术直接应用于音频文件，然后通过STFT将其转换成深度伪造频谱图，来生成用于训练DNN深度伪造分类器的大规模数据库的深度伪造频谱图。

可以通过计算Softmax函数输出的概率和图像标记之间的误差来确定误差。例如，如果图像被标记为“真实”，并且Softmax函数是真实的概率输出是P_真实，而Softmax函数是深度伪造的概率输出是P_伪造，则误差可以被确定为error＝1/2[(1-P_真实)²+(0-P_伪造)²]。通过反向传播，例如，利用梯度下降法，基于误差来调整权重。输入图像被经训练的分类器分类为深度伪造的概率P_伪造也被表示为经训练的DNN分类器P_DNN的输出值，即P_DNN＝P_伪造。

图8示出了包括经训练的DNN分类器的深度伪造检测器102的操作模式。在步骤801中，确定输入音频事件频谱图x₁是深度伪造的经训练的DNN分类器的伪造概率值P_伪造,DNN。输入频谱图(即输入音频事件频谱图x₁)可以是真实频谱图或深度伪造频谱图，该频谱图是用任意生成方法生成的，例如，用任何GAN架构或用DNN。在步骤802中，深度伪造概率P_深度伪造＝P_伪造,DNN被确定为经训练的DNN分类器的伪造概率值P_伪造,DNN。

如果一个以上音频事件频谱图被输入到包括经训练的DNN分类器的深度伪造检测器102中，则与图8中描述的相同的过程被应用到每个音频事件频谱图x₁，...，x_K，并且相应的输入音频事件频谱图x₁，...，x_K的深度伪造概率P_深度伪造将被表示为P_{深度伪造,1}，...，P_{深度伪造,K}。

包括其他检测方法的深度伪造检测器

检测深度伪造的问题可以从生成器-鉴别器的角度(GAN)来考虑。这意味着生成器试图生成深度伪造，而鉴别器(即包括如上所述的DNN分类器的深度伪造检测器102)试图识别深度伪造。因此，可能发生的是，甚至更强大的生成器可能最终欺骗鉴别器(例如，在被训练了足够的时期之后)，即，如上所述的包括DNN分类器的深度伪造检测器102。因此，如上所述的包括DNN分类器的深度伪造检测器102可以通过不同的深度伪造检测方法来扩展。

更进一步，在另一个实施例中，除了如上所述的DNN分类器之外，或者代替如上所述的DNN分类器，深度伪造检测器102包括音频波形x∈Rⁿ的固有维度的估计(参见图10至图11)。

更进一步，在另一个实施例中，除了如上所述的DNN分类器之外，或者代替如上所述的DNN分类器，深度伪造检测器102包括差异鉴别器(参见图12至图13)。

固有维度估计器

数据向量V(例如，音频波形或音频事件)的固有维度(也称为内在维度)是描述(表示)数据向量V所需的最小数量的潜在变量(参见下文的细节)。

在Lee、John A.、Verleysen、Michel于2007年发表的教科书“NonlinearDimensionality Reduction”中也描述了固有维度的概念，其具有基于流形维度的更广泛的定义，其中，固有维度只需要局部存在。

通常，真实世界的数据集(例如，真实世界的图像)具有大量的(数据)因素，通常远远大于数据生成过程中潜在因素的数量。因此，真实数据集(例如，真实频谱图)的特征数量与其固有维度之间的比率可以显著高于深度伪造数据集(例如，深度伪造频谱图)的特征数量与其固有维度之间的比率。

Bahadur、Nitish和Randy Paffenroth在arXiv预印本arXiv preprintarXiv:1909.10702(2019)上发表的科学论文“Dimension Estimation UsingAutoencoders”中描述了图像(例如，频谱图)的固有维度的估计。在这篇科学论文中，训练自动编码器，来估计输入图像的固有维度。

自动编码器是一种人工神经网络，用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的(潜在)表示(编码)。除了减小侧(编码器)之外，还学习了重构侧(解码器)，其中，自动编码器试图从减小的编码生成尽可能接近其原始输入的表示，因此得名。自动编码器的一种变体是前馈、非递归神经网络，类似于参与多层感知器(MLP)的单层感知器，具有输入层、输出层和连接输入层和输出层的一个或多个隐藏层，其中，输出层具有与输入层相同数量的节点(神经元)，目的是重构其输入(最小化输入和输出之间的差异)，而不是在给定输入X的情况下预测目标值Y。因此，自动编码器是无监督的学习模型(不需要带标记的输入来实现学习)。

图9示意性示出了自动编码器900。输入图像901被输入到编码器902的输入层，并通过编码器902的层传播，并输出到隐藏层903(也称为潜在空间)内。潜在表示从隐藏层903输出到解码器904的输入层，并通过解码器904的层传播，并由解码器904的输出层输出。解码器904的输出是输出图像905，该图像具有与输入图像905相同的维度(像素数)。

潜在空间维度被定义为自动编码器中隐藏层(潜在空间)中的节点数。

特征空间维度被定义为自动编码器的编码器中的输入层中的输入节点的数量，例如，频谱图的像素数量。

在训练模式中，自动编码器900用不同的深度伪造频谱图和真实频谱图进行训练，并学习输入的深度伪造频谱图和真实频谱图的潜在表示。根据输入频谱图的这种潜在表示，可以估计输入图像的固有维度，如Bahadur、Nitish和Randy Paffenroth在a arXivpreprint arXiv:1909.10702(2019)上发表的科学论文“Dimension Estimation UsingAutoencoders”中所述。

在操作模式下，经训练的自动编码器900输出输入频谱图的估计的固有维度dim_int。

图10示出了包括固有维度估计器的深度伪造检测器102的操作模式。在步骤1001中，利用经训练的自动编码器900来确定输入音频事件频谱图x₁的固有维度dim_int。在步骤1002中，输入音频事件频谱图x₁的特征空间维度dim_feat被确定为输入音频事件频谱图x₁的像素数。如图5中所描述的，音频事件频谱图x₁可以例如具有96×64像素的分辨率，这产生特征空间维度dim_feat＝6114。在步骤1003，确定输入音频事件频谱图x₁的固有维度dim_int和输入音频事件频谱图x₁的特征空间维度dim_feat的比率

在步骤1004中，基于固有维度dim_int与固有维度概率函数f_固有的比率r_dim，确定输入音频事件频谱图x₁的固有维度概率值P_固有＝f_固有(r_dim)。在步骤1005中，深度伪造概率P_深度伪造＝P_固有被确定为固有维度概率值P_固有。

固有维度概率函数f_固有可以是分段定义的函数，其可以被定义为：

如果一个以上音频事件频谱图被输入到包括固有维度估计器的深度伪造检测器102中，则与图10中描述的相同的过程被应用于每个音频事件频谱图。

图11示出了深度伪造检测器102，其包括DNN深度伪造分类器和固有维度估计器。在步骤1101中，利用经训练的自动编码器900来确定输入音频事件频谱图x₁的固有维度dim_int。在步骤1002中，输入音频事件频谱图x₁的特征空间维度dim_feat被确定为输入音频事件频谱图x₁的多个像素。在步骤1103，确定输入音频事件频谱图x₁的固有维度dim_feat与输入音频事件频谱图x₁的特征空间维度dim_feat的比率

在步骤1104中，基于固有维度dim_int与固有维度概率函数f_固有的比率r_dim，确定输入音频事件频谱图x₁的固有维度概率值P_固有＝f_固有(r_dim)。在步骤1105中，如图7至图8中所述，确定输入音频事件频谱图x₁是深度伪造的经训练的DNN分类器的伪造概率值P_伪造,DNN。在步骤1106中，输入音频事件频谱图x₁的深度伪造概率P_深度伪造被确定为固有维度概率值P_固有和经训练的DNN分类器的伪造概率值P_伪造,DNN的平均值：/>

在另一个实施例中，输入音频事件频谱图x₁的深度伪造概率P_深度伪造被确定为固有维度概率值P_固有和经训练的DNN分类器的伪造概率值P_伪造,DNN中的最大值：P_深度伪造＝max{P_伪造,DNN,P_固有}。

如果一个以上音频事件频谱图被输入到包括DNN深度伪造分类器和固有维度估计器的深度伪造检测器102中，则与图11中描述的相同的过程被应用于每个音频事件频谱图x₁，...，x_K，用于相应的输入音频事件频谱图x₁，...，x_K的深度伪造概率P_深度伪造将被表示为P_{深度伪造,1}，...，P_{深度伪造,K}。

差异鉴别器

深度伪造检测器102可以包括差异鉴别器。差异鉴别器可以通过将输入音频波形(或音频事件)的预定义特征或模式与存储的真实音频波形的相同预定义特征或模式进行比较来区分真实音频事件和伪造音频事件。这是可行的，因为可以观察到真实音频事件和深度伪造音频事件之间的某些属性存在差异。

在一个实施例中，音频深度伪造检测器102的差异鉴别器可以通过将输入音频事件的记录本底噪声与存储的真实音频事件的记录本底噪声(其模式)(或者与存储的真实音频事件的一个以上记录本底噪声，如下所述)进行比较(例如，通过相关性，参见图12)来区分真实音频事件和深度伪造音频事件。在录音室或其他房间中录制的一段音乐(例如，一首歌曲)具有(背景)本底噪声，这对于录制该音乐的房间来说是典型的。深度伪造音频波形通常没有记录本底噪声。在一段音乐中不存在声音或乐器的部分，即所谓的纯噪声部分，记录本底噪声/房间本底噪声特别明显。

图12示出了包括差异鉴别器的深度伪造检测器的实施例。在步骤1201中，利用声音活动检测来确定音频事件频谱图x₁的纯噪声部分

这意味着，如果在音频事件频谱图x1的一部分中检测到纯噪声部分，则切除该部分。例如，在Silva、Diego Augusto等人发表在Cognitive Technologies by Springer,Cham,2017.37-47中的科学论文“Exploringconvolutional neural networks for voice activity detection”中更详细地描述了可以在音频事件频谱图x1上执行的声音活动检测(VAD)。在步骤1202中，记录本底噪声的存储的真实音频事件频谱图y被调整大小为与音频事件频谱图x₁的纯噪声部分/>

相同的大小。例如，可以通过对记录本底噪声频谱图y的存储的真实音频事件频谱图进行剪切或下采样或上采样来完成调整大小。在步骤1203中，确定在记录本底噪声的调整大小的存储的真实音频事件频谱图y和音频事件频谱图x₁的纯噪声部分/>

之间的归一化互相关/>

在步骤1204中，基于相关概率函数f_corr和归一化互相关/>

确定音频事件频谱图x₁的相关概率值/>

在步骤1205中，将深度伪造概率P_深度伪造＝P_corr确定为相关概率值。相关概率函数f_corr被定义为：

在另一个实施例中，音频深度伪造检测器102的差异鉴别器可以在真实音频事件和一个以上存储的真实音频事件的一个以上记录本底噪声之间进行鉴别(例如，对于不同的录音室)。在这种情况下，使用术语

代替术语/>

在另一个实施例中，音频深度伪造检测器102的差异鉴别器可以通过将输入音频事件的量化本底噪声(也称为伪音)(其模式)与存储的真实音频事件的量化本底噪声进行比较(例如，通过相关)来区分真实音频事件和深度伪造音频事件。这是因为真实的声音信号是用(模拟)麦克风记录的，并且通过量化过程从模拟信号到数字信号的转换(A/D转换)导致真实声音信号中的量化本底噪声。该量化本底噪声具有特定模式，例如，通过将输入波形的量化本底噪声模式与存储的真实音频波形的量化本底噪声模式进行比较，例如，通过将如上所述的互相关应用于输入音频事件频谱图的频谱图和包括典型量化本底噪声的真实音频事件的存储频谱图，可以检测到该特定模式。如果输入音频事件是一段音乐，则输入音频事件的声轨可以与该音乐片段的其余部分分离(见图4)，然后可以将互相关应用于频谱图。此外，可以如上所述对输入音频事件或分离的声轨应用VAD，并且可以对频谱图应用如上所述的互相关。可以确定深度伪造概率P_深度伪造，如上述实施例中所述。

或者在另一个实施例中，可以专门训练人工神经网络来区分真实频谱图和深度伪造频谱图之间的记录本底噪声特征和量化本底噪声特征的差异。

在又一个实施例中，真实音频事件频谱图和深度伪造音频事件频谱图之间的某些属性的差异在学习的潜在表示的一个或多个不同特征中是可见的。音频波形的频谱图的潜在表示可以通过使用自动编码器来获得，如上面在图9中所描述的。也就是说，自动编码器用于例如通过降维方法提取输入音频波形的特征，如Bahadur、Nitish和Randy Paffenroth在arXiv预印本arXiv preprint arXiv:1909.10702(2019)上发表的上文引用的科学论文“Dimension Estimation Using Autoencoders”中所述。这意味着自动编码器将输入数据(即音频波形的频谱图)的特征的维度减少到最小数量，例如，潜在空间中的非零元素。这些特征之一可以对应于音频波形中的记录/量化噪声。与深度伪造音频波形的频谱图相比，该特征对于真实音频波形的频谱图可能具有另一种分布。因此，当真实音频波形的频谱图的某个特征的预先已知分布与输入音频波形的频谱图的相同特征的分布之间的比较(例如，相关)产生非常小的相似性时，可以检测到深度伪造音频波形。深度伪造概率P_深度伪造可以通过将互相关函数应用于输入音频事件的特征分布和存储的真实音频事件的相同特征的分布，来确定差异鉴别器，如以上实施例中所述。

更进一步，在另一个实施例中，除了图8中如上所述的DNN分类器之外，深度伪造检测器102还包括差异鉴别器：

图13示出了包括DNN深度伪造分类器和差异鉴别器的深度伪造检测器102。在步骤1301中，用声音活动检测确定音频事件频谱图x₁的纯噪声部分

这意味着，如果在音频事件频谱图x₁的一部分中检测到纯噪声部分，则切除该部分。例如，在Silva、Diego Augusto等人发表在CognitiveTechnologies by Springer,Cham,2017.37-47中的科学论文“Exploringconvolutional neural networks for voice activity detection”中更详细地描述了可以在音频事件频谱图x1上执行的声音活动检测(VAD)。在步骤1302中，记录本底噪声的存储的真实音频事件频谱图y被调整大小为与音频事件频谱图x₁的纯噪声部分/>

相同的大小。在步骤1303中，确定在记录本底噪声的调整大小的存储的真实音频事件频谱图y和音频事件频谱图x₁的纯噪声部分/>

之间的归一化互相关/>

在步骤1204中，基于相关概率函数f_corr和归一化互相关/>

确定音频事件频谱图x₁的相关概率值

在步骤1304，如图7至图8中所述，确定用于输入音频事件频谱图x₁的经训练的DNN分类器的伪造概率值P_伪造,DNN。在步骤1305中，将深度伪造概率P_深度伪造确定为相关概率值P_corr和经训练的DNN分类器的伪造概率值P_伪造,DNN的平均值：

在另一个实施例中，将输入音频事件频谱图x₁的深度伪造信号概率P_深度伪造确定为相关概率值P_corr和训练的DNN分类器的伪造概率值P_伪造,DNN的最大值：P_深度伪造＝max{P_伪造,DNN，P_corr}。

如果一个以上音频事件频谱图被输入到包括DNN深度伪造信号分类器和固有维度估计器的深度伪造信号检测器102中，则如图13所述的相同过程被应用于每个音频事件频谱图x₁，...，x_K，相应的输入音频事件频谱图x₁，...，x_K的深度伪造概率P_深度伪造将被表示为P_{深度伪造,1}，...，P_{深度伪造,K}。

更进一步，在另一个实施例中，除了如上面在图8中描述的DNN分类器之外，深度伪造检测器102还包括差异鉴别器和固有维度估计器。

图14示出了包括DNN深度伪造分类器、差异鉴别器和固有维度估计器的深度伪造检测器102。在步骤1401中，基于固有维度dim_int和固有维度概率函数f_固有的比率r_dim来确定输入音频事件频谱图x₁的固有维度概率值P_固有＝f_固有(r_dim)。在步骤1402中，基于相关概率函数f_corr和归一化互相关

来确定音频事件频谱图x₁的相关概率值

在步骤1403中，确定输入音频事件频谱图x₁的训练DNN分类器的伪造概率值P_伪造,DNN，如图7至图8所示。在步骤1404中，输入音频事件频谱图x₁的深度伪造概率P_深度伪造被确定为相关概率值_Pcorr、伪造概率值P_伪造,DNN和固有维度概率值P_固有的平均值：

在另一个实施例中，输入音频事件频谱图x₁的深度伪造信号概率P_深度伪造被确定为相关概率值P_corr和伪造概率值P_伪造,DNN以及固有维度概率值P_固有中的最大值：P_深度伪造＝max{P_伪造,DNN，P_corr，P_固有}。

如果多于一个音频事件频谱图被输入到包括DNN深度伪造信号分类器和固有维度估计器的深度伪造信号检测器102中，则如图14中所述的相同过程被应用于每个音频事件频谱图x₁，...，x_K，相应的输入音频事件频谱图x₁，...，x_K的深度伪造概率P_深度伪造将被表示为P_{深度伪造,1}，...，P_深度伪造_, ^K。

组合装置

在图1的实施例中，用于音频深度伪造检测的智能扬声器系统100包括组合单元103。在这个实施例中，深度伪造检测器102将相应的音频事件x₁，...，x_K的深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}输出到组合单元103中。组合单元103将相应的音频事件x₁，...，x_K的深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}组合成音频波形x的总深度伪造概率P_{深度伪造,总}。

在一个实施例中，组合单元将其组合成音频波形x的总深度伪造概率P_{深度伪造,总}，作为P_{深度伪造,总}＝max{P_{深度伪造,1}，...，P_{深度伪造,K}}。

在另一个实施例中，通过用相应的权重W₁，...，W_K>0加权相应的音频事件x₁，...，x_K的深度伪造概率P_{深度伪造,1}，...，P_{深度伪造,K}，来考虑细化。例如，包含语音的音频事件可以被赋予更高的权重。音频波形x的总深度伪造概率P_{深度伪造,总}被确定为

音频波形x的总深度伪造概率P_{深度伪造,总}从组合单元103输出，并输入到信息叠加单元104。

信息叠加单元

信息叠加单元104接收音频文件的深度伪造概率和音频文件本身，并生成叠加在音频文件上的警告消息，这产生由深度伪造检测器智能扬声器系统100输出的经修改的音频文件。

信息叠加单元104可以计算机生成警告消息X_警告，该消息可以具有与音频波形x∈Rⁿ相同的格式。警告消息X_警告可以包括计算机生成的语音消息，该语音消息通告音频波形x的计算的深度伪造概率P_{深度伪造,总}或音频事件x₁的深度伪造概率P_深度伪造。警告消息X_警告可以替代地或附加地包括计算机生成的一般警告语音消息，例如，“这个音频剪辑很可能是一个深度伪造”。警告消息X_警告可以替代地或附加地包括计算机生成的播放特定警告消息，例如，“下面的音频剪辑包含计算机生成的声音，听起来像唐纳德特朗普总统”，或者“以下音频剪辑是深度伪造，估计概率为75％”。警告消息X_警告可以替代地或附加地包括播放警告旋律。

在图1的实施例(离线操作模式)中，信息叠加单元104接收来自深度伪造检测器102的音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}和存储的音频波形x∈Rⁿ。如果音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}高于预定阈值，例如，0.5，则警告消息X_警告可以叠加在音频波形x∈Rⁿ上，或者警告消息X_警告可以独立于音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}而叠加在音频波形x∈Rⁿ上。

在图2的实施例(在线操作模式)中，信息叠加单元104接收来自深度伪造检测器102的音频事件x₁的深度伪造概率P_深度伪造和音频波形x∈Rⁿ的当前播放部分。如果音频波形x₁的深度伪造概率P_深度伪造高于预定阈值，例如，0.5，则警告消息X_警告可以叠加在音频波形x∈Rⁿ的当前播放部分上，或者警告消息X_警告可以独立于音频波形x₁的深度伪造概率P_深度伪造而叠加在音频波形x∈Rⁿ的当前播放部分上。

如果信息叠加单元104以离线模式接收音频波形x∈Rⁿ，则通过在音频波形x∈Rⁿ的任何给定时间(即，在音频波形x∈Rⁿ之前、期间或之后)将警告消息X_警告与音频波形x∈Rⁿ合并，可以将警告消息X_警告叠加在音频波形x∈Rⁿ上，这产生了经修改的音频波形x’∈Rⁿ。警告消息X_警告可以以比经修改的音频波形x’∈Rⁿ中的音频波形x∈Rⁿ更高的幅度播放，例如，以两倍的幅度播放。也可以在任何给定的部分剪切音频波形x∈Rⁿ，并且插入警告消息X_警告，从而得到经修改的音频波形x’∈Rⁿ。

如果信息叠加单元104以在线模式接收音频波形x∈Rⁿ，则可以通过将警告消息X_警告与当前播放的音频波形x∈Rⁿ实时合并(即，当前播放的音频波形x∈Rⁿ被缓冲一段时间，并与警告消息X_警告合并)，来将警告消息X_警告叠加在当前播放的音频波形x∈Rⁿ上。警告消息X_警告可以以比经修改的音频波形x’∈Rⁿ中的音频波形x∈Rⁿ更高的幅度播放，例如，以两倍的幅度播放。也可以暂停/剪切当前播放的音频波形x∈Rⁿ，并且插入警告消息X_警告，这产生经修改的音频波形x’∈Rⁿ。

在另一个实施例中，如果音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}或音频事件x₁的深度伪造概率P_深度伪造高于预定阈值，例如，0.5，则信息叠加单元104可以在播放音频波形x∈Rⁿ的同时输出警告灯(将其打开)。

在另一个实施例中，屏幕显示器可以显示音频波形x∈Rⁿ的总深度伪造概率P_{深度伪造,总}或音频事件x₁的深度伪造概率P_深度伪造。

在另一个实施例中，屏幕显示器可以显示音频波形x∈Rⁿ的信任级别，该信任级别可以是音频波形x∈Rⁿ的深度伪造概率P_{深度伪造,总}或音频事件x₁的深度伪造概率P_深度伪造的逆值。

在另一个实施例中，如果音频波形x∈Rⁿ的深度伪造概率P_{深度伪造,总}或音频事件x₁的深度伪造概率P_深度伪造超过某个阈值，例如，0.5，则音频波形x∈Rⁿ可以完全静音。在另一个实施例中，深度伪造概率P_深度伪造超过某个阈值(例如，0.5)的音频波形x∈Rⁿ的部分被静音。在另一个实施例中，深度伪造概率P_深度伪造超过某个阈值(例如，0.5)的音频波形x∈Rⁿ的分离音轨被静音。

实现方式

图15示意性地描述了可以实现深度伪造检测器智能扬声器系统100的功能的电子设备的实施例。电子设备1500还包括连接到处理器1501的麦克风阵列1510、扬声器阵列1511和卷积神经网络单元1520。如上所述，处理器1501可以例如实现预处理单元101、组合单元103、信息叠加单元104和深度伪造检测器102的部分。DNN 1520例如可以是硬件中的人工神经网络，例如，GPU上的神经网络或专用于实现人工神经网络的任何其他硬件。DNN1520可以例如实现关于图3a的源分离。此外，DNN 1520可以实现如图6至图14中描述的深度伪造检测器102的人工神经网络的训练和操作。扬声器阵列1511由一个或多个扬声器组成。电子设备1500还包括连接到处理器1501的用户接口1512。该用户接口1512充当人机接口，并实现管理员和电子系统之间的对话。例如，管理员可以使用该用户接口1512对系统进行配置。电子设备1500还包括以太网接口1521、蓝牙接口1504和WLAN接口1505。这些单元1504、1505充当与外部设备进行数据通信的I/O接口。例如，具有以太网、WLAN或蓝牙连接的附加扬声器、麦克风和摄像机可以经由这些接口1521、1504和1505耦合到处理器1501。电子设备1500还包括数据存储器1502和数据存储器1503(此处是RAM)。数据存储器1503被设置为临时存储或高速缓存数据或计算机指令，以供处理器1501处理。数据存储器1502被设置为长期存储器，例如，存储音频波形或警告消息。电子设备1500还包括显示单元1506，该显示单元例如可以是屏幕显示器，例如，LCD显示器。

除了直接在芯片/硅片级别上实现检测流水线之外，还可以将其实现为操作系统(视频/音频驱动程序)的一部分或互联网浏览器的一部分。例如，操作系统或浏览器可以不断检查系统的视频/音频输出，以便可以自动检测可能的深度伪造并相应地警告用户。

***

应当认识到，实施例描述了具有方法步骤的示例性排序的方法。然而，方法步骤的特定顺序仅仅是为了说明的目的而给出的，不应该被解释为具有约束力。例如，图14中的步骤1401、1402或1403可以互换。

还应当注意，将图15的电子设备划分成单元仅仅是为了说明的目的，并且本公开不限于特定单元中的任何特定功能划分。例如，至少部分电路可以由分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。

如果没有另外说明，在本说明书中描述的和在所附权利要求中要求保护的所有单元和实体可以被实现为例如芯片上的集成电路逻辑，并且如果没有另外说明，由这样的单元和实体提供的功能可以由软件实现。

就至少部分使用软件控制的数据处理装置来实现上述公开的实施例而言，将会理解，提供这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或其他介质被设想为本公开的方面。

注意，本技术也可以如下所述进行配置：

(1)一种方法，包括：基于音频波形(x)确定至少一个音频事件(x₁)；以及确定音频事件(x₁)的深度伪造概率(P_深度伪造)。

(2)根据(1)所述的方法，其中，深度伪造概率(P_深度伪造)指示音频波形(x)已经被人工智能技术改变和/或失真或者已经被人工智能技术完全生成的概率。

(3)根据(1)或(2)所述的方法，其中，音频波形(x)涉及媒体内容，例如，音频或视频文件或流。

(4)根据(1)至(3)中任一项所述的方法，其中，确定至少一个音频事件(x₁)包括确定(302)音频波形(x)的或音频波形(x)的一部分的音频事件频谱图(x₁)。

(5)根据(1)至(4)中任一项所述的方法，进一步包括利用经训练的DNN分类器确定(801)音频事件(x₁)的深度伪造概率(P_深度伪造)。

(6)根据(1)至(5)中任一项所述的方法，其中，确定至少一个音频事件(x₁)包括对音频波形(x)执行音频源分离(301)，以获得声音波形(x_v)，并且其中，基于声音波形(x_v)来确定深度伪造概率(P_深度伪造)。

(7)根据(1)至(6)中任一项所述的方法，其中，确定至少一个音频事件(x₁)包括对音频波形(x)执行音频源分离(301)，以获得声音波形(x_v)，并且其中，基于声音波形(x_v)的音频事件频谱图(x₁)来确定深度伪造概率(P_深度伪造)。

(8)根据(1)至(7)中任一项所述的方法，其中，确定至少一个音频事件(x₁)包括确定(302)音频波形(x)的或音频波形(x)的一部分的一个或多个候选频谱图(s₁，...s_L)，通过经训练的DNN分类器标记(502)候选频谱图(s₁，...s_L)，以及根据其标记过滤(503)标记的频谱图(s’₁，...s’_L)，以获得音频事件频谱图(x₁)。

(9)根据(1)至(8)中任一项所述的方法，其中，确定音频事件(x₁)的深度伪造概率(P_深度伪造)包括确定音频事件(x₁)的固有维度概率值(P_固有)。

(10)根据(9)所述的方法，其中，固有维度概率值(P_固有)基于音频事件(x₁)的固有维度(dim_int)与音频事件(x₁)的特征空间维度(dim_feat)的比率(r_dim)以及固有维度概率函数(f_固有)。

(11)根据(4)所述的方法，其中，确定音频事件频谱图(x₁)的深度伪造概率(P_深度伪造)是基于确定音频事件频谱图(x₁)的相关概率值(P_corr)。

(12)根据权利要求(11)所述的方法，其中，相关概率值(P_corr)是基于相关概率函数(f_corr)以及记录本底噪声的经调整大小的存储的真实音频事件频谱图(y)和音频事件频谱图(x₁)的纯噪声部分

之间的归一化互相关/>

来计算的。

(13)根据(1)至(12)中任一项所述的方法，包括：基于音频波形(x)确定多个音频事件(x₁，...，x_K)；确定多个音频事件(x₁，...，x_K)的多个深度伪造概率(P_{深度伪造,1}，...，P_{深度伪造,K})；以及基于多个深度伪造概率(P_{深度伪造,1}，...，P_{深度伪造,K})确定音频波形(x)的总深度伪造概率(P_{深度伪造,总})。

(14)根据(1)至(13)中任一项所述的方法，还包括通过基于深度伪造概率(P_深度伪造、P_{深度伪造,总})在音频波形(x)上叠加警告消息(X_警告)，来确定经修改的音频波形(x’)。

(15)根据(1)至(14)中任一项所述的方法，进一步包括基于深度伪造概率(P_深度伪造、P_{深度伪造,总})输出警告。

(16)根据(1)至(15)中任一项所述的方法，进一步包括如果深度伪造概率(P_深度伪造、P_{深度伪造,总})大于0.5，则输出警告。

(17)根据(1)至(16)中任一项所述的方法，其中，音频波形(x)是人的语音或一段音乐。

(18)根据(1)至(17)中任一项所述的方法，其中，音频波形(x)是从互联网下载的一段音乐。

(19)根据(1)至(17)中任一项所述的方法，其中，音频波形(x)是从音频流服务流出的一段音乐。

(20)根据(1)至(19)中任一项所述的方法，在用户设备中执行该方法。

(21)根据(1)至(20)中任一项所述的方法，在智能扬声器中执行该方法。

(22)根据(3)至(21)中任一项所述的方法，其中，用户是媒体内容的消费者。

(23)根据(22)所述的方法，其中，向用户输出警告，以警告他深度伪造。

(24)一种电子设备(100)，包括电路，该电路被配置为：基于音频波形(x)确定至少一个音频事件(x₁)；以及确定音频事件(x₁)的深度伪造概率(P_深度伪造)。

(25)根据(24)所述的电子设备(100)，其中，深度伪造概率(P_深度伪造)指示音频波形(x)已经被人工智能技术改变和/或失真或者已经被人工智能技术完全生成的概率。

(26)根据(24)或(25)所述的电子设备(100)，其中，音频波形(x)涉及媒体内容，例如，音频或视频文件或流。

(27)根据(24)至(26)中任一项所述的电子设备(100)，其中，确定至少一个音频事件(x₁)包括确定(302)音频波形(x)的或音频波形(x)的一部分的音频事件频谱图(x₁)。

(28)根据(24)至(27)中任一项所述的电子设备(100)，进一步包括电路，该电路被配置为利用经训练的DNN分类器确定(801)音频事件(x₁)的深度伪造概率(P_深度伪造)。

(29)根据(24)至(28)中任一项所述的电子设备(100)，其中，确定至少一个音频事件(x₁)包括对音频波形(x)执行音频源分离(301)，以获得声音波形(x_v)，并且其中，基于声音波形(x_v)来确定深度伪造概率(P_深度伪造)。

(30)根据(24)至(29)中任一项所述的电子设备(100)，其中，确定至少一个音频事件(x₁)包括对音频波形(x)执行音频源分离(301)，以获得声音波形(x_v)，并且其中，基于声音波形(x_v)的音频事件频谱图(x₁)来确定深度伪造概率(P_深度伪造)。

(31)根据(24)至(30)中任一项所述的电子设备(100)，其中，确定至少一个音频事件(x₁)包括确定(302)音频波形(x)的或音频波形(x)的一部分的一个或多个候选频谱图(s₁，...s_L)，通过经训练的DNN分类器标记(502)候选频谱图(s₁，...s_L)，以及根据其标记过滤(503)标记的频谱图(s’₁，...s’_L)，以获得音频事件频谱图(x₁)。

(32)根据(24)至(31)中任一项所述的电子设备(100)，其中，确定音频事件(x₁)的深度伪造概率(P_深度伪造)包括确定音频事件(x₁)的固有维度概率值(P_固有)。

(33)根据(32)所述的电子设备(100)，其中，固有维度概率值(P_固有)基于音频事件(x₁)的固有维度(dim_int)与音频事件(x₁)的特征空间维度(dim_feat)的比率(r_dim)以及固有维度概率函数(f_固有)。

(34)根据(27)所述的电子设备(100)，其中，确定音频事件频谱图(x₁)的深度伪造概率(P_深度伪造)是基于确定音频事件频谱图(x₁)的相关概率值(P_corr)。

(35)根据(34)所述的电子设备(100)，其中，相关概率值(P_corr)是基于相关概率函数(f_corr)以及记录本底噪声的经调整大小的存储的真实音频事件频谱图(y)和音频事件频谱图(x₁)的纯噪声部分

之间的归一化互相关/>

来计算的。

(36)根据(1)至(35)中任一项所述的电子设备(100)，进一步包括电路，该电路被配置为：基于音频波形(x)确定多个音频事件(x₁，...，x_K)；确定多个音频事件(x₁，...，x_K)的多个深度伪造概率(P_{深度伪造,1}，...，P_{深度伪造,K})；以及基于多个深度伪造概率(P_{深度伪造,1}，...，P_{深度伪造,K})确定音频波形(x)的总深度伪造概率(P_{深度伪造,总})。

(37)根据(24)至(36)中任一项所述的电子设备(100)，进一步包括电路，该电路被配置为通过基于深度伪造概率(P_深度伪造、P_{深度伪造,总})在音频波形(x)上叠加警告消息(X_警告)，来确定经修改的音频波形(x’)。

(38)根据(24)至(37)中任一项所述的电子设备(100)，进一步包括电路，该电路被配置为基于深度伪造概率(P_深度伪造、P_{深度伪造,总})输出警告。

(39)根据(24)至(38)中任一项所述的电子设备(100)，进一步包括电路，该电路被配置为如果深度伪造概率(P_深度伪造、P_{深度伪造,总})大于0.5，则输出警告。

(40)根据(24)至(39)中任一项所述的电子设备(100)，其中，音频波形(x)是人的语音或一段音乐。

(41)根据(24)至(40)中任一项所述的电子设备(100)，其中，音频波形(x)是从互联网下载的一段音乐。

(42)根据(24)至(41)中任一项所述的电子设备(100)，其中，音频波形(x)是从音频流服务流出的一段音乐。

(43)根据(24)至(42)中任一项所述的电子设备(100)，其中，电子设备(100)是用户设备。

(44)根据(24)至(43)中任一项所述的电子设备(100)，其中，电子设备(100)是智能扬声器。

(45)根据(26)至(44)中任一项所述的电子设备(100)，其中，用户是媒体内容的消费者。

(46)根据(45)所述的电子设备(100)，其中，向用户输出警告，以警告他深度伪造。

Claims

1.一种方法，包括：基于音频波形确定至少一个音频事件；以及确定所述音频事件的深度伪造概率。

2.根据权利要求1所述的方法，其中，所述深度伪造概率指示所述音频波形已经被人工智能技术改变和/或失真或者已经被人工智能技术完全生成的概率。

3.根据权利要求1所述的方法，其中，所述音频波形涉及媒体内容，例如，音频或视频文件或流。

4.根据权利要求1所述的方法，其中，确定至少一个音频事件包括确定所述音频波形的或所述音频波形的一部分的音频事件频谱图。

5.根据权利要求1所述的方法，进一步包括利用经训练的DNN分类器确定音频事件的所述深度伪造概率。

6.根据权利要求1所述的方法，其中，确定至少一个音频事件包括对所述音频波形执行音频源分离，以获得声音或语音波形，并且其中，基于所述声音或语音波形的音频事件频谱图来确定所述深度伪造概率。

7.根据权利要求1所述的方法，其中，确定至少一个音频事件包括：确定所述音频波形的或所述音频波形的一部分的一个或多个候选频谱图；通过经训练的DNN分类器标记所述候选频谱图；以及根据其标记过滤标记的频谱图，以获得音频事件频谱图。

8.根据权利要求1所述的方法，其中，确定所述音频事件的所述深度伪造概率包括确定所述音频事件的固有维度概率值。

9.根据权利要求8所述的方法，其中，所述固有维度概率值基于所述音频事件的固有维度与所述音频事件的特征空间维度的比率以及固有维度概率函数。

10.根据权利要求4所述的方法，其中，确定所述音频事件频谱图的所述深度伪造概率是基于确定所述音频事件频谱图的相关概率值。

11.根据权利要求10所述的方法，其中，所述相关概率值是基于相关概率函数以及记录本底噪声的经调整大小的存储的真实音频事件频谱图和所述音频事件频谱图的纯噪声部分之间的归一化互相关来计算的。

12.根据权利要求1所述的方法，包括：基于所述音频波形确定多个音频事件；确定所述多个音频事件的多个深度伪造概率；以及基于所述多个深度伪造概率确定所述音频波形的总深度伪造概率。

13.根据权利要求1所述的方法，进一步包括通过基于所述深度伪造概率在所述音频波形上叠加警告消息，来确定经修改的音频波形。

14.根据权利要求1所述的方法，进一步包括基于所述深度伪造概率输出警告。

15.一种电子设备，包括电路，所述电路被配置为：基于音频波形确定至少一个音频事件；以及确定所述音频事件的深度伪造概率。