CN116547752A

CN116547752A - 虚假音频检测

Info

Publication number: CN116547752A
Application number: CN202180080979.6A
Authority: CN
Inventors: 乔尔·肖尔; 阿兰纳·福斯特·斯洛克姆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-12-02
Filing date: 2021-11-11
Publication date: 2023-08-04
Also published as: US20230386506A1; JP2023551729A; WO2022119699A1; US20220172739A1; KR20230116886A; EP4244853A1; US11756572B2

Abstract

一种用于确定合成语音的方法(600)包括接收表征由用户设备(102)获得的流式音频(118)中的语音的音频数据(120)。该方法还包括使用经训练的自监督模型(210)生成多个音频特征向量(212)，每个音频特征向量表示音频数据的一部分的音频特征。该方法还包括使用浅鉴别器模型(222)基于多个音频特征向量中的每个音频特征向量的对应音频特征，生成指示音频数据中合成语音的存在的得分(224)。该方法还包括确定得分是否满足合成语音检测阈值。当得分满足合成语音检测阈值时，该方法包括确定用户设备获得的音频数据中的语音包括合成语音。

Description

虚假音频检测

技术领域

本公开涉及用于虚假或合成音频检测的自监督语音表示。

背景技术

启用语音的环境(例如，家庭、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令，该系统基于命令输入并回答查询和/或执行功能。例如，启用语音的环境是使用分布在环境的各个房间或区域的连接的麦克风设备的网络来实现的。随着这些环境变得越来越普遍并且随着语音识别设备变得越来越先进，语音越来越多地用于重要功能，重要功能例如包括说话者的识别和认证。这些功能极大地增加了确保语音源自人类而非合成(即通过数字方式创建或更改并通过扬声器播放)的需求。

发明内容

本公开的一个方面提供了一种用于对音频数据是否包括合成语音进行分类的方法。该方法包括在数据处理硬件处接收表征由用户设备获得的音频数据中的语音的音频数据。该方法还包括由数据处理硬件使用经训练的自监督模型生成多个音频特征向量，每个音频特征向量表示音频数据的一部分的音频特征。该方法还包括：由数据处理硬件使用浅鉴别器模型，基于多个音频特征向量中的每个音频特征向量的对应音频特征，来生成指示音频数据中合成语音的存在的得分。该方法还包括由数据处理硬件确定得分是否满足合成语音检测阈值。该方法还包括当得分满足合成语音检测阈值时，数据处理硬件确定用户设备获得的音频数据中的语音可能包括合成语音。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，浅鉴别器模型包括智能池化层。在一些示例中，该方法还包括：由数据处理硬件使用浅鉴别器模型的智能池化层，基于多个音频特征向量中的每个音频特征向量，来生成单个最终音频特征向量。生成指示音频数据中合成语音的存在的得分可以基于单个最终音频特征向量。

可选地，单个最终音频特征向量包括多个音频特征向量的每个音频特征向量的平均。或者，单个最终音频特征向量包括多个音频特征向量中的每个音频特征向量的聚合。浅鉴别器模型包括全连接层，该全连接层被配置为接收单个最终音频特征向量作为输入并生成得分作为输出。

在一些实施方式中，浅鉴别器模型包括逻辑回归模型、线性鉴别分析模型或随机森林模型中的一个。在一些示例中，在仅包括源于人类语音的训练样本的第一训练数据集上训练经训练的自监督模型。可以在包括合成语音的训练样本的第二训练数据集上训练浅鉴别器模型。第二训练数据集可能小于第一训练数据集。可选地，数据处理硬件驻留在用户设备上。经训练的自监督模型可以包括从更大的经训练的自监督模型导出的表示模型。

本公开的另一方面提供了用于对音频数据是否包括合成语音进行分类的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，该指令当在数据处理硬件上执行时使数据处理硬件执行操作。这些操作包括接收表征由用户设备获得的音频数据中的语音的音频数据。这些操作还包括使用经训练的自监督模型生成多个音频特征向量，每个音频特征向量表示音频数据的一部分的音频特征。这些操作还包括使用浅鉴别器模型基于多个音频特征向量中的每个音频特征向量的对应音频特征来生成指示音频数据中合成语音的存在的得分。这些操作还包括确定得分是否满足合成语音检测阈值。这些操作还包括当得分满足合成语音检测阈值时，确定用户设备获得的音频数据中的语音可能包括合成语音。

该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，浅鉴别器模型包括智能池化层。在一些示例中，这些操作还包括使用浅鉴别器模型的智能池化层基于多个音频特征向量中的每个音频特征向量生成单个最终音频特征向量。生成指示音频数据中合成语音的存在的得分可以基于单个最终音频特征向量。

可选地，单个最终音频特征向量包括多个音频特征向量中的每个音频特征向量的平均。或者，单个最终音频特征向量包括多个音频特征向量中的每个音频特征向量的聚合。浅鉴别器模型可以包括全连接层，该全连接层被配置为接收单个最终音频特征向量作为输入并生成得分作为输出。

在一些实施方式中，浅鉴别器模型包括逻辑回归模型、线性判别分析模型或随机森林模型之一。在一些示例中，在仅包括源于人类语音的训练样本的第一训练数据集上训练经训练的自监督模型。可以在包括合成语音的训练样本的第二训练数据集上训练浅鉴别器模型。第二训练数据集可能小于第一训练数据集。可选地，数据处理硬件驻留在用户设备上。经训练的自监督模型可以包括从更大的经训练的自监督模型导出的表示模型。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及从权利要求显而易见。

附图说明

图1是用于将音频数据分类为合成语音的示例系统的示意图。

图2是音频特征提取器和合成语音检测器的示例性组件的示意图。

图3是图2的合成语音检测器的示意图。

图4A和图4B是图2的音频特征提取器和合成语音检测器的训练架构的示意图。

图5是将提取的音频特征提供给多个浅鉴别器模型的音频特征提取器的示意图。

图6是用于将音频数据分类为合成语音的示例操作布置的流程图。

图7是可用于实现本文描述的系统和方法的示例计算设备的示意图。

各个附图中相同的参考符号指示相同的元件。

具体实施方式

随着启用语音的环境和设备变得更加普遍和复杂，依赖于使用音频作为源于人类语音的可靠指示器越来越重要。例如，语音生物识别技术通常用于说话者验证。自动说话者验证(ASV)是通过对语音话语进行分析来对个人进行认证。然而，随着合成媒体(例如“deepfakes”)的出现，对于这些系统而言，准确确定语音话语何时包含合成语音(即类似于人类语音的计算机生成的音频输出)至关重要。例如，当前水平的文本到语音(TTS)和语音转换(VC)系统现在可以接近地模仿人类说话者，这为攻击和欺骗ASV系统提供了途径。

在一个示例中，实现说话者验证模型的ASV系统与热词检测模型结合使用，使得授权用户可以调用启用语音的设备通过说出预定义的固定短语(例如，热词、唤醒词、关键字、调用短语等)来唤醒并处理来自用户的后续口述输入。在此示例中，热词检测模型被配置为检测表征音频数据中的预定义固定短语的音频特征，并且说话者验证模型被配置为验证表征预定义固定短语的音频特征是由授权用户说出的。通常，说话者验证模型会从输入的音频特征中提取验证说话者嵌入，并将验证说话者嵌入与授权用户的参考说话者嵌入进行比较。这里，参考说话者嵌入可以通过使特定用户说出相同的预定义固定短语(例如，在注册过程期间)来预先获得，并作为授权用户的用户配置文件的一部分被存储。当验证说话者嵌入与参考说话者嵌入相匹配时，在音频数据中检测到的热词被验证为由授权用户说出，从而允许启用语音的设备唤醒并处理授权用户说出的后续语音。上述当前水平的TTS和VC系统可用于生成授权用户的语音中预定义固定短语的合成语音表示，以欺骗说话者验证模型验证合成语音表示是由授权用户说出的。

诸如神经网络的机器学习(ML)算法主要推动了AVS系统和其他启用语音的技术的激增。然而，这些算法传统上需要大量的训练样本，因此训练准确模型的主要瓶颈往往在于缺乏足够大和高质量的数据集。例如，包含源于人类语音的大型数据集很容易获得，但相反包含合成语音的类似数据集则不然。因此，在没有传统训练集的情况下训练能够准确确定合成语音的模型对合成语音检测系统的开发提出了重大问题。

本文中的实施方式针对基于从音频数据中提取音频特征的自监督模型和确定合成语音在音频特征中并因此在音频数据中存在的概率的浅鉴别器模型，来检测在音频数据中的合成语音。可以仅仅在包含源于人类语音而非合成语音的数据上训练自监督模型，从而绕过由于缺乏足够数量的合成语音样本而导致的瓶颈。同时，在仍保持较高的准确度的同时，可以在少量(相对于自监督模型)包括合成语音的训练样本上训练浅鉴别器。

参考图1，在一些实施方式中，示例系统100包括用户设备102。用户设备102可以对应于计算设备，例如移动电话、计算机(膝上型或台式机)、平板电脑、智能扬声器/显示器、智能电器、智能耳机、可穿戴设备、车载信息娱乐系统等，并配备有数据处理硬件103和存储器硬件105。用户设备102包括一个或多个麦克风106或与一个或多个麦克风106通信，用于从音频源10捕获话语。音频源10可以是产生源于人类话语119的人或将电音频信号转换成对应话语119的音频设备(例如，扬声器)。扬声器可以是任何方式的计算或用户设备(例如，移动电话、计算机等)的一部分或与之通信。

用户设备102包括音频特征提取器210，该音频特征提取器210被配置为从表征由用户设备102获得的语音的音频数据120中提取音频特征。例如，音频数据120是由用户设备102从流式音频118中捕获的。在其他示例中，用户设备102生成音频数据120。在一些实施方式中，音频特征提取器210包括经由网络104从远程系统110接收的经训练的神经网络(例如，记忆神经网络，例如卷积神经网络)。远程系统110可以是单个计算机、多个计算机或具有可扩展的/弹性的计算资源112(例如数据处理硬件)和/或存储资源114(例如存储器硬件)的分布式系统(例如云环境)。

在一些示例中，在用户设备102上执行的音频特征提取器210是自监督模型。也就是说，使用自监督学习(也称为“无监督学习”)训练音频特征提取器210，其中，标签自然是训练样本的一部分并且不包括单独的外部标签。更具体地说，使用自监督学习方法，模型在没有任何预先存在的标签(即注释)且具有最少人工监督的情况下寻找数据集中的模式。

在所示示例中，音频源10产生包括语音“My name is Jane Smith(我的名字是简·史密斯)”的话语119。音频特征提取器220接收表征流式音频118中的话语119的音频数据120，并从音频数据120生成多个音频特征向量212、212a-n。每个音频特征向量212表示音频数据120的块或部分(即，流式音频118或话语119的部分)的音频特征(即，诸如频谱图(例如，梅尔频率频谱图和梅尔频率倒谱系数(MFCC))的音频特性)。例如，每个音频特征向量表示音频数据120的960毫秒部分的特征。这些部分可能重叠。例如，音频特征提取器210生成用于5秒的音频数据120的八个音频特征向量212(每个表示960毫秒的音频数据120)。来自音频特征提取器210的音频特征向量212基于自监督学习捕获音频数据120的大量声学属性。

在生成音频特征向量212之后，音频特征提取器210将音频特征向量212发送到包括浅鉴别器模型222的合成语音检测器220。如下文更详细讨论的，浅鉴别器模型222是浅神经网络(即，几乎没有隐藏层)，其基于每个音频特征向量212生成得分224(图2)，该得分基于每个音频特征向量212的对应音频特征指示合成语音在流式音频118中的存在。合成语音检测器220确定得分224(例如，概率得分)是否满足合成语音检测阈值。当得分224满足合成语音检测阈值时，合成语音检测器220确定用户设备102捕获的流式音频118中的语音(即，话语119)包括合成语音。合成语音检测器220可以确定话语119包括合成语音，即使当话语119的大部分包括源于人类语音(即，一小部分合成语音被插入或散布于源于人类语音)时。

在一些实施方式中，合成语音检测器220基于得分224是否满足合成语音检测阈值来向用户设备102生成指示150以指示流式音频118是否包括合成语音。例如，当得分224满足合成语音检测阈值时，指示150指示话语119包括合成语音。作为响应，用户设备102可以向用户设备102的用户生成通知160。例如，用户设备102执行图形用户界面(GUI)108以用于显示在与数据处理硬件103通信的用户设备102的屏幕上。用户设备102可以在GUI 108中呈现通知160。这里，指示150通过在GUI 108上呈现消息“通知：检测到合成语音”来指示流式音频118包括合成语音。提供的通知160仅是示例性的，并且用户设备102可以用任何其他适当的方法通知用户设备102的用户。附加地或替代地，合成语音检测器220通知在用户设备102上执行的其他应用。例如，在用户设备102上执行的应用认证用户设备102的用户以允许该用户访问一个或多个受限资源。该应用可以使用生物识别语音来认证用户(例如，经由话语119)。合成语音检测器220可以向应用提供指示150以警告应用话语119包括可能导致应用拒绝对用户的认证的合成语音。在另一种情况下，当话语119包括由用户设备102在流式音频118中检测到的热词以触发用户设备102从睡眠状态唤醒并启动后续语音的处理时，由合成语音检测器220生成的指示热词的话语119包括合成语音的指示150可以抑制用户设备102上的唤醒过程。

用户设备102可以经由网络104将指示150转发到远程系统110。在一些实施方式中，远程系统110执行音频特征提取器210和/或合成语音检测器220来代替或补充用户设备102。例如，用户设备102接收流式音频118并将音频数据120(或音频数据120的一些特征)转发到远程系统以供处理。远程系统140可以包括比用户设备102多得多的计算资源。附加地或备选地，远程系统140可以更安全地免受潜在对手的攻击。在这种情况下，远程系统110可以将指示150传输到用户设备102。在一些示例中，远程服务器140对音频数据120执行多个认证操作并且返回指示认证是否成功的值。在其他实施方式中，音频源10将流式音频118的音频数据120直接传输到远程系统110(例如，经由网络104)，而根本不需要单独的用户设备102。例如，远程系统110执行使用语音生物识别的应用。在这种情况下，音频源10包括直接将音频数据120传输到远程系统110的设备。例如，音频源10是计算机，该计算机生成合成语音并向远程系统110传输该合成语音(经由音频数据120)，而不用口头表达合成语音。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交网络应用和游戏应用。

现在参考图2，示意图200包括执行深神经网络250的音频特征提取器210。深神经网络250可以包括被配置为接收音频数据120的任意数量的隐藏层。在一些实施方式中，音频特征提取器210的深神经网络250从音频数据120生成多个音频特征向量212、212a-n(即嵌入)。浅鉴别器模型222同时、依序或串联在一起地接收多个音频特征向量212。多个音频特征向量212可以在音频特征提取器210和浅鉴别器模型222之间进行一些处理。浅鉴别器模型222可以基于由音频特征提取器210的深神经网络250生成/提取的多个音频特征向量212来生成得分224。

现在参考图3的示意图300，在一些示例中，浅鉴别器模型222包括智能池化层310、310P。智能池化层310P接收多个音频特征向量212，并可基于从音频特征提取器210接收的每个音频特征向量212生成单个最终音频特征向量212F。浅鉴别器模型222可基于单个最终音频特征向量212F生成得分224，其指示在流式音频118中合成语音的存在。在一些示例中，智能池化层310P对每个音频特征向量212进行平均以生成最终音频特征向量212F。在其他示例中，智能池化层310P聚合每个音频特征向量212以生成最终音频特征向量212F。最终，智能池化层310P以某种方式将多个音频特征向量212提炼成最终音频特征向量212F，其包括或强调表征源于人类语音相对于合成语音的音频特征。在一些示例中，智能池化层310P将最终音频特征向量212F集中在最有可能包含合成语音的音频数据120的部分上。例如，音频数据120包括提供话语119包括合成音频的指示(例如，音频特性)的小或窄部分，而音频数据120的其余部分几乎不提供话语119包括合成语音的指示。在该示例中，智能池化层310P强调与音频数据120的那部分相关联的音频特征向量212(或者不强调其他剩余的音频特征向量212)。

在一些实施方式中，浅鉴别器模型222除了智能池化层310P之外仅包括一个其他层310。例如，浅鉴别器模型222包括全连接层310F，其被配置为从智能池化层310P接收单个最终音频特征向量212F作为输入并生成得分224作为输出。因此，在一些示例中，浅鉴别器模型222是浅神经网络，其包括单个智能池化层310P和仅一个其他层310，例如全连接层310F。每层包括任意数量的神经元/节点332。单个全连接层310F可以将结果映射到罗吉特(logit)。在一些示例中，浅鉴别器模型222包括逻辑回归模型、线性鉴别分析模型或随机森林模型之一。

现在参考图4A，在一些实施方式中，训练过程400、400a在源于人类的语音样本的池402A上训练音频特征提取器210。这些源于人类语音样本提供未标记的音频提取器训练样本410A，其训练未训练的音频特征提取器210。源于人类语音池402A可能相当大，导致大量的音频提取器训练样本410A。因此，在一些示例中，训练过程400a在仅包括源于人类语音而不包括任何合成语音的大量音频提取器训练样本410A上训练未训练的音频特征提取器210。这是有利的，因为大的合成语音池通常是昂贵的和/或难以获得的。然而，在一些示例中，音频提取器训练样本410A包括具有源于人类语音和合成语音的样本。可选地，音频特征提取器210包括从更大的经训练的自监督模型导出的表示模型。在这种情况下，更大的经训练的自监督模型可能是非常大的模型，其执行起来计算量很大，并且不太适合用户设备102。然而，由于在用户设备102本地执行音频特征提取器210的潜在优势(例如，延迟、隐私、带宽等)，音频特征提取器210可以是更大的经训练的自监督模型的表示模型，这在不牺牲实质准确性的情况下减小了模型的大小和复杂性。这允许模型在用户设备102上执行，尽管计算或存储容量有限。表示模型通过将高维数据(例如音频)转换为较低维度来训练小模型并使用表示模型作为预训练来提高性能。

现在参考图4B，在一些示例中，训练过程400、400b在训练音频特征提取器210之后训练浅鉴别器模型222。在该示例中，经训练的音频特征提取器210从合成语音样本的池402B接收音频数据120。经训练的音频特征提取器210基于来自池402B的音频数据120生成表示鉴别器训练样本410b的音频特征向量212。这些鉴别器训练样本410b(即，由经训练的音频特征提取器210生成的多个音频特征向量212)训练浅鉴别器模型222。虽然可以使用来自合成语音池402B的合成语音来训练浅鉴别器模型222，但是合成语音池402B可能比源于人类语音池402A小得多。

在一些示例中，仅仅在包括合成语音的训练样本410b上训练浅鉴别器模型222，而在其他示例中，在包括合成语音的训练样本410b和包括纯源于人类语音的训练样本410b的混合上训练浅鉴别器模型222。包括合成语音的样本410b可以仅包括合成语音(即，没有源于人类语音)。样本410b还可以包括合成语音和源于人类语音的混合。例如，在图1的例子中，话语119包括话语“My name is Jane Smith(我的名字是简·史密斯)”。来自该话语410b的可能训练样本410b包括作为源于人类语音的话语119的“My name is(我的名字是)”部分，而话语119的“Jane Smith(简·史密斯)”部分是合成语音。远程系统110和/或用户设备102可以扰乱现有的训练样本410b以生成额外的训练样本410b。例如，远程系统将源于人类语音的一部分替换为合成语音，将合成语音部分替换为源于人类语音部分，将合成语音部分替换为不同的合成语音部分，以及将源于人类语音部分替换为不同的源于人类语音部分。

在一些实施方式中，远程系统110执行训练过程400a、400b以训练音频特征提取器210和浅鉴别器模型222，然后将经训练的模型210、222传输到用户设备102。然而，在其他示例中，用户设备102执行训练过程400a、400b以在用户设备102上训练音频特征提取器210和/或浅鉴别器模型222。在一些示例中，远程系统110或用户设备102基于新的或更新的训练样本410b微调浅鉴别器模型222。例如，用户设备102在从音频源10接收的音频数据120上更新、微调或部分重新训练浅鉴别器模型222。

现在参考图5的示意图500，在一些示例中，用户设备102和/或远程系统110利用相同的音频特征提取器210向多个浅鉴别器模型222、222a-n提供音频特征向量212。以此方式，音频特征提取器210充当“前端”模型，而浅鉴别器模型222充当“后端”模型。每个浅鉴别器模型222可以被训练用于不同的目的。例如，第一浅鉴别器模型222a确定语音是源于人类的还是合成的，而第二浅鉴别器模型222b识别和/或分类流式音频118中的情绪。也就是说，自监督音频特征提取器210很好地适用于浅鉴别器模型222可利用来用于各种不同目的的“非语义”任务(即，人类语言的除了含义之外的方面)。由于浅鉴别器模型222的潜在小尺寸和复杂性，用户设备可以根据需要存储和执行它们中的每一个以处理由音频特征提取器210生成的音频特征向量212。

图6提供确定音频数据120是否包括合成语音的方法600的示例操作的流程图。在操作602，方法600包括在数据处理硬件103处接收表征由用户设备102获得的语音的音频数据120。在操作604，方法600包括由数据处理硬件103使用经训练的自监督模型210(即，音频特征提取器210)生成多个音频特征向量212，每个表示音频数据120的一部分的音频特征。方法600在操作606还包括：通过数据处理硬件103使用浅鉴别器模型222，基于多个音频特征向量212的每个音频特征向量212的对应音频特征，来生成指示音频数据120中合成语音的存在的得分224。方法600在操作608包括由数据处理硬件103确定得分224是否满足合成语音检测阈值，并且在操作610，当得分224满足合成语音检测阈值时，由数据处理硬件103确定用户设备102捕获的音频数据120中的语音包括合成语音。

图7是可用于实现本文档中描述的系统和方法的示例计算设备700的示意图。计算设备700旨在表示各种形式的数字计算机，例如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。此处所示的组件、它们的联系和关系以及它们的功能仅意味着是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实现方式。

计算设备700包括处理器710、存储器720、存储设备730、连接到存储器720和高速扩展端口750的高速接口/控制器740、以及连接到低速总线740和存储设备730的低速接口/控制器760。组件710、720、730、740、750和760中的每个都使用各种总线互连，并且可以安装在公共主板上或以其他适当的方式安装。处理器710可以处理用于在计算设备700内执行的指令，包括存储在存储器720中或存储设备730上以在诸如耦合到高速接口740的显示器780的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息的指令。在其他实施方式中，可以适当地使用多个处理器和/或多条总线以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备700，每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器720在计算设备700内非暂时性地存储信息。存储器720可以是计算机可读介质、易失性存储单元或非易失性存储单元。非暂时性存储器720可以是用于在临时或永久的基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备700使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备730能够为计算设备700提供大容量存储。在一些实施方式中，存储设备730是计算机可读介质。在各种不同的实施方式中，存储设备730可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备或设备阵列(包括在存储区域网络或其他配置中的设备)。在另外的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，这些指令在执行时执行一种或多种方法，例如上述方法。信息载体是计算机或机器可读介质，例如存储器720、存储设备730或处理器710上的存储器。

高速控制器740管理计算设备700的带宽密集型操作，而低速控制器760管理较低带宽密集型操作。这种职责分配只是示例性的。在一些实施方式中，高速控制器740耦合到存储器720、显示器780(例如，通过图形处理器或加速器)以及高速扩展端口750(其可以接受各种扩展卡(未示出))。在一些实施方式中，低速控制器760耦合到存储设备730和低速扩展端口790。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口790可以例如通过网络适配器耦合到一个或多个输入/输出设备，例如键盘、定点设备、扫描仪或网络设备(例如交换机或路由器)。

计算设备700可以以多种不同的形式实现，如图所示。例如，它可以实现为标准服务器700a，或在一组这样的服务器700a中多次实现，实现为膝上型计算机700b，或实现为机架服务器系统700c的一部分。

本文描述的系统和技术的各种实施方式可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式，该程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用的或通用的，其耦合到存储系统、至少一个输入设备和至少一个输出设备以从其接收数据和指令并向其发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、用于向可编程处理器提供机器指令和/或数据的可编程逻辑设备(PLD)，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。例如，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合到其以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括：半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及，CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)并且选用地具有键盘和指示设备的计算机上实现本公开的一个或多个方面，指示设备例如是鼠标或轨迹球，用户可以通过其向计算机提供输入。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文件以及从用户使用的设备接收文件(例如，通过响应于从在用户客户端设备上的Web浏览器收到的请求，将网页发送到Web浏览器)来与用户进行交互。

已经描述了许多实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种方法(600)包括：

在数据处理硬件(103)处接收表征由用户设备(102)获得的语音的音频数据(120)；

由所述数据处理硬件(103)使用经训练的自监督模型(210)生成多个音频特征向量(212)，所述多个音频特征向量(212)中的每个音频特征向量表示部分的所述音频数据(120)的音频特征；

由所述数据处理硬件(103)使用浅鉴别器模型(222)，基于所述多个音频特征向量(212)中的每个音频特征向量(212)的对应音频特征，生成指示所述音频数据(120)中合成语音的存在的得分(224)；

由所述数据处理硬件(103)确定所述得分(224)是否满足合成语音检测阈值；以及

当所述得分(224)满足所述合成语音检测阈值时，由所述数据处理硬件(103)确定由所述用户设备(102)获得的所述音频数据(120)中的所述语音包括合成语音。

2.根据权利要求1所述的方法(600)，其中，所述浅鉴别器模型(222)包括智能池化层(310)。

3.根据权利要求1或2所述的方法(600)，还包括：

由所述数据处理硬件(103)使用所述浅鉴别器模型(222)的所述智能池化层(310)，基于所述多个音频特征向量(212)中的每个音频特征向量(212)生成单个最终音频特征向量(212)，

其中，生成指示所述音频数据(120)中所述合成语音的存在的所述得分(224)是基于所述单个最终音频特征向量(212)。

4.根据权利要求3所述的方法(600)，其中，所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的平均。

5.根据权利要求3所述的方法(600)，其中，所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的聚合。

6.根据权利要求3-5中任一项所述的方法(600)，其中，所述浅鉴别器模型(222)包括全连接层，所述全连接层被配置为接收所述单个最终音频特征向量(212)作为输入并生成所述得分(224)作为输出。

7.根据权利要求1-6中任一项所述的方法(600)，其中，所述浅鉴别器模型(222)包括逻辑回归模型、线性鉴别分析模型或随机森林模型中的一个。

8.根据权利要求1-7中任一项所述的方法(600)，其中，在仅包括源于人类语音的训练样本(410)的第一训练数据集上训练所述经训练的自监督模型(210)。

9.根据权利要求8所述的方法(600)，其中，在包括合成语音的训练样本(410)的第二训练数据集上训练所述浅鉴别器模型(222)，所述第二训练数据集小于所述第一训练数据集。

10.根据权利要求1-9中任一项所述的方法(600)，其中，所述数据处理硬件(103)驻留在所述用户设备(102)上。

11.根据权利要求1-10中任一项所述的方法(600)，其中，所述经训练的自监督模型(210)包括从更大的经训练的自监督模型(210)导出的表示模型。

12.一种系统，包括：

数据处理硬件(103)；以及

与所述数据处理硬件(103)通信的存储器硬件(105)，所述存储器硬件(105)存储指令，所述指令当在所述数据处理硬件(103)上执行时使所述数据处理硬件(103)执行操作，所述操作包括：

接收表征由用户设备(102)获得的音频数据(120)中的语音的音频数据(120)；

使用经训练的自监督模型(210)生成多个音频特征向量(212)，所述多个音频特征向量(212)中的每个音频特征向量表示部分的所述音频数据(120)的音频特征；

使用浅鉴别器模型(222)，基于所述多个音频特征向量(212)中的每个音频特征向量(212)的对应音频特征，生成指示所述音频数据(120)中合成语音的存在的得分(224)；

确定所述得分(224)是否满足合成语音检测阈值；以及

当所述得分(224)满足所述合成语音检测阈值时，确定由所述用户设备(102)获得的所述音频数据(120)中的所述语音包括合成语音。

13.根据权利要求12所述的系统，其中，所述浅鉴别器模型(222)包括智能池化层(310)。

14.根据权利要求12或13所述的系统，其中，所述操作进一步包括：

使用所述浅鉴别器模型(222)的所述智能池化层(310)，基于所述多个音频特征向量(212)中的每个音频特征向量(212)生成单个最终音频特征向量(212)，

15.根据权利要求14所述的系统，其中，所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的平均。

16.根据权利要求14所述的系统，其中，所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的聚合。

17.根据权利要求14-16中任一项所述的系统，其中，所述浅鉴别器模型(222)包括全连接层，所述全连接层被配置为接收所述单个最终音频特征向量(212)作为输入，并生成所述得分(224)作为输出。

18.根据权利要求12-17中任一项所述的系统，其中，所述浅鉴别器模型(222)包括逻辑回归模型、线性鉴别分析模型或随机森林模型中的一个。

19.根据权利要求12-18中任一项所述的系统，其中，在仅包括源于人类语音的训练样本(410)的第一训练数据集上训练所述经训练的自监督模型。

20.根据权利要求19所述的系统，其中，在包括合成语音的训练样本(410)的第二训练数据集上训练所述浅鉴别器模型(222)，所述第二训练数据集小于所述第一训练数据集。

21.根据权利要求12-20中任一项所述的系统，其中，所述数据处理硬件(103)驻留在所述用户设备(102)上。

22.根据权利要求12-21中任一项所述的系统，其中，所述经训练的自监督模型(210)包括从更大的经训练的自监督模型导出的表示模型。