CN112767913A

CN112767913A - 支持听不见的水印的文本到语音框架

Info

Publication number: CN112767913A
Application number: CN202010540510.3A
Authority: CN
Inventors: 平伟; 仲震宇; 程越强; 李幸; 韦韬
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-10-21
Filing date: 2020-06-15
Publication date: 2021-05-07
Anticipated expiration: 2040-06-15
Also published as: CN112767913B; US20210118423A1; US11138964B2

Abstract

根据各种实施例，端到端TTS框架可以将水印过程集成到TTS框架的训练中，这使得水印能够在TTS框架生成的合成的/克隆的音频段内是察觉不到的。以这种方式添加的水印在统计上是不可检测的，以防止经授权的去除。根据训练TTS框架的示例性方法，TTS框架中的TTS神经网络模型和水印神经网络模式以端对端的方式被训练，其中水印是TTS框架的优化过程的部分。在训练期间，基于训练数据调整TTS神经网络模型的神经元值，以准备用于在将由TTS框架生成的合成的音频段中添加水印的一个或多个空间。响应于TTS神经网络模型中的神经元值调整，相应地调整水印神经网络模型的神经元值，以将水印添加到一个或多个准备的空间。

Description

支持听不见的水印的文本到语音框架

技术领域

本公开的实施例一般涉及基于神经网络的语音合成。更特别地，本公开的实施例涉及用于添加听不见的水印的文本到语音(text to speech，TTS)框架。

背景技术

基于神经网络的语音合成(也称为文本到语音)已经获得了类似人类的高保真语音，并且已经在单个文本到语音(TTS)模型中成功地产生了不同的声音。由于在由这样的模型产生的合成的声音和真实的人类声音之间缺乏区别，模型可能被用于恶意目的，例如合成仇恨言论。

一些公司已经使用水印技术以验证合成的音频是否由特别的TTS模型生成，以防止恶意声音克隆，并加强他们的版权。然而，在现有的解决方案下，水印通常作为合成的音频样本的后处理的部分而被添加，这可以容易地被绕过或伪造。此外，水印通常表示合成的音频样本的额外的信号/噪声，这使得水印对用户不友好。

发明内容

在第一方面中，提供一种训练文本到语音(TTS)框架的计算机实现的方法，所述方法包括：

在TTS框架处接收用于训练所述TTS框架以生成具有水印的合成的音频段的一组训练数据，其中所述TTS框架包括TTS神经网络模型和水印神经网络模型；

调整所述TTS神经网络模型的神经元值，以在由所述TTS框架生成的合成的音频段中准备一个或多个空间，用于添加所述水印；以及

调整所述水印神经网络模型的神经元值以将所述水印添加到一个或多个准备的空间。

在第二方面中，提供一种验证加水印的音频段的计算机实现的方法，包括：

基于专有信息，使用基于所述专有信息的神经网络模型从加水印的音频段获得原始音频段，其中所述神经网络模型是用于生成所述加水印的音频段的合成组件的部分；

基于所述加水印的音频段与所述原始音频段之间的比较，获得嵌入所述加水印的音频段中的实际的水印；以及

通过将所述实际的水印与用于训练所述合成组件的预定的水印进行比较确定所述加水印的音频段是否由所述合成组件生成。

在第三方面中，提供一种非暂时性机器可读介质，具有存储在其中的指令，所述指令在由处理器执行时使得所述处理器执行如第一方面所述的方法或者如第二方面所述的方法。

在第四方面中，提供一种数据处理系统，包括：

一个或多个处理器；以及

非暂时性计算机可读介质，包括一个或多个指令集，所述一个或多个指令集在由所述一个或多个处理器中的至少一个执行时，使得如第一方面所述的方法的步骤被执行，或者使得如第二方面所述的方法的步骤被执行。

根据本公开的实施例，可以将水印处理集成到TTS框架的训练中，这使得水印能够在TTS框架生成的合成的/克隆的音频段内是察觉不到的。以这种方式添加的水印在统计上是不可检测的，以防止经授权的去除。

附图说明

本公开的实施例通过示例的方式示出并且不限于附图中的图，在附图中相同的附图标记表示相似的元件。

图1示出根据实施例的示例文本到语音(TTS)框架。

图2示出根据实施例的用于训练TTS合成组件的示例系统。

图3示出根据实施例的示例神经TTS子组件。

图4示出根据实施例的由合成组件生成的合成的音频段中的示例空间。

图5示出根据实施例的水印验证组件。

图6示出根据实施例的训练TTS合成组件的示例过程。

图7示出根据实施例的验证合成的音频段的示例过程。

图8示出根据一个实施例的数据处理系统的示例。

具体实施方式

将参考以下讨论的细节描述本公开的各个实施例和方面，并且附图将示出各个实施例。以下描述和附图是本公开的说明并且不应被解释为限制本公开。描述了许多具体细节以提供对本公开的各种实施例的全面理解。然而，在某些情况下，为了提供对本公开的实施例的简要讨论，没有描述公知或常规的细节。

说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特别特征、结构或特性可包括在本公开的至少一个实施例中。在说明书中的各个地方出现的短语“在一个实施例中”不一定都指同一实施例。

根据各种实施例，端到端TTS框架可以将水印处理集成到TTS框架的训练中，这使得水印能够在TTS框架生成的合成的/克隆的音频段内是察觉不到的。以这种方式添加的水印在统计上是不可检测的，以防止经授权的去除。

根据训练TTS框架的示例性方法，TTS框架中的TTS神经网络模型和水印神经网络模型以端对端的方式一起被训练。在训练期间，基于一组训练数据调整TTS神经网络模型的神经元值，以在要由TTS框架生成的合成的音频段中准备一个或多个空间用于添加水印。响应于TTS神经网络模型中的神经元值调整，相应地调整水印神经网络模型的神经元值，以将水印添加到一个或多个准备的空间。

在一个实施例中，水印神经网络模型是提供输入音频段与加水印的音频段之间的一对一映射的可逆神经网络。在一个实施例中，TTS神经网络模型和水印神经网络模型中的每一个中的神经元值包括权重、偏差和激活函数。在TTS框架的训练期间调整TTS神经网络的神经元值，使得添加到一个或多个空间的水印在TTS框架生成的合成的音频段中是听不见的。添加水印由与水印神经网络模型中的权重、偏差和激活函数相关联的多层神经元执行的。

在一个实施例中，TTS框架可以生成合成的音频段，合成的音频段包括与表示水印的语音短语重叠的一个或多个语音短语，使得一个或多个语音短语覆盖水印语音短语。在TTS框架的训练期间，可以修改与语音短语相关联的一个或多个物理属性，以覆盖水印语音短语。

根据另一实施例，一种验证加水印的音频段的方法可包括以下操作：接收加水印的音频段和专有信息；以及基于专有信息，使用神经网络模型从加水印的音频段获得原始音频段，神经网络模型是用于生成加水印的音频段的合成组件的部分。方法还包括基于加水印的音频段与原始音频段之间的比较获得嵌入在加水印的音频段中的实际的水印的操作。通过比较实际的水印和用于训练合成组件的预定的水印，方法可以确定加水印的音频段是否由合成组件生成。

图1示出根据实施例的示例文本到语音(TTs)框架。如图1所示，TTS框架103可以在云环境101中提供给终端用户，终端用户可以经由一组应用编程接口(API)访问语音合成功能。

云环境101中的合成组件115可经由API被调用以从文本生成合成的语音，合成的语音具有在组件的训练期间嵌入在合成组件115中的一个或多个预定的水印。合成组件115可包括神经TTS子组件117和水印子组件119，每一个子组件可以是经训练的神经网络模型。

在一个实施例中，神经TTS子组件117可以是用于语音合成的任何端到端神经网络模型，并且水印子组件119可以是提供输入音频段与加水印的音频输出之间的一对一映射的可逆神经网络。

训练水印子组件119以将水印添加到合成的音频段。然而，水印子组件119在合成的组件115的训练期间添加水印，而不是作为合成的音频段的后处理的部分添加水印；即，水印是TTS框架103的训练期间的优化过程的部分。

具有上述特征，水印处理可以被集成到语音合成处理中，这使得水印能够在合成/克隆的音频段内是察觉不到的。以这种方式添加的水印在统计上不可检测，以防止经授权的去除，并且对于音频操作和单个处理操作，例如噪声、压缩、空中播放等是鲁棒的。作为说明性示例，这样的合成的音频段中的水印不能通过在空中播放音频段并记录它而被去除—记录的音频段将仍然具有水印。

图2示出根据实施例的用于训练TTS合成组件的示例系统。如图1中所述，神经TTS子组件117和水印子组件119中的每一个可以是神经网络模型。神经网络模型通常包括连接的神经元的集合。神经元可以是全连接的，其中一层中的每个神经元以参数(例如，权重和偏差)连接到下一层中的每个神经元。

在神经网络模型的训练期间，梯度下降(即，反向传播)可以用于确定使神经网络模型的期望值和实际输出之间的差最小化的一组参数。梯度下降包括计算损失/误差函数的梯度，以及响应于梯度更新现有参数的步骤。可以重复循环，直到达到损失函数的最小值。

返回参考图2，整个合成组件115作为单个单元被端到端地训练，而不是合成组件115中的神经TTS子组件117和水印子组件中的每一个被独立地训练。

如图2所示，在合成组件115的训练期间，在两个子组件(神经TTS子组件117和水印子组件119)之间可以存在持续的交互。每个子组件可以具有其自己的损失函数。神经TTS子组件115可以具有来自用于合成高保真度声音的解码器和声码器的损失。作为可逆神经网络的水印组件119可以具有用于惩罚来自合成的高保真度声音的偏差的感知损失。

在一个实施例中，两个子组件117和119之间的交互可以表示训练期间两个子组件之间的协同，其中一个子组件中的误差被另一个子组件校正。

在合成组件的训练期间，输入数据集203和专有信息204被提供给合成组件115作为输入。输入数据集203可以包括多个样本，每个样本表示文本/音频对。专有信息204可以包括与要添加到合成的音频段的水印有关的任何信息，合成的音频段将在其被训练之后由合成组件115生成。

每个输入样本可被提供作为神经TTS子组件117的输入，神经TTS子组件117包括其层中的初始神经元值。神经值的示例可以包括权重值、偏差和相关联的激活函数。当每个输入样本穿过合成组件117时，初始神经元值可被相应地更新。

在一个实施例中，神经TTS子组件117的输出可以是一组神经元输出205，其可以被馈送到水印子组件119中。响应于从神经TTS子组件117接收的更新的神经元值，也可以更新水印子组件119的每一层中的神经元值。

基于来自一批输入数据的损失函数计算结果，梯度值206通过合成组件115的起始层向后传播。基于为每一层计算的梯度值，相应地更新来自合成组件115的每一层的权重。可以重复上述过程，直到整个合成组件115的损失收敛。

从神经网络架构的角度来看，水印由与权重参数和激活函数相关联的神经元的多个层表示。这样的表示可以通过各种变换获得。不同的变换可以具有不同的安全等级。不同变换的示例可包括具有弱保护的纯文本令牌；也具有弱保护的散列令牌；对称或不对称的加密令牌，这是一种保护水印不被伪造的更安全的方式；以及签名令牌，这是比对称或非对称的加密标志更安全的保护水印不被伪造的方式。

在合成组件115被训练的情况下，输入文本可以以前传的方式穿过经训练的模型。经训练的模型115可以生成包括在合成组件115的训练阶段期间嵌入的水印的音频段。水印是听不见的、察觉不到的，并且不使用实现水印子组件119中的相同的可逆神经网络模型121的验证组件就不能被去除。

图3示出根据实施例的示例神经TTS子组件。在一个实施例中，示例神经TTS子组件117可以包括多个网络，诸如编码器网络305、解码器网络309、注意网络307和声码器网络311。神经TTS子组件117可以通过注意网络307学习输入文本301与其中间表示(例如，梅尔频谱)315之间的对准。

编码器网络305将字符嵌入编码为隐藏特征表示。注意网络307可以消耗编码器网络305的输出以产生用于每一个解码器输出的固定长度上下文向量。解码器网络309可以是自回归循环神经网络，并且可以消耗来自注意网络307的输出，并且从隐藏特征表示预测频谱图的序列。声码器311用于从频谱图分析和合成人声信号，并且可以是时域波形的深度神经网络。

作为合成过程的说明，输入文本301可以由示例神经TTS子组件117转换为字符嵌入，字符嵌入是词的数字表示。字符嵌入接下来可以被馈送到编码器-注意-解码器体系结构中，编码器-注意-解码器体系结构可以构成循环的序列到序列特征预测网络。编码器-注意-解码器架构可以预测频谱图的序列，并且将字符嵌入转换或映射到频谱图。然后，将频谱图馈送到声码器311，声码器311创建时域波形(即，语音)作为输出音频段313。

图4示出根据实施例的由合成组件生成的合成的音频段中的示例空间。如图4所示，一旦训练了合成组件115，它就可以生成具有预定的标记的合成的音频段，预定的标记在训练阶段已被嵌入到训练的合成组件中。水印是听不见的和察觉不到的，并且在没有授权的情况下不能被去除。

在一个实施例中，由合成组件115生成的合成的音频段中的水印是听不见的，因为它被添加到水印被语音短语覆盖的空间。在训练阶段期间通过智能地调整神经TTS子组件117的一个或多个层的适当的神经元值和调整水印子组件119的一个或多个层的适当的神经元值而识别和准备空间。

如图4所示，水印401可以被添加到语音短语A403占据的空间，以及添加到语音短语B 407占据的另一空间。基于空间的一个或多个物理属性，例如那些空间的频带、响度或音高，选择每个空间，使得水印401在被添加到那些空间时对于正常人耳将是听不见的。

在一个实施例中，可以在音频段中以较慢的速度有意地读取语音短语(例如，语音短语B 407)，使得语音短语可以与水印重叠，使得较响的语音短语可以覆盖水印401。

图5示出根据实施例的水印验证组件。如上所讨论的，水印子组件119包括保证输入音频段与加水印的音频段之间的一对一映射的可逆神经网络模型。该特征可以用于验证加水印的音频段是否从合成组件115生成。

在图5所示的示例验证过程中，输入数据包括加水印的音频文件515和额外的专有信息513。额外的专有信息513可以是由合成组件115暴露的API的用户用于在加水印的音频文件515中生成水印的任何信息。这种信息通常不向公众揭露，并且将用于水印提取。例如，这样的信息可以包括嵌入水印的一些私钥。

水印验证组件501可包括与水印子组件119中相同的可逆神经网络模型121。响应于接收到加水印的音频515，水印验证组件501可以运行可逆神经网络以从加水印的音频515中提取水印，以获得没有水印的原始音频517。水印提取可以基于额外的专有信息513。水印提取过程对应于合成组件115中的水印子组件119中限定的不同安全等级。

水印验证组件501可以计算原始音频文件517和输入的加水印的音频515之间的差，以获得嵌入在加水印的音频515中的实际的水印用于验证。在一个实施例中，可以比较实际的水印和在训练阶段期间嵌入到合成组件115中的水印，以确定加水印的音频515是否是由经训练的合成组件115生成的。

图6示出根据实施例的训练TTS合成组件的示例过程600。过程600可以由处理逻辑执行，处理逻辑可以包括软件、硬件或其组合。例如，处理逻辑可包括如图1和图2中所描述的合成组件115。

返回参考图6，在操作601中，TTS框架接收用于训练TTS框架的一组训练数据，以生成具有水印的合成的音频段，以及TTS框架包括TTS神经网络模型和水印神经网络模型。在操作602中，TTS神经网络模型的神经元值可以被调整以在将由TTS框架生成的合成的音频段中准备一个或多个空间，用于添加水印。在操作603中，水印神经网络模型的神经元值可以被调整以将水印添加到一个或多个准备的空间。

图7示出根据实施例的验证合成的音频段的示例过程700。过程700可由可包括软件、硬件或其组合的处理逻辑执行。例如，处理逻辑可以由图5中所描述的水印验证组件501执行。

返回参考图7，在操作701中，在水印验证组件处接收加水印的音频段和专有信息。在操作702中，水印验证组件基于专有信息，使用基于专有信息的神经网络模型从加水印的音频段获得原始音频段，神经网络模型是用于生成加水印的音频段的合成组件的部分。在操作703中，水印验证组件基于加水印的音频段与原始音频段之间的比较获得嵌入加水印的音频段中的实际的水印。在操作704中，水印验证组件通过比较实际的水印和用于训练合成组件的预定的水印确定加水印的音频段是否由合成组件生成。

图8是示出可与本发明的一个实施例一起使用的数据处理系统的示例的框图。例如，系统1500可以表示执行上述任何过程或方法的上述任何数据处理系统，例如，上述客户端设备或服务器，例如，托管如上所述的TTS框架的云服务器或平台。

还应当注意，系统1500旨在示出计算机系统的许多组件的高级视图。然而，应当理解的是，在某些实施方式中可以存在额外的组件，并且此外，在其他实施方式中可以出现所示组件的不同布置。此外，虽然仅示出单个机器或系统，但是术语“机器”或“系统”还应当被认为包括单独地或联合地执行一组(或多组)指令以执行本文所讨论的方法中的任何一个或多个的机器或系统的任何集合。

在一个实施例中，系统1500包括经由总线或互连1510连接的处理器1501、存储器1503和设备1505-1508。处理器1501可以表示单个处理器或其中包括单个处理器核或多个处理器核的多个处理器。处理器1501可表示一个或多个通用处理器，诸如微处理器、中央处理单元(CPU)等。更特别地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实现其它指令集的处理器、或实现指令集的组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、密码处理器、协处理器、嵌入式处理器或能够处理指令的任何其它类型的逻辑。

处理器1501可以是低功率多核处理器插槽，诸如超低电压处理器，其可以充当主处理单元和中央集线器，用于与系统的各种组件通信。这种处理器可以实现为片上系统(SoC)。处理器1501被配置为执行用于执行本文所讨论的操作和步骤的指令。系统1500可进一步包括与可选图形子系统1504通信的图形接口，可选图形子系统1504可包括显示控制器、图形处理器和/或显示设备。

处理器1501可与存储器1503通信，在一个实施例中，存储器1503可经由多个存储器设备实现以提供给定量的系统存储器。存储器1503可包括一个或多个易失性存储(或存储器)设备，诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其他类型的存储设备。存储器1503可以存储包括由处理器1501或任何其它设备执行的指令序列的信息。例如，各种操作系统、设备驱动器、固件(例如，输入输出基本系统或BIOS)和/或应用程序的可执行代码和/或数据可以被加载到存储器1503中，并由处理器1501执行。

系统1500还可包括IO设备，诸如设备1505-1508，包括(一个或多个)网络接口设备1505、(一个或多个)可选输入设备1506和(一个或多个)其它可选IO设备1507。网络接口设备1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位系统(GPS)收发器)或其它射频(RF)收发器，或其组合。NIC可以是以太网卡。

输入设备1506可包括鼠标、触摸板、触敏屏(其可与显示设备1504集成)、诸如指示笔的指示器设备、和/或键盘(例如，作为触敏屏的一部分显示的物理键盘或虚拟键盘)。例如，输入设备1506可包括连接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器可以例如使用多种触摸灵敏度技术中的任何一种检测接触和移动或其中断，多种触摸灵敏度技术包括但不限于电容性、电阻性、红外和表面声波技术，以及用于确定与触摸屏的一个或多个接触点的其它接近传感器阵列或其它元件。

IO设备1507可包括音频设备。音频设备可包括扬声器和/或麦克风，以促进语音使能功能，诸如语音识别、语音复制、数字记录和/或电话功能。其它IO设备1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如PCI-PCI桥)、传感器(例如，诸如加速度计、陀螺仪、磁力计、光传感器、罗盘、接近传感器等的运动传感器)或其组合。

为了提供诸如数据、应用程序、一个或一个以上操作系统等信息的持久存储，大容量存储设备(未图示)也可连接到处理器1501。在各种实施例中，为了使能更薄和更轻的系统设计以及改进系统响应性，该大容量存储设备可经由固态装置(SSD)实现。然而，在其它实施例中，大容量存储设备可主要使用具有较少量SSD存储充当SSD缓存的硬盘驱动器(HDD)实现，以在断电事件期间启用上下文状态和其它此类信息的非易失性存储，使得在系统活动的重新启动时可发生快速加电。此外，闪存设备可以例如经由串行外围接口(SPI)连接到处理器1501。该闪存设备可以提供系统软件(包括BIOS以及系统的其它固件)的非易失性存储。

存储设备1508可包括计算机可访问存储介质1509(也称为机器可读存储介质或计算机可读介质)，在其上存储体现本文所述的方法或功能中的任何一个或多个的一组或多组指令或软件(例如，模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可以表示上述组件中的任何一个，诸如，例如，如上所述的水印组件。在由数据处理系统1500执行处理模块/单元/逻辑1528期间，处理模块/单元/逻辑1528还可以完全或至少部分地驻留在存储器1503内和/或处理器1501内，存储器1503和处理器1501也构成机器可访问存储介质。处理模块/单元/逻辑1528还可以经由网络接口设备1505通过网络发送或接收。

计算机可读存储介质1509还可用于持久地存储上述某些软件功能。尽管在示例性实施例中将计算机可读存储介质1509示出为单个介质，但是术语“计算机可读存储介质”应当被理解为包括存储一组或多组指令的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关联的缓存和服务器)。术语“计算机可读存储介质”还应当被理解为包括能够存储或编码用于由机器执行的指令集并且使得机器执行本公开的方法中的任何一个或多个的任何介质。术语“计算机可读存储介质”因此应被理解为包括但不限于固态存储器、光和磁介质、或任何其它非瞬态机器可读介质。

处理模块/单元/逻辑1528、组件和本文所述的其他特征可以被实现为离散硬件组件或者被集成在诸如ASIC、FPGA、DSP或类似设备之类的硬件组件的功能性中。另外，处理模块/单元/逻辑1528可以被实现为硬件设备内的固件或功能电路。此外，处理模块/单元/逻辑1528可以以硬件设备和软件组件的任何组合实现。

注意，如上所示和所述的一些或所有组件可以用软件、硬件或其组合实现。例如，这些组件可以被实现为安装并存储在永久存储设备中的软件，软件可以由处理器(未示出)加载并执行在存储器中以执行贯穿本申请所述的过程或操作。可替换地，这些组件可被实现为编程或嵌入到专用硬件中的可执行代码，专用硬件诸如集成电路(例如，专用IC或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)，可执行代码可经由对应的驱动器和/或来自应用的操作系统访问。此外，这些组件可以被实现为处理器或处理器内核中的特定硬件逻辑，作为软件组件经由一个或多个特定指令可访问的指令集的一部分。

已经在对计算机存储器内的数据位的操作的算法和符号表示方面呈现了前述详细描述的一些部分。这些算法描述和表示是数据处理领域的技术人员用来最有效地将他们的工作实质传达给本领域的其他技术人员的方式。算法在这里并且通常被认为是导致期望结果的自相容操作序列。这些操作是需要对物理量进行物理操纵的那些操作。

所有这些和类似的术语都与适当的物理量相关联，并且仅仅是应用于这些量的方便的标记。除非特别声明，否则从以上讨论中显而易见的是，应当理解的是，在整个说明书中，使用诸如所附权利要求书中所阐述的术语的讨论指的是计算机系统或类似电子计算设备的动作和处理，所述计算机系统或类似电子计算设备将计算机系统的寄存器和存储器内表示为物理(电子)量的数据操纵和变换成计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的类似地表示为物理量的其它数据。

本公开的实施例还涉及用于执行本文的操作的装置。这种计算机程序存储在非瞬态计算机可读介质中。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机制。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存设备)。

在前述附图中描述的过程或方法可以由包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或两者的组合的处理逻辑来执行。尽管以上根据一些顺序操作描述了过程或方法，但是应当理解的是，可以以不同的顺序执行所述的一些操作。此外，一些操作可以并行地而不是顺序地执行。

本公开的实施例不是参考任何特别编程语言描述的。将了解，可使用各种编程语言实施如本文所述的本公开的实施例的教示。

在前述说明书中，已经参考本公开的具体示例性实施例描述了本公开的实施例。显然，在不背离如所附权利要求书中所阐述的本公开的更宽的精神和范围的情况下，可以对其进行各种修改。因此，说明书和附图应被认为是说明性的而不是限制性的。

Claims

1.一种训练文本到语音(TTS)框架的计算机实现的方法，所述方法包括：

2.如权利要求1所述的方法，其中所述TTS框架是使用所述一组训练数据端对端训练的，包括一起训练所述TTS神经网络模型和所述水印神经网络模型。

3.如权利要求1所述的方法，其中所述水印神经网络模型是提供输入音频段与加水印的音频段之间的一对一映射的可逆神经网络。

4.如权利要求1所述的方法，其中所述TTS神经网络模型和所述水印神经网络模型中的每一个中的所述神经元值包括权重、偏差和激活函数。

5.如权利要求4所述的方法，其中在所述TTS框架的所述训练期间调整所述TTS神经网络的所述神经元值，使得添加到所述一个或多个空间的所述水印在由所述TTS框架生成的所述合成的音频段中是听不见的。

6.如权利要求5所述的方法，其中添加所述水印由与所述水印神经网络模型中的权重、偏差和激活函数相关联的多个神经元层执行。

7.如权利要求1所述的方法，其中所述TTS框架被训练以生成包括一个或多个语音短语的所述合成的音频段，所述一个或多个语音短语与表示所述水印的语音短语重叠，使得所述一个或多个语音短语覆盖所述水印语音短语。

8.如权利要求7所述的方法，其中在所述TTS框架的所述训练期间更改与所述一个或多个语音短语相关联的一个或多个物理属性，以覆盖所述水印语音短语。

9.如权利要求8所述的方法，其中更改所述一个或多个语音短语的所述物理属性包括更改所述一个或多个语音短语中的每一个的长度，使得每一个语音短语覆盖所述水印短语。

10.一种验证加水印的音频段的计算机实现的方法，包括：

11.如权利要求10所述的方法，其中所述神经网络模型是可逆神经网络模型，以及其中所述原始音频段被除去嵌入其中的任何水印。

12.一种非暂时性机器可读介质，具有存储在其中的指令，所述指令在由处理器执行时使得所述处理器执行如权利要求1至9中任一项所述的方法或者如权利要求10至11中任一项所述的方法。

13.一种数据处理系统，包括：

一个或多个处理器；以及

非暂时性计算机可读介质，包括一个或多个指令集，所述一个或多个指令集在由所述一个或多个处理器中的至少一个执行时，使得如权利要求1至9中任一项所述的方法的步骤被执行，或者使得如权利要求10至11中任一项所述的方法的步骤被执行。