CN113228162A

CN113228162A - 基于上下文的语音合成

Info

Publication number: CN113228162A
Application number: CN201980085945.9A
Authority: CN
Inventors: D·O·麦康尼尔; T·C·布彻
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-12-27
Filing date: 2019-12-20
Publication date: 2021-08-06
Also published as: EP3903305A1; WO2020139724A1; US20200211540A1

Abstract

一种系统和方法包括捕获由第一用户发出的第一语音音频信号，将第一语音音频信号转换为文本数据，将文本数据输入到经训练的网络以基于文本数据生成第二语音音频信号，基于回放环境的第一上下文处理第二语音音频信号，以及在回放环境中回放经处理的第二语音音频信号。

Description

基于上下文的语音合成

发明内容

现代计算应用可以捕获并且回放用户语音的音频。这种应用包括视频会议应用、多玩家游戏应用、以及音频消息应用。音频在在捕获和回放均存在低质量的问题。

通常地，用以捕获针对计算应用的语音音频的麦克风被内置于用户设备中，诸如智能电话、平板计算机或笔记本计算机。这些麦克风捕获低质量的音频，例如，表现出低信噪比和低采样率。在典型的音频不友好的物理环境中使用时，即使是外接的、消费者级的麦克风也提供低质量音频。

高质量语音音频(如果被捕获)也存在问题。高质量音频消耗更多的存储，并且比低质量音频需要更多的传输带宽，并因此消极地影响系统性能或消耗不适当的资源量。当回放时，即使高质量音频也可能无法与音频被播放的硬件、软件和物理环境适当地集成。

期望系统有效地向计算应用提供适当的语音音频。

附图说明

图1是根据一些实施例的合成语音的系统的框图；

图2是根据一些实施例的合成语音过程的流程图；

图3是根据一些实施例的训练网络的系统的框图；

图4描绘了根据一些实施例的实施语音合成的视频会议系统；

图5描绘了根据一些实施例的可以实施语音合成的音频/视频设备；

图6是根据一些实施例的可以实施语音合成的音频/视频设备的内部框图；

图7描绘了根据一些实施例的混合现实场景；

图8描绘了根据一些实施例的可以并入语音合成的混合现实场景；

图9描绘了根据一些实施例的可以并入语音合成的混合现实场景；

图10是根据一些实施例的合成语音的系统的框图；

图11是根据一些实施例的合成语音的系统的框图；以及

图12是根据一些实施例的可以实施语音合成的云计算系统的框图。

具体实施方式

以下描述被提供以允许本领域任何人员进行和使用所描述的实施例。然而，各种修改对于本领域技术人员将是显而易见的。

本文所描述的实施例提供了对于在计算环境中低效且低质量的音频传输和回放的技术问题的技术解决方案。根据一些实施例，清晰的语音音频由经训练的网络基于输入文本(或语音音频)生成，并且在回放之前基于其发送和/或接收环境的上下文而被处理。一些实施例通过在远程发送和接收系统之间传输文本数据并且在接收系统处将文本数据转换为语音音频来保存带宽。

实施例可以生成质量不受捕获麦克风或者环境的质量限制的语音音频。所生成的语音音频的处理可以反映扬声器布置、房间响应、回放硬件和/或任何其他适当的上下文信息。

图1图示了根据一些实施例的系统100。系统100可以基于发送系统处的语音音频输入而在接收系统处提供特别适当的语音音频的高效生成。通常并且根据一些实施例，输入语音音频在发送系统处被转换为文本数据，并且语音音频数据在接收系统处根据文本数据生成。生成的语音数据可以反映接收系统已经在其上被训练的任何声音特性，并且可以被进一步处理以反映其在接收系统内将在其中被回放的上下文。该上下文可以包括回放房间的脉冲响应、与扬声器(即，发送用户)相关联的空间信息、期望的处理效果(混响、降噪)以及任何其他上下文信息。

系统100包括位于物理环境110内的麦克风105。麦克风105可以包括用于捕获音频信号的任何系统，并且可以在已知的任何程度上与计算系统(未示出)分离或者集成。物理环境110表示麦克风105所在的声学环境，并且其影响麦克风110获取的音频的声音属性。在一个示例中，环境110的物理属性可能会产生影响麦克风105捕获的语音音频的回声。

根据图1的示例，用户对着麦克风105讲话，并且由麦克风105生成的结果语音音频被提供给语音到文本组件115。语音到文本组件115基于经接收的语音音频来输出文本数据。输出文本数据可以认为是用户说到麦克风105中的言语的转录(无论它可能是什么格式)。

本文所指的“文本数据”可以包括ASCII数据或用于表示文本的任何其他类型的数据。文本数据可以包括另一种编码形式，例如包括音高信息的、与语言无关的音素描述流或人类不可理解的另一其他二进制格式。文本数据可以包括韵律、音调和传达含义但不是简单的基于单词的格式的其他声音特性的指示。通常，语音到文本组件115可以被考虑为将经接收的音频信号“编码”或“压缩”成所需的文本数据传输格式。

语音到文本组件115可以包括用于将音频转换为文本的已知的或将知晓的任何系统。组件115可以包括部署在与麦克风105耦合的计算系统上的经训练的神经网络。在另一示例中，组件115可以包括与麦克风105耦合的计算系统所调用的Web服务。

由语音到文本组件115生成的文本数据经由网络125而被提供给文本到语音组件120。网络125可以包括实施任何协议和/或传输介质的公共和/或专用网络的任何组合，包括但不限于互联网。根据一些实施例，文本到语音组件120远离于语音到文本组件115，并且这些组件在有或没有中间Web服务器帮助的情况下通过互联网彼此通信。该通信可以包括除图示文本数据之外的数据。下面将提供实施一些实施例的系统的更具体的使用示例。

文本到语音组件120基于经接收的文本数据来生成语音音频。用于生成语音音频的特定系统取决于经接收的文本数据的格式。尽管文本到语音组件120的意图不是再现由语音到文本组件115编码的音频信号，文本到语音组件120通常可以被认为是语音到文本组件115的编码器的解码器对应物。

在图示示例中，文本到语音组件120可以利用经训练的模型130以生成语音音频。在一些实施例中，经训练的模型130可以包括深度神经网络(DNN)，例如本领域已知的、已经被训练为从输入文本生成语音音频的Wavenet。

图1的虚线指示经训练的模型130已经由用户结合麦克风105训练。例如，用户可以先前已经向麦克风105说过适当的训练短语，以创建模型130在其上被训练的经标注语音音频的训练集。经训练的模型130不必限于由麦克风105的当前用户训练，而是可以已经基于用于输出语音音频的任何语音或者系统而被训练。在后一种情况下，由组件120生成的语音音频将反映其他语音或系统的声音特性。

根据一些实施例，文本数据可以是以第一语言，并且在被文本到语音组件120接收之前被变换为第二语言。文本到语音组件120随后基于经训练的模型130来以第二语言输出语音音频，优选地该经训练的模型130已经基于第二语言的语音音频和文本而被训练。

回放控制组件135处理由文本到语音组件120输出的语音音频，以反映任何所需的回放上下文信息140。回放上下文信息140可以包括回放环境150内耳机(即，扬声器)145的再现特性、回放环境150的脉冲响应、记录环境110的脉冲响应、与记录环境110内的麦克风105相关联或与回放环境150内的麦克风105的虚拟位置相关联的空间信息、旨在增强由组件120输出的特定音频信号的感知的信号处理效果、以及任何其他上下文信息。

在一些实施例中，由组件120生成的语音音频是声学环境不可知的，并且基本上不包括与环境有关的混响。该特性允许回放控制135将虚拟声学应用于具有比其他方式更高的感知准确度的、经生成的语音音频。这种虚拟声学包括特定房间(即，房间模型)，音频设备(诸如均衡器、压缩器、混响器)的虚拟化。前述房间模型可以表示例如针对不同上下文的“理想”房间，例如会议、需要专注的单独工作和小组工作。

回放上下文信息140还可以包括要被集成到所生成的语音音频中的虚拟声学事件。所生成的语音音频与这些虚拟声学事件之间的交互可以被显式地制作，这是因为所生成的语音音频可以被设计为与虚拟声学事件声学地交互(例如，支持声学的感知线索：频率遮蔽、多普勒效应等)。

一些实施例因此可以基于经记录的音频来实时提供“清洁的(clean)”语音音频，而不管在记录时高噪音水平、记录麦克风的差捕获特性等。一些实施例还可以减少在应用之间传送语音所需的带宽，同时仍然为接收用户提供高质量的音频。

图2是根据一些实施例的过程200的流程图。本文所描述的过程200和其他过程可以使用硬件和软件的任何适当的组合来执行。具化这些过程的软件程序代码可以通过任何非暂态有形介质存储，包括固定磁盘、易失性或非易失性随机存取存储器、DVD、闪存驱动器或磁带，并由任何数目的处理单元来执行，包括但不限于处理器、处理器内核和处理器线程。实施例不限于以下描述的示例。

初始地，在S210处语音音频信号被接收。语音音频信号可以由用于捕获音频信号的任何系统捕获，例如上述麦克风105。还如上文所描述，语音音频信号可能受捕获它们的声学的环境以及音频捕获设备的记录特性的影响。被捕获的语音音频信号可以在S210处由旨在执行S220的计算系统接收。

在S220处，文本字符串基于经接收的语音音频信号而被生成。S220可以利用任何已知的或将知晓的语音到文本系统。所生成的文本字符串可以包括用于表示文本的任何数据格式，包括但不限于ASCII数据。

根据一些实施例，S210和S220由第一用户操作的、旨在经由通信应用与第二用户通信的计算系统执行。在一个示例中，通信应用是基于IP的语音(VOIP)应用。通信应用可以包括视频会议应用、多玩家游戏应用或任何其他适当的应用。

随后，在S230处，语音音频信号基于文本字符串而被合成。关于S210和S220的上述示例，可以在S230之前将在S220处生成的文本字符串传输至第二用户。因此，在S230处，第二用户的计算系统可以操作以基于文本字符串来合成语音音频信号。实施例不限于此。

语音音频信号可以在S230处使用已知的或将知晓的任何系统来合成。根据一些实施例，S230利用经训练的模型130以基于输入文本字符串来合成语音音频信号。图3图示了根据一些实施例的训练网络以供在S230处使用的系统300。

使用训练文本320、真值(ground truth)语音330和损失层340来训练网络310。实施例不限于系统300的架构。训练文本320包括文本字符串的集合，并且真值语音330包括与训练文本320的每组文本字符串相关联的语音音频文件

通常，根据一些实施例，网络310可以包括神经元网络，该神经元网络接收输入，根据该输入改变内部状态，并根据输入和内部状态来产生输出。某些神经元的输出与其他神经元的输入相连以形成定向的并且加权的图。权重以及计算内部状态的函数可以由基于真值数据的训练过程来修改。网络310可以包括任何一种或多种已知的或将知晓的人工神经网络，包括但不限于：卷积神经网络、递归神经网络、长短期记忆网络、深部储集层计算和深回声状态网络、深度信念网络和深层堆叠网络。

在训练期间，网络310接收训练文本320的每组文本字符串，并且基于其初始配置和设计来针对每组文本字符串输出预测的语音音频信号。损失层组件340通过将每个预测的语音音频信号与对应于其输入文本字符串的真值语音音频信号比较来确定损失。

基于所有确定的损失确定总损失。总损失可以包括L1损失和L2损失，或任何其他适当的总损失量度。总损失从损失层组件340反向传播到网络310，如本领域所知晓的，网络310响应于此而改变其内部权重。该过程重复进行，直到确定总损失已经达到可接受的水平或训练以其他方式终止。此时，目前所训练的网络实现了一个以文本字符串为输入并以音频信号为输出的函数。

在S240处，经合成的语音音频基于上下文信息而被处理。如关于图1所描述的，上下文信息可以包括在期望的回放环境内的扬声器的再现特征、回放环境的脉冲响应、原始语音音频信号被捕获的环境的脉冲响应、另一环境的脉冲响应，和/或回放环境中与信号捕获虚拟位置相关联的空间信息。S240可以包括旨在增强在S230处合成的特定音频信号的感知的信号处理效果的应用。

在S250处，经处理的语音音频被传输到扬声器以用于回放。扬声器可包括已知的或将知晓的扬声器系统中的任何一种或多种类型，并且经处理的信号可以在到达扬声器之前通过本领域已知的任何数目的放大器或信号处理器。

图4图示了根据一些实施例的过程200的示例。在示例中，在发送方环境410中，语音音频被捕获自发送方420。语音音频在环境410处被转换为文本数据并且被传输到接收环境450。环境450的计算系统执行经训练的网络460，以基于在经接收的文本数据来合成语音音频信号。根据一些实施例，经训练的网络460实施由先前基于来自发送方420的真值语音音频信号而被训练的功能。实施例不限于此，因为网络460可能已经由基于不同人的语音音频信号、计算机生成的语音、或任何其他语音音频信号源而被训练。

回放控制470被执行以基于回放上下文信息480来处理经合成的语音音频信号。回放上下文信息480可以包括上文所描述的任何上下文信息，但不限于此。如虚线所示，可以从环境410接收用于由回放控制470使用的上下文信息，其可能连同上述文本数据一起被接收。该上下文信息可以提供与环境420相关联的声学信息、与发送方420相关联的位置数据或其他信息。

经处理的音频可以被提供至由接收用户(未示出)佩戴的耳机490。一些实施例可以包括从环境410到环境450的视频流，如图4所示，其允许接收用户查看用户420。除了比在环境410中捕获的音频信号更清晰和更容易感知之外，由耳机490播放的经处理的音频信号可以表现出与用户420在环境410中的明显位置相对应的空间定位。

一些实施例可以与混合现实、增强现实和/或虚拟现实系统结合使用。图5是根据一些实施例的、可以实施语音合成的头戴式音频/视频设备的视图。实施例不限于设备500。

设备500包括用于呈现空间化的声音的扬声器系统和用于向其佩戴者呈现图像的显示器。图像可能完全占据佩戴者的视野，也可能呈现在佩戴者的视野内，以使得佩戴者仍然可以看到她附近的其他对象。图像可以是全息的。

设备500还可以包括传感器(例如，照相机和加速度计)，以用于确定设备500在具有六个自由度的三维空间中的位置和运动。从传感器接收的数据可以帮助确定显示给佩戴者的图像的大小、位置、方向和可见性。

根据一些实施例，设备500执行过程200的S230到S250。图6是根据一些实施例的设备500的一些组件的内部框图。每个组件可以使用硬件和软件的任何组合来实施。

设备500包括无线联网组件，以在S230处接收文本数据。可以经由在设备500和/或设备500无线耦合到的计算系统上的通信应用的执行来接收文本数据。文本数据可以是基于如以上示例中描述的远程记录的语音音频信号而被生成的，但是实施例不限于此。

设备500还实施用于基于经接收的文本数据来合成语音音频信号的经训练的网络。经训练的网络可以包括在S230之前加载到设备500上的参数和/或程序代码，它可以驻留在其中直到通信应用终止。

如虚线所示和关于图4所描述的，设备500还可以接收与发送方的上下文关联的上下文信息。设备500的传感器还接收表示设备500的上下文的数据。传感器可以检测房间声学和对象在房间内的位置，以及设备500在房间内的位置。设备500的回放控制组件可以利用上述上下文信息来处理由经训练的网络所合成的音频信号。经处理的音频信号随后被提供给设备500的空间扬声器系统，以用于回放和由佩戴者感知。

如图6所示，设备500也可以包括图形处理器以帮助在其显示器上呈现图像。这种图像可以包括如图7到图9所描述的混合现实图像。

图7的示例是从设备500的佩戴者的角度看到的。除了用户720，佩戴者位于环境710中并且图7中所示的每个对象也位于环境710中(即，佩戴者看到“真实”对象)。用户720的图像可以由远程系统的摄像机获取并且经由通信应用(例如，视频会议应用)而被提供至设备500。如本领域中已知的，设备500操作以将用户720的图像插入到佩戴者查看的场景中。

根据一些实施例，设备500还可以接收从如上所述的用户720的语音音频所生成的文本数据。设备500随后可以执行S230到S250以基于文本数据来合成语音音频信号，基于上下文信息(例如，图6的发送方上下文和接收方上下文)处理经合成的语音音频信号，并将经处理的信号传输至其扬声器系统以用于回放。图8描绘了这样的回放，其中语音气泡730描绘了经处理的语音音频信号的回放，使得它们似乎源自用户720的位置。根据一些实施例，气泡730实际上没有被显示。

图9描述了类似的场景，其中设备500接收两个远程用户920和940的文本数据，这两个远程用户也可能彼此远离。每个远程用户的上下文信息以及与环境910相关联的上下文信息也可以被接收。用户920和940中的每一个用户都可以与相应的经训练的网络相关联，其用于基于其相应用户的文本数据来合成语音音频信号。

用户920和环境910的上下文信息随后可以被用于处理由与用户920相关联的经训练的网络所合成的语音音频信号。类似地，用户940和环境910的上下文信息可以被用于处理由与用户940相关联的经训练的网络所合成的语音音频信号。如语音气泡930和950所示，设备500可以在环境910的同一用户会话内回放经处理的音频信号，使得它们在佩戴者看来是从用户920和用户940分别发出的。应当注意，由用户920和940中的一个或两者操作的设备可以类似地从设备500接收文本数据，并且如本文所描述地执行S230到S250以回放对应的经处理的语音音频信号。

图10和图11图示了其中单个组件执行过程200的S210至S230的实施例，在发送方侧(图10)或接收方侧(图11)上。特别地，可以包括一个或多个神经网络的组件接收经记录的语音音频信号，基于该信号生成文本字符串，并且基于该文本字符串合成语音音频信号。该组件可以在记录设备(例如，图10)或回放设备(图11)上被实施。

图12图示了根据一些实施例的基于云的系统1200。系统1200可以包括任意数目的虚拟机、虚拟服务器和云存储实例。根据一些实施例，系统1200可以执行提供语音合成和处理的应用。

设备1210可以与由系统1200执行的应用通信，以向其提供经记录的语音信号，旨在用于设备1220的用户。如上所述，系统1200接收语音音频信号，基于信号生成文本字符串，并且根据文本字符串合成语音音频信号。系统1200可以使用上下文信息来处理信号，并且将经处理的信号提供至设备1220以用于回放。设备1220可以在回放之前进一步处理经接收的语音信号，例如基于设备1220本地的上下文信息。

系统1200可以支持设备1210和1220以及任何其他一个或多个计算系统之间的双向通信。每个设备/系统可以根据需要处理和回放已接收的语音信号。

本文描述的每个功能组件可以至少部分地以计算机硬件、程序代码和/或执行本领域已知的此类程序代码的一个或多个计算系统来实施。这种计算系统可以包括一个或多个处理单元，其执行存储在存储器系统中的处理器可执行程序代码。

前述示图表示根据一些实施例的用于描述过程的逻辑架构，实际实施方式可以包括以其他方式布置的更多或不同的组件。可以结合其他实施例使用其他拓扑。此外，本文描述的每个组件或设备可以通过经由任何数量的其他公共和/或专用网络进行通信的任何数量的设备来实施。两个或多个这样的计算设备可以彼此远离并且可以经由任何已知的网络方式和/或专用的连接彼此通信。每个组件或设备可以包括任何数量的硬件和/或软件元素，这些元素适合于提供本文所描述的功能以及任何其他功能。例如，在根据一些实施例的系统的实现中使用的任何计算设备可以包括用于执行程序代码的处理器，使得计算设备如本文所述那样操作。

本文讨论的所有系统和过程可以被实施在存储于一个或多个非暂态计算机可读介质上的程序代码中。这种介质可以包括例如硬盘、DVD-ROM、闪存驱动器、磁带和固态随机存取存储器(RAM)或只读存储器(ROM)存储单元。因此，实施例不限于硬件和软件的任何特定组合。

本领域技术人员将理解，可以在不脱离权利要求的情况下配置上述实施例的各种修改和修改。因此，应当理解，权利要求可以不同于本文具体描述的方式来实践。

Claims

1.一种计算系统，包括：

第一计算设备，包括用以执行处理器可执行程序代码的一个或多个处理单元，所述处理器可执行程序代码使所述第一计算设备：

接收文本数据；

基于所述文本数据来生成第一音频信号，所述第一音频信号表示语音；

确定回放环境的第一上下文；以及

基于所述第一上下文来处理所述第一音频信号；以及

扬声器系统，用以在所述回放环境中回放经处理的所述第一音频信号。

2.根据权利要求1所述的计算系统，还包括：

第二计算设备，包括用以执行第二处理器可执行程序代码的一个或多个第二处理单元，所述第二处理器可执行程序代码使所述第二计算系统：

接收输入音频信号，所述输入音频信号表示语音；

基于经接收的所述输入音频信号来生成所述文本数据；以及

将所述文本数据传输至所述第一计算设备。

3.根据权利要求2所述的计算系统，所述第二处理器可执行程序代码使所述第二计算系统：

确定所述输入音频信号的记录环境的第二上下文；以及

将所述第二上下文传输至所述第一计算设备，

其中所述第一音频信号基于所述第一上下文和所述第二上下文而被处理。

4.根据权利要求3所述的计算系统，其中所述第二上下文包括第一用户在所述记录环境中的空间位置，并且其中所述第一上下文包括第二用户在所述回放环境中的空间位置。

5.根据权利要求4所述的计算系统，其中所述第一上下文包括所述回放环境的声学特性。

6.根据权利要求2所述的计算系统，还包括：

第三计算设备，包括用以执行第三处理器可执行程序代码的一个或多个第三处理单元，所述第三处理器可执行程序代码使所述第三计算系统：

接收第二输入音频信号，所述第二输入音频信号表示第二语音；

基于经接收的所述第二输入音频信号来生成第二文本数据；以及

将所述第二文本数据传输至所述第一计算设备，

所述第一计算设备，包括用以进一步执行以下处理器可执行程序代码的一个或多个处理单元，所述处理器可执行程序代码使所述第一计算设备：

接收所述第二文本数据；

基于所述第二文本数据来生成第三音频信号，所述第三音频信号表示语音；以及

基于所述第一上下文来处理所述第三音频信号，以及

所述扬声器系统，用以在所述回放环境中回放经处理的所述第一音频信号和经处理的所述第三音频信号。

7.根据权利要求1所述的计算系统，其中所述第一上下文包括所述回放环境的声学特性。

8.一种计算机实施的方法，包括：

捕获由第一用户发出的第一语音音频信号；

将所述第一语音音频信号转换为文本数据；

将所述文本数据输入至经训练的网络，以基于所述文本数据来生成第二语音音频信号；

基于回放环境的第一上下文来处理所述第二语音音频信号；以及

在所述回放环境中播放经处理的所述第二语音音频信号。

9.根据权利要求8所述的计算机实施的方法，还包括：

确定所述第一语音音频信号在其中被捕获的记录环境的第二上下文，

其中处理所述第二语音音频信号包括：

基于所述第一上下文和所述第二上下文来处理所述第二语音音频信号。

10.根据权利要求9所述的计算机实施的方法，其中所述第二上下文包括所述第一用户在所述记录环境中的空间位置，并且其中所述第一上下文包括第二用户在所述回放环境中的空间位置。

11.根据权利要求10所述的计算机实施的方法，其中所述第一上下文包括所述回放环境的声学特性。

12.根据权利要求8所述的计算机实施的方法，其中所述第一上下文包括所述回放环境的声学特性。

13.根据权利要求8所述的计算机实施的方法，还包括：

捕获由第二用户发出的第三语音音频信号；

将所述第三语音音频信号转换为第二文本数据；

将所述第二文本数据输入至第二经训练的网络，以基于所述第二文本数据来生成第四语音音频信号；

基于所述回放环境的所述第一上下文来处理所述第四语音音频信号；以及

在所述回放环境中播放经处理的所述第四语音音频信号。

14.根据权利要求13所述的计算机实施的方法，其中经处理的所述第二语音音频信号和所述第四语音音频信号在所述回放环境的相同用户会话中被播放。

15.一种计算系统，用以：

接收由第一用户发出的第一语音音频信号；

将所述第一语音音频信号转换为文本数据；

基于所述文本数据来生成第二语音音频信号；

将经处理的所述第二语音音频信号传输至所述回放环境。