CN117529773A

CN117529773A - 用户自主个性化文本转语音的声音生成

Info

Publication number: CN117529773A
Application number: CN202280040570.6A
Authority: CN
Inventors: 特伦特·理查德·沃基维奇; 玛丽亚·费尔南德斯·瓜哈多
Original assignee: Meta Platforms Inc
Current assignee: Meta Platforms Inc
Priority date: 2021-06-07
Filing date: 2022-05-20
Publication date: 2024-02-06
Also published as: WO2022260846A1; US11900914B2; EP4352723A1; US20220392428A1

Abstract

在线系统接收来自发布用户的客户端设备的基于声音的内容项的脚本。在线系统检索存储在发布用户的用户资料中的声音合成模型，且使用所检索到的声音合成模型并基于所接收到的脚本来生成合成音频流。在线系统向发布用户呈现所生成的合成音频流，并接收用于修改合成音频流的指令。在线系统基于所接收到的指令生成第二音频流，并基于所生成的第二音频流编写基于声音的内容项。然后向观看用户呈现该基于声音的内容项。

Description

用户自主个性化文本转语音的声音生成

技术领域

本公开总体上涉及文本转语音(text-to-speech)的声音生成，并且在提供用户自主个性化文本转语音的声音生成方法方面找到了特定的(尽管不是排他性的)实用性。

背景技术

基于音频的内容项比基于文本的内容项具有更高的进入壁垒。例如，缺乏记录和编辑设备可能会阻碍用户向在线系统提供基于音频的内容项。音频录制的质量可能会基于用于录制音频片段的装置和录制音频片段的环境而有很大差异。另外，编辑音频片段比编辑文本更困难。与可被轻易修改的文本不同，如果希望改变音频片段，则用户可能需要重新录制音频片段以避免给基于音频的内容项引入瑕疵(artifact)。

在线系统中的基于音频的内容项的另一个进入壁垒是：很多人对收听其声音的录音感到不舒服。与一个人听声音录音中的他或她自己的声音时相比，该人在说话时听他或她自己的声音时，该人的声音通常听起来是不同的。例如，与一个人感知他或她自己的声音相比，人的声音录音可能会显得具有更高的音调。由于声音录音听起来与人所认为的他或她自己的声音不同，因此人在收听声音录音时可能会感到不舒服。

发明内容

为了降低基于音频的内容项的进入壁垒，在线系统允许用户使用所生成的声音合成模型来生成基于音频的内容项以模仿该用户的声音。在线系统接收来自发布用户的客户端设备的基于声音的内容项的脚本。在线系统检索存储在发布用户的用户资料中的声音合成模型，且使用所检索到的声音合成模型并基于所接收到的脚本来生成合成音频流。在线系统向发布用户呈现所生成的合成音频流，并接收用于修改合成音频流的指令。在线系统基于所接收到的指令生成第二音频流，并基于所生成的第二音频流编写基于声音的内容项。

根据第一方面，提供了一种方法，该方法包括：接收来自在线系统的发布用户的客户端设备的基于声音的内容项的脚本；检索存储在该发布用户的用户资料中的声音合成模型，该声音合成模型至少基于该发布用户的多个声音样本而被训练；使用所检索到的声音合成模型并基于所接收到的脚本来生成合成音频流；向发布用户呈现所生成的合成音频流；接收用于修改该合成音频流的指令；基于所接收到的指令生成第二音频流；基于所生成的第二音频流编写基于声音的内容项；以及向在线系统的观看用户呈现该基于声音的内容项。

该脚本可以包括对基于声音的内容项的情绪的指示。检索声音合成模型可以包括：从存储在发布用户的用户资料中的一组声音合成模型中选择该声音合成模型，对该声音合成模型的选择是基于该基于声音的内容项的情绪的。

生成第二音频流可以包括：检索存储在发布用户的用户资料中的第二声音合成模型；以及使用所检索到的第二声音合成模型并基于所接收到的脚本和所接收到的用于修改合成音频的指令来生成该第二音频流。

该方法还可以包括：接收发布用户的所述多个声音样本；使用该发布用户的该多个声音样本生成声音合成模型；使用该发布用户的该多个声音样本生成鉴别器模型，该鉴别器模型用于确定音频流是否包括该发布用户的声音记录；使用声音合成模型生成测试音频流；使用鉴别器模型确定该测试音频流的分类；以及基于所确定的测试音频流的分类来改进声音合成模型和鉴别器模型。

该方法还可以包括：将声音合成模型存储在发布用户的用户资料中。

用于修改合成音频流的指令可以包括以下中的至少一者：用于改变所生成的合成音频流中的一个或多个词语或短语的语调或发音的指令，用于在所生成的音频流中添加停顿的指令，用于移除所生成的合成音频流中的停顿的指令，用于改变所生成的合成音频流的至少一部分的节奏的指令，以及用于向所生成的合成音频流添加音效的指令。

该方法还可以包括：基于所接收到的脚本生成音素流，其中，合成音频流是基于所生成的音素流、通过使用所检索到的声音合成模型而生成的。

该方法还可以包括：向发布用户呈现音素流；以及接收来自该发布用户的客户端设备的经修改的音素流，其中，合成音频流是基于所接收到的经修改的音素流、通过使用所检索到的声音合成模型而生成的。

根据第二方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括指令，所述指令在被计算机执行时使得该计算机执行第一方面所述的方法。该介质可以是非暂态的。

根据第三方面，提供了一种系统，该系统包括：用户资料存储库，该用户资料存储库被配置为存储在线系统的每个用户的用户资料，每个用户资料包括至少基于该用户的多个声音样本而被训练的一组声音合成模型；以及基于声音的内容项生成器，该基于声音的内容项生成器被配置为执行第一方面所述的方法。

根据第四方面，提供了一种计算机程序，该计算机程序包括指令，所述指令在该程序被计算机执行时使得该计算机执行第一方面所述的方法。

附图说明

图1是在线系统在其中运行的系统环境的框图。

图2是在线系统的框图。

图3示出了用于为基于音频的社交网络系统生成内容项的过程的流程图。

图4A示出了用于生成声音合成模型的过程的流程图。

图4B示出了对声音合成模型的生成的框图。

这些附图仅出于说明的目的而描绘了各个示例。本领域技术人员将从以下论述中很容易地认识到，可以在不脱离本文所描述的原理的情况下，采用本文所示出的结构和方法的替代物。

具体实施方式

系统架构

图1是在线系统140的系统环境100的框图。图1所示的系统环境100包括一个或多个客户端设备110、网络120、一个或多个第三方系统130、以及在线系统140。在替代配置中，系统环境100中可以包括不同的部件和/或附加的部件。例如，在线系统140是社交网络系统、内容共享网络或向用户提供内容的另一系统。

客户端设备110是能够接收用户输入以及经由网络120发送和/或接收数据的一个或多个计算设备。在一个示例中，客户端设备110是常规计算机系统，例如台式计算机或膝上型计算机。替代地，客户端设备110可以是具有计算机功能的设备，例如个人数字助理(personal digital assistant，PDA)、移动电话、智能手机或另一合适的设备。客户端设备110被配置为经由网络120通信。在一个示例中，客户端设备110执行这样的应用：该应用允许客户端设备110的用户与在线系统140交互。例如，客户端设备110执行浏览器应用以经由网络120实现客户端设备110与在线系统140之间的交互。在另一示例中，客户端设备110通过在客户端设备110的本地操作系统(例如或安卓^TM(ANDROID^TM))上运行的应用编程接口(application programming interface，API)来与在线系统140交互。

客户端设备110被配置为经由网络120通信，该网络可以包括使用有线通信系统和/或无线通信系统这两者的局域网和/或广域网的任何组合。在一个示例中，网络120使用标准通信技术和/或协议。例如，网络120包括使用以下技术的通信链路：所述技术例如为以太网、802.11、全球微波接入互操作性(worldwide interoperability for microwaveaccess，WiMAX)、第三代移动通信技术(3G)、第四代移动通信技术(4G)、码分多址(codedivision multiple access，CDMA)、数字用户线路(digital subscriber line，DSL)等。用于经由网络120通信的网络协议的示例包括：多协议标签交换(multiprotocol labelswitching，MPLS)、传输控制协议/互联网协议(transmission control protocol/Internet protocol，TCP/IP)、超文本传输协议(hypertext transport protocol，HTTP)、简单邮件传输协议(simple mail transfer protocol，SMTP)和文件传输协议(filetransfer protocol，FTP)。通过网络120交换的数据可以使用任何合适的格式进行表示，该格式例如为超文本标记语言(hypertext markup language，HTML)或可扩展标记语言(extensible markup language，XML)。在一些示例中，可以使用任何合适的一种或多种技术来对网络120的所有通信链路或一些通信链路进行加密。

一个或多个第三方系统130可以耦接到网络120以与在线系统140通信，这在下文结合图2进行了进一步描述。在一个示例中，第三方系统130是这样的应用提供者：该应用提供者传送描述了用于由客户端设备110执行的应用的信息，或者向客户端设备110传送数据以供在该客户端设备上执行的应用使用。在其它示例中，第三方系统130提供内容或其它信息以用于经由客户端设备110呈现。第三方系统130还可以向在线系统140传送信息，例如广告、内容或关于由第三方系统130提供的应用的信息。

图2是在线系统140的架构的框图。图2中所示的在线系统140包括用户资料存储库205、内容存储库210、动作日志记录器215、动作日志220、边存储库225、声音内容项生成器240、声音合成训练模块250和网页服务器290。在其它示例中，在线系统140可以包括用于各种应用的附加的部件、更少的部件或不同的部件。没有示出诸如网络接口、安全功能、负载均衡器、故障转移服务器、以及管理和网络操作控制台等常规部件，以免模糊系统架构的细节。

在线系统140的每个用户与存储在用户资料存储库205中的用户资料相关联。用户资料包括由用户明确共享的关于该用户的描述性信息，并且还可以包括由在线系统140推断的资料信息。在一个示例中，用户资料包括多个数据字段，每个数据字段对相应在线系统用户的一个或多个属性进行描述。存储在用户资料中的信息的示例包括传记信息、人口统计信息和其它类型的描述性信息(例如工作经验、教育历史、性别、爱好或偏好、以及位置等)。用户资料还可以存储由用户提供的其它信息，例如图像或视频。在某些示例中，用户的图像可以用对图像中所显示的在线系统用户进行标识的信息来标记，其中对用户被标记了的图像进行标识的信息被存储在该用户的用户资料中。用户资料存储库205中的用户资料还可以维护对对应用户对内容存储库210中的内容项执行的、并被存储在动作日志220中的动作的引用。

用户资料包括由声音合成训练模块250训练的一个或多个声音合成模型260。使用对应于用户的语音数据来训练用户的声音合成模型260。例如，通过存储用户语音的记录、或者通过从用户提供的视频文件或音频文件中提取包含用户语音的音频，来收集语音数据。在一些示例中，声音合成训练模块250使用生成对抗网络(generative adversarialnetwork，GAN)来为用户生成一个或多个声音合成模型260。例如，声音合成训练模块250生成鉴别器模型，该鉴别器模型对音频流进行评估以将该音频流分类为包含用户的声音。然后，鉴别器模型被用于评估声音合成模型的输出。

在一些示例中，声音合成模型260包括对应于各种情绪的不同声音合成模型。例如，用户资料包括对应于快乐情绪的第一声音合成模型、对应于悲伤情绪的第二声音合成模型、对应于害怕情绪的第三声音合成模型、以及对应于愤怒情绪的第四声音合成模型等。

在一些示例中，声音合成模型260包括制作模型和编辑模型。制作模型用于生成用于向在线系统的其他用户呈现的基于声音的内容项。编辑模型用于生成用于向提供基于声音的内容项的用户呈现的基于声音的内容项。编辑模型被生成以模仿用户感知他或她自己的声音，而制作模型被生成以模仿其他人感知该用户的声音。在一些示例中，基于制作模型来生成编辑模型。例如，通过改变制作模型的音调来生成编辑模型。

用户资料还可以包括用于训练多个声音模型中的每个声音合成模型的一组声音样本270。样本可以由用户提供给在线系统。例如，作为训练过程的一部分，在线系统可以提示用户(例如，使用嵌入在客户端设备中的传声器)记录说出了一组预设短语的一组音频片段。替代地，在线系统存储来自用户的语音通话或视频通话的声音样本。用户可以向在线系统提供对存储声音样本的明确许可，以允许在线系统生成声音合成模型。

在一些示例中，每个声音样本270与情绪标签相关联。可以由用户提供这些声音样本270中的每个声音样本的情绪标签。也就是说，用户可以在向在线系统提供声音样本时，附加地指定与所提供的声音样本相对应的情绪。替代地，可以由经训练的情绪检测模型来确定情绪标签。在线系统分析声音样本270，并确定指示声音样本对应于特定情绪的可能性的分数。然后，在线系统可以基于所确定的分数将声音样本与情绪标签相关联。

尽管用户资料存储库205中的用户资料经常与多个个体相关联，从而允许这些个体经由在线系统140彼此交互，但是用户资料也可以被存储用于实体(例如企业或组织)。这允许实体在在线系统140上建立存在感，以用于与其他在线系统用户连接和交换内容。该实体可以使用与该实体的用户资料相关联的品牌页面，来向在线系统140的用户发布关于其自身、关于其产品的信息或提供其它信息。在线系统140的其他用户可以连接到该品牌页面以接收发布到该品牌页面的信息或接收来自该品牌页面的信息。与品牌页面相关联的用户资料可以包括关于实体自身的信息，从而向用户提供关于实体的背景或信息数据。

内容存储库210存储各自表示各种类型的内容的多个对象。由对象表示的内容的示例包括页面帖子、状态更新、照片、视频、链接、共享内容项、游戏应用成就、本地企业的登记事件、品牌页面或任何其它类型的内容。在线系统用户可以创建由内容存储库210存储的对象，例如状态更新、由用户标记以与在线系统140中的其它对象相关联的照片、事件、群组或应用。在一些示例中，对象是从第三方应用或与在线系统140分开的第三方应用接收的。在一个示例中，内容存储库210中的对象表示内容的单个片段或内容“项”。因此，鼓励各在线系统用户通过经由各种通信通道向在线系统140发布各种类型的媒体的文本和内容项来彼此通信。这增加了各用户彼此之间的交互量，并增加了各用户在在线系统140中交互的频率。

内容存储库210中所包括的一个或多个内容项包括用于向用户呈现的内容和出价额(bid amount)。该内容是文本、图像、音频、视频或向用户呈现的任何其它合适的数据。在各种示例中，内容还指定内容页。例如，内容项包括如下着陆页：该着陆页指定当内容项被访问时用户被导向的内容页的网络地址。如果内容项中的内容被呈现给用户、如果内容项中的内容在呈现时接收到用户交互、或者如果任何合适的条件在内容项中的内容被呈现给用户时得以满足，则投标金额被用户包括在内容项中、且用于确定由广告商向在线系统140提供的预期值(例如货币补偿)。例如，如果内容项中的内容被显示，则包括在内容项中的投标金额指定在线系统140从向在线系统140提供内容项的用户接收的货币量。在一些示例中，可以通过将出价额乘以用户访问内容项的内容的概率来确定向在线系统140呈现来自内容项的内容的期望值。

在各个示例中，内容项包括能够由在线系统140识别和检索的各种组成。内容项的示例组成包括：标题、文本数据、图像数据、音频数据、视频数据、着陆页、与内容项相关联的用户或任何其它合适的信息。在一些示例中，在线系统140可以检索内容项的一个或多个特定组成以供呈现。例如，在线系统140可以从内容项识别标题和图像，并提供该标题和该图像以供呈现而不是提供整个内容项。

各个内容项可以包括这样的目标：该目标标识与内容项相关联的用户在被呈现有内容项中包括的内容时希望其他用户执行的交互。示例目标包括：安装与内容项相关联的应用，指示对内容项的偏好，与其他用户共享内容项，与关联于内容项的对象交互，或执行任何其它合适的交互。当来自内容项的内容被呈现给在线系统用户时，在线系统140记录被呈现有该内容项或被呈现有与该内容项相关联的对象的各用户之间的交互。另外，当在线系统用户执行与内容项的满足包括在内容项中的目标的交互时，在线系统140接收来自与内容项相关联的用户的补偿。

另外，内容项可以包括由向在线系统140提供内容项的用户指定的一个或多个定向标准。包括在内容项请求中的定向标准指定有资格被呈现有内容项的用户的一个或多个特征。例如，定向标准用于识别具有满足至少一个定向标准的用户资料信息、边缘或动作的用户。因此，定向标准允许用户识别具有特定特征的用户，从而简化了向不同用户进行的对内容的后续分发。

在一个示例中，定向标准可以指定用户与在线系统140的另一用户或对象之间的动作或连接类型。定向标准还可以指定用户与对象之间的、在在线系统140外部(例如在第三方系统130上)执行的交互。例如，定向标准识别已经采取特定动作的用户，该特定动作例如为向另一用户发了消息、使用了应用、加入了群组、离开了群组、加入了活动、生成了活动描述、使用在线市场购买或查看了产品或服务、从第三方系统130请求了信息、安装了应用或执行了任何其它合适的动作。将动作包括在定向标准中允许用户进一步细化有资格被呈现有内容项的用户。作为另一示例，定向标准识别具有到另一用户或对象的连接、或者具有到另一用户或对象的特定类型的连接的用户。

声音内容项生成器240生成待被存储在内容存储库210中的内容项。声音内容项生成器240通过使用经声音合成训练模块250训练的声音合成模型生成音频流，来生成基于声音的内容项。声音内容项生成器240接收内容项的脚本，并基于所接收到的脚本生成音频流。该脚本包括待被合成到音频流中的文本，并且还可以包括用于指示声音合成模型如何生成音频流的配置参数或元数据。例如，元数据包括所生成的语音的情绪或所生成的语音的节奏。在一些示例中，元数据的至少一部分用于从对应于用户的一组声音合成模型中选择声音合成模型。例如，该一组声音合成模型包括用于一组情绪的不同模型。基于包括在脚本中的情绪元数据，声音内容项生成器240从用户的该一组声音合成模型中选择对应于情绪元数据的声音合成模型。

声音内容项生成器240提供预制作的图形用户界面(graphical user interface，GUI)以允许用户编写基于声音的内容项的脚本。预制作的GUI可以包括用于提供脚本的文本的第一字段(例如，文本框)、用于从可用情绪的列表中选择情绪的第二字段(例如，下拉菜单)。在一些示例中，声音内容项生成器240生成脚本，并且可选地对用户提供的脚本或信息执行预处理。例如，声音内容项生成器240对文本进行规范化，并将文本转换成一系列音素以用于生成音频流。此外，声音内容项生成器可以确定引入停顿的位置，或者可以确定用于这些音素的一组音调变化以用于生成音频流。

声音内容项生成器240提供后制作的GUI，以允许用户修改由声音合成模块生成的音频流或由声音内容项生成器240生成的基于声音的内容项。在一些示例中，后制作的GUI向用户呈现所生成的音频流，并提供用于指示如何修改音频流的工具。例如，后制作的GUI允许用户指示哪些词语是错误地合成的。基于来自用户的输入，声音合成模型可以重新合成音频流。此外，后制作的GUI可以提供允许用户将其它声音添加到音频流的工具。例如，所述工具允许用户将背景音乐或音效添加到由声音合成模型生成的音频流。

基于所生成的音频流，声音内容项生成器240生成新的内容项。该内容项可以包括标题、与该内容项相关联的用户的指示以及所生成的音频流。内容项还可以包括音频流的转录本。该内容项被存储在内容存储库210中并且被提供给在线系统140的其他用户。

动作日志记录器215接收关于在线系统140内部和/或在线系统140外部的用户动作的通信，以利用关于用户动作的信息来填充动作日志220。动作的示例包括：将连接添加到另一用户，向另一用户发送消息，上传图像，读取来自另一用户的消息，查看与另一用户相关联的内容，以及参加由另一用户发布的活动。另外，由于多个动作可以涉及一个对象以及一个或多个特定用户，因此这些动作也与特定用户相关联并且被存储在动作日志220中。

动作日志220可以被在线系统140用来追踪在线系统140上的用户动作，以及在向在线系统140传送信息的第三方系统130上的动作。用户可以与在线系统140上的各个对象交互，并且描述这些交互的信息被存储在动作日志220中。与对象的交互的示例包括：对帖子进行评论，分享链接，经由客户端设备110登记到物理位置，访问内容项以及任何其它合适的交互。被包括在动作日志220中的、与在线系统140上的对象的交互的附加示例包括：对相册进行评论，与用户通信，与对象建立连接，加入活动，加入群组，创建活动，授权应用，使用应用，表达对对象的偏好(“喜欢”对象)，以及参与交易。另外，动作日志220可以记录用户与在线系统140上的广告以及与在线系统140上运行的其它应用的交互。在一些示例中，来自动作日志220的数据用于推断用户的兴趣或偏好、增加用户的用户资料中所包括的兴趣并允许更完整地理解用户偏好。

动作日志220还可以存储在第三方系统130(例如，外部网站)上采取的、并被传送到在线系统140的用户动作。例如，电子商务网站可以通过使该电子商务网站能够识别在线系统140的用户的社交插件，来识别在线系统140的用户。由于在线系统140的用户是唯一可识别的，因此(例如在前面的示例中的)电子商务网站可以将关于用户在在线系统140外部的动作的信息传送给在线系统140以与用户相关联。因此，动作日志220可以记录关于用户在第三方系统130上执行的动作的信息，包括网页查看历史、所参与的广告、进行的购买以及根据购物和购买的其它模式。另外，用户经由应用(该应用与第三方系统130相关联并在客户端设备110上执行)执行的动作可以被该应用传送给动作日志记录器215，以用于在动作日志220中记录并与用户相关联。

在一个示例中，边存储库225将描述用户与在线系统140上的其它对象之间的连接的信息存储为边。有些边可以由用户限定，从而允许用户指定他们与其他用户的关系。例如，用户可以生成与其他用户的边，所述与其他用户的边与用户现实生活关系(例如朋友、同事、和合作伙伴等)相似。当用户与在线系统140中的对象交互(例如对在线系统140上的页面表现出兴趣、与在线系统140的其他用户共享链接以及评论由在线系统140的其他用户制作的帖子)时生成其它边。边可以连接作为社交网络中的联系人的两个用户，或者可以将用户与系统中的对象连接。在一个示例中，节点和边形成多个连接的复杂社交网络，所述多个连接的复杂社交网络指示多个用户如何相互关联或连接到彼此(例如，一个用户接受了来自另一用户的、用于成为社交网络中的联系人的朋友请求)以及用户由于该用户以某种方式与对象交互(例如，“喜欢”页面对象、加入活动对象或组对象等)而如何连接到对象。多个对象还可以基于相关联的对象或在它们之间具有某种交互的对象而连接到彼此。

边可以包括各种特征，该各种特征各自表示用户之间的交互的特性、用户与对象之间的交互的特性或者对象之间的交互的特性。例如，包括在边中的特征描述了两个用户之间的交互率、两个用户最近如何彼此交互、一个用户检索到的关于对象的信息的比例或数量、或者用户发布的关于对象的评论的数量和类型。这些特征还可以表示描述特定对象或用户的信息。例如，特征可以表示用户对特定话题的兴趣水平、用户登录到在线系统140的速率、或者描述关于用户的人口统计信息的信息。每个特征可以与源对象或用户、目标对象或用户以及特征值相关联。特征可以被指定为基于如下值的表示：所述值描述源对象或用户、目标对象或用户、或者源对象或用户与目标对象或用户之间的交互；因此，边可以被表示为一个或多个特征表达。

边存储库225还存储关于边的信息，例如对象、兴趣和其他用户的亲和度分数。亲和度分数或“亲和度”可以由在线系统140随时间计算，以基于用户所执行的动作来近似估计用户对在线系统140中的对象或另一用户的兴趣。用户的亲和度可以由在线系统140随时间计算，以基于用户所执行的动作来近似估计用户对在线系统140中的对象、话题或另一用户的兴趣。亲和度的计算在以下专利申请中进行了进一步描述：于2010年12月23日提交的、申请号为12/978,265的美国专利申请，于2012年11月30日提交的、申请号为13/690,254的美国专利申请，于2012年11月30日提交的、申请号为13/689,969的美国专利申请，以及于2012年11月30日提交的、申请号为13/690,088的美国专利申请。在一个示例中，用户与特定对象之间的多个交互可以作为单个边存储在边存储库225中。替代地，用户与特定对象之间的每次交互被存储为单独的边。在一些示例中，用户之间的连接可以被存储在用户资料存储库205中，或者用户资料存储库205可以访问边存储库225以确定用户之间的连接。

网页服务器290经由网络120将在线系统140链接到一个或多个客户端设备110，以及链接到一个或多个第三方系统130。网页服务器290提供网页以及其它内容，例如和XML等。网页服务器290可以在在线系统140与客户端设备110之间接收和路由消息(例如，即时消息、队列消息(例如，电子邮件)、文本消息、短消息服务(short messageservice，SMS)消息或使用任何其它合适的消息收发技术发送的消息)。用户可以向网页服务器290发送用于上传存储在内容存储库210中的信息(例如，图像或视频)的请求。另外，网页服务器290可以提供应用编程接口(API)功能，以将数据直接发送到本地客户端设备操作系统，例如/>ANDROID^TM或黑莓OS(BlackberryOS)。

基于声音的内容项生成

图3示出了用于为基于音频的社交网络系统生成内容项的过程的流程图。在线系统140(例如，社交网络系统)为在线系统的用户训练310一个或多个声音合成模型。声音合成模型与用户的用户资料一起存储。此外，声音合成模型被训练为生成模仿用户的声音的音频文件。多个声音合成模型中的每个声音合成模型可以模仿用户在不同情绪下的声音。例如，第一声音合成模型模仿用户在快乐情绪下的声音，第二声音合成模型模仿用户在悲伤情绪下的声音，并且第三声音合成模型模仿用户在愤怒情绪下的声音。

声音内容项生成器240接收320新的基于声音的内容项的脚本。该脚本可以基于用户通过由在线系统140提供的图形用户界面而提供的文本来生成。该脚本还可以包括对新的基于声音的内容项的情绪的指示。在一些示例中，该脚本包括诸如节奏或速度等附加参数、一个或多个停顿的位置和持续时间等。在一些示例中，声音内容项生成器240或在线系统140的另一部件基于用户通过由在线系统140提供的图形用户界面而提供的信息，来生成新的基于声音的内容项的脚本。

声音内容项生成器240检索330用户的声音合成模型。可以从用户的用户资料中检索该声音合成模型。在一些示例中，该声音合成模型是基于包括在脚本中的一个或多个参数而从与用户相关联的一组声音合成模型中选择的。例如，该声音合成模型是基于在脚本中指定的情绪来选择的。在一些示例中，如果该声音合成模型对于特定情绪不可用，则选择用户的默认声音合成模型。另外，如果用户不具有与用户资料相关联的任何声音合成模型，则可以使用通用声音合成模型。例如，声音内容项生成器240允许用户从一组可用的通用声音合成模型中选择通用声音合成模型。

声音内容项生成器240使用所检索到的声音合成模型来生成音频流。具体地，声音内容项生成器240向声音合成模型提供脚本，并使该声音合成模型基于该脚本的内容生成音频流。在一些示例中，声音内容项生成器240在向声音合成模型提供脚本之前对该脚本执行预制作步骤。例如，声音内容项生成器240将包括在脚本中的文本转换为音素流。然后，声音合成模型通过合成用户声音中的音素流来生成音频流。

在一些示例中，该音素流是使用经训练的翻译模型来生成的。该经训练的翻译模型可以是使用用户的声音样本以及可选的这些声音样本的转录本来训练的。该经训练的翻译模型可以生成如下音素流：该音素流特定于用户如何对脚本中的每个词语进行发音。

在一些示例中，所生成的音频流被呈现给用户以允许用户编辑该音频流。例如，用户可以指示音频流中没有被正确合成的位置(例如，包含错误发音的词语的位置)。用户还可以提供关于如何修复音频流或在音频流的合成中改变什么内容的指令。声音合成模型基于从用户接收到的指令来重新合成音频流。

在一些示例中，声音内容项生成器240对所生成的音频流执行后制作步骤。例如，在线系统140允许用户改变所生成的音频流中短语的一个或多个词语的语调或发音、添加或移除所生成的音频流中的停顿、或者改变所生成的音频流的一个或多个片段的节奏。另外，在线系统140允许用户向所生成的音频流添加背景声音(例如背景音乐)或音效。

一旦用户核准了音频流，声音内容项生成器240就生成350新的基于声音的内容项，并将该新的内容项存储360在内容存储库210中。例如，声音内容项生成器240编写这样的新的内容项：该内容项具有标题、图像、所生成的音频流和音频流的转录本。在一些示例中，在线系统140向用户提供图形用户界面以允许用户编写新的内容项。

所存储的内容项被呈现给在线系统140的其他用户。在一些示例中，在线系统140允许用户与内容项交互(例如，提供对内容项的评论或提供对内容项的回应)。在一些示例中，观看用户可以对基于音频的内容项提供基于文本的评论或回复。在线系统可以允许提供了基于文本的评论或回复的观看用户或提供了基于音频的内容项的用户，基于以下项来生成基于音频的评论或回复：基于文本的评论或回复、以及观看用户的声音合成模型。

图4A示出了用于生成声音合成模型的过程的流程图。声音合成训练模块250接收410用户的一组声音样本。该一组声音样本中的每个声音样本包括用户语音的声音记录。在一些示例中，声音合成训练模块250还接收420用于所接收到的该一组声音样本中的每个声音样本的标签。例如，每个声音样本的标签包括与包括在声音样本中的用户语音相对应的用户情绪的指示。在一些示例中，标签由提供声音样本的用户提供。替代地，声音合成训练模块250应用情绪识别模型以识别包括在声音样本中的语音的情绪，并据此给该声音样本打标签。用于识别情绪的情绪识别模型是使用与在线系统的其他用户相对应的声音样本来训练的。

声音合成训练模块250基于该一组声音样本，训练430一个或多个声音合成模型260。在一些示例中，声音合成训练模块250为一组情绪中的每个情绪训练不同的声音合成模型。在一些示例中，声音合成训练模块250使用生成对抗网络(GAN)来生成这些声音合成模型中的每个声音合成模型。GAN使用鉴别器模型，该鉴别器模型确定音频流是对应于用户的声音记录、还是对应于由声音合成模型生成的合成音频流。在一些示例中，声音合成训练模块250为每个用户生成一个或多个鉴别器模型。替代地，声音合成训练模块250使用全局鉴别器模型，该全局鉴别器模型是使用多个用户的声音样本和合成音频流而被训练的。

图4B示出了对声音合成模型的生成的框图。声音合成训练模块250使用迭代过程来改进声音合成模型260和鉴别器模型460。也就是说，声音合成训练模块250使用声音合成模型260来生成一组测试音频流470，并将该一组测试音频流提供给鉴别器模型460。对于该一组测试音频流中的每个测试音频流470，鉴别器模型460确定音频分类480，该音频分类指示对测试音频流是合成音频流还是声音记录的预测。声音合成训练模块250基于由鉴别器模型确定的音频分类480，修改声音合成模型260和鉴别器模型460。

在线系统140将经训练的声音合成模型260存储440在用户的用户资料中。在一些示例中，在线系统140允许用户在声音合成训练模块250已经完成训练过程之后调整声音合成模型。例如，在线允许用户改变由声音合成模型生成的音频的节奏、音调或语调。此外，在一些示例中，在线系统140将鉴别器模型460存储在用户的用户资料中。

结论

已经出于说明的目的而呈现了各示例的前述描述；前述描述不旨在是详尽的、或者不旨在将专利权限制为所公开的精确形式。相关领域的技术人员可以理解的是，考虑到上述公开内容，许多修改和变型是可能的。

本说明书的一些部分描述了涉及对信息的操作的算法表示和符号表示的多个示例。这些算法描述和表示由数据处理领域的技术人员普遍使用以向本领域其他技术人员高效地传达其工作的实质内容。尽管在功能上、计算上或逻辑上对这些操作进行了描述，但是这些操作被理解为由计算机程序或等效电路、或者微代码等实现。此外，在不失一般性的情况下，有时将这些操作的布置称为模块也被证明是方便的。所描述的操作及其相关联的模块可以体现在软件、固件、硬件或它们的任何组合中。

本文所描述的任何步骤、操作或过程可以用一个或多个硬件或软件模块单独地执行或实现，或者与其它设备组合地执行或实现。在一个示例中，软件模块用包括计算机可读介质的计算机程序产品来实现，该计算机可读介质包含计算机程序代码，所述计算机程序代码可以被计算机处理器执行以用于执行所描述的步骤、操作或过程中的任何或全部。

各实施例还可以涉及一种用于执行本文中的操作的装置。此装置可以出于所需目的而专门构造，和/或此装置可以包括通用计算设备，该通用计算设备由存储在计算机中的计算机程序选择性地激活或重新配置。这样的计算机程序可以被存储在非暂态的有形计算机可读存储介质中、或适合于存储电子指令的任何类型的介质中，上述介质可以耦接到计算机系统总线。此外，在本说明书中提及的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以用于增加的计算能力的架构。

各实施例还可以涉及一种由本文所描述的计算过程产生的产品。这样的产品可以包括从以下计算过程中得到的信息，在该计算过程中，所述信息被存储在非暂态的有形计算机可读存储介质上、并且可以包括本文所描述的计算机程序产品或其它数据组合的任何实施例。

最后，在本说明书中所使用的用语主要是出于可读性和指导性目的而选择的，并且该用语可以不是为了界定或限定专利权而选择的。因此，其旨在专利权的范围不受本具体实施方式的限制，而是受基于本文的申请上公布的任何权利要求的限制。因此，各示例的公开内容旨在对专利权的范围进行说明而非限制，该专利权的范围在以下权利要求中进行了阐述。

Claims

1.一种方法，包括：

接收来自在线系统的发布用户的客户端设备的基于声音的内容项的脚本；

检索存储在所述发布用户的用户资料中的声音合成模型，所述声音合成模型至少基于所述发布用户的多个声音样本而被训练；

使用所检索到的所述声音合成模型并基于所接收到的所述脚本来生成合成音频流；

向所述发布用户呈现所生成的所述合成音频流；

接收用于修改所述合成音频流的指令；

基于所接收到的所述指令生成第二音频流；

基于所生成的所述第二音频流编写所述基于声音的内容项；以及

向所述在线系统的观看用户呈现所述基于声音的内容项。

2.根据权利要求1所述的方法，其中，所述脚本包括对所述基于声音的内容项的情绪的指示，并且其中，检索所述声音合成模型包括：

从存储在所述发布用户的所述用户资料中的一组声音合成模型中选择所述声音合成模型，对所述声音合成模型的选择是基于所述基于声音的内容项的情绪的。

3.根据权利要求1或2所述的方法，其中，生成所述第二音频流包括：检索存储在所述发布用户的所述用户资料中的第二声音合成模型；以及

使用所检索到的所述第二声音合成模型并基于所接收到的所述脚本和所接收到的用于修改所述合成音频的所述指令，来生成所述第二音频流。

4.根据任一项前述权利要求所述的方法，还包括：

接收所述发布用户的所述多个声音样本；

使用所述发布用户的所述多个声音样本生成所述声音合成模型；

使用所述发布用户的所述多个声音样本生成鉴别器模型，所述鉴别器模型用于确定音频流是否包括所述发布用户的声音记录；

使用所述声音合成模型生成测试音频流；

使用所述鉴别器模型确定所述测试音频流的分类；以及

基于所确定的所述测试音频流的所述分类来改进所述声音合成模型和所述鉴别器模型。

5.根据权利要求4所述的方法，还包括：

将所述声音合成模型存储在所述发布用户的所述用户资料中。

6.根据任一项前述权利要求所述的方法，其中，用于修改所述合成音频流的所述指令包括以下中的至少一者：用于改变所生成的所述合成音频流中的一个或多个词语或短语的语调或发音的指令，用于在所生成的所述音频流中添加停顿的指令，用于移除所生成的所述合成音频流中的停顿的指令，用于改变所生成的所述合成音频流的至少一部分的节奏的指令，以及用于向所生成的所述合成音频流添加音效的指令。

7.根据任一项前述权利要求所述的方法，还包括：

基于所接收到的所述脚本生成音素流，

其中，所述合成音频流是基于所生成的所述音素流、通过使用所检索到的所述声音合成模型而生成的。

8.根据权利要求7所述的方法，还包括：

向所述发布用户呈现所述音素流；以及

接收来自所述发布用户的所述客户端设备的经修改的音素流，

其中，所述合成音频流是基于所接收到的所述经修改的音素流、通过使用所检索到的所述声音合成模型而生成的。

9.一种计算机可读存储介质，包括指令，所述指令在被计算机执行时使得所述计算机执行如任一项前述权利要求所述的方法。

10.一种系统，包括：

用户资料存储库，所述用户资料存储库被配置为存储在线系统的每个用户的用户资料，每个用户资料包括至少基于所述用户的多个声音样本而训练的一组声音合成模型；以及

基于声音的内容项生成器，所述基于声音的内容项生成器被配置为执行根据权利要求1至8中任一项所述的方法。

11.一种计算机程序，包括指令，所述指令在所述程序被计算机执行时使所述计算机执行如权利要求1至8中任一项所述的方法。