CN112334973A

CN112334973A - 用于创建基于对象的音频内容的方法和系统

Info

Publication number: CN112334973A
Application number: CN201980043489.1A
Authority: CN
Inventors: T·希尔沃宁; D·阿特亚加; E·阿隆普拉; A·卡伯曼宁; 芦烈; K·J·罗登
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2018-07-19
Filing date: 2019-07-17
Publication date: 2021-02-05
Anticipated expiration: 2039-07-17
Also published as: KR20210019534A; JP2021530726A; JP7252266B2; CN112334973B; EP3824461B1; EP3824461A1; KR102493141B1; WO2020018724A1

Abstract

本文描述了一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法，该方法包括以下步骤：a)接收文本输入；b)对接收到的文本输入执行语义分析；c)基于语义分析的一个或多个结果合成语音和效果以生成一个或多个音频对象；d)生成针对一个或多个音频对象的元数据；以及e)创建包括一个或多个音频对象和元数据的基于对象的音频内容。本文进一步描述了：一种基于计算机的系统，该基于计算机的系统包括一个或多个处理器，该一个或多个处理器被配置为执行所述方法；以及一种计算机程序产品，该计算机程序产品包括具有指令的计算机可读存储介质，该指令被适配成当由具有处理能力的设备执行时执行所述方法。

Description

用于创建基于对象的音频内容的方法和系统

相关申请的交叉引用

本申请要求于2018年7月19日提交的西班牙专利申请号P201830728、于2018年9月27日提交的美国临时专利申请号62/737,330以及于2018年10月19日提交的欧洲专利申请号18201444.9的优先权的权益，所述专利申请通过引用以其全文并入本文。

技术领域

本公开总体涉及一种基于文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法，并且更具体地涉及基于对文本输入的更深入的语义分析来创建基于对象的音频内容。

尽管本文将特别参考该公开内容来描述一些实施例，但是应当理解，本公开不限于这种使用领域，并且可应用于更广泛的背景下。

背景技术

在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。

如今，有声读物和音频播放提供超越仅书面单词的文学体验。进行文本到语音的转换以在有声读物和音频播放中回放是公认的，并且经历持续发展。使合成的语音听起来更自然并且更具情感仅是要实现的一个目标。

US 2017/0169811 A1公开了例如一种用于对诸如文学作品的文本作品执行文本到语音(TTS)处理的系统和方法。这些作品的文本被处理，并且确定与章节、段落、句子、单词、对话部分以及其他上下文的部分中的一个或多个相对应的偏移。使用这些偏移进一步确定一次使用TTS处理要处理作品的哪个部分以及作品中的多少内容，以产生高质量的音频输出。然后，可以将该音频输出发送到用户设备并在所述设备上播放。

US 2016/0093289 A1公开了例如用于执行多风格语音合成的技术。这些技术包括：获得包括文本的输入以及对在将文本渲染为语音时使用的第一说话风格的识别。进一步识别在将文本渲染为语音时使用的多个语音段，所识别出的多个语音段包括具有第一说话风格的第一语音段和具有不同于第一说话风格的第二说话风格的第二语音段。然后，通过使用所识别出的多个语音段，至少部分地将文本渲染为具有第一说话风格的语音。

除了使合成的语音听起来更自然并且更具情感之外，还已经尝试了创建对情感的甚至更深入的体验，以改善用户的收听体验。

EP 3 276 623 A1公开了例如一种自动生成旨在与相关联的文本的读取同步回放的数字声带的方法。该方法包括在段水平上对文本进行句法和/或语义分析，以在连续情感模型的上下文中为每个文本段生成情感简档。然后，为被选择进行回放的文本区域生成相应的声带。

传统地，音频内容是以基于通道的格式创建和存储的。如本文所使用的，术语“音频通道”或“通道”是指通常具有预定义的物理位置的音频内容。例如，立体声、5.1环绕声、7.1环绕声等都是针对音频内容的基于通道的格式。近来，随着多媒体行业的发展，尤其是在电影院和家庭中三维(3D)音频内容越来越受欢迎。

如本文所使用的，术语“音频对象”是指在声场中存在限定持续时间的单个音频元素。音频对象可以是动态的或静态的。可选地，音频对象可以具有相关联的元数据，例如描述对象的位置、速度和大小的空间信息。已经开发了基于对象的音频内容以提供改善的3D收听体验。声音设计师和艺术家在3D空间中自由混合音频，从而通过环绕通道来操纵效果并利用高度通道来增加无缝头顶维度。

尽管已经广泛地应用于家庭影院和电影院的领域中，但是将期望的是，也为收听有声读物和/或音频播放的用户提供基于对象的音频内容的益处。因此，目标是提供一种用于在用户收听有声读物或音频播放时为用户提供沉浸式收听体验的方法、系统和计算机程序产品。

发明内容

根据本公开的第一方面，提供了一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法。该方法可以包括以下步骤：a)接收文本输入。该方法可以进一步包括以下步骤：b)对接收到的文本输入执行语义分析。该方法可以进一步包括以下步骤：c)基于语义分析的一个或多个结果合成语音和效果以生成一个或多个音频对象。该方法可以进一步包括以下步骤：d)生成针对一个或多个音频对象的元数据。并且，该方法可以进一步包括以下步骤：e)创建包括一个或多个音频对象和元数据的基于对象的音频内容。

在一个实施例中，该方法可以进一步包括以下步骤：bi)识别语音和效果的一个或多个起源，作为语义分析的一个或多个结果。通过识别语音和效果的一个或多个起源，可以关于语音和效果的一个或多个起源生成一个或多个音频对象。

在一个实施例中，该方法可以进一步包括以下步骤：bii)确定语音信息和效果信息，作为语义分析的一个或多个结果。语音信息和效果信息可用于引导对语音和效果的合成。如果识别出语音和效果的一个或多个起源，则可以关于语音和效果的一个或多个起源确定语音信息和效果信息。

在一个实施例中，该方法可以进一步包括以下步骤：biii)确定空间信息，作为语义分析的一个或多个结果。通过确定空间信息，可以基于空间信息生成元数据。如果识别出语音和效果的一个或多个起源，则可以关于语音和效果的一个或多个起源确定空间信息。

例如，在一个实施例中，用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法可以包括接收文本输入的步骤。该方法可以进一步包括对接收到的文本输入执行语义分析的步骤。该方法可以进一步包括基于语义分析识别语音和效果的一个或多个起源的步骤。该方法可以进一步包括基于语义分析确定语音信息和效果信息的步骤。该方法可以进一步包括基于语义分析确定一个或多个起源的空间信息的步骤。该方法可以进一步包括基于语音信息和效果信息合成语音和效果，以生成与语音和效果的一个或多个起源相关的一个或多个音频对象的步骤。该方法可以进一步包括基于空间信息生成针对一个或多个音频对象的元数据的步骤。该方法还可以进一步包括创建包括一个或多个音频对象和元数据的基于对象的音频内容的步骤。

在一个实施例中，该方法可以进一步包括以下步骤：ai)使接收到的文本输入标准化。通过执行标准化，可以例如通过将数字、缩写和/或符号转换为它们的书面单词的等效物来将接收到的文本输入转换为标准文本。相应地，在步骤b)中可以更高效地分析标准文本。

在一个实施例中，该方法可以进一步包括以下步骤：aii)对接收到的文本输入执行句法分析。通过执行句法分析，可以获得接收到的文本输入的结构。相应地，对文本结构的了解可以允许对接收到的文本输入进行更高效的分割，从而进行更高效的语义分析。

在一个实施例中，语义分析可以包括对接收到的文本输入进行分割。通过应用分割，可以将接收到的文本输入分成期望大小的段，例如单词、句子或段落。相应地，在语义分析中，可以单独分析每个段，也允许通过分析一个或多个相邻段来确定上下文。

在一个实施例中，语义分析可以包括情绪分析。情绪分析可以基于规则。情绪分析也可以由关键字引导。相应地，语义分析的一个或多个结果可以因此通过分析接收到的文本输入的深层含义而以高效且精确的方式来确定。

在一个实施例中，语义分析可以包括利用机器学习(例如，深度学习)的自然语言处理。相应地，可以因此实现对接收到的文本输入的深层含义的甚至更深入的理解。

在一个实施例中，语音和效果的起源可以包括演员、旁白员、物品和环境中的一个或多个。

在一个实施例中，语音信息可以包括关于一个或多个演员的姓名、性别、特性中的一个或多个以及一个或多个演员的背景的信息。

在一个实施例中，可以使用文本到语音合成来合成语音。文本到语音合成可以包括单元选择语音合成。

在一个实施例中，语音合成可以包括对风格、韵律和话音中的一个或多个的合成。

在一个实施例中，语音合成可以包括对情感语音的合成。

在一个实施例中，语音信息可以进一步包括情感信息作为语义分析的一个或多个结果。情感信息可以用于引导对情感语音的合成。情感信息可以至少包括关于快乐、悲伤、愤怒和中立的信息。

在一个实施例中，效果信息可以包括关于噪声、音乐、环境声音和物品特定声音中的一个或多个的信息。

在一个实施例中，空间信息可以包括关于行进的方向、速度、大小、形状、位置、连贯性和/或加速度中的一个或多个的信息。相应地，空间信息可以使得能够在有声读物或音频播放的回放期间向用户提供沉浸式收听体验。

在一个实施例中，该方法可以进一步包括引入另外的录音和/或效果。

在一个实施例中，该方法可以进一步包括以下步骤：f)对基于对象的音频内容进行编码。

根据本公开的第二方面，提供了一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法。该方法可以包括以下步骤：a)接收文本输入。该方法可以进一步包括以下步骤：b)对接收到的文本输入执行语义分析。该方法可以进一步包括以下步骤：c)基于语义分析的一个或多个结果合成语音和效果以生成一个或多个音频对象。该方法可以进一步包括以下步骤：d)生成针对一个或多个音频对象的元数据。该方法可以进一步包括以下步骤：e)创建包括一个或多个音频对象和元数据的基于对象的音频内容。并且，该方法可以进一步包括以下步骤：f)将基于对象的音频内容渲染为基于通道的格式。

在一个实施例中，该方法可以进一步包括以下步骤：bi)识别语音和效果的一个或多个起源，作为语义分析的一个或多个结果。

在一个实施例中，该方法可以进一步包括以下步骤：bii)确定语音信息和效果信息，作为语义分析的一个或多个结果。

在一个实施例中，该方法可以进一步包括以下步骤：biii)确定空间信息，作为语义分析的一个或多个结果。

在一个实施例中，基于通道的格式可以包括5.1、7.1、7.1.4、B格式、高保真度立体声响复制、立体声和双耳。

在一个实施例中，该方法可以进一步包括以下步骤：ai)使接收到的文本输入标准化。

在一个实施例中，该方法可以进一步包括以下步骤：aii)对接收到的文本输入执行句法分析。

根据本公开的另一方面，提供了一种基于计算机的系统，该基于计算机的系统包括一个或多个处理器，该一个或多个处理器被配置为执行用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法。

在一个实施例中，基于计算机的系统可以包括用户界面以有助于对文本输入的选择。

根据本公开的又一方面，提供了一种计算机程序产品，该计算机程序产品包括具有指令的计算机可读存储介质，该指令被适配成当由具有处理能力的设备执行时执行用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法。

附图说明

现在将参考附图仅通过举例来描述本公开的示例实施例，在附图中：

图1图示了用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法的示例的流程图。

图2图示了对来自《银河系漫游指南》的节选执行的语义分析的示例。

图3示意性地图示了基于规则的语义分析的示例。

具体实施方式

概述

参照图1的示例，图示了用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法的流程图。在第一步骤(步骤101)中，接收文本输入。文本输入可以以任何可以想到的方式接收，例如从服务器、存储介质接收，或者可以由用户输入。文本输入的格式也不受限制。文本输入可以是标准文本或原始文本。在示例实施例中，如果文本输入是原始文本(即，不是标准文本)，则可以将原始文本标准化。为了生成标准文本，可以将例如数字、缩写和/或符号转换成它们的书面单词的等效物。在示例实施例中，在步骤102中执行语义分析之前，可以对接收到的文本输入进行句法分析。在句法分析中，可以分析包括单词顺序的文本的结构(非深层含义)。

在步骤102中，执行语义分析来分析接收到的文本输入。下面进一步描述细节。在示例实施例中，可以识别语音和效果的起源，作为语义分析的一个或多个结果。在示例实施例中，可替代地或另外地，可以确定语音信息和效果信息，作为语义分析的一个或多个结果。可以关于语音和效果的一个或多个起源确定语音信息和效果信息。在示例实施例中，语音信息可以进一步包括情感信息作为语义分析的一个或多个结果。在另一示例实施例中，可替代地或另外地，可以确定空间信息，作为语义分析的一个或多个结果。可以关于语音和效果的一个或多个起源确定空间信息。尽管根据本公开步骤102中的确定语义分析的一个或多个结果不受限制，但是在示例实施例中，可以确定至少语音和效果的一个或多个起源以及空间信息，作为语义分析的一个或多个结果。

然后在步骤103中，基于语义分析的一个或多个结果来合成语音103a和效果103b，以通过这种方式生成一个或多个音频对象。下面进一步描述细节。在示例实施例中，语音和效果的合成可以分别基于语音信息和效果信息。在示例实施例中，可以关于语音和效果的所识别出的起源中的每个起源生成一个或多个音频对象。例如，可以针对每个起源生成一个音频对象。可替代地或另外地，可以将语音和效果的两个或更多个起源映射到给定的音频对象。在步骤103c中，还生成针对一个或多个音频对象的元数据。在示例实施例中，可以基于空间信息生成元数据。在另一示例实施例中，可以关于语音和效果的所识别出的起源中的每个起源生成元数据。

在步骤104中，创建包括一个或多个音频对象和元数据的基于对象的音频内容。

在示例实施例中，用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法可以包括以下步骤。在第一步骤中，可以接收文本输入。在下一步骤中，可以对接收到的文本输入执行语义分析。在下一步骤中，可以识别语音和效果的一个或多个起源，作为语义分析的一个或多个结果。在下一步骤中，可以确定语音信息和效果信息，作为语义分析的一个或多个结果。在下一步骤中，可以确定针对语音和效果的一个或多个起源的空间信息，作为语义分析的一个或多个结果。在下一步骤中，可以基于语音信息和效果信息合成语音和效果，以生成与语音和效果的一个或多个起源相关的一个或多个音频对象。在下一步骤中，可以基于空间信息针对一个或多个音频对象生成元数据。在下一步骤中，可以创建包括一个或多个音频对象和元数据的基于对象的音频内容。

在另一示例实施例中，语音信息可以包括情感信息，并且然后，语音的合成可以包括基于情感信息对情感语音的合成。

语义分析

在下文中，将更详细地描述在步骤102中执行的语义分析的示例。语义分析旨在确定接收到的文本输入的深层含义。在示例实施例中，可以确定语音和效果的起源，作为语义分析的一个或多个结果。在示例实施例中，可替代地或另外地，可以确定语音信息和效果信息，作为语义分析的一个或多个结果。可以关于语音和效果的一个或多个起源确定语音信息和效果信息。在另一示例实施例中，可替代地或另外地，可以确定空间信息，作为语义分析的一个或多个结果。可以关于语音和效果的一个或多个起源确定空间信息。在示例实施例中，可以确定情感信息，作为语义分析的一个或多个结果。

在示例实施例中，语义分析可以包括对接收到的文本输入进行分割。文本段可以是例如音节、单词或句子、段落、页或章节。在一些示例实施例中，可以在语义分析之前执行句法分析，以允许基于分析出的文本结构来简化对文本的分割。文本段的大小可以适应于要确定的信息的类型。例如，为了确定语音信息或效果信息，可以执行以句子形式的分割。

在示例实施例中，使用语义分析可以在接收到的文本输入中确定语音和效果的起源。在示例实施例中，语音和效果的起源可以包括一个或多个演员、旁白员、物品和环境。用于执行语义分析的方法不受限制。在示例实施例中，可以执行情绪分析。在情绪分析中，可以限定关键字并且可以基于这些关键字来分析文本。

在图2中，借助于来自由道格拉斯·亚当斯(Douglas Adams)创作的于1979年10月12日首次出版的《银河系漫游指南》的节选给出了情绪分析的示例。括号中的单词对应于从相应的文本段(在这种情况下为句子)中提取的关键字，如Y轴上所指示的。关键字可以是用户限定的或从数据库检索的。在后一种情况下，数据库可以基于机器学习来创建。因此，取决于用户的优选种类，可以根据用户的偏好来使关键字数据库个性化。情绪分析的结果以两个曲线图201、202的形式示出。在这种情况下，旁白员201和演员202被识别作为语音的起源。

在示例实施例中，情绪分析可以基于规则。参照图3的示例，示意性地图示了基于规则的分析的结果。结果根据旁白员301和两个演员302、303分类为语音的起源，并根据环境(在这种情况下为雨305和雷304)分类为效果的起源。

在示例实施例中，使用语义分析可以针对所识别出的起源中的每个起源确定语音信息和效果信息。

在示例实施例中，语音信息可以包括关于一个或多个演员的姓名、性别、特性中的一个或多个以及一个或多个演员的背景的信息。在步骤103中，语音信息可用于引导对语音的合成。

在示例实施例中，效果信息可以包括关于噪声、音乐、环境声音和物品特定声音中的一个或多个的信息。在步骤103中，效果信息可用于引导对效果的合成。

为了执行语义分析，可以建立文本段与其深层含义之间的关系。存在可以用于建立这种关系的各种技术。这种技术的示例是形式语义学，其中，句子的真值以及句子与其他句子的逻辑关系是关于模型来评估的。在真值条件语义学中，自然语言句子与对条件的元语言描述相关联，在该条件下该自然语言句子为真。概念语义学的技术假设短语的句法属性反映了在该短语开头的单词的含义。词汇语义学假设单词的含义完全由其上下文反映。

以上技术中的每一个技术都可以用作在步骤102中执行语义分析的基础。然而，本公开不限于应用一般的技术或者特定的以上技术之一。只要可以确定接收到的文本输入的深层含义，步骤102中的语义分析也可以以任何其他可以想到的方式来执行。

再次参照图2的示例，在这种情况下，所确定的语音信息可以例如包括所识别出的演员202的姓名“亚瑟”、性别“男性”，并且还可以包括诸如“坚决”等特性。然而，术语“特性”不仅可以涵盖演员的个体本质，而且还可以涵盖如光学外观、服装的风格等信息。然而，演员202“亚瑟”的背景也可以基于小说的另一部分来确定。演员的背景可以涵盖关于工作或特殊能力的信息。通常，接收到的文本输入的分析部分越大，语音信息的确定就越精细。

参照图2的示例，可以识别雨、推土机和巨大的黄色物体，作为效果的起源。在这种情况下，作为示例，所确定的效果信息可以包括：作为环境声音的示例——雨是狂风骤雨，作为物品特定声音的示例——推土机在碎石上缓行，以及作为物品特定声音的另一个示例——巨大的黄色物体似乎穿过云层发出尖啸。

在示例实施例中，语音信息还可以包括情感信息。情感信息可以至少包括快乐、悲伤、愤怒和中立。情感信息可以进一步包括更多数量的情感，以使得能够更精细地确定情感信息，从而能够更精细地合成情感语音。诸如连续情感模型的模型可用于确定情感信息。情感信息可用于引导对情感语音的合成。对所识别出的演员的情感的确定越准确，对情感语音的合成越真实。这样，用户可以更容易地注意到包括细微差别的相应情感，这改善了整体收听体验。

在示例实施例中，步骤102中的语义分析可以包括基于机器学习(例如，深度学习)的自然语言处理。情感信息也可以以这种方式确定。机器学习允许甚至更深入地理解相应文本的深层含义。在这方面要指出的是，如果文本被分割，则文本段的大小可以在步骤102中的语义分析期间改变。进一步地，可以不仅仅分析各个段本身。对相邻段的分析可以提供相关的上下文以确定文本段的正确含义。例如，如果文本段的大小为单个单词，则单词“跳”可以取决于其上下文被视为不同的含义。句子“我将在它们上面跳！”与上下文“我因喜悦而跳！”相比可能暗示不同的情感状态和解释。第一种情况可以被解释为愤怒，而第二种情况表示相反，即，快乐。这同样适用于其他大小的文本段。

在示例实施例中，在步骤102中可以确定空间信息，作为语义分析的一个或多个结果。可以使用基于机器学习的自然语言处理来确定空间信息。语义分析的这一部分还可以包括执行多个可能的子例程，该子例程被适配成识别与空间信息相关的文本的含义。在示例实施例中，空间信息可以用于生成针对所生成的音频对象中的每一个音频对象的元数据。在示例实施例中，可以针对语音和效果的所识别出的起源中的每个起源单独生成音频对象。可替代地或另外地，例如，如果语音和效果的起源靠在一起或用于起源的共同移动，则这些起源也可以被映射到单个音频对象。在示例实施例中，可以针对语音和效果的所识别出的起源中的每个起源确定空间信息。空间信息的示例包括：

·场景内的大小和形状。

·场景内的位置。位置可以在一个维度、两个维度或三个维度中建立。

·连贯性。

·行进通过场景的方向。

·通过场景的速度和/或加速度。

·基于与该物品的活动相关联的特征进行的分类。

·以上参数的过去值的历史或汇总统计以及关于场景的估计，例如活动的工作周期、活动的长度的统计等。

参照图2的示例，空间信息可以使得能够在音频内容(例如，推土机在碎石上缓行的同时越来越近或者巨大的黄色物体从云幕(ceiling)发出尖啸)的回放期间提供沉浸式收听体验。

语音和效果的合成

基于步骤102中的语义分析的一个或多个结果，在步骤103中合成语音和效果。在示例实施例中，可以基于语音信息和效果信息来合成语音和效果。本公开在这方面不限于任何特定技术。可以使用现有技术文本到语音技术(TTS)或效果合成技术来合成语音和效果。针对效果合成，例如，可以使用NSynth。现有TTS技术的示例包括拼接合成、正弦波合成、基于隐马尔可夫模型(HMM)的合成、共振峰合成和发音合成。在示例实施例中，可以在步骤103中使用单元选择合成来合成语音。为了合成语音和效果，可以访问音频库数据库以选择相应的音频数据来进行合成。

在示例实施例中，在步骤103中，可以针对语音的所识别出的起源(例如旁白员和一个或多个演员)来合成语音。可以针对效果的所识别出的起源(例如物品和环境)来合成效果。以这种方式，可以针对语音和效果的每个所识别出的起源单独生成音频对象。可替代地或另外地，例如，如果语音和效果的起源靠在一起或用于起源的共同移动，则这些起源也可以被映射到单个音频对象。

在示例实施例中，可以使用在步骤102中被确定为语义分析的一个或多个结果的语音信息和效果信息，作为对语音和效果的合成的引导。在示例实施例中，语音合成可以包括对由情感信息引导的情感语音的合成。

在示例实施例中，语音合成可以包括对风格、韵律和话音的合成。可以例如关于小说的设定(即，历史设定或科幻小说设定)或者例如关于演员的特定职能(例如作为主持人)来选择风格。

话音可以与语音内容的发音形式或表达形式(例如交谈、唱歌、发出尖啸)有关。话音也可以与性别有关。话音也可以关于不同的语气来合成。

关于韵律，可以基于相应的韵律参数来进行合成，该韵律参数包括：

·话音的音高，

·声音的长度，

·响度或突显程度，

·音色，

·话音质量，

·停顿。

例如，改变话音的音高可以用于反映对陈述的强调。这些参数的选择性组合可以允许实现例如语音的语调、重音、节律、节奏和响度。例如，可以合成特定的语调来反映语言的特性。调整音高范围也可以用于例如对情感语音的合成，以反映位于音高范围的较高部分的兴奋或恐惧。重音音节可以通过调整音高突显程度(不同于相邻音节的音高水平的音高水平)、长度、响度和音色来合成。重音音节可以在发音时被收听者体验到。重音音节还可以用于反映合成语音中的语法和句法，这可以是创建演员的特性或背景的工具。语音的节奏和节律也可以以这种方式合成。在语音合成中，还可以将停顿用作风格度量。停顿可以反映呼吸，并且因此也可以用于反映情感。有声停顿可以反映犹豫。缺少停顿也可以用于创建单词分组或单词或短语的集合体。缺少停顿结合省略字母或音节也可以用于反映某种风格的语音或方言。

在根据文本进行的语音的合成中，还可以考虑对文本的解析，以允许收听者识别文本的句法结构。作为风格度量，语调和重音的组合可以用于强调特定的单词或音节，以实现句子的预期含义。

韵律参数也可以用于反映一个或多个演员之间的谈话。

如上面已经陈述的，在示例实施例中，对语音的合成可以包括对情感语音的合成。在这方面，一般的韵律和特定的韵律参数的组合可以允许将情感传递给收听者。

如上面已经陈述的，在步骤103中，除了语音之外，还对效果进行合成。对语音和效果的合成可以在并行轨中完成。在此上下文中，可以合成特定事件(例如背景事件)或特定场景(例如战斗场景)。

元数据

在步骤103中，除了合成语音和效果之外，还生成针对每个音频对象的元数据(例如，空间元数据)。在示例实施例中，可以基于在步骤102中被确定为语义分析的一个或多个结果的空间信息来生成元数据。除了空间信息之外，可以另外基于音频对象类型(例如语音或效果)、音频对象名称或标识符(例如演员的姓名或诸如雨的效果的类型)、对整个场景的分析以及用于输出音频对象的特定扬声器来生成元数据。

基于对象的音频内容

在步骤104中，可以创建(例如，输出)包括一个或多个音频对象和相应元数据的基于对象的音频内容。在示例实施例中，可以对步骤104中的创建的基于对象的音频内容进行编码和分发。这使得能够提供多种表示，以允许用户在传统有声读物与例如具有演员和效果的音频播放之间进行选择。在本公开中，对基于对象的音频内容进行编码的方法不受限制，而是可以基于音频对象类型来确定。

根据本公开的一方面，可以将在步骤104中创建的基于对象的音频内容渲染为基于通道的格式。在示例实施例中，基于通道的格式包括5.1、7.1、7.1.4、B格式、高保真度立体声响复制、立体声和双耳。

也可以将在步骤104中创建的基于对象的音频内容导入到杜比全景声(DolbyAtmos)内容创建工作流中，以进一步进行涉及Pro Tools和杜比全景声生产套件的混合和渲染。

渲染基于对象的音频内容

本公开不限于用于将基于对象的音频内容渲染为基于通道的格式的特定方法。在这方面，可以应用任何可以想到的方法来创建沉浸式收听体验。

作为示例，可以使用对象和通道渲染器。对象和通道渲染器可以包括源平移器(source panner)、斜坡混合器、扬声器解相关器和混合级。对象和通道渲染器可以接收元数据、音频数据以及可选的收听环境的扬声器布局作为输入。对象和通道渲染器可以输出一个或多个扬声器馈送。源平移器可以获取元数据，并且可以平移源以创建扬声器增益。斜坡混合器可以将音频数据与扬声器增益混合以创建扬声器馈送。可以说源平移器和一个或多个斜坡混合器以及可选的扬声器解相关器形成渲染单元。

释义

除非另外特别声明，从以下讨论中显而易见的是，应当理解，在整个公开的讨论中，利用诸如“处理”、“计算”、“算出”、“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算设备的动作和/或过程，该动作和/或过程对表示为物理(例如，电子)量的数据进行操纵和/或转化为类似地表示为物理量的其他数据。

以类似的方式，术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据转化为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。

在一个示例实施例中，本文描述的方法可由一个或多个处理器执行，该一个或多个处理器接受包含指令集的计算机可读(也称为机器可读)代码，该指令集在由处理器中的一个或多个处理器执行时执行本文描述的方法中的至少一个方法。包括能够执行指定要采取的动作的指令集(顺序的或其他形式)的任何处理器。因此，一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统，该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是具有通过网络耦接的处理器的分布式处理系统。如果处理系统需要显示器，则可以包括这样的显示器，例如，液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据，则处理系统还包括输入设备，例如字母数字输入单元(例如键盘)、定点控制设备(例如鼠标)等中的一个或多个。处理系统还可以涵盖诸如磁盘驱动单元的存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。因此，存储器子系统包括携带计算机可读代码(例如，软件)的计算机可读载体介质，该计算机可读代码包括指令集，该指令集在由一个或多个处理器执行时使得执行本文描述的方法中的一种或多种方法。应指出的是，当方法包括多个元素(例如，多个步骤)时，除非特别声明，否则不暗示这些元素的顺序。在由计算机系统执行软件期间，软件可以驻留在硬盘中，或者也可以完全或至少部分地驻留在RAM内和/或处理器内。因此，存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外，计算机可读载体介质可以形成或包括在计算机程序产品中。

在替代性示例实施例中，一个或多个处理器作为独立设备操作，或者可以在联网部署中连接(例如，联网)到其他一个或多个处理器，该一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份操作，或者在对等或分布式网络环境中作为对等机器操作。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥或者能够执行指定该机器要采取的动作的指令集(顺序的或其他形式)的任何机器。

应指出的是，术语“机器”也应该被认为包括单独或共同地执行指令集(或多个指令集)以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。

因此，本文描述的方法中的每种方法的一个示例实施例呈携带指令集的计算机可读载体介质的形式，该指令集例如为用于在一个或多个处理器(例如，作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此，如本领域技术人员将理解的，本公开的示例实施例可以体现为方法、诸如专用装置的装置、诸如数据处理系统的装置或计算机可读载体介质(例如，计算机程序产品)。计算机可读载体介质携带包括指令集的计算机可读代码，该指令集在一个或多个处理器上执行时使一个或多个处理器实施方法。因此，本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外，本公开可以采取载体介质(例如，计算机可读存储介质上的计算机程序产品)的形式，该载体介质携带体现在介质中的计算机可读程序代码。

可以经由网络接口设备通过网络进一步传输或接收软件。虽然在示例实施例中载体介质是单个介质，但是术语“载体介质”应该被认为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带指令集的任何介质，该指令集用于由处理器中的一个或多个处理器执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种方法。载体介质可以采取多种形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括诸如主存储器的动态存储器。传输介质包括同轴电缆、铜线和光纤，包括包含总线子系统的线。传输介质还可以采取声波或光波的形式，例如，在无线电波和红外数据通信期间生成的那些声波或光波。相应地，例如，术语“载体介质”应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品；承载可由至少一个处理器或一个或多个处理器检测到并表示指令集的传播信号的介质，该指令集在被执行时实施方法；以及网络中的传输介质，该传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示指令集的传播信号。

将理解的是，在一个示例实施例中，所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如，计算机)系统中的适当的处理器(或多个处理器)执行。还将理解的是，本公开不限于任何特定的实施方式或编程技术，并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。

在整个公开中，提及“一个示例实施例”、“一些示例实施例”或“示例实施例”意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此，在整个公开中在各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都指代同一个示例实施例。此外，在一个或多个示例实施例中，特定特征、结构或特性可以以任何合适的方式组合，这根据本公开对于本领域的普通技术人员而言将是显而易见的。

如本文所使用的，除非另有规定，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象，仅表明提及相似对象的不同实例，并且不旨在暗示如此描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。

在权利要求和本文的描述中，术语“包括”、“包括有”或“涵盖”中的任一个是意指至少包括随后的元素/特征，但不排除其他元素/特征的开放式术语。因此，当在权利要求中使用术语“包括”时，不应被解释为限于在其之后列出的模块或元素或步骤。例如，“设备包括A和B”的表达的范围不应限于设备仅由元素A和B组成。如本文所使用的，术语“包含”或“包含有”或“涵盖有”中的任一个也是同样意指至少包括该术语之后的元素/特征，但不排除其他元素/特征的开放式术语。因此，包含与包括同义并且意指包括。

应当理解，出于使本公开更流畅，并且帮助理解各创造性方面中的一个或多个方面的目的，在以上对本公开的示例实施例的描述中，有时在单个示例实施例、图或其描述中将本公开的各种特征分组在一起。然而，本公开的该方法不应被解释为反映权利要求需要比每个权利要求中明确记载的特征更多的特征的意图。而是，如权利要求所反映的，创造性方面在于少于单个前述公开的示例实施例的所有特征。因此，随着说明书的权利要求书特此明确地并入本说明书中，其中，每个权利要求本身独立地作为本公开的单独的示例实施例。

此外，尽管本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他特征，但是如本领域技术人员将理解的，不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如，在权利要求中，要求保护的示例实施例中的任何示例实施例可以以任何组合来使用。

在本文提供的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中，未详细示出众所周知的方法、结构和技术，以避免使对描述的理解模糊不清。

因此，尽管已经描述了被认为是本公开的最佳模式的模式，但是本领域技术人员将认识到，可以在不背离本公开的精神的情况下对其做出其他和进一步的修改，并且旨在要求保护落入本公开的范围内的所有这种改变和修改。例如，以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能，并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。

本发明的各个方面可以从以下枚举的示例实施例(EEE)理解：

1.一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法，所述方法包括以下步骤：

a)接收所述文本输入；

b)对接收到的文本输入执行语义分析；

c)基于所述语义分析的一个或多个结果合成语音和效果以生成一个或多个音频对象；

d)生成针对所述一个或多个音频对象的元数据；以及

e)创建包括所述一个或多个音频对象和所述元数据的所述基于对象的音频内容。

2.根据EEE 1所述的方法，其中，所述方法进一步包括以下步骤：bi)识别语音和效果的一个或多个起源，作为所述语义分析的所述一个或多个结果。

3.根据EEE 2所述的方法，其中，所述语音和效果的起源包括演员、旁白员、物品和环境中的一个或多个。

4.根据EEE 1至3中任一项所述的方法，其中，所述方法进一步包括以下步骤：bii)确定语音信息和/或效果信息，作为所述语义分析的所述一个或多个结果。

5.根据EEE 4所述的方法，其中，所述语音信息包括关于一个或多个演员的姓名、性别、特性中的一个或多个以及所述一个或多个演员的背景的信息。

6.根据EEE 4或EEE 5所述的方法，其中，所述语音信息进一步包括情感信息作为所述语义分析的所述一个或多个结果。

7.根据EEE 6所述的方法，其中，所述情感信息至少包括关于快乐、中立、愤怒和悲伤的信息。

8.根据EEE 4至7中任一项所述的方法，其中，所述效果信息包括关于噪声、音乐、环境声音和物品特定声音中的一个或多个的信息。

9.根据EEE 1至8中任一项所述的方法，其中，所述方法进一步包括以下步骤：biii)确定空间信息，作为所述语义的所述一个或多个结果。

10.根据EEE 9所述方法，其中，所述空间信息包括关于行进的方向、速度、大小、形状、位置、连贯性或加速度中的一个或多个的信息。

11.根据EEE 1至10中任一项所述的方法，其中，所述方法进一步包括以下步骤：ai)使接收到的文本输入标准化。

12.根据EEE 1至11中任一项所述的方法，其中，所述方法进一步包括以下步骤：aii)对接收到的文本输入执行句法分析。

13.根据EEE 1至12中任一项所述的方法，其中，所述语义分析包括对接收到的文本输入进行分割。

14.根据EEE 1至13中任一项所述的方法，其中，所述语义分析包括情绪分析。

15.根据EEE 14所述的方法，其中，所述情绪分析基于规则。

16.根据EEE 1至15中任一项所述的方法，其中，所述语义分析包括利用机器学习进行的自然语言处理。

17.根据EEE 1至16中任一项所述的方法，其中，使用文本到语音合成来合成所述语音。

18.根据EEE 17所述的方法，其中，所述文本到语音合成包括单元选择语音合成。

19.根据EEE 1至18中任一项的方法，其中，语音合成包括对风格、韵律和话音中的一个或多个的合成。

20.根据EEE 1至19中任一项的方法，其中，语音合成包括对情感语音的合成。

21.根据EEE 1至20中任一项所述的方法，其中，所述方法进一步包括引入另外的录音和/或效果。

22.根据EEE 1至21中任一项所述的方法，其中，所述方法进一步包括以下步骤：f)对所述基于对象的音频内容进行编码。

23.一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法，所述方法包括以下步骤：

a)接收所述文本输入；

b)对接收到的文本输入执行语义分析；

d)生成针对所述一个或多个音频对象的元数据；

e)创建包括所述一个或多个音频对象和所述元数据的所述基于对象的音频内容；以及

f)将所述基于对象的音频内容渲染为基于通道的格式。

24.根据EEE 23所述的方法，其中，所述方法进一步包括以下步骤：bi)识别语音和效果的一个或多个起源，作为所述语义分析的所述一个或多个结果。

25.根据EEE 23或EEE 24所述的方法，其中，所述方法进一步包括以下步骤：bii)确定语音信息和效果信息，作为所述语义分析的所述一个或多个结果。

26.根据EEE 23至25中任一项所述的方法，其中，所述方法进一步包括以下步骤：biii)确定空间信息，作为所述语义分析的所述一个或多个结果。

27.根据EEE 23至26中任一项所述的方法，其中，所述基于通道的格式包括5.1、7.1、7.1.4、B格式、高保真度立体声响复制、立体声和双耳。

28.根据EEE 23至27中任一项所述的方法，其中，所述方法进一步包括以下步骤：ai)使接收到的文本输入标准化。

29.根据EEE 23至28中任一项所述的方法，其中，所述方法进一步包括以下步骤：aii)对接收到的文本输入进行句法分析。

30.根据EEE 23至29中任一项所述的方法，其中，所述方法进一步包括引入另外的录音和/或效果。

31.一种基于计算机的系统，包括一个或多个处理器，所述一个或多个处理器被配置为执行根据EEE 1至22中任一项所述的方法。

32.根据EEE 31所述的基于计算机的系统，包括用户界面以有助于对文本输入的选择。

33.一种基于计算机的系统，包括一个或多个处理器，所述一个或多个处理器被配置为执行根据EEE 23至30中任一项所述的方法。

34.根据EEE 33所述的基于计算机的系统，包括用户界面以有助于对文本输入的选择。

35.一种计算机程序产品，包括具有指令的计算机可读存储介质，所述指令被适配成当由具有处理能力的设备执行时执行根据EEE 1至22中任一项所述的方法。

36.一种计算机程序产品，包括具有指令的计算机可读存储介质，所述指令被适配成当由具有处理能力的设备执行时执行根据EEE 23至30中任一项所述的方法。

Claims

a)接收所述文本输入；

b)对接收到的文本输入执行语义分析；

bi)确定空间信息，作为所述语义分析的一个或多个结果；

c)基于所述语义分析的所述一个或多个结果合成语音和效果以生成一个或多个音频对象；

d)生成针对所述一个或多个音频对象的元数据；以及

2.根据权利要求1所述的方法，其中，所述方法进一步包括以下步骤：bii)识别语音和效果的一个或多个起源，作为所述语义分析的所述一个或多个结果。

3.根据权利要求2所述的方法，其中，所述语音和效果的起源包括演员、旁白员、物品和环境中的一个或多个。

4.根据权利要求2至3中任一项所述的方法，其中，针对所述语音和效果的一个或多个起源确定所述空间信息。

5.根据权利要求1至4中任一项所述的方法，其中，所述空间信息包括关于行进的方向、速度、大小、形状、位置、连贯性或加速度中的一个或多个的信息。

6.根据权利要求1至5中任一项所述的方法，其中，所述方法进一步包括以下步骤：aii)对接收到的文本输入执行句法分析。

7.根据权利要求1至6中任一项所述的方法，其中，所述语义分析包括对接收到的文本输入进行分割。

8.根据权利要求1至7中任一项所述的方法，其中，使用文本到语音合成来合成所述语音。

9.根据权利要求8所述的方法，其中，所述文本到语音合成包括单元选择语音合成。

10.根据权利要求1至9中任一项所述的方法，其中，语音合成包括对风格、韵律和话音中的一个或多个的合成。

11.根据权利要求1至10中任一项所述的方法，其中，所述方法进一步包括以下步骤：

f)将所述基于对象的音频内容渲染为基于通道的格式。

12.根据权利要求11所述的方法，其中，所述基于通道的格式包括5.1、7.1、7.1.4、B格式、高保真度立体声响复制、立体声和双耳。

13.一种基于计算机的系统，包括一个或多个处理器，所述一个或多个处理器被配置为执行根据权利要求1至12中任一项所述的方法。

14.根据权利要求13所述的基于计算机的系统，包括用户界面以有助于对文本输入的选择。

15.一种计算机程序产品，包括具有指令的计算机可读存储介质，所述指令被适配成当由具有处理能力的设备执行时执行根据权利要求1至12中任一项所述的方法。