CN116264073A

CN116264073A - 配音方法及装置

Info

Publication number: CN116264073A
Application number: CN202210168460.XA
Authority: CN
Inventors: 程泽丰; 丁二亮; 张毅; 杜旭浩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-12-14
Filing date: 2022-02-23
Publication date: 2023-06-16

Abstract

本申请提供一种配音方法及装置，方法包括：确定文本对应的至少一种音色；提取文本中的多个文本单元对应的情感特征集，情感特征集包括多个文本单元分别对应的情感特征，多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度；根据至少一种音色、文本以及情感特征集，合成文本的配音。本申请能够准确地生成情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。

Description

配音方法及装置

本申请要求于2021年12月14日提交国家知识产权局、申请号为202111525491.8、申请名称为“配音方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及多媒体技术领域，尤其涉及一种配音方法及装置。

背景技术

在线音频平台的市场越来越成熟，其用户群体的数量也越来越多。在线音频平台可以提供例如广播剧、有声读物以及情感生活节目等多种类型的音频内容，各类音频内容是对文本进行配音得到的。

目前在线音频平台提供的音频内容通常由人工对文本进行配音得到。在人工配音过程中进行音频内容的录制，之后对录制得到的音频内容进行编辑和后期制作，并将制作完成的音频内容上传至在线音频平台。

但是人工配音的方式成本较高且效率较低，导致音频内容的制作成本较高且制作周期较长。

发明内容

本申请提供一种配音方法及装置，能够准确地生成情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。

第一方面，本申请提供一种配音方法，所述方法包括：确定文本对应的至少一种音色；提取所述文本中的多个文本单元对应的情感特征集，所述情感特征集包括所述多个文本单元分别对应的情感特征，所述多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度；根据所述至少一种音色、所述文本以及所述情感特征集，合成所述文本的配音。

该方法中，文本的配音与各种层级粒度的文本单元(包括词粒度、句子粒度、段落粒度以及篇章粒度)对应的情感特征有关，任一文本单元的配音不仅与其对应的情感特征有关，还与其所在的更大粒度的文本单元对应的情感特征有关，使得在文本的配音过程中，考虑到了词所在的句子、段落以及篇章之间的语义联系，在配音过程中无需参考其他音频，在准确提取角色、合理确定音色以及替代真人实现了文本中各个角色的情感配音基础上，实现了文本的配音中每相邻两个句子、每相邻两个段落以及每相邻两个篇章之间的配音的情感自然过渡和自然转换，保证文本的配音的情感能够更符合文本主体基调，从而准确地生成了情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。

文本可以是配音装置从文本资源数据库中获取的，或者可以是配音装置基于用户输入的内容得到的。

情感特征用于指示情感类型，情感类型可以包括：和蔼、撒娇、城府老辣、羞愧、生气、开心以及难过等。

可选地，可以将至少一种音色、文本以及情感特征集分别进行编码，将编码后的至少一种音色、文本以及情感特征集进行融合后再解码，得到声学特征，之后将声学特征转换为文本的配音。示例地，可以通过声码器(Vocoder)将声学特征转换为文本的配音。声学特征可以包括梅尔谱，可以通过声码器将梅尔谱转换为波形，以得到文本的配音。

可以通过音色编码器将每种音色编码为一个二进制序列。通过文本编码器进行文本的编码，文本编码器可以采用变换网络中的编码(Encoder)结构或者Tacotron2网络(一种声谱预测网络)中的卷积结构和LSTM结构。通过变分自编码器(Variational AutoEncoder， VAE)对情感特征集进行编码。通过解码器采用自回归方式对融合后的至少一种音色的编码、文本的编码和情感特征集的编码进行解码。

在一种可能的实现方式中，所述方法还包括：从所述文本中提取至少一个位置关键词，所述位置关键词用于指示方位和/或距离信息；利用所述至少一个位置关键词对所述配音进行渲染。

其中，位置关键词用于指示对应的角色的方位和/或距离信息。方位例如可以包括上方、下方、前方、后方、左边、右边、左前、左后以及右前等，距离信息例如可以包括远处以及近处等。

可选地，可以利用渲染算法对文本的配音进行渲染，渲染算法包括头相关传递函数 (Head Related Transfer Functions，HRTF)算法和矢量基幅值相移(Vector BaseAmplitude Panning，VBAP)算法。

利用至少一个位置关键词对配音进行渲染后，渲染后的文本的配音具有三维效果，可以将配音的音效渲染到空间中任意一个位置，从而提高了收听配音的用户的沉浸感和代入感。

在一种可能的实现方式中，所述文本包括至少一种角色对应的内容，所述从所述文本中提取至少一个位置关键词，包括：从所述文本中提取所述角色对应的位置关键词，所述位置关键词用于指示对应的角色的方位和/或距离信息；所述利用所述至少一个位置关键词对所述配音进行渲染，包括：利用所述位置关键词对所述文本的配音中对应的角色的配音进行渲染。示例地，可以按照与角色绑定的位置关键词在文本中的位置顺序，对角色对应的对白内容的配音依次进行渲染。

在一种可能的实现方式中，所述多个文本单元包括第一粒度的文本单元和第二粒度的文本单元，所述第二粒度大于所述第一粒度，所述方法还包括：将所述情感特征集中所述第一粒度的文本单元对应的情感特征与所述第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合，得到组合后的情感特征；利用所述组合后的情感特征更新所述第一粒度的文本单元对应的情感特征，得到更新后的情感特征集；所述根据所述至少一种音色、所述文本以及所述情感特征集，合成所述文本的配音，包括：根据所述至少一种音色，所述文本以及所述更新后的情感特征集，合成所述文本的配音。

示例地，可以将第一粒度的文本单元对应的情感特征与第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征按照预设权重集进行组合，得到组合后的情感特征。其中，预设权重集包括第一粒度的文本单元对应的情感特征的权重，以及第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征的权重。

在一种可能的实现方式中，所述多个文本单元中存在句子粒度、段落粒度以及篇章粒度的文本单元，所述提取所述文本中的多个文本单元对应的情感特征集，包括：提取所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征；对所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征进行平均处理，得到所述句子粒度的文本单元对应的融合的词特征；基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征，得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征；基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征，得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征；基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征，得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征。

在一种可能的实现方式中，所述基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征，得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征，包括：将所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征输入句子模型，得到所述句子模型输出的所述多个文本单元中每个句子粒度的文本单元对应的情感特征，输入所述句子模型的所有融合的词特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；所述基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征，得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征，包括：将所述多个文本单元中每个句子粒度的文本单元对应的情感特征输入段落模型，得到所述段落模型输出的所述多个文本单元中每个段落粒度的文本单元对应的情感特征，输入所述段落模型的所有情感特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；所述基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征，得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征，包括：将所述多个文本单元中每个段落粒度的文本单元对应的情感特征输入篇章模型，得到所述篇章模型输出的所述多个文本单元中每个篇章粒度的文本单元对应的情感特征，输入所述篇章模型的所有情感特征按照对应的所述段落粒度的文本单元在所述文本中的位置顺序排列。

词模型、句子模型、段落模型或篇章模型可以为深度学习模型。示例地，词模型可以为预训练模型，例如可以为BERT(Bidirectional Encoder Representations fromTransformers) 模型。句子模型可以为循环神经网络(Recurrent Neural Network，RNN)模型，例如可以为长短期记忆网络(Long Short-Term Memory，LSTM)模型。段落模型或篇章模型可以为注意力(attention)模型。

在一种可能的实现方式中，所述文本包括至少一种角色对应的内容，所述确定文本对应的至少一种音色，包括：确定所述文本中的至少一种角色分别对应的音色。

在一种可能的实现方式中，所述至少一种角色包括目标角色，所述目标角色在所述文本中对应对白内容，所述确定所述文本中的至少一种角色分别对应的音色，包括：根据所述文本确定所述目标角色的角色属性，所述角色属性包括以下至少一种：年龄范围、性别、职业；利用所述目标角色的角色属性确定所述目标角色对应的音色。

在一种可能的实现方式中，所述方法还包括：基于接收到的对所述多个文本单元中的任一文本单元的调节指令，调节所述任一文本单元对应的情感特征的强度。情感特征的强度用于表示情感特征所指示的情感的强弱程度，其可以通过情感特征的权重来表示。

第二方面，本申请提供一种配音装置，所述装置包括：确定模块，用于确定文本对应的至少一种音色；第一提取模块，用于提取所述文本中的多个文本单元对应的情感特征集，所述情感特征集包括所述多个文本单元分别对应的情感特征，所述多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度；合成模块，用于根据所述至少一种音色、所述文本以及所述情感特征集，合成所述文本的配音。

在一种可能的实现方式中，所述装置还包括：第二提取模块，用于从所述文本中提取至少一个位置关键词，所述位置关键词用于指示方位和/或距离信息；渲染模块，用于利用所述至少一个位置关键词对所述配音进行渲染。

在一种可能的实现方式中，所述文本包括至少一种角色对应的内容，所述第二提取模块，具体用于从所述文本中提取所述角色对应的位置关键词，所述位置关键词用于指示对应的角色的方位和/或距离信息；所述渲染模块，具体用于利用所述位置关键词对所述文本的配音中对应的角色的配音进行渲染。

在一种可能的实现方式中，所述多个文本单元包括第一粒度的文本单元和第二粒度的文本单元，所述第二粒度大于所述第一粒度，所述装置还包括：组合模块，用于将所述情感特征集中所述第一粒度的文本单元对应的情感特征与所述第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合，得到组合后的情感特征；更新模块，用于利用所述组合后的情感特征更新所述第一粒度的文本单元对应的情感特征，得到更新后的情感特征集；所述合成模块，具体用于根据所述至少一种音色，所述文本以及所述更新后的情感特征集，合成所述文本的配音。

在一种可能的实现方式中，所述多个文本单元中存在句子粒度、段落粒度以及篇章粒度的文本单元，所述第一提取模块，具体用于提取所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征；对所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征进行平均处理，得到所述句子粒度的文本单元对应的融合的词特征；基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征，得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征；基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征，得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征；基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征，得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征。

在一种可能的实现方式中，所述第一提取模块，具体用于将所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征输入句子模型，得到所述句子模型输出的所述多个文本单元中每个句子粒度的文本单元对应的情感特征，输入所述句子模型的所有融合的词特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；将所述多个文本单元中每个句子粒度的文本单元对应的情感特征输入段落模型，得到所述段落模型输出的所述多个文本单元中每个段落粒度的文本单元对应的情感特征，输入所述段落模型的所有情感特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；将所述多个文本单元中每个段落粒度的文本单元对应的情感特征输入篇章模型，得到所述篇章模型输出的所述多个文本单元中每个篇章粒度的文本单元对应的情感特征，输入所述篇章模型的所有情感特征按照对应的所述段落粒度的文本单元在所述文本中的位置顺序排列。

在一种可能的实现方式中，所述文本包括至少一种角色对应的内容，所述确定模块，具体用于确定所述文本中的至少一种角色分别对应的音色。

在一种可能的实现方式中，所述至少一种角色包括目标角色，所述目标角色在所述文本中对应对白内容，所述确定模块，具体用于根据所述文本确定所述目标角色的角色属性，所述角色属性包括以下至少一种：年龄范围、性别、职业；利用所述目标角色的角色属性确定所述目标角色对应的音色。

在一种可能的实现方式中，所述装置还包括：调节模块，用于基于接收到的对所述多个文本单元中的任一文本单元的调节指令，调节所述任一文本单元对应的情感特征的强度。

第三方面，本申请提供一种配音装置，包括：一个或多个处理器；存储器，用于存储一个或多个计算机程序或指令；当所述一个或多个计算机程序或指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述的方法。

第四方面，本申请提供一种配音装置，包括：处理器，所述处理器用于执行如第一方面中任一项所述的方法。

第五方面，本申请提供一种计算机可读存储介质，包括计算机程序或指令，所述计算机程序或指令在计算机上被执行时，使得所述计算机执行第一方面中任一项所述的方法。

第六方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行第一方面中任一项所述的方法。

附图说明

图1为本申请实施例提供的一种配音方法的流程示意图；

图2为本申请实施例提供的一种通过情感特征提取模型提取情感特征集的过程示意图；

图3为本申请实施例提供的另一种通过情感特征提取模型提取情感特征集的过程示意图；

图4为本申请实施例提供的一种合成文本的配音过程示意图；

图5为本申请实施例提供的另一种合成文本的配音过程示意图；

图6为本申请实施例提供的一种配音UI示意图；

图7为本申请实施例提供的一种情感合成区域的示意图；

图8为本申请实施例提供的一种渲染UI示意图；

图9为本申请实施例提供的一种配音装置的框图；

图10为本申请实施例提供的另一种配音装置的框图；

图11为本申请实施例提供的再一种配音装置的框图；

图12为本申请实施例提供的又一种配音装置的框图；

图13为本申请实施例提供的一种配音装置的结构示意图；

图14为本申请实施例提供的另一种配音装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一范围和第二范围等是用于区别不同的范围，而不是用于描述范围的特定顺序。

在本申请实施例中，“在一种示例中”、“示例地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“在一种示例中”、“示例地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“在一种示例中”、“示例地”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“至少一个”的含义是指一个或多个，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。

在线音频平台上提供的音频内容通常包括多人对白类型(例如广播剧)和单人朗读类型(例如有声读物和情感生活节目)，各种类型的音频内容是对文本进行配音得到的。在线音频平台提供的音频内容通常是由人工对文本进行配音并在人工配音过程中进行音频内容的录制，之后对录制得到的音频内容进行编辑和后期制作得到的。但是人工配音的方式成本较高且效率较低，导致音频内容的制作成本较高且制作周期较长。并且对音频内容进行编辑和后期制作也需要投入人工成本，进一步增加了音频内容的制作成本和制作周期。

为了减小音频内容的制作成本和制作周期，可以利用语音合成技术对文本进行配音。相关技术中，首先确定文本的情感类型，再根据情感类型从预先建立的多个参考音频中确定情感类型对应的目标参考音频。若多个参考音频中不存在目标参考音频，则可以对多个参考音频中的部分参考音频进行组合以得到目标参考音频。之后从目标参考音频中提取韵律特征，将韵律特征与文本均进行编码，并将编码后的文本和韵律特征进行融合和解码，得到文本的配音。韵律特征包括音素、词和句子等语音粒度的韵律参数，韵律参数包括基频、强度以及时长信息等。

但是相关技术的配音方式中，需要根据情感类型从预先建立的多个参考音频中确定情感类型对应的目标参考音频，该多个预先建立的参考音频需要对应多种情感类型且分类细致，导致多个参考音频的建立过程较为复杂。并且当多个参考音频中不存在目标参考音频时，对多个参考音频中的部分参考音频进行组合得到的目标参考音频可能无法对应文本的情感类型，从而影响配音效果。此外在目标参考音频中提取的韵律特征仅与句子内部的韵律参数有关，导致文本的配音中各个句子之间情感过渡的连贯性较差，影响配音效果。

本申请实施例提供了一种配音方法，该方法可以用于对文本(例如书本、故事以及剧本等)的配音，配音得到的音频内容可以包括广播剧、有声读物以及情感生活节目等，且配音得到的音频内容可以以耳机或虚拟现实(Virtual Reality，VR)眼镜等为播放载体。该方法可以应用于配音装置，请参考图1，图1为本申请实施例提供的一种配音方法的流程示意图，该方法可以包括以下过程：

101、确定文本对应的至少一种音色。

文本可以包括目标文本中的部分或全部内容，例如可以是目标文本中的至少一个篇章或段落等。目标文本可以为书本、故事或者剧本。音色可以包括：温柔慈祥的青年女声音色、活泼甜美的少女音色、慈祥的老年男声音色、沉稳的中年男声音色以及阳刚的青年男声音色等。

可选地，文本可以是配音装置从文本资源数据库中获取的。示例地，文本资源数据库中存储有多个初始文本，配音装置可以根据文本信息从文本资源数据库的多个初始文本中确定目标文本，进而获取文本。文本信息包括以下至少一种：目标文本名称、篇章信息、段落信息，篇章信息或段落信息用于指示文本在目标文本中的位置，文本信息可以由用户设定。在该获取文本的方式中，获取的文本已经按照段落或篇章进行了划分。

又一可选地，文本可以是配音装置基于用户输入的内容得到的。示例地，可以获取用户输入的内容，之后可以基于获取的内容的章节架构或语法语义对内容进行篇章和/或段落的划分，得到文本。

对文本进行配音得到的音频内容的类型不同，确定音色的过程也不同。以下以多人对白类型和单人朗读类型这两种音频内容为例对确定音色的过程进行说明。

当音频内容的类型为多人对白类型时，需要提取文本中的至少一种角色，确定至少一种角色在文本中分别对应的内容，之后确定至少一种角色分别对应的音色。后续配音过程中任一角色在文本中对应的内容会用该任一角色对应的音色进行配音。示例地，可以通过提取文本中的人名提取文本中的至少一种角色，之后根据文本的句式和标点符号等确定至少一种角色在文本中分别对应的内容。

在一种实现方式中，前述确定至少一种角色分别对应的音色的过程可以是配音装置自主执行的，以至少一种角色包括目标角色为例进行说明。在一种示例中，目标角色在文本中对应对白内容，配音装置可以根据文本确定目标角色的角色属性，再利用目标角色的角色属性确定目标角色对应的音色。角色属性可以包括以下至少一种：年龄范围、性别、职业。可以预先存储有包括多种音色的第一音色库，第一音色库中每种音色对应有一种角色属性。在确定目标角色的角色属性后，将第一音色库中对应目标角色的角色属性的音色确定为目标角色对应的音色。该第一音色库中的音色可以通过个性化定制用户上传的语音(例如几分钟的语音)的音色得到，这样用户可以自定义音色库中的音色，提高了配音过程的灵活性。

在另一种示例中，目标角色在文本中对应旁白内容，配音装置可以确定文本的文本类型，根据文本类型确定目标角色对应的音色。示例地，配音装置可以根据文本的名称和/或文本内容确定文本的文本类型，文本类型可以包括：神话故事、童话故事、寓言故事、武侠小说、科幻小说、推理小说等。配音装置可以预先存储有包括多种音色的第二音色库，第二音色库中每种音色对应有一种文本类型。在确定文本的文本类型后，将第二音色库中对应文本的文本类型的音色确定为目标角色对应的音色。第二音色库中的音色也可以通过个性化定制用户上传的语音的音色得到。例如，当文本的文本类型为童话故事时，可以确定目标角色对应的音色为温柔慈祥的青年女声音色；当文本的文本类型为寓言故事时，可以确定目标角色对应的音色为活泼甜美的少女音色等。

可选地，配音装置可以通过音色确定模型自主确定至少一种角色分别对应的音色。音色确定模型用于基于输入的文本，输出至少一种角色分别对应的音色。在将文本输入音色确定模型后，音色确定模型需要提取文本中的角色，确定各种角色在文本中对应的内容，以及确定各种角色的角色属性。可以利用训练文本和训练标签对初始模型进行训练，得到音色确定模型。训练标签包括：训练文本中的各种角色、训练文本中的各种角色在训练文本中对应的内容以及训练文本中的各种角色的角色属性，或者训练标签包括训练文本的文本类型。

需要说明的是，在配音装置自主确定至少一种角色分别对应的音色后，配音装置还可以进一步接收对于任一种角色的音色调整指令，音色调整指令用于指示另一种音色(不同于此时任一种角色对应的音色)。之后将此时任一种角色对应的音色替换为音色调整指令所指示的另一种音色，这样可以提高确定至少一种角色分别对应的音色的过程的灵活性。

在另一种实现方式中，该确定至少一种角色分别对应的音色的过程可以是配音装置在用户的控制下执行的，这样使得至少一种角色分别对应的音色也可以由用户确定，提高了配音过程的灵活性。示例地，配音装置可以接收用户发送的对于任一种角色的第一音色确定指令，该第一音色确定指令用于指示一种音色。之后配音装置将该第一音色确定指令所指示的音色确定为该任一种角色对应的音色。

当音频内容的类型为单人朗读类型时，无需提取文本中的角色和确定各个角色在文本中对应的内容，仅需确定整个文本对应的一种音色即可。后续配音过程中整个文本的内容会用该一种音色进行配音。

在一种实现方式中，该确定整个文本对应的一种音色的过程可以是配音装置自主执行的。示例地，配音装置可以确定文本的文本类型，根据文本类型确定整个文本对应的一种音色。文本类型以及根据文本类型确定音色的过程可以参考前述过程，本申请实施例在此不做赘述。

可选地，配音装置可以通过音色确定模型自主确定整个文本对应的一种音色。音色确定模型用于基于输入的文本，输出整个文本对应的一种音色。在将文本输入音色确定模型后，音色确定模型需要确定文本的文本类型。可以利用训练文本和训练标签对初始模型进行训练，得到音色确定模型，训练标签包括训练文本的文本类型。

需要说明的是，在配音装置自主确定整个文本对应的一种音色后，配音装置还可以进一步接收对于整个文本的音色调整指令，音色调整指令用于指示另一种音色(不同于此时整个文本对应的一种音色)。之后将此时整个文本对应的一种音色替换为音色调整指令所指示的另一种音色。这样可以提高确定整个文本对应的一种音色的过程的灵活性。

在另一种实现方式中，该确定整个文本对应的一种音色的过程可以是配音装置在用户的控制下执行的。示例地，配音装置可以接收用户发送的对于整个文本的第二音色确定指令，该第二音色确定指令用于指示一种音色。之后配音装置将该第二音色确定指令所指示的音色确定为整个文本对应的一种音色。

需要说明的是，在前述配音装置根据角色属性或文本类型自主确定音色的过程中，可能出现不存在对应音色的情况，此时配音装置可以将预先存储的任一音色或默认音色确定为所需的音色，默认音色可以是用户指定的。

102、提取文本中的多个文本单元对应的情感特征集，情感特征集包括多个文本单元分别对应的情感特征，多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度。

词粒度的文本单元指的是文本中的各个词，每个词是由至少一个字符组成的文本。句子粒度的文本单元指的是文本中的各个句子，每个句子包括至少一个词。段落粒度的文本单元指的是文本中的各个段落，每个段落包括至少一个句子。篇章粒度的文本单元指的是文本单元中的各个篇章，每个篇章包括至少一个段落。

配音装置可以先将文本划分为多个文本单元，再提取情感特征集。示例地，对于词粒度的文本单元，配音装置可以利用分词算法对文本进行划分，将文本划分为多个词。对于句子粒度、段落粒度或篇章粒度的文本单元，配音装置可以根据标点符号(例如逗号、句号、分段符号以及分篇章符号等)对文本进行划分，将文本划分为至少一个句子、至少一个段落或至少一个篇章。

对于多个文本单元中的任一文本单元，当该任一文本单元的文本粒度为词粒度(即任一文本单元为文本中的一个词)时，可以直接从该任一文本单元中提取得到任一文本单元对应的情感特征。

当该任一文本单元的文本粒度为非词粒度(即句子粒度、段落粒度或篇章粒度)时，需要先得到该任一文本单元包括的各种粒度的文本单元分别对应的情感特征，再基于任一文本单元包括的各种粒度的文本单元分别对应的情感特征得到该任一文本单元对应的情感特征。

示例地，当任一文本单元的文本粒度为句子粒度(即任一文本单元为文本中的一个句子)时，需要先得到该任一文本单元包括的各个词粒度的文本单元分别对应的情感特征，之后基于该任一文本单元包括的各个词粒度的文本单元分别对应的情感特征得到任一文本单元对应的情感特征。当任一文本单元的文本粒度为段落粒度(即任一文本单元为文本中的一个段落)时，需要先得到该任一文本单元包括的各个词粒度的文本单元以及各个句子粒度的文本单元分别对应的情感特征，之后基于任一文本单元包括的各个词粒度的文本单元以及各个句子粒度的文本单元分别对应的情感特征得到任一文本单元对应的情感特征。当任一文本单元的文本粒度为篇章粒度(即任一文本单元为文本中的一个篇章)时，需要先得到该任一文本单元包括的各个词粒度的文本单元、各个句子粒度的文本单元以及各个段落粒度的文本单元分别对应的情感特征，之后基于任一文本单元包括的各个词粒度的文本单元、各个句子粒度的文本单元以及各个段落粒度的文本单元分别对应的情感特征得到任一文本单元对应的情感特征。

例如，若任一文本单元为句子(即任一文本单元为句子粒度的文本单元)，可以提取该句子包括的各个词分别对应的情感特征。对该句子包括的各个词分别对应的情感特征进行平均处理，得到该句子对应的融合的词特征。之后基于句子对应的融合的词特征，得到句子对应的情感特征。

配音装置可以通过情感特征提取模型执行该过程102，以下以多个文本单元中存在词粒度、句子粒度、段落粒度以及篇章粒度的文本单元为例对通过情感特征提取模型得到情感特征集的过程进行说明。示例地，请参考图2，图2为本申请实施例提供的一种通过情感特征提取模型提取情感特征集的过程示意图，图2示出了情感特征提取模型，该情感特征提取模型包括词模型、句子模型、段落模型以及篇章模型。词模型的输入为文本中按照在文本中的位置顺序排列的各个词(图2示出了词1至词a)，输出为各个词分别对应的情感特征。句子模型的输入为基于词模型的输出得到的特征，输出为各个句子分别对应的情感特征。段落模型的输入为句子模型的输出，输出为各个段落分别对应的情感特征。篇章模型的输入为段落模型的输出，输出为各个篇章分别对应的情感特征。

其中，词模型、句子模型、段落模型或篇章模型可以为深度学习模型。示例地，词模型可以为预训练模型，例如可以为BERT模型，BERT模型是一种深度自注意力网络的双向编码模型。句子模型可以为RNN模型，例如可以为LSTM模型。段落模型或篇章模型可以为attention模型。

请参考图3，图3为本申请实施例提供的另一种通过情感特征提取模型提取情感特征集的过程示意图，图3以词模型为BERT模型、句子模型为LSTM模型以及段落模型和篇章模型均为attention模型为例，且以提取篇章1、篇章1包括的段落1和段落2、段落 1包括的句子1和句子2、段落2包括的句子3和句子4以及句子1至句子4分别包括的词1至词k对应的情感特征集为例进行说明。

如图3所示，配音装置将句子1至句子4分别包括的词1至词k按照在文本中的位置顺序依次输入BERT模型，BERT模型用于提取输入的词所包括的各个字符分别对应的词向量(word embedding)，并输出各个字符分别对应的词向量。之后可以将词包括的各个字符分别对应的词向量进行平均得到词对应的情感特征。

配音装置可以将每个句子包括的词对应的情感特征进行平均，得到句子1至句子4分别对应的融合的词特征。将句子1至句子4分别对应的融合的词特征输入LSTM模型，输入LSTM模型的所有融合的词特征按照句子1至句子4在文本中的位置顺序排列。LSTM 模型用于根据句子1至句子4分别对应的融合的词特征建模各个句子之间的语义联系，并根据句子1至句子4之间的语义联系以及分别对应的融合的词特征，得到句子1至句子4 分别对应的句向量(sentence embedding或sentence vector)，将句子1至句子4分别对应的句向量作为句子1至句子4分别对应的情感特征并输出。LSTM根据各个句子之间的语义联系和各个句子分别对应的融合的词特征得到各个句子分别对应的情感特征，可以使得后续得到的每相邻两个句子的配音的情感自然过渡，例如使得相邻的两个句子的配音的情感由前一个句子的开心逐渐转换为后一个句子的平静。

在得到句子1至句子4分别对应的情感特征后，将句子1至句子4分别对应的情感特征输入attention模型，输入attention模型的所有情感特征按照句子1至句子4在文本中的位置顺序排列。attention模型用于根据句子1至句子4分别对应的情感特征，得到段落1 和段落2分别对应的段落向量(paragraph embedding或paragraph vector)，将段落1和段落2分别对应的段落向量作为段落1和段落2分别对应的情感特征并输出。最后将段落1 和段落2分别对应的情感特征输入attention模型，输入attention模型的所有情感特征按照段落1和段落2在文本中的位置顺序排列。attention模型用于根据段落1和段落2分别对应的情感特征，得到篇章1对应的篇章向量(document embedding或document vector)，将篇章1对应的篇章向量作为篇章1对应的情感特征并输出。

可选地，在提取得到文本中的多个文本单元对应的情感特征集后，可以将小粒度的文本单元对应的情感特征与小粒度的文本单元所属于的大粒度的文本单元对应的情感特征进行组合，得到组合后的情感特征，利用组合后的情感特征更新小粒度的文本单元对应的情感特征。示例地，多个文本单元包括第一粒度的文本单元和第二粒度的文本单元，第二粒度大于第一粒度，可以将情感特征集中第一粒度的文本单元对应的情感特征与第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合(包括叠加和/或拼接)，得到组合后的情感特征。再利用组合后的情感特征更新第一粒度的文本单元对应的情感特征，得到更新后的情感特征集。需要说明的是，第一粒度和第二粒度仅为示例性说明，第一粒度或第二粒度的数量可以为多个。例如，可以将情感特征集中任一词对应的情感特征与任一词所属于的句子、段落和篇章中的至少一种对应的情感特征进行组合，得到组合后的情感特征，再利用组合后的情感特征更新任一词对应的情感特征；或者将情感特征集中任一句子对应的情感特征与任一句子所属于的段落和/或篇章对应的情感特征进行组合，得到组合后的情感特征，再利用组合后的情感特征更新任一句子对应的情感特征。

示例地，可以将第一粒度的文本单元对应的情感特征与第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征按照预设权重集进行组合，得到组合后的情感特征。其中，预设权重集包括第一粒度的文本单元对应的情感特征的权重，以及第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征的权重。配音装置可以通过情感特征更新模型执行该组合过程。

可选地，在提取得到情感特征集后，还可以改变任一文本单元对应的情感特征。示例地，配音装置可以预先设置多个分别对应有情感标签的情感特征并显示情感标签，对于任一文本单元，在接收到针对任一情感标签的选择动作所触发的情感特征改变指令时，将任一文本单元对应的情感特征改变为情感特征改变指令所指示的情感标签所对应的情感特征。这样可以提高确定文本单元对应的情感特征的过程的灵活性。情感标签可以包括以下至少一种：欢快、愉悦、高兴、悲伤、难过、生气、愤怒等。配音装置可以通过情感特征提取模型得到多个分别对应有情感标签的情感特征。

示例地，配音装置可以将表示任一情感标签的文本输入情感特征提取模型，得到情感特征提取模型输出的任一情感标签的文本中各个文本单元对应的情感特征。之后将任一情感标签的文本中同一粒度的文本单元进行平均处理，得到一组情感特征(包括各种粒度的文本单元分别对应的情感特征)，该一组情感特征对应的情感标签即为输入的文本的情感标签。

情感特征集中任一文本单元对应的情感特征具有强度，该强度用于表示情感特征所指示的情感的强弱程度，其可以通过情感特征的权重来表示。可选地，在提取得到情感特征集后，还可以对任一文本单元对应的情感特征的强度进行调节。示例地，可以基于接收到的对多个文本单元中的任一文本单元的调节指令，调节任一文本单元对应的情感特征的强度(即调节任一文本单元对应的情感特征的强度)。

103、根据至少一种音色、文本以及情感特征集，合成文本的配音。

示例地，请参考图4，图4为本申请实施例提供的一种合成文本的配音过程示意图，图4示出了文本转语音(Text To Speech，TTS)模型，将至少一种音色、文本以及情感特征集均输入TTS模型，TTS模型输出文本的配音。

可选地，TTS模型可以包括音色编码器、文本编码器、情感特征编码器、解码器以及声码器。请参考图5，图5为本申请实施例提供的另一种合成文本的配音过程示意图，图 5示出了音色编码器、文本编码器、情感特征编码器、解码器以及声码器。将至少一种音色输入音色编码器，音色编码器输出至少一种音色的编码。将文本输入文本编码器，文本编码器输出文本的编码。将情感特征集输入情感特征编码器，情感特征编码器输出情感特征集的编码。之后将至少一种音色的编码、文本的编码和情感特征集的编码进行融合，将融合后的至少一种音色的编码、文本的编码和情感特征集的编码输入解码器，解码器输出声学特征。将声学特征输入声码器，声码器输出文本的配音。

其中，音色编码器可以将每种音色编码为一个二进制序列。文本编码器可以采用变换网络中的编码(Encoder)结构或者Tacotron2网络(一种声谱预测网络)中的卷积结构和 LSTM结构进行文本的编码。情感特征编码器可以采用变分自编码器(Variational AutoEncoder，VAE)对情感特征集进行编码。解码器可以采用自回归方式对融合后的至少一种音色的编码、文本的编码和情感特征集的编码进行解码。

需要说明的是，当前述过程102中对情感特征集进行了更新时，在该过程103中需要根据至少一种音色，文本以及更新后的情感特征集，合成文本的配音。

104、从文本中提取至少一个位置关键词，位置关键词用于指示方位和/或距离信息。

当文本的配音类型为单人朗读类型时，可以直接从文本中提取至少一个位置关键词。当文本的配音类型为多人对白类型时，在提取得到位置关键词后可以将位置关键词与对应对白内容的角色进行绑定。对于文本中对应旁白内容的角色，可以不确定角色对应的位置关键词，也可以将任意位置关键词或默认位置关键词确定为角色对应的位置关键词，默认位置关键词可以是用户设置的。

其中，位置关键词用于指示对应的角色的方位和/或距离信息。方位例如可以包括上方、下方、前方、后方、左边、右边、左前、左后以及右前等，距离信息例如可以包括远处以及近处等。示例地，位置关键词可以包括飞身跃上，飞身跃上指示上方方位。

可选地，配音装置可以预先建立有位置关键词数据库，位置关键词数据库存储有多个位置关键词，将位置关键词数据库与文本进行配对，从而提取得到文本中的位置关键词。

对于多人对白类型的文本的配音，配音装置可以进一步根据位置关键词在文本中的位置确定位置关键词在文本中的所处句子，再根据其所处句子的语义信息确定位置关键词对应的角色。配音装置可以通过位置关键词提取模型执行该过程，位置关键词提取模型可以包括基于BERT框架的深度学习网络。

需要说明的是，若提取得到的位置关键词中不存在某一角色对应的位置关键词，可以将任意位置关键词或默认位置关键词确定为某一角色对应的位置关键词，默认位置关键词可以是用户设置的。

105、利用至少一个位置关键词对配音进行渲染。

当文本的配音类型为单人朗读类型时，可以按照至少一个位置关键词在文本中的位置顺序，对文本的配音依次进行渲染。示例地，每个位置关键词对应有渲染方式，以按照在文本中的位置顺序依次排列的第一位置关键词和第二位置关键词为例，可以采用第一位置关键词对应的渲染方式，对第一关键词所处的位置与第二位置关键词所处的位置之间的文本内容的配音进行渲染。

当文本的配音类型为多人对白类型时，可以按照与角色绑定的位置关键词在文本中的位置顺序，对角色对应的对白内容的配音依次进行渲染。示例地，每个位置关键词对应有渲染方式，以绑定任一角色且按照在文本中的位置顺序依次排列的第一位置关键词和第二位置关键词为例，可以采用第一位置关键词对应的渲染方式，对第一位置关键词所处的位置与第二位置关键词所处的位置之间的该任一角色对应的对白内容的配音进行渲染。

以下以HRTF算法为例对渲染过程进行说明，HRTF算法是通过以下公式进行配音的渲染的：

其中i∈{L，R}，X_L(t)表示用于用户的左耳收听的配音信号，X_R(t)表示用于用户的右耳收听的配音信号。h_L(t)和h_R(t)分别表示左耳和右耳对应的传递函数，x(t)表示渲染前的配音信号。其中，h_L(t)或h_R(t)与方位和/或距离信息有关。配音装置中可以预先存储有多个左声道的传递函数h_L(t)以及右声道的传递函数h_R(t)，每个h_L(t)或h_R(t)对应方位和/或距离信息。可以根据位置关键词确定方位和/或距离信息，再根据方位和/或距离信息从多种传递函数中确定对应的h_L(t)或h_R(t)。

利用至少一个位置关键词对配音进行渲染后，渲染后的文本的配音具有三维(three- dimensional，3D)效果，可以将配音的音效渲染到空间中任意一个位置，从而提高了收听配音的用户的沉浸感和代入感。

在本申请实施例中，配音装置可以通过用户界面(User Interface，UI)实现前述整个配音过程的可视化，并且在配音过程中可以通过UI与用户进行交互。用户可以通过可视化的UI在配音过程中对部分流程进行自定义设置，增强了配音的可玩性以及灵活性。示例地，用户可以通过UI调整任一角色对应的音色、任一文本单元对应的情感特征以及任一文本单元对应的情感特征的强度等。

以下以配音类型为多人对白类型为例对配音过程中的UI进行说明，请参考图6，图6 为本申请实施例提供的一种配音UI示意图，该界面a包括音色确定区域a1、角色配置区域a2以及情感合成区域a3。其中，音色确定区域a1包括文本子区域a11、“角色自动分析”对应的按键a12、“音色自动分配”对应的按键a13、以及“自定义音色”对应的按键 a14。角色配置区域a2包括依次排列的“角色”列、“性别”列、“年龄”列、“音色”列、“情感基调”列以及“情感基调强度”列。情感合成区域a3包括预览子区域a31、“情感分析”对应的按键a32、“配音导出”对应的按键a33、配音播放控制按钮a34以及配音播放进度条a35。

文本子区域a11用于供用户输入内容，配音装置将文本子区域a11获取到的内容确定为文本。当配音装置自动获取文本时，文本子区域a11还用于显示获取到的文本内容。图6中文本子区域a11示出了文本，以下以文本子区域a11示出的文本为例对后续的配音过程进行说明。

音色确定区域a1中的“角色自动分析”对应的按键a12用于在接收到用户的触发动作时发送角色分析指令。配音装置基于接收到的角色分析指令提取文本子区域a11示出的文本中的至少一种角色，根据文本确定每种角色的角色属性，此处以角色属性包括性别和年龄为例，并确定至少一种角色在文本中分别对应的内容。该过程可以参考前述过程101，本申请实施例在此不做赘述。

配音装置提取得到的至少一种角色的名称、性别和年龄均可以显示在角色配置区域a2。如图6所示，配音装置提取得到的至少一种角色包括人物A、人物B、人物C、人物D和旁白。人物A的性别为男，年龄为老年；人物B的性别为女，年龄为青年；人物C的性别为男，年龄为老年；人物D的性别为男，年龄为青年；旁白的性别和年龄均可选。角色配置区域a2中，五种角色的名称位于“角色”列(即第一列)，五种角色的性别位于“性别”列(即第二列)，五种角色的年龄位于“年龄”列(即第三列)。

配音装置确定的至少一种角色在文本中分别对应的内容可以显示在情感合成区域a3 的预览子区域a31中。至少一种角色在文本中对应的内容按照在文本中的位置顺序显示在预览子区域a31中。

音色确定区域a1中的“音色自动分配”对应的按键a13用于在接收到用户的触发动作时发送音色分配指令。配音装置基于接收到的音色分配指令确定至少一种角色分别对应的音色。该过程可以参考前述过程101，本申请实施例在此不做赘述。配音装置提取得到的至少一种角色对应的音色也可以显示在角色配置区域a2。如图6所示，人物A对应的音色为慈祥老年男声；人物B对应的音色为灵巧青年女声；人物C对应的音色为沉稳老年男声；人物D对应的音色为阳刚青年男声；旁白对应的音色为伪说书音色。五种角色对应的音色位于“音色”列(即第四列)。

音色确定区域a1中的“自定义音色”对应的按键a14用于在接收到用户的触发动作时发送自定义音色指令。配音装置基于接收到的自定义音色指令在音色确定区域a1中显示“上传音频”对应的窗口(图6未示出)。之后配音装置获取用户上传的音频，并对用户上传的音频的音色进行个性化定制，从而得到用户自定义的音色。

情感合成区域a3中的“情感分析”对应的按键a32用于在接收到用户的触发动作时发送情感分析指令。配音装置基于接收到的情感分析指令提取文本中的多个文本单元对应的情感特征集。该过程可以参考前述过程102，本申请实施例在此不做赘述。

可选地，配音装置还可以将角色对应的对白内容中最大粒度的文本单元对应的情感特征所对应的情感标签确定为角色的情感基调，文本中角色对应的所有对白内容均采用角色的情感基调。如前述所述，配音装置可以预先设置多个分别对应有情感标签的情感特征。在确定角色对应的最大粒度的文本单元对应的情感特征后，可以从多个分别对应有情感标签的情感特征中确定与角色对应的最大粒度的文本单元对应的情感特征最相似的情感特征，将最相似的情感特征对应的情感标签确定为角色的情感基调。至少一种角色的情感基调也可以显示在角色配置区域a2。如图6所示，人物A对应的情感基调为和蔼；人物B 对应的情感基调为撒娇；人物C对应的情感基调为城府老辣；人物D对应的情感基调为羞愧；旁白对应的情感基调可以自适应(例如由用户设置或者采用默认情感基调)。五种角色对应的情感基调位于“情感基调”列(即第五列)。

角色配置区域a2的“情感基调强度”列用于显示五种角色分别对应的情感基调的强度调节控件，任一角色对应的情感基调的强度调节控件用于在接收到用户的触发动作时发送情感基调的强度调节指令。配音装置基于接收到的情感基调的强度调节指令调节任一角色对应的情感基调的强度(即改变任一角色对应的最大粒度的文本单元对应的情感特征的权重值)。文本中任一角色对应的所有内容采用的情感基调的强度均为调节后的强度。

用户还可以改变任一文本单元对应的情感特征以及调节任一文本单元对应的情感特征所指示的情感的强弱程度。示例地，请参考图7，图7为本申请实施例提供的一种情感合成区域的示意图，用户可以选中任一文本单元(图7以“说不得”为例)，配音装置基于用户选中的任一文本单元显示情感调整子区域a36。情感调整子区域a36包括“情感加强”对应的按键a361、“情感减弱”对应的按键a362以及“情感设定”对应的按键a363。

其中，“情感加强”对应的按键a361用于在接收到用户的触发动作时发送对任一文本单元的情感加强指令。配音装置基于接收到的情感加强指令增大该任一文本单元对应的情感特征的强度。“情感减弱”对应的按键a362用于在接收到用户的触发动作时发送对任一文本单元的情感减弱指令。配音装置基于接收到的情感减弱指令减小该任一文本单元对应的情感特征的强度。“情感设定”对应的按键a363用于在接收到用户的触发动作时发送对任一文本单元的第一情感特征改变指令。配音装置基于接收到的第一情感特征改变指令显示预先存储的多个分别对应有情感特征的情感标签。在接收到针对任一情感标签的选择动作所触发的第二情感特征改变指令时，将任一文本单元对应的情感特征改变为第二情感特征改变所指示的情感标签所对应的情感特征。

配音播放控制按钮a34用于在接收到用户的触发动作时发送配音播放指令。配音装置基于接收到的配音播放指令根据至少一种音色、文本以及情感特征集，合成并播放文本的配音，合成配音的过程可以参考前述过程103，本申请实施例在此不做赘述。在播放配音的过程中，配音播放控制按钮a34还用于在接收到用户的触发动作时发送播放暂停或开始指令，配音装置基于接收到的播放暂停或开始指令暂停播放配音或重新开始播放配音。配音播放进度条a35用于在播放配音的过程中显示配音的播放进度。

情感合成区域a3中的“配音导出”对应的按键a33用于在接收到用户的触发动作时发送配音导出指令。配音装置基于接收到的配音导出指令生成配音文件并导出配音文件。

在得到文本的配音后，配音装置可以对文本的配音进行渲染，渲染的过程也可以通过 UI进行显示。示例地，请参考图8，图8为本申请实施例提供的一种渲染UI示意图，该界面b包括方位显示区域b1、方位示意区域b2、配音播放控制按钮b3以及配音播放进度条b4。

方位显示区域b1用于显示至少一种角色分别对应的方位和距离信息，该方位和距离信息可以是配音装置根据角色对应的位置关键词确定的。如图8所示，方位显示区域b1中显示了五种角色的方位和距离信息，人物A、B和D的方位为下方，距离信息为近处。人物C的方位为上方，距离信息为远处。旁白的方位为默认方位，距离信息为默认距离。方位示意区域b2用于显示至少一种角色在空间中的方位。

配音播放控制按钮b3用于在接收到用户的触发动作时发送配音播放指令。配音装置基于接收到的配音播放指令利用至少一个位置关键词对配音进行渲染，并播放渲染后的配音，渲染过程可以参考前述过程105，本申请实施例在此不做赘述。配音播放进度条b4用于在播放渲染后的配音的过程中显示配音的播放进度。

综上所述，本申请实施例提供的配音方法，先确定文本对应的至少一种音色，再提取文本中的多个文本单元对应的情感特征集，情感特征集包括多个文本单元分别对应的情感特征，多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度，之后根据至少一种音色、文本以及情感特征集，合成文本的配音。文本的配音与各种层级粒度的文本单元(包括词粒度、句子粒度、段落粒度以及篇章粒度)对应的情感特征有关，任一文本单元的配音不仅与其对应的情感特征有关，还与其所在的更大粒度的文本单元对应的情感特征有关，使得在文本的配音过程中，考虑到了词所在的句子、段落以及篇章之间的语义联系，在配音过程中无需参考其他音频，在准确提取角色、合理确定音色以及替代真人实现了文本中各个角色的情感配音基础上，实现了文本的配音中每相邻两个句子、每相邻两个段落以及每相邻两个篇章之间的配音的情感自然过渡和自然转换，保证文本的配音的情感能够更符合文本主体基调，从而准确地生成了情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。例如对于多人对白类型，对于文本中的各种角色，能够合成既符合文本主体基调且能够使情感随对白自然过渡和自然转换的文本配音。并且对于旁白对应的内容，其通常为对文本背景和情境的描述，本申请实施例中，对于旁白对应的内容也能够根据文本类型确定合适的音色，且文本的配音的情感能够随旁白对应的内容自然过渡和自然转换，使得旁白对应的内容的配音的情感也符合文本主体基调和当前语境。对于单人朗读类型，不仅能够根据文本的类型确定配音的音色，还可以合成契合文本主旨和情节变化的配音，使得在逐句以及逐段落的朗读过程中合成的配音的韵律接近真人，情感转变自然。

并且，在合成文本的配音后，还可以从文本中提取至少一个位置关键词，位置关键词用于指示方位和/或距离信息，之后利用至少一个位置关键词对配音进行渲染，渲染后的文本的配音具有3D效果，可以将配音的音效渲染到空间中任意一个位置，从而提高了收听配音的用户的沉浸感和代入感。

此外，配音装置可以通过UI实现整个配音过程的可视化，在配音过程中可以通过UI 与用户进行交互，用户可以可视化的UI在配音过程中对部分流程进行自定义设置，增强了配音的可玩性以及灵活性。

本申请实施例提供的方法的先后顺序可以进行适当调整，过程也可以根据情况进行相应增减。例如前述过程101和过程102的顺序可以颠倒，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，本申请实施例对此不做限定。

上述对本申请实施例提供的配音方法进行了介绍。可以理解的是，为了实现上述功能，配音装置包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对配音装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图9为本申请实施例提供的一种配音装置的框图，在采用对应各个功能划分各个功能模块的情况下，配音装置200包括：

确定模块201，用于确定文本对应的至少一种音色；

第一提取模块202，用于提取所述文本中的多个文本单元对应的情感特征集，所述情感特征集包括所述多个文本单元分别对应的情感特征，所述多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度；

合成模块203，用于根据所述至少一种音色、所述文本以及所述情感特征集，合成所述文本的配音。

结合上述方案，请参考图10，图10为本申请实施例提供的另一种配音装置的框图，在图9的基础上，配音装置200还包括：

第二提取模块204，用于从所述文本中提取至少一个位置关键词，所述位置关键词用于指示方位和/或距离信息；

渲染模块205，用于利用所述至少一个位置关键词对所述配音进行渲染。

结合上述方案，所述文本包括至少一种角色对应的内容，所述第二提取模块204，具体用于从所述文本中提取所述角色对应的位置关键词，所述位置关键词用于指示对应的角色的方位和/或距离信息；

所述渲染模块205，具体用于利用所述位置关键词对所述文本的配音中对应的角色的配音进行渲染。

结合上述方案，所述多个文本单元包括第一粒度的文本单元和第二粒度的文本单元，所述第二粒度大于所述第一粒度，请参考图11，图11为本申请实施例提供的再一种配音装置的框图，在图9的基础上，配音装置200还包括：

组合模块206，用于将所述情感特征集中所述第一粒度的文本单元对应的情感特征与所述第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合，得到组合后的情感特征；

更新模块207，用于利用所述组合后的情感特征更新所述第一粒度的文本单元对应的情感特征，得到更新后的情感特征集；

所述合成模块203，具体用于根据所述至少一种音色，所述文本以及所述更新后的情感特征集，合成所述文本的配音。

结合上述方案，所述多个文本单元中存在句子粒度、段落粒度以及篇章粒度的文本单元，所述第一提取模块202，具体用于提取所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征；对所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征进行平均处理，得到所述句子粒度的文本单元对应的融合的词特征；基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征，得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征；基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征，得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征；基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征，得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征。

结合上述方案，所述第一提取模块202，具体用于将所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征输入句子模型，得到所述句子模型输出的所述多个文本单元中每个句子粒度的文本单元对应的情感特征，输入所述句子模型的所有融合的词特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；将所述多个文本单元中每个句子粒度的文本单元对应的情感特征输入段落模型，得到所述段落模型输出的所述多个文本单元中每个段落粒度的文本单元对应的情感特征，输入所述段落模型的所有情感特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；将所述多个文本单元中每个段落粒度的文本单元对应的情感特征输入篇章模型，得到所述篇章模型输出的所述多个文本单元中每个篇章粒度的文本单元对应的情感特征，输入所述篇章模型的所有情感特征按照对应的所述段落粒度的文本单元在所述文本中的位置顺序排列。

结合上述方案，所述文本包括至少一种角色对应的内容，所述确定模块201，具体用于确定所述文本中的至少一种角色分别对应的音色。

结合上述方案，所述至少一种角色包括目标角色，所述目标角色在所述文本中对应对白内容，所述确定模块201，具体用于根据所述文本确定所述目标角色的角色属性，所述角色属性包括以下至少一种：年龄范围、性别、职业；利用所述目标角色的角色属性确定所述目标角色对应的音色。

结合上述方案，请参考图12，图12为本申请实施例提供的又一种配音装置的框图，在图9的基础上，配音装置200还包括：

调节模块208，用于基于接收到的对所述多个文本单元中的任一文本单元的调节指令，调节所述任一文本单元对应的情感特征的强度。

图13为本申请实施例提供的一种配音装置的结构示意图。如图13所示，该配音装置 300包括处理器301，收发器302以及通信线路303。

其中，处理器301用于执行如图1所示的方法实施例中的任一步骤，且在执行诸如数据传输时，可选择调用收发器302以及通信线路303来完成相应操作。

进一步的，该配音装置300还可以包括存储器304。其中，处理器301，存储器304以及收发器302之间可以通过通信线路303连接。

其中，处理器301是中央处理器(central processing unit，CPU)、通用处理器网络处理器(network processor，NP)、数字信号处理器(digital signal processing，DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device，PLD)或它们的任意组合。处理器301还可以是其它具有处理功能的装置，例如电路、器件或软件模块，不予限制。

收发器302，用于与其他设备或其它通信网络进行通信，其它通信网络可以为以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN) 等。收发器302可以是模块、电路、收发器或者任何能够实现通信的装置。

收发器302主要用于信号/数据的收发，可以包括发射器和接收器，分别进行信号/数据的发送和接收；除信号/数据收发之外的操作由处理器实现，如信息处理，计算等。

通信线路303，用于在配音装置300所包括的各部件之间传送信息。

在一种设计中，可以将处理器看做逻辑电路，收发器看做接口电路。

存储器304，用于存储指令。其中，指令可以是计算机程序。

其中，存储器304可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器 (static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器 (double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DRRAM)。存储器304还可以是只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或其他磁存储设备等。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

需要指出的是，存储器304可以独立于处理器301存在，也可以和处理器301集成在一起。存储器304可以用于存储指令或者程序代码或者一些数据等。存储器304可以位于配音装置300内，也可以位于配音装置300外，不予限制。处理器301，用于执行存储器304中存储的指令，以实现本申请上述实施例提供的方法。

在一种示例中，处理器301可以包括一个或多个CPU，例如图13中的CPU0和CPU1。

作为一种可选的实现方式，配音装置300包括多个处理器，例如，除图13中的处理器301之外，还可以包括处理器307。

作为一种可选的实现方式，配音装置300还包括输出设备305和输入设备306。示例性地，输入设备306是键盘、鼠标、麦克风或操作杆等设备，输出设备305是显示屏、扬声器(speaker)等设备。

需要指出的是，配音装置300可以是终端设备、网络设备、中继设备、嵌入式设备、芯片系统或有图13中类似结构的设备。此外，图13中示出的组成结构并不构成对该配音装置300的限定，除图13所示部件之外，该配音装置300可以包括比图13所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请中描述的处理器和收发器可实现在集成电路(integrated circuit，IC)、模拟IC、射频集成电路、混合信号IC、专用集成电路(application specific integratedcircuit，ASIC)、印刷电路板(printed circuit board，PCB)、电子设备等上。该处理器和收发器也可以用各种 IC工艺技术来制造，例如互补金属氧化物半导体(complementarymetal oxide semiconductor， CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor，NMOS)、P型金属氧化物半导体(positive channel metal oxidesemiconductor，PMOS)、双极结型晶体管(Bipolar Junction Transistor，BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。

需要指出的是，配音装置300可以是任意类型的手持设备或固定设备，例如，笔记本电脑或膝上型电脑、手机、智能手机、平板或平板电脑、相机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备(例如，内容业务服务器或内容分发服务器)、广播接收设备、广播发射设备以及监控设备等等，并可以不使用或使用任意类型的操作系统。配音装置300也可以是云计算场景中的设备，例如云计算场景中的虚拟机等。在一些情况下，配音装置300可配备用于无线通信的组件。因此，配音装置300可以是无线通信设备。或有图13中类似结构的设备。此外，图13中示出的组成结构并不构成对该配音装置300的限定，除图13所示部件之外，该配音装置300可以包括比图13所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

配音装置300还可以是芯片系统，芯片系统可以由芯片构成，也可以包括芯片和其他分立器件。此外，本申请的各实施例之间涉及的动作、术语等均可以相互参考，不予限制。

图14为本申请实施例提供的另一种配音装置的结构示意图。该配音装置可适用于上述方法实施例所示出的场景中。为了便于说明，图14仅示出了配音装置的主要部件，包括处理器、存储器、控制电路、以及输入输出装置。处理器主要用于对通信协议以及通信数据进行处理，执行软件程序，处理软件程序的数据。存储器主要用于存储软件程序和数据。控制电路主要用于供电及各种电信号的传递。输入输出装置主要用于接收用户输入的数据以及对用户输出数据。

配音装置中，控制电路可以为主板，存储器包括硬盘，RAM，ROM等具有存储功能的介质，处理器可以包括基带处理器和中央处理器，基带处理器主要用于对通信协议以及通信数据进行处理，中央处理器主要用于对整个信号测试装置进行控制，执行软件程序，处理软件程序的数据，输入输出装置包括显示屏、键盘和鼠标等；控制电路可以进一步包括或连接收发电路或收发器，例如：网线接口等，用于发送或接收数据或信号，例如与其他设备进行数据传输及通信。进一步的，还可以包括天线，用于无线信号的收发，用于与其他设备进行数据/信号传输。

根据本申请实施例提供的方法，本申请还提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行本申请实施例任一所述的方法。

本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机或者具有信息处理能力的装置执行计算机程序或指令，以控制相关的硬件完成，该计算机程序或该组指令可存储于上述计算机可读存储介质中，该计算机程序或该组指令在执行时，可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的配音装置的内部存储单元，例如配音装置的硬盘或内存。上述计算机可读存储介质也可以是上述配音装置的外部存储设备，例如上述配音装置上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，上述计算机可读存储介质还可以既包括上述配音装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序或指令以及上述配音装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种配音方法，其特征在于，所述方法包括：

确定文本对应的至少一种音色；

提取所述文本中的多个文本单元对应的情感特征集，所述情感特征集包括所述多个文本单元分别对应的情感特征，所述多个文本单元中存在以下至少一种粒度的文本单元：词粒度、句子粒度、段落粒度、篇章粒度；

根据所述至少一种音色、所述文本以及所述情感特征集，合成所述文本的配音。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述文本中提取至少一个位置关键词，所述位置关键词用于指示方位和/或距离信息；

利用所述至少一个位置关键词对所述配音进行渲染。

3.根据权利要求2所述的方法，其特征在于，所述文本包括至少一种角色对应的内容，所述从所述文本中提取至少一个位置关键词，包括：

从所述文本中提取所述角色对应的位置关键词，所述位置关键词用于指示对应的角色的方位和/或距离信息；

所述利用所述至少一个位置关键词对所述配音进行渲染，包括：

利用所述位置关键词对所述文本的配音中对应的角色的配音进行渲染。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述多个文本单元包括第一粒度的文本单元和第二粒度的文本单元，所述第二粒度大于所述第一粒度，所述方法还包括：

将所述情感特征集中所述第一粒度的文本单元对应的情感特征与所述第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合，得到组合后的情感特征；

利用所述组合后的情感特征更新所述第一粒度的文本单元对应的情感特征，得到更新后的情感特征集；

所述根据所述至少一种音色、所述文本以及所述情感特征集，合成所述文本的配音，包括：

根据所述至少一种音色，所述文本以及所述更新后的情感特征集，合成所述文本的配音。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述多个文本单元中存在句子粒度、段落粒度以及篇章粒度的文本单元，所述提取所述文本中的多个文本单元对应的情感特征集，包括：

提取所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征；

对所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征进行平均处理，得到所述句子粒度的文本单元对应的融合的词特征；

基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征，得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征；

基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征，得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征；

基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征，得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征，得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征，包括：

将所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征输入句子模型，得到所述句子模型输出的所述多个文本单元中每个句子粒度的文本单元对应的情感特征，输入所述句子模型的所有融合的词特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；

所述基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征，得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征，包括：

将所述多个文本单元中每个句子粒度的文本单元对应的情感特征输入段落模型，得到所述段落模型输出的所述多个文本单元中每个段落粒度的文本单元对应的情感特征，输入所述段落模型的所有情感特征按照对应的所述句子粒度的文本单元在所述文本中的位置顺序排列；

所述基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征，得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征，包括：

将所述多个文本单元中每个段落粒度的文本单元对应的情感特征输入篇章模型，得到所述篇章模型输出的所述多个文本单元中每个篇章粒度的文本单元对应的情感特征，输入所述篇章模型的所有情感特征按照对应的所述段落粒度的文本单元在所述文本中的位置顺序排列。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述文本包括至少一种角色对应的内容，所述确定文本对应的至少一种音色，包括：

确定所述文本中的至少一种角色分别对应的音色。

8.根据权利要求7所述的方法，其特征在于，所述至少一种角色包括目标角色，所述目标角色在所述文本中对应对白内容，所述确定所述文本中的至少一种角色分别对应的音色，包括：

根据所述文本确定所述目标角色的角色属性，所述角色属性包括以下至少一种：年龄范围、性别、职业；

利用所述目标角色的角色属性确定所述目标角色对应的音色。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

基于接收到的对所述多个文本单元中的任一文本单元的调节指令，调节所述任一文本单元对应的情感特征的强度。

10.一种配音装置，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序或指令；

当所述一个或多个计算机程序或指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，包括计算机程序或指令，所述计算机程序或指令在计算机上被执行时，使得所述计算机执行权利要求1至9中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行权利要求1至9中任一项所述的方法。