CN114360485A

CN114360485A - 语音处理方法、系统、装置及介质

Info

Publication number: CN114360485A
Application number: CN202111619634.1A
Authority: CN
Inventors: 马达标; 张依桐; 李蒙; 叶峰
Original assignee: Beihai Qicheng Information and Technology Co Ltd
Current assignee: Beihai Qiang Information Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-15

Abstract

本发明涉及智能语音处理领域，针对现有的语音合成、识别等智能语音的处理中需要获取海量训练数据来训练、情感类训练数据质量较差处理困难、计算复杂且语音处理效率低等缺陷，提出了本发明语音处理方法、系统、装置及介质，旨在解决如何基于多模态算法模型实现语音处理，进而如何简化训练数据的获取难度和数量并降低计算复杂度，以及如何有效处理复杂数据提升数据质量和提升语音处理效率的技术问题。为此，本发明的方法利用多模态训练数据训练多模态模型并将不同模态的数据输入训练后的该模型中合成对应的每个用户的情感音频，无需高难度的数据获取和处理，简单、成本低、效率高、合成结果好。

Description

语音处理方法、系统、装置及介质

技术领域

本发明涉及语音处理领域，尤其是涉及情感的语音合成处理领域，具体而言，涉及一种语音处理方法、系统、装置及介质。

背景技术

在语音处理中，涉及情感的语音合成的处理，常见的方式如图1所示：将情感ID、文本、说话人ID等信息同时输送给编码器，然后编码器的输出再送入到统一的解码器从而获得处理后的数据，比如声学特征等，再将处理后的数据如声学特征输出到声码器，由这些声学特征数据合成相应的音频数据。这种方式，往往对数据质量的要求高，比如：如果需要合成说话人A的某个情感b，那么在对整个语音处理过程尤其是语音合成处理的模型算法进行训练时所使用的训练数据中，最好能够有大量的高质量的说话人A的关于b情感的数据，否则很难获得说话人A的b情感语音，或者得到的合成语音效果和质量差，效率低。可见，现有技术的语音的情感合成所需的数据获取难度大、并且语音合成时模型算法需要的训练数据的要求高，只要进行某个录音人的情感合成就需要某个录音人的大量多种情感数据、这些大量数据还对质量和数量均有高要求，不论是构建模型算法还是训练模型，难度大、效率低，过程复杂繁琐，计算复杂度高。因而，需要一种数据获取和处理简单有效、质量好、效率高的语音处理的方式，以便降低对数据的要求和依赖。

发明内容

针对现有技术中的上述缺陷，本发明提供了优化的语音处理方法、系统、装置及介质的技术方案，旨在解决如何基于多模态算法模型实现语音处理的技术问题；进一步，解决如何简化训练数据的获取难度和获取数量进而降低计算复杂度的技术问题；进而，还能解决如何有效处理复杂数据、提升数据质量、甚至提升语音处理效率的技术问题。

为了解决上述技术问题，本发明第一方面提出一种语音处理方法，包括：基于构建的多模态模型，利用多模态训练数据进行模型训练；将不同模态的数据输入到训练后的所述模型中进行语音合成处理，以获得对应的每个用户的音频。

优选地，基于构建的多模态模型，利用多模态训练数据进行模型训练，具体包括：每个所述多模态训练数据至少包括一个数据组合三元对；每个三元对中至少包含第一模态数据、第二模态数据和第三模态数据；将多模态训练数据的每个三元对中的第一模态数据、第三模态数据分别输入到所述多模态模型中，结合所述三元对中的第二模态数据以及梯度反转层进行模型训练。

优选地，将多模态训练数据的每个所述三元对中的第一模态数据、第三模态数据分别输入到所述多模态模型中，结合所述三元对中的第二模态数据以及梯度反转层进行模型训练，具体包括：根据对输入的所述第一模态数据进行主级解码和梯度反转层处理，预测所述第一模态数据对应的第二模态数据和第三模态数据；根据对输入的所述第三模态数据进行编码和梯度反转层处理，预测所述第三模态数据对应的第二模态数据；依次使用每个多模态训练数据进行模型训练，直到达到表示模型训练完成的预设条件。

优选地，根据对输入的所述第一模态数据进行主级解码和梯度反转层处理，预测所述第一模态数据对应的第二模态数据和第三模态数据，具体包括：将输入的所述第一模态数据编码后进行主级解码；将经主级解码获得的主级解码信息进行梯度反转层处理；根据经梯度反转层处理后的所述主级解码信息，预测输入的所述第一模态数据对应的第二模态数据和第三模态数据；根据对输入的所述第三模态数据进行编码和梯度反转层处理，预测所述第三模态数据对应的第二模态数据，具体包括：将输入的所述第三模态数据进行编码以获得相应的第三模态数据的特征编码；将所述第三模态数据的特征编码进行梯度反转层处理；根据经梯度反转层处理后的所述第三模态数据的特征编码，预测输入的所述第三模态数据对应的第二模态数据。

优选地，所述进行模型训练，还包括：结合经梯度反转层处理后的所述主级编码信息和所述第三模态数据的特征编码进行次级解码，以获得对应的声学特征。

优选地，依次使用每个多模态训练数据进行模型训练，直到达到表示模型训练完成的预设条件，具体包括：根据输入的所述多模态训练数据、预测的所述第一模态数据对应的第二模态数据和第三模态数据、预测的所述第三模态数据对应的第二模态数据、以及所述声学特征进行计算并调整所述模型的参数，直到计算结果符合所述预设条件，结束训练；其中，所述预设条件包括：基于所述模型的目标函数和/或损失函数的计算而预先设置的计算结果的规定范围。

优选地，所述模型至少包括：第一编码器、主解码器、第一判别器、第二编码器、第二判别器、以及次级解码器；所述进行模型训练还包括：由所述第一编码器将输入的所述第一模态数据进行编码，由所述主解码器接收所述第一编码器输出的编码进行主级解码，得到主级解码信息，以及由所述第一判别器根据接收的所述主解码器输出的并经梯度反转层处理后的所述主级解码信息进行预测；由所述第二编码器将输入的所述第三模态数据进行编码，得到特征编码，由所述第二判别器根据接收的所述第二编码器输出的并经梯度反转层处理后的所述特征编码进行预测；由一个或多个所述次级解码器结合接收的经梯度反转层处理后的所述主级解码信息和所述特征编码，进行次级解码。

优选地，还包括：所述多模态训练数据的三元对中，的第一模态数据为文本、第二模态数据为用户标识ID、第三模态数据为情感标识ID；所述第一编码器为文本编码器，所述第一判别器为说话人和情感判别器，所述第二编码器为情感编码器，所述第二判别器为说话人判别器；所述进行模型训练具体还包括：由所述文本编码器提取输入的文本的特征并进行编码，得到文本特征编码，并输出所述文本特征编码信息到所述主解码器；由所述主解码器对所述文本特征编码进行主级解码得到文本特征信息并经梯度反转层处理后输出到所述说话人和情感判别器；由所述说话人和情感判别器根据接收的经梯度反转层处理后的所述文本特征信息，预测输入的所述文本对应的用户和情感；由所述情感编码器接收输入的情感标识ID并进行编码，得到情感特征编码，并经梯度反转层处理后输出到所述说话人判别器；由所述说话人判别器根据接收的经梯度反转层处理后的所述情感特征编码，预测输入的所述情感标识ID对应的用户；由一个或多个所述次级解码器结合接收的经梯度反转层处理后的所述文本特征信息和所述情感特征编码进行次级解码。

优选地，将不同模态的数据输入到训练后的所述模型中进行语音合成处理，以获得对应的每个用户的音频，具体包括：输入不同的第三模态数据、第一模态数据到训练后的所述模型中，经所述模型的次级解码后，得到相应第二模态数据的声学特征；其中，所述第三模态数据包含与情感相关的数据；将每个声学特征进行情感语音合成处理，获得每个声学特征对应的用户的情感音频。

为了解决上述技术问题，本发明第二方面提出一种语音处理装置，包括：训练单元，用于基于构建的多模态模型，利用多模态训练数据进行模型训练；其中，所述多模态训练数据至少包括第一模态数据、第二模态数据和第三模态数据；合成单元，用于将不同模态的数据输入到训练后的所述模型中进行语音合成处理，以获得对应的每个用户的音频。

为了解决上述技术问题，本发明第三方面提出一种语音处理系统，包括：构建多模态模型，所述多模态模型至少包括：文本编码器、主解码器、说话人和情感判别器、情感编码器、说话人判别器、次级解码器以及声码器；所述主解码器分别连接所述文本编码器、所述说话人和情感判别器以及一个或多个所述次级解码器；所述情感编码器分别连接所述说话人判别器以及一个或多个所述次级解码器；所述声码器分别连接一个或多个所述次级解码器；其中，所述主解码器将解码得到的主级解码信息经梯度反转层处理后，分别输出到所述说话人和情感判别器和所述次级解码器；其中，所述情感编码器将编码得到的特征编码经梯度反转层处理后，分别输出到所述说话人判别器和所述次级解码器；以及，训练所述多模态模型，并通过训练后的所述多模态模型对输入的信息合成对应说话人的情感音频。

优选地，训练所述多模态模型，具体包括：获得多模态训练数据，所述多模态训练数据为包含文本、说话人ID和情感ID的三元对；所述文本编码器对输入的文本进行编码得到文本特征编码并将其输出到所述主解码器；所述主解码器对所述文本特征编码进行主级解码得到文本特征信息，由梯度反转层处理所述文本特征信息，并输出到所述说话人和情感判别器、以及所述次级解码器；所述说话人和情感判别器根据经梯度反转层处理后的所述文本特征信息，预测输入的所述文本对应的说话人及对应的情感；所述情感编码器对输入的情感标识ID进行编码得到情感特征编码，由梯度反转层处理所述情感特征编码，并输出到所述说话人判别器、以及所述次级解码器；所述说话人判别器根据经梯度反转层处理后的所述情感特征编码，预测输入的所述情感标识ID对应的说话人；所述次级解码器根据结合经梯度反转层处理后的所述文本特征信息和所述情感特征编码，进行次级解码以获得相应的声学特征；依次使用每个训练数据进行模型训练，直到达到表示模型训练完成的预设条件，结束训练；和/或，通过训练后的所述多模态模型对输入的信息合成对应说话人的情感音频，具体包括：输入不同的情感标识ID、文本到训练后的所述模型中，经所述模型的一个或多个次级解码器解码后，得到相应的一个或多个说话人的声学特征；将每个声学特征通过声码器进行情感语音合成处理，获得每个声学特征的对应的说话人的情感音频。

为了解决上述技术问题，本发明第四方面提出一种电子装置，其包括处理器以及存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行前述第一方面提出的方法。

为了解决上述技术问题，本发明第五方面提出一种计算机可读介质，该所述计算机可读介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现前述第一方面提出的方法。

为了解决上述技术问题，本发明第六方面提出一种计算机可执行程序，所述计算机可执行程序被执行时，实现前述的第一方面的方法。

本发明的一个实施方式通过对语音处理进行优化，构建基于多头结构即多模态的模型结构，优化或者说简化语音情感合成的处理，进而，结合梯度反转层GRL在语音处理的深度学习网络/模型中的应用，确保输出有效处理后的特征数据进行整体多模态模型的训练，更加快速便捷，即其无需高难度的数据获取和处理，简单、成本低、效率高、合成结果好。由此，简化获得数据方式降低了获取难度和复杂度，减少数据数量，从而不必获得海量数据尤其是每个用户比如每个说话人的各种类型的情感数据，也不必去处理这些数据以达到高质量、合适数量的各种方式带来的处理复杂有效性低、时间成本高等缺陷，仅需要通过获取一部分能获得的音频、文本等数据即可实现模型训练，从而能有效处理数据需求保证数据质量，避免繁琐的算法和大数据的计算量、降低了计算复杂度，进而提高智能语音处理的效率，提升语音智能处理性能。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是现有技术中语音处理时情感语音合成处理过程的例子的示意图；

图2是根据本发明的语音处理技术方案的实现原理的一个多模态模型的优选具体例子的示意图；

图3是根据本发明的语音处理方法的一个实施例的主要流程图；

图4是根据本发明的语音处理装置的一个实施例的结构框图；

图5是根据本发明的一种电子装置的一个示例性的实施例的结构框图；

图6是根据本发明的一个计算机可读介质的一个逻辑示例性的实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本发明针对现有技术中的语音处理实现了优化和创新，尤其对于在语音合成处理中的情感合成。传统语音的情感合成方式中，如果想实现情感合成，通常需要相同录音人、不同情感的大量录音来做训练数据，还需要这类数据质量高或者有效处理海量数据得到高质量的这类数据，也就是说，情感合成所需的数据要求较高，需要某个录音人的大量多种情感数据，对质量和数量均有要求；但这种数据实际上本身是很难收集的，一般情况下，往往只能收集到某个录音人的少数几种情感音频，例如：录音人A的平淡、开心情感音频，以及录音人B的愤怒、沮丧情感音频，无法每个人的所有情感音频都能获得，并且，数量也可能并不多。而一般情况下，可以收集到更多更大量的各种录音的人的各种各样的音频、文本等等，不同的录音人、不论含有情感的和不含有情感等等。

基于此，本发明的优化语音处理的技术方案的一个实施例中，通过基于多头结构即多模态的模型结构，优化或者说简化语音情感合成的处理，进而，结合梯度反转层GRL在语音处理的深度学习网络/模型中的应用，确保输出有效处理后的特征数据进行整体多模态模型的训练。由此，简化获得数据方式、降低数据获取难度和复杂度而仅获取部分可获得的音频、文本等数据即可，并能有效处理数据需求保证数据质量，避免繁琐的算法降低计算复杂度，进而提高语音处理的效率，提升语音智能处理性能。

其中，先说明一下各实施例中可能用到的一些技术词汇：

模态(Modality)：每一种信息的来源或者形式，都可以称为一种模态，例如：文本、语音/音频、听觉、嗅觉等都可以看作不同的模态。

梯度反转层(GRL：Gradient Reversal Layer)：机器学习的模型算法中，使用该层，能实现：在源域上训练、直接迁移到目标域上，要求目标域也要有尽可能好的表现，其本质上就是将在两种不同分布的数据集之间寻找一种“迁移”。在本发明的实施例的深度学习网络中使用该层，能够实现在训练深度学习网络时，将梯度的方向转置，以达到对抗学习的目的。如图2所示原理的例子，使用GRL，可以使得“主编码器”输出的文本特征不包含情感和说话人信息；而“情感编码器”输出的特征则将不包含说话人特征。

语音合成，又称文语转换(Text To Speech,TTS)，是一种可以将任意输入文本转换成相应语音的技术。本发明的语音处理方案的一个实施例中通过主要优化了语音合成时的用户的情感语音。

【实施例1】

下面结合图2、3所示的根据本发明技术方案的语音处理方法的一个实施例的主要流程图，对本发明的优化语音处理实现过程进行说明。

步骤S110，基于构建的多模态模型，利用多模态训练数据进行模型训练。

一个实施方式中，先构建多模态的模型，可以是语音处理的机器学习模型。具体地，可以包括语音识别、分析、合成等过程中常用的各种机器学习模型和/或模型的组合应用。进一步，可以是各种深度学习网络(即深度学习模型)和/或各种深度学习网络的结合，比如：构建自回归式模型或并行式模型的语音合成模型。

一个例子中，自回归式模型可以采用例如seq2seq结合注意力机制的编解码模型，其模型中可以使用LSTM、卷积网络、循环神经网络等实现编解码处理；而并行式模型可以采用例如FastSpeech模型，其具有前馈Transformer网络架构和/或一维卷积网络等。下面将主要以通过编码、解码实现语音处理尤其是语音合成的深度学习网络模型进行说明。该深度学习网络模型主要通过多模态或者说采用多头结构的模型结构。对各个单独的机器学习网络或模型的组合以及本身的结构不再赘述。

一个实施方式中，每个所述多模态训练数据至少包括一个数据组合三元对；每个三元对中至少包含第一模态数据、第二模态数据和第三模态数据。进一步，多模态训练数据例如第二模态数据可以为用户ID(具体可以是说话人ID)、第一模态数据可以为文本、第三模态数据可以为情感ID，即训练数据可以是任意的(文本、说话人ID、情感ID)三元对。

一个实施方式中，训练过程包括：将多模态训练数据的每个三元对中的第一模态数据、第三模态数据分别输入到所述多模态模型中，结合所述三元对中的第二模态数据以及梯度反转层进行模型训练。

具体地，可以根据对输入的所述第一模态数据进行主级解码和梯度反转层处理，预测所述第一模态数据对应的第二模态数据和第三模态数据，例如：将输入的所述第一模态数据编码后进行主级解码；将经主级解码获得的主级解码信息进行梯度反转层处理；根据经梯度反转层处理后的所述主级解码信息，预测输入的所述第一模态数据对应的第二模态数据和第三模态数据。还可以根据对输入的所述第三模态数据进行编码和梯度反转层处理，预测所述第三模态数据对应的第二模态数据，例如：将输入的所述第三模态数据进行编码以获得相应的第三模态数据的特征编码；将所述第三模态数据的特征编码进行梯度反转层处理；根据经梯度反转层处理后的所述第三模态数据的特征编码，预测输入的所述第三模态数据对应的第二模态数据。进而，还可以结合经梯度反转层处理后的所述主级编码信息和所述第三模态数据的特征编码进行次级解码，以获得对应的声学特征。

进一步，训练过程中依次使用每个多模态训练数据进行模型训练，直到达到表示模型训练完成的预设条件。例如：根据输入的所述多模态训练数据、预测的所述第一模态数据对应的第二模态数据和第三模态数据、预测的所述第三模态数据对应的第二模态数据、以及所述声学特征进行计算并调整所述模型的参数，直到计算结果符合所述预设条件，结束训练；其中，所述预设条件包括例如：基于所述模型的目标函数和/或损失函数的计算而预先设置的计算结果的规定范围。

一个实施方式中，基于构建的多模态模型，利用多模态数据结合GRL进行模型训练。具体例如：该多模态模型至少包括如下组成部分：所述模型至少包括：第一编码器、主解码器、第一判别器、第二编码器、第二判别器、以及次级解码器。其中，可以由所述第一编码器将输入的所述第一模态数据进行编码，可以由所述主解码器接收所述第一编码器输出的编码进行主级解码，得到主级解码信息，以及可以由所述第一判别器根据接收的所述主解码器输出的并经梯度反转层处理后的所述主级解码信息进行预测；还可以由所述第二编码器将输入的所述第三模态数据进行编码，得到特征编码，以及由所述第二判别器根据接收的所述第二编码器输出的并经梯度反转层处理后的所述特征编码进行预测；进一步，可以由一个或多个所述次级解码器结合接收的经梯度反转层处理后的所述主级解码信息和所述特征编码，进行次级解码。

进一步，结合图2所示优选具体多模态模型的例子，做进一步说明。该优选的例子中，训练数据包含的三元对为任意的(文本、说话人ID、情感ID)；而所述第一编码器为文本编码器，所述第一判别器为说话人和情感判别器，所述第二编码器为情感编码器，所述第二判别器为说话人判别器。具体过程如下：

S1、将输入多模态训练数据中的第一模态数据编码后进行主级解码。

例如：将训练数据三元对(三个不同类别的模态数据)中的文本输入到模型的编码器(即文本编码器)进行文本特征提取编码后得到第一编码特征信息，输出给模型的主解码器进行主级解码得到解码的文本特征信息。

S2、将由主级解码获得的主级解码信息通过梯度反转层GRL处理后，预测所述第一模态数据对应的第二模态数据和第三模态数据。

具体地，主级解码信息通过GRL处理后不包含与第二模态数据和第三模态数据相关的特征信息，优选地：由GRL排除主级解码信息中的第二模态数据、三模态数据；利用不包含第二模态数据、三模态数据的主级解码信息，预测主级解码信息对应的第二模态数据和第三模态数据。

例如：将主级解码后的主级解码文本特征信息经由GRL梯度方向转置，从中排除文本特征信息中包含的与情感和说话人有关的信息，将排除了情感和说话人信息的主级解码文本特征信息输出到说话人和情感判别器，通过该判别器预测该文本对应的说话人是谁以及对应的情感是哪个。

S3、将输入多模态训练数据中的第三模态数据进行编码以获得相应的第二模态数据编码特征，并通过梯度反转层GRL处理后，预测所述第三模态数据对应的第二模态数据。

例如：将训练数据三元对中的情感ID输入到模型的情感编码器进行编码获得情感特征，将情感特征经由GRL梯度方向转置，从中排除第二模态数据比如说话人特征，即使得情感特征不包含说话人特征，再将排除了说话人特征的情感特征的输出到说话人判别器，通过该判别器预测该情感标识信息/情感ID对应的说话人是谁，即这些情感特征来自哪个说话人。

S4、结合通过GRL处理后的第二模态数据编码特征、主级解码信息进行次级解码，以获得对应的声学特征。

例如：将经GRL处理后的情感特征和文本特征信息，输入到一个或多个次级解码器中，结合两种信息进行次级解码处理，得到对应的一个或多个声学特征。一个次级解码器对应一个用户，也就是说，一个次级解码器输出的声学特征就对应一个说话人。其中，该次级解码器获得的情感特征不包含说话人特征、而获得的文本特征信息不包含情感和说话人信息。

S5、训练时根据所述训练数据、所述模型的预测结果以及获得的所述声学特征，调整所述模型的参数，并且，直到达到模型训练完成的预设条件，结束训练，获得训练后的多模态模型；其中，所述预设条件包括：基于所述模型的目标函数和/或损失函数的计算而预先设置的计算结果的规定范围

例如：进行模型训练时，输入三元组中的文本和情感ID，在编码解码并由GRL排除特定的情感和说话人信息、说话人特征后，进行预测，根据预测结果和/或解码的声学特征等调整模型的参数，以便逐渐能满足预设的模型训练目标或者说预设条件，比如深度学习网络在训练过程中对损失函数、目标函数的计算和确认，直到达到预设条件比如损失函数或目标函数的规定范围等等，调整完参数，完成训练，结束训练。

由此，获得一训练后的多模态结构的语音处理的模型。

进一步，多模态模型还包括该声码器，与一个或多个次级解码器连接，并且，利用来自次级解码器输出的声学特征完成语音合成。

步骤S120，输入不同模态的数据到训练后的所述模型，以获得对应用户的情感音频。

一个实施方式中，输入不同的第三模态数据、第一模态数据到训练后的多模态结构的模型中，经所述模型的次级解码后，能得到相应第二模态数据的声学特征，进而经经由声码器合成该第二模态数据对应的情感音频即情感语音/声波。

例如：输入不同的情感ID、文本到该训练后的多模态结构的模型中。情感ID通过情感编码器得到情感编码特征并由GRL排除说话人特征后提供给次级解码器，以及提供给说话人判别器预测情感来自哪个说话人；文本通过编码器提取特征编码再输入到主解码器进行解码获得文本特征信息并由GRL排除情感和说话人信息后，提供给次级解码器，以及提供给说话人和情感判别器预测文本来自哪个说话人以及哪个情感。其中，每个次级解码器对应每个说话人，解码输出的每个声学特征也与每个说话人对应。进一步，将各个声学特征输入到声码器中进行语音合成，此时由于预测出的说话人和对应的情感以及声学特征中包含的情感特征，进行语音合成能对应到相应的说话人，并合成出情感语音。

由此，通过少量训练数据进行模型训练即可提供不同用户的不同情感，即能够通过其他用户的情感数据丰富自身的情感数据，不必为每个不同用户去获取其全部情感数据再进行训练，降低了数据获取难度并减少了数据获取数量，同时，不必对过多的海量数据进行处理也提升了数据处理有效性，避免了复杂的数据处理，有助于提升数据质量或无需对训练数据提出过多的各种要求；通过多头结构的模型算法设计，并行计算效率高且参考性强，优化了运算、减小复杂度，整体模型算法的速度得到提高进而提升了智能语音处理尤其是情感语音合成的效率和性能。

【实施例2】

下面参见图2所示的根据本发明的语音处理的技术方案实现的原理的一个语音处理系统涉及的多模态模型的优选具体例子，结合应用场景，对本发明的实现进行进一步说明。此处仅为一个具体应用例子，而非对本发明的实现方式的限制。

该例子中，可以看作一个语音处理系统，其中，前端的处理系统整体至少包括：

接收输入的文本的编码器；

连接编码器并接收编码器输出的编码信息的主解码器，将主解码器解码信息通过GRL的处理，再输入到：主解码器连接的说话人和情感判别器、以及次级解码器；

说话人和情感判别器接通过收到的解码信息进行判别，输出预测输入的文本信息所对应的说话人ID/用户ID和情感ID；

接收输入的情感标识信息即情感ID的情感编码器；

情感编码器对情感标识信息进行编码后输出情感特征编码信息，通过GRL的处理，再输入到：情感编码器连接的说话人判别器以及次级解码器；

说话人判别器通过收到的情感特征编码信息进行判别，输出预测输出的情感ID所对应的说话人ID/用户ID；

每个次级解码器将接收的来自主解码器的通过GRL处理的特征信息和来自情感编码器的通过GRL处理的特征信息进行解码处理，获得对应每个用户/每个说话人的声学特征1、2……N，即一个次级解码器对应一个用户/说话人的声学特征。

其中，后端的处理系统主要包括声码器，分别对每个次级解码器解码的每个用户的声学特征进行语音合成，输出具有情感的声波，即生成对应输入文本的用户的情感语音。

一个实施方式中，构建的该多模态的模型包括几个功能，如图2所示本发明技术方案的实现原理的一个应用场景的例子：

将文本输入到编码器中，由编码器提取输入文本的特征并将文本转化成上下文矢量。一个例子中，编码器比如：采用预处理网络结合GBHG模块，如：一系列非线性转换层，其将文本转化成嵌入矢量，并且，CBHG模块并结合注意力机制等将嵌入矢量转化成上下文矢量等；又比如：采用普通的LSTM和/或卷积网络、或全卷积网络等。

编码器输出的文本特征和/或其上下文矢量等编码信息输出到主解码器。主解码器根据上下文矢量等编码信息直接解码获得解码信息，例如解码出声谱图或梅尔频谱等各种语音信息。进一步，主解码器也可以结合注意力机制、采用基于卷积的和/或基于循环神经网络的解码器等，能更好地适应输入各种文本、提升语音处理整体过程的效率。

进一步，主解码器输出的语音信息包括抽象特征信息，将这些抽象特征信息输入到说话人和情感判别器，并且，这些抽象特征信息也输入到次级解码器1、次级解码器2、……次级解码器N以获得相应的声学特征1、声学特征2、……声学特征N。其中，N为大于等于1的自然数。

一个优选的例子，可以在训练整个多模态的模型时，将这些信息先传送到GRL进行梯度方向转置达到对抗学习的目的，从而使得主解码器输出的抽象特征信息(文本特征等)不再包含情感和说话人信息；再将不包含情感和说话人信息的抽象特征信息输出到说话人和情感判别器，以起到尝试让主解码器去迷惑说话人和情感判别器的效果，这样，说话人和情感判别器对获得的不带情感和说话人信息的抽象特征信息执行判别，预测这些抽象特征信息来自于哪个说话人(如：人A、B、……)以及哪个情感(如：情感a、b、c、……)。

将情感ID即情感标识信息，输入到情感编码器中，通过情感编码器输出情感编码信息。一个优选的例子，可以在训练整个多模态的模型时，输出的情感编码信息可以先传送到GRL进行梯度方向转置达到对抗学习的目的，从而使得情感编码器输出的情感编码信息中的抽象特征信息如情感特征信息不包含说话人特征或者说话人信息；再将不包含说话人信息的情感特征信息输出到说话人判别器，以起到尝试让情感编码器去迷惑说话人判别器的效果，这样，说话人判别器对来自情感编码器输出的情感特征进行判别后预测这些抽象特征来自于哪个说话人即哪个用户。

次级解码器，可以有一个至多个，如图所示1、2、……N个。每个次级解码器对应每个用户，如：一个次级解码器对一个说话人。每个次级解码器得到的来自主解码器输出的抽象特征信息中，主要包含两种信息：一种是不包含情感和说话人信息的文本特征，另一种是仅仅不包含说话人信息的情感特征，优选地，是主解码器解码后通过GRL处理后的各个文本特征信息(其不包含情感和说话人信息)以及情感编码器通过GRL处理后的各情感特征信息(其不包含说话人信息)。

进一步，次级解码器利用输入的这两种来自主解码器输出的抽象特征信息(其不包含情感和说话人信息)和情感编码器输出的抽象特征信息(其不包含说话人信息)，解码输出对应每个用户的声学特征，如图所示1、2……N个声学特征。进一步，每个次级解码器也可以采用如主解码器的结合注意力机制、采用基于卷积的和/或基于循环神经网络的解码器等，解码输出的每个声学特征可以是原始声谱图或梅尔频谱图等。

将解码的声学特征，如图所示表示每个用户比如：说话人1、2、……N对应的声学特征1、2、……N，输出到声码器，如自回归式声码器(例：Wavenet/FastWavenet、WaveRNN、SampleRNN等深度学习神经网络)、并行式声码器(例：ParallelWavenet、WaveGlow、FloWavenet等深度学习神经网络)、等等。进一步，声码器由这些神经网络模型实现语音合成，在本实施例，可以由这类卷积神经网络、循环神经网络等进行训练，有效提升网络模型的训练和后续合成的计算效率，尤其全卷积神经网络构建的声码器模型，速度更快。进一步，声码器能将每个用户或者说每个说话人各自的声学特征，进行语音合成，即快速生成对应每个用户/每个说话人的声学特征的语音波形，进而，输出合成的语音声波。由于每个声学特征来自次级解码器基于输入的含有情感特征编码的信息进行的解码，因而解码结果的每个声学特征中包含了相应的情感声学特征，这样，声码器合成时也包含了情感声学特征，合成的声波为包含情感的语音。

利用少量多模态的训练数据，即可对语音处理的上述前端和/或后端的处理系统或者说多模态结构的模型进行训练，确定训练后的模型的参数，从而使用训练后的模型对输入的多模态的数据例如用户(比如“说话人”)的文本数据，结合情感ID进行对应文本的用户(“说话人”)的语音处理，尤其是合成该用户的任意的情感语音，即便没有该用户的某个情感数据进行过训练，也同样能合成。

其中，训练数据可以是包含：文本、用户ID(比如：说话人ID)、情感ID的三元对。训练时，分别输入文本以及情感ID，预测输出的是用户ID和对应的情感ID，以及预测输出的是用户ID，而利用训练数据训练中不断调整参数，而利用解码出的声学特征合成的是该情感ID对应的该用户ID的情感语音，由此为目标进行训练，调整整个多模态模型的参数，比如达到预计的目标(例：最小化误差)等，主要是以达到模型损失函数或目标函数等预设的条件为准，确定完成训练。其中，模型的训练方式是一般性的深度学习网络训练方式。

将训练后的模型用于对输入模型的不同模态的数据比如文本数据、情感ID、用户ID等进行语音处理，例如情感语音合成，即可合成某说话人A的情感d的语音(如声学特征通过声码器生成语音、声波输出)。由此，能够有效降低情感合成对数据的要求。具体来说，就是如果训练数据中只有说话人A的b情感和说话人C的d情感，也能够在训练中通过预测说话人和对应的情感，不断接近目标以调整参数，每个说话人可以利用其他说话人的情感来丰富自身对应的情感，不同说话人能对应着更多其他情感；输入说话人的文本和情感ID等不同模态数据到训练后的模型中，在合成情感语音的时候也仍然能够很好的合成说话人A的d情感语音。

一个实施方式中，使用训练后的模型进行语音处理尤其是情感语音合成，具体可以是，当模型训练完成后，输入不同的情感ID、文本，对应的次级解码器会输出相应预测的说话人所对应的情感音频，比如输入文本预测说话人A及相应情感ID(例如情感d)，输入情感ID预测说话人A，通过输入的该文本经编码器编码、主解码器解码后的特征信息结合情感编码器的情感特征编码信息，在次级解码器解码得到声学特征，由该声学特征和预测的说话人A及对应的情感ID的情感d，合成说话人A的情感d语音。

这样，只要获得各种人的语音音频、文本信息就可以进行训练，无需去获取每个人所有情感的海量数据，也无需为了达到高质量高需求而复杂繁琐地处理数据，简化了数据获取和数据处理，提升了效率提高了数据实际处理的有效性，增强了整体语音处理尤其是情感语音合成的效率和性能。

进而，利用构建的基于多头结构(多模态结构)的情感合成模型，结合GRL和多头结构，降低情感合成对数据的各种质量数量的过多要求，减少由于这些要求带来的数据获取复杂繁琐、训练和算法运算效率低且复杂度高，性能低，避免了合成的针对用户的情感语音效果或结果较差的情况，有效优化了语音处理、语音合成尤其是情感语音合成方式。

【实施例3】

下面将结合图4所示根据本发明的语音处理装置的一个实施例的结构框图以及实施例1和2对本发明实现进行进一步说明。

训练单元410，用于基于构建的多模态模型，利用多模态训练数据进行模型训练。其具体功能和处理参见步骤S110的具体内容，在此不再赘述。

合成单元420，用于输入不同模态的数据到训练后的所述模型，以获得对应用户的情感音频。其具体功能和处理参见步骤S120的具体内容，在此不再赘述。

【实施例4】

具体地，还包括一种电子装置的一个实施例，其包括处理器以及存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被执行时使所述处理器执行如前述实施例1、2中涉及的本发明的方法的实施例步骤。

下面描述本发明的电子装置的一个实施例，该电子装置可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子装置的该实施例中描述的细节，应视为对于上述方法或装置/系统的实施例的补充；对于在本发明电子装置的实施例中未披露的细节，可以参照上述方法或装置/系统实施例来实现。

图5是根据本发明的一种电子装置的示例性实施例的结构框图。图5显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，该示例性实施例的电子装置200以通用数据处理设备的形式表现。电子装置200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元220存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行，使得所述处理单元210执行本发明各种实施方式的步骤。例如，所述处理单元210可以执行前述实施例1、2涉及的方法的各个步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子装置200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信，使得用户能经由这些外部设备300与该电子装置200交互，和/或使得该电子装置200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口250进行，还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，电子设备200中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

【实施例5】

具体地，还包括一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，其中，当所述一个或多个程序被处理器执行时，实现前述实施例1、2中涉及本发明的方法的实施例步骤。

图6是本发明的一个计算机可读介质实施例的示意图。如图6所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：服务端提供的配置服务管理，生成与域名相关的配置文件；当请求业务服务期间出现域名故障时，客户端通过根据所述配置文件进行的配置更新以实现域名访问的自动切换。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以执行计算机程序的方法、系统、电子装置或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。

通过前端判断逻辑控制与后端基于深度学习的动态语言模型根据领域信息的动态识别方式，能适应不同领域识别服务，简化了并减少了模型量或者说减少了服务器、服务引擎的配置需求，少量或单个模型即可应适应实际并发量；进而，结合领域信息的识别，更准确调用和匹配上参数和模型进行计算从而减少了计算资源浪费，并且，动态模型和领域信息的结合，实现了只需一个模型提供所有服务、提供识别服务的热切换，能直接进入匹配上的领域的语音识别服务的计算，即利用嵌入层Embedding模型结构的神经网络模型进行多语言模型切换和识别计算，由此也减少人工维护需求降低了人工成本；进一步，前端判断逻辑结合领域信息控制动态语言模型的方式，能有效应对长对话识别，尤其长对话量连续识别多领域的情形，根据已经发生的对话判断当前识别的语音所属领域而提供相应的不同领域的识别结果，有效实现多个领域交叉识别。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，包括：

基于构建的多模态模型，利用多模态训练数据进行模型训练；

将不同模态的数据输入到训练后的所述模型中进行语音合成处理，以获得对应的每个用户的音频。

2.如权利要求1所述的方法，其特征在于，基于构建的多模态模型，利用多模态训练数据进行模型训练，具体包括：

每个所述多模态训练数据至少包括一个数据组合三元对；

每个三元对中至少包含第一模态数据、第二模态数据和第三模态数据；

将多模态训练数据的每个三元对中的第一模态数据、第三模态数据分别输入到所述多模态模型中，结合所述三元对中的第二模态数据以及梯度反转层进行模型训练。

3.如权利要求1或2所述的方法，其特征在于，将多模态训练数据的每个所述三元对中的第一模态数据、第三模态数据分别输入到所述多模态模型中，结合所述三元对中的第二模态数据以及梯度反转层进行模型训练，具体包括：

根据对输入的所述第一模态数据进行主级解码和梯度反转层处理，预测所述第一模态数据对应的第二模态数据和第三模态数据；

根据对输入的所述第三模态数据进行编码和梯度反转层处理，预测所述第三模态数据对应的第二模态数据；

依次使用每个多模态训练数据进行模型训练，直到达到表示模型训练完成的预设条件。

4.如权利要求3所述的方法，其特征在于，

根据对输入的所述第一模态数据进行主级解码和梯度反转层处理，预测所述第一模态数据对应的第二模态数据和第三模态数据，具体包括：

将输入的所述第一模态数据编码后进行主级解码；将经主级解码获得的主级解码信息进行梯度反转层处理；根据经梯度反转层处理后的所述主级解码信息，预测输入的所述第一模态数据对应的第二模态数据和第三模态数据；

根据对输入的所述第三模态数据进行编码和梯度反转层处理，预测所述第三模态数据对应的第二模态数据，具体包括：将输入的所述第三模态数据进行编码以获得相应的第三模态数据的特征编码；将所述第三模态数据的特征编码进行梯度反转层处理；根据经梯度反转层处理后的所述第三模态数据的特征编码，预测输入的所述第三模态数据对应的第二模态数据。

5.如权利要求4所述的方法，其特征在于，所述进行模型训练，还包括：

结合经梯度反转层处理后的所述主级编码信息和所述第三模态数据的特征编码进行次级解码，以获得对应的声学特征。

6.如权利要求3至5任一项所述的方法，其特征在于，依次使用每个多模态训练数据进行模型训练，直到达到表示模型训练完成的预设条件，具体包括：

根据输入的所述多模态训练数据、预测的所述第一模态数据对应的第二模态数据和第三模态数据、预测的所述第三模态数据对应的第二模态数据、以及所述声学特征进行计算并调整所述模型的参数，直到计算结果符合所述预设条件，结束训练。

7.如权利要求3至6任一项所述的方法，其特征在于，

所述模型至少包括：第一编码器、主解码器、第一判别器、第二编码器、第二判别器以及次级解码器；

所述进行模型训练还包括：

由所述第一编码器将输入的所述第一模态数据进行编码，由所述主解码器接收所述第一编码器输出的编码进行主级解码，得到主级解码信息；所述第一判别器根据接收的所述主解码器输出的、并经梯度反转层处理后的所述主级解码信息进行预测；

由所述第二编码器将输入的所述第三模态数据进行编码，得到特征编码；所述第二判别器根据接收的所述第二编码器输出的并经梯度反转层处理后的所述特征编码进行预测；

由一个或多个所述次级解码器结合接收的经梯度反转层处理后的所述主级解码信息和所述特征编码，进行次级解码。

8.如权利要求7所述的方法，其特征在于，还包括：

所述多模态训练数据的三元对中的第一模态数据为文本、第二模态数据为用户标识ID、第三模态数据为情感标识ID；

所述第一编码器为文本编码器，所述第一判别器为说话人和情感判别器，所述第二编码器为情感编码器，所述第二判别器为说话人判别器；

所述进行模型训练具体还包括：

由所述文本编码器提取输入的文本的特征并进行编码，得到文本特征编码，并输出所述文本特征编码信息到所述主解码器；

由所述主解码器对所述文本特征编码进行主级解码得到文本特征信息并经梯度反转层处理后输出到所述说话人和情感判别器；

由所述说话人和情感判别器根据接收的经梯度反转层处理后的所述文本特征信息，预测输入的所述文本对应的用户和情感；

由所述情感编码器接收输入的情感标识ID并进行编码，得到情感特征编码，并经梯度反转层处理后输出到所述说话人判别器；

由所述说话人判别器根据接收的经梯度反转层处理后的所述情感特征编码，预测输入的所述情感标识ID对应的用户；

由一个或多个所述次级解码器结合接收的经梯度反转层处理后的所述文本特征信息和所述情感特征编码进行次级解码。

9.如权利要求1至8任一项所述的方法，其特征在于，将不同模态的数据输入到训练后的所述模型中进行语音合成处理，以获得对应的每个用户的音频，具体包括：

输入不同的第三模态数据、第一模态数据到训练后的所述模型中，经所述模型的次级解码后，得到相应第二模态数据的声学特征；所述第三模态数据包含与情感相关的数据；

将每个声学特征进行情感语音合成处理，获得每个声学特征对应的情感音频。

10.一种语音处理装置，其特征在于，包括：

训练单元，用于基于构建的多模态模型，利用多模态训练数据进行模型训练；其中，所述多模态训练数据至少包括第一模态数据、第二模态数据和第三模态数据；

合成单元，用于将不同模态的数据输入到训练后的所述模型中进行语音合成处理，以获得对应的每个用户的音频。

11.一种语音处理系统，其特征在于，包括：

构建多模态模型，所述多模态模型至少包括：

文本编码器、主解码器、说话人和情感判别器、情感编码器、说话人判别器、次级解码器以及声码器；

所述主解码器分别连接所述文本编码器、所述说话人和情感判别器以及一个或多个所述次级解码器；

所述情感编码器分别连接所述说话人判别器以及一个或多个所述次级解码器；

所述声码器分别连接一个或多个所述次级解码器；

其中，所述主解码器将解码得到的主级解码信息经梯度反转层处理后，分别输出到所述说话人和情感判别器和所述次级解码器；

其中，所述情感编码器将编码得到的特征编码经梯度反转层处理后，分别输出到所述说话人判别器和所述次级解码器；

以及，

训练所述多模态模型，并通过训练后的所述多模态模型对输入的信息合成对应说话人的情感音频。

12.如权利要求11所述的系统，其特征在于，

训练所述多模态模型，具体包括：

获得多模态训练数据，所述多模态训练数据为包含文本、说话人ID和情感ID的三元对；

所述文本编码器对输入的文本进行编码得到文本特征编码并将其输出到所述主解码器；

所述主解码器对所述文本特征编码进行主级解码得到文本特征信息，由梯度反转层处理所述文本特征信息，并输出到所述说话人和情感判别器、以及所述次级解码器；

所述说话人和情感判别器根据经梯度反转层处理后的所述文本特征信息，预测输入的所述文本对应的说话人及对应的情感；

所述情感编码器对输入的情感标识ID进行编码得到情感特征编码，由梯度反转层处理所述情感特征编码，并输出到所述说话人判别器、以及所述次级解码器；

所述说话人判别器根据经梯度反转层处理后的所述情感特征编码，预测输入的所述情感标识ID对应的说话人；

所述次级解码器根据结合经梯度反转层处理后的所述文本特征信息和所述情感特征编码，进行次级解码以获得相应的声学特征；

依次使用每个训练数据进行模型训练，直到达到表示模型训练完成的预设条件，结束训练；

和/或，

通过训练后的所述多模态模型对输入的信息合成对应说话人的情感音频，具体包括：

输入不同的情感标识ID、文本到训练后的所述模型中，经所述模型的一个或多个次级解码器解码后，得到相应的一个或多个说话人的声学特征；

将每个声学特征通过声码器进行情感语音合成处理，获得每个声学特征的对应的说话人的情感音频。

13.一种电子装置，包括处理器以及存储计算机可执行指令的存储器，其特征在于，所述计算机可执行指令在被执行时使所述处理器执行如权利要求1至9中任一项所述的方法。

14.一种计算机可读介质，其特征在于，所述计算机可读介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现权利要求1至9中任一项所述的方法。