CN117809615A

CN117809615A - 显示设备及声音克隆方法

Info

Publication number: CN117809615A
Application number: CN202310188978.4A
Authority: CN
Inventors: 朱飞
Original assignee: Vidaa Netherlands International Holdings BV
Current assignee: Vidaa Netherlands International Holdings BV
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2024-04-02

Abstract

本申请提供了一种显示设备及声音克隆方法，显示设备包括显示器、音频组件和控制器，控制器被配置为：响应于进入语音交互设置界面的用户操作，生成并控制显示器显示语音交互设置界面；响应于语言设置控件的触发操作，生成并控制显示器显示语言选择控件，获取用户触发的语言选择控件对应的语言标识，设置显示设备的播报语言为语言标识对应的语言；响应于连续命令控件的触发操作，生成并控制显示器显示音色选择控件，获取用户触发的音色选择控件对应的音色标识，设置显示设备的播报音色为音色标识对应的音色；控制音频组件通过播报语言播放音色标识对应音色的播报样例。本申请提高了跨语言声音克隆效果。

Description

显示设备及声音克隆方法

技术领域

本申请涉及语音交互技术领域，尤其涉及一种显示设备及声音克隆方法。

背景技术

在语音交互场景中，语音助手的音色是影响语音交互体验的重要因素，符合用户偏好的音色，能给用户带来良好的交互体验，有利于语音交互场景的推广和应用。由于不同的用户对语音助手的音色偏好存在差别，为适应不同用户，相关技术中，语音助手的设置界面设置了多种音色供用户选择，然而，这些音色通常是单一语言，即默认语言的音色，不能满足用户对多语言音色的追求。

发明内容

为解决上述技术问题，本申请提供了一种显示设备及声音克隆方法。

第一方面，本申请提供了一种显示设备，所述显示设备包括：

显示器；

音频组件；

控制器，与所述显示器和音频组件通信连接，所述控制器被配置为：

响应于进入语音交互设置界面的用户操作，生成并控制所述显示器显示所述语音交互设置界面，所述语音交互设置界面包括语言设置控件和连续命令控件；

响应于所述语言设置控件的触发操作，生成并控制所述显示器显示语言选择控件，获取用户触发的语言选择控件对应的语言标识，设置所述显示设备的播报语言为所述语言标识对应的语言；

响应于所述连续命令控件的触发操作，生成并控制所述显示器显示音色选择控件，获取用户触发的音色选择控件对应的音色标识，设置所述显示设备的播报音色为所述音色标识对应的音色；

控制所述音频组件通过所述播报语言播放所述音色标识对应音色的播报样例。

在一些实施例中，所述语音交互设置界面包括语音反馈控件，所述控制器被配置为：

在所述语音反馈控件为开启状态时，设置所述音色选择控件包括开启状态和关闭状态；

在所述语音反馈控件为关闭状态时，设置所述音色选择控件包括所述关闭状态，不包括所述开启状态。

在一些实施例中，所述控制器还被配置为：

响应于用户输入的语音指令，获取所述语音指令对应的播报文本；

控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本。

在一些实施例中，所述控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本，包括：

获取根据所述音色标识、语言标识和播报文本合成的播报音频；

控制所述音频组件播放所述播报音频。

在一些实施例中，所述获取根据所述音色标识、语言标识和播报文本合成的播报音频，包括：

根据说话人音频对应的音色特征向量和播报文本进行语音合成，得到所述播报音频，其中，所述说话人音频为所述用户触发的音色选择控件对应音色的源音频，所述音色特征向量的获取方法包括：

获取音频训练样本的频谱特征；

构建包括音频编码器和文本编码器的说话人编码器模型，通过所述音频编码器得到所述频谱特征的第一特征向量和第二特征向量，通过所述文本编码器得到所述文本的特征向量；

根据所述文本的特征向量和所述第二特征向量得到第三特征向量；

计算所述第一特征向量对应的第一损失函数、所述第三特征向量与所述音频训练样本的语言标识对应的第二损失函数，以及所述第二特征向量相对所述第一特征向量的第三损失函数；

对所述说话人编码器模型进行模型训练；

将所述说话人音频输入所述音频编码器，得到所述说话人音频对应的音色特征向量。

第二方面，本申请提供了一种声音克隆方法，该方法包括：

获取音频训练样本的频谱特征；

对所述说话人编码器模型进行模型训练；

将说话人音频输入所述音频编码器，得到所述说话人音频对应的音色特征向量；

根据所述音色特征向量和目标语言的文本进行语音合成，得到目标音频。

在一些实施例中，所述音频编码器包括第一长短期记忆网络层模块、第一多层感知层模块、第二多层感知层模块、第一Relu激活层模块和第二Relu激活层模块，其中，所述第一长短期记忆网络层模块的输入端用于输入所述频谱特征，输出端连接所述第一多层感知层模块，所述第一多层感知层模块连接所述第一Relu激活层模块，所述第二多层感知层模块连接所述第二Relu激活层模块，所述第一特征向量通过所述第一Relu激活层模块输出，所述第二特征向量通过所述第二Relu激活层模块输出。

在一些实施例中，所述第一多层感知层模块和第二多层感知层模块均包括依次连接的线性变换层、ReLU激活层、线性变换层、ReLU激活层、线性变换层。

在一些实施例中，所述文本编码器包括第二长短期记忆网络层模块、第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块，其中，所述第二长短期记忆网络层模块用于输入所述音频训练样本对应的文本，输出端连接所述第三多层感知层模块，所述第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块依次连接，所述连接层模块还与所述第二多层感知层模块连接，所述文本的特征向量通过所述第三多层感知层模块输出。

在一些实施例中，所述第一损失函数通过softmax损失函数计算，所述第二损失函数通过余弦相似度损失函数计算，所述第三损失函数通过交叉熵损失函数计算。

本申请提供的显示设备及声音克隆方法的有益效果包括：

本申请实施例提供的显示设备，语音交互设置界面设置有语言设置控件和音色选择控件，用户可通过语言设置控件设置语音助手的语言，通过音色选择控件设置语音助手的音色，从而通过对语言设置控件和音色选择控件的设置，实现了对语音助手的语言和音色组合方式的自定义，能够满足用户对特定语言和特定音色的需求，提升了语音交互体验；本申请实施例提供的声音克隆方法，构建了解耦音色特征和语言特征的说话人编码器模型，该说话人编码器模型通过音频训练样本的频谱特征进行特征提取得到第一特征向量和第二特征向量，通过将音频训练样本对应的文本进行特征提取得到第三特征向量，通过计算第一特征向量对应的第一损失函数，第三特征向量相对所述第一特征向量的第三损失函数，并通过将第三特征向量、语言标识和第二特征向量进行融合后计算第二损失函数，使得第二损失函数能够表征第一特征向量和第二特征向量的差异性，而第三损失函数能够表征语言特征的损失，从而第一损失函数能够准确地表征解耦语言特征后的音色特征的损失，通过多次模型训练后得到的说话人编码器模型，能够输出解耦语言特征的音色特征对应的第一特征向量，利用该第一特征向量作为音色特征向量进行说话人的声音克隆，得到的语音纯净度较高，跨语言的语言偏差影响较小，语音质量佳。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的语音识别装置的系统架构示意图；

图2中示例性示出了根据一些实施例的智能设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的智能设备200的硬件配置框图；

图4中示例性示出了根据一些实施例的智能电视200-1的逻辑架构示意图；

图5中示例性示出了根据一些实施例的语音识别应用设置界面示意图；

图6中示例性示出了根据一些实施例的声音克隆方法的软件架构示意图；

图7中示例性示出了根据一些实施例的说话人编码器模型的网络结构示意图；

图8中示例性示出了根据一些实施例的LSTM的结构示意图；

图9中示例性示出了根据一些实施例的声音编码器的批次训练示意图；

图10中示例性示出了根据一些实施例的TTS模型的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1示出了可以应用本申请的语音识别方法和语音识别装置的示例性系统架构。如图1所示，其中，10为服务器，200为终端设备，示例性包括(智能电视200a,移动设备200b,智能音箱200c)。

本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备20提供各种内容和互动。示例性的，终端设备200与服务器10可以通过发送和接收信息，以及接收软件程序更新。

服务器10可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200、201、202为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

在一些实施例中，本申请实施例所提供的声音克隆方法可以通过服务器10执行。

图2示出了根据示例性实施例中智能设备200的硬件配置框图。如图2所示智能设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。智能设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。

用户接口，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。智能设备200可以设置至少一个麦克风。在另一些实施例中，智能设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，智能设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在智能设备200上，或者麦克风通过有线或者无线的方式与智能设备200相连接。当然，本申请实施例对麦克风在智能设备200上的位置不作限定。或者，智能设备200可以不包括麦克风，即上述麦克风并未设置于智能设备200中。智能设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在智能设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制智能设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，智能设备的操作系统为Android系统为例，如图3所示，智能电视200-1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现智能电视200-1与服务器10的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，智能设备200中的语音识别应用启动，智能设备200与服务器10建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将智能设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。

参见图4，图4为本申请实施例提供的一种语音交互网络架构示意图。图4中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示智能设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图4所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，智能设备可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图，

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

[语言生成]

自然语言生成(NLG)被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中，闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等，然后生成开放性回复；任务型对话中需根据学习到的策略来生成对话回复，一般回复包括澄清需求、引导用户、询问、确认、对话结束语等；知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等)；推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序，然后生成给用户推荐的内容。

[语音合成]

语音合被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，参见图5，显示设备的语音识别应用设置界面可设置有语音助手选择控件301、语言设置控件302、连续命令控件303、音色选择控件304和语音反馈控件305，用户可通过语音助手选择控件301启用一个语音助手，通过语言设置控件302可设置语音助手的语言，通过音色选择控件304可设置语音助手的音色。

其中，音色选择控件304可在连续命令控件303触发后展示，语言设置控件302触发后可显示多个对应不同语言的语言选择控件供用户选择，不同音色选择控件304对应不同的音色标识，如音色码，不同语言选择控件对应不同的语言标识，如语言码。

语音反馈控件305包括开启状态和关闭状态，当语音反馈控件305为开启状态时，音色选择控件304的状态可设置为开启状态或关闭状态，当语音反馈控件305为关闭状态时，音色选择控件304的状态可设置为关闭状态，不能设置为开启状态。

当用户通过语言设置控件302启用一种语言，设置语音反馈控件305为开启状态，通过触发其中一个音色选择控件304，将其设置为开启状态后，显示设备将用户选择的语言码、音色码进行存储，语音助手将采用该语言码对应语言、该音色码对应音色与用户进行交互，交互内容包括播报样例、对用户的提问对应的答案进行语音播放，与用户进行聊天等等。示例性地，在图5中，用户可选择语音助手用Woman1的声色以汉语进行交互，还可选择语音助手用Woman1的声色以英语进行交互。

为了满足不同用户对音色的偏好，语音识别应用可预先设置多种音色供用户选择，用户也可联网获取更多音色。

服务器为生成一种特定音色的语音包，如某个明星的语音包，可根据该明星的一段录音进行声音克隆，模拟该明星的音色，得到该音色的语音包。声音克隆的核心技术一般都是使用一个说话人编码器(speaker encoder)去学习到合适的能够表征说话人音色的特征表示。当一个陌生的录音数据输入时，该说话人编码器能够提取录音数据特征，得到相应的说话人音色特征向量speaker embedding，将该特征输入到多说话人语音合成模型(multi-speaker TTS)模型中，即可输出该音色的语音。

在一些实施例中，该音色特征向量以及该音色的语音生成过程也可由显示设备生成。

为得到同一人物不同语言的语音包，可将提取到的该人物的音色特征应用于多种语言的声音克隆。然而，直接基于该人物的录音提取音色特征，提取到的音色特征通常会包含了较多地语言特征，如果将该音色特征用于语言与该录音相差较大的语言，则会导致生成的语音质量变差。例如，一个人物的录音为中文录音，提取出的音色特征可能会包含了中文的一些语气、语调等语言特征，将基于该录音提取出的音色特征用于生成法语的语音包，则由于中文和法语的语言在语气、语调上存在的偏差，会导致生成的语音包质量不佳。

为了提高同一声色的语音助手跨语言声音克隆效果，本申请实施例提供了一种声音克隆方法，该声音克隆方法通过说话人编码器模型将音色特征和语言特征进行解耦，使得说话人编码器模型输出的音色特征向量与说话人的语言关联度较小，利用该音色特征向量进行跨语言声音克隆的效果较佳。

参见图6，为根据一些实施例的声音克隆方法的流程示意图，如图6所示，该声音克隆方法可包括如下步骤：

步骤S401：获取音频训练样本的频谱特征。

在一些实施例中，可将音频训练样本切分成定长的片段(比如1600ms)，然后利用librosa等工具提取每个片段的频谱图矩阵(长度为L，维度为40)，得到表征频谱特征的L×40的音频信号。

步骤S402：构建包括音频编码器和文本编码器的说话人编码器模型，通过所述音频编码器得到所述频谱特征的第一特征向量和第二特征向量，通过所述文本编码器得到所述文本的特征向量。

在一些实施例中，说话人编码器模型包括音频编码器和文本编码器，音频编码器用于获取音频训练样本的频谱特征对应的特征向量。由于音频训练样本中的频谱特征包含了提供该音频训练样本的人物的音色特征和语言特征，为了解耦音色特征和语言特征，本申请实施例的音频编码器可包括具有两个输出端的网络结构，或包括两个独立的网络结构，以输出频谱特征对应的两个特征向量：第一特征向量和第二特征向量，其中一个特征向量，如第一特征向量用于表征音色特征，另一个特征向量，如第二特征向量用于表征语言特征。

在音频编码器在未进行训练之前，第一特征向量和第二特征向量可能会同时包含音色特征和语言特征，本申请通过后续损失函数的设置以及不断的迭代训练，可优化音频编码器，使得第一特征向量包含较多地音色特征，第二特征向量包含较多地语言特征。

示例性地，音频编码器可包括长短期记忆网络层、两个多层感知层和两个Relu激活层，长短期记忆网络层分别连接两个多层感知层，两个多层感知层各连接一个Relu激活层。两个Relu激活层分别输出第一特征向量和第二特征向量。

在一些实施例中，文本编码器用于对音频训练样本对应的文本进行特征提取，得到文本的特征。相对而言，通常文本包含了较多地语言特征，较少地包含了音色特征，而语言标识仅包含语言特征，不包含音色特征。其中，语言标识可为语言码，预先可设置多种语言对应的语言码。

示例性的，文本编码器包括长短期记忆网络层、长短期记忆网络层、连接层、线性层和Relu激活层，长短期记忆网络层依次连接多层感知层、连接层、线性层和Relu激活层，连接层还与文本编码器的一个多层感知层连接。

步骤S403：根据所述文本的特征向量和所述第二特征向量得到第三特征向量。

在一些实施例中，由于第三特征向量的目标是表征语言特征，因此，根据文本的特征向量和第二特征向量得到的第三特征向量可用于表征语言特征。

在一些实施例中，可将文本的特征向量和第二特征向量进行拼接，得到第三特征向量。

在一些实施例中，可将文本的特征向量和第二特征向量对应的多层感知层的输出向量进行拼接，得到第三特征向量。

步骤S404：计算所述第一特征向量对应的第一损失函数、所述第二特征向量与所述音频训练样本的语言标识对应的第二损失函数，以及所述第二特征向量相对所述第一特征向量的第三损失函数。

在一些实施例中，可通过softmax损失函数计算第一损失函数，根据交叉熵损失函数计算第二损失函数，根据第一特征向量和第二特征向量的余弦相似度计算第三损失函数。

相对而言，通常文本包含了较多地语言特征，较少地包含了音色特征，而语言标识仅包含语言特征，不包含音色特征，因此，利用第三特征向量和语言码对应的损失函数来更新音频编码器的网络参数，可使音频编码器输出的第一特征向量包含较多地音色特征，第二特征向量包含较多地语言特征。

步骤S405：对所述说话人编码器模型进行模型训练。

在一些实施例中，可预先规定第一损失函数、第二损失函数和第三损失函数相应的损失阈值，或规定说话人编码器模型的预设迭代次数，在第一损失函数、第二损失函数和第三损失函数均达到相应的损失阈值，或说话人编码器模型的迭代次数达到预设迭代次数后停止对说话人编码器模型进行模型训练。

在一些实施例中，还可计算说话人编码器模型的总损失，该总损失为第一损失函数、第二损失函数和第三损失函数的和，预先规定总损失的预设阈值，在总损失达到该预设阈值后停止对说话人编码器模型进行模型训练。

在一些实施例中，还可在总损失达到预设阈值，且第一损失函数、第二损失函数和第三损失函数均达到相应的损失阈值后停止对说话人编码器模型进行模型训练。

步骤S406：将说话人音频输入所述音频编码器，得到所述说话人音频对应的音色特征向量。

在一些实施例中，将说话人编码器模型训练完毕后，将说话人音频输入说话人编码器模型，通过说话人编码器模型中的音频编码器可输出包含了较多音色特征的第一特征向量，作为该说话人的音色特征向量。在TTS模型，基于第一特征向量进行语音克隆，可得到跨语言质量较佳的语音包。

步骤S407：根据所述音色特征向量和目标语言的文本进行语音合成，得到目标音频。

在一些实施例中，将第一特征向量和目标文本输入TTS模型，TTS模型可输出说话人音频的音色对应的语音，语音内容为该目标文本。

为对本申请实施例提供的声音克隆方法做进一步说明，下面将对本申请实施例中的网络模型结构进行介绍。

参见图7，为根据一些实施例的说话人编码器模型的网络结构示意图，如图7所示，说话人编码器模型可为双塔结构，左塔为音频编码器，右塔为文本编码器。

在一些实施例中，音频编码器可包括第一长短期记忆网络层模块、第一多层感知层模块、第二多层感知层模块、第一Relu激活层模块和第二Relu激活层模块。

在一些实施例中，第一长短期记忆网络层模块可包括三个LSTM(Long Short-TermMemory，长短期记忆网络)层。LSTM是一种解决时序编码的网络结构，包括多个单元5011，其中每个单元)的内部结构如图8所示。每个单元5011接收当前时刻的输入x_t和上一个单元的输出C_t-1和h_t-1，进行如下公式计算后，输出C_t和_ht-1，计算公式如下：

f_t＝σ(W_f·[C_t-1，h_t-1，x_t]+b_f)

i_t＝σ(W_i·[C_t-1，ht_-1，x_t]+b_i)

o_t＝σ(W_o·[C_t，h_t-1，x_t]+b_o)

示例性的，每一层LSTM的单元个数是256。将音频训练样本切分成定长的片段(比如1600ms)，然后利用librosa等工具提取每个片段的频谱图矩阵(长度为L，维度为40)，得到L×40的音频信号，将该音频信号输入3层LSTM后，输出向量为L×256，然后取最后一个位置的向量x(维度为1×256)输入到第一多层感知层模块、第二多层感知层模块。

在一些实施例中，第一多层感知层模块可称为MLP(Multilayer Perceptron，多层感知)-1模块，第二多层感知层模块可称为MLP-2模块。

MLP-1模块和MLP-2模块可为相同的模型，包括依次连接的线性变换层、ReLU激活层、线性变换层、ReLU激活层、线性变换层。对于输入x，依次经过线性变换层，ReLU激活层，线性变换层，ReLU激活层，线性变换层，得到最终的输出。其中，线性变换层的单元个数可以自定义。

在另一些实施例中，MLP-1模块和MLP-2模块可也可为不同的模型，在实际实施中，可比较MLP-1模块和MLP-2模块为相同模型，以及为不同模型时的语音合成效果，选择语音合成效果较佳的网络模型，也可直接选择两个相同的模型，以简化音频编码器的模型构建过程。

在一些实施例中，MLP-1模块的输出经第一ReLU激活层模块处理后得到第一特征向量e1，其中，第一ReLU激活层模块包括一个ReLU激活层。

计算第一特征向量e1的损失函数，该损失函数可称为第一损失函数Loss1。

在一些实施例中，Loss1可采用softmax损失函数。参见图9，为根据一些实施例的声音编码器的批次训练示意图，如图9所示，示例性的，在一个批次的训练数据中有M个说话人，如sp1、sp2、sp3……，每个说话人有N条音频，则该批次的总训练数据为M×N，对于最终的特征表示e，首先计算每个说话人的中心向量，即对于第i个说话人的N条数据的特征向量e_ij(j＝1..N)，计算得到中心向量c_i＝sum(e_ij)/N，中心向量表示这个说话人的特征向量的平均值，训练的目标就是让第i个说话人的第j条数据的特征向量尽量接近c_i，而尽量远离c_k(k≠i)。第一损失函数的计算公式如下：

L1(e_ij)＝-s_ij,i+log[sum(exp(s_ij,k))],k＝1…M

其中，s＝w*cos(e,c)+b，w和b为训练参数。

在一些实施例中，MLP-2模块的输出经第二ReLU激活层模块处理后得到第二特征向量e2，其中，第二ReLU激活层模块包括一个ReLU激活层。

计算第二特征向量相对第一特征向量的损失函数，该损失函数可称为第三损失函数，计算公式如下：

L3＝-cos(e1,e2)

在一些实施例中，右塔的文本编码器也包括由三个LSTM层组成的LSTM层模块，该LSTM层模块可称为第二长短期记忆网络层模块，文本编码器还包括第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块。

在一些实施例中，第二长短期记忆网络层模块的输入为左塔的音频文件对应的文本信息，经过三层LSTM后，同样取最后一个时刻的特征向量，输入到第三多层感知层模块。

在一些实施例中，第三多层感知层模块，结构可与第一多层感知层模块、第二多层感知层模块相同，以简化模型构建过程。第三多层感知层模块可称为MLP-3模块。

MLP-3模块输出文本相关的特征向量，该特征向量和左塔的MLP-2模块的输出经连接层模块进行concat(拼接)，再经过一个线性层、relu激活层的处理后得到第三特征向量e3，将第三特征向量e3和该音频文件对应的语言码进行交叉熵损失计算，得到第二损失函数Loss2，计算公式包括：

L2＝-[e3*logy+(1-e3)*log(y-1)]

上式中，y为语言码标签。

上述说话人编码器模型的总损失函数为L，计算公式如下：

L＝L1+L2+L3

对上述说话人编码器模型进行迭代训练，使得MLP-1的输出向量更多地包含音色特征，而MLP-2的输出向量更多地包含语言特征，因此Loss3损失函数是希望着第一特征向量e1和第二特征向量e3的相似度越小越好，即音色特征向量和语言特征向量差别尽量地大，Loss2的损失函数是将MLP-2的输出向量和基于纯文本的特征向量拼接在一起后经过变换后和语言码进行交叉熵损失计算得到的，也是希望MLP-2输出的向量更多地包含语言特征。在各损失函数均满足要求或达到预设的迭代次数后，训练结束，得到训练好的说话人编码器模型。

在将说话人编码器模型训练好之后，对于任意人物的录音数据，将其输入到上述模型的左塔结构，将得到的e1作为最终的说话人音色特征向量，即第一特征向量。

在得到说话人的音色特征向量后，可基于该音色特征向量输入到TTS模型进行声音克隆。参见图10，为根据一些TTS模型的结构示意图，如图10所示，TTS模型包括文本编码器，说话人音色编码器，解码器和声码器等部分。文本编码器用于对要合成的文本进行编码得到x1，然后和说话人音色特征x2进行拼接[x1,x2]，然后将该特征输入到解码器和声码器，得到最终的音频文件。

由上述实施例可见，本申请实施例构建了解耦音色特征和语言特征的说话人编码器模型，该说话人编码器模型通过音频训练样本的频谱特征进行特征提取得到第一特征向量和第二特征向量，通过将音频训练样本对应的文本进行特征提取得到第三特征向量，通过计算第一特征向量对应的第一损失函数，第三特征向量相对所述第一特征向量的第三损失函数，并通过将第三特征向量、语言标识和第二特征向量进行融合后计算第二损失函数，使得第二损失函数能够表征第一特征向量和第二特征向量的差异性，而第三损失函数能够表征语言特征的损失，从而第一损失函数能够准确地表征解耦语言特征后的音色特征的损失，通过多次模型训练后得到的说话人编码器模型，能够输出解耦语言特征的音色特征对应的第一特征向量，利用该第一特征向量进行说话人的声音克隆，得到的语音纯净度较高，跨语言的语言偏差影响较小，语音质量佳，因此，不需要分别采集说话人的多种语言的语音，也能生成该说话人对应的质量较佳的多语言语音包。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

音频组件；

2.根据权利要求1所述的显示设备，其特征在于，所述语音交互设置界面包括语音反馈控件，所述控制器被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本，包括：

控制所述音频组件播放所述播报音频。

5.根据权利要求4所述的显示设备，其特征在于，所述获取根据所述音色标识、语言标识和播报文本合成的播报音频，包括：

获取音频训练样本的频谱特征；

对所述说话人编码器模型进行模型训练；

6.一种声音克隆方法，其特征在于，包括：

获取音频训练样本的频谱特征；

对所述说话人编码器模型进行模型训练；

7.根据权利要求6所述的声音克隆方法，其特征在于，所述音频编码器包括第一长短期记忆网络层模块、第一多层感知层模块、第二多层感知层模块、第一Relu激活层模块和第二Relu激活层模块，其中，所述第一长短期记忆网络层模块的输入端用于输入所述频谱特征，输出端连接所述第一多层感知层模块，所述第一多层感知层模块连接所述第一Relu激活层模块，所述第二多层感知层模块连接所述第二Relu激活层模块，所述第一特征向量通过所述第一Relu激活层模块输出，所述第二特征向量通过所述第二Relu激活层模块输出。

8.根据权利要求7所述的声音克隆方法，其特征在于，所述第一多层感知层模块和第二多层感知层模块均包括依次连接的线性变换层、ReLU激活层、线性变换层、ReLU激活层、线性变换层。

9.根据权利要求8所述的声音克隆方法，其特征在于，所述文本编码器包括第二长短期记忆网络层模块、第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块，其中，所述第二长短期记忆网络层模块用于输入所述音频训练样本对应的文本，输出端连接所述第三多层感知层模块，所述第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块依次连接，所述连接层模块还与所述第二多层感知层模块连接，所述文本的特征向量通过所述第三多层感知层模块输出。

10.根据权利要求6所述的声音克隆方法，其特征在于，所述第一损失函数通过softmax损失函数计算，所述第二损失函数通过余弦相似度损失函数计算，所述第三损失函数通过交叉熵损失函数计算。