CN111862934A - 语音合成模型的改进方法和语音合成方法及装置 - Google Patents

语音合成模型的改进方法和语音合成方法及装置 Download PDF

Info

Publication number
CN111862934A
CN111862934A CN202010721985.2A CN202010721985A CN111862934A CN 111862934 A CN111862934 A CN 111862934A CN 202010721985 A CN202010721985 A CN 202010721985A CN 111862934 A CN111862934 A CN 111862934A
Authority
CN
China
Prior art keywords
vector
speech synthesis
speaker
synthesis model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010721985.2A
Other languages
English (en)
Other versions
CN111862934B (zh
Inventor
俞凯
徐志航
陈博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202010721985.2A priority Critical patent/CN111862934B/zh
Publication of CN111862934A publication Critical patent/CN111862934A/zh
Application granted granted Critical
Publication of CN111862934B publication Critical patent/CN111862934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开语音合成模型的改进方法和语音合成方法及装置,其中,一种语音合成模型的改进方法,包括:语音合成模型的改进方法,其中,所述语音合成模型包括受x‑vector控制的LSTM模块,所述方法包括:将经由x‑vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;利用所述说话人嵌入在受x‑vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。本申请的方法和装置提供的方案通过在引入x‑vector控制的模型参数的无监督自适应方法,合成未见过的说话人音频上,相较有监督自适应方法获得更好的自然度,相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

Description

语音合成模型的改进方法和语音合成方法及装置
技术领域
本发明属于语音合成领域,尤其涉及语音合成模型的改进方法和语 音合成方法及装置。
背景技术
近年来,随着神经网络的成熟和显卡计算力的提升,端到端语音合 成(Text-To-Speech)技术已经可以达到非常高得自然度,甚至可以欺骗 过人耳。但是端到端系统受限于训练数据的数量,过少的训练数据无法 完成一个成熟的语音合成系统。其中通过多说话人的数据一起建模是解 决单说话人数据量不够的一个常见且简单的做法。多说话人的语音合成 模型一般分为两种:使用说话人无关模型和说话人相关模型。说话人无 关模型不引入任何与说话人相关的参数,相当于假设所有数据来自同一 个说话人,而去训练一个所有人数据上的平均模型。说话人相关模型会 使用各种说话人参数对不同人的语音数据进行区分建模,其实包括独热 码表,说话人嵌入(Speaker embedding)等参数进行建模。
但是,在实际应用场景中,用户录制的数据通常很少,并且录制环 境是不可控的自然环境而不是录音棚。因此,此类数据可能会出现一些 问题,包括语音质量差,背景噪音,房间混响,发音错误和没有对应文 本。所以如何从已有的录音棚环境录制的语音数据上训练的TTS模型迁 移到自然环境录制的新数据上是需要考虑的。从预先训练的TTS模型进 行自适应训练是一种流行且常用的解决方法。依据是否使用人工校对的 对应文本,自适应方法大致可分为两种:有监督的自适应和无监督自适 应。
其中,有监督的自适应方法使用音频和对应文本来微调预先训练的 TTS模型参数(或部分模型参数)。许多研究人员探索了不同说话人适 应方法,包括把整个语音合成模型分为和说话人相关的部分和非说话人 相关的部分,让新的数据去更新说话人相关的参数而保持其他非说话人 相关的参数不变。其他研究小组把说话人网络和TTS模型或声码器联合 训练。由于近使用少量数据训练所有模型参数通常会导致过度拟合,自 动语音识别(ASR)任务中一些特别的自适应技术也被引入TTS任务当 中。例如,说话人自适应训练(SAT),学习隐藏单元向量(LHUC)。
无监督自适应方法仅需要语音数据,而无需对应文本。基于说话者 嵌入的无监督方法一般通过说话人嵌入网络提供新的说话人的嵌入,然 后保持模型参数不变而更新对应的说话人嵌入的输入来到达无监督自适 应的效果。还有一种特别的无监督自适应,可以通过添加一个辅助语音 编码器来代替文本编码器来对模型进行梯度反传更新,而无需使用对应 音频的文本。
发明人在实现本申请的过程中发现,现有方案至少存在以下缺陷:
1)有监督自适应:在目标数据量比较少的情况下,更新模型参数经 常会过拟合,导致合成的声音自然度下降。用LHUC等做法会减小更新 的模型参数量,在一定程度上可以缓解过拟合的问题,但是如果目标数 据和原先的数据分布差别很大,就无法很好拟合新的数据。
2)无监督自适应:一般来说这种方法在集内数据,或者相似分布数 据上有很好的自然度。但是由于此方法无法直接更新模型参数,对于新 数据拟合不充分,导致合成的音频经常会和原始说话人不够相似。
发明内容
本发明实施例提供一种语音合成模型的改进方法及装置,用于至少 解决上述技术问题之一。
第一方面,本发明实施例提供一种语音合成模型的改进方法,其 中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包 括:将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的 额外输入;以及利用所述说话人嵌入在受x-vector控制的LSTM模块 中,使用控制层来预测对应的控制变量的缩放和偏移。
第二方面,本发明实施例提供一种语音合成方法,包括:获取音频 数据,从所述音频数据中提取x-vector特征;将所述x-vector特征作为额 外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模 型中;以及获取所述改进后的语音合成模型输出的目标说话人音色音频
第三方面,本发明实施例提供一种语音合成模型的改进装置,其 中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包 括:嵌入模块,配置为将经由x-vector提取器提取的说话人嵌入作为所 述语音合成模型的额外输入;以及控制模块,配置为利用所述说话人嵌 入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变 量的缩放和偏移。
第四方面,本发明实施例提供一种语音合成方法,包括:提取模 块,配置为获取音频数据,从所述音频数据中提取x-vector特征;输入 模块,配置为将所述x-vector特征作为额外输入输入至上述的方法改进 后的语音合成模型中;以及输出模块,配置为获取所述改进后的语音合 成模型输出的目标说话人音色音频。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与 所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被 所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执 行,以使所述至少一个处理器能够执行本发明任一实施例的语音合成模 型的改进方法或语音合成方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机 程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所 述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述 计算机执行本发明任一实施例的语音合成模型的改进方法或语音合成方 法的步骤。
本申请的方法和装置提供的方案通过在引入x-vector控制的模型参 数的无监督自适应方法,合成未见过的说话人音频上,相较有监督自适 应方法获得更好的自然度,相交基于说话人嵌入的无监督自适应方法获 得更好的相似度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述 中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图 是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音合成模型的改进方法的流程 图;
图2为本发明一实施例提供的一种语音合成方法的流程图;
图3为三种模型结构,其中,(a)示出了Tacotron模型结构, (b)示出了典型的LSTM模型结构,(c)示出了受x-vector控制的 LSTM的模型结构;
图4为在对数频域中一秒钟内的频谱样本;
图5为按数据类型上色的抽样男性发言人嵌入图;
图6为本发明一实施例提供的一种语音合成模型的改进装置的框 图;
图7为本发明一实施例提供的一种语音合成装置的框图;
图8是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合 本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的 实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的语音合成模型的改进方法的一实施例 的流程图,本实施例的语音合成模型的改进方法可以适用于对语音合成 模型进行改进,本申请在此没有限制。
如图1所示,在步骤101中,将经由x-vector提取器提取的说话人 嵌入作为所述语音合成模型的额外输入;
在步骤102中,利用所述说话人嵌入在受x-vector控制的LSTM模 块中,使用控制层来预测对应的控制变量的缩放和偏移。
本实施例的方法通过在引入x-vector控制的模型参数的无监督自适 应方法,合成未见过的说话人音频上,相较有监督自适应方法获得更好 的自然度,相交基于说话人嵌入的无监督自适应方法获得更好的相似 度。
在一些可选的实施例中,所述受x-vector控制的LSTM模块的参数 计算表示如下:
it=σ(a[i]*W[i][ht-1,xt]+c[i]+b[i])
jt=tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j])
ft=σ(a[f]*W[f][ht-1,xt]+c[f]+b[f])
ot=σ(a[o]*W[o][ht-1,xt]+c[o]+b[o])
st=ft*st-1+it*jt
ht=ot*tanh(st);
其中,it,jt,ft,ot是输入门、候选状态、遗忘门、输出门在时间t时的 向量,W[m],c[m],{i,j,f,o}分别是所述受x-vector控制的LSTM模型的权重矩 阵、偏差矩阵和参数下标。
在一些可选的实施例中,上述还包括:对引入x-vector控制的语音 合成模型进行无监督自适应。
在一些可选的实施例中,所述语音合成模型还包括编码器、解码器 和注意力机制;其中,所述编码器用于将经过文本归一化的音素序列转 化为音素嵌入,并在所述音素嵌入上提取文本上下文信息,作为所述编 码器的输出;所述注意力机制用于将所述编码器的输出总结为固定长度 的上下文相关向量,并在每一帧将所述上下文相关向量输入所述解码 器;所述解码器为自回归的循环神经网络,用于在所述LSTM模块的基 础上,输入前一帧的声学特征和所述上下文相关向量,预测后续若干帧 声学特征。
在一些可选的实施例中,上述方法还包括:将所述解码器输出的声 学特征经过后处理网络Postnet进行残差连接以增加更多特征细节;以及 将处理后的声学特征再经过声码器还原称音频采样点。
请参考图2,其示出了本申请实施例提供的一种语音合成方法的流程 图。
如图2所示,在步骤201中,获取音频数据,从所述音频数据中提 取x-vector特征;
在步骤202中,将所述x-vector特征作为额外输入输入至根据权利 要求1-3中任一项所述的方法改进后的语音合成模型中;
在步骤203中,获取所述改进后的语音合成模型输出的目标说话人 音色音频。
本实施例的方法能够使用改进后的模型输出更自然更符合目标说话 人音色的音频。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对 最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好 地理解本申请的方案。
发明人在实现本申请的过程中发现,相关技术中存在的技术问题主 要是由于以下内容导致的:
1)有监督自适应只考虑如果更新模型参数,而受到数据量的限制, 在小数据集尤其是录制环境不可控的自然录制音频数据下,参数更新会 严重过拟合,导致在集外文本的合成音频自然度下降。
2)无监督自适应只更新了说话人相关的输入,而无法更新其他说话 人相关模型参数,无法很好拟合新的说话人数据,欠拟合导致自然度下 降。
本领域的技术人员,一般要解决解决有监督自适应的问题通常会采 用减小可更新的模型参数的数目,更新一部分模型参数,在过拟合和欠 拟合中寻找相对的平衡。解决无监督自适应的问题通常会用新的数据更 新说话人嵌入,或者需要更多的训练数据才能部分缓解相似度问题。
首先在有监督自适应框架下,使用同一组超参数,对录制环境不可 控的语音数据没办法做到保持一致的高自然度,即尽管使用了一些ASR 中的自适应技术,在语音合成中小数据的自适应依然会出现过拟合问 题。而无监督自适应方法都着重在如何获得一个更好的说话人嵌入而忽 视了语音合成模型参数的更新,导致对新数据欠拟合。
本申请实施例的方案使用先进的说话人嵌入x-vector作为我们的说 话人相关输入,在无监督自适应的基础上,不仅更新说话人嵌入输入, 并且使用x-vector预测说话人相关的模型参数的控制参数。这些控制参 数对语音合成中的说话人相关参数进行缩放和偏移操作,使得整个模型 参数更加符合目标说话人的数据分布,从而改善了欠拟合所导致的相似 度问题。
以Tacotron(图3中的(a))端到端语音合成为例,我们将语音合 成系统分为若干部分:文本编码器(Encoder),声学解码器(Decoder),注意 力机制(Attentionmechanism),x-vector提取器(Extractor),声码器 (Vocoder)。我们在Decoder实现x-vector控制的模型参数。
Encoder将经过文本归一化的音素(phoneme)序列转化为因素嵌 入,并在其上提取文本上下文信息,作为Encoder的输出。注意力机制是 一个将Encoder输出总结为固定长度的上下文相关向量,并在每一帧将对 应的上下文向量输入Decoder。Decoder是一个自回归的循环神经网络, 它在Long Short-Term Memory(LSTM)网络的基础上,输入前一帧的声学 特征和上下文向量,预测下面若干帧声学特征。完成解码的声学特征经 过后处理网络Postnet进行残差连接增加更多特征细节。最后Decoder输 出的声学特征再经过声码器Vocoder还原成音频采样点。
在原始的Tacotron的模型结构基础上,我们加入了x-vector提取器 来帮助提取说话人相关的说话人嵌入作为模型的额外输入。与此同时, 其中在受控制的LSTM模块的示意图图3中的(c)中,我们使用控制层 controlling layer来预测对应的控制变量scaling和shifting。在新的数据 中,我们只需要提取对应的说话人嵌入,而无需对应文本,就可以对 LSTM的参数直接进行说话人相关的更新。假设ht,st,xt是在时间t时刻, LSTM的隐层输出,状态和输入,X-vector控制的LSTM的参数计算可 以表示为:
it=σ(a[i]*W[i][ht-1,xt]+c[i]+b[i]) (1)
jt=tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j]) (2)
ft=σ(a[f]*W[f][ht-1,xt]+c[f]+b[f]) (3)
ot=σ(a[o]*W[o][ht-1,xt]+c[o]+b[o]) (4)
st=ft*st-1+it*jt (5)
ht=ot*tanh(st) (6)
其中,it,jt,ft,ot是输入门,候选状态,遗忘门,输出门在时间t时的向 量,W[m],c[m],{i,j,f,o}分别是LSTM的权重矩阵,偏差矩阵和参数下标。在 测试阶段,对于一个新的说话人,只需要从其音频中提取x-vector作为 额外的输入,就可以直接合成目标说话人音色的音频,在更新模型参数 的同时而无需重新训练。
发明人在实现本申请的过程中还采用过以下方案:
在使用类似的方法进行LSTM的模型参数更新的时候,我们可以不 使用x-vector进行无监督的控制,而是使用说话人独热码进行有监督的 控制。这样做可以同样对LSTM的参数进行说话人相关的控制,属于说 话人自适应训练的范畴。我们发现这么做相较于直接用目标数据更新全 部的LSTM而言,他合成出来的声音会更糊,更不清晰。这样做就失去 了平衡自然度和相似度的意义。
1)技术效果:在引入x-vector控制的模型参数的无监督自适应方 法,合成未见过的说话人音频上,相较有监督自适应方法获得更好的自 然度,相交基于说话人嵌入的无监督自适应方法获得更好的相似度。
2)深层效果:在更广泛的环境不受控的自然录制音频中,引入x- vector控制的模型参数的无监督自适应方法可以在:不需要音频对应文 本,不需要录制人有清晰正确的发音,不严格需要无噪音的录制环境, 不需要对目标说话人数据再次进行训练,仅需要极少量的录制音频,情 况下,合成稳定、自然、相似的目标说话人音频。
以下介绍发明人的实现本申请实施例的过程,以及在该过程中的一 些实验过程及相应的实验数据,以使本领域技术人员更好地理解本申请 的技术方案。
在语音合成任务中,有监督的说话人自适应在小数据集上,尤其是 在数据不够干净的时候,经常会因为过拟合而导致自然度下降。另一方 面,尽管基于说话人嵌入的无监督适应不容易过拟合,但是合成音频的 相似度很差。在本文中,我们提出了一种新的无监督说话人自适应方 法,在自然度和相似度之间取得平衡。我们使用x-vector用于预测参数化的控制向量,用于调整声学模型参数。由于控制参数有效地自适应了 声学模型参数,该方法的自适应能力强于普通的x-vector自适应方法。 在测试阶段,控制向量可以通过无监督的方式调整模型参数,而无需重 新训练,并且不需要音频对应的文本。实验表明,在收集的数据上,使 用x-vector控制的自适应参数在自然度和相似度上均达到稳定的高分。 并且,这种方法可以在脏数据上获得更好的自然度和相似度得分。
1.简介
近年来,端到端文本语音转换(TTS)系统已经达到了较高的语音质 量和自然度。它吸引了公司和研究小组对使用客户记录的语音数据创建 个人设计的语音助手的兴趣。但是,来自客户的数据通常很少,并且记 录在他们的日常生活中。因此,此类数据可能会出现一些问题,包括语 音质量差,背景噪音,房间混响,发音错误和无笔录。据我们所知,用少量数据构建端到端TTS系统仍然不是一个很好解决的问题。建立具有 少量脏话的端到端TTS系统也是具有挑战性的。从预训练的TTS模型进 行改编是一种流行的且普遍使用的技术,用于为新演讲者构建TTS系 统。适应方法大致可分为两种:有监督的适应和无监督的适应。
有监督的适应方法使用有对应文本的数据来微调预训练的TTS模型 参数(或参数的子集)。此外,说话人编码器或说话人嵌入也是说话人 自适应的重要研究重点。许多研究人员探索了针对新说话人嵌入说话人 的各种说话人适应方法。其他研究小组联合训练了具有TTS模型或声码 器的说话人编码器网络,并使用新的说话人数据进行了微调。由于使用 少量数据对所有模型参数进行微调通常会导致过拟合,因此自动语音识 别(ASR)任务中的自适应技术,例如说话人自适应训练(SAT),学习 隐藏单元贡献(LHUC)被用于TTS任务。将LHUC和特征映射引入到 TTS说话人自适应中,用基于缩放和偏移的说话人自适应变换来训练基 于DNN的语音系统中的自适应说话人模型。
无监督自适应方法仅需要语音数据,而无需文本数据。基于说话人 嵌入的无监督方法可以固定模型参数,并根据新的说话人来更新说话人 嵌入。由于这种方法不能直接更新模型参数,因此在没见过的说话人上 相似度的下降依然是一个很重要的问题。一些研究人员提出了使用更先 进的说话人嵌入或细粒度说话人嵌入来提高相似度的不同方法。特别 是,提出了一种无监督的框架,该框架可以通过添加一个辅助语音编码 器来代替语言编码器,而使用无文本的反向传播来更新模型参数。
简而言之,有监督的自适应方法使用转录语音更新说话人相关的参 数,当自适应数据有限时,由于过度拟合而导致自然度差。另一方面, 基于说话人嵌入的无监督自适应方法仅调整说话人嵌入,而不能更新模 型参数,从而导致相似度不足。
在本文中,我们使用基于x-vector控制的模型参数端到端TTS模 型,以在自然度和相似度之间取得平衡。我们从x-vector预测参数化的 控制向量,并应用控制向量来调整LSTM参数。在实验中,我们在少量 测试数据上将我们提出的方法与有监督和无监督适应方法进行了比较。 在自然度和相似度上,与其他适应方法相比,我们的方法均获得稳定的 高分。最后,我们使用余弦评分和嵌入可视化技术探索嵌入和语音相似 度之间的潜在关系。
在第2节中,介绍了x-vector控制的端到端TTS模型和说话人自适 应。在第3节中,讨论了实验和结果。在第4节中,介绍了结论和未来 的工作。
2.说话人自适应TTS模型
我们的多说话人TTS模型分为3部分:x-vector提取器,基于 Tacotron的声学模型和声码器。
2.1 X-vector提取器
我们遵循中的x-vector提取器模型。X-vector提取器网络由基于时延 神经网络(TDNN)的帧层,统计池层和具有softmax功能的分段层组 成。帧层充当帧级特征提取器,以较小的时间上下文输入帧。统计信息 池层汇总帧级别的输出,并计算时间范围内的均值和标准差。平均值和 标准偏差的级联被输入到段级层中以对说话人身份进行分类。在完成x-vector提取器模型的训练之后,从第一片段层的仿射分量中提取x向量, 并丢弃其余的片段层。
2.2声学模型
我们接受Tacotron2作为我们的声学模型框架。如图3(a)所示,典 型的Tacotron2模型大致由编码器,注意力机制和解码器组成。
在编码器中,文本标准化后,将在基于拼音的音素中转换文本。原 始音素通过查找表映射到音素嵌入中,然后馈送到文本CBHG模块,作 为编码器输出输出。
在关注机制中,关注网络将编码输出汇总为每个解码器步骤的固定 长度上下文向量。在我们的实现中,我们使用动态卷积注意力(DCA) 机制,它是Tacotron2混合位置敏感机制的扩展。这种机制有助于模型以 更好的自然度产生较长的语音。
Tacotron解码器是一种自回归递归神经网络,可在一时间步长从编 码的输入序列中预测几帧声学特征。来自上一个时间步骤的预测通过 Prenet传递,然后输入到LSTM模块中。LSTM模块的输出与上下文向 量连接,然后是线性投影层以投影到声学特征中。最后,将投影输出传 递到Postnet并作为剩余连接添加到自身。
对于说话人嵌入,我们使用带有软信号激活的密集层将所有x矢量 投影到64维说话人瓶颈嵌入。然后,使用图3的(a)中的红色虚线在4 个位置输入说话人瓶颈嵌入作为与说话人相关的条件输入:
·在输入解码器LSTM之前,与Prenet输出连接。
·在LSTM模块中初始化LSTM初始状态。
·在计算上下文向量之前将其与编码器输出串联。
·在线性投影层之前与LSTM输出串联。
2.3 X-vector控制的模型参数
我们选择Tacotron解码器中的LSTM模块的参数作为x矢量控制的 参数来实现,而其他模型参数则与说话人无关。典型的LSTM是两个 LSTM层的简单堆叠,如图3的(b)所示。为了使LSTM参数受x- vector控制,我们在每个时间步均通过LSTM计算过程进行了线性变换。控制向量,更具体地说,缩放和移位向量可以线性变换标准LSTM 中的隐藏表示,如图3的(c)所示。
假设ht,st和xt代表时间步t处的LSTM隐藏输出,单元状态和 LSTM输入,我们可以使用缩放和移位向量a[m],b[m](m∈i,j,f, o)如下:
it=σ(a[i]*W[i][ht-1,xt]+c[i]+b[i]) (1)
jt=tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j]) (2)
ft=σ(a[f]*W[f][ht-1,xt]+c[f]+b[f]) (3)
ot=σ(a[o]*W[o][ht-1,xt]+c[o]+b[o]) (4)
st=ft*st-1+it*jt (5)
ht=ot*tanh(st) (6)
其中,jt,ft,ot分别是时间步长t的输入门,单元状态候选者,忘 记门和输出门矢量。W[m],c[m],{i,j,f,o}代表LSTM权重矩阵, 偏置矢量和参数下标分别代表输入门,单元状态候选者,忘记门和输出 门矢量。
然后,通过应用控制层CLscaling,CLshifting,使由x-vector控制的缩放 和移位矢量
Figure RE-GDA0002683304980000121
Figure RE-GDA0002683304980000122
其中e是当前话语的说话人瓶颈嵌入。这些控制层是一个简单的线 性层,将说话人瓶颈投射到控制向量中。由于控制层在所有话语之间共 享,因此它允许我们仅使用来自新说话人的x矢量以无监督的方式来调 整LSTM参数。
3.实验
图3的(a)示出了Tacotron结构,(b)示出了典型的LSTM, (c)示出了受控的LSTM。
图3的(a)显示了我们的多说话人Tacotron模型的结构。编码器 块为白灰色,解码器块为浅灰色,x向量提取器块为深灰色,声码器块为 深灰色。下面的不同色块是LSTM模块的2种不同实现。(b)是原始 Tacotron中典型的LSTM工具。(c)是提出的x矢量控制LSTM工具的说明。控制层将说话人瓶颈投射到缩放和移动向量以及受控LSTM层 中。
图4:在对数频域中一秒钟内的频谱样本。其中,(a)录制音频 (b)干净音频,(c)脏音频。
3.1实验设置
为了更好的解释,我们将数据分为三种类型:记录数据,干净数据 和脏数据。记录数据(图4的(a))代表了较高的语音质量和我们收 集的经过人工校正的TTS数据。干净数据(图4的(b))指的是相对 干净的数据,几乎没有噪音和错误。脏数据(图4的(c))的语音质量较低,并且通常具有背景噪声。
数据:使用我们收集的aishell1数据集和中文TTS数据集,Tacotron 训练数据包含约150位男性和250位女性说话人。此外,我们发现数据 选择对于训练基于语音水平x矢量的TTS模型是必要的,因此我们丢弃 了少于3秒的短语音。最后,男性有107个小时的音频,女性有280个 小时的音频。
在测试阶段,选择了8位看不见的发言人(2位干净的男性,2位干 净的女性,2位脏的男性,2位脏的女性)进行评估。脏数据中只有40 种声音(大约2分钟或更短)。分割20个句子以进行评估,其余20个 句子用于x矢量提取或模型参数微调。
训练细节:我们的实验遵循原始论文中的基本Tacotron2模型参数。 Tacotron解码器的输出步长为3,典型的LSTM模块在原始纸张中是2层 标准LSTM的堆栈。还预测了停止令牌以停止自回归解码。此外, Tacotron模型是训练依赖于性别的,这意味着我们仅使用男性数据训练 了男性模型,而仅使用女性数据训练了女性模型。此外,我们发现,在 看不见的说话人上,发声级x矢量的性能要优于发声级x矢量,因此我 们在所有训练的Tacotron模型中仅采用发声级x矢量。我们在单个 2080ti GPU上训练了Tacotron模型,该模型的批次大小为64,初始学习 率为1e-3,noam衰减凝视着4000步,β1的Adam优化器=0.9,β2= 0。
3.1.1声码器设置
我们采用LPCNet作为声码器。LPCNet可以分为两部分:帧速率网 络和采样速率网络。帧速率网络为每个10毫秒帧计算条件特征,而帧速 率网络则基于先前的样本,帧条件和线性预测来计算样本概率。为了更 快地进行推断,在采样率网络的每个步骤中预测了2个采样点。
LPCNet的声学功能包括18个树皮尺度的倒谱系数和2个音高参数 (周期和相关性)。这些特性是从20k的窗口大小,10ms的帧偏移,8 位μ-law量化和0.85的预加重从16k采样率的音频中提取的。仅使用录 制的TTS数据(不包括aishell1数据集)来训练LPCNet,以获得更好的 语音质量。查找表说话人嵌入也被输入到采样率网络中,以训练多说话 人LPCNet声码器。
3.1.2 X-vector提取器设置
我们的x向量提取器不同于Kaldi食谱和原始论文。在统计池化之 后,我们仅使用2个分段层,并应用[31]中所述的余量softmax代替常规 的softmax函数。在特征准备中,我们采用40维log-Mel滤波器组作为 输入特征,并以10ms的帧偏移,25ms的帧长提取。
对于x向量提取器的训练数据,我们使用了英语和汉语语音数据的 混合,包括Voxceleb2,aishell1,aishell2和Datatang,Speechocean,总 计4,500,000话语。经过数据选择和扩充,大约采用了14000个说话人。
3.2主观评价
在本节中,我们将我们提出的自适应方法与一些基本的自适应方法 进行比较,包括监督方法和非监督方法:
·original-resyn:由声码器重新合成原始声学功能。
·xvec-adapt(无监督):仅使用语音调整x向量。LSTM模块选择 典型的LSTM工具。
·xvec-adapt+BP-update(有监督):调整xvector并使用转录语音通 过反向传播更新典型LSTM参数。LSTM模块选择典型的LSTM工具。 ·xvec-control-adapt(无监督):仅使用语音修改xvector。LSTM模块选 择受控的LSTM工具。
还有另一个受监督的自适应系统,LSTM参数由说话人身份查询表 控制,并使用转录语音进行微调。在我们的实验中,该系统合成了模糊 光谱,因此我们仅采用xvec-adapt+BP-update系统作为我们的监督适应 基线。
每个看不见的说话人合成50个测试发音,每个系统总共有400个看 不见的测试发音。然后,将测试语音按照发声指数和说话人姓名分为10 个子集。在自然度测试中,要求听众使用平均意见评分(MOS)准则从 1分到5分进行评分,以判断语音的自然程度。在相似度测试中,听众被 要求从1分到5分进行评分,以判断语音与参考音频的相似程度,而不 考虑任何内容或语音质量。
表1:看不见的说话人的自然和相似度MOS得分。
Figure BDA0002600356220000151
如表1所示,自然而言,xvec-adapt系统在干净数据上得分较高,但 在脏数据上得分较低。我们提出的xvec-control-adapt系统意外地在干净 和肮脏的数据上都保持稳定的高分。正如我们所期望的,仅凭少量的自 适应数据,xvec-adapt+BP-update系统会因讲话风格不佳和不自然的暂 停而遭受自然程度的降低。
同样,xvec-adapt和xvec-control-adapt系统在干净数据上几乎没有区 别。在脏数据上,xveccontrol-adapt系统具有比xvec-adapt更好的相似 度,而xvec-adapt+BP-update系统在干净和脏数据上的相似度得分最 高。
3.3余弦相似度评分评估
在假设说话人嵌入相似度和语音相似度之间存在正相关的假设下, 我们使用余弦分数来评估真实语音和合成语音之间的相似度。给定两个 相同维数的说话人嵌入A和B,余弦得分定义为cos(A,B)=A·B/(|| A|||||B||)。余弦值越大,表示说话人嵌入对越相似。
遵循主观评估中的相同设置,我们计算从原始语音和合成语音中提 取的x矢量的余弦分数。此外,我们扩大了评估发言人的范围。测试了 11个干净的说话人和14个脏的说话人(包括主观听力测试中看不见的说 话人),分别称为clean+和dirty+。
表2:原始语音和合成语音之间的平均余弦相似度得分。
Figure BDA0002600356220000161
表2中的余弦相似度得分与表1中的MOS相似度。xvec-adapt+ BPupdate系统具有最高的余弦相似度得分,并且xveccontrol-adapt系统 在脏数据上比xvec-adapt具有更高的相似度余弦得分尽管与受监管系统 xvec-adapt+BP-update仍有差距。不一致的一点是,与余弦相似度评分 相比,MOS相似度评分在有监督和无监督的测试数据系统之间没有这么大的差距。可能是因为评估者受音频自然度的影响,尽管他们被告知不 要通过自然度或任何内容对相似度进行评估。
3.4演讲者嵌入可视化
在本节中,我们使用主成分分析(PCA)可视化嵌入,以查看x向 量上的嵌入分布,xvec-adapt的说话人瓶颈嵌入和xvec-control-adapt系 统。我们从aishell1培训套件,TTS培训套件和肮脏的测试套件中抽取了 38位男性发言人。使用图5中绘制的PCA,将每个说话人的30种发音 嵌入到二维图像中。
图5的(a)示出了x-vector无监督自适应,(b)示出了x-vector有 监督自适应,(c)示出了x-vector控制的自适应。
图5:按数据类型上色的抽样男性发言人嵌入图。颜色最深的色点来 自aishell1训练集,颜色次深的点来自TTS训练集,颜色最浅的点来自 肮脏的测试集。一个有色点代表从话语中嵌入。
尽管x向量(图5的(a))在3种嵌入类型之间具有清晰的边界, 但xvector有监督自适应系统(图5的(b))在测试说话人和TTS训练 说话人之间有一点重叠。在提出的xvec控制自适应系统中(图5的 (c)),测试说话人与TTS培训说话人有更多重叠,而远离aishell1说话人群。
我们在图5的(c)中探索了这些重叠的测试说话人。由于我们已经 证明,与表2中的xvec-adapt系统相比,xvec-control-adapt系统具有更好 的平均余弦分数(如果在主观评估中进行了测试,则具有MOS相似度得 分),因此我们还发现重叠的测试说话人具有更高的平均余弦分数比不 重叠的说话人提高。我们认为,在嵌入级别上更紧密的分布可能是对脏 数据提高语音级别相似度的来源。至于自然度,我们猜测重叠的说话人 嵌入包含更多的说话人信息,但包含较少的信道噪声信息,这也导致合 成语音的自然度更好。
4.结论和今后的工作
在本文中,我们提出了一种在端到端TTS中使用x矢量控制参数的 无监督自适应新方法。仅使用来自不需要说话人的新说话人的x向量来 调整受控参数。在少量收集的数据中,我们提出的方法在自然和相似度 方面获得了稳定的高分。特别是,它可以在脏数据上获得更好的自然度 和相似度分数。
在将来的工作中,应考虑基于L向量的更详细的控制参数,例如 LHUC或直接预测权重矩阵,以在自然度和相似度之间找到更好的平 衡。
请参考图6,其示出了本发明一实施例提供的一种语音合成模型的改 进装置的框图,其中,所述语音合成模型包括受x-vector控制的LSTM 模块。
如图6所示,语音合成模型的改进装置600,包括嵌入模块610和控 制模块620。
其中,嵌入模块610,配置为将经由x-vector提取器提取的说话人嵌 入作为所述语音合成模型的额外输入;以及控制模块620,配置为利用所 述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对 应的控制变量的缩放和偏移。
请参考图7,其示出了本发明一实施例提供的一种语音合成装置的框 图。
如图7所示,语音合成装置700包括提取模块710和输入模块720。
其中,提取模块710,配置为获取音频数据,从所述音频数据中提取 x-vector特征;输入模块720,配置为将所述x-vector特征作为额外输入 输入至根据上述的方法改进后的语音合成模型中;以及输出模块,配置 为获取所述改进后的语音合成模型输出的目标说话人音色音频。
应当理解,图6和图7中记载的诸模块与参考图1和图2中描述的 方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及 相应的技术效果同样适用于图6和图7中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方 案,例如接收模块可以描述为接收语音识别请求的模块。另外,还可以 通过硬件处理器来实现相关功能模块,例如接收模块也可以用处理器实 现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存 储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指 令可执行上述任意方法实施例中的语音合成模型的改进方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算 机可执行指令,计算机可执行指令设置为:
将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的 额外输入;
利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制 层来预测对应的控制变量的缩放和偏移。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区, 其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序; 存储数据区可存储根据语音合成模型的改进装置的使用所创建的数据 等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储 器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机 可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储 器可以通过网络连接至语音合成模型的改进装置。上述网络的实例包括 但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存 储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程 序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音合 成模型的改进方法。
图8是本发明实施例提供的电子设备的结构示意图,如图8所示, 该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理 器810为例。语音合成模型的改进方法的设备还可以包括:输入装置830 和输出装置840。处理器810、存储器820、输入装置830和输出装置 840可以通过总线或者其他方式连接,图8中以通过总线连接为例。存储 器820为上述的非易失性计算机可读存储介质。处理器810通过运行存 储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务 器的各种功能应用以及数据处理,即实现上述方法实施例语音合成模型 的改进方法。输入装置830可接收输入的数字或字符信息,以及产生与 语音合成模型的改进装置的用户设置以及功能控制有关的键信号输入。 输出装置840可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的 功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本 发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音合成模型的改进装置 中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其 中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处 理器执行,以使至少一个处理器能够:
将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的 额外输入;
利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制 层来预测对应的控制变量的缩放和偏移。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提 供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、 功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计 算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID 和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设 备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携 式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、 内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提 供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展 性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单 元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也 可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解 并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音合成模型的改进方法,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:
将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;
利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。
2.根据权利要求1所述的方法,其中,所述受x-vector控制的LSTM模块的参数计算表示如下:
it=σ(a[i]*W[i][ht-1,xt]+c[i]+b[i])
jt=tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j])
ft=σ(a[f]*W[f][ht-1,xt]+c[f]+b[f])
ot=σ(a[o]*W[o][ht-1,xt]+c[o]+b[o])
st=ft*st-1+it*jt
ht=ot*tanh(st);
其中,it,jt,ft,ot是输入门、候选状态、遗忘门、输出门在时间t时的向量,W[m],c[m],{i,j,f,o}分别是所述受x-vector控制的LSTM模型的权重矩阵、偏差矩阵和参数下标。
3.根据权利要求1或2所述的方法,还包括:
对引入x-vector控制的语音合成模型进行无监督自适应。
4.根据权利要求3所述的方法,其中,所述语音合成模型还包括编码器、解码器和注意力机制;
其中,所述编码器用于将经过文本归一化的音素序列转化为音素嵌入,并在所述音素嵌入上提取文本上下文信息,作为所述编码器的输出;
所述注意力机制用于将所述编码器的输出总结为固定长度的上下文相关向量,并在每一帧将所述上下文相关向量输入所述解码器;
所述解码器为自回归的循环神经网络,用于在所述LSTM模块的基础上,输入前一帧的声学特征和所述上下文相关向量,预测后续若干帧声学特征。
5.根据权利要求4所述的方法,还包括:
将所述解码器输出的声学特征经过后处理网络Postnet进行残差连接以增加更多特征细节;
将处理后的声学特征再经过声码器还原称音频采样点。
6.一种语音合成方法,包括:
获取音频数据,从所述音频数据中提取x-vector特征;
将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中;
获取所述改进后的语音合成模型输出的目标说话人音色音频。
7.一种语音合成模型的改进装置,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:
嵌入模块,配置为将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;
控制模块,配置为利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。
8.一种语音合成方法,包括:
提取模块,配置为获取音频数据,从所述音频数据中提取x-vector特征;
输入模块,配置为将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中;
输出模块,配置为获取所述改进后的语音合成模型输出的目标说话人音色音频。
9.一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1-6中任一项所述的方法的步骤。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
CN202010721985.2A 2020-07-24 2020-07-24 语音合成模型的改进方法和语音合成方法及装置 Active CN111862934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010721985.2A CN111862934B (zh) 2020-07-24 2020-07-24 语音合成模型的改进方法和语音合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010721985.2A CN111862934B (zh) 2020-07-24 2020-07-24 语音合成模型的改进方法和语音合成方法及装置

Publications (2)

Publication Number Publication Date
CN111862934A true CN111862934A (zh) 2020-10-30
CN111862934B CN111862934B (zh) 2022-09-27

Family

ID=72950423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010721985.2A Active CN111862934B (zh) 2020-07-24 2020-07-24 语音合成模型的改进方法和语音合成方法及装置

Country Status (1)

Country Link
CN (1) CN111862934B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382297A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112634856A (zh) * 2020-12-10 2021-04-09 苏州思必驰信息科技有限公司 语音合成模型训练方法和语音合成方法
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN114582317A (zh) * 2022-03-29 2022-06-03 马上消费金融股份有限公司 语音合成方法、声学模型的训练方法及装置
WO2022121157A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
CN117594051A (zh) * 2024-01-17 2024-02-23 清华大学 用于语音转换的可控说话者音频表示的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140953A1 (en) * 2014-11-17 2016-05-19 Samsung Electronics Co., Ltd. Speech synthesis apparatus and control method thereof
CN109767752A (zh) * 2019-02-27 2019-05-17 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
CN110110790A (zh) * 2019-05-08 2019-08-09 中国科学技术大学 采用无监督聚类得分规整的说话人确认方法
WO2019222591A1 (en) * 2018-05-17 2019-11-21 Google Llc Synthesis of speech from text in a voice of a target speaker using neural networks
CN111081255A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 说话人确认方法和装置
CN111209429A (zh) * 2020-04-20 2020-05-29 北京海天瑞声科技股份有限公司 用于度量语音数据库覆盖性的无监督模型训练方法及装置
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140953A1 (en) * 2014-11-17 2016-05-19 Samsung Electronics Co., Ltd. Speech synthesis apparatus and control method thereof
WO2019222591A1 (en) * 2018-05-17 2019-11-21 Google Llc Synthesis of speech from text in a voice of a target speaker using neural networks
CN109767752A (zh) * 2019-02-27 2019-05-17 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
CN110110790A (zh) * 2019-05-08 2019-08-09 中国科学技术大学 采用无监督聚类得分规整的说话人确认方法
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN111081255A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 说话人确认方法和装置
CN111209429A (zh) * 2020-04-20 2020-05-29 北京海天瑞声科技股份有限公司 用于度量语音数据库覆盖性的无监督模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
项扬: "基于x-vector嵌入与BLSOM 模型的声纹聚类系统", 《现代计算机》 *
黎荣进: "基于深度学习的说话人识别以及反欺骗攻击技术", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382297A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112634856A (zh) * 2020-12-10 2021-04-09 苏州思必驰信息科技有限公司 语音合成模型训练方法和语音合成方法
WO2022121157A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN114582317A (zh) * 2022-03-29 2022-06-03 马上消费金融股份有限公司 语音合成方法、声学模型的训练方法及装置
CN114582317B (zh) * 2022-03-29 2023-08-08 马上消费金融股份有限公司 语音合成方法、声学模型的训练方法及装置
CN117594051A (zh) * 2024-01-17 2024-02-23 清华大学 用于语音转换的可控说话者音频表示的方法及装置
CN117594051B (zh) * 2024-01-17 2024-04-05 清华大学 用于语音转换的可控说话者音频表示的方法及装置

Also Published As

Publication number Publication date
CN111862934B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN111862934B (zh) 语音合成模型的改进方法和语音合成方法及装置
WO2021143326A1 (zh) 语音识别方法、装置、设备和存储介质
CN108847249B (zh) 声音转换优化方法和系统
CN112634856B (zh) 语音合成模型训练方法和语音合成方法
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN111816165A (zh) 语音识别方法、装置及电子设备
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
CN110706692A (zh) 儿童语音识别模型的训练方法及系统
CN112071330A (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
Qu et al. LipSound: Neural Mel-Spectrogram Reconstruction for Lip Reading.
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN117765959A (zh) 一种基于音高的语音转换模型训练方法及语音转换系统
WO2019212375A1 (ru) Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
CN117238321A (zh) 语音综合评估方法、装置、设备及存储介质
Zhao et al. Research on voice cloning with a few samples
CN117012177A (zh) 语音合成方法、电子设备和存储介质
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质
CN116416964A (zh) 语音转换方法、装置、存储介质及电子设备
CN111933121B (zh) 一种声学模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant