CN111433847A - 语音转换的方法及训练方法、智能装置和存储介质 - Google Patents

语音转换的方法及训练方法、智能装置和存储介质 Download PDF

Info

Publication number
CN111433847A
CN111433847A CN201980003377.3A CN201980003377A CN111433847A CN 111433847 A CN111433847 A CN 111433847A CN 201980003377 A CN201980003377 A CN 201980003377A CN 111433847 A CN111433847 A CN 111433847A
Authority
CN
China
Prior art keywords
training
voice data
speech
voice
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980003377.3A
Other languages
English (en)
Other versions
CN111433847B (zh
Inventor
王若童
黄东延
李贤�
谢杰斌
汤志超
丁万
刘洋
李柏
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Publication of CN111433847A publication Critical patent/CN111433847A/zh
Application granted granted Critical
Publication of CN111433847B publication Critical patent/CN111433847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种语音转换的训练方法,包括:建立第一训练数据集合,第一训练数据集合包括多组训练语音数据组;从第一训练数据集合中选择两组训练语音数据组输入语音转换神经网络进行训练;建立第二训练数据集合,第二训练集合包括第一训练数据集合以及第一源说话人语音数据组,从第一训练数据集合中选择一组训练语音数据和第一源说话人语音数据输入语音转换神经网络进行训练;建立第三训练数据集合,第三训练数据集合包括互为平行语料的第二源说话人语音数据组和个性语音数据组,将第二源说话人语音数据组和个性语音数据组输入语音转换神经网络进行训练。本发明还公开了语音转换的方法、智能装置和存储介质,本发明可以有效节约时间和存储空间。

Description

语音转换的方法及训练方法、智能装置和存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及语音转换的方法及训练方法、智能装置和存储介质。
背景技术
语音转换技术,是一种将源语音转换为目标语音的技术。源语音和目标语音所表达的内容相同,但在音色、风格上有所不同。基于信号处理方法与传统及其学习方法的语音转换技术得到的语音转换模型,合成语音不够自然流畅,效果欠佳。基于深度学习的语音转换技术可以转换出相似度高,流畅自然的语音,特点是需要大量的语音数据进行训练。
发明内容
基于此,有必要针对上述问题,提出了语音转换的方法及训练方法、智能装置和存储介质。
一种语音转换的训练方法,所述方法包括:建立第一训练数据集合,所述第一训练数据集合包括多组训练语音数据组;从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练;建立第二训练数据集合,所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组;从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练;建立第三训练数据集合,所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组,所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据,且与所述第一源说话人语音数据组对应同一说话人,所述个性语音数据组包括第二数量条个性语音数据,所述第二数量小于所述第一数量;将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。
一种语音转换方法,包括:获取待转换语音数据;将所述待转换语音数据输入预训练的所述语音转换神经网络,根据所述语音转换神经网络的输出获取目标语音数据;其中,所述语音转换神经网络经过如上所述的方法训练;所述待转换语音属于与所述个性语音数据组对应同一说话人。
一种智能装置,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如下方法:建立第一训练数据集合,所述第一训练数据集合包括多组训练语音数据组;从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练;建立第二训练数据集合,所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组;从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练;建立第三训练数据集合,所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组,所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据,且与所述第一源说话人语音数据组对应同一说话人,所述个性语音数据组包括第二数量条个性语音数据,所述第二数量小于所述第一数量;将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。
一种智能装置,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如下方法:获取待转换语音数据;将所述待转换语音数据输入预训练的所述语音转换神经网络,根据所述语音转换神经网络的输出获取目标语音数据;其中,所述语音转换神经网络经过如上所述的方法训练;所述待转换语音属于与所述个性语音数据组对应同一说话人。
一种存储介质,存储有计算机程序,所述计算机程序能够被处理器执行以实现如上所述的方法。
采用本发明实施例,具有如下有益效果:
先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练,使得语音转换神经网络学习覆盖大量语料,学习到足够泛化的概率分布,再通过第一源说话人语音数据组至多组训练语音数据组的转换训练,使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布,最后进行源说话人到指定说话人的训练时,只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练,在实际使用时,可以由商家提供第一训练数据集合和第二训练数据集合,用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练,操作简便,可以有效节约时间和存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本发明一个实施例中语音转换的训练方法应用环境图;
图2是本发明提供的语音转换的训练方法的第一实施例的流程示意图;
图3是本发明提供的语音转换的训练方法中训练语音转换神经网络的方法的一实施例的流程示意图;
图4是本发明提供的语音转换的训练方法中动态规划时间对齐的方法的一实施例的流程示意图;
图5为动态规划时间对齐的原理示意图;
图6是本发明提供的语音转换方法的一实施例的流程示意图;
图7是本发明提供的智能装置的第一实施例的结构示意图;
图8是本发明提供的智能装置的第二实施例的结构示意图;
图9是本发明提供的智能装置的第三实施例的结构示意图;
图10是本发明提供的智能装置的第四实施例的结构示意图;
图11是本发明提供的存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中基于信号处理方法和传统机器学习方法的语音转换技术得到的语音转换模型,合成语音不够自然流畅,效果欠佳。基于深度学习的语音转换技术可以转换出相似度高,流畅自然的语音,特点是需要大量的语音数据进行训练。
在本实施例中,为了解决上述问题,提供了一种语音转换的方法,操作简便,可以有效节约时间和存储空间。
请参阅图1,图1是本发明一个实施例中语音转换的训练方法应用环境图。参照图1,该语音转换的训练方法应用于语音转换的训练系统。该语音转换的训练系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取个性语音数据组,服务器120用于建立第一训练数据集合,第一训练数据集合包括多组训练语音数据组,每组训练语音数据组包括第一数量条训练语音数据,任意两组训练语音数据互为平行语料;从第一训练数据集合中选择两组训练语音数据组,其中一组训练语音数据组作为源语音数据组,另一组作为目标语音数据组;将源语音数据组和目标语音数据组输入语音转换神经网络进行训练;建立第二训练数据集合,第二训练集合包括第一训练数据集合以及第一源说话人语音数据组,第一源说话人语音数据组包括第一数量条第一源说话人语音数据,第一源说话人语音数据组与任意一组训练语音数据互为平行语料;从第一训练数据集合中选择一组训练语音数据组作为目标语音数据组,将源说话人语音数据组作为源语音数据组;将源语音数据组和目标语音数据组输入语音转换神经网络进行训练;建立第三训练数据集合,第三训练数据集合包括互为平行语料的第二源说话人语音数据组和个性语音数据组,第二源说话人语音数据组包括第二数量条第二源说话人语音数据,个性语音数据组包括第二数量条个性语音数据,第二数量小于第一数量;将第二源说话人语音数据组作为源语音数据组,将个性语音数据组作为目标语音数据组;将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。
请参阅图2,图2是本发明提供的语音转换的训练方法的第一实施例的流程示意图。本发明提供的语音转换的训练方法包括如下步骤:
S101:建立第一训练数据集合,第一训练数据集合包括多组训练语音数据组。
在一个具体的实施场景中,建议第一训练数据集合,第一训练数据集合中包括多组训练语音数据组,每组训练语音数据组对应不同的说话人,任意两组训练语音数据组互为平行语料,每组训练语音数据组中语音的文本内容均相同。每组训练语音数据组包括第一数量条训练语音数据。在本实施场景中第一数量为300,在其他实施场景中,第一数量还可以是200、500等。
第一训练数据集合可以由商家提供,商家可以事先采集,或者从数据库中获取多组训练语音数据组,从而建立第训练数据集合。
S102:从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练。
在一个具体的实施场景中,从第一训练数据集合中选择两组训练语音数据组,其中一组作为源语音数据组,另一组作为目标语音数据组。例如,在本实施场景中有10组训练语音数据组,则可以组成10*9*300=27000对不同的从源语音数据到目标语音数据的训练组合。
在本实施场景中,可以按照排列组合的顺序依次选择两组训练语音数据组,直至遍历第一训练数据集合中全部的训练语音数据组。
在本实施场景中,将选择的源语音数据组和目标语音数据组输入语音转换神经网络进行训练。具体地说,从源语音数据组中选择一条源语音数据,从而目标语音数据中选择一条与源语音数据具有相同文本内容的目标语音数据,将这一对源语音数据和目标语音数据输入语音转换神经网络进行训练。
S103:建立第二训练数据集合,第二训练集合包括第一训练数据集合以及第一源说话人语音数据组。
在本实施场景中,建立第二训练数据集合,第二训练数据集合包括第一训练数据集合以及第一源说话人语音数据组,第一源说话人语音数据组包括第一数量条第一源说话人语音数据,且第一源说话人语音数据组与任意一组训练语音数据互为平行语料。
在其他实施场景中,第二训练数据组合还可以是包括第一源说话人语音数据组和若干组其他人说话语音数据组,其他人说话语音数据组包括第一数量条其他说话语音数据,且任意一组其他人说话语音数据组与第一源说话人语音数据组互为平行语料。其他人说话语音数据组可以与第一训练数据集合至少部分重合,也可以不重合。
S104:从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练。
在本实施场景中,从第一训练数据集合中选择一组训练语音作为目标语音数据组,将第一源说话人语音数据组作为源语音数据组。在本实施场景中,可以依次选择一组训练语音数据组作为目标语音数据组,直至遍历第一训练数据集合。
在本实施场景中,将选择的源语音数据组和目标语音数据组输入语音转换神经网络进行训练。具体地说,从源语音数据组中选择一条源语音数据,从而目标语音数据中选择一条与源语音数据具有相同文本内容的目标语音数据,将这一对源语音数据和目标语音数据输入语音转换神经网络进行训练。
S105:建立第三训练数据集合,第三训练数据集合包括第二源说话人语音数据组和个性语音数据组,第二源说话人语音数据组包括第二数量条第二源说话人语音数据,个性语音数据组包括第二数量条个性语音数据。
在一个具体的实施场景中,建立第三训练数据集合,第三训练数据集合包括互为平行语料的第二源说话人语音数据组和个性语音数据组,其中,第二源说话人语音数据组和第一源说话人语音数据组对应同一说话人,个性语音数据组为用户提供,可以是用户为说话人的语音数据组。第二元说话人语音数据组包括第二数量条第二元说话人语音数据,个性语音数据组包括第二数量条个性语音数据。第二数量小于第一数量。由于语音转换神经网络经过两次训练后,已经获取了由源说话人到不同说话的人转换的工作,因此第二数量可以是一个很小的数值,例如20。
S106:将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。
在本实施场景中,将第二源说话人语音数据组作为源语音数据组,将个性语音数据组作为目标语音数据组。
在本实施场景中,将选择的源语音数据组和目标语音数据组输入语音转换神经网络进行训练。具体地说,从源语音数据组中选择一条源语音数据,从而目标语音数据中选择一条与源语音数据具有相同文本内容的目标语音数据,将这一对源语音数据和目标语音数据输入语音转换神经网络进行训练。
通过上述描述可知,在本实施例中,先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练,使得语音转换神经网络学习覆盖大量语料,学习到足够泛化的概率分布,再通过第一源说话人语音数据组至多组训练语音数据组的转换训练,使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布,最后进行源说话人到指定说话人的训练时,只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练,在实际使用时,可以由商家提供第一训练数据集合和第二训练数据集合,用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练,操作简便,可以有效节约时间和存储空间。
请参阅图3,图3是本发明提供的语音转换的训练方法中训练语音转换神经网络的方法的一实施例的流程示意图。本发明提供的语音转换的训练方法中训练语音转换神经网络的方法包括如下步骤:
S201:从源语音数据组中选择一条源语音数据,从目标语音数据组中选择对应于源语音数据的一条目标语音数据。
在一个具体的实施场景中,从源语音数据组中选择一条源语音数据,从而目标语音数据中选择一条与源语音数据具有相同文本内容的目标语音数据,将这一对源语音数据和目标语音数据用于进行训练。
S202:获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数。
在本实施场景中,分别获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数。例如,可以通过world语音特征分析器分别对源语音数据和目标语音数据进行分析,以分别获取至少一个源语音声学参数和至少一个目标语音声学参数。
在本实施场景中,通过world语音特征分析器分别对源语音数据和目标语音数据进行分析,分别获取源语音数据和目标语音数据的频谱、基频和非周期频率中的至少一个。
在其他实施场景中,至少一个源语音声学参数和至少一个目标语音声学参数还包括了源语音数据的清浊音和目标语音的清浊音。可以通过对源语音数据和目标语音数据的基频取对数,根据各自基频的对数获取源语音数据的清浊音和目标语音的清浊音。
在本实施场景中,在获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数之前,先对源语音数据和目标语音数据进行重采样。
S203:根据至少一个目标语音声学参数将至少一个源语音声学参数进行动态规划时间对齐,获取对齐后的至少一个源语音声学参数。
在本实施场景中,由于不同人讲话的语速不同,因此,说同一句话所需的时间不同,同一发音音素的时刻也不同。因此需要根据至少一个目标语音声学参数将至少一个源语音声学参数进行动态规划时间对齐。具体地,请结合参阅图4,图4是本发明提供的语音转换的训练方法中动态规划时间对齐的方法的一实施例的流程示意图。本发明提供的语音转换的训练方法中动态规划时间对齐的方法包括如下步骤:
S301:计算源语音数据的频谱的梅尔倒谱,源语音数据的基频的对数,根据基频的对数计算出源语音数据的清浊音。
在一个具体的实施场景中,通过语音信号处理工具SPTK获取源语音数据的频谱的梅尔倒谱。通过公式
lf0=log2f0
计算源语音数据的基频的对数,其中,f0为源语音数据的基频。根据源语音数据的基频的对数计算源语音数据的清浊音。
S302:计算目标语音数据的频谱的梅尔倒谱,目标语音数据的基频的对数,根据基频的对数计算出目标语音数据的清浊音。
在本实施场景中,获取目标语音数据的频谱的梅尔倒谱、基频的对数和清浊音的方法与获取源语音数据的基本一致,此处不再进行赘述。
S303:依据目标语音数据的频谱的梅尔倒谱、目标语音数据的基频的对数、目标语音数据的清浊音和目标语音数据的非周期频率分别对源语音数据的频谱的梅尔倒谱、源语音数据的基频的对数、源语音数据的清浊音和源语音数据的非周期频率进行动态规划时间对齐。
在本实施场景中,需要将它们在时间轴上进行长度对齐,才能送入神经网络种。这里采用了动态规划时间对齐(Dynamic Time Warping)的方法,将源语音的声学特征对齐到目标语音的声学特征长度上去。衡量t时刻帧与帧之间的距离函数为:
Figure BDA0002350933780000061
其中,I,J为特征矩阵,维度为T(帧数)×N(特征维度)。
请结合参阅图5,图5为动态规划时间对齐的原理示意图。
在本实施场景中,将源语音数据的频谱的梅尔倒谱依据目标语音数据的频谱的梅尔倒谱进行动态规划时间对齐,将源语音数据的基频的对数依据目标语音数据的基频的对数进行动态规划时间对齐,将源语音数据的清浊音依据目标语音数据的清浊音进行动态规划时间对齐,将源语音数据的非周期频率依据目标语音数据的非周期频率进行动态规划时间对齐。
S204:将对齐后的至少一个源语音声学参数和至少一个目标语音声学参数输入语音转换神经网络进行训练。
在本实施场景中,在本实施场景中,对齐后的至少一个源语音声学参数为T×N的矩阵x。至少一个目标语音声学参数为矩阵y。将矩阵x和矩阵y输入双向长短记忆循环神经网络当中进行训练。
在本实施场景中,语音转换神经网络为双向长短记忆循环神经网络。定义双向长短记忆循环神经网络的参数如下表:
Figure BDA0002350933780000071
输出的经过转换后的语音声学特征
Figure BDA0002350933780000072
为TxN的矩阵。定义损失函数为:
Figure BDA0002350933780000073
根据计算出的loss,进行梯度下降,更新神经网络参数权值,以及根据损失函数的结果判断训练是否结束。
通过上述描述可知,在本实施例中对源语音数据的至少一个源语音声学参数和目标语音的至少一个目标语音声学参数进行动态规划时间对齐可以进一步提升训练的准确性,从而提升转换的准确性。
请参阅图6,图6是本发明提供的语音转换方法的一实施例的流程示意图。本发明提供的语音转换方法包括如下步骤:
S401:获取待转换语音数据,待转换语音属于与个性语音数据组对应同一说话人。
在一个具体的实施场景中,获取待转换语音数据,该语音数据与训练语音转换神经网络时的个性语音数据组对应同一说话人。
在本实施场景中,获取待转换语音数据之后,获取该语音数据的至少一个待转换语音声学参数,包括待转换语音数据的基频、频谱和非周期频率中的至少一个,获取至少一个待转换语音声学参数的方法与前文中基本一致,此处不再进行赘述。
在本实施场景中,在获取至少一个待转换语音声学参数之前,对待转换语音参数进行重采样。
S402:将待转换语音数据输入预训练的语音转换神经网络,根据语音转换神经网络的输出获取目标语音数据。
在本实施场景中,将待转换语音数据的至少一个待转换语音声学参数输入预训练的语音转换神经网络,该语音转换神经网络经过图2-图3的方法进行训练,因此可以输出至少一个目标声学参数。
该至少一个目标声学参数包括目标语音数据的梅尔倒谱,目标语音数据的基频的对数和目标语音数据的非周期频率。对至少一个目标声学参数通过mlpg(MaximumLikelihood Parameter Generation,最大似然参数生成)进行平滑处理。然后通过SPTK将目标语音数据梅尔倒谱(Mel-generalized Cepstral)转换为目标语音数据的频谱,根据目标语音数据的基频的对数求出目标语音数据的基频,将目标语音数据的频谱、基频和非周期频率输入world语音特征分析器或者wavenet声码器得到目标语音数据。
通过上述描述可知,在本实施例中通过将待转换语音数据输入预训练的语音转换神经网络,根据语音转换神经网络的输出获取目标语音数据,可以准确获取目标语音数据。
请参阅图7,图7是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括:第一集合模块11、第一训练模块12、第二集合模块13、第二训练模块14、第三集合模块15、第三训练模块16。第一集合模块11用于建立第一训练数据集合,第一训练数据集合包括多组训练语音数据组。第一训练模块12用于从第一训练数据集合中选择两组训练语音数据组输入语音转换神经网络进行训练。第二集合模块13用于建立第二训练数据集合,第二训练集合包括第一训练数据集合以及第一源说话人语音数据组。第二训练模块14用于从第一训练数据集合中选择一组训练语音数据组和源说话人语音数据组输入语音转换神经网络进行训练;第三集合模块15用于建立第三训练数据集合,第三训练数据集合包括第二源说话人语音数据组和个性语音数据组,第二源说话人语音数据组包括第二数量条第二源说话人语音数据,且与第一源说话人语音数据组对应同一说话人,个性语音数据组包括第二数量条个性语音数据,第二数量小于第一数量;第三训练模块16用于将第二源说话人语音数据组和个性语音数据组输入语音转换神经网络进行训练。
其中,每组训练语音数据组包括第一数量条训练语音数据,任意两组训练语音数据互为平行语料;第一源说话人语音数据组包括第一数量条第一源说话人语音数据,第一源说话人语音数据组与任意一组训练语音数据互为平行语料;第二源说话人语音数据组和个性语音数据组互为平行语料。
第一训练模块12用于将两组训练语音数据组其中一组训练语音数据组作为源语音数据组,另一组作为目标语音数据组;将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。
第二训练模块14用于从第一训练数据集合中选择一组训练语音数据组作为目标语音数据组,将源说话人语音数据组作为源语音数据组;将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。
第三训练模块16用于将第二源说话人语音数据组作为源语音数据组,将个性语音数据组作为目标语音数据组;将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。
第一训练模块12、第二训练模块14和第三训练模块16还用于从源语音数据组中选择一条源语音数据,从目标语音数据组中选择对应于源语音数据的一条目标语音数据;获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数;根据至少一个目标语音声学参数将至少一个源语音声学参数进行动态规划时间对齐,获取对齐后的至少一个源语音声学参数;将对齐后的至少一个源语音声学参数和至少一个目标语音声学参数输入语音转换神经网络进行训练。
其中,至少一个源语音声学参数包括源语音数据的频谱、基频、非周期频率和清浊音中的至少一项;至少一个目标语音声学参数包括目标语音数据的频谱、基频、非周期频率和清浊音中的至少一项。
第一训练模块12、第二训练模块14和第三训练模块16还用于通过语音特征分析器分别获取源语音数据的频谱、基频、非周期频率中的至少一项,以及目标语音数据的频谱、基频、非周期频率中的至少一项。
第一训练模块12、第二训练模块14和第三训练模块16还用于计算源语音数据的频谱的梅尔倒谱,源语音数据的基频的对数,根据基频的对数计算出源语音数据的清浊音;计算目标语音数据的频谱的梅尔倒谱,目标语音数据的基频的对数,根据基频的对数计算出目标语音数据的清浊音;依据目标语音数据的频谱的梅尔倒谱、目标语音数据的基频的对数、目标语音数据的清浊音和目标语音数据的非周期频率分别对源语音数据的频谱的梅尔倒谱、源语音数据的基频的对数、源语音数据的清浊音和源语音数据的非周期频率进行动态规划时间对齐。
第一训练模块12、第二训练模块14和第三训练模块16还用于对源语音数据和目标语音数据进行重采样。
其中,语音转换神经网络为双向长短记忆神经网络。
通过上述描述可知,在本实施例中智能装置先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练,使得语音转换神经网络学习覆盖大量语料,学习到足够泛化的概率分布,再通过第一源说话人语音数据组至多组训练语音数据组的转换训练,使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布,最后进行源说话人到指定说话人的训练时,只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练,在实际使用时,可以由商家提供第一训练数据集合和第二训练数据集合,用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练,操作简便,可以有效节约时间和存储空间。
请参阅图8,图8是本发明提供的智能装置的第二实施例的结构示意图。智能装置20包括获取模块21和转换模块22。获取模块21用于获取待转换语音数据,待转换语音属于与个性语音数据组对应同一说话人。转换模块22用于将待转换语音数据输入预训练的语音转换神经网络,根据语音转换神经网络的输出获取目标语音数据;
转换模块22还用于获取待转换语音数据的至少一个待转换语音声学参数,至少一个待转换语音参数包括待转换语音数据的基频、频谱和非周期频率中的至少一个;将待转换语音数据的至少一个待转换语音参数输入语音转换神经网络。
转换模块22还用于对待转换语音参数进行重采样。
其中,语音转换神经网络的输出包括目标语音数据至少一个目标声学参数。至少一个目标声学参数包括:目标语音数据的梅尔倒谱,目标语音数据的基频的对数和目标语音数据的非周期频率。
转换模块22还用于根据目标语音数据的梅尔倒谱计算目标语音数据的频谱,根据目标语音数据的频率的对数计算目标语音数据的基频。将目标语音数据的频谱、目标语音数据的基频和目标语音数据的非周期频率合成,获取目标语音数据。
转换模块22还用于对至少一个目标声学参数进行平滑处理。
通过上述描述可知,在本实施例中通过将待转换语音数据输入预训练的语音转换神经网络,根据语音转换神经网络的输出获取目标语音数据,可以准确获取目标语音数据。
请参阅图9,图9是本发明提供的智能装置的第三实施例的结构示意图。智能装置30包括处理器31、存储器32和获取电路33。处理器31耦接存储器32和获取电路33。存储器32中存储有计算机程序,处理器31在工作时执行该计算机程序以实现如图2、图3和图4所示的方法。详细的方法可参见上述,在此不再赘述。
通过上述描述可知,在本实施例中智能装置先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练,使得语音转换神经网络学习覆盖大量语料,学习到足够泛化的概率分布,再通过第一源说话人语音数据组至多组训练语音数据组的转换训练,使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布,最后进行源说话人到指定说话人的训练时,只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练,在实际使用时,可以由商家提供第一训练数据集合和第二训练数据集合,用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练,操作简便,可以有效节约时间和存储空间。
请参阅图10,图10是本发明提供的智能装置的第四实施例的结构示意图。智能装置40包括处理器41、存储器42和获取电路43。处理器41耦接存储器42和获取电路43。存储器42中存储有计算机程序,处理器41在工作时执行该计算机程序以实现如图6所示的方法。详细的方法可参见上述,在此不再赘述。
通过上述描述可知,在本实施例中通过将待转换语音数据输入预训练的语音转换神经网络,根据语音转换神经网络的输出获取目标语音数据,可以准确获取目标语音数据。
请参阅图11,图11是本发明提供的存储介质的一实施例的结构示意图。存储介质50中存储有至少一个计算机程序51,计算机程序51用于被处理器执行以实现如图2-图4或图6所示的方法,详细的方法可参见上述,在此不再赘述。在一个实施例中,存储介质50可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具,还可以是服务器等等。
通过上述描述可知,在本实施例中智能装置先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练,使得语音转换神经网络学习覆盖大量语料,学习到足够泛化的概率分布,再通过第一源说话人语音数据组至多组训练语音数据组的转换训练,使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布,最后进行源说话人到指定说话人的训练时,只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练,在实际使用时,可以由商家提供第一训练数据集合和第二训练数据集合,用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练,操作简便,可以有效节约时间和存储空间。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (12)

1.一种语音转换的训练方法,其特征在于,包括:
建立第一训练数据集合,所述第一训练数据集合包括多组训练语音数据组;
从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练;
建立第二训练数据集合,所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组;
从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练;
建立第三训练数据集合,所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组,所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据,且与所述第一源说话人语音数据组对应同一说话人,所述个性语音数据组包括第二数量条个性语音数据,所述第二数量小于所述第一数量;
将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。
2.根据权利要求1中所述的语音转换的训练方法,其特征在于,
每组所述训练语音数据组包括第一数量条训练语音数据,任意两组所述训练语音数据互为平行语料;
所述第一源说话人语音数据组包括第一数量条第一源说话人语音数据,所述第一源说话人语音数据组与任意一组所述训练语音数据互为平行语料;
所述第二源说话人语音数据组和所述个性语音数据组互为平行语料。
3.根据权利要求2中所述的语音转换的训练方法,其特征在于,所述从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练的步骤,包括:
将所述两组训练语音数据组其中一组所述训练语音数据组作为源语音数据组,另一组作为目标语音数据组;
将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练;
所述从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练的步骤,包括:
从所述第一训练数据集合中选择一组所述训练语音数据组作为目标语音数据组,将所述源说话人语音数据组作为源语音数据组;
将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练;
所述将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练的步骤,包括:
将所述第二源说话人语音数据组作为源语音数据组,将所述个性语音数据组作为目标语音数据组;
将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练。
4.根据权利要求3所述的语音转换的训练方法,其特征在于,所述将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练的步骤包括:
从所述源语音数据组中选择一条源语音数据,从所述目标语音数据组中选择对应于所述源语音数据的一条目标语音数据;
获取所述源语音数据的至少一个源语音声学参数和所述目标语音数据的至少一个目标语音数据;
根据所述至少一个目标语音声学参数将所述至少一个源语音声学参数进行动态规划时间对齐,获取对齐后的至少一个源语音声学参数;
将所述对齐后的至少一个源语音声学参数和所述至少一个目标语音声学参数输入所述语音转换神经网络进行训练。
5.根据权利要求3所述的语音转换的训练方法,其特征在于,
所述至少一个源语音声学参数包括通过语音特征分析器获取所述源语音数据的频谱、基频、非周期频率和清浊音中的至少一项;
所述至少一个目标语音声学参数包括通过语音特征分析器获取所述目标语音数据的频谱、基频、非周期频率和清浊音中的至少一项。
6.根据权利要求5所述的语音转换的训练方法,其特征在于,
所述根据所述至少一个目标语音声学参数将所述至少一个源语音声学参数进行动态规划时间对齐的步骤,包括:
计算所述源语音数据的频谱的梅尔倒谱,所述源语音数据的基频的对数,根据所述源语音数据的基频的对数计算出所述源语音数据的清浊音;
计算所述目标语音数据的频谱的倒谱,所述目标语音数据的基频的对数,根据所述目标语音数据的基频的对数计算出所述目标语音数据的清浊音;
依据所述目标语音数据的频谱的梅尔倒谱、所述目标语音数据的基频的对数、所述目标语音数据的清浊音和所述目标语音数据的非周期频率分别对所述源语音数据的频谱的梅尔倒谱、所述源语音数据的基频的对数、所述源语音数据的清浊音和所述源语音数据的非周期频率进行动态规划时间对齐。
7.一种语音转换方法,其特征在于,包括:
获取待转换语音数据,所述待转换语音属于与所述个性语音数据组对应同一说话人;
将所述待转换语音数据输入预训练的所述语音转换神经网络,根据所述语音转换神经网络的输出获取目标语音数据;
其中,所述语音转换神经网络经过权利要求1-9所述的方法训练。
8.根据权利要求7所述的语音转换方法,其特征在于,所述将所述待转换语音数据输入预训练的所述语音转换神经网络的步骤包括:
获取所述待转换语音数据的至少一个待转换语音参数,所述至少一个待转换语音参数包括所述待转换语音数据的基频、频谱和非周期频率中的至少一个;
将所述待转换语音数据的至少一个待转换语音参数输入所述语音转换神经网络。
9.根据权利要求8所述的语音转换方法,其特征在于,
所述语音转换神经网络的输出包括所述目标语音数据至少一个目标声学参数;
所述至少一个目标声学参数包括:所述目标语音数据的梅尔倒谱,所述目标语音数据的基频的对数和所述目标语音数据的非周期频率;
所述根据所述语音转换神经网络的输出获取目标语音数据的步骤,包括:
根据所述目标语音数据的梅尔倒谱计算所述目标语音数据的频谱,根据所述目标语音数据的频率的对数计算所述目标语音数据的基频;
将所述目标语音数据的频谱、所述目标语音数据的基频和所述目标语音数据的非周期频率合成,获取所述目标语音数据。
10.一种智能装置,其特征在于,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如下方法:
建立第一训练数据集合,所述第一训练数据集合包括多组训练语音数据组;
从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练;
建立第二训练数据集合,所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组;
从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练;
建立第三训练数据集合,所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组,所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据,且与所述第一源说话人语音数据组对应同一说话人,所述个性语音数据组包括第二数量条个性语音数据,所述第二数量小于所述第一数量;
将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。
11.一种智能装置,其特征在于,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如下方法:
获取待转换语音数据;
将所述待转换语音数据输入预训练的所述语音转换神经网络,根据所述语音转换神经网络的输出获取目标语音数据;
其中,所述语音转换神经网络经过权利要求10所述的智能装置的训练;
所述待转换语音数据与所述个性语音数据组对应同一说话人。
12.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1或7所述的方法。
CN201980003377.3A 2019-12-31 2019-12-31 语音转换的方法及训练方法、智能装置和存储介质 Active CN111433847B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/130639 WO2021134520A1 (zh) 2019-12-31 2019-12-31 语音转换的方法及训练方法、智能装置和存储介质

Publications (2)

Publication Number Publication Date
CN111433847A true CN111433847A (zh) 2020-07-17
CN111433847B CN111433847B (zh) 2023-06-09

Family

ID=71553319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003377.3A Active CN111433847B (zh) 2019-12-31 2019-12-31 语音转换的方法及训练方法、智能装置和存储介质

Country Status (3)

Country Link
US (1) US11282503B2 (zh)
CN (1) CN111433847B (zh)
WO (1) WO2021134520A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767942A (zh) * 2020-12-31 2021-05-07 北京云迹科技有限公司 语音识别引擎适配方法、装置、电子设备及存储介质
CN112820268A (zh) * 2020-12-29 2021-05-18 深圳市优必选科技股份有限公司 个性化语音转换训练方法、装置、计算机设备及存储介质
WO2022141126A1 (zh) * 2020-12-29 2022-07-07 深圳市优必选科技股份有限公司 个性化语音转换训练方法、计算机设备及存储介质
WO2023035397A1 (zh) * 2021-09-07 2023-03-16 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651767B2 (en) 2020-03-03 2023-05-16 International Business Machines Corporation Metric learning of speaker diarization
US11443748B2 (en) * 2020-03-03 2022-09-13 International Business Machines Corporation Metric learning of speaker diarization
CN113763987A (zh) * 2021-09-06 2021-12-07 中国科学院声学研究所 一种语音转换模型的训练方法及装置
CN113782052A (zh) * 2021-11-15 2021-12-10 北京远鉴信息技术有限公司 一种音色转换方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253794A1 (en) * 2011-03-29 2012-10-04 Kabushiki Kaisha Toshiba Voice conversion method and system
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN106057192A (zh) * 2016-07-07 2016-10-26 Tcl集团股份有限公司 一种实时语音转换方法和装置
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006053256A2 (en) * 2004-11-10 2006-05-18 Voxonic, Inc. Speech conversion system and method
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
CN105390141B (zh) * 2015-10-14 2019-10-18 科大讯飞股份有限公司 声音转换方法和装置
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
US10453476B1 (en) * 2016-07-21 2019-10-22 Oben, Inc. Split-model architecture for DNN-based small corpus voice conversion
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
KR20200027475A (ko) * 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
US11106182B2 (en) * 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN110600047B (zh) * 2019-09-17 2023-06-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253794A1 (en) * 2011-03-29 2012-10-04 Kabushiki Kaisha Toshiba Voice conversion method and system
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN106057192A (zh) * 2016-07-07 2016-10-26 Tcl集团股份有限公司 一种实时语音转换方法和装置
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820268A (zh) * 2020-12-29 2021-05-18 深圳市优必选科技股份有限公司 个性化语音转换训练方法、装置、计算机设备及存储介质
WO2022141126A1 (zh) * 2020-12-29 2022-07-07 深圳市优必选科技股份有限公司 个性化语音转换训练方法、计算机设备及存储介质
CN112767942A (zh) * 2020-12-31 2021-05-07 北京云迹科技有限公司 语音识别引擎适配方法、装置、电子设备及存储介质
CN112767942B (zh) * 2020-12-31 2023-04-07 北京云迹科技股份有限公司 语音识别引擎适配方法、装置、电子设备及存储介质
WO2023035397A1 (zh) * 2021-09-07 2023-03-16 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20210201890A1 (en) 2021-07-01
US11282503B2 (en) 2022-03-22
CN111433847B (zh) 2023-06-09
WO2021134520A1 (zh) 2021-07-08

Similar Documents

Publication Publication Date Title
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
US11361751B2 (en) Speech synthesis method and device
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
CN109448707A (zh) 一种语音识别方法及装置、设备、介质
CN106935239A (zh) 一种发音词典的构建方法及装置
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
US8447603B2 (en) Rating speech naturalness of speech utterances based on a plurality of human testers
US20210350791A1 (en) Accent detection method and accent detection device, and non-transitory storage medium
US11810546B2 (en) Sample generation method and apparatus
CN111354343B (zh) 语音唤醒模型的生成方法、装置和电子设备
Liu et al. Feature fusion of speech emotion recognition based on deep learning
CN111508469A (zh) 一种文语转换方法及装置
CN112634866A (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN113421584B (zh) 音频降噪方法、装置、计算机设备及存储介质
US20190287514A1 (en) Voice recognition method, device and computer storage medium
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN117493830A (zh) 训练数据质量的评估、评估模型的生成方法、装置及设备
CN113393830B (zh) 混合声学模型训练及歌词时间戳生成方法、设备、介质
CN113948062B (zh) 数据转换方法及计算机存储介质
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant