CN107464554B - 语音合成模型生成方法和装置 - Google Patents
语音合成模型生成方法和装置 Download PDFInfo
- Publication number
- CN107464554B CN107464554B CN201710898536.3A CN201710898536A CN107464554B CN 107464554 B CN107464554 B CN 107464554B CN 201710898536 A CN201710898536 A CN 201710898536A CN 107464554 B CN107464554 B CN 107464554B
- Authority
- CN
- China
- Prior art keywords
- synthesis model
- neural network
- voice
- type
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 153
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 112
- 238000002372 labelling Methods 0.000 claims abstract description 21
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练,得到可以合成每一个播报员的多个不同风格的语音的语音合成模型,降低训练开销。
Description
技术领域
本申请涉及计算机领域,具体涉及语音领域,尤其涉及语音合成模型生成方法和装置。
背景技术
语音合成模型通过对语音合成模型对应神经网络进行训练生成。为了向用户提供多个播报员的多个不同风格的合成的语音,需要针对每一个播报员,分别利用一个播报员的多个不同风格的语音用于训练,分别生成用于合成一个播报员的单一风格的语音合成模型,训练开销大。
发明信息
本申请提供了一种语音合成模型生成方法和装置,用于解决上述背景技术部分存在的技术问题。
第一方面,本申请提供了语音合成模型生成方法,该方法包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。
第二方面,本申请提供了语音合成模型生成装置,该装置包括:获取单元,配置用于获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;训练单元,配置用于利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。
本申请提供的语音合成模型生成方法和装置,通过获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练,得到可以合成每一个播报员的多个不同风格的语音的语音合成模型,降低训练开销。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请的语音合成模型生成方法的一个实施例的流程图;
图2示出了根据本申请的语音合成模型生成装置的一个实施例的结构示意图;
图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的语音合成模型生成方法的一个实施例的流程。该方法包括以下步骤:
步骤101,获取多个类型的训练样本。
在本实施例中,语音合成模型通过利用训练样本语音合成模型对应的神经网络进行训练而生成。为了对语音合成模型对应的神经网络进行训练,可以首先获取用于对语音合成模型对应的神经网络进行训练的多个类型的训练样本。
在对语音合成模型对应的神经网络进行训练时,分别在将文本的特征设置在语音合成模型对应的神经网络的输入端,将语音的声学特征设置在语音合成模型对应的神经网络的输出端,对语音合成模型对应的神经网络以端到端的方式进行训练。
在本实施例中,一个训练样本中包含文本和文本对应的语音。一个类型的训练样本包括:该类型的文本、该类型的播报员以该类型对应的语音的风格阅读该文本的该类型对应的语音的风格的语音。训练样本的类型与训练样本中的语音的风格可以是一一对应的。
例如,新闻类型对应的语音的风格为新闻风格,小说类型对应的语音的风格为小说风格。
一个新闻类型的训练样本中包含新闻类型的文本、新闻类型对应的播报员以该新闻类型的风格即读新闻的风格阅读该新闻类型的文本的新闻风格的语音。可以预先由新闻类型对应的播报员读一段新闻类型的文本,将一段新闻类型的文本和该播报员以新闻风格读一段新闻类型的文本的语音作为一个新闻类型的训练样本。
在本实施例中,播报员与训练样本的类型也可以是一一对应的。例如,新闻类型的训练样本、小说类型的训练样本各自对应一个播报员。由新闻类型对应的播报员分别读取多段新闻类型的文本,得到多个新闻类型的训练样本。每一个新闻类型的样本中包含一段新闻类型的文本和新闻类型对应的播报员以新闻风格读取一段新闻类型的文本的语音。由小说类型对应的播报员分别读取多段小说类型的文本,得到多个小说类型的训练样本。每一个小说类型的样本中包含一段小说类型的文本和小说类型对应的播报员以小说风格读取一段小说类型的文本的语音。
步骤102,利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练。
在本实施例中,利用多个类型的训练样本和每一个类型的训练样本的风格标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型。一个训练样本中的语音的风格的标注信息可以表示该语音的风格。
在一次训练过程中,在利用一个训练样本对语音合成模型对应的进行训练时,语音合成模型对应的神经网络可以根据每一个训练样本中的语音的风格的标注信息,确定用于训练的语音的风格,同时,还可以确定训练样本中的语音所属的播报员。
利用多个类型的训练样本和每一个类型的训练样本的风格标注信息,对语音合成模型对应的神经网络进行多次训练之后,语音合成模型对应的神经网络可以同时学习到每一个播报员自身的声音的特征和每一个播报员对应的风格的特征。
假设利用播报员A对应的新闻类型的训练样本和播报员B对应的小说类型的训练样本对语音合成模型对应的神经网络进行训练,由于语音合成模型对应的神经网络中的参数是利用每一个类型的训练样本进行训练时共享的,因此,在利用播报员A对应的新闻类型的训练样本和播报员B对应的小说类型的训练样本对语音合成模型对应的神经网络进行训练之后,语音合成模型对应的神经网络既可以学习出新闻风格的语音的特征即读新闻的特征和小说风格的语音的特征即读小说的特征,又可以学习出播报员A的语音的特征和播报员B的语音的特征。
多次训练之后的语音合成模型对应的神经网络可以将学习出的播报员的A的语音的特征和学习出的读小说的特征结合,合成播报员A读小说的语音,可以将学习出的播报员的B的语音的特征和学习出读新闻的特征相结合,合成播报员B读新闻的语音。
换言之,多次训练后的语音合成模型对应的神经网络可以称之为语音合成模型,该语音合成模型可以将学习出的播报员的A的语音的特征和学习出的读小说的特征结合,合成播报员A读小说的语音,可以将学习出的播报员的B的语音的特征和学习出读新闻的特征相结合,合成播报员B读新闻的语音。
在本实施例的一些可选的实现方式中,语音合成模型对应的神经网络可以包含多个由底至上依次连接的神经网络。每一个语音合成模型对应的神经网络中的神经网络对应语音合成模型对应的神经网络的一层。例如,语音合成模型对应的神经网络由底至上包含多个依次连接的DNN,每一个DNN对应一层,在最后一个DNN所在的层之上,包含多个RNN,每一个RNN对应一层。
可以预先选取出的语音合成模型对应的神经网络中的一层,在一次训练过程中,在利用一个训练样本对神经网络进行训练时,可以将该训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合后作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入,即将该训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合后输入到选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络。
在一次训练过程中,在利用一个训练样本对语音合成模型对应的神经网络进行训练时,可以将该训练样本中的语音对应的风格向量与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出向量组合成选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络的输入向量,将该输入向量输入到选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络。该训练样本中的语音对应的风格向量中包含多个语音的风格中的每一个语音的风格各自对应的分量。该训练样本中的语音的风格对应的分量的数值为1,其他语音的风格的分量的数值为0。
例如,语音合成模型对应的神经网络由底至上包含多个依次连接的DNN,每一个DNN对应一层,在最后一个DNN所在的层之上,包含多个RNN,每一个RNN对应一层。
在利用一个新闻类型的训练样本对语音合成模型对应的神经网络进行训练时,该训练样本对应的风格向量中该训练样本中的语音的风格即新闻风格对应的分量的数值为1,其他语音的风格对应的分量的数值为0。可以将训练样本对应的风格向量与语音合成模型对应的神经网络中最后一个RNN的输出向量相结合,最后一个RNN所在的层之上的输出层的输入向量,将该输入向量输入到输出层中。
在本实施例的一些可选的实现方式中,当选取出的语音合成模型对应的神经网络中的一层为与语音合成模型对应的神经网络的输出层连接的一层时,在一次训练过程中,在利用一个训练样本对语音合成模型对应的神经网络进行训练时,可以将该训练样本中的语音对应的风格向量与语音合成模型对应的神经网络的输出层连接的一层的输出向量组合成一个输出层的输入向量后输入到语音合成模型对应的神经网络的输出层。
在本实施例的一些可选的实现方式中,在得到语音合成模型之后,可以接收输入的语音合成指令和文本,语音合成指令包括:用户选取的播报员的标识、用户选取的语音的风格的标识;利用语音合成模型合成用户选取的播报员的用户选取的语音的风格的所述文本对应的语音。
假设利用播报员A对应的新闻类型的训练样本和播报员B对应的小说类型的训练样本对语音合成模型对应的神经网络进行训练,由于语音合成模型对应的神经网络中的参数是利用每一个类型的训练样本进行训练时共享的,因此,在利用利用播报员A对应的新闻类型的训练样本和播报员B对应的小说类型的训练样本对语音合成模型对应的神经网络进行训练之后,语音合成模型对应的神经网络既可以学习出读新闻的特征和读小说的特征,又可以学习出播报员A的语音的特征和播报员B的语音的特征。
多次训练之后的语音合成模型对应的神经网络可以将学习出的播报员的A的语音的特征和学习出的读小说的特征结合,合成播报员A读小说的语音,可以将学习出的播报员的B的语音的特征和学习出读新闻的特征相结合,合成播报员B读新闻的语音。
换言之,多次训练后的语音合成模型对应的神经网络可以称之为语音合成模型,该语音合成模型可以将学习出的播报员的A的语音的特征和学习出的读小说的特征结合,合成播报员A读小说的语音,可以将学习出的播报员的B的语音的特征和学习出读新闻的特征相结合,合成播报员B读新闻的语音。
当语音合成模型的用户需要利用语音合成模型合成播报员A读小说的语音,可以接收输入的语音合成指令和文本,语音合成指令包括:用户选取的播报员的标识即播报员A的标识、用户选取的语音的风格的标识即小说风格的标识。可以利用语音合成模型合成播报员A读小说的语音。
请参考图2,作为对上述各图所示方法的实现,本申请提供了一种语音合成模型生成装置的一个实施例,该装置实施例与图1所示的方法实施例相对应。
如图2所示,语音合成模型生成装置包括:获取单元201,训练单元202。其中,获取单元201配置用于获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;训练单元202配置用于利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。
在本实施例的一些可选的实现方式中,训练单元包括:标注信息输入子单元,配置用于将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入。
在本实施例的一些可选的实现方式中,标注信息输入子单元进一步配置用于:将所述类型的训练样本中的语音对应的风格向量与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出向量组合成选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络的输入向量。
在本实施例的一些可选的实现方式中,标注信息输入子单元进一步配置用于:当选取出的语音合成模型对应的神经网络中的一层为与语音合成模型对应的神经网络的输出层连接的一层时,将所述类型的训练样本中的语音对应的风格向量与语音合成模型对应的神经网络的输出层连接的一层的输出向量组合成一个输入向量后输入到语音合成模型对应的神经网络的输出层。
在本实施例的一些可选的实现方式中,语音合成模型生成装置还包括:合成单元,配置用于在得到语音合成模型之后,接收输入的语音合成指令和文本,所述语音合成指令包括:用户选取的播报员的标识、用户选取的语音的风格的标识;利用语音合成模型合成用户选取的播报员的用户选取的语音的风格阅读所述文本对应的语音。
图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
如图3所示,计算机系统包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有计算机系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:输入部分306;输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的方法中限定的上述功能。
本申请还提供了一种电子设备,该电子设备可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述步骤101-102中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述步骤101-102中描述的操作。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是电子设备中所包括的;也可以是单独存在,未装配入电子设备中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被电子设备执行时,使得电子设备:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元,训练单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“用于获取多个类型的训练样本的单元”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种语音合成模型生成方法,其特征在于,所述方法包括:
获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;
利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,语音合成模型对应的神经网络同时学习到每一个播报员自身的声音的特征和每一个播报员对应的风格的特征,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音,其中,播报员对应的风格的特征包括以下至少一项:播报员读新闻的特征和读小说的特征。
2.根据权利要求1所述的方法,其特征在于,利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型包括:
将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入。
3.根据权利要求2所述的方法,其特征在于,将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入包括:
将所述类型的训练样本中的语音对应的风格向量与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出向量组合成与选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络的输入向量。
4.根据权利要求2所述的方法,其特征在于,选取出的语音合成模型对应的神经网络中的一层为与语音合成模型对应的神经网络的输出层连接的一层;以及
将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入包括:
将所述类型的训练样本中的语音对应的风格向量与语音合成模型对应的神经网络的输出层连接的一层的输出向量组合成一个输入向量后输入到语音合成模型对应的神经网络的输出层。
5.根据权利要求1-4之一所述的方法,其特征在于,在得到语音合成模型之后,所述方法还包括:
接收输入的语音合成指令和文本,所述语音合成指令包括:用户选取的播报员的标识、用户选取的语音的风格的标识;
利用语音合成模型合成用户选取的播报员的用户选取的语音的风格的所述文本对应的语音。
6.一种语音合成模型生成装置,其特征在于,所述装置包括:
获取单元,配置用于获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;
训练单元,配置用于利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,语音合成模型对应的神经网络同时学习到每一个播报员自身的声音的特征和每一个播报员对应的风格的特征,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音,其中,播报员对应的风格的特征包括以下至少一项:播报员读新闻的特征和读小说的特征。
7.根据权利要求6所述的装置,其特征在于,训练单元包括:
标注信息输入子单元,配置用于将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入。
8.根据权利要求7所述的装置,其特征在于,标注信息输入子单元进一步配置用于:将所述类型的训练样本中的语音对应的风格向量与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出向量组合成与选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络的输入向量。
9.根据权利要求7所述的装置,其特征在于,标注信息输入子单元进一步配置用于:当选取出的语音合成模型对应的神经网络中的一层为与语音合成模型对应的神经网络的输出层连接的一层时,将所述类型的训练样本中的语音对应的风格向量与语音合成模型对应的神经网络的输出层连接的一层的输出向量组合成一个输入向量后输入到语音合成模型对应的神经网络的输出层。
10.根据权利要求6-9之一所述的装置,其特征在于,所述装置还包括:
合成单元,配置用于在得到语音合成模型之后,接收输入的语音合成指令和文本,所述语音合成指令包括:用户选取的播报员的标识、用户选取的语音的风格的标识;利用语音合成模型合成用户选取的播报员的用户选取的语音的风格的所述文本对应的语音。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710898536.3A CN107464554B (zh) | 2017-09-28 | 2017-09-28 | 语音合成模型生成方法和装置 |
US16/053,897 US10971131B2 (en) | 2017-09-28 | 2018-08-03 | Method and apparatus for generating speech synthesis model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710898536.3A CN107464554B (zh) | 2017-09-28 | 2017-09-28 | 语音合成模型生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107464554A CN107464554A (zh) | 2017-12-12 |
CN107464554B true CN107464554B (zh) | 2020-08-25 |
Family
ID=60553741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710898536.3A Active CN107464554B (zh) | 2017-09-28 | 2017-09-28 | 语音合成模型生成方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10971131B2 (zh) |
CN (1) | CN107464554B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573694B (zh) * | 2018-02-01 | 2022-01-28 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
CN108986798B (zh) * | 2018-06-27 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 语音数据的处理方法、装置及设备 |
CN109036374B (zh) * | 2018-07-03 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
CN109308892B (zh) | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
CN109616093B (zh) * | 2018-12-05 | 2024-02-27 | 平安科技(深圳)有限公司 | 端对端语音合成方法、装置、设备及存储介质 |
US20200364303A1 (en) * | 2019-05-15 | 2020-11-19 | Nvidia Corporation | Grammar transfer using one or more neural networks |
WO2020235696A1 (ko) * | 2019-05-17 | 2020-11-26 | 엘지전자 주식회사 | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 |
CN110377567A (zh) * | 2019-07-25 | 2019-10-25 | 苏州思必驰信息科技有限公司 | 多媒体文件的标注方法及系统 |
KR102663669B1 (ko) * | 2019-11-01 | 2024-05-08 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
CN111161703B (zh) * | 2019-12-30 | 2023-06-30 | 达闼机器人股份有限公司 | 带语气的语音合成方法、装置、计算设备及存储介质 |
CN111223474A (zh) * | 2020-01-15 | 2020-06-02 | 武汉水象电子科技有限公司 | 一种基于多神经网络的语音克隆方法和系统 |
CN113299272B (zh) * | 2020-02-06 | 2023-10-31 | 菜鸟智能物流控股有限公司 | 语音合成模型训练和语音合成方法、设备及存储介质 |
CN111326136B (zh) * | 2020-02-13 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN113539230A (zh) * | 2020-03-31 | 2021-10-22 | 北京奔影网络科技有限公司 | 语音合成方法及装置 |
CN112365880B (zh) * | 2020-11-05 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112365881A (zh) * | 2020-11-11 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及对应模型的训练方法、装置、设备与介质 |
CN112951200B (zh) * | 2021-01-28 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN113051902A (zh) * | 2021-03-30 | 2021-06-29 | 上海思必驰信息科技有限公司 | 语音数据脱敏方法、电子设备及计算机可读存储介质 |
CN113314092A (zh) * | 2021-05-11 | 2021-08-27 | 北京三快在线科技有限公司 | 一种模型训练和语音交互的方法及装置 |
CN113792734A (zh) * | 2021-09-18 | 2021-12-14 | 深圳市商汤科技有限公司 | 神经网络训练及图像处理的方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100366057B1 (ko) * | 2000-06-26 | 2002-12-27 | 한국과학기술원 | 인간 청각 모델을 이용한 효율적인 음성인식 장치 |
WO2013008471A1 (ja) * | 2011-07-14 | 2013-01-17 | パナソニック株式会社 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN102982809B (zh) * | 2012-12-11 | 2014-12-10 | 中国科学技术大学 | 一种说话人声音转换方法 |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9542927B2 (en) * | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
CN105374350B (zh) * | 2015-09-29 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 语音标注方法及装置 |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
CN105390141B (zh) * | 2015-10-14 | 2019-10-18 | 科大讯飞股份有限公司 | 声音转换方法和装置 |
US10074359B2 (en) * | 2016-11-01 | 2018-09-11 | Google Llc | Dynamic text-to-speech provisioning |
US10311454B2 (en) * | 2017-06-22 | 2019-06-04 | NewVoiceMedia Ltd. | Customer interaction and experience system using emotional-semantic computing |
-
2017
- 2017-09-28 CN CN201710898536.3A patent/CN107464554B/zh active Active
-
2018
- 2018-08-03 US US16/053,897 patent/US10971131B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model;Takashi Nose.et al.;《SPEECH COMMUNICATION》;20120924;第347-357页 * |
基于深度神经网络的汉语语音合成的研究;张征;《中国优秀硕士学位论文全文数据库信息科技辑》;20150415(第04期);全文 * |
基于深度神经网络的汉语语音合成的研究;王坚;《计算机科学》;20150630;第42卷(第6A期);第75-78页 * |
Also Published As
Publication number | Publication date |
---|---|
US10971131B2 (en) | 2021-04-06 |
CN107464554A (zh) | 2017-12-12 |
US20190096385A1 (en) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107464554B (zh) | 语音合成模型生成方法和装置 | |
CN107452369B (zh) | 语音合成模型生成方法和装置 | |
JP7208952B2 (ja) | 対話モデルを生成するための方法及び装置 | |
CN110136691B (zh) | 一种语音合成模型训练方法、装置、电子设备及存储介质 | |
CN110288682B (zh) | 用于控制三维虚拟人像口型变化的方法和装置 | |
CN110969012B (zh) | 文本纠错方法、装置、存储介质及电子设备 | |
CN108090218B (zh) | 基于深度强化学习的对话系统生成方法和装置 | |
CN108877782B (zh) | 语音识别方法和装置 | |
CN107481715B (zh) | 用于生成信息的方法和装置 | |
CN111292717B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN109410918B (zh) | 用于获取信息的方法及装置 | |
CN111798821B (zh) | 声音转换方法、装置、可读存储介质及电子设备 | |
CN107705782B (zh) | 用于确定音素发音时长的方法和装置 | |
CN112489606B (zh) | 旋律生成方法、装置、可读介质及电子设备 | |
US20230259712A1 (en) | Sound effect adding method and apparatus, storage medium, and electronic device | |
CN107908743B (zh) | 人工智能应用构建方法和装置 | |
CN110534085B (zh) | 用于生成信息的方法和装置 | |
CN111667810B (zh) | 多音字语料的获取方法、装置、可读介质和电子设备 | |
CN106601254A (zh) | 信息输入方法和装置及计算设备 | |
CN109829164A (zh) | 用于生成文本的方法和装置 | |
CN111785247A (zh) | 语音生成方法、装置、设备和计算机可读介质 | |
CN112364653A (zh) | 用于语音合成的文本分析方法、装置、服务器和介质 | |
CN111105781B (zh) | 语音处理方法、装置、电子设备以及介质 | |
CN111916050A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN114118068B (zh) | 训练文本数据的扩增方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |