CN105355193B - 语音合成方法和装置 - Google Patents
语音合成方法和装置 Download PDFInfo
- Publication number
- CN105355193B CN105355193B CN201510728762.8A CN201510728762A CN105355193B CN 105355193 B CN105355193 B CN 105355193B CN 201510728762 A CN201510728762 A CN 201510728762A CN 105355193 B CN105355193 B CN 105355193B
- Authority
- CN
- China
- Prior art keywords
- text
- data
- text data
- model
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 10
- 230000008451 emotion Effects 0.000 claims abstract description 48
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种语音合成方法和装置,该语音合成方法包括:获取以段落或篇章为单位的文本数据;在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型;在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。该方法能够提高合成语音的情感表现力。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音合成方法和装置。
背景技术
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。对于语音合成系统,首先需要对输入的文本进行处理,包括预处理、分词、词性标注、注音、韵律层级预测等,然后再通过声学模型预测声学参数,最后利用声学参数直接通过声码器合成声音,或者从录音语料库中挑选单元进行拼接。
为了实现上述的根据文本合成语音,需要事先进行数据准备。现有技术中,在准备数据时,通过是以句子为单元生成语料,再挑选合适的发音人对语料进行语音录制。一般要求发音人在语音录制时不加入情感平稳地录制,或者以某种与语料自身的情感无关的特定情感录制。这就会造成准备的数据难以表达语料内容包含的情感方面的信息,从而使得合成语音缺乏情感表现力。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种语音合成方法,该方法可以提高合成语音的情感表现力。
本发明的另一个目的在于提出一种语音合成装置。
为达到上述目的,本发明第一方面实施例提出的语音合成方法,包括:获取以段落或篇章为单位的文本数据;在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型;在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。
本发明第一方面实施例提出的语音合成方法,通过获取以段落或篇章为单位的文本数据,可以得到存在语义关联的文本数据,通过发音人在朗读时结合文本数据的语义进行个人情感表达,可以得到更具情感的语音数据,从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型,进而可以生成更具情感表现力的合成语音。
为达到上述目的,本发明第二方面实施例提出的语音合成装置,包括:获取模块,用于获取以段落或篇章为单位的文本数据;录制模块,用于在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;生成模块,用于生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型;合成模块,用于在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。
本发明第二方面实施例提出的语音合成装置,通过获取以段落或篇章为单位的文本数据,可以得到存在语义关联的文本数据,通过发音人在朗读时结合文本数据的语义进行个人情感表达,可以得到更具情感的语音数据,从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型,进而可以生成更具情感表现力的合成语音。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的语音合成方法的流程示意图;
图2是本发明实施例中生成韵律模型的流程示意图;
图3是本发明实施例中生成声学模型的流程示意图;
图4是本发明实施例中语音合成的流程示意图;
图5是本发明另一实施例提出的语音合成装置的结构示意图;
图6是本发明另一实施例提出的语音合成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的语音合成方法的流程示意图,该方法包括:
S11:获取以段落或篇章为单位的文本数据。
与常规采用的以句子为单元的文本数据不同的是,本发明实施例中获取以段落或篇章为单位的文本数据作为训练语料。
以句子为单元的语料通常是句子之间没有什么联系,基本都是独立的。而本发明实施例中通过以段落甚至篇章为单位获取语料,可以充分利用句子之间的关联性,以蕴含更为丰富的上下文特征信息。
S12:在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达。
常规录制过程中,一般要求发音人不加入任何情感,尽可能平稳地录制语音,从而导致语义信息无法融入到语音中。还有些学者,会专门设计少量句子,让发音人以某种情感来朗读,从而造成语义与情感可能存在错位,单个句子没有上下文的铺垫,容易造成情感过于夸张或者生硬,不自然。在本发明实施例中,允许发音人结合文本的语义信息,根据个人理解加入自然的情感表达,从而使得语音中蕴含丰富且自然的情感和语义表达方式。
S13:生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型。
训练过程中还需要生成韵律模型和声学模型,以用于语音合成时的韵律预测和声学参数生成。
一些实施例中,在生成韵律模型和/或声学模型时,采用深度神经网络方式,以区分于常规的采用隐马尔可夫和决策树建模生成声学模型的方式。
深度神经网络具有自动学习能力,通过自动学习历史信息对当前预测的影响,更容易利用类似词向量这种矢量特征,建模性能更高。
具体的,深度神经网络采用双向长短时记忆(Bi-LSTM)网络。Bi-LSTM使用长短时记忆(Long-Short Term Memory,LSTM)结构作为其核心建模单元,通过LSTM结构中的状态结构缓存历史的状态信息,并且通过输入门、遗忘门以及输出门对上下文特征信息进行维护,从而实现了长距离上下文特征信息的有效缓存。
一些实施例中,参见图2,采用深度神经网络,生成韵律模型的流程可以包括:
S21:获取多个语句文本。
例如,在获取到上述的以段落或篇章为单位的文本数据后,可以将上述的文本数据分别为多个语句文本;或者,可以获取到其他的标注了韵律层级信息的数据,或者,获取的多个语句文本包括根据上述的文本数据得到的语句文本和其他的标注了韵律层级信息的数据等。
S22:获取每个语句文本对应的特征向量。
例如,可以先对每个语句文本进行分词,得到组成语句文本的一个或多个分词。对应每个分词,根据预先建立的词向量库,获取分词对应的词向量,另外还可以获取分词对应的词语长度和词性,从而用词向量+词语长度+词性表征一个分词,作为分词的特征向量,将组成一个语句文本的分词的特征向量进行组合,得到该语句文本的特征向量。
通过引入词向量,可以增强词语本身的泛化能力,提升韵律模型的鲁棒性。
S23:采用深度神经网络,根据语句文本对应的特征向量进行建模,生成韵律模型。
本实施例中,深度神经网络具体采用:使用全连接的前馈神经网络的深度神经网络(Deep Neural Networks,DNN)+Bi-LSTM网络。Bi-LSTM网络由LSTM单元组成,由于LSTM结构能够维护长距离的历史信息(如,历史的上下文特征信息),因此特别适合韵律层级标注中的长距离韵律建模。在韵律层级模型训练过程中,将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题,采用DNN加Bi-LSTM的网络结构对模型进行训练。语句文本对应的特征向量作为DNN的输入,DNN的输出作为Bi-LSTM的输入,Bi-LSTM的输出是生成的韵律模型。在生成的韵律模型时对韵律词、韵律短语和语调短语同时进行分类,在误差反向传递的过程体现三种层级结构的相互关系。
一些实施例中,参见图3,采用深度神经网络生成声学模型的流程可以包括:
S31:获取所述文本数据的上下文特征信息。
与常规方式不同的是,本实施例的上下文特征信息不仅可以包括常规特征,还可以包括语义信息特征,语义信息特征例如包括如下项中的一项或多项:词向量信息、句式信息、重音、情感。常规特征例如包括:声韵母、音节、词中位置、韵律位置、词性等。
句式信息例如包括:陈述句、疑问句或感叹句等。
其中,可以对文本数据进行分词并在词向量库中进行查找后,得到词向量信息。
对文本数据进行文本分析可以得到句式信息、重音和情感等信息。
S32:采用深度神经网络,根据所述上下文特征信息和所述语音数据生成声学模型。
由于发音人在录音时采用更自然的表达方式,文本数据间存在关联关系,更利于表达,从而发音人可以提高录制效率,进而能够获取到大量的文本数据和对应的语音数据,扩展训练数据的规模。
另外,在训练生成声学模型时采用上下文特征信息,上下文特征信息会包含语义信息和情感信息等,从而可以得到规模更大、情感更丰富和表现力更强的数据,进而根据这些数据生成的声学模型具有更强的情感表现力。
另外,在生成声学模型时采用深度神经网络,例如为Bi-LSTM网络,可以自动学习记忆历史语境信息的特点之间对声学特征本身进行建模,而不是像常规方式那样对声学特征和其差分等动态特征一起建模,这样建模既可以降低建模维度提升建模精度,又可以跳过动态参数生成环节避免其带来的过平滑现象,更适合对具有高表现力的声学模型的建模。
S14:在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。
例如,韵律模型和声学模型是采用上述的深度神经网络建模后得到的。
可以理解的是,韵律模型和声学模型也可以采用常规方式生成,在采用常规方式生成韵律模型或声学模型时,基于的数据可以包括上述的以段落或篇章为单元的文本数据,在需要时还可以包括其他文本数据,如果还需要语音数据,再采用上述的对应的发音人更自然表达的语音数据,从而在一定程度上提高韵律模型和声学模型的效果。
在得到韵律模型和声学模型后,可以应用到语音合成,以得到合成语音。
参见图4,语音合成的流程可以包括:
S41:对输入文本进行文本预处理。
S42:对预处理后的文本进行分词。
S43:对分词进行词性标注。
S44:根据词性标注结果和预先生成的韵律模型进行韵律层级预测。
其中,韵律模型可以采用上述实施例中的相关方法生成。
S45:对韵律层级预测结果进行注音。
S46:根据注音结果和预先生成的声学模型进行声学参数生成。
其中,声学模型可以采用上述实施例中的相关方法生成。
S47:根据声学参数进行语音生成,得到输入文本对应的合成语音。
语音生成时,可以利用声学参数直接通过声码器合成声音,或者从录音语料库中挑选单元进行拼接得到合成语音。
本实施例中,通过获取以段落或篇章为单位的文本数据,可以得到存在语义关联的文本数据,通过发音人在朗读时结合文本数据的语义进行个人情感表达,可以得到更具情感的语音数据,从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型,进而通过该声学模型可以生成更具有情感表现力的合成语音。进一步的,采用上述的文本数据以及录制方式,可以获取到更大规模的数据,从而能够提高生成的韵律模型和声学模型的效果。另外,通过采用深度神经网络生成韵律模型和/或声学模型,可以充分利用深度神经网络对历史信息的缓存功能,更利于根据上述的数据生成韵律模型和/或声学模型。
图5是本发明另一实施例提出的语音合成装置的结构示意图,该装置50包括:获取模块51、录制模块52、生成模块53和合成模块54。
获取模块51,用于获取以段落或篇章为单位的文本数据;
与常规采用的以句子为单元的文本数据不同的是,本发明实施例中获取以段落或篇章为单位的文本数据作为训练语料。
以句子为单元的语料通常是句子之间没有什么联系,基本都是独立的。而本发明实施例中通过以段落甚至篇章为单位获取语料,可以充分利用句子之间的关联性,以蕴含更为丰富的上下文特征信息。
录制模块52,用于在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;
常规录制过程中,一般要求发音人不加入任何情感,尽可能平稳地录制语音,从而导致语义信息无法融入到语音中。还有些学者,会专门设计少量句子,让发音人以某种情感来朗读,从而造成语义与情感可能存在错位,单个句子没有上下文的铺垫,容易造成情感过于夸张或者生硬,不自然。在本发明实施例中,允许发音人结合文本的语义信息,根据个人理解加入自然的情感表达,从而使得语音中蕴含丰富且自然的情感和语义表达方式。
生成模块53,用于生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型;
训练过程中还需要生成韵律模型和声学模型,以用于语音合成时的韵律预测和声学参数生成。
一些实施例中,所述生成模块53具体用于:
采用深度神经网络,生成韵律模型,和/或,根据所述文本数据和所述语音数据生成声学模型。
深度神经网络具有自动学习能力,通过自动学习历史信息对当前预测的影响,更容易利用类似词向量这种矢量特征,建模性能更高。
具体的,深度神经网络采用双向长短时记忆(Bi-LSTM)网络。Bi-LSTM使用长短时记忆(Long-Short Term Memory,LSTM)结构作为其核心建模单元,通过LSTM结构中的状态结构缓存历史的状态信息,并且通过输入门、遗忘门以及输出门对上下文特征信息进行维护,从而实现了长距离上下文特征信息的有效缓存。
一些实施例中,参见图6,所述生成模块包括:用于生成声学模型的第一单元531,所述第一单元531具体用于:
获取所述文本数据的上下文特征信息;
采用深度神经网络,根据所述上下文特征信息和所述语音数据生成声学模型。
与常规方式不同的是,本实施例的上下文特征信息不仅可以包括常规特征,还可以包括语义信息特征,语义信息特征例如包括如下项中的一项或多项:词向量信息、句式信息、重音、情感。常规特征例如包括:声韵母、音节、词中位置、韵律位置、词性等。
句式信息例如包括:陈述句、疑问句或感叹句等。
其中,可以对文本数据进行分词并在词向量库中进行查找后,得到词向量信息。
对文本数据进行文本分析可以得到句式信息、重音和情感等信息。
由于发音人在录音时采用更自然的表达方式,文本数据间存在关联关系,更利于表达,从而发音人可以提高录制效率,进而能够获取到大量的文本数据和对应的语音数据,扩展训练数据的规模。
另外,在训练生成声学模型时采用上下文特征信息,上下文特征信息会包含语义信息和情感信息等,从而可以得到规模更大、情感更丰富和表现力更强的数据,进而根据这些数据生成的声学模型具有更强的情感表现力。
另外,在生成声学模型时采用深度神经网络,例如为Bi-LSTM网络,可以自动学习记忆历史语境信息的特点之间对声学特征本身进行建模,而不是像常规方式那样对声学特征和其差分等动态特征一起建模,这样建模既可以降低建模维度提升建模精度,又可以跳过动态参数生成环节避免其带来的过平滑现象,更适合对具有高表现力的声学模型的建模。
一些实施例中,参见图6,所述生成模块包括:用于生成韵律模型的第二单元532,所述第二单元532具体用于:
获取多个语句文本;
获取每个语句文本对应的特征向量;
采用深度神经网络,根据所述语句文本对应的特征向量进行建模,生成韵律模型。
例如,在获取到上述的以段落或篇章为单位的文本数据后,可以将上述的文本数据分别为多个语句文本;或者,可以获取到其他的标注了韵律层级信息的数据,或者,获取的多个语句文本包括根据上述的文本数据得到的语句文本和其他的标注了韵律层级信息的数据等。
例如,可以先对每个语句文本进行分词,得到组成语句文本的一个或多个分词。对应每个分词,根据预先建立的词向量库,获取分词对应的词向量,另外还可以获取分词对应的词语长度和词性,从而用词向量+词语长度+词性表征一个分词,作为分词的特征向量,将组成一个语句文本的分词的特征向量进行组合,得到该语句文本的特征向量。
通过引入词向量,可以增强词语本身的泛化能力,提升韵律模型的鲁棒性。
本实施例中,深度神经网络具体采用:使用全连接的前馈神经网络的深度神经网络(Deep Neural Networks,DNN)+Bi-LSTM网络。Bi-LSTM网络由LSTM单元组成,由于LSTM结构能够维护长距离的历史信息(如,历史的上下文特征信息),因此特别适合韵律层级标注中的长距离韵律建模。在韵律层级模型训练过程中,将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题,采用DNN加Bi-LSTM的网络结构对模型进行训练。深度神经网络的输出对韵律词、韵律短语和语调短语同时进行分类,在误差反向传递的过程体现三种层级结构的相互关系。
合成模块54,用于在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。
例如,韵律模型和声学模型是采用上述的深度神经网络建模后得到的。
可以理解的是,韵律模型和声学模型也可以采用常规方式生成,在采用常规方式生成韵律模型或声学模型时,基于的数据可以包括上述的以段落或篇章为单元的文本数据,在需要时还可以包括其他文本数据,如果还需要语音数据,再采用上述的对应的发音人更自然表达的语音数据,从而在一定程度上提高韵律模型和声学模型的效果。
在得到韵律模型和声学模型后,可以应用到语音合成,以得到合成语音。
具体的语音合成的流程可以参见图4,在此不再赘述。
本实施例中,通过获取以段落或篇章为单位的文本数据,可以得到存在语义关联的文本数据,通过发音人在朗读时结合文本数据的语义进行个人情感表达,可以得到更具情感的语音数据,从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型,进而通过该声学模型可以生成更具有情感表现力的合成语音。进一步的,采用上述的文本数据以及录制方式,可以获取到更大规模的数据,从而能够提高生成的韵律模型和声学模型的效果。另外,通过采用深度神经网络生成韵律模型和/或声学模型,可以充分利用深度神经网络对历史信息的缓存功能,更利于根据上述的数据生成韵律模型和/或声学模型。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (3)
1.一种语音合成方法,其特征在于,包括:
获取以段落或篇章为单位的文本数据;
在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;
生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型,其中,所述根据所述文本数据和所述语音数据生成声学模型包括:获取所述文本数据的上下文特征信息;采用深度神经网络,根据所述上下文特征信息和所述语音数据生成声学模型,所述上下文特征信息包括语义信息的特征和常规特征,所述语义信息的特征如下项中的一项或多项:词向量信息、句式信息、重音、情感,所述声学模型是通过所述深度神经网络自动学习记忆历史语境信息的特点对声学特征进行建模后得到的,所述生成韵律模型包括:获取多个语句文本,对每个语句文本进行分词,获取分词对应的词向量、词语长度和词性作为分词的特征向量,将所述分词的特征向量组合得到语句文本的特征向量,采用深度神经网络,根据所述语句文本的特征向量进行建模,生成韵律模型;
在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。
2.根据权利要求1所述的方法,其特征在于,所述深度神经网络包括:Bi-LSTM网络。
3.一种语音合成装置,其特征在于,包括:
获取模块,用于获取以段落或篇章为单位的文本数据;
录制模块,用于在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;
生成模块,用于生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型,其中,所述生成模块包括:用于生成声学模型的第一单元,用于生成韵律模型的第二单元,所述第一单元具体用于:获取所述文本数据的上下文特征信息;采用深度神经网络,根据所述上下文特征信息和所述语音数据生成声学模型,所述上下文特征信息包括语义信息的特征和常规特征,所述语义信息的特征如下项中的一项或多项:词向量信息、句式信息、重音、情感,所述声学模型是通过所述深度神经网络自动学习记忆历史语境信息的特点对声学特征进行建模后得到的,所述第二单元具体用于:获取多个语句文本,对每个语句文本进行分词,获取分词对应的词向量、词语长度和词性作为分词的特征向量,将所述分词的特征向量组合得到语句文本的特征向量,采用深度神经网络,根据所述语句文本的特征向量进行建模,生成韵律模型;
合成模块,用于在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510728762.8A CN105355193B (zh) | 2015-10-30 | 2015-10-30 | 语音合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510728762.8A CN105355193B (zh) | 2015-10-30 | 2015-10-30 | 语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105355193A CN105355193A (zh) | 2016-02-24 |
CN105355193B true CN105355193B (zh) | 2020-09-25 |
Family
ID=55331156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510728762.8A Active CN105355193B (zh) | 2015-10-30 | 2015-10-30 | 语音合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105355193B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679308A (zh) * | 2016-03-03 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的生成g2p模型和英文语音合成方法、装置 |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107634898A (zh) * | 2017-08-18 | 2018-01-26 | 上海云从企业发展有限公司 | 通过电子通信设备上的聊天工具来实现真人语音信息通信 |
EP3739572A4 (en) * | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
CN109326281B (zh) * | 2018-08-28 | 2020-01-07 | 北京海天瑞声科技股份有限公司 | 韵律标注方法、装置和设备 |
CN111048062B (zh) | 2018-10-10 | 2022-10-04 | 华为技术有限公司 | 语音合成方法及设备 |
CN109461435B (zh) * | 2018-11-19 | 2022-07-01 | 北京光年无限科技有限公司 | 一种面向智能机器人的语音合成方法及装置 |
CN109686359B (zh) * | 2018-12-28 | 2023-11-10 | 西藏联萨智能科技有限公司 | 语音输出方法、终端及计算机可读存储介质 |
CN109754779A (zh) * | 2019-01-14 | 2019-05-14 | 出门问问信息科技有限公司 | 可控情感语音合成方法、装置、电子设备及可读存储介质 |
CN110164413B (zh) * | 2019-05-13 | 2021-06-04 | 北京百度网讯科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN110335587B (zh) * | 2019-06-14 | 2023-11-10 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110232907B (zh) * | 2019-07-24 | 2021-11-02 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置、可读存储介质及计算设备 |
CN110675853B (zh) * | 2019-09-10 | 2022-07-05 | 苏宁云计算有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
CN111816158B (zh) * | 2019-09-17 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111161725B (zh) * | 2019-12-17 | 2022-09-27 | 珠海格力电器股份有限公司 | 一种语音交互方法、装置、计算设备及存储介质 |
CN111369971B (zh) * | 2020-03-11 | 2023-08-04 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN112185341A (zh) * | 2020-09-10 | 2021-01-05 | 广州多益网络股份有限公司 | 基于语音合成的配音方法、装置、设备和存储介质 |
CN112331177B (zh) * | 2020-11-05 | 2024-07-02 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN113516962B (zh) * | 2021-04-08 | 2024-04-02 | Oppo广东移动通信有限公司 | 语音播报方法、装置、存储介质及电子设备 |
CN113571039B (zh) * | 2021-08-09 | 2022-04-08 | 北京百度网讯科技有限公司 | 语音转换方法、系统、电子设备及可读存储介质 |
CN114678006B (zh) * | 2022-05-30 | 2022-08-23 | 广东电网有限责任公司佛山供电局 | 一种基于节奏的语音合成方法及系统 |
CN115116431B (zh) * | 2022-08-29 | 2022-11-18 | 深圳市星范儿文化科技有限公司 | 基于智能朗读亭的音频生成方法、装置、设备及存储介质 |
CN115578995B (zh) * | 2022-12-07 | 2023-03-24 | 北京邮电大学 | 面向语音对话场景的语音合成方法、系统及存储介质 |
CN115620699B (zh) * | 2022-12-19 | 2023-03-31 | 深圳元象信息科技有限公司 | 语音合成方法、语音合成系统、语音合成设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
US20090157409A1 (en) * | 2007-12-04 | 2009-06-18 | Kabushiki Kaisha Toshiba | Method and apparatus for training difference prosody adaptation model, method and apparatus for generating difference prosody adaptation model, method and apparatus for prosody prediction, method and apparatus for speech synthesis |
CN101751923A (zh) * | 2008-12-03 | 2010-06-23 | 财团法人资讯工业策进会 | 语音情绪的分类方法及其情绪语意模型的建立方法 |
CN102385858A (zh) * | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 情感语音合成方法和系统 |
CN103578462A (zh) * | 2012-07-18 | 2014-02-12 | 株式会社东芝 | 语音处理系统 |
CN104392716A (zh) * | 2014-11-12 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 高表现力的语音合成方法和装置 |
CN104867490A (zh) * | 2015-06-12 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
CN104916284A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 用于语音合成系统的韵律与声学联合建模的方法及装置 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169581A (ja) * | 2000-11-29 | 2002-06-14 | Matsushita Electric Ind Co Ltd | 音声合成方法およびその装置 |
US7587308B2 (en) * | 2005-11-21 | 2009-09-08 | Hewlett-Packard Development Company, L.P. | Word recognition using ontologies |
JP4264841B2 (ja) * | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
CN101853668B (zh) * | 2010-03-29 | 2014-10-29 | 北京中星微电子有限公司 | 一种将midi音乐生成动画的方法和系统 |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
-
2015
- 2015-10-30 CN CN201510728762.8A patent/CN105355193B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
US20090157409A1 (en) * | 2007-12-04 | 2009-06-18 | Kabushiki Kaisha Toshiba | Method and apparatus for training difference prosody adaptation model, method and apparatus for generating difference prosody adaptation model, method and apparatus for prosody prediction, method and apparatus for speech synthesis |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN101751923A (zh) * | 2008-12-03 | 2010-06-23 | 财团法人资讯工业策进会 | 语音情绪的分类方法及其情绪语意模型的建立方法 |
CN102385858A (zh) * | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 情感语音合成方法和系统 |
CN103578462A (zh) * | 2012-07-18 | 2014-02-12 | 株式会社东芝 | 语音处理系统 |
CN104392716A (zh) * | 2014-11-12 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 高表现力的语音合成方法和装置 |
CN104916284A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 用于语音合成系统的韵律与声学联合建模的方法及装置 |
CN104867490A (zh) * | 2015-06-12 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
"情感语音合成系统的研究与实现";任鹏辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;第11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105355193A (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105355193B (zh) | 语音合成方法和装置 | |
Tan et al. | A survey on neural speech synthesis | |
Moberg | Contributions to Multilingual Low-Footprint TTS System for Hand-Held Devices | |
US20230064749A1 (en) | Two-Level Speech Prosody Transfer | |
US7953600B2 (en) | System and method for hybrid speech synthesis | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
Khan et al. | Concatenative speech synthesis: A review | |
Hamza et al. | The IBM expressive speech synthesis system. | |
KR20230039750A (ko) | 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기 | |
Indumathi et al. | Survey on speech synthesis | |
Dongmei | Design of English text-to-speech conversion algorithm based on machine learning | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
Van Do et al. | Non-uniform unit selection in Vietnamese speech synthesis | |
Mengko et al. | Indonesian Text-To-Speech system using syllable concatenation: Speech optimization | |
Samuel Manoharan | A novel text-to-speech synthesis system using syllable-based HMM for Tamil language | |
Theobald | Audiovisual speech synthesis | |
Chen et al. | A Mandarin Text-to-Speech System | |
Yin | An overview of speech synthesis technology | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
Ronanki | Prosody generation for text-to-speech synthesis | |
KR100806287B1 (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
Bruce et al. | On the analysis of prosody in interaction | |
Lazaridis et al. | Comparative evaluation of phone duration models for Greek emotional speech | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |