CN105185372A - 个性化多声学模型的训练方法、语音合成方法及装置 - Google Patents
个性化多声学模型的训练方法、语音合成方法及装置 Download PDFInfo
- Publication number
- CN105185372A CN105185372A CN201510684475.1A CN201510684475A CN105185372A CN 105185372 A CN105185372 A CN 105185372A CN 201510684475 A CN201510684475 A CN 201510684475A CN 105185372 A CN105185372 A CN 105185372A
- Authority
- CN
- China
- Prior art keywords
- text
- synthesized
- acoustic model
- acoustic
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本发明公开了一种用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置,其中,该方法包括:基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型;获取目标用户的语音数据;根据基准声学模型和语音数据,训练第一目标用户声学模型;根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据;以及基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型。该实施例的模型训练方法,在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型。
Description
技术领域
本发明涉及语音技术领域,尤其涉及一种用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置。
背景技术
语音合成,又称文语转换(TexttoSpeech)技术,是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
在语音合成系统中,将文本信息转换为声音信息的过程为:首先需要对输入的文本进行处理,包括预处理、分词、词性标注、多音字预测、韵律层级预测等,然后再通过声学模型,预测各个单元对应的声学特征,最后利用声学参数直接通过声码器合成声音,或者从录音语料库中挑选单元进行拼接,以生成与文本对应的声音信息。
其中,声学模型是整个语音合成系统的基础之一,声学模型通常是通过对大规模的语音数据进行训练而得到的。训练声学模型的过程为:首先,设计一定数量的录音文本语料,以满足音子覆盖、韵律覆盖等要求。其次,挑选合适的发音人,发音人据此录制语音数据。接下来,进行文本、拼音、韵律、单元边界的标注,标注好的数据用于模型训练、音库生成。由此可以看出,训练一个声学模型的过程比较复杂,周期比较长,并且训练过程中是基于固定发音人的语音数据训练的,因此,在通过该声学模型合成语音的过程中,所合成的语音的音色是固定的。
然而,在很多情况下希望用自己的声音、家人/朋友的声源,或者明星的声音进行语音合成,即用户希望语音合成系统所合成的语音具有个性的语音特点。为了满足个性化声音的需求,相关技术中获得个性化的声学模型的方式主要包括以下两种方式:
第一种方式,利用平行语料或者非平行语料,在声学参数层面,训练用户所需的个性化的声学模型。
第二种方式,采用模型间的映射,实现基准声学模型与个性化的声学模型之间的转换。具体地,采用HMM-GMM(HiddenMarkovModelsandGaussianMixtureModels,隐马尔可夫模型和高斯混合模型)建模,并进行决策树间的映射,以生成个性化的声学模型。
然而,在实现本发明的过程中,发明人发现相关技术存在至少以下问题:
针对第一种方式来说,(1)采用平行语料,在声学参数层面,训练个性化的声学模型,要求两个发音人按照同样的文本来生成原始语音,而这一点有时候是不太现实的。并且采用平行语料,语料规模的要求可能会比较高,所需的时间比较长,加工量比较大,难以快速获得个性化的声学模型。(2)采用非平行语音,在声学参数层面,训练个性化的声学模型。由于两个发音人按照不同的文本生成原始语音,且同一个音节,在不同的句子环境中,发音是明显有区别的,因此,如果把不同发音人的不同句子中的某个相同音子做映射,则容易造成所训练得到的个性化的声学模型不准确,从而导致合成的语音不够自然。
针对第二种方式来说,由于决策树是一种浅层模型,其描述能力有限,尤其在用户的语音数据量比较少时,所生成的个性化的声学模型的准确性不高,从而造成预测出的参数可能有不连贯的情况,进而使合成的语音出现跳变、音色不稳定等现象,造成语音的不自然。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于语音合成的个性化多声学模型的训练方法,该方法在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型,进而可满足个性化语音需求,提升了用户体验度。
本发明的第二个目的在于提出一种语音合成方法。
本发明的第三个目的在于提出一种语音合成方法。
本发明的第四个目的在于提出一种用于语音合成的个性化多声学模型的训练装置。
本发明的第五个目的在于提出一种用于语音合成装置。
本发明的第六个目的在于提出一种用于语音合成装置。
为达上述目的,本发明第一方面实施例提出了一种用于语音合成的个性化多声学模型的训练方法,包括:基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据,训练基准声学模型;获取目标用户的语音数据;根据所述基准声学模型和所述语音数据,训练第一目标用户声学模型;根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据;以及基于所述第一文本标注数据和所述第二声学特征数据,训练第二目标用户声学模型。
本发明实施例的用于语音合成的个性化多声学模型的训练方法,首先基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型,然后获取目标用户的语音数据,并根据基准声学模型和语音数据,训练第一目标用户声学模型,进而根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据,最后基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型,由此,在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,例如可以从几千句的规模降低到几百句甚至几十句,即可以利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型,进而可满足个性化语音需求,提升了用户体验度。
为达上述目的,本发明第二方面实施例提出了一种使用本发明第一方面实施例所述的第一目标用户声学模型进行语音合成的方法,包括:获取待合成文本,对所述待合成文本进行分词;对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型,通过所述第一目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及根据所述声学参数序列生成所述待合成文本的语音合成结果。
本发明实施例的语音合成方法,首先获取待合成文本,对待合成文本进行分词,然后对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型,通过第一目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
为达上述目的,本发明第三方面实施例提出了一种使用本发明第一方面实施例所述的第二目标用户声学模型进行语音合成的方法,包括:获取待合成文本,对所述待合成文本进行分词;对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;根据所述分词结果、词性标注结果和韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型,通过所述第二目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及根据所述声学参数序列生成所述待合成文本的语音合成结果。
本发明实施例的语音合成方法,首先获取待合成文本,对待合成文本进行分词,然后对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型,通过第二目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
为达上述目的,本发明第四方面实施例提出了一种用于语音合成的个性化多声学模型的训练装置,包括:第一模型训练模块,用于基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据,训练基准声学模型;获取模块,用于获取目标用户的语音数据;第二模型训练模块,用于根据所述基准声学模型和所述语音数据,训练第一目标用户声学模型;生成模块,用于根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据;以及第三模型训练模块,用于基于所述第一文本标注数据和所述第二声学特征数据,训练第二目标用户声学模型。
本发明实施例的用于语音合成的个性化多声学模型的训练装置,通过第一模型训练模块基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型,获取模块获取目标用户的语音数据,并第二模型训练模块根据基准声学模型和语音数据,训练第一目标用户声学模型,进而生成模块根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据,最后第三模型训练模块基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型,由此,在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,例如可以从几千句的规模降低到几百句甚至几十句,即可以利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型,进而可满足个性化语音需求,提升了用户体验度。
为达上述目的,本发明第五方面实施例提出了一种使用本发明第四方面实施例所述的第一目标用户声学模型进行语音合成的装置,包括:获取模块,用于获取待合成文本;分词模块,用于对所述待合成文本进行分词;词性标注模块,用于对分词后的待合成文本进行词性标注;韵律预测模块,用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;注音模块,用于根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;声学预测模块,用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型,通过所述第一目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及语音合成模块,用于根据所述声学参数序列生成所述待合成文本的语音合成结果。
本发明实施例的语音合成装置,首先通过获取模块获取待合成文本,然后分词模块对待合成文本进行分词,词性标注模块对分词后的待合成文本进行词性标注,韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而注音模块根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并声学预测模块将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型,通过第一目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后声学预测模块根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
为达上述目的,本发明第六方面实施例提出了一种使用本发明第四方面实施例所述的第二目标用户声学模型进行语音合成的装置,包括:获取模块,用于获取待合成文本;分词模块,用于对所述待合成文本进行分词;词性标注模块,用于对分词后的待合成文本进行词性标注;韵律预测模块,用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;注音模块,用于根据所述分词结果、词性标注结果和韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;声学预测模块,用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型,通过所述第二目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及语音合成模块,用于根据所述声学参数序列生成所述待合成文本的语音合成结果。
本发明实施例的语音合成装置,首先通过获取模块获取待合成文本,然后分词模块对待合成文本进行分词,词性标注模块对分词后的待合成文本进行词性标注,韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而注音模块根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并声学预测模块将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型,通过第二目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后声学预测模块根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一个实施例的用于语音合成的个性化多声学模型的训练方法的流程图。
图2是步骤S13的细化流程图。
图3是根据本发明一个实施例的语音合成方法的流程图。
图4是根据本发明另一个实施例的语音合成方法的流程图。
图5是本发明一个实施例的用于语音合成的个性化多声学模型的训练装置的结构示意图。
图6是本发明另一个实施例的用于语音合成的个性化多声学模型的训练装置的结构示意图
图7是根据本发明一个实施例的语音合成装置的结构示意图。
图8是根据本发明另一个实施例的语音合成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置。
图1是本发明一个实施例的用于语音合成的个性化多声学模型的训练方法的流程图。
如图1所示,该用于语音合成的个性化多声学模型的训练方法包括:
S11,基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型。
具体地,为了使得训练得到的基准声学模型具有较好的音子覆盖和韵律覆盖能力,且能够描述多种语音现象,可先设计一定数量的录音文本语料,然后挑选合适的发音人,以获取大规模非目标用户的训练语音数据,以及提取训练语音数据的第一声学特征数据,并对与训练语音数据对应录音文本语料进行标注,以获得训练语音数据的第一文本标注数据。
其中,第一声学特征数据中包含时长、谱、基频等声学特征。
其中,第一文本标注数据包含拼音、韵律层级标注等文本特征。
在获得训练语音数据的第一声学特征数据和与训练数据语音数据对应的第一文本标注数据后,可通过神经网络对第一声学特征数据和第一文本标注数据进行训练,并根据训练结果生成基准声学模型。
S12,获取目标用户的语音数据。
其中,语音数据中包含目标用户的语音特点。
具体地,获取目标用户的语音数据的方式有多种,在实际应用中,可根据需要选择,例如,可通过采用现场录制的方式获取目标用户的语音数据,或者直接使用目标用户现有的语音数据。
下面以采用现场录制的方式详细说明获取目标用户的语音数据的过程。
一般情况下,首先根据音子覆盖以及韵律覆盖等指标,预先设计录音文本,并提供给目标用户进行朗读,以获得目标用户的语音数据。
在设计录音文本时,例如汉语文本,优选的,设置录音文本包含全部的声韵母,以提高后续模型训练的准确度。
需要说明的是,本发明可以直接由用户设备录制目标用户的语音数据,并执行后续操作,还可以由用户设备录制目标用户的语音数据后,并发送网络设备,由网络设备执行后续操作。
其中,需要说明的是,上述用户设备可以是计算机、智能手机和平板电脑等具有各种操作系统的硬件设备,上述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或给予云计算的由大量计算机或网络服务器构成的云。
进一步的,在录制目标用户的语音数据时,优选的,将目标用户的语音数据进行实时保存,若目标用户不能一次性完成全部目标用户的语音数据的录制,可保留当前录制的目标用户的语音数据,并在下次录制时,继续完成剩余未录制的目标用户的语音数据。
S13,根据基准声学模型和语音数据,训练第一目标用户声学模型。
在获取目标用户的语音数据后,可在基准声学模型基础上,利用目标用户的语音数据,通过自适应技术,例如,可通过LSTM(LongShort-TermMemory,长短时记忆网络)神经网络结构或双向LSTM神经网络结构,训练第一目标用户声学模型,使基准声学模型自适应更新为第一目标用户声学模型。
通过上述描述,可知基准声学模型是基于大规模的训练语音数据,通过神经网络结构训练得到的,且基准声学模型具有较好的音子覆盖和韵律覆盖能力,能够较多的语音现象。因此,基准声学模型已构建好模型的框架结构,例如多层神经网络结构以及神经元连接关系等,所以在训练第一目标用户声学模型时,仅需获取少量目标用户的语音数据,在上述基准声学模型基础上,自适应训练更新即可获得第一目标用户声学模型,使第一目标用户声学模型不仅具有基准声学模型中的通用信息,还具有目标用户的语音特点。
具体地,在本发明的一个实施例中,根据基准声学模型和语音数据,训练第一目标用户声学模型的过程,如图2所示,可以包括:
S131,对语音数据进行声学特征提取,以获取语音数据的第三声学特征数据。
可选的,在对语音数据进行声学特征提取之前,还可以包括对目标用户的语音数据进行数据降噪、数据检测、数据筛选以及切分等预处理,例如滤除目标用户的语音数据中的空白数据段等,以提高用于训练第一目标用户数据的语音数据的准确性。
具体地,可从目标用户的语音数据中提取出时长、频谱和基频等声学特征。
S132,对语音数据进行语音标注,以获取语音数据的第二文本标注数据。
具体地,在获得语音数据后,可通过自动识别方法或人工标注方法对语音数据进行语音标注,以获取语音数据的第二文本标注数据。
其中,第二文本标注数据包含拼音、韵律层级标注等文本特征数据。
S133,根据基准声学模型、第三声学特征数据和第二文本标注数据,训练第一目标用户声学模型。
具体地,在获得目标用户的语音数据的第三声学特征数据和第二文本标注数据后,可先获取基准声学模型的神经网络结构,然后,根据第三声学特征数据、第二文本标注数据以及基准声学模型的神经网络结构,训练第一目标用户声学模型。
具体而言,根据第三声学特征数据、第二文本标注数据以及基准声学模型的神经网络结构,通过神经网络自适应技术,进行迭代运算,更新基准声学模型神经网络结构中神经元的连接权值等参数,以获得具有目标用户语音特点的第一目标用户声学模型。
S14,根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据。
具体地,为了可以生成多种复杂度的声学模型,满足在不同终端设备上的使用要求,在获得第一目标用户声学模型后,还可以将构建基准声学模型的第一文本标注数据输入至第一目标用户声学模型中,以生成第一文本标注数据对应的第二声学特征数据。由此,获取一个较大规模的具有目标用户的语音特点的声学特征数据。
其中,第二声学特征数据包含时长、谱、基频等声学特征。
S15,基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型。
具体地,基于隐马尔可夫模型(HMM,HiddenMarkovModels),对第一文本标注数据和第二声学特征数据进行训练,并根据训练结果建立第二目标用户声学模型。由于第二声学特征数据中已经涵盖了目标用户的语音特点,因此,训练所得到的第二目标用户声学模型,能够较好地描述不同上下文情况下的个性化声音特点。相对于直接根据目标用户的语音数据直接训练所获得的HMM声学模型来说,第二目标用户声学模型可以覆盖更广泛的语言现象。而且,由于其应用到语音合成系统中的运算量远小于基于LSTM神经网络或者双向LSTM神经网络进行预测的运算量,所以非常适合一些运算能力较低的设备。
本发明实施例的用于语音合成的个性化多声学模型的训练方法,首先基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型,然后获取目标用户的语音数据,并根据基准声学模型和语音数据,训练第一目标用户声学模型,进而根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据,最后基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型,由此,在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,例如可以从几千句的规模降低到几百句甚至几十句,即可以利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型,进而可满足个性化语音需求,提升了用户体验度。
可以理解,上述训练所获得的多个声学模型是应用于语音合成系统中的。在语音合成系统中,声学模型是整个系统的基础之一。因此,在通过本发明实施例的训练方法生成多个目标用户的声学模型之后,可将多个声学模型应用到语音合成系统中,此时,用户可根据自己的设备情况,或者意愿,有选择地选择语音合成系统中所使用的个性化的声学模型,语音合成系统将根据用户所选择的声学模型进行语音合成。为此,本发明还提出了一种语音合成方法。
图3是根据本发明一个实施例的语音合成方法的流程图。在该实施例中,假定用户选择用第一目标用户声学模型进行语音合成。另外,需要说明的是,本发明实施例的语音合成方法所使用的第一目标用户声学模型是由前述实施例的用于语音合成的个性化多声学模型的训练方法所生成的。
如图3所示,该语音合成方法可以包括:
S301,获取待合成文本,对待合成文本进行分词。
S302,对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征。
S303,根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果。
例如,待合成文本为:我们一家人去上海,可提取该待合成文本的字面特征和词性特征,然后,注音词典根据韵律特征、字面特征和词性特征对待合成文件进行注音,以生成待合成文本的注音结果。
S304,将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型,通过第一目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列。
具体地,可将待合成文本的注音结果、韵律特征及上下文信息输入到声学预测模型中,从而对待合成文本进行声学预测,生成对应的时长、谱、基频等声学参数序列。
S305,根据声学参数序列生成待合成文本的语音合成结果。
具体地,可利用声码器根据声学参数序列合成语音信号,从而生成最终的语音合成结果。
本发明实施例的语音合成方法,首先获取待合成文本,对待合成文本进行分词,然后对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型,通过第一目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
图4是根据本发明另一个实施例的语音合成方法的流程图。在该实施例中,假定用户选择用第二目标用户声学模型进行语音合成。另外,需要说明的是,本发明实施例的语音合成方法所使用的第二目标用户声学模型是由前述实施例的用于语音合成的个性化多声学模型的训练方法所生成的。
如图4所示,该语音合成方法可以包括:
S401,获取待合成文本,对待合成文本进行分词。
S402,对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征。
S403,根据韵律特征对待合成文本进行注音,以生成待合成文本的注音结果。
例如,待合成文本为:我们一家人去上海,可提取该待合成文本的字面特征和词性特征,然后,注音词典根据韵律特征、字面特征和词性特征对待合成文件进行注音,以生成待合成文本的注音结果。
S404,将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型,通过第二目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列。
具体地,可将待合成文本的注音结果、韵律特征及上下文信息输入到声学预测模型中,从而对待合成文本进行声学预测,生成对应的时长、谱、基频等声学参数序列。
S405,根据声学参数序列生成待合成文本的语音合成结果。
具体地,可利用声码器根据声学参数序列合成语音信号,从而生成最终的语音合成结果。
需要说明的是,第二目标用户声学模型可以覆盖更广泛的语言现象,因此,通过第二目标用户声学模型所合成的语音数据更加准确。
本发明实施例的语音合成方法,首先获取待合成文本,对待合成文本进行分词,然后对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型,通过第二目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
为了实现上述实施例,本发明还提出了一种用于语音合成的个性化多声学模型的训练装置。
图5是本发明一个实施例的用于语音合成的个性化多声学模型的训练装置的结构示意图。
如图5所示,该用于语音合成的个性化多声学模型的训练装置包括第一模型训练模块110、获取模块120、第二模型训练模块130、生成模块140和第三模型训练模块150。
具体地,第一模型训练模块110用于基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型。
其中,第一声学特征数据中包含时长、谱、基频等声学特征。
其中,第一文本标注数据包含拼音、韵律层级标注等文本特征。
获取模块120用于获取目标用户的语音数据。
具体地,获取模块120获取目标用户的语音数据的方式有多种,在实际应用中,可根据需要选择,例如,获取模块120可通过采用现场录制的方式获取目标用户的语音数据,或者直接使用目标用户现有的语音数据。
第二模型训练模块130用于根据基准声学模型和语音数据,训练第一目标用户声学模型。
具体地,在获取模块120获取目标用户的语音数据后,第二模型训练模块130可在基准声学模型基础上,利用目标用户的语音数据,通过自适应技术,例如,可通过LSTM(LongShort-TermMemory,长短时记忆网络)神经网络结构或者双向LSTM神经网络结构,训练第一目标用户声学模型,使基准声学模型自适应更新为第一目标用户声学模型。
如图6所示,上述第二模型训练模块130可以包括提取单元131、语音标注模块132和模型训练单元133,其中:
提取单元131用于对语音数据进行声学特征提取,以获取语音数据的第三声学特征数据。
语音标注模块132用于对语音数据进行语音标注,以获取语音数据的第二文本标注数据。
模型训练单元133用于根据基准声学模型、第三声学特征数据和第二文本标注数据,训练第一目标用户声学模型。
其中,第三声学特征数据包含时长、频谱和基频等声学特征。即提取单元131可从语音数据中提取出时长、频谱和基频等声学特征。
其中,第二文本标注数据包含拼音、韵律层级标注等文本特征数据。
模型训练单元133具体用于:获取基准声学模型的神经网络结构,并根据第三声学特征数据、第二文本标注数据以及基准声学模型的神经网络结构,训练第一目标用户声学模型。
生成模块140用于根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据。
其中,第二声学特征数据包含时长、谱、基频等声学特征。
第三模型训练模块150用于基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型。
具体地,第三模型训练模块150可基于隐马尔可夫模型,对第一文本标注数据和第二声学特征数据进行训练,并根据训练结果建立第二目标用户声学模型。
需要说明的是,前述对用于语音合成的个性化多声学模型的训练方法实施例的解释说明也适用于该实施例的用于语音合成的个性化多声学模型的训练装置,此处不再赘述。
本发明实施例的用于语音合成的个性化多声学模型的训练装置,通过第一模型训练模块基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型,获取模块获取目标用户的语音数据,并第二模型训练模块根据基准声学模型和语音数据,训练第一目标用户声学模型,进而生成模块根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据,最后第三模型训练模块基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型,由此,在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,例如可以从几千句的规模降低到几百句甚至几十句,即可以利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型,进而可满足个性化语音需求,提升了用户体验度。
为了实现上述实施例,本发明还提出了一种语音合成装置。
图7是根据本发明一个实施例的语音合成装置的结构示意图。需要说明的是,本发明实施例的语音合成装置所使用的第一目标用户声学模型是由上述任一个实施例的用于语音合成的个性化多声学模型的训练装置所生成的。
如图7所示,该语音合成装置可以包括获取模块210、分词模块220、词性标注模块230、韵律预测模块240、注音模块250、声学预测模块260和语音合成模块270,其中:
获取模块210用于获取待合成文本;分词模块220用于对待合成文本进行分词。
词性标注模块230用于对分词后的待合成文本进行词性标注。
韵律预测模块240用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征。
注音模块250用于根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果。
声学预测模块260用于将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型,通过第一目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列。
语音合成模块270用于根据声学参数序列生成待合成文本的语音合成结果。
需要说明的是,前述对语音合成方法实施例的解释说明也适用于该实施例的语音合成装置,此处不再赘述。
本发明实施例的语音合成装置,首先通过获取模块获取待合成文本,然后分词模块对待合成文本进行分词,词性标注模块对分词后的待合成文本进行词性标注,韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而注音模块根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并声学预测模块将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型,通过第一目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后声学预测模块根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
为了实现上述实施例,本发明还提出了一种语音合成装置。
图8是根据本发明另一个实施例的语音合成装置的结构示意图。需要说明的是,本发明实施例的语音合成装置所使用的第二目标用户声学模型是由上述任一个实施例的用于语音合成的个性化多声学模型的训练装置所生成的。
如图8所示,该语音合成装置可以包括获取模块310、分词模块320、词性标注模块330、韵律预测模块340、注音模块350、声学预测模块360和语音合成模块370,其中:
获取模块310用于获取待合成文本;分词模块220用于对待合成文本进行分词。
词性标注模块330用于对分词后的待合成文本进行词性标注。
韵律预测模块340用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征。
注音模块350用于根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果。
声学预测模块360用于将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型,通过第二目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列。
语音合成模块370用于根据声学参数序列生成待合成文本的语音合成结果。
需要说明的是,前述对语音合成方法实施例的解释说明也适用于该实施例的语音合成装置,此处不再赘述。
本发明实施例的语音合成装置,首先通过获取模块获取待合成文本,然后分词模块对待合成文本进行分词,词性标注模块对分词后的待合成文本进行词性标注,韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成待合成文本的韵律特征,进而注音模块根据分词结果、词性标注结果和韵律特征对待合成文本进行注音,以生成待合成文本的注音结果,并声学预测模块将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型,通过第二目标用户声学模型对待合成文本进行声学预测,以生成待合成文本的声学参数序列,最后声学预测模块根据声学参数序列生成待合成文本的语音合成结果,由此,使得语音合成系统中合成出的语音合成结果中包含目标用户的语音特点,满足了用户生成个性化语音的需求,提升了用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种用于语音合成的个性化多声学模型的训练方法,其特征在于,包括以下步骤:
基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据,训练基准声学模型;
获取目标用户的语音数据;
根据所述基准声学模型和所述语音数据,训练第一目标用户声学模型;
根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据;以及
基于所述第一文本标注数据和所述第二声学特征数据,训练第二目标用户声学模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述基准声学模型和所述语音数据,训练第一目标用户声学模型,具体包括:
对所述语音数据进行声学特征提取,以获取所述语音数据的第三声学特征数据;
对所述语音数据进行语音标注,以获取所述语音数据的第二文本标注数据;
根据所述基准声学模型、所述第三声学特征数据和所述第二文本标注数据,训练所述第一目标用户声学模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述基准声学模型、所述第三声学特征数据和所述第二文本标注数据,训练所述第一目标用户声学模型,具体包括:
获取所述基准声学模型的神经网络结构;
根据所述第三声学特征数据、所述第二文本标注数据以及所述基准声学模型的神经网络结构,训练所述第一目标用户声学模型。
4.如权利要求1所述的方法,其特征在于,所述基于所述第一文本标注数据和所述第二声学特征数据,训练第二目标用户声学模型,具体包括:
基于隐马尔可夫模型,对所述第一文本标注数据和所述第二声学特征数据进行训练,并根据训练结果建立所述第二目标用户声学模型。
5.一种使用如权利要求1至4中任一项所述的第一目标用户声学模型进行语音合成的方法,其特征在于,包括:
获取待合成文本,对所述待合成文本进行分词;
对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;
根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;
将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型,通过所述第一目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及
根据所述声学参数序列生成所述待合成文本的语音合成结果。
6.一种使用如权利要求1至4中任一项所述的第二目标用户声学模型进行语音合成的方法,其特征在于,包括:
获取待合成文本,对所述待合成文本进行分词;
对分词后的待合成文本进行词性标注,并通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;
根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;
将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型,通过所述第二目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及
根据所述声学参数序列生成所述待合成文本的语音合成结果。
7.一种用于语音合成的个性化多声学模型的训练装置,其特征在于,包括:
第一模型训练模块,用于基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据,训练基准声学模型;
获取模块,用于获取目标用户的语音数据;
第二模型训练模块,用于根据所述基准声学模型和所述语音数据,训练第一目标用户声学模型;
生成模块,用于根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据;以及
第三模型训练模块,用于基于所述第一文本标注数据和所述第二声学特征数据,训练第二目标用户声学模型。
8.如权利要求7所述的装置,其特征在于,所述第二模型训练模块,具体包括:
提取单元,用于对所述语音数据进行声学特征提取,以获取所述语音数据的第三声学特征数据;
语音标注模块,用于对所述语音数据进行语音标注,以获取所述语音数据的第二文本标注数据;
模型训练单元,用于根据所述基准声学模型、所述第三声学特征数据和所述第二文本标注数据,训练所述第一目标用户声学模型。
9.如权利要求8所述的装置,其特征在于,所述模型训练单元,具体用于:
获取所述基准声学模型的神经网络结构,并根据所述第三声学特征数据、所述第二文本标注数据以及所述基准声学模型的神经网络结构,训练所述第一目标用户声学模型。
10.如权利要求7所述的装置,其特征在于,所述第三模型训练模块,具体用于:
基于隐马尔可夫模型,对所述第一文本标注数据和所述第二声学特征数据进行训练,并根据训练结果建立所述第二目标用户声学模型。
11.一种使用如权利要求7至10中任一项所述的第一目标用户声学模型进行语音合成的装置,其特征在于,包括:
获取模块,用于获取待合成文本;
分词模块,用于对所述待合成文本进行分词;
词性标注模块,用于对分词后的待合成文本进行词性标注;
韵律预测模块,用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;
注音模块,用于根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;
声学预测模块,用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型,通过所述第一目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及
语音合成模块,用于根据所述声学参数序列生成所述待合成文本的语音合成结果。
12.一种使用如权利要求7至10中任一项所述的第二目标用户声学模型进行语音合成的装置,其特征在于,包括:
获取模块,用于获取待合成文本;
分词模块,用于对所述待合成文本进行分词;
词性标注模块,用于对分词后的待合成文本进行词性标注;
韵律预测模块,用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测,以生成所述待合成文本的韵律特征;
注音模块,用于根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音,以生成所述待合成文本的注音结果;
声学预测模块,用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型,通过所述第二目标用户声学模型对所述待合成文本进行声学预测,以生成所述待合成文本的声学参数序列;以及
语音合成模块,用于根据所述声学参数序列生成所述待合成文本的语音合成结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510684475.1A CN105185372B (zh) | 2015-10-20 | 2015-10-20 | 个性化多声学模型的训练方法、语音合成方法及装置 |
US15/758,280 US10410621B2 (en) | 2015-10-20 | 2016-06-27 | Training method for multiple personalized acoustic models, and voice synthesis method and device |
PCT/CN2016/087321 WO2017067206A1 (zh) | 2015-10-20 | 2016-06-27 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510684475.1A CN105185372B (zh) | 2015-10-20 | 2015-10-20 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105185372A true CN105185372A (zh) | 2015-12-23 |
CN105185372B CN105185372B (zh) | 2017-03-22 |
Family
ID=54907400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510684475.1A Active CN105185372B (zh) | 2015-10-20 | 2015-10-20 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10410621B2 (zh) |
CN (1) | CN105185372B (zh) |
WO (1) | WO2017067206A1 (zh) |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105609096A (zh) * | 2015-12-30 | 2016-05-25 | 小米科技有限责任公司 | 文本数据输出方法和装置 |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN105845130A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 用于语音识别的声学模型训练方法及装置 |
CN105895080A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
WO2017067206A1 (zh) * | 2015-10-20 | 2017-04-27 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CN107154263A (zh) * | 2017-05-25 | 2017-09-12 | 宇龙计算机通信科技(深圳)有限公司 | 声音处理方法、装置及电子设备 |
CN107293288A (zh) * | 2017-06-09 | 2017-10-24 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
CN107705783A (zh) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN108039168A (zh) * | 2017-12-12 | 2018-05-15 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108172209A (zh) * | 2018-01-09 | 2018-06-15 | 上海大学 | 构建语音偶像方法 |
CN108305619A (zh) * | 2017-03-10 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
CN108346423A (zh) * | 2017-01-23 | 2018-07-31 | 北京搜狗科技发展有限公司 | 语音合成模型的处理方法和装置 |
CN108597538A (zh) * | 2018-03-05 | 2018-09-28 | 标贝(北京)科技有限公司 | 语音合成系统的评测方法和系统 |
CN109064789A (zh) * | 2018-08-17 | 2018-12-21 | 重庆第二师范学院 | 一种伴随脑瘫性口齿不清辅助控制系统及方法、辅助器 |
CN109065016A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音合成方法、装置、电子设备及非暂态计算机存储介质 |
CN109285536A (zh) * | 2018-11-23 | 2019-01-29 | 北京羽扇智信息科技有限公司 | 一种语音特效合成方法、装置、电子设备及存储介质 |
CN109313891A (zh) * | 2017-05-16 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 用于语音合成的系统和方法 |
CN109346107A (zh) * | 2018-10-10 | 2019-02-15 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109599095A (zh) * | 2018-11-21 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 一种语音数据的标注方法、装置、设备和计算机存储介质 |
CN110010136A (zh) * | 2019-04-04 | 2019-07-12 | 北京地平线机器人技术研发有限公司 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
CN110164413A (zh) * | 2019-05-13 | 2019-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN110379411A (zh) * | 2018-04-11 | 2019-10-25 | 阿里巴巴集团控股有限公司 | 针对目标说话人的语音合成方法和装置 |
CN110379407A (zh) * | 2019-07-22 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 自适应语音合成方法、装置、可读存储介质及计算设备 |
CN110459201A (zh) * | 2019-08-22 | 2019-11-15 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN110827799A (zh) * | 2019-11-21 | 2020-02-21 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
CN111164674A (zh) * | 2019-12-31 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、终端及存储介质 |
CN111223474A (zh) * | 2020-01-15 | 2020-06-02 | 武汉水象电子科技有限公司 | 一种基于多神经网络的语音克隆方法和系统 |
CN111276120A (zh) * | 2020-01-21 | 2020-06-12 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111326138A (zh) * | 2020-02-24 | 2020-06-23 | 北京达佳互联信息技术有限公司 | 语音生成方法及装置 |
CN111383627A (zh) * | 2018-12-28 | 2020-07-07 | 北京猎户星空科技有限公司 | 一种语音数据处理方法、装置、设备及介质 |
CN111433847A (zh) * | 2019-12-31 | 2020-07-17 | 深圳市优必选科技股份有限公司 | 语音转换的方法及训练方法、智能装置和存储介质 |
CN111477210A (zh) * | 2020-04-02 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 语音合成方法和装置 |
CN111816168A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语音播放的方法、装置及存储介质 |
CN112365876A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN112466294A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
CN112750423A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建方法、装置、系统及电子设备 |
CN113192482A (zh) * | 2020-01-13 | 2021-07-30 | 北京地平线机器人技术研发有限公司 | 语音合成方法及语音合成模型的训练方法、装置、设备 |
CN113241056A (zh) * | 2021-04-26 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音合成模型的训练与语音合成方法、装置、系统及介质 |
WO2021169825A1 (zh) * | 2020-02-25 | 2021-09-02 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN113393829A (zh) * | 2021-06-16 | 2021-09-14 | 哈尔滨工业大学(深圳) | 一种融合韵律和个人信息的中文语音合成方法 |
CN113539233A (zh) * | 2020-04-16 | 2021-10-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
WO2022141126A1 (zh) * | 2020-12-29 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 个性化语音转换训练方法、计算机设备及存储介质 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206258B (zh) * | 2015-10-19 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US10726828B2 (en) * | 2017-05-31 | 2020-07-28 | International Business Machines Corporation | Generation of voice data as data augmentation for acoustic model training |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN110399547B (zh) * | 2018-04-17 | 2022-03-04 | 百度在线网络技术(北京)有限公司 | 用于更新模型参数的方法、装置、设备和存储介质 |
CN108877765A (zh) * | 2018-05-31 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音拼接合成的处理方法及装置、计算机设备及可读介质 |
US11605371B2 (en) * | 2018-06-19 | 2023-03-14 | Georgetown University | Method and system for parametric speech synthesis |
CN108962219B (zh) * | 2018-06-29 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 用于处理文本的方法和装置 |
CN109300468B (zh) * | 2018-09-12 | 2022-09-06 | 科大讯飞股份有限公司 | 一种语音标注方法及装置 |
CN111063338B (zh) * | 2018-09-29 | 2023-09-19 | 阿里巴巴集团控股有限公司 | 音频信号识别方法、装置、设备、系统和存储介质 |
KR102247902B1 (ko) * | 2018-10-16 | 2021-05-04 | 엘지전자 주식회사 | 단말기 |
US11200884B1 (en) * | 2018-11-06 | 2021-12-14 | Amazon Technologies, Inc. | Voice profile updating |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
CN110444191B (zh) * | 2019-01-22 | 2021-11-26 | 清华大学深圳研究生院 | 一种韵律层级标注的方法、模型训练的方法及装置 |
US11094311B2 (en) | 2019-05-14 | 2021-08-17 | Sony Corporation | Speech synthesizing devices and methods for mimicking voices of public figures |
CN110428819B (zh) * | 2019-05-21 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 解码网络生成方法、语音识别方法、装置、设备及介质 |
US11141669B2 (en) * | 2019-06-05 | 2021-10-12 | Sony Corporation | Speech synthesizing dolls for mimicking voices of parents and guardians of children |
US11322135B2 (en) * | 2019-09-12 | 2022-05-03 | International Business Machines Corporation | Generating acoustic sequences via neural networks using combined prosody info |
CN110767212B (zh) * | 2019-10-24 | 2022-04-26 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法、装置和电子设备 |
US11430424B2 (en) * | 2019-11-13 | 2022-08-30 | Meta Platforms Technologies, Llc | Generating a voice model for a user |
CN112863476A (zh) * | 2019-11-27 | 2021-05-28 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建、语音合成和测试方法及装置 |
CN111133506A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
WO2021127987A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质 |
CN111128119B (zh) * | 2019-12-31 | 2022-04-22 | 云知声智能科技股份有限公司 | 一种语音合成方法及装置 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
CN111627418B (zh) * | 2020-05-27 | 2023-01-31 | 携程计算机技术(上海)有限公司 | 语音合成模型的训练方法、合成方法、系统、设备和介质 |
CN111968617B (zh) * | 2020-08-25 | 2024-03-15 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN112151008B (zh) * | 2020-09-22 | 2022-07-15 | 中用科技有限公司 | 一种语音合成方法、系统及计算机设备 |
WO2022094740A1 (en) * | 2020-11-03 | 2022-05-12 | Microsoft Technology Licensing, Llc | Controlled training and use of text-to-speech models and personalized model generated voices |
CN112331177A (zh) * | 2020-11-05 | 2021-02-05 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112420017A (zh) * | 2020-11-13 | 2021-02-26 | 北京沃东天骏信息技术有限公司 | 语音合成方法及装置 |
CN112365882B (zh) * | 2020-11-30 | 2023-09-22 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112927674B (zh) * | 2021-01-20 | 2024-03-12 | 北京有竹居网络技术有限公司 | 语音风格的迁移方法、装置、可读介质和电子设备 |
CN113436601A (zh) * | 2021-05-27 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 音频合成方法、装置、电子设备及存储介质 |
CN113327577B (zh) * | 2021-06-07 | 2024-01-16 | 北京百度网讯科技有限公司 | 语音合成方法、装置和电子设备 |
CN113838453B (zh) * | 2021-08-17 | 2022-06-28 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备和计算机存储介质 |
CN113793593B (zh) * | 2021-11-18 | 2022-03-18 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020120450A1 (en) * | 2001-02-26 | 2002-08-29 | Junqua Jean-Claude | Voice personalization of speech synthesizer |
CN101178895A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于生成参数听感误差最小化的模型自适应方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN103117057A (zh) * | 2012-12-27 | 2013-05-22 | 安徽科大讯飞信息科技股份有限公司 | 一种特定人语音合成技术在手机漫画配音中的应用方法 |
US20140025382A1 (en) * | 2012-07-18 | 2014-01-23 | Kabushiki Kaisha Toshiba | Speech processing system |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1534595A (zh) * | 2003-03-28 | 2004-10-06 | 中颖电子(上海)有限公司 | 语音转换合成装置及其方法 |
US8374873B2 (en) | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
CN101751921B (zh) | 2009-12-16 | 2011-09-14 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
US8719006B2 (en) * | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
CN105206258B (zh) * | 2015-10-19 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
CN105185372B (zh) | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
-
2015
- 2015-10-20 CN CN201510684475.1A patent/CN105185372B/zh active Active
-
2016
- 2016-06-27 US US15/758,280 patent/US10410621B2/en active Active
- 2016-06-27 WO PCT/CN2016/087321 patent/WO2017067206A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020120450A1 (en) * | 2001-02-26 | 2002-08-29 | Junqua Jean-Claude | Voice personalization of speech synthesizer |
CN101178895A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于生成参数听感误差最小化的模型自适应方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
US20140025382A1 (en) * | 2012-07-18 | 2014-01-23 | Kabushiki Kaisha Toshiba | Speech processing system |
CN103117057A (zh) * | 2012-12-27 | 2013-05-22 | 安徽科大讯飞信息科技股份有限公司 | 一种特定人语音合成技术在手机漫画配音中的应用方法 |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
Cited By (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017067206A1 (zh) * | 2015-10-20 | 2017-04-27 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
US10410621B2 (en) | 2015-10-20 | 2019-09-10 | Baidu Online Network Technology (Beijing) Co., Ltd. | Training method for multiple personalized acoustic models, and voice synthesis method and device |
CN105609096A (zh) * | 2015-12-30 | 2016-05-25 | 小米科技有限责任公司 | 文本数据输出方法和装置 |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN105702263B (zh) * | 2016-01-06 | 2019-08-30 | 清华大学 | 语音重放检测方法和装置 |
CN105845130A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 用于语音识别的声学模型训练方法及装置 |
CN105895080A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
CN108346423A (zh) * | 2017-01-23 | 2018-07-31 | 北京搜狗科技发展有限公司 | 语音合成模型的处理方法和装置 |
CN108305619A (zh) * | 2017-03-10 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
CN108305619B (zh) * | 2017-03-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
US10565983B2 (en) | 2017-05-05 | 2020-02-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Artificial intelligence-based acoustic model training method and apparatus, device and storage medium |
CN109313891B (zh) * | 2017-05-16 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 用于语音合成的系统和方法 |
CN109313891A (zh) * | 2017-05-16 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 用于语音合成的系统和方法 |
CN107154263A (zh) * | 2017-05-25 | 2017-09-12 | 宇龙计算机通信科技(深圳)有限公司 | 声音处理方法、装置及电子设备 |
CN107293288A (zh) * | 2017-06-09 | 2017-10-24 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107481717A (zh) * | 2017-08-01 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法及系统 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107705783A (zh) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN108039168B (zh) * | 2017-12-12 | 2020-09-11 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108039168A (zh) * | 2017-12-12 | 2018-05-15 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108172209A (zh) * | 2018-01-09 | 2018-06-15 | 上海大学 | 构建语音偶像方法 |
CN108597538A (zh) * | 2018-03-05 | 2018-09-28 | 标贝(北京)科技有限公司 | 语音合成系统的评测方法和系统 |
CN110379411A (zh) * | 2018-04-11 | 2019-10-25 | 阿里巴巴集团控股有限公司 | 针对目标说话人的语音合成方法和装置 |
CN109064789A (zh) * | 2018-08-17 | 2018-12-21 | 重庆第二师范学院 | 一种伴随脑瘫性口齿不清辅助控制系统及方法、辅助器 |
CN109065016A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音合成方法、装置、电子设备及非暂态计算机存储介质 |
CN109346107B (zh) * | 2018-10-10 | 2022-09-30 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109346107A (zh) * | 2018-10-10 | 2019-02-15 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109599095A (zh) * | 2018-11-21 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 一种语音数据的标注方法、装置、设备和计算机存储介质 |
CN109599095B (zh) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 一种语音数据的标注方法、装置、设备和计算机存储介质 |
CN109285536B (zh) * | 2018-11-23 | 2022-05-13 | 出门问问创新科技有限公司 | 一种语音特效合成方法、装置、电子设备及存储介质 |
CN109285536A (zh) * | 2018-11-23 | 2019-01-29 | 北京羽扇智信息科技有限公司 | 一种语音特效合成方法、装置、电子设备及存储介质 |
CN111383627A (zh) * | 2018-12-28 | 2020-07-07 | 北京猎户星空科技有限公司 | 一种语音数据处理方法、装置、设备及介质 |
CN111383627B (zh) * | 2018-12-28 | 2024-03-22 | 北京猎户星空科技有限公司 | 一种语音数据处理方法、装置、设备及介质 |
CN110010136A (zh) * | 2019-04-04 | 2019-07-12 | 北京地平线机器人技术研发有限公司 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
CN110164413B (zh) * | 2019-05-13 | 2021-06-04 | 北京百度网讯科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN110164413A (zh) * | 2019-05-13 | 2019-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN110379407B (zh) * | 2019-07-22 | 2021-10-19 | 出门问问(苏州)信息科技有限公司 | 自适应语音合成方法、装置、可读存储介质及计算设备 |
CN110379407A (zh) * | 2019-07-22 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 自适应语音合成方法、装置、可读存储介质及计算设备 |
CN110459201A (zh) * | 2019-08-22 | 2019-11-15 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN110459201B (zh) * | 2019-08-22 | 2022-01-07 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN112750423A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建方法、装置、系统及电子设备 |
CN112750423B (zh) * | 2019-10-29 | 2023-11-17 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建方法、装置、系统及电子设备 |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
CN110827799A (zh) * | 2019-11-21 | 2020-02-21 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
CN111433847B (zh) * | 2019-12-31 | 2023-06-09 | 深圳市优必选科技股份有限公司 | 语音转换的方法及训练方法、智能装置和存储介质 |
CN111433847A (zh) * | 2019-12-31 | 2020-07-17 | 深圳市优必选科技股份有限公司 | 语音转换的方法及训练方法、智能装置和存储介质 |
WO2021134520A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 语音转换的方法及训练方法、智能装置和存储介质 |
WO2021134591A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、终端及存储介质 |
CN111164674B (zh) * | 2019-12-31 | 2024-05-03 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、终端及存储介质 |
CN111164674A (zh) * | 2019-12-31 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、终端及存储介质 |
CN113192482B (zh) * | 2020-01-13 | 2023-03-21 | 北京地平线机器人技术研发有限公司 | 语音合成方法及语音合成模型的训练方法、装置、设备 |
CN113192482A (zh) * | 2020-01-13 | 2021-07-30 | 北京地平线机器人技术研发有限公司 | 语音合成方法及语音合成模型的训练方法、装置、设备 |
CN111223474A (zh) * | 2020-01-15 | 2020-06-02 | 武汉水象电子科技有限公司 | 一种基于多神经网络的语音克隆方法和系统 |
CN111276120A (zh) * | 2020-01-21 | 2020-06-12 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111276120B (zh) * | 2020-01-21 | 2022-08-19 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111326138A (zh) * | 2020-02-24 | 2020-06-23 | 北京达佳互联信息技术有限公司 | 语音生成方法及装置 |
WO2021169825A1 (zh) * | 2020-02-25 | 2021-09-02 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN111477210A (zh) * | 2020-04-02 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 语音合成方法和装置 |
CN113539233A (zh) * | 2020-04-16 | 2021-10-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111816168A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语音播放的方法、装置及存储介质 |
CN112466294A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
CN112466294B (zh) * | 2020-11-24 | 2021-12-14 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
CN112365876A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN112365876B (zh) * | 2020-11-27 | 2022-04-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
WO2022141126A1 (zh) * | 2020-12-29 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 个性化语音转换训练方法、计算机设备及存储介质 |
CN113241056A (zh) * | 2021-04-26 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音合成模型的训练与语音合成方法、装置、系统及介质 |
CN113241056B (zh) * | 2021-04-26 | 2024-03-15 | 标贝(青岛)科技有限公司 | 语音合成模型的训练与语音合成方法、装置、系统及介质 |
CN113393829B (zh) * | 2021-06-16 | 2023-08-29 | 哈尔滨工业大学(深圳) | 一种融合韵律和个人信息的中文语音合成方法 |
CN113393829A (zh) * | 2021-06-16 | 2021-09-14 | 哈尔滨工业大学(深圳) | 一种融合韵律和个人信息的中文语音合成方法 |
Also Published As
Publication number | Publication date |
---|---|
US10410621B2 (en) | 2019-09-10 |
WO2017067206A1 (zh) | 2017-04-27 |
CN105185372B (zh) | 2017-03-22 |
US20180254034A1 (en) | 2018-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105185372A (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN108597492B (zh) | 语音合成方法和装置 | |
CN106601228B (zh) | 基于人工智能韵律预测的样本标注方法及装置 | |
CN105355193B (zh) | 语音合成方法和装置 | |
CN105336322B (zh) | 多音字模型训练方法、语音合成方法及装置 | |
CN104934028B (zh) | 用于语音合成的深度神经网络模型的训练方法及装置 | |
CN104538024B (zh) | 语音合成方法、装置及设备 | |
JP5149737B2 (ja) | 自動会話システム、並びに会話シナリオ編集装置 | |
CN105551481B (zh) | 语音数据的韵律标注方法及装置 | |
CN105261355A (zh) | 一种语音合成方法和装置 | |
EP3824461B1 (en) | Method and system for creating object-based audio content | |
CN107301860A (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN107195295A (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN105206258A (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
CN107464555A (zh) | 向包含语音的音频数据添加背景声音 | |
CN104916284A (zh) | 用于语音合成系统的韵律与声学联合建模的方法及装置 | |
Campbell | Developments in corpus-based speech synthesis: Approaching natural conversational speech | |
CN114207706A (zh) | 使用组合的韵律信息经由神经网络生成声学序列 | |
CN101887719A (zh) | 语音合成方法、系统及具有语音合成功能的移动终端设备 | |
CN105206264A (zh) | 语音合成方法和装置 | |
CN112802446A (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
CN105161096A (zh) | 基于垃圾模型的语音识别处理方法及装置 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
US11195511B2 (en) | Method and system for creating object-based audio content | |
CN113781996A (zh) | 一种语音合成模型训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |