CN113178186A - 一种方言语音合成方法、装置、电子设备和存储介质 - Google Patents

一种方言语音合成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113178186A
CN113178186A CN202110460970.XA CN202110460970A CN113178186A CN 113178186 A CN113178186 A CN 113178186A CN 202110460970 A CN202110460970 A CN 202110460970A CN 113178186 A CN113178186 A CN 113178186A
Authority
CN
China
Prior art keywords
dialect
mandarin
model
rhythm
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110460970.XA
Other languages
English (en)
Other versions
CN113178186B (zh
Inventor
刘方舟
周游
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Normal University
Original Assignee
Hunan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Normal University filed Critical Hunan Normal University
Priority to CN202110460970.XA priority Critical patent/CN113178186B/zh
Publication of CN113178186A publication Critical patent/CN113178186A/zh
Application granted granted Critical
Publication of CN113178186B publication Critical patent/CN113178186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种方言语音合成方法、装置、电子设备和存储介质,该方法在现有的普通话语音合成模型的基础上,通过进行差异学习,生成方言节奏转化模型、方言重音转化模型和方言声调转化模型,在普通话语音合成模型的基础上添加方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统,再将目标文本输入方言语音合成系统,即可得到方言语音合成结果。能够极大的缩减方言语料库的规模,缩短研发时间,节约研发成本,避免了相关技术中需要在方言语音合成系统研发环节中,费时费力的构建大规模的方言语料库,导致研发周期长、成本巨大的缺陷。

Description

一种方言语音合成方法、装置、电子设备和存储介质
技术领域
本申请涉及语音合成技术领域,特别涉及一种方言语音合成方法、装置、电子设备和存储介质。
背景技术
在语音合成系统中,语料库是语音合成系统的数据基础,其对语言和语音现象的覆盖越丰富,合成出的语音越准确越自然。但是由于每研发一种方言语音合成系统,都要设计大规模的语料库,进行该方言的录音,并人工标注注音符号、音素边界、节奏层级、重音等级等语言学和语音学信息。对于语料库的设计、录音与标注,在语音合成系统研发环节中属于最费时费力的,造成在方言语音合成系统的研发过程,产生巨大的研发成本和漫长的研发周期。
发明内容
本申请的目的是提供一种方言语音合成方法,装置、电子设备和存储介质,能够极大的缩减方言语料库的规模,大大缩短研发时间,节约研发成本。其具体方案如下:
第一方面,本申请公开了一种方言语音合成方法,包括:
获取训练文本,将所述训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果;
将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,所述方言语料库包含方言节奏、方言重音和方言声调的方言语料信息;
在所述普通话语音合成系统中的所述普通话节奏预测模型、所述普通话重音预测模型以及所述普通话声调预测模型后,对应添加所述方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统;
获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果。
可选的,所述获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果,包括:
获取所述目标文本,将所述目标文本输入所述方言语音合成系统的方言节奏预测模型,得到方言节奏预测结果;在所述普通话节奏预测模型后添加所述方言节奏转化模型得到所述方言节奏预测模型;
将所述方言节奏预测结果输入所述方言语音合成系统的方言重音预测模型,得到方言重音预测结果;在所述普通话重音预测模型后添加所述方言重音转化模型得到所述方言重音预测模型;
将所述方言节奏预测结果和所述方言重音预测结果输入所述方言语音合成系统的方言语音参数生成模型,得到所述方言语音合成结果;在所述普通话声调预测模型后添加所述方言声调转化模型得到所述方言语音参数生成模型。
可选的,所述将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型,包括:
利用差异学习算法对所述方言语料库与所述普通话节奏预测结果、所述普通话重音预测结果进行差异学习,生成所述方言节奏转化模型、所述方言重音转化模型;
对所述方言语料库的方言声调信息和所述普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将所述基频差值回归树模型作为所述方言声调转化模型。
可选的,所述对所述方言语料库的方言声调信息和所述普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将所述基频差值回归树模型作为所述方言声调转化模型,包括:
确定所述方言语料库的声调类型,并获取普通话语料库;
利用分类树算法,对所述普通话语料库的声调类型和所述方言语料库的声调类型的声调类型转化进行建模,得到调型变化分类树;
分别提取所述方言语料库和所述普通话语料库的基频曲线,利用回归树算法对所述调型变化分类树下属于同一声调类型转化的所述方言语料库和所述普通话语料库对应基频曲线的基频差值进行回归树建模,得到基频差值回归树模型;
将所述基频差值回归树模型作为所述方言声调转化模型。
可选的,所述利用差异学习算法对所述方言语料库与所述普通话节奏预测结果、所述普通话重音预测结果进行差异学习,生成所述方言节奏转化模型、所述方言重音转化模型,包括:
利用所述差异学习算法对所述方言语料库的韵律词、韵律短语和语调词语与所述普通话节奏预测结果中的韵律词、韵律短语和语调词语进行差异学习,生成所述方言节奏转化模型;
利用所述差异学习算法对所述方言语料库的韵律词重音、韵律短语重音和语调词语重音与所述普通话节奏预测结果中的韵律词重音、韵律短语重音和语调词语重音进行差异学习,生成所述方言重音转化模型。
可选的,所述确定所述方言语料库的声调类型,包括:
提取所述方言语料库的基频曲线,对所述基频曲线进行聚类,生成所述方言语料库的声调类型。
第二方面,本申请公开了一种方言语音合成装置,包括:
获取模块,用于获取训练文本,将所述训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果;
生成模块,用于将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,所述方言语料库包含方言节奏、方言重音和方言声调的方言语料信息;
添加模块,用于在所述普通话语音合成系统中的所述普通话节奏预测模型、所述普通话重音预测模型以及所述普通话声调预测模型后,对应添加所述方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统;
输入模块,用于获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果。
可选的,所述输入模块,包括:
第一输入单元,用于获取所述目标文本,将所述目标文本输入所述方言语音合成系统的方言节奏预测模型,得到方言节奏预测结果;在所述普通话节奏预测模型后添加所述方言节奏转化模型得到所述方言节奏预测模型;
第二输入单元,用于将所述方言节奏预测结果输入所述方言语音合成系统的方言重音预测模型,得到方言重音预测结果;在所述普通话重音预测模型后添加所述方言重音转化模型得到所述方言重音预测模型;
第三输入单元,用于将所述方言节奏预测结果和所述方言重音预测结果输入所述方言语音合成系统的方言语音参数生成模型,得到所述方言语音合成结果;在所述普通话声调预测模型后添加所述方言声调转化模型得到所述方言语音参数生成模型。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述方言语音合成方法的步骤。
第四方面,本申请公开了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方言语音合成方法的步骤。
本申请提供一种方言语音合成方法,包括:获取训练文本,将所述训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果;将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,所述方言语料库包含方言节奏、方言重音和方言声调的方言语料信息;在所述普通话语音合成系统中的所述普通话节奏预测模型、所述普通话重音预测模型以及所述普通话声调预测模型后,对应添加所述方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统;获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果。
可见,本申请在现有的普通话语音合成模型的基础上,通过进行差异学习,生成方言节奏转化模型、方言重音转化模型和方言声调转化模型,在普通话语音合成模型的基础上添加方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统,再将目标文本输入方言语音合成系统,即可得到方言语音合成结果。即本申请由于普通话与方言仅存在韵律(节奏、重音和声调)的差异,因此仅需设计覆盖节奏、重音和声调的方言语料库,就能在现有的普通话语音合成的基础上,生成方言语音合成系统,能够极大的缩减方言语料库的规模,避免了相关技术中需要在方言语音合成系统研发环节中,费时费力的构建大规模的方言语料库,导致研发周期长、成本巨大的缺陷,本申请能够大大缩短研发时间,节约研发成本。本申请同时还提供了一种方言语音合成装置、一种电子设备和存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的现有的普通话语音合成系统的系统框架示意图;
图2为本申请实施例所提供的一种方言语音合成方法的流程图;
图3为本申请实施例所提供的一种自适应方言语音合成系统框架示意图;
图4为本申请实施例所提供的方言节奏转换框架示意图;
图5为本申请实施例所提供的方言重音转换框架示意图;
图6为本申请实申请施例所提供的方言声调转换框架示意图;
图7为本申请实施例所提供的一种方言语音合成装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
语音合成是将文本输入转换成语音输出,在信息服务、语言教学、语音导航等领域具有广泛的应用。方言语音合成可以提高语音合成系统的个性化和表现力,增加语音交互、电子游戏、影视配音等应用场景的趣味性和真实感。现有的语音合成系统即普通话语音合成系统包括前端和后端两个模块,系统框架如图1所示。前端模块对输入文本进行分析,提取后端模块需要的语言学和语音学信息。后端模块根据前端分析结果生成语音波形,典型的生成方法有两种:基于统计参数建模的语音合成(简称参数合成)和基于基元选取和波形拼接的语音合成(简称拼接合成),目前也发展出了基于参数和拼接的混合语音合成,即生成声学参数来指导基元选取,然后拼接输出语音。无论是前端模块还是后端模块,都离不开大规模的语料库,即经过人工标注的文本和语音对齐的数据库。前端模块需要大规模的文本语料来构建文本正则化、语法分析、多音字消歧、节奏预测、重音预测等子模块的机器学习模型。后端模块无论是采用参数合成,还是采用拼接合成,都需要大规模的语音库,参数合成需要从语音库中提取基频和频谱参数来训练声学模型,拼接合成同样需要从语音库中挑选最优的基元序列进行拼接。语料库是语音合成系统的数据基础,其对语言和语音现象的覆盖越丰富,合成出的语音就越准确越自然,因此商用语音合成系统的语料库规模动辄数十甚至上百万音节。然而语料库的设计、录音与标注,是语音合成系统研发中最耗时费力的环节,造成在方言语音合成系统的研发过程,产生巨大的研发成本和漫长的研发周期。
基于上述技术问题,本实施例提供一种方言语音合成方法,能够极大的缩减方言语料库的规模,大大缩短研发时间,节约研发成本,具体请参考图2,图2为本申请实施例所提供的一种方言语音合成方法的流程图,具体包括:
S201、获取训练文本,将训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果。
本实施例并不限定方言语料库的具体内容,只要包含方言节奏、方言重音和方言声调的方言语料即可,本实施例也不限定方言语料库的具体建立过程,其中方言节奏和方言重音的语料库可理解为对方言文本在节奏和重音进行标注而生成的,因不同方言的声调类型各不相同且在语言学上没有明确的规范,所以方言声调的语料库是对方言文本进行录音,并对方言基频曲线进行聚类从而自动标注出方言声调的。本实施例中通过将包含有方言节奏、方言重音和方言声调的方言语料信息输入现有的普通话语音合成系统,可以得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果,本实施例中的普通话语音合成系统的系统框架可参考图1,其中方言声调预测部分可利用参数合成方法对应参数合成后端,也可利用拼接生成方法对应拼接合成后端。
S202、将预先建立的方言语料库分别与普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,方言语料库包含方言节奏、方言重音和方言声调的方言语料信息。
本实施例通过将方言语料库分别与普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果进行差异学习,生成了方言节奏转化模型、方言重音转化模型和方言声调转化模型。可以理解的是,方言语料库中的方言节奏语料信息、方言重音语料信息以及普通话节奏预测结果和普通话重音预测结果均为离散值,而方言声调语料信息和普通话声调预测结果为连续值,因此,方言节奏和方言重音对应的差异学习过程与方言声调对应的差异学习是不同的。在一种具体的实施例中,将预先建立的方言语料库分别与普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型,可以包括:
利用差异学习算法对方言语料库与普通话节奏预测结果、普通话重音预测结果进行差异学习,生成方言节奏转化模型、方言重音转化模型;
对方言语料库的方言声调信息和普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将基频差值回归树模型作为方言声调转化模型。
本实施例中利用差异学习算法分别对方言语料库与普通话节奏预测结果、普通话重音预测结果进行差异学习,生成方言节奏转化模型和方言重音转化模型。本实施例并不限定具体的差异学习算法,可以是基于转换的学习算法(Transformation-BasedLearning,TBL),从方言语料库中学习将普通话节奏转换为方言节奏,以及将普通话重音转换为方言重音的规则。针对方言声调的差异学习,通过对方言语料库的方言声调信息和普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将基频差值回归树模型作为方言声调转化模型。同样的,本实施例并不限定进行回归树建模的具体算法,例如可以是CART回归树模型,也可以是支持向量机等其它回归算法。
本实施例并不限定利用差异学习算法分别对方言语料库与普通话节奏预测结果、普通话重音预测结果进行差异学习的具体过程。在一种具体的实施例中,利用差异学习算法对方言语料库与普通话节奏预测结果、普通话重音预测结果进行差异学习,生成方言节奏转化模型、方言重音转化模型,可以包括:
利用差异学习算法对方言语料库的韵律词、韵律短语和语调词语与普通话节奏预测结果中的韵律词、韵律短语和语调词语进行差异学习,生成方言节奏转化模型;
利用差异学习算法对方言语料库的韵律词重音、韵律短语重音和语调词语重音与普通话节奏预测结果中的韵律词重音、韵律短语重音和语调词语重音进行差异学习,生成方言重音转化模型。
本实施例中针对方言节奏的差异学习,通过利用差异学习算法对方言语料库的韵律词、韵律短语和语调词语与普通话节奏预测结果中的韵律词、韵律短语和语调词语进行差异学习,生成了方言节奏转化模型;针对方言重音的差异学习,通过利用差异学习算法对方言语料库的韵律词重音、韵律短语重音和语调词语重音与普通话节奏预测结果中的韵律词重音、韵律短语重音和语调词语重音进行差异学习,生成了方言重音转化模型。
本实施例也不限定对方言声调进行差异的具体过程,可以是统一的将方言语料库中与普通话声调预测结果进行差异学习,也可以是先对方言语料库的声调类型进行分类后,根据不同的分类进行差异学习。在一种具体的实施例中,为了有效提高方言语音合成的自然度,本实施例中对方言语料库的方言声调信息和普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将基频差值回归树模型作为方言声调转化模型,可以包括:
确定方言语料库的声调类型,并获取普通话语料库;
利用分类树算法,对普通话语料库的声调类型和方言语料库的声调类型的声调类型转化进行建模,得到调型变化分类树;
分别提取方言语料库和普通话语料库的基频曲线,利用回归树算法对调型变化分类树下属于同一声调类型转化的方言语料库和普通话语料库对应基频曲线的基频差值进行回归树建模,得到基频差值回归树模型;
将基频差值回归树模型作为方言声调转化模型。
本实施例首先利用分类树对普通话语料库的声调类型和方言语料库的声调类型的声调类型转化进行建模,得到了调型变化分类树。可以理解的是,方言声调类型的分布和普通话声调变换到方言声调的分布很不均匀,比如普通话一声变换到天津话三声的频率是变换到天津话一声的9倍,如果统一进行基频差值回归树的建模,会使模型偏向分布比例较大的声调变换。因此本实施例先对普通话的声调类型到方言语料库的声调类型的变化进行了建模,例如根据上下文确定普通话一声应当变换到天津话的哪个声调,得到了调型变化分类树,之后再针对不同的调型变化,分别进行各基频差值的回归树建模。本实施例并不限定分类的具体算法,可以是CART分类树,可以是深度神经网络,还可以是其他分类算法。由于方言和普通话的声调主要体现在基频曲线的差异上,因此本实施例分别提取普通话语料库和方言语料库的基频曲线,然后将在调型变化分类树中属于同一声调类型转化的两者的基频曲线对应的基频差值进行回归树建模,生成了基频差值回归树模型。例如,可以对属于普通话一声转换到天津话三声对应的基频差值进行建模。即本实施例通过先对普通话语料库的声调类型到方言语料库的声调类型的声调类型的转化进行分类,再对两者的基频差值进行回归建模,可以避免基频差值的预测偏向于似然比较大的声调类型,有效提高方言语音合成的自然度。
S203、在普通话语音合成系统中的普通话节奏预测模型、普通话重音预测模型以及普通话声调预测模型后,对应添加方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统。
本实施例在现有的普通话语音合成系统的各个模型即普通话节奏预测模型、普通话重音预测模型以及普通话声调预测模型之后,对应添加了方言节奏转化模型、方言重音转化模型和方言声调转化模型,最终生成方言语音合成系统。可以理解的是,生成的方言语音合成系统可以包括方言节奏预测模型即通过在普通话节奏预测模型后添加方言节奏转化模型得到,方言重音预测模型即通过在普通话重音预测模型后添加方言重音转化模型得到,方言声调预测模型即通过在普通话声调预测模型后添加方言声调转化模型得到。
S204、获取目标文本,将目标文本输入方言语音合成系统,得到方言语音合成结果。
本实施例并不限定目标文本的具体内容,可以是任意的文本。本实施例通过将目标文本输入到得到的方言语音合成系统,即可得到方言语音合成结果。
本实施例并不限定将目标文本输入方言语音合成系统得到方言语音合成结果的具体过程。在一种具体的实施例中,获取预先建立的方言语料库,将方言语料库中的方言文本输入方言语音合成系统,得到方言节奏预测结果、方言重音预测结果和方言声调预测结果,可以包括:
获取目标文本,将目标文本输入方言语音合成系统的方言节奏预测模型,得到方言节奏预测结果;在普通话节奏预测模型后添加方言节奏转化模型得到方言节奏预测模型;
将方言节奏预测结果输入方言语音合成系统的方言重音预测模型,得到方言重音预测结果;在普通话重音预测模型后添加方言重音转化模型得到方言重音预测模型;
将方言节奏预测结果和方言重音预测结果输入方言语音合成系统的方言语音参数生成模型,得到方言语音合成结果;在普通话声调预测模型后添加方言声调转化模型得到方言语音参数生成模型。
本实施例首先将目标文本输入方言语音合成系统的方言节奏预测模型中,得到方言节奏预测结果;再将得到的方言节奏预测结果输入方言语音合成系统的方言重音预测模型,得到方言重音预测结果;本实施例中对于方言声调预测部分采用参数生成的方法,将方言节奏预测结果和方言重音预测结果输入方言语音合成系统的方言语音参数生成模型,得到方言语音合成结果。
基于上述技术方案,本实施例由于普通话与方言仅存在韵律(节奏、重音和声调)的差异,因此仅需设计覆盖节奏、重音和声调的方言语料库,就能在现有的普通话语音合成的基础上,生成方言语音合成系统,能够极大的缩减方言语料库的规模,大大缩短研发时间,节约研发成本。
下面提供一种基于普通话语音合成系统生成方言语音合成系统的具体实施例。图3为本实施例提供的一种自适应方言语音合成系统框架示意图。在普通话语音合成系统的基础上,保持语音内容不变,基于小规模的方言语料库改变说话风格,模拟出方言口音。本实施例方言声调预测部分采用参数合成方法,在传统的普通话语音合成系统的基础上添加了方言节奏转换模型、方言重音转换模型、方言声调转换模型三个模块。
(1)方言节奏转换
方言与普通话同属汉语,其节奏差异与不同语种之间的节奏差异相比而言较小,因此可以基于小规模的方言语料库对二者差异进行建模。本实施例采用韵律词、韵律短语、语调短语的三级节奏划分,使用基于转换的学习算法(Transformation-Based Learning,TBL),从小规模的方言语料库中学习将普通话节奏转换为方言节奏的规则,然后将这些规则用在普通话节奏预测之后,实现方言节奏的预测,图4为本实施例提供的方言节奏转换框架示意图。
(2)方言重音转换
与方言节奏转换类似,本实施例采用韵律词重音、韵律短语重音、语调短语重音的三级重音划分,使用TBL算法,从小规模的方言语料库中学习将普通话重音转换为方言重音的规则,然后将这些规则用在普通话重音预测之后,实现方言重音的预测,图5为本实施例提供的方言重音转换框架示意图。
(3)方言声调转换
汉语是声调语言,无论普通话和方言均是如此,汉语音节的基频模式称之为声调类型,简称调型。普通话到方言的声调转换通过预测普通话与方言之间的基频差值,将普通话基频修改为方言基频来实现,图6为本实施例提供的方言声调转换框架示意图。为了避免基频差值的预测偏向于似然比较大的调型,训练过程先对普通话到方言的调型变换类型进行分类树建模,然后针对不同的调型变换,对各基频差值进行回归树建模。转换过程先对音节进行调型变换分类,然后根据调型变换类型预测基频差值,修改普通话语音的基频,生成方言基频。
基于上述技术方案,由于方言与普通话的韵律差别主要体现在基频曲线的变化上,而基频曲线主要受声调、节奏和重音的影响,因此本实施例通过对方言与普通话之间的声调、节奏和重音差异进行建模,将合成的普通话语音转换为方言口音,以实现方言的语音合成。由于方言语料库仅用于普通话和方言韵律差异的建模,所以只需覆盖音节调型、节奏层级和重音类型的变化,规模可以缩减到不超过一万音节,从而大大缩短研发时间,节约研发成本。通过构建不同方言的小规模语料库,可将系统快速移植到不同的方言,达到方言语音合成自适应的效果。
下面对本申请实施例提供的一种方言语音合成装置进行介绍,下文描述的方言语音合成装置与上文描述的方言语音合成方法可相互对应参照,相关模块均设置于中,参考图7,图7为本申请实施例所提供的一种方言语音合成装置的结构示意图,包括:
在一些具体的实施例中,具体包括:
获取模块701,用于获取训练文本,将训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果;
生成模块702,用于将预先建立的方言语料库分别与普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,所述方言语料库包含方言节奏、方言重音和方言声调的方言语料信息;
添加模块703,用于在普通话语音合成系统中的普通话节奏预测模型、普通话重音预测模型以及普通话声调预测模型后,对应添加方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统;
输入模块704,用于获取目标文本,将目标文本输入方言语音合成系统,得到方言语音合成结果。
在一些具体的实施例中,输入模块704,包括:
第一输入单元,用于获取目标文本,将目标文本输入方言语音合成系统的方言节奏预测模型,得到方言节奏预测结果;在普通话节奏预测模型后添加方言节奏转化模型得到方言节奏预测模型;
第二输入单元,用于将方言节奏预测结果输入方言语音合成系统的方言重音预测模型,得到方言重音预测结果;在普通话重音预测模型后添加方言重音转化模型得到方言重音预测模型;
第三输入单元,用于将方言重音预测结果输入方言语音合成系统的方言语音参数生成模型,得到方言语音合成结果;在普通话声调预测模型后添加方言声调转化模型得到方言语音参数生成模型。
在一些具体的实施例中,生成模块702,包括:
生成子模块,用于利用差异学习算法对方言语料库与普通话节奏预测结果、普通话重音预测结果进行差异学习,生成方言节奏转化模型、方言重音转化模型;
回归树建模子模块,用于对方言语料库的方言声调信息和普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将基频差值回归树模型作为方言声调转化模型。
在一些具体的实施例中,回归树建模子模块,包括:
确定单元,用于确定方言语料库的声调类型,并获取普通话语料库;
建模单元,用于利用分类树算法,对普通话语料库的声调类型和方言语料库的声调类型的声调类型转化进行建模,得到调型变化分类树;
提取单元,用于分别提取方言语料库和普通话语料库的基频曲线,利用回归树算法对调型变化分类树下属于同一声调类型转化的方言语料库和普通话语料库对应基频曲线的基频差值进行回归树建模,得到基频差值回归树模型;
方言声调转化单元,用于将基频差值回归树模型作为方言声调转化模型。
在一些具体的实施例中,生成子模块,包括:
第一生成单元,用于利用差异学习算法对方言语料库的韵律词、韵律短语和语调词语与普通话节奏预测结果中的韵律词、韵律短语和语调词语进行差异学习,生成方言节奏转化模型;
第二生成单元,用于利用差异学习算法对方言语料库的韵律词重音、韵律短语重音和语调词语重音与普通话节奏预测结果中的韵律词重音、韵律短语重音和语调词语重音进行差异学习,生成方言重音转化模型。
在一些具体的实施例中,确定单元,包括:
聚类子单元,用于提取方言语料库的基频曲线,对基频曲线进行聚类,生成方言语料库的声调类型。
由于方言语音合成装置部分的实施例与方言语音合成方法部分的实施例相互对应,因此方言语音合成装置部分的实施例请参见方言语音合成方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的电子设备与上文描述的方言语音合成方法可相互对应参照。
本申请公开一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述方言语音合成方法的步骤。
由于电子设备部分的实施例与方言语音合成方法部分的实施例相互对应,因此电子设备部分的实施例请参见方言语音合成方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种存储介质进行介绍,下文描述的存储介质与上文描述的方法可相互对应参照。
本申请公开一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方言语音合成方法的步骤。
由于存储介质部分的实施例与方言语音合成方法部分的实施例相互对应,因此存储介质部分的实施例请参见方言语音合成方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种方言语音合成方法、装置、电子设备及存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种方言语音合成方法,其特征在于,包括:
获取训练文本,将所述训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果;
将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,所述方言语料库包含方言节奏、方言重音和方言声调的方言语料信息;
在所述普通话语音合成系统中的所述普通话节奏预测模型、所述普通话重音预测模型以及所述普通话声调预测模型后,对应添加所述方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统;
获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果。
2.根据权利要求1所述的方言语音合成方法,其特征在于,所述获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果,包括:
获取所述目标文本,将所述目标文本输入所述方言语音合成系统的方言节奏预测模型,得到方言节奏预测结果;在所述普通话节奏预测模型后添加所述方言节奏转化模型得到所述方言节奏预测模型;
将所述方言节奏预测结果输入所述方言语音合成系统的方言重音预测模型,得到方言重音预测结果;在所述普通话重音预测模型后添加所述方言重音转化模型得到所述方言重音预测模型;
将所述方言节奏预测结果和所述方言重音预测结果输入所述方言语音合成系统的方言语音参数生成模型,得到所述方言语音合成结果;在所述普通话声调预测模型后添加所述方言声调转化模型得到所述方言语音参数生成模型。
3.根据权利要求1所述的方言语音合成方法,其特征在于,所述将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型,包括:
利用差异学习算法对所述方言语料库与所述普通话节奏预测结果、所述普通话重音预测结果进行差异学习,生成所述方言节奏转化模型、所述方言重音转化模型;
对所述方言语料库的方言声调信息和所述普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将所述基频差值回归树模型作为所述方言声调转化模型。
4.根据权利要求3所述的方言语音合成方法,其特征在于,所述对所述方言语料库的方言声调信息和所述普通话声调预测结果对应的基频差值进行回归树建模,得到基频差值回归树模型,将所述基频差值回归树模型作为所述方言声调转化模型,包括:
确定所述方言语料库的声调类型,并获取普通话语料库;
利用分类树算法,对所述普通话语料库的声调类型和所述方言语料库的声调类型的声调类型转化进行建模,得到调型变化分类树;
分别提取所述方言语料库和所述普通话语料库的基频曲线,利用回归树算法对所述调型变化分类树下属于同一声调类型转化的所述方言语料库和所述普通话语料库对应基频曲线的基频差值进行回归树建模,得到基频差值回归树模型;
将所述基频差值回归树模型作为所述方言声调转化模型。
5.根据权利要求3所述的方言语音合成方法,其特征在于,所述利用差异学习算法对所述方言语料库与所述普通话节奏预测结果、所述普通话重音预测结果进行差异学习,生成所述方言节奏转化模型、所述方言重音转化模型,包括:
利用所述差异学习算法对所述方言语料库的韵律词、韵律短语和语调词语与所述普通话节奏预测结果中的韵律词、韵律短语和语调词语进行差异学习,生成所述方言节奏转化模型;
利用所述差异学习算法对所述方言语料库的韵律词重音、韵律短语重音和语调词语重音与所述普通话节奏预测结果中的韵律词重音、韵律短语重音和语调词语重音进行差异学习,生成所述方言重音转化模型。
6.根据权利要求4所述的方言语音合成方法,其特征在于,所述确定所述方言语料库的声调类型,包括:
提取所述方言语料库的基频曲线,对所述基频曲线进行聚类,生成所述方言语料库的声调类型。
7.一种方言语音合成装置,其特征在于,包括:
获取模块,用于获取训练文本,将所述训练文本输入普通话语音合成系统,得到普通话节奏预测结果、普通话重音预测结果和普通话声调预测结果;
生成模块,用于将预先建立的方言语料库分别与所述普通话节奏预测结果、所述普通话重音预测结果和所述普通话声调预测结果进行差异学习,依次生成方言节奏转化模型、方言重音转化模型和方言声调转化模型;其中,所述方言语料库包含方言节奏、方言重音和方言声调的方言语料信息;
添加模块,用于在所述普通话语音合成系统中的所述普通话节奏预测模型、所述普通话重音预测模型以及所述普通话声调预测模型后,对应添加所述方言节奏转化模型、方言重音转化模型和方言声调转化模型,生成方言语音合成系统;
输入模块,用于获取目标文本,将所述目标文本输入所述方言语音合成系统,得到方言语音合成结果。
8.根据权利要7所述的方言语音合成装置,其特征在于,所述输入模块,包括:
第一输入单元,用于获取所述目标文本,将所述目标文本输入所述方言语音合成系统的方言节奏预测模型,得到方言节奏预测结果;在所述普通话节奏预测模型后添加所述方言节奏转化模型得到所述方言节奏预测模型;
第二输入单元,用于将所述方言节奏预测结果输入所述方言语音合成系统的方言重音预测模型,得到方言重音预测结果;在所述普通话重音预测模型后添加所述方言重音转化模型得到所述方言重音预测模型;
第三输入单元,用于将所述方言节奏预测结果和所述方言重音预测结果输入所述方言语音合成系统的方言语音参数生成模型,得到所述方言语音合成结果;在所述普通话声调预测模型后添加所述方言声调转化模型得到所述方言语音参数生成模型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述方言语音合成方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方言语音合成方法的步骤。
CN202110460970.XA 2021-04-27 2021-04-27 一种方言语音合成方法、装置、电子设备和存储介质 Active CN113178186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110460970.XA CN113178186B (zh) 2021-04-27 2021-04-27 一种方言语音合成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460970.XA CN113178186B (zh) 2021-04-27 2021-04-27 一种方言语音合成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113178186A true CN113178186A (zh) 2021-07-27
CN113178186B CN113178186B (zh) 2022-10-18

Family

ID=76927013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460970.XA Active CN113178186B (zh) 2021-04-27 2021-04-27 一种方言语音合成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113178186B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304186A (ja) * 2001-04-05 2002-10-18 Sharp Corp 音声合成装置、音声合成方法および音声合成プログラム
CN103035251A (zh) * 2011-09-30 2013-04-10 西门子公司 一种建立语音转换模型的方法、语音转换的方法及系统
CN106128450A (zh) * 2016-08-31 2016-11-16 西北师范大学 一种汉藏双语跨语言语音转换的方法及其系统
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
CN110197655A (zh) * 2019-06-28 2019-09-03 百度在线网络技术(北京)有限公司 用于合成语音的方法和装置
CN111986646A (zh) * 2020-08-17 2020-11-24 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112599113A (zh) * 2020-12-30 2021-04-02 北京大米科技有限公司 方言语音合成方法、装置、电子设备和可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304186A (ja) * 2001-04-05 2002-10-18 Sharp Corp 音声合成装置、音声合成方法および音声合成プログラム
CN103035251A (zh) * 2011-09-30 2013-04-10 西门子公司 一种建立语音转换模型的方法、语音转换的方法及系统
CN106128450A (zh) * 2016-08-31 2016-11-16 西北师范大学 一种汉藏双语跨语言语音转换的方法及其系统
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
CN110197655A (zh) * 2019-06-28 2019-09-03 百度在线网络技术(北京)有限公司 用于合成语音的方法和装置
CN111986646A (zh) * 2020-08-17 2020-11-24 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112599113A (zh) * 2020-12-30 2021-04-02 北京大米科技有限公司 方言语音合成方法、装置、电子设备和可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARORA, SHIPRA J等: "Database Creation and Dialect-Wise Comparative Analysis of Prosodic Features for Punjabi Language", 《JOURNAL OF INTELLIGENT SYSTEMS》 *
杨鸿武等: "一个面向言语工程的兰州方言语料库", 《西北师范大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN113178186B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN112863483A (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN101777347B (zh) 一种模型互补的汉语重音识别方法及系统
CN101156196A (zh) 混合语音合成器、方法和使用
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
CN103035241A (zh) 模型互补的汉语韵律间断识别系统及方法
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
Liu et al. Mongolian text-to-speech system based on deep neural network
US20140012584A1 (en) Prosody generator, speech synthesizer, prosody generating method and prosody generating program
Chen et al. The ustc system for blizzard challenge 2011
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
Phan et al. A study in vietnamese statistical parametric speech synthesis based on HMM
CN113178186B (zh) 一种方言语音合成方法、装置、电子设备和存储介质
CN116798403A (zh) 一种可合成多情感音频的语音合成模型方法
Wang et al. Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis
Savargiv et al. Study on unit-selection and statistical parametric speech synthesis techniques
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
Sun et al. A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model
CN114708848A (zh) 音视频文件大小的获取方法和装置
Ronanki Prosody generation for text-to-speech synthesis
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统
Lazaridis et al. Segmental duration modeling for Greek speech synthesis
Bruce et al. On the analysis of prosody in interaction
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
Langarani et al. Speaker intonation adaptation for transforming text-to-speech synthesis speaker identity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant