CN116580695A - 语音合成装置、方法、移动终端及存储介质 - Google Patents
语音合成装置、方法、移动终端及存储介质 Download PDFInfo
- Publication number
- CN116580695A CN116580695A CN202310483754.6A CN202310483754A CN116580695A CN 116580695 A CN116580695 A CN 116580695A CN 202310483754 A CN202310483754 A CN 202310483754A CN 116580695 A CN116580695 A CN 116580695A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- feature extraction
- module
- user
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 72
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims description 15
- 238000000605 extraction Methods 0.000 claims abstract description 120
- 238000012545 processing Methods 0.000 claims abstract description 99
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000001308 synthesis method Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 19
- 230000000873 masking effect Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 210000005036 nerve Anatomy 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000010276 construction Methods 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000005530 etching Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010367 cloning Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供语音合成装置、方法、移动终端及存储介质。装置中预训练模块获取通用样本信息,根据预设的特征提取模型进行特征提取预训练,其中特征提取模型基于注意力机制构建;第一特征提取模块用于获取录入样本信息并根据特征提取模型对录入样本信息特征提取获取用户特征;音素处理模块用于获取音素特征并根据音素特征和用户特征获取第一音素处理结果;时长预测模块用于预测第一音素处理结果的帧长;声学解码模块用于根据时长预测结果和第一音素处理结果生成第一声学特征;第一声码模块用于根据第一声学特征语音合成获取第一音频数据。由于语音合成装置从少量录入样本信息中提取到用户特征,解决了现有技术需要大量录入样本的问题。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音合成装置、方法、移动终端及存储介质。
背景技术
语音合成指将文本信息转化为目标说话人语音信息的方法。现有语音合成装置分为三个模块:前端、声学模型和声码器。前端将用户输入的文本信息转化为对应的音素特征,声学模型通过用户存储的录入样本信息训练得到,并根据音素特征生成对应的声学特征,并发送给声码器,声码器根据声学特征进行语音合成,得到与文本信息对应的合成语音。
但是,现有的语音合成装置需要大量的录入样本信息才能实现语音流畅,当用户无法提供足够多的语音样本时,往往会出现语音沙哑,声音与本人区别大的问题。
发明内容
本申请实施例提供了一种语音合成装置、方法、移动终端及存储介质。本申请实施例提供的语音合成装置在现有的语音合成装置的基础上,增设了第一特征提取模块,用于提取录入样本信息中的发音特征。本申请提供的预训练模块根据大量的通用样本信息对特征提取模型进行预训练,而特征提取模型本身就是基于注意力机制构建的,能够在大量录入样本信息中有选择地筛选出通用的口音、韵律相关的发音特征,并聚焦在这些发音特征上得到用户特征。预训练后的特征提取模型中权重等参数设置合理,能够从少量录入样本信息中准确提取出与用户相关的口音、韵律等发音特征,避免了现有语音合成装置需要大量用户录入的语音信息,样本较少时声音与本人差别过大的问题。
为了解决上述技术问题,本申请提供了一种语音合成装置,包括:
预训练模块,用于获取通用样本信息,根据预先设置的特征提取模型进行特征提取预训练,其中所述特征提取模型基于注意力机制构建;
第一特征提取模块,用于获取录入样本信息并根据预训练后的所述特征提取模型对所述录入样本信息进行特征提取,获取用户特征;
音素处理模块,用于获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果;
时长预测模块,用于预测所述第一音素处理结果的帧长,得到第一时长预测结果;
声学解码模块,用于根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征;
第一声码模块,用于通过声码器对所述第一声学特征进行语音合成,获取第一音频数据。
可选的,本申请提供的第一特征提取模块包括:
预处理子模块,用于获取所述录入样本信息并对所述录入样本信息进行预编码获取第一预编码结果;
第二特征提取子模块,用于根据所述注意力机制对所述第一预编码结果进行特征提取获取所述第一用户特征。
可选的,本申请提供的第二特征提取子模块包括包括:
第三特征提取单元,用于根据所述注意力机制对所述第一预编码结果进行特征提取,获取特征提取结果;
编码单元,用于根据所述特征提取结果进行编码处理获取所述第一用户特征。
可选的,本申请提供的第一特征提取模块还包括:
所述预处理子模块还用于对所述录入样本信息进行随机掩码获取随机掩码结果,并对所述随机掩码结果预编码获取第二预编码结果;
编码子模块,用于根据所述注意力机制对所述第二预编码结果进行特征提取获取所述第二用户特征;
预测子模块,用于根据所述第二用户特征进行掩码还原获取掩码还原信息,还用于根据所述掩码还原信息和所述录入样本信息进行损失函数计算,获取损失函数计算结果。
可选的,本申请提供的音素处理模块包括:
音素特征获取单元,用于获取所述音素特征对应的用户文本信息,并根据所述用户文本信息和预先设置的参考音素获取所述音素特征;
音素特征处理单元,用于根据所述音素特征和所述用户特征拼接处理获取所述第一音素处理结果。
可选的,本申请提供的语音合成装置还包括:
第四特征提取模块,用于获取所述第一音素处理结果并根据所述注意力机制所述第一音素处理结果进行特征提取,获取第二音素处理结果;
时长预测模块,还用于预测所述第二音素处理结果的帧长,得到第二时长预测结果;
声学解码模块,用于根据所述第二时长预测结果和所述第二音素处理结果生成第二声学特征;
第一声码模块,用于通过声码器对所述第二声学特征进行语音合成,获取第一音频数据得到第二音频数据。
可选的,本申请提供的语音合成装置还包括:
第二声码模块,用于通过神经声码器对所述第一时长预测结果和所述第一音素处理结果升采样,语音合成获取第三音频数据。
本申请还提供一种语音合成方法,包括:
获取通用样本信息,根据预先设置的特征提取模型进行特征提取预训练,其中所述特征提取模型基于注意力机制构建;
获取录入样本信息并根据预训练后的所述特征提取模型对所述录入样本信息进行特征提取,获取用户特征;
获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果;
预测所述第一音素处理结果的帧长,得到第一时长预测结果;
根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征;
通过声码器对所述第一声学特征进行语音合成,获取第一音频数据。
本申请还提供了一种移动终端,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够实现以上所述的语音合成方法。
本申请还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时能够实现以上所述的语音合成方法。
本申请提供的预训练模块根据大量的通用样本信息对特征提取模型进行预训练,而特征提取模型本身就是基于注意力机制构建的,能够在大量录入样本信息中有选择地筛选出通用的口音、韵律相关的发音特征,并聚焦在这些发音特征上得到用户特征。预训练后的特征提取模型中权重等参数设置合理,能够从少量录入样本信息中准确提取出与用户相关的口音、韵律等发音特征,避免了现有语音合成装置需要大量用户录入的语音信息,样本较少时声音与本人差别过大的问题。
上述说明仅是本申请提供的技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请提供的一种声音复刻模型示例;
图2是本申请实施例提供的语音合成装置示意图之一;
图3是本申请实施例提供的语音合成装置示意图之二;
图4是本申请提供的一种预编码处理流程示意;
图5是本申请提供的一种基于注意力机制的特征提取流程示意;
图6是本申请实施例提供的语音合成装置示意图之三;
图7是本申请实施例提供的语音合成装置示意图之四;
图8是本申请提供的一种掩码还原流程示意;
图9是本申请实施例提供的语音合成装置示意图之五;
图10是本申请实施例提供的语音合成装置示意图之六;
图11是本申请实施例提供的语音合成装置示意图之七;
图12是本申请提供的一种端到端声音克隆模组示意;
图13是本申请实施例提供的语音合成方法示意图之一;
图14是本申请实施例提供的语音合成方法示意图之二;
图15是本申请实施例提供的语音合成方法示意图之三;
图16是本申请实施例提供的语音合成方法示意图之四;
图17是本申请实施例提供的语音合成方法示意图之五;
图18是本申请实施例提供的语音合成方法示意图之六;
图19是本申请实施例提供的语音合成方法示意图之七;
图20是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请提供的语音合成装置应用于语音合成技术领域,具体可用于声音复刻这一语音合成的个性化应用中,下面对本申请涉及的一些名词进行解释说明:
语音合成将输入的文本信息转化为用户的语音信息并进行输出。现有语音合成装置或系统往往由前端、声学模型和声码器三个模块组成。前端将输入的文本信息转化为音素特征或音素序列,声学模型根据用户预先录制的语音信息进行模型训练得到,用于根据音素特征或音素序列生成声学特征,声学特征再通过声码器,得到满足用户需求的合成语音。
声音复刻或声音克隆是语音合成的一种个性化应用,相比传统的语音合成,根据用户录入的少量录音内容得到与用户在音色、发音风格等发音特征上相近的合成模型。随后再根据这种合成模型对前端传递的音素特征或音素序列进行声音复刻处理得到与用户相近的声音复刻结果。具体的,声音复刻模型将声学模型和声码器解耦的形式,其中声学模型如图1所示。两个预处理模块分别对音素特征和说话人信息进行预处理得到音素特征和用户特征,在音素特征的基础上通过拼接的方式添加用户特征得到携带用户特征的音素处理结果。相比传统的语音合成装置,需要少量的说话人信息即可合成接近用户发音习惯和发音特征的合成语音,降低了说话人信息的样本数量。然而,现有的声音复刻方法用户特征提取效率低下,而且声学特征需要梅尔谱或倒谱作为中间结果,造成部分信息损失,因而需要不少,例如100句以上的用户语音作为样本,适用程度较低。
本申请提供的语音合成装置中第一特征提取模块根据注意力机制对用户输入的录入样本信息进行特征提取。注意力机制这种模型结构参考人类的选择性视觉注意力机制,从大量的信息中按照训练得到权重,有条件地选择出少量信息,并聚焦在这些信息上,对其余信息忽略。而对少量信息聚焦的过程往往体现在权重系数的计算上,信息越重要,价值越高,其权重越大。
本申请提供的语音合成装置的输入信息包括音素特征或音素序列,而音素指输入声学模型的最小发音单位。音素特征或音素序列指多个音素按顺序排列后得到的序列或集合。
本申请提供的语音合成装置中通过声码器对第一声学特征进行语音合成得到第一音频数据。其中声学特征指声音中多个要素在声学上表现的统称,例如共振峰频率、共振峰强度、带宽、表示语音韵律特性的基频、平均语声功率等信息。
本申请提供的语音合成装置在现有的语音合成装置的基础上,增设了第一特征提取模块,用于提取录入样本信息中的发音特征。本申请提供的第一特征提取模块基于注意力机制,能够在大量录入样本信息中有选择地筛选出少量跟用户口音、韵律相关的发音特征,并聚焦在这些发音特征上得到用户特征。由于第一特征提取模块能够快速选出发音特征,不需要大量的录入样本信息作为训练数据就能得到与用户实际语音接近的用户特征,避免了现有语音合成装置当语音数据较少时复刻结果不准确的问题。
本申请的第一实施方式提供一种语音合成装置,如图2所示,包括:
预训练模块108,用于获取通用样本信息,根据预先设置的特征提取模型进行特征提取预训练,其中所述特征提取模型基于注意力机制构建;
第一特征提取模块101,用于获取录入样本信息并根据预先设置的注意力机制对所述录入样本信息进行特征提取,获取用户特征;
音素处理模块102,用于获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果;
时长预测模块103,用于预测所述第一音素处理结果的帧长,得到第一时长预测结果;
声学解码模块104,用于根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征;
第一声码模块105,用于通过声码器对所述第一声学特征进行语音合成,获取第一音频数据。
具体的,本申请提供的语音合成装置中预训练模块108将大量的通用用户特征输入用户特征提取模型进行特征提取训练,训练后的用户特征提取模型掌握大量不同人的发音特征,而基于注意力机制的权重参数经过充分训练后也能够更精确地从样本信息中筛选出与发音特征相关的少量信息。第一特征提取模块101将用户输入的录入样本信息输入预训练后的用户特征提取模型中获取用户特征。其中,录入样本信息可以为用户预先录入的语音信息中的随机一条,而注意力机制通过权重设置,在这条语音信息中侧重用户口音、韵律等发音特征进行筛选,从而得到贴近用户语音的用户特征。
随后,与本申请提供的语音合成装置相连的前端对用户输入的文本信息根据通用音素转化为相应的音素特征或音素序列,由于本申请提供的语音合成装置前端为现有技术,此处不做赘述。音素处理模块102将音素特征和第一特征提取模块得到的用户特征通过拼接或相加的方式结合,并对结合后的音素特征进行编码处理,得到第一音素处理结果。时长预测模块103预测结合后的音素特征中每一个音素的帧长,声学解码模块104将编码处理后的第一音素处理结果和时长预测模块103得到的第一时长预测结果解码得到第一声学特征。由于解码模块往往通过梅尔解码器等解码器处理,得到的第一声学特征往往是梅尔谱或倒谱的形式。最后,第一声码模块105通过独立逻辑或多种声码器对第一声学特征进行语音合成,得到最终的第一音频数据。
在上述实施方式的基础上,如图3所示,用户特征包括第一用户特征,本申请提供的第一特征提取模块101包括:
预处理子模块111,用于获取所述录入样本信息并对所述录入样本信息进行预编码获取第一预编码结果;
第二特征提取子模块112,用于根据所述注意力机制对所述第一预编码结果进行特征提取获取所述第一用户特征。
具体的,第一特征提取模块包括预处理子模块111和第二特征提取子模块112。预处理子模块111用于对录入样本信息进行预编码处理得到第一预编码结果。需要强调的是,预处理子模块111中的预编码处理方式本申请不作限定,例如图4的方式进行。对录入样本信息进行随机掩码(RandomMask)、全连接层处理(Linear)、位置编码(PositionEmbedding)、层归一化(LayerNorm)、和选择性弃置(Dropout)等动作,得到初步编码处理过的第一预编码结果。
第二特征提取子模块112用于对第一预编码结果基于注意力机制进行进一步的编码和用户特征提取,得到第一用户特征。第二特征提取子模块112可以采用如图5所示的方式进行处理。具体的,第一预编码结果作为一种声学特征,先输入注意力模块中,根据注意力机制设置的权重进行筛选,对其中携带用户发音特征是信息进行聚焦,随后进行点层级前馈处理(Pointwise FeedForword)和条件性层归一化处理(Conditional LayerNorm),得到第一用户特征。其中,第二特征提取子模块的动作可以重复多次进行,从而进一步避免第一用户特征中跟用户发音特征无关的数据对声学模型构建的影响。
在上述实施方式的基础上,通过对用户特征进行编码,保证了输出的用户特征再数量级和特征分布上的稳定性,从而确保了对应声学模型构建的收敛程度。
在上述实施方式的基础上,如图6所示,本申请提供的第二特征提取子模块112包括:
第三特征提取单元121,用于根据所述注意力机制对所述第一预编码结果进行特征提取,获取特征提取结果;
编码单元122,用于根据所述特征提取结果进行编码处理获取所述第一用户特征。
具体的,第二特征提取子模块112包括第三特征提取单元121和编码单元122,其中第三特征提取单元121用于根据注意力机制获取特征提取结果,而编码单元对特征提取进行编码处理,得到第一用户特征。
在上述实施方式的基础上,通过对用户特征进行编码,保证了输出的用户特征再数量级和特征分布上的稳定性,从而确保了对应声学模型构建的收敛程度。
在上述实施方式的基础上,如图7所示,用户特征还包括第二用户特征,本申请提供的第一特征提取模块101还包括:
所述预处理子模块111还用于对所述录入样本信息进行随机掩码获取随机掩码结果,并对所述随机掩码结果预编码获取第二预编码结果;
编码子模块113,用于根据所述注意力机制对所述第二预编码结果进行特征提取获取所述第二用户特征;
预测子模块114,用于根据所述第二用户特征进行掩码还原获取掩码还原信息,还用于根据所述掩码还原信息和所述录入样本信息进行损失函数计算,获取损失函数计算结果。
具体的,预处理子模块111还具有随机掩码的功能,如图4所示,在预编码前先进行随机掩码,例如对录入样本信息中15%的内容进行随机掩码,随后再进行全连接层处理、位置编码、层归一化、和选择性弃置等动作,本申请提供的预处理子模块随机掩码方式不作限制,与其他模型的随机掩码方式类似,例如BERT的自然语言处理框架。
编码子模块113对第二预编码结果和第一预编码结果的处理相同,如图5所示,得到第二用户特征。第二用户特征与音素特征结合并通过本申请提供的语音合成装置合成得到第一音频数据。
而第二用户特征还进入预测子模块114并进行随机掩码的还原。本申请的随机掩码还原不作限制,可以采用但不限于图8提供的步骤进行掩码还原:将用户特征或说话人特征分别进行全连接层处理,激活函数处理,层归一化处理和再进行一次全连接层处理得到掩码还原结果,其中激活函数处理可以采用但不限于高斯误差线性单元激活函数GELU。随后将被随机掩码遮盖的信息还原后与对应的真实数据通过回归损失函数,例如L1loss函数计算两者间的差值,判断随机掩码和还原的效果,进一步提高了声学模型对随机掩码结果中上下文信息的捕捉能力。
在上述实施方式的基础上,通过对录入样本信息进行随机掩码,提高了声学模型对随机掩码结果中上下文信息的捕捉能力,并增强了模型的鲁棒性或对于参数波动的不敏感性。
在上述实施方式的基础上,如图9所示,本申请提供的音素处理模块102包括:
音素特征获取单元123,用于获取所述音素特征对应的用户文本信息,并根据所述用户文本信息和预先设置的参考音素获取所述音素特征;
音素特征处理单元124,用于根据所述音素特征和所述用户特征拼接处理获取所述第一音素处理结果。
具体的,本申请提供的音素处理模块根据用户文本信息和参考音素获取用户文本信息对应的音素特征,随后将音素特征和用户特征通过拼接等方式组合得到第一音素处理结果。
在上述实施方式的基础上,通过将用户特征与音素特征拼接得到第一音素处理结果,不需要大量同一用户的语音样本,只需要通用的公开样本根据文本信息生成对应音素后,结合用户发音特征对音素特征进行调整,使得第一音素处理结果贴近用户声音,满足了用户的声音复刻需求。
在上述实施方式的基础上,如图10所示,本申请提供的语音合成装置还包括:
第四特征提取模块106,用于获取所述第一音素处理结果并根据所述注意力机制所述第一音素处理结果进行特征提取,获取第二音素处理结果;
时长预测模块103,还用于预测所述第二音素处理结果的帧长,得到第二时长预测结果;
声学解码模块104,用于根据所述第二时长预测结果和所述第二音素处理结果生成第二声学特征;
第一声码模块105,用于通过声码器对所述第二声学特征进行语音合成,获取第一音频数据得到第二音频数据。
具体的,本申请在上述语音合成装置的基础上,增设了第四特征提取模块106,其结构功能与第一特征提取模块101中编码子模块113的结构功能类似,用于对第一音素处理结果再进行特征提取,提取出其中与用户实际语音更贴近的发音特征,减少本申请语音合成装置中时长预测模块103和声学解码模块104的数据处理量,提高本申请的语音合成效率。此外,增设的第四特征提取模块106可以确保输出结果再数量级和分布上稳定分布,避免对模型构建造成过大干扰,确保模型的收敛程度。
在上述实施方式的基础上,如图11所示,本申请提供的语音合成装置还包括:
第二声码模块107,用于通过神经声码器对所述第一时长预测结果和所述第一音素处理结果升采样,语音合成获取第三音频数据。
具体的,在上述实施方式的基础上,本申请对语音合成装置进行了改进,将声学解码模块104的梅尔解码器和第一声码模块105的声码器替换为第二声码模块107的神经声码器,通过神经声码器单一模块进行升采样的动作。一种端到端的结构,具体的,本申请提供的语音合成装置中将声学模型与声码器结合通过神经声码器进行解码和升采样的动作,避免了声学特征传递过程中的信息损失问题。
本申请提供的语音合成装置中神经声码器可以采用但不限于HiFiGAN模型。HiFiGAN采用生成对抗网络作为基础并生成模型。由于引入了多周期判别器,结合多尺度判别器,增强了HiFiGAN甄别合成或真实音频的能力。此外,HiFiGAN中的生成器中设置残差结构,交替使用带洞卷积和普通卷积增大感受野,保证合成音质的同时,提高处理速度。HiFiGAN中生成器、多尺度判别器、多周期判别器等结构和HiFiGAN的工作原理为已经公开的现有技术,本申请不再赘述。本申请利用HiFiGAN等神经声码器,替代梅尔解码器和声码器对第一时长预测结果和第一音素处理结果直接升采样,避免了声学特征的信息损失。
在上述实施方式的基础上,通过将梅尔解码器和声码器替换为神经声码器,提供了一种端到端的结构。由于不需要将第一时长预测结果和第一音素处理结果处理得到梅尔谱这种中间结果,降低了提取梅尔谱这种中间变量对声学特征带来的信息损失,减少了声学模型参数量,降低了声学模型计算成本,提高了声学模型语音合成的工作效率。
本申请提供的预训练模块根据大量的通用样本信息对特征提取模型进行预训练,而特征提取模型本身就是基于注意力机制构建的,能够在大量录入样本信息中有选择地筛选出通用的口音、韵律相关的发音特征,并聚焦在这些发音特征上得到用户特征。预训练后的特征提取模型中权重等参数设置合理,能够从少量录入样本信息中准确提取出与用户相关的口音、韵律等发音特征,避免了现有语音合成装置需要大量用户录入的语音信息,样本较少时声音与本人差别过大的问题。
在上述实施方式的基础上,如图12本申请还提供一种端到端声音克隆模组示例:
用户将多条携带自身声学特征的语音信息录入说话人特征提取模块中,这些声学特征经过声学预处理单元进行随机掩码处理和预编码处理,随后传递到注意力单元中进行说话人特征提取。其中,特征提取基于注意力机制,聚焦特征提取对象中跟用户发音特征相关的数据,对提取对象中跟发音特征关联不大的数据降低说话人特征中的权重甚至忽略。随后说话人特征存储处理。一方面,说话人特征传递到预测单元中进行掩码还原,并与掩码前的真实数据通过诸如L1loss等损失函数处理,用于增强模型的鲁棒性,训练模型的上下文关联能力。另一方面,端到端声音克隆模组接收前端根据用户输入的文本信息生成的音素特征或音素序列,并与说话人特征拼接,得到携带说话人特征的音素特征。随后再进入注意力模块中进行聚焦,进一步排除无关数据对整体模型收敛性的干扰。处理后的结果再通过时长预测模块预测其中每一个音素的帧长,声学解码器,例如神经元解码器等装置直接根据处理后的第一声学特征进行升采样,合成携带用户发音特征的音频数据。
在上述实施方式的基础上,本申请还提供一种声音复刻模型构建示例:首选通过30个小时以上的开源多人语音合成数据对模型进行预训练;随后选取少量的用户语音数据,例如1分钟左右的五句话对模型进行微调。在用户语音数据中选取一条作为录入样本信息,根据注意力机制进行特征提取并保存为资源文件。当用户需要将文本转换为语音时,根据文本获取对应的音素串,与录入样本信息结合并通过本申请提供的声学模型合成用户语音。
在上述实施方式的基础上,本申请还提供一种语音合成装置应用场景示例:在手机地图导航场景或有声读物场景下,用户通过手机录制5句及以上的语音上传到训练服务器,训练服务器根据少量的用户数据进行自适应训练。训练完成后,随机挑选挑选一条用户语音作为录入样本信息,用于用户特征提取,将得到新的用户特征作为主模型输入,保存为单独的资源文件。用户需要收听时,通过相应设置根据资源文件处理并播放用户声音的导航或有声书,实现声音复刻功能。
本申请的第二实施方式还提供一种语音合成方法,如图13所示,包括:
步骤149、获取通用样本信息,根据预先设置的特征提取模型进行特征提取预训练,其中所述特征提取模型基于注意力机制构建;
步骤131、获取录入样本信息并根据预训练后的所述特征提取模型对所述录入样本信息进行特征提取,获取用户特征;
步骤132、获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果;
步骤133、预测所述第一音素处理结果的帧长,得到第一时长预测结果;
步骤134、根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征;
步骤135、通过声码器对所述第一声学特征进行语音合成,获取第一音频数据。
在上述实施方式的基础上,如图14所示,用户特征包括第一用户特征,语音合成方法中步骤131包括:
步骤136、获取所述录入样本信息并对所述录入样本信息进行预编码获取第一预编码结果;
步骤137、根据所述注意力机制对所述第一预编码结果进行特征提取获取所述第一用户特征。
在上述实施方式的基础上,如图15所示,语音合成方法中步骤137包括:
步骤138、根据所述注意力机制对所述第一预编码结果进行特征提取,获取特征提取结果;
步骤139、根据所述特征提取结果进行编码处理获取所述第一用户特征。
在上述实施方式的基础上,如图16所示,用户特征还包括第二用户特征,语音合成方法中步骤131还包括:
步骤140、对所述录入样本信息进行随机掩码获取随机掩码结果,并对所述随机掩码结果预编码获取第二预编码结果;
步骤141、根据所述注意力机制对所述第二预编码结果进行特征提取获取所述第二用户特征;
步骤142、根据所述第二用户特征进行掩码还原获取掩码还原信息,还用于根据所述掩码还原信息和所述录入样本信息进行损失函数计算,获取损失函数计算结果。
在上述实施方式的基础上,如图17所示,语音合成方法中步骤132包括:
步骤143、获取所述音素特征对应的用户文本信息,并根据所述用户文本信息和预先设置的参考音素获取所述音素特征;
步骤144、根据所述音素特征和所述用户特征拼接处理获取所述第一音素处理结果。
在上述实施方式的基础上,如图18所示,语音合成方法中,在步骤132之后,还包括:
步骤145、获取所述第一音素处理结果并根据所述注意力机制所述第一音素处理结果进行特征提取,获取第二音素处理结果;
步骤146、预测所述第二音素处理结果的帧长,得到第二时长预测结果;
步骤147、根据所述第二时长预测结果和所述第二音素处理结果生成第二声学特征;
步骤148、通过声码器对所述第二声学特征进行语音合成,获取第一音频数据得到第二音频数据。
在上述实施方式的基础上,如图19所示,语音合成方法中,在步骤146之后,还包括:
步骤150、通过神经声码器对所述第一时长预测结果和所述第一音素处理结果升采样,语音合成获取第三音频数据。
本申请的第三实施方式涉及一种移动终端,如图20所示,包括:
至少一个处理器161;以及,
与所述至少一个处理器161通信连接的存储器162;其中,
所述存储器162存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器161执行,以使所述至少一个处理器161能够实现本申请所述的语音合成方法方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现本申请所述的语音合成方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种语音合成装置,其特征在于,包括:
预训练模块,用于获取通用样本信息,根据预先设置的特征提取模型进行特征提取预训练,其中所述特征提取模型基于注意力机制构建;
第一特征提取模块,用于获取录入样本信息并根据预训练后的所述特征提取模型对所述录入样本信息进行特征提取,获取用户特征;
音素处理模块,用于获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果;
时长预测模块,用于预测所述第一音素处理结果的帧长,得到第一时长预测结果;
声学解码模块,用于根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征;
第一声码模块,用于通过声码器对所述第一声学特征进行语音合成,获取第一音频数据。
2.根据权利要求1所述的装置,其特征在于,所述用户特征包括第一用户特征,第一特征提取模块包括:
预处理子模块,用于获取所述录入样本信息并对所述录入样本信息进行预编码获取第一预编码结果;
第二特征提取子模块,用于根据所述注意力机制对所述第一预编码结果进行特征提取获取所述第一用户特征。
3.根据权利要求2所述的方法,其特征在于,所述第二特征提取子模块包括:
第三特征提取单元,用于根据所述注意力机制对所述第一预编码结果进行特征提取,获取特征提取结果;
编码单元,用于根据所述特征提取结果进行编码处理获取所述第一用户特征。
4.根据权利要求2所述的装置,其特征在于,所述用户特征还包括第二用户特征,所述第一特征提取模块还包括:
所述预处理子模块还用于对所述录入样本信息进行随机掩码获取随机掩码结果,并对所述随机掩码结果预编码获取第二预编码结果;
编码子模块,用于根据所述注意力机制对所述第二预编码结果进行特征提取获取所述第二用户特征;
预测子模块,用于根据所述第二用户特征进行掩码还原获取掩码还原信息,还用于根据所述掩码还原信息和所述录入样本信息进行损失函数计算,获取损失函数计算结果。
5.根据权利要求1所述的装置,其特征在于,所述音素处理模块包括:
音素特征获取单元,用于获取所述音素特征对应的用户文本信息,并根据所述用户文本信息和预先设置的参考音素获取所述音素特征;
音素特征处理单元,用于根据所述音素特征和所述用户特征拼接处理获取所述第一音素处理结果。
6.根据权利要求1所述的装置,其特征在于,还包括:
第四特征提取模块,用于获取所述第一音素处理结果并根据所述注意力机制所述第一音素处理结果进行特征提取,获取第二音素处理结果;
时长预测模块,还用于预测所述第二音素处理结果的帧长,得到第二时长预测结果;
声学解码模块,用于根据所述第二时长预测结果和所述第二音素处理结果生成第二声学特征;
第一声码模块,用于通过声码器对所述第二声学特征进行语音合成,获取第一音频数据得到第二音频数据。
7.根据权利要求1所述的装置,其特征在于,还包括:
第二声码模块,用于通过神经声码器对所述第一时长预测结果和所述第一音素处理结果升采样,语音合成获取第三音频数据。
8.一种语音合成方法,其特征在于,包括:
获取通用样本信息,根据预先设置的特征提取模型进行特征提取预训练,其中所述特征提取模型基于注意力机制构建;
获取录入样本信息并根据预训练后的所述特征提取模型对所述录入样本信息进行特征提取,获取用户特征;
获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果;
预测所述第一音素处理结果的帧长,得到第一时长预测结果;
根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征;
通过声码器对所述第一声学特征进行语音合成,获取第一音频数据。
9.一种移动终端,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够实现权利要求8中所述的语音合成方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8中所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483754.6A CN116580695A (zh) | 2023-04-28 | 2023-04-28 | 语音合成装置、方法、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483754.6A CN116580695A (zh) | 2023-04-28 | 2023-04-28 | 语音合成装置、方法、移动终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580695A true CN116580695A (zh) | 2023-08-11 |
Family
ID=87535147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310483754.6A Pending CN116580695A (zh) | 2023-04-28 | 2023-04-28 | 语音合成装置、方法、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580695A (zh) |
-
2023
- 2023-04-28 CN CN202310483754.6A patent/CN116580695A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
US8140326B2 (en) | Systems and methods for reducing speech intelligibility while preserving environmental sounds | |
CN111667812A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
JPH10260692A (ja) | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム | |
Song et al. | ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems | |
JP7238204B2 (ja) | 音声合成方法及び装置、記憶媒体 | |
JPH0668680B2 (ja) | 改善された多パルス線形予測符号化音声処理装置 | |
CN112687259A (zh) | 一种语音合成方法、装置以及可读存储介质 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN112908294B (zh) | 一种语音合成方法以及语音合成系统 | |
Hu et al. | Whispered and Lombard neural speech synthesis | |
CN114360493A (zh) | 语音合成方法、装置、介质、计算机设备和程序产品 | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
CN113838448A (zh) | 一种语音合成方法、装置、设备及计算机可读存储介质 | |
Kons et al. | Neural TTS voice conversion | |
Shechtman et al. | Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture. | |
Rao et al. | SFNet: A computationally efficient source filter model based neural speech synthesis | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN116580695A (zh) | 语音合成装置、方法、移动终端及存储介质 | |
CN111383627A (zh) | 一种语音数据处理方法、装置、设备及介质 | |
JP5376643B2 (ja) | 音声合成装置、方法およびプログラム | |
CN117636842B (zh) | 基于韵律情感迁移的语音合成系统及方法 | |
JP2853170B2 (ja) | 音声符号化復号化方式 | |
CN117672254A (zh) | 语音转换方法、装置、计算机设备及存储介质 | |
JP2615862B2 (ja) | 音声符号化復号化方法とその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |