CN116092475A - 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 - Google Patents

一种基于上下文感知扩散模型的口吃语音编辑方法和系统 Download PDF

Info

Publication number
CN116092475A
CN116092475A CN202310361856.0A CN202310361856A CN116092475A CN 116092475 A CN116092475 A CN 116092475A CN 202310361856 A CN202310361856 A CN 202310361856A CN 116092475 A CN116092475 A CN 116092475A
Authority
CN
China
Prior art keywords
text
context
feature vector
stuttering
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310361856.0A
Other languages
English (en)
Other versions
CN116092475B (zh
Inventor
姜伟昊
钱冠梁
黄俊杰
李烈锋
孙清
陈梓铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dongshang Intelligent Technology Co ltd
Original Assignee
Hangzhou Dongshang Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dongshang Intelligent Technology Co ltd filed Critical Hangzhou Dongshang Intelligent Technology Co ltd
Priority to CN202310361856.0A priority Critical patent/CN116092475B/zh
Publication of CN116092475A publication Critical patent/CN116092475A/zh
Application granted granted Critical
Publication of CN116092475B publication Critical patent/CN116092475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于上下文感知扩散模型的口吃语音编辑方法和系统,属于语音编辑领域。首先获取口语语音‑文本组合,从文本中提取文本特征向量以及随机遮罩后的口语语音特征向量;基于上下文感知机制提取上下文信息;将上下文信息、当前时间步、当前时间步的梅尔频谱特征输入扩散模型,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;对上下文感知机制和扩散模型进行联合训练;针对带有口吃的口语语音,遮罩口吃区域,采用训练好的上下文感知机制和扩散模型生成编辑后的语音片段。本发明通过从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程,从而提高了口吃语音编辑的音质与自然度。

Description

一种基于上下文感知扩散模型的口吃语音编辑方法和系统
技术领域
本发明涉及语音编辑领域,尤其涉及一种基于上下文感知扩散模型的口吃语音编辑方法和系统。
背景技术
当下,语音编辑任务已经引发了广泛关注,而去除语音中的口吃是语音编辑中的一个十分重要的子任务。该任务旨在保留给定语音的内容的同时去除口吃,提升语音流畅度,以减轻自媒体、影视、演讲、线上课程等多行业配音人员的负担。
现有的语音编辑技术主要针对的是朗读风格语音,在处理口吃语音时会遇到以下三个挑战:1)生成的语音频谱较为模糊,缺乏高频细节,因此编辑区域与前后未编辑的区域在听感上存在一定的差异,听感较差;2)语音中的口吃会给模型的训练过程带来较大的噪声,影响模型的鲁棒性;3)口吃区域需要人为精确指定,需要消耗极大的人力。
若解决这上述三个问题,则可有效提升口吃语音编辑的语音质量,极大地节约人力成本。
发明内容
为了克服现有技术中频谱模糊、鲁棒性低、无法自动定位口吃区域等一系列问题,本发明提供一种基于上下文感知扩散模型的口吃语音编辑方法和系统,以针对不同风格语音进行内容编辑,可自动去除口吃,提升语音流畅度。
本发明所采用的具体技术方案是:
第一方面,本发明提出了一种基于上下文感知扩散模型的口吃语音编辑方法,包括如下步骤:
步骤1,获取口语语音-文本组合,从文本中提取文本特征向量;对口语语音进行随机遮罩,提取遮罩后的口语语音特征向量;
步骤2,基于上下文感知机制,从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息;
步骤3,将上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征输入扩散模型,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;
步骤4,利用口语语音-文本组合的一一对应关系,计算扩散模型的损失函数项以及上下文感知机制的损失函数项,对上下文感知机制和扩散模型进行联合训练;
步骤5,针对带有口吃的口语语音,遮罩口吃区域,采用步骤1的方法提取目标文本的文本特征向量和遮罩后的口语语音特征向量,采用步骤2-3的方法,利用训练后的上下文感知机制和扩散模型生成编辑后的语音片段。
进一步的,所述的文本特征向量提取方法为:在给定文本前加上符号< BOS >作为文本中的第0个词,以标记句子开头;获取给定文本的音素序列,利用音素嵌入层将音素序列转换为音素特征向量,再利用文本编码器对音素特征向量编码,生成文本特征向量。
进一步的,所述的文本编码器采用多头自注意力机制。
进一步的,所述的上下文信息包括基于持续时间信息扩展后的帧级文本特征向量、音调上下文信息、频谱上下文信息、说话人音色上下文信息和口吃区域上下文信息。
进一步的,所述的基于上下文感知机制,从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息,具体为:
2.1)基于持续时间信息扩展后的帧级文本特征向量
获取原始文本的持续时间序列,将口语语音的梅尔频谱特征序列中与被遮罩部分相对应的持续时间进行遮罩,得到遮罩后的持续时间序列;
将遮罩后的持续时间序列、文本特征向量输入到持续时间预测器中,由持续时间预测器预测出遮罩区域的持续时间并四舍五入后得到持续时间上下文信息;利用持续时间上下文信息扩展文本特征向量,得到基于持续时间信息扩展后的帧级文本特征向量;
2.2)音调上下文信息
获取口语语音的帧级音调序列,将口语语音的梅尔频谱特征序列中与被遮罩部分相对应的帧级音调进行遮罩,得到遮罩后的帧级音调序列;
将遮罩后的帧级音调序列、基于持续时间信息扩展后的帧级文本特征向量输入到音调预测器中,由音调预测器预测出遮罩区域的基频序列,并将基频序列转化成重建后的帧级音调并映射为音调特征向量,作为音调上下文信息;
2.3)频谱上下文信息
将所述的遮罩后的口语语音特征向量作为频谱上下文信息;
2.4)说话人音色上下文信息
从口语语音中直接提取说话人音色特征,作为说话人音色上下文信息;
2.5)口吃区域上下文信息
从口语语音的梅尔频谱特征序列中提取无遮罩的上下文语音特征向量;将基于持续时间信息扩展后的帧级文本特征向量、无遮罩的上下文语音特征向量输入到口吃预测器中,由口吃预测器定位语音中的口吃区域,得到口吃区域上下文信息。
进一步的,所述的迭代计算上一时间步的梅尔频谱特征,计算公式如下:
Figure SMS_1
其中,
Figure SMS_2
为扩散模型,
Figure SMS_3
为扩散模型的参数,xt是扩散过程中第t步的梅尔频谱特征,xt-1是扩散过程中第t-1步的梅尔频谱特征,C是上下文信息,t表示当前时间步。
进一步的,所述的扩散模型包括输入卷积层、全连接层、若干残差块和输出卷积层;所述的扩散过程中当前时间步的梅尔频谱特征作为输入卷积层的输入,将当前时间步和位置编码作为全连接层的输入,输入卷积层和全连接层的输出结果与上下文信息共同作为残差块的输入,残差块的输出结果再经输出卷积层后得到上一时间步的梅尔频谱特征。
进一步的,所述的上下文感知机制的损失函数项包括持续时间预测器的均方误差损失函数项、音调预测器的均方误差损失函数项和口吃预测器的交叉熵损失函数项。
第二方面,本发明提出了一种基于上下文感知扩散模型的口吃语音编辑系统,包括:
口语语音预处理模块,其用于对口语语音-文本组合中的口语语音进行遮罩,提取遮罩后的口语语音特征向量;
文本预处理模块,其用于从口语语音-文本组合的文本中提取文本特征向量;
上下文感知模块,其用于基于上下文感知机制,从由文本预处理模块得到的文本特征向量、以及由口语语音预处理模块得到的遮罩后的口语语音特征向量中提取上下文信息;
扩散模型模块,其用于以上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征为输入,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;
训练模块,其用于利用口语语音-文本组合的一一对应关系,计算扩散模型的损失函数项以及上下文感知机制的损失函数项,对扩散模型模块和上下文感知模块中的模型进行联合训练。
进一步的,所述的口语语音预处理模块在训练阶段时对口语语音进行随机遮罩,在实际编辑阶段时对口语语音的口吃区域进行遮罩。
与现有技术相比,本发明具备的有益效果是:
(1)本发明通过上下文感知机制从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程,使扩散模型显示地学到频谱特征中上下文的持续时间、音调、音色等多种特征,即充分学习到待编辑的语音片段的上下分信息,从而使得扩散模型能够根据上下文特征重建出自然、高质量、过渡流畅的编辑结果,实现高质量的语音编辑功能。
(2)本发明通过采用口吃区域预测器,可定位自然口语语音中的口吃区域,让模型能够在训练的过程中只从无口吃的区域学习相关特征,以帮助模型在实际的编辑过程中重建出无口吃的结果,从而实现自动去除口吃的功能。
附图说明
图1是本发明实施例示出的基于上下文感知扩散模型的口吃语音编辑方法的流程示意图;
图2是本发明实施例示出的基于上下文感知扩散模型的口吃语音编辑方法的框架示意图;
图3是本发明实施例示出的上下文感知扩散模型的结构示意图,其中左半部分表示扩散模型部分,右半部分表示上下文感知机制部分。
图4是本发明实施例示出的用于实现基于上下文感知扩散模型的口吃语音编辑方法的电子设备终端结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
本发明通过设计一种上下文感知扩散模型实现高质量的语音编辑与自动去除口吃的功能,如图1所示,基于上下文感知扩散模型的口吃语音编辑方法主要包括如下步骤:
步骤1,利用基于自注意力的文本编码器获取文本特征向量。
步骤2,利用非线性前馈神经网络获取遮罩后的自然口语语音特征向量。
步骤3,构建上下文感知扩散模型;首先基于上下文感知机制,从步骤1的文本特征向量和步骤2的遮罩后的自然口语语音特征向量中提取上下文特征作为上下文信息C;再将上下文信息C、当前时间步t、扩散过程中当前时间步的梅尔频谱等信息输入扩散模型,以计算上一时间步的梅尔频谱特征,且不断迭代地重建出遮罩部分对应的原始语音的梅尔频谱特征。
步骤4,利用自然口语语音和文本之间的一对一关系,计算上下文感知扩散模型的损失函数项,对文本编码器、非线性前馈神经网络和上下文感知扩散模型进行联合;
步骤5,针对待编辑的口语语音,遮罩待编辑区域,分别采用步骤1-3的方法,利用非线性前馈神经网络获取遮罩后的口语语音特征向量,利用文本编码器获取目标文本的文本特征向量,利用训练后的上下文感知扩散模型生成编辑后的语音片段。
上述步骤1中,获取文本特征向量可具体采用如下实现方式。
首先获取训练集,训练集中包括有Dtrain段自然口语语音和Dtrain段对应的文本,其中每一段自然口语语音对应于一段文本。
如图2所示,对于训练集中每一段给定的文本(包含N个词),首先在句子前加上特殊符号< BOS >,作为口语句子的第0个词,以标记句子的开头,接着提取文本中的音素,构建音素表并将音素转换为序列,利用音素嵌入层将音素序列转换为音素特征向量eo,利用文本编码器对音素特征向量eo进行编码,生成文本特征向量ep。此处生成的文本特征向量还用于后续扩散模型的计算。
本实施例中,所述的文本编码器由若干个文本编码器层堆叠组成,每一个编码器层由层归一化操作、多头自注意力、残差连接和前馈神经网络构建而成,所述的文本编码器为预训练模型。
以文本编码器中的第一个文本编码器层为例,其计算公式如下:
Figure SMS_4
Figure SMS_5
其中,eo表示音素特征向量,即第一个文本编码器层的输入;z表示文本编码器层内的中间结果,ep,1表示第一个文本编码器层的输出向量,LN(.)表示层归一化操作,MHSA(.)表示多头自注意力机制,MLP(.)表示前馈神经网络。将前一个文本编码器层的输出向量作为后一个文本编码器层的输入向量,将最后一个文本编码器层的输出向量作为最终得到的文本特征向量ep
以文本编码器中的第一个文本编码器层为例,所述的多头自注意力机制MHSA的计算过程具体为:
1.1)对于音素特征向量eo,将其经过层归一化操作后的结果记为c,按照如下公式,分别生成查询矩阵Q、键矩阵K和值矩阵V:
Figure SMS_6
Figure SMS_7
Figure SMS_8
其中,WQ、WK、WV分别为查询映射矩阵、键映射矩阵、值映射矩阵。
1.2)对于查询矩阵Q,将其等价表示为若干列向量分块拼接,所构成矩阵的转置,记为Q=[q1;q2;…;qK]T;其中,上角标T表示转置,每个列向量qK为D维向量,称之为查询向量;同理,对于键矩阵K与值矩阵V也同样处理,记第k个键向量为kk,第k个值向量为vk,1≤k≤K;K表示文本长度,D表示音素特征向量eo的维度。
1.3)利用步骤1.1)求得的键矩阵K和值矩阵V,按照如下公式计算得到一系列的单头自注意力向量zk
Figure SMS_9
其中,
Figure SMS_10
表示第k个键向量中的第i个位置,
Figure SMS_11
表示第k个键向量中的第j个位置,zk表示第k个单头自注意力向量,
Figure SMS_12
表示两个向量求缩放点积,exp表示以自然对数e为底的指数函数。
遍历位置k∈[1,K],得到K个单头自注意力向量,直接合成为维度K×D的单头自注意力矩阵Z。
多头自注意力机制的计算需要重复步骤1.1)到步骤1.3)的操作,由于步骤1.1)中查询映射矩阵、键映射矩阵和值映射矩阵初始化的不同,最终会产生多个不同的单头自注意力矩阵;假设重复h次,即计算头数为h的多头自注意力机制,那么会产生h个不同的单头自注意力矩阵Z,将每一个单头自注意力矩阵记为Zi,其中i∈[1,h],将每个单头自注意力矩阵连接,即得到最终的多头自注意力矩阵。
1.4)将步骤1.3)得到的最终的多头自注意力矩阵与步骤1.1)得到的值矩阵V相乘,得到多头自注意力机制MHSA的输出结果。
上述步骤2中,所述的非线性前馈神经网络包括线性层、批量归一化层和ReLU激活函数,所述的非线性前馈神经网络为预训练模型,采用非线性前馈神经网络获取遮罩后的自然口语语音特征向量的实现方式如下。
对于每一个给定的自然口语语音,将其转换为梅尔频谱特征序列
Figure SMS_13
,L为梅尔频谱特征序列长度,序列中的元素为特征向量。将序列x进行随机遮罩后,依次通过一个线性层、批量归一化层和ReLU激活函数,得到遮罩后的自然口语语音特征向量ea,计算公式如下:
Figure SMS_14
Figure SMS_15
其中,W、b表示线性层的参数矩阵,BN表示批量归一化,ReLu为非线性激活函数,Mask为遮罩函数,ex表示遮罩后的梅尔频谱特征序列。
上述步骤3中,从步骤1的文本特征向量ep和步骤2的自然口语语音特征向量ea中提取上下文特征作为上下文信息C,所述的上下文特征包括但不限于音调、基于持续时间扩展后的帧级文本特征向量eq、音色、频谱、口吃区域等。
所述的帧级文本特征向量eq是通过持续时间扩展文本特征向量ep后得到的;例如,持续时间信息dr=[2,2,2,1],文本特征向量ep=[h1,h2,h3,h4],则扩展后的帧级文本特征向量eq=[h1,h1,h2,h2,h3,h3,h4]。
如图2所示,将上下文信息C、当前时间步t、扩散过程中当前时间步的梅尔频谱xt等信息输入扩散模型,以计算上一时间步的梅尔频谱特征,且不断迭代地重建出遮罩部分的原始语音的梅尔频谱特征;其扩散的迭代过程可由如下公式表示:
Figure SMS_16
其中,
Figure SMS_17
为扩散模型,
Figure SMS_18
为扩散模型的参数,本实施例中使用的扩散模型基础架构为WaveNet;xt是扩散过程中第t步的梅尔频谱特征,xt-1是扩散过程中第t-1步的梅尔频谱特征,C是上下文信息,t表示当前时间步。
在本发明的一项具体实施中,如图3中左半部分所示,所述的扩散模型由输入卷积层、全连接层、若干残差块、输出卷积层等构成,将第t步的频谱xt作为输入卷积层的输入,将当前时间步t和位置编码作为全连接层的输入,两者的输出结果和上下文信息C共同作为残差块的输入,残差块的输出结果再经输出卷积层后得到第t-1步的梅尔频谱特征xt-1,直至迭代重建出遮罩区域的梅尔频谱特征x0作为最终结果输出。
在本发明的一项具体实施中,为了从文本特征向量ep和自然口语语音特征向量ea中获取的上下文信息C,需要获取持续时间上下文信息、音调上下文信息、频谱上下文信息、说话人音色上下文信息、口吃区域上下文信息等,如图3中的右半部分所示,具体为:
3.1)持续时间上下文信息
假设当前文本特征向量ep=[h1,h2,h3,h4],原始文本的持续时间为d=[2,2,3,1],将梅尔频谱特征序列中与被遮罩部分相对应的文本区域作为需要修改的文本区域,假设修改的文本区域为h3代表区域,则将对应区域的持续时间进行遮罩,得到遮罩后的持续时间dMask=[2,2,Mask,1]。
随后,将遮罩后的持续时间dMask、文本特征向量ep输入到持续时间预测器中,由持续时间预测器预测出遮罩区域的持续时间[2,2,2.3,1]并四舍五入后得到持续时间信息dr=[2,2,2,1],所述的持续时间信息dr作为所需的持续时间上下文信息。
所述的帧级文本特征向量eq是通过持续时间上下文信息扩展文本特征向量ep后得到的;例如,持续时间信息dr=[2,2,2,1],文本特征向量ep=[h1,h2,h3,h4],则扩展后的帧级文本特征向量eq=[h1,h1,h2,h2,h3,h3,h4]。
3.2)音调上下文信息
假设自然口语语音的帧级音调为p=[p1,p2,p3,p4,p5,p6],将梅尔频谱特征序列中与被遮罩部分相对应的帧级音调区域作为需要修改的音频区域,假设修改的音频区域为p3、p4代表区域,则将对应区域的帧级音调进行遮罩,得到遮罩后的帧级音调pMask=[p1,p2,Mask,Mask,p5,p6]。
随后,将遮罩后的帧级音调pMask、帧级文本特征向量eq输入到音调预测器中,由音调预测器预测出遮罩区域的基频序列F0,并将基频序列F0转化成重建后的帧级音调pr,最后将pr映射为音调特征向量epitch,作为所需的音调上下文信息。
3.3)频谱上下文信息
将步骤2得到的自然口语语音特征向量ea作为所需的频谱上下文信息。
3.4)说话人音色上下文信息
从自然口语语音中直接提取说话人音色特征向量espk,作为说话人音色上下文信息。
3.5)口吃区域上下文信息
采用非线性前馈神经网络从梅尔频谱特征序列X中提取无遮罩的上下文语音特征向量eb;将帧级文本特征向量eq、无遮罩的上下文语音特征向量eb输入到口吃预测器中,由口吃预测器定位语音中的口吃区域S作为口吃区域上下文信息。例如S=[0,0,1,1,0,0,],则标记1表示口吃位置。
上述步骤4中,利用训练集中自然口语语音和文本之间的一对一关系,计算扩散模型的损失函数项,以及持续时间、音调、口吃预测器的损失函数项,具体为:
(1)扩散模型的损失函数项
计算迭代重建出的遮罩区域的梅尔频谱x0与遮罩区域的真实梅尔频谱x的L1距离,得到扩散模型的损失函数项:
Figure SMS_19
其中,
Figure SMS_20
表示上下文感知扩散模型的损失函数项,
Figure SMS_21
表示上下文感知扩散模型,
Figure SMS_22
表示L1范数,at表示t步迭代的去噪系数,
Figure SMS_23
表示噪声。
(2)持续时间预测器的损失函数项:
真实持续时间信息d的获取方式为:使用文本-语音强制对齐工具MontrealForced Aligner获取文本与语音的对齐信息,即原始数据集中语音的持续时间信息d。在训练中使用数据集中的真实持续时间信息d对持续时间预测器进行训练,构建均方误差损失函数项:
Figure SMS_24
其中,Ld表示持续时间预测损失,gd(.)表示持续时间预测器,dMask表示遮罩后的持续时间,ep表示文本特征向量。
(3)音调预测器的损失函数项:
真实帧级音调p的获取方式为:使用音调提取工具ParselMouth获取语音中的音调,即原始数据集中语音的音调。在训练中使用数据集中的真实帧级音调p对音调预测器进行训练,构建均方误差损失函数项:
Figure SMS_25
其中,Lp表示音调预测损失,gp(.)表示音调预测器,pMask表示遮罩后的帧级音调,eq表示帧级文本特征向量,
Figure SMS_26
表示L2范数的平方。
(4)口吃预测器的损失函数项:
利用真实口吃区域信息对口吃预测器进行训练,构建交叉熵损失函数项:
Figure SMS_27
其中,Ls表示口吃区域预测损失,p(si)表示第i帧为口吃的概率,n为帧数。
联合扩散模型的损失函数项,以及持续时间、音调、口吃预测器的损失函数项,对由扩散模型及其时间、音调、口吃预测器组成的上下文感知扩散模型进行联合训练,在训练过程中采用梯度下降学习方法,更新上下文感知扩散模型中的参数。
上述步骤5中,针对待编辑的口语语音,遮罩待编辑区域,分别采用步骤1-3的方法,利用训练后的非线性前馈神经网络获取遮罩后的口语语音特征向量,利用训练后的文本编码器获取目标文本的文本特征向量,利用训练后的上下文感知扩散模型生成编辑后的语音片段。
本发明是根据文本内容和上下文语音特征重建遮罩区域语音的过程,以某一目标文本内容“But what are some other reasons why people might not want to engagein risk?”为例,其对应的含口吃的自然口语语音内容可以是“Emm…but what are someother reasons why people might not want to…to…to engage in risk”。在实际处理过程中,将口吃区域进行遮罩后重建,以达到消除口吃的目的。
首先,采用步骤1中的方法,利用基于自注意力的文本编码器获取目标文本特征向量ep*
之后,采用步骤2中的方法对口语语音对应的梅尔频谱特征序列中的口吃区域进行遮罩,得到遮罩后的梅尔频谱特征序列ex*,进一步采用非线性前馈神经网络获取遮罩后的口语语音特征向量ea*
Figure SMS_28
Figure SMS_29
最后,采用步骤3中的方法,从文本特征向量ep*和自然口语语音特征向量ea*中获取上下文信息C,将上下文信息C、当前时间步t、扩散过程中当前时间步的梅尔频谱xt等信息输入扩散模型,以计算上一时间步的梅尔频谱特征,且不断迭代地重建出遮罩部分的梅尔频谱特征,该梅尔频谱特征中已经去除了口吃,根据声码器即可由梅尔频谱特征转换为去除口吃后的语音,完成去除口吃的语音编辑任务。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
本发明在三个真实的语音数据集VCTK、LibriTTS、SASE上进行实验,前两个数据集测试朗读风格语音的语音编辑任务,第三个数据集测试自然口语语音的口吃去除效果。为了客观地评价本发明的性能,本发明在所选出的测试集中,使用了主观和客观两套评价标准来对本发明的效果进行评价,并与下述现有技术的模型进行对比。
对比1. EditSpeech模型,这是一个基于双向自回归解码过程的语音编辑系统,以基于LSTM的语音合成模型为基础架构,通过双向自回归解码来理解上下文信息,提高编辑音频过渡的自然性。
对比2. CampNet模型,这是一个基于文本到频谱跨模态注意力架构的语音编辑系统,以自注意力网络、跨模态注意力网络为基础,通过预测遮罩的频谱部分来进行训练,实现了较高质量的语音编辑效果;
对比3. A3T模型,它是基于文本到频谱对齐信息构建的预训练模型,在VCTK等数据集上达到了最先进的语音编辑效果;
按照具体实施方式中描述的步骤,所得的实验结果如表1至表3所示,本发明方法记为FluentSpeech。
表1:本发明针对于VCTK、LibriSpeech数据集在语音编辑任务上的客观测试结果;
Figure SMS_30
表2:本发明针对于VCTK数据集获得的语音编辑任务的语音质量、音色相似度主观测试(MOS)结果;
Figure SMS_31
表3:本发明针对于SASE数据集在自动去除口吃任务上的主观测试结果,测试人员根据自然度、流畅度两个方面对FluentSpeech和原始语音进行比较,选出偏好的语音;
Figure SMS_32
从表1可以发现,FluentSpeech方法的语音编辑音质在客观标准上明显优于目前最先进的语音编辑算法A3T,在VCTK和LibriTTS两个数据集上的MCD、STOI、PESQ等三个指标均有较大的性能提升。
从表2可以发现,FluentSpeech方法的语音编辑音质、音色相似度在主观标准上明显优于目前所有的语音编辑系统。当测试集中的说话人同时也在训练集中出现过时(Seen),FluentSpeech方法在VCTK上语音质量的主观评分为4.27,音色相似度的主观评分为4.42,达到了较高的编辑效果;同时,当测试集中的说话人并未在训练集中出现时(Unseen),FluentSpeech方法在VCTK上语音质量的主观评分也能达到4.18,音色相似度的主观评分也能达到4.21,也仍然能保持一个高的编辑效果。
从表3可以发现,FluentSpeech在自然口语语音数据集上也能保持接近原始语音的自然度,让测试人员难以在音质上分清原始语音与编辑语音;且能自动的进行去除口吃的操作,使得语音流畅度得到大幅度的提升。
在本实施例中还提供了一种基于上下文感知扩散模型的口吃语音编辑系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
具体的,一种基于上下文感知扩散模型的口吃语音编辑系统,包括:
口语语音预处理模块,其用于对口语语音-文本组合中的口语语音进行遮罩,提取遮罩后的口语语音特征向量;
文本预处理模块,其用于从口语语音-文本组合的文本中提取文本特征向量;
上下文感知模块,其用于基于上下文感知机制,从由文本预处理模块得到的文本特征向量、以及由口语语音预处理模块得到的遮罩后的口语语音特征向量中提取上下文信息;
扩散模型模块,其用于以上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征为输入,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;
训练模块,其用于利用口语语音-文本组合的一一对应关系,计算扩散模型的损失函数项以及上下文感知机制的损失函数项,对扩散模型模块和上下文感知模块中的模型进行联合训练。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,图4为本实施例提供的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中系统所在的任意具备数据处理能力的设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,包括:
步骤1,获取口语语音-文本组合,从文本中提取文本特征向量;对口语语音进行随机遮罩,提取遮罩后的口语语音特征向量;
步骤2,基于上下文感知机制,从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息;
步骤3,将上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征输入扩散模型,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;
步骤4,利用口语语音-文本组合的一一对应关系,计算扩散模型的损失函数项以及上下文感知机制的损失函数项,对上下文感知机制和扩散模型进行联合训练;
步骤5,针对带有口吃的口语语音,遮罩口吃区域,采用步骤1的方法提取目标文本的文本特征向量和遮罩后的口语语音特征向量,采用步骤2-3的方法,利用训练后的上下文感知机制和扩散模型生成编辑后的语音片段。
2.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的文本特征向量提取方法为:在给定文本前加上符号< BOS >作为文本中的第0个词,以标记句子开头;获取给定文本的音素序列,利用音素嵌入层将音素序列转换为音素特征向量,再利用文本编码器对音素特征向量编码,生成文本特征向量。
3.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的文本编码器采用多头自注意力机制。
4.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的上下文信息包括基于持续时间信息扩展后的帧级文本特征向量、音调上下文信息、频谱上下文信息、说话人音色上下文信息和口吃区域上下文信息。
5.根据权利要求4所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的基于上下文感知机制,从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息,具体为:
2.1)基于持续时间信息扩展后的帧级文本特征向量
获取原始文本的持续时间序列,将口语语音的梅尔频谱特征序列中与被遮罩部分相对应的持续时间进行遮罩,得到遮罩后的持续时间序列;
将遮罩后的持续时间序列、文本特征向量输入到持续时间预测器中,由持续时间预测器预测出遮罩区域的持续时间并四舍五入后得到持续时间上下文信息;利用持续时间上下文信息扩展文本特征向量,得到基于持续时间信息扩展后的帧级文本特征向量;
2.2)音调上下文信息
获取口语语音的帧级音调序列,将口语语音的梅尔频谱特征序列中与被遮罩部分相对应的帧级音调进行遮罩,得到遮罩后的帧级音调序列;
将遮罩后的帧级音调序列、基于持续时间信息扩展后的帧级文本特征向量输入到音调预测器中,由音调预测器预测出遮罩区域的基频序列,并将基频序列转化成重建后的帧级音调并映射为音调特征向量,作为音调上下文信息;
2.3)频谱上下文信息
将所述的遮罩后的口语语音特征向量作为频谱上下文信息;
2.4)说话人音色上下文信息
从口语语音中直接提取说话人音色特征,作为说话人音色上下文信息;
2.5)口吃区域上下文信息
从口语语音的梅尔频谱特征序列中提取无遮罩的上下文语音特征向量;将基于持续时间信息扩展后的帧级文本特征向量、无遮罩的上下文语音特征向量输入到口吃预测器中,由口吃预测器定位语音中的口吃区域,得到口吃区域上下文信息。
6.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的迭代计算上一时间步的梅尔频谱特征,计算公式如下:
Figure QLYQS_1
;其中,
Figure QLYQS_2
为扩散模型,
Figure QLYQS_3
为扩散模型的参数,xt是扩散过程中第t步的梅尔频谱特征,xt-1是扩散过程中第t-1步的梅尔频谱特征,C是上下文信息,t表示当前时间步。
7.根据权利要求6所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的扩散模型包括输入卷积层、全连接层、若干残差块和输出卷积层;所述的扩散过程中当前时间步的梅尔频谱特征作为输入卷积层的输入,将当前时间步和位置编码作为全连接层的输入,输入卷积层和全连接层的输出结果与上下文信息共同作为残差块的输入,残差块的输出结果再经输出卷积层后得到上一时间步的梅尔频谱特征。
8.根据权利要求6所述的一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,所述的上下文感知机制的损失函数项包括持续时间预测器的均方误差损失函数项、音调预测器的均方误差损失函数项和口吃预测器的交叉熵损失函数项。
9.一种基于上下文感知扩散模型的口吃语音编辑系统,其特征在于,包括:
口语语音预处理模块,其用于对口语语音-文本组合中的口语语音进行遮罩,提取遮罩后的口语语音特征向量;
文本预处理模块,其用于从口语语音-文本组合的文本中提取文本特征向量;
上下文感知模块,其用于基于上下文感知机制,从由文本预处理模块得到的文本特征向量、以及由口语语音预处理模块得到的遮罩后的口语语音特征向量中提取上下文信息;
扩散模型模块,其用于以上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征为输入,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;
训练模块,其用于利用口语语音-文本组合的一一对应关系,计算扩散模型的损失函数项以及上下文感知机制的损失函数项,对扩散模型模块和上下文感知模块中的模型进行联合训练。
10.根据权利要求9所述的一种基于上下文感知扩散模型的口吃语音编辑系统,其特征在于,所述的口语语音预处理模块在训练阶段时对口语语音进行随机遮罩,在实际编辑阶段时对口语语音的口吃区域进行遮罩。
CN202310361856.0A 2023-04-07 2023-04-07 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 Active CN116092475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310361856.0A CN116092475B (zh) 2023-04-07 2023-04-07 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310361856.0A CN116092475B (zh) 2023-04-07 2023-04-07 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Publications (2)

Publication Number Publication Date
CN116092475A true CN116092475A (zh) 2023-05-09
CN116092475B CN116092475B (zh) 2023-07-07

Family

ID=86187202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310361856.0A Active CN116092475B (zh) 2023-04-07 2023-04-07 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Country Status (1)

Country Link
CN (1) CN116092475B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002311979A (ja) * 2001-04-17 2002-10-25 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
US20120265537A1 (en) * 2011-04-18 2012-10-18 International Business Machines Corporation Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
CN104205215A (zh) * 2012-03-14 2014-12-10 国际商业机器公司 自动实时言语障碍矫正
CN105047196A (zh) * 2014-04-25 2015-11-11 通用汽车环球科技运作有限责任公司 语音识别系统中的语音假象补偿系统和方法
CN109620141A (zh) * 2018-11-02 2019-04-16 河南中医药大学 一种用于幼儿口吃检测和记录的口吃记录仪
CN114970666A (zh) * 2022-03-29 2022-08-30 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN115223012A (zh) * 2022-07-11 2022-10-21 湖南中科助英智能科技研究院有限公司 一种去遮罩人脸恢复的方法、装置、计算机设备和介质
US20220392471A1 (en) * 2021-06-02 2022-12-08 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model
CN115641834A (zh) * 2022-09-09 2023-01-24 平安科技(深圳)有限公司 一种语音合成方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002311979A (ja) * 2001-04-17 2002-10-25 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
US20120265537A1 (en) * 2011-04-18 2012-10-18 International Business Machines Corporation Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal
CN104205215A (zh) * 2012-03-14 2014-12-10 国际商业机器公司 自动实时言语障碍矫正
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
CN105047196A (zh) * 2014-04-25 2015-11-11 通用汽车环球科技运作有限责任公司 语音识别系统中的语音假象补偿系统和方法
CN109620141A (zh) * 2018-11-02 2019-04-16 河南中医药大学 一种用于幼儿口吃检测和记录的口吃记录仪
US20220392471A1 (en) * 2021-06-02 2022-12-08 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model
CN114970666A (zh) * 2022-03-29 2022-08-30 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN115223012A (zh) * 2022-07-11 2022-10-21 湖南中科助英智能科技研究院有限公司 一种去遮罩人脸恢复的方法、装置、计算机设备和介质
CN115641834A (zh) * 2022-09-09 2023-01-24 平安科技(深圳)有限公司 一种语音合成方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
P. MAHESHA ET AL.: "LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies", 2017 INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, SIGNAL PROCESSING AND NETWORKING (WISPNET) *
张俊博;严芊;高兴龙;潘复平;冯勇强;邢力力;林春兰;潘接林;: "基于强制对齐的汉语重复性口吃检测方法研究", 声学学报, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置
CN116884391B (zh) * 2023-09-06 2023-12-01 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置

Also Published As

Publication number Publication date
CN116092475B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN112863483B (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
US11017761B2 (en) Parallel neural text-to-speech
Vasquez et al. Melnet: A generative model for audio in the frequency domain
CN112017644B (zh) 一种声音变换系统、方法及应用
Zhang et al. Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
JP6989951B2 (ja) スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
CN112802448A (zh) 一种新音色生成的语音合成方法和系统
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
CN111783477B (zh) 一种语音翻译方法及系统
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN114464162B (zh) 语音合成方法、神经网络模型训练方法、和语音合成模型
CN116092475B (zh) 一种基于上下文感知扩散模型的口吃语音编辑方法和系统
CN113053357A (zh) 语音合成方法、装置、设备和计算机可读存储介质
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN113436607B (zh) 一种快速语音克隆方法
JP7469698B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Zhao et al. Research on voice cloning with a few samples
CN112133288A (zh) 一种语音转文字的处理方法、系统及设备
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
Ko et al. Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity MultiSpeaker TTS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant