CN112634918B - 一种基于声学后验概率的任意说话人语音转换系统及方法 - Google Patents
一种基于声学后验概率的任意说话人语音转换系统及方法 Download PDFInfo
- Publication number
- CN112634918B CN112634918B CN202011057900.1A CN202011057900A CN112634918B CN 112634918 B CN112634918 B CN 112634918B CN 202011057900 A CN202011057900 A CN 202011057900A CN 112634918 B CN112634918 B CN 112634918B
- Authority
- CN
- China
- Prior art keywords
- speaker
- posterior probability
- voice
- acoustic
- voice conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 108
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 45
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims 2
- 239000013066 combination product Substances 0.000 claims 1
- 229940127555 combination product Drugs 0.000 claims 1
- 230000003111 delayed effect Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 15
- 230000006872 improvement Effects 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种基于声学后验概率的任意说话人语音转换系统及方法,属于基于深度学习的语音转换的技术技术领域。包括:一个语音识别模型、一个多说话人数据集、一个语音转换模型、一个目标说话人数据集和一个LPCNet声码器;预训练一个语音转换模型,自适应训练所述语音转换模型,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。本发明解决了现有技术中语音转换只能完成特定说话人之间且质量较低的问题。
Description
技术领域
本发明属于基于深度学习的语音转换的技术领域,尤其涉及一种基于声学后验概率的任意说话人语音转换系统及方法。
背景技术
语音转换主要是基于平行数据实现的,平行数据即是两个不同说话人录制的,但语句文本内容完全一致的数据集,在此基础上,通过高斯混合模型以及动态规划算法等方式实现不同说话人之间声学特征的时间长度对齐。实际生活中,这样大数量的平行数据获取难度很大,而且成本高昂,不适用语音转换技术的推广应用。
现有的深度学习技术可以通过非平行数据完成语音转换模型的训练,比如基于生成对抗网络的方法,然而由于实现原理的局限性,只能完成特定说话人之间的语音转换。还有基于变分自动编码器的方法,这种方法由于解码过程中解码器的过度平滑,转换的语音质量通常有比较明显的损失。
发明内容
本发明的目的是提供一种基于声学后验概率的任意说话人语音转换系统及方法,以解决现有技术中语音转换只能完成特定说话人之间且质量较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于声学后验概率的任意说话人语音转换方法,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量,语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点,包括:
S101,配置一个语音识别模型,语音识别模型包括六层时延神经网络。时延神经网络是一种多层神经网络,时延神经网络能够用于区分平移不变性。
S102,配置一个多说话人数据集。多说话人数据集能够通过语音识别模型提取多说话人数据集中每句话对应的声学后验概率。
S103,对多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码。
S104,预训练一个语音转换模型,其配置为能够接收声学后验概率和查表编码。语音转换模型能够根据接收到的声学后验概率和查表编码预训练。语音转换模型的深度神经网结构层前后添加说话人编码层,将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人。
S105,配置一个目标说话人数据集。
S106,自适应训练语音转换模型,语音转换模型能够根据目标说话人数据集少量数据自适应参数更新。通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。
S107,在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移。
S108,通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。
S109,通过LPCNet声码器完成声学特征到目标说话人对应转换语音的合成。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,每层时延神经网络有1024个节点,输出层是带有353个节点,激活函数为ReLU的softmax层。
进一步地,语音识别模型能够将每一帧输入匹配到 353 个中文单音素三状态对应的概率。
帧级别的交叉熵函数作为目标函数以最小化预测的错误率。
进一步地,LPCNet声码器是数字信号处理和神经网络的结合产物。
LPCNet声码器能够将语音信号假设为线性部分和非线性部分。线性部分由数字信号处理,非线性部分由神经网络拟合。
进一步地,LPCNet声码器的输入是20维特征,20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数。
进一步地,语音转换模型通过中文合成数据集训练。训练集包括20位中文说话者,每个说话者包含200条语句。模型迭代优化了20个周期。
一种基于声学后验概率的任意说话人语音转换系统,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量,语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点,包括:
配置一个语音识别模型,语音识别模型包括六层时延神经网络。时延神经网络是一种多层神经网络,时延神经网络能够用于区分平移不变性,。
配置一个多说话人数据集。多说话人数据集能够通过语音识别模型提取多说话人数据集中每句话对应的声学后验概率。
对多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码。
预训练一个语音转换模型,其配置为能够接收声学后验概率和查表编码。语音转换模型能够根据接收到的声学后验概率和查表编码预训练。
配置一个目标说话人数据集。
自适应训练语音转换模型,语音转换模型能够根据目标说话人数据集少量数据自适应参数更新。通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。语音转换模型的深度神经网结构层前后添加说话人编码层,将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人。
在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移。
通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。
通过LPCNet声码器完成声学特征到目标说话人对应转换语音的合成。
本发明具有如下优点:
本发明中的基于声学后验概率的任意说话人语音转换系统及方法,摆脱了对平行数据的依赖,完成语音转换系统的搭建成本较低,且语音转换对象包括但不限于中文、英语等语种。
在语音转换过程中,除了完成到目标说话人音色的迁移,还能够较好的保留原始语句中的情感。
系统实现包括语音识别模型,语音转换模型以及声码器三个部分,这三个部分可以独立训练,且这三个部分性能的提升能够提升系统总体的性能的提升,使得语音转换模型的特征种类更加多样化。本发明的基于声学后验概率的任意说话人语音转换系统能够摆脱实现原理局限性,能够完成任意说话人之间的语音转换且可以完成高质量的语音转换。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音转换方法流程图。
图2为本发明的语音转换预训练阶段流程图。
图3为本发明的语音转换自适应训练阶段流程图。
图4为本发明语音转换的转换阶段流程图。
标号说明
多说话人数据集10,语音转换模型20,目标说话人数据集30,LPCNet声码器30。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-4所示,本发明实施例提供了一种基于声学后验概率的任意说话人语音转换方法,包括:一个语音识别模型、一个语音转换模型20和一个LPCNet声码器30。
S101,配置一个语音识别模型。
本步骤中,配置一个语音识别模型,语音识别模型包括六层时延神经网络。
S102,配置一个多说话人数据集。
本步骤中,配置一个多说话人数据集10(包含100人说话人,每人200句话)。多说话人数据集10能够通过语音识别模型提取多说话人数据集10中每句话对应的声学后验概率。将声学后验概率引入语音转换系统,作为说话人无关的文本特征构建所有说话人之间的共通点。
S103,对多说话人数据集中每个说话人独热编码并获取一个查表编码。
本步骤中,对多说话人数据集10中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码。通过独热编码的方式,简单有效的辅助模型对不同说话人进行区分,不需要额外的说话人编码提取器,简化了系统结构。预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量。
S104,预训练一个语音转换模型。
在语音转换模型20的深度神经网结构层的前后添加说话人编码层,将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接,以帮助语音转换模型20更好的区分不同的说话人。
本步骤中,预训练一个语音转换模型20,其配置为能够接收声学后验概率和查表编码。语音转换模型20能够根据接收到的声学后验概率和查表编码预训练。
S105,配置一个目标说话人数据集。
本步骤中,配置一个目标说话人数据集30。
S106,自适应训练语音转换模型。
本步骤中,自适应训练语音转换模型20,语音转换模型20能够根据目标说话人数据集30少量数据(30句话,约2分钟)自适应参数更新。通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期(训练集合的所有数据参与过一次训练过程为一个周期)损失函数没有下降时停止自适应训练。
S107,在自适应训练阶段对独热码对应的说话人向量进行更新。
本步骤中,在预训练语音转换模型20的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移。通过对预处理模型的自适应训练,实现基于极小数据量到目标说话人的音色迁移。
在这个阶段,模型全部的参数都会根据反向传播算法的指导,向着更好的拟合新的目标说话人数据的方向进行更新。其中,说话人编码层中仅与目标说话人独热码对应的说话人向量进行更新,其他的保持不变。
S108,通过任意原始说话人语句中提取声学后验概率。
本步骤中,通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。
S109,通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合成。
本步骤中,通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合成。
LPCNet声码器30具有训练时间短、合成语音速度快以及合成语音质量较高的特点,提高整个语音转换的效率和转换语音的质量。LPCNet声码器30所需的声码器特征为LPCNet特征。LPCNet声码器30是数字信号处理和神经网络一个很好的结合产物
语音转换是指修改语句中原始说话人的音色,使其和目标说话人一致,但同时保持语句中的语言信息。语音转换在许多领域扮演着至关重要的角色,比如短时频中的音色转换器、影视剧中的配音,个性化的语音助手、虚拟和增强现实等等。
预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量。
语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点。
语音转换模型20的深度神经网结构层前后添加说话人编码层,将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型20能够更好的区分不同的说话人。
语音识别模型包括六层时延神经网络,时延神经网络是一种多层神经网络,时延神经网络能够用于区分平移不变性。
如图4所示,这是一个只有4层(包含输入层)的TDNN,将逐层介绍。Input Layer为语谱图,黑块为大值,灰块为小值。输入层纵向为经过mel滤波器的16个特征(没用MFCC),横向为帧。Input Layer 的延时为2,映射到Hidden Layer 1的关系为16*3 ->8,权值个数为384。Hidden Layer 1 的延时为4,映射到Hidden Layer 2的关系为8*5 ->3,权值个数为120。Hidden Layer 2 的延时为8,映射到输出层的关系为3*9 ->3,权值个数为81。合计权值为384+120+81=585。
每层时延神经网络有1024个节点,输出层是带有353个节点,激活函数为ReLU的softmax层。
语音识别模型能够将每一帧输入匹配到 353 个中文单音素三状态对应的概率。
预处理层 | 全连接层-256节点-ReLU-Drop out(0.2)全连接层-128节点-ReLU-Drop out(0.2) |
1维卷积模块 | K=8,conv-k-128-ReLU最大池化:步幅=1,步长=21维卷积块:conv-3-128节点-ReLUconv-3-128-线性 |
说话人编码层 | 全连接层-128节点-线性 |
深度神经网 | 4层全连接-128节点-ReLU |
说话人编码层 | 全连接层-128节点-线性 |
门控循环网络 | 双向门控循环网络-128节点 |
输出层 | 全连接层-20节点-线性 |
帧级别的交叉熵函数作为目标函数以最小化预测的错误率。
LPCNet声码器30是数字信号处理和神经网络的结合产物。
LPCNet声码器30能够将语音信号假设为线性部分和非线性部分。线性部分由数字信号处理,非线性部分由神经网络拟合。
LPCNet声码器30的输入是20维特征,20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数(周期,相关系数)。
语音转换模型20通过中文合成数据集训练。训练集包括20位中文说话者(其中10位男性,10 位女性),每个说话者包含200条语句。模型迭代优化了20个周期,最终的损失函数的结果为 2.72 。
一种基于声学后验概率的任意说话人语音转换系统,包括:
配置一个语音识别模型。
配置一个多说话人数据集10。多说话人数据集10能够通过语音识别模型提取多说话人数据集10中每句话对应的声学后验概率。
对多说话人数据集10中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码。
预训练一个语音转换模型20,其配置为能够接收声学后验概率和查表编码。语音转换模型20能够根据接收到的声学后验概率和查表编码预训练。
配置一个目标说话人数据集30。
自适应训练语音转换模型20,语音转换模型20能够根据目标说话人数据集30少量数据自适应参数更新。通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。
在预训练语音转换模型20的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移。
通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。
通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合成。
本发明中的基于声学后验概率的任意说话人语音转换系统及方法,摆脱了对平行数据的依赖,完成语音转换系统的搭建成本较低,且语音转换对象包括但不限于中文、英语等语种。
在语音转换过程中,除了完成到目标说话人音色的迁移,还能够较好的保留原始语句中的情感。
系统实现包括语音识别模型,语音转换模型20以及声码器三个部分,这三个部分可以独立训练,且这三个部分性能的提升能够提升系统总体的性能的提升,使得语音转换模型20的特征种类更加多样化。本发明的基于声学后验概率的任意说话人语音转换系统能够摆脱实现原理局限性,能够完成任意说话人之间的语音转换且可以完成高质量的语音转换。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于声学后验概率的任意说话人语音转换方法,其特征是,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为所述说话人向量;语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点,包括:
S101,配置一个语音识别模型,所述语音识别模型包括六层时延神经网络;所述时延神经网络是一种多层神经网络,所述时延神经网络能够用于区分平移不变性;
S102,配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;
S103,对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;
S104,预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;所述语音转换模型的深度神经网结构层前后添加说话人编码层,将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人;
S105,配置一个目标说话人数据集;
S106,自适应训练所述语音转换模型,所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新;通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练;
S107,在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移;
S108,通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换;
S109,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。
2.如权利要求1所述的基于声学后验概率的任意说话人语音转换方法,其特征是,每层所述时延神经网络有1024个节点,输出层是带有353个节点,激活函数为ReLU的softmax层。
3.如权利要求2所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音识别模型能够将每一帧输入匹配到 353 个中文单音素三状态对应的概率;
帧级别的交叉熵函数作为目标函数以最小化预测的错误率。
4.如权利要求3所述的基于声学后验概率的任意说话人语音转换方法,其特征在是,所述LPCNet声码器是数字信号处理和神经网络的结合产物;
所述LPCNet声码器能够将语音信号假设为线性部分和非线性部分;所述线性部分由数字信号处理,所述非线性部分由神经网络拟合。
5.如权利要求4所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述LPCNet声码器的输入是20维特征,所述20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数。
6.如权利要求5所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音转换模型通过中文合成数据集训练;训练集包括20位中文说话者,每个说话者包含200条语句;模型迭代优化了20个周期。
7.一种基于声学后验概率的任意说话人语音转换系统,其特征是,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为所述说话人向量;语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点,包括:
配置一个语音识别模型;所述语音识别模型包括六层时延神经网络;所述时延神经网络是一种多层神经网络,所述时延神经网络能够用于区分平移不变性;
配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;
对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;
预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;所述语音转换模型的深度神经网结构层前后添加说话人编码层,将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人;
配置一个目标说话人数据集;
自适应训练所述语音转换模型,所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新;通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练;
在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移;
通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换;
通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011057900.1A CN112634918B (zh) | 2020-09-29 | 2020-09-29 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011057900.1A CN112634918B (zh) | 2020-09-29 | 2020-09-29 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634918A CN112634918A (zh) | 2021-04-09 |
CN112634918B true CN112634918B (zh) | 2024-04-16 |
Family
ID=75302770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011057900.1A Active CN112634918B (zh) | 2020-09-29 | 2020-09-29 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634918B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345451B (zh) * | 2021-04-26 | 2023-08-22 | 北京搜狗科技发展有限公司 | 一种变声方法、装置及电子设备 |
CN113345452B (zh) * | 2021-04-27 | 2024-04-26 | 北京搜狗科技发展有限公司 | 语音转换方法、语音转换模型的训练方法、装置和介质 |
CN113314101B (zh) * | 2021-04-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN115457969B (zh) * | 2022-09-06 | 2024-10-11 | 平安科技(深圳)有限公司 | 基于人工智能的语音转换方法、装置、计算机设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101666930B1 (ko) * | 2015-04-29 | 2016-10-24 | 서울대학교산학협력단 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN109147758A (zh) * | 2018-09-12 | 2019-01-04 | 科大讯飞股份有限公司 | 一种说话人声音转换方法及装置 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110600046A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于改进的STARGAN和x向量的多对多说话人转换方法 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US20060129399A1 (en) * | 2004-11-10 | 2006-06-15 | Voxonic, Inc. | Speech conversion system and method |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
WO2019023984A1 (en) * | 2017-08-02 | 2019-02-07 | Intel Corporation | SYSTEM AND METHOD FOR INCLUSION OF NEURAL NETWORKS 1 AMONG N ON AN AUTOMATIC LEARNING COMPUTER PLATFORM |
-
2020
- 2020-09-29 CN CN202011057900.1A patent/CN112634918B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101666930B1 (ko) * | 2015-04-29 | 2016-10-24 | 서울대학교산학협력단 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN109147758A (zh) * | 2018-09-12 | 2019-01-04 | 科大讯飞股份有限公司 | 一种说话人声音转换方法及装置 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110600046A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于改进的STARGAN和x向量的多对多说话人转换方法 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
Non-Patent Citations (2)
Title |
---|
基于平均音素模型的音色转换研究;赵薇;唐堂;;中国传媒大学学报(自然科学版);20200225(01);全文 * |
鉴别性最大后验概率线性回归说话人自适应研究;齐耀辉;潘复平;葛凤培;颜永红;;北京理工大学学报;20150915(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112634918A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634918B (zh) | 一种基于声学后验概率的任意说话人语音转换系统及方法 | |
CN107545903B (zh) | 一种基于深度学习的语音转换方法 | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN112115247B (zh) | 一种基于长短时记忆信息的个性化对话生成方法和系统 | |
CN112100350B (zh) | 一种用于强化回复个性化表达的开放域对话方法 | |
CN114842825A (zh) | 情感迁移语音合成方法及系统 | |
CN113360610A (zh) | 基于Transformer模型的对话生成方法及系统 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
KR20240068704A (ko) | 준지도 스피치 인식을 위한 대조 샴 네트워크 | |
CN116741153A (zh) | 一种基于大规模音频表征语言模型的音频理解与生成方法 | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
CN116227503A (zh) | 一种基于ctc的非自回归端到端语音翻译方法 | |
CN116306686A (zh) | 一种多情绪指导的共情对话生成方法 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
CN114281954A (zh) | 一种基于关系图注意力网络的多轮对话回复生成系统及方法 | |
CN117789771A (zh) | 一种跨语言端到端情感语音合成方法及系统 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
Mei et al. | A particular character speech synthesis system based on deep learning | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN114446278A (zh) | 语音合成方法及装置、设备以及存储介质 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN116364097A (zh) | 一种数据处理方法及装置、设备、存储介质 | |
CN114360500A (zh) | 语音识别方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Song Dandan Inventor after: OuYang Peng Inventor before: Song Dandan Inventor before: OuYang Peng Inventor before: Yin Shouyi |
|
GR01 | Patent grant | ||
GR01 | Patent grant |