CN114283822A - 一种基于伽马通频率倒谱系数的多对一语音转换方法 - Google Patents
一种基于伽马通频率倒谱系数的多对一语音转换方法 Download PDFInfo
- Publication number
- CN114283822A CN114283822A CN202111596691.2A CN202111596691A CN114283822A CN 114283822 A CN114283822 A CN 114283822A CN 202111596691 A CN202111596691 A CN 202111596691A CN 114283822 A CN114283822 A CN 114283822A
- Authority
- CN
- China
- Prior art keywords
- gamma
- sample set
- pass frequency
- voice
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 62
- 230000001537 neural effect Effects 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 210000000721 basilar membrane Anatomy 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001451 polypropylene glycol Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种基于伽马通频率倒谱系数的多对一语音转换方法,包括以下步骤,提取待转换语音样本的伽马通频率倒谱系数特征,输入至训练好的语音内容提取模型中,得到待转换语音样本的语义后验概率图,输入至训练好的CBHG模型中,得到待转换语音样本的伽马通倒谱系数;将待转换语音样本的伽马通倒谱系数输入至训练好的神经声码器中,得到转换后语音。与现有技术相比,本发明具有语音转换清晰度更高的优点。
Description
技术领域
本发明涉及语音转换领域,尤其是涉及一种基于伽马通频率倒谱系数的多对一语音转换方法。
背景技术
语音转换技术可在不改变语音内容的前提下将源说话人的音色、情感、口音等转换为目标人的音色、情感和口音。其潜在的应用场景包括声音伪装、个性化声音合成、以及声纹解锁等。
语音转换技术要求转换后的语音具有良好的自然度和可懂度。同时应与目标说话人的语音在音色、情感、口音等方面具有高度的相似性。
为了保证语音转换的质量,传统的语音转换模型大多采用平行数据对模型进行训练,平行数据是指源说话人和目标说话人说相同内容时的语音信号所构成的成对数据样本。然而,采集高音质的平行数据的难度较大,很耗时,且价格昂贵,因此大大限制了其应用的发展。同时,在语音转换时还要进行时间对齐。受到相关技术性能的约束,对齐过程不可避免会引入误差,从而影响了语音转换的质量。目前,大多语音转换模型采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为输入特征。然而梅尔滤波器组的频率选择特性不能很精确的模拟人耳基底膜的频率选择特性,从而对合成语音的质量造成影响。
另外,在利用目标说话人的基音和相关参数进行语音合成的过程中,大多采用参数声码器,例如STRAIGHT声码器。此类参数声码器的参数需要根据信号处理中一些过于简化的假设进行手动调谐。因此,参数声码器只能提供次优解。另外,生成对抗网络,例如StarGAN的出现极大提高了语音转换的水平。然而,该模型虽然能够取得较好的结果,也能实现多对多的语音转换,但却只能转换训练集中出现的说话人的语音。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于伽马通频率倒谱系数的多对一语音转换方法。
本发明的目的可以通过以下技术方案来实现:
一种基于伽马通频率倒谱系数的多对一语音转换方法,包括以下步骤:
S1、提取待转换语音样本的伽马通频率倒谱系数特征(Gamatone FrequencyCepstral Coefficients,GFCC),将伽马通频率倒谱系数特征输入至训练好的语音内容提取模型中,得到待转换语音样本的语义后验概率图(Phonetic PosteriorGrams,PPGs),将语义后验概率图输入至训练好的CBHG模型中,得到待转换语音样本的伽马通倒谱系数(Gammatone Cepstral Coefficients,GCEP);
S2、将待转换语音样本集的伽马通倒谱系数输入至训练好的神经声码器中,得到转换后的语音;
所述语音内容提取模型的训练过程如下:
A1、从中文TTS语料库中获取第一训练样本集,并对第一训练样本集进行标注;
A2、提取第一训练样本集中样本的伽马通频率倒谱系数特征,输入至语音内容提取模型进行训练;
所述CBHG模型的训练过程如下:
B1、得到训练好的语音内容提取模型后,从目标说话人语料库中获取第二训练集样本,提取第二训练集样本的伽马通频率倒谱系数特征,并输入至语音内容提取模型中,得到第二训练样本集的语义后验概率图。
B2、提取第二训练样本集中样本的伽马通倒谱系数,将第二训练样本集的语义后验概率图作为CBHG模型的输入,将第二训练样本集中样本的伽马通倒谱系数作为CBHG模型的目标输出,训练CBHG模型;
所述神经声码器的训练过程如下:
将第二训练样本集中样本的伽马通倒谱系数作为神经声码器的输入,将第二训练样本集的原始语音作为神经声码器的目标输出,对神经声码器进行训练。
进一步地,所述步骤A1中对第一训练样本集的标注方法包括:使用基于机器学习的Speech-aligner工具对音素边界进行自动标注。
进一步地,所述伽马通频率倒谱系数特征的提取方法包括:
C1、对语音信号进行预加重和分帧;
C2、对分帧后的信号进行短时傅里叶变换;
C3、将经过短时傅里叶变换的信号的幅度谱输入至伽马通滤波器组,得到滤波信号;
C4、提取滤波信号的三次方根为伽马通倒谱系数;
C5、对伽马通频率倒谱系数进行离散余弦变换,得到伽马通频率倒谱系数特征。
进一步地,获取伽马通频率倒谱系数特征后对其进行归一化。
进一步地,所述归一化后的伽马通频率倒谱系数特征fGFCC_norm的公式如下:
其中,fmin表示伽马通频率倒谱系数特征中的最小值组成的矩阵,fmax表示伽马通频率倒谱系数特征中最大值组成的矩阵。
进一步地,所述神经声码器包括生成器和鉴别器,所述生成器用于生成语音信号,所述鉴别器用于判别生成信号的真实性。
进一步地,所述生成器的损失函数Ladv(G,D)表达式如下:
Ladv(G,D)=Ez~N(0,I)[(1-D(G(z)))2]
其中,z表示输入的白噪声,G表示生成器,D表示鉴别器,E表示期望。
进一步地,所述鉴别器的目标函数LD(G,D)表达式如下:
其中,z表示输入的白噪声,G表示生成器,D表示鉴别器,E表示期望,x和Px分别表示目标语音波形及其对应的分布。
进一步地,所述神经声码器所使用的多分辨率短时傅里叶变换损失函数Laux(G),表达式如下:
其中,λ表示短时傅里叶变换损失的个数,单个短时傅里叶变换损失表达式如下:
其中,‖.‖F表示Frobenius正则化,‖.‖1表示L1正则化,z表示输入的白噪声,Pz表示白噪声波形的分布,G表示生成器,D表示鉴别器,E表示期望,x和Px分别表示目标语音波形及其对应的分布,STFT表示短时傅里叶变换,N表示帧数,表示生成的语音波形样本。
进一步地,所述第一训练样本集和第二训练样本集需要进行预处理,所述预处理包括去噪和调整采样率至16kHz。
与现有技术相比,本发明具有以下优点:
1、本发明主要涉及语音内容提取模型、CBHG模型和神经声码器,均围绕伽马通频率倒谱系数特征进行训练,首先由于这种特征很好地模拟人耳基底膜的频率选择特性,从而使转换语音的清晰度和自然度更好;其次由于引入了神经声码器,因此模型对数据的适应能力有所提高,推理速度也有提升;最后由于中文TTS语料库中具有多个说话人的信息,因此通过一次训练可以实现多个人对目标人的语音转换。
2、本发明使用基于机器学习的Speech-aligner对语音进行音素边界标注,从而大大降低了对训练语料库的要求,提高了模型的适应性。
3、本发明对伽马通频率倒谱系数特征进行了归一化处理,便于处理数据,加快模型训练收敛速度。
附图说明
图1为本发明的语音转换流程示意图。
图2为本发明包括训练模型在内的完整流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供了一种基于伽马通频率倒谱系数的多对一语音转换方法,如图1所示,具体包括以下步骤:
步骤S1、提取待转换语音样本的伽马通频率倒谱系数特征,将伽马通频率倒谱系数特征输入至训练好的语音内容提取模型中,得到待转换语音样本的语义后验概率图,将语义后验概率图输入至训练好的CBHG模型中,得到待转换语音样本的伽马通倒谱系数;
步骤S2、将待转换语音样本的伽马通倒谱系数输入至训练好的神经声码器中,得到转换后语音;
其中,语音内容提取模型的训练过程可参考图2中第一列的内容,具体如下:
步骤A1、从具有多个说话人语料的中文TTS语料库中获取第一训练样本集,并对第一训练样本集进行标注,在本实施例中,选用基于机器学习的speech-aligner作为标注工具完成音素标注,并将标注好的音频和标签切分至时长为2s片段以提高数据利用率,音素标注公式如下:
F(xi)=Pj(ts,te)
其中,F(·)表示标注函数。Pj表示音素表中第j个元素,ts、te分别表示音素的起始时间和终止时间。
步骤A2、提取第一训练样本集中样本的伽马通频率倒谱系数特征,输入至语音内容提取模型进行训练,学习率为0.0003,训练迭代次数为1000次,伽马通频率倒谱系数特征的提取步骤如下:
步骤C1、对语音信号进行预加重和分帧处理,其中分帧的帧数N根据以下公式计算:
其中,Tlength表示语音信号的总长度,Twin表示帧长,本实施例优选为0.0375s,Thop表示帧移,本实施例优选为0.016s。
分帧所使用的窗函数w[n]表达式如下:
其中,M表示汉宁窗的窗长,本实施例中优选为600采样点。
步骤C2、对分帧后的信号进行短时傅里叶变换,分帧后数字信号序列的傅里叶变换结果X(k)为:
其中,x(n)表示数字信号序列,L表示傅里叶变换精度,本实施例优选为1024。
步骤C3、将经过短时傅里叶变换的信号的幅度谱|X(k)|输入至伽马通滤波器组,得到滤波信号γi(k)*|X(k)|。其中,γi(k)表示伽马通滤波器组的频谱,对应的冲激响应gi(t)表达式如下:
步骤C4、取滤波信号的三次方根为伽马通频率倒谱系数fGCEP(k)。
步骤C5、对伽马通频率倒谱系数进行离散余弦变换,得到伽马通频率倒谱系数特征fGFCC(n),计算表达式如下:
其中,τ表示广义频率,μ表示比例因子,K表示信号的点数。
为了便于计算,在本实施例中利用如下公式将伽马通频率倒谱系数进行归一化,计算表达式如下:
其中,fmin表示伽马通频率倒谱系数特征中的最小值组成的矩阵,fmax表示伽马通频率倒谱系数特征中最大值组成的矩阵。
本实施例中,CBHG模型的训练过程可参考图2中第二列和第三列的内容,具体步骤如下:
步骤B1、得到训练好的语音内容提取模型后,从目标说话人语料库中获取第二训练样本集,提取第二训练样本集中样本的伽马通频率倒谱系数特征,并输入至语音内容提取模型中,得到第二训练样本集中样本的语义后验概率图。
步骤B2、提取第二训练样本集中样本的伽马通倒谱系数,将第二训练样本集中样本的语义后验概率图作为CBHG模型的输入,将第二训练样本的伽马通倒谱系数作为CBHG模型的目标输出,训练CBHG模型,其中学习率为0.0003,帧移0.016s、帧长0.0375s、傅里叶变换精度1024,迭代次数为5000次。
本实施例中,神经声码器为PARALLEL WaveGAN神经声码器。这是一个非自回归声码器,可实现更好的语音转换效果,其训练过程可参考图2中第五列的内容,具体步骤如下:
将第二训练样本集中样本的伽马通倒谱系数作为神经声码器的输入,将第二训练样本集中样本的原始语音作为神经声码器的目标输出,对神经声码器进行训练。
其中,声码器网络是由生成器(G)鉴别器(D)两个部分组成,生成器用于学习真实的波形分布,并生成信号,鉴别器用于判别生成信号是否为目标人真实样本,生成器的损失函数Ladv(G,D)表达式如下:
Ladv(G,D)=Ez~N(0,I)[(1-D(G(z)))2]
其中,z表示输入的白噪声,G表示生成器,D表示鉴别器,E表示期望。
而鉴别器的目标函数表达式LD(G,D)如下:
其中,x和Px分别表示目标语音波形及其对应的分布。
为了增加PARALLEL WaveGAN神经声码器的稳定性和对抗训练的效率,还在神经声码器中引入了多分辨率短时傅里叶变换损失函数Laux(G),表达式如下:
其中,λ表示短时傅里叶变换损失的个数,单个短时傅里叶变换损失表达式如下:
在本实施例中,所使用到的第一训练集样本和第二训练集样本均需要进行预处理,包括去噪和调整采样率至16KHz等。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (7)
1.一种基于伽马通频率倒谱系数的多对一语音转换方法,其特征在于,包括以下步骤:
S1、提取待转换语音样本的伽马通频率倒谱系数特征,将伽马通频率倒谱系数特征输入至训练好的语音内容提取模型中,得到待转换语音样本的语义后验概率图,将语义后验概率图输入至训练好的CBHG模型中,得到待转换后语音样本的伽马通倒谱系数;
S2、将待转换语音样本的伽马通倒谱系数输入至训练好的神经声码器中,得到转换后语音;
所述语音内容提取模型的训练过程如下:
A1、从中文TTS语料库中获取第一训练样本集,并对第一训练样本集进行标注;
A2、提取第一训练样本集中样本的伽马通频率倒谱系数特征,输入至语音内容提取模型进行训练;
所述CBHG模型的训练过程如下:
B1、得到训练好的语音内容提取模型后,从目标说话人语料库中获取第二训练样本集,提取第二训练样本集中样本的伽马通频率倒谱系数特征,并输入至语音内容提取模型中,得到第二训练样本集中样本的语义后验概率图;
B2、提取第二训练样本集中样本的伽马通倒谱系数,将第二训练样本集的语义后验概率图作为CBHG模型的输入,将第二训练样本集中样本的伽马通倒谱系数作为CBHG模型的目标输出,训练CBHG模型;
所述神经声码器的训练过程如下:
将第二训练样本集中样本的伽马通倒谱系数作为神经声码器的输入,将第二训练样本集样本的原始语音作为神经声码器的目标输出,对神经声码器进行训练。
2.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法,其特征在于,所述步骤A1中对第一训练样本集的标注方法包括:使用基于机器学习的Speech-aligner工具对音素边界进行自动标注。
3.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法,其特征在于,所述伽马通频率倒谱系数特征的提取方法包括:
C1、对语音信号进行预加重和分帧;
C2、对分帧后的信号进行短时傅里叶变换;
C3、将经过短时傅里叶变换的信号的幅度谱输入至伽马通滤波器组,得到滤波信号;
C4、提取滤波信号的三次方根为伽马通倒谱系数;
C5、对伽马通倒谱系数进行离散余弦变换,得到伽马通频率倒谱系数特征。
4.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法,其特征在于,获取伽马通频率倒谱系数特征,并对其进行归一化。
6.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法,其特征在于,所述神经声码器包括生成器和鉴别器,所述生成器用于生成语音信号,所述鉴别器用于判别生成语音信号的真实性。
7.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法,其特征在于,所述第一训练样本集和第二训练样本集需要进行预处理,所述预处理包括去噪和调整采样率至16kHz。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111596691.2A CN114283822A (zh) | 2021-12-24 | 2021-12-24 | 一种基于伽马通频率倒谱系数的多对一语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111596691.2A CN114283822A (zh) | 2021-12-24 | 2021-12-24 | 一种基于伽马通频率倒谱系数的多对一语音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114283822A true CN114283822A (zh) | 2022-04-05 |
Family
ID=80875745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111596691.2A Pending CN114283822A (zh) | 2021-12-24 | 2021-12-24 | 一种基于伽马通频率倒谱系数的多对一语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283822A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117647590A (zh) * | 2023-12-07 | 2024-03-05 | 哈尔滨工业大学 | 基于改进局部均值分解和倒谱系数的钢轨裂纹检测方法 |
CN117935826A (zh) * | 2024-03-22 | 2024-04-26 | 深圳市东微智能科技股份有限公司 | 音频升采样方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160240190A1 (en) * | 2015-02-12 | 2016-08-18 | Electronics And Telecommunications Research Institute | Apparatus and method for large vocabulary continuous speech recognition |
CN106898362A (zh) * | 2017-02-23 | 2017-06-27 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN112466314A (zh) * | 2020-11-27 | 2021-03-09 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
CN113327583A (zh) * | 2021-05-24 | 2021-08-31 | 清华大学深圳国际研究生院 | 一种基于ppg一致性的最优映射跨语言音色转换方法及系统 |
-
2021
- 2021-12-24 CN CN202111596691.2A patent/CN114283822A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160240190A1 (en) * | 2015-02-12 | 2016-08-18 | Electronics And Telecommunications Research Institute | Apparatus and method for large vocabulary continuous speech recognition |
CN106898362A (zh) * | 2017-02-23 | 2017-06-27 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN112466314A (zh) * | 2020-11-27 | 2021-03-09 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
CN113327583A (zh) * | 2021-05-24 | 2021-08-31 | 清华大学深圳国际研究生院 | 一种基于ppg一致性的最优映射跨语言音色转换方法及系统 |
Non-Patent Citations (2)
Title |
---|
张筱 等: "基于多谱特征生成对抗网络的语音转换算法", 《计算机工程与科学》, 31 May 2020 (2020-05-31) * |
王华朋;刘恩;晁亚东;刘元周;倪令格;: "GFCC与韵律特征参数融合的语音情感识别", 中国刑警学院学报, no. 02, 20 April 2020 (2020-04-20) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117647590A (zh) * | 2023-12-07 | 2024-03-05 | 哈尔滨工业大学 | 基于改进局部均值分解和倒谱系数的钢轨裂纹检测方法 |
CN117935826A (zh) * | 2024-03-22 | 2024-04-26 | 深圳市东微智能科技股份有限公司 | 音频升采样方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
CN109767778B (zh) | 一种融合Bi-LSTM和WaveNet的语音转换方法 | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN109524014A (zh) | 一种基于深度卷积神经网络的声纹识别分析方法 | |
Liu et al. | Non-parallel voice conversion with autoregressive conversion model and duration adjustment | |
CN110189766B (zh) | 一种基于神经网络的语音风格转移方法 | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
CN105845126A (zh) | 一种英语有声影像资料自动加注英语字幕的方法 | |
CN112382308A (zh) | 基于深度学习与简单声学特征的零次语音转换系统和方法 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN116364096A (zh) | 一种基于生成对抗网络的脑电信号语音解码方法 | |
CN118762687A (zh) | 一种藏语方言自动辨识方法 | |
CN114550701B (zh) | 一种基于深度神经网络的汉语电子喉语音转换装置及方法 | |
Nikitaras et al. | Fine-grained noise control for multispeaker speech synthesis | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
WO2023102932A1 (zh) | 音频转换方法、电子设备、程序产品及存储介质 | |
CN114420099A (zh) | 一种多声源融合场景的人声检测方法及装置 | |
Mashao et al. | Analysis of LPC/DFT features for an HMM-based alphadigit recognizer | |
Wang et al. | Non-parallel Accent Transfer based on Fine-grained Controllable Accent Modelling | |
Rizvi et al. | Cross-Lingual Speaker Identification for Indian Languages | |
CN119007711B (zh) | 一种基于深度学习的语音识别和人机交互系统及方法 | |
Bawa et al. | Impact of Heterogeneous Spectral Features for enhanced low-resource Speech Recognition System under mismatched conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |