CN111833893A - 一种基于人工智能的语音增强方法 - Google Patents

一种基于人工智能的语音增强方法 Download PDF

Info

Publication number
CN111833893A
CN111833893A CN202010551206.9A CN202010551206A CN111833893A CN 111833893 A CN111833893 A CN 111833893A CN 202010551206 A CN202010551206 A CN 202010551206A CN 111833893 A CN111833893 A CN 111833893A
Authority
CN
China
Prior art keywords
data
audio
model
generator
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010551206.9A
Other languages
English (en)
Inventor
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yunjia Cloud Calculating Co ltd
Original Assignee
Hangzhou Yunjia Cloud Calculating Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yunjia Cloud Calculating Co ltd filed Critical Hangzhou Yunjia Cloud Calculating Co ltd
Priority to CN202010551206.9A priority Critical patent/CN111833893A/zh
Publication of CN111833893A publication Critical patent/CN111833893A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

本发明公开了一种基于人工智能的语音增强方法。为了克服现有技术数据处理复杂,模型臃肿,训练难度大,计算速度慢,灵活性差的问题;本发明包括以下步骤:S1:训练数据预处理;提取音频数据的时域序列,进行切片处理;S2:模型训练和部署;建立GAN算法模型,根据音频数据模拟进行对抗式训练;将训练完成的GAN算法模型部署到机器的服务器中;S3:模型测试;对测试数据中的带噪音频进行切片处理,在训练完成的GAN算法模型中进行数据除噪与音频重构,完成音频的语音增强;S4:模型评估优化;采用多种方式对语音增强后的音频质量进行评估。本方案基于GAN算法模型,模型结构简单,占用空间小,数据预处理简单,减小了训练难度,能够灵活调用。

Description

一种基于人工智能的语音增强方法
技术领域
本发明涉及一种语音处理技术领域,尤其涉及一种基于人工智能的语音增强方法。
背景技术
在接收语音信号的同时,语音总是不可避免地受到噪声的干扰,或是遇到采音效果差等问题,这些干扰不仅造成语音污染,还会导致语音识别系统性能的恶化。一方面,受噪声污染的音频会恶化人的听感;另一方面,也一定程度上影响了语音识别系统的性能。因此,如何从含噪语音中提取尽可能纯净的原始语音,维持音频的声音强度,改善音频的可听性,是语音识别工作的一项重要内容。语音增强作为一种预处理方案,是改善智能语音服务和提高音频可听性的有效手段。
现有的语音增强的手段,例如,一种在中国专利文献上公开的“语音增强方法”,其公告号CN110767244A,包括:提取各语音帧的声学特征;利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练,利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽,并进行声学特征的增强处理;如果应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形;如果应用到语音识别系统,则将估计到的理想软掩蔽应用到输入语音的声学特征上,得到掩蔽后的声学特征,然后对波形进行重构得到增强后的语音。
现有的语音增强的技术手段数据预处理复杂,需要做频域变换,分帧后还需再做拼接等处理;需先后训练多个模型,全连接结构参数量大,导致网络训练难度大,时间长;在面对一个新的噪声场景时,需要从新进行模型的训练;模型臃肿,计算速度慢。
发明内容
本发明主要解决现有技术数据处理复杂,模型臃肿,训练难度大,计算速度慢,灵活性差的问题;提供一种基于人工智能的语音增强方法,只需要一个GAN模型,就可以完成带噪音频的去噪工作,占用空间小,数据处理过程简单,训练难度减低。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
本发明包括以下步骤:
S1:训练数据预处理;提取音频数据的时域序列,对音频数据进行切片处理;
S2:模型训练和部署;建立GAN算法模型,根据音频数据模拟进行对抗式训练;将训练完成的GAN算法模型部署到机器的服务器中;
S3:模型测试;对测试数据中的带噪音频进行切片处理,再训练完成的GAN算法模型中进行数据除噪与音频重构,完成音频的语音增强;
S4:模型评估优化;采用多种方式对语音增强后的音频质量进行评估。
本方案基于生成对抗网络(GAN)算法模型,模型结构简单,占用空间小,减小了训练难度,能够通过移动介质灵活转移和部署到服务端,满足用户的灵活调用。本方案采用端到端技术,直接对音频的时域序列进行处理,避免了复杂的数据预处理过程;用户只需要提供带噪音频,启动的服务即可自行进行音频切分并完成去噪,重构等过程,最终反馈给用户去除噪声的音频。
作为优选,GAN算法模型包括生成器G和判别器D;
生成器G模拟输入的真实音频数据分布的有效映射,生成与训练数据相关的新样本;
判别器D为二元分类器,判别器D的输入包括生成器G正在模拟的真实音频数据和生成器G模拟生成的新样本。
本方案的GAN算法模型网络结构简单,分为生成器G和判别器D两个部分,全部由卷积层构成,卷积权值共享和局部连接的特性极大减少了网络的参数量,降低训练难度。
作为优选,所述的对抗式训练为生成器G与判别器D的极大极小博弈,极大极小博弈的目标函数为:
Figure BDA0002541538110000021
其中,E()为损失函数;V()为目标函数;X为干净样本,X∈Pdata(X);Z为带噪样本,Z∈PZ(Z);
Figure BDA0002541538110000022
为对生成器G损失函数进行最小化;
Figure BDA0002541538110000023
为对判别器D损失函数进行最大化。
GAN算法模型的对抗性来源于判别器D必须将真实样本X判别为真,将生成器G生成的假样本判别为假,而生成器G为了迷惑判别器D,则需要生成更加“真实”的样本。真实音频数据样本在对抗训练过程中对应于干净样本,生成器G模拟生成的新样本,在对抗训练中为带噪样本。利用干净音频和带噪音频的数据切片对GAN算法模型进行对抗式训练,直到带噪音频通过生成器G重构后足够像干净音频,能“骗过”判别器D。使用对抗式训练,使得带噪样本经过生成器G生成重构后更加逼近干净样本,有效提高语音增强的质量。
作为优选,在所述的极大极小博弈的目标函数中增加约束条件变量,引导生成器G的生成过程和判别器D的判别过程,加入约束条件变量的目标函数为:
Figure BDA0002541538110000024
其中,y为约束条件变量。
GAN算法模型最大的优势是逼近真实数据,但这种不需要预先建模的方法缺点是太过自由,对于音频数据这种采样点很多的情形,基于简单GAN算法模型的结果不太可控。给GAN算法模型加上一些约束,在生成器G和判别器D中均引入条件变量y,使用额外信息对模型增加条件,指导数据的生成过程和判别过程,能够有效解决GAN算法模型面对音频数据这种采样点多的情形时的不可控。
作为优选,所述的步骤S3包括以下步骤:
S31:测试数据预处理;对于测试数据中的带噪音频按照GAN算法模型的输入尺寸进行切片处理;
S32:数据去噪;将带噪音频切片输入训练完成的GAN算法模型,通过生成器G对其进行编码、解码,完成新样本的映射;
S33:音频重构;对于同一个带噪音频的切片,在全部经过生成器G的重构后,按原切分顺序进行拼接,得到和带噪音频采样点数一样的重构音频。
利用训练好的GAN算法模型对带噪音频数据进行处理,通过生成器G生成重构成逼近干净音频的音频数据,完成对带噪音频的除噪和语音增强。
作为优选,所述的训练完成的模型能够部署到机器的服务器中,或者通过移动介质进行移动。本方案能够部署到机器的服务器端或者通过移动介质进行移动,满足灵活调用。
作为优选,对于所述训练完成的模型,根据部署环境的不同,利用部署环境的噪声数据对模型进行微调。本方案能够在新噪声场景下利用新的噪声数据对基础GAN算法模型进行微调,以适应不同的去噪场景,如餐厅,马路,厨房等。不需要重新训练,适应性强,节省训练时间。
作为优选,对于所述的训练数据中的音频数据运用滑动步长为16384*0.5,大小为16384*1的滑动窗口进行采样切片,不足部分补0;对于所述的测试数据中的带噪音频采用滑动步长为16384*1,大小为16384*1的滑动窗口进行采样切片,不足部分补0。完成自动对音频的切片,适应GAN算法模型的输入尺寸,对音频数据的处理简单。
作为优选,步骤S3中所述的多种方式包括语音识别引擎、人工听判和PESQ三种方式。EPSQ为语音质量感性评价,ITU-T P.862建议书提供的客观MOS值评价方法。采用识别重构后的音频来判断语音增强后的质量,能够有效准确地评估使用本方案语音增强后的质量。
作为优选,所述的GAN算法模型支持GPU加速。在硬件条件允许情况下,能够节约大量时间。
本发明的有益效果是:
1.直接对音频的时域序列进行处理,数据处理过程简单。
2.采用GAN算法模型,分为生成器G和判别器D两个部分,网络结构简单,占用空间小,全部由卷积层构成,卷积权值共享和局部连接的特性极大减少了网络的参数量,降低训练难度。
3.使用对抗式训练,使得带噪音频数据经过生成器G生成重构后更加逼近干净音频数据,有效提高语音增强的质量。
4.在新噪声场景下利用新的噪声数据对基础GAN算法模型进行微调,以适应不同的去噪场景,不需要重新训练,适应性强,节省训练难度和时间。
附图说明
图1是本发明的语音增强方法的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
一种基于人工智能的语音增强方法,如图1所示,包括以下步骤:
S1:训练数据预处理。
提取训练数据中音频数据的时域序列,对音频数据进行切片处理。
本方案基于GAN算法模型,所以训练数据中的音频需要切片为适应GAN算法模型输入的尺寸。
以一个时长10秒的16k音频为例,音频共有10*16000=160000个采样点,GAN的输入尺寸为16384,那么用一个大小为16384*1,滑动步长为16384*0.5=8192的滑动窗口对音频进行滑动采样,最后不足16384的部分自动补0。
直接对音频的时域序列进行处理,不需要经过频域变换,分帧后再做拼接等复杂的预处理。数据处理过程简单。
S2:模型训练和部署。
建立GAN算法模型,根据音频数据模拟进行对抗式训练。
GAN算法模型包括生成器G和判别器D。
生成器G模拟输入的音频数据分布的有效映射,生成与训练数据相关的新样本;判别器D为二元分类器,判别器D的输入包括生成器G正在模拟的真实音频数据和生成器G模拟生成的新样本。
采用GAN算法模型,网络结构简单,占用空间小,全部由卷积层构成,卷积权值共享和局部连接的特性极大减少了网络的参数量,降低训练难度。
GAN算法模型的对抗性来源于判别器D必须将真实样本X判别为真,将生成器G生成的假样本判别为假,而生成器G为了迷惑判别器D,则需要生成更加“真实”的样本。
训练数据中的音频数据包括干净音频和带噪音频,利用干净音频和带噪音频的数据切片对GAN算法模型进行对抗式训练,直到带噪音频通过生成器G重构后足够像干净音频,能“骗过”判别器D。
对抗式训练为生成器G与判别器D的极大极小博弈,极大极小博弈的目标函数为:
Figure BDA0002541538110000051
其中,E()为损失函数;V()为目标函数;X为干净样本,X∈Pdata(X);Z为带噪样本,Z∈PZ(Z);
Figure BDA0002541538110000052
为对生成器G损失函数进行最小化;
Figure BDA0002541538110000053
为对判别器D损失函数进行最大化。
使用对抗式训练,使得带噪音频数据经过生成器G生成重构后更加逼近干净音频数据,有效提高语音增强的质量。真实音频数据样本在对抗训练过程中对应于干净样本;生成器G模拟生成的新样本,在对抗训练中为带噪样本。
GAN算法模型最大的优势是逼近真实数据,但这种不需要预先建模的方法缺点是太过自由,对于音频数据这种采样点很多的情形,基于简单GAN算法模型的结果不太可控。
在极大极小博弈的目标函数中增加约束条件变量,引导生成器G的生成过程和判别器D的判别过程,加入约束条件变量的目标函数为:
Figure BDA0002541538110000054
其中,y为约束条件变量。
给GAN算法模型加上一些约束,在生成器G和判别器D中均引入条件变量y,使用额外信息对模型增加条件,指导数据的生成过程和判别过程,能够有效解决GAN算法模型面对音频数据这种采样点多的情形时的不可控。
将训练完成的GAN算法模型部署到机器的服务器中。训练完成的模型能够部署到机器的服务器中,或者通过移动介质进行移动,满足灵活调用。
GAN算法模型支持GPU加速,在硬件条件允许情况下,能够节约大量时间。
对于训练完成的模型,根据部署环境的不同,利用部署环境的噪声数据对模型进行微调。
在新噪声场景下利用新的噪声数据对基础GAN算法模型进行微调,以适应不同的去噪场景,如餐厅,马路,厨房等。不需要重新训练,适应性强,节省训练时间。
S3:模型测试。对测试数据中的带噪音频进行切片处理,训练完成的GAN算法模型进行数据除噪与音频重构,完成音频的语音增强。
S31:测试数据预处理。测试数据是在训练数据外的一批带噪音频。
对于测试数据中的带噪音频按照GAN算法模型的输入尺寸进行切片处理。测试数据相对比于训练数据,测试数据切片处理过程找不需要交叠。即对于测试数据中的带噪音频采用滑动步长为16384*1,大小为16384*1的滑动窗口进行采样切片,不足部分补0。
S32:数据去噪。将带噪音频切片输入训练完成的GAN算法模型,通过生成器G对其进行编码、解码,完成新样本的映射。
S33:音频重构。对于同一个带噪音频的切片,在全部经过生成器G的重构后,按原切分顺序进行拼接,并将最后切片的补0部分去除,得到和带噪音频采样点数一样的重构音频。
利用训练好的GAN算法模型对带噪音频数据进行处理,通过生成器G生成重构成逼近干净音频的音频数据,完成对带噪音频的除噪和语音增强。
S4:模型评估优化。
采用多种方式对语音增强后的音频质量进行评估。多种方式包括语音识别引擎、人工听判和PESQ三种方式。EPSQ为语音质量感性评价,ITU-T P862建议书提供的客观MOS值评价方法。
采用识别重构后的音频来判断语音增强后的质量,能够有效准确地评估使用本方案语音增强后的质量。
在本实施例中,语音增强后的音频在使用语音识别引擎的识别准确率上有了明显提升,在1000个音频的测试样本集中,引擎准确率识别率提升了10.98%;人工判听时,语音增强后的音频跟容易让人接收,明显改善听感;通过PESQ进行带噪音频和增强后音频的评估,增强后的评分从1.851提升到2.244。
本发明直接对音频的时域序列进行处理,数据处理过程简单。采用GAN算法模型,分为生成器G和判别器D两个部分,网络结构简单,占用空间小,全部由卷积层构成,卷积权值共享和局部连接的特性极大减少了网络的参数量,降低训练难度。使用对抗式训练,使得带噪音频数据经过生成器G生成重构后更加逼近干净音频数据,有效提高语音增强的质量。在新噪声场景下利用新的噪声数据对基础GAN算法模型进行微调,以适应不同的去噪场景,不需要重新训练,适应性强,节省训练难度和时间。

Claims (9)

1.一种基于人工智能的语音增强方法,其特征在于,包括以下步骤:
S1:训练数据预处理;提取音频数据的时域序列,对音频数据进行切片处理;
S2:模型训练和部署;建立GAN算法模型,根据音频数据模拟进行对抗式训练;将训练完成的GAN算法模型部署到机器的服务器中;
S3:模型测试;对测试数据中的带噪音频进行切片处理,在训练完成的GAN算法模型中进行数据除噪与音频重构,完成音频的语音增强;
S4:模型评估优化;采用多种方式对语音增强后的音频质量进行评估。
2.根据权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述的GAN算法模型包括生成器G和判别器D;
生成器G模拟输入的真实音频数据分布的有效映射,生成与训练数据相关的新样本;
判别器D为二元分类器,判别器D的输入包括生成器G正在模拟的真实音频数据和生成器G模拟生成的新样本。
3.根据权利要求2所述的一种基于人工智能的语音增强方法,其特征在于,所述的对抗式训练为生成器G与判别器D的极大极小博弈,极大极小博弈的目标函数为:
Figure FDA0002541538100000011
其中,E()为损失函数;V()为目标函数;X为干净样本,X∈Pdata(X);Z为带噪样本,Z∈PZ(Z);
Figure FDA0002541538100000012
为对生成器G损失函数进行最小化;
Figure FDA0002541538100000013
为对判别器D损失函数进行最大化。
4.根据权利要求3所述的一种基于人工智能的语音增强方法,其特征在于,在所述的极大极小博弈的目标函数中增加约束条件变量,引导生成器G的生成过程和判别器D的判别过程,加入约束条件变量的目标函数为:
Figure FDA0002541538100000014
其中,y为约束条件变量。
5.根据权利要求2所述的一种基于人工智能的语音增强方法,其特征在于,所述的步骤S3包括以下步骤:
S31:测试数据预处理;对于测试数据中的带噪音频按照GAN算法模型的输入尺寸进行切片处理;
S32:数据去噪;将带噪音频切片输入训练完成的GAN算法模型,通过生成器G对其进行编码、解码,完成新样本的映射;
S33:音频重构;对于同一个带噪音频的切片,在全部经过生成器G的重构后,按原切分顺序进行拼接,得到和带噪音频采样点数一样的重构音频。
6.根据权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述的训练完成的模型能够部署到机器的服务器中,或者通过移动介质进行移动。
7.根据权利要求1或6所述的一种基于人工智能的语音增强方法,其特征在于,对于所述训练完成的模型,根据部署环境的不同,利用部署环境的噪声数据对模型进行微调。
8.根据权利要求1或5所述的一种基于人工智能的语音增强方法,其特征在于,对于所述的训练数据中的音频数据运用滑动步长为16384*0.5,大小为16384*1的滑动窗口进行采样切片,不足部分补0;对于所述的测试数据中的带噪音频采用滑动步长为16384*1,大小为16384*1的滑动窗口进行采样切片,不足部分补0。
9.根据权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,步骤S3中所述的多种方式包括语音识别引擎、人工听判和PESQ三种方式。
CN202010551206.9A 2020-06-16 2020-06-16 一种基于人工智能的语音增强方法 Pending CN111833893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010551206.9A CN111833893A (zh) 2020-06-16 2020-06-16 一种基于人工智能的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010551206.9A CN111833893A (zh) 2020-06-16 2020-06-16 一种基于人工智能的语音增强方法

Publications (1)

Publication Number Publication Date
CN111833893A true CN111833893A (zh) 2020-10-27

Family

ID=72897792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010551206.9A Pending CN111833893A (zh) 2020-06-16 2020-06-16 一种基于人工智能的语音增强方法

Country Status (1)

Country Link
CN (1) CN111833893A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096673A (zh) * 2021-03-30 2021-07-09 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音处理方法及系统
CN113327573A (zh) * 2021-05-28 2021-08-31 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017112466A1 (en) * 2015-12-21 2017-06-29 Microsoft Technology Licensing, Llc Multi-speaker speech separation
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN111081266A (zh) * 2019-12-18 2020-04-28 暗物智能科技(广州)有限公司 一种训练生成对抗网络、语音增强方法及系统
US10643602B2 (en) * 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017112466A1 (en) * 2015-12-21 2017-06-29 Microsoft Technology Licensing, Llc Multi-speaker speech separation
US10643602B2 (en) * 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN111081266A (zh) * 2019-12-18 2020-04-28 暗物智能科技(广州)有限公司 一种训练生成对抗网络、语音增强方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文常保 等: "《人工神经网络理论及应用》", 31 March 2019 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096673A (zh) * 2021-03-30 2021-07-09 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音处理方法及系统
CN113096673B (zh) * 2021-03-30 2022-09-30 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音处理方法及系统
CN113327573A (zh) * 2021-05-28 2021-08-31 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Taal et al. An algorithm for intelligibility prediction of time–frequency weighted noisy speech
CN109326302A (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
Pascual et al. Towards generalized speech enhancement with generative adversarial networks
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN111833893A (zh) 一种基于人工智能的语音增强方法
CN108877823A (zh) 语音增强方法和装置
CN110102051A (zh) 游戏外挂的检测方法及装置
CN110503967B (zh) 一种语音增强方法、装置、介质和设备
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
CN111710344A (zh) 一种信号处理方法、装置、设备及计算机可读存储介质
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN111354367B (zh) 一种语音处理方法、装置及计算机存储介质
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
Edraki et al. A Spectro-Temporal Glimpsing Index (STGI) for Speech Intelligibility Prediction.
CN111667834B (zh) 一种助听设备及助听方法
Poovarasan et al. Speech enhancement using sliding window empirical mode decomposition and hurst-based technique
CN110299133B (zh) 基于关键字判定非法广播的方法
KR20110061781A (ko) 실시간 잡음 추정에 기반하여 잡음을 제거하는 음성 처리 장치 및 방법
CN108492821B (zh) 一种减弱语音识别中说话人影响的方法
CN110580915A (zh) 基于可穿戴式设备的声源目标识别系统
CN103201793A (zh) 基于语音通信的干扰噪声去除方法和系统
Kalinli Syllable segmentation of continuous speech using auditory attention cues
Bae et al. A neural text-to-speech model utilizing broadcast data mixed with background music

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201027