CN113555028A - 一种用于车联网语音降噪的处理方法 - Google Patents
一种用于车联网语音降噪的处理方法 Download PDFInfo
- Publication number
- CN113555028A CN113555028A CN202110814772.9A CN202110814772A CN113555028A CN 113555028 A CN113555028 A CN 113555028A CN 202110814772 A CN202110814772 A CN 202110814772A CN 113555028 A CN113555028 A CN 113555028A
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- signal
- noise reduction
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000007613 environmental effect Effects 0.000 claims abstract description 6
- 230000002045 lasting effect Effects 0.000 claims abstract description 4
- 230000006855 networking Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明公开了一种用于车联网语音降噪的处理方法,该方法包括:根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;建立降噪模型;基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大集中在‑35dB以下,利用语音处理工具将‑35dB以下持续2s以上的静音部分去除。通过该方法,本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中,免去了传统方法中将语音变换处理的步骤;通过调节不同信噪比参数获得更多的训练样本,提升模型的泛化能力,对于模型处理后的样本,去除静音部分再保存,节省了存储空间。
Description
技术领域
本发明属于网约车技术领域,特别涉及一种用于车联网语音降噪的处理方法。
背景技术
网约车运营过程的录音为还原司乘过程最好的证据,比如司乘人员纠纷,当通过双方申诉理由,不能明确判定责任归属时,调取录音记录,根据真实的录音数据来判定责任归属方。车载录音大都风燥大,还掺有行车过程的导航播报声音,与人声混合,去除难度较大。另外,网约车行车过程的录音都是伴随订单开始和结束的全程的录音,短则几分钟,长则几小时,但是车载录音由于行车和环境问题,普遍存在噪声大,噪音种类多,并且还伴有导航音或者音乐人声一类噪声的特点,非常不利于后续对语音数据的分析和利用。因此去除音频文件中的噪声,人声部分又不失真,是降噪处理的目的所在。
现有技术的缺点:
现有降噪技术方法处理后的语音,容易出现声音丢失,或者降噪不明显,给客服人员或者风控人员提供的便利甚微,有时不得不去听原始录音。因此急需使用一种有效的降噪处理方法,更多的只保留人声,并且去除掉空白的录音,缩短录音的总时长,提高使用录音分析的效率。
发明内容
针对相关技术中的上述技术问题,本发明提出一种用于车联网语音降噪的处理方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种用于车联网语音降噪的处理方法,该方法包括:
根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;
建立降噪模型,其中,降噪模型包括:生成器、判别器和训练参数;
基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大都集中在-35dB以下,利用语音处理工具将-35dB以下持续2s以上的静音部分去除。
进一步的,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音,包括:
获取纯净人声和噪声数据,根据将要混合的纯净语音能量,采用不同的信噪比将已标注噪音的数据进行不同比例缩放,得到更多纯净人声和噪声混合样本数据。
进一步的,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音的计算步骤为:
计算干净语音和原始噪音的能量值;
得到新的语音噪声能量值;
根据信噪比的公式缩放得到新的噪音信号数据;
构造混合的语音样本。
进一步的,所述生成器,包括:
通过多层的卷积神经网络提取输入的语音信号特征;
经过参数线性整流单元,学习训练集带噪声数据分布与干净语音数据分布的映射,生成假样本数据。
进一步的,所述判别器的输入数据,包括:
一部分是来自生成器模仿的真实样本,另一部分是生成器生成的假样本数据。
进一步的,所述生成器通过调整参数去掉噪音部分,得到干净的语音。
进一步的,所述训练参数,包括:原有模型网络结构下,调整相关数据,训练得到模型。
本发明的有益效果:通过该方法,本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中,免去了传统方法中将语音变换处理的步骤;通过调节不同信噪比参数获得更多的训练样本,提升模型的泛化能力,对于模型处理后的样本,去除静音部分再保存,节省了存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的一种用于车联网语音降噪的处理方法的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种用于车联网语音降噪的处理方法,该方法包括:
根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;
建立降噪模型,其中,降噪模型包括:生成器、判别器和训练参数;
基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大都集中在-35dB以下,利用语音处理工具将-35dB以下持续2s以上的静音部分去除。
在本发明的一些实施例中,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音,包括:
获取纯净人声和噪声数据,根据将要混合的纯净语音能量,采用不同的信噪比将已标注噪音的数据进行不同比例缩放,得到更多纯净人声和噪声混合样本数据。
在本发明的一些实施例中,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音的计算步骤为:
计算干净语音和原始噪音的能量值;
得到新的语音噪声能量值;
根据信噪比的公式缩放得到新的噪音信号数据;
构造混合的语音样本。
在本发明的一些实施例中,所述生成器,包括:
通过多层的卷积神经网络提取输入的语音信号特征;
经过参数线性整流单元,学习训练集带噪声数据分布与干净语音数据分布的映射,生成假样本数据。
在本发明的一些实施例中,所述判别器的输入数据,包括:
一部分是来自生成器模仿的真实样本,另一部分是生成器生成的假样本数据。
在本发明的一些实施例中,所述生成器通过调整参数去掉噪音部分,得到更干净的语音。
在本发明的一些实施例中,所述训练参数,包括:原有模型网络结构下,调整相关数据,训练得到模型。
本文采用一种端到端的语音增强方案,利用SEGAN对抗网络生成纯净语音的过程。以往的语音处理,基本基于人工提取特征,对语音进行分桢处理,手动提取MFCC特征后,对频谱再进行后续的处理。SEGAN网络直接基于时域的语音信号提取语音特征,最后生成的语音也直接是时域信号,免去了时域到频域转换和逆转换的过程。输入模型的样本为带有噪声样本的语音数据和纯净的语音数据。SEGAN网络主要有两个部分,生成器和判别器。
样本准备:
由于日常运营过程中产生的语音数据量巨大,但是由于网约车司机非常尊重乘客的意愿,在乘客不愿说话的情况下,司机不能主动和乘客聊天。所以很多订单行程录音基本都是空白噪声,人声部分的数据占比非常小,因此标注人声语音任务非常难。在获取一定量的纯净人声(Clean)和噪声(Noise)数据后,采用不同的信噪比(SNR)将已标注噪音数据根据将要混合的纯净语音能量进行不同比例的缩放,得到更多二者混合样本数据。
根据语音和噪声能量值和需要调整的信噪比为SNR,对噪声信号进行缩放,得到不同的噪声语音,具体计算步骤如下:
1)计算干净语音和原始噪音的能量值
S(t):收集的纯净语音人声部分的语音信号数据
S_dB:纯净人声部分的语音信号数据的能量
N(t):收集的噪声语音信号数据
N_dB:噪声部语音信号数据的能量
2)得到新的语音噪声能量值
N_new_dB=S_dB–SNR;
N_new_dB:构造的新噪声语音信号能量。
SNR:信噪比
3)根据信噪比的公式缩放得到新的噪音信号数据
4)构造混合的语音样本
M(t)=S(t)+N_new(t);
N_new(t):通过缩放得到的新噪音信号数据
对噪声截取或者平铺,以得到跟干净语音等长的混合语音信号。
通过添加不同信噪比的混合方式,能在现有的样本基础上扩大混合样本的多样性,覆盖更多噪声范围内的实际样本,提高模型的泛化能力。
降噪模型:
传统降噪方法一般采用估计噪声和维纳滤波,算法的效果高度依赖于噪声估计的准确性,一般应用在平稳噪声和瞬时噪声。近年来,随着深度学习的出现,也有人提出一种基于RNN模型的降噪算法[1],该算法将语音信号和深度学习结合起来,噪声抑制效果优于传统方法。但是该方法不是端到端的训练模型,需要手动提取语音特征。为了规避这些问题,更深的模型被用在语音的领域,并且自动提取时域的特征用于模型训练,减少了语音信号在解码时相位变换和对齐方面的损失。SEGAN模型结合了在图像领域取得显著效果的GAN模型的思想,应用在含有噪音的语音领域。SEGAN包括生成器(G)和判别器(D)两个部分。
生成器G的网络结构是一个encoder-decoder,auto-encoder通过多层的卷积神经网络提取输入的语音信号特征,再经过PReLUs(参数线性整流单元),主要学习训练集带噪声数据分布与干净语音数据分布的映射,生成新的样本数据,称为假样本数据
判别器:
判别器是一个二分类器,输入数据包括两部分,一部分是来自生成器模仿的真实样本(x),另一部分是生成器生成的假样本数据D需要判定x是真实样本,而是假样本。反过来生成器G通过调整参数去掉噪音部分,得到更接近于干净的语音,以至于最后D判定为真实的干净样本。
这种对抗训练的方式,最后使得G可以生成足够真实的样本,D也可以提取到更接近真实数据的特征,损失函数如下,在G的部分使用L2正则项来限制生成的样本和真实样本的距离。
λ:超参数;
VLSGAN(G):平方误差逻辑损失。
训练参数:
训练集为约40小时的带噪声语音数据,在原有模型网络结构下,调整batch_size为10,learningrate为0.0001,epoch为200,训练得到的模型,语音降噪效果明显,对客服和风控部门人员需要用语音来取证时非常友好,既能保证语音不失真,又能去除掉绝大部分的噪音。
静音处理:
车载录音在行程中有真实人声语音的只有少部分,其余基本都是导航音和环境噪声。而行程录音短则几分钟,长则几小时,对于司乘纠纷用语音求证来说非常困难。
因此,基于上述模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大都集中在-35dB以下,所以可以利用语音处理工具将-35dB以下持续2s以上的静音部分去除,极大的缩短了,语音时长,节省存储空间。去除静音的工具直接利用linux系统ffmpeg工具包实现。
通过该方法,本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中,免去了传统方法中将语音变换处理的步骤;通过调节不同信噪比参数获得更多的训练样本,提升模型的泛化能力,对于模型处理后的样本,去除静音部分再保存,节省了存储空间。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种用于车联网语音降噪的处理方法,其特征在于,包括:
根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;
建立降噪模型,其中,降噪模型包括:生成器、判别器和训练参数;
基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大集中在-35dB以下,利用语音处理工具将-35dB以下持续2s以上的静音部分去除。
2.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音,包括:
获取纯净人声和噪声数据,根据将要混合的纯净语音能量,采用不同的信噪比将已标注噪音的数据进行不同比例缩放,得到更多纯净人声和噪声混合样本数据。
3.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音的计算步骤为:
计算干净语音和原始噪音的能量值;
得到新的语音噪声能量值;
根据信噪比的公式缩放得到新的噪音信号数据;
构造混合的语音样本。
4.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述生成器,包括:
通过多层的卷积神经网络提取输入的语音信号特征;
经过参数线性整流单元,学习训练集带噪声数据分布与干净语音数据分布的映射,生成假样本数据。
5.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述判别器的输入数据,包括:
一部分是来自生成器模仿的真实样本,另一部分是生成器生成的假样本数据。
6.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述生成器通过调整参数去掉噪音部分,得到干净的语音。
7.根据权利要求1所述的一种根据配置开出不同主体和税率的方法,其特征在于,所述训练参数,包括:原有模型网络结构下,调整相关数据,训练得到模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814772.9A CN113555028B (zh) | 2021-07-19 | 2021-07-19 | 一种用于车联网语音降噪的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814772.9A CN113555028B (zh) | 2021-07-19 | 2021-07-19 | 一种用于车联网语音降噪的处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113555028A true CN113555028A (zh) | 2021-10-26 |
CN113555028B CN113555028B (zh) | 2024-08-02 |
Family
ID=78132097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814772.9A Active CN113555028B (zh) | 2021-07-19 | 2021-07-19 | 一种用于车联网语音降噪的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113555028B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040260547A1 (en) * | 2003-05-08 | 2004-12-23 | Voice Signal Technologies | Signal-to-noise mediated speech recognition algorithm |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
CN111179975A (zh) * | 2020-04-14 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
US20200193979A1 (en) * | 2018-12-18 | 2020-06-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for recognizing voice |
CN111341332A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 基于深度神经网络的语音特征增强后置滤波方法 |
CN111564160A (zh) * | 2020-04-21 | 2020-08-21 | 重庆邮电大学 | 一种基于aewgan的语音降噪的方法 |
CN111798875A (zh) * | 2020-07-21 | 2020-10-20 | 杭州芯声智能科技有限公司 | 一种基于三值量化压缩的vad实现方法 |
CN112885375A (zh) * | 2021-01-08 | 2021-06-01 | 天津大学 | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 |
-
2021
- 2021-07-19 CN CN202110814772.9A patent/CN113555028B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040260547A1 (en) * | 2003-05-08 | 2004-12-23 | Voice Signal Technologies | Signal-to-noise mediated speech recognition algorithm |
US20200193979A1 (en) * | 2018-12-18 | 2020-06-18 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for recognizing voice |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
CN111341332A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 基于深度神经网络的语音特征增强后置滤波方法 |
CN111179975A (zh) * | 2020-04-14 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN111564160A (zh) * | 2020-04-21 | 2020-08-21 | 重庆邮电大学 | 一种基于aewgan的语音降噪的方法 |
CN111798875A (zh) * | 2020-07-21 | 2020-10-20 | 杭州芯声智能科技有限公司 | 一种基于三值量化压缩的vad实现方法 |
CN112885375A (zh) * | 2021-01-08 | 2021-06-01 | 天津大学 | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 |
Non-Patent Citations (1)
Title |
---|
王涛;全海燕;: "基于生成对抗网络联合训练的语音分离方法", 信号处理, no. 06, pages 227 - 233 * |
Also Published As
Publication number | Publication date |
---|---|
CN113555028B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
CN105448303A (zh) | 语音信号的处理方法和装置 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
DE10041512A1 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
Jangjit et al. | A new wavelet denoising method for noise threshold | |
CN112634926B (zh) | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
CN114242095B (zh) | 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法 | |
CN113744725B (zh) | 一种语音端点检测模型的训练方法及语音降噪方法 | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN111225317B (zh) | 一种回声消除方法 | |
CN113555028A (zh) | 一种用于车联网语音降噪的处理方法 | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
CN112420018A (zh) | 一种适用于低信噪比环境下语种识别方法 | |
Azirani et al. | Speech enhancement using a Wiener filtering under signal presence uncertainty | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Upadhyay et al. | Single channel speech enhancement utilizing iterative processing of multi-band spectral subtraction algorithm | |
CN103201793A (zh) | 基于语音通信的干扰噪声去除方法和系统 | |
CN118571219B (zh) | 座舱内人员对话增强方法、装置、设备及存储介质 | |
CN114333767A (zh) | 发声者语音抽取方法、装置、存储介质及电子设备 | |
Talbi et al. | A novel approach of speech enhancement based on SBWT and MMSE estimate of spectral amplitude | |
Tabaja et al. | A quantitative analysis of hands-free speech enhancement using real automobile data | |
Unoki et al. | Unified denoising and dereverberation method used in restoration of MTF-based power envelope | |
CN113990341B (zh) | 一种融合滤波与学习的在线语音增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |