CN113555028A - 一种用于车联网语音降噪的处理方法 - Google Patents

一种用于车联网语音降噪的处理方法 Download PDF

Info

Publication number
CN113555028A
CN113555028A CN202110814772.9A CN202110814772A CN113555028A CN 113555028 A CN113555028 A CN 113555028A CN 202110814772 A CN202110814772 A CN 202110814772A CN 113555028 A CN113555028 A CN 113555028A
Authority
CN
China
Prior art keywords
noise
voice
signal
noise reduction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110814772.9A
Other languages
English (en)
Inventor
李淑娜
周而重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shouyue Technology Beijing Co Ltd
Original Assignee
Shouyue Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shouyue Technology Beijing Co Ltd filed Critical Shouyue Technology Beijing Co Ltd
Priority to CN202110814772.9A priority Critical patent/CN113555028A/zh
Publication of CN113555028A publication Critical patent/CN113555028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明公开了一种用于车联网语音降噪的处理方法,该方法包括:根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;建立降噪模型;基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大集中在‑35dB以下,利用语音处理工具将‑35dB以下持续2s以上的静音部分去除。通过该方法,本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中,免去了传统方法中将语音变换处理的步骤;通过调节不同信噪比参数获得更多的训练样本,提升模型的泛化能力,对于模型处理后的样本,去除静音部分再保存,节省了存储空间。

Description

一种用于车联网语音降噪的处理方法
技术领域
本发明属于网约车技术领域,特别涉及一种用于车联网语音降噪的处理方法。
背景技术
网约车运营过程的录音为还原司乘过程最好的证据,比如司乘人员纠纷,当通过双方申诉理由,不能明确判定责任归属时,调取录音记录,根据真实的录音数据来判定责任归属方。车载录音大都风燥大,还掺有行车过程的导航播报声音,与人声混合,去除难度较大。另外,网约车行车过程的录音都是伴随订单开始和结束的全程的录音,短则几分钟,长则几小时,但是车载录音由于行车和环境问题,普遍存在噪声大,噪音种类多,并且还伴有导航音或者音乐人声一类噪声的特点,非常不利于后续对语音数据的分析和利用。因此去除音频文件中的噪声,人声部分又不失真,是降噪处理的目的所在。
现有技术的缺点:
现有降噪技术方法处理后的语音,容易出现声音丢失,或者降噪不明显,给客服人员或者风控人员提供的便利甚微,有时不得不去听原始录音。因此急需使用一种有效的降噪处理方法,更多的只保留人声,并且去除掉空白的录音,缩短录音的总时长,提高使用录音分析的效率。
发明内容
针对相关技术中的上述技术问题,本发明提出一种用于车联网语音降噪的处理方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种用于车联网语音降噪的处理方法,该方法包括:
根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;
建立降噪模型,其中,降噪模型包括:生成器、判别器和训练参数;
基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大都集中在-35dB以下,利用语音处理工具将-35dB以下持续2s以上的静音部分去除。
进一步的,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音,包括:
获取纯净人声和噪声数据,根据将要混合的纯净语音能量,采用不同的信噪比将已标注噪音的数据进行不同比例缩放,得到更多纯净人声和噪声混合样本数据。
进一步的,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音的计算步骤为:
计算干净语音和原始噪音的能量值;
得到新的语音噪声能量值;
根据信噪比的公式缩放得到新的噪音信号数据;
构造混合的语音样本。
进一步的,所述生成器,包括:
通过多层的卷积神经网络提取输入的语音信号特征;
经过参数线性整流单元,学习训练集带噪声数据分布与干净语音数据分布的映射,生成假样本数据。
进一步的,所述判别器的输入数据,包括:
一部分是来自生成器模仿的真实样本,另一部分是生成器生成的假样本数据。
进一步的,所述生成器通过调整参数去掉噪音部分,得到干净的语音。
进一步的,所述训练参数,包括:原有模型网络结构下,调整相关数据,训练得到模型。
本发明的有益效果:通过该方法,本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中,免去了传统方法中将语音变换处理的步骤;通过调节不同信噪比参数获得更多的训练样本,提升模型的泛化能力,对于模型处理后的样本,去除静音部分再保存,节省了存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的一种用于车联网语音降噪的处理方法的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种用于车联网语音降噪的处理方法,该方法包括:
根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;
建立降噪模型,其中,降噪模型包括:生成器、判别器和训练参数;
基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大都集中在-35dB以下,利用语音处理工具将-35dB以下持续2s以上的静音部分去除。
在本发明的一些实施例中,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音,包括:
获取纯净人声和噪声数据,根据将要混合的纯净语音能量,采用不同的信噪比将已标注噪音的数据进行不同比例缩放,得到更多纯净人声和噪声混合样本数据。
在本发明的一些实施例中,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音的计算步骤为:
计算干净语音和原始噪音的能量值;
得到新的语音噪声能量值;
根据信噪比的公式缩放得到新的噪音信号数据;
构造混合的语音样本。
在本发明的一些实施例中,所述生成器,包括:
通过多层的卷积神经网络提取输入的语音信号特征;
经过参数线性整流单元,学习训练集带噪声数据分布与干净语音数据分布的映射,生成假样本数据。
在本发明的一些实施例中,所述判别器的输入数据,包括:
一部分是来自生成器模仿的真实样本,另一部分是生成器生成的假样本数据。
在本发明的一些实施例中,所述生成器通过调整参数去掉噪音部分,得到更干净的语音。
在本发明的一些实施例中,所述训练参数,包括:原有模型网络结构下,调整相关数据,训练得到模型。
本文采用一种端到端的语音增强方案,利用SEGAN对抗网络生成纯净语音的过程。以往的语音处理,基本基于人工提取特征,对语音进行分桢处理,手动提取MFCC特征后,对频谱再进行后续的处理。SEGAN网络直接基于时域的语音信号提取语音特征,最后生成的语音也直接是时域信号,免去了时域到频域转换和逆转换的过程。输入模型的样本为带有噪声样本的语音数据和纯净的语音数据。SEGAN网络主要有两个部分,生成器和判别器。
样本准备:
由于日常运营过程中产生的语音数据量巨大,但是由于网约车司机非常尊重乘客的意愿,在乘客不愿说话的情况下,司机不能主动和乘客聊天。所以很多订单行程录音基本都是空白噪声,人声部分的数据占比非常小,因此标注人声语音任务非常难。在获取一定量的纯净人声(Clean)和噪声(Noise)数据后,采用不同的信噪比(SNR)将已标注噪音数据根据将要混合的纯净语音能量进行不同比例的缩放,得到更多二者混合样本数据。
根据语音和噪声能量值和需要调整的信噪比为SNR,对噪声信号进行缩放,得到不同的噪声语音,具体计算步骤如下:
1)计算干净语音和原始噪音的能量值
Figure BDA0003169619100000051
Figure BDA0003169619100000061
S(t):收集的纯净语音人声部分的语音信号数据
S_dB:纯净人声部分的语音信号数据的能量
N(t):收集的噪声语音信号数据
N_dB:噪声部语音信号数据的能量
2)得到新的语音噪声能量值
N_new_dB=S_dB–SNR;
N_new_dB:构造的新噪声语音信号能量。
SNR:信噪比
3)根据信噪比的公式缩放得到新的噪音信号数据
Figure BDA0003169619100000062
4)构造混合的语音样本
M(t)=S(t)+N_new(t);
N_new(t):通过缩放得到的新噪音信号数据
S(t)是真实样本x的语音信号数据,M(t)是构造的混合样本
Figure BDA0003169619100000063
对噪声截取或者平铺,以得到跟干净语音等长的混合语音信号。
通过添加不同信噪比的混合方式,能在现有的样本基础上扩大混合样本的多样性,覆盖更多噪声范围内的实际样本,提高模型的泛化能力。
降噪模型:
传统降噪方法一般采用估计噪声和维纳滤波,算法的效果高度依赖于噪声估计的准确性,一般应用在平稳噪声和瞬时噪声。近年来,随着深度学习的出现,也有人提出一种基于RNN模型的降噪算法[1],该算法将语音信号和深度学习结合起来,噪声抑制效果优于传统方法。但是该方法不是端到端的训练模型,需要手动提取语音特征。为了规避这些问题,更深的模型被用在语音的领域,并且自动提取时域的特征用于模型训练,减少了语音信号在解码时相位变换和对齐方面的损失。SEGAN模型结合了在图像领域取得显著效果的GAN模型的思想,应用在含有噪音的语音领域。SEGAN包括生成器(G)和判别器(D)两个部分。
生成器G的网络结构是一个encoder-decoder,auto-encoder通过多层的卷积神经网络提取输入的语音信号特征,再经过PReLUs(参数线性整流单元),主要学习训练集带噪声数据
Figure BDA0003169619100000071
分布与干净语音数据分布的映射,生成新的样本数据,称为假样本数据
Figure BDA0003169619100000072
Figure BDA0003169619100000073
Figure BDA0003169619100000074
生成的样本数据;
Figure BDA0003169619100000075
真实样本;
Figure BDA0003169619100000076
生成器模型;
判别器:
判别器是一个二分类器,输入数据包括两部分,一部分是来自生成器模仿的真实样本(x),另一部分是生成器生成的假样本数据
Figure BDA0003169619100000081
D需要判定x是真实样本,而
Figure BDA0003169619100000082
是假样本。反过来生成器G通过调整参数去掉噪音部分,得到更接近于干净的语音,以至于最后D判定
Figure BDA0003169619100000083
为真实的干净样本。
这种对抗训练的方式,最后使得G可以生成足够真实的样本,D也可以提取到更接近真实数据的特征,损失函数如下,在G的部分使用L2正则项来限制生成的样本和真实样本的距离。
Figure BDA0003169619100000084
Figure BDA0003169619100000085
生成的样本数据;
Figure BDA0003169619100000086
真实样本;
Figure BDA0003169619100000087
生成器模型;
Figure BDA0003169619100000088
判别器模型;
λ:超参数;
VLSGAN(G):平方误差逻辑损失。
训练参数:
训练集为约40小时的带噪声语音数据,在原有模型网络结构下,调整batch_size为10,learningrate为0.0001,epoch为200,训练得到的模型,语音降噪效果明显,对客服和风控部门人员需要用语音来取证时非常友好,既能保证语音不失真,又能去除掉绝大部分的噪音。
静音处理:
车载录音在行程中有真实人声语音的只有少部分,其余基本都是导航音和环境噪声。而行程录音短则几分钟,长则几小时,对于司乘纠纷用语音求证来说非常困难。
因此,基于上述模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大都集中在-35dB以下,所以可以利用语音处理工具将-35dB以下持续2s以上的静音部分去除,极大的缩短了,语音时长,节省存储空间。去除静音的工具直接利用linux系统ffmpeg工具包实现。
通过该方法,本方法将端到端的深度学习网络用于实际的风燥较大的车载语音处理场景中,免去了传统方法中将语音变换处理的步骤;通过调节不同信噪比参数获得更多的训练样本,提升模型的泛化能力,对于模型处理后的样本,去除静音部分再保存,节省了存储空间。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种用于车联网语音降噪的处理方法,其特征在于,包括:
根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音;
建立降噪模型,其中,降噪模型包括:生成器、判别器和训练参数;
基于降噪模型降噪后的结果,截取部分环境噪声,根据语音能量平均值大集中在-35dB以下,利用语音处理工具将-35dB以下持续2s以上的静音部分去除。
2.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音,包括:
获取纯净人声和噪声数据,根据将要混合的纯净语音能量,采用不同的信噪比将已标注噪音的数据进行不同比例缩放,得到更多纯净人声和噪声混合样本数据。
3.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述根据语音和噪声能量值,调整信噪比,对噪声信号进行缩放,得到不同的噪声语音的计算步骤为:
计算干净语音和原始噪音的能量值;
得到新的语音噪声能量值;
根据信噪比的公式缩放得到新的噪音信号数据;
构造混合的语音样本。
4.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述生成器,包括:
通过多层的卷积神经网络提取输入的语音信号特征;
经过参数线性整流单元,学习训练集带噪声数据分布与干净语音数据分布的映射,生成假样本数据。
5.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述判别器的输入数据,包括:
一部分是来自生成器模仿的真实样本,另一部分是生成器生成的假样本数据。
6.根据权利要求1所述的一种用于车联网语音降噪的处理方法,其特征在于,所述生成器通过调整参数去掉噪音部分,得到干净的语音。
7.根据权利要求1所述的一种根据配置开出不同主体和税率的方法,其特征在于,所述训练参数,包括:原有模型网络结构下,调整相关数据,训练得到模型。
CN202110814772.9A 2021-07-19 2021-07-19 一种用于车联网语音降噪的处理方法 Pending CN113555028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110814772.9A CN113555028A (zh) 2021-07-19 2021-07-19 一种用于车联网语音降噪的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110814772.9A CN113555028A (zh) 2021-07-19 2021-07-19 一种用于车联网语音降噪的处理方法

Publications (1)

Publication Number Publication Date
CN113555028A true CN113555028A (zh) 2021-10-26

Family

ID=78132097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110814772.9A Pending CN113555028A (zh) 2021-07-19 2021-07-19 一种用于车联网语音降噪的处理方法

Country Status (1)

Country Link
CN (1) CN113555028A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260547A1 (en) * 2003-05-08 2004-12-23 Voice Signal Technologies Signal-to-noise mediated speech recognition algorithm
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN111081266A (zh) * 2019-12-18 2020-04-28 暗物智能科技(广州)有限公司 一种训练生成对抗网络、语音增强方法及系统
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN111179975A (zh) * 2020-04-14 2020-05-19 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
US20200193979A1 (en) * 2018-12-18 2020-06-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for recognizing voice
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法
CN111564160A (zh) * 2020-04-21 2020-08-21 重庆邮电大学 一种基于aewgan的语音降噪的方法
CN111798875A (zh) * 2020-07-21 2020-10-20 杭州芯声智能科技有限公司 一种基于三值量化压缩的vad实现方法
CN112885375A (zh) * 2021-01-08 2021-06-01 天津大学 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260547A1 (en) * 2003-05-08 2004-12-23 Voice Signal Technologies Signal-to-noise mediated speech recognition algorithm
US20200193979A1 (en) * 2018-12-18 2020-06-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for recognizing voice
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN111081266A (zh) * 2019-12-18 2020-04-28 暗物智能科技(广州)有限公司 一种训练生成对抗网络、语音增强方法及系统
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法
CN111179975A (zh) * 2020-04-14 2020-05-19 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN111564160A (zh) * 2020-04-21 2020-08-21 重庆邮电大学 一种基于aewgan的语音降噪的方法
CN111798875A (zh) * 2020-07-21 2020-10-20 杭州芯声智能科技有限公司 一种基于三值量化压缩的vad实现方法
CN112885375A (zh) * 2021-01-08 2021-06-01 天津大学 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王涛;全海燕;: "基于生成对抗网络联合训练的语音分离方法", 信号处理, no. 06, pages 227 - 233 *

Similar Documents

Publication Publication Date Title
CN110197670B (zh) 音频降噪方法、装置及电子设备
CN105448303A (zh) 语音信号的处理方法和装置
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN107863099A (zh) 一种新型双麦克风语音检测和增强方法
Jangjit et al. A new wavelet denoising method for noise threshold
CN112634926B (zh) 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112700786A (zh) 语音增强方法、装置、电子设备和存储介质
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
CN114822578A (zh) 语音降噪方法、装置、设备及存储介质
CN111225317B (zh) 一种回声消除方法
CN113555028A (zh) 一种用于车联网语音降噪的处理方法
CN112420018A (zh) 一种适用于低信噪比环境下语种识别方法
Goel et al. Developments in spectral subtraction for speech enhancement
Azirani et al. Speech enhancement using a Wiener filtering under signal presence uncertainty
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Upadhyay et al. Single channel speech enhancement utilizing iterative processing of multi-band spectral subtraction algorithm
CN113343887A (zh) 基于边缘计算与机器学习的多传感器混合故障信号盲分离方法
CN103201793A (zh) 基于语音通信的干扰噪声去除方法和系统
Tabaja et al. A quantitative analysis of hands-free speech enhancement using real automobile data
Talbi et al. A novel approach of speech enhancement based on SBWT and MMSE estimate of spectral amplitude
KR20100056859A (ko) 음성 인식 장치 및 방법
Wang et al. Multi-Task Joint Learning for Embedding Aware Audio-Visual Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination