CN117116282A - 同一声学空间交流增强语音信号的处理方法、装置及介质 - Google Patents
同一声学空间交流增强语音信号的处理方法、装置及介质 Download PDFInfo
- Publication number
- CN117116282A CN117116282A CN202311093043.4A CN202311093043A CN117116282A CN 117116282 A CN117116282 A CN 117116282A CN 202311093043 A CN202311093043 A CN 202311093043A CN 117116282 A CN117116282 A CN 117116282A
- Authority
- CN
- China
- Prior art keywords
- signal
- neural network
- network model
- processing
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 36
- 230000000873 masking effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 17
- 230000000694 effects Effects 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000005764 inhibitory process Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种同一声学空间交流增强语音信号的处理方法、装置及介质,应用于神经网络、本地扩声技术领域。本方法先获取麦克风原始信号以及扬声器参考信号,然后根据扬声器参考信号所含的频率成分得到估计反馈信号,并根据麦克风原始信号以及估计反馈信号得到带噪信号。之后根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取,最后将提取的特征输入神经网络模型以得到目标语音信号,并由扬声器进行播放。本申请通过训练模型来处理麦克风原始信号,能够同时识别稳态及非稳态噪声,提高去噪能力。同时通过扬声器参考信号得到估计反馈信号以及带噪信号,从而解决扬声器非线性失真及系统啸叫问题,进而提高语音交流的效果。
Description
技术领域
本申请涉及神经网络、本地扩声技术领域,特别是涉及一种同一声学空间交流增强语音信号的处理方法、装置及介质。
背景技术
在同一个声学空间内,比如车辆、飞机驾驶舱等,驾驶员-乘客、驾驶员-驾驶员之间直接进行的交流沟通随着环境噪声的变大而变得困难,导致听不清、听错,或产生转头、交头接耳等危险驾驶行为。为解决该问题,目前一般采用类似本地扩声的方法,其通过麦克风获取目标声源的语音信号并将语音信号进行增强处理后由扬声器系统回放出来,从而提升说话人与听众间交流的清晰度和可懂度,减少交流的疲劳度和危险驾驶风险。目前对于声音的处理方式,主要是通过声音信号的变化速率来区分噪声和人声语音,一般将变化速率慢的信号认定为噪声信号,将变化速率快的信号认定为人声信号,然后增强人声信号,并抑制、消除噪声信号。
但是,通过当前的方案,只能消除发动机噪声、风噪、空调等稳态噪声,而无法识别出非稳态噪声,如减速带冲击声、车鸣笛声、雨声等。可见,当前方案无法去除非稳态噪声;且在扬声器播放声音时还存在非线性失真的情况,引起残余反馈回声大甚至产生啸叫、或者双讲语音失真等问题,导致语音交流效果差。
由此可见,如何在语音交流时提高清晰度和可懂度,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种同一声学空间交流增强语音信号的处理方法、装置及介质,以解决在语音交流时去噪声效果差、扬声器非线性失真以及系统啸叫的问题。
为解决上述技术问题,本申请提供一种同一声学空间交流增强语音信号的处理方法,包括:
获取语音信号;其中,所述语音信号包括麦克风原始信号以及扬声器参考信号;
根据所述扬声器参考信号所含的频率成分得到估计反馈信号;
根据所述麦克风原始信号以及所述估计反馈信号得到带噪信号;
根据神经网络模型所需的特征对所述估计反馈信号以及所述带噪信号进行特征提取;所述神经网络模型由训练数据的所述特征训练得到;
将提取的所述特征输入所述神经网络模型以得到目标语音信号。
优选地,所述神经网络模型的输出信号的类型为时域波形、频域幅度谱、频域复数谱、频域掩蔽值中的任意一项;
对应的,所述将提取的所述特征输入所述神经网络模型以得到目标语音信号包括:
根据所述神经网络模型的输出信号的类型进行相应处理以得到所述目标语音信号。
优选地,所述根据所述神经网络模型的输出信号的类型进行相应处理以得到所述目标语音信号包括:
若所述神经网络模型的输出信号为所述时域波形,则直接将所述时域波形作为所述目标语音信号;
若所述神经网络模型的输出信号为所述频域幅度谱,则将所述频域幅度谱乘上带噪信号相位谱后,经快速傅里叶逆变换得到所述目标语音信号;
若所述神经网络模型的输出信号为所述频域复数谱,则直接将所述频域复数谱进行快速傅里叶逆变换得到所述目标语音信号;
若所述神经网络模型的输出信号为所述频域掩蔽值,则将所述频域掩蔽值乘上带噪信号复数谱后,经快速傅里叶逆变换得到所述目标语音信号。
优选地,所述根据所述麦克风原始信号以及所述估计反馈信号得到带噪信号包括:
利用所述麦克风原始信号减去所述估计反馈信号得到包含非线性的残余反馈信号、噪声信号及空间混响语音的所述带噪信号。
优选地,所述训练数据包括:纯净语音信号、噪声信号、空间冲激响应、所述估计反馈信号、所述非线性的残余反馈信号;所述噪声信号包括稳态噪声信号、非稳态噪声信号及啸叫噪声信号。
优选地,由所述训练数据的所述特征训练所述神经网络模型包括:
对所述训练数据进行数据仿真和增广;
由仿真和增广后的所述训练数据的所述特征训练所述神经网络模型。
优选地,在所述根据神经网络模型所需的特征对所述估计反馈信号以及所述带噪信号进行特征提取之后,以及所述将提取的所述特征输入所述神经网络模型以得到目标语音信号之前,还包括:
对提取的所述特征进行前拼帧和/或后拼帧处理;
对应的,所述将提取的所述特征输入所述神经网络模型以得到目标语音信号包括:
将拼帧处理后的所述特征输入所述神经网络模型以得到所述目标语音信号。
为解决上述技术问题,本申请还提供一种同一声学空间交流增强语音信号的处理装置,包括:
获取模块,用于获取语音信号;其中,所述语音信号包括麦克风原始信号以及扬声器参考信号;
第一确定模块,用于根据所述扬声器参考信号所含的频率成分得到估计反馈信号;
第二确定模块,用于根据所述麦克风原始信号以及所述估计反馈信号得到带噪信号;
提取模块,用于根据神经网络模型所需的特征对所述估计反馈信号以及所述带噪信号进行特征提取;所述神经网络模型由训练数据的所述特征训练得到;
输入模块,用于将提取的所述特征输入所述神经网络模型以得到目标语音信号。
为解决上述技术问题,本申请还提供一种同一声学空间交流增强语音信号的处理装置,包括:存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现上述同一声学空间交流增强语音信号的处理方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述同一声学空间交流增强语音信号的处理方法的步骤。
本申请所提供的一种同一声学空间交流增强语音信号的处理方法,先获取语音信号;其中,语音信号包括麦克风原始信号以及扬声器参考信号;然后根据扬声器参考信号所含的频率成分得到估计反馈信号,并根据麦克风原始信号以及估计反馈信号得到带噪信号。之后根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取;神经网络模型由训练数据的特征训练得到,能够消除噪声信号并增强麦克风原始信号中的纯净语音信号,同时解决扬声器的非线性失真及系统反馈啸叫问题。最后将提取的特征输入神经网络模型以得到目标语音信号,并由扬声器进行播放。相较于当前通过声音信号的变化速率来区分人声信号和噪声,导致无法识别非稳态噪声的方案,本申请通过训练模型来处理麦克风原始信号,能够同时识别稳态及非稳态噪声,提高去噪能力。同时通过扬声器参考信号和麦克风原始信号得到估计反馈信号以及带噪信号,从而解决扬声器非线性失真及系统反馈啸叫问题,进而提高语音交流的效果。
本申请还提供了一种同一声学空间交流增强语音信号的处理装置和计算机可读存储介质,与上述方法对应,故具有与上述方法相同的有益效果。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种同一声学空间交流增强语音信号的处理方法的流程图;
图2为本申请实施例提供的同一声学空间交流增强语音信号的处理装置的结构图;
图3为本申请另一实施例提供的同一声学空间交流增强语音信号的处理装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种同一声学空间交流增强语音信号的处理方法、装置及介质,以解决在语音交流时去噪声效果差、扬声器非线性失真以及系统反馈啸叫的问题。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
为解决上述技术问题,本申请实施例提供一种同一声学空间交流增强语音信号的处理方法。图1为本申请实施例提供的一种同一声学空间交流增强语音信号的处理方法的流程图;如图1所示,该方法包括如下步骤:
S10:获取语音信号。
S11:根据扬声器参考信号所含的频率成分得到估计反馈信号。
S12:根据麦克风原始信号以及估计反馈信号得到带噪信号。
S13:根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取。
S14:将提取的特征输入神经网络模型以得到目标语音信号。
需要注意的是,本申请所提到的语音信号至少包括麦克风原始信号以及扬声器参考信号,但并不限于上述两种信号。扬声器参考信号即麦克风原始信号经过处理后由扬声器播放的语音信号,根据扬声器参考信号所含的频率成分可以得到估计反馈信号,利用麦克风原始信号减去估计反馈信号能够得到包含非线性的残余反馈信号、噪声信号及空间混响语音的带噪信号。进而可根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取,最后将提取的特征输入神经网络模型以得到目标语音信号,再通过扬声器即可播放符合要求的目标语音。此外,本申请所用的神经网络模型由训练数据的特征训练得到,训练数据可包括纯净语音信号、噪声信号、空间冲激响应、反馈信号、非线性的残余反馈信号等,而噪声信号可包括稳态、非稳态噪声信号和啸叫噪声信号等。
在训练神经网络模型之前,先要进行数据准备,例如:收集近场纯净语音,如专业录音棚录制的人声音频、高质量合成音等;收集各种不同混响时间的空间冲激响应;收集各种不同程度非线性失真设备录制的反馈信号,并经过线性反馈消除模块得到估计反馈信号及非线性的残余反馈信号;目标场景下的纯噪声信号,如车载情况下的路噪、胎噪、风噪、空调噪声、车鸣笛声、减速带冲击声等,飞机驾驶舱情况下的发动机噪声、风噪等;扩声系统各个不同增益下的啸叫噪声信号。然后,根据信号增强功能需求进行数据仿真和增广。例如,需要支持所有增强功能,那么将近场纯净语音与空间冲激响应进行卷积以及空间频率响应调制,以模拟各种距离/混响情况下的语音信号,再通过预设的信回比、信噪比范围,将语音信号与残余反馈信号、噪声信号以及啸叫噪声进行叠加,得到带噪语音。近场纯净语音与空间冲激响应早期混响部分(通常为直达声至随后的50ms内)进行卷积,得到所需的语音。
然后通过提取带噪语音和估计反馈的特征,如快速傅里叶变换(Fast FourierTransform,FFT)窄带/子带的幅度谱/复数谱、梅尔域/Bark域滤波器组、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等一种特征或多种特征的组合,作为模型训练的输入。因为语音存在时间上的连续性,所以模型输入做前后拼帧处理能够提升模型效果。但向后拼帧会带来延时问题,延时过大时会引起交流增强场景下的重音/回声感问题,所以通常端到端延时控制在15~20ms以内。因此,可以向前拼的帧数多一些,不向后或向后拼的帧数少一些,如帧移4ms,向前拼2帧,当前1帧,向后拼1帧,得到共计4帧的特征输入,此时模型的延时为信号处理重叠相加的1帧以及向后拼的1帧,共计2帧8ms,该延时较小,不会造成听觉上的重音/回声感。此外,模型还可选择对输入特征是否做特征均值方差归一化(Consecutive Mean and Variance Normalization,CMVN),开启后模型对输入数据的绝对幅度不敏感,有利于模型收敛,也有利于音量轻幅度小的信号。模型的类型可选比较多,比如深度神经网络(Deep Neural Network,DNN)、卷积神经网络(ConvolutionalNeural Network,CNN)、长短时记忆神经网络(Long Short Term Memory,LSTM)、前馈序列神经网络(Feedforward Sequential Memory Network,FSMN)、递归神经网络(RecurrentNeural Network,RNN)、门循环单元(Gate Recurrent Unit,GRU)、反卷积神经网络(Deconvolutional Neural Network,DCNN)等一种或多种的组合,需结合设备/芯片的运算能力和存储空间来确定模型的类型和参数量。目前常见的语音信号神经网络增强模型为CNN+LSTM+DCNN类的结构,其在去混响、残余反馈抑制、稳态和非稳态噪声抑制、啸叫抑制等任务上均表现出优良的效果。
对于神经网络模型的损失函数和训练,通常选用目标语音的时域波形、频域幅度谱/复数谱/掩蔽值等作为模型输出的标签。然后在损失函数中对标签和模型输出增强信号的时域波形、频域幅度谱/复数谱/掩蔽值等进行L1/smooth L1/L2范数等计算,同时结合多尺度频域分辨率、语音信噪比、客观语音质量评估等指标,并对各个指标进行加权求和(加权是因为不同的指标存在数量级的差异)。最后,经过深度学习工具和优化器,进行大量数据(通常数千小时以上)的模型训练,多轮迭代后模型达到收敛。收敛后的模型对各种混响、信回比、信噪比情况下的说话人语音信号都具有准确的估计能力,最终得到高质量的人声。
下面以一具体的实施方式对本申请处理语音信号的方案进行说明。
步骤1:获取交流增强系统的麦克风原始信号和扬声器参考信号,经过线性反馈消除模块,得到去除线性反馈的带噪信号及估计反馈信号。
线性反馈消除模块估计的是参考信号所含频率成分的反馈信号,麦克风原始信号减去该估计反馈信号,得到包含残余的非线性反馈信号、环境噪声信号及带空间混响语音的带噪信号。
步骤2:根据预训练模型的输入特征,对带噪信号及估计反馈信号进行特征提取,随后将特征输入模型进行前向计算得到模型输出。
对带噪信号及估计反馈信号分别计算每一帧的特征,该特征与模型训练时保持完全一致,比如频率范围、维数、预加重、拼帧、CMVN等处理,然后输入预先训练好的神经网络模型,模型前向计算得到增强后的语音时域波形、频域幅度谱/复数谱/掩蔽值等。由于神经网络的数据驱动特性,只需根据实际场景要求对训练输入输出数据进行调节,即可实现去混响、残余反馈抑制、稳态和非稳态噪声抑制、啸叫抑制中的一个或多个增强功能的组合。例如,某交流增强系统只需进行残余反馈抑制及噪声抑制,不需要去混响,那么数据准备时只需准备纯净语音、估计反馈/残余反馈信号及目标场景下的纯噪声信号,目标语音和纯净语音一样,不需要卷积空间冲激响应早期混响部分。
步骤3:将模型输出换算得到的增强语音经过数模转换、功放均衡/增益等调节,最终由扬声器系统播放出来,实现交流增强效果。
若模型输出为时域波形,则即为增强语音;若模型输出为频域幅度谱,则幅度谱乘上带噪信号相位谱后经快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)得到增强语音;若模型输出为频域复数谱,则直接经IFFT得到增强语音;若模型输出为频域掩蔽值,则掩蔽值乘上带噪信号复数谱,再经IFFT得到增强语音。
本方案利用神经网络能够进行非线性拟合的特性,通过合理的训练数据(包括语音晚期混响、扬声器线性的反馈信号和非线性的残余反馈信号、稳态噪声和非稳态噪声、各种啸叫噪声等)的仿真和增广,以及恰当的模型结构、参数和损失函数搭配训练,得到的神经网络信号增强模型替代传统方案里的降噪模块,实现一个神经网络模块进行多种语音信号增强功能,包括去混响、残余反馈抑制、稳态和非稳态噪声抑制、啸叫抑制中的一个或多个功能,显著提升增强语音的质量,提升交流的清晰度和可懂度,同时进一步提高系统的最大稳定增益(Maxium Stable Gain,MSG)变化值指标。
本申请实施例提供的方案可以解决扬声器系统的非线性反馈信号,同时可以应对更为恶劣的信回比场景,降低系统对麦克风扬声器放置位置的限制条件,系统的MSG变化值指标能从6~8dB提升至10~20dB,具体跟系统硬件分布、模型参数量大小相关。本方案在抑制稳态噪声的同时,还可以抑制非稳态噪声,大大提升各种噪声情况下增强语音的质量,提升交流的清晰度和可懂度。传统稳态降噪可实现10~15dB降噪深度,而神经网络可达到20~30dB降噪深度,具体跟模型参数量大小相关。对于混响时间稍长(如大于80~100ms)的空间,该方案由于可进行去混响处理,能够提升混响空间内增强语音的质量,提升交流的清晰度和可懂度,空间混响时间越长,提升效果越显著。
本申请实施例所提供的一种同一声学空间交流增强语音信号的处理方法,先获取语音信号;其中,语音信号包括麦克风原始信号以及扬声器参考信号;然后根据扬声器参考信号所含的频率成分得到估计反馈信号,并根据麦克风原始信号以及估计反馈信号得到带噪信号。之后根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取;神经网络模型由训练数据的特征训练得到,能够消除噪声信号并增强麦克风原始信号中的纯净语音信号,同时解决扬声器的非线性失真及系统反馈啸叫问题。最后将提取的特征输入神经网络模型以得到目标语音信号,并由扬声器进行播放。相较于当前通过声音信号的变化速率来区分人声信号和噪声,导致无法识别非稳态噪声的方案,本申请通过训练模型来处理麦克风原始信号,能够同时识别稳态及非稳态噪声,提高去噪能力。同时通过扬声器参考信号和麦克风原始信号得到估计反馈信号以及带噪信号,从而解决扬声器非线性失真及系统反馈啸叫问题,进而提高语音交流的效果。
上述实施例提到,语音信号包括麦克风原始信号和扬声器参考信号,通过对麦克风原始信号的处理,能够增强人声,实现同一声学空间的交流增强。一般情况下,根据麦克风原始信号以及估计反馈信号得到带噪信号的具体方式包括:利用麦克风原始信号减去估计反馈信号得到包含非线性的残余反馈信号、环境噪声及空间混响语音的带噪信号。
上述实施例中并未限定训练数据的具体内容,本申请实施例提供一种具体方案,训练数据包括纯净语音信号、噪声信号、空间冲激响应、估计反馈信号、非线性的残余反馈信号中的任意一项或任意多项;而噪声信号具体包括稳态、非稳态噪声信号和啸叫噪声信号。本实施例中更全面的训练数据能够使神经网络模型实现各种功能。
在实际应用中,训练数据的数据量可能较少,因此可对训练数据进行数据仿真和增广,得到更多的训练数据,并由仿真和增广后的训练数据的特征训练神经网络模型。此外,在根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取之后,以及将提取的特征输入神经网络模型以得到目标语音信号之前,还可对提取的特征进行前拼帧和/或后拼帧处理。因为语音存在时间上的连续性,所以模型输入做前后拼帧处理能够提升模型效果。对应的,将提取的特征输入神经网络模型以得到目标语音信号包括:将拼帧处理后的特征输入神经网络模型以得到目标语音信号。但实际应用时,向后拼帧会带来延时问题,延时过大时会引起交流增强场景下的重音/回声感问题,所以可以向前拼的帧数多一些,不向后或向后拼的帧数少一些。
在具体实施中,神经网络模型的输出信号的类型为时域波形、频域幅度谱、频域复数谱、频域掩蔽值中的任意一项;则对应的,将提取的特征输入神经网络模型以得到目标语音信号包括:根据神经网络模型的输出信号的类型进行相应处理以得到目标语音信号。其中,若神经网络模型的输出信号为时域波形,则直接将时域波形作为目标语音信号;若神经网络模型的输出信号为频域幅度谱,则将频域幅度谱乘上带噪信号相位谱后,IFFT得到目标语音信号;若神经网络模型的输出信号为频域复数谱,则直接将频域复数谱进行IFFT得到目标语音信号;若神经网络模型的输出信号为频域掩蔽值,则将频域掩蔽值乘上带噪信号复数谱后,经IFFT得到目标语音信号。
在上述实施例中,对于同一声学空间交流增强语音信号的处理方法进行了详细描述,本申请还提供同一声学空间交流增强语音信号的处理装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
基于功能模块的角度,本实施例提供一种同一声学空间交流增强语音信号的处理装置,图2为本申请实施例提供的同一声学空间交流增强语音信号的处理装置的结构图,如图2所示,该装置包括:
获取模块10,用于获取语音信号;其中,语音信号包括麦克风原始信号以及扬声器参考信号;
第一确定模块11,用于根据扬声器参考信号所含的频率成分得到估计反馈信号;
第二确定模块12,用于根据麦克风原始信号以及估计反馈信号得到带噪信号;
提取模块13,用于根据神经网络模型所需的特征对估计反馈信号以及带噪信号进行特征提取;神经网络模型由训练数据的特征训练得到;
输入模块14,用于将提取的特征输入神经网络模型以得到目标语音信号。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本实施例提供的同一声学空间交流增强语音信号的处理装置,与上述方法对应,故具有与上述方法相同的有益效果。
基于硬件的角度,本实施例提供了另一种同一声学空间交流增强语音信号的处理装置,图3为本申请另一实施例提供的同一声学空间交流增强语音信号的处理装置的结构图,如图3所示,同一声学空间交流增强语音信号的处理装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例中所提到的同一声学空间交流增强语音信号的处理方法的步骤。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的同一声学空间交流增强语音信号的处理方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于同一声学空间交流增强语音信号的处理方法涉及到的数据等。
在一些实施例中,同一声学空间交流增强语音信号的处理装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图中示出的结构并不构成对同一声学空间交流增强语音信号的处理装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的同一声学空间交流增强语音信号的处理装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:同一声学空间交流增强语音信号的处理方法。
本实施例提供的同一声学空间交流增强语音信号的处理装置,与上述方法对应,故具有与上述方法相同的有益效果。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例描述的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的计算机可读存储介质,与上述方法对应,故具有与上述方法相同的有益效果。
以上对本申请所提供的一种同一声学空间交流增强语音信号的处理方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种同一声学空间交流增强语音信号的处理方法,其特征在于,包括:
获取语音信号;其中,所述语音信号包括麦克风原始信号以及扬声器参考信号;
根据所述扬声器参考信号所含的频率成分得到估计反馈信号;
根据所述麦克风原始信号以及所述估计反馈信号得到带噪信号;
根据神经网络模型所需的特征对所述估计反馈信号以及所述带噪信号进行特征提取;所述神经网络模型由训练数据的所述特征训练得到;
将提取的所述特征输入所述神经网络模型以得到目标语音信号。
2.根据权利要求1所述的同一声学空间交流增强语音信号的处理方法,其特征在于,所述神经网络模型的输出信号的类型为时域波形、频域幅度谱、频域复数谱、频域掩蔽值中的任意一项;
对应的,所述将提取的所述特征输入所述神经网络模型以得到目标语音信号包括:
根据所述神经网络模型的输出信号的类型进行相应处理以得到所述目标语音信号。
3.根据权利要求2所述的同一声学空间交流增强语音信号的处理方法,其特征在于,所述根据所述神经网络模型的输出信号的类型进行相应处理以得到所述目标语音信号包括:
若所述神经网络模型的输出信号为所述时域波形,则直接将所述时域波形作为所述目标语音信号;
若所述神经网络模型的输出信号为所述频域幅度谱,则将所述频域幅度谱乘上带噪信号相位谱后,经快速傅里叶逆变换得到所述目标语音信号;
若所述神经网络模型的输出信号为所述频域复数谱,则直接将所述频域复数谱进行快速傅里叶逆变换得到所述目标语音信号;
若所述神经网络模型的输出信号为所述频域掩蔽值,则将所述频域掩蔽值乘上带噪信号复数谱后,经快速傅里叶逆变换得到所述目标语音信号。
4.根据权利要求1至3任意一项所述的同一声学空间交流增强语音信号的处理方法,其特征在于,所述根据所述麦克风原始信号以及所述估计反馈信号得到带噪信号包括:
利用所述麦克风原始信号减去所述估计反馈信号得到包含非线性的残余反馈信号、噪声信号及空间混响语音的所述带噪信号。
5.根据权利要求4所述的同一声学空间交流增强语音信号的处理方法,其特征在于,所述训练数据包括:纯净语音信号、噪声信号、空间冲激响应、所述估计反馈信号、所述非线性的残余反馈信号;所述噪声信号包括稳态噪声信号、非稳态噪声信号及啸叫噪声信号。
6.根据权利要求5所述的同一声学空间交流增强语音信号的处理方法,其特征在于,由所述训练数据的所述特征训练所述神经网络模型包括:
对所述训练数据进行数据仿真和增广;
由仿真和增广后的所述训练数据的所述特征训练所述神经网络模型。
7.根据权利要求1所述的同一声学空间交流增强语音信号的处理方法,其特征在于,在所述根据神经网络模型所需的特征对所述估计反馈信号以及所述带噪信号进行特征提取之后,以及所述将提取的所述特征输入所述神经网络模型以得到目标语音信号之前,还包括:
对提取的所述特征进行前拼帧和/或后拼帧处理;
对应的,所述将提取的所述特征输入所述神经网络模型以得到目标语音信号包括:
将拼帧处理后的所述特征输入所述神经网络模型以得到所述目标语音信号。
8.一种同一声学空间交流增强语音信号的处理装置,其特征在于,包括:
获取模块,用于获取语音信号;其中,所述语音信号包括麦克风原始信号以及扬声器参考信号;
第一确定模块,用于根据所述扬声器参考信号所含的频率成分得到估计反馈信号;
第二确定模块,用于根据所述麦克风原始信号以及所述估计反馈信号得到带噪信号;
提取模块,用于根据神经网络模型所需的特征对所述估计反馈信号以及所述带噪信号进行特征提取;所述神经网络模型由训练数据的所述特征训练得到;
输入模块,用于将提取的所述特征输入所述神经网络模型以得到目标语音信号。
9.一种同一声学空间交流增强语音信号的处理装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的同一声学空间交流增强语音信号的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的同一声学空间交流增强语音信号的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311093043.4A CN117116282A (zh) | 2023-08-29 | 2023-08-29 | 同一声学空间交流增强语音信号的处理方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311093043.4A CN117116282A (zh) | 2023-08-29 | 2023-08-29 | 同一声学空间交流增强语音信号的处理方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117116282A true CN117116282A (zh) | 2023-11-24 |
Family
ID=88801732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311093043.4A Pending CN117116282A (zh) | 2023-08-29 | 2023-08-29 | 同一声学空间交流增强语音信号的处理方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117116282A (zh) |
-
2023
- 2023-08-29 CN CN202311093043.4A patent/CN117116282A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348595B2 (en) | Voice interface and vocal entertainment system | |
KR101934636B1 (ko) | 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
JP5068653B2 (ja) | 雑音のある音声信号を処理する方法および該方法を実行する装置 | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
JP4244514B2 (ja) | 音声認識方法および音声認識装置 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
CN111031448B (zh) | 回声消除方法、装置、电子设备和存储介质 | |
CN110211602B (zh) | 智能语音增强通信方法及装置 | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
CN117116282A (zh) | 同一声学空间交流增强语音信号的处理方法、装置及介质 | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
CN114220451A (zh) | 音频消噪方法、电子设备和存储介质 | |
Lüke et al. | Creation of a Lombard speech database using an acoustic ambiance simulation with loudspeakers | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Al-Mafrachi et al. | A Robust Acoustic Head Orientation Estimation and Speech Enhancement for In-Car Communication Systems | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
Li et al. | Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement | |
TN et al. | An Improved Method for Speech Enhancement Using Convolutional Neural Network Approach | |
CN114038475A (zh) | 一种基于语谱补偿的单通道语音增强系统 | |
Ma et al. | Investigation of Single Channel Speech Enhancement: A Comparative Study | |
KR101501279B1 (ko) | 인접 범위 내의 시간 또는 주파수 상관관계 기반의 음향학적 스테레오 에코 제거 방법 및 시스템 | |
Bai et al. | Deep Learning Applied to Dereverberation and Sound Event Classification in Reverberant Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |