CN114171041A - 基于环境检测的语音降噪方法、装置、设备及存储介质 - Google Patents

基于环境检测的语音降噪方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114171041A
CN114171041A CN202111443604.XA CN202111443604A CN114171041A CN 114171041 A CN114171041 A CN 114171041A CN 202111443604 A CN202111443604 A CN 202111443604A CN 114171041 A CN114171041 A CN 114171041A
Authority
CN
China
Prior art keywords
noise
voice
environmental
target
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111443604.XA
Other languages
English (en)
Inventor
姚霖
田维政
马涤心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Original Assignee
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PKU-HKUST SHENZHEN-HONGKONG INSTITUTION filed Critical PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority to CN202111443604.XA priority Critical patent/CN114171041A/zh
Publication of CN114171041A publication Critical patent/CN114171041A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种基于环境检测的语音降噪方法,包括:获取第一麦克风采集到的目标场所内的环境音,利用环境音训练预构建的原始检测模型得到环境检测模型,获取第二麦克风采集到的目标场所内的含噪语音,并确定对应的声源方位,获取由第三麦克风采集到的所述声源方位的目标语音,利用环境检测模型检测目标语音中的环境噪声,以及利用含噪语音确定目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。本发明还提出一种基于环境检测的语音降噪装置、电子设备以及计算机可读存储介质。本发明可以提高语音降噪的效果。

Description

基于环境检测的语音降噪方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于环境检测的语音降噪方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能的快速发展,智能语音识别技术应用广泛,很多实际应用场景都伴随着环境噪音,会严重影响语音信号的识别,影响语音质量。
现有的语音识别中降噪方法通过建立降噪模型来实现降噪,然而由于现场的环境音比较复杂,普通的语音降噪方法对某些噪声(低频噪声、随机噪声等)难以消除,导致降噪效果不佳。
发明内容
本申请提供了一种基于环境检测的语音降噪方法、装置、设备及存储介质,以提高语音降噪的效果。
第一方面,本申请提供了一种语音降噪方法,所述方法包括:
获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型;
获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位;
获取由第三麦克风采集到的所述声源方位的目标语音;
利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
详细地,所述获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型之前,所述方法还包括:
获取预构建的环境语音训练集合,对所述环境语音训练集合中的语音数据进行数据增强处理,得到标准语音训练集合;
对所述标准语音训练集合中的语音数据进行频域转换,得到梅尔频域数据集合;
利用所述梅尔频域数据集合训练预构建的神经网络,得到所述原始检测模型。
详细地,所述对所述标准语音训练集合中的语音数据进行频域转换,得到梅尔频域数据集合,包括:
利用预设的频域函数对所述标准语音训练集合中的语音数据进行第一频域转换,得到频域数据集合;
利用预设的梅尔频域转换公式对所述频域数据集合进行第二频域转换,得到所述梅尔频域数据集合。
详细地,所述获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型,包括:
依次选取所述原始检测模型中的一层神经网络作为训练层,并冻结所述原始检测模型中未被选取的神经网络;
利用所述第一麦克风采集到的目标场所内的环境音训练所述训练层,直至所述训练层的参数收敛,得到优化训练层;
汇总所有收敛的优化训练层,得到所述环境检测模型。
详细地,所述第二麦克风包括预设的麦克风阵列,其中,所述获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位,包括:
获取所述麦克风阵列采集的多组含噪语音;
基于所述多组含噪语音构建预测声源位置集合,利用预设的目标函数对所述预测声源位置集合进行搜索,得到所述含噪语音的声源方位。
详细地,所述基于所述多组含噪语音构建预测声源位置集合,包括:
利用下述假想声源公式计算所述预测声源位置集合:
Figure BDA0003384138440000021
Figure BDA0003384138440000022
其中,q为预测声源直角坐标矢量,M为麦克风阵列中的麦克风数量,Rlm为第l个和第m个麦克风接收的含噪语音的GCC-PHAT函数,τlm(q)为预测声源到第l个和第m个麦克风的到达时间差,rm为第l个麦克风的直角坐标矢量,rl为第m个麦克风的直角坐标矢量,c为空气中的声速。
详细地,所述利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号,包括:
根据所述含噪语音及所述目标语音计算阻塞矩阵,根据所述目标语音及所述阻塞矩阵得到噪声信号,将所述噪声信号作为所述设备噪声;
利用所述目标语音中的信号减去所述环境噪音及所述设备噪声,得到所述降噪后的声音信号。
第二方面,本申请提供了一种基于环境检测的语音降噪装置,所述装置包括:
环境检测模型构建模块,用于获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型;
声源定位模块,用于获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位;
目标语音获取模块,用于获取由第三麦克风采集到的所述声源方位的目标语音;
语音降噪模块,用于利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于环境检测的语音降噪方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于环境检测的语音降噪方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明通过第一麦克风采集到的目标场所内的环境音对原始检测模型进行训练,可以得到更加适用于目标场所的环境检测模型,可以提高模型对环境音检测的准确率。同时,通过第三麦克风采集所述声源方位的目标语音,利用环境检测模型检测所述目标语音中的环境噪声,以及利用含噪语音确定所述目标语音中的设备噪声,利用环境噪声及设备噪声对目标语音进行降噪,得到降噪后的声音信号,从多个维度对目标语音进行降噪,进一步提高了语音降噪的效果。因此本发明提出的基于环境检测的语音降噪方法、装置、电子设备及计算机可读存储介质,可以提高语音降噪的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于环境检测的语音降噪方法的流程示意图;
图2为本申请实施例提供的一种基于环境检测的语音降噪的装置的模块示意图;
图3为本申请实施例提供的一种实现基于环境检测的语音降噪方法的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于环境检测的语音降噪方法的流程示意图。在本实施例中,所述基于环境检测的语音降噪方法包括:
S1、获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型。
本发明实施例中,所述第一麦克风可以为全向型麦克风,所述目标场所可以为封闭式场所(车辆内部、会议室等)。例如,在语音会议场景下,利用所述第一麦克风24小时连续收集会议开始前及会议开始后整个会议室的环境音,包括说话人声音、空调声、键盘声等。
具体地,所述获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型之前,所述方法还包括:
获取预构建的环境语音训练集合,对所述环境语音训练集合中的语音数据进行数据增强处理,得到标准语音训练集合;
对所述标准语音训练集合中的语音数据进行频域转换,得到梅尔频域数据集合;
利用所述梅尔频域数据集合训练预构建的神经网络,得到所述原始检测模型。
本发明一可选实施例中,可以使用混类(Mixup)增强方法对所述环境语音训练集合中的语音数据进行数据增强,得到增强数据集,汇总所述环境语音训练集合及增强数据集得到所述标准语音训练集合,将所述标准训练集作为训练集,所述原始训练集作为验证集。
本发明实施例中,由于语音的频域信号(频谱)相对于时域信号(波形振幅)具备更强的一致性,且经过加窗等处理后相邻帧的频谱具备连贯性,因此梅尔频域数据相比于波形数据具备更好的可预测性。同时频域数据可以进行帧级别的数据处理,数据量更大,因此更有利于模型训练。
本发明实施例中,所述环境语音训练集合可以为室内环境语音集合,包括敲门声、鼠标点击声、键盘打字声及开门声等。所述预构建的神经网络可以为改进的ResNet50网络,改进之处在于:将ResNet50网络的第一层替换为批量训练(BatchNormalization)层,并在之后将入一层卷积层(激活函数为relu)、一层平均池化层,在ResNet50网络后加入一层全连接层(激活函数为relu)、一层批量训练(BatchNormalization)层和一层最后的全连接层,基于上述改进,可以加速模型训练,同时使得到的模型更加适用于语音数据,提高语音数据检测的准确度。同时,由于ResNet50网络训练时容易过拟合,使得训练得到的模型检测准确率变低,本发明实施例中,可以使用早停法(Early Stopping)在模型训练进入过拟合之前提前终止训练。所述早停法是指在预设的训练轮数范围内,若验证集的loss没有跟随训练集的loss一同下降,则停止训练。其中,本发明实施例中可以使用MSE损失函数计算loss。
详细地,所述对所述标准语音训练集合中的语音数据进行频域转换,得到梅尔频域数据集合,包括:
利用预设的频域函数对所述标准语音训练集合中的语音数据进行第一频域转换,得到频域数据集合;
利用预设的梅尔频域转换公式对所述频域数据集合进行第二频域转换,得到所述梅尔频域数据集合。
本发明一可选实施例中,利用下述函数将所述标准语音训练集合中的语音数据进行频域转换,得到频域数据F:
Figure BDA0003384138440000051
其中,f(t)为所述标准语音训练集合中的语音数据,
Figure BDA0003384138440000052
为傅立叶变换函数。
本发明一可选实施例中,利用下述梅尔频域转换公式对所述频域数据集合进行频域转换:
Figure BDA0003384138440000053
其中,fmel为转换后的梅尔频域数据,F为所述频域数据。
本发明实施例中,通过不同的频域转化公式对语音数据进行频域转化,可以提高梅尔频域数据的转化效率,加快模型训练速度。
具体地,所述获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型,包括:
依次选取所述原始检测模型中的一层神经网络作为训练层,并冻结所述原始检测模型中未被选取的神经网络;
利用所述第一麦克风采集到的目标场所内的环境音训练所述训练层,直至所述训练层的参数收敛,得到优化训练层;
汇总所有收敛的优化训练层,得到所述环境检测模型。
本发明实施例中,由于原始检测模型基于开源训练集训练,对于不同场景(如室内会议)的环境音适应性较差,通过第一麦克风采集到的目标场所内的环境音数据对原始检测模型进行微调,可训练出更准确的模型。
S2、获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位。
本发明一可选实施例中,所述第二麦克风包括预设的麦克风阵列。
具体地,所述获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位,包括:
获取所述麦克风阵列采集的多组含噪语音;
基于所述多组含噪语音构建预测声源位置集合,利用预设的目标函数对所述预测声源位置集合进行搜索,得到所述含噪语音的声源方位。
本发明实施例中,所述麦克风阵列包括至少两个全向麦克风或分布式麦克风,例如,在语音会议室的两侧设置两个全向型麦克风,车辆内部设置的分布式麦克风阵列。
本发明一可选实施例中,所述基于所述多组含噪语音构建预测声源位置集合,包括:
利用下述假想声源公式计算所述预测声源位置集合:
Figure BDA0003384138440000061
Figure BDA0003384138440000062
其中,q为预测声源直角坐标矢量,M为麦克风阵列中的麦克风数量,Rlm为第l个和第m个麦克风接收的含噪语音的GCC-PHAT函数,τlm(q)为预测声源到第l个和第m个麦克风的到达时间差,rm为第l个麦克风的直角坐标矢量,ri为第m个麦克风的直角坐标矢量,c为空气中的声速。
本发明实施例中,通过在假想声源位置计算所有麦克风对接收信号的相位变换加权的GCC-PHAT函数之和,在整个声源空间寻找使SRP(Steered Response Power,可控响应功率)值最大的点即为声源位置。
本发明一可选实施例中,所述预设的目标函数如下所述:
Figure BDA0003384138440000071
其中,q*为所述声源的直角坐标矢量,Q为预设的搜索空间。
本发明实施例中,通过使用麦克风阵列中不同麦克风采集的声音来对声源进行预测,可以提高声源定位的准确率。
本发明另一可选实施例中,还可以使用GCC法(广义互相关,Generialized Cross-Correlation)进行声源定位。
S3、获取由第三麦克风采集到的所述声源方位的目标语音。
本发明实施例中,所述第三麦克风可以为底座带电机的指向型麦克风。由于第一麦克风为全向型麦克风,采集声音时会包括大量环境音,因此单独使用一个指向型麦克风收集声源方位的声音,可以减少环境音的影响,提高降噪效果。
详细地,所述第三麦克风通过下述步骤采集所述声源方位的目标语音,包括:
以所述第二麦克风作为原点,根据所述原点构建位移坐标系;
将所述声源方位作为初始目标点,将所述初始目标点映射至所述位移坐标系所在平面,得到标准目标点;
计算所述标准目标点到所述位移坐标系中坐标轴的距离,根据所述距离计算所述标准目标点的位置坐标,利用所述第二麦克风采集所述位置坐标的声音信号作为所述目标语音。
本发明实施例中,由于声源方位和位移坐标系可能不在同一平面,因此将所述初始目标点映射至所述位移坐标系所在平面进行位置确定,例如,标准目标点到所述位移坐标系X轴的距离为a,到Y轴的距离为b,则标准目标点相对于原点的位置坐标为(b、a)。
S4、利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
本发明实施例中,所述利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号,包括:
根据所述含噪语音及所述目标语音计算阻塞矩阵,根据所述目标语音及所述阻塞矩阵得到噪声信号,将所述噪声信号作为所述设备噪声;
利用所述目标语音中的信号减去所述环境噪音及所述设备噪声,得到所述降噪后的声音信号。
本发明实施例中,可以基于傅里叶正交基的阻塞矩阵构建方法,或基于二项式对消器的阻塞矩阵构建方法,得到阻塞矩阵。同时由于目标场所内会存在多种麦克风,由此不同麦克风设备间可能会互相干扰,从而形成设备噪声。
本发明实施例中,例如,将所述含噪语音及目标语音输入固定波束形成器,通过固定波束形成器输出混合声音信号,并基于傅里叶正交基的阻塞矩阵构建方法得到阻塞矩阵,将阻塞矩阵中的信号输入自适应噪声消除器算法,得到噪声信号,所述自适应噪声消除器算法可以包括:归一化最小均方(Normalized Least Mean Square,NLMS)算法、最小均方误差(Minimum Mean Squared Error,MMSE)算法等。
具体的,利用目标语音中的信号减去环境噪音及设备噪声具体是,利用目标语音中的语音信号减去环境噪音及设备噪声,得到降噪后的声音信号。
本发明通过第一麦克风采集到的目标场所内的环境音对原始检测模型进行训练,可以得到更加适用于目标场所的环境检测模型,可以提高模型对环境音检测的准确率。同时,通过第三麦克风采集所述声源方位的目标语音,利用环境检测模型检测所述目标语音中的环境噪声,以及利用含噪语音确定所述目标语音中的设备噪声,利用环境噪声及设备噪声对目标语音进行降噪,得到降噪后的声音信号,从多个维度对目标语音进行降噪,进一步提高了语音降噪的效果。因此本发明提出的基于环境检测的语音降噪方法,可以提高语音降噪的效果。
如图2所示,本申请实施例提供了一种基于环境检测的语音降噪装置10的模块示意图,所述基于环境检测的语音降噪装置10,包括:所述环境检测模型构建模块11、所述声源定位模块12、所述目标语音获取模块13和所述语音降噪模块14。
所述环境检测模型构建模块11,用于获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型;
所述声源定位模块12,用于获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位;
所述目标语音获取模块13,用于获取由第三麦克风采集到的所述声源方位的目标语音;
所述语音降噪模块14,用于利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
详细地,本申请实施例中所述基于环境检测的语音降噪装置10中的各模块在使用时采用与上述的图1中所述的基于环境检测的语音降噪方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信;
存储器113,用于存放计算机程序;
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的基于环境检测的语音降噪方法,包括:
获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型;
获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位;
获取由第三麦克风采集到的所述声源方位的目标语音;
利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于环境检测的语音降噪方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于环境检测的语音降噪方法,其特征在于,所述方法包括:
获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型;
获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位;
获取由第三麦克风采集到的所述声源方位的目标语音;
利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
2.如权利要求1所述的基于环境检测的语音降噪方法,其特征在于,所述获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型之前,所述方法还包括:
获取预构建的环境语音训练集合,对所述环境语音训练集合中的语音数据进行数据增强处理,得到标准语音训练集合;
对所述标准语音训练集合中的语音数据进行频域转换,得到梅尔频域数据集合;
利用所述梅尔频域数据集合训练预构建的神经网络,得到所述原始检测模型。
3.如权利要求2所述的基于环境检测的语音降噪方法,其特征在于,所述对所述标准语音训练集合中的语音数据进行频域转换,得到梅尔频域数据集合,包括:
利用预设的频域函数对所述标准语音训练集合中的语音数据进行第一频域转换,得到频域数据集合;
利用预设的梅尔频域转换公式对所述频域数据集合进行第二频域转换,得到所述梅尔频域数据集合。
4.如权利要求2所述的基于环境检测的语音降噪方法,其特征在于,所述获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型,包括:
依次选取所述原始检测模型中的一层神经网络作为训练层,并冻结所述原始检测模型中未被选取的神经网络;
利用所述第一麦克风采集到的目标场所内的环境音训练所述训练层,直至所述训练层的参数收敛,得到优化训练层;
汇总所有收敛的优化训练层,得到所述环境检测模型。
5.如权利要求1所述的基于环境检测的语音降噪方法,其特征在于,所述第二麦克风包括预设的麦克风阵列,其中,所述获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位,包括:
获取所述麦克风阵列采集的多组含噪语音;
基于所述多组含噪语音构建预测声源位置集合,利用预设的目标函数对所述预测声源位置集合进行搜索,得到所述含噪语音的声源方位。
6.如权利要求5所述的基于环境检测的语音降噪方法,其特征在于,所述基于所述多组含噪语音构建预测声源位置集合,包括:
利用下述假想声源公式计算所述预测声源位置集合:
Figure FDA0003384138430000021
Figure FDA0003384138430000022
其中,q为预测声源直角坐标矢量,M为麦克风阵列中的麦克风数量,Rlm为第l个和第m个麦克风接收的含噪语音的GCC-PHAT函数,τlm(q)为预测声源到第l个和第m个麦克风的到达时间差,rm为第l个麦克风的直角坐标矢量,rl为第m个麦克风的直角坐标矢量,c为空气中的声速。
7.如权利要求6所述的基于环境检测的语音降噪方法,其特征在于,所述利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号,包括:
根据所述含噪语音及所述目标语音计算阻塞矩阵,根据所述目标语音及所述阻塞矩阵得到噪声信号,将所述噪声信号作为所述设备噪声;
利用所述目标语音中的信号减去所述环境噪音及所述设备噪声,得到所述降噪后的声音信号。
8.一种基于环境检测的语音降噪装置,其特征在于,所述装置包括:
环境检测模型构建模块,用于获取第一麦克风采集到的目标场所内的环境音,利用所述环境音训练预构建的原始检测模型得到环境检测模型;
声源定位模块,用于获取第二麦克风采集到的所述目标场所内的含噪语音,并确定对应的声源方位;
目标语音获取模块,用于获取由第三麦克风采集到的所述声源方位的目标语音;
语音降噪模块,用于利用所述环境检测模型检测所述目标语音中的环境噪声,以及利用所述含噪语音确定所述目标语音中的设备噪声,利用所述环境噪声及所述设备噪声对所述目标语音进行降噪,得到降噪后的声音信号。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的基于环境检测的语音降噪方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于环境检测的语音降噪方法的步骤。
CN202111443604.XA 2021-11-30 2021-11-30 基于环境检测的语音降噪方法、装置、设备及存储介质 Pending CN114171041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111443604.XA CN114171041A (zh) 2021-11-30 2021-11-30 基于环境检测的语音降噪方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111443604.XA CN114171041A (zh) 2021-11-30 2021-11-30 基于环境检测的语音降噪方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114171041A true CN114171041A (zh) 2022-03-11

Family

ID=80481739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111443604.XA Pending CN114171041A (zh) 2021-11-30 2021-11-30 基于环境检测的语音降噪方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114171041A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115038014A (zh) * 2022-06-02 2022-09-09 深圳市长丰影像器材有限公司 一种音频信号处理方法、装置、电子设备和存储介质
WO2024018390A1 (en) * 2022-07-19 2024-01-25 Samsung Electronics Co., Ltd. Method and apparatus for speech enhancement
CN117537918A (zh) * 2023-11-30 2024-02-09 广东普和检测技术有限公司 室内噪声检测方法以及相关装置
CN117746880A (zh) * 2024-02-20 2024-03-22 江苏鑫埭信息科技有限公司 远程会议通信智能降噪方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115038014A (zh) * 2022-06-02 2022-09-09 深圳市长丰影像器材有限公司 一种音频信号处理方法、装置、电子设备和存储介质
WO2024018390A1 (en) * 2022-07-19 2024-01-25 Samsung Electronics Co., Ltd. Method and apparatus for speech enhancement
CN117537918A (zh) * 2023-11-30 2024-02-09 广东普和检测技术有限公司 室内噪声检测方法以及相关装置
CN117746880A (zh) * 2024-02-20 2024-03-22 江苏鑫埭信息科技有限公司 远程会议通信智能降噪方法及系统
CN117746880B (zh) * 2024-02-20 2024-05-14 江苏鑫埭信息科技有限公司 远程会议通信智能降噪方法及系统

Similar Documents

Publication Publication Date Title
CN110491403B (zh) 音频信号的处理方法、装置、介质和音频交互设备
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
CN111239687B (zh) 一种基于深度神经网络的声源定位方法及系统
JP2008079256A (ja) 音響信号処理装置、音響信号処理方法及びプログラム
CN110544490B (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN110726972B (zh) 干扰及高混响环境下使用传声器阵列的语音声源定位方法
Wan et al. Sound source localization based on discrimination of cross-correlation functions
CN106537501A (zh) 混响估计器
CN109859769B (zh) 一种掩码估计方法及装置
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
CN107167770A (zh) 一种混响条件下的麦克风阵列声源定位装置
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
Hu et al. Sound source localization using relative harmonic coefficients in modal domain
CN111798869B (zh) 一种基于双麦克风阵列的声源定位方法
Xu et al. Weighted Spatial Covariance Matrix Estimation for MUSIC Based TDOA Estimation of Speech Source.
Zhang et al. A new regional localization method for indoor sound source based on convolutional neural networks
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
Bai et al. Audio enhancement and intelligent classification of household sound events using a sparsely deployed array
SongGong et al. Acoustic source localization in the circular harmonic domain using deep learning architecture
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
Do et al. Stochastic particle filtering: A fast SRP-PHAT single source localization algorithm
CN115620739A (zh) 指定方向的语音增强方法及电子设备和存储介质
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
CN113948101A (zh) 一种基于空间区分性检测的噪声抑制方法及装置
Wang et al. A robust doa estimation method for a linear microphone array under reverberant and noisy environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination