CN110706719A - 一种语音提取方法、装置、电子设备及存储介质 - Google Patents

一种语音提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110706719A
CN110706719A CN201911117770.3A CN201911117770A CN110706719A CN 110706719 A CN110706719 A CN 110706719A CN 201911117770 A CN201911117770 A CN 201911117770A CN 110706719 A CN110706719 A CN 110706719A
Authority
CN
China
Prior art keywords
filter
blocking
enhancement
voice
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911117770.3A
Other languages
English (en)
Other versions
CN110706719B (zh
Inventor
王秋明
吴富章
邓菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN201911117770.3A priority Critical patent/CN110706719B/zh
Publication of CN110706719A publication Critical patent/CN110706719A/zh
Application granted granted Critical
Publication of CN110706719B publication Critical patent/CN110706719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

本申请提供一种语音提取方法、装置、电子设备及存储介质,该方法包括:对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号;分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波,获得一个增强波束和至少一个阻塞波束;根据一个增强波束和至少一个阻塞波束计算期望方向存在语音的概率;根据期望方向存在语音的概率、一个增强波束和至少一个阻塞波束确定自适应滤波器;使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波,获得目标信号;对目标信号进行傅里叶逆变换,获得目标语音。该方法通过提前计算了期望方向存在目标语音的概率,从而改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。

Description

一种语音提取方法、装置、电子设备及存储介质
技术领域
本申请涉及语音识别的技术领域,具体而言,涉及一种语音提取方法、装置、电子设备及存储介质。
背景技术
目前人工智能的细分领域有很多,例如:语音识别和声纹识别等等。在目前的语音识别领域中,对目标语音进行提取的方法例如:基于相关性大小设计的语音增强自适应算法。该算法适用于背景噪音分离在散射噪声场景,房间中的说话人的语音为目标语音,房间外的街道噪音为背景噪音;若房间中出现点源噪声,例如:电视中某个人说话、另一个方向出现的对话人(即竞争说话人)等,该算法会把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低。
发明内容
本申请实施例的目的在于提供一种语音提取方法、装置、电子设备及存储介质,用于改善把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。
本申请实施例提供了一种语音提取方法,包括:对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号;分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,所述增强滤波器是针对所述语音信号的期望方向构建的滤波器,所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器;根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率;根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器;使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号;对所述目标信号进行傅里叶逆变换,获得目标语音。在上述的实现过程中,根据期望方向构建一个增强滤波器和多个阻塞滤波器,通过一个增强滤波器和多个阻塞滤波器计算该期望方向存在目标语音的概率,最后根据概率设计了自适应滤波器对期望方向的语音进行滤波,获得目标语音。也就是说,通过提前计算了期望方向存在目标语音的概率,从而降低了把点源噪声误识别为目标语音的概率,从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。
可选地,在本申请实施例中,所述根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率,包括:分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值;根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率。在上述的实现过程中,通过一个增强波束和所述至少一个阻塞波束进行平滑处理,以计算所述期望方向存在语音的概率,从而进一步抑制了背景噪声,从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。
可选地,在本申请实施例中,所述分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值,包括:根据
Figure BDA0002273704860000021
分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值;其中,ω为角频率,PT(ω)为所述增强能量平滑值,PN(ω)为所述阻塞能量平滑值,μ为平滑系数,μ满足0≤μ≤1,l代表时间帧,ω代表频带,yT(l,ω)为所述增强波束,yN,m(l,ω)为第m个所述阻塞波束。
可选地,在本申请实施例中,所述根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率,包括:根据
Figure BDA0002273704860000031
对增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率;其中,ω为角频率,p(ω)为所述期望方向存在语音的概率,κ>0为缩放系数,ρ代表所述增强波束与所述阻塞波束的能量比例,PT(ω)为所述增强能量平滑值,PN(ω)为所述阻塞能量平滑值,M为所述麦克风阵列的麦克风数量。
可选地,在本申请实施例中,所述根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器,包括:根据所述期望方向存在语音的概率计算更新步长,所述更新步长用于更新所述自适应滤波器;根据所述更新步长逐帧更新增益向量;根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器。在上述的实现过程中,通过区分每一个时频单元是否存在语音信号的方式,即对存在目标语音的时频区域,采用较低的滤波器更新速率和滤波策略,以避免语音损伤;对不存在目标语音的时频区域,采用较快的滤波器更新速率,来保证噪声抑制效果,从而最大程度地避免了方向误差、硬件失配、混响等因素导致语音失真的情况。
可选地,在本申请实施例中,所述根据所述期望方向存在语音的概率计算更新步长,包括:根据α=α0+(1-α0)p(ω),0<α0<1对所述期望方向存在语音的概率计算更新步长;其中,α为所述更新步长,α0为基础步长,ω为角频率,p(ω)为所述期望方向存在语音的概率。
可选地,在本申请实施例中,所述根据所述更新步长逐帧更新增益向量,包括:根据
Figure BDA0002273704860000041
所述更新步长逐帧更新增益向量;其中,ω为角频率,υ(ω)为所述增益向量,α为所述更新步长,ΦN(ω)为所述阻塞波束的二阶统计量矩阵,l代表时间帧,ω代表频带,yN(l,ω)为所述阻塞波束,
Figure BDA0002273704860000042
代表对所述阻塞波束进行共轭转置运算。
可选地,在本申请实施例中,所述根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器,包括:根据w(ω)=w(ω)+υ(ω)(yT(l,ω)-wH(ω)yN(l,ω))对所述增益向量、所述一个增强波束和所述至少一个阻塞波束进行更新,获得更新后的所述自适应滤波器;其中,ω为角频率,w(ω)为所述自适应滤波器,wH(ω)代表对所述自适应滤波器进行共轭转置运算,υ(ω)为所述增益向量,l代表时间帧,yT(l,ω)为所述增强波束,yN(l,ω)为所述阻塞波束。
可选地,在本申请实施例中,所述使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号,包括:根据z(l,ω)=yT(l,ω)-wH(ω)yN(l,ω)使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号;其中,l代表时间帧,ω为角频率,z(l,ω)为所述目标信号,yT(l,ω)为所述增强波束,yN(l,ω)为所述阻塞波束,w(ω)为所述自适应滤波器,wH(ω)代表对所述自适应滤波器进行共轭转置运算。
可选地,在本申请实施例中,在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束之前,还包括:根据
Figure BDA0002273704860000051
针对所述语音信号的期望方向构建滤波器,获得所述增强滤波器;其中,ω为角频率,θTarg为所述期望方向,hSD(ω,θTarg)代表角频率为ω且期望方向为θTarg的所述增强滤波器,Γi,j(ω)代表第i个麦克风和第j个麦克风的噪音相关性系数,Γ(ω)为噪音相关性系数矩阵,所述噪音相关性系数矩阵Γ(ω)由多个噪音相关性系数Γi,j(ω)组成,ε为对角因子,M为所述麦克风阵列的麦克风数量,I为M维的单位矩阵,d(ω,θTarg)为所述期望方向为θTarg且角频率为ω的导向矢量,dH(ω,θTarg)为对所述导向矢量进行共轭转置运算,e为自然常数,j表示第j个麦克风,τm,m=2,...,M表示第m个麦克风相比第一个麦克风的时间延迟,sinc(x)代表计算x的辛格函数,δi,j为第i个麦克风和第j个麦克风之间的距离,c为声音在空气中的传播速度。
可选地,在本申请实施例中,在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束之前,还包括:根据
Figure BDA0002273704860000052
针对所述语音信号的非期望方向构建滤波器,获得所述阻塞滤波器;其中,
Figure BDA0002273704860000053
代表角频率为ω且方向为
Figure BDA0002273704860000054
的所述阻塞滤波器,M为所述麦克风阵列的麦克风数量,
Figure BDA0002273704860000055
代表所述阻塞滤波器的方向与所述期望方向的角度差值,m=1,...,M-1代表第1个麦克风至第M-1个麦克风中的任一个麦克风,即第m个麦克风。
可选地,在本申请实施例中,所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,包括:根据
Figure BDA0002273704860000061
分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束;其中,l代表时间帧,ω代表频带,yT(l,ω)为所述增强波束,yN,m(l,ω)为第m个所述阻塞波束,ω为角频率,θTarg为所述期望方向,hSD(ω,θTarg)代表角频率为ω且期望方向为θTarg的所述增强滤波器,
Figure BDA0002273704860000062
代表对所述增强滤波器进行共轭转置运算,代表角频率为ω且方向为
Figure BDA0002273704860000064
的所述阻塞滤波器,
Figure BDA0002273704860000065
代表对所述阻塞滤波器进行共轭转置运算,y(l,ω)为所述频域信号。
本申请实施例还提供了一种语音提取装置,包括:第一变换模块,用于对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号;波束获得模块,用于分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,所述增强滤波器是针对所述语音信号的期望方向构建的滤波器,所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器;概率计算模块,用于根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率;第一确定模块,用于根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器;第二变换模块,用于使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号;语音获得模块,用于对所述目标信号进行傅里叶逆变换,获得目标语音。
可选地,在本申请实施例中,所述概率计算模块包括:第一获得模块,用于分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值;第一计算模块,用于根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率。
可选地,在本申请实施例中,所述第一确定模块包括:第二计算模块,用于根据所述期望方向存在语音的概率计算更新步长,所述更新步长用于更新所述自适应滤波器;逐帧更新模块,用于根据所述更新步长逐帧更新增益向量;第二确定模块,用于根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如上所述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的语音提取方法流程示意图;
图2示出的本申请实施例提供正东方向的增强波束的示意图;
图3示出的本申请实施例提供东北方向的阻塞波束的示意图;
图4示出的本申请实施例提供正北方向的阻塞波束的示意图;
图5示出的本申请实施例提供西北方向的阻塞波束的示意图;
图6示出的本申请实施例提供的麦克风阵列采集的语音信号的频谱示意图;
图7示出的本申请实施例提供的提取正东方向的目标语音的频谱示意图;
图8示出的本申请实施例提供的语音提取装置结构示意图;
图9示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例中的语音提取方法之前,先介绍本申请实施例所涉及的一些概念,本申请实施例所涉及的一些概念如下:
人工智能(Artificial Intelligence,AI),是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
语音识别(Voice Recognition),是指与机器进行语音交流相关的技术或者学科,即让机器明白人类说的话。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、前端处理等等。这里的前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。
傅里叶变换(Fourier Transform,FT),傅里叶变换有多个中文译名,常见的有“付立叶变换”、“傅里叶转换”、“傅氏转换”、“傅氏变换”等等,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合,应用于信号分析中的方法例如:许多波形可作为信号的成分,比如正弦波、方波、锯齿波等,傅里叶变换用正弦波作为信号的成分。
滤波器(filter),在电路中是指由电容、电感和电阻组成的滤波电路。滤波器可以对电源线中特定频率的频点或该频点以外的频率进行有效滤除,得到一个特定频率的电源信号,或消除一个特定频率后的电源信号。在本申请实施例中的滤波器是指,以输入和输出信号的统计特性的估计为依据,采取特定算法地调整滤波器系数,使其获得期望数据的一种算法或装置。
需要说明的是,本申请实施例提供的语音提取方法可以由电子设备来执行,这里的电子设备包括:具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能音响、录音笔、手机、遥控器、个人电脑、网络交换机、网络路由器或台式主机等;当然这里的电子设备也可以是服务器,该服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
本申请实施例提供的语音提取方法的应用场景包括但不限于语音识别领域,即该方法可以从包括噪声的语音信号中识别出目标语音,本申请实施例提供的语音提取方法的应用主体也包括但不限于:智能音响、录音笔、会议转录系统和智能家居设备等语音交互类产品。为了便于理解和说明,下面以语音识别领域中的目标语音识别为例进行具体地说明:
请参见图1示出的本申请实施例提供的语音提取方法流程示意图;本申请实施例提供了一种语音提取方法,包括:
步骤S110:对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号。
麦克风阵列(Microphone Array,MA),从字面上,指的是麦克风的排列,也就是说,由预设数量的声学传感器(例如麦克风)组成,且用来对声场的空间特性进行采样并处理的系统。这里的预设数量是指至少两个,具体地例如:6+1个麦克风组成的麦克风环形阵列,其中,6个麦克风等角度差分布在一个圆的圆周上,而剩余的1个麦克风设置在该圆的圆心上,从而构成麦克风环形阵列。
语音信号(Voice Signal,VS),是指通过上述麦克风阵列采集的语音数字信号,该语音信号中包括目标语音和背景噪声,对语音信号进行处理的目的在于,抑制或者阻塞该语音信号中的背景噪声,或/和增强该语音信号中的目标语音,从而达到从语音信号中提取到纯度较高的目标语音。
其中,对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号的具体实施方式例如:对语音信号y(t)进行傅里叶变换,获得频域信号y(l,ω);其中,l表示时间帧,ω表示频带,t代表时间,y(t)表示为该语音信号,y(l,ω)表示获得的频域信号。
在步骤S110之后,执行步骤S120:分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波,获得一个增强波束和至少一个阻塞波束。
增强滤波器,是指针对语音信号的期望方向构建的滤波器,如上所描述的,语音信号中包括目标语音和背景噪声,采用上述麦克风阵列采集的语音信号中的期望方向是可能存在目标语音的,因此,增强滤波器的作用是针对期望方向的目标语音进行信号增强的。
需要说明的是,这里的期望方向是指已知目标语音相对于麦克风阵列的方向,具体的例子例如:麦克风阵列为上述的6+1个麦克风组成的麦克风环形阵列,假设需要提取麦克风阵列的目标方向为正东方向,即需要提取正东方向(即0度方向或者时钟上的3点钟方向)说话人的语音,那么麦克风阵列的正东方向就是期望方向;干扰源分别设置在正西方向(即180度方向或者时钟上的9点钟方向)和正北方向(即90度方向或者时钟上的12点钟方向),其中,正西方向和正北方向均是非期望方向。
可以理解的是,在具体的实施过程中,增强滤波器的获得方式有很多种,这里举例说明增强滤波器的其中一种获得方式如下:
根据
Figure BDA0002273704860000111
针对语音信号的期望方向构建滤波器,获得增强滤波器;
其中,ω为角频率,θTarg为期望方向,hSD(ω,θTarg)代表角频率为ω且期望方向为θTarg的增强滤波器,Γi,j(ω)代表第i个麦克风和第j个麦克风的噪音相关性系数,Γ(ω)为噪音相关性系数矩阵,噪音相关性系数矩阵Γ(ω)由多个噪音相关性系数Γi,j(ω)组成,ε为对角因子,M为麦克风阵列的麦克风数量,I为M维的单位矩阵,d(ω,θTarg)为期望方向为θTarg且角频率为ω的导向矢量,dH(ω,θTarg)为对导向矢量进行共轭转置运算,e为自然常数,j表示第j个麦克风,τm,m=2,...,M表示第m个麦克风相比第一个麦克风的时间延迟,sinc(x)代表计算x的辛格函数,δi,j为第i个麦克风和第j个麦克风之间的距离,c为声音在空气中的传播速度。
阻塞滤波器,是指针对语音信号的非期望方向构建的滤波器,如上所描述的,语音信号中包括目标语音和背景噪声。可以理解的是,如果期望方向上包括目标语音,那么非期望方向上就可能存在背景噪音,因此,阻塞滤波器的作用是针对非期望方向的背景噪声进行信号抑制或者阻塞的。具体的例子例如:需要提取麦克风阵列的正东方向说话人的语音,那么麦克风阵列的非正东方向的语音信号就是背景噪声,这里的非正东方向可以是正北方向,也可以是正南方向。这里的非期望方向以在上面的描述中解释过,因此,这里不再对其进行解释说明。
可以理解的是,在具体的实施过程中,阻塞滤波器的获得方式有很多种,这里仅举其中一种方式为例进行说明如下:
根据
Figure BDA0002273704860000121
针对语音信号的非期望方向构建滤波器,获得阻塞滤波器;
其中,代表角频率为ω且方向为
Figure BDA0002273704860000123
的阻塞滤波器,M为麦克风阵列的麦克风数量,
Figure BDA0002273704860000124
代表阻塞滤波器的方向与期望方向的角度差值,m=1,...,M-1代表第1个麦克风至第M-1个麦克风中的任一个麦克风,即第m个麦克风。
其中,在具体实施过程中,步骤S120的具体实施方式有很多种,这里仅列举一种具体的实施方式,该实施方式可以例如下面的描述:
根据
Figure BDA0002273704860000125
分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波,获得一个增强波束和至少一个阻塞波束;
其中,l代表时间帧,ω代表频带,yT(l,ω)为增强波束,yN,m(l,ω)为第m个阻塞波束,ω为角频率,θTarg为期望方向,hSD(ω,θTarg)代表角频率为ω且期望方向为θTarg的增强滤波器,代表对增强滤波器进行共轭转置运算,
Figure BDA0002273704860000132
代表角频率为ω且方向为
Figure BDA0002273704860000133
的阻塞滤波器,
Figure BDA0002273704860000134
代表对阻塞滤波器进行共轭转置运算,y(l,ω)为频域信号。
其中,这里的增强波束,是指使用上述增强滤波器以及滤波方法对频域信号进行滤波获得的增强波束;这里的阻塞波束,是指使用上述阻塞滤波器以及滤波方法对频域信号进行滤波获得的阻塞波束。这里的增强波束和阻塞波束的具体图示例如:获得的增强波束的波瓣图可参见图2,获得的阻塞波束的波瓣图可参见图3至图5,其中,图2示出的本申请实施例提供正东方向的增强波束的示意图;图3示出的本申请实施例提供东北方向的阻塞波束的示意图;图4示出的本申请实施例提供正北方向的阻塞波束的示意图;图5示出的本申请实施例提供西北方向的阻塞波束的示意图。
在步骤S120之后,执行步骤S130:根据一个增强波束和至少一个阻塞波束计算期望方向存在语音的概率。
在本申请实施例的一些实施方式中,步骤S130可以包括如下步骤:
步骤S131:分别对一个增强波束和至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值。
平滑处理,是指对上述获得的一个增强波束输出的频谱和至少一个阻塞波束输出的频谱进行平滑;其中,平滑处理的实施方式有很多种,举其中一种实施方式为例,该实施方式如下面的描述:
根据
Figure BDA0002273704860000141
分别对一个增强波束和至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值;
其中,ω为角频率,PT(ω)为增强能量平滑值,PN(ω)为阻塞能量平滑值,μ为平滑系数,μ满足0≤μ≤1,l代表时间帧,ω代表频带,yT(l,ω)为增强波束,yN,m(l,ω)为第m个阻塞波束。
步骤S132:根据增强能量平滑值和阻塞能量平滑值计算期望方向存在语音的概率。
其中,该步骤的具体实施方式可以例如下面的描述:
根据
Figure BDA0002273704860000142
对增强能量平滑值和阻塞能量平滑值计算期望方向存在语音的概率;
其中,ω为角频率,p(ω)为期望方向存在语音的概率,κ>0为缩放系数,ρ代表增强波束与阻塞波束的能量比例,PT(ω)为增强能量平滑值,PN(ω)为阻塞能量平滑值,M为麦克风阵列的麦克风数量。这里的期望方向存在语音的概率可以为一个sigmod函数,在具体的实施过程中,也可以是一个其它的函数,例如:tanh函数、Relu函数和maxout函数等等。
在上述的实现过程中,通过一个增强波束和至少一个阻塞波束进行平滑处理,以计算期望方向存在语音的概率,从而进一步抑制了背景噪声,从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。
在步骤S130之后,执行步骤S140:根据期望方向存在语音的概率、一个增强波束和至少一个阻塞波束确定自适应滤波器。
自适应滤波器(Adaptive Filter,AF),是指根据环境的改变,使用自适应算法来改变滤波器的参数和结构的滤波器;在一般情况下,不改变自适应滤波器的结构,而自适应滤波器的系数是由自适应算法更新的时变系数;即其系数自动连续地适应于给定信号,以获得期望响应。
在本申请实施例的一些实施方式中,步骤S140可以包括如下步骤:
步骤S141:根据期望方向存在语音的概率计算更新步长。
其中,这里的更新步长用于更新上述的自适应滤波器,该步骤的具体实施方式可以例如下面的描述:
根据α=α0+(1-α0)p(ω),0<α0<1对期望方向存在语音的概率计算更新步长;
其中,α为更新步长,α0为基础步长,ω为角频率,p(ω)为期望方向存在语音的概率。根据该更新过程可知,当期望语音存在概率接近1的时候,更新步长接近1,滤波器的更新速度很慢;当语音存在概率接近0的时候,更新步长接近于基础步长,滤波器更新速度较快。
步骤S142:根据更新步长逐帧更新增益向量。
这里的帧是指存储介质上的某个时刻采集的数字内容,该数字内容是按照预设频率采集语音信号获得的,逐帧更新是指储介质上的每个时刻采集的数字内容都需要被更新,那么根据更新步长逐帧更新增益向量的具体实施方式例如下面的描述:
根据
Figure BDA0002273704860000151
更新步长逐帧更新增益向量;
其中,ω为角频率,υ(ω)为增益向量,α为更新步长,ΦN(ω)为阻塞波束的二阶统计量矩阵,或者叫阻塞频谱的二阶统计量矩阵,l代表时间帧,ω代表频带,yN(l,ω)为阻塞波束,
Figure BDA0002273704860000161
代表对阻塞波束进行共轭转置运算。
步骤S143:根据增益向量、一个增强波束和至少一个阻塞波束确定自适应滤波器。
其中,在具体的实施过程中,该步骤中的确定自适应滤波器的实施方式有很多种,这里列举一种实施方式可以例如下面的描述:
根据w(ω)=w(ω)+υ(ω)(yT(l,ω)-wH(ω)yN(l,ω))对增益向量、一个增强波束和至少一个阻塞波束进行更新,获得更新后的自适应滤波器;
其中,ω为角频率,w(ω)为自适应滤波器,wH(ω)代表对自适应滤波器进行共轭转置运算,υ(ω)为增益向量,l代表时间帧,yT(l,ω)为增强波束,yN(l,ω)为阻塞波束。
在上述的实现过程中,通过采用最小二乘法设计的自适应滤波器,来区分每一个时频单元是否存在语音信号的方式,即对存在目标语音的时频区域,采用较低的滤波器更新速率和滤波策略,以避免语音损伤;对不存在目标语音的时频区域,采用较快的滤波器更新速率,来保证噪声抑制效果,从而最大程度地避免了方向误差、硬件失配、混响等因素导致语音失真的情况。
在步骤S140之后,执行步骤S150:使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波,获得目标信号。
其中,在具体的实施过程中,该步骤中的获得目标信号的实施方式有很多种,这里列举一种实施方式可以例如下面的描述:
根据z(l,ω)=yT(l,ω)-wH(ω)yN(l,ω)使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波,获得目标信号;
其中,l代表时间帧,ω为角频率,z(l,ω)为目标信号,yT(l,ω)为增强波束,yN(l,ω)为阻塞波束,w(ω)为自适应滤波器,wH(ω)代表对自适应滤波器进行共轭转置运算。
在步骤S150之后,执行步骤S160:对目标信号进行傅里叶逆变换,获得目标语音。
其中,该步骤中的获得目标语音的实施方式有很多种,这里列举一种实施方式例如:对目标信号z(l,ω)进行傅里叶逆变换,获得目标语音z(t);其中,l表示时间帧,ω表示频带,t代表时间,z(t)表示为该目标语音,z(l,ω)表示目标信号。
需要说明的是,采用上述语音提取方法的技术效果,请参见图6至图7,图6示出的本申请实施例提供的麦克风阵列采集的语音信号的频谱示意图;图7示出的本申请实施例提供的提取正东方向的目标语音的频谱示意图;其中,这里的麦克风阵列仍然是上述的6+1个麦克风组成的麦克风环形阵列,需要提取麦克风阵列的目标方向为正东方向(即0度方向或者时钟上的3点钟方向),干扰源分别设置在正西方向(即180度方向或者时钟上的9点钟方向)和正北方向(即90度方向或者时钟上的12点钟方向),目标语音发声体与麦克风阵列的距离为1米,干扰源与麦克风阵列的距离也为1米,散射噪声相对目标语音信噪比增益为10dB,目标语音与干扰语音能量比值为0dB。从图7可以看出,散射噪声和两侧干扰语音都可以被压制,同时0度目标语音几乎无失真。为了量化获得的结果,采用了20分钟语音整体评估算法性能,信噪比增益可以提升20dB,声纹得分提升30%。
在上述的实现过程中,根据期望方向构建一个增强滤波器和多个阻塞滤波器,通过一个增强滤波器和多个阻塞滤波器计算该期望方向存在目标语音的概率,最后根据概率设计了自适应滤波器对期望方向的语音进行滤波,获得目标语音。也就是说,通过提前计算了期望方向存在目标语音的概率,从而有效地降低了把点源噪声误识别为目标语音的概率,从而有效地改善了把该点源噪声误识别为目标语音导致噪声抑制的效果显著降低的问题。
请参见图8示出的本申请实施例提供的语音提取装置结构示意图,本申请实施例提供了一种语音提取装置200,包括:
第一变换模块210,用于对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号。
波束获得模块220,用于分别使用一个增强滤波器和至少一个阻塞滤波器对频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,增强滤波器是针对语音信号的期望方向构建的滤波器,阻塞滤波器是针对语音信号的非期望方向构建的滤波器。
概率计算模块230,用于根据一个增强波束和至少一个阻塞波束计算期望方向存在语音的概率。
第一确定模块240,用于根据期望方向存在语音的概率、一个增强波束和至少一个阻塞波束确定自适应滤波器。
第二变换模块250,用于使用自适应滤波器对一个增强波束和至少一个阻塞波束进行滤波,获得目标信号。
语音获得模块260,用于对目标信号进行傅里叶逆变换,获得目标语音。
可选地,在本申请实施例中,概率计算模块包括:
第一获得模块,用于分别对一个增强波束和至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值。
第一计算模块,用于根据增强能量平滑值和阻塞能量平滑值计算期望方向存在语音的概率。
可选地,在本申请实施例中,第一确定模块包括:
第二计算模块,用于根据期望方向存在语音的概率计算更新步长,更新步长用于更新自适应滤波器。
逐帧更新模块,用于根据更新步长逐帧更新增益向量。
第二确定模块,用于根据增益向量、一个增强波束和至少一个阻塞波束确定自适应滤波器。
应理解的是,该装置与上述的方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图9示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备310,包括:处理器320和存储器330,存储器330存储有处理器320可执行的机器可读指令,机器可读指令被处理器320执行时执行如上的方法。
本申请实施例还提供了一种存储介质340,该存储介质340上存储有计算机程序,该计算机程序被处理器320运行时执行如上的方法。
其中,存储介质340可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
再者,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (15)

1.一种语音提取方法,其特征在于,包括:
对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号;
分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,所述增强滤波器是针对所述语音信号的期望方向构建的滤波器,所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器;
根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率;
根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器;
使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号;
对所述目标信号进行傅里叶逆变换,获得目标语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率,包括:
分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值;
根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率。
3.根据权利要求2所述的方法,其特征在于,所述分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值,包括:
根据
Figure FDA0002273704850000011
分别对一个增强波束和所述至少一个阻塞波束进行平滑处理,获得增强能量平滑值和阻塞能量平滑值;
其中,ω为角频率,PT(ω)为所述增强能量平滑值,PN(ω)为所述阻塞能量平滑值,μ为平滑系数,μ满足0≤μ≤1,l代表时间帧,ω代表频带,yT(l,ω)为所述增强波束,yN,m(l,ω)为第m个所述阻塞波束。
4.根据权利要求2所述的方法,其特征在于,所述根据增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率,包括:
根据
Figure FDA0002273704850000021
对增强能量平滑值和阻塞能量平滑值计算所述期望方向存在语音的概率;
其中,ω为角频率,p(ω)为所述期望方向存在语音的概率,κ>0为缩放系数,ρ代表所述增强波束与所述阻塞波束的能量比例,PT(ω)为所述增强能量平滑值,PN(ω)为所述阻塞能量平滑值,M为所述麦克风阵列的麦克风数量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器,包括:
根据所述期望方向存在语音的概率计算更新步长,所述更新步长用于更新所述自适应滤波器;
根据所述更新步长逐帧更新增益向量;
根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器。
6.根据权利要求5所述的方法,其特征在于,所述根据所述期望方向存在语音的概率计算更新步长,包括:
根据α=α0+(1-α0)p(ω),0<α0<1对所述期望方向存在语音的概率计算更新步长;
其中,α为所述更新步长,α0为基础步长,ω为角频率,p(ω)为所述期望方向存在语音的概率。
7.根据权利要求5所述的方法,其特征在于,所述根据所述更新步长逐帧更新增益向量,包括:
根据
Figure FDA0002273704850000031
所述更新步长逐帧更新增益向量;
其中,ω为角频率,υ(ω)为所述增益向量,α为所述更新步长,ΦN(ω)为所述阻塞波束的二阶统计量矩阵,l代表时间帧,ω代表频带,yN(l,ω)为所述阻塞波束,
Figure FDA0002273704850000032
代表对所述阻塞波束进行共轭转置运算。
8.根据权利要求5所述的方法,其特征在于,所述根据所述增益向量、所述一个增强波束和所述至少一个阻塞波束确定所述自适应滤波器,包括:
根据w(ω)=w(ω)+υ(ω)(yT(l,ω)-wH(ω)yN(l,ω))对所述增益向量、所述一个增强波束和所述至少一个阻塞波束进行更新,获得更新后的所述自适应滤波器;
其中,ω为角频率,w(ω)为所述自适应滤波器,wH(ω)代表对所述自适应滤波器进行共轭转置运算,υ(ω)为所述增益向量,l代表时间帧,yT(l,ω)为所述增强波束,yN(l,ω)为所述阻塞波束。
9.根据权利要求1所述的方法,其特征在于,所述使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号,包括:
根据z(l,ω)=yT(l,ω)-wH(ω)yN(l,ω)使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号;
其中,l代表时间帧,ω为角频率,z(l,ω)为所述目标信号,yT(l,ω)为所述增强波束,yN(l,ω)为所述阻塞波束,w(ω)为所述自适应滤波器,wH(ω)代表对所述自适应滤波器进行共轭转置运算。
10.根据权利要求1所述的方法,其特征在于,在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束之前,还包括:
根据
Figure FDA0002273704850000041
针对所述语音信号的期望方向构建滤波器,获得所述增强滤波器;
其中,ω为角频率,θTarg为所述期望方向,hSD(ω,θTarg)代表角频率为ω且期望方向为θTarg的所述增强滤波器,Γi,j(ω)代表第i个麦克风和第j个麦克风的噪音相关性系数,Γ(ω)为噪音相关性系数矩阵,所述噪音相关性系数矩阵Γ(ω)由多个噪音相关性系数Γi,j(ω)组成,ε为对角因子,M为所述麦克风阵列的麦克风数量,I为M维的单位矩阵,d(ω,θTarg)为所述期望方向为θTarg且角频率为ω的导向矢量,dH(ω,θTarg)为对所述导向矢量进行共轭转置运算,e为自然常数,j表示第j个麦克风,τm,m=2,...,M表示第m个麦克风相比第一个麦克风的时间延迟,sinc(x)代表计算x的辛格函数,δi,j为第i个麦克风和第j个麦克风之间的距离,c为声音在空气中的传播速度。
11.根据权利要求1所述的方法,其特征在于,在所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束之前,还包括:
根据
Figure FDA0002273704850000051
针对所述语音信号的非期望方向构建滤波器,获得所述阻塞滤波器;
其中,
Figure FDA0002273704850000052
代表角频率为ω且方向为
Figure FDA0002273704850000053
的所述阻塞滤波器,M为所述麦克风阵列的麦克风数量,
Figure FDA0002273704850000054
代表所述阻塞滤波器的方向与所述期望方向的角度差值,m=1,...,M-1代表第1个麦克风至第M-1个麦克风中的任一个麦克风,即第m个麦克风。
12.根据权利要求1所述的方法,其特征在于,所述分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,包括:
根据
Figure FDA0002273704850000055
分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束;
其中,l代表时间帧,ω代表频带,yT(l,ω)为所述增强波束,yN,m(l,ω)为第m个所述阻塞波束,ω为角频率,θTarg为所述期望方向,hSD(ω,θTarg)代表角频率为ω且期望方向为θTarg的所述增强滤波器,
Figure FDA0002273704850000056
代表对所述增强滤波器进行共轭转置运算,
Figure FDA0002273704850000057
代表角频率为ω且方向为
Figure FDA0002273704850000058
的所述阻塞滤波器,
Figure FDA0002273704850000059
代表对所述阻塞滤波器进行共轭转置运算,y(l,ω)为所述频域信号。
13.一种语音提取装置,其特征在于,包括:
第一变换模块,用于对麦克风阵列采集的语音信号进行傅里叶变换,获得频域信号;
波束获得模块,用于分别使用一个增强滤波器和至少一个阻塞滤波器对所述频域信号进行滤波,获得一个增强波束和至少一个阻塞波束,所述增强滤波器是针对所述语音信号的期望方向构建的滤波器,所述阻塞滤波器是针对所述语音信号的非期望方向构建的滤波器;
概率计算模块,用于根据所述一个增强波束和所述至少一个阻塞波束计算所述期望方向存在语音的概率;
第一确定模块,用于根据所述期望方向存在语音的概率、所述一个增强波束和所述至少一个阻塞波束确定自适应滤波器;
第二变换模块,用于使用所述自适应滤波器对所述一个增强波束和所述至少一个阻塞波束进行滤波,获得目标信号;
语音获得模块,用于对所述目标信号进行傅里叶逆变换,获得目标语音。
14.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1-12任一所述的方法。
15.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-12任一所述的方法。
CN201911117770.3A 2019-11-14 2019-11-14 一种语音提取方法、装置、电子设备及存储介质 Active CN110706719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911117770.3A CN110706719B (zh) 2019-11-14 2019-11-14 一种语音提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911117770.3A CN110706719B (zh) 2019-11-14 2019-11-14 一种语音提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110706719A true CN110706719A (zh) 2020-01-17
CN110706719B CN110706719B (zh) 2022-02-25

Family

ID=69206204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911117770.3A Active CN110706719B (zh) 2019-11-14 2019-11-14 一种语音提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110706719B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798860A (zh) * 2020-07-17 2020-10-20 腾讯科技(深圳)有限公司 音频信号处理方法、装置、设备及存储介质
CN112002341A (zh) * 2020-08-21 2020-11-27 南京工程学院 语音信号的参数化表达、加密传输和重构的方法及装置
CN112735461A (zh) * 2020-12-29 2021-04-30 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
WO2022135130A1 (zh) * 2020-12-24 2022-06-30 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备
WO2023165565A1 (zh) * 2022-03-02 2023-09-07 上海又为智能科技有限公司 音频增强方法和装置、计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100014681A1 (en) * 2007-03-06 2010-01-21 Nec Corporation Noise suppression method, device, and program
CN102739886A (zh) * 2011-04-01 2012-10-17 中国科学院声学研究所 基于回声频谱估计和语音存在概率的立体声回声抵消方法
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
US20140067386A1 (en) * 2009-03-23 2014-03-06 Vimicro Corporation Method and system for noise reduction
CN107316648A (zh) * 2017-07-24 2017-11-03 厦门理工学院 一种基于有色噪声的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN109389991A (zh) * 2018-10-24 2019-02-26 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的信号增强方法
CN109473118A (zh) * 2018-12-24 2019-03-15 苏州思必驰信息科技有限公司 双通道语音增强方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100014681A1 (en) * 2007-03-06 2010-01-21 Nec Corporation Noise suppression method, device, and program
US20140067386A1 (en) * 2009-03-23 2014-03-06 Vimicro Corporation Method and system for noise reduction
CN102739886A (zh) * 2011-04-01 2012-10-17 中国科学院声学研究所 基于回声频谱估计和语音存在概率的立体声回声抵消方法
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN107316648A (zh) * 2017-07-24 2017-11-03 厦门理工学院 一种基于有色噪声的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN109389991A (zh) * 2018-10-24 2019-02-26 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的信号增强方法
CN109473118A (zh) * 2018-12-24 2019-03-15 苏州思必驰信息科技有限公司 双通道语音增强方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NAOTO SASAOKA: "Speech enhancement based on adaptive filter with variable step size for wideband and periodic noise", 《2009 52ND IEEE INTERNATIONAL MIDWEST SYMPOSIUM ON CIRCUITS AND SYSTEMS》 *
NOISE ESTIMATION FOR REAL-TIME SPEECH ENHANCEMENT: "Noise estimation for real-time speech enhancement", 《2018 SECOND INTERNATIONAL CONFERENCE ON ELECTRONICS, COMMUNICATION AND AEROSPACE TECHNOLOGY (ICECA)》 *
倪忠: "基于麦克风阵列的语音增强方法研究", 《中国优秀硕士学位论文全文数据库》 *
李璐君: "基于深度学习的语音增强技术研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798860A (zh) * 2020-07-17 2020-10-20 腾讯科技(深圳)有限公司 音频信号处理方法、装置、设备及存储介质
CN112002341A (zh) * 2020-08-21 2020-11-27 南京工程学院 语音信号的参数化表达、加密传输和重构的方法及装置
CN112002341B (zh) * 2020-08-21 2023-06-09 南京工程学院 语音信号的参数化表达、加密传输和重构的方法
WO2022135130A1 (zh) * 2020-12-24 2022-06-30 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备
CN112735461A (zh) * 2020-12-29 2021-04-30 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113628634B (zh) * 2021-08-20 2023-10-03 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
WO2023165565A1 (zh) * 2022-03-02 2023-09-07 上海又为智能科技有限公司 音频增强方法和装置、计算机存储介质

Also Published As

Publication number Publication date
CN110706719B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110706719B (zh) 一种语音提取方法、装置、电子设备及存储介质
KR101120679B1 (ko) 이득-제한된 잡음 억제
Acero et al. Robust speech recognition by normalization of the acoustic space.
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN111445919A (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
Morita et al. Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
Sanam et al. Enhancement of noisy speech based on a custom thresholding function with a statistically determined threshold
CN111627456B (zh) 噪音排除方法、装置、设备及可读存储介质
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
EP3680901A1 (en) A sound processing apparatus and method
Ayhan et al. Robust speaker identification algorithms and results in noisy environments
JP2002023790A (ja) 音声特徴量抽出装置
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Tupitsin et al. Two-step noise reduction based on soft mask for robust speaker identification
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Oh et al. Preprocessing of independent vector analysis using feed-forward network for robust speech recognition
CN111210836A (zh) 一种麦克风阵列波束形成动态调整方法
Bharathi et al. Speaker verification in a noisy environment by enhancing the speech signal using various approaches of spectral subtraction
Ponraj et al. Extraction of speech signal based on power normalized cepstral coefficient and mel frequency cepstral coefficient: A comparison
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant