CN113035216B - 麦克风阵列语音的增强方法、及其相关设备 - Google Patents

麦克风阵列语音的增强方法、及其相关设备 Download PDF

Info

Publication number
CN113035216B
CN113035216B CN201911349602.7A CN201911349602A CN113035216B CN 113035216 B CN113035216 B CN 113035216B CN 201911349602 A CN201911349602 A CN 201911349602A CN 113035216 B CN113035216 B CN 113035216B
Authority
CN
China
Prior art keywords
signal
processing
signals
microphone array
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911349602.7A
Other languages
English (en)
Other versions
CN113035216A (zh
Inventor
魏有权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen 3Nod Digital Technology Co Ltd
Original Assignee
Shenzhen 3Nod Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen 3Nod Digital Technology Co Ltd filed Critical Shenzhen 3Nod Digital Technology Co Ltd
Priority to CN201911349602.7A priority Critical patent/CN113035216B/zh
Publication of CN113035216A publication Critical patent/CN113035216A/zh
Application granted granted Critical
Publication of CN113035216B publication Critical patent/CN113035216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及信号处理技术领域,提供了一种麦克风阵列语音的增强方法、及其相关设备,所述麦克风阵列语音的增强方法包括:通过麦克风阵列获取待增强的声音信号;基于预设数据模型对所述声音信号进行标准化处理,得到标准信号;根据预设特征提取规则对所述标准信号进行特征提取,获取特征信号;将特征信号导入到波束形成器中进行优化处理,输出优化信号;利用后置双滤波的方式对优化信号进行噪声抑制,得到目标信号;对目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号。本发明的技术方案实现对麦克风阵列语音的增强,提高用户获取麦克风阵列语音的准确性。

Description

麦克风阵列语音的增强方法、及其相关设备
技术领域
本发明涉及信号处理技术领域,尤其涉及一种麦克风阵列语音的增强方法、及其相关设备。
背景技术
在语音环境中,语音信号总是不可避免的受到外界环境噪声的干扰,当干扰源与麦克风阵列的距离较近时,麦克风阵列接收到的语音信号将参杂各种噪声,导致接收到的语音信号模糊不清,传统波束形成器中高分辨谱估计方法有MPDR、MVDR,但该类方法需要矩阵求逆运算量较大,且对非相干噪声和散射噪声的消除效果不理想,语音信号不清晰,影响用户获取麦克风阵列语音的准确性。
发明内容
本发明实施例提供一种麦克风阵列语音的增强方法、及其相关设备,以解决在噪声环境下,麦克风阵列语音信号不清晰,影响用户获取麦克风阵列语音信号的准确性的问题。
一种麦克风阵列语音的增强方法,包括:
通过麦克风阵列获取待增强的声音信号;
基于预设数据模型对所述声音信号进行标准化处理,得到标准信号;
根据预设特征提取规则对所述标准信号进行特征提取,获取特征信号;
将所述特征信号导入到波束形成器中进行优化处理,输出优化信号;
利用后置双滤波的方式对所述优化信号进行噪声抑制,得到目标信号;
对所述目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号。
一种麦克风阵列语音的增强装置,包括:
获取模块,用于通过麦克风阵列获取待增强的声音信号;
标准化模块,用于基于预设数据模型对所述声音信号进行标准化,得到标准信号;
特征提取模块,用于根据预设特征提取规则对所述标准信号进行特征提取,获取特征信号;
优化模块,用户将所述特征信号导入到波束形成器中进行优化处理,输出优化信号;
噪声抑制模块,用于利用后置双滤波的方式对所述优化信号进行噪声抑制,得到目标信号;
时域目标信号获取模块,用于对所述目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述麦克风阵列语音的增强方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述麦克风阵列语音的增强方法的步骤。
上述麦克风阵列语音的增强方法、及其相关设备,通过对获取到的声音信号进行标准化处理能够降低声音信号的失真度,将特征信号导入到波束形成器中进行优化处理能够对噪声及混响进行消除,能够提高抑制噪声的鲁棒性,再利用后置双滤波的方式对优化信号进行噪声抑制,能够避免波束形成器对噪声消除的效果不理想,进一步提高对噪声的抑制能力,最后再通过短时傅里叶逆变换及数据重构的方式,实现对麦克风阵列语音的增强,降低麦克风阵列语音的失真度,提高用户获取麦克风阵列语音的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的麦克风阵列语音的增强方法的流程图;
图2是本发明实施例提供的麦克风阵列语音的增强方法中步骤S3的流程图;
图3是本发明实施例提供的麦克风阵列语音的增强方法中步骤S4的流程图;
图4是本发明实施例提供的麦克风阵列语音的增强方法中步骤S5的流程图;
图5是本发明实施例提供的麦克风阵列语音的增强方法中步骤S52的流程图;
图6是本发明实施例提供的麦克风阵列语音的增强方法中步骤S522的流程图;
图7是本发明实施例提供的麦克风阵列语音的增强装置的示意图;
图8是本发明实施例提供的计算机设备的基本机构框图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请提供的麦克风阵列语音的增强方法应用于服务端,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。在一实施例中,如图1所示,提供一种麦克风阵列语音的增强方法,包括如下步骤:
S1:通过麦克风阵列获取待增强的声音信号。
在本发明实施例中,声音信号是指未经常任何处理,直接从麦克风阵列获取的原始声源;由于声音信号包含其他噪声,故需要对噪声进行增强处理,以提高声音信号的清晰程度。
具体地,通过直接从麦克风阵列获取待增强的声音信号。
其中,麦克风阵列是指麦克风的排列,即由一定数目的声学传感器麦克风组成,用来对声场的空间特性进行采样并处理的系统。
S2:基于预设数据模型对声音信号进行标准化处理,得到标准信号。
在本发明实施例中,通过对声音信号进行标准化处理,能够将声音信号转换成便于后续一系列处理的信号,提高对声音信号进行信号增强的准确性。
具体地,根据预设数据模型对声音信号进行标准化处理,得到标准化处理后的声音信号作为标准信号。其中,预设数据模型是指用户预先设置好用于对声音信号进行标准化处理的模型,其具体如公式(1)所示:
xi(t)=hi(t)*s(t)+vi(t) 公式(1)
其中,xi(t)为标准信号,t为时间系数;i=1,...,M,M为阵元个数;hi(t)为声音信号到第i个麦克风音的空间声学传输函数,s(t)为声音信号,vi(t)为第i个麦克风接收到的噪声。
需要说明的是,麦克风阵列接收到的数据矩阵为x=[x1(t),x2(t),…,xM(t)]T,声音信号的方向向量为h=[h1(t),h2(t),…,hM(t)]T
S3:根据预设特征提取规则对标准信号进行特征提取,获取特征信号。
具体地,根据预设特征提取规则对标准信号进行特征提取,得到特征信号。其中,预设特征提取规则是指用户设定用于对标准信号进行特征提取的规则。
S4:将特征信号导入到波束形成器中进行优化处理,输出优化信号。
在本发明实施例中,波束形成器是指对专门用于对特征信号进行优化处理的处理器,优化处理主要是为了提高特征信号中噪声的鲁棒性。
具体地,通过直接将特征信号导入到波束形成器,当波束形成器检测到特征信号,将根据预先设置好的算法对特征信号进行优化处理,并将优化处理后的特征信号作为优化信号。
S5:利用后置双滤波的方式对优化信号进行噪声抑制,得到目标信号。
在本发明实施例中,为了进一步提升步骤S4中波束形成器的性能,在波束形成器对特征信号进行优化处理后,利用后置双滤波的方式可以提高对噪声的抑制。
具体地,根据预先设定好的后置双滤波算法,对优化信号进行噪声抑制,得到噪声抑制后的目标信号。
后置双滤波可以有效的提升算法的频谱分辨率,减少谐波间的残留噪声,降低高频分量失真。
S6:对目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号。
在本发明实施例中,先对目标信号进行短时傅里叶逆变换,再根据重叠相加法对短时傅里叶逆变换的目标信号进行数据重构,且在数据重构时对进行去加重处理,最后输出时域目标信号。
需要说明的是,重叠相加法的帧重叠率为50%,去加重的处理函数为hd(t)=1/hp(t)。
本实施例中,通过对获取到的声音信号进行标准化处理能够降低声音信号的失真度,将特征信号导入到波束形成器中进行优化处理能够对噪声及混响进行消除,能够提高抑制噪声的鲁棒性,再利用后置双滤波的方式对优化信号进行噪声抑制,能够避免波束形成器对噪声消除的效果不理想,进一步提高对噪声的抑制能力,最后再通过短时傅里叶逆变换及数据重构的方式,实现对麦克风阵列语音的增强,降低麦克风阵列语音的失真度,提高用户获取麦克风阵列语音的准确性。
在一实施例中,如图2所示,步骤S3中,即根据预设特征提取规则对标准信号进行特征提取,获取特征信号包括如下步骤:
S31:对标准信号进行分帧加窗处理,得到短时分帧加窗信号。
在本发明实施例中,将经过信号换算处理后的标准信号划分为很多短时的标准信号段,每个短时的标准信号段称为一个分析帧。这样,通过对标准信号进行分帧处理能够得到具有固定长度的帧,也就是将标准信号的总帧长度除以预设帧长度,若标准信号的最后一帧无法达到预设帧长度,则该帧数为0。其中,预设帧长度具体可以是256,也可以根据用户的实际需求进行设置,此处不做限制。
需要说明的是,由于短时分帧加窗信号在一个很短的时间段内可以认为具有相对稳定的特征即短时特征,具有短时平稳性特点,因此要对标准信号进行分帧,使得每一帧标准信号都具有短时平稳性,即分帧处理后的分帧信号都具有短时平稳性,从而进行短时相关分析。
但对标准信号进行分帧处理后,存在分帧信号泄露问题,例如,当频谱出现拖尾的情况时,说明分帧信号泄漏严重。为了减少分帧信号泄漏问题,给分帧后的分帧信号施加一个窗函数。也就是说加窗的实质是使用一个窗函数与分帧后的分帧信号作乘积的过程,通过分帧加窗得到特征信号,使特征信号更好地满足傅里叶变换的周期性要求,从而减轻分帧后对分帧信号边缘的影响。
具体地,将标准信号导入到预设处理端口中进行分帧加窗处理,得到分帧加窗处理后的短时分帧加窗信号。其中,预设处理端口是指用于对标准信号进行分帧加窗处理的端口。
进一步地,预设处理端口中存在计算的数据如下:帧长为L=256,帧重叠率为50%,窗函数使用Vorbis窗,其表达式为
S32:对短时分帧加窗信号进行预加重处理,输出多路预加重信号。
在本发明实施例中,预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,即进行预加重处理。
具体地,通过一阶高通数字滤波器对短时分帧加窗信号进行预加重,得到预加重处理后的多路预加重信号。其中,一阶高通数字滤波器对应的公式如公式(2)所示:
hp(z)=1-βz-1 公式(2)
其中,hp(z)为多路预加重信号,β为预加重系数,其具体的取值为0.98,z表示离散信号z域。
需要说明的是,对短时分帧加窗信号预加重处理是对短时分帧加窗信号的高频分量进行补偿的方法,该方法对信号改善的效果取决于其预加重的幅度大小,其预加重的实现方式是增大短时分帧加窗信号跳变边沿后第一个跳变bit的幅度。比如对于一个00111的短时分帧加窗信号序列来说,执行完预加重后的短时分帧加窗信号序列里第一个1的幅度会比第二个和第三个1的幅度大。由于跳变比特代表了信号里的高频分量,所以有助于提高短时分帧加窗信号里的高频分量,使短时分帧加窗信号频谱变得平坦,增加短时分帧加窗信号的高频分辨率,利于频谱分析、声道参数分析等。
S33:对多路预加重信号进行高通滤波计算,得到特征信号。
具体地,将多路预加重信号导入到预设高通滤波端口中进行,高通滤波计算,输出计算处理后的特征信号。其中,预设高通滤波端口是指专门用于进行高通滤波计算的处理端口,其具体的处理函数为:H(z)=(1-2z-1+z-2)/(1-1.964z-1+0.964z-2)
本实施例中,通过对标准信号进行分帧加窗、预加重及高通滤波计算,实现对特征信号的准确提取,保证后续利用特征信号提取优化信号的准确性。
在一实施例中,如图3所示,步骤S4中,即将特征信号导入到波束形成器中进行优化处理,输出优化信号包括如下步骤:
S41:按照公式(3)计算特征信号的协方差矩阵:
其中,为特征信号的协方差矩阵,/>为上一帧特征信号对应的协方差矩阵,若不存在上一帧特征信号对应的协方差矩阵,则其初始值为0,αd为预设平滑因子,其具体的取值为0.8,x为麦克风阵列接收到的信号矩阵,xH为x的共轭转置矩阵。
具体地,通过公式(3)直接计算特征信号的协方差矩阵。
S42:根据协方差矩阵进行对角加载处理,得到目标协方差矩阵。
在本发明实施例中,对协方差矩阵进行对角加载处理,能够提高对噪声的鲁棒性,具体通过公式(4)进行对角加载处理,得到对角加载处理后的目标协方差矩阵。
其中,为目标协方差矩阵,Δ为加载量,I为单位矩阵。
需要说明的是,加载量的取值范围为:其中,std为计算标准偏差,diag为取矩阵的对角元素,trace为求矩阵迹。
S43:利用目标协方差矩阵对预设滤波器系数进行迭代运算,输出迭代运算后的目标滤波系数。
在本发明实施例中,根据预设计算规则,利用目标协方差矩阵对预设滤波器系数进行迭代运算,并在迭代运算结束后,获取运算结果作为目标滤波系数。其中,预设滤波系数具体是指MPDR滤波器系数。
预设计算规则是指根据用户实际需求设定用于对预设滤波器系数进行迭代运算的运算规则,其具体运算过程如下所示:
令迭代系数为n,wn=0=h/||h||2 wn+1=wnngn,当gn约等于0时,停止迭代,即迭代运算结束,获取预设滤波器系数wn作为运算结果。
S44:基于目标滤波系数对特征信号进行信号优化,得到优化信号。
具体地,将步骤S43得到的目标滤波系数与特征信号进行相减,得到的差作为优化信号。
本实施例中,通过先计算出特征信号的协方差矩阵,再对协方差矩阵进行对角加载处理,得到目标协方差矩阵,根据目标协方差矩阵对预设滤波器进行迭代运算,获取目标滤波系数,最后根据目标滤波系数对特征信号进行信号优化,得到优化信号。从而能够快速准确的提取优化信号,提高后续利用优化信号进行噪声抑制的准确性。
在一实施例中,如图4所示,步骤S5中,即利用后置双滤波的方式对优化信号进行噪声抑制,得到目标信号包括如下步骤:
S51:对优化信号进行谱平滑处理,得到平滑信号,其中,平滑信号包含语音存在状态。
具体地,将优化信号输入到预设平滑端口进行谱平滑处理,得到谱平滑处理后的平滑信号。其中,预设平滑端口是指根据用户实际需求设定对优化信号做谱平滑的处理端口,其具体的处理函数如公式(5)所示:
其中,为平滑信号,αy为常数,其具体的取值为0.2,/>为上一帧优化信号对应的平滑信号,/>为优化信号。
S52:根据语音存在状态对平滑信号进行噪声处理,得到目标信号。
具体地,识别步骤S51中的语音存在状态,并根据预设要求基于不同的语音存在状态对平滑信号进行噪声处理,得到噪声处理后的目标信号。其中,预设要求是指根据用户实际需求设定用于根据语音存在状态对平滑信号进行噪声处理的规则。
本实施例中,通过对优化信号进行谱平滑处理得到平滑信号,能够有效区分噪声段,再根据语音存在状态对平滑信号进行噪声处理,能够根据不同语音存在状态针对性地对噪声段进行处理,提高噪声处理的准确性。
在一实施例中,语音存在状态包含语音段和纯噪声段,如图5所示,步骤S52中,即根据语音存在状态对平滑信号进行噪声处理,得到目标信号包括如下步骤:
S521:识别语音存在状态。
具体地,对语音存在状态进行识别。其中,语音存在状态包含语音段和纯噪声段。
S522:若语音存在状态为语音段,则对平滑信号进行噪声抑制及基音滤波处理,得到目标信号。
具体地,若识别到语音存在状态为语音段,则将平滑信号导入到预设基音端口进行噪声抑制及基音滤波处理,得到噪声抑制及基音滤波处理后的目标信号。
其中,预设基音端口是指专门用于对平滑信号进行噪声抑制及基音滤波处理的处理端口。
S523:若语音存在状态为纯噪声段,则对平滑信号进行噪声抑制,输出噪声抑制后的目标信号。
具体地,若识别到语音存在状态为纯噪声段,则将平滑信号导入到预设抑制端口进行噪声抑制,输出噪声抑制后的目标信号。
其中,预设抑制端口是指专门用于对平滑信号进行噪声抑制的处理端口。
需要说明的是,预设抑制端口的处理过程如下:令当前帧的噪声功率谱为:|N(k,f)|2,噪声功率谱估计量为:Ps=0,其中,αn=0.95;令当前帧语音功率谱为:|S(k,f)|2,语音功率谱估计量为:Ps=0,其中,β=0.03;噪声抑制后的目标信号为:其中,目标信号也指其对应的信号频谱。
本实施例中,识别语音存在状态,若语音存在状态为语音段,则对平滑信号进行噪声抑制及基音滤波处理,得到目标信号;若语音存在状态为纯噪声段,则对平滑信号进行噪声抑制,得到目标信号。根据不同的语音存在状态,选择不同的处理方式进行处理,从而实现对目标信号的准确获取。
在一实施例中,如图6所示,步骤S522中,即若语音存在状态为语音段,则对平滑信号进行噪声抑制及基音滤波处理,得到目标信号包括如下步骤:
S5221:若语音存在状态为语音段,则对平滑信号进行初级噪声抑制,输出初级目标信号。
具体地,若识别到语音存在状态为语音段,则将平滑信号导入到预设初级抑制端口进行初级噪声抑制,输出初级噪声抑制后的初级目标信号。其中,预设初级抑制端口是指专门用于对平滑信号进行初级噪声抑制的处理端口。
需要说明的是,预设初级抑制端口的处理过程如下:令当前帧的噪声功率谱为:|N(k,f)|2,噪声功率谱估计量为:Ps=1;令当前帧语音功率谱为:|S(k,f)|2,语音功率谱估计量为:/> Ps=1,其中,α=1,η=1。初级噪声抑制后的目标信号为:/>
S5222:根据预设基音周期计算方式,计算初级目标信号的基音周期。
需要说明的是,人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,相应的周期就成为基音周期。
预设基音周期计算方式是指根据设定用于计算初级目标信号的基音周日的计算规则,其具体的计算规则如下:
为了避免共振峰的影响,利用IIR带通滤波器对纯净语音的估计值做滤波,通带频段范围为60Hz~500Hz,带通滤波器的输出记为/>根据公式(6)计算的倒谱cs,通过基音频率范围,确定倒谱cs的搜索范围[tmin,tmax],其中,tmin=fs/500,tmax=fs/60,fs为语音信号的采样频率,其具体的取值范围为8k~16k,并基于公式(7)计算初级目标信号的基音周期T0
S5223:对基音周期进行换算处理,得到基音滤波器。
在本发明实施例中,根据公式(8)对基音周期进行换算处理,当滤波系数αp∈[0,1]时,其值越大滤波器的谷点越深,噪声抑制比越高,然而目标频率处的主瓣越宽容易引入残留噪声。另外,当基音频率估计错误时滤波器会对语音信号造成失真,甚至语音信号完全被消除。因此,采用自适应的取值方式。当信噪比越低时αp取值越大,当信噪比越高时αp取值越小。为了保持语音谐波间一定的噪声抑制能力,取αp最小值为0.1。基音滤波器的变换形式如公式(9)所示。
其中,e为预设常数,其具体可以是2.71。
S5224:基于基音滤波器对初级目标信号进行基音滤波处理,输出目标信号。
具体地,令当前帧对应的基音周期为T0,利用FIR滤波器实现基音滤波器wp,则根据基音滤波器对初级目标信号进行基音滤波处理,得到基音滤波处理后的目标信号为:
需要说明的是,目标信号也指对应的信号频谱。
本实施例中,若语音存在状态为语音段,通过先对平滑信号进行初级噪声抑制,能够先对部分噪声进行滤除,减少后续处理量,再根据基音滤波器对初级目标信号进行基音滤波处理,能够将残留的噪声进行滤除,进一步提高对噪声的处理效率,保证目标信号获取的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种麦克风阵列语音的增强装置,该麦克风阵列语音的增强装置与上述实施例中麦克风阵列语音的增强方法一一对应。如图8所示,该麦克风阵列语音的增强装置包括获取模块71,标准化模块72,特征提取模块73,优化模块74,噪声抑制模块75和输出模块76。各功能模块详细说明如下:
获取模块71,用于通过麦克风阵列获取待增强的声音信号;
标准化模块72,用于基于预设数据模型对声音信号进行标准化,得到标准信号;
特征提取模块73,用于根据预设特征提取规则对标准信号进行特征提取,获取特征信号;
优化模块74,用于将特征信号导入到波束形成器中进行优化处理,输出优化信号;
噪声抑制模块75,用于利用后置双滤波的方式对优化信号进行噪声抑制,得到目标信号;
输出模块76,用于对目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号。
进一步地,特征提取模块73包括:
分帧加窗子模块,用于对标准信号进行分帧加窗处理,得到短时分帧加窗信号;
预加重子模块,用于对短时分帧加窗信号进行预加重处理,输出多路预加重信号;
高通滤波子模块,用于对多路预加重信号进行高通滤波计算,得到特征信号。
进一步地,优化模块74包括:
第一计算子模块,用于按照公式(3)计算特征信号的协方差矩阵:
其中,为特征信号的协方差矩阵,/>为上一帧特征信号对应的协方差矩阵,若不存在上一帧特征信号对应的协方差矩阵,则其初始值为0,αd为预设平滑因子,其具体的取值为0.8,x为麦克风阵列接收到的信号矩阵,xH为x的共轭转置矩阵;
对角加载子模块,用于根据协方差矩阵进行对角加载处理,得到目标协方差矩阵;
迭代运算子模块,用于利用目标协方差矩阵对预设滤波器系数进行迭代运算,输出迭代运算后的目标滤波系数;
第一优化子模块,用于基于目标滤波系数对特征信号进行信号优化,得到优化信号。
进一步地,噪声抑制模块75包括:
谱平滑子模块,用于对优化信号进行谱平滑处理,得到平滑信号,其中,平滑信号包含语音存在状态;
噪声处理子模块,用于根据语音存在状态对平滑信号进行噪声处理,得到目标信号。
进一步地,噪声处理子模块包括:
识别单元,用于识别语音存在状态;
第一识别单元,用于若语音存在状态为语音段,则对平滑信号进行噪声抑制及基音滤波处理,得到目标信号;
第二识别单元,用于若语音存在状态为纯噪声段,则对平滑信号进行噪声抑制,输出噪声抑制后的目标信号。
进一步地,第一识别单元包括:
初级噪声抑制子单元,用于若语音存在状态为语音段,则对平滑信号进行初级噪声抑制,输出初级目标信号;
基音周期计算子单元,用于根据预设基音周期计算方式,计算初级目标信号的基音周期;
基音滤波器获取子单元,用于对基音周期进行换算处理,得到基音滤波器;
基音滤波子单元,用于基于基音滤波器对初级目标信号进行基音滤波处理,输出目标信号。
本申请的一些实施例公开了计算机设备。具体请参阅图8,为本申请的一实施例中计算机设备90基本结构框图。
如图8中所示意的,所述计算机设备90包括通过系统总线相互通信连接存储器91、处理器92、网络接口93。需要指出的是,图8中仅示出了具有组件91-93的计算机设备90,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器91至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器91可以是所述计算机设备90的内部存储单元,例如该计算机设备90的硬盘或内存。在另一些实施例中,所述存储器91也可以是所述计算机设备90的外部存储设备,例如该计算机设备90上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器91还可以既包括所述计算机设备90的内部存储单元也包括其外部存储设备。本实施例中,所述存储器91通常用于存储安装于所述计算机设备90的操作系统和各类应用软件,例如所述麦克风阵列语音的增强方法的程序代码等。此外,所述存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器92在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制所述计算机设备90的总体操作。本实施例中,所述处理器92用于运行所述存储器91中存储的程序代码或者处理数据,例如运行所述麦克风阵列语音的增强方法的程序代码。
所述网络接口93可包括无线网络接口或有线网络接口,该网络接口93通常用于在所述计算机设备90与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有声音信号信息录入程序,所述声音信号信息录入程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任意一种麦克风阵列语音的增强方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台计算机设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
最后应说明的是,显然以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种麦克风阵列语音的增强方法,其特征在于,所述麦克风阵列语音的增强方法包括:
通过麦克风阵列获取待增强的声音信号;
基于预设数据模型对所述声音信号进行标准化处理,得到标准信号;
根据预设特征提取规则对所述标准信号进行特征提取,获取特征信号;
将所述特征信号导入到波束形成器中进行优化处理,输出优化信号;
利用后置双滤波的方式对所述优化信号进行噪声抑制,得到目标信号;
对所述目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号;
其中,所述利用后置双滤波的方式对所述优化信号进行噪声抑制,得到目标信号的步骤包括:
对所述优化信号进行谱平滑处理,得到平滑信号,其中,所述平滑信号包含语音存在状态;
根据所述语音存在状态对所述平滑信号进行噪声处理,得到所述目标信号;
其中,所述语音存在状态包含语音段和纯噪声段,所述根据所述语音存在状态对所述平滑信号进行噪声处理,得到所述目标信号的步骤包括:
识别所述语音存在状态;
若所述语音存在状态为所述语音段,则对所述平滑信号进行噪声抑制及基音滤波处理,得到所述目标信号;
若所述语音存在状态为所述纯噪声段,则对所述平滑信号进行噪声抑制,输出噪声抑制后的所述目标信号。
2.如权利要求1所述的麦克风阵列语音的增强方法,其特征在于,所述根据预设特征提取规则对标准信号进行特征提取,获取特征信号的步骤包括:
对所述标准信号进行分帧加窗处理,得到短时分帧加窗信号;
对所述短时分帧加窗信号进行预加重处理,输出多路预加重信号;
对所述多路预加重信号进行高通滤波计算,得到所述特征信号。
3.如权利要求1所述的麦克风阵列语音的增强方法,其特征在于,所述将所述特征信号导入到波束形成器中进行优化处理,输出优化信号的步骤包括:
按照如下公式计算所述特征信号的协方差矩阵:
其中,为所述特征信号的协方差矩阵,/>为上一帧所述特征信号对应的所述协方差矩阵,若不存在上一帧所述特征信号对应的所述协方差矩阵,则其初始值为0,/>为预设平滑因子,其具体的取值为0.8,/>为所述麦克风阵列接收到的信号矩阵,/>的共轭转置矩阵;
根据所述协方差矩阵进行对角加载处理,得到目标协方差矩阵;
利用所述目标协方差矩阵对预设滤波器系数进行迭代运算,输出迭代运算后的目标滤波系数;
基于所述目标滤波系数对所述特征信号进行信号优化,得到所述优化信号。
4.如权利要求1所述的麦克风阵列语音的增强方法,其特征在于,所述若所述语音存在状态为所述语音段,则对所述平滑信号进行噪声抑制及基音滤波处理,得到所述目标信号的步骤包括:
若所述语音存在状态为所述语音段,则对所述平滑信号进行初级噪声抑制,输出初级目标信号;
根据预设基音周期计算方式,计算所述初级目标信号的基音周期;
对所述基音周期进行换算处理,得到基音滤波器;
基于所述基音滤波器对所述初级目标信号进行基音滤波处理,输出所述目标信号。
5.一种麦克风阵列语音的增强装置,其特征在于,所述麦克风阵列语音的增强装置包括:
获取模块,用于通过麦克风阵列获取待增强的声音信号;
标准化模块,用于基于预设数据模型对所述声音信号进行标准化处理,得到标准信号;
特征提取模块,用于根据预设特征提取规则对所述标准信号进行特征提取,获取特征信号;
优化模块,用于将所述特征信号导入到波束形成器中进行优化处理,输出优化信号;
噪声抑制模块,用于利用后置双滤波的方式对所述优化信号进行噪声抑制,得到目标信号;
输出模块,用于对所述目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号;
其中,噪声抑制模块包括:
谱平滑子模块,用于对优化信号进行谱平滑处理,得到平滑信号,其中,平滑信号包含语音存在状态;
噪声处理子模块,用于根据语音存在状态对平滑信号进行噪声处理,得到目标信号;
其中,噪声处理子模块包括:
识别单元,用于识别语音存在状态;
第一识别单元,用于若语音存在状态为语音段,则对平滑信号进行噪声抑制及基音滤波处理,得到目标信号;
第二识别单元,用于若语音存在状态为纯噪声段,则对平滑信号进行噪声抑制,输出噪声抑制后的目标信号。
6.如权利要求5所述的麦克风阵列语音的增强装置,其特征在于,所述特征提取模块包括:
分帧加窗子模块,用于对所述标准信号进行分帧加窗处理,得到短时分帧加窗信号;
预加重子模块,用于对所述短时分帧加窗信号进行预加重处理,输出多路预加重信号;
高通滤波子模块,用于对所述多路预加重信号进行高通滤波计算,得到所述特征信号。
7.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述麦克风阵列语音的增强方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述麦克风阵列语音的增强方法的步骤。
CN201911349602.7A 2019-12-24 2019-12-24 麦克风阵列语音的增强方法、及其相关设备 Active CN113035216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911349602.7A CN113035216B (zh) 2019-12-24 2019-12-24 麦克风阵列语音的增强方法、及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911349602.7A CN113035216B (zh) 2019-12-24 2019-12-24 麦克风阵列语音的增强方法、及其相关设备

Publications (2)

Publication Number Publication Date
CN113035216A CN113035216A (zh) 2021-06-25
CN113035216B true CN113035216B (zh) 2023-10-13

Family

ID=76451862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911349602.7A Active CN113035216B (zh) 2019-12-24 2019-12-24 麦克风阵列语音的增强方法、及其相关设备

Country Status (1)

Country Link
CN (1) CN113035216B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689876A (zh) * 2021-08-26 2021-11-23 北京拙成科技发展有限公司 车辆声音处理方法及系统
CN117598710B (zh) * 2024-01-23 2024-05-14 富纳德科技(北京)有限公司 一种远程心电信号监测方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404671A (zh) * 2010-09-07 2012-04-04 索尼公司 噪音去除装置与噪音去除方法
US9215527B1 (en) * 2009-12-14 2015-12-15 Cirrus Logic, Inc. Multi-band integrated speech separating microphone array processor with adaptive beamforming
US9721582B1 (en) * 2016-02-03 2017-08-01 Google Inc. Globally optimized least-squares post-filtering for speech enhancement
CN107301869A (zh) * 2017-08-17 2017-10-27 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN108717851A (zh) * 2018-03-28 2018-10-30 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN109102822A (zh) * 2018-07-25 2018-12-28 出门问问信息科技有限公司 一种基于固定波束形成的滤波方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9538285B2 (en) * 2012-06-22 2017-01-03 Verisilicon Holdings Co., Ltd. Real-time microphone array with robust beamformer and postfilter for speech enhancement and method of operation thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9215527B1 (en) * 2009-12-14 2015-12-15 Cirrus Logic, Inc. Multi-band integrated speech separating microphone array processor with adaptive beamforming
CN102404671A (zh) * 2010-09-07 2012-04-04 索尼公司 噪音去除装置与噪音去除方法
US9721582B1 (en) * 2016-02-03 2017-08-01 Google Inc. Globally optimized least-squares post-filtering for speech enhancement
CN107301869A (zh) * 2017-08-17 2017-10-27 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN108717851A (zh) * 2018-03-28 2018-10-30 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN109102822A (zh) * 2018-07-25 2018-12-28 出门问问信息科技有限公司 一种基于固定波束形成的滤波方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tobias Wolff ; .A practical beamformer-postfilter system for adaptive speech enhancement in non-stationary noise environments.《2011 Joint Workshop on Hands-free Speech Communication and Microphone Arrays》.2011,全文. *
随机麦克风阵列校正及语音增强研究;阚云飞;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN113035216A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN106486131B (zh) 一种语音去噪的方法及装置
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
JP5247855B2 (ja) 複数感知の音声強調のための方法および機器
WO2020107269A1 (zh) 自适应语音增强方法和电子设备
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN110875049B (zh) 语音信号的处理方法及装置
CN112951259B (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP2013186258A (ja) 雑音抑制方法、プログラム及び装置
CN113035216B (zh) 麦克风阵列语音的增强方法、及其相关设备
CN110797033A (zh) 基于人工智能的声音识别方法、及其相关设备
CN113571047B (zh) 一种音频数据的处理方法、装置及设备
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN111863008A (zh) 一种音频降噪方法、装置及存储介质
CN118016079B (zh) 一种智能语音转写方法及系统
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
Chang Warped discrete cosine transform-based noisy speech enhancement
CN112002307B (zh) 一种语音识别方法和装置
CN113421584A (zh) 音频降噪方法、装置、计算机设备及存储介质
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
CN110875037A (zh) 语音数据处理方法、装置及电子设备
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
WO2021217750A1 (zh) 消除语音交互中信道差异的方法及系统、电子设备及介质
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant