CN116524943A - 一种基于最大似然的分布式语音增强系统 - Google Patents
一种基于最大似然的分布式语音增强系统 Download PDFInfo
- Publication number
- CN116524943A CN116524943A CN202310529581.7A CN202310529581A CN116524943A CN 116524943 A CN116524943 A CN 116524943A CN 202310529581 A CN202310529581 A CN 202310529581A CN 116524943 A CN116524943 A CN 116524943A
- Authority
- CN
- China
- Prior art keywords
- module
- signal
- correlation matrix
- voice
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007476 Maximum Likelihood Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 26
- 238000010276 construction Methods 0.000 claims abstract description 23
- 238000013144 data compression Methods 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 32
- 230000008030 elimination Effects 0.000 abstract description 3
- 238000003379 elimination reaction Methods 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 101150113537 Spib gene Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Abstract
本发明属于分布式语音增强技术领域,具体涉及一种基于最大似然的分布式语音增强系统。为了扩展WASN中的语音增强技术多样性,并完成良好的噪声消除性能,本系统包括离散傅里叶变换模块、语音活动检测模块、导向矢量估计模块、数据压缩模块、结果输出模块、信号构建模块、加权相关矩阵估计模块、滤波器更新模块、离散傅里叶反变换模块。本发明是一种可以应用在没有数据处理中心的无线声传感器网络的分布式语音增强技术,它通过节点构建的本地信号和输出结果方差对加权相关矩阵进行估计,并将估计到的加权相关矩阵结合构建好的本地导向矢量对滤波器进行更新,从而完成分布式语音增强。
Description
技术领域
本发明属于分布式语音增强技术领域,具体涉及一种基于最大似然的分布式语音增强系统。
背景技术
无线声传感器网络(WASN)通常由多个节点组成,这些节点可以是一个麦克风,也可以是一个麦克风阵列,甚至可以是一部智能设备,比如手机,智能手表,笔记本电脑等。每一个节点都具备一定的数据处理能力,并且这些节点之间可以通过事先建立的无线通信协议进行数据的传输。相比较于传统的单麦克风和麦克风阵列,WASN不仅可以利用音频信号的时间信息和空间信息进行语音增强,还可以拥有大面积的物理覆盖范围,使得总有距离声源相对很近的节点存在,这样就可以获取到输入信噪比相对较高的带噪语音,有利于语音增强技术性能的进一步提高。
通常,应用于WASN的分布式语音增强技术可以分为两大类。一类是应用在含有数据处理中心的WASN下,称之为集中式处理;一类是应用在没有数据处理中心的WASN下,称之为分布式处理。在集中式处理的技术中,所有节点都需要将接收到的语音信号发送至数据处理中心,并且由数据处理中心进行语音增强。在该处理方式下,其缺点比较明显,那就是当数据处理中心损坏,或者与节点无端失去连接后,整个WASN将会进入一个停滞状态,无法正常工作,另外即使工作正常的情况下,数据处理中心也需要有相当大的计算能力,并且会伴随着较高的功率损耗。相比较之下,没有数据处理中心的WASN就没有上述的缺点,在该网络下完成分布式语音增强技术时,整个网络的计算由每一个节点分担,并且即使有节点临时损坏或加入网络,整体的网络运行状态不会受到影响,而且分布式语音增强性能也不会有太大的变化。
在现有技术中提出了一种基于线性约束最小方差的分布式波束形成技术。该技术中,每一个节点有一个麦克风阵列,每一个节点利用自身的本地信号以及来自邻居节点发送的单通道压缩信号,即可完成分布式语音增强技术。虽然该技术将已有的线性约束最小方差波束形成技术分布式实现在了WASN中,但是该技术的输出性能较差。
在现有技术中基于网络求和方法,提出了一种不限定网络拓扑的分布式语音增强技术,该技术通过将每一个节点的信号进行压缩,然后将每一个节点压缩后的信号进行求和,最后在每一个节点利用本地信号和其他节点压缩信号的和完成了语音增强技术的更新迭代。该技术虽然可以在任意拓扑下实现分布式语音增强,但由于该技术的核心算法是多通道维纳滤波,所以最终增强信号的残留噪声依然严重。
另外现有技术中基于期望声源导向矩阵的先验信息,提出了基于广义特征值分解的分布式自适应节点特定语音增强技术。该技术可以在低信噪比情况下获得较好的性能。虽然该技术方案可以完成一定的语音增强性能,但是其需要知道一些先验信息,在实际应用中,并不容易实现。
现有的分布式语音增强技术多数集中在分布式数据融合技术中,很少去扩展WASN中的语音增强技术。在分布式数据融合技术中,已有平均一致性,diffusion,gossip等数据融合方法被发明,除此之外,还有一些将信号压缩后再进行数据融合的方法也被发明。而对于WASN中的语音增强技术,基本上都是在维纳滤波,最小方差无失真响应,线性约束最小方差,广义旁瓣抵消器技术基础上开展的。针对上述情况,为了扩展WASN中的语音增强技术多样性,并完成良好的噪声消除性能,本发明基于最大似然无失真响应,给出了一种基于最大似然的分布式语音增强技术方案。它是利用输出信号的方差对相关矩阵进行加权并完成语音增强的一种基于最大似然的分布式语音增强系统。
发明内容
针对上述问题本发明提供了本发明公开了一种基于最大似然的分布式语音增强系统。
为了达到上述目的,本发明采用了下列技术方案:
一种基于最大似然的分布式语音增强系统包括离散傅里叶变换模块、语音活动检测模块、导向矢量估计模块、数据压缩模块、结果输出模块和离散傅里叶反变换模块;
所述离散傅里叶变换模块:首先对无线声传感器网络中J个节点接收的E维信号进行分帧加窗处理,然后对分帧加窗后的每一帧信号进行离散傅里叶变换,从而获得离散频谱信号;
所述语音活动检测模块:接收离散傅里叶变换模块传送的离散频谱信号,利用语音第一秒大部分是无语音段的特点,并结合对数频谱距离,实现对离散频谱信号的语音活动检测,从而得到语音活动检测结果;
所述导向矢量估计模块:根据语音活动检测模块得到的语音活动检测结果,分别对带噪语音相关矩阵和噪声相关矩阵进行估计,然后对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解,最后利用最大特征值对应的特征向量对导向矢量进行估计;
所述数据压缩模块:用压缩向量对离散傅里叶变换模块传送的离散频谱信号和导向矢量估计模块传送的导向矢量分别进行压缩,得到压缩信号;
所述结果输出模块:接收数据压缩模块发送的压缩离散频谱信号,每一个节点将所有节点的压缩信号进行求和,得到增强后的语音信号;
所述离散傅里叶反变换模块:接收结果输出模块发送的增强语音信号,对该信号进行离散傅里叶反变换得到当前帧的时域输出语音信号,并将每一帧时域输出语音信号进行重叠相加得到最终的输出信号。
进一步,本系统还包括信号构建模块、加权相关矩阵估计模块和滤波器更新模块;
所述信号构建模块:接收数据压缩模块发送的压缩信号,并由每一个节点利用自己未压缩的信号和其他所有节点的压缩信号对本地信号进行构建,得到构建后本地信号和本地导向矢量;
所述加权相关矩阵估计模块:接收结果输出模块发送的增强语音信号以及信号构建模块发送的构建后本地信号,对加权相关矩阵进行估计;
所述滤波器更新模块:接收加权相关矩阵估计模块估计到的加权相关矩阵,并利用信号构建模块构建后的本地导向矢量,对滤波器进行更新,将更新完成的滤波器传送至数据压缩模块。
进一步,所述对加权相关矩阵进行估计,采用如下方式:
首先,将增强语音信号的方差表示为:
σi=|d|2
其中i表示迭代计算次数,d表示增强的语音信号,|·|2表示绝对值的平方;
然后,当前帧的带噪语音加权相关矩阵估计为:
其中α表示遗忘因子,是一个参数,表示上一帧的带噪语音加权相关矩阵估计值,/>表示构建后本地信号,(·)H表示向量或矩阵的共轭转置,ζ表示一个特别小的正数,max(a,b)表示选取a和b中的最大值,每一帧信号对加权相关矩阵的估计均会由上式完成更新。
进一步,所述对滤波器进行更新,采用如下表达式:
其中表示构建后本地信号对应的滤波器,/>表示节点未压缩的Ej维信号对应的滤波器,/>表示J-1维压缩信号对应的滤波器,/>表示带噪语音加权相关矩阵,(·)-1表示矩阵的逆运算,/>表示构建后本地导向矢量;
在每次迭代时,只有一个节点j的滤波器会按上式进行更行,在上式更新之后,该节点会将发送给其余节点q,然后其余节点的滤波器更新为:
与现有技术相比本发明具有以下优点:
本发明提供的一种基于最大似然的分布式语音增强系统,是一种可以应用在没有数据处理中心的无线声传感器网络的分布式语音增强技术,它通过节点构建的本地信号和输出结果方差对加权相关矩阵进行估计,并将估计到的加权相关矩阵结合构建好的本地导向矢量对滤波器进行更新,从而完成分布式语音增强。本发明扩展了无线声传感器网络中的分布式语音增强技术多样性,并完成良好的噪声消除性能。它利用每个节点的压缩器对节点接收信号进行压缩,并将每个节点压缩后的信号进行求和,即可得到最终的输出结果。
附图说明
图1为本发明系统的基于最大似然的分布式语音增强原理框图;
图2为本发明中无线声传感器网络示意图;
图3为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的STOI值;
图4为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的PESQ值;
图5为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的ViSQOL值;
图6为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的WER值。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于最大似然的分布式语音增强系统,包括离散傅里叶变换(DFT)模块1、语音活动检测模块2、导向矢量估计模块3、数据压缩模块4、结果输出模块5、信号构建模块6、加权相关矩阵估计模块7、滤波器更新模块8、离散傅里叶反变换(IDFT)模块9。
其中离散傅里叶变换模块1:首先对无线声传感器网络中J个节点接收的E维信号进行分帧加窗处理,然后对分帧加窗后的每一帧信号进行离散傅里叶变换,从而获得离散频谱信号。
离散傅里叶变换模块1的工作原理是:设WASN一共有J个节点,其中节点j有Ej个麦克风,且将节点j接收到的第e路信号表示为yj,e(n),并对其进行分帧加窗处理,然后对每一帧信号进行DFT。本实施例在验证时的语音信号采样频率fs是16kHz,窗函数是汉宁窗,帧移为50%,每帧数据长度为M=256点。其中汉宁窗的表达式如下:
ω(m)=0.5-0.5cos(2πm/M),m=0,1,...,M-1 (1)
根据汉宁窗表达式可以得到加窗后的信号为:
y'j,e(m)=yj,e(n)ω(m) (2)
然后对加窗后的每一帧信号进行DFT,变换后得到的离散频谱表示为:
其中,k表示频点索引,l表示时间帧索引。
将每个节点接收到的所有信号Yj,e(k,l)堆叠为一个列向量,该向量表示为:
其中为了表示方便对索引k和l进行了省略,并且本实施例的所有操作都是频点独立的,即每一帧的每一个频点对应的操作均是一致的。另外,yj=xj+vj,其中xj=hjs是混响语音成分,vj是加性噪声,hj是声源信号s到第j个节点的房间冲激响应。
语音活动检测模块2:接收离散傅里叶变换模块1传送的离散频谱信号,利用语音第一秒大部分是无语音段的特点,并结合对数频谱距离,实现对离散频谱信号的语音活动检测,从而得到语音活动检测结果。
语音活动检测模块2的工作原理是:对离散傅里叶变换模块1得到的每一路信号的离散频谱分别进行语音活动检测,利用语音第一秒大部分是无语音段的特点,设语音信号最初始的无语音帧的数量为NIS帧,其中NIS=fs/(50%×M)-1=124。那么,利用这NIS帧估计的噪声平均频谱为:
式(5)表示每一帧信号的对应频点先求和再取平均。进一步,噪声帧的对数频谱估计表示为:
其中|·|是取模运算。然后,计算每帧信号的对数频谱,计算方式表示为:
由式(6)和式(7)可以得出每帧信号与噪声信号的对数频谱距离,对数频谱距离公式如下:
综上,可以得出语音活动检测的判断方法:首先,设置一个无语音段计数器,该计数器初始值可以设置为125,同时设置一个对数谱距离阈值为3。然后计算每一帧信号与噪声帧的对数谱距离dspec,判断dspec是否小于该对数谱距离阈值,如果是,则该帧是无语音帧,无语音段计数器加1,如果不是,则该帧是有语音帧,且无语音段计数器不论是多少,必须归零。最后还需要注意的是如果无语音段计数器在归零之前的值小于最小无语音长度,则认为无语音段计数器上一次归零后到这一次归零前是无语段的帧均为有语音帧。这里令最小无语音长度为10。
本实施例在验证时为了减少语音的失真,当每一路信号的语音活动检测结果都是噪声帧时,才会认为是噪声帧,否则,均会认为是语音帧。
导向矢量估计模块3:根据语音活动检测模块2得到的语音活动检测结果,分别对带噪语音相关矩阵和噪声相关矩阵进行估计,然后对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解,最后利用最大特征值对应的特征向量对导向矢量进行估计。
导向矢量估计模块3的工作原理是:根据语音活动检测模块2得到的语音活动检测结果,分别对带噪语音相关矩阵和噪声相关矩阵进行估计。在有语音帧时,对带噪语音相关矩阵估计为:
Ryy[l]=αRyy[l-1]+(1-α)yyH (9)
其中参数α=0.997,(·)H表示向量或矩阵的共轭转置,y表示将J个节点的Ej通道的yj堆叠后的向量,维度为E=∑Ej,Ryy[l-1]表示上一帧的带噪语音相关矩阵估计值。v与y的表示方式一样,所以在无语音帧时,噪声相关矩阵估计为:
Rvv[l]=αRvv[l-1]+(1-α)vvH (10)
对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解:
[Vec,Gei]=eig(Ryy[l],Rvv[l]) (11)
分解得到的Vec和Gei分别是特征向量矩阵和特征值矩阵,设最大特征值对应的特征向量为那么导向矢量估计为:
其中E维的h包含了所有节点的导向矢量hj。
数据压缩模块4:用压缩向量对离散傅里叶变换模块1传送的离散频谱信号和导向矢量估计模块3传送的导向矢量分别进行压缩。
数据压缩模块4的工作原理是:利用压缩向量wji对离散傅里叶变换模块1和导向矢量估计模块3得到的信号yj和导向矢量估计hj分别进行压缩:
其中zj i和θj i都是一维压缩信号,同时wj i也是集中式滤波器对应该节点数据的部分滤波器。另外,压缩向量需要进行初始化设置,本实施例在验证时将该压缩向量元素初始化为在单位区间服从均匀分布的随机数。
这里需要注意的是,所有出现的上角标i是迭代计算次数的索引,第i次迭代进行计算的数据也就是第i帧信号的数据,本实施例在验证时将i初始化为1,即从第1帧数据开始。并且该数据压缩操作在每一次迭代中,均会在每一个节点上进行。
结果输出模块5:接收数据压缩模块4发送的压缩离散频谱信号,每一个节点将所有节点的该压缩信号进行求和,得到增强后的语音信号。
结果输出模块5的工作原理是:接收数据压缩模块4发送的压缩信号zj i,每一个节点均会得到增强后的语音信号:
信号构建模块6:接收数据压缩模块4发送的压缩信号,并由每一个节点利用自己未压缩的信号和其他所有节点的压缩信号对本地信号进行构建。
信号构建模块6的工作原理是:接收数据压缩模块4发送的压缩信号zj i和θj i,将所有节点的压缩信号zj i和θj i分别表示为:
上述两个变量zi和θi的维度均为J。在节点j,将这两个变量中自己的压缩信号均剔除不要,得到J-1维的向量z-j i和θ-j i。然后节点j利用自己未压缩的Ej维信号和J-1维的压缩信号向量对本地信号进行构建,构建后的本地信号和本地导向矢量分别表示为:
上式构建好的信号维度均为Ej+J-1。本专利在验证时,每一次迭代均在每一个节点上完成了上述的信号构建。
加权相关矩阵估计模块7:接收结果输出模块5发送的增强语音信号以及信号构建模块6发送的构建后本地信号,对加权相关矩阵进行估计。
加权相关矩阵估计模块7的工作原理是:利用结果输出模块5发送的增强语音信号以及信号构建模块6发送的构建后本地信号对加权相关矩阵进行估计。首先,将结果输出模块5发送的增强语音信号的方差表示为:
σi=|d|2 (20)
其中|·|2表示绝对值的平方;
然后,当前帧的带噪语音加权相关矩阵估计为:
其中表示上一帧的带噪语音加权相关矩阵估计值,/>表示构建后本地信号,ζ表示一个特别小的正数,max(a,b)表示选取a和b中的最大值。每一帧信号对加权相关矩阵的估计均会由上式完成更新。本实施例在验证时,每一次迭代均在每一个节点上完成了上述加权相关矩阵估计,参数ζ设为10-5。
滤波器更新模块8:接收加权相关矩阵估计模块7估计到的加权相关矩阵,并利用信号构建模块6构建好的本地导向矢量对滤波器完成更新。
滤波器更新模块8的工作原理是:接收加权相关矩阵估计模块7估计到的加权相关矩阵,并利用信号构建模块6构建好的本地导向矢量对滤波器完成更新:
其中表示构建后本地信号对应的滤波器,/>表示节点未压缩的Ej维信号对应的滤波器,/>表示J-1维压缩信号对应的滤波器,/>表示带噪语音加权相关矩阵,(·)-1表示矩阵的逆运算。
在每次迭代时,只有一个节点j的滤波器会按上式进行更行,在上式更新之后,该节点会将发送给其余节点q,然后其余节点的滤波器更新为:
离散傅里叶反变换模块9:接收结果输出模块5发送的增强语音信号,对该信号进行离散傅里叶反变换得到当前帧的时域输出语音信号,并将每一帧时域输出语音信号进行重叠相加得到最终的输出信号。
离散傅里叶反变换模块9的工作原理是:在每一次迭代结束后,将结果输出模块5传播到每一个节点的增强语音信号di进行IDFT,从而将增强后的语音信号转化到时域。IDFT公式如下:
其中i与l表示的含义相同,即第i次迭代计算的就是第l帧信号,所以下面当它俩同时出现时,将迭代索引i省略。
因为本发明在离散傅里叶变换模块1对各路信号进行了分帧加窗处理,且帧移是50%,所以从得到第一帧输出语音信号时,就要与第二帧输出语音信号进行重叠相加运算,重叠部分占50%,具体公式如下:
其中[·]是取整运算,[a]表示不超过数a的最大整数。
本发明公开的一种基于最大似然的分布式语音增强系统,为了验证本发明专利提出技术的实用性,利用众所周知的Imgaei-Source声学环境仿真技术,模拟了一个混响时间T60=0.3s的5m×5m×3m大小的封闭式房间,其中包含一个说话人和随机分布的四个节点。每个节点都是包含Ej=4个麦克风的线性阵列,且麦克风之间的距离为3厘米。图2展示了该无线声传感器网络的二维示意图,给出了说话人和四个节点的二维坐标,且说话人的高度为1.7m,四个节点的高度均为1m。
在验证本发明时,四个节点之间的连接拓扑是全连接的,说话人仿真语音来自TIMIT数据库,从该数据库随机挑选五句话并拼接形成时长为19秒的语音作为语音源信号,采样频率为16kHz,背景噪声是白噪声以及来自NOISEX-92数据库的babble噪声,采样频率降采样为16kHz。最终每个节点接收到的带噪语音信号的输入信噪比分别设置为-5dB,0dB,5dB,10dB,15dB。
以上TIMIT数据库:https://download.csdn.net/download/sdhyfxh/4086482
NOISEX-92数据库:http://spib.linse.ufsc.br/noise.html
为验证本发明专利提出的基于最大似然的分布式语音增强技术,与文献[1]和文献[2]提出的分布式语音增强技术进行了对比。当背景噪声是babble噪声时,采用短时客观可懂度(STOI),语音质量的感知评估(PESQ),以及虚拟语音质量客观评估(ViSQOL)三个评价指标对上述三种分布式语音增强技术进行评估,其中STOI的取值范围是0到1,PESQ的取值范围是-0.5到4.5,ViSQOL的取值范围是1到5,这三个指标的数值越大表示语音质量越高。当背景噪声是白噪声时,采用错词率(WER)评价指标进行评估,其中谷歌语音识别的3.9.0版本对上述三种分布式语音增强技术增强后的信号进行语音识别。
图3、图4和图5给出了不同输入信噪比下每种技术分布式语音增强后的不同评价指标值,从这三幅图中可以看出,不论哪种评价指标,在babble背景噪声下,本发明提出的基于最大似然的分布式语音增强技术均获得了最好的性能,其次是文献[1]提出的技术也获得了不错的性能,而文献[2]中的技术方法在babble背景噪声下无法获得较高的语音增强性能。
图6给出了不同输入信噪比下每种技术分布式语音增强后的WER值,其中纯净语音信号的WER为2.06%。从图6可以看出在输入信噪比较低时,本发明提出的基于最大似然的分布式语音增强技术可以获得较低的错词率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于最大似然的分布式语音增强系统,其特征在于,包括离散傅里叶变换模块、语音活动检测模块、导向矢量估计模块、数据压缩模块、结果输出模块和离散傅里叶反变换模块;
所述离散傅里叶变换模块:首先对无线声传感器网络中J个节点接收的E维信号进行分帧加窗处理,然后对分帧加窗后的每一帧信号进行离散傅里叶变换,从而获得离散频谱信号;
所述语音活动检测模块:接收离散傅里叶变换模块传送的离散频谱信号,利用语音第一秒大部分是无语音段的特点,并结合对数频谱距离,实现对离散频谱信号的语音活动检测,从而得到语音活动检测结果;
所述导向矢量估计模块:根据语音活动检测模块得到的语音活动检测结果,分别对带噪语音相关矩阵和噪声相关矩阵进行估计,然后对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解,最后利用最大特征值对应的特征向量对导向矢量进行估计;
所述数据压缩模块:用压缩向量对离散傅里叶变换模块传送的离散频谱信号和导向矢量估计模块传送的导向矢量分别进行压缩,得到压缩信号;
所述结果输出模块:接收数据压缩模块发送的压缩离散频谱信号,每一个节点将所有节点的压缩信号进行求和,得到增强后的语音信号;
所述离散傅里叶反变换模块:接收结果输出模块发送的增强语音信号,对该信号进行离散傅里叶反变换得到当前帧的时域输出语音信号,并将每一帧时域输出语音信号进行重叠相加得到最终的输出信号。
2.根据权利要求1所述的一种基于最大似然的分布式语音增强系统,其特征在于,还包括信号构建模块、加权相关矩阵估计模块和滤波器更新模块;
所述信号构建模块:接收数据压缩模块发送的压缩信号,并由每一个节点利用自己未压缩的信号和其他所有节点的压缩信号对本地信号进行构建,得到构建后本地信号和本地导向矢量;
所述加权相关矩阵估计模块:接收结果输出模块发送的增强语音信号以及信号构建模块发送的构建后本地信号,对加权相关矩阵进行估计;
所述滤波器更新模块:接收加权相关矩阵估计模块估计到的加权相关矩阵,并利用信号构建模块构建后的本地导向矢量,对滤波器进行更新,将更新完成的滤波器传送至数据压缩模块。
3.根据权利2所述的一种一种基于最大似然的分布式语音增强系统,其特征在于,所述对加权相关矩阵进行估计,采用如下方式:
首先,将增强语音信号的方差表示为:
σi=|d|2
其中i表示迭代计算次数,d表示增强的语音信号,|·|2表示绝对值的平方;
然后,当前帧的带噪语音加权相关矩阵估计为:
其中α表示遗忘因子,是一个参数,表示上一帧的带噪语音加权相关矩阵估计值,/>表示构建后本地信号,(·)H表示向量或矩阵的共轭转置,ζ表示一个特别小的正数,max(a,b)表示选取a和b中的最大值,每一帧信号对加权相关矩阵的估计均会由上式完成更新。
4.根据权利2所述的一种一种基于最大似然的分布式语音增强系统,其特征在于,所述对滤波器进行更新,采用如下表达式:
其中表示构建后本地信号对应的滤波器,/>表示节点未压缩的Ej维信号对应的滤波器,/>表示J-1维压缩信号对应的滤波器,/>表示带噪语音加权相关矩阵,(·)-1表示矩阵的逆运算,/>表示构建后本地导向矢量;
在每次迭代时,只有一个节点j的滤波器会按上式进行更行,在上式更新之后,该节点会将发送给其余节点q,然后其余节点的滤波器更新为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310529581.7A CN116524943A (zh) | 2023-05-11 | 2023-05-11 | 一种基于最大似然的分布式语音增强系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310529581.7A CN116524943A (zh) | 2023-05-11 | 2023-05-11 | 一种基于最大似然的分布式语音增强系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524943A true CN116524943A (zh) | 2023-08-01 |
Family
ID=87395740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310529581.7A Pending CN116524943A (zh) | 2023-05-11 | 2023-05-11 | 一种基于最大似然的分布式语音增强系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524943A (zh) |
-
2023
- 2023-05-11 CN CN202310529581.7A patent/CN116524943A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107221336B (zh) | 一种增强目标语音的装置及其方法 | |
US9768829B2 (en) | Methods for processing audio signals and circuit arrangements therefor | |
US20080208538A1 (en) | Systems, methods, and apparatus for signal separation | |
US20150200454A1 (en) | Distributed beamforming based on message passing | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
CN107993670A (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
CN104103277A (zh) | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 | |
TW201248613A (en) | System and method for monaural audio processing based preserving speech information | |
JP5123595B2 (ja) | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 | |
Braun et al. | A multichannel diffuse power estimator for dereverberation in the presence of multiple sources | |
CN106161751A (zh) | 一种噪声抑制方法及装置 | |
US20240105199A1 (en) | Learning method based on multi-channel cross-tower network for jointly suppressing acoustic echo and background noise | |
CN113129918A (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
CN109637554A (zh) | 基于cdr的mclp语音去混响方法 | |
Koldovský et al. | Noise reduction in dual-microphone mobile phones using a bank of pre-measured target-cancellation filters | |
Zeng et al. | Distributed estimation of the inverse of the correlation matrix for privacy preserving beamforming | |
CN113763984B (zh) | 一种用于分布式多说话人的参数化噪声消除系统 | |
CN116524943A (zh) | 一种基于最大似然的分布式语音增强系统 | |
Geng et al. | A speech enhancement method based on the combination of microphone array and parabolic reflector | |
EP4258567A1 (en) | Beamforming method and beamforming system using neural network | |
Pfeifenberger et al. | Blind source extraction based on a direction-dependent a-priori SNR. | |
CN114724571B (zh) | 一种鲁棒的分布式说话人噪声消除系统 | |
CN114724574B (zh) | 一种期望声源方向可调的双麦克风降噪方法 | |
Anderson et al. | Multichannel Wiener filter estimation using source location knowledge for speech enhancement | |
Bai et al. | Kalman filter-based microphone array signal processing using the equivalent source model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |