CN116524943A

CN116524943A - 一种基于最大似然的分布式语音增强系统

Info

Publication number: CN116524943A
Application number: CN202310529581.7A
Authority: CN
Inventors: 庞淑蓉; 秦品乐; 畅瑞江
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-01

Abstract

本发明属于分布式语音增强技术领域，具体涉及一种基于最大似然的分布式语音增强系统。为了扩展WASN中的语音增强技术多样性，并完成良好的噪声消除性能，本系统包括离散傅里叶变换模块、语音活动检测模块、导向矢量估计模块、数据压缩模块、结果输出模块、信号构建模块、加权相关矩阵估计模块、滤波器更新模块、离散傅里叶反变换模块。本发明是一种可以应用在没有数据处理中心的无线声传感器网络的分布式语音增强技术，它通过节点构建的本地信号和输出结果方差对加权相关矩阵进行估计，并将估计到的加权相关矩阵结合构建好的本地导向矢量对滤波器进行更新，从而完成分布式语音增强。

Description

一种基于最大似然的分布式语音增强系统

技术领域

本发明属于分布式语音增强技术领域，具体涉及一种基于最大似然的分布式语音增强系统。

背景技术

无线声传感器网络(WASN)通常由多个节点组成，这些节点可以是一个麦克风，也可以是一个麦克风阵列，甚至可以是一部智能设备，比如手机，智能手表，笔记本电脑等。每一个节点都具备一定的数据处理能力，并且这些节点之间可以通过事先建立的无线通信协议进行数据的传输。相比较于传统的单麦克风和麦克风阵列，WASN不仅可以利用音频信号的时间信息和空间信息进行语音增强，还可以拥有大面积的物理覆盖范围，使得总有距离声源相对很近的节点存在，这样就可以获取到输入信噪比相对较高的带噪语音，有利于语音增强技术性能的进一步提高。

通常，应用于WASN的分布式语音增强技术可以分为两大类。一类是应用在含有数据处理中心的WASN下，称之为集中式处理；一类是应用在没有数据处理中心的WASN下，称之为分布式处理。在集中式处理的技术中，所有节点都需要将接收到的语音信号发送至数据处理中心，并且由数据处理中心进行语音增强。在该处理方式下，其缺点比较明显，那就是当数据处理中心损坏，或者与节点无端失去连接后，整个WASN将会进入一个停滞状态，无法正常工作，另外即使工作正常的情况下，数据处理中心也需要有相当大的计算能力，并且会伴随着较高的功率损耗。相比较之下，没有数据处理中心的WASN就没有上述的缺点，在该网络下完成分布式语音增强技术时，整个网络的计算由每一个节点分担，并且即使有节点临时损坏或加入网络，整体的网络运行状态不会受到影响，而且分布式语音增强性能也不会有太大的变化。

在现有技术中提出了一种基于线性约束最小方差的分布式波束形成技术。该技术中，每一个节点有一个麦克风阵列，每一个节点利用自身的本地信号以及来自邻居节点发送的单通道压缩信号，即可完成分布式语音增强技术。虽然该技术将已有的线性约束最小方差波束形成技术分布式实现在了WASN中，但是该技术的输出性能较差。

在现有技术中基于网络求和方法，提出了一种不限定网络拓扑的分布式语音增强技术，该技术通过将每一个节点的信号进行压缩，然后将每一个节点压缩后的信号进行求和，最后在每一个节点利用本地信号和其他节点压缩信号的和完成了语音增强技术的更新迭代。该技术虽然可以在任意拓扑下实现分布式语音增强，但由于该技术的核心算法是多通道维纳滤波，所以最终增强信号的残留噪声依然严重。

另外现有技术中基于期望声源导向矩阵的先验信息，提出了基于广义特征值分解的分布式自适应节点特定语音增强技术。该技术可以在低信噪比情况下获得较好的性能。虽然该技术方案可以完成一定的语音增强性能，但是其需要知道一些先验信息，在实际应用中，并不容易实现。

现有的分布式语音增强技术多数集中在分布式数据融合技术中，很少去扩展WASN中的语音增强技术。在分布式数据融合技术中，已有平均一致性，diffusion，gossip等数据融合方法被发明，除此之外，还有一些将信号压缩后再进行数据融合的方法也被发明。而对于WASN中的语音增强技术，基本上都是在维纳滤波，最小方差无失真响应，线性约束最小方差，广义旁瓣抵消器技术基础上开展的。针对上述情况，为了扩展WASN中的语音增强技术多样性，并完成良好的噪声消除性能，本发明基于最大似然无失真响应，给出了一种基于最大似然的分布式语音增强技术方案。它是利用输出信号的方差对相关矩阵进行加权并完成语音增强的一种基于最大似然的分布式语音增强系统。

发明内容

针对上述问题本发明提供了本发明公开了一种基于最大似然的分布式语音增强系统。

为了达到上述目的，本发明采用了下列技术方案：

一种基于最大似然的分布式语音增强系统包括离散傅里叶变换模块、语音活动检测模块、导向矢量估计模块、数据压缩模块、结果输出模块和离散傅里叶反变换模块；

所述离散傅里叶变换模块：首先对无线声传感器网络中J个节点接收的E维信号进行分帧加窗处理，然后对分帧加窗后的每一帧信号进行离散傅里叶变换，从而获得离散频谱信号；

所述语音活动检测模块：接收离散傅里叶变换模块传送的离散频谱信号，利用语音第一秒大部分是无语音段的特点，并结合对数频谱距离，实现对离散频谱信号的语音活动检测，从而得到语音活动检测结果；

所述导向矢量估计模块：根据语音活动检测模块得到的语音活动检测结果，分别对带噪语音相关矩阵和噪声相关矩阵进行估计，然后对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解，最后利用最大特征值对应的特征向量对导向矢量进行估计；

所述数据压缩模块：用压缩向量对离散傅里叶变换模块传送的离散频谱信号和导向矢量估计模块传送的导向矢量分别进行压缩，得到压缩信号；

所述结果输出模块：接收数据压缩模块发送的压缩离散频谱信号，每一个节点将所有节点的压缩信号进行求和，得到增强后的语音信号；

所述离散傅里叶反变换模块：接收结果输出模块发送的增强语音信号，对该信号进行离散傅里叶反变换得到当前帧的时域输出语音信号，并将每一帧时域输出语音信号进行重叠相加得到最终的输出信号。

进一步，本系统还包括信号构建模块、加权相关矩阵估计模块和滤波器更新模块；

所述信号构建模块：接收数据压缩模块发送的压缩信号，并由每一个节点利用自己未压缩的信号和其他所有节点的压缩信号对本地信号进行构建，得到构建后本地信号和本地导向矢量；

所述加权相关矩阵估计模块：接收结果输出模块发送的增强语音信号以及信号构建模块发送的构建后本地信号，对加权相关矩阵进行估计；

所述滤波器更新模块：接收加权相关矩阵估计模块估计到的加权相关矩阵，并利用信号构建模块构建后的本地导向矢量，对滤波器进行更新，将更新完成的滤波器传送至数据压缩模块。

进一步，所述对加权相关矩阵进行估计，采用如下方式：

首先，将增强语音信号的方差表示为：

σⁱ＝|d|²

其中i表示迭代计算次数，d表示增强的语音信号，|·|²表示绝对值的平方；

然后，当前帧的带噪语音加权相关矩阵估计为：

其中α表示遗忘因子，是一个参数，表示上一帧的带噪语音加权相关矩阵估计值，/>表示构建后本地信号，(·)^H表示向量或矩阵的共轭转置，ζ表示一个特别小的正数，max(a,b)表示选取a和b中的最大值，每一帧信号对加权相关矩阵的估计均会由上式完成更新。

进一步，所述对滤波器进行更新，采用如下表达式：

其中表示构建后本地信号对应的滤波器，/>表示节点未压缩的E_j维信号对应的滤波器，/>表示J-1维压缩信号对应的滤波器，/>表示带噪语音加权相关矩阵，(·)^-1表示矩阵的逆运算，/>表示构建后本地导向矢量；

在每次迭代时，只有一个节点j的滤波器会按上式进行更行，在上式更新之后，该节点会将发送给其余节点q，然后其余节点的滤波器更新为：

与现有技术相比本发明具有以下优点：

本发明提供的一种基于最大似然的分布式语音增强系统，是一种可以应用在没有数据处理中心的无线声传感器网络的分布式语音增强技术，它通过节点构建的本地信号和输出结果方差对加权相关矩阵进行估计，并将估计到的加权相关矩阵结合构建好的本地导向矢量对滤波器进行更新，从而完成分布式语音增强。本发明扩展了无线声传感器网络中的分布式语音增强技术多样性，并完成良好的噪声消除性能。它利用每个节点的压缩器对节点接收信号进行压缩，并将每个节点压缩后的信号进行求和，即可得到最终的输出结果。

附图说明

图1为本发明系统的基于最大似然的分布式语音增强原理框图；

图2为本发明中无线声传感器网络示意图；

图3为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的STOI值；

图4为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的PESQ值；

图5为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的ViSQOL值；

图6为本发明实施例中不同输入信噪比下每种技术分布式语音增强后的WER值。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于最大似然的分布式语音增强系统，包括离散傅里叶变换(DFT)模块1、语音活动检测模块2、导向矢量估计模块3、数据压缩模块4、结果输出模块5、信号构建模块6、加权相关矩阵估计模块7、滤波器更新模块8、离散傅里叶反变换(IDFT)模块9。

其中离散傅里叶变换模块1：首先对无线声传感器网络中J个节点接收的E维信号进行分帧加窗处理，然后对分帧加窗后的每一帧信号进行离散傅里叶变换，从而获得离散频谱信号。

离散傅里叶变换模块1的工作原理是：设WASN一共有J个节点，其中节点j有E_j个麦克风，且将节点j接收到的第e路信号表示为y_j,e(n)，并对其进行分帧加窗处理，然后对每一帧信号进行DFT。本实施例在验证时的语音信号采样频率f_s是16kHz，窗函数是汉宁窗，帧移为50％，每帧数据长度为M＝256点。其中汉宁窗的表达式如下：

ω(m)＝0.5-0.5cos(2πm/M),m＝0,1,...,M-1 (1)

根据汉宁窗表达式可以得到加窗后的信号为：

y'_j,e(m)＝y_j,e(n)ω(m) (2)

然后对加窗后的每一帧信号进行DFT，变换后得到的离散频谱表示为：

其中，k表示频点索引，l表示时间帧索引。

将每个节点接收到的所有信号Y_j,e(k,l)堆叠为一个列向量，该向量表示为：

其中为了表示方便对索引k和l进行了省略，并且本实施例的所有操作都是频点独立的，即每一帧的每一个频点对应的操作均是一致的。另外，y_j＝x_j+v_j，其中x_j＝h_js是混响语音成分，v_j是加性噪声，h_j是声源信号s到第j个节点的房间冲激响应。

语音活动检测模块2：接收离散傅里叶变换模块1传送的离散频谱信号，利用语音第一秒大部分是无语音段的特点，并结合对数频谱距离，实现对离散频谱信号的语音活动检测，从而得到语音活动检测结果。

语音活动检测模块2的工作原理是：对离散傅里叶变换模块1得到的每一路信号的离散频谱分别进行语音活动检测，利用语音第一秒大部分是无语音段的特点，设语音信号最初始的无语音帧的数量为NIS帧，其中NIS＝f_s/(50％×M)-1＝124。那么，利用这NIS帧估计的噪声平均频谱为：

式(5)表示每一帧信号的对应频点先求和再取平均。进一步，噪声帧的对数频谱估计表示为：

其中|·|是取模运算。然后，计算每帧信号的对数频谱，计算方式表示为：

由式(6)和式(7)可以得出每帧信号与噪声信号的对数频谱距离，对数频谱距离公式如下：

综上，可以得出语音活动检测的判断方法：首先，设置一个无语音段计数器，该计数器初始值可以设置为125，同时设置一个对数谱距离阈值为3。然后计算每一帧信号与噪声帧的对数谱距离d_spec，判断d_spec是否小于该对数谱距离阈值，如果是，则该帧是无语音帧，无语音段计数器加1，如果不是，则该帧是有语音帧，且无语音段计数器不论是多少，必须归零。最后还需要注意的是如果无语音段计数器在归零之前的值小于最小无语音长度，则认为无语音段计数器上一次归零后到这一次归零前是无语段的帧均为有语音帧。这里令最小无语音长度为10。

本实施例在验证时为了减少语音的失真，当每一路信号的语音活动检测结果都是噪声帧时，才会认为是噪声帧，否则，均会认为是语音帧。

导向矢量估计模块3：根据语音活动检测模块2得到的语音活动检测结果，分别对带噪语音相关矩阵和噪声相关矩阵进行估计，然后对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解，最后利用最大特征值对应的特征向量对导向矢量进行估计。

导向矢量估计模块3的工作原理是：根据语音活动检测模块2得到的语音活动检测结果，分别对带噪语音相关矩阵和噪声相关矩阵进行估计。在有语音帧时，对带噪语音相关矩阵估计为：

R_yy[l]＝αR_yy[l-1]+(1-α)yy^H (9)

其中参数α＝0.997，(·)^H表示向量或矩阵的共轭转置，y表示将J个节点的E_j通道的y_j堆叠后的向量，维度为E＝∑E_j，R_yy[l-1]表示上一帧的带噪语音相关矩阵估计值。v与y的表示方式一样，所以在无语音帧时，噪声相关矩阵估计为：

R_vv[l]＝αR_vv[l-1]+(1-α)vv^H (10)

对估计到的带噪语音相关矩阵和噪声相关矩阵进行广义特征值分解：

[V_ec,G_ei]＝eig(R_yy[l],R_vv[l]) (11)

分解得到的V_ec和G_ei分别是特征向量矩阵和特征值矩阵，设最大特征值对应的特征向量为那么导向矢量估计为：

其中E维的h包含了所有节点的导向矢量h_j。

数据压缩模块4：用压缩向量对离散傅里叶变换模块1传送的离散频谱信号和导向矢量估计模块3传送的导向矢量分别进行压缩。

数据压缩模块4的工作原理是：利用压缩向量w_ji对离散傅里叶变换模块1和导向矢量估计模块3得到的信号y_j和导向矢量估计h_j分别进行压缩：

其中z_j ⁱ和θ_j ⁱ都是一维压缩信号，同时w_j ⁱ也是集中式滤波器对应该节点数据的部分滤波器。另外，压缩向量需要进行初始化设置，本实施例在验证时将该压缩向量元素初始化为在单位区间服从均匀分布的随机数。

这里需要注意的是，所有出现的上角标i是迭代计算次数的索引，第i次迭代进行计算的数据也就是第i帧信号的数据，本实施例在验证时将i初始化为1，即从第1帧数据开始。并且该数据压缩操作在每一次迭代中，均会在每一个节点上进行。

结果输出模块5：接收数据压缩模块4发送的压缩离散频谱信号，每一个节点将所有节点的该压缩信号进行求和，得到增强后的语音信号。

结果输出模块5的工作原理是：接收数据压缩模块4发送的压缩信号z_j ⁱ，每一个节点均会得到增强后的语音信号：

信号构建模块6：接收数据压缩模块4发送的压缩信号，并由每一个节点利用自己未压缩的信号和其他所有节点的压缩信号对本地信号进行构建。

信号构建模块6的工作原理是：接收数据压缩模块4发送的压缩信号z_j ⁱ和θ_j ⁱ，将所有节点的压缩信号z_j ⁱ和θ_j ⁱ分别表示为：

上述两个变量zⁱ和θⁱ的维度均为J。在节点j，将这两个变量中自己的压缩信号均剔除不要，得到J-1维的向量z_-j ⁱ和θ_-j ⁱ。然后节点j利用自己未压缩的E_j维信号和J-1维的压缩信号向量对本地信号进行构建，构建后的本地信号和本地导向矢量分别表示为：

上式构建好的信号维度均为E_j+J-1。本专利在验证时，每一次迭代均在每一个节点上完成了上述的信号构建。

加权相关矩阵估计模块7：接收结果输出模块5发送的增强语音信号以及信号构建模块6发送的构建后本地信号，对加权相关矩阵进行估计。

加权相关矩阵估计模块7的工作原理是：利用结果输出模块5发送的增强语音信号以及信号构建模块6发送的构建后本地信号对加权相关矩阵进行估计。首先，将结果输出模块5发送的增强语音信号的方差表示为：

σⁱ＝|d|² (20)

其中|·|²表示绝对值的平方；

然后，当前帧的带噪语音加权相关矩阵估计为：

其中表示上一帧的带噪语音加权相关矩阵估计值，/>表示构建后本地信号，ζ表示一个特别小的正数，max(a,b)表示选取a和b中的最大值。每一帧信号对加权相关矩阵的估计均会由上式完成更新。本实施例在验证时，每一次迭代均在每一个节点上完成了上述加权相关矩阵估计，参数ζ设为10^-5。

滤波器更新模块8：接收加权相关矩阵估计模块7估计到的加权相关矩阵，并利用信号构建模块6构建好的本地导向矢量对滤波器完成更新。

滤波器更新模块8的工作原理是：接收加权相关矩阵估计模块7估计到的加权相关矩阵，并利用信号构建模块6构建好的本地导向矢量对滤波器完成更新：

其中表示构建后本地信号对应的滤波器，/>表示节点未压缩的E_j维信号对应的滤波器，/>表示J-1维压缩信号对应的滤波器，/>表示带噪语音加权相关矩阵，(·)^-1表示矩阵的逆运算。

离散傅里叶反变换模块9：接收结果输出模块5发送的增强语音信号，对该信号进行离散傅里叶反变换得到当前帧的时域输出语音信号，并将每一帧时域输出语音信号进行重叠相加得到最终的输出信号。

离散傅里叶反变换模块9的工作原理是：在每一次迭代结束后，将结果输出模块5传播到每一个节点的增强语音信号dⁱ进行IDFT，从而将增强后的语音信号转化到时域。IDFT公式如下：

其中i与l表示的含义相同，即第i次迭代计算的就是第l帧信号，所以下面当它俩同时出现时，将迭代索引i省略。

因为本发明在离散傅里叶变换模块1对各路信号进行了分帧加窗处理，且帧移是50％，所以从得到第一帧输出语音信号时，就要与第二帧输出语音信号进行重叠相加运算，重叠部分占50％，具体公式如下：

其中[·]是取整运算，[a]表示不超过数a的最大整数。

本发明公开的一种基于最大似然的分布式语音增强系统，为了验证本发明专利提出技术的实用性，利用众所周知的Imgaei-Source声学环境仿真技术，模拟了一个混响时间T₆₀＝0.3s的5m×5m×3m大小的封闭式房间，其中包含一个说话人和随机分布的四个节点。每个节点都是包含E_j＝4个麦克风的线性阵列，且麦克风之间的距离为3厘米。图2展示了该无线声传感器网络的二维示意图，给出了说话人和四个节点的二维坐标，且说话人的高度为1.7m，四个节点的高度均为1m。

在验证本发明时，四个节点之间的连接拓扑是全连接的，说话人仿真语音来自TIMIT数据库，从该数据库随机挑选五句话并拼接形成时长为19秒的语音作为语音源信号，采样频率为16kHz，背景噪声是白噪声以及来自NOISEX-92数据库的babble噪声，采样频率降采样为16kHz。最终每个节点接收到的带噪语音信号的输入信噪比分别设置为-5dB，0dB，5dB，10dB，15dB。

以上TIMIT数据库：https://download.csdn.net/download/sdhyfxh/4086482

NOISEX-92数据库：http://spib.linse.ufsc.br/noise.html

为验证本发明专利提出的基于最大似然的分布式语音增强技术，与文献[1]和文献[2]提出的分布式语音增强技术进行了对比。当背景噪声是babble噪声时，采用短时客观可懂度(STOI)，语音质量的感知评估(PESQ)，以及虚拟语音质量客观评估(ViSQOL)三个评价指标对上述三种分布式语音增强技术进行评估，其中STOI的取值范围是0到1，PESQ的取值范围是-0.5到4.5，ViSQOL的取值范围是1到5，这三个指标的数值越大表示语音质量越高。当背景噪声是白噪声时，采用错词率(WER)评价指标进行评估，其中谷歌语音识别的3.9.0版本对上述三种分布式语音增强技术增强后的信号进行语音识别。

图3、图4和图5给出了不同输入信噪比下每种技术分布式语音增强后的不同评价指标值，从这三幅图中可以看出，不论哪种评价指标，在babble背景噪声下，本发明提出的基于最大似然的分布式语音增强技术均获得了最好的性能，其次是文献[1]提出的技术也获得了不错的性能，而文献[2]中的技术方法在babble背景噪声下无法获得较高的语音增强性能。

图6给出了不同输入信噪比下每种技术分布式语音增强后的WER值，其中纯净语音信号的WER为2.06％。从图6可以看出在输入信噪比较低时，本发明提出的基于最大似然的分布式语音增强技术可以获得较低的错词率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于最大似然的分布式语音增强系统，其特征在于，包括离散傅里叶变换模块、语音活动检测模块、导向矢量估计模块、数据压缩模块、结果输出模块和离散傅里叶反变换模块；

2.根据权利要求1所述的一种基于最大似然的分布式语音增强系统，其特征在于，还包括信号构建模块、加权相关矩阵估计模块和滤波器更新模块；

3.根据权利2所述的一种一种基于最大似然的分布式语音增强系统，其特征在于，所述对加权相关矩阵进行估计，采用如下方式：

首先，将增强语音信号的方差表示为：

σⁱ＝|d|²

然后，当前帧的带噪语音加权相关矩阵估计为：

4.根据权利2所述的一种一种基于最大似然的分布式语音增强系统，其特征在于，所述对滤波器进行更新，采用如下表达式：