CN103559886A

CN103559886A - 基于组稀疏低秩表达的语音信号增强方法

Info

Publication number: CN103559886A
Application number: CN201310439143.8A
Authority: CN
Inventors: 李平; 卜佳俊; 陈纯; 高珊; 王学庆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2014-02-05
Anticipated expiration: 2033-09-24
Also published as: CN103559886B

Abstract

基于组稀疏低秩表达的语音信号增强方法，针对带噪语音信号进行以下操作：首先，根据预设的采样频率对语音信号进行采样，形成对应的向量化表达，并按不同主题对语音信号进行分组；其次，利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达；最后，通过获得的低秩表达对原始带噪信号进行重构，从而输出清晰的增强语音信号。本发明的优点在于：有效地考虑了同主题语音信号间的组稀疏结构特性，能更好地消除背景噪音并获取更清晰的语音信号，使听者更迅速准确地理解语音内容，可应用于军事通信、网络音频会议和在线电台放送等等。

Description

基于组稀疏低秩表达的语音信号增强方法

技术领域

本发明涉及语音信号增强的技术领域，特别是基于组稀疏低秩表达的语音信号增强方法。

背景技术

随着数字媒体设备在人们日常工作和生活中的普及，特别是互联网技术的迅速发展壮大，每天都产生海量的语音数据，这些数据对现实生活中很多领域的交流与合作有着至关重要的影响。然后，由于各种客观环境条件的制约，如家居中小孩的滴哭声、会议室外的车辆喧闹声、实验室内的机器运转声和战争中的炸弹声等等，导致音频设备采集的语音信号通常伴随着不同程度的噪声。因此，如何有效分离语音数据中的噪声成分，增强语音信号是学术界和工业界非常关心且一直在研究探讨的问题。语音信号的增强技术，主要指从不同的噪声背景下提取有效而清晰的语音信号，抑制、降低甚至消除噪声干扰。

目前，针对语音信号的增强处理集中在传统的数字和模拟信号处理中，如现有的典型语音增强方法主要有基于小波分析、谱相减、卡尔曼滤波、信号子空间、听觉掩蔽效应、神经网络、独立主成分分析等等。这些技术对于语音信号较少且不稳定的情况是很占优势的，但是随着大数据时代的到来，海量的语音数据唾手可得，这为利用统计机器学习方法解决带噪语音信号的噪声抑制提供了可能性。从机器学习的角度，将不同类型的语音信号看成数据样本，可以利用已有的许多鲁棒学习方法获得带噪语音数据的低维低秩本征表达，保留尽可能多的原始语音信号，而抑制或丢弃无关的噪声信息，从而实现语音信号和噪声信号的分离，提高听者对语音信号传递内容的鉴别理解能力。在语音数据极为丰富的情形下，使用统计机器学习的方法处理带噪语音信号具有传统信号处理方法无法比拟的优势，具有很强的现实意义和重要的研究价值。

发明内容

为了让用户对多种混合的带噪语音信号提高辨听力，本发明提出了一种基于组稀疏低秩表达的语音信号增强方法，该方法包括以下步骤：

1、获取不同主题的大量带噪语音信号后，针对带噪语音信号进行以下操作：

1)根据预设的采样频率f_s对每个带噪语音信号进行采样，获得m维的向量化表达x∈R^m，并按照不同主题对语音信号分组；

2)利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达；

3)通过获得的低秩表达对原始带噪信号进行重构，从而输出清晰的增强语音信号。

进一步，步骤1)中所述的按照不同主题对语音信号分组，具体是：

1)假设语音信号可分为k个主题，则第c个主题的语音信号矩阵表示为

Figure 2013104391438100002DEST_PATH_IMAGE001

，其中n_c为第c个主题的语音信号数目；

2)通过按顺序拼接不同主题的信号矩阵块，可构造整体语音信号矩阵X＝[X¹，…，X^k]∈R^m×n，其中n＝n₁+n₂+…+n_k。

进一步，步骤2)中所述的利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达，具体是：

1)假设第c个主题语音信号的组稀疏低秩表达为Z^c，则同主题语音信号间的组稀疏结构特征可通过矩阵的l_1，q范式表征为

Σ_{c = 1}^{k} {| | Z^{c} | |}_{1, q},

其中

{| | Z^{c} | |}_{1, q} = Σ_{j = 1}^{n_{c}} {| | z_{j}^{c} | |}_{q} = {| | z_{1}^{c} | |}_{q} + . . . + {| | z_{n_{c}}^{c} | |}_{q}

其中，‖·‖_q表示向量的l_q范式，q＞0反映了语音信号的组结构特征，第c个主题语音信号的低秩表达

Figure 2013104391438100002DEST_PATH_IMAGE004

而列向量表示第c个主题中的第j个语音信号对应的低秩表达系数，整体语音信号矩阵的低秩表达为一个块对角矩阵Z＝diag(Z¹，…，Z^k)∈R^n×n；

2)设语音信号中的噪声成分表示为矩阵E∈R^m×n，语音信号的词典为数据矩阵本身X，通过求解下式可实现低秩矩阵分解，即

minimize_Z，E‖Z‖_*+α‖Z‖_1，q+λ‖E‖₁，

subject to X＝XZ+E，e^TZ＝e^T，Z≥0，

其中，‖Z‖_*表示矩阵Z的核范式，即矩阵Z的奇异值之和，参数α＞0可调节组稀疏结构特征的贡献，参数λ＞0控制语音信号中的噪声压制程度，e是一个全1的列向量，这样，可以得到语音信号的组稀疏低秩表达Z，同时分离出噪声矩阵E。

进一步，步骤3)中所述通过获得的低秩表达对原始带噪信号进行重构，具体是：

通过上述步骤求得的语音信号对应的组稀疏低秩表达Z与原始带噪语音信号X进行线性乘积，可获得重构后的清晰增强语音信号，即

\hat{X} = XZ .

本发明提出了基于组稀疏低秩表达的语音信号增强方法，其优点在于：有效地考虑了同主题语音信号间的组稀疏结构特性，能更好地消除背景噪音并获取更清晰的语音信号，使听者更迅速准确地理解语音内容，可应用于军事通信、网络音频会议和在线电台放送等等。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

基于组稀疏低秩表达的语音信号增强方法，该方法包括以下步骤：

步骤1)中所述的按照不同主题对语音信号分组，具体是：

Figure 2013104391438100002DEST_PATH_IMAGE006

，其中n_c为第c个主题的语音信号数目；

步骤2)中所述的利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达，具体是：

Σ_{c = 1}^{k} {| | Z^{c} | |}_{1, q},

其中

{| | Z^{c} | |}_{1, q} = Σ_{j = 1}^{n_{c}} {| | z_{j}^{c} | |}_{q} = {| | z_{1}^{c} | |}_{q} + . . . + {| | z_{n_{c}}^{c} | |}_{q}

Figure 2013104391438100002DEST_PATH_IMAGE009

而列向量

Figure 2013104391438100002DEST_PATH_IMAGE010

表示第c个主题中的第j个语音信号对应的低秩表达系数，整体语音信号矩阵的低秩表达为一个块对角矩阵Z＝diag(Z¹，…，Z^k)∈R^n×n；

minimize_Z，E‖Z‖_*+α‖Z‖_1，q+λ‖E‖₁，

subject to X＝XZ+E，e^TZ＝e^T，Z≥0，

步骤3)中所述通过获得的低秩表达对原始带噪信号进行重构，具体是：

\hat{X} = XZ .

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。