CN111524531A

CN111524531A - 一种用于对高音质的双通道视频语音的实时降噪的方法

Info

Publication number: CN111524531A
Application number: CN202010324381.4A
Authority: CN
Inventors: 陈阳; 刘庆云; 吴庆婕
Original assignee: Guangzhou Qingyin Intelligent Technology Co ltd
Current assignee: Guangzhou Qingyin Intelligent Technology Co ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-11

Abstract

本发明公开了一种用于对高音质的双通道视频语音的实时降噪的方法，该方法包括：将音频视频分离，采集音频数据；获取音频数据的音频参数信息，并根据获取的音频参数信息判断音频的降噪方式；将音频流按照预设时间间隔进行分段，并经维纳滤波器对语音数据进行降噪处理后编码输出。本发明能够有效去除视频中音频的环境噪音，让视频观看者拥有更好的观赏体验。

Description

一种用于对高音质的双通道视频语音的实时降噪的方法

技术领域

本发明涉及语音降噪技术领域，尤其涉及一种用于对高音质的双通道视频语音的实时降噪的方法。

背景技术

在现实生活环境中，语音信号在编码、传输等过程中会遇到各种各样噪声的污染，语音降噪成为语音信号处理之前不可或缺的一部分，例如语音编码、语音识别等方面，都需要先进行语音降噪。语音降噪是针对噪声问题的一种有效的处理技术，目的是为了消除噪声对语音信号的影响，来提高语音信号的清晰度、改善语音信号的质量。语音降噪技术的发展也随着科学技术的发展变得越来越快。传统的语音降噪算法有很多种，包括自适应滤波器降噪法、谱减法、维纳滤波法等。本发明在利用维纳滤波降噪法的基础上进行改进，能处理更高采样率的双通道视频语音。

发明内容

为解决上述技术问题，本发明的目的是提供一种用于对高音质的双通道视频语音的实时降噪的方法。

本发明的目的通过以下的技术方案来实现：

一种用于对高音质的双通道视频语音的实时降噪的方法，包括：

S1将音频视频分离，采集音频数据；

S2获取音频数据的音频参数信息，并根据获取的音频参数信息判断音频的降噪方式；

S3将音频流按照预设时间间隔进行分段，并经维纳滤波器对语音数据进行降噪处理后编码输出。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本发明能够有效去除视频中音频的环境噪音，让视频观看者拥有更好的观赏体验；用于对高音质的双通道视频语音的实时降噪的方法可以在通道数、采样率方面扩大音频降噪的处理范围，有效克服了当前现有技术的种种缺点，具有较高的应用价值。

附图说明

图1和图2是本发明实施例提供的一种用于对高音质的双通道视频语音的实时降噪的方法的整体流程图；

图3是本发明实施例提供的一种用于对高音质的双通道视频语音的实时降噪的方法的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1和图2所示，为用于对高音质的双通道视频语音的实时降噪的方法的整体流程，包括以下步骤：

S1将音频视频分离，采集音频数据；

上述步骤S1中：通过ffmpeg模块将音频从视频中提取出来。

上述步骤S2中：音频数据的音频参数信息包括：采样率信息、采样声道数信息。

上述步骤S3具体包括：

S31：对所述音频流按照预设时间间隔进行分帧；

所述预设时间间隔设置为10ms，每次都以10ms的数据为一个单元进行降噪。

S32：加汉明窗，进行快速傅里叶变换；

S33：计算每一段语音信号的频域信号特征。根据初始静默区间，对噪声的频域信号特征进行概率函建模；

所述频域信号特征包括：LRT均值特征、频谱平坦度特征、频谱模板差异特征。

基于特征概率的更新如下式：

q_m＝γ_qq_m-1+(1-γ_q)M(z,w)

其中，γ_q是平滑阐述，M(z)是给定时间和频率的映射函数，w代表映射函数的宽度特征，映射函数根据测量出的特征以及阈值和宽度参数，将时频槽划分为语音和噪声。

LRT均值特征是经过时间平滑处理的似然比因子的几何平均数，如下式：

其中，F₁是特征，T₁为阈值参数。此时用于对基于特征的先验概率进行更新映射函数M(z)如下式：

M(z)＝0.5*(tanh(w₁z₁)+0.5)

变量z如下式：

z＝T₁-F₁

频谱平坦度特征是幅度谱的几何平均数与算数平均数的比值，如下式：

其中，N表示频率带中的频率数，噪声计算出的F₂偏大且为常数，语音计算出的F₂偏小且为变量。

M(z)＝0.5*(tanh(w₂z₂)+0.5)

变量z如下式：

z＝T₂-F₂

频谱模板差异特征可测量噪声频谱与输入频谱的偏差，如下式：

其中，(α,u)为形状参数，包括线性位移和振幅参数。

S34：使用上述噪声分类模型，计算每一段基于多噪声特征的语音概率，再根据噪声信号分类特征和阈值参数对计算出的语音概率进行加权，并以此更新噪声估计和频域特征建模(如图3所示)；

所述噪声估计更新如下式：

其中，

是时间为m，频率草为k时对噪声频谱量级的估计，γ_n控制噪声更新的平滑度。

S35：根据上述噪声估计，计算不同频率的信噪比，并依信噪比进行维纳滤波(如图3所示)；

S36：进行傅里叶逆变换，转换回时域信号，并进行拼接。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于对高音质的双通道视频语音的实时降噪的方法，其特征在于，所述方法包括：

S1将音频视频分离，采集音频数据；

2.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法，其特征在于，所述步骤S1中：通过ffmpeg模块将音频从视频中提取出来。

3.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法，其特征在于，所述步骤S2中：音频数据的音频参数信息包括：采样率信息、采样声道数信息。

4.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法，其特征在于，所述步骤S3具体包括：

S31对所述音频流按照预设时间间隔进行分帧；

S32加汉明窗，进行快速傅里叶变换；

S33计算每一段语音信号的频域信号特征，根据初始静默区间，对噪声的视频信号特征进行概率函建模；

S34通过噪声分类模型，计算每一段基于多噪声特征的语音概率，再根据噪声信号分类特征和阈值参数对计算出的语音概率进行加权，并以此更新噪声估计和频域特征建模；

S35根据噪声估计，计算不同频率的信噪比，并依信噪比进行维纳滤波；

S36进行傅里叶逆变换，转换回时域信号，并进行拼接。

5.如权利要求4所述的用于对高音质的双通道视频语音的实时降噪的方法，其特征在于，所述频域信号特征包括：LRT均值特征、频谱平坦度特征和频谱模板差异特征。