CN111524531A - 一种用于对高音质的双通道视频语音的实时降噪的方法 - Google Patents

一种用于对高音质的双通道视频语音的实时降噪的方法 Download PDF

Info

Publication number
CN111524531A
CN111524531A CN202010324381.4A CN202010324381A CN111524531A CN 111524531 A CN111524531 A CN 111524531A CN 202010324381 A CN202010324381 A CN 202010324381A CN 111524531 A CN111524531 A CN 111524531A
Authority
CN
China
Prior art keywords
audio
noise
noise reduction
speech
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010324381.4A
Other languages
English (en)
Inventor
陈阳
刘庆云
吴庆婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Qingyin Intelligent Technology Co ltd
Original Assignee
Guangzhou Qingyin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Qingyin Intelligent Technology Co ltd filed Critical Guangzhou Qingyin Intelligent Technology Co ltd
Priority to CN202010324381.4A priority Critical patent/CN111524531A/zh
Publication of CN111524531A publication Critical patent/CN111524531A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种用于对高音质的双通道视频语音的实时降噪的方法,该方法包括:将音频视频分离,采集音频数据;获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。本发明能够有效去除视频中音频的环境噪音,让视频观看者拥有更好的观赏体验。

Description

一种用于对高音质的双通道视频语音的实时降噪的方法
技术领域
本发明涉及语音降噪技术领域,尤其涉及一种用于对高音质的双通道视频语音的实时降噪的方法。
背景技术
在现实生活环境中,语音信号在编码、传输等过程中会遇到各种各样噪声的污染,语音降噪成为语音信号处理之前不可或缺的一部分,例如语音编码、语音识别等方面,都需要先进行语音降噪。语音降噪是针对噪声问题的一种有效的处理技术,目的是为了消除噪声对语音信号的影响,来提高语音信号的清晰度、改善语音信号的质量。语音降噪技术的发展也随着科学技术的发展变得越来越快。传统的语音降噪算法有很多种,包括自适应滤波器降噪法、谱减法、维纳滤波法等。本发明在利用维纳滤波降噪法的基础上进行改进,能处理更高采样率的双通道视频语音。
发明内容
为解决上述技术问题,本发明的目的是提供一种用于对高音质的双通道视频语音的实时降噪的方法。
本发明的目的通过以下的技术方案来实现:
一种用于对高音质的双通道视频语音的实时降噪的方法,包括:
S1将音频视频分离,采集音频数据;
S2获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;
S3将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明能够有效去除视频中音频的环境噪音,让视频观看者拥有更好的观赏体验;用于对高音质的双通道视频语音的实时降噪的方法可以在通道数、采样率方面扩大音频降噪的处理范围,有效克服了当前现有技术的种种缺点,具有较高的应用价值。
附图说明
图1和图2是本发明实施例提供的一种用于对高音质的双通道视频语音的实时降噪的方法的整体流程图;
图3是本发明实施例提供的一种用于对高音质的双通道视频语音的实时降噪的方法的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1和图2所示,为用于对高音质的双通道视频语音的实时降噪的方法的整体流程,包括以下步骤:
S1将音频视频分离,采集音频数据;
S2获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;
S3将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。
上述步骤S1中:通过ffmpeg模块将音频从视频中提取出来。
上述步骤S2中:音频数据的音频参数信息包括:采样率信息、采样声道数信息。
上述步骤S3具体包括:
S31:对所述音频流按照预设时间间隔进行分帧;
所述预设时间间隔设置为10ms,每次都以10ms的数据为一个单元进行降噪。
S32:加汉明窗,进行快速傅里叶变换;
S33:计算每一段语音信号的频域信号特征。根据初始静默区间,对噪声的频域信号特征进行概率函建模;
所述频域信号特征包括:LRT均值特征、频谱平坦度特征、频谱模板差异特征。
基于特征概率的更新如下式:
qm=γqqm-1+(1-γq)M(z,w)
其中,γq是平滑阐述,M(z)是给定时间和频率的映射函数,w代表映射函数的宽度特征,映射函数根据测量出的特征以及阈值和宽度参数,将时频槽划分为语音和噪声。
LRT均值特征是经过时间平滑处理的似然比因子的几何平均数,如下式:
Figure RE-GDA0002505874090000031
其中,F1是特征,T1为阈值参数。此时用于对基于特征的先验概率进行更新映射函数M(z)如下式:
M(z)=0.5*(tanh(w1z1)+0.5)
变量z如下式:
z=T1-F1
频谱平坦度特征是幅度谱的几何平均数与算数平均数的比值,如下式:
Figure RE-GDA0002505874090000032
其中,N表示频率带中的频率数,噪声计算出的F2偏大且为常数,语音计算出的F2偏小且为变量。
M(z)=0.5*(tanh(w2z2)+0.5)
变量z如下式:
z=T2-F2
频谱模板差异特征可测量噪声频谱与输入频谱的偏差,如下式:
Figure RE-GDA0002505874090000041
其中,(α,u)为形状参数,包括线性位移和振幅参数。
S34:使用上述噪声分类模型,计算每一段基于多噪声特征的语音概率,再根据噪声信号分类特征和阈值参数对计算出的语音概率进行加权,并以此更新噪声估计和频域特征建模(如图3所示);
所述噪声估计更新如下式:
Figure RE-GDA0002505874090000042
其中,
Figure RE-GDA0002505874090000043
是时间为m,频率草为k时对噪声频谱量级的估计,γn控制噪声更新的平滑度。
S35:根据上述噪声估计,计算不同频率的信噪比,并依信噪比进行维纳滤波(如图3所示);
S36:进行傅里叶逆变换,转换回时域信号,并进行拼接。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (5)

1.一种用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述方法包括:
S1将音频视频分离,采集音频数据;
S2获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;
S3将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。
2.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述步骤S1中:通过ffmpeg模块将音频从视频中提取出来。
3.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述步骤S2中:音频数据的音频参数信息包括:采样率信息、采样声道数信息。
4.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述步骤S3具体包括:
S31对所述音频流按照预设时间间隔进行分帧;
S32加汉明窗,进行快速傅里叶变换;
S33计算每一段语音信号的频域信号特征,根据初始静默区间,对噪声的视频信号特征进行概率函建模;
S34通过噪声分类模型,计算每一段基于多噪声特征的语音概率,再根据噪声信号分类特征和阈值参数对计算出的语音概率进行加权,并以此更新噪声估计和频域特征建模;
S35根据噪声估计,计算不同频率的信噪比,并依信噪比进行维纳滤波;
S36进行傅里叶逆变换,转换回时域信号,并进行拼接。
5.如权利要求4所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述频域信号特征包括:LRT均值特征、频谱平坦度特征和频谱模板差异特征。
CN202010324381.4A 2020-04-23 2020-04-23 一种用于对高音质的双通道视频语音的实时降噪的方法 Pending CN111524531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010324381.4A CN111524531A (zh) 2020-04-23 2020-04-23 一种用于对高音质的双通道视频语音的实时降噪的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010324381.4A CN111524531A (zh) 2020-04-23 2020-04-23 一种用于对高音质的双通道视频语音的实时降噪的方法

Publications (1)

Publication Number Publication Date
CN111524531A true CN111524531A (zh) 2020-08-11

Family

ID=71904053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010324381.4A Pending CN111524531A (zh) 2020-04-23 2020-04-23 一种用于对高音质的双通道视频语音的实时降噪的方法

Country Status (1)

Country Link
CN (1) CN111524531A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665643A (zh) * 2022-12-12 2023-01-31 杭州兆华电子股份有限公司 一种耳机主动降噪的效果评测方法及系统
CN117711419A (zh) * 2024-02-05 2024-03-15 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191337A (ja) * 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN107578783A (zh) * 2017-08-14 2018-01-12 上海定菱网络科技有限公司 音视频直播中的音频降噪方法及系统、存储器及电子设备
CN109961799A (zh) * 2019-01-31 2019-07-02 杭州惠耳听力技术设备有限公司 一种基于迭代维纳滤波的助听器多通道语音增强算法
CN110390945A (zh) * 2019-07-25 2019-10-29 华南理工大学 一种双传感器语音增强方法及实现装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191337A (ja) * 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN107578783A (zh) * 2017-08-14 2018-01-12 上海定菱网络科技有限公司 音视频直播中的音频降噪方法及系统、存储器及电子设备
CN109961799A (zh) * 2019-01-31 2019-07-02 杭州惠耳听力技术设备有限公司 一种基于迭代维纳滤波的助听器多通道语音增强算法
CN110390945A (zh) * 2019-07-25 2019-10-29 华南理工大学 一种双传感器语音增强方法及实现装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
云中梧: ""webRTC NS模块算法"", pages 1 - 12, Retrieved from the Internet <URL:https://blog.csdn.net/qq_28882043/article/details/80885240/?ops_request_misc=&request_id=&biz_id=102&utm_term=LRT%E5%9D%87%E5%80%BC&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-5-80885240.142^v88^insert_down38v5,239^v2^insert_chatgpt&spm=1018.2226.3001.4187> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665643A (zh) * 2022-12-12 2023-01-31 杭州兆华电子股份有限公司 一种耳机主动降噪的效果评测方法及系统
CN117711419A (zh) * 2024-02-05 2024-03-15 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法
CN117711419B (zh) * 2024-02-05 2024-04-26 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN108831499B (zh) 利用语音存在概率的语音增强方法
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
KR100304666B1 (ko) 음성 향상 방법
CN106653056B (zh) 基于lstm循环神经网络的基频提取模型及训练方法
JP5150165B2 (ja) 拡張された帯域幅を有する音響信号を提供するための方法およびシステム
SE505156C2 (sv) Förfarande för bullerundertryckning genom spektral subtraktion
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN111524531A (zh) 一种用于对高音质的双通道视频语音的实时降噪的方法
CN110634500A (zh) 一种先验信噪比的计算方法、电子设备及存储介质
EP4189677B1 (en) Noise reduction using machine learning
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
Nuha et al. Noise reduction and speech enhancement using wiener filter
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
US20230386492A1 (en) System and method for suppressing noise from audio signal
EP3680901A1 (en) A sound processing apparatus and method
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
WO2023086311A1 (en) Control of speech preservation in speech enhancement
CN113948088A (zh) 基于波形模拟的语音识别方法及装置
CN115440240A (zh) 语音降噪的训练方法、语音降噪系统及语音降噪方法
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
CN111210835A (zh) 一种基于听觉模型和信源方位的多通路语音降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811