CN111524531A - 一种用于对高音质的双通道视频语音的实时降噪的方法 - Google Patents
一种用于对高音质的双通道视频语音的实时降噪的方法 Download PDFInfo
- Publication number
- CN111524531A CN111524531A CN202010324381.4A CN202010324381A CN111524531A CN 111524531 A CN111524531 A CN 111524531A CN 202010324381 A CN202010324381 A CN 202010324381A CN 111524531 A CN111524531 A CN 111524531A
- Authority
- CN
- China
- Prior art keywords
- audio
- noise
- noise reduction
- speech
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种用于对高音质的双通道视频语音的实时降噪的方法,该方法包括:将音频视频分离,采集音频数据;获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。本发明能够有效去除视频中音频的环境噪音,让视频观看者拥有更好的观赏体验。
Description
技术领域
本发明涉及语音降噪技术领域,尤其涉及一种用于对高音质的双通道视频语音的实时降噪的方法。
背景技术
在现实生活环境中,语音信号在编码、传输等过程中会遇到各种各样噪声的污染,语音降噪成为语音信号处理之前不可或缺的一部分,例如语音编码、语音识别等方面,都需要先进行语音降噪。语音降噪是针对噪声问题的一种有效的处理技术,目的是为了消除噪声对语音信号的影响,来提高语音信号的清晰度、改善语音信号的质量。语音降噪技术的发展也随着科学技术的发展变得越来越快。传统的语音降噪算法有很多种,包括自适应滤波器降噪法、谱减法、维纳滤波法等。本发明在利用维纳滤波降噪法的基础上进行改进,能处理更高采样率的双通道视频语音。
发明内容
为解决上述技术问题,本发明的目的是提供一种用于对高音质的双通道视频语音的实时降噪的方法。
本发明的目的通过以下的技术方案来实现:
一种用于对高音质的双通道视频语音的实时降噪的方法,包括:
S1将音频视频分离,采集音频数据;
S2获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;
S3将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明能够有效去除视频中音频的环境噪音,让视频观看者拥有更好的观赏体验;用于对高音质的双通道视频语音的实时降噪的方法可以在通道数、采样率方面扩大音频降噪的处理范围,有效克服了当前现有技术的种种缺点,具有较高的应用价值。
附图说明
图1和图2是本发明实施例提供的一种用于对高音质的双通道视频语音的实时降噪的方法的整体流程图;
图3是本发明实施例提供的一种用于对高音质的双通道视频语音的实时降噪的方法的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1和图2所示,为用于对高音质的双通道视频语音的实时降噪的方法的整体流程,包括以下步骤:
S1将音频视频分离,采集音频数据;
S2获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;
S3将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。
上述步骤S1中:通过ffmpeg模块将音频从视频中提取出来。
上述步骤S2中:音频数据的音频参数信息包括:采样率信息、采样声道数信息。
上述步骤S3具体包括:
S31:对所述音频流按照预设时间间隔进行分帧;
所述预设时间间隔设置为10ms,每次都以10ms的数据为一个单元进行降噪。
S32:加汉明窗,进行快速傅里叶变换;
S33:计算每一段语音信号的频域信号特征。根据初始静默区间,对噪声的频域信号特征进行概率函建模;
所述频域信号特征包括:LRT均值特征、频谱平坦度特征、频谱模板差异特征。
基于特征概率的更新如下式:
qm=γqqm-1+(1-γq)M(z,w)
其中,γq是平滑阐述,M(z)是给定时间和频率的映射函数,w代表映射函数的宽度特征,映射函数根据测量出的特征以及阈值和宽度参数,将时频槽划分为语音和噪声。
LRT均值特征是经过时间平滑处理的似然比因子的几何平均数,如下式:
其中,F1是特征,T1为阈值参数。此时用于对基于特征的先验概率进行更新映射函数M(z)如下式:
M(z)=0.5*(tanh(w1z1)+0.5)
变量z如下式:
z=T1-F1
频谱平坦度特征是幅度谱的几何平均数与算数平均数的比值,如下式:
其中,N表示频率带中的频率数,噪声计算出的F2偏大且为常数,语音计算出的F2偏小且为变量。
M(z)=0.5*(tanh(w2z2)+0.5)
变量z如下式:
z=T2-F2
频谱模板差异特征可测量噪声频谱与输入频谱的偏差,如下式:
其中,(α,u)为形状参数,包括线性位移和振幅参数。
S34:使用上述噪声分类模型,计算每一段基于多噪声特征的语音概率,再根据噪声信号分类特征和阈值参数对计算出的语音概率进行加权,并以此更新噪声估计和频域特征建模(如图3所示);
所述噪声估计更新如下式:
S35:根据上述噪声估计,计算不同频率的信噪比,并依信噪比进行维纳滤波(如图3所示);
S36:进行傅里叶逆变换,转换回时域信号,并进行拼接。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (5)
1.一种用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述方法包括:
S1将音频视频分离,采集音频数据;
S2获取音频数据的音频参数信息,并根据获取的音频参数信息判断音频的降噪方式;
S3将音频流按照预设时间间隔进行分段,并经维纳滤波器对语音数据进行降噪处理后编码输出。
2.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述步骤S1中:通过ffmpeg模块将音频从视频中提取出来。
3.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述步骤S2中:音频数据的音频参数信息包括:采样率信息、采样声道数信息。
4.如权利要求1所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述步骤S3具体包括:
S31对所述音频流按照预设时间间隔进行分帧;
S32加汉明窗,进行快速傅里叶变换;
S33计算每一段语音信号的频域信号特征,根据初始静默区间,对噪声的视频信号特征进行概率函建模;
S34通过噪声分类模型,计算每一段基于多噪声特征的语音概率,再根据噪声信号分类特征和阈值参数对计算出的语音概率进行加权,并以此更新噪声估计和频域特征建模;
S35根据噪声估计,计算不同频率的信噪比,并依信噪比进行维纳滤波;
S36进行傅里叶逆变换,转换回时域信号,并进行拼接。
5.如权利要求4所述的用于对高音质的双通道视频语音的实时降噪的方法,其特征在于,所述频域信号特征包括:LRT均值特征、频谱平坦度特征和频谱模板差异特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324381.4A CN111524531A (zh) | 2020-04-23 | 2020-04-23 | 一种用于对高音质的双通道视频语音的实时降噪的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324381.4A CN111524531A (zh) | 2020-04-23 | 2020-04-23 | 一种用于对高音质的双通道视频语音的实时降噪的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111524531A true CN111524531A (zh) | 2020-08-11 |
Family
ID=71904053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010324381.4A Pending CN111524531A (zh) | 2020-04-23 | 2020-04-23 | 一种用于对高音质的双通道视频语音的实时降噪的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524531A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115665643A (zh) * | 2022-12-12 | 2023-01-31 | 杭州兆华电子股份有限公司 | 一种耳机主动降噪的效果评测方法及系统 |
CN117711419A (zh) * | 2024-02-05 | 2024-03-15 | 卓世智星(成都)科技有限公司 | 用于数据中台的数据智能清洗方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011191337A (ja) * | 2010-03-11 | 2011-09-29 | Nara Institute Of Science & Technology | 雑音抑制装置、方法、及びプログラム |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
CN107578783A (zh) * | 2017-08-14 | 2018-01-12 | 上海定菱网络科技有限公司 | 音视频直播中的音频降噪方法及系统、存储器及电子设备 |
CN109961799A (zh) * | 2019-01-31 | 2019-07-02 | 杭州惠耳听力技术设备有限公司 | 一种基于迭代维纳滤波的助听器多通道语音增强算法 |
CN110390945A (zh) * | 2019-07-25 | 2019-10-29 | 华南理工大学 | 一种双传感器语音增强方法及实现装置 |
-
2020
- 2020-04-23 CN CN202010324381.4A patent/CN111524531A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011191337A (ja) * | 2010-03-11 | 2011-09-29 | Nara Institute Of Science & Technology | 雑音抑制装置、方法、及びプログラム |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
CN107578783A (zh) * | 2017-08-14 | 2018-01-12 | 上海定菱网络科技有限公司 | 音视频直播中的音频降噪方法及系统、存储器及电子设备 |
CN109961799A (zh) * | 2019-01-31 | 2019-07-02 | 杭州惠耳听力技术设备有限公司 | 一种基于迭代维纳滤波的助听器多通道语音增强算法 |
CN110390945A (zh) * | 2019-07-25 | 2019-10-29 | 华南理工大学 | 一种双传感器语音增强方法及实现装置 |
Non-Patent Citations (1)
Title |
---|
云中梧: ""webRTC NS模块算法"", pages 1 - 12, Retrieved from the Internet <URL:https://blog.csdn.net/qq_28882043/article/details/80885240/?ops_request_misc=&request_id=&biz_id=102&utm_term=LRT%E5%9D%87%E5%80%BC&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-5-80885240.142^v88^insert_down38v5,239^v2^insert_chatgpt&spm=1018.2226.3001.4187> * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115665643A (zh) * | 2022-12-12 | 2023-01-31 | 杭州兆华电子股份有限公司 | 一种耳机主动降噪的效果评测方法及系统 |
CN117711419A (zh) * | 2024-02-05 | 2024-03-15 | 卓世智星(成都)科技有限公司 | 用于数据中台的数据智能清洗方法 |
CN117711419B (zh) * | 2024-02-05 | 2024-04-26 | 卓世智星(成都)科技有限公司 | 用于数据中台的数据智能清洗方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
CN107068161B (zh) | 基于人工智能的语音降噪方法、装置和计算机设备 | |
KR100304666B1 (ko) | 음성 향상 방법 | |
CN106653056B (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
JP5150165B2 (ja) | 拡張された帯域幅を有する音響信号を提供するための方法およびシステム | |
SE505156C2 (sv) | Förfarande för bullerundertryckning genom spektral subtraktion | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN111524531A (zh) | 一种用于对高音质的双通道视频语音的实时降噪的方法 | |
CN110634500A (zh) | 一种先验信噪比的计算方法、电子设备及存储介质 | |
EP4189677B1 (en) | Noise reduction using machine learning | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
WO2021007841A1 (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
Nuha et al. | Noise reduction and speech enhancement using wiener filter | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
US20230386492A1 (en) | System and method for suppressing noise from audio signal | |
EP3680901A1 (en) | A sound processing apparatus and method | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
WO2023086311A1 (en) | Control of speech preservation in speech enhancement | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 | |
CN111210835A (zh) | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |