CN112820309A - 基于rnn的降噪处理方法及系统 - Google Patents
基于rnn的降噪处理方法及系统 Download PDFInfo
- Publication number
- CN112820309A CN112820309A CN202011638332.4A CN202011638332A CN112820309A CN 112820309 A CN112820309 A CN 112820309A CN 202011638332 A CN202011638332 A CN 202011638332A CN 112820309 A CN112820309 A CN 112820309A
- Authority
- CN
- China
- Prior art keywords
- rnn
- network
- service access
- inter
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000000306 recurrent effect Effects 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000000523 sample Substances 0.000 claims 1
- 238000012952 Resampling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供了一种基于RNN的降噪处理方法及系统。该方法包括:利用降噪语音的训练数据对递归神经网络RNN进行训练;采用完成训练的RNN对语音数据进行降噪处理。本发明提供的基于RNN的降噪处理方法及系统能够实现对语音信号的精准降噪。
Description
技术领域
本发明涉及语音降噪技术领域,特别是涉及一种基于RNN的降噪处理方法及系统。
背景技术
噪声一直在语音处理中是一个相当老的话题,至少可以追溯到70年代,顾名思义,该想法是获取噪声信号并消除尽可能多的噪声,同时使目标语音的失真最小。降噪实现途径多样,困难的部分是使其始终保持良好的性能,为了应对各种噪音就需要仔细的调整算法中的各个系数,针对各种场景进行大量和特殊情形的测试。
发明内容
本发明要解决的技术问题是提供一种基于RNN的降噪处理方法及系统,能够实现对语音信号的精准降噪。
为解决上述技术问题,本发明提供了一种基于RNN的降噪处理方法,所述方法包括:利用降噪语音的训练数据对递归神经网络RNN进行训练;采用完成训练的RNN对语音数据进行降噪处理。
在一些实施方式中,RNN包括:致密层及GRU层。
在一些实施方式中,RNN包括:语音端点探测网络、噪音频谱估计网络及频谱减法网络。
在一些实施方式中,语音端点探测网络包括:一个GRU层及两个致密层,并且,GRU层处于两个致密层之间,由第二个致密层输出语音端点探测结果数据。
在一些实施方式中,噪音频谱估计网络包括:一个用于噪音频谱估计的GRU层。
在一些实施方式中,用于噪音频谱估计的GRU层包括:48个GRU神经元。
在一些实施方式中,频谱减法网络包括:一个GRU层及一个致密层,且GRU层的输出被输入至致密层。
在一些实施方式中,RNN的前端连接有升采样网络,RNN的后端连接有降采样网络。
在一些实施方式中,升采样网络将采样率由8K转换为48K,降采样网络将采样率由48K转换为8K。
此外,本发明还提供了一种基于RNN的降噪处理系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的基于RNN的降噪处理方法。
采用这样的设计后,本发明至少具有以下优点:
本发明采用包含GRU的RNN进行语音的降噪处理,通过语音端点探测、噪音频谱估计及频谱减法的处理,实现对语音信号的精准降噪。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
图1是门单元的结构示意图;
图2是RNN的网络结构示意图;
图3是voip降噪的流程示意图;
图4是重采样的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
RNN(Recurrent neural networks:递归神经网络)在这里非常重要,因为他们使建模时间序列成为可能,而不是单独考虑输入和输出帧,这对于抑制噪音尤为重要,因为我们需要时间来很好的估计噪声。长期以来RNN的能力收到严重限制,因为他们无法长时间保存信息,并且由于在时间上反向传播时所涉及的梯度下降过程效率很低。门控单元的发明解决了这两个问题,例如LSTM(Long Short-Term Memory:长短期记忆),GRU(Gatedrecurrent unit:门控循环单元)以及类似的变体。
我们使用GRU因为它性能比LSTM稍好,并且需要较少的资源(CPU(Centralprocessing unit:中央处理器)和内存方面)。与单循环单元相比,GRU具有额外两个门。复位门控制在计算新状态时是否使用状态(记忆),而更新门根据新输入决定改变多少。当更新门关闭时可以使GRU长时间记住信息,这就是GRU(或LSTM)的性能比单循环单元好得多的原因。参考图1。
如图2所示,我们使用深度架构。大部分工作由3个GRU层完成。图片展示了我们怎么计算频带增益以及该架构如何映射到噪声抑制的传统步骤。该项目中使用神经网络的拓扑。每个方框代表一层神经元,括号中标出了单元数量。Dense(致密)层是完全链接的非循环层。该网络的一个输出是应用于不通频率的增益。另一个输出是语音端点探测结果,它不用于降噪,但是作为该网络的一个有用的副产品。
在voip主程序启动时,res_noise_reduction模块加载噪声抑制功能。首先定义变量datastore,初始化datastore->audiohook->type等于AUDIOHOOK_TYPE_MANIPULATE即操作音频,设置datastore->audiohook->manipulate_callback等于funciton:noise_reduction_cb(参考图2)。另外并且可以通过function:NOISE_REDUCTION实现针对某个通话实时开启或者关闭。
参见图3,当voip主程序读取某个channel(通道)的rtp流时,会触发hook:即调用function:noise_reduction_cb(采样率由8K转为48K,以匹配rnn要求的采样率,经rnn降噪,然后进行采样率转换,转为原有的8k采样率)达到降噪的目的。
参见图4,采样率转化通过ffmpeg实现,具体实施步骤如下:
1.首先检查handle->rnn_resample_handle(采样率由8k转化为48k)是否存在,若存在直接跳转到步骤5;
2.如果handle->rnn_resample_handle不存在,调用swr_alloc创建SwrContext对象;
3.调用av_opt_set_*()设置输入和输出音频信息;
4.调用swr_init根据步骤三初始化的音频信息初始化SwrContext;
5.调用swr_get_delay以及av_rescale_rnd计算重采样后输出采样数;
6.调用swr_convert进行重采样转换;
7.调用av_samples_get_buffer_size计算转化后占用的存储大小。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。
Claims (10)
1.一种微服务间服务访问认证方法,其特征在于,包括:
利用降噪语音的训练数据对递归神经网络RNN进行训练;
采用完成训练的RNN对语音数据进行降噪处理。
2.根据权利要求1所述的微服务间服务访问认证方法,其特征在于,RNN包括:致密层及GRU层。
3.根据权利要求1所述的微服务间服务访问认证方法,其特征在于,RNN包括:语音端点探测网络、噪音频谱估计网络及频谱减法网络。
4.根据权利要求1或2所述的微服务间服务访问认证方法,其特征在于,语音端点探测网络包括:一个GRU层及两个致密层,并且,GRU层处于两个致密层之间,由第二个致密层输出语音端点探测结果数据。
5.根据权利要求1或2所述的微服务间服务访问认证方法,其特征在于,噪音频谱估计网络包括:一个用于噪音频谱估计的GRU层。
6.根据权利要求5所述的微服务间服务访问认证方法,其特征在于,用于噪音频谱估计的GRU层包括:48个GRU神经元。
7.根据权利要求1或2所述的微服务间服务访问认证方法,其特征在于,频谱减法网络包括:一个GRU层及一个致密层,且GRU层的输出被输入至致密层。
8.根据权利要求1所述的微服务间服务访问认证方法,其特征在于,RNN的前端连接有升采样网络,RNN的后端连接有降采样网络。
9.根据权利要求8所述的微服务间服务访问认证方法,其特征在于,升采样网络将采样率由8K转换为48K,降采样网络将采样率由48K转换为8K。
10.一种微服务间服务访问认证系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的微服务间服务访问认证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638332.4A CN112820309A (zh) | 2020-12-31 | 2020-12-31 | 基于rnn的降噪处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011638332.4A CN112820309A (zh) | 2020-12-31 | 2020-12-31 | 基于rnn的降噪处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112820309A true CN112820309A (zh) | 2021-05-18 |
Family
ID=75857670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011638332.4A Pending CN112820309A (zh) | 2020-12-31 | 2020-12-31 | 基于rnn的降噪处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820309A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824563A (zh) * | 2014-02-21 | 2014-05-28 | 深圳市微纳集成电路与系统应用研究院 | 一种基于模块复用的助听器去噪装置和方法 |
CN104867497A (zh) * | 2014-02-26 | 2015-08-26 | 北京信威通信技术股份有限公司 | 一种语音降噪方法 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN110047472A (zh) * | 2019-03-15 | 2019-07-23 | 平安科技(深圳)有限公司 | 语音信息的批量转换方法、装置、计算机设备及存储介质 |
CN110060667A (zh) * | 2019-03-15 | 2019-07-26 | 平安科技(深圳)有限公司 | 语音信息的批量处理方法、装置、计算机设备及存储介质 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪系统及方法 |
CN110176256A (zh) * | 2019-04-15 | 2019-08-27 | 平安科技(深圳)有限公司 | 录音文件格式转换方法、装置、计算机设备以及存储介质 |
CN110265065A (zh) * | 2019-05-13 | 2019-09-20 | 厦门亿联网络技术股份有限公司 | 一种构建语音检测模型的方法及语音端点检测系统 |
CN111091833A (zh) * | 2019-12-09 | 2020-05-01 | 浙江工业大学 | 一种降低噪声影响的端点检测方法 |
CN111261183A (zh) * | 2018-12-03 | 2020-06-09 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN111341351A (zh) * | 2020-02-25 | 2020-06-26 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN111862951A (zh) * | 2020-07-23 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 语音端点检测方法及装置、存储介质、电子设备 |
-
2020
- 2020-12-31 CN CN202011638332.4A patent/CN112820309A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN103824563A (zh) * | 2014-02-21 | 2014-05-28 | 深圳市微纳集成电路与系统应用研究院 | 一种基于模块复用的助听器去噪装置和方法 |
CN104867497A (zh) * | 2014-02-26 | 2015-08-26 | 北京信威通信技术股份有限公司 | 一种语音降噪方法 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN111261183A (zh) * | 2018-12-03 | 2020-06-09 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN110047472A (zh) * | 2019-03-15 | 2019-07-23 | 平安科技(深圳)有限公司 | 语音信息的批量转换方法、装置、计算机设备及存储介质 |
CN110060667A (zh) * | 2019-03-15 | 2019-07-26 | 平安科技(深圳)有限公司 | 语音信息的批量处理方法、装置、计算机设备及存储介质 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪系统及方法 |
CN110176256A (zh) * | 2019-04-15 | 2019-08-27 | 平安科技(深圳)有限公司 | 录音文件格式转换方法、装置、计算机设备以及存储介质 |
CN110265065A (zh) * | 2019-05-13 | 2019-09-20 | 厦门亿联网络技术股份有限公司 | 一种构建语音检测模型的方法及语音端点检测系统 |
CN111091833A (zh) * | 2019-12-09 | 2020-05-01 | 浙江工业大学 | 一种降低噪声影响的端点检测方法 |
CN111341351A (zh) * | 2020-02-25 | 2020-06-26 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
CN111862951A (zh) * | 2020-07-23 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 语音端点检测方法及装置、存储介质、电子设备 |
Non-Patent Citations (3)
Title |
---|
王月明等: "非平稳噪声环境下的噪声估计算法", 《电声技术》 * |
石文: "数据挖掘技术在生物序列分析与识别算法上的应用", 《电脑编程技巧与维护》 * |
黄斌等: "基于谱减法语音增强研究", 《大众科技》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
JP4955228B2 (ja) | ラウンドロビン正則化を用いたマルチチャネルエコーキャンセレーション | |
JP2714656B2 (ja) | 雑音抑圧システム | |
CA2210490C (en) | Spectral subtraction noise suppression method | |
EP0897574B1 (en) | A noisy speech parameter enhancement method and apparatus | |
Homer et al. | LMS estimation via structural detection | |
US5924065A (en) | Environmently compensated speech processing | |
WO2021147237A1 (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN110675887B (zh) | 一种用于会议系统的多麦克风切换方法和系统 | |
KR101433833B1 (ko) | 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템 | |
US9881630B2 (en) | Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model | |
JP2006003899A (ja) | ゲイン制約ノイズ抑圧 | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
US10504530B2 (en) | Switching between transforms | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
Oo et al. | Phase and reverberation aware DNN for distant-talking speech enhancement | |
CN115565543B (zh) | 一种基于深度神经网络的单通道语音回声消除方法和装置 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
CN116312616A (zh) | 一种用于带噪语音信号的处理恢复方法和控制系统 | |
CN112820309A (zh) | 基于rnn的降噪处理方法及系统 | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN106997768A (zh) | 一种语音出现概率的计算方法、装置及电子设备 | |
CN113299308B (zh) | 一种语音增强方法、装置、电子设备及存储介质 | |
CN117542342A (zh) | 一种基于自适应滤波与神经网络的回声消除方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |