CN112820309A - 基于rnn的降噪处理方法及系统 - Google Patents

基于rnn的降噪处理方法及系统 Download PDF

Info

Publication number
CN112820309A
CN112820309A CN202011638332.4A CN202011638332A CN112820309A CN 112820309 A CN112820309 A CN 112820309A CN 202011638332 A CN202011638332 A CN 202011638332A CN 112820309 A CN112820309 A CN 112820309A
Authority
CN
China
Prior art keywords
rnn
network
service access
inter
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011638332.4A
Other languages
English (en)
Inventor
安静波
周晓强
牟春伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
T&i Net Communication Co ltd
Original Assignee
T&i Net Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by T&i Net Communication Co ltd filed Critical T&i Net Communication Co ltd
Priority to CN202011638332.4A priority Critical patent/CN112820309A/zh
Publication of CN112820309A publication Critical patent/CN112820309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供了一种基于RNN的降噪处理方法及系统。该方法包括:利用降噪语音的训练数据对递归神经网络RNN进行训练;采用完成训练的RNN对语音数据进行降噪处理。本发明提供的基于RNN的降噪处理方法及系统能够实现对语音信号的精准降噪。

Description

基于RNN的降噪处理方法及系统
技术领域
本发明涉及语音降噪技术领域,特别是涉及一种基于RNN的降噪处理方法及系统。
背景技术
噪声一直在语音处理中是一个相当老的话题,至少可以追溯到70年代,顾名思义,该想法是获取噪声信号并消除尽可能多的噪声,同时使目标语音的失真最小。降噪实现途径多样,困难的部分是使其始终保持良好的性能,为了应对各种噪音就需要仔细的调整算法中的各个系数,针对各种场景进行大量和特殊情形的测试。
发明内容
本发明要解决的技术问题是提供一种基于RNN的降噪处理方法及系统,能够实现对语音信号的精准降噪。
为解决上述技术问题,本发明提供了一种基于RNN的降噪处理方法,所述方法包括:利用降噪语音的训练数据对递归神经网络RNN进行训练;采用完成训练的RNN对语音数据进行降噪处理。
在一些实施方式中,RNN包括:致密层及GRU层。
在一些实施方式中,RNN包括:语音端点探测网络、噪音频谱估计网络及频谱减法网络。
在一些实施方式中,语音端点探测网络包括:一个GRU层及两个致密层,并且,GRU层处于两个致密层之间,由第二个致密层输出语音端点探测结果数据。
在一些实施方式中,噪音频谱估计网络包括:一个用于噪音频谱估计的GRU层。
在一些实施方式中,用于噪音频谱估计的GRU层包括:48个GRU神经元。
在一些实施方式中,频谱减法网络包括:一个GRU层及一个致密层,且GRU层的输出被输入至致密层。
在一些实施方式中,RNN的前端连接有升采样网络,RNN的后端连接有降采样网络。
在一些实施方式中,升采样网络将采样率由8K转换为48K,降采样网络将采样率由48K转换为8K。
此外,本发明还提供了一种基于RNN的降噪处理系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的基于RNN的降噪处理方法。
采用这样的设计后,本发明至少具有以下优点:
本发明采用包含GRU的RNN进行语音的降噪处理,通过语音端点探测、噪音频谱估计及频谱减法的处理,实现对语音信号的精准降噪。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
图1是门单元的结构示意图;
图2是RNN的网络结构示意图;
图3是voip降噪的流程示意图;
图4是重采样的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
RNN(Recurrent neural networks:递归神经网络)在这里非常重要,因为他们使建模时间序列成为可能,而不是单独考虑输入和输出帧,这对于抑制噪音尤为重要,因为我们需要时间来很好的估计噪声。长期以来RNN的能力收到严重限制,因为他们无法长时间保存信息,并且由于在时间上反向传播时所涉及的梯度下降过程效率很低。门控单元的发明解决了这两个问题,例如LSTM(Long Short-Term Memory:长短期记忆),GRU(Gatedrecurrent unit:门控循环单元)以及类似的变体。
我们使用GRU因为它性能比LSTM稍好,并且需要较少的资源(CPU(Centralprocessing unit:中央处理器)和内存方面)。与单循环单元相比,GRU具有额外两个门。复位门控制在计算新状态时是否使用状态(记忆),而更新门根据新输入决定改变多少。当更新门关闭时可以使GRU长时间记住信息,这就是GRU(或LSTM)的性能比单循环单元好得多的原因。参考图1。
如图2所示,我们使用深度架构。大部分工作由3个GRU层完成。图片展示了我们怎么计算频带增益以及该架构如何映射到噪声抑制的传统步骤。该项目中使用神经网络的拓扑。每个方框代表一层神经元,括号中标出了单元数量。Dense(致密)层是完全链接的非循环层。该网络的一个输出是应用于不通频率的增益。另一个输出是语音端点探测结果,它不用于降噪,但是作为该网络的一个有用的副产品。
在voip主程序启动时,res_noise_reduction模块加载噪声抑制功能。首先定义变量datastore,初始化datastore->audiohook->type等于AUDIOHOOK_TYPE_MANIPULATE即操作音频,设置datastore->audiohook->manipulate_callback等于funciton:noise_reduction_cb(参考图2)。另外并且可以通过function:NOISE_REDUCTION实现针对某个通话实时开启或者关闭。
参见图3,当voip主程序读取某个channel(通道)的rtp流时,会触发hook:即调用function:noise_reduction_cb(采样率由8K转为48K,以匹配rnn要求的采样率,经rnn降噪,然后进行采样率转换,转为原有的8k采样率)达到降噪的目的。
参见图4,采样率转化通过ffmpeg实现,具体实施步骤如下:
1.首先检查handle->rnn_resample_handle(采样率由8k转化为48k)是否存在,若存在直接跳转到步骤5;
2.如果handle->rnn_resample_handle不存在,调用swr_alloc创建SwrContext对象;
3.调用av_opt_set_*()设置输入和输出音频信息;
4.调用swr_init根据步骤三初始化的音频信息初始化SwrContext;
5.调用swr_get_delay以及av_rescale_rnd计算重采样后输出采样数;
6.调用swr_convert进行重采样转换;
7.调用av_samples_get_buffer_size计算转化后占用的存储大小。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。

Claims (10)

1.一种微服务间服务访问认证方法,其特征在于,包括:
利用降噪语音的训练数据对递归神经网络RNN进行训练;
采用完成训练的RNN对语音数据进行降噪处理。
2.根据权利要求1所述的微服务间服务访问认证方法,其特征在于,RNN包括:致密层及GRU层。
3.根据权利要求1所述的微服务间服务访问认证方法,其特征在于,RNN包括:语音端点探测网络、噪音频谱估计网络及频谱减法网络。
4.根据权利要求1或2所述的微服务间服务访问认证方法,其特征在于,语音端点探测网络包括:一个GRU层及两个致密层,并且,GRU层处于两个致密层之间,由第二个致密层输出语音端点探测结果数据。
5.根据权利要求1或2所述的微服务间服务访问认证方法,其特征在于,噪音频谱估计网络包括:一个用于噪音频谱估计的GRU层。
6.根据权利要求5所述的微服务间服务访问认证方法,其特征在于,用于噪音频谱估计的GRU层包括:48个GRU神经元。
7.根据权利要求1或2所述的微服务间服务访问认证方法,其特征在于,频谱减法网络包括:一个GRU层及一个致密层,且GRU层的输出被输入至致密层。
8.根据权利要求1所述的微服务间服务访问认证方法,其特征在于,RNN的前端连接有升采样网络,RNN的后端连接有降采样网络。
9.根据权利要求8所述的微服务间服务访问认证方法,其特征在于,升采样网络将采样率由8K转换为48K,降采样网络将采样率由48K转换为8K。
10.一种微服务间服务访问认证系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的微服务间服务访问认证方法。
CN202011638332.4A 2020-12-31 2020-12-31 基于rnn的降噪处理方法及系统 Pending CN112820309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011638332.4A CN112820309A (zh) 2020-12-31 2020-12-31 基于rnn的降噪处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011638332.4A CN112820309A (zh) 2020-12-31 2020-12-31 基于rnn的降噪处理方法及系统

Publications (1)

Publication Number Publication Date
CN112820309A true CN112820309A (zh) 2021-05-18

Family

ID=75857670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011638332.4A Pending CN112820309A (zh) 2020-12-31 2020-12-31 基于rnn的降噪处理方法及系统

Country Status (1)

Country Link
CN (1) CN112820309A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824563A (zh) * 2014-02-21 2014-05-28 深圳市微纳集成电路与系统应用研究院 一种基于模块复用的助听器去噪装置和方法
CN104867497A (zh) * 2014-02-26 2015-08-26 北京信威通信技术股份有限公司 一种语音降噪方法
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN110047472A (zh) * 2019-03-15 2019-07-23 平安科技(深圳)有限公司 语音信息的批量转换方法、装置、计算机设备及存储介质
CN110060667A (zh) * 2019-03-15 2019-07-26 平安科技(深圳)有限公司 语音信息的批量处理方法、装置、计算机设备及存储介质
CN110120225A (zh) * 2019-04-01 2019-08-13 西安电子科技大学 一种基于gru网络的结构的音频降噪系统及方法
CN110176256A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 录音文件格式转换方法、装置、计算机设备以及存储介质
CN110265065A (zh) * 2019-05-13 2019-09-20 厦门亿联网络技术股份有限公司 一种构建语音检测模型的方法及语音端点检测系统
CN111091833A (zh) * 2019-12-09 2020-05-01 浙江工业大学 一种降低噪声影响的端点检测方法
CN111261183A (zh) * 2018-12-03 2020-06-09 珠海格力电器股份有限公司 一种语音去噪的方法及装置
CN111341351A (zh) * 2020-02-25 2020-06-26 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质
CN111862951A (zh) * 2020-07-23 2020-10-30 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN103824563A (zh) * 2014-02-21 2014-05-28 深圳市微纳集成电路与系统应用研究院 一种基于模块复用的助听器去噪装置和方法
CN104867497A (zh) * 2014-02-26 2015-08-26 北京信威通信技术股份有限公司 一种语音降噪方法
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN111261183A (zh) * 2018-12-03 2020-06-09 珠海格力电器股份有限公司 一种语音去噪的方法及装置
CN110047472A (zh) * 2019-03-15 2019-07-23 平安科技(深圳)有限公司 语音信息的批量转换方法、装置、计算机设备及存储介质
CN110060667A (zh) * 2019-03-15 2019-07-26 平安科技(深圳)有限公司 语音信息的批量处理方法、装置、计算机设备及存储介质
CN110120225A (zh) * 2019-04-01 2019-08-13 西安电子科技大学 一种基于gru网络的结构的音频降噪系统及方法
CN110176256A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 录音文件格式转换方法、装置、计算机设备以及存储介质
CN110265065A (zh) * 2019-05-13 2019-09-20 厦门亿联网络技术股份有限公司 一种构建语音检测模型的方法及语音端点检测系统
CN111091833A (zh) * 2019-12-09 2020-05-01 浙江工业大学 一种降低噪声影响的端点检测方法
CN111341351A (zh) * 2020-02-25 2020-06-26 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质
CN111862951A (zh) * 2020-07-23 2020-10-30 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王月明等: "非平稳噪声环境下的噪声估计算法", 《电声技术》 *
石文: "数据挖掘技术在生物序列分析与识别算法上的应用", 《电脑编程技巧与维护》 *
黄斌等: "基于谱减法语音增强研究", 《大众科技》 *

Similar Documents

Publication Publication Date Title
CN110085249B (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
US10510360B2 (en) Enhancing audio signals using sub-band deep neural networks
KR100310030B1 (ko) 노이지음성파라미터강화방법및장치
JP4955228B2 (ja) ラウンドロビン正則化を用いたマルチチャネルエコーキャンセレーション
CA2210490C (en) Spectral subtraction noise suppression method
Homer et al. LMS estimation via structural detection
US5924065A (en) Environmently compensated speech processing
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
WO2021147237A1 (zh) 语音信号处理方法、装置、电子设备及存储介质
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
WO2016197811A1 (zh) 一种噪声抑制方法、装置及系统
KR101433833B1 (ko) 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템
US9881630B2 (en) Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
WO2004021333A1 (en) Multichannel voice detection in adverse environments
JP2006003899A (ja) ゲイン制約ノイズ抑圧
US10504530B2 (en) Switching between transforms
CN110675887A (zh) 一种用于会议系统的多麦克风切换方法和系统
CN111261148A (zh) 语音模型的训练方法、语音增强处理方法及相关设备
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN112820309A (zh) 基于rnn的降噪处理方法及系统
CN106997768B (zh) 一种语音出现概率的计算方法、装置及电子设备
WO2022213825A1 (zh) 基于神经网络的端到端语音增强方法、装置
CN116312616A (zh) 一种用于带噪语音信号的处理恢复方法和控制系统
CN113299308A (zh) 一种语音增强方法、装置、电子设备及存储介质
CN112687284A (zh) 混响语音的混响抑制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210518