CN112786064A - 一种端到端的骨气导语音联合增强方法 - Google Patents

一种端到端的骨气导语音联合增强方法 Download PDF

Info

Publication number
CN112786064A
CN112786064A CN202011612056.4A CN202011612056A CN112786064A CN 112786064 A CN112786064 A CN 112786064A CN 202011612056 A CN202011612056 A CN 202011612056A CN 112786064 A CN112786064 A CN 112786064A
Authority
CN
China
Prior art keywords
convolution
training
speech
data
bone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011612056.4A
Other languages
English (en)
Other versions
CN112786064B (zh
Inventor
王谋
张晓雷
王逸平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011612056.4A priority Critical patent/CN112786064B/zh
Publication of CN112786064A publication Critical patent/CN112786064A/zh
Application granted granted Critical
Publication of CN112786064B publication Critical patent/CN112786064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI‑SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。

Description

一种端到端的骨气导语音联合增强方法
技术领域
本发明属于电子信息技术领域,具体涉及一种语音联合增强方法。
背景技术
语音增强旨在改善带噪语音的质量和可懂度,被广泛应用于各类语音系统的前端。近年来,由于深度学习的兴起,基于深度学习的语音增强日益受到关注,包括谱映射方法,时频掩膜方法和近一两年的端到端的时域增强方法。然而目前这些基于深度学习的语音增强方法均只使用了气导语音。
骨导麦克风通过拾取头骨等人体部位的振动信号来获得音频信号。与传统的气导语音相比,骨传导语音不会拾取环境中的噪声,因而可以从声源处屏蔽噪声,实现低信噪比下的语音通信。然而,骨导语音自身也存在许多缺点。首先,由于人体组织的低通性,骨传导语音的高频部分衰减严重,甚至缺失。通常大于800Hz的频率成分就已经十分微弱,大于2kHz的部分基本完全丢失,使得骨导语音听起来十分沉闷,可懂度降低。其次,骨导语音会引入一定的非声学干扰,说话时麦克风与皮肤的摩擦,人体运动等,进一步影响了骨导语音。最后,由于骨传导的特性,语音中的清音,摩擦音等辅音严重丢失。
骨传导语音的用法可以分为两类。一类就是用骨传导麦克风直接替换到原来系统中的气导麦克风,然后对骨传导的语音进行带宽扩展,这也被称为骨导语音的盲增强。这类方法主要设计一个模型,实现从骨导语音到气导语音的映射,包括线性表示,重构滤波器,高斯混合模型和深度神经网络。然而,这类工作大多侧重于扩展骨传导语音的带宽,而忽略了骨导自身的各类噪声。另一类方法则将骨导语音作为一个辅助的信号用来提升语音增强的性能。2004年,微软研究院首先提出同时使用骨传导和气导语音进行联合语音增强。在随后的几年里,有不少类似的工作,但是这些方法都是基于传统的信号处理方法。目前为止,还没有基于端到端深度学习的骨气导语音增强的工作。
发明内容
为了克服现有技术的不足,本发明提供了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI-SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到
Figure BDA0002873163350000021
其中
Figure BDA0002873163350000022
为带噪声的气导语音,na为环境噪声;构建数据集
Figure BDA0002873163350000023
再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据
Figure BDA0002873163350000024
通过编码器E将带噪声的气导语音
Figure BDA0002873163350000025
和骨导语音xb转化到同一个特征空间中,输出得到特征图
Figure BDA0002873163350000026
编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
Figure BDA0002873163350000031
Figure BDA0002873163350000032
Figure BDA0002873163350000033
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
优选地,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
优选地,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
优选地,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
优选地,所述掩膜估计器M包括8个串行堆叠的卷积块。
优选地,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
优选地,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
本发明的有益效果如下:
本发明的有益效果在于同时利用带噪的气导语音和骨导语音,实现端到端的联合语音增强。相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。另外,由于带噪的气导语音和骨导语音的相位均有不足,因而传统的时频域的方法也面临相位估计的问题,而本发明设计的端到端的系统能有效避免相位估计问题。
附图说明
图1是本发明方法的系统框图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种端到端的骨气导语音联合增强方法,包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到
Figure BDA0002873163350000041
其中
Figure BDA0002873163350000042
为带噪声的气导语音,na为环境噪声;构建数据集
Figure BDA0002873163350000043
再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据
Figure BDA0002873163350000044
通过编码器E将带噪声的气导语音
Figure BDA0002873163350000045
和骨导语音xb转化到同一个特征空间中,输出得到特征图
Figure BDA0002873163350000046
编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
Figure BDA0002873163350000051
Figure BDA0002873163350000052
Figure BDA0002873163350000053
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
具体实施例:
1、获取同步的骨导和气导语音数据(xa,xb)构建数据集,其中xa为在消声实验室或者较为安静的环境下录制的纯净语音,xb为同步录制的骨导语音。将所有的语音降采样到16kHz,16bit量化。模型的输入数据为带噪的气导和骨导语音。因为骨导语音自身可以抵制环境噪声,因而,只给气导的语音按照一定的信噪比添加噪声,即为
Figure BDA0002873163350000054
其中
Figure BDA0002873163350000055
为带噪的气导语音,na为环境噪声。模型的期望的输出为对应的纯净的气导语音xa。则构建数据集为
Figure BDA0002873163350000056
然后进一步将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
2、为了方便训练,将训练的语音数据按固定长度进行切割,本实施例中,分割的长度为1s,每1s包含16000点。
3、搭建端到端的神经网络模型。所提出的模型由三个模块构成,即编码器,掩膜估计器和解码器。
3.1编码器E由一维卷积构成,将带噪的气导语音和骨导语音转化到同一个特征空间中,得到特征图z,即
Figure BDA0002873163350000057
一维卷积的输入通道为2,卷积层的卷积核的大小为20,个数为256,stride设置为8,输出的通道等于256。
3.2掩掩膜估计器M是一个时域卷积网络,由8个堆叠的卷积块构成,每个卷积块包含了1x1的卷积和深度可分离卷积,每个卷积后跟随着一个PReLU非线性激活函数和归一化操作,每一个卷积块的扩张因子呈指数增长。每个卷积块包含512个卷积核。膜估计器的输入为编码器得到的特征图,输出为和特征图同尺寸的掩膜m,即m=M(z)。
3.3先将编码器输出的特征图和掩膜估计器输出的掩膜进行点乘,得到一个新的特征图c=z·m,被认为是纯净的气导语音在该空间的分量。
3.4解码器D由一维卷积构成。将新的特征图送入解码器中,解码器将其转化为一个单通道的语音信号y,即y=D(c)。卷积核的大小为20,卷积核个数为1。
4、优化神经网络。网络的训练目标为最大化尺度无关的信噪比(SI-SNR),用Adam优化器对网络进行优化。最大训练次数设置为30个epoch。初始学习率设置为0.001.如果模型在验证集的指标在连续的2个epoch内没有提升,则学习率减半。如果模型在验证集上的指标在连续的5个epoch都没有提升,则停止训练,得到最佳的模型。
5、模型测试。将测试数据送入第4步得到的训练好的网络,得到联合增强的语音信号。

Claims (7)

1.一种端到端的骨气导语音联合增强方法,其特征在于,包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到
Figure FDA0002873163340000015
其中
Figure FDA0002873163340000014
为带噪声的气导语音,na为环境噪声;构建数据集
Figure FDA0002873163340000016
再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据
Figure FDA0002873163340000017
通过编码器E将带噪声的气导语音
Figure FDA0002873163340000019
和骨导语音xb转化到同一个特征空间中,输出得到特征图
Figure FDA0002873163340000018
编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
Figure FDA0002873163340000011
Figure FDA0002873163340000012
Figure FDA0002873163340000013
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
2.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
3.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
4.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
5.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述掩膜估计器M包括8个串行堆叠的卷积块。
6.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
7.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
CN202011612056.4A 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法 Active CN112786064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612056.4A CN112786064B (zh) 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612056.4A CN112786064B (zh) 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法

Publications (2)

Publication Number Publication Date
CN112786064A true CN112786064A (zh) 2021-05-11
CN112786064B CN112786064B (zh) 2023-09-08

Family

ID=75753926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612056.4A Active CN112786064B (zh) 2020-12-30 2020-12-30 一种端到端的骨气导语音联合增强方法

Country Status (1)

Country Link
CN (1) CN112786064B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113314107A (zh) * 2021-05-28 2021-08-27 思必驰科技股份有限公司 训练语音增广模型的方法和装置
CN113327624A (zh) * 2021-05-25 2021-08-31 西北工业大学 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法
CN114495909A (zh) * 2022-02-20 2022-05-13 西北工业大学 一种端到端的骨气导语音联合识别方法
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雄伟;郑昌艳;曹铁勇;杨吉斌;邢益搏;: "骨导麦克风语音盲增强技术研究现状及展望", 数据采集与处理, no. 05 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327624A (zh) * 2021-05-25 2021-08-31 西北工业大学 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法
CN113327624B (zh) * 2021-05-25 2023-06-23 西北工业大学 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法
CN113314107A (zh) * 2021-05-28 2021-08-27 思必驰科技股份有限公司 训练语音增广模型的方法和装置
CN114495909A (zh) * 2022-02-20 2022-05-13 西北工业大学 一种端到端的骨气导语音联合识别方法
CN114495909B (zh) * 2022-02-20 2024-04-30 西北工业大学 一种端到端的骨气导语音联合识别方法
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
US12094484B2 (en) 2022-07-29 2024-09-17 Zhejiang Lab General speech enhancement method and apparatus using multi-source auxiliary information

Also Published As

Publication number Publication date
CN112786064B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN112786064B (zh) 一种端到端的骨气导语音联合增强方法
KR100304666B1 (ko) 음성 향상 방법
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP5127754B2 (ja) 信号処理装置
US8063809B2 (en) Transient signal encoding method and device, decoding method and device, and processing system
CN103871421B (zh) 一种基于子带噪声分析的自适应降噪方法与系统
KR101046147B1 (ko) 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법
US9812147B2 (en) System and method for generating an audio signal representing the speech of a user
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US8346545B2 (en) Model-based distortion compensating noise reduction apparatus and method for speech recognition
CN102549659A (zh) 抑制音频信号中的噪声
KR20050115857A (ko) 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
CN1750124A (zh) 带限音频信号的带宽扩展
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
JP2008065090A (ja) ノイズサプレス装置
US20240177726A1 (en) Speech enhancement
US20150187365A1 (en) Formant Based Speech Reconstruction from Noisy Signals
JP5443547B2 (ja) 信号処理装置
CN110970044A (zh) 一种面向语音识别的语音增强方法
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
CN112331204B (zh) 智能语音识别方法及设备、装置和存储介质
CN111210835B (zh) 一种基于听觉模型和信源方位的多通路语音降噪方法
WO2015027168A1 (en) Method and system for speech intellibility enhancement in noisy environments
CN111009259B (zh) 一种音频处理方法和装置
Lan et al. Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant