CN112786064A - 一种端到端的骨气导语音联合增强方法 - Google Patents
一种端到端的骨气导语音联合增强方法 Download PDFInfo
- Publication number
- CN112786064A CN112786064A CN202011612056.4A CN202011612056A CN112786064A CN 112786064 A CN112786064 A CN 112786064A CN 202011612056 A CN202011612056 A CN 202011612056A CN 112786064 A CN112786064 A CN 112786064A
- Authority
- CN
- China
- Prior art keywords
- convolution
- training
- speech
- data
- bone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 46
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 29
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 16
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 6
- 230000001965 increasing effect Effects 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000007306 functionalization reaction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI‑SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。
Description
技术领域
本发明属于电子信息技术领域,具体涉及一种语音联合增强方法。
背景技术
语音增强旨在改善带噪语音的质量和可懂度,被广泛应用于各类语音系统的前端。近年来,由于深度学习的兴起,基于深度学习的语音增强日益受到关注,包括谱映射方法,时频掩膜方法和近一两年的端到端的时域增强方法。然而目前这些基于深度学习的语音增强方法均只使用了气导语音。
骨导麦克风通过拾取头骨等人体部位的振动信号来获得音频信号。与传统的气导语音相比,骨传导语音不会拾取环境中的噪声,因而可以从声源处屏蔽噪声,实现低信噪比下的语音通信。然而,骨导语音自身也存在许多缺点。首先,由于人体组织的低通性,骨传导语音的高频部分衰减严重,甚至缺失。通常大于800Hz的频率成分就已经十分微弱,大于2kHz的部分基本完全丢失,使得骨导语音听起来十分沉闷,可懂度降低。其次,骨导语音会引入一定的非声学干扰,说话时麦克风与皮肤的摩擦,人体运动等,进一步影响了骨导语音。最后,由于骨传导的特性,语音中的清音,摩擦音等辅音严重丢失。
骨传导语音的用法可以分为两类。一类就是用骨传导麦克风直接替换到原来系统中的气导麦克风,然后对骨传导的语音进行带宽扩展,这也被称为骨导语音的盲增强。这类方法主要设计一个模型,实现从骨导语音到气导语音的映射,包括线性表示,重构滤波器,高斯混合模型和深度神经网络。然而,这类工作大多侧重于扩展骨传导语音的带宽,而忽略了骨导自身的各类噪声。另一类方法则将骨导语音作为一个辅助的信号用来提升语音增强的性能。2004年,微软研究院首先提出同时使用骨传导和气导语音进行联合语音增强。在随后的几年里,有不少类似的工作,但是这些方法都是基于传统的信号处理方法。目前为止,还没有基于端到端深度学习的骨气导语音增强的工作。
发明内容
为了克服现有技术的不足,本发明提供了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI-SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
优选地,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
优选地,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
优选地,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
优选地,所述掩膜估计器M包括8个串行堆叠的卷积块。
优选地,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
优选地,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
本发明的有益效果如下:
本发明的有益效果在于同时利用带噪的气导语音和骨导语音,实现端到端的联合语音增强。相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。另外,由于带噪的气导语音和骨导语音的相位均有不足,因而传统的时频域的方法也面临相位估计的问题,而本发明设计的端到端的系统能有效避免相位估计问题。
附图说明
图1是本发明方法的系统框图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种端到端的骨气导语音联合增强方法,包括以下步骤:
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
具体实施例:
1、获取同步的骨导和气导语音数据(xa,xb)构建数据集,其中xa为在消声实验室或者较为安静的环境下录制的纯净语音,xb为同步录制的骨导语音。将所有的语音降采样到16kHz,16bit量化。模型的输入数据为带噪的气导和骨导语音。因为骨导语音自身可以抵制环境噪声,因而,只给气导的语音按照一定的信噪比添加噪声,即为其中为带噪的气导语音,na为环境噪声。模型的期望的输出为对应的纯净的气导语音xa。则构建数据集为然后进一步将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
2、为了方便训练,将训练的语音数据按固定长度进行切割,本实施例中,分割的长度为1s,每1s包含16000点。
3、搭建端到端的神经网络模型。所提出的模型由三个模块构成,即编码器,掩膜估计器和解码器。
3.1编码器E由一维卷积构成,将带噪的气导语音和骨导语音转化到同一个特征空间中,得到特征图z,即一维卷积的输入通道为2,卷积层的卷积核的大小为20,个数为256,stride设置为8,输出的通道等于256。
3.2掩掩膜估计器M是一个时域卷积网络,由8个堆叠的卷积块构成,每个卷积块包含了1x1的卷积和深度可分离卷积,每个卷积后跟随着一个PReLU非线性激活函数和归一化操作,每一个卷积块的扩张因子呈指数增长。每个卷积块包含512个卷积核。膜估计器的输入为编码器得到的特征图,输出为和特征图同尺寸的掩膜m,即m=M(z)。
3.3先将编码器输出的特征图和掩膜估计器输出的掩膜进行点乘,得到一个新的特征图c=z·m,被认为是纯净的气导语音在该空间的分量。
3.4解码器D由一维卷积构成。将新的特征图送入解码器中,解码器将其转化为一个单通道的语音信号y,即y=D(c)。卷积核的大小为20,卷积核个数为1。
4、优化神经网络。网络的训练目标为最大化尺度无关的信噪比(SI-SNR),用Adam优化器对网络进行优化。最大训练次数设置为30个epoch。初始学习率设置为0.001.如果模型在验证集的指标在连续的2个epoch内没有提升,则学习率减半。如果模型在验证集上的指标在连续的5个epoch都没有提升,则停止训练,得到最佳的模型。
5、模型测试。将测试数据送入第4步得到的训练好的网络,得到联合增强的语音信号。
Claims (7)
1.一种端到端的骨气导语音联合增强方法,其特征在于,包括以下步骤:
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:
其中,<·>代表内积,SI-SNR为尺度无关的信噪比;
使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;
步骤5:模型测试;
将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。
2.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。
3.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。
4.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。
5.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述掩膜估计器M包括8个串行堆叠的卷积块。
6.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。
7.根据权利要求1所述的一种端到端的骨气导语音联合增强方法,其特征在于,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612056.4A CN112786064B (zh) | 2020-12-30 | 2020-12-30 | 一种端到端的骨气导语音联合增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612056.4A CN112786064B (zh) | 2020-12-30 | 2020-12-30 | 一种端到端的骨气导语音联合增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786064A true CN112786064A (zh) | 2021-05-11 |
CN112786064B CN112786064B (zh) | 2023-09-08 |
Family
ID=75753926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011612056.4A Active CN112786064B (zh) | 2020-12-30 | 2020-12-30 | 一种端到端的骨气导语音联合增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786064B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314107A (zh) * | 2021-05-28 | 2021-08-27 | 思必驰科技股份有限公司 | 训练语音增广模型的方法和装置 |
CN113327624A (zh) * | 2021-05-25 | 2021-08-31 | 西北工业大学 | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 |
CN114495909A (zh) * | 2022-02-20 | 2022-05-13 | 西北工业大学 | 一种端到端的骨气导语音联合识别方法 |
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
-
2020
- 2020-12-30 CN CN202011612056.4A patent/CN112786064B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
Non-Patent Citations (1)
Title |
---|
张雄伟;郑昌艳;曹铁勇;杨吉斌;邢益搏;: "骨导麦克风语音盲增强技术研究现状及展望", 数据采集与处理, no. 05 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327624A (zh) * | 2021-05-25 | 2021-08-31 | 西北工业大学 | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 |
CN113327624B (zh) * | 2021-05-25 | 2023-06-23 | 西北工业大学 | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 |
CN113314107A (zh) * | 2021-05-28 | 2021-08-27 | 思必驰科技股份有限公司 | 训练语音增广模型的方法和装置 |
CN114495909A (zh) * | 2022-02-20 | 2022-05-13 | 西北工业大学 | 一种端到端的骨气导语音联合识别方法 |
CN114495909B (zh) * | 2022-02-20 | 2024-04-30 | 西北工业大学 | 一种端到端的骨气导语音联合识别方法 |
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
US12094484B2 (en) | 2022-07-29 | 2024-09-17 | Zhejiang Lab | General speech enhancement method and apparatus using multi-source auxiliary information |
Also Published As
Publication number | Publication date |
---|---|
CN112786064B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112786064B (zh) | 一种端到端的骨气导语音联合增强方法 | |
KR100304666B1 (ko) | 음성 향상 방법 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
JP5127754B2 (ja) | 信号処理装置 | |
US8063809B2 (en) | Transient signal encoding method and device, decoding method and device, and processing system | |
CN103871421B (zh) | 一种基于子带噪声分析的自适应降噪方法与系统 | |
KR101046147B1 (ko) | 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법 | |
US9812147B2 (en) | System and method for generating an audio signal representing the speech of a user | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US8346545B2 (en) | Model-based distortion compensating noise reduction apparatus and method for speech recognition | |
CN102549659A (zh) | 抑制音频信号中的噪声 | |
KR20050115857A (ko) | 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 | |
CN1750124A (zh) | 带限音频信号的带宽扩展 | |
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
JP2008065090A (ja) | ノイズサプレス装置 | |
US20240177726A1 (en) | Speech enhancement | |
US20150187365A1 (en) | Formant Based Speech Reconstruction from Noisy Signals | |
JP5443547B2 (ja) | 信号処理装置 | |
CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
CN112331204B (zh) | 智能语音识别方法及设备、装置和存储介质 | |
CN111210835B (zh) | 一种基于听觉模型和信源方位的多通路语音降噪方法 | |
WO2015027168A1 (en) | Method and system for speech intellibility enhancement in noisy environments | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
Lan et al. | Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |