CN113129872A - 一种基于深度压缩感知的语音增强方法 - Google Patents
一种基于深度压缩感知的语音增强方法 Download PDFInfo
- Publication number
- CN113129872A CN113129872A CN202110367869.XA CN202110367869A CN113129872A CN 113129872 A CN113129872 A CN 113129872A CN 202110367869 A CN202110367869 A CN 202110367869A CN 113129872 A CN113129872 A CN 113129872A
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- signal
- speech
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 108010076504 Protein Sorting Signals Proteins 0.000 claims abstract description 4
- 238000005259 measurement Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 7
- 101000659995 Homo sapiens Ribosomal L1 domain-containing protein 1 Proteins 0.000 claims description 5
- 102100035066 Ribosomal L1 domain-containing protein 1 Human genes 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000011946 reduction process Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于深度压缩感知的语音增强方法,所述方法包括以下步骤:步骤1:预处理训练数据,获取时域语音信号序列;步骤2:构建基于深度压缩感知的语音增强模型(SEDCS),并对其进行联合训练;步骤3:预处理带噪语音测试集,利用训练完成的SEDCS模型对其去噪与重构,并保存结果,完成语音增强任务;步骤4:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。本发明将压缩感知结合深度学习实现语音增强,可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,并且以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度,能够更简便灵活地实现语音增强。
Description
技术领域
本发明涉及语音信号处理的语音增强技术领域,尤其涉及一种基于深度压缩感知的语音增强方法。
背景技术
语音是人们交流的一种最自然、最快捷以及最高效的方式,但是在现实生活中语音往往会被各种各样的噪声所干扰,比如环境噪声,机械噪声等。这些噪声会不同程度地影响语音质量,从而导致语音可懂度下降。为解决这些问题,就需要应用到语音增强。语音增强是从带噪语音中提取干净语音的一种技术,是语音识别系统中重要组成部分,其目的主要有两个,一是改善语音质量,二是提高语音可懂度。
现有的语音增强手段主要包括传统方法和深度学习方法两种,传统方法如谱减法、子空间法、维纳滤波法等,这些方法虽然能够有效去除噪声,提高语音质量,但是传统方法一般都基于特定的假设前提,如噪声是平稳的,但对于低信噪比和非平稳噪声下语音增强效果较差。所以鉴于这个问题,基于深度学习的语音增强方法被提出,常见的深度学习语音增强方法有基于卷积神经网络(CNN)的语音增强方法、基于循环神经网络(RNN)的语音增强方法以及基于生成对抗网络(GAN)的语音增强方法。基于CNN的语音增强方法是比较常见的方法,通过训练语音增强模型完成语音增强任务,但是该方法模型参数量较大,若在时频域进行语音增强时,还存在相位信息丢失等问题,导致语音增强质量下降。基于RNN的语音增强方法也备受关注,但是RNN方法相较CNN方法参数量更大,模型更复杂。生成对抗网络(GAN)的提出为语音增强提供了新方法,该方法实现了语音信号的端到端增强,并且在时域直接完成语音增强任务。随着压缩感知技术的发展,又给语音增强提供了新的探索领域,该方法虽然可以解决传统方法非平稳噪声下语音增强效果差的问题,但是压缩感知要求语音信号需满足特定结构,如语音信号必须是稀疏的,而语音信号在稀疏化过程中可能造成有效信息丢失,导致重构语音可懂度下降。
现有语音增强技术大多在时频域实现,数据处理后易造成相位信息丢失等问题;许多基于深度学习的语音增强技术虽然在时域实现了语音增强,但是其模型复杂,并且以原始语音信号作为优化对象,导致增强速率下降;基于传统压缩感知技术的语音增强方法受语音信号稀疏性的影响,导致重构语音可懂度下降。
发明内容
本发明主要以语音信号的观测信号作为优化对象解决现有语音增强技术存在的模型复杂、增强速率慢等问题,解决传统压缩感知方法重构语音可懂度下降的问题;本发明的目的是提供一种结合深度学习的压缩感知语音增强方法,通过该方法可以完成语音增强任务,提高语音增强速率,解决传统压缩感知方法重构语音可懂度下降的问题。
本发明的目的是通过以下技术方案实现。
一种基于深度压缩感知的语音增强方法,包括以下步骤。
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列。
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型(SEDCS),设定合适的误差函数,将预处理后的语音训练集输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中。
步骤3:测试模型:对带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
本发明的模型称为SEDCS模型,通过训练SEDCS模型,可在时域完成语音增强任务,避免时频域数据处理后相位信息丢失等问题,用户只需提供带噪语音文件即可快速获得增强语音;本发明可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,更简便灵活地实现语音增强。
进一步的,步骤2中构成SEDCS模型的两个模型通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,此过程可以使模型更快收敛,减少训练周期,优化方式采用梯度下降法,目标函数为:
其中表示优化后的带噪语音信号,表示干净语音信号,表示带噪语音信号,表示带噪语音信号通过生成模型后获得的生成语音信号,和表示语音信号通过测量模型后获得观测信号,是权系数,在优化数据期间,生成模型和测量模型不更新,优化次数可指定。
联合训练方式以信号的观测信号作为优化对象,利用压缩感知的优势,用较少的数据使两个模型同时收敛,简化了训练过程,使重构语音信号能够快速逼近干净语音信号,有效解决现有语音增强技术增强速率慢的问题。
传统压缩感知的方法由于语音信号稀疏化的原因,使得重构语音可懂度下降,本发明的SEDCS模型利用深度神经网络代替稀疏过程和观测降维过程,在不需要考虑选择哪种稀疏基和哪种测量矩阵的同时,也能有效解决传统压缩感知方法中重构语音可懂度下降的问题。
进一步的,步骤3包括以下子步骤。
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同。
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号。
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定目录。
进一步的,步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
进一步的,步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时模型可完成语音增强任务,说明本发明能够适应不同噪声场景,具有实用性。
进一步的,步骤4中多种评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为评测背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分,SSNR为分段信噪比。通过这些评价指标,可准确有效地对模型进行评估。
采用上述方案,本发明的有益效果包括以下几点。
1.本发明提供一种基于深度压缩感知的语音增强方法,有效利用深度学习方法和压缩感知技术各自的优点,构建了结合深度学习的压缩感知语音增强模型,以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度。
2.本发明采用联合训练方式训练模型,使带噪语音信号能够拟合干净语音信号,有效提升语音增强质量与可懂度。
3.本发明可以在不同的噪声条件下完成语音增强,具有较强的适应能力和一定的实用性。
附图说明
为进一步理解本发明实施例的技术方案,在此对附图加以说明,此处附图构成本申请的一部分,并不构成本发明实施例的限定。
在附图中:图1为本发明实施例提供的一种语音增强技术路线示意图。
具体实施方式
在此结合本发明实施例中的附图,对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是本发明的一部分实施例,并非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音增强方法,通过联合训练的方式,获得SEDCS模型,在时域完成语音增强任务,既能解决现有语音增强技术存在的模型复杂、增强速率慢等问题,又能解决传统压缩感知方法重构语音可懂度下降等问题,更简便灵活地实现语音增强。
如图1所示,本发明实施例提供的一种语音增强技术路线图,其中包括以下步骤。
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列。
在数据预处理过程中预加重的主要作用是提升高频分量以防止重构语音质量受到影响,相应地,在输出端需进行去加重。在此预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型,设定合适的误差函数,将预处理后的语音训练集输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中。
模型构建完成后,通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,在优化带噪语音期间,生成模型和测量模型不更新,优化次数可指定。
此过程可以使模型更快收敛,减少训练周期,优化方式采用梯度下降法,目标函数为:
联合训练方式以信号的观测信号作为优化对象,利用压缩感知的优势,用较少的数据使两个模型同时收敛,简化了训练过程,使重构语音信号能够快速逼近干净语音信号,有效解决现在语音增强技术增强速率慢的问题。
步骤3:测试模型:将带噪测试集的语音数据进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务。
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同。
带噪测试集预处理方式与训练集预处理方式相同,即预加重因子仍选择0.95,帧长仍设置为16384个采样点,帧叠仍设置为1/2,运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号。
不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时,模型也可以完成语音增强任务。
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定目录。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
对保存的去噪语音进行评估,以此来评测模型性能。
评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为评测背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分,SSNR为分段信噪比。通过这些评价指标,可准确有效地对模型进行评估。
本发明的一个实施例,评测模型采用了两个带噪测试集。
测试集一中噪声类型是5种与训练集不同的环境噪声,模拟在本模型应对未知环境噪声时,所获得的增强效果,同时证明本模型的有效性和可行性,实施例结果如表1所示。
测试集二中噪声类型是white、volvo以及babble,white噪声模拟平稳噪声环境,其他噪声模拟非平稳噪声环境,该测试集用于评测本方法是否解决了传统压缩感知方法中去噪语音可懂度下降的问题,实施例结果如表2所示。
表1 测试集一的不同指标得分情况。
表2 测试集二PESQ和STOI的得分情况。
为证明本发明有效性及可行性,本实施例还与利用维纳语音增强方法的结果进行比较。由表1发现,本实施例得分的PESQ虽然比维纳方法低0.01,但是其他指标得分均表现较优,说明本实施例可有效抑制噪声,改善语音质量,且适应不同噪声环境。
由表2发现,本实施例中得分均表现较优,且有一定提升,说明本实施例可解决传统压缩感知方法中可懂度下降的问题。
以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明,并且仅为本发明具体实施方式以及较佳实施例,其不用以限制本发明,凡在本发明精神和原则之内,所做的任何修改、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于深度压缩感知的语音增强方法,其特征在于,包括以下步骤:
步骤1:预处理训练数据:对训练数据进行预加重、配对以及分帧处理,获取时域语音信号序列;
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型(SEDCS),设定合适的误差函数,将处理后的训练集语音信号输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中;
步骤3:测试模型:将带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务;
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
5.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3包括以下子步骤:
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同;
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号;
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定位置。
6.根据权利要求1和5所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
7.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时模型可完成语音增强任务。
8.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤4中评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367869.XA CN113129872B (zh) | 2021-04-06 | 2021-04-06 | 一种基于深度压缩感知的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367869.XA CN113129872B (zh) | 2021-04-06 | 2021-04-06 | 一种基于深度压缩感知的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113129872A true CN113129872A (zh) | 2021-07-16 |
CN113129872B CN113129872B (zh) | 2023-03-14 |
Family
ID=76774973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110367869.XA Active CN113129872B (zh) | 2021-04-06 | 2021-04-06 | 一种基于深度压缩感知的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129872B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN103745727A (zh) * | 2013-12-25 | 2014-04-23 | 南京邮电大学 | 一种含噪声语音信号压缩感知方法 |
EP3090574A1 (en) * | 2014-01-03 | 2016-11-09 | Samsung Electronics Co., Ltd. | Method and apparatus for improved ambisonic decoding |
CN115410589A (zh) * | 2022-09-05 | 2022-11-29 | 新疆大学 | 一种基于联合感知损失的注意力生成对抗语音增强方法 |
-
2021
- 2021-04-06 CN CN202110367869.XA patent/CN113129872B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN103745727A (zh) * | 2013-12-25 | 2014-04-23 | 南京邮电大学 | 一种含噪声语音信号压缩感知方法 |
EP3090574A1 (en) * | 2014-01-03 | 2016-11-09 | Samsung Electronics Co., Ltd. | Method and apparatus for improved ambisonic decoding |
CN115410589A (zh) * | 2022-09-05 | 2022-11-29 | 新疆大学 | 一种基于联合感知损失的注意力生成对抗语音增强方法 |
Non-Patent Citations (4)
Title |
---|
HOURIA HANECHE 等: ""A new way to enhance speech signal based on compressed sensing"", 《MEASUREMENT》 * |
KANG ZHENG 等: ""Speech Enhancement Using U-Net with Compressed Sensing"", 《APPLIED SCIENCES》 * |
张健: ""基于压缩感知的语音信号建模技术的研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
黄志华 等: ""基于噪声稀疏特性的语音增强算法分析"", 《声学技术》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113129872B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Comparing recurrent convolutional neural networks for large scale bird species classification | |
WO2021139294A1 (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
CN110246510B (zh) | 一种基于RefineNet的端到端语音增强方法 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN113707176A (zh) | 一种基于声信号及深度学习技术的变压器故障检测方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Zhang et al. | Birdsoundsdenoising: Deep visual audio denoising for bird sounds | |
Xu et al. | Cross-language transfer learning for deep neural network based speech enhancement | |
WO2019232833A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN114863938B (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
Poorjam et al. | Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
CN112992172A (zh) | 一种基于注意力机制的单通道时域鸟鸣声分离方法 | |
CN116626753B (zh) | 一种基于多模态神经网络的微地震事件识别方法及系统 | |
Saleem et al. | NSE-CATNet: deep neural speech enhancement using convolutional attention transformer network | |
CN117831575A (zh) | 基于大数据的智能业务分析方法、系统和电子设备 | |
CN116741144B (zh) | 一种语音音色转换方法和系统 | |
CN113129872B (zh) | 一种基于深度压缩感知的语音增强方法 | |
Zhang et al. | Neural noise embedding for end-to-end speech enhancement with conditional layer normalization | |
CN115273882A (zh) | 一种时域上同时建模语音和噪声的语音增强方法 | |
CN115497492A (zh) | 一种基于全卷积神经网络的实时语音增强方法 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
CN114302301A (zh) | 频响校正方法及相关产品 | |
Luo et al. | Adaptive Noise Reduction Algorithm Based on SPP and NMF for Environmental Sound Event Recognition under Low‐SNR Conditions | |
EP4233051B1 (en) | An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |