CN113129872A - 一种基于深度压缩感知的语音增强方法 - Google Patents

一种基于深度压缩感知的语音增强方法 Download PDF

Info

Publication number
CN113129872A
CN113129872A CN202110367869.XA CN202110367869A CN113129872A CN 113129872 A CN113129872 A CN 113129872A CN 202110367869 A CN202110367869 A CN 202110367869A CN 113129872 A CN113129872 A CN 113129872A
Authority
CN
China
Prior art keywords
voice
model
signal
speech
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110367869.XA
Other languages
English (en)
Other versions
CN113129872B (zh
Inventor
康峥
黄志华
赖惠成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202110367869.XA priority Critical patent/CN113129872B/zh
Publication of CN113129872A publication Critical patent/CN113129872A/zh
Application granted granted Critical
Publication of CN113129872B publication Critical patent/CN113129872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于深度压缩感知的语音增强方法,所述方法包括以下步骤:步骤1:预处理训练数据,获取时域语音信号序列;步骤2:构建基于深度压缩感知的语音增强模型(SEDCS),并对其进行联合训练;步骤3:预处理带噪语音测试集,利用训练完成的SEDCS模型对其去噪与重构,并保存结果,完成语音增强任务;步骤4:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。本发明将压缩感知结合深度学习实现语音增强,可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,并且以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度,能够更简便灵活地实现语音增强。

Description

一种基于深度压缩感知的语音增强方法
技术领域
本发明涉及语音信号处理的语音增强技术领域,尤其涉及一种基于深度压缩感知的语音增强方法。
背景技术
语音是人们交流的一种最自然、最快捷以及最高效的方式,但是在现实生活中语音往往会被各种各样的噪声所干扰,比如环境噪声,机械噪声等。这些噪声会不同程度地影响语音质量,从而导致语音可懂度下降。为解决这些问题,就需要应用到语音增强。语音增强是从带噪语音中提取干净语音的一种技术,是语音识别系统中重要组成部分,其目的主要有两个,一是改善语音质量,二是提高语音可懂度。
现有的语音增强手段主要包括传统方法和深度学习方法两种,传统方法如谱减法、子空间法、维纳滤波法等,这些方法虽然能够有效去除噪声,提高语音质量,但是传统方法一般都基于特定的假设前提,如噪声是平稳的,但对于低信噪比和非平稳噪声下语音增强效果较差。所以鉴于这个问题,基于深度学习的语音增强方法被提出,常见的深度学习语音增强方法有基于卷积神经网络(CNN)的语音增强方法、基于循环神经网络(RNN)的语音增强方法以及基于生成对抗网络(GAN)的语音增强方法。基于CNN的语音增强方法是比较常见的方法,通过训练语音增强模型完成语音增强任务,但是该方法模型参数量较大,若在时频域进行语音增强时,还存在相位信息丢失等问题,导致语音增强质量下降。基于RNN的语音增强方法也备受关注,但是RNN方法相较CNN方法参数量更大,模型更复杂。生成对抗网络(GAN)的提出为语音增强提供了新方法,该方法实现了语音信号的端到端增强,并且在时域直接完成语音增强任务。随着压缩感知技术的发展,又给语音增强提供了新的探索领域,该方法虽然可以解决传统方法非平稳噪声下语音增强效果差的问题,但是压缩感知要求语音信号需满足特定结构,如语音信号必须是稀疏的,而语音信号在稀疏化过程中可能造成有效信息丢失,导致重构语音可懂度下降。
现有语音增强技术大多在时频域实现,数据处理后易造成相位信息丢失等问题;许多基于深度学习的语音增强技术虽然在时域实现了语音增强,但是其模型复杂,并且以原始语音信号作为优化对象,导致增强速率下降;基于传统压缩感知技术的语音增强方法受语音信号稀疏性的影响,导致重构语音可懂度下降。
发明内容
本发明主要以语音信号的观测信号作为优化对象解决现有语音增强技术存在的模型复杂、增强速率慢等问题,解决传统压缩感知方法重构语音可懂度下降的问题;本发明的目的是提供一种结合深度学习的压缩感知语音增强方法,通过该方法可以完成语音增强任务,提高语音增强速率,解决传统压缩感知方法重构语音可懂度下降的问题。
本发明的目的是通过以下技术方案实现。
一种基于深度压缩感知的语音增强方法,包括以下步骤。
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列。
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型(SEDCS),设定合适的误差函数,将预处理后的语音训练集输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中。
步骤3:测试模型:对带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
本发明的模型称为SEDCS模型,通过训练SEDCS模型,可在时域完成语音增强任务,避免时频域数据处理后相位信息丢失等问题,用户只需提供带噪语音文件即可快速获得增强语音;本发明可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,更简便灵活地实现语音增强。
进一步的,步骤2中SEDCS模型由两个深度神经网络模型构建,分别称为生成模型
Figure 7565DEST_PATH_IMAGE001
和测量模型
Figure 44791DEST_PATH_IMAGE002
生成模型
Figure 261009DEST_PATH_IMAGE001
代替压缩感知中信号稀疏过程,对输入的带噪语音信号进行映射,重构与干净语音信号相关的生成语音信号;
测量模型
Figure 143514DEST_PATH_IMAGE002
代替压缩感知中测量矩阵实现信号观测降维过程,用于获得干净语音信号以及生成语音信号的观测信号,观测信号将被用作优化对象。
进一步的,步骤2中构成SEDCS模型的两个模型通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,此过程可以使模型更快收敛,减少训练周期,优化方式采用梯度下降法,目标函数为:
Figure 761577DEST_PATH_IMAGE003
其中
Figure 969705DEST_PATH_IMAGE004
表示优化后的带噪语音信号,
Figure 407639DEST_PATH_IMAGE005
表示干净语音信号,
Figure 93836DEST_PATH_IMAGE006
表示带噪语音信号,
Figure 831984DEST_PATH_IMAGE007
表示带噪语音信号通过生成模型后获得的生成语音信号,
Figure 945434DEST_PATH_IMAGE008
Figure 136244DEST_PATH_IMAGE009
表示语音信号通过测量模型后获得观测信号,
Figure 626131DEST_PATH_IMAGE010
是权系数,在优化数据期间,生成模型和测量模型不更新,优化次数可指定。
进一步的,将优化后的带噪语音信号输入生成模型
Figure 687628DEST_PATH_IMAGE001
,然后再通过测量模型
Figure 237558DEST_PATH_IMAGE002
获得观测信号,将观测信号作为优化对象,对两个模型进行联合训练优化,模型的目标函数分别为:
Figure 650085DEST_PATH_IMAGE011
Figure 943663DEST_PATH_IMAGE012
其中
Figure 390825DEST_PATH_IMAGE013
表示添加的L1正则化项的权重因子,
Figure 846077DEST_PATH_IMAGE005
表示干净语音信号,
Figure 745900DEST_PATH_IMAGE014
表示重构语音信号,基于深度压缩感知的语音增强方法的目标为
Figure 577590DEST_PATH_IMAGE015
,即最小化模型总体目标函数。
联合训练方式以信号的观测信号作为优化对象,利用压缩感知的优势,用较少的数据使两个模型同时收敛,简化了训练过程,使重构语音信号能够快速逼近干净语音信号,有效解决现有语音增强技术增强速率慢的问题。
传统压缩感知的方法由于语音信号稀疏化的原因,使得重构语音可懂度下降,本发明的SEDCS模型利用深度神经网络代替稀疏过程和观测降维过程,在不需要考虑选择哪种稀疏基和哪种测量矩阵的同时,也能有效解决传统压缩感知方法中重构语音可懂度下降的问题。
进一步的,步骤3包括以下子步骤。
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同。
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号。
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定目录。
进一步的,步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
进一步的,步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时模型可完成语音增强任务,说明本发明能够适应不同噪声场景,具有实用性。
进一步的,步骤4中多种评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为评测背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分,SSNR为分段信噪比。通过这些评价指标,可准确有效地对模型进行评估。
采用上述方案,本发明的有益效果包括以下几点。
1.本发明提供一种基于深度压缩感知的语音增强方法,有效利用深度学习方法和压缩感知技术各自的优点,构建了结合深度学习的压缩感知语音增强模型,以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度。
2.本发明采用联合训练方式训练模型,使带噪语音信号能够拟合干净语音信号,有效提升语音增强质量与可懂度。
3.本发明可以在不同的噪声条件下完成语音增强,具有较强的适应能力和一定的实用性。
附图说明
为进一步理解本发明实施例的技术方案,在此对附图加以说明,此处附图构成本申请的一部分,并不构成本发明实施例的限定。
在附图中:图1为本发明实施例提供的一种语音增强技术路线示意图。
具体实施方式
在此结合本发明实施例中的附图,对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是本发明的一部分实施例,并非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音增强方法,通过联合训练的方式,获得SEDCS模型,在时域完成语音增强任务,既能解决现有语音增强技术存在的模型复杂、增强速率慢等问题,又能解决传统压缩感知方法重构语音可懂度下降等问题,更简便灵活地实现语音增强。
如图1所示,本发明实施例提供的一种语音增强技术路线图,其中包括以下步骤。
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列。
在数据预处理过程中预加重的主要作用是提升高频分量以防止重构语音质量受到影响,相应地,在输出端需进行去加重。在此预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型,设定合适的误差函数,将预处理后的语音训练集输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中。
SEDCS模型由两个深度神经网络模型构建,分别是生成模型
Figure 144837DEST_PATH_IMAGE001
和测量模型
Figure 505411DEST_PATH_IMAGE002
生成模型
Figure 158109DEST_PATH_IMAGE001
代替压缩感知中信号稀疏过程,对输入的带噪语音信号进行映射,重构与干净语音信号相关的生成语音信号。
测量模型
Figure 527911DEST_PATH_IMAGE002
代替压缩感知中测量矩阵实现信号观测降维过程,该模型的输入包括干净语音信号和生成语音信号,目的是获得干净语音信号以及生成语音信号的观测信号,观测信号将被用作优化对象。
模型构建完成后,通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,在优化带噪语音期间,生成模型和测量模型不更新,优化次数可指定。
此过程可以使模型更快收敛,减少训练周期,优化方式采用梯度下降法,目标函数为:
Figure 684086DEST_PATH_IMAGE003
其中
Figure 746720DEST_PATH_IMAGE004
表示优化后的带噪语音信号,
Figure 355556DEST_PATH_IMAGE005
表示干净语音信号,
Figure 794627DEST_PATH_IMAGE006
表示带噪语音信号,
Figure 70888DEST_PATH_IMAGE007
表示带噪语音信号通过生成模型后获得的生成语音信号,
Figure 570002DEST_PATH_IMAGE008
Figure 931713DEST_PATH_IMAGE009
表示语音信号通过测量模型后获得观测信号,
Figure 908897DEST_PATH_IMAGE010
是权系数。
将优化后的带噪语音信号输入生成模型
Figure 774085DEST_PATH_IMAGE001
,然后再通过测量模型
Figure 178521DEST_PATH_IMAGE002
获得观测信号,将观测信号作为优化对象,对两个模型进行联合训练优化,模型的目标函数分别为:
Figure 27528DEST_PATH_IMAGE011
Figure 277244DEST_PATH_IMAGE012
其中
Figure 528097DEST_PATH_IMAGE013
表示添加的L1正则化项的权重因子,
Figure 837855DEST_PATH_IMAGE005
表示干净语音信号,
Figure 174159DEST_PATH_IMAGE014
表示重构语音信号,基于深度压缩感知的语音增强方法的目标为
Figure 493145DEST_PATH_IMAGE015
,即最小化模型总体目标函数。
联合训练方式以信号的观测信号作为优化对象,利用压缩感知的优势,用较少的数据使两个模型同时收敛,简化了训练过程,使重构语音信号能够快速逼近干净语音信号,有效解决现在语音增强技术增强速率慢的问题。
步骤3:测试模型:将带噪测试集的语音数据进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务。
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同。
带噪测试集预处理方式与训练集预处理方式相同,即预加重因子仍选择0.95,帧长仍设置为16384个采样点,帧叠仍设置为1/2,运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号。
不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时,模型也可以完成语音增强任务。
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定目录。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
对保存的去噪语音进行评估,以此来评测模型性能。
评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。其中STOI为短时客观可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为评测背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分,SSNR为分段信噪比。通过这些评价指标,可准确有效地对模型进行评估。
本发明的一个实施例,评测模型采用了两个带噪测试集。
测试集一中噪声类型是5种与训练集不同的环境噪声,模拟在本模型应对未知环境噪声时,所获得的增强效果,同时证明本模型的有效性和可行性,实施例结果如表1所示。
测试集二中噪声类型是white、volvo以及babble,white噪声模拟平稳噪声环境,其他噪声模拟非平稳噪声环境,该测试集用于评测本方法是否解决了传统压缩感知方法中去噪语音可懂度下降的问题,实施例结果如表2所示。
表1 测试集一的不同指标得分情况。
Figure 332925DEST_PATH_IMAGE016
表2 测试集二PESQ和STOI的得分情况。
Figure 79164DEST_PATH_IMAGE017
为证明本发明有效性及可行性,本实施例还与利用维纳语音增强方法的结果进行比较。由表1发现,本实施例得分的PESQ虽然比维纳方法低0.01,但是其他指标得分均表现较优,说明本实施例可有效抑制噪声,改善语音质量,且适应不同噪声环境。
由表2发现,本实施例中得分均表现较优,且有一定提升,说明本实施例可解决传统压缩感知方法中可懂度下降的问题。
以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明,并且仅为本发明具体实施方式以及较佳实施例,其不用以限制本发明,凡在本发明精神和原则之内,所做的任何修改、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度压缩感知的语音增强方法,其特征在于,包括以下步骤:
步骤1:预处理训练数据:对训练数据进行预加重、配对以及分帧处理,获取时域语音信号序列;
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型(SEDCS),设定合适的误差函数,将处理后的训练集语音信号输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中;
步骤3:测试模型:将带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务;
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
2.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤2的SEDCS模型由两个深度神经网络模型构建,分别是生成模型
Figure 503811DEST_PATH_IMAGE001
和测量模型
Figure 686531DEST_PATH_IMAGE002
生成模型
Figure 731847DEST_PATH_IMAGE001
代替压缩感知中信号稀疏过程,对输入的带噪语音信号进行映射,重构与干净语音信号相关的生成语音信号;
测量模型
Figure 127056DEST_PATH_IMAGE002
代替压缩感知中测量矩阵实现信号观测降维过程,用于获得干净语音信号以及生成语音信号的观测信号,观测信号将被用作优化对象。
3.根据权利要求2所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述的构成SEDCS模型的两个模型通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,优化方式采用梯度下降法,目标函数为:
Figure 207008DEST_PATH_IMAGE003
其中
Figure 29470DEST_PATH_IMAGE004
表示优化后的带噪语音信号,
Figure 562083DEST_PATH_IMAGE005
表示干净语音信号,
Figure 26562DEST_PATH_IMAGE006
表示带噪语音信号,
Figure 695441DEST_PATH_IMAGE007
表示带噪语音信号通过生成模型后获得的生成语音信号,
Figure 954384DEST_PATH_IMAGE008
Figure 708713DEST_PATH_IMAGE009
表示语音信号通过测量模型后获得观测信号,
Figure 711304DEST_PATH_IMAGE010
为权系数。
4.根据权利要求3所述的一种基于深度压缩感知的语音增强方法,其特征在于,将优化后的带噪语音信号输入生成模型
Figure 234690DEST_PATH_IMAGE001
,然后再通过测量模型
Figure 930113DEST_PATH_IMAGE002
获得观测信号,将观测信号作为优化对象,对两个模型进行联合训练优化,模型的目标函数分别为:
Figure 437318DEST_PATH_IMAGE011
Figure 978021DEST_PATH_IMAGE012
其中
Figure 621492DEST_PATH_IMAGE013
表示添加的L1正则化项的权重因子,
Figure 222237DEST_PATH_IMAGE005
表示干净语音信号,
Figure 216738DEST_PATH_IMAGE014
表示重构语音信号,基于深度压缩感知的语音增强方法的目标为
Figure 295552DEST_PATH_IMAGE015
,即最小化模型总体目标函数。
5.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3包括以下子步骤:
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同;
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号;
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定位置。
6.根据权利要求1和5所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
7.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件可能不同,应对未知噪声条件时模型可完成语音增强任务。
8.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤4中评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。
CN202110367869.XA 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法 Active CN113129872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110367869.XA CN113129872B (zh) 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110367869.XA CN113129872B (zh) 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法

Publications (2)

Publication Number Publication Date
CN113129872A true CN113129872A (zh) 2021-07-16
CN113129872B CN113129872B (zh) 2023-03-14

Family

ID=76774973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110367869.XA Active CN113129872B (zh) 2021-04-06 2021-04-06 一种基于深度压缩感知的语音增强方法

Country Status (1)

Country Link
CN (1) CN113129872B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
EP3090574A1 (en) * 2014-01-03 2016-11-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
CN115410589A (zh) * 2022-09-05 2022-11-29 新疆大学 一种基于联合感知损失的注意力生成对抗语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
EP3090574A1 (en) * 2014-01-03 2016-11-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
CN115410589A (zh) * 2022-09-05 2022-11-29 新疆大学 一种基于联合感知损失的注意力生成对抗语音增强方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HOURIA HANECHE 等: ""A new way to enhance speech signal based on compressed sensing"", 《MEASUREMENT》 *
KANG ZHENG 等: ""Speech Enhancement Using U-Net with Compressed Sensing"", 《APPLIED SCIENCES》 *
张健: ""基于压缩感知的语音信号建模技术的研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
黄志华 等: ""基于噪声稀疏特性的语音增强算法分析"", 《声学技术》 *

Also Published As

Publication number Publication date
CN113129872B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
Gupta et al. Comparing recurrent convolutional neural networks for large scale bird species classification
WO2021139294A1 (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
CN110246510B (zh) 一种基于RefineNet的端到端语音增强方法
CN108172238A (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN113707176A (zh) 一种基于声信号及深度学习技术的变压器故障检测方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
Xu et al. Cross-language transfer learning for deep neural network based speech enhancement
WO2019232833A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN114863938B (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
Poorjam et al. Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection
CN115410589A (zh) 一种基于联合感知损失的注意力生成对抗语音增强方法
CN112992172A (zh) 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN116626753B (zh) 一种基于多模态神经网络的微地震事件识别方法及系统
Saleem et al. NSE-CATNet: deep neural speech enhancement using convolutional attention transformer network
CN117831575A (zh) 基于大数据的智能业务分析方法、系统和电子设备
CN116741144B (zh) 一种语音音色转换方法和系统
CN113129872B (zh) 一种基于深度压缩感知的语音增强方法
Zhang et al. Neural noise embedding for end-to-end speech enhancement with conditional layer normalization
CN115273882A (zh) 一种时域上同时建模语音和噪声的语音增强方法
CN115497492A (zh) 一种基于全卷积神经网络的实时语音增强方法
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN114302301A (zh) 频响校正方法及相关产品
Luo et al. Adaptive Noise Reduction Algorithm Based on SPP and NMF for Environmental Sound Event Recognition under Low‐SNR Conditions
EP4233051B1 (en) An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant