CN112562707A - 一种单信道目标语音增强方法 - Google Patents
一种单信道目标语音增强方法 Download PDFInfo
- Publication number
- CN112562707A CN112562707A CN202011376572.1A CN202011376572A CN112562707A CN 112562707 A CN112562707 A CN 112562707A CN 202011376572 A CN202011376572 A CN 202011376572A CN 112562707 A CN112562707 A CN 112562707A
- Authority
- CN
- China
- Prior art keywords
- time sequence
- channel
- voice
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013135 deep learning Methods 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 241000282414 Homo sapiens Species 0.000 description 11
- 238000011160 research Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 210000000653 nervous system Anatomy 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Abstract
本发明提供一种单信道目标语音增强方法,包括如下步骤:步骤一:语音信号的预处理与特征转换,引入时间潜在域信息,将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换;步骤二:基于生成信号权重的目标函数;步骤三:引入时序TCN网络模型;本发明网络能实现从混合源语音到目标语音信号的端到端处理,网络的增强性能优秀,能良好还原目标语音信号,同时提升了数据处理的并行处理能力,并能通过自身的数据增广丰富样本集,提升模型性能。
Description
技术领域
本发明涉及一种基于单信道目标语音增强方法,尤其涉及一种基于可度量生成对抗网络和时序TCN模型的单信道目标语音增强方法。
背景技术
声音是人类完成沟通交流和情感表述的重要途径,人类社会中人与人借助声音沟通的固定模式被称为语音对话。随着现代社会的发展,对话的方式不再局限于面对面的交谈,电子信息技术为远距离跨时域的会话提供有力支撑,语音信号的质量与可懂度直接关系到用户交互过程的顺利与否。
在长期的演化中,接收的语音信号质量和可懂度越高,人类听觉系统的反馈处理越迅速,理解越精准。人类听觉系统演化出了识别多源声音信号的功能,能识别可懂度复杂环境下的语音信号。然而,对于计算机来说,要把一个音频信号分解成多个不同的语音源信号,依然有许多棘手的问题需要解决。例如,在鸡尾酒会中人类能够分辨人耳接收到的声音信号,判断出哪些是乐器演奏的声音,哪些是酒杯碰撞的声音,哪些是同伴交谈的声音。
但这种功能的实现对于电子信息系统而言是十分困难的,计算机难以在这类场景中识别出特定目标语音信号源发出的语音信号,或者说,计算机本身不具备像人类听觉神经系统一样的过滤选择机制来过滤出所需要的目标语音信号源发出的语音信号。如何能够让计算机获得像人类听觉神经系统那样通过主动过滤选择来提取目标语音信号的能力,就是语音增强研究致力解决的问题,这个问题被形象地称为鸡尾酒会问题。
鸡尾酒会问题中,非目标信号种类复杂,既可以是平稳的规则信号,又可以是非平稳的不规则信号,这些无益于交互过程的非目标信号与目标语音信号产生混叠,产生了实际场景中的混合源语音信号。混合源语音信号的能量幅度信息明显区别于目标语音信号,混杂的背景音或是其他说话人的语音信号会严重干扰交互过程语音信号的可懂度。电话会议、智能汽车等语音交互场景如不能实现对目标语音信号的增强,远程会议将无法保证议题有效传达与反馈,智能汽车对于非目标指令的错误识别极有可能造成重大安全问题。
研究单信道的语音信号增强,可以为求解鸡尾酒会问题提出一个有效解,实现计算机对特定目标语音信号的有效判别。能够有效提高语音信号传递的质量和可懂度,消除客观因素造成的语音信号的带噪现象。在医学领域,单信道语音信号增强可以应用在助听设备和人工耳蜗的开发设计中,在声音信号被放大前进行增强处理,提取高质量高可懂度的语音信号,进而能够减少患者听觉神经系统的不适感。得益于语音增强在医学方面的应用,听力障碍人群可以借助搭载增强算法的助听设备辅助功效衰退的听觉神经系统,重新获得对外界声音的有效感知。语音增强的研究也可被视为人类对自身听觉神经系统的一种仿真模型,生物学中人类听觉系统的认知和探索也能参考语音增强研究提出的种种算法形成有科研价值的积极正反馈。
此外,单信道的目标语音信号增强还可以作为语音识别技术,说话人识别技术的预处理过程。在语音识别技术、说话人识别技术中应用单信道语音信号增强技术可以排除非目标源噪声信号可能带来的干扰,使得这些方法能够获得更准确的语意特征,从而达到提高其识别精准度的目的。可以说语音信号增强研究,尤其是单信道的语音信号增强研究在计算机听觉领域是具有重要意义的一类基础研究工作,对各个相关领域的研究与探索都有着不可忽视的价值。
发明内容
本发明的目的是为了解决实际场景中需求的目标说话人语音混杂的噪声及混合源语音造成的干扰而提供一种基于单信道目标语音增强方法。
本发明的目的是这样实现的:
一种单信道目标语音增强方法,包括如下步骤:
步骤一:语音信号的预处理与特征转换:
引入时间潜在域信息,将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换;
步骤二:基于生成信号权重的目标函数;
其中的xc指代作为条件约束的混合源单信道语音信号;
步骤三:引入时序TCN网络模型;
时序TCN模型的输入为经过处理后的语音特征信息,借助对抗式训练的强大泛化能力,对纯净的目标语音信号进行了预测评估,生成器模型参考时序TCN模型的评估结果,对混合源单信道语音信号加以掩码,转换为对目标语音信号的拟合,实现了对混合源单信道语音信号的端到端增强处理。
与现有技术相比,本发明的有益效果是:
本发明网络能实现从混合源语音到目标语音信号的端到端处理,网络的增强性能优秀,能良好还原目标语音信号,同时提升了数据处理的并行处理能力,并能通过自身的数据增广丰富样本集,提升模型性能。
附图说明
图1是本发明的总体技术路线。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明设计并实现了一种基于可度量生成对抗网络和时序TCN模型的单信道目标语音增强方法,为单信道语音增强研究引入了新的度量损失,并通过对语音数据增广功能的兼容实现了对目标语音增强性能更进一步的提升。
本发明解决技术问题所采用的技术方案包括如下内容:一种基于生成对抗网络和时序TCN网络的端到端语音增强框架,利用深度TCN模型端到端还原过程构建混合源语音到目标纯净源语音的预测评估,并在对抗式训练过程中将非梯度的语音客观度量指标纳入到模型总体的损失计算当中,旨在通过生成对抗网络结合语音指标评估实现对单信道带噪混合源语音的目标语音增强,同时借助度量评估的自定义设置进行数据的增广拓充,从而能进一步优化模型的目标语音增强效果。
(1)语音信号的预处理与特征转换。
语音信号是时序的波形信号,为了获取更多的特征信息,传统方法将语音信号转换为对应的时频域语谱图。但时频域语谱图信息在增强处理过程中存在着固有的相位信息缺失问题,这导致了增强得到的目标语音信号其质量与可感知性存在着一个受限制的上界。
为了规避因相位缺失导致的增强性能受限问题,本发明引入了时间潜在域信息,借助将时序波形信息通过深度学习框架拓展映射到对应潜在空间域的过程及其逆向变换,学习到了同时隐含有相位信息与语谱能量信息的潜在域特征,突破了语谱图信息作用于增强任务时的性能限制。因此,本发明在现有工作基础上进一步探索了不同数据空间域对语音增强任务的影响,并成功规避了传统的相位缺失问题。
(2)基于生成信号权重的目标函数。
本发明利用生成信号的权重信息指导了整个对抗训练的过程,在原始对抗训练的基础上更进一步探索了对语音客观指标的近似,实现了将非梯度信息应用于梯度训练的过程。
原始的生成对抗网络目标函数为
这个目标函数实际是是基于KL散度设计的最大最小博弈函数。本发明提出的基于生成对抗网络的单信道语音增强模型采用的目标函数基于最小二乘思想,依据混合源单信道语音信号和目标单信道语音信号数据分布的皮尔森卡方散度重新设计了目标函数:
此处的xc指代作为条件约束的混合源单信道语音信号。在卷积自编码器生成器G的目标函数中额外引入L1范数,目的是借由L1范数的过拟合惩罚机制调整卷积自编码生成器G的参数学习过程,使其泛化性能得到提升。此时对抗网络的判别器优化过程可看作对于数据空间的0-1分类优化,认为1代表真实数据空间,而0代表生成信号空间,但这分类思想忽视了增强训练过程中生成器性能的提升过程,致使训练后期判别器性能受损。
为解决这一问题,本发明更进一步尝试采用深度近似评估的方法,使得判别器获取对语音客观度量评价指标的近似拟合,实现将非梯度的语音客观指标Metric纳入深度学习梯度训练的过程,丰富了语音增强的损失计算方式。
判别器对于度量过程的近似拟合不仅仅将非梯度的语音评价指标纳入到了模型整体的梯度训练当中,更使得对抗式训练的过程不再局限于生成器网络与判别器网络完全的对立条件上,而是通过判别器近似拟合的度量给出每一个训练迭代过程中生成器输出的增强语音信号的客观评价,再通过客观评价与目标评价之间的差距进一步更新优化整体网络的参数,更加贴近单信道增强语音信号与原始的单信道混合源信号间的数据空间分布联系,并考虑到了生成器性能随着训练不断获得优化的实际进程,优化了对抗学习的梯度更新策略。
至此,本发明中可度量的生成对抗网络结构摆脱了传统生成对抗网络的梯度消失缺陷,并取得了更加接近实际问题数据空间分布的训练过程。与此同时,通过对于生成器损失函数中目标度量评价的调整,本发明的可度量生成对抗网络模型还可用于数据增广过程,进而丰富训练数据样本集,通过更多样化的数据样本训练达成目标语音增强性能的进一步提升。
本发明中的生成器网络通过采用时序的TCN模型,优化了对增强语音信号的时序语意信息的还原,并且使得数据的并行处理成为了可能,缩减了模型对数据传递预处理过程的等待时间。
(3)时序TCN模型。
为更好的获取增强语音信号的时序信息,保证增强信号的内在语意逻辑,本发明引入了时序的TCN网络模型。在本发明的总体流程当中,时序TCN模型作为生成器的重要组成部分,时序TCN模型的输入为经过处理后的语音特征信息,借助对抗式训练的强大泛化能力,对纯净的目标语音信号进行了预测评估。
生成器模型则参考时序TCN模型的评估结果,对混合源单信道语音信号加以掩码,转换为对目标语音信号的拟合,实现了对混合源单信道语音信号的端到端增强处理。与此同时,时序的TCN模型相比传统方法所采用的LSTM模型具有更好的并行计算能力,这使得本发明中的总体模型训练更为容易,数据传递处理的过程更加方便快捷,混合源语音样本通过该网络得到目标语音增强结果的过程将更接近于实时处理过程的需求。
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011376572.1A CN112562707A (zh) | 2020-11-30 | 2020-11-30 | 一种单信道目标语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011376572.1A CN112562707A (zh) | 2020-11-30 | 2020-11-30 | 一种单信道目标语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562707A true CN112562707A (zh) | 2021-03-26 |
Family
ID=75045614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011376572.1A Pending CN112562707A (zh) | 2020-11-30 | 2020-11-30 | 一种单信道目标语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562707A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299300A (zh) * | 2021-05-18 | 2021-08-24 | 广州大学 | 一种语音增强方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
WO2019004592A1 (ko) * | 2017-06-27 | 2019-01-03 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
CN110060699A (zh) * | 2019-05-21 | 2019-07-26 | 哈尔滨工程大学 | 一种基于深度稀疏展开的单信道语音分离方法 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN111954904A (zh) * | 2018-04-16 | 2020-11-17 | 三菱电机株式会社 | 用于转换输入音频信号的音频信号处理系统及方法 |
-
2020
- 2020-11-30 CN CN202011376572.1A patent/CN112562707A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019004592A1 (ko) * | 2017-06-27 | 2019-01-03 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN111954904A (zh) * | 2018-04-16 | 2020-11-17 | 三菱电机株式会社 | 用于转换输入音频信号的音频信号处理系统及方法 |
CN110060699A (zh) * | 2019-05-21 | 2019-07-26 | 哈尔滨工程大学 | 一种基于深度稀疏展开的单信道语音分离方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
Non-Patent Citations (3)
Title |
---|
FU S W: ""MetricGAN: Generative Adversarial Networks based Black-box Metric Scores Optimization for Speech Enhancement"", 《IEEE》 * |
JU LIN: ""Improved Speech Enhancement using a Time-Domain GAN with Mask Learning"", 《INTERSPEECH》 * |
褚伟: ""基于条件深度卷积生成对抗网络的语音增强模型研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299300A (zh) * | 2021-05-18 | 2021-08-24 | 广州大学 | 一种语音增强方法、装置及存储介质 |
CN113299300B (zh) * | 2021-05-18 | 2023-09-26 | 广州大学 | 一种语音增强方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement | |
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
KR20180127171A (ko) | 지식 브리지를 이용한 학생 교사 전송 학습 네트워크를 위한 장치 및 방법 | |
CN105489227A (zh) | 包括低延时声源分离单元的听力装置 | |
JP2022529641A (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
CN107564538A (zh) | 一种实时语音通信的清晰度增强方法及系统 | |
CN107967920A (zh) | 一种改进的自编码神经网络语音增强算法 | |
CN109448751B (zh) | 一种基于深度学习的双耳语音增强方法 | |
WO2022012206A1 (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN113192504B (zh) | 一种基于域适应的无声语音攻击检测方法 | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
CN112562707A (zh) | 一种单信道目标语音增强方法 | |
Saleem et al. | Multi-objective long-short term memory recurrent neural networks for speech enhancement | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
Ying et al. | Characteristics of human auditory model based on compensation of glottal features in speech emotion recognition | |
Shahid et al. | Voicefind: Noise-resilient speech recovery in commodity headphones | |
CN112466327B (zh) | 语音处理方法、装置和电子设备 | |
Kashani et al. | Speech Enhancement via Deep Spectrum Image Translation Network | |
CN112562702B (zh) | 基于循环帧序列门控循环单元网络的语音超分辨率方法 | |
Chun et al. | Comparison of cnn-based speech dereverberation using neural vocoder | |
CN114023352A (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
Popović et al. | Speech Enhancement Using Augmented SSL CycleGAN | |
Gil-Pita et al. | Enhancing the energy efficiency of wireless-communicated binaural hearing aids for speech separation driven by soft-computing algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210326 |