CN112634927B - 一种短波信道语音增强方法 - Google Patents
一种短波信道语音增强方法 Download PDFInfo
- Publication number
- CN112634927B CN112634927B CN202011404180.1A CN202011404180A CN112634927B CN 112634927 B CN112634927 B CN 112634927B CN 202011404180 A CN202011404180 A CN 202011404180A CN 112634927 B CN112634927 B CN 112634927B
- Authority
- CN
- China
- Prior art keywords
- neural network
- speech
- short
- amplitude spectrum
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 230000001629 suppression Effects 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims description 55
- 238000005562 fading Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 25
- 238000003062 neural network model Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 11
- 238000013507 mapping Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000005433 ionosphere Substances 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
Abstract
该发明公开了一种短波信道语音增强方法,属于通信技术领域。本发明提出将神经网络应用于短波通信语音降噪模块,并根据Anti‑fading Net和Denoising Net的性能需求与特点,选择了相同的基于映射的卷积神经网络,能取得更好的噪声抑制效果;将卷积神经网络降噪模型Denoising Net与现有的经典非监督语音增强算法OMLSA结合,以等增益合并的方式,保留两种算法降噪的优势,从而提高单独使用Denoising Net或OMLSA算法的降噪语音质量;第三,本发明通过堆叠两个结构简单的卷积神经网络,取得了比一般的复杂结构神经网络更好的降噪效果。
Description
技术领域
本发明属于通信技术领域,涉及一种神经网络结合非监督算法的短波语音增强方法。
背景技术
短波通信通过电离层实现远距离通信,是应急和军事通信不可或缺的最后通信手段,同时由于其通信设备的低成本和高灵活性也深受业余无线电爱好者的欢迎。由于电离层的时变特性,短波实时可通频段很窄,语音信号通常采用模拟单边带(Single-sideband,SSB)调制方式,经过长距离传输后接收到的语音信号质量往往较差,严重影响听觉舒适度;由于SSB信号无法采用数字信号处理的方法对抗短波信道传输中的衰落、噪声,因此只有对短波接收语音进行增强处理,才能得到高质量的语音信号。
语音增强是语音信号处理的重要环节,其主要任务是移除、削弱语音信号中的背景噪声,以提高语音信号的质量和可懂度。早期的语音增强算法主要以非监督学习算法为主,包括谱减法,非负矩阵分解(Nonnegative matrix factorization,NMF)算法以及基于统计模型的方法等,这些算法在大多数环境下都能够发挥一定的作用,具有较好的泛化性能,但难以处理性质与算法假设条件不匹配的噪声以及非平稳环境下的噪声。此外,语音增强技术通常假设信道是理想的,但在电离层短波信道环境下这种假设是不成立的,需要通过信道均衡以消除信道的影响,从而避免语音信号因信噪比过低,而淹没在噪声中被增强算法清除的情况发生。
近年来,随着深度学习的快速发展和广泛运用,基于深度学习的语音增强方法成为语音增强的主要研究方向,这类方法主要有基于掩蔽、基于映射以及端到端三类,基于映射的方法在低信噪比下比较有效,而基于掩蔽的方法在高信噪比下性能更佳,端到端的方法似乎更有发展潜力,但其计算量更大,并且往往需要复杂的模型结构。
发明内容
本发明针对背景技术的缺陷,引入深度学习完成噪声抑制和信道衰落补偿,提出了一种新型的神经网络结合非监督算法的短波信道语音增强方法。使用一个神经网络执行抗衰落处理以移除短波信道对语音信号的影响,使用另一个神经网络结合非监督增强算法执行噪声抑制处理以尽可能估计出发送的纯净语音信号。
本发明适用的短波语音通信的简化框图如图1所示。发射端通过麦克风获得语音信号后,使用现有的语音增强技术消除背景环境噪声,然后采用SSB调制并上变频到短波频段发射,发射信号通过电离层短波信道到达发射机,发射机接收到信号后,进行下变频和SSB解调后,执行本发明所提语音增强模块,最后得到增强后的语音信号。
本发明技术方案为一种短波信道语音增强方法,该方法包括神经网络训练阶段(步骤1~3),和语音增强阶段(步骤4~9);所述步骤神经网络训练阶段包括如下步骤:
其中,htrain表示衰落短波信道,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声,“*”表示卷积;将纯净语音数据集xtrain、衰落短波语音数据集和含噪语音数据集经过短时傅里叶变换(Short time Fourier transform,STFT)进行特征提取,获得相应语音信号的幅度谱数据集|Xtrain|、和转入步骤2;
步骤2:训练衰落补偿卷积神经网络模型(Anti-fading Net),将步骤1所得的衰落短波语音幅度谱数据集作为输入信号,将含噪语音幅度谱数据集作为目标,进行卷积神经网络训练,最终获得具有抗衰落神经网络模型Anti-fading Net,转入步骤3;
步骤3:训练噪声抑制卷积神经网络模型(Denoising Net),将步骤1所得的含噪语音幅度谱数据集作为输入信号,纯净语音幅度谱数据集|Xtrain|作为目标,进行卷积神经网络训练,最终获得具有噪声抑制神经网络模型Denoising Net,转入步骤4;
所述语音增强阶段包括如下步骤:
步骤6:使用最优修正对数谱估计(optimally-modifed log-spectralamplitude,OMLSA)非监督算法处理步骤5所得的语音信号幅度谱获得该方法增强的语音信号幅度谱转入步骤7;
转入步骤9;
进一步地,上述使用的抗衰落和噪声抑制卷积神经网络结构相同,输入和目标不同;两者都包含4个卷积层和1个全连接层,使用连续的11帧幅度谱作为输入层的输入特征图,使用第6帧语音的幅度谱作为目标。
进一步地,所述4层卷积层的参数表示为{卷积核大小,卷积层通道数,卷积步长},前3层参数具体表示为{(5×1),64,(2,1)},第4层卷积层参数具体为{(5×1),192,(2,1)};4层卷积层的输出特征图表示为(特征图尺寸×特征图数量×训练批次(Batch)大小),依次具体表示为(65×64×200),(33×64×200),(17×64×200)和(9×192×200);所述全连接层的神经元数目为1024,使用PReLU作为激活函数。
本发明的主要特点在于:第一,创新性地提出将神经网络应用于短波通信语音降噪模块,并根据Anti-fading Net和Denoising Net的性能需求与特点,选择了相同的基于映射的卷积神经网络,能取得更好的噪声抑制效果;第二,创新性地将卷积神经网络降噪模型Denoising Net与现有的经典非监督语音增强算法OMLSA结合,以等增益合并的方式,保留两种算法降噪的优势,从而提高单独使用Denoising Net或OMLSA算法的降噪语音质量;第三,本发明通过堆叠两个结构简单的卷积神经网络,取得了比一般的复杂结构神经网络更好的降噪效果。
附图说明
图1为本发明适用的短波语音通信模型的结构框图;
图2为本发明在接收端的处理流程图,包括训练阶段和语音增强阶段;
图3为本发明方法采用的卷积神经网络结构图。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
数据集和仿真参数设置如下:
本发明实施例采用TIMIT数据集对神经网络进行训练和测试,该数据集包含了由630名发音人员构成的6300条音频(70%为男性)。选择其中的4620条音频作为训练数据xtrain,另外1680条作为测试数据xtest。
训练数据xtrain所选短波信道为ITU-R F.1487中纬度干扰信道;指定AWGN噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB,每个SNR下的音频数目为1500,即总共9000条音频用于训练。
测试数据xtest所选短波信道也为上述训练数据采用瑞利信道,指定AWGN噪声SNR为0dB,5dB和10dB。
所有音频数据采样率为16kHz,使用汉明窗进行加窗分帧操作,帧长为256样本,帧移为128样本。
卷积神经网络使用adam optimizer以1e-5的学习率对模型进行训练,训练轮次使用均方误差(mean-square error,MSE),mini-batch的大小为200。
评价指标:语音质量感知指标(PESQ,Perceptual evaluation of speechquality),分数越高,表示语音质量越好。
具体实施例包括以下步骤:
其中ntrain为指定信噪比的加性噪声,“*”表示卷积。从而获得9000条衰落短波语音数据集xtrain和含噪语音数据集将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Short time Fourier transform,STFT)进行特征提取,获得相应语音信号的幅度谱数据集和|Xtrain|,转入步骤2.
步骤2:训练衰落补偿卷积神经网络模型(Anti-fading Net),将步骤1所得的衰落短波语音幅度谱数据集作为输入信号,将含噪语音幅度谱数据集作为目标,按照上述所设参数进行卷积神经网络训练,最终获得具有抗衰落功能的神经网络模型Anti-fading Net,转入步骤3.
步骤3:训练噪声抑制卷积神经网络模型(Denoising Net),将步骤1所得的含噪语音幅度谱数据集作为输入信号,纯净语音幅度谱数据集|Xtrain|作为目标,按照上述所设参数进行卷积神经网络训练,最终获得具有噪声抑制功能的神经网络模型DenoisingNet,转入步骤4.
步骤4:将上述TIMIT语音测试数据集xtest经过所设短波信道,添加指定信噪比AWGN噪声,获得待增强的接收语音ytest
ytest=htest*xtest+ntest
步骤6:使用经典的最优修正对数谱估计(optimally-modifed log-spectralamplitude,OMLSA)非监督算法处理步骤5所得的语音信号幅度谱获得该方法增强的语音信号幅度谱转入步骤7.
转入步骤9.
与本发明的方法对比的有:短波语音不经过增强处理(unprocessed),使用现有非监督算法OMLSA,以及本发明所用方法(AF-CNN+NS-CNN+OMLSA)。如下表1所示,为不同方法在不同噪声上对于PESQ指标的测试结果。
表1
实验对比结果表示,本发明相比现有的非监督语音增强算法,显著提高了增强语音质量。
Claims (3)
1.一种短波信道语音增强方法,该方法包括神经网络训练阶段,和语音增强阶段;所述神经网络训练阶段包括如下步骤:
其中,htrain表示衰落短波信道,xtrain表示纯净语音数据集,ntrain为指定信噪比的加性噪声,“*”表示卷积;将纯净语音数据集xtrain、衰落短波语音数据集和含噪语音数据集经过短时傅里叶变换进行特征提取,获得相应语音信号的幅度谱数据集|Xtrain|、和转入步骤2;
步骤2:训练衰落补偿卷积神经网络模型,将步骤1所得的衰落短波语音幅度谱数据集作为输入信号,将含噪语音幅度谱数据集作为目标,进行卷积神经网络训练,最终获得具有抗衰落神经网络模型Anti-fading Net,转入步骤3;
步骤3:训练噪声抑制卷积神经网络模型,将步骤1所得的含噪语音幅度谱数据集作为输入信号,纯净语音幅度谱数据集|Xtrain|作为目标,进行卷积神经网络训练,最终获得具有噪声抑制神经网络模型Denoising Net,转入步骤4;
所述语音增强阶段包括如下步骤:
转入步骤9;
2.如权利要求1所述的一种短波信道语音增强方法,其特征在于,所述抗衰落神经网络模型Anti-fading Net和噪声抑制神经网络模型Denoising Net的结构相同;两者都包含4个卷积层和1个全连接层,使用连续的11帧幅度谱作为输入层的输入特征图,使用第6帧语音的幅度谱作为目标。
3.如权利要求2所述的一种短波信道语音增强方法,其特征在于,所述4个卷积层的参数表示为{卷积核大小,卷积层通道数,卷积步长},前3层参数具体表示为{(5×1),64,(2,1)},第4个卷积层参数具体为{(5×1),192,(2,1)};4层卷积层的输出特征图表示为(特征图尺寸×特征图数量×训练批次大小),依次具体表示为(65×64×200),(33×64×200),(17×64×200)和(9×192×200);所述全连接层的神经元数目为1024,使用PReLU作为激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404180.1A CN112634927B (zh) | 2020-12-03 | 2020-12-03 | 一种短波信道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404180.1A CN112634927B (zh) | 2020-12-03 | 2020-12-03 | 一种短波信道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634927A CN112634927A (zh) | 2021-04-09 |
CN112634927B true CN112634927B (zh) | 2022-07-29 |
Family
ID=75308196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011404180.1A Active CN112634927B (zh) | 2020-12-03 | 2020-12-03 | 一种短波信道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634927B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842864B (zh) * | 2022-04-19 | 2023-05-23 | 电子科技大学 | 一种基于神经网络的短波信道信号分集合并方法 |
CN114842863B (zh) * | 2022-04-19 | 2023-06-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2385492A (en) * | 2002-02-18 | 2003-08-20 | Key Mouse Electronic Entpr Co | Apparatus and method for testing micropower short-wave frequency modulated digital radio transceivers |
CN109087657A (zh) * | 2018-10-17 | 2018-12-25 | 成都天奥信息科技有限公司 | 一种应用于超短波电台的语音增强方法 |
CN109147759A (zh) * | 2018-10-09 | 2019-01-04 | 电子科技大学 | 一种基于打分算法的短波话音信号分集合并接收方法 |
CN109379311A (zh) * | 2018-09-30 | 2019-02-22 | 中国人民解放军战略支援部队信息工程大学 | 基于卷积神经网络的超短波特定信号识别方法 |
CN110661734A (zh) * | 2019-09-20 | 2020-01-07 | 西安交通大学 | 基于深度神经网络的信道估计方法、设备和可读存储介质 |
EP3699825A2 (en) * | 2019-02-22 | 2020-08-26 | Ubotica Technologies Ltd. | Systems and methods for deploying and updating neural networks at the edge of a network |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2867891B1 (en) * | 2012-06-28 | 2016-12-28 | ANT - Advanced Network Technologies OY | Processing and error concealment of digital signals |
-
2020
- 2020-12-03 CN CN202011404180.1A patent/CN112634927B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2385492A (en) * | 2002-02-18 | 2003-08-20 | Key Mouse Electronic Entpr Co | Apparatus and method for testing micropower short-wave frequency modulated digital radio transceivers |
CN109379311A (zh) * | 2018-09-30 | 2019-02-22 | 中国人民解放军战略支援部队信息工程大学 | 基于卷积神经网络的超短波特定信号识别方法 |
CN109147759A (zh) * | 2018-10-09 | 2019-01-04 | 电子科技大学 | 一种基于打分算法的短波话音信号分集合并接收方法 |
CN109087657A (zh) * | 2018-10-17 | 2018-12-25 | 成都天奥信息科技有限公司 | 一种应用于超短波电台的语音增强方法 |
EP3699825A2 (en) * | 2019-02-22 | 2020-08-26 | Ubotica Technologies Ltd. | Systems and methods for deploying and updating neural networks at the edge of a network |
CN110661734A (zh) * | 2019-09-20 | 2020-01-07 | 西安交通大学 | 基于深度神经网络的信道估计方法、设备和可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Supervised speech separation based on deep;D.Wang,et al.;《IEEE/ACM Trans. Audio, Speech, Language》;IEEE;20181031;第26卷(第10期);全文 * |
基于卷积神经网络的超短波特定信号谱图识别;杨司韩等;《系统工程与电子技术》;中国知网;20190129;第41卷(第4期);全文 * |
短波话音增强合并技术研究;崔亚笛等;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;中国学术期刊(光盘版)电子杂志社;20191215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112634927A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR0175965B1 (ko) | 통신 시스템에서의 송신 노이즈 감축 | |
US7555075B2 (en) | Adjustable noise suppression system | |
CN112634926B (zh) | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 | |
US8010355B2 (en) | Low complexity noise reduction method | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN105513605A (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN112634927B (zh) | 一种短波信道语音增强方法 | |
CN105280193B (zh) | 基于mmse误差准则的先验信噪比估计方法 | |
US20110125490A1 (en) | Noise suppressor and voice decoder | |
CN107680609A (zh) | 一种基于噪声功率谱密度的双通道语音增强方法 | |
CN114242099A (zh) | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN114694670A (zh) | 一种基于多任务网络的麦克风阵列语音增强系统及方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
JPH10161694A (ja) | 帯域分割型雑音低減方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
CN115083431A (zh) | 回声的消除方法、装置、电子设备及计算机可读介质 | |
Chen et al. | A hybrid deep-learning approach for single channel HF-SSB speech enhancement | |
CN114842864B (zh) | 一种基于神经网络的短波信道信号分集合并方法 | |
Rao et al. | Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |