CN112634926A - 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 - Google Patents
一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 Download PDFInfo
- Publication number
- CN112634926A CN112634926A CN202011328103.2A CN202011328103A CN112634926A CN 112634926 A CN112634926 A CN 112634926A CN 202011328103 A CN202011328103 A CN 202011328103A CN 112634926 A CN112634926 A CN 112634926A
- Authority
- CN
- China
- Prior art keywords
- voice
- short
- fading
- wave
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005562 fading Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000003595 spectral effect Effects 0.000 abstract description 3
- 238000013179 statistical model Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000005433 ionosphere Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
Abstract
该发明公开了一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法,属于通信技术领域,特别是抗短波衰落的语音增强辅助方法。首先定义发明所适用的短波语音通信模型。发射端获得语音信号样本后,会使用现有的语音增强技术消除背景环境噪声,然后进行SSB调制,并上变频到短波频段发射,发射信号通过短波信道到达远端的接收机,在进行下变频和SSB解调后执行接收信号语音增强,从而实现本发明的发明目的。本发明抗衰落卷积神经网络可用于辅助大部分基于语音特征提取的语音增强算法,进一步提高短波接收语音信号的质量,例如可以与背景技术中阐述的谱减法,基于统计模型的方法和NMF算法等相结合。
Description
技术领域
本发明属于通信技术领域,特别是抗短波衰落的语音增强辅助方法。
背景技术
无线短波信道语音通信是一种常见的通信手段,在紧急通信、军事通信以及无线电通信中广泛使用。通过电离层短波信道可以以较低的成本进行长距离的无线通信,因此短波通信具有低成本和高灵活性的特点。但由于短波信道带宽较低,语音信号往往在进行模拟单边带(Single-side band,SSB)调制后以模拟信号的方式发送。短波信道具有快速变化、频率选择性的特点,以及信号经过长距离传输后的大尺度能量损耗,接收到的短波语音信号质量往往较差,严重影响听觉舒适度。因此,需要对短波语音接收信号进行增强处理,以得到高质量的语音信号。
语音增强是语音信号处理的重要环节,其主要任务是移除或者削弱噪声语音信号中的背景噪声,以提高语音信号的质量和可懂度;现有的语音增强技术通常假设信道是理想的,例如谱减法,基于统计模型的方法和非负矩阵分解(Nonnegative matrixfactorization,NMF)算法等,但在电离层短波信道环境下这往往无法满足,尤其是当深衰落发生时,语音信号会因为信噪比过低,被淹没在噪声中而被增强算法完全清除,因此需要消除信道的影响以取得较好的增强效果。
目前,在短波语音通信的语音增强技术通常关注多路接收信号的分集合并,以及对多普勒频偏的修正。对于单路接收语音信号的增强处理研究较少,倾向于直接采用现有的语音增强方法,因此对单路接收语音信号的改善有限。
发明内容
本发明针对背景技术的缺陷,创造性地提出了一种基于卷积神经网络的抗衰落方法用于辅助语音增强,引入深度学习完成衰落补偿,以尽可能移除短波信道的影响,从而实现更为有效的短波语音增强。
首先定义发明所适用的短波语音通信模型。发射端获得语音信号样本后,会使用现有的语音增强技术消除背景环境噪声,然后进行SSB调制,并上变频到短波频段发射,发射信号通过短波信道到达远端的接收机,在进行下变频和SSB解调后执行接收信号语音增强,从而实现本发明的发明目的。
本发明技术方案为一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法,该方法包括神经网络训练阶段(步骤1)和语音增强阶段(步骤2~5);
其中神经网络训练阶段的具体方法为:
其中,htrain表示衰落短波信道,“*”表示卷积,ntrain为指定信噪比的加性噪声;将得到的短波语音数据集和含噪语音数据集分别经过短时傅里叶变换进行特征提取,获得短波语音信号的幅度谱数据集和含噪语音信号幅度谱数据集
所述语音增强阶段的具体方法为:
从而获得降噪后的语音信号幅度谱|Xtest|;
进一步地,所述使用的卷积神经网络包含4个卷积层和1个全连接层,使用连续的11帧幅度谱作为输入层的输入特征图,使用第6帧纯净语音的幅度谱作为目标;所述4层卷积层的参数表示为{卷积核大小,卷积层通道数,(卷积横向步长,卷积纵向步长)},前3层参数具体表示为{(5×1),64,(2,1)},第4层卷积层参数具体为{(5×1),192,(2,1)};卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小},四层卷积层依次具体表示为{65×64×200},{33×64×200},{17×64×200}和{9×192×200};所述全连接层的神经元数目为1024,使用PReLU作为激活函数。
本发明的主要特点在于:第一,提出将抗信道衰落模块用于辅助实现短波语音增强,移除了信道对语音信号的影响,同时将该模块放在降噪模块之前,是为了避免在降噪过程中,由于短波信道深衰落导致噪声淹没信号,从而使改信号被降噪算法完全清除的损失;第二,提出使用神经网络进行抗衰落处理,并根据抗衰落的性能要求和参数特征,设计出基于映射的卷积神经网络,并移除池化层,通过连续使用卷积层实现数据压缩和特征提取,同时只保留一个全连接层以加快训练速度;第三,本发明的抗衰落卷积神经网络可用于辅助大部分基于语音特征提取的语音增强算法,进一步提高短波接收语音信号的质量,例如可以与背景技术中阐述的谱减法,基于统计模型的方法和NMF算法等相结合。
附图说明
图1为本发明适用的短波语音通信模型的简化框图;
图2为本发明在接收端的语音增强处理流程图;
图3为本发明所用卷积神经网络结构框架。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
数据集和仿真参数设置如下:
本发明实施例采用TIMIT数据集对神经网络进行训练和测试,该数据集包含了由630名发音人员构成的6300条音频。选择其中的4620条音频作为训练数据xtrain,另外1680条作为测试数据xtest。
训练数据所选短波信道为ITU-R F.1487中纬度干扰信道;指定AWGN噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB,每个SNR下的音频数目为1500,即总共9000条音频用于训练。
测试数据所选短波信道也为上述训练数据采用瑞利信道,指定AWGN噪声SNR为0dB,5dB和10dB。
所有音频数据采样率为16kHz,使用Hamming windows进行加窗分帧操作,帧长和帧移分别为256和128样本。
本发明实施例降噪模块采用经典的最优修正对数谱估计(optimally-modifedlog-spectral amplitude,OMLSA)非监督算法。
评价指标:语音质量感知指标(PESQ,Perceptual evaluation of speechquality),分数越高,表示语音质量越好。
具体实施例包括以下步骤:
其中ntrain为指定信噪比的加性噪声,“*”表示卷积。从而获得9000条总时长约为10小时的含有信道衰落的短波语音和含噪语音短波语音数据集和含噪语音数据集经过短时傅里叶变换(Short time Fourier transform,STFT)进行特征提取。特征提取获得的短波语音信号幅度谱数据集作为输入信号,含噪语音信号幅度谱数据集作为目标,使用adam optimizer以1e-5的学习率对卷积神经网络模型训练,训练epochs数目固定为45,使用均方误差(MSE)作为目标函数。最终获得具有抗衰落功能的卷积神经网络模型Anti-fading Net,由此完成训练,转入步骤2。
步骤2:将上述TIMIT语音数据集测试语音经过所设短波信道,添加指定信噪比AWGN噪声,获取到待增强的接收语音信号ytest
ytest=htest*xtest+ntest
与本发明的方法对比的有:短波语音不经过增强处理(unprocessed),只经过OMLSA降噪模块(OMLSA),以及本发明使用抗衰落卷积神经网络(AF-CNN)辅助OMLAS降噪模块(OMLSA)实现语音增强。如下表1所示,为不同模型在不同噪声上对于PESQ指标的测试结果。
表1
实验对比结果表示,使用了基于卷积神经网络的抗衰落模块(AF-CNN)辅助语音增强后,语音质量有了较为显著的提升。
Claims (2)
1.一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法,该方法包括神经网络训练阶段和语音增强阶段;
其中神经网络训练阶段的具体方法为:
其中,htrain表示衰落短波信道,“*”表示卷积,ntrain为指定信噪比的加性噪声;将得到的短波语音数据集和含噪语音数据集分别经过短时傅里叶变换进行特征提取,获得短波语音信号的幅度谱数据集和含噪语音信号幅度谱数据集
所述语音增强阶段的具体方法为:
从而获得降噪后的语音信号幅度谱|Xtest|;
2.如权利要求1所述的一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法,其特征在于,所述使用的卷积神经网络包含4个卷积层和1个全连接层,使用连续的11帧幅度谱作为输入层的输入特征图,使用第6帧纯净语音的幅度谱作为目标;所述4层卷积层的参数表示为{卷积核大小,卷积层通道数,(卷积横向步长,卷积纵向步长)},前3层参数具体表示为{(5×1),64,(2,1)},第4层卷积层参数具体为{(5×1),192,(2,1)};卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小},四层卷积层依次具体表示为{65×64×200},{33×64×200},{17×64×200}和{9×192×200};所述全连接层的神经元数目为1024,使用PReLU作为激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328103.2A CN112634926B (zh) | 2020-11-24 | 2020-11-24 | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328103.2A CN112634926B (zh) | 2020-11-24 | 2020-11-24 | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634926A true CN112634926A (zh) | 2021-04-09 |
CN112634926B CN112634926B (zh) | 2022-07-29 |
Family
ID=75303884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011328103.2A Expired - Fee Related CN112634926B (zh) | 2020-11-24 | 2020-11-24 | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634926B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283829A (zh) * | 2021-12-13 | 2022-04-05 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN114842863A (zh) * | 2022-04-19 | 2022-08-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
CN114842864A (zh) * | 2022-04-19 | 2022-08-02 | 电子科技大学 | 一种基于神经网络的短波信道信号分集合并方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104991A (en) * | 1998-02-27 | 2000-08-15 | Lucent Technologies, Inc. | Speech encoding and decoding system which modifies encoding and decoding characteristics based on an audio signal |
US20030233233A1 (en) * | 2002-06-13 | 2003-12-18 | Industrial Technology Research Institute | Speech recognition involving a neural network |
CN103632676A (zh) * | 2013-11-12 | 2014-03-12 | 广州海格通信集团股份有限公司 | 一种低信噪比语音降噪方法 |
US20180262277A1 (en) * | 2017-03-07 | 2018-09-13 | Ohio State Innovation Foundation | Data delivery using acoustic transmissions |
CN109147759A (zh) * | 2018-10-09 | 2019-01-04 | 电子科技大学 | 一种基于打分算法的短波话音信号分集合并接收方法 |
CN110659684A (zh) * | 2019-09-23 | 2020-01-07 | 中国人民解放军海军航空大学 | 一种基于卷积神经网络stbc信号识别方法 |
-
2020
- 2020-11-24 CN CN202011328103.2A patent/CN112634926B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104991A (en) * | 1998-02-27 | 2000-08-15 | Lucent Technologies, Inc. | Speech encoding and decoding system which modifies encoding and decoding characteristics based on an audio signal |
US20030233233A1 (en) * | 2002-06-13 | 2003-12-18 | Industrial Technology Research Institute | Speech recognition involving a neural network |
CN103632676A (zh) * | 2013-11-12 | 2014-03-12 | 广州海格通信集团股份有限公司 | 一种低信噪比语音降噪方法 |
US20180262277A1 (en) * | 2017-03-07 | 2018-09-13 | Ohio State Innovation Foundation | Data delivery using acoustic transmissions |
CN109147759A (zh) * | 2018-10-09 | 2019-01-04 | 电子科技大学 | 一种基于打分算法的短波话音信号分集合并接收方法 |
CN110659684A (zh) * | 2019-09-23 | 2020-01-07 | 中国人民解放军海军航空大学 | 一种基于卷积神经网络stbc信号识别方法 |
Non-Patent Citations (4)
Title |
---|
ARJUN GHULE: "Performance evaluation of frequency dependent speech signal fading under noisy environment for ASR using correlation technique", 《2017 INTERNATIONAL CONFERENCE ON ENERGY, COMMUNICATION, DATA ANALYTICS AND SOFT COMPUTING (ICECDS)》 * |
H. XING: "Single sideband frequency offset estimation and correction for quality enhancement and speaker recognition", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
李燕萍: "非特定人的语音识别系统研究", 《中国优秀硕士学位论文全文数据库》 * |
杨骐溪: "基于深度学习的信号分析方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283829A (zh) * | 2021-12-13 | 2022-04-05 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN114283829B (zh) * | 2021-12-13 | 2023-06-16 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN114842863A (zh) * | 2022-04-19 | 2022-08-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
CN114842864A (zh) * | 2022-04-19 | 2022-08-02 | 电子科技大学 | 一种基于神经网络的短波信道信号分集合并方法 |
CN114842864B (zh) * | 2022-04-19 | 2023-05-23 | 电子科技大学 | 一种基于神经网络的短波信道信号分集合并方法 |
CN114842863B (zh) * | 2022-04-19 | 2023-06-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112634926B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634926B (zh) | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US8983844B1 (en) | Transmission of noise parameters for improving automatic speech recognition | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
KR100304666B1 (ko) | 음성 향상 방법 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN102652336B (zh) | 声音信号复原装置以及声音信号复原方法 | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN112509593B (zh) | 一种语音增强网络模型、单通道的语音增强方法及系统 | |
CN107680609A (zh) | 一种基于噪声功率谱密度的双通道语音增强方法 | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
CN114242099A (zh) | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 | |
CN112634927B (zh) | 一种短波信道语音增强方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN110808059A (zh) | 一种基于谱减法和小波变换的语音降噪方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
CN107045874A (zh) | 一种基于相关性的非线性语音增强方法 | |
CN111210835B (zh) | 一种基于听觉模型和信源方位的多通路语音降噪方法 | |
CN101625870B (zh) | Ans方法和装置、提高监控系统音频质量的方法和系统 | |
CN116798434A (zh) | 一种基于人声特质的通信增强方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220729 |