CN114842864B - 一种基于神经网络的短波信道信号分集合并方法 - Google Patents

一种基于神经网络的短波信道信号分集合并方法 Download PDF

Info

Publication number
CN114842864B
CN114842864B CN202210409128.8A CN202210409128A CN114842864B CN 114842864 B CN114842864 B CN 114842864B CN 202210409128 A CN202210409128 A CN 202210409128A CN 114842864 B CN114842864 B CN 114842864B
Authority
CN
China
Prior art keywords
voice
signal
path
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210409128.8A
Other languages
English (en)
Other versions
CN114842864A (zh
Inventor
刘翠婷
陈延涛
郑小莲
何坤阳
董彬虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210409128.8A priority Critical patent/CN114842864B/zh
Publication of CN114842864A publication Critical patent/CN114842864A/zh
Application granted granted Critical
Publication of CN114842864B publication Critical patent/CN114842864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Radio Transmission System (AREA)

Abstract

该发明公开了一种基于神经网络的短波信道信号分集合并方法,属于信号处理领域。本发明提出将卷积神经网络和注意力机制应用于短波语音信号分集合并方法中,通过卷积神经网络对信息进行压缩和提取,再使用注意力机制对卷积神经网络输出的信息进行逐帧处理,得到每帧对应的权重,使得合并权重能够根据输入信号的特征信息进行动态分配,不需要使用复杂的信噪比估计算法,从而避免了估计信噪比过程中产生的误差;同时本发明能够应用于各种短波分集合并场景,无需对合并方法进行选择,所取得的效果优于传统的分集合并方法。

Description

一种基于神经网络的短波信道信号分集合并方法
技术领域
本发明属于通信领域,涉及一种基于神经网络的短波信道信号分集合并方法。
背景技术
无线短波信道通信是一种常见的通信手段,在紧急通信、军事通信以及无线电通信中广泛使用。通过电离层短波信道可以以较低的成本进行长距离的无线通信,因此短波通信具有低成本和高灵活性的特点。但由于短波信道带宽较低,信号经过调制以及上变频后以模拟信号的方式发送,而短波信道具有快速变化、频率选择性的特点,经过长距离的传输后接收到的短波信号质量往往较差,严重影响信号的特征信息。因此,可以利用多路分集接收技术来提高通信系统的接收质量和性能。
多路分集接收技术是两个或两个以上的接收端采用相同或不同的接收方法对同一信号进行接收,利用多路衰落独立的接收信号,对其进行处理,用以提高通信的抗衰落能力。传统的分集合并方式主要包括等增益合并,选择合并和最大比合并这三种方法,等增益合并性能较好且易于实现,但当各支路接收信号之间的质量相差较大时,性能明显下降;选择合并只利用其中一路信号的信息,舍弃了其它支路的有效信息,对信息的利用率较低;最大比合并性能最好但复杂度较高,需要先估计出较为准确的信噪比,这在无先验信息的短波接收语音信号中存在不可避免的误差,且无法确保当前段在每一个时间点均符合此段计算出的信噪比,故合并性能仍有提升空间。
近年来,随着深度学习的快速发展和广泛应用,基于深度学习的信号增强方法成为主要研究方向。目前,信号增强技术通常关注单路接收信号的增强处理,对于多路接收信号的分集合并方法研究较少,因此对多路接收信号的改善有限。
发明内容
本发明针对背景技术的缺陷,创造性地提出了一种基于卷积神经网络和注意力机制的分集合并方法,用于辅助信号增强,引入深度学习完成多路接收信号的分集合并,提高多路短波信号的合并性能。
首先确定发明所适用的多路短波信号通信模型。以短波语音信号为例,发射端获得语音信号样本后,会使用现有的语音增强技术消除背景环境噪声,然后进行SSB调制,并上变频到短波频段发射,发射信号通过短波信道到达远端的接收机,接收机收到多路独立的短波语音信号,对多路信号分别进行下变频和SSB解调后,执行接收信号语音增强,再通过合并网络进行分集合并处理,从而实现本发明的发明目的。
本发明技术方案为一种基于神经网络的短波信道信号分集合并方法,该方法包括神经网络训练阶段和语音合并阶段;
所述神经网络训练阶段方法为:
步骤1:通过纯净语音数据集xtrain构造多路含有信道衰落以及加性噪声的短波语音数据集
Figure BDA0003603009560000021
/>
Figure BDA0003603009560000022
其中,
Figure BDA0003603009560000023
表示第j路独立的衰落短波信道,*表示卷积,/>
Figure BDA0003603009560000024
表示第j路独立指定信噪比的加性噪声;将得到的短波语音数据集/>
Figure BDA0003603009560000025
和纯净语音数据集xtrain分别经过短时傅里叶变换进行特征提取,获得各路短波语音信号的幅度谱数据集/>
Figure BDA0003603009560000026
和纯净语音的幅度谱数据集|Xtrain|;将各路幅度谱数据集作为合并网络的输入信号,|Xtrain|作为目标,进行合并网络训练,最终获得具有分集合并功能的神经网络模型,由此完成训练;
所述语音合并阶段方法为:
步骤2:对各路短波信号进行下变频和模拟单边带解调后,再分别对各路语音信号做语音增强,对增强后的各路语音进行短时傅里叶变换,提取其特征信息,相位信息为
Figure BDA0003603009560000027
幅度谱分别为/>
Figure BDA0003603009560000028
步骤3:将步骤2中的幅度谱
Figure BDA0003603009560000029
按照通道维度进行拼接,作为步骤1中分集合并模型的输入,实现利用更多的语音信息,以此移除信道衰落的部分影响;此外,使用注意力机制结构来计算第j路幅度谱的权重wj,首先对各路幅度谱/>
Figure BDA00036030095600000210
按照通道维度进行拼接,得到输入Y,对Y的频率维度取均值得到YGAP,再连续使用两个1×1卷积对YGAP进行处理,最终得到各路语音信号对应的合并权重/>
Figure BDA00036030095600000211
上述两个1×1卷积分别表示为/>
Figure BDA00036030095600000212
Figure BDA00036030095600000213
其中σ是取值范围为(0,1)区间内的常数;
Figure BDA00036030095600000214
Figure BDA00036030095600000215
其中,T为总帧数,H为频点维度,t表示第t帧,Ci表示输入通道总数,h表示第h个频点,b表示第b个批次,φ表示线性整流激活函数;最后根据第j路幅度谱
Figure BDA0003603009560000031
拼接前的通道维度大小,来获得各路语音信号对应的合并权重/>
Figure BDA0003603009560000032
步骤4:将步骤3所得各路语音信号的合并权重
Figure BDA0003603009560000033
分别与对应语音信号幅度谱
Figure BDA0003603009560000034
加权,获得分集合并后的语音幅度谱/>
Figure BDA0003603009560000035
步骤5:根据步骤3中获得的各路语音信号的合并权重
Figure BDA0003603009560000036
进行逐帧比较,保留当前帧权重wjf最大的语音信号相位谱/>
Figure BDA0003603009560000037
wjf表示第j路语音信号的第f帧的权重,再将分集合并后的语音幅度谱/>
Figure BDA0003603009560000038
对应帧的幅度谱与相位谱/>
Figure BDA0003603009560000039
相乘,从而获得最终的合并语音/>
Figure BDA00036030095600000310
由此完成两路短波语音信号分集合并。
进一步地,上述使用的神经网络模型包括5层卷积层和2层全连接层,使用每路语音信号的幅度谱作为输入层的输入特征图,使用对应纯净语音的幅度谱作为目标;所述5层卷积层的参数表示为{卷积核大小,卷积层输入通道数,卷积层输出通道数,(卷积横向步长,卷积纵向步长)},第1层参数具体表示为{(5×1),2,64,(2,1)},第2层和第4层参数具体表示为{(3×1),64,64,(2,1)},第5层参数具体表示为{(3×1),64,192,(2,1)};卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小},五层卷积层依次具体表示为{65×64×200},{33×64×200},{17×64×200},{9×64×200},{5×192×200};所述全连接层的参数表示为{输入特征数,输出特征数},则第1层参数具体表示为{960,192},第2层参数具体表示为{192,129},两个全连接层之间使用PReLU作为激活函数。
本发明的主要特点在于:提出将卷积神经网络和注意力机制应用于短波语音信号分集合并方法中,通过卷积神经网络对信息进行压缩和提取,再使用注意力机制对卷积神经网络输出的信息进行逐帧处理,得到每帧对应的权重,使得合并权重能够根据输入信号的特征信息进行动态分配,不需要使用复杂的信噪比估计算法,从而避免了估计信噪比过程中产生的误差;同时本发明能够应用于各种短波分集合并场景,无需对合并方法进行选择,所取得的效果优于传统的分集合并方法。
附图说明
图1为本发明适用的短波语音通信模型的简化框图;
图2为本发明在接收端的分集合并网络处理流程图;
图3为本发明所用分集合并神经网络结构框架。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
数据集和仿真参数设置如下:
本发明实施例采用TIMIT数据集对分集合并网络进行训练和测试,该数据集包含了由630名发音人员构成的6300条音频(70%为男性)。选择其中的4620条音频作为训练数据xtrain,另外1680条作为测试数据xtest
训练数据xtrain添加的噪声类型为短波噪声,指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB,每个SNR下的音频数目为1500,即总共9000条音频用于训练。
测试数据xtest所选噪声类型为短波噪声,指定噪声SNR为0dB。
所有音频数据采样率为8kHz,使用汉明窗进行加窗分帧操作,帧长为256样本,帧移为128样本。
卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练,每一个小批次(mini-batch)的大小为8,每10个训练周期(epoch)减小一半学习率。
评价指标:语音质量感知指标(Perceptual evaluation of speech quality,PESQ),该指标的量化区间为-0.5~4.5,分数越高,表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI),该指标的量化区间为0~1,可使用百分比的形式表示,分数越高代表语音质量越好。
具体实施例包括以下步骤:
步骤1:将上述TIMIT语音训练数据集xtrain构造两路含有信道衰落以及加性噪声的短波语音数据集
Figure BDA0003603009560000041
和/>
Figure BDA0003603009560000042
Figure BDA0003603009560000043
Figure BDA0003603009560000044
其中,
Figure BDA0003603009560000045
和/>
Figure BDA0003603009560000046
分别表示两路独立的衰落短波信道,*表示卷积,/>
Figure BDA0003603009560000047
和/>
Figure BDA0003603009560000048
表示两路独立指定信噪比的加性噪声。从而获得9000条总时长约为10小时的含有信道衰落的短波语音/>
Figure BDA0003603009560000049
和/>
Figure BDA00036030095600000410
以及纯净语音xtrain,将得到的短波语音数据集/>
Figure BDA00036030095600000411
和/>
Figure BDA00036030095600000412
和纯净语音数据集xtrain分别经过短时傅里叶变换进行特征提取,获得两路短波语音信号的幅度谱数据集/>
Figure BDA0003603009560000051
和/>
Figure BDA0003603009560000052
和纯净语音的幅度谱数据集|Xtrain|;将/>
Figure BDA0003603009560000053
和/>
Figure BDA0003603009560000054
作为合并网络的输入信号,|Xtrain|作为目标,进行合并网络训练,最终获得具有分集合并功能的神经网络模型,由此完成训练;
步骤2:将上述TIMIT语音数据集测试语音经过所设短波信道,添加指定信噪比AWGN噪声,获得两路待增强的接收语音信号
Figure BDA0003603009560000055
和/>
Figure BDA0003603009560000056
Figure BDA0003603009560000057
Figure BDA0003603009560000058
其中
Figure BDA0003603009560000059
和/>
Figure BDA00036030095600000510
为未在训练集中出现的测试信道。将/>
Figure BDA00036030095600000511
和/>
Figure BDA00036030095600000512
做STFT进行特征提取获得其相位信息和幅度谱信息,其中相位信息为/>
Figure BDA00036030095600000513
和/>
Figure BDA00036030095600000514
幅度谱信息为/>
Figure BDA00036030095600000515
Figure BDA00036030095600000516
转入步骤3.
步骤3:将步骤1所获得的分集合并网络模型处理步骤2所获得的待增强短波语音信息幅度谱
Figure BDA00036030095600000517
和/>
Figure BDA00036030095600000518
作为输入信号,实现利用更多的语音信息,以此移除信道衰落的部分影响;此外,使用注意力机制结构来计算权重w,首先对幅度谱/>
Figure BDA00036030095600000519
和/>
Figure BDA00036030095600000520
按照第2个维度进行拼接,得到输入Y,对Y的每个频率维度取均值得到YGAP∈RB×C×1×T,再连续使用两个1×1卷积对YGAP进行处理,最终得到通道分支参数z(CH)∈RB×C×1×T,所述的两个卷积分别表示为
Figure BDA00036030095600000521
和/>
Figure BDA00036030095600000522
其中σ是取值范围为(0,1)区间内的常数。
Figure BDA00036030095600000523
Figure BDA00036030095600000524
其中,T为总帧数,H为频点维度,t表示第t帧,h表示第h个频点,b表示第b个批次,φ表示线性整流激活函数,将z(CH)沿着第2个维度复制H次,规整后的形式为
Figure BDA00036030095600000525
最后根据幅度谱/>
Figure BDA00036030095600000526
和/>
Figure BDA00036030095600000527
拼接前的第2个维度的大小,来获得两路语音信号对应的合并权重w1和w2
步骤4:将步骤3所得两路语音信号的每帧的合并权重w1和w2分别与对应语音信号幅度谱
Figure BDA0003603009560000061
和/>
Figure BDA0003603009560000062
相乘相加,获得分集合并后的语音幅度谱/>
Figure BDA0003603009560000063
转入步骤5.
步骤5:根据步骤3中获得的两路语音信号的每帧的合并权重w1和w2,进行逐帧比较,保留当前帧权重w最大的语音信号相位谱
Figure BDA0003603009560000064
再将分集合并后的语音幅度谱/>
Figure BDA0003603009560000065
对应帧的幅度谱与相位谱/>
Figure BDA0003603009560000066
相乘,从而获得最终的合并语音/>
Figure BDA0003603009560000067
由此完成两路短波语音信号分集合并。
与本发明的方法对比的有:。
表1
Figure BDA0003603009560000068
实验对比结果表示,本发明相比等增益分集合并算法,语音质量有着较为明显的提升。

Claims (2)

1.一种基于神经网络的短波信道信号分集合并方法,该方法包括神经网络训练阶段和语音合并阶段;
所述神经网络训练阶段方法为:
步骤1:通过纯净语音数据集xtrain构造多路含有信道衰落以及加性噪声的短波语音数据集
Figure FDA0003603009550000011
Figure FDA0003603009550000012
其中,
Figure FDA0003603009550000013
表示第j路独立的衰落短波信道,*表示卷积,/>
Figure FDA0003603009550000014
表示第j路独立指定信噪比的加性噪声;将得到的短波语音数据集/>
Figure FDA0003603009550000015
和纯净语音数据集xtrain分别经过短时傅里叶变换进行特征提取,获得各路短波语音信号的幅度谱数据集/>
Figure FDA0003603009550000016
和纯净语音的幅度谱数据集|Xtrain|;将各路幅度谱数据集作为合并网络的输入信号,|Xtrain|作为目标,进行合并网络训练,最终获得具有分集合并功能的神经网络模型,由此完成训练;
所述语音合并阶段方法为:
步骤2:对各路短波信号进行下变频和模拟单边带解调后,再分别对各路语音信号做语音增强,对增强后的各路语音进行短时傅里叶变换,提取其特征信息,相位信息为
Figure FDA0003603009550000017
幅度谱分别为/>
Figure FDA0003603009550000018
步骤3:将步骤2中的幅度谱
Figure FDA0003603009550000019
按照通道维度进行拼接,作为步骤1中分集合并模型的输入,实现利用更多的语音信息,以此移除信道衰落的部分影响;此外,使用注意力机制结构来计算第j路幅度谱的权重wj,首先对各路幅度谱/>
Figure FDA00036030095500000110
按照通道维度进行拼接,得到输入Y,对Y的频率维度取均值得到YGAP,再连续使用两个1×1卷积对YGAP进行处理,最终得到各路语音信号对应的合并权重/>
Figure FDA00036030095500000111
上述两个1×1卷积分别表示为/>
Figure FDA00036030095500000112
Figure FDA00036030095500000113
其中σ是取值范围为(0,1)区间内的常数;
Figure FDA00036030095500000114
Figure FDA00036030095500000115
其中,T为总帧数,H为频点维度,t表示第t帧,Ci表示输入通道总数,h表示第h个频点,b表示第b个批次,φ表示线性整流激活函数;最后根据第j路幅度谱
Figure FDA0003603009550000021
拼接前的通道维度大小,来获得各路语音信号对应的合并权重/>
Figure FDA0003603009550000022
步骤4:将步骤3所得各路语音信号的合并权重
Figure FDA0003603009550000023
分别与对应语音信号幅度谱/>
Figure FDA0003603009550000024
加权,获得分集合并后的语音幅度谱/>
Figure FDA0003603009550000025
/>
步骤5:根据步骤3中获得的各路语音信号的合并权重
Figure FDA0003603009550000026
进行逐帧比较,保留当前帧权重wjf最大的语音信号相位谱/>
Figure FDA0003603009550000027
wjf表示第j路语音信号的第f帧的权重,再将分集合并后的语音幅度谱/>
Figure FDA0003603009550000028
对应帧的幅度谱与相位谱/>
Figure FDA0003603009550000029
相乘,从而获得最终的合并语音/>
Figure FDA00036030095500000210
由此完成两路短波语音信号分集合并。
2.如权利要求1所述的一种基于神经网络的短波信道信号分集合并方法,其特征在于,所述神经网络模型包括5层卷积层和2层全连接层,使用每路语音信号的幅度谱作为输入层的输入特征图,使用对应纯净语音的幅度谱作为目标;所述5层卷积层的参数表示为{卷积核大小,卷积层输入通道数,卷积层输出通道数,(卷积横向步长,卷积纵向步长)},第1层参数具体表示为{(5×1),2,64,(2,1)},第2层和第4层参数具体表示为{(3×1),64,64,(2,1)},第5层参数具体表示为{(3×1),64,192,(2,1)};卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小},五层卷积层依次具体表示为{65×64×200},{33×64×200},{17×64×200},{9×64×200},{5×192×200};所述全连接层的参数表示为{输入特征数,输出特征数},则第1层参数具体表示为{960,192},第2层参数具体表示为{192,129},两个全连接层之间使用PReLU作为激活函数。
CN202210409128.8A 2022-04-19 2022-04-19 一种基于神经网络的短波信道信号分集合并方法 Active CN114842864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210409128.8A CN114842864B (zh) 2022-04-19 2022-04-19 一种基于神经网络的短波信道信号分集合并方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210409128.8A CN114842864B (zh) 2022-04-19 2022-04-19 一种基于神经网络的短波信道信号分集合并方法

Publications (2)

Publication Number Publication Date
CN114842864A CN114842864A (zh) 2022-08-02
CN114842864B true CN114842864B (zh) 2023-05-23

Family

ID=82565541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210409128.8A Active CN114842864B (zh) 2022-04-19 2022-04-19 一种基于神经网络的短波信道信号分集合并方法

Country Status (1)

Country Link
CN (1) CN114842864B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2889804A1 (en) * 2013-12-30 2015-07-01 Alcatel Lucent Systems and methods for contactless speech recognition
CN109147759A (zh) * 2018-10-09 2019-01-04 电子科技大学 一种基于打分算法的短波话音信号分集合并接收方法
WO2021013345A1 (en) * 2019-07-24 2021-01-28 Huawei Technologies Co., Ltd. Audio processing apparatus and method for denoising a multi-channel audio signal
CN112634927A (zh) * 2020-12-03 2021-04-09 电子科技大学 一种短波信道语音增强方法
CN112634926A (zh) * 2020-11-24 2021-04-09 电子科技大学 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112992121A (zh) * 2021-03-01 2021-06-18 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN113160839A (zh) * 2021-04-16 2021-07-23 电子科技大学 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
KR102316712B1 (ko) * 2021-01-21 2021-10-22 한양대학교 산학협력단 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
CN113936679A (zh) * 2021-09-23 2022-01-14 电子科技大学 一种基于信息蒸馏与聚合的低信噪比语音增强方法
CN113936680A (zh) * 2021-10-08 2022-01-14 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN114144790A (zh) * 2020-06-12 2022-03-04 百度时代网络技术(北京)有限公司 具有三维骨架正则化和表示性身体姿势的个性化语音到视频

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
US11392833B2 (en) * 2020-02-13 2022-07-19 Soundhound, Inc. Neural acoustic model

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2889804A1 (en) * 2013-12-30 2015-07-01 Alcatel Lucent Systems and methods for contactless speech recognition
CN109147759A (zh) * 2018-10-09 2019-01-04 电子科技大学 一种基于打分算法的短波话音信号分集合并接收方法
WO2021013345A1 (en) * 2019-07-24 2021-01-28 Huawei Technologies Co., Ltd. Audio processing apparatus and method for denoising a multi-channel audio signal
CN114144790A (zh) * 2020-06-12 2022-03-04 百度时代网络技术(北京)有限公司 具有三维骨架正则化和表示性身体姿势的个性化语音到视频
CN112634926A (zh) * 2020-11-24 2021-04-09 电子科技大学 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112634927A (zh) * 2020-12-03 2021-04-09 电子科技大学 一种短波信道语音增强方法
KR102316712B1 (ko) * 2021-01-21 2021-10-22 한양대학교 산학협력단 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
CN112992121A (zh) * 2021-03-01 2021-06-18 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN113160839A (zh) * 2021-04-16 2021-07-23 电子科技大学 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
CN113936679A (zh) * 2021-09-23 2022-01-14 电子科技大学 一种基于信息蒸馏与聚合的低信噪比语音增强方法
CN113936680A (zh) * 2021-10-08 2022-01-14 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的深度循环神经网络的语音情感识别;蒯红权 等;电子器件;第45卷(第1期);139-142 *

Also Published As

Publication number Publication date
CN114842864A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
US7181402B2 (en) Method and apparatus for synthetic widening of the bandwidth of voice signals
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
KR100304666B1 (ko) 음성 향상 방법
CN108735213A (zh) 一种基于相位补偿的语音增强方法及系统
CN112634926B (zh) 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN110010148B (zh) 一种低复杂度的频域盲分离方法及系统
CN102549659A (zh) 抑制音频信号中的噪声
CN102576542A (zh) 从窄频带信号确定上频带信号
CN114242099A (zh) 基于改进相位谱补偿和全卷积神经网络的语音增强算法
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN115497496B (zh) 一种基于FirePS卷积神经网络的语音增强方法
CN112634927B (zh) 一种短波信道语音增强方法
Haneche et al. Compressed sensing-speech coding scheme for mobile communications
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
CN104616665B (zh) 基于语音类似度的混音方法
CN115700882A (zh) 一种基于卷积自注意力编码结构的语音增强方法
CN110970044A (zh) 一种面向语音识别的语音增强方法
CN114842864B (zh) 一种基于神经网络的短波信道信号分集合并方法
CN113160839A (zh) 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
US20240071411A1 (en) Determining dialog quality metrics of a mixed audio signal
CN115713943A (zh) 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法
US20080219473A1 (en) Signal processing method, apparatus and program
CN115273884A (zh) 基于频谱压缩和神经网络的多阶段全频带语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant