CN119296566B - 一种基于语义通信的远程语音增强传输方法及系统 - Google Patents

一种基于语义通信的远程语音增强传输方法及系统 Download PDF

Info

Publication number
CN119296566B
CN119296566B CN202411845049.7A CN202411845049A CN119296566B CN 119296566 B CN119296566 B CN 119296566B CN 202411845049 A CN202411845049 A CN 202411845049A CN 119296566 B CN119296566 B CN 119296566B
Authority
CN
China
Prior art keywords
semantic
layer
speech
channel
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202411845049.7A
Other languages
English (en)
Other versions
CN119296566A (zh
Inventor
刘月照
王景润
郭海燕
郭延民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202411845049.7A priority Critical patent/CN119296566B/zh
Publication of CN119296566A publication Critical patent/CN119296566A/zh
Application granted granted Critical
Publication of CN119296566B publication Critical patent/CN119296566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了语音信号传输处理技术领域的一种基于语义通信的远程语音增强传输方法及系统,系统包括:本地发送端,用于:对待增强的含噪语音信号进行短时傅里叶变换后,利用语义编码器对含噪语音信号频谱进行语义特征提取;然后利用信道编码器对语音语义特征进行维度调整;最后通过信道传输至远程接收端;远程接收端,用于:接收通过信道传输过来的语音语义特征信号;利用信道解码器对接收到的语音语义特征信号进行维度恢复后,利用语义解码器进行语义解码得到预测纯净语音信号的实部与虚部,最后进行逆短时傅里叶变换得到重构语音信号。本发明可以在节约通信资源的情况下,显著提高远程接收端在低信噪比信道传输条件下恢复的纯净语音质量。

Description

一种基于语义通信的远程语音增强传输方法及系统
技术领域
本发明涉及一种基于语义通信的远程语音增强传输方法及系统,属于语音信号处理传输技术领域。
背景技术
在传统的语音增强系统中,发送端需要将整段语音发送至接收端,这导致传输的数据往往多于终端任务所需的数据,制约了传输效率,造成了传输资源的浪费。另一方面,语音信号在传输过程中容易受到信道噪声的影响,尤其是在低信噪比情况下,接收端几乎无法从接收到的语音信号中恢复出纯净语音。
语义通信是一种深度学习与无线通信深度结合的全新通信架构,它通过将用户对信息的需求及语义融入通信过程,能够大幅度提高通信效率,且显著提升低信噪比信道条件下的信号传输质量。作为一种新颖的通信范式,语义通信是指在发送端利用神经网络对语义信息进行提取和编码,在接收端从语义的角度对信息进行还原。
得益于深度学习技术的发展,通过设计合理的语义通信模型,能够高效地提取和恢复数据的语义信息,同时降低信道噪声对于传输数据的干扰,并且能大大提高通信系统的传输效率,节省通信资源。
发明内容
目的:鉴于以上技术问题中的至少一项,本申请提供一种基于语义通信的远程语音增强传输方法及系统,可以在节约通信资源的情况下,显著提高远程接收端在低信噪比信道传输条件下恢复的纯净语音质量。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供一种基于语义通信的远程语音增强传输系统,包括:
本地发送端,用于:
对待增强的含噪语音信号进行短时傅里叶变换STFT,得到含噪语音信号频谱;
利用语义编码器对所述含噪语音信号频谱进行语义特征提取,得到语音语义特征;
利用信道编码器对所述语音语义特征进行维度调整,得到维度调整后的语音语义特征信号;
将维度调整后的语音语义特征信号通过信道传输至远程接收端;
远程接收端,用于:
接收通过信道传输过来的语音语义特征信号;
利用信道解码器对接收到的语音语义特征信号进行维度恢复,得到维度恢复后的语音语义特征;
利用语义解码器对维度恢复后的语音语义特征进行语义解码得到预测纯净语音信号的实部与虚部;
根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换ISTFT,得到重构语音信号。
在一些实施例中,所述语义编码器包括依次连接的第一卷积层、扩张密集卷积网络DenseNet、第二卷积层以及多个时频Conformer模块;
所述第一卷积层包括依次连接的一个步长为1、卷积核大小为1的一维卷积层、一个通道数为64的归一化层和PReLU激活函数层,用于扩展含噪语音信号频谱的通道数;
所述扩张密集卷积网络DenseNet由4个膨胀因子不同的空洞卷积层组成,4个空洞卷积层的膨胀因子分别为1、2、4、8,每个空洞卷积层包括依次连接的一个步长为1,卷积核大小为2×3的一维空洞卷积层、一个通道数为64的归一化层和一个PReLU激活函数层;所述扩张密集卷积网络DenseNet用于聚合第一卷积层得到的所有特征图,以提取不同层次的语音特征;
所述第二卷积层包括依次连接的一个步长为2、卷积核大小为1×3的一维卷积层、一个通道数为64的归一化层和PReLU激活函数层;所述第二卷积层用于将频率维度减半,以降低复杂度;
所述时频卷积增强变换器Conformer模块包括依次连接的第一维度变换层、一个时域Conformer网络、第一残差连接层、第二维度变换层、一个频域Conformer网络、第二残差连接层和第三维度变换层,所述时频Conformer模块用于捕获语音特征的时间依赖性和频率依赖性,得到语音语义特征。
进一步地,所述时域Conformer网络与所述频域Conformer网络结构相同,均包括依次连接的第一前馈神经网络、多头注意力机制、一维卷积层、第二前馈神经网络和正则化层。
在一些实施例中,所述语义编码器的处理过程包括:
将所述含噪语音信号频谱的实部、虚部与幅度串联作为语义编码器的输入,通过第一卷积层将含噪语音信号频谱的实部、虚部与幅度三个输入特征扩展为具有C个通道的中间特征图;所述中间特征图通过扩张密集卷积网络DenseNet中残差连接的空洞卷积层,在保留层数的同时增加感受野,聚合所有先前的特征图,以提取不同尺度的特征;然后通过第二卷积层将不同尺度的特征的频率维度F减半至F/2,以降低复杂度;最后通过时频Conformer模块依次提取F/2维度特征的时间依赖性和频率依赖性,得到语音语义特征。
在一些实施例中,所述信道编码器包括依次连接的一个步长为1、卷积核大小为1的一维卷积层和一个维度变换层,用于改变语音语义特征的维度形状以适用于信道传输。
在一些实施例中,接收通过信道传输过来的语音语义特征信号,包括:
其中,为接收到的语音语义特征信号,为信道参数,为维度调整后的语音 语义特征信号,表示高斯噪声,其中表示高斯噪声函数,表示 每个信道高斯噪声的方差,表示单位矩阵。进一步的,所述信道的信噪比为0~10dB。
在一些实施例中,所述信道解码器包括依次连接的一个重塑层和一个步长为1、卷积核大小为1的一维卷积层,用于对接收到的语音语义特征信号进行维度恢复。
在一些实施例中,所述语义解码器包括依次连接的扩张密集卷积网络DenseNet、上采样层和第三卷积层;
所述扩张密集卷积网络DenseNet由4个膨胀因子不同的空洞卷积层组成,4个空洞卷积层的膨胀因子分别为1、2、4、8,每个空洞卷积层包括依次连接的一个步长为1,卷积核大小为2×3的一维空洞卷积层、一个通道数为64的归一化层和一个PReLU激活函数层,所述扩张密集卷积网络DenseNet用于聚合语义特征;所述上采样层用于恢复频率维度;所述第三卷积层包括依次连接一个一维卷积层和归一化层,用于将通道数压缩。
在一些实施例中,所述语义解码器的处理过程包括:
将恢复维度后的语音语义特征作为语义解码器的输入,通过扩张密集卷积网络DenseNet聚合多个特征图;然后通过上采样层将语义特征的频率维度上采样回频率F;最后通过第三卷积层将通道数压缩为1,并且得到预测纯净语音信号的实部与虚部。
在一些实施例中,对所述语义编码器、信道编码器、信道解码器、语义解码器进行预训练,所述预训练方法包括:
将纯净语音数据集中的纯净语音信号与噪声集中的噪声信号按照一定信噪比进行混合,并以对应的纯净语音信号作为真实标签,得到带标签的含噪语音数据集;
将所述含噪语音数据集分成训练数据集和验证数据集;
在每一轮训练时,以训练数据集作为待训练的远程语音增强传输系统输入,重构语音信号作为输出,对所述语义编码器、信道编码器、信道解码器、语义解码器进行训练,在训练过程中,以均方误差作为损失函数,采用随机梯度下降,并使用AdamW优化器对参数进行调整,得到训练完成的远程语音增强传输系统;
在每一轮训练完成后,以验证数据集作为输入,重构语音信号作为输出对语音增强系统进行测试,并计算纯净语音信号与重构语音信号的客观语音质量评估PESQ和短时客观可懂度STOI的值,根据PESQ和STOI的性能指标对超参数进行调整,并继续下一轮训练,直至达到预设训练次数,得到预训练后的语义编码器、信道编码器、信道解码器和语义解码器。
第二方面,本发明提供一种基于语义通信的远程语音增强传输方法,包括:
本地发送端执行以下步骤:
对待增强的含噪语音信号进行短时傅里叶变换STFT,得到含噪语音信号频谱;
利用语义编码器对所述含噪语音信号频谱进行语义特征提取,得到语音语义特征;
利用信道编码器对所述语音语义特征进行维度调整,得到维度调整后的语音语义特征信号;
将维度调整后的语音语义特征信号通过信道传输至远程接收端;
远程接收端执行以下步骤:
接收通过信道传输过来的语音语义特征信号;
利用信道解码器对接收到的语音语义特征信号进行维度恢复,得到维度恢复后的语音语义特征;
利用语义解码器对维度恢复后的语音语义特征进行语义解码得到预测纯净语音信号的实部与虚部;
根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换ISTFT,得到重构语音信号。
有益效果:本发明在本地发送端完成对语音信号的语义特征的提取,然后通过无线信道对语义特征信息进行传输,可以有效地减少传输的数据量,节约通信资源。同时,通过神经网络对语义信息进行提取和恢复,能够极大程度地降低信道噪声对于传输信号的影响,保证了低信噪比下重构的语音质量。
附图说明
图1为本发明实施例的基于语义通信的远程语音增强传输系统的示意图;
图2为本发明实施例中不同方法在高斯信道下的PESQ值;
图3为本发明实施例中不同方法在高斯信道下的STOI值;
图4为本发明实施例中时频Conformer模块的网络结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本申请的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符"/",一般表示前后关联对象是一种“或”的关系。
实施例1:如图1所示,本实施例提供一种基于语义通信的远程语音增强传输系统,包括:本地发送端编码和远程接收端解码两部分。
本地发送端,用于:
对待增强的含噪语音信号进行短时傅里叶变换STFT,得到含噪语音信号频谱;
利用语义编码器对所述含噪语音信号频谱进行语义特征提取,得到语音语义特征;
利用信道编码器对所述语音语义特征进行维度调整,得到维度调整后的语音语义特征信号;
将维度调整后的语音语义特征信号通过信道传输至远程接收端;
远程接收端,用于:
接收通过信道传输过来的语音语义特征信号;
利用信道解码器对接收到的语音语义特征信号进行维度恢复,得到维度恢复后的语音语义特征;
利用语义解码器对维度恢复后的语音语义特征进行语义解码得到预测纯净语音信号的实部与虚部;
根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换ISTFT,得到重构语音信号。
语义编码器包括依次连接的第一卷积层、扩张密集卷积网络DenseNet、第二卷积层以及4个时频Conformer模块。
在本实施例中,第一卷积层依次包括一个步长为1、卷积核大小为1的一维卷积层、一个通道数为64的归一化层和PReLU激活函数层,用于扩展含噪语音信号频谱的通道数。
在本实施例中,扩张密集卷积网络DenseNet由4个膨胀因子不同的空洞卷积层组成,4个空洞卷积层的膨胀因子分别为1、2、4、8;每个空洞卷积层包括依次连接的一个步长为1,卷积核大小为2×3的一维空洞卷积层、一个通道数为64的归一化层和一个PReLU激活函数层。所述扩张密集卷积网络DenseNet用于聚合第一卷积层得到的所有特征图,以提取不同层次的语音特征。
在本实施例中,第二卷积层依次包括一个步长为2、卷积核大小为1×3的一维卷积层、一个通道数为64的归一化层和PReLU激活函数层。所述第二卷积层用于将频率维度减半,以降低复杂度。
在本实施例中,如图4所示,所述时频卷积增强变换器(Convolution-augmentedtransformer,Conformer)Conformer模块包括依次连接的第一维度变换层、一个时域Conformer网络、第一残差连接层、第二维度变换层、一个频域Conformer网络、第二残差连接层和第三维度变换层。所述时频Conformer模块用于捕获语音特征的时间依赖性和频率依赖性,得到语音语义特征。
所述时域Conformer网络依次包括第一前馈神经网络、多头注意力机制、一维卷积层、第二前馈神经网络和正则化层;
所述频域Conformer网络与时域Conformer网络结构相同。
所述语义编码器的处理过程包括:
将所述含噪语音信号频谱的实部、虚部与幅度串联作为语义编码器的输入,通过第一卷积层将三个输入特征(含噪语音信号频谱的实部、虚部与幅度)扩展为具有C个通道的中间特征图;随后所述中间特征图通过扩张密集卷积网络DenseNet中残差连接的空洞卷积层,在保留层数的同时,增加感受野,有效地聚合所有先前的特征图,以提取不同尺度的特征;然后通过第二卷积层将不同尺度的特征的频率维度F减半至F/2,以降低复杂度;最后通过时频Conformer模块依次提取特征的时间依赖性和频率依赖性,从而完成语义特征提取任务,得到语音语义特征。
对语音语义特征进行维度调整以使其适合信道传输,具体通过信道编码器实现,所述信道编码器包括依次连接的一个步长为1、卷积核大小为1的一维卷积层和一个维度变换层。
语义编码器和信道编码器的处理过程表达式如下:
其中,为含噪语音信号频谱,为参数为的语义编码器,为参数为的信道编码器,为维度调整后的语音语义特征信号。
最后将维度调整后的语音语义特征信号通过信道传输至远程接收端。
远程接收端解码过程包括以下步骤:
接收本地发送端传输的维度调整后的语音语义特征信号,其接收到的语音语义特征信号表示为:
其中,为接收到的语音语义特征信号,为信道参数,为维度调整后的语音 语义特征信号,表示高斯噪声,其中表示高斯噪声函数,表示每 个信道高斯噪声的方差,表示单位矩阵。
对维度调整后的语音语义特征信号进行维度恢复,其通过一个信道解码器实现,所述信道解码器包括依次连接的一个重塑层和一个步长为1、卷积核大小为1的一维卷积层。
恢复维度后的语音语义特征由语义解码器接收以进行预测,得到预测纯净语音信号的实部与虚部。所述语义解码器包括依次连接的扩张密集卷积网络DenseNet、上采样层和第三卷积层。其中,扩张密集卷积网络DenseNet的结构与语义编码器中的扩张密集卷积网络DenseNet结构相同,上采样层负责将频率维度上采样回F,第三卷积层依次包括一个步长为1、卷积核大小为1×2的一维卷积层和一个通道数为2的归一化层。
所述语义解码器的处理过程包括:
将恢复维度后的语音语义特征作为语义解码器的输入,通过扩张密集卷积网络DenseNet有效地聚合多个特征图;然后通过上采样层将语义特征的频率维度上采样回F;最后通过第三卷积层将通道数压缩为1,并且得到预测纯净语音信号的实部与虚部。
信道解码器和语义解码器的处理表达式如下:
其中,为预测纯净语音信号的实部与虚部,表示参数为的信道解码器,表示参数为的语义解码器,为接收到的语音语义特征信号。
根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换ISTFT得到重构语音信号,完成语音增强任务。
对所述语义编码器、信道编码器、信道解码器、语义解码器进行预训练,所述预训练方法包括:
将纯净语音数据集中的纯净语音信号与噪声集中的噪声信号按照一定信噪比进行混合,并以对应的纯净语音信号作为真实标签,得到带标签的含噪语音数据集;
将所述含噪语音数据集分成训练数据集和验证数据集;
在每一轮训练时,以训练数据集作为待训练的远程语音增强传输系统输入,重构语音信号作为输出,对所述语义编码器、信道编码器、信道解码器、语义解码器进行训练,在训练过程中,以均方误差作为损失函数,采用随机梯度下降,并使用AdamW优化器对参数进行调整,得到训练完成的远程语音增强传输系统;
在每一轮训练完成后,以验证数据集作为输入,重构语音信号作为输出对语音增强系统进行测试,并计算纯净语音信号与重构语音信号的客观语音质量评估PESQ和短时客观可懂度STOI的值,根据PESQ和STOI的性能指标对超参数进行调整,并继续下一轮训练,直至达到预设训练次数,得到预训练后的语义编码器、信道编码器、信道解码器和语义解码器。
下面结合具体应用实施例对基于语义通信的远程语音增强传输方法及系统进行说明:
将本发明与传统方案进行性能对比,使用Voice Bank数据集中的测试集作为纯净语音,测试集种包含2个说话人的824条语音。使用NoiseX-92作为噪声集,噪声集种包含15种环境噪声。对于测试集中的每条纯净语音,随机从噪声集中选取一种噪声进行加噪,信噪比为5dB,得到含噪语音。
传统方案采用8位脉冲编码调制(Pulse Code Modulation,PCM)作为信源编码方式,信道编码采用Turbo码,编码速率为1/3。调制方式使用64位正交振幅调制(64-Quadrature Amplitude Modulation,64-QAM)。采用对数最大后验概率算法(LogarithmMaximum A Posteriori,log-MAP)进行译码,迭代5次以提高译码精度。采用两种方式对含噪语音进行语音增强,分别为:
传统方案1:先将含噪语音采用传统方案传输到接收端后,在接收端使用基于Conformer的度量生成对抗网络(Conformer-Based Metric Generative AdversarialNetwork,CMGAN)对接收到的语音信号进行语音增强;
传统方案2:先在发送端使用CMGAN对含噪语音进行语音增强,然后通过传统方案将增强后的语音信号传输到接收端。
在不同信噪比(SNR)的高斯信道下,本发明与两种传统方案的客观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-TimeObjective Intelligibility,STOI)性能的对比结果如图2、图3所示。
从图2和图3可以看出,在不同信噪比SNR的高斯信道下,本发明的PESQ值和STOI值均高于两种传统方案。特别地,在低信噪比情况下,本发明的PESQ值和STOI值要远高于两种传统方案,这证明了本发明提出的基于语义通信的远程语音增强传输方法及系统在低信噪比情况下仍能够恢复较高质量的纯净语音信号。同时,随着信道信噪比的提高,本发明的结果仍高于两种传统方案,进一步证实了本发明的有效性和稳定性。值得提出的是,传统方案2的性能要高于传统方案1,这是因为先传输后增强的方案会使语音信号混入信道噪声,进而影响CMGAN的性能。
实施例2:在实施例1的基础上,本实施例提供一种基于语义通信的远程语音增强传输方法,包括:
本地发送端执行以下步骤:
对待增强的含噪语音信号进行短时傅里叶变换STFT,得到含噪语音信号频谱;
利用语义编码器对所述含噪语音信号频谱进行语义特征提取,得到语音语义特征;
利用信道编码器对所述语音语义特征进行维度调整,得到维度调整后的语音语义特征信号;
将维度调整后的语音语义特征信号通过信道传输至远程接收端;
远程接收端执行以下步骤:
接收通过信道传输过来的语音语义特征信号;
利用信道解码器对接收到的语音语义特征信号进行维度恢复,得到维度恢复后的语音语义特征;
利用语义解码器对维度恢复后的语音语义特征进行语义解码得到预测纯净语音信号的实部与虚部;
根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换ISTFT,得到重构语音信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于语义通信的远程语音增强传输系统,其特征在于,包括:
本地发送端,用于:对待增强的含噪语音信号进行短时傅里叶变换,得到含噪语音信号频谱;利用语义编码器对所述含噪语音信号频谱进行语义特征提取,得到语音语义特征;利用信道编码器对所述语音语义特征进行维度调整,得到维度调整后的语音语义特征信号;将维度调整后的语音语义特征信号通过信道传输至远程接收端;
远程接收端,用于:接收通过信道传输过来的语音语义特征信号;利用信道解码器对接收到的语音语义特征信号进行维度恢复,得到维度恢复后的语音语义特征;利用语义解码器对维度恢复后的语音语义特征进行语义解码得到预测纯净语音信号的实部与虚部;根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换,得到重构语音信号;
所述语义编码器包括依次连接的第一卷积层、扩张密集卷积网络、第二卷积层以及多个时频卷积增强变换器Conformer模块;所述时频卷积增强变换器Conformer模块包括依次连接的第一维度变换层、一个时域Conformer网络、第一残差连接层、第二维度变换层、一个频域Conformer网络、第二残差连接层和第三维度变换层;
所述信道编码器包括依次连接的一个步长为1、卷积核大小为1的一维卷积层和一个维度变换层;
所述信道解码器包括依次连接的一个重塑层和一个步长为1、卷积核大小为1的一维卷积层;
所述语义解码器包括依次连接的扩张密集卷积网络、上采样层和第三卷积层。
2.根据权利要求1所述的基于语义通信的远程语音增强传输系统,其特征在于,所述第一卷积层包括依次连接的一个步长为1、卷积核大小为1的一维卷积层、一个通道数为64的归一化层和PReLU激活函数层,用于扩展含噪语音信号频谱的通道数;
所述扩张密集卷积网络由4个膨胀因子不同的空洞卷积层组成,4个空洞卷积层的膨胀因子分别为1、2、4、8,每个空洞卷积层包括依次连接的一个步长为1,卷积核大小为2×3的一维空洞卷积层、一个通道数为64的归一化层和一个PReLU激活函数层;所述扩张密集卷积网络用于聚合第一卷积层得到的所有特征图,以提取不同层次的语音特征;
所述第二卷积层包括依次连接的一个步长为2、卷积核大小为1×3的一维卷积层、一个通道数为64的归一化层和PReLU激活函数层;所述第二卷积层用于将频率维度减半,以降低复杂度。
3.根据权利要求1所述的基于语义通信的远程语音增强传输系统,其特征在于,所述时域Conformer网络与所述频域Conformer网络结构相同,均包括依次连接的第一前馈神经网络、多头注意力机制、一维卷积层、第二前馈神经网络和正则化层。
4.根据权利要求2所述的基于语义通信的远程语音增强传输系统,其特征在于,所述语义编码器的处理过程包括:
将所述含噪语音信号频谱的实部、虚部与幅度串联作为语义编码器的输入,通过第一卷积层将含噪语音信号频谱的实部、虚部与幅度三个输入特征扩展为具有C个通道的中间特征图;所述中间特征图通过扩张密集卷积网络中残差连接的空洞卷积层,在保留层数的同时增加感受野,聚合所有先前的特征图,以提取不同尺度的特征;然后通过第二卷积层将不同尺度的特征的频率维度F减半至F/2,以降低复杂度;最后通过时频卷积增强变换器Conformer模块依次提取F/2维度特征的时间依赖性和频率依赖性,得到语音语义特征。
5.根据权利要求1所述的基于语义通信的远程语音增强传输系统,其特征在于,所述扩张密集卷积网络由4个膨胀因子不同的空洞卷积层组成,4个空洞卷积层的膨胀因子分别为1、2、4、8,每个空洞卷积层包括依次连接的一个步长为1,卷积核大小为2×3的一维空洞卷积层、一个通道数为64的归一化层和一个PReLU激活函数层,所述扩张密集卷积网络用于聚合语义特征;所述上采样层用于恢复频率维度;所述第三卷积层包括依次连接一个一维卷积层和归一化层,用于将通道数压缩。
6.根据权利要求5所述的基于语义通信的远程语音增强传输系统,其特征在于,所述语义解码器的处理过程包括:
将恢复维度后的语音语义特征作为语义解码器的输入,通过扩张密集卷积网络聚合多个特征图;然后通过上采样层将语义特征的频率维度上采样回频率F;最后通过第三卷积层将通道数压缩为1,并且得到预测纯净语音信号的实部与虚部。
7.根据权利要求1所述的基于语义通信的远程语音增强传输系统,其特征在于,对所述语义编码器、信道编码器、信道解码器、语义解码器进行预训练,所述预训练包括:
将纯净语音数据集中的纯净语音信号与噪声集中的噪声信号按照一定信噪比进行混合,并以对应的纯净语音信号作为真实标签,得到带标签的含噪语音数据集;
将所述含噪语音数据集分成训练数据集和验证数据集;
在每一轮训练时,以训练数据集作为待训练的远程语音增强传输系统输入,重构语音信号作为输出,对所述语义编码器、信道编码器、信道解码器、语义解码器进行训练,在训练过程中,以均方误差作为损失函数,采用随机梯度下降,并使用AdamW优化器对参数进行调整,得到训练完成的远程语音增强传输系统;
在每一轮训练完成后,以验证数据集作为输入,重构语音信号作为输出对语音增强系统进行测试,并计算纯净语音信号与重构语音信号的客观语音质量评估PESQ和短时客观可懂度STOI的值,根据PESQ和STOI的性能指标对超参数进行调整,并继续下一轮训练,直至达到预设训练次数,得到预训练后的语义编码器、信道编码器、信道解码器和语义解码器。
8.一种基于语义通信的远程语音增强传输方法,其特征在于,包括:
本地发送端执行以下步骤:对待增强的含噪语音信号进行短时傅里叶变换,得到含噪语音信号频谱;利用语义编码器对所述含噪语音信号频谱进行语义特征提取,得到语音语义特征;利用信道编码器对所述语音语义特征进行维度调整,得到维度调整后的语音语义特征信号;将维度调整后的语音语义特征信号通过信道传输至远程接收端;
远程接收端执行以下步骤:接收通过信道传输过来的语音语义特征信号;利用信道解码器对接收到的语音语义特征信号进行维度恢复,得到维度恢复后的语音语义特征;利用语义解码器对维度恢复后的语音语义特征进行语义解码得到预测纯净语音信号的实部与虚部;根据预测纯净语音信号的实部与虚部进行逆短时傅里叶变换,得到重构语音信号;
所述语义编码器包括依次连接的第一卷积层、扩张密集卷积网络、第二卷积层以及多个时频卷积增强变换器Conformer模块;所述时频卷积增强变换器Conformer模块包括依次连接的第一维度变换层、一个时域Conformer网络、第一残差连接层、第二维度变换层、一个频域Conformer网络、第二残差连接层和第三维度变换层;
所述信道编码器包括依次连接的一个步长为1、卷积核大小为1的一维卷积层和一个维度变换层;
所述信道解码器包括依次连接的一个重塑层和一个步长为1、卷积核大小为1的一维卷积层;
所述语义解码器包括依次连接的扩张密集卷积网络、上采样层和第三卷积层。
CN202411845049.7A 2024-12-16 2024-12-16 一种基于语义通信的远程语音增强传输方法及系统 Active CN119296566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411845049.7A CN119296566B (zh) 2024-12-16 2024-12-16 一种基于语义通信的远程语音增强传输方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411845049.7A CN119296566B (zh) 2024-12-16 2024-12-16 一种基于语义通信的远程语音增强传输方法及系统

Publications (2)

Publication Number Publication Date
CN119296566A CN119296566A (zh) 2025-01-10
CN119296566B true CN119296566B (zh) 2025-05-16

Family

ID=94158002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411845049.7A Active CN119296566B (zh) 2024-12-16 2024-12-16 一种基于语义通信的远程语音增强传输方法及系统

Country Status (1)

Country Link
CN (1) CN119296566B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157971A (zh) * 2016-08-30 2016-11-23 唐志海 智能控制系统
CN115565543A (zh) * 2022-11-24 2023-01-03 全时云商务服务股份有限公司 一种基于深度神经网络的单通道语音回声消除方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7434176B1 (en) * 2003-08-25 2008-10-07 Walt Froloff System and method for encoding decoding parsing and translating emotive content in electronic communication
CN114333896B (zh) * 2020-09-25 2025-07-01 华为技术有限公司 语音分离方法、电子设备、芯片及计算机可读存储介质
CN118471244A (zh) * 2023-02-07 2024-08-09 抖音视界有限公司 一种处理语音信号的方法、装置和电子设备
CN118782051B (zh) * 2024-09-13 2025-02-07 南京邮电大学 一种基于语义通信的远程说话人确认方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157971A (zh) * 2016-08-30 2016-11-23 唐志海 智能控制系统
CN115565543A (zh) * 2022-11-24 2023-01-03 全时云商务服务股份有限公司 一种基于深度神经网络的单通道语音回声消除方法和装置

Also Published As

Publication number Publication date
CN119296566A (zh) 2025-01-10

Similar Documents

Publication Publication Date Title
CN112464837B (zh) 基于小数据样本的浅海水声通信信号调制识别方法及系统
CN110739003B (zh) 基于多头自注意力机制的语音增强方法
TW546630B (en) Optimized local feature extraction for automatic speech recognition
US9570072B2 (en) System and method for noise reduction in processing speech signals by targeting speech and disregarding noise
CN112331224B (zh) 轻量级时域卷积网络语音增强方法与系统
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
CN110428849A (zh) 一种基于生成对抗网络的语音增强方法
CN111128209A (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN114708855B (zh) 一种基于二值残差神经网络的语音唤醒方法及系统
CN110491400B (zh) 一种基于深度自编码器的语音信号重建方法
JP2023546098A (ja) オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
CN106130688A (zh) 一种低复杂度的稀疏码多址接入检测方法
CN105448302A (zh) 一种环境自适应的语音混响消除方法和系统
CN101669819B (zh) 基于pt变换与线性预测结合的心电图信号无损压缩方法
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
CN114509731A (zh) 一种基于双阶段深度网络的雷达主瓣抗干扰方法
CN117037824A (zh) 一种声学场景分类的数据增强方法及系统
CN115574922B (zh) 一种基于交叉熵的水电机组振动信号降噪方法及系统
CN118782051B (zh) 一种基于语义通信的远程说话人确认方法及系统
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN119296566B (zh) 一种基于语义通信的远程语音增强传输方法及系统
Guo et al. SNR-adaptive multi-layer semantic communication for speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant