CN117854477A

CN117854477A - 一种基于文本、音频两种模态的语义通信传输方法

Info

Publication number: CN117854477A
Application number: CN202410087439.6A
Authority: CN
Inventors: 邱世英; 胡蝶
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-04-09

Abstract

本发明属于语义通信技术领域，具体为一种基于文本、音频两种模态的语义通信传输方法。本发明将深度学习与语义通信相结合，包含构建深度学习网络，深度学习网络包括：文本语义特征提取模块、音频特征信息提取模块以及语音合成模块；原始语音信号通过文本语义特征提取模块得到原始语音信号的文本描述；由音频特征信息提取模块得到原始语音信号的音频信息包括持续时间、音高和功率信息；两种数据信息整合后进行信源信道联合编码并送到接收方；接收方经过解码得到文本描述和语音信息，通过语音合成模块生成符合要求的语音信号。本发明可显著降低信道资源开销，提高传输效率，极大地提升语音通信的交流质量和用户体验。

Description

一种基于文本、音频两种模态的语义通信传输方法

技术领域

本发明属于语义通信技术领域，具体涉及基于文本、音频两种模态的语义通信传输方法。

背景技术

近年来随着通信需求不断增加，无线数据流量急剧增长，对当前的通信基础设施造成了沉重的负担。基于语义的通信是下一代通信的有前途的技术之一，因为它极大地提高了传输效率。传统通信系统专注于传输符号，而忽略语义内容，而语义通信则专注于从源收集语义信息，并在接收端恢复相同的语义信息。

随着计算机技术和信息技术的迅猛发展，未来有望进入一个广泛连接的时代，即使在语音信号领域。随着越来越多的应用和设备融入语音信号网络，与云端的实时交互也将引发数据量的爆炸性增长。因此，对现有的基于语音信号通信传输技术进行改进变得尤为迫切。

发明内容

本发明的目的在于提供一种基于文本、音频两种模态的高效语义通信传输方法，以满足不断扩大的语音信号网络需求。

本发明提供的基于文本、音频两种模态的高效语义通信传输方法，是将文本语义特征提取、音频特征信息提取和语音合成等深度学习网络与通信传输相结合，实现语义的高效传输；其中包含构建深度学习网络，包括：文本语义特征提取模块，音频特征信息提取模块以及语音合成模块；所述方法的具体步骤如下：

(1)利用数据集训练深度学习网络，深度学习网络包括文本语义特征提取模块、音频特征信息提取模块、语音合成模块；

(2)将原始语音信号送到文本语义特征提取模块，进行提取语义特征的处理，得到原始语音信号的文本描述，包含语音信号的语义信息；

(3)将原始语音信号送到音频特征信息提取模块，进行提取语音信息的处理，得到原始语音信号的音频信息，包括持续时间、音高和功率信息；

(4)将两种数据信息整合后进行信源信道联合编码，并送到接收方，达到压缩数据量、为数据传递提供抗干扰能力的目的；

(5)接收方经过解码，得到文本描述和语音信息，通过语音合成模块处理，生成符合要求的语音信号。

本发明中，所述文本语义特征提取模块，注重提取语音信号的语义信息，而不是全部语音内容，特别是在进行网络训练时更专注于捕捉更加重要的文本语义信息，从而降低传输的数据量。

本发明中，所述音频特征信息提取模块，是从语音信号中提取特定的语音信息，如语音持续时间、音高和功率，通过信道发送，以便在接收端更好地重构语音信号，提升语音合成的质量。

本发明中，在进行联合信源信道联合编码时，文本信息的传输注重的是文本所表达的含义的传输，即接收方解码得到的句子与发送方编码前的句子各自表达的含义一致，就视为一次成功的传输，而不是注重于符号的正确性。

本发明中，接收方在基于解码得到文本描述和语音信息来合成符合要求的语音信号时，通过文本描述与语音信息的对齐，使得合成后得语音信号，更加接近原始语音信号得持续时间、音高和功率信息，从而使语音恢复更高效、平滑、自然。

本发明中，接收方每生成一次语音信号，都会衡量该生成语音信号是否达到的质量标准，当语音信号没有达到预期的质量标准时，接收方在此基础上再次生成，直到达到质量标准为止，该质量标准根据传输要求预先设定。

本发明中，生成的语音信号的质量衡量方法，是将语音信号用与发送方一致的语音信号重构模块转化为文本，计算该文本与接收方解码得到的文本的语义相似度，相似度越大说明语音信号越符合文本条件。

本发明的高效语义通信传输方法有益效果

本发明在传输音频信号的时候可以极大减少需要传输的数据量，传输时延将得到很大的提升，传输数据的安全性将得到极大的保障，提高语音恢复的质量。

对于本领域专业人士而言，本发明的其他优点和应用是显见的。

附图说明

图1是本发明所述基于文本、音频两种模态的高效语义通信传输方法地整体流程图示。

图2是本发明所述基于文本、音频两种模态的高效语义通信传输方法文本语义特征提取模块的流程图示。

图3是本发明所述基于文本、音频两种模态的高效语义通信传输方法音频特征信息提取模块的流程图示。

图4是本发明所述基于文本、音频两种模态的高效语义通信传输方法中语音合成模块的具体流程图示。

具体实施方式

以下实施例通过结合附图进一步介绍本发明。

参考图1，其为本发明所述基于文本、音频两种模态的高效语义通信传输方法流程图，物联网中的设备采集到语音信号要进行传输的时候，首先经过文本语义特征提取模块对原始语音信号进行处理，得到语音信号的文本特征描述，即语音信号包含的语义信息；然后通过音频特征信息提取模块，从发射端的语音信号中提取出一组紧凑的语音相关信息，包括持续时间、音调和功率信息；然后通过联合信源信道编码的压缩后传递给接收方，接收方可以是其他设备，也可以是云端；接收方解码后得到语音信号的文本信息和语音信息，然后利用语音合成模块恢复出语音信号，以达到语音信号传输的目的。

参考图2，其为本发明所述基于文本、音频两种模态的高效语义通信传输方法在文本语义特征提取模块的具体流程示意图。其中，文本语义特征提取模块包含VGG层、BLSTM层、注意力机制模块等组件。具体来说，VGG是由16个卷积层构成的卷积神经网络架构；BLSTM是一种用于处理序列数据，如语音、文本等的循环神经网络架构；注意力机制是通过计算注意力分数，使系统能够更加关注输入语音信号中与文本语义对齐的部分。

文本语义特征提取模块，语音信号s首先被送进VGG层，以获得语义特征表示m，接下来，语义特征表示m被输入到BLSTM层，该模块生成保留输入序列中时间相关性的中间特征H，然后送入注意力机制模块，提取出所需的语义特征信息Z，此时完成文本语义特征提取模块的任务。

请参考图3，其为本发明所述基于文本、音频两种模态的高效语义通信传输方法在音频特征信息提取模块的具体流程示意图。其中，音频特征信息提取模块包含VGG层、BLSTM层、CTC对齐模块等组件。具体来说，VGG是由16个卷积层构成的卷积神经网络架构；BLSTM是一种用于处理序列数据，如语音、文本等的循环神经网络架构；CTC对齐模块是基于维比特算法[4]来获得每一帧音素的持续时间、音高和功率信息。

音频特征信息提取模块，则是从经过VGG和BLSTM层处理后得到的中间特征H，作为模块输入，使用CTC对齐方法[1]，首先，它找到了每个语音频谱帧中相应的音素的可能性,得到音素变化时的峰值，计算两个峰值之间的时间作为一个音素的持续时间。然后应用DIO算法[2]获得每一帧的音高信息；通过计算每一帧的向量范数以获得功率信息，然后计算同一音素的所有帧的平均功率。因此，我们得到了每个音素的音高和功率信息。从而输出一组包含持续时间、音高和功率的语音相关信息，发送到接收端进行语音信号的合成，此时完成音频特征信息提取模块的任务。

请参考图4，其为本发明所述基于文本、音频两种模态的高效语义通信传输方法中语音合成模块的具体流程图。该语音合成模块包含文本嵌入层、编码器解码器层、文本语音对齐模块以及一个预先训练好的GAN声码器[3]。本模块以语义解码器的预测转录(文本)以及发射机提供的音频特征信息(音频)作为输入，联合两种模态的数据信息，共同恢复的语音信号。本发明采用非自回归模型的文本-语音合成技术，首先使用文本嵌入层将输入文本转换为文本嵌入，然后馈给包含四个转换层的文本语音编码器，以获得输入文本序列中每个标记的潜在表示，以及对应音素的持续时间、功率和音高的预测。然后利用文本到语音对齐模块，该模块，对预测的持续时间信息和经音频特征提取模块获取的真实持续时间信息，进行对齐操作，并修改文本语音编码器的潜在表示输出中每个令牌的帧数，以及将该潜在表示与功率信息嵌入和音高信息嵌入相结合，分别嵌入经音频特征提取模块传输的真实功率和音高信息，以及预测的功率和音高信息，如图4所示，生成同时包含语义相关文本信息和语音相关信息的潜在表示。然后将该组合信息输入到文本-语音解码器，它由6个Transformer层组成，以恢复语音频谱。最后，使用一个预先训练好的GAN声码器[3]，从恢复的频谱中生成语音信号。整个过程训练时间比传统语音合成更快，同时结合音频模态信息，也实现了恢复更高质量语音，解决了语音合成中信息丢失的问题。

参考文献

[1]G.D.J.Forney,“The Viterbi algorithm,”Proc.IEEE,vol.61,no.5,pp.268–278,Mar.1993.

[2]Y.Ren et al.,“FastSpeech:Fast,robust and controllable text tospeech,”in Proc.Adv.Neural Inf.Process.Syst.,vol.32,2019.

[3]J.Kong,J.Kim,and J.Bae,“HiFi-GAN:Generative adversarial net worksfor efficient and high fidelity speech synthesis,”in Proc.Adv.NeuralInf.Process.Syst.,vol.33,2020,pp.17022–17033.

[4]G.D.J.Forney,“The Viterbi algorithm,”Proc.IEEE,vol.61,no.5,pp.268–278,Mar.1993。

Claims

1.一种基于文本、音频两种模态的语义通信传输方法，其特征在于，是将深度学习与语义通信相结合，实现语义的高效传输；包含构建深度学习网络，深度学习网络包括：文本语义特征提取模块，音频特征信息提取模块以及语音合成模块；所述语义通信传输方法的具体步骤如下：

2.根据权利要求1所述的语义通信传输方法，其特征在于，接收方在基于解码得到文本描述和语音信息来合成符合要求的语音信号时，通过文本描述与语音信息的对齐，使得合成后得语音信号，更加接近原始语音信号得持续时间、音高和功率信息。

3.根据权利要求1所述的语义通信传输方法，其特征在于，接收方每生成一次语音信号，都会衡量该生成语音信号是否达到的质量标准，当语音信号没有达到预期的质量标准时，接收方在此基础上再次生成，直到达到质量标准为止，该质量标准根据传输要求预先设定。

4.根据权利要求1所述的语义通信传输方法，其特征在于，生成的语音信号的质量衡量方法，是将语音信号用与发送方一致的语音信号重构模块转化为文本，计算该文本与接收方解码得到的文本的语义相似度，相似度越大说明语音信号越符合文本条件。

5.根据权利要求1所述的语义通信传输方法，其特征在于，所述文本语义特征提取模块包含VGG层、BLSTM层、注意力机制模块；所述VGG是由16个卷积层构成的卷积神经网络；所述BLSTM是用于处理序列数据包括语音、文本的循环神经网络；所述注意力机制模块是通过计算注意力分数，使系统能够更加关注输入语音信号中与文本语义对齐的部分；其中：

语音信号s首先进入VGG层，获得语义特征表示m；语义特征表示m输入BLSTM层，生成保留输入序列中时间相关性的中间特征H，然后送入注意力机制模块，提取出所需的语义特征信息Z，此时完成文本语义特征提取模块的任务。

6.根据权利要求5所述的语义通信传输方法，其特征在于，所述音频特征信息提取模块包含VGG层、BLSTM层、CTC对齐层；所述VGG是由16个卷积层构成的卷积神经网络；所述BLSTM是一种用于处理序列数据包括语音、文本的循环神经网络；所述注意力机制是通过计算注意力分数，使系统能够更加关注输入语音信号中与文本语义对齐的部分；其中：

经过VGG和BLSTM层处理后得到的中间特征H，作为CTC对齐层的输入，CTC对齐层对齐处理的过程为：首先，找到每个语音频谱帧中相应的音素的可能性,得到音素变化时的峰值，计算两个峰值之间的时间作为一个音素的持续时间；然后，应用DIO算法获得每一帧的音高信息；通过计算每一帧的向量范数以获得功率信息，然后计算同一音素的所有帧的平均功率；得到每个音素的音高和功率信息；输出一组包含持续时间、音高和功率的语音相关信息，发送到接收端进行语音信号的合成，此时完成音频特征信息提取模块的任务。

7.根据权利要求6所述的语义通信传输方法，其特征在于，所述语音合成模块包含文本嵌入层、编码器解码器层、文本语音对齐模块以及GAN声码器；该模块以语义解码器的预测转录以及发射机提供的音频特征信息作为输入，联合两种模特数据信息，共同恢复的语音信号；具体采用非自回归模型文本-语音合成技术，首先使用文本嵌入层将输入文本转换为文本嵌入，然后馈给包含四个转换层的文本语音编码器，以获得输入文本序列中每个标记的潜在表示，以及对应音素的持续时间、功率和音高的预测；然后利用文本到语音对齐模块，接收从接收器接收到的预测持续时间信息和真实持续时间信息对齐，并修改文本-语音编码器的潜在表示输出中每个令牌的帧数；以及将该潜在表示与功率信息嵌入和音高信息嵌入相结合，分别嵌入传输的功率和预测的功率和音高信息；生成同时包含语义相关文本信息和语音相关信息的潜在表示；然后将该组合信息输入到文本-语音解码器，该解码器由6个变压器层组成，以恢复语音频谱；最后，使用一个预先训练好的GAN声码器，从恢复的频谱中生成语音信号。