CN117544699A

CN117544699A - 一种通过语音信道实现更快的端到端数据传输的方法

Info

Publication number: CN117544699A
Application number: CN202311316846.1A
Authority: CN
Inventors: 韩皓; 张维珺; 李明炜
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-02-09

Abstract

本发明提供了一种通过语音信道实现更快的端到端数据传输的方法，设计了基于chirp信号和深度学习的调制解调方案，解决了语音信道中的语音活动检测技术对数据传输的影响，并极大程度地提高了数据传输的吞吐量。本发明方法包括：发送方生成随机数据证书并通过基于chirp的调制方案进行数据‑信号的调制；已调制好的chirp信号在语音信道中传输；接收方通过基于深度学习的解调方案对接收信号进行信号‑数据的解调；接收方通过纠错码对接收数据进行校验；双方通过基于停止/恢复机制、时间同步以及呼叫者和被呼叫者之间的重传方案的专用数据链路协议，保证数据完整地被接收方接收。

Description

一种通过语音信道实现更快的端到端数据传输的方法

技术领域

本发明涉及语音信道的数据传输领域，尤其涉及一种通过语音信道实现更快的端到端数据传输的方法。

背景技术

为了阻止电话诈骗，必须通过传统(不可信)电话网络为通话方提供端到端的身份验证。与互联网网站一样，网络通信加密协议(Secure Sockets Layer，SSL)证书可确保每个网站身份的真实性。

然而，除了呼叫方的标识符(Identifier，ID)之外，现代电话基础设施没有为被呼叫方提供任何方式来推断呼叫方的身份。因此，需要呼叫方能够将其数字证书传输给被呼叫方进行身份验证。这种传输应该是端到端的，而不需要电话提供商的帮助，与现有的基础设施兼容，而不依赖4G/5G等移动数据。

一种可能的解决方案是使用几十年来一直可用的拨号调制解调器通过电话线传输数据。然而，这种方法不适用于移动电话。这是因为连接到蜂窝网络(2G、3G、4G等)并帮助将数字数据转换为射频信号(反之亦然)的智能手机中的基带对终端用户来说是一个黑匣子。如果没有智能手机供应商或网络提供商，用户几乎不可能在智能手机上实现“自己的”数据调制解调器。尽管移动数据提供了一种通过蜂窝网络传输数据的替代解决方案，但它将产生额外的财务成本。全球移动通信系统协会(Global System for MobileCommunications Association，GSMA)研究显示，尽管生活在移动数据覆盖的地区，仍有34亿人无法支付移动互联网费用，因此该方案不是通用的解决方案。

如果能够在蜂窝网络上建立自己的数据调制解调器，就可以使用定制的加密算法对数据进行加密，以提高数据安全性。为了解决这些问题，一些学术研究提出了能够在蜂窝网络的语音信道上进行数据传输的方法，包括通过语音信道中的频移键控编码思想在未知语音信道上传输数据；使用单个码本来传输语音，且在该方案中包括一种高效的低比特率语音编码器；一种依赖于线性预测编码的语音压缩(Linear Predictive Coding，LPC)，基于短谐波波形码本的语音传输数据(Data over Voice，DoV)的技术；一种受传输层安全性协议1.2(Transport Layer Security，TLS)启发的强加密身份验证协议，以确定呼叫另一端实体的身份(即呼叫者ID)等。

然而，根据实验，他们的工作大多无法达到蜂窝网络中声称的数据速率。一般具有如下原因：1)复杂的网络基础设施会扭曲从一个子系统传输到另一个子系统的信号；2)一些优化技术，如语音活动检测(Voice Activity Detection，VAD)容易拒绝非语音类解码帧；以及3)不像语音的信号将被编解码器严重失真。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种通过语音信道实现更快的端到端数据传输的方法。

本发明为了抵抗复杂网络基础设施中的信号失真，提出了一种基于啁啾(chirp)的调制/解调方案，因为chirp信号已被证明对信道噪声具有鲁棒性；为了降低解调的错误率，利用深度学习(Deep learning，DL)技术对失真的线性调频信号进行解码；为了避免VAD的影响，提出了一种停止/恢复机制，即在信号中插入间隔(Gap)；为了保证接收方数据的完整性与可靠性，提出了一种具有时间同步以及呼叫者和被呼叫者之间的重传方案的专用数据链路协议。

本发明方法包括以下步骤：

步骤1，数据调制：发送方生成随机证书或使用已有证书，基于停止、恢复机制以及时间同步的数据链路协议，并使用基于chirp的调制方法将数据证书调制成模拟信号，通过语音信道进行传输；

步骤2，数据解调：接收方接收信号，使用基于深度学习的解调方法，将模拟信号解调成数据证书；

步骤3，错误恢复及重传：接收方基于纠错码对接收到的数据证书进行纠错，如果不能将证书完全还原，则向发送方发送重传申请；发送方接收重传申请，并重新发送证书。

步骤1包括：

步骤1-1，发送方根据具有停止、恢复机制和时间同步的数据链路协议，对数据信号进行调整，并让接收方能确定数据在音频流中的确切位置(每一个音频流包含N个数据帧)，每一个数据帧都包括N个chirp信号，N个chirp信号被分割成两个以上的chirp信号组，每一个chirp信号组被称为symbol group(Data被调制成音频流，包含数个数据帧，音频流就是数据流)；

symbol group之间将由空白间隙gap分隔，数据帧的前后位置都将添加一个独特的chirp信号作为分隔符，用于指示数据帧何时开始和结束；

步骤1-2，基于chirp信号对数据证书进行调制。

步骤1-1中，数据帧为了检测分隔符在接收方的确切位置，采用一种基于互相关的方法，其中已知的分隔符信号在滑动窗口中与接收到的音频流相关联：设接收到的音频流包括N个音频采样点(音频采样点是连续信号在时间上的离散化，采样点个数根据信号采样率和音频流时长计算得出)，根据音频采样点，整个音频流表示为{u_i}，i＝1,2,…,n；发送方发出的分隔符根据其采样点表示为{v_i}，i＝1,2,…,m；{u_i}和{v_i}中i表示接收到的整个音频流和发送方分隔符的第i个采样点，且n>>m；n取值为音频流时长*信号采样率；m取值为分隔符时长*信号采样率；

使用匹配滤波从{u_i}中提取长度等于m的滑动窗口，采用如下公式计算样本相关系数r：

其中是滑动窗口的采样均值，/>的含义就是{v_i}。

步骤1-1中，为了加快计算时间，首先通过逐窗口计算样本相关系数来定位分隔符的近似位置c，在[c-m，c+m]的范围内，多线程并行使用滑动窗口大小设置为1的细粒度相关性来定位准确位置。

步骤1-1中，制定如下分隔符位置调整方案：设定每个数据帧包含k个音频采样点，并且围绕数据帧的两个分隔符位于采样点索引d₁和d₂处，索引即根据采样点位置d₁和d₅对两个分隔符的起始位置进行定位，d₂-d₁-m-k＝δ，其中m是分隔符的长度，δ是接收方根据d₁和d₂得到的接收方数据帧的采样点个数与发送方数据帧的采样点个数的差值；

调整d₁和d₂来弥补δ：首先将数据帧中的一些chirp信号(例如每个symbol group中的前30个chirp信号)设置为固定值，在{(d₁，d₂-δ)，…，(d₁+i，d₂-δ+i)，…，(d₁+δ，d₂)}的每一种可能的接收方数据帧中，根据固定chirp信号的解调精度，选择一种能提供解码所选chirp信号的最高精度的调整，如果发现δ超过阈值(|δ|<80)，则接收方丢弃数据帧并请求重传，i＝0，…，δ。

步骤1-2包括：线性调频chirp信号的相应时域函数x(t)表示为：

其中c是调频频率，f₀是起始频率，φ₀是时间t＝0时的初始相位；基于相应时域函数x(t)，通过改变线性调频信号chirp的频率、形状和相位，从而对3比特信息进行调制。

步骤1-2中(本步骤所用的具体的参数值仅为举例说明)，所述基于相应时域函数x(t)，改变线性调频信号chirp的频率，具体包括：使用f₀＝300Hz和f₀＝1.9KHz分别对比特0和1进行编码，给定44.1KHz的采样率和等于0.001s的符号持续时间，比特0由频率范围[300Hz，1900Hz]表示，比特1由范围(1900Hz，3400Hz]调制：

其中b表示比特；

所述改变线性调频信号chirp的形状，具体包括：在[300Hz，1900Hz]或(1900Hz，3400Hz]的频率范围内，切换起始频率f₀和结束频率f₁来编码额外的1位信息，在不改变其频带的情况下改变chirp的形状：

所述改变线性调频信号chirp的相位，具体包括：在不改变线性调频信号chirp的频率和形状的情况下，通过使用不同的初始相位来调制额外的比特，信号携带0还是1取决于初始相位φ₀是否等于零：

步骤2包括：

步骤2-1，信号特征：使用每个chirp信号的时域、频域和相位角特征进行解调，从三个来源提取频域特征，第一来源是从所有采样点(连续信号在时间上的离散化，按照一定时间间隔△t在模拟信号x(t)上逐点采取其瞬时值)中提取，第二来源和第三来源分别从前半采样点和后半采样点提取；

步骤2-2，信号解调：使用主成分分析法PCA减少频域特征的维数，然后使用深度学习模型ResNet34来解调PCA生成的特征，深度学习模型采用1×10×10的输入，并输出8个类。

步骤3包括：

步骤3-1，接收端使用里德-所罗门纠错码RS对接收到的数据进行纠错；

步骤3-2，当里德-所罗门纠错码RS检查失败时，将触发重传机制，当发送方没有发送完所有数据帧时，两个chirp信号组之间的间隙用于接收方发送反馈脉冲，一旦在间隙中检测到能量，发送方将在间隙之前立即重发符号组，所述两个chirp信号组是指两个symbolgroup，每个symbol group包括N个chirp信号。

步骤3-2中，使用数据帧i+1中的间隙来确认数据帧i中的相应符号组；

如果接收方未能正确接收到某些数据帧，则会向发送方申请重传错误帧，根据事件：发送方是否已发送完所有数据帧，接收方将选择不同的重传请求机制向发送方申请重传，如果发送方没有发送完所有数据帧，则接收方将在发送方发送下一个数据帧的间隙使用脉冲信号作为重发申请信号；如果发送方已经发送完所有数据帧，接收方将直接向发送方发送重传请求帧，申请重传。

本发明具有如下有益效果：

(1)具有停止/恢复机制的专用数据链路协议，能够有效解决语音活动检测技术；

(2)具有时间同步以及呼叫者和被呼叫者之间的重传方案的专用数据链路协议，能够极大程度地保证数据接收的完整性；

(3)基于chirp信号的调制器，由于chirp信号的抗干扰性较强，因此能够足以容忍蜂窝语音信道上的噪声和信号失真，极大程度地保证数据传递过程中的正确性；

(4)基于深度学习的解调器，通过学习信号的各项特征，能够提高信号解调的精度。

(5)呼叫者和被呼叫者之间的重传方案，在接收方无法正确接收数据时，发送方能重新发送传输错误的数据帧，保证数据接收的完整性和正确性。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明架构图。

图2是数据帧的格式。

图3举例说明调制相关的8种信号。

图4是呼叫者和被呼叫者之间的重传示意图。

具体实施方式

本发明采用的技术方案是一种未知蜂窝信道上提供可靠输出的快速数据传输机制，具体是chirp信号的调制和基于深度学习的解调机制，如图1所示，包括以下步骤：

步骤1，数据调制：发送方对数据信息进行调制，使用基于chirp信号以及具有停止、恢复机制和时间同步的专用数据链路协议的调制机制。

步骤2，数据解调：使用基于主成分分析法和深度学习的解调机制对模拟信号进行解调。

步骤3，错误恢复及重传：检测接收数据是否正确并对错误进行纠错，若纠错后无法获得完全正确的数据，则使用重传机制通知发送者重新发送错误的帧。最后，将所有正确的帧组合起来以恢复原始数据。

进一步的，所述步骤1包括以下步骤：

步骤1-1，发送方将根据具有停止/恢复机制和时间同步的专用数据链路协议，对数据信号进行调整以尽可能避免VAD的影响，并让接收方能确定数据在音频流中的确切位置。数据帧如图2所示。每一个数据帧都由数个chirp信号构成，它们被分割成数个chirp信号组(每一个chirp信号组可被称为symbol group)。symbol group之间将由空白间隙(gap)分隔。数据帧的前后位置都将添加一个独特的chirp作为分隔符，以指示数据帧何时开始和结束。

进一步的，数据帧为了检测分隔符在接收方的确切位置，将采用了一种基于互相关的方法，其中已知的分隔符信号在滑动窗口中与接收到的音频流相关联。设接收到的信号流为{u_i}(i＝1,2,…,n)，并且每个u_i都是音频样本。发送方发出的分隔符表示为{v_i}(i＝1,2,…,m)，且n>>m。使用匹配滤波从{u_i}中提取长度等于m的滑动窗口。样本相关系数r计算如下：

其中和/>分别是滑动窗口的采样均值和{v_i}。对于每个r，Welford的单程算法可以达到计算复杂度O(m)。随着滑动窗口逐样本从音频流的开始移动到结束，计算每个r的总复杂度等于O(nm)。r的大值意味着两个序列之间的高度相似性。可以在这些系数的最大峰值处找到分隔符的位置。

进一步的，为了加快计算时间，首先通过逐窗口计算系数来定位分隔符的近似位置c。在[c-m，c+m]的范围内，该方案将多线程并行使用滑动窗口大小设置为1的细粒度相关性来定位准确位置。

进一步地，由于不可预测的信道噪声，互相关有时可能无法准确定位分隔符，导致导出的数据帧不具有预定义的长度，因此制定了相关的分隔符位置调整方案。假设每个数据帧包含k个音频样本，并且围绕该帧的两个分隔符位于样本索引d₁和d₂处。理想情况下，d₂-d₁-m应等于k，其中m是分隔符的长度。但实际上，d₂-d₁-m-k＝δ，其中δ可以是正的或负的，且有很大的可能性不是零。因此，需要调整d₁和d₂来弥补这个δ。首先，将数据帧中的一些符号设置为固定值，以便接收方事先知道这些符号。接下来，将尝试在{(d₁，d₂-δ)，…，(d₁+i，d₂-δ+i)，…，(d₁+δ，d₅)}(i＝0，…，δ)的每一种可能的接收端数据帧中选择一种能提供解码所选符号的最高精度的调整。如果发现δ超过阈值，则接收方简单地丢弃该数据帧并请求重传。

步骤1-2，基于chirp信号对数据证书进行调制。Chirp具有较强的抗干扰特性，在通信、声纳、雷达等领域有着广泛的应用。线性频率chirp足以容忍蜂窝语音信道上的噪声和信号失真。在线性调频中，瞬时频率f(t)＝ct+f₀严格地随时间t线性变化，其中c是调频频率，f₀是起始频率。线性调频chirp的相应时域函数可表示如下：

其中，φ₀是时间t＝0时的初始相位。基于上述方程，通过改变线性调频信号chirp的频率、形状和相位来对3比特信息进行调制。

1)频率：使用f₀＝300Hz和f₀＝1.9KHz分别对比特0和1进行编码。给定44.1KHz的采样率和等于0.001s的符号持续时间，比特0由频率范围[300Hz，1900Hz]表示，比特1由范围(1900Hz，3400Hz]调制。

2)形状：在[300Hz，1900Hz]或(1900Hz，3400Hz]的频率范围内，可以切换起始频率f₀和结束频率f₁来编码额外的1位信息。换句话说，在不改变其频带的情况下改变chirp的形状。例如，300Hz→1.9KHz表示比特0，1.9KHz→300Hz表示比特1。

3)相位：在不改变线性调频信号chirp的频率和形状的情况下，可以通过使用不同的初始相位来调制额外的比特。信号携带0还是1取决于初始相位φ₀是否等于零。

进一步的，所述步骤2的信号解调的具体方法，包括以下步骤：

步骤2-1，信号特征：使用每个chirp信号的时域、频域和相位角特征进行解调。为了提高识别精度，将从三个来源提取频域特征，第一部分是从所有采样点中提取的。第二部分和第三部分分别从前半采样点和后半采样点提取。

步骤2-2，信号解调：首先使用主成分分析法PCA将特征的维数减少到100。PCA是一种常用的降维方法。它通过执行线性投影来工作，并且可以减轻过拟合问题。然后，使用深度学习模型ResNet34(ResNet34是2015年由微软实验室提出的残差网络，是卷积神经网络的一种)来解调PCA生成的特征。深度学习模型采用1×10×10的输入(PCA的输出将调整为该大小)，并输出8个类(通过步骤1-1的方法将调制出8种不同类别的信号，如图3所示)。

进一步的，所述步骤3的错误恢复和重传的具体方法，包括以下步骤：

步骤3-1，接收端使用RS对接收到的数据进行纠错。

步骤3-2，当RS检查失败时，将触发重传机制，如图4所示。当发送方没有发送完所有数据帧时，两个信号组之间的间隙用于接收方发送反馈脉冲。一旦在间隙中检测到能量，发送方将在间隙之前立即重发符号组。为了便于实现，使用数据帧i+1中的间隙来确认数据帧i中的相应符号组。

进一步的，如果当发送方发送完所有数据帧时，接收机不能成功接收所有帧，则在发射机发送最后一个数据帧后触发第二机制。接收方发送单独的ACK(Acknowledgment,确认应答机制)帧以通知先前数据帧中丢失的信号组。这样的ACK包括分隔符和间隙，并且间隙的索引与符号组相关联。

实验效果：本发明在中国三大蜂窝运营商(即中国移动、中国电信和中国联通)提供的网络上进行测试，主要的性能指标是准确性、吞吐量和有效吞吐量。精度是对调制符号进行分类的解调精度。吞吐量是所有接收比特的数量，包括每单位时间的协议开销比特和重复比特。有效吞吐量是每单位时间传递给接收方的有用信息量，是传输文件的大小除以传输文件所需的时间。

在本发明实施例中，使用长度为0.1s的chirp分隔符，每一组symbol group将由0.001s长度的chirp组成，gap时长为0.5s。实验发现，本专利的研究方法在所有蜂窝网络中都具有类似的良好性能。其中吞吐量可达到1785.12bit/s，平均有效吞吐量可达到1265.43bit/s。在较好的信号强度环境中，深度学习解调得到的数据，经过RS纠错后，平均正确率可达100％；而在信号强度中等的环境中，平均正确率亦有99.56％。以上数据均可表明该专利具有较好的实验效果。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种通过语音信道实现更快的端到端数据传输的方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种通过语音信道实现更快的端到端数据传输的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种通过语音信道实现更快的端到端数据传输的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

步骤1-1，发送方根据具有停止、恢复机制和时间同步的数据链路协议，对数据信号进行调整，并让接收方能确定数据在音频流中的确切位置，每一个音频流包含N个数据帧，每一个数据帧都包括N个chirp信号，N个chirp信号被分割成两个以上的chirp信号组，每一个chirp信号组被称为symbol group；

步骤1-2，基于chirp信号对数据证书进行调制。

3.根据权利要求2所述的方法，其特征在于，步骤1-1中，数据帧为了检测分隔符在接收方的确切位置，采用一种基于互相关的方法，其中已知的分隔符信号在滑动窗口中与接收到的音频流相关联：设接收到的音频流包括N个音频采样点，根据音频采样点，整个音频流表示为{u_i}，i＝1,2,…,n；发送方发出的分隔符根据其采样点表示为{v_i}，i＝1,2,…,m；{u_i}和{v_i}中i表示接收到的整个音频流和发送方分隔符的第i个采样点，且n>>m；n取值为音频流时长*信号采样率；m取值为分隔符时长*信号采样率；

其中是滑动窗口的采样均值，/>的含义就是{v_i}。

4.根据权利要求3所述的方法，其特征在于，步骤1-1中，首先通过逐窗口计算样本相关系数来定位分隔符的近似位置c，在[c-m，c+m]的范围内，多线程并行使用滑动窗口大小设置为1的细粒度相关性来定位准确位置。

5.根据权利要求4所述的方法，其特征在于，步骤1-1中，制定如下分隔符位置调整方案：设定每个数据帧包含k个音频采样点，并且围绕数据帧的两个分隔符位于采样点索引d₁和d₂处，索引即根据采样点位置d₁和d₂对两个分隔符的起始位置进行定位，d₂-d₁-m-k＝δ，其中m是分隔符的长度，δ是接收方根据d₁和d₂得到的接收方数据帧的采样点个数与发送方数据帧的采样点个数的差值；

调整d₁和d₂来弥补δ：首先将数据帧中的一些chirp信号设置为固定值，在{(d₁，d₂-δ)，…，(d₁+i，d₂-δ+i)，…，(d₁+δ，d₂)}的每一种可能的接收方数据帧中，根据固定chirp信号的解调精度，选择一种能提供解码所选chirp信号的最高精度的调整，如果发现δ超过阈值，则接收方丢弃数据帧并请求重传，i＝0，…，δ。

6.根据权利要求5所述的方法，其特征在于，步骤1-2包括：线性调频chirp信号的相应时域函数x(t)表示为：

7.根据权利要求6所述的方法，其特征在于，步骤1-2中，所述基于相应时域函数x(t)，改变线性调频信号chirp的频率，具体包括：分别对比特0和1进行编码，给定采样率和符号持续时间，比特0由频率范围[300Hz，1900Hz]表示，比特1由范围(1900Hz，3400Hz]调制：

其中b表示比特；

8.根据权利要求7所述的方法，其特征在于，步骤2包括：

步骤2-1，信号特征：使用每个chirp信号的时域、频域和相位角特征进行解调，从三个来源提取频域特征，第一来源是从所有采样点中提取，第二来源和第三来源分别从前半采样点和后半采样点提取；

9.根据权利要求8所述的方法，其特征在于，步骤3包括：

10.根据权利要求9所述的方法，其特征在于，步骤3-2中，使用数据帧i+1中的间隙来确认数据帧i中的相应符号组；

如果接收方未能正确接收到数据帧，则会向发送方申请重传错误帧，根据事件：发送方是否已发送完所有数据帧，接收方将选择不同的重传请求机制向发送方申请重传，如果发送方没有发送完所有数据帧，则接收方将在发送方发送下一个数据帧的间隙使用脉冲信号作为重发申请信号；如果发送方已经发送完所有数据帧，接收方将直接向发送方发送重传请求帧，申请重传。