CN113395116A

CN113395116A - 一种基于语义压缩的水声语音数字传输方法

Info

Publication number: CN113395116A
Application number: CN202110595072.5A
Authority: CN
Inventors: 赵瑞琴; 解伟亮; 申晓红; 陈帆; 王超; 杨港; 锁健
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-14

Abstract

本发明提供了一种基于语义压缩的水声语音数字传输方法，构建出语音‑语义库，将语音‑语义库分别输入通信机的语音传输模块中，用户通过麦克风说出想要发送的语音信息，通信机S的语音传输模块识别到语音输入后，完成语义压缩处理得到的语义压缩代码串，并发送至接收端，在接收端通过声音播放设备播放自发送端语音传输模块成功识别的语音信息，完成语义匹配。本发明大大压缩单条语音的传输数据量，有效降低对传输带宽的要求，克服抗干扰差、易失真等缺陷，减少由于水声信道带宽严重受限而产生的码间干扰的影响，提高了语音传输过程的稳定性，大大降低数字语音传输对水声信道带宽的要求，同时也有效降低了传输能耗。

Description

一种基于语义压缩的水声语音数字传输方法

技术领域

本发明涉及水声语音通信领域，涉及水声学，水声通信等，具体是一种水声数字语音传输方法。

背景技术

在人类步入21世纪的今天，海洋作为地球上的一个特殊空间，无论是它的物质资源价值，或是政治经济价值，都远远超出人们原有的认识。伴随着科学技术的不断发展，使人类能够有条件走向海洋、探索海洋。由于无线电波和光波在海水介质中的衰减速度很快，必须利用声波才能实现远距离的水声通信，因此，水声通信技术得到了充分的发展，这是实现水声语音通信的必要组成部分，为水声语音信息的顺利传输提供保障，也是当前海洋科技研究中的关键技术之一。

水声语音通信是一种最重要和最直接的水下通信方式，这使得人们对水下语音通信技术的研究更加迫切。水声语音通信技术最初应用于军事领域，随着人类海洋活动的增加和对海洋资源利用程度的提高，水声语音通信技术开始应用于民用领域，为海洋科考、资源勘探及潜水等提供服务。

水下语音通信可分为模拟和数字两种调制方式。由于海洋环境的复杂性与水声信道的特殊性，水声信道带宽非常有限。由于数字语音通信对信道带宽有着极高的要求，为实现正常语速的水下语音传输，现有的水声语音通信设备大多模拟单边带调制技术，比如美国海军使用的AN/WQC-2A单边带语音通信机、WHOI研制的模拟调频水声通信样机等，但模拟调制的通信方式受海洋水文环境的影响很大，难以克服浅海水声信道的时变强、多径干扰、带宽受限严重及多普勒效应影响，使得通信的误码率很高，工作距离很短，无法减小水声信道的衰落引发的信号畸变，从而语音通信质量难以保证。而且，由于采用模拟调制方式，使得系统功率利用效率相对较低。数字语音通信具有传输距离远、语音传输质量高的优势，是陆地电磁波传输环境下被广泛的采用的传输技术。然而，在复杂恶劣的海洋水声信道面临严重的多径效应与多普勒效应，通信接收端通常需使用复杂的自适应时域信道均衡和纠错编码技术，系统实现较为复杂；更为严峻的是，数字语音传输需要高的传输带宽，而中远程的水声信道带宽很低，无法为高质量的数字语音传输提供保障，这也是目前水下语音传输大多采用模拟调制的主要原因。

发明内容

为了克服现有技术的不足，本发明提供一种基于语义压缩的水声语音数字传输方法。为了在恶劣水声信道中获得传输距离远、质量高以及语音可懂度高的传输性能，本发明提出了一种具有低带宽要求的水声数字语音传输方法。该方法基于智能语义学习，大大压缩语音传输对水声信道带宽的要求，旨在复杂恶劣、时变空变水声信道中构建并实现稳健、可靠、高可懂度的水声语音中远程传输。

本发明解决其技术问题所采用的技术方案的详细步骤如下：

步骤1：有两套水声通信机S、R欲进行语音传输，其中S为发送端，R为接收端；通过离线自学习，对工作场景需要使用的语音文本信息进行特征提取处理，提取语音数据的语义特征，并建立各语音信息及其语义特征的压缩映射关系，压缩映射关系为语音文本信息—语义特征ID，通过压缩映射关系构建出适用于该工作场景下的语音-语义库，初步完成语音数据的高效压缩。语音-语义库构建流程图如图2所示。

步骤2：语音-语义库构建完成后，将步骤1构建好的语音-语义库分别输入到S、R两套通信机的语音传输模块中，使S、R两套通信机均能够通过步骤1中设定好的语音-语义库识别语音-语义库中包含的语音信息，以确保语音传输顺利进行。

步骤3：在发送端，用户通过麦克风说出想要发送的语音信息，通信机S的语音传输模块识别到语音输入后，完成语义压缩；

步骤4：经过步骤3中的语义压缩处理得到的语义压缩代码串为一组数据包P，通过通信机S将该数据包P发送至接收端；

步骤5：在接收端通过声音播放设备播放自发送端语音传输模块成功识别并通过通信机S成功传输到通信机R的语音信息，通信机R接收到数据包后，完成语义匹配。

所述语音-语义库容量为X个，X为正整数，X的取值依据实际应用场景所需语音文本信息的数量进行设定。

所述语音压缩为执行如下判断：

若该语音属于步骤1中构建的语音-语义库内容，则提取该语音信息的语义特征ID，接着对提取出的语义特征ID进行重新配对(提取、配对的过程就是语义压缩处理过程)，得到语音传输模块能够识别的语义压缩代码串；

若该语音不属于语音-语义库内容，将抛弃该输入语音，等待新的语音输入；发送端语音处理流程图如图3所示。

所述步骤4中，数据包P包括帧标识头、发送端ID、各语音文本信息相应语义特征ID、接收端ID和帧结尾。

所述语义匹配为执行如下判断：

首先判断发送端ID与接收端ID是否匹配，若匹配，则对接收到的数据包进行语义恢复解码处理(提取数据包P中的语义特征ID，将其恢复为相应的语音文本信息)，通信机R的语音传输模块对此语音文本信息进行语音合成处理，合成为中文音频，之后通过声音播放设备将合成后的中文音频播报出来；若不匹配，该数据包将被抛弃，然后重新切换到接收模式，等待接收新的传输数据包。接收端语音处理流程图如图4所示。

本发明的有益效果在于提出的基于语义压缩的水声语音数字传输方法，通过对语音信息进行语义特征提取后建立的语音-语义压缩映射关系而定义的语义压缩及恢复方法，大大压缩单条语音的传输数据量，有效降低对传输带宽的要求，克服抗干扰差、易失真等缺陷，减少由于水声信道带宽严重受限而产生的码间干扰的影响，提高了语音传输过程的稳定性。同时，传统的数字化语音压缩编码方法能够将语音传输对物理层通信速率要求降低至600bps，本发明方法将语音传输对物理层通信速率要求降低至100bps以下，大大降低数字语音传输对水声信道带宽的要求，同时也有效降低了传输能耗。综上，使用该方法在复杂恶劣、时变空变水声信道中也可实现稳健、可靠、高可懂度的水声语音中远程传输。

经过水池与湖上试验验证，基于本发明方法构建的水声数字语音传输系统，语音传输可懂度达到100％，性能远高于现有的水声语音传输方法。

附图说明

图1是本发明语音播报总体流程图。

图2是本发明语音-语义库构建流程图。

图3是本发明发送端语音处理流程图。

图4是本发明接收端语音处理流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

图1为本发明的语音播报总体流程图。更具体的，构建一个水下数字语音通信系统，该通信系统工作频段为7.5-12.5KHZ，采用扩频通信技术，通信速率根据信道质量在30bps到500bps之间自适应调节，定义两套通信机分别为节点0和节点1，设定节点0为发送端、节点1为接收端，反之亦可。

步骤1：通过离线自学习，对某场景下需要用到的语音文本信息进行特征提取处理，提取语音数据的语义特征，并建立各语音信息及其语义特征的专有压缩映射关系(语音文本信息—语义特征ID)，通过上述建立的压缩映射关系构建出适用于该场景下的语音-语义库(语音-语义库容量X＝300个)，初步完成语音数据的高效压缩。语音-语义库构建流程图如图2所示。

步骤2：语音-语义库构建完成后，将步骤1构建好的语音-语义库分别输入到节点0和节点1两套通信机的语音传输模块中，使该两处节点的通信机均能够通过步骤1中设定好的语音-语义库识别语音-语义库中包含的语音信息，以确保语音传输顺利进行。

步骤3：通过节点0(发送端)处的麦克风设备来说出想要发送的语音信息，该节点通信机的语音传输模块识别到语音输入后，将执行如下判断：

若该语音属于步骤1中构建好的语音-语义库内容，则提取该语音信息的语义特征ID，接着对提取出的语义特征ID进行重新配对(提取、配对的过程就是语义压缩处理过程)，得到语音传输模块能够识别的语义压缩代码串；否则将抛弃该输入语音，等待新的语音输入。发送端语音处理流程图如图3所示。

步骤4：经过步骤3中的语义压缩处理后得到的语义压缩代码串为一组数据包P，通过节点0(发送端)处的通信机将该数据包发送至节点1(接收端)处。该数据包由以下几个部分组成：帧标识头、发送端ID、各语音文本信息相应语义特征ID、接收端ID、帧结尾。该系统数据包长度为10个字节。

步骤5：在节点1(接收端)通过声音播放设备播放自发送端语音传输模块成功识别并通过通信机S成功传输到通信机R的语音信息，通信机R接收到数据包P后，执行如下判断：首先判断发送端ID(此处为0)与接收端ID(此处为1)是否匹配，若匹配，则对接收到的数据包进行语义恢复解码处理(提取数据包P中的语义特征ID，将其恢复为相应的语音文本信息)，节点1(接收端)通信机的语音传输模块对此语音文本信息进行语音合成处理，合成为中文音频，进而进行语音播报；否则，该数据包将被抛弃，然后重新切换到接收模式，等待接收新的传输数据包。接收端语音处理流程图如图4所示。

使用本发明构建的水下数字语音通信系统，经过水池与湖上试验验证，依据国军标GJB2763-96规定的测试集内容进行语音传输性能测试。陕西礼泉县醴泉湖湖试结果表明，在数据传输率为30bps，通信距离可达2.7km的条件下，基于本发明所构建的水声数字语音传输系统，语音传输成功率为100％，语音传输可懂度达到100％，水声数字语音传输性能远高于现有的水声语音传输方法。

以上所述的实施例仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于语义压缩的水声语音数字传输方法，其特征在于包括下述步骤：

步骤1：有两套水声通信机S、R欲进行语音传输，其中S为发送端，R为接收端；通过离线自学习，对工作场景需要使用的语音文本信息进行特征提取处理，提取语音数据的语义特征，并建立各语音信息及其语义特征的压缩映射关系，压缩映射关系为语音文本信息—语义特征ID，通过压缩映射关系构建出适用于该工作场景下的语音-语义库，初步完成语音数据的高效压缩；

步骤2：语音-语义库构建完成后，将步骤1构建好的语音-语义库分别输入到S、R两套通信机的语音传输模块中，使S、R两套通信机均能够通过步骤1中设定好的语音-语义库识别语音-语义库中包含的语音信息，以确保语音传输顺利进行；

2.根据权利要求1所述的基于语义压缩的水声语音数字传输方法，其特征在于：

3.根据权利要求1所述的基于语义压缩的水声语音数字传输方法，其特征在于：

所述语音压缩为执行如下判断：

若该语音属于步骤1中构建的语音-语义库内容，则提取该语音信息的语义特征ID，接着对提取出的语义特征ID进行重新配对，得到语音传输模块能够识别的语义压缩代码串；

若该语音不属于语音-语义库内容，将抛弃该输入语音，等待新的语音输入。

4.根据权利要求1所述的基于语义压缩的水声语音数字传输方法，其特征在于：

5.根据权利要求1所述的基于语义压缩的水声语音数字传输方法，其特征在于：

所述语义匹配为执行如下判断：

首先判断发送端ID与接收端ID是否匹配，若匹配，则对接收到的数据包进行语义恢复解码处理，通信机R的语音传输模块对此语音文本信息进行语音合成处理，合成为中文音频，之后通过声音播放设备将合成后的中文音频播报出来；若不匹配，该数据包将被抛弃，然后重新切换到接收模式，等待接收新的传输数据包。