CN113395116A - 一种基于语义压缩的水声语音数字传输方法 - Google Patents

一种基于语义压缩的水声语音数字传输方法 Download PDF

Info

Publication number
CN113395116A
CN113395116A CN202110595072.5A CN202110595072A CN113395116A CN 113395116 A CN113395116 A CN 113395116A CN 202110595072 A CN202110595072 A CN 202110595072A CN 113395116 A CN113395116 A CN 113395116A
Authority
CN
China
Prior art keywords
voice
semantic
compression
transmission
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110595072.5A
Other languages
English (en)
Inventor
赵瑞琴
解伟亮
申晓红
陈帆
王超
杨港
锁健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110595072.5A priority Critical patent/CN113395116A/zh
Publication of CN113395116A publication Critical patent/CN113395116A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于语义压缩的水声语音数字传输方法,构建出语音‑语义库,将语音‑语义库分别输入通信机的语音传输模块中,用户通过麦克风说出想要发送的语音信息,通信机S的语音传输模块识别到语音输入后,完成语义压缩处理得到的语义压缩代码串,并发送至接收端,在接收端通过声音播放设备播放自发送端语音传输模块成功识别的语音信息,完成语义匹配。本发明大大压缩单条语音的传输数据量,有效降低对传输带宽的要求,克服抗干扰差、易失真等缺陷,减少由于水声信道带宽严重受限而产生的码间干扰的影响,提高了语音传输过程的稳定性,大大降低数字语音传输对水声信道带宽的要求,同时也有效降低了传输能耗。

Description

一种基于语义压缩的水声语音数字传输方法
技术领域
本发明涉及水声语音通信领域,涉及水声学,水声通信等,具体是一种水声数字语音传输方法。
背景技术
在人类步入21世纪的今天,海洋作为地球上的一个特殊空间,无论是它的物质资源价值,或是政治经济价值,都远远超出人们原有的认识。伴随着科学技术的不断发展,使人类能够有条件走向海洋、探索海洋。由于无线电波和光波在海水介质中的衰减速度很快,必须利用声波才能实现远距离的水声通信,因此,水声通信技术得到了充分的发展,这是实现水声语音通信的必要组成部分,为水声语音信息的顺利传输提供保障,也是当前海洋科技研究中的关键技术之一。
水声语音通信是一种最重要和最直接的水下通信方式,这使得人们对水下语音通信技术的研究更加迫切。水声语音通信技术最初应用于军事领域,随着人类海洋活动的增加和对海洋资源利用程度的提高,水声语音通信技术开始应用于民用领域,为海洋科考、资源勘探及潜水等提供服务。
水下语音通信可分为模拟和数字两种调制方式。由于海洋环境的复杂性与水声信道的特殊性,水声信道带宽非常有限。由于数字语音通信对信道带宽有着极高的要求,为实现正常语速的水下语音传输,现有的水声语音通信设备大多模拟单边带调制技术,比如美国海军使用的AN/WQC-2A单边带语音通信机、WHOI研制的模拟调频水声通信样机等,但模拟调制的通信方式受海洋水文环境的影响很大,难以克服浅海水声信道的时变强、多径干扰、带宽受限严重及多普勒效应影响,使得通信的误码率很高,工作距离很短,无法减小水声信道的衰落引发的信号畸变,从而语音通信质量难以保证。而且,由于采用模拟调制方式,使得系统功率利用效率相对较低。数字语音通信具有传输距离远、语音传输质量高的优势,是陆地电磁波传输环境下被广泛的采用的传输技术。然而,在复杂恶劣的海洋水声信道面临严重的多径效应与多普勒效应,通信接收端通常需使用复杂的自适应时域信道均衡和纠错编码技术,系统实现较为复杂;更为严峻的是,数字语音传输需要高的传输带宽,而中远程的水声信道带宽很低,无法为高质量的数字语音传输提供保障,这也是目前水下语音传输大多采用模拟调制的主要原因。
发明内容
为了克服现有技术的不足,本发明提供一种基于语义压缩的水声语音数字传输方法。为了在恶劣水声信道中获得传输距离远、质量高以及语音可懂度高的传输性能,本发明提出了一种具有低带宽要求的水声数字语音传输方法。该方法基于智能语义学习,大大压缩语音传输对水声信道带宽的要求,旨在复杂恶劣、时变空变水声信道中构建并实现稳健、可靠、高可懂度的水声语音中远程传输。
本发明解决其技术问题所采用的技术方案的详细步骤如下:
步骤1:有两套水声通信机S、R欲进行语音传输,其中S为发送端,R为接收端;通过离线自学习,对工作场景需要使用的语音文本信息进行特征提取处理,提取语音数据的语义特征,并建立各语音信息及其语义特征的压缩映射关系,压缩映射关系为语音文本信息—语义特征ID,通过压缩映射关系构建出适用于该工作场景下的语音-语义库,初步完成语音数据的高效压缩。语音-语义库构建流程图如图2所示。
步骤2:语音-语义库构建完成后,将步骤1构建好的语音-语义库分别输入到S、R两套通信机的语音传输模块中,使S、R两套通信机均能够通过步骤1中设定好的语音-语义库识别语音-语义库中包含的语音信息,以确保语音传输顺利进行。
步骤3:在发送端,用户通过麦克风说出想要发送的语音信息,通信机S的语音传输模块识别到语音输入后,完成语义压缩;
步骤4:经过步骤3中的语义压缩处理得到的语义压缩代码串为一组数据包P,通过通信机S将该数据包P发送至接收端;
步骤5:在接收端通过声音播放设备播放自发送端语音传输模块成功识别并通过通信机S成功传输到通信机R的语音信息,通信机R接收到数据包后,完成语义匹配。
所述语音-语义库容量为X个,X为正整数,X的取值依据实际应用场景所需语音文本信息的数量进行设定。
所述语音压缩为执行如下判断:
若该语音属于步骤1中构建的语音-语义库内容,则提取该语音信息的语义特征ID,接着对提取出的语义特征ID进行重新配对(提取、配对的过程就是语义压缩处理过程),得到语音传输模块能够识别的语义压缩代码串;
若该语音不属于语音-语义库内容,将抛弃该输入语音,等待新的语音输入;发送端语音处理流程图如图3所示。
所述步骤4中,数据包P包括帧标识头、发送端ID、各语音文本信息相应语义特征ID、接收端ID和帧结尾。
所述语义匹配为执行如下判断:
首先判断发送端ID与接收端ID是否匹配,若匹配,则对接收到的数据包进行语义恢复解码处理(提取数据包P中的语义特征ID,将其恢复为相应的语音文本信息),通信机R的语音传输模块对此语音文本信息进行语音合成处理,合成为中文音频,之后通过声音播放设备将合成后的中文音频播报出来;若不匹配,该数据包将被抛弃,然后重新切换到接收模式,等待接收新的传输数据包。接收端语音处理流程图如图4所示。
本发明的有益效果在于提出的基于语义压缩的水声语音数字传输方法,通过对语音信息进行语义特征提取后建立的语音-语义压缩映射关系而定义的语义压缩及恢复方法,大大压缩单条语音的传输数据量,有效降低对传输带宽的要求,克服抗干扰差、易失真等缺陷,减少由于水声信道带宽严重受限而产生的码间干扰的影响,提高了语音传输过程的稳定性。同时,传统的数字化语音压缩编码方法能够将语音传输对物理层通信速率要求降低至600bps,本发明方法将语音传输对物理层通信速率要求降低至100bps以下,大大降低数字语音传输对水声信道带宽的要求,同时也有效降低了传输能耗。综上,使用该方法在复杂恶劣、时变空变水声信道中也可实现稳健、可靠、高可懂度的水声语音中远程传输。
经过水池与湖上试验验证,基于本发明方法构建的水声数字语音传输系统,语音传输可懂度达到100%,性能远高于现有的水声语音传输方法。
附图说明
图1是本发明语音播报总体流程图。
图2是本发明语音-语义库构建流程图。
图3是本发明发送端语音处理流程图。
图4是本发明接收端语音处理流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
图1为本发明的语音播报总体流程图。更具体的,构建一个水下数字语音通信系统,该通信系统工作频段为7.5-12.5KHZ,采用扩频通信技术,通信速率根据信道质量在30bps到500bps之间自适应调节,定义两套通信机分别为节点0和节点1,设定节点0为发送端、节点1为接收端,反之亦可。
步骤1:通过离线自学习,对某场景下需要用到的语音文本信息进行特征提取处理,提取语音数据的语义特征,并建立各语音信息及其语义特征的专有压缩映射关系(语音文本信息—语义特征ID),通过上述建立的压缩映射关系构建出适用于该场景下的语音-语义库(语音-语义库容量X=300个),初步完成语音数据的高效压缩。语音-语义库构建流程图如图2所示。
步骤2:语音-语义库构建完成后,将步骤1构建好的语音-语义库分别输入到节点0和节点1两套通信机的语音传输模块中,使该两处节点的通信机均能够通过步骤1中设定好的语音-语义库识别语音-语义库中包含的语音信息,以确保语音传输顺利进行。
步骤3:通过节点0(发送端)处的麦克风设备来说出想要发送的语音信息,该节点通信机的语音传输模块识别到语音输入后,将执行如下判断:
若该语音属于步骤1中构建好的语音-语义库内容,则提取该语音信息的语义特征ID,接着对提取出的语义特征ID进行重新配对(提取、配对的过程就是语义压缩处理过程),得到语音传输模块能够识别的语义压缩代码串;否则将抛弃该输入语音,等待新的语音输入。发送端语音处理流程图如图3所示。
步骤4:经过步骤3中的语义压缩处理后得到的语义压缩代码串为一组数据包P,通过节点0(发送端)处的通信机将该数据包发送至节点1(接收端)处。该数据包由以下几个部分组成:帧标识头、发送端ID、各语音文本信息相应语义特征ID、接收端ID、帧结尾。该系统数据包长度为10个字节。
步骤5:在节点1(接收端)通过声音播放设备播放自发送端语音传输模块成功识别并通过通信机S成功传输到通信机R的语音信息,通信机R接收到数据包P后,执行如下判断:首先判断发送端ID(此处为0)与接收端ID(此处为1)是否匹配,若匹配,则对接收到的数据包进行语义恢复解码处理(提取数据包P中的语义特征ID,将其恢复为相应的语音文本信息),节点1(接收端)通信机的语音传输模块对此语音文本信息进行语音合成处理,合成为中文音频,进而进行语音播报;否则,该数据包将被抛弃,然后重新切换到接收模式,等待接收新的传输数据包。接收端语音处理流程图如图4所示。
使用本发明构建的水下数字语音通信系统,经过水池与湖上试验验证,依据国军标GJB2763-96规定的测试集内容进行语音传输性能测试。陕西礼泉县醴泉湖湖试结果表明,在数据传输率为30bps,通信距离可达2.7km的条件下,基于本发明所构建的水声数字语音传输系统,语音传输成功率为100%,语音传输可懂度达到100%,水声数字语音传输性能远高于现有的水声语音传输方法。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (5)

1.一种基于语义压缩的水声语音数字传输方法,其特征在于包括下述步骤:
步骤1:有两套水声通信机S、R欲进行语音传输,其中S为发送端,R为接收端;通过离线自学习,对工作场景需要使用的语音文本信息进行特征提取处理,提取语音数据的语义特征,并建立各语音信息及其语义特征的压缩映射关系,压缩映射关系为语音文本信息—语义特征ID,通过压缩映射关系构建出适用于该工作场景下的语音-语义库,初步完成语音数据的高效压缩;
步骤2:语音-语义库构建完成后,将步骤1构建好的语音-语义库分别输入到S、R两套通信机的语音传输模块中,使S、R两套通信机均能够通过步骤1中设定好的语音-语义库识别语音-语义库中包含的语音信息,以确保语音传输顺利进行;
步骤3:在发送端,用户通过麦克风说出想要发送的语音信息,通信机S的语音传输模块识别到语音输入后,完成语义压缩;
步骤4:经过步骤3中的语义压缩处理得到的语义压缩代码串为一组数据包P,通过通信机S将该数据包P发送至接收端;
步骤5:在接收端通过声音播放设备播放自发送端语音传输模块成功识别并通过通信机S成功传输到通信机R的语音信息,通信机R接收到数据包后,完成语义匹配。
2.根据权利要求1所述的基于语义压缩的水声语音数字传输方法,其特征在于:
所述语音-语义库容量为X个,X为正整数,X的取值依据实际应用场景所需语音文本信息的数量进行设定。
3.根据权利要求1所述的基于语义压缩的水声语音数字传输方法,其特征在于:
所述语音压缩为执行如下判断:
若该语音属于步骤1中构建的语音-语义库内容,则提取该语音信息的语义特征ID,接着对提取出的语义特征ID进行重新配对,得到语音传输模块能够识别的语义压缩代码串;
若该语音不属于语音-语义库内容,将抛弃该输入语音,等待新的语音输入。
4.根据权利要求1所述的基于语义压缩的水声语音数字传输方法,其特征在于:
所述步骤4中,数据包P包括帧标识头、发送端ID、各语音文本信息相应语义特征ID、接收端ID和帧结尾。
5.根据权利要求1所述的基于语义压缩的水声语音数字传输方法,其特征在于:
所述语义匹配为执行如下判断:
首先判断发送端ID与接收端ID是否匹配,若匹配,则对接收到的数据包进行语义恢复解码处理,通信机R的语音传输模块对此语音文本信息进行语音合成处理,合成为中文音频,之后通过声音播放设备将合成后的中文音频播报出来;若不匹配,该数据包将被抛弃,然后重新切换到接收模式,等待接收新的传输数据包。
CN202110595072.5A 2021-05-28 2021-05-28 一种基于语义压缩的水声语音数字传输方法 Pending CN113395116A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110595072.5A CN113395116A (zh) 2021-05-28 2021-05-28 一种基于语义压缩的水声语音数字传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110595072.5A CN113395116A (zh) 2021-05-28 2021-05-28 一种基于语义压缩的水声语音数字传输方法

Publications (1)

Publication Number Publication Date
CN113395116A true CN113395116A (zh) 2021-09-14

Family

ID=77619511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110595072.5A Pending CN113395116A (zh) 2021-05-28 2021-05-28 一种基于语义压缩的水声语音数字传输方法

Country Status (1)

Country Link
CN (1) CN113395116A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220432A (zh) * 2021-11-15 2022-03-22 交通运输部南海航海保障中心广州通信中心 基于海事单边带语音自动监听方法、系统及存储介质
CN117496953A (zh) * 2023-12-29 2024-02-02 山东贝宁电子科技开发有限公司 一种基于语音增强技术的蛙人语音处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257354A (zh) * 2008-04-15 2008-09-03 哈尔滨工程大学 一种低码率的水下语音通信方法
CN101388731A (zh) * 2007-09-14 2009-03-18 刘林泉 一种低速率等效语音水声通信技术
CN103310793A (zh) * 2013-05-16 2013-09-18 厦门大学 一种水声实时数字语音通信方法
CN103971695A (zh) * 2014-05-23 2014-08-06 厦门大学 一种信道自适应的水下数字语音通信系统及其方法
CN111028825A (zh) * 2020-01-09 2020-04-17 哈尔滨工程大学 基于离线语音识别与合成的水声数字语音通信装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388731A (zh) * 2007-09-14 2009-03-18 刘林泉 一种低速率等效语音水声通信技术
CN101257354A (zh) * 2008-04-15 2008-09-03 哈尔滨工程大学 一种低码率的水下语音通信方法
CN103310793A (zh) * 2013-05-16 2013-09-18 厦门大学 一种水声实时数字语音通信方法
CN103971695A (zh) * 2014-05-23 2014-08-06 厦门大学 一种信道自适应的水下数字语音通信系统及其方法
CN111028825A (zh) * 2020-01-09 2020-04-17 哈尔滨工程大学 基于离线语音识别与合成的水声数字语音通信装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
喻聪: "一种低速率水下语音压缩技术的研究", 《声学与电子工程》, no. 01, 15 March 2016 (2016-03-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220432A (zh) * 2021-11-15 2022-03-22 交通运输部南海航海保障中心广州通信中心 基于海事单边带语音自动监听方法、系统及存储介质
CN117496953A (zh) * 2023-12-29 2024-02-02 山东贝宁电子科技开发有限公司 一种基于语音增强技术的蛙人语音处理方法
CN117496953B (zh) * 2023-12-29 2024-03-12 山东贝宁电子科技开发有限公司 一种基于语音增强技术的蛙人语音处理方法

Similar Documents

Publication Publication Date Title
CN113395116A (zh) 一种基于语义压缩的水声语音数字传输方法
EP1891762B1 (en) Underwater communications system
CN103714823B (zh) 一种基于综合语音编码的自适应水下通信方法
CN103402171B (zh) 在通话中分享背景音乐的方法和终端
CN103971695B (zh) 一种信道自适应的水下数字语音通信系统及其方法
CN103310793B (zh) 一种水声实时数字语音通信方法
CN105323198B (zh) 一种利用双曲调频进行水下信号发射和接收的方法
CN103457903A (zh) 一种数字式水下语音通信装置及水下语音通信方法
CN102034480A (zh) 一种水下数字语音的通信方法
CN105790854A (zh) 一种基于声波的短距离数据传输方法及装置
CN112953652B (zh) 基于分段时频轮廓时延调制的仿鲸目哨声通信方法
CN102402986A (zh) 变速率语音编码水声数字语音通信的方法
CN111976924A (zh) 一种用于潜水全面罩的实时信息交流装置
CN103198834B (zh) 一种音频信号处理方法、装置及终端
CN104753841B (zh) 移动终端及利用语音信道传输非语音数据的方法
CN105915293A (zh) 一种基于无线声波信号的声音数字信息传输系统及方法
CN102402851A (zh) 遥控器、接收器、以及声音遥控方法
CN115021829B (zh) 一种基于海洋环境噪声的数字脉冲间隔调制水声通信方法
CN213906675U (zh) 一种便携式无线蓝牙录音设备
CN102916803B (zh) 基于公用电话交换网的文件隐传方法
CN114387976B (zh) 一种基于声纹特征及语义压缩的水声语音数字通信方法
Fu et al. Scalable extraction based semantic communication for 6G wireless networks
CN205992904U (zh) 一种drm 数字调幅广播接收机
CN112235054B (zh) 一种全双工水声数字语音通信演示装置及其方法
CN116846484B (zh) 一种基于水中气枪源的极地冰下声通信方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination