CN116884404A - 多任务导向的语音语义通信方法、装置及系统 - Google Patents
多任务导向的语音语义通信方法、装置及系统 Download PDFInfo
- Publication number
- CN116884404A CN116884404A CN202311152322.3A CN202311152322A CN116884404A CN 116884404 A CN116884404 A CN 116884404A CN 202311152322 A CN202311152322 A CN 202311152322A CN 116884404 A CN116884404 A CN 116884404A
- Authority
- CN
- China
- Prior art keywords
- semantic
- decoder
- channel
- voice
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000005540 biological transmission Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 72
- 230000006978 adaptation Effects 0.000 claims description 25
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 230000008451 emotion Effects 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 10
- 230000008909 emotion recognition Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001251371 Betula chinensis Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种多任务导向的语音语义通信方法、装置及系统。语音语义通信方法包括:构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器,每种语义解码器对应处理一种语音通信任务;基于语义编码器,从待通信语音信源中提取出多任务通用语义特征;基于信源信道联合编码器,对多任务通用语义特征进行信道编码并通过信道传输至信源信道联合解码器;信源信道联合解码器对完成信道编码的多任务通用语义特征进行信道解码,以获得已解码语义特征;根据目标语音通信任务从多种语义解码器中选择相应的语义解码器,以对已解码语义特征进行语义解码。本发明可以实现单次通信同时完成多个任务,在全流程上实现更高效的语义传达。
Description
技术领域
本发明涉及语义通信技术领域,尤其涉及一种多任务导向的语音语义通信方法、装置及系统。
背景技术
近年来,随着5G、6G时代对于通信效率提升的需求,以及人工智能技术在各领域中的落地应用,基于深度学习的语义通信技术成为解决传统信息传输瓶颈的一种可行途径。相比于传统通信技术中将信源编码后传输,语义通信技术将从信源中提取的语义信息编码后传输。现有研究表明,语义通信方式具有更高的通信效率和抗信道干扰能力。
目前,语义通信已成为相关领域的研究热点方向,研究成果频出。Zhijin Qin、Xiaoming Tao、 Jianhua Lu等学者在其发表的论文“Semantic Communications:Principles and Challenges”(2021.DOI:10.48550/arXiv.2201.01389)中设计语义通信系统是一个由语义编码、信源信道联合编码、信源信道联合解码、语义解码等模块组成的端到端系统,用于图像/视频、文本、语音等多模态信息的语义通信。更深入地,在语音信号语义通信方面,Zhenzi Weng、Zhijin Qin等学者在其发表的论文“Semantic CommunicationSystems for Speech Transmission”(IEEE JOURNAL ON SELECTED AREASINCOMMUNICATIONS, VOL. 39, NO. 8, AUGUST 2021)中,以恢复信源语音信号为任务目标,设计了基于SE-ResNet网络的语义编解码网络及端到端的语音语义通信系统。ZhenziWeng、Zhijin Qin、Geoffrey Ye Li等学者在论文“Deep Learning Enabled SemanticCommunications with Speech Recognition and Synthesis”(IEEE Transactions onWireless Communications, doi: 10.1109/TWC.2023.3240969)中,以语音识别为任务目标,以基于CNN与BRNN网络的语义编码器提取语音信源中与文本相关的语义特征进行通信。整体上看,目前关于语义通信系统组成架构已达成一定的共识,学者在语义编解码器设计方面展开了多样的研究。
综上所述,在语义通信的多任务处理方面,目前研究正试图寻找一种通用的语义编解码器,以简化不同通信任务中语义通信系统的开发复杂度。语音随着语义通信技术研究的深入,研究学者在多用户、多任务场景通信方面也展开了研究。Huiqiang Xie、ZhijinQin、Xiaoming Tao、Khaled B. Letaief等学者在论文“Task-Oriented Multi-UserSemantic Communications”(2021.DOI:10.48550/arXiv.2112.10255)中,针对多用户场景、以多个智能任务(图像检索、机器翻译和视觉问答)作为语义通信系统的传输目标,设计了一种基于transformer的语义编解码网络,以统一不同任务的通信发射端。专利CN202210998292.7中认为上述论文中主要提出了多对一和多对多通信系统,由此设计提出一种一对多的多用户文本语义通信方法,基于语义识别器对接收端恢复出的原语句进行区分,按照多用户不用的需求输出相应语句;通过系统模型直接利用各用户信息的语义特征来区分不同的用户,简化了多用户通信的传输程序,提高了信息传输效率。专利CN202211371897 .X提出一种包括语义编码器、信源信道联合编码器、弹性特征选择器、信源信道联合译码器和语义译码器的语义通信系统,并以智能交通系统中三个常见的语义智能任务(车辆身份重识别、车辆颜色分类、车辆类型分类)为例说明系统有效性。该专利针对多任务通信,在语义编解码器训练中,每个任务对应一个语义解码器,训练损失函数为多个任务损失函数的加权,但这种训练方式得到的语义编码器理论上只针对于参与训练过程的固定几个任务,也无法应对任意任务。
语音是人类沟通交流的一种主要方式,语音中除了包含表达内容信息外,还包含说话人情绪信息、说话人身份信息、说话背景环境信息等,语音语义通信是一个典型的多任务通信问题,而目前的语音语义通信研究中,更多的是面向单任务的,如恢复信源语音信号、恢复信源语音信号中的文本信息等。考虑在实际应用中,接收端的任务可能是变化的,如发送端采集到指定场所中若干人的语音信号,接收端需要从中提取到某个指定人物的说话内容。针对这个场景,参考上述调研到的研究成果,通信任务可能设计为恢复信源语音信号,再基于恢复出的语音信号进行说话人分割聚类、说话人识别,再基于分割出的指定人物的语音识别出对应的文本内容。或者是,在发送端分别以说话人分割聚类特征、说话人识别特征、文本语义特征作为语义通信特征进行传输,在接收端搭配不同任务解码器获取相应信息,再进行多组信息的联合判断。第一种方式只是利用语义通信减少通信内容,但没有充分发挥出“达意”系统的价值;第二种方式又较为复杂,本质是用单任务通信解决多任务问题,并不能单次通信同时完成多个任务。
发明内容
本发明实施例提供一种多任务导向的语音语义通信方法、装置及系统,用以解决现有技术中语音语义通信面向多任务效率低的问题。
本发明实施例的多任务导向的语音语义通信方法,包括:
构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器,每种所述语义解码器对应处理一种语音通信任务;所述多种语义解码器包括但不限于语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器;
基于所述语义编码器,从待通信语音信源中提取出多任务通用语义特征;
基于所述信源信道联合编码器,对所述多任务通用语义特征进行信道编码,并通过信道将完成信道编码的多任务通用语义特征传输至所述信源信道联合解码器;
所述信源信道联合解码器对完成信道编码的多任务通用语义特征进行信道解码,以获得已解码语义特征;
确定目标语音通信任务,并根据所述目标语音通信任务从所述多种语义解码器中选择相应的语义解码器;
基于选择的语义解码器对所述已解码语义特征进行语义解码。
本发明实施例的多任务导向的语音语义通信装置,包括:
信源信道联合解码器,用于从信道获取完成信道编码的多任务通用语义特征并对其进行信道解码,以获得已解码语义特征;
语义解码单元,包括多种语义解码器,每种所述语义解码器对应处理一种语音通信任务;所述多种语义解码器包括但不限于语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器;
所述语义解码单元用于确定目标语音通信任务,并根据所述目标语音通信任务从所述多种语义解码器中选择相应的语义解码器,并将所述已解码语义特征输入选择的语义解码器。
本发明实施例的多任务导向的语音语义通信系统,包括:
如上所述的多任务导向的语音语义通信装置;
语义编码器,用于从待通信语音信源中提取出多任务通用语义特征;
信源信道联合编码器,用于对所述多任务通用语义特征进行信道编码,并通过信道将完成信道编码的多任务通用语义特征传输至所述多任务导向的语音语义通信装置中的信源信道联合解码器。
采用本发明实施例,通过为语音多任务语义通信提供一种多任务通用的语义特征,可以真正实现单次通信同时完成多个任务,在全流程上实现更高效的语义传达。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1 是本发明实施例中多任务导向的语音语义通信方法流程图;
图2 是本发明实施例中多任务导向的语音语义通信系统的工作原理图;
图3 是本发明实施例中语义编码器的网络结构图;
图4 是本发明实施例中信道适应器的网络结构图;
图5 是本发明实施例中多任务导向的语音语义通信系统多阶段训练流程图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。另外,在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本发明实施例的多任务导向的语音语义通信方法,包括:
构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器,每种所述语义解码器对应处理一种语音通信任务;所述多种语义解码器包括但不限于语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器;
基于所述语义编码器,从待通信语音信源中提取出多任务通用语义特征;需要强调的是,这里的多任务通用语义特征是全方面语音信号内在表征的语义特征,是一种多任务通用的语义特征,而不是针对不同的通信任务提取不同的语义特征。
基于所述信源信道联合编码器,对所述多任务通用语义特征进行信道编码,并通过信道将完成信道编码的多任务通用语义特征传输至所述信源信道联合解码器;
所述信源信道联合解码器对完成信道编码的多任务通用语义特征进行信道解码,以获得已解码语义特征;
确定目标语音通信任务,并根据所述目标语音通信任务从所述多种语义解码器中选择相应的语义解码器;
基于选择的语义解码器对所述已解码语义特征进行语义解码。
需要说明的是,这里所述的确定目标语音通信任务可以是一种目标语音通信任务,也可以是多种目标语音通信任务,那么对应的,就选择一种或多种语义解码器,然后将已解码语义特征分别输入选择出的每种语义解码器进行语义解码,以完成语音通信任务。
本发明实施例的多任务导向的语音语义通信方法中“多任务”具体是指提取到的语义特征可以服务于多种通信任务,通过为语音多任务语义通信提供一种多任务通用的语义特征,可以真正实现单次通信同时完成多个任务,在全流程上实现更高效的语义传达。
在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。
根据本发明的一些实施例,所述方法还包括:
构建信道适应器;
利用所述信道适应器,根据信道传输条件对所述已解码语义特征进行调整;
所述选择的语义解码器适于对调整后的已解码语义特征进行语义解码。
所述信道适应器用于微调语义特征的表示以适应不同信道传输条件。
设计信道适应器可以提高多任务导向的语音语义通信方法对不同信道条件的适应能力,以降低多任务语音语义通信系统训练复杂度。
进一步的,信道适应模型包括依次连接的两个第一3×3卷积层、第二transformerencoder、两个第二3×3卷积层、以及一个全连接层。
在本发明的一些实施例中,所述构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器,构建信道适应器,包括:
搭建语义编码模型,并收集语音数据;
基于收集到的每个所述语音数据对所述语义编码模型进行自监督训练,以获得语义编码器;
语义编码器的训练旨在得到一个可以提取到全方面语音信号内在表征的语义特征,因此,在语义编码器训练中,首先需要准备大量的语音数据,可选的语音数据库可以是GigaSpeech数据集(通过电子书、播客和YouTube收集得到,内容涵盖艺术、科学、体育等主题)、VoxPopuli数据集(一个大规模的多语言音频数据集)、LibriLight的电子书数据集、aishell数据集等。
搭建多种语义解码模型,每种所述语义解码模型对应处理一种语音通信任务;
针对每种所述语音通信任务,采用对应的训练数据,结合所述语义编码器,对相应的语义解码模型进行训练,以获得对应的初始语义解码器;
针对不同的语音通信任务,需要准备不同的训练数据。如针对语音识别任务,训练数据是成对标注的语音-文本数据;针对语音情感识别任务,训练数据是成对标注的语音-情感数据;以此类推。在本阶段训练中,语音数据可采用对应任务领域开源的大量语音数据进行训练,或基于对应任务领域成熟的预训练模型进行二次训练,从而训练得到性能良好的各任务语义解码器的预训练模型。
搭建信源信道联合编码模型、信源信道联合解码模型和信道适应模型,并构建多种信道传输条件下的待通信语音数据;
基于所述待通信语音数据,结合所述语义编码器,联合训练所述信源信道联合编码模型、所述信源信道联合解码模型和所述信道适应模型,以获得所述信源信道联合编码器、所述信源信道联合解码器和所述信道适应器;
针对每种所述语音通信任务,采用对应的训练数据,结合所述语义编码器、所述信源信道联合编码器、所述信源信道联合解码器和所述信道适应器,对相应的初始语义解码器进行调整,以获得对应的语义解码器。
进一步的,所述信源信道联合编码模型和所述信源信道联合解码模型均包括5层时延神经网络。
进一步的,所述基于收集到的每个所述语音数据对所述语义编码模型进行自监督训练,以获得语义编码器,包括:
将所述语音数据依次通过多个时间卷积块、层归一化处理模块、GELU激活层,以提取出所述语音数据的初级语义特征;
对所述初级语义特征进行特征掩蔽处理,掩蔽率在40%~50%之间;
将特征掩蔽处理后的初级语义特征作为第一transformer encoder的输入,进行自注意力学习,并通过融合门控相对位置偏差信息提高网络学习能力;
通过k-means方法将所述第一transformer encoder输出的连续信号特征转换为标签,计算掩蔽位置预测的标签与设定标签间误差作为损失函数,迭代训练所述语义编码模型。
进一步的,所述基于所述待通信语音数据,结合所述语义编码器,联合训练所述信源信道联合编码模型、所述信源信道联合解码模型和所述信道适应模型,包括:
将所述待通信语音数据作为所述语义编码器的输入,输出第一语义特征;
将所述第一语义特征输入所述信源信道联合编码模型,输出第二语义特征;
将所述第二语义特征通过所述信道传输后输入所述信源信道联合解码模型,输出第三语义特征;
将所述第三语义特征输入所述信道适应模型,输出第四语义特征;
将所述第四语音特征与所述第一语义特征间的均方根误差作为训练的损失函数,迭代训练所述信源信道联合编码模型、所述信源信道联合解码模型和所述信道适应模型。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来。
本发明实施例的多任务导向的语音语义通信装置,包括:
信源信道联合解码器,用于从信道获取完成信道编码的多任务通用语义特征并对其进行信道解码,以获得已解码语义特征;
语义解码单元,包括多种语义解码器,每种所述语义解码器对应处理一种语音通信任务;所述多种语义解码器包括但不限于语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器;
所述语义解码单元用于确定目标语音通信任务,并根据所述目标语音通信任务从所述多种语义解码器中选择相应的语义解码器,并将所述已解码语义特征输入选择的语义解码器。
根据本发明的一些实施例,本发明实施例的多任务导向的语音语义通信装置还包括:
信道适应器,用于根据信道传输条件对所述已解码语义特征进行调整;
所述语义解码单元用于将调整后的已解码语义特征输入选择的语义解码器。
进一步的,所述信道适应器包括依次连接的两个第一3×3卷积层、第二transformer encoder、两个第二3×3卷积层、以及一个全连接层。
本发明实施例的多任务导向的语音语义通信系统,包括:
如上所述的多任务导向的语音语义通信装置;
语义编码器,用于从待通信语音信源中提取出多任务通用语义特征;
信源信道联合编码器,用于对所述多任务通用语义特征进行信道编码,并通过信道将完成信道编码的多任务通用语义特征传输至所述多任务导向的语音语义通信装置中的信源信道联合解码器。
进一步的,所述信源信道联合编码器和所述信源信道联合解码器均包括5层时延神经网络。
下面参照附图以一个具体的实施例详细描述本发明实施例的多任务导向的语音语义通信系统。值得理解的是,下述描述仅是示例性描述,而不应理解为对本发明的具体限制。
参照图2所示,本发明实施例的多任务导向的语音语义通信系统遵循目前端到端语义通信系统的基本架构,包括:语义编码器、信源信道联合编码器、信源信道联合解码器、信道适应器、语义解码器。其中,语义编码器基于大量语音数据自监督训练得到,具备提取语音信号多方面信息(语义内容、情绪、音色、声纹等)的能力,是一个与通信任务无关的语义特征提取器;信源信道联合编码器、信源信道联合解码器和信道适应器的训练,以语义编码器输出作为输入,以尽可能恢复出输入特征为训练目标;语义解码器的训练分为两个阶段,首先基于语义编码器输出训练出初始语义编码器,然后基于语义编码器-信源信道联合编码器-信源信道联合解码器-信道适应器输出,微调初始语义编码器得到语义解码器。
参见图1,本发明实施例的多任务导向的语音语义通信系统工作过程包括:
S1,将待通信语音信源作为语义编码器的输入,输出任务无关的语义特征(即多任务通用语义特征);
所述语义编码器是一种通用的、与任务无关的语音语义特征提取器,由大量语音数据通过自监督学习训练得到,搭建的语义编码模型包括若干个时间卷积块和transformer编码结构组成,参见图3。
所述语义编码器的训练旨在得到一个可以提取到全方面语音信号内在表征的语义特征。因此,在语义编码器训练中,首先需要准备大量的语音数据,可选的语音数据库可以是GigaSpeech数据集(通过电子书、播客和YouTube收集得到,内容涵盖艺术、科学、体育等主题)、VoxPopuli数据集(一个大规模的多语言音频数据集)、LibriLight的电子书数据集、aishell数据集等。
鉴于近来transformer模型在多个领域中的成功应用,考虑语音信号的时序性,语义编码网络结构主体由时间卷积和transformerencoder组成。参见图3,语音信号首先通过若干个时间卷积块、层归一化处理、GELU激活层后提取到初级语义特征,然后对初级语义特征进行随机掩蔽,掩蔽率在40%~50%之间,而后将掩蔽处理后的特征作为transformerencoder的输入,进行自注意力学习,并通过融合门控相对位置偏差信息提高网络学习能力;最后,通过k-means方法将连续信号特征转换为标签,计算掩蔽位置的预测标签与设定标签间误差作为损失函数,由此迭代训练模型。
由于所述语义编码器基于任务无关语音数据自监督训练得到,因此语义编码器的输出不针对具体的通信任务,而是尽可能表征语音信号中蕴含的声学、语言学等方面的信息。
S2,将所述语义特征作为信源信道联合编码器的输入,输出编码后的语义特征进行传输;
S3,将接收到的语义特征作为信源信道联合解码器的输入,输出解码后的语义特征;
所述信源信道联合编码器和信源信道联合解码器均由5层的时延神经网络组成。时延神经网络是本领域技术人员应当知晓的神经网络,故在此不再赘述。
S4,将解码后的语义特征作为信道适应器的输入,输出任务相关的语义特征;
参见图4,所述信道适应器用于微调语义特征的表示以适应不同信道传输条件,具体由依次连接的2个3×3卷积层、若干transformer编码块、2个3×3卷积层、一个全连接层组成。在具体应用中,考虑各模块间的匹配应用能力,所述信道适应器与信源信道联合编码器、解码器联合训练得到。
S5,将任务相关的语义特征作为对应任务语义解码器的输入,输出任务结果。
所述语义解码器根据不同下游任务选择,如语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器等。
需要注意的是,本发明所述多任务导向中的“多任务”具体是指语义编码器提取到的语义特征可以服务于多种通信任务,是一种多任务通用的语义特征,而不是针对不同的通信任务提取不同的语义特征;而语义解码器以完成下游任务为目标,本身也可以通过多任务学习方式训练得到,如身份情感多任务识别解码器,本申请强调二者的区别。
参见图5,所述语音语义通信系统的训练分为4个阶段,具体包括以下步骤:
(1)训练阶段1:基于大量语音数据,自监督训练得到语义编码器;
在具体应用中,训练好的语义编码器在后续训练阶段中模型参数固定不变,作为语义特征提取器调用使用。
(2)训练阶段2:对每种语音通信任务,采用对应的训练语音数据,基于训练好的语义编码器提取语义特征作为语义解码器的输入,训练得到各任务语义解码器的预训练模型;
在具体应用中,针对不同的通信任务,需要准备不同的训练数据。如针对语音识别任务,训练数据是成对标注的语音-文本数据;针对语音情感识别任务,训练数据是成对标注的语音-情感数据;以此类推。在本阶段训练中,语音数据可采用对应任务领域开源的大量语音数据进行训练,或基于对应任务领域成熟的预训练模型进行二次训练,从而训练得到性能良好的各任务语义解码器的预训练模型。
(3)训练阶段3:基于多种信道待通信语音数据和训练好的语义编码器,训练信源信道联合编码器、信源信道联合解码器和信道适应器;
在具体应用中,所述基于多种信道待通信语音数据和训练好的语义编码器,训练信源信道联合编码器、信源信道联合解码器和信道适应器,具体训练步骤如下:
事先准备多种信道条件下的待通信语音数据组成训练数据集、验证集和测试集;
将待通信语音数据作为语义编码器的输入,输出语义特征1;
将语义特征1输入给信源信道联合编码网络,输出语义特征2;
语义特征2通过信道传输、信源信道联合解码网络后,输出语义特征3;
将语义特征3作为信道适应网络的输入,输出语义特征4;
以语义特征4尽可能恢复出语义特征1作为训练目标,将语音特征4与语义特征1间的均方根误差作为训练的损失函数,迭代训练最终得到信源信道联合编码器、信源信道联合解码器和信道适应器。
(4)训练阶段4:对每种语音通信任务,基于多种信道待通信语音数据和训练好的语义编码器、信源信道联合编解码器、信道适应器,微调语义解码器的预训练模型,得到最终的语义解码器。
考虑到实际应用中环境的复杂性,为进一步提升语音语义通信系统的性能,在训练好的语义编码器、信源信道联合编解码器、信道适应器基础上,对各任务语义解码器的预训练模型进行二次微调,进一步缓解本通信系统中可能存在的适配问题。
本发明实施例的有益效果体现在,通过设计训练多任务间通用的语音编码器,为语音多任务语义通信提供一种通用的语义特征;并设计信道适应器提高通信系统对不同信道条件的适应能力,以降低多任务语音语义通信系统训练复杂度,在全流程上实现更高效的语义传达。
需要说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
不应将位于括号之内的任何参考符号构造成对权利要求的限制。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。单词第一、第二、以及第三等的使用是用于区别类似的对象,不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种多任务导向的语音语义通信方法,其特征在于,包括:
构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器,每种所述语义解码器对应处理一种语音通信任务;所述多种语义解码器包括但不限于语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器;
基于所述语义编码器,从待通信语音信源中提取出多任务通用语义特征;
基于所述信源信道联合编码器,对所述多任务通用语义特征进行信道编码,并通过信道将完成信道编码的多任务通用语义特征传输至所述信源信道联合解码器;
所述信源信道联合解码器对完成信道编码的多任务通用语义特征进行信道解码,以获得已解码语义特征;
确定目标语音通信任务,并根据所述目标语音通信任务从所述多种语义解码器中选择相应的语义解码器;
基于选择的语义解码器对所述已解码语义特征进行语义解码。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
构建信道适应器;
利用所述信道适应器,根据信道传输条件对所述已解码语义特征进行调整;
所述选择的语义解码器适于对调整后的已解码语义特征进行语义解码。
3.如权利要求2所述的方法,其特征在于,所述构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器,构建信道适应器,包括:
搭建语义编码模型,并收集语音数据;
基于收集到的每个所述语音数据对所述语义编码模型进行自监督训练,以获得语义编码器;
搭建多种语义解码模型,每种所述语义解码模型对应处理一种语音通信任务;
针对每种所述语音通信任务,采用对应的训练数据,结合所述语义编码器,对相应的语义解码模型进行训练,以获得对应的初始语义解码器;
搭建信源信道联合编码模型、信源信道联合解码模型和信道适应模型,并构建多种信道传输条件下的待通信语音数据;
基于所述待通信语音数据,结合所述语义编码器,联合训练所述信源信道联合编码模型、所述信源信道联合解码模型和所述信道适应模型,以获得所述信源信道联合编码器、所述信源信道联合解码器和所述信道适应器;
针对每种所述语音通信任务,采用对应的训练数据,结合所述语义编码器、所述信源信道联合编码器、所述信源信道联合解码器和所述信道适应器,对相应的初始语义解码器进行调整,以获得对应的语义解码器。
4.如权利要求3所述的方法,其特征在于,所述基于收集到的每个所述语音数据对所述语义编码模型进行自监督训练,以获得语义编码器,包括:
将所述语音数据依次通过多个时间卷积块、层归一化处理模块、GELU激活层,以提取出所述语音数据的初级语义特征;
对所述初级语义特征进行特征掩蔽处理,掩蔽率在40%~50%之间;
将特征掩蔽处理后的初级语义特征作为第一transformer encoder的输入,进行自注意力学习,并通过融合门控相对位置偏差信息提高网络学习能力;
通过k-means方法将所述第一transformer encoder输出的连续信号特征转换为标签,计算掩蔽位置预测的标签与设定标签间误差作为损失函数,迭代训练所述语义编码模型。
5.如权利要求3所述的方法,其特征在于,所述基于所述待通信语音数据,结合所述语义编码器,联合训练所述信源信道联合编码模型、所述信源信道联合解码模型和所述信道适应模型,包括:
将所述待通信语音数据作为所述语义编码器的输入,输出第一语义特征;
将所述第一语义特征输入所述信源信道联合编码模型,输出第二语义特征;
将所述第二语义特征通过所述信道传输后输入所述信源信道联合解码模型,输出第三语义特征;
将所述第三语义特征输入所述信道适应模型,输出第四语义特征;
将所述第四语音特征与所述第一语义特征间的均方根误差作为训练的损失函数,迭代训练所述信源信道联合编码模型、所述信源信道联合解码模型和所述信道适应模型。
6.一种多任务导向的语音语义通信装置,其特征在于,包括:
信源信道联合解码器,用于从信道获取完成信道编码的多任务通用语义特征并对其进行信道解码,以获得已解码语义特征;
语义解码单元,包括多种语义解码器,每种所述语义解码器对应处理一种语音通信任务;所述多种语义解码器包括但不限于语音识别解码器、语音情感识别解码器、说话人身份识别解码器、身份情感多任务识别解码器、语音真伪识别解码器、语音伪造生成任务解码器;
所述语义解码单元用于确定目标语音通信任务,并根据所述目标语音通信任务从所述多种语义解码器中选择相应的语义解码器,并将所述已解码语义特征输入选择的语义解码器。
7.如权利要求6所述的装置,其特征在于,还包括:
信道适应器,用于根据信道传输条件对所述已解码语义特征进行调整;
所述语义解码单元用于将调整后的已解码语义特征输入选择的语义解码器。
8.如权利要求7所述的装置,其特征在于,所述信道适应器包括依次连接的两个第一3×3卷积层、第二transformer encoder、两个第二3×3卷积层、以及一个全连接层。
9.一种多任务导向的语音语义通信系统,其特征在于,包括:
如权利要求6-8中任一项所述的多任务导向的语音语义通信装置;
语义编码器,用于从待通信语音信源中提取出多任务通用语义特征;
信源信道联合编码器,用于对所述多任务通用语义特征进行信道编码,并通过信道将完成信道编码的多任务通用语义特征传输至所述多任务导向的语音语义通信装置中的信源信道联合解码器。
10.如权利要求9所述的系统,其特征在于,所述信源信道联合编码器和所述信源信道联合解码器均包括5层时延神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311152322.3A CN116884404B (zh) | 2023-09-08 | 2023-09-08 | 多任务导向的语音语义通信方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311152322.3A CN116884404B (zh) | 2023-09-08 | 2023-09-08 | 多任务导向的语音语义通信方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116884404A true CN116884404A (zh) | 2023-10-13 |
CN116884404B CN116884404B (zh) | 2023-12-15 |
Family
ID=88257222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311152322.3A Active CN116884404B (zh) | 2023-09-08 | 2023-09-08 | 多任务导向的语音语义通信方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884404B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489633A (zh) * | 2020-11-11 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 语音特征编码网络的训练方法、装置及存储介质 |
CN112489633B (zh) * | 2020-11-11 | 2024-06-11 | 恒安嘉新(北京)科技股份公司 | 语音特征编码网络的训练方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804715A (zh) * | 2018-07-09 | 2018-11-13 | 北京邮电大学 | 融合视听感知的多任务协同识别方法及系统 |
CN115309869A (zh) * | 2022-08-19 | 2022-11-08 | 南京邮电大学 | 一种一对多的多用户语义通信模型及通信方法 |
CN115883018A (zh) * | 2022-11-03 | 2023-03-31 | 北京邮电大学 | 语义通信系统 |
US20230185799A1 (en) * | 2021-12-14 | 2023-06-15 | Oracle International Corporation | Transforming natural language to structured query language based on multi-task learning and joint training |
-
2023
- 2023-09-08 CN CN202311152322.3A patent/CN116884404B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804715A (zh) * | 2018-07-09 | 2018-11-13 | 北京邮电大学 | 融合视听感知的多任务协同识别方法及系统 |
US20230185799A1 (en) * | 2021-12-14 | 2023-06-15 | Oracle International Corporation | Transforming natural language to structured query language based on multi-task learning and joint training |
CN115309869A (zh) * | 2022-08-19 | 2022-11-08 | 南京邮电大学 | 一种一对多的多用户语义通信模型及通信方法 |
CN115883018A (zh) * | 2022-11-03 | 2023-03-31 | 北京邮电大学 | 语义通信系统 |
Non-Patent Citations (6)
Title |
---|
TIANXIAO HAN 等: "Semantic-Preserved Communication System for Highly Efficient Speech Transmission", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS 》 * |
ZHENZI WENG 等: "Deep Learning Enabled Semantic Communications With Speech Recognition and Synthesis", 《 IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 * |
ZHENZI WENG 等: "Semantic communication systems for speech transmission", 《 IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS 》 * |
吕守晔 等: "信源信道联合的新范式:语义通信", 《中兴通讯技术》, vol. 29, no. 2 * |
徐英姿 等: "语义在通信中的应用综述", 《电信科学》 * |
牛凯 等: "语音信源的语义编码传输方法研究", 《中兴通讯技术》, vol. 29, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489633A (zh) * | 2020-11-11 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 语音特征编码网络的训练方法、装置及存储介质 |
CN112489633B (zh) * | 2020-11-11 | 2024-06-11 | 恒安嘉新(北京)科技股份公司 | 语音特征编码网络的训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116884404B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seo et al. | Wav2kws: Transfer learning from speech representations for keyword spotting | |
CN110807332A (zh) | 语义理解模型的训练方法、语义处理方法、装置及存储介质 | |
CN111666381B (zh) | 一种面向智能管制的任务型问答交互系统 | |
CN110534095A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN111461173B (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN111754992B (zh) | 一种噪声鲁棒的音视频双模态语音识别方法及系统 | |
CN110795945A (zh) | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 | |
CN112017645B (zh) | 一种语音识别方法及装置 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN110807333A (zh) | 一种语义理解模型的语义处理方法、装置及存储介质 | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
Wang et al. | Cross-modal knowledge distillation method for automatic cued speech recognition | |
CN114464182A (zh) | 一种音频场景分类辅助的语音识别快速自适应方法 | |
Oneata et al. | Kite: Automatic speech recognition for unmanned aerial vehicles | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN116884404B (zh) | 多任务导向的语音语义通信方法、装置及系统 | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Dai et al. | Ci-avsr: A cantonese audio-visual speech datasetfor in-car command recognition | |
CN107180629B (zh) | 一种语音采集识别方法与系统 | |
Tanaka et al. | End-to-end rich transcription-style automatic speech recognition with semi-supervised learning | |
CN117063229A (zh) | 交互语音信号处理方法、相关设备及系统 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN113470652A (zh) | 一种基于工业互联网的语音识别及处理方法 | |
CN117953915A (zh) | 一种基于CTC-Conformer的语音情绪识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |