CN113628630B - 基于编解码网络的信息转换方法和装置、电子设备 - Google Patents

基于编解码网络的信息转换方法和装置、电子设备 Download PDF

Info

Publication number
CN113628630B
CN113628630B CN202110925487.4A CN202110925487A CN113628630B CN 113628630 B CN113628630 B CN 113628630B CN 202110925487 A CN202110925487 A CN 202110925487A CN 113628630 B CN113628630 B CN 113628630B
Authority
CN
China
Prior art keywords
layer
code
output
decoder
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110925487.4A
Other languages
English (en)
Other versions
CN113628630A (zh
Inventor
陈凌辉
伍芸荻
刘丹
魏思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202110925487.4A priority Critical patent/CN113628630B/zh
Publication of CN113628630A publication Critical patent/CN113628630A/zh
Application granted granted Critical
Publication of CN113628630B publication Critical patent/CN113628630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供了一种信息转换方法和装置。首先,调用第一编码模型对输入信息进行编码得到第一特征,然后调用第一解码模型对第一特征进行解码,得到与输入信息类型不同的输出信息。其中,第一解码模型至少包含与N层第一编码依序一一对应的N层第一解码器,每层第一解码器的输入包含其对应的第一编码,且除第1层外还包含下一层第一解码器的输出编码。每层第一解码器的输出编码用于表征输出信息在其对应粒度下的组成部分的特征,且该粒度小于下一层第一解码器对应的粒度。本方案能够使得信息转换的准确性和稳定性大幅提升。当输入信息和输出信息分别为文本和语音时,以上层次化的编解码过程能够稳定、高效的生成具有高自然度的合成语音。

Description

基于编解码网络的信息转换方法和装置、电子设备
技术领域
本申请涉及人工智能领域,尤其是一种信息转换方法和装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
随着计算机技术和人工智能网络的发展,语音合成(也称为文语转换,Text-to-Speech)技术在近些年来得到了快速提升,被愈发广泛的应用于人类生活的各个领域。语音合成多样化的应用为日常生活提供了极大的便利,同时也丰富了多媒体技术带来的观感。比如,基于语音合成的阅读辅助不仅仅使视障人士能够阅读更加广泛的文字材料,也给普通人提供了更多的阅读场景。比如,基于语音合成的虚拟形象能够利用精简的发音数据库模拟逼真的人声,为游戏娱乐、增强现实和虚拟现实等领域提供更为泛用的技术。
语音合成系统主要功能是将文本转换为语音。常见的语音合成系统包含三个模块:文本前端、声学模块和声码器。其中,文本前端主要用于对文本进行语义和语言学分析,声学模块主要用于对声学特征进行建模与预测,而声码器主要用于将声学特征转换为最终的语音波形信号。近年来,在深度学习技术发展的推动下,声学模型逐渐被广泛应用于语音合成系统,部分端到端的声学模型(例如Tacotron等)绕开了传统模型中的隐马尔科夫假设,使得语音合成的韵律感和自然度在传统模型的基础上得到大幅的提升,改善了人机交互体验。
然而,基于现有语音模型的语音合成系统通常存在稳定性的问题,其生成的语音所表现的韵律在多变的应用场景下容易产生较长的时延或者较大的误差,最终影响合成语音的自然度,导致用户感觉语音不够真实。这一问题在需要高表现力的场景下(比如,在利用人工语音进行虚拟朗读或者虚拟演讲时)尤其突出,由于这些场景对合成语音的自然度有非常高的要求,即使合成语音的韵律和节奏稍微偏离用户的对真实人声的认知,也会严重影响人机交互体验。
类似的,在其他需要高表现力场景下的信息转换过程中也存在同样的问题。例如,当需要从简化的描述性信息获得模拟人类面部表情或者日常生活中行动的图像或者动画时,该转换过程对目标信息的自然度也会提出非常高的要求,此时,如果信息转换过程的稳定性交叉,同样会严重影响人机交互体验。
综上,如何使得转换系统能够稳定、高效的生成具有高自然度的目标信息,是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种信息转换方法和装置、电子设备、计算机可读存储介质和计算机程序产品,以构建能够稳定、高效的生成目标信息的信息转换系统,并提高合成语音的韵律感和自然度。
为了实现上述目标,本申请实施例提供了以下技术方案。
本申请实施例的一方面提供了一种信息转换方法,包括:调用第一编码模型对输入信息进行编码,得到第一特征,其中,前述第一特征至少包含前述第一编码模型输出的N层第一编码;以及,调用第一解码模型对前述第一特征进行解码,得到输出信息,其中,前述输出信息与前述输入信息为不同类型的信息,前述第一解码模型至少包含N层第一解码器,前述N层第一编码与前述N层第一解码器一一对应。其中,对任何1≤n≤N,第n层第一解码器对应于第n层第一编码,且第n层第一编码输入第n层第一解码器。其中,对任何1≤n<N,第n+1层第一解码器的输出编码输入第n层第一解码器,第n+1层第一解码器的输出编码用于表征前述输出信息在第n层第一解码器对应粒度下的组成部分的特征,且第n+1层第一解码器的对应粒度大于第n层第一解码器的对应粒度。其中,n、N均为正整数。
本申请实施例的另一方面提供了一种信息转换装置,包括:解码模块,用于调用第一编码模型对输入信息进行编码,得到第一特征,其中,前述第一特征至少包含前述第一编码模型输出的N层第一编码;以及,编码模块,用于调用第一解码模型对前述第一特征进行解码,得到输出信息,其中,前述输出信息与前述输入信息为不同类型的信息,前述第一解码模型至少包含N层第一解码器,前述N层第一编码与前述N层第一解码器一一对应。其中,对任何1≤n≤N,第n层第一解码器对应于第n层第一编码,且第n层第一编码输入第n层第一解码器。其中,对任何1≤n<N,第n+1层第一解码器的输出编码输入第n层第一解码器,第n+1层第一解码器的输出编码用于表征前述输出信息在第n层第一解码器对应粒度下的组成部分的特征,且第n+1层第一解码器的对应粒度大于第n层第一解码器的对应粒度。其中,n、N均为正整数。
本申请实施例的又一方面提供了一种电子设备,该电子设备可用于实现前述信息转换方法。在一些实施例中,该电子设备包含处理器和存储器。其中,该存储器存储有指令,且该指令被该处理器执行时使得所述电子设备执行前述信息转换方法。
本申请实施例的又一方面提供了一种计算机可读存储介质。该计算机可读存储介质存储有计算机指令,且该计算机指令被处理器执行时使得计算机执行前述信息转换方法。
本申请实施例的又一方面提供了一种计算机程序产品。该计算机程序产品包含计算机指令,且该计算机指令在计算机上运行时使得该计算机执行前述信息转换方法。
由此可见,根据本申请实施例提供的技术方案,首先,调用第一编码模型对输入信息进行编码得到第一特征,然后调用第一解码模型对第一特征进行解码,得到与输入信息类型不同的输出信息。其中,第一特征至少包含第一编码模型输出的N层第一编码,第一解码模型至少包含与N层第一编码依序一一对应的N层第一解码器,每层第一解码器的输入包含其对应的第一编码,且除第1层外还包含下一层第一解码器的输出编码。每层第一解码器的输出编码用于表征输出信息在其对应粒度下的组成部分的特征,且其对应粒度小于下一层第一解码器对应的粒度。本方案中的编解码过程使得输入信息中多个粒度下组成部分的特征被充分的捕捉,同时逐层解码的过程使得这些特征从整体到细节逐步解耦到生成的输入信息中,从而使得信息转换的准确性和稳定性大幅提升。当输入信息和输出信息分别为文本和语音时,这种层次化的编解码过程能够稳定、高效的生成具有高自然度的合成语音。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例中一种信息转换方法的流程图;
图2示出了本申请实施例中进行信息转换时第一解码模型和第一编码模型的信息流示意图;
图3示出了本申请实施例中另一种信息转换方法的流程图;
图4示出了本申请实施例中一种信息转换方法的局部流程图;
图5示出了本申请实施例中进行信息转换时第一编码器的信息流示意图;
图6示出了本申请实施例中另一种信息转换方法的局部流程图;
图7示出了本申请实施例中进行信息转换时第一解码器的信息流示意图;
图8示出了本申请实施例中信息转换时第一解码模型和第一编码模型的另一信息流示意图;
图9示出了本申请实施例中另一种信息转换方法的流程图;
图10示出了本申请实施例中又一种信息转换方法的局部流程图;
图11示出了本申请实施例中进行训练时第一解码模型和第一编码模型的信息流示意图;
图12示出了本申请实施例中进行训练时第一解码器的信息流示意图;
图13示出了本申请实施例中进行训练时第一解码模型和第一编码模型的另一信息流示意图;
图14示出了本申请实施例中又一种信息转换方法的局部流程图;
图15示出了使用第二编码模型时的信息流示意图;
图16示出了训练第二编码模型时的信息流示意图;
图17示出了本申请实施例中一种信息转换装置的结构示意图;以及,
图18示出了本申请实施例中另一种信息转换装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下首先对本发明所使用的一部分术语进行介绍。
语音合成,也称文语转换(Text-to-Speech,TTS),是将计算机可读的文字或者文字编码转换为拟人化的虚拟语音的过程。
语音识别(Speech Recognition),也称为自动语音识别(Automatic SpeechRecognition,ASR),是将人类语音转换为计算机可读的文字或者指令的过程,是模式识别的一个重要分支。
编码器(encoder):即自动编码器(Autoencoder)结构中的编码侧,用于将输入映射为编码(也称为隐变量、隐藏表示)。
解码器(decoder):即自动编码器结构中的解码侧,用于将编码映射为输出,通常情况下,该输出在一定程度上是对编码侧输入的重构。
Tacotron模型:一种基于注意力(Attention)机制的端到端常规语音合成模型,能够基于文本直接生成语音。
BERT模型:即基于变换器的双向编码器表示模型(Bidirectional EncoderRepresentations from Transformers),是一种使用深度双向的无监督的语言表示、且仅使用纯文本语料库进行预训练的模型,属于自然语言处理的预训练技术,由谷歌公司(Google Inc.)与2018年提出,其主要目的是理解用户搜索语句的含义,抽取文本中包含的韵律信息。
对比预测编码(Contrastive Predictive Coding,CPC)模型,一种非监督的通用算法,用于在高维度数据中提取有用的表示信息,其核心在于通过自回归模型来学习预测的隐变量表示。CPC模型通过构建噪声对比估计(noise contrastive estimator,NCE)来优化损失函数,并使用对比损失概率(probabilistic contrastive loss)来引入最大化预测样本的信息的隐变量。
现有的语音合成技术方案主要可以分为两类,一类是端到端自回归语音合成方案,另一类是非自回归语音合成方案。
端到端自回归语音合成以Tacotron方案为代表,采用一个典型的编码器-解码器架构,编码器用于对输入的语言学特征进行编码建模,同时解码器通过自回归(auto-regressive)逐帧生成声学特征。此时,编码器和解码器之间序列不等长的问题通常通过注意力机制来解决,即进行序列对齐。然而,自回归生成的序列往往不是模型的最优解。具体的,自回归方案通过将联合概率分解成若干条件概率的累乘来对模型进行训练,但是在使用模型进行语音合成的过程中,逐帧自回归所产生的每个声学特征只依赖此前已生成的声学特征,生成误差会逐渐累加,导致初始的误差不断放大,最终影响长时间语音的自然度。另一方面,自回归生成存在效率瓶颈,其逐帧依赖的生成过程导致无法对整个序列并行化的处理,其低下的效率带来了较高的系统时延,从而影响用户体验。此外,自回归方案所采用的注意力机制还存在稳定性问题。由于注意力机制中对权重的学习单纯由数据驱动,无法保证语音和文本之间序列对齐是准确的,这导致合成系统无法避免错误的发音,进一步影响用户体验。
非自回归语音合成以FastSpeech、Parallel Tacotron为代表,抛弃了带来不稳定因素的注意力机制。这些方案采用额外的时长模块对文本序列进行上采样,从而获得与语音帧序列长度相同的序列,然后使用非自回归的解码器结构(如卷积网络、自注意力机制网络等)来预测目标声学特征序列。非自回归语音合成虽然在一定程度上可以规避自回归带来的部分问题,但同时也引入了新的问题。比如,非自回归语音合成通常采用最小均方误差(mean square error,MSE)准则来训练模型。一方面,文本序列和语音帧序列之间元素的的对应是一对多的关系,但计算MSE的本质是在统计上平均,因此会抹除语音信号中的高频变化成分,直接导致合成语音的音质和韵律较为单调,即自然度下降。另一方面,采用MSE准则的训练是针对各个单帧独立进行训练,没有考虑语音帧序列的时序特性,因此生成的语音缺乏多样性,同样会导致自然度较差。
因此,如背景介绍中所述,基于现有语音模型的语音合成系统的准确性和稳定性较差,其生成的语音所表现的韵律在多变的应用场景下容易产生较长的时延或者较大的误差,最终影响合成语音的自然度,使用户感觉语音不够真实。另外,在其他需要高表现力场景下的信息转换过程中也存在同样的问题。
本申请实施例的第一方面提供了一种信息转换方法,用于将输入信息转换为内容对应但类型不同的输出信息。可以理解,当输入信息和输出信息分别为文本信息和语音信息时,该信息转换方法能够特化为语音合成方法,但本申请实施例中的信息转换方法还可以有TTS之外的其他应用场景,如ASR、视频生成、视频标注等等。在本实施例中,上述信息转换方法可应用于包含第一编码模型和第一解码模型的自动编解码网络。该自动编解码网络可以通过硬件、软件、或两者的结合来实施。比如,该自动编解码网络可存在于由服务器和终端所构成的硬件环境中,服务器和终端之间通过网络进行连接,该网络包括但不限于局域网、城域网或广域网。此时,以上编码模型和解码模型可通过运行在服务器和终端上的软件来实现,或者通过内嵌于服务器和终端上的硬件中的命令来实现。需要注意的是,以上编码模型和解码模型也可全部运行在服务器或者终端上,本实施例对此不做限制。
请参考图1。图1是本申请实施例中一种信息转换方法的流程图。如图1所示,该信息转换方法包含以下步骤:
S200、调用第一编码模型对输入信息进行编码,得到第一特征。其中,前述第一特征至少包含该第一编码模型输出的N层第一编码,N为正整数。
在不同的应用场景中,输入信息可以表现为不同类型的信息。比如,在TTS应用场景中输入信息包含文本信息,在ASR应用场景中输入信息包含语音信息,在视频生成场景中输入信息包含图像信息、在视频标注场景中输入信息可以包含视频信息,等等。这里的文本信息可以表现为人类通过视觉或者触觉可以识别具体字符图形,也可以表现为机器可识别的文本代码。这里的语音信息可以表现为通过麦克风采集到的人声,也可以表现为存储介质中、由机器可识别代码构成的音频文件,如MP3文件、wav文件或者视频音轨文件。这里的图像/视频信息可以表现为通过摄像机、光学探测器阵列等图像采集设备采集到的图像/视频,也可以表现为存储介质中、有机器可识别代码构成图像/视频文件。可以理解,输入信息和以上各种信息还可以有其他的实现方式,本申请实施例不限于此。在一些实施例中,输入信息表现为与时间或者空间相关的输入序列。比如,文本信息为空间顺序的字符序列,图像信息为空间顺序的像素序列,语音信息为时间顺序的语音帧序列,视频信息为时间顺序的视频帧序列,等等。
第一编码模型为对输入编码进行编码操作的数学模型,其在信息转换过程中的信息流可参见图2的左半部分。图2是本申请实施例中一种信息转换方法的信息流示意图。从图2中可以看出,输入信息经过第一编码模型的处理,得到包含N层第一编码O1至ON。对于其中任意符合1≤n≤N的正整数n来说,第n层第一编码On表征了输入信息中至少一个组成部分的特征。
当输入信息表现为序列时,序列中相邻元素的组合可以形成输入信息中的各个组成部分。作为示例,当输入信息为文本(或语音)时,其可以表示为字符序列(或语音帧序列)。此时,通过对相邻字符(或语音帧)的组合,可获得输入信息的一个或多个组成部分,每个组成部分包含一个或多个字符(或语音帧),而相应的第一编码On中各个元素用于表征这些组成部分的特征。因此,从某种意义上来说,第一编码On对应了对字符序列(或者语音帧序列)中各元素到各组成部分的一种组合方式。通常情况下,不同层的第一编码On所对应的组合方式不同。
当第一编码On需要表征不止一个组成部分的特征时,其可以采用的向量的形式,即On={O1,O2,…,OI}。其中,I表示第一编码On所需表示的组成部分的数量,元素Oni表示第i个组成部分的特征,1≤i≤I。第一编码On中各元素的排列顺序与其表征的组成部分在输入信息中的排列顺序相对应。当输入信息表现为序列时,序列中相邻元素的组合可以形成前述各粒度下的组成部分。此时,On中排列靠前的元素所对应的组成部分在该时间序列中也位于较为靠前的位置。
由此可见,第一编码模型在信息转换过程中能够按照输入信息的结构来执行层次化的特征提取操作,从而使得第一特征中包含多种结构尺度下、输入信息各组成部分的特征信息。由于第一特征是后续解码的基础,丰富的层次化特征信息使得解码后能够充分还原输入信息的结构特性。
步骤400、调用第一解码模型对该第一特征进行解码,得到输出信息。其中,前述输出信息与前述输入信息为不同类型的信息。前述第一解码模型至少包含N层第一解码器,前述N层第一编码与该N层第一解码器一一对应。对任何1≤n≤N,第n层第一解码器对应于第n层第一编码,且第n层第一编码输入第n层第一解码器,对任何1≤n<N,第n+1层第一解码器的输出编码输入第n层第一解码器,第n+1层第一解码器的输出编码用于表征前述输出信息在第n层第一解码器对应粒度下的组成部分的特征。对任何1≤n<N,第n+1层第一解码器的对应粒度大于第n层第一解码器的对应粒度。
这里的粒度是指信息中组成部分的结构尺度。例如,对于一篇文章的文本信息或者语音信息,其在段落级别的粒度上可以划分为不同的段落,在句子级别的粒度上可以划分为不同的句子,在词语级别的粒度上可以划分为不同的词语,同时在字符级别的粒度上可以划分为不同的字符。由于段落、句子、词语、字符在结构尺度上依次减小,可以认为段落级别的粒度大于句子级别的粒度,句子级别的粒度大于词语级别的粒度,词语级别的粒度大于字符级别的粒度。当然,在上述粒度之外还可能包含其他粒度,例如篇章级别、子句级别的粒度,本申请不限定于此。
与输入信息类似,在不同的应用场景中,输出信息可以表现为不同类型的信息。比如,在TTS应用场景中输出信息为语音信息,在ASR应用场景中输出信息为文本信息,在视频生成场景中输出信息为视频信息、在视频标注场景中输出信息可以为图像或者文字信息,等等。可以理解,输出还可以有其他的实现方式,本申请实施例不限于此,只要在实际应用场景中与输入信息类型不同即可。在一些实施例中,输出信息表现为与时间或者空间相关的输出序列,此时,输入序列中的每个元素依序与输出序列中的一个或多个元素对应,或者输出序列中的每个元素依序与输入序列中的一个或多个元素对应。例如,在TTS场景下,输入序列中的每个字符或者词语依序对应输出序列中的一个或多个语音帧,在ASR场景下,输出序列中的每个字符或者词语依序对应输入序列中的一个或多个语音帧。
第一解码模型为对第一特征进行编码操作的数学模型,其在信息转换过程中的信息流可参见图2的右半部分。从图2中可以看出,第一特征中的每层第一编码均输入对应的第一解码器,即第n层第一编码On输入第n层第一解码器Dn。除第N层第一解码器DN之外,各第一解码器的输入还包含其紧邻的上层第一解码器的输出编码,即第n+1层第一解码器的输出编码Pn+1(图中未示出标记)输入第n层第一解码器Dn
第n层第一解码器Dn的输入为即第n+1层第一解码器的输出编码Pn+1(除第一解码器DN以外)和第n层第一编码器的输出编码On,因此,与编码侧对应,Pn+1表征了输出信息中至少一个组成部分的特征,且这些组成部分与On所表征的输入信息的组成部分相互对应,从而使得第一解码器Dn能够对这些特征进行解码。进一步的,第一解码器Dn所对应的粒度即输出编码Pn+1所表征的、输出信息的组成部分所具有的粒度。当输出信息表现为序列时,序列中相邻元素的多重组合方式可以形成多种粒度下的组成部分。这里的粒度是指输出信息在结构上的尺度,因此,第n+1层第一解码器Dn+1的对应粒度大于第n层第一解码器Dn的对应粒度,意味着Pn+1所表征的组成部分在结构尺度上大于Pn所表征的组成部分。作为示例,当输出信息为语音(或文本)时,其可以表示为语音帧序列(或字符序列)。此时通过对相邻语音(或字符)的组合,可获得分别由t(如1、4、8、16、32或64)个语音帧(或字符)构成的一系列组成部分。可以理解,t越大表示组成部分的粒度越大。在一个示例中,Pn+1表征语音(或文本)中每32个语音帧(或字符)的特征,而Pn表征语音(或文本)中每16个语音帧(或字符)的特征。在另一个示例中,Pn+1表征语音(或文本)中每8个语音帧(或字符)的特征,而Pn表征语音(或文本)中每4个语音帧(或字符)的特征。
也就是说,N层第一解码器构成级联的解码结构,每层第一解码器在解码时不仅要考虑同层第一编码所提供的各组成部分的特征,还会受到上层更大粒度的组成部分的特性的约束。这使得最终得到的输出信息充分参考了输入信息的结构特征,当输出信息和输入信息为不同长度的序列时,元素之间的对齐将会更加准确,从而保证了信息转换过程的稳定性。
由此可见,根据本申请实施例提供的信息转换方法,首先调用第一编码模型对输入信息进行编码得到第一特征,然后调用第一解码模型对第一特征进行解码,得到与输入信息类型不同的输出信息。其中,第一特征至少包含第一编码模型输出的N层第一编码,第一解码模型至少包含与N层编码依序一一对应的N层第一解码器,每层第一解码器的输入包含其对应的第一编码,且除第1层外还包含下一层第一解码器的输出编码。每层第一解码器的输出编码用于表征输出信息在其对应粒度下的组成部分的特征,且其对应粒度小于下一层第一解码器对应的粒度。本方案中的编解码过程使得输入信息中多个粒度下组成部分的特征被充分的捕捉,同时逐层解码的过程使得这些特征从整体到细节逐步解耦到生成的输入信息中,从而使得信息转换的准确性和稳定性大幅提升。当输入信息和输出信息分别为文本和语音时,这种层次化的编解码过程能够稳定、高效的生成具有高自然度的合成语音。
首先对本申请实施例中信息转换方法的编码步骤进行介绍。在一些实施例中,前述第一编码模型包含特征提取模块和对齐模块。请参考图3,此时步骤S200可包括以下步骤:
S220、调用特征提取模块对输入信息进行编码,得到输入特征。其中,所述输入特征为具有第一长度的特征序列。
本步骤主要对输入信息进行特征提取,以从其中获得在具体应用场景下所关心的特征。当输入信息体现为前述输入序列时,特征提取模块对输入序列所进行的操作可包括但不限于非线性变换或者卷积操作。其中,卷积操作的卷积核和卷积步长的大小可根据具体场景下所关心的特征决定。在一些实施例中,考虑到输入序列(比如字符序列或者语音帧序列)的时间或者空间连续性,针对输入序列中某个或某几个元素所提取的特征会受到上下文元素的影响,此时特征提取模块可包含但不限于循环神经(recurrent neuralnetwork,RNN)网络,比如长短时记忆(long short-term network,LSTM)或者门控循环单元(gated recurrent unit)网络。在一些实施例中,考虑到输入序列上下文环境的多样性,前述所提取的特征在不同上下文环境中所受到上下文元素的影响并相同,此时特征提取模块可应用但不限于注意力机制,从而灵活的为上下文元素所施加的影响赋予不同的权重。进一步的,还可以采用多头注意力(multi-head attention)机制,同时考虑在多个特征子空间中上下文元素所具有的权重。
请参考图5中特征提取模块部分的结构示意图,该提取模块采用了多头注意力机制,包含多头注意力层、第一求和归一化层、前馈层和第二求和归一化层。输入信息经过多头注意力层处理后与其自身在第一求和归一化层处进行叠加以及归一化处理,所得到的第一归一化向量经过前馈层处理后再和其自身在第二求和归一化层处进行叠加以及归一化处理,所得到的第二归一化向量返回输入到多头注意力层后重复上述处理,循环计算得到再一次得到第二归一化向量。继续上述循环,直到第6次得到第二归一化向量之后将其作为特征序列输出。可以理解,上述特征提取模块的结构仅为示例,实际应用中还可以采用其他结构,比如将循环次数从调整为其他数量。
经过特征提取之后,所获得的特征序列具有第一长度lo。当输入信息体现为前述输入序列时,该第一长度通常不大于输入序列的长度。
S240、调用对齐模块将所述输入特征转换为所述第一特征。其中,各层第一编码为具有预设长度的序列,且对任何1≤n<N,第n层第一编码的预设长度大于第n+1层第一编码的预设长度。
本步骤主要对输入序列进行长度变换,以使最终得到的第一特征中各层第一编码适用于后续多层第一解码器的解码操作。如前所述,Pn+1所表征的组成部分在结构尺度(即粒度)上大于Pn所表征的组成部分,在输出信息中相邻组成部分之间冗余最小(即部分重叠最小)的情况下,Pn+1中元素的数量小于Pn中元素的数量。考虑Pn+1和On之间的对应关系,相应的第一编码On中元素的数量也小于On-1中元素的数量。也就是说,对任何1≤n<N,第n层第一编码的预设长度ln大于第n+1层第一编码的预设长度ln+1。比如,以输入信息为文本的字符序列为例,如果文本包含5个段落,且每个段落分分别包含10、12、13、5、6个句子,那么当第n+1层第一编码用于表征各个段落的特征、第n层第一编码用于表征各个句子的特征时,第n+1层第一编码中含有5个元素,为预设长度ln+1=5的序列,第n层第一编码含有10+12+13+5+6=46个元素,为预设长度ln=46的序列。
由此可见,步骤S240所获得的第一特征中包含从第1层向第N层预设长度逐渐递减的序列。在一些实施例中,上述预设长度可以按照一定的倍数逐渐递减,此时对齐模块可以通过一系列池化操作来得到N层第一编码。
在一些实施例中,前述对齐模块可包含采样预测层、采样层和池化层。请参考图4。图4为本申请实施例中一种信息转换方法的局部流程图。在图3的基础上,步骤S240可包含以下步骤:
S242、调用前述采样预测层获取前述特征序列中各元素与对齐序列中各元素之间的对应关系。
S244、调用前述采样层根据前述对应关系对前述特征序列进行目标采样,得到具有目标长度的前述对齐序列。
步骤S242和S244主要通过采样来获得对齐序列,这里对齐序列可视为N层第一编码(即具有预设长度l1序列)的池化前状态,而特征序列中各元素与对齐序列中各元素决定了具体的采样过程。通常情况下,前述对应关系表现为特征序列中各元素所对应的对齐序列中各元素之间的数量对应关系,该关系由具体应用场景中输入信息和输出信息的形式所决定。
若特征序列中的每个元素对应对齐序列中的一个或多个元素,采样层执行的采样过程可包含上采样,且所述目标长度lt大于所述第一长度lo。比如,输入信息可以为文本单元构成的序列,其中每个文本单元为对应于单音素的文本看,或者,输入信息还可以为文本特征构成的序列,其中各文本特征用于表征文本中依序排列的结构切分段的特征输入信息为字符序列。以TTS场景为例,对应的输出信息可以为语音帧序列,则采样预测层可对每个文本单元或者每个结构切分段(如字符)的发音时长进行预测,即根据发音预测机制来确定单个文本单元或者单个结构切分段对应的语音帧。此时,前述对应关系可根据各文本单元或结构切分段的发音时长所对应的语音帧数量来确定,采样模块对特征序列进行上采样,若文本单元或结构切分段对应x各语音帧,则该文本单元或结构切分段对应的特征序列中的特征被扩展为对齐序列中长度为x的子序列,从而使得目标长度lt大于第一长度lo
类似的,在视频生成场景中,输入信息为图像序列,输出信息为视频帧序列,此时,特征序列中各图像的特征需要经过上采样“扩展”为对齐序列中与一系列视频帧对应的子序列,该子序列的长度由与该图像对应的视频帧数量确定。
若对齐序列中的每个元素对应特征序列中的一个或多个元素,采样层执行的采样过程可包含下采样,且所述目标长度lt小于所述第一长度lo。比如,输入信息为语音帧构成的序列,或者为语音帧的语音特征构成的序列。以ASR场景为例,对应的输出信息为与音素对应的字符序列,则采样预测层可对语音帧构成的序列进行音素切分,即根据音素边界来确定对应于单个音素的语音帧。此时,前述对应关系可根据各字符(或字符串)对应的音素所包含的语音帧来确定,采样模块对特征序列进行下采样,若y个语音帧对应于单个音素,则该y个音素所对应的、特征序列中的子序列被压缩为对齐序列中的单个元素,从而使得目标长度lt小于第一长度lo
类似的,在视频流标注场景中,输入信息为视频帧序列,输出信息为图像序列或者标签序列,此时,特征序列中若干视频帧的特征构成的子序列需要经过下采样“压缩”为对齐序列中的单个图像或者单个标签,该子序列的长度由于该图像或者该标签对应的视频帧数量确定。
可以理解,上述TTS、ASR、视频生成和视频流标注场景仅为示例,本申请实施例不限于此,在实际应用中还可以为具有其他形式输入信息和输出信息的场景。
步骤S260、调用前述池化层对前述对齐序列进行池化,得到前述N层第一编码。
在对齐序列的基础上,步骤S260使用池化层来获得各层第一编码,其具体实施方式与池化层的具体结构相关。在一些实施例中,可以通过逐步池化在获得各层第一编码。请参考图5中池化层部分的结构示意图。在图5中,池化层包含N层子池化层,即第1子池化层至第N子池化层。所述N层第一编码依序一一对应的N层子池化层,即对任何1≤n≤N,第n层第一编码对应第n子池化层。此时,步骤S260可包含如下步骤:
S262、调用第1层第一编码对应的子池化层对前述对齐序列进行池化,得到第1层第一编码。
在图5中,从采样层输出的对齐序列(未示出)首先被输入第1子池化层,来获得第1层第一编码O1
S264、调用第i+1层第一编码对应的子池化层对第i层第一编码进行池化,得到第i+1层第一编码,其中1≤i<N。
在图5中,从第1子池化层输出的第1层第一编码O1被输入第2子池化层来获得第2层第一编码O2,从第2子池化层输出的第2层第一编码O2被输入第3子池化层来获得第3层第一编码O3(图中未示出标记),以此类推,直到从第N-1子池化层输出的第N-1层第一编码ON-1(图中未示出标记)被输入第N子池化层来获得第N层第一编码ON。由此,可获得所有的N层第一编码。
在具体应用场景中,每层子池化层的池化可以为最大值池化、最小值池化、均值池化,或者卷积池化。每层子池化层的步长可以根据实际需求来进行设定,比如,考虑各层第一编码为具有预设长度的序列的情况,若对齐序列长度为lt,第n子池化层的窗口大小为wn,步长为sn,填充值(padding)为pn,则第一编码On的长度ln为:
以TTS场景为例,可将第1子池化层的池化窗口和步长均设置为8,其余子池化层的池化窗口和步长设置为2。假设池化过程中的填充值均为0,则第1层第一编码O1的预设长度为l1为lt/8,第2层第一编码O2的预设长度l2为lt/16,第3层第一编码O3的预设长度l3为lt/32,以此类推。
应当理解,以上逐步池化在获得各层第一编码仅为一种示例性的实施方式。在一些实施例中,还可以调用第i+1层(1≤i<N)第一编码对应的子池化层对第i层第一编码之前的其他第一编码、甚至直接对对齐序列进行池化来得到第i+1层第一编码。比如,在上述示例中,预设长度l3为lt/32第3层第一编码O3可通过第3子池化层对第1层第一编码O3进行窗口和步长为4的池化来获取,也可以通过第3子池化层对对齐序列进行窗口和步长为32的池化来获取。
应当理解,在一些实施例中,对齐序列和第1层第一编码可以相同,此时,池化层中可以仅包含N-1层子池化层,即在前述实施例中省略第1层第一编码对应的子池化层,将采样层输出的对齐序列(或第1层第一编码)直接输入第2层第一编码对应的子池化层。
应当理解,为了简洁,图5中虽然示出了特征提取模块和对齐模块各自的结构,但并不意味二者的结构存在必然的关联。使用图5中特征提取模块结构的第一编码模型还可以使用其他具有合适结构的对齐模块,同时,使用图5中对齐模块结构的第一编码模型还可以使用其他具有合适结构的特征提取模块。
需要注意,获取对齐序列的目的是为了通过池化来进一步得到适用于后续各层第一解码器的第一编码,从而在后续解码过程中通过各层第一编码得到输出信息。因此,对齐序列的长度实质上与所需输出信息的结构息息相关。上述技术方案使用采样预测层根据输出信息的结构、显式的为从特征序列中每个元素赋予扩展系数或者压缩系数,这一过程不需要依赖于纯数据驱动的注意力机制,因此能够更准确的根据应用场景的需求(即所需输出信息的结构)完成信息转换,增强信息转换过程的稳定性。
接下来对本申请实施例中信息转换方法的解码步骤进行介绍。在一些实施例中,与第一解码模型中的N层第一解码器相对应,步骤S400中的解码逐层进行。图6示出了本申请实施例中一种信息转换方法的局部流程图,在图1的基础上,步骤S400可包括以下步骤:
S420、调用第N层第一解码器,根据第N层第一编码获得第N层第一解码器的前述输出编码。
S440、对任何1≤n<N,调用第n层第一解码器,根据第n层第一编码和第n+1层第一解码器的前述输出编码获得第n层第一解码器的前述输出编码。
步骤S420和S440即从第N层向第1层的解码过程,其具体的过程可参考前述对图2中右侧部分的描述,这里不再重复。需要注意,图6中仅示出了S440的一种示例性逻辑实施方式,即:令n=N-1,先执行第n层第一解码器的解码过程,再判断执行后所得到的是否是最后一层(即第1层)解码器的输出编码,如果是则进入步骤S460,如果否则执行继续执行第n-1层第一解码器的解码。在实际应用中,S440还可以采用其他的逻辑实施方式,比如不经过循环直接依序执行第N-1层到第1层第一解码器的解码。
通常情况下,输入信息是通过采集所获得自然信息,而输出信息是通常是模仿另一种自然信息的合成信息。这里的自然信息可以为人声、语言文字、拍摄的图像或者视频等等,其中不可避免的会受到一些噪声(或者随机扰动)的影响。输入信息中的随机扰动会随着编码侧的解码反应在N层第一编码中,而输出信息在一定程度上希望能够模仿这种随机扰动以增强其多样性。为了增强整个编解码网络在使用中对这些影响的鲁棒性并使最终的输出信息更加自然,可以在第一解码器进行解码时引入符合特定分布的随机量。在一些实施例中,步骤S400还包括以下步骤:
S410、根据第N层第一解码器对应的预设分布进行采样,获得第N层采样编码。
步骤S410在步骤S420之前执行。相应的,在步骤S420中,除第N层第一编码之外,第N层第一解码器还根据第N层采样编码获得第N层第一解码器的输出编码。
和/或,步骤S400还包括以下步骤:
S430、根据第i层第一解码器对应的预设分布进行采样,获得第i层采样编码,其中,1≤i<N。
步骤S430在步骤S440中调用第i层第一解码器进行解码之前执行。相应的,在步骤S440中,除第i层第一编码和第i+1层第一解码器的、输出编码之外,第i层第一解码器还根据第i层采样编码获得第i层第一解码器的输出编码。
步骤S410和S430可以使相应的第一解码器的输出编码相对输入信息中的扰动更加稳定,也可以使该输出编码自身在准确解码的基础上具有一定的多样性。在一些实施例中,相应的第一解码器可以基于流模型,如基于标准化流模型,此时前述预设分布为标准正态分布。进一步的,在一些实施例中,该流模型可以采用生成式流模型(generative flow,Glow)结构。流模型和Glow模型的一般性细节可参考现有技术,本申请实施例不做赘述。
进一步的,在一些实施例中,基于流模型的第一解码器可以包含激活标准化层、可逆卷积层和仿射耦合层。图7示出了本申请实施例中一种第一解码器的结构示意图。如图7所示,步骤S440中调用第i层第一解码器获得第i层第一解码器的所述输出编码的步骤包含M个循环。其中,M为正整数,可以根据具体的应用场景进行设定,比如设置为12。每个循环包括以下步骤:
S442、调用前述激活标准化层根据第一输入和第二输入获得第一中间编码。
S444、调用前述可逆卷积层根据前述第一中间编码获得第二中间编码。
S446、调用前述激活标准化层根据前述第二中间编码获得循环输出编码。
其中,第1个循环的第一输入为第i层采样编码,第j个循环的第一输入为第j-1个循环输出编码,且第M个循环的循环输出编码为所述第i层第一解码器的输出编码Pi,其中1<j≤M。第二输入为第i层第一编码和第i+1层第一解码器的输出编码。
与步骤S440类似,步骤S420中调用第N层第一解码器获得第N层第一解码器的所述输出编码的步骤也可以包含M个循环。每个循环的步骤参见上述步骤S442至S446,区别仅在于此时第二输入为第N层第一编码,简洁起见,其余细节不做赘述。
由此可见,上述技术方案中使用的第一解码模型可基于多流模型,该结构本质上是一个适用于并行处理序列的模型,因此并不需要依赖自回归结构。这种架构一方面能够从整个序列的层面上找到最优解,另一方面能够更好的防止自回归模型随序列逐渐累积的解码误差。
在步骤S440之后,步骤S400的具体流程进入步骤S460。
S460、根据第1层第一解码器的输出编码获得前述输出信息。
步骤S460以最后一层解码器的输出编码作为获取输出信息的基础。在一些实施例中,可以直接将第1层解码器的输出编码作为输出信息。以TTS场景为例,第1层解码器的输出编码可以为语音帧的特征信息,则此时的输出信息为语音帧的特征序列。以ASR场景为例,第1层解码器的输出编码可以为文本结构切分段(如字符或者词语)的特征序列,则此时的输出信息为文本结构切分段的特征序列。在另一些实施例中,还可以对第1层解码器的输出编码进行进一步的处理以获得输出信息。以TTS场景为例,第1层解码器的输出编码可以为语音帧的特征序列,则此时可将这些语音帧特征序列输入声码器,将声码器解码得到的语音波形作为输出信息。以ASR场景为例,第1层解码器的输出编码可以为文本结构切分段(如字符或者词语)的特征序列,则此时可对这些特征序列进行进一步解码,将获得的文本(如字符序列或者词语序列)作为输出信息。
在前述TTS场景中,该声码器可以作为第一解码模型的一部分。在一些实施例中,前述输出信息为语音波形。请参考图8,在图2的基础上,前述第一解码模型还包含声码器。此时,步骤S460包括以下步骤:S462、调用前述声码器对第1层第一解码器的输出编码进行解码,获得前述语音波形。
以上介绍了本申请实施例中的信息转换方法的编码部分和解码部分。在一些实施例中,前述信息转换方法可以直接调用预设的第一编码模型和第一解码模型来完成信息转换。在另一些实施例中,第一编码模型和第一解码模型需要通过训练获得。图9示出了本申请另一种信息转换方法的流程图,在图1的基础上,该信息转换方法在步骤S200之前还包括以下步骤:
S100、基于第一样本集对初始第一编码模型和初始第一解码模型进行训练,获得前述第一编码模型和前述第一解码模型。其中,前述第一样本集包含至少一个输入样本和至少一个输出样本,且输入样本和输出样本一一对应。可以理解,通常情况下输入样本与前述输入信息为同一类型,输出样本与前述输出信息为同一类型。这里对应的输入样本和输出样本可称为“输入-输出样本对”。另外,前述初始第一编码模型与前述第一编码模型对应,且前述第一解码模型包含与前述N层第一解码器D1至DN依序一一对应的N层初始第一解码器D01至D0N。也就是说,对任何1≤n≤N,第n层第一解码器Dn与第n层初始第一解码器D0n对应。前述初始第一编码模型和初始第一解码模型共同构成了初始编解码网络。
以下将对第一编码模型和第一解码模型的训练进行进一步介绍。在一些实施例中,可以利用额外的编码模型对输出样本进行处理,以通过输出样本的相应特征在训练过程中各层初始第一解码器的结果进行逐层校准。请参考图10,在图9的基础上,步骤S100可包括以下步骤:
S120、调用第二编码模型对各输出样本进行编码,得到各输出样本的目标特征。
S140、将各输入样本输入前述初始编码模型,并将各输出样本的前述目标特征输入前述初始解码模型。
S160、调整前述初始编码模型和前述初始解码模型的参数,直到第一损失达到第一预设条件。其中,前述初始编码模型和前述初始解码模型根据各输出样本的前述目标特征和各输入样本计算得到所述第一损失。
步骤S110中所得到的目标特征即用于从解码侧对初始第一解码器进行校准的特征。将每个输入样本和其对应输出样本的目标特征输出初始编解码网络,初始编解码网络可以据此得到该输入-输出样本对的损失值,用来表征当前初始编解码网络对应的编解码过程在该输入样本与输出样本之间产生的不匹配程度。综合所有输入-输出样本对的损失值即可得到第一损失,来表征当前初始编解码网络对应的编解码过程在整个样本集上产生的不匹配程度。通常情况下,第一损失越大,意味着不匹配的程度越大,因此步骤S160的本质是通过迭代调整初始编解码网络的参数来实现最小化第一损失这一目标。
为了在训练中更加有针对性的对各个解码器的参数进行调整,可以考虑将前述在整个样本集上产生的不匹配程度分解为在N层第一解码器处产生的不匹配程度,即将第一损失分解为N个子损失。图11示出了本申请实施例中在训练初始编解码网络时的信息流示意图。在一些实施例中,前述目标特征包含N层目标编码Q01至Q0N,前述第一损失包含N个第一子损失L11至L1N,且前述N层目标编码Q01至Q0N和前述N各第一子损失L11至L1N均与前述N层初始第一解码器D01至D0N依序一一对应。也就是说,对任何1≤n≤N,第n层目标编码Q0n和第n个第一子损失L0n均与第n层初始第一解码器D0n对应。此时,前述N个第一子损失L11至L1N可根据以下步骤获得。
首先,调用前述初始编码模型对各输入样本进行编码,得到样本特征,其中,前述样本特征包含N层初始第一编码O01至O0N。这里对每个输入样本进行编码得到对应样本特征的过程可参照前述步骤S200中对输入信息进行编码得到第一特征的步骤,其中N层输出第一编码O01至O0N与前述N层第一编码O1至ON类似,此处不再赘述。
然后,调用前述初始第一解码模型对各输入样本的前述样本特征进行解码,得到各输入样本的预测特征。其中,前述预测特征包含N层预测编码P01至P0N,第N层初始第一解码器根据第N层初始第一编码获得第N层预测编码,且对于任何1≤n<N,第n层初始第一解码器根据第n层初始第一编码O0n和第n+1层目标编码Qn+1获得第n层预测编码P0n。这里对样本特征进行解码得到N层预测编码的过程与步骤S400中对第一特征进行解码得到N层第一解码器Dn的输出编码Pn的过程类似,但二者之间具有以下区别。
前述步骤S400为合成过程中的解码,其中N层第一解码器的数据处理是级联的,即在1≤n<N时第n层第一解码器的解码过程会使用第n+1层第一解码器的输出编码Pn+1,因此每层第一解码器的输出编码均会受到其上层所有第一编码器的影响。相比之下,本步骤为训练过程中的解码,N层初始第一解码器的数据处理是并行的,即在1≤n<N时第n层第一解码器的解码过程并不依赖其上层第一解码器的输出编码P0(n+1),而是使用第二编码器模型输出的第n+1层目标编码Q0(n+1)。这样,第一初始解码器的输入实质上来自于输入样本(其体现为同层的初始第一编码)和对应的输出样本(其体现为上层的目标编码),因此在初始编解码网络参数的迭代调整过程中,各层第一初始解码器所输出的预测编码仅会受到其自身参数和第一编码模型参数的影响,而彼此之间产生的干扰极小。这种每层相对独立的第一初始解码器训练机制有助于第一损失在迭代调整的过程中尽快收敛。
接下来,对任何1≤n≤N,根据各输入样本的第n层预测误差en,得到第n个第一子损失L1n,其中,所述第n层预测误差en用于表征各输入样本的第n层目标编码Q0n和第n层预测编码P0n之间的差异。预测误差en越大,意味着目标编码Q0n和预测编码P0n之间的差异越大。从前序步骤中可以看出,第n层目标编码Q0n反应了输出样本在第n层第一解码器Dn对应粒度上的特征信息,而第n层预测编码P0n为第n层初始第一解码器D0n在输入样本对应该粒度的特征(即第n层初始第一编码O0n表征的特征)的约束下、根据输出样本在更大粒度上的特征信息(即Q0(n+1)反应的信息)进行解码而对Q0n进行的预测。因此,第n层预测误差en能够表征当前初始编解码网络的编解码过程在对应输入-输出样本对上产生的不匹配。
本步骤中,每个输入样本的第n层预测误差en可以为但不限于第n层目标编码Q0n和第n层预测编码P0n之间的差值或者比值,本申请实施例对此不做限定,只要能表征二者之间的差异即可。随后可根据每个输入样本的第n层预测误差en计算第一子损失L1n,第一子损失L1n可以为各输入样本的第n层预测误差en的加和,也可以对各输入样本计算权重之后对所有预测误差en进行加权。可以理解,以上计算方法仅为示例性实施方式,本申请实施例不限于此。
第一损失包含N个第一子损失L11至L1N。针对N层初始第一解码器执行前述步骤之后,可根据N个第一子损失L11至L1N后进一步获得第一损失,并判断第一损失是否达到第一预设条件。在一些实施例中,前述第一预设条件包含以下条件中的至少一个。首先,所有第一子损失均小于各自对应的第一阈值。该条件意味着在每层第一解码器对应的粒度下,初始编解码网络根据各输入-输出样本对所预测的特征和各输出样本的实际特征均能够很好的匹配,即对第一初始编码模型和每个初始第一解码器的训练均达到了预设的水平。其次,各第一子损失的符合预设的第一分布,比如其平均值和方差/标准差均位于预设的区间内。该条件意味着初始编解码网络在所有粒度下进行的预测在整体上能够较好的与各输入-输出样本匹配,即对初始编解码网络的训练在整体上达到了预设的水平。第三,通过前述调整计算第一损失的迭代次数超过第二阈值。该条件意味着对初始编解码网络的训练已经执行了相对充分的时间或者使用了相对充足的运算资源。在达到第一预设条件之后,可以终止训练过程,即停止对初始编解码网络参数的迭代调整,并将此时的初始第一编码模型和初始第一解码模型分别作为第一编码模型和第一解码模型应用于后续的信息转换过程。
以上训练方法主要描述了针对第一编码模型和第二解码模型(或各层第二解码器)的联合训练,其中采用了各层第二解码器相对独立的训练模式。可以理解,在一些实施例中,还可以采用各层第二解码器逐层依赖的训练模式,该模式完全对应于信息转换过程,仅需将前述过程中根据第n层初始第一编码O0n和第n+1层目标编码Qn+1获得第n层预测编码P0n的过程替换为根据第n层初始第一编码O0n和第n+1层预测编码Pn+1即可,其余细节与前述过程一致,这里不在重复描述。
在另一些实施例中,第一损失中还可以包含其他形式的子损失。例如,如前所述,在一些实施例中第一解码器Di可基于流模型,包含激活标准化层、可逆卷积层和仿射耦合层。考虑到流模型中各层的运算均是可逆的,训练过程还可以包含针对流模型的独立训练。请参考图12,与图7所示的信息转换过程类似,该训练过程包含M个循环。针对第i层初始第一解码器D0i,可以将各输出样本的目标编码Q0i输入激活标准化层,然后经可逆卷积层处理后,与目标编码Q0(i+1)和初始第一编码O0i(当i=N时仅有初始第一编码ON)共同输入仿射耦合层,并将仿射耦合层的输出重新输入激活标准化层。在完成M个循环之后,仿射耦合层的输出为各输出样本的编码z0i。此时,可通过比较所有输出样本对应编码z0i的分布与预设分布之间的差异,来获得分布子损失Ldi。相应的,此时第一预设条件还可以包含:前述分布子损失Ldi小于其对应的预设阈值。在一些实施例中,可利用如下公式构建涉及初始第一解码器D0i的目标函数:
其中,p(Q0i|Q0(i+1),O0i)表示目标编码Q0i相对目标编码Q0(i+1)和初始第一编码O0i的后验分布,pz为前述预设分布,z0i=f(Q0i,Q0(i+1),O0i),f即图12所示的初始第一解码器D0i所表示的函数,也可视为图7所示的第一解码器Di表示的函数针对z0i的逆函数。
另外,如前所述,在一些实施例中,前述输出信息为语音波形,前述第一解码模型还包含声码器。此时,前述训练过程还包含对声码器的训练,第一损失中还包含涉及声码器的第二子损失L2。请参考图13,与图8涉及的实施例相对应,前述输出样本为语音波形,前述始第一解码模型还包含初始声码器。此时,前述训练过程那种调用初始第一解码模型对样本特征进行解码的步骤,还包括以下步骤:调用前述初始声码器对第1层初始解码器对应的目标编码进行解码,获得重构语音波形。其中,前述第二子损失L2可根据前述语音波形和前述重构语音波形获得。相应的,第一预设条件还可以包含:前述第二子损失L2小于其对应的预设阈值。
以上训练方法主要利用了第二编码模型来获得目标编码,以对初始编解码网络的编解码过程在各输入-输出样本对上产生的失配进行评估。因此,第二编码模型能否准确的解析输出样本以生成合适的目标编码直接影响到能否获得良好的编解码网络,从而影响信息转换的准确性和稳定性。以下将对获得第二编码模型的过程进行描述。
请参考图14,在图10的基础上,在步骤S120之前,该信息转换方法还包括以下步骤(未示出):S110、基于第二样本集对初始第二编码模型进行训练,获得前述第二编码模型。其中,前述第二样本集包含至少一个或者多个训练样本。可以理解,这里的训练样本与前述第一样本集中的输出样本、以及信息转换所得到的输出信息的类型相同。在图14中,步骤S110包括以下步骤:
S112、将前述第二样本集输入前述初始第二编码模型。
S114、对前述初始第二编码模型的参数进行调整,直到第二损失符合第二预设条件。
与步骤S160类似,步骤S114也通常体现为对模型参数的迭代调整过程,并在每次迭代之后判断是否满足预设条件。
在一些实施例中,第二编码模型可通过无监督环境下的训练获得,这种训练能够通常能够使用丰富的样本库来保证训练效果。当信息转换所获得的输出信息为输出序列时,训练样本与输出样本也同样为时间或者空间上的序列,此时第二编码模型的编码过程与对应的初始第二编码模型的训练过程可充分利用序列中的长下文信息。请参考图15,在一些实施例中,第二编码模型包含特征模块、上下文模块和下采样模块。此时,步骤S120可包括以下步骤:
S122、调用前述特征模块对输出样本x={x1,x2,…,xM}进行非线性变换,获得第三中间编码z={z1,z2,…,zT}。这里将输出样本表示为长度为M的序列x,将第三中间编码表示为长度为T的特征序列z。在一些实施例中,特征模块从输出样本x中每个元素提取得到对应的特征,此时有M=T。比如,当输出样本为文本时,x1至xM分别表示该文本中依序排列的文本单元,如字符或者词语,此时z1至zM可分别表示M各文本单元的特征。再比如,当输出样本为语音时,x1至xM分别表示该语音中依序排列的语音帧波形,此时z1至zM可分别表示M各语音帧的声学特征。
S124、调用前述上下文模块对前述第三中间编码z={z1,z2,…,zT}进行上下文处理,获得第四中间编码c={c1,c2,…,cT′}。这里将第四中间编码表示为长度为T'的特征序列c。通常情况下,上下文处理能够依序针对第三中间编码z中每个元素所处的上下文环境提取对应的特征,此时有T'≤T。在一些实施例中,上下文模块可通过RNN模型实现,例如单向或者双向的LSTM模型或者GRU模型。
S126、调用前述下采样模块对前述第四中间编码c={c1,c2,…,cT′}进行下采样,获得所述目标特征。其中,前述下采样模块对所述第四中间编码c={c1,c2,…,cT′}进行不同频率的下采样以获得所述N层目标编码中不同层的目标编码。如图15所示,可通过对第四中间编码c={c1,c2,…,cT′}进行频率为1/Ki的下采样来获取第i层目标编码Q0i,其中1≤i≤N。可以理解,经过下采样之后,目标编码Q0i中每个元素对应第四中间编码c中的Ki个元素。
从步骤S122和S124可以看出,第四中间编码c每个元素反映了输出样本中对应组成部分(即序列x中对应元素)的上下文特征。在进行频率1/Ki的下采样之后,与第四中间编码c相比,目标编码Q0i中每个元素所对应的、输出样本的组成部分在结构尺度上扩大了Ki倍。因此,所选用的采样频率1/Ki取决于目标编码Q0i中每个元素所对应的输出样本组成部分的结构尺度。进一步考虑输出样本与输出信息、第一初始解码器与第一解码器之间的对应关系,可知Ki实质上取决于信息转换过程中(参考步骤S400)第i层第一解码器Di所对应的粒度。作为示例,输出信息和输出样本均为语音帧序列,第1层至第4层第一解码器所对应的粒度分别为8、16、32、64个语音帧。此时,目标编码Q01至Q04中每个元素分别对应输出样本中8、16、32、64个语音帧,若第四中间编码c中每个元素为单个语音帧的上下文声学特征,则K1至K4分别为8、16、32、64。由此可见,采用上述结构的第二编码模型能够将高密度的特征序列(即第四中间编码)抽象为低密度的特征序列(即目标编码),使用不同频率的下采样来表征输出样本中不同粒度成分的特征,从而准确的适配第一初始解码模型的输入要求,完成对初始编解码网络的校准。
接下来继续描述步骤S110中的训练过程。由于Ki由第i层第一解码器Di决定,下采样模块通常不需要进行参数调整,因此在前述第二编码模型结构的基础上,训练第二编码模型的过程主要涉及对特征模块和上下文模块的参数调整。在一些实施例中,前述初始第二编码模型包含分别与前述特征模块和前述上下文模块对应的初始特征模块和初始上下文模块,前述第二损失包含分别与前述N层目标编码Q01至Q0N依序一一对应的N个第三子损失L31至L3N。也就是说,对任何1≤n≤N,第n层目标编码Q0n对应第n个第三子损失L3n
此时,前述第二编码模型可基于CPC模型。请参考图1在一些实施例中,目标编码Q0i所对应的第三子损失L3i根据以下步骤获得:
首先,调用前述初始特征模块对各训练样本x0={x01,x02,…,x0R}进行非线性变换,获得该训练样本的特征序列z0={z01,z02,…,z0S}。这里将训练样本表示为长度为R的序列x0,将特征序列表示为长度为S的特征序列z0。本步骤与步骤S122类似,具体的细节可参考步骤S122,这里不在重复描述。
随后,调用前述初始上下文模块前述特征序列z0={z01,z02,…,z0S}进行特征抽取,获得该训练样本的上下文序列c0={c01,c02,…,c0S′},其中,所述上下文的长度S不大于特征序列的长度S。本步骤与步骤S124类似,具体的细节可参考步骤S124,这里不在重复描述。
然后,在前述上下文序列c0={c01,c02,…,c0S′}中选择至少一个元素c0s作为锚点。其中,元素c0s表示上下文序列c0中的第s个元素。本申请实施例对每个样本的锚点数量不做限制,可根据实际应用场景选择所需数量的锚点。可以理解,锚点最多可以选择S'个,即将上下文序列c0中每个元素均作为锚点。锚点数量越多越有助于获得准确的第二编码模型,但相应的会增加训练第二编码模型的运算量。
接下来,对每个锚点c0s,根据目标范围从前述特征序列z0={z01,z02,…,z0S}中选择该锚点的正样本z0p和至少一个负样本{z0n},并根据锚点c0s、正样本z0p和负样本z0n确定锚点c0s的NCE。在一些实施例中,可以使用如下公式来计算NCE:
其中,E为系数,z0nj为负样本集合{z0n}中的负样本,f(c0s,z0t)=exp(c0s′·z0t)。前述目标范围基于Ki的数值和该锚点在所述上下文序列中的位置确定,可设定为[s,s+Ki],即特征序列z0中第s个元素至第s+Ki个元素。正样本z0p为特征序列z0中位于目标范围中的元素,即p∈[s,s+Ki]。每个负样本z0n均为所述特征序列z0中不位于所述目标范围中的元素,即如果有J个负样本z0n1至z0nJ,则对任意1≤j≤J,有
随后,基于每个锚点c0s的NCE,确定该训练样本x0的目标损失。通常情况下,目标损失和每个锚点c0s的NCE正相关。在本步骤中,目标损失可以为各锚点c0s的NCE的累加、平均值、加权或者乘积,本申请实施例对此不做限制,只要目标损失能够表征训练样本x0中所有锚点c0s的NCE即可。
最后,基于各训练样本的目标损失,确定该第三子损失L3i。在本步骤中,第三子损失L3i可以为各训练样本x0的目标损失的累加、平均值、加权或者乘积,本申请实施例对此不做限制。
经过以上步骤,可以得到目标编码Q0i所对应的第三子损失L3i。在得到N层目标编码Q01至Q0N的第三子损失L31至L3N之后,即可得到第二损失,并判断所获得的第二损失是否达到第二预设条件。与前述第一预设条件类似,在一些实施例中,前述第一预设条件包含以下条件中的至少一个。首先,所有第三子损失均小于各自对应的第三阈值。其次,各第三子损失的符合预设的第二分布,比如其平均值和方差/标准差均位于预设的区间内。第三,通过前述调整计算第一损失的迭代次数超过第四阈值。在达到第二预设条件之后,可以终止训练过程,即停止对初始第二编码模型参数的迭代调整,并将此时的初始第二编码模型作为第二编码模型后续初始编解码网络的训练过程。
本申请实施例的第二方面提供了一种信息转换装置。图17为本申请实施例中一种信息转换装置的结构示意图。如图17所示,该信息转换装置1700可包含编码模块1702和解码模块1704。
编码模块1702用于调用第一编码模型对输入信息进行编码,得到第一特征。其中,前述第一特征至少包含前述第一编码模型输出的N层第一编码。
解码模块1704用于调用第一解码模型对前述第一特征进行解码,得到输出信息。其中,前述输出信息与所述输入信息为不同类型的信息。前述第一解码模型至少包含N层第一解码器,前述N层第一编码与前述N层第一解码器一一对应。
其中,对任何1≤n≤N,第n层第一解码器对应于第n层第一编码,且第n层第一编码输入第n层第一解码器。对任何1≤n<N,第n+1层第一解码器的输出编码输入第n层第一解码器,第n+1层第一解码器的输出编码用于表征前述输出信息在第n层第一解码器对应粒度下的组成部分的特征,且第n+1层第一解码器的对应粒度大于第n层第一解码器的对应粒度。n、N均为正整数。
在一些实施例中,前述输入信息为输入序列,且前述输出信息为输出序列。前述输入序列中的各元素依序与前述输出序列中的一个或多个元素对应,或者前述输出序列中的各元素依序与前述输入序列中的一个或多个元素对应。
在一些实施例中,前述第一编码模型包含特征提取模块和对齐模块。编码模块1702包含特征生成子模块和特征转换子模块。
特征生成子模块用于调用前述特征提取模块对前述输入信息进行编码,得到输入特征。其中,前述输入特征为具有第一长度的特征序列。
特征转换子模块用于调用前述对齐模块将前述输入特征转换为前述第一特征。其中,各层第一编码为具有预设长度的序列,且对任何1≤n<N,第n层第一编码的预设长度大于第n+1层第一编码的预设长度。
在一些实施例中,前述特征提取模块基于多头自注意力模型。
在一些实施例中,前述对齐模块包含采样预测层、采样层和池化层。前述特征转换子模块包含对应关系获取单元、目标采样单元和编码获取单元。
对应关系获取单元用于调用前述采样预测层获取前述特征序列中各元素与对齐序列中各元素之间的对应关系。
目标采样单元用于调用前述采样层根据前述对应关系对前述特征序列进行目标采样,得到具有目标长度的前述对齐序列。
编码获取单元用于调用前述池化层对前述对齐序列进行池化,得到前述N层第一编码。
在一些实施例中,前述特征序列中的每个元素对应前述对齐序列中的一个或多个元素,前述采样包含上采样,且前述目标长度大于前述第一长度。或者,前述对齐序列中的每个元素对应前述特征序列中的一个或多个元素,前述采样包含下采样,且前述目标长度小于所述第一长度。
在一些实施例中,前述池化层包含与前述N层第一编码依序一一对应的N层子池化层。前述编码获取单元具体用于:调用第1层第一编码对应的子池化层对前述对齐序列进行池化,得到第1层第一编码;以及,调用第i+1层第一编码对应的子池化层对第i层第一编码进行池化,得到第i+1层第一编码,其中1≤i<N。
在一些实施例中,前述目标长度大于所述第一长度。此时,前述输入信息为文本单元构成的序列,其中,每个文本单元为对应于单音素的文本。或者,前述输入信息为文本特征构成的序列,其中,各文本特征用于表征文本中依序排列的结构切分段的特征。
在一些实施例中,前述目标长度小于前述第一长度。此时,前述输入信息为语音帧构成的序列,或者,前述输入信息为语音帧的语音特征构成的序列。
在一些实施例中,解码模块1704包含分层输出子模块和末端输出子模块。
分层输出子模块用于:调用第N层第一解码器,根据第N层第一编码获得第N层第一解码器的输出编码;以及,对任何1≤n<N,调用第n层第一解码器,根据第n层第一编码和第n+1层第一解码器的输出编码获得第n层第一解码器的输出编码。
末端输出子模块用于根据第1层第一解码器的输出编码获得前述输出信息。
在一些实施例中,对1≤i≤N,前述分层输出子模块还用于:在调用第i层第一解码器之前,根据第i层第一解码器对应的预设分布进行采样,获得第i层采样编码。其中,第i层第一解码器还根据第i层采样编码获得第i层第一解码器的输出编码。
在一些实施例中,第i层第一解码器基于标准化流模型,且前述预设分布为标准正态分布。
在一些实施例中,第i层第一解码器基于Glow模型。
在一些实施例中,第i层第一解码器包含激活标准化层、可逆卷积层和仿射耦合层,i为正整数且1≤i≤N。前述分层输出子模块在调用第i层第一解码器获得第i层第一解码器的输出编码时用于执行M个循环,M为正整数。每个循环中,前述分层输出子模块具体用于:调用前述激活标准化层根据第一输入和第二输入获得第一中间编码;调用前述可逆卷积层根据前述第一中间编码获得第二中间编码;以及,调用前述激活标准化层根据前述第二中间编码获得循环输出编码。其中,第1个循环的第一输入为第i层采样编码,第j个循环的第一输入为第j-1个循环的循环输出编码,且第M个循环的循环输出编码为所述第i层第一解码器的输出编码,其中1<j≤M。其中,1≤i<N时第二输入为第i层第一编码和第i+1层第一解码器的输出编码,且i=N时第二输入为第i层第一编码。
在一些实施例中,前述输出信息为语音波形,且前述第一解码模型还包含声码器。前述末端输出子模块用于调用前述声码器对第1层第一解码器的输出编码进行解码,获得前述语音波形。
图18为本申请实施例中另一种信息转换装置的结构示意图。在一些实施例中,在图17的基础上,前述信息转换装置1700还包括训练模块1701。
训练模块1701用于:基于第一样本集对初始第一编码模型和初始第一解码模型进行训练,获得前述第一编码模型和前述第一解码模型。其中,前述第一样本集包含至少一个输入样本和至少一个输出样本,且输入样本和输出样本一一对应。其中,前述初始第一编码模型与前述第一编码模型对应,且前述第一解码模型包含与前述N层第一解码器依序一一对应的N层初始第一解码器。
在一些实施例中,训练模块1701包含目标生成子模块、输入子模块和调整子模块。
目标生成子模块用于调用第二编码模型对各输出样本进行编码,得到各输出样本的目标特征。
输入子模块用于将各输入样本输入前述初始第一编码模型,并将各输出样本的所述目标特征输入前述初始第一解码模型。
调整子模块用于调整前述初始第一编码模型和前述初始第一解码模型的参数,直到第一损失达到第一预设条件。其中,前述初始第一编码模型和前述初始第一解码模型根据各输出样本的前述目标特征和各输入样本计算得到前述第一损失。
在一些实施例中,前述目标特征包含N层目标编码,且前述N层目标编码与前述N层初始第一解码器依序一一对应。前述第一损失包含N个第一子损失,且前述N个第一子损失与前述N层初始第一解码器依序一一对应。在获得N个第一子损失的过程中个,前述调整子模块用于:调用前述初始第一编码模型对各输入样本进行编码,得到样本特征,其中,前述样本特征包含N层初始第一编码;调用前述初始第一解码模型对各输入样本的前述样本特征进行解码,得到各输入样本的预测特征,其中,前述预测特征包含N层预测编码,第N层初始第一解码器根据第N层初始第一编码获得第N层预测编码,且对于任何1≤n<N,第n层初始第一解码器根据第n层初始第一编码和第n+1层目标编码获得第n层预测编码;以及,对任何1≤n≤N,根据各输入样本的第n层预测误差,得到第n个第一子损失,其中,前述第n层预测误差用于表征各输入样本的第n层目标编码和第n层预测编码之间的差异。
在一些实施例中,所述第一预设条件包含以下条件中至少一个:前述N个第一子损失均小于各自对应的第一阈值;前述N个第一子损失符合预定的第一分布;或者,通过前述调整计算第一损失的迭代次数超过第二阈值。
在一些实施例中,前述输出样本为语音波形,且前述初始第一解码模型还包含初始声码器。在调用初始第一解码模型对前述样本特征进行解码时,前述调整子模块用于:调用前述初始声码器对第1层初始解码器对应的目标编码进行解码,获得重构语音波形。其中,前述第一损失还包含第二子损失,且前述调整子模块根据该语音波形和前述重构语音波形获得前述第二子损失。
在一些实施例中,训练模块1701还包含训练子模块。
训练子模块用于:在前述目标生成子模块调用第二编码模型对各输出样本进行编码之前,基于第二样本集对初始第二编码模型进行训练,获得前述第二编码模型。其中,前述第二样本集包含至少一个或者多个训练样本。
在一些实施例中,训练子模块包含输入单元和调整单元。
输入单元用于将前述第二样本集输入前述初始第二编码模型。
调整单元用于对前述初始第二编码模型的参数进行调整,直到第二损失符合第二预设条件,其中,所述初始第二编码模型根据各训练样本、基于噪声对比估计计算所述第二损失。
在一些实施例中,前述第二编码模型包含特征模块、上下文模块和下采样模块。前述目标子模块具体用于:调用前述特征模块对输出样本进行非线性变换,获得第三中间编码;调用前述上下文模块对前述第三中间编码进行上下文处理,获得第四中间编码;以及,调用前述下采样模块对前述第四中间编码进行下采样,获得前述目标特征。其中,前述下采样模块对前述第四中间编码进行不同频率的下采样以获得前述N层目标编码中不同层的目标编码。
在一些实施例中,前述第二编码模型基于对比预测编码模型,且前述特征抽取层基于RNN模型。
在一些实施例中,前述初始第二编码模型包含分别与前述特征模块和前述上下文模块对应的初始特征模块和初始上下文模块。前述第二损失包含分别与前述N层目标编码依序一一对应的N个第三子损失。调整单元调用前述下采样模块以频率1/K对前述第四中间编码进行下采样时,根据以下步骤计算所获得的目标编码对应的第三子损失:调用前述初始特征模块对各训练样本进行非线性变换,获得该训练样本的特征序列;调用前述初始上下文模块前述特征序列进行特征抽取,获得该训练样本的上下文序列,其中,前述上下文序列的长度不大于前述特征序列的长度;在前述上下文序列中选择至少一个元素作为锚点;对每个锚点,根据目标范围从前述特征序列中选择该锚点的正样本和至少一个负样本,并根据该锚点、前述正样本和前述负样本确定该锚点的噪声对比估计,其中,前述目标范围基于K的数值和该锚点在前述上下文序列中的位置确定;基于每个锚点的噪声对比估计,确定该训练样本的目标损失;以及,基于各训练样本的目标损失,确定该第三子损失。其中,对位于前述上下文序列中第s个元素的锚点,前述正样本为前述特征序列中位于前述目标范围中的元素,每个负样本均为前述特征序列中不位于前述目标范围中的元素,且前述目标范围为该训练样本的前述特征序列中第s个元素至第t+K个元素。其中,s、K均为正整数。
在一些实施例中,所述第二预设条件包含以下条件中至少一个:前述N个第三子损失均小于各自对应的第三阈值;前述N个第三子损失符合预定的第二分布;或者,通过前述调整计算第二损失的迭代次数超过第四阈值。
本申请实施例的第三方面提供了一种电子设备,该电子设备可用于实现前述信息转换方法。在一些实施例中,该电子设备包含处理器和存储器。其中,该存储器存储有指令,且该指令被该处理器执行时使得所述电子设备执行前述任一信息转换方法。
本申请实施例的第四方面提供了一种计算机可读存储介质。该计算机可读存储介质存储有计算机指令,且该计算机指令被处理器执行时使得计算机执行前述任一信息转换方法。
所述计算机可读存储介质包含程序命令、数据文件、数据结构等、或它们的组合。被记录在计算机可读存储介质中的程序可被设计或被配置以实现本申请的方法。计算机可读存储介质包括用于存储并执行程序命令的硬件系统。硬件系统的示例有磁介质(诸如硬盘、软盘、磁带)、光介质(诸如CD-ROM和DVD)、磁光介质(诸如软光盘、ROM、RAM、闪存等)。程序包括由编译器编译的汇编语言代码或机器代码和由解释器解释的更高级语言代码。硬件系统可利用至少一个软件模块来实施以符合本申请。
本申请实施例的第五方面提供了一种计算机程序产品。该计算机程序产品包含计算机指令,且该计算机指令在计算机上运行时使得该计算机执行前述任一信息转换方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法相关部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性的描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (18)

1.一种应用于语音处理或视频处理的基于编解码网络的信息转换方法,包括:
调用第一编码模型对输入信息进行编码,得到第一特征,其中,所述第一特征至少包含所述第一编码模型输出的N层第一编码;以及,
调用第一解码模型对所述第一特征进行解码,得到输出信息,其中,所述输出信息与所述输入信息为不同类型的信息,所述第一解码模型至少包含N层第一解码器,所述N层第一编码与所述N层第一解码器一一对应;
其中,对任何1≤n≤N,第n层第一解码器对应于第n层第一编码,且第n层第一编码输入第n层第一解码器;
其中,对任何1≤n<N,第n+1层第一解码器的输出编码输入第n层第一解码器,第n+1层第一解码器的输出编码用于表征所述输出信息在第n层第一解码器对应粒度下的组成部分的特征,且第n+1层第一解码器的对应粒度大于第n层第一解码器的对应粒度;
其中,n、N均为正整数。
2.根据权利要求1所述的信息转换方法,其特征在于,
所述输入信息为输入序列,且所述输出信息为输出序列;而且,
所述输入序列中的各元素依序与所述输出序列中的一个或多个元素对应,或者所述输出序列中的各元素依序与所述输入序列中的一个或多个元素对应。
3.根据权利要求2所述的信息转换方法,其特征在于,所述第一编码模型包含特征提取模块和对齐模块,且所述调用第一编码模型对输入信息进行编码的步骤包括:
调用所述特征提取模块对所述输入信息进行编码,得到输入特征,其中,所述输入特征为具有第一长度的特征序列;以及,
调用所述对齐模块将所述输入特征转换为所述第一特征,其中,各层第一编码为具有预设长度的序列,且对任何1≤n<N,第n层第一编码的预设长度大于第n+1层第一编码的预设长度。
4.根据权利要求3所述的信息转换方法,其特征在于,所述对齐模块包含采样预测层、采样层和池化层,且所述调用对齐模块将第一编码转换为所述第一特征的步骤包括:
调用所述采样预测层获取所述特征序列中各元素与对齐序列中各元素之间的对应关系;
调用所述采样层根据所述对应关系对所述特征序列进行目标采样,得到具有目标长度的所述对齐序列;
调用所述池化层对所述对齐序列进行池化,得到所述N层第一编码。
5.根据权利要求4所述的信息转换方法,其特征在于,
所述特征序列中的每个元素对应所述对齐序列中的一个或多个元素,所述采样包含上采样,且所述目标长度大于所述第一长度;或者,
所述对齐序列中的每个元素对应所述特征序列中的一个或多个元素,所述采样包含下采样,且所述目标长度小于所述第一长度。
6.根据权利要求5所述的信息转换方法,其特征在于,所述目标长度大于所述第一长度时,
所述输入信息为文本单元构成的序列,其中,每个文本单元为对应于单音素的文本;或者,
所述输入信息为文本特征构成的序列,其中,各文本特征用于表征文本中依序排列的结构切分段的特征。
7.根据权利要求5所述的信息转换方法,其特征在于,所述目标长度小于所述第一长度时,
所述输入信息为语音帧构成的序列;或者,
所述输入信息为语音帧的语音特征构成的序列。
8.根据权利要求1至6中任一项所述的信息转换方法,其特征在于,所述调用第一解码模型对第一特征进行解码的步骤,包括:
调用第N层第一解码器,根据第N层第一编码获得第N层第一解码器的输出编码;
对任何1≤n<N,调用第n层第一解码器,根据第n层第一编码和第n+1层第一解码器的输出编码获得第n层第一解码器的输出编码;
根据第1层第一解码器的输出编码获得所述输出信息。
9.根据权利要求8所述的信息转换方法,其特征在于,对1≤i≤N,在所述调用第i层第一解码器获得第i层第一解码器的输出编码之前,还包括:
根据第i层第一解码器对应的预设分布进行采样,获得第i层采样编码;
其中,第i层第一解码器还根据第i层采样编码获得第i层第一解码器的输出编码。
10.根据权利要求9所述的信息转换方法,其特征在于,
第i层第一解码器包含激活标准化层、可逆卷积层和仿射耦合层,i为正整数且1≤i≤N;而且,
所述调用第i层第一解码器获得第i层第一解码器的输出编码的步骤包含M个循环,M为正整数,且每个循环包括:
调用所述激活标准化层根据第一输入和第二输入获得第一中间编码;
调用所述可逆卷积层根据所述第一中间编码获得第二中间编码;以及,
调用所述激活标准化层根据所述第二中间编码获得循环输出编码;
其中,第1个循环的所述第一输入为第i层采样编码,第j个循环的所述第一输入为第j-1个循环的循环输出编码,且第M个循环的所述循环输出编码为所述第i层第一解码器的输出编码,其中1<j≤M;
其中,1≤i<N时所述第二输入为第i层第一编码和第i+1层第一解码器的输出编码,且i=N时所述第二输入为第i层第一编码。
11.根据权利要求8所述的信息转换方法,其特征在于,所述输出信息为语音波形,所述第一解码模型还包含声码器,且所述根据第1层第一解码器的输出编码获得所述输出信息的步骤还包括:
调用所述声码器对第1层第一解码器的输出编码进行解码,获得所述语音波形。
12.根据权利要求1至7、9至11中任一项所述的信息转换方法,其特征在于,还包括:
基于第一样本集对初始第一编码模型和初始第一解码模型进行训练,获得所述第一编码模型和所述第一解码模型;
其中,所述第一样本集包含至少一个输入样本和至少一个输出样本,且所述输入样本和所述输出样本一一对应;
其中,所述初始第一编码模型与所述第一编码模型对应,且所述第一解码模型包含与所述N层第一解码器依序一一对应的N层初始第一解码器。
13.根据权利要求12所述的信息转换方法,其特征在于,所述基于第一样本集对初始第一编码模型和初始第一解码模型进行训练的步骤,包括:
调用第二编码模型对各输出样本进行编码,得到各输出样本的目标特征;
将各输入样本输入所述初始第一编码模型,并将各输出样本的所述目标特征输入所述初始第一解码模型;
调整所述初始第一编码模型和所述初始第一解码模型的参数,直到第一损失达到第一预设条件,其中,所述初始第一编码模型和所述初始第一解码模型根据各输出样本的所述目标特征和各输入样本计算得到所述第一损失。
14.根据权利要求13所述的信息转换方法,其特征在于,所述第二编码模型包含特征模块、上下文模块和下采样模块,且所述调用第二编码模型对各输出样本进行编码的步骤,包括:
调用所述特征模块对输出样本进行非线性变换,获得第三中间编码;
调用所述上下文模块对所述第三中间编码进行上下文处理,获得第四中间编码;以及,
调用所述下采样模块对所述第四中间编码进行下采样,获得所述目标特征,其中,所述目标特征包含N层目标编码;
其中,所述下采样模块对所述第四中间编码进行不同频率的下采样以获得所述N层目标编码中不同层的目标编码。
15.根据权利要求13所述的信息转换方法,其特征在于,在所述调用第二编码模型对各输出样本进行编码之前,还包括:
基于第二样本集对初始第二编码模型进行训练,获得所述第二编码模型,其中,所述第二样本集包含至少一个或者多个训练样本;
其中,所述基于第二样本集对初始第二编码模型进行训练的步骤,包括:
将所述第二样本集输入所述初始第二编码模型;以及,
对所述初始第二编码模型的参数进行调整,直到第二损失符合第二预设条件,其中,所述初始第二编码模型根据各训练样本、基于噪声对比估计计算所述第二损失。
16.一种应用于语音处理或视频处理的基于编解码网络的信息转换装置,包含:
编码模块,用于调用第一编码模型对输入信息进行编码,得到第一特征,其中,所述第一特征至少包含所述第一编码模型输出的N层第一编码,且每层第一编码用于表征所述输入信息在该层第一编码对应粒度下的组成部分的特征;以及,
解码模块,用于调用第一解码模型对所述第一特征进行解码,得到输出信息,其中,所述输出信息与所述输入信息为不同类型的信息,所述第一解码模型至少包含N层第一解码器,所述N层第一编码与所述N层第一解码器一一对应;
其中,对任何1≤n≤N,第n层第一解码器对应于第n层第一编码,且第n层第一编码输入第n层第一解码器;
其中,对任何1≤n<N,第n+1层第一解码器的输出编码输入第n层第一解码器,且第n+1层第一编码的对应粒度大于第n层第一编码的对应粒度;
其中,n、N均为正整数。
17.一种电子设备,包含处理器和存储器,其中,所述存储器存储有指令,且所述指令被所述处理器执行时使得所述电子设备执行根据权利要求1至7、9至11、13至15中任一项所述的信息转换方法。
18.一种计算机可读存储介质,存储有计算机指令,且所述计算机指令被处理器执行时使得计算机执行根据权利要求1至7、9至11、13至15中任一项所述的信息转换方法。
CN202110925487.4A 2021-08-12 2021-08-12 基于编解码网络的信息转换方法和装置、电子设备 Active CN113628630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110925487.4A CN113628630B (zh) 2021-08-12 2021-08-12 基于编解码网络的信息转换方法和装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110925487.4A CN113628630B (zh) 2021-08-12 2021-08-12 基于编解码网络的信息转换方法和装置、电子设备

Publications (2)

Publication Number Publication Date
CN113628630A CN113628630A (zh) 2021-11-09
CN113628630B true CN113628630B (zh) 2023-12-01

Family

ID=78384932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110925487.4A Active CN113628630B (zh) 2021-08-12 2021-08-12 基于编解码网络的信息转换方法和装置、电子设备

Country Status (1)

Country Link
CN (1) CN113628630B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116454B (zh) * 2022-06-15 2024-10-01 腾讯科技(深圳)有限公司 音频编码方法、装置、设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795556A (zh) * 2019-11-01 2020-02-14 中山大学 一种基于细粒度插入式解码的摘要生成方法
CN112687259A (zh) * 2021-03-11 2021-04-20 腾讯科技(深圳)有限公司 一种语音合成方法、装置以及可读存储介质
CN112750419A (zh) * 2020-12-31 2021-05-04 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112786005A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 信息合成方法、装置、电子设备和计算机可读存储介质
CN113160803A (zh) * 2021-06-09 2021-07-23 中国科学技术大学 基于多层级标识的端到端语音识别模型及建模方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944803B2 (en) * 2000-07-06 2005-09-13 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Code structure, encoder, encoding method, and associated decoder and decoding method and iteratively decodable code structure, encoder, encoding method, and associated iterative decoder and iterative decoding method
CN102623012B (zh) * 2011-01-26 2014-08-20 华为技术有限公司 矢量联合编解码方法及编解码器
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795556A (zh) * 2019-11-01 2020-02-14 中山大学 一种基于细粒度插入式解码的摘要生成方法
CN112786005A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 信息合成方法、装置、电子设备和计算机可读存储介质
CN112750419A (zh) * 2020-12-31 2021-05-04 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112687259A (zh) * 2021-03-11 2021-04-20 腾讯科技(深圳)有限公司 一种语音合成方法、装置以及可读存储介质
CN113160803A (zh) * 2021-06-09 2021-07-23 中国科学技术大学 基于多层级标识的端到端语音识别模型及建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hierarchical Prosody Conversion Using Regression-Based Clustering for Emotional Speech Synthesis;Chung-Hsien Wu;IEEE Transactions on Audio, Speech, and Language Processing ( Volume: 18, Issue: 6, August 2010);全文 *
面向任务的基于深度学习的多伦对话系统与技术;姚冬等;计算机科学;全文 *

Also Published As

Publication number Publication date
CN113628630A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
Liu et al. Diffsinger: Singing voice synthesis via shallow diffusion mechanism
CN111754976B (zh) 一种韵律控制语音合成方法、系统及电子装置
US11587569B2 (en) Generating and using text-to-speech data for speech recognition models
Ju et al. Naturalspeech 3: Zero-shot speech synthesis with factorized codec and diffusion models
US11538455B2 (en) Speech style transfer
Nakashika et al. Voice conversion using RNN pre-trained by recurrent temporal restricted Boltzmann machines
Nakashika et al. High-order sequence modeling using speaker-dependent recurrent temporal restricted boltzmann machines for voice conversion.
CN112786005B (zh) 信息合成方法、装置、电子设备和计算机可读存储介质
WO2019161011A1 (en) Speech style transfer
CN115641543B (zh) 一种多模态抑郁情绪识别方法及装置
CN113450765B (zh) 语音合成方法、装置、设备及存储介质
Luo et al. Emotional voice conversion using dual supervised adversarial networks with continuous wavelet transform f0 features
CN113628610B (zh) 一种语音合成方法和装置、电子设备
CN113327578B (zh) 一种声学模型训练方法、装置、终端设备及存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
CN115171176A (zh) 对象情绪的分析方法、装置和电子设备
CN117995161A (zh) 一种基于离散语音标记和离散扩散模型的语音合成系统
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN115410550A (zh) 一种细粒度韵律可控的情感语音合成方法、系统及存储介质
CN113628630B (zh) 基于编解码网络的信息转换方法和装置、电子设备
Xue et al. Foundationtts: Text-to-speech for asr customization with generative language model
CN113707127A (zh) 一种基于线性自注意力的语音合成方法及系统
CN111602194A (zh) 语音波形生成

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant