CN110459202B - 一种韵律标注方法、装置、设备、介质 - Google Patents

一种韵律标注方法、装置、设备、介质 Download PDF

Info

Publication number
CN110459202B
CN110459202B CN201910899853.6A CN201910899853A CN110459202B CN 110459202 B CN110459202 B CN 110459202B CN 201910899853 A CN201910899853 A CN 201910899853A CN 110459202 B CN110459202 B CN 110459202B
Authority
CN
China
Prior art keywords
neural network
prosody
feature
text
labeling result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910899853.6A
Other languages
English (en)
Other versions
CN110459202A (zh
Inventor
谌明
陆健
徐欣康
胡新辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Original Assignee
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tonghuashun Intelligent Technology Co Ltd filed Critical Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority to CN201910899853.6A priority Critical patent/CN110459202B/zh
Publication of CN110459202A publication Critical patent/CN110459202A/zh
Application granted granted Critical
Publication of CN110459202B publication Critical patent/CN110459202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种韵律标注方法、装置、设备、介质,该方法包括:获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,利用所述训练后端到端神经网络直接输出第二韵律标注结果。该韵律标注方法将声学特征与对应的文本特征进行有效融合,提高了韵律标注的准确性。

Description

一种韵律标注方法、装置、设备、介质
技术领域
本申请涉及语音合成技术领域,特别涉及一种韵律标注方法、装置、设备、介质。
背景技术
合成音库一般包括大量高质量的录制音频片段、对应的转写文本以及依据录制音频片段的韵律信息在转写文本上进行的韵律标注。如何通过计算机自动、准确地进行合成音库的韵律标注成为语音合成领域一项重要的的技术。
现有技术方案一:先利用预先训练好的文本韵律预测模型预测出文本的韵律信息,再使用预先录制好的音频对预测出的文本韵律信息进行认证筛选,剔除不正确的韵律信息,保留正确的韵律信息,得到最终韵律信息。方案二:利用已有的语音及文本两种韵律预测模型分别针对语音和文本进行韵律预测,得到带有概率的韵律预测结果,然后依据两个韵律预测结果的概率,选择较高概率的韵律预测结果。
方案一在不按预测出的文本韵律节奏朗读的情况下,无法最终筛选出正确韵律信息。方案二割裂了语音和文本的内在联系,也无法取得很好的韵律标注效果。且现有方案中的韵律标注过程都包含多个阶段的处理,每个阶段的组件构建都需要有丰富的领域知识,整个系统设计困难,实现复杂,各个阶段的误差在最终阶段都会叠加,使最终得到的韵律信息不准确。
发明内容
有鉴于此,本申请的目的在于提供一种韵律标注方法、装置、设备、介质,能够避免韵律标注过程多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现韵律自动标注,提高韵律标注结果的准确性。
其具体方案如下:
第一方面,本申请公开了一种韵律标注方法,包括:
获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络得到训练后端到端神经网络;
当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
可选的,所述获取样本音频对应的第一声学特征之前,还包括:
将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。
可选的,所述获取所述样本音频对应的第一文本特征之前,还包括:
将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。
可选的,所述获取所述样本音频对应的第一韵律标注结果之前,还包括:
将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。
可选的,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:
将所述端到端神经网络的网络参数随机初始化。
可选的,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:
训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。
可选的,所述将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络,包括:
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出;
通过所述解码器中的注意力模块将所述第一声学特征和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值;
将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的所述实时韵律标注结果;
计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。
可选的,所述当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果之后,还包括:
将所述第二韵律标注结果插入所述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。
第二方面,本申请公开了一种韵律标注装置,包括:
特征获取模块,用于获取样本音频对应的第一声学特征和第一文本特征;
韵律标注结果获取模块,用于获取所述样本音频对应的第一韵律标注结果;
训练处理模块,用于将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
标注模块,用于当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
第三方面,本申请公开了一种韵律标注设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述公开的韵律标注方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的韵律标注方法。
可见,本申请先获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;再将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。由此可见,本申请通过训练得到一个端到端神经网络,当获取到待标注韵律的声学特征和对应的文本特征时,将所述声学特征和所述文本特征作为所述训练后端到端神经网络的输入,以得到所述训练后端到端神经网络直接输出的韵律标注结果,避免了韵律标注过程中多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现了韵律自动标注,且提高了韵律标注结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种韵律标注方法流程图;
图2为本申请公开的一种具体的韵律标注方法流程图;
图3为本申请公开的一种端到端神经网络结构图;
图4为本申请公开的一种具体的韵律标注方法流程图;
图5为本申请公开的一种韵律标注装置结构示意图;
图6为本申请公开的一种韵律标注设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有的韵律标注方案或标注效率低,或割裂了待标注韵律的声学特征与对应的文本特征之间的内在联系,且韵律标注过程都包含多个阶段的处理,每个阶段的组件构建都需要有丰富的领域知识,整个系统设计困难,实现复杂,各个阶段的误差在最终阶段都会叠加,使最终得到的韵律信息不准确。有鉴于此,本申请相应地提出了一种韵律标注方法,能够避免韵律标注过程多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现韵律自动标注,提高韵律标注结果的准确性。
本申请实施例公开了一种韵律标注方法,参见图1所示,该方法包括:
步骤S11:获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果。
本实施例中,所述获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果之前,还包括:确定端到端神经网络的网络结构和网络超参数。具体的,先确定端到端神经网络的网络结构,并设置不能通过训练得到的网络超参数。
本实施例中,所述获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果之前,还包括:将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征;将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征;将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。所述声学特征包括但不限于梅尔频谱、线性谱、梅尔频率倒谱系数(MFCC)、基频、频带非周期分量(BAP)等。
可以理解的是,韵律通常包括节奏、强调、语调等,又称超音段特征、节律或音律。目前需要标注的韵律信息通常是韵律层级信息,所述韵律层级信息通常包括韵律词、韵律短语以及语调短语三层。本实施例中,所述韵律标注也即进行韵律词、韵律短语和语调短语的标注。
步骤S12:将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络。
本实施例中,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:将所述端到端神经网络的网络参数随机初始化。也即,在开始训练所述端到端神经网络之前,将所述端到端神经网络中除超参数之外的网络参数随机初始化,使得训练顺利开始。其中,所述端到端神经网络为从输入端输入数据,到输出端直接输出韵律标注结果的神经网络,所述端到端神经网络中间的网络部分自成一体,不需要多阶段的处理就能得到韵律标注结果。所述编码器将输入的第一声学特征进行编码,转换成中间表示,所述解码器将输入的第一文本特征联合第一声学特征的中间表示解码为实时韵律序列。
本实施例中,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。具体的,也就是在训练的过程中,计算所述端到端神经网络每次输出的实时韵律标注结果与所述第一韵律标注结果之间的误差,当所述误差满足预设条件时,得到训练后端到端神经网络。
步骤S13:当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
可以理解的是,当所述端到端神经网络训练完成后,便可得到训练后端到端神经网络,所述训练后端到端神经网络可用于自动标注韵律,当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,便可得到所述训练后神经网络直接输出的第二韵律标注结果。
可见,本申请先获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;再将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。由此可见,本申请通过训练得到一个端到端神经网络,当获取到待标注韵律的声学特征和对应的文本特征时,将所述声学特征和所述文本特征作为所述训练后端到端神经网络的输入,以得到所述训练后端到端神经网络直接输出的韵律标注结果,避免了韵律标注过程中多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现了韵律自动标注,且提高了韵律标注结果的准确性。
参见图2所示,本申请实施例公开了一种具体的韵律标注方法,该方法包括:
步骤S21:将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。
可以理解的是,所述样本音频是一段连续的音频,将所述样本音频按照固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。每一帧所述样本音频中可提取的声学特征类型较多,由于韵律标注与听觉相关,所以在特征提取过程中,选择与人耳听觉感知相关的声学特征,同时过滤掉一些冗余信息,使得韵律标注取得较好的效果,同时也提高了计算速度。
步骤S22:将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。
可以理解的是,在获取所述样本音频对应的第一文本特征之前,需先将所述样本音频对应的文本序列中的每一个字符用特定的定长向量表示,得到向量化的第一文本特征。所述定长向量是指向量的维度是确定的,即以一个特定的维度确定的向量来表示所述文本序列中的每一个字符,得到向量化的第一文本特征。
在第一种具体实施方式中,所述将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征,具体可以包括:将所述样本音频对应的文本序列中的每个字符用特定的确定维度的向量表示,并随机给所述向量赋值,得到向量化的第一文本特征。并在每一次计算误差后,根据所述误差实时更新所述第一文本特征中各个向量的值,直到所述误差满足预设条件,得到的所述向量的值就是所述第一文本特征对应的向量的最优值。
在第二种具体实施方式中,所述将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征,具体可以包括:从字库中查找出所述样本音频对应的文本序列中的每个字符对应的单字以及所述单字对应的向量,用所述向量表示所述文本序列中的每个字符,得到向量化的第一文本特征。其中,所述字库中所存储的单字及所述单字对应的向量为预先训练好的。
步骤S23:将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。
本实施例中,所述韵律标注为韵律层级标注,包括韵律词、韵律短语以及语调短语三类,所以所述韵律标注结果中的韵律标签可以包括4类,即韵律词、韵律短语、语调短语以及不划分。将所述样本音频对应的韵律标注结果中的不同的韵律标签用不同的数字表示,以得到数字化的第一韵律标注结果。所述第一韵律标注结果中的数字个数与所述样本音频对应的文本序列的字符数相同。例如,采用数字0表示不划分,1表示韵律词,2表示韵律短语,3表示语调短语,样本音频对应的文本序列有5个字符,则得到的第一韵律标注结果可以是“01203”。
步骤S24:获取所述第一声学特征、所述第一文本特征以及所述第一韵律标注结果。
步骤S25:将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出。
步骤S26:通过所述解码器中的注意力模块将所述第一声学特征和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值。
本实施例中,所述解码器中包括注意力模块和循环神经网络。所述注意力模块本质上看和人类的选择性视觉注意力机制原理类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息,通过所述注意力模块,可以从所述第一声学特征中选择出对于当前第一文本特征更关键的部分,以将所述第一声学特征和所述第一文本特征进行关联,得到关联信息。具体的,所述注意力模块通过计算所述第一声学特征与所述第一文本特征当前输入之间的相似度,相似度最大的部分就是对于所述第一文本特征当前输入更关键的部分,经过此操作便将所述第一声学特征和所述第一文本特征进行了关联,得到关联信息。将所述关联信息输入所述循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值。
步骤S27:将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的实时韵律标注结果。
本实施例中,所述循环神经网络的输出只受到前面若干步网络隐含状态的有限影响,所以将所述实时韵律序列通过所述端到端神经网络中的条件随机场后,可得到全局最优的实时韵律标注结果。其中,所述条件随机场是一种判别式概率模型,常用于标注或分析序列数据,其特点是假设输出随机变量构成马尔可夫随机场。具体的,所述条件随机场会将输入的实时韵律序列综合考虑,从而输出一个全局最优的实时韵律标注结果。所述解码器输出的实时韵律序列中的每个韵律标签都带有一个包含概率信息的分值,形如a(b),其中,a表示韵律标签,b表示韵律标签a对应的分值。例如,所述样本音频对应的文本序列为“中国人”,则为了得到一个所述文本序列对应的实时韵律标注结果,所述解码器要进行三步输出,第一步输出[0(10),1(-10),2(-5),3(-20)],表示“中”字对应的各韵律标签的分值,第二步输出[0(-2),1(9),2(-5),3(-1)],表示“国”字对应的各韵律标签的分值,第三步输出[0(1),1(-6),2(-4),3(12)],表示“人”字对应的各韵律标签的分值。所述条件随机场综合考虑所述三步输出,得到一个全局最优的实时韵律标注结果。韵律标签0表示不划分,韵律标签1表示韵律词,韵律标签2表示韵律短语,韵律标签3表示语调短语,括号中的数值表示各韵律标签对应的分值,所述分值可以转换成概率。
步骤S28:计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。
可以理解的是,在所述端到端神经网络的训练过程中,会输出实时韵律标注结果,需计算所述实时韵律标注结果与所述第一韵律标注结果之间的误差,并利用误差反向传播算法,实时更新所述端到端神经的网络参数,直到所述误差满足预设条件,得到训练后端到端神经网络。
步骤S29:当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
相应地,本实施例中所述端到端神经网络的结构图可参见图3所示。所述端到端神经网络包括编码器、解码器和条件随机场,其中,所述解码器包括注意力模块和循环神经网络。将样本音频对应的第一声学特征作为所述编码器的输入,所述样本音频对应的第一文本特征作为所述解码器的输入,所述样本音频对应的第一韵律标注结果作为所述端到端神经网络的输出,并将所述端到端神经网络的网络参数随机初始化,所述编码器将所述第一声学特征编码,转换成中间表示,并输入到所述解码器中,所述注意力机制将所述第一文本特征与所述第一声学特征序列进行关联,得到关联信息,并将所述关联信息输入所述循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值,将所述实时韵律序列输入所述条件随时场,所述条件随机场综合考虑之后输出一个全局最优的实时韵律标注结果。
参见图4所示,本申请实施例公开了一种具体的韵律标注方法,该方法包括:
步骤S31:获取到待标注韵律的第二声学特征和第二文本特征。
步骤S32:将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
可以理解的是,前述实施例中得到的所述训练后端到端可用于自动标注韵律。当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征所述端到端神经网络的输入,便可得到所述端到端神经网络直接输出的第二韵律标注结果。
步骤S33:将所述第二韵律标注结果插入所述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。
可以理解的是,所述端到端神经网络直接输出的只是第二韵律标注结果,在所述端到端神经网络之后增加一个后处理模块,将所述第二韵律标注结果插入述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。例如,所述端到端神经网络输出的第二韵律标注结果为01013,所述第二文本序列为“我是中国人”,经过所述后处理模块后,得到带韵律标注的第二文本序列,即“我#0是#1中#0国#1人#3”,其中,0表示不划分,1表示韵律词,2表示韵律短语,3表示语调短语,#表示插入符号。
参见图5所示,本申请实施例公开了一种韵律标注装置,包括:
特征获取模块11,用于获取样本音频对应的第一声学特征和第一文本特征;
韵律标注结果获取模块12,用于获取所述样本音频对应的第一韵律标注结果;
训练处理模块13,用于将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
标注模块14,用于当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
可见,本申请先获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;再将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。由此可见,本申请通过训练得到一个端到端神经网络,当获取到待标注韵律的声学特征和对应的文本特征时,将所述声学特征和所述文本特征作为所述训练后端到端神经网络的输入,以得到所述训练后端到端神经网络直接输出的韵律标注结果,避免了韵律标注过程中多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现了韵律自动标注,且提高了韵律标注结果的准确性。
其中,所述特征获取模块11,具体可以包括:
第一特征获取模块,用于获取样本音频对应第一声学特征;
第二特征获取模块,用于获取样本音频对应第一文本特征。
进一步的,参见图6所示,本申请实施例还公开了一种韵律标注设备,包括:处理器21和存储器22。
其中,所述存储器22,用于存储计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例中公开的韵律标注方法。
其中,关于上述数据销毁方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现以下步骤:
获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
可见,本申请先获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;再将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。由此可见,本申请通过训练得到一个端到端神经网络,当获取到待标注韵律的声学特征和对应的文本特征时,将所述声学特征和所述文本特征作为所述训练后端到端神经网络的输入,以得到所述训练后端到端神经网络直接输出的韵律标注结果,避免了韵律标注过程中多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现了韵律自动标注,且提高了韵律标注结果的准确性。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将所述端到端神经网络的网络参数随机初始化。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出;通过所述解码器中的注意力模块将所述第一声学特征和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值;将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的所述实时韵律标注结果;计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将所述第二韵律标注结果插入所述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种韵律标注方法、装置、设备、介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种韵律标注方法,其特征在于,包括:
获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果;
其中,所述将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络,包括:
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出;
通过所述解码器中的注意力模块将所述第一声学特征的中间表示和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值;所述中间表示由所述编码器编码所述第一声学特征得到;所述注意力模块从第一声学特征中选择出与第一文本特征相似度最大的部分,关联该相似度最大的部分与第一文本特征;
将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的实时韵律标注结果;
计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。
2.根据权利要求1所述的韵律标注方法,其特征在于,所述获取样本音频对应的第一声学特征之前,还包括:
将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。
3.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一文本特征之前,还包括:
将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。
4.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一韵律标注结果之前,还包括:
将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。
5.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:
将所述端到端神经网络的网络参数随机初始化。
6.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:
训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。
7.根据权利要求1至6任一项所述的韵律标注方法,其特征在于,所述当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果之后,还包括:
将所述第二韵律标注结果插入所述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。
8.一种韵律标注装置,其特征在于,包括:
特征获取模块,用于获取样本音频对应的第一声学特征和第一文本特征;
韵律标注结果获取模块,用于获取所述样本音频对应的第一韵律标注结果;
训练处理模块,用于将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
标注模块,用于当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果;
其中,所述训练处理模块具体用于:
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出;
通过所述解码器中的注意力模块将所述第一声学特征的中间表示和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值;所述中间表示由所述编码器编码所述第一声学特征得到;所述注意力模块从第一声学特征中选择出与第一文本特征相似度最大的部分,关联该相似度最大的部分与第一文本特征;
将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的实时韵律标注结果;
计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。
9.一种韵律标注设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1至7任一项所述的韵律标注方法。
10.一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的韵律标注方法。
CN201910899853.6A 2019-09-23 2019-09-23 一种韵律标注方法、装置、设备、介质 Active CN110459202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899853.6A CN110459202B (zh) 2019-09-23 2019-09-23 一种韵律标注方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899853.6A CN110459202B (zh) 2019-09-23 2019-09-23 一种韵律标注方法、装置、设备、介质

Publications (2)

Publication Number Publication Date
CN110459202A CN110459202A (zh) 2019-11-15
CN110459202B true CN110459202B (zh) 2022-03-15

Family

ID=68492574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899853.6A Active CN110459202B (zh) 2019-09-23 2019-09-23 一种韵律标注方法、装置、设备、介质

Country Status (1)

Country Link
CN (1) CN110459202B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111754978B (zh) * 2020-06-15 2023-04-18 北京百度网讯科技有限公司 韵律层级标注方法、装置、设备和存储介质
CN112349274B (zh) * 2020-09-28 2024-06-07 北京捷通华声科技股份有限公司 一种训练韵律预测模型方法、装置、设备及存储介质
CN113129862B (zh) * 2021-04-22 2024-03-12 合肥工业大学 一种基于world-tacotron的语音合成方法、系统及服务器
CN114005438B (zh) * 2021-12-31 2022-05-17 科大讯飞股份有限公司 语音识别方法、语音识别模型的训练方法以及相关装置
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置

Also Published As

Publication number Publication date
CN110459202A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
KR102413693B1 (ko) 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
CN106297800B (zh) 一种自适应的语音识别的方法和设备
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JPH06505349A (ja) 言語学的に動機づけした隠れマルコフモデルを用いる音声の認識方法
CN109326281B (zh) 韵律标注方法、装置和设备
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN105654940B (zh) 一种语音合成方法和装置
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
CN111341293B (zh) 一种文本语音的前端转换方法、装置、设备和存储介质
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
Qian et al. Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT)
CN110930975A (zh) 用于输出信息的方法和装置
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN112530405A (zh) 一种端到端语音合成纠错方法、系统及装置
CN114708848A (zh) 音视频文件大小的获取方法和装置
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
CN114283786A (zh) 语音识别方法、装置及计算机可读存储介质
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
Ilyes et al. Statistical parametric speech synthesis for Arabic language using ANN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant