CN112802451B - 韵律边界预测方法及计算机存储介质 - Google Patents

韵律边界预测方法及计算机存储介质 Download PDF

Info

Publication number
CN112802451B
CN112802451B CN202110337155.4A CN202110337155A CN112802451B CN 112802451 B CN112802451 B CN 112802451B CN 202110337155 A CN202110337155 A CN 202110337155A CN 112802451 B CN112802451 B CN 112802451B
Authority
CN
China
Prior art keywords
prosodic
characters
feature data
phrase
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337155.4A
Other languages
English (en)
Other versions
CN112802451A (zh
Inventor
贺刚
汪光璟
杨嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110337155.4A priority Critical patent/CN112802451B/zh
Publication of CN112802451A publication Critical patent/CN112802451A/zh
Application granted granted Critical
Publication of CN112802451B publication Critical patent/CN112802451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种韵律边界预测方法及计算机存储介质。其中,所述方法包括:基于待预测的说话人文本中的字符的特征数据,对字符的韵律词特征进行编码,并基于韵律词特征数据,对字符的韵律词边界标签进行解码;基于字符的特征数据和韵律词边界标签数据,对字符的韵律短语特征进行编码,并基于韵律短语特征数据,对字符的韵律短语边界标签进行解码;基于字符的特征数据、韵律词边界标签数据,以及韵律短语边界标签数据,对字符的语调短语特征进行编码,并基于字符的语调短语特征数据,对字符的语调短语边界标签进行解码,获得字符的语调短语边界标签数据。本实施例提高说话人文本的韵律边界的准确度,进而提升说话人合成语音的韵律表达。

Description

韵律边界预测方法及计算机存储介质
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种韵律边界预测方法及计算机存储介质。
背景技术
语音合成系统的流水线通常由前端、声学模型和声码器三个部分构成。前端又包括文本分析、注音、多音字消歧和韵律边界预测等子模块。韵律边界预测子模块是语音合成系统的一个重要组成部分,韵律边界的预测结果将对最终合成语音的韵律表达有着直接影响。通常文本的韵律边界由韵律词(Prosodic Word,PW)、韵律短语(Prosodic Phrase,PPH)和语调短语(Intonational Phrase,IPH)的边界构成。韵律边界预测是通过标注了韵律边界的文本样本进行建模,识别出韵律词、韵律短语和语调短语的边界。通常,韵律词的边界预测、韵律短语的边界预测和语调短语的边界预测分别是一个独立的子任务进行建模。韵律词边界预测模型的输出被输入到韵律短语边界预测模型中,而韵律短语边界预测模型的输出被输入到语调短语边界预测模型中预测语调短语的边界。
然而,现有的语音合成系统的合成语音和自然语音在韵律表达上还存在着一定的差距,影响了合成语音的节奏,进而影响了合成语音的自然度和表现力。具体地,声学模型的训练文本中标注了韵律边界,但受限于训练数据集的规模,声学模型难以学习到比较鲁棒的韵律边界信息,导致文本合成语音的韵律表达较差。此外,前端中的韵律边界预测模型通常使用大量带韵律边界标注的文本语料训练,模型预测出来的韵律边界信息与声学模型从训练文本中学习到的韵律边界信息存在使用文本不匹配而导致韵律边界信息不一致的问题。由此可见,如何有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成系统中说话人合成语音的韵律表达成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种韵律边界预测方法及计算机存储介质,用以解决上述技术问题至少之一。
本发明实施例提供一种韵律边界预测方法。所述方法包括:通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令;用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令;用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
根据本发明实施例提供的韵律边界预测方案,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成,并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据,以及语调短语边界标签数据,因此,能够有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成系统中说话人合成语音的韵律表达。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的韵律边界预测方法的步骤流程图;
图2示出了根据本发明实施例的韵律结构的示意图;
图3示出了根据本发明实施例的第二编码器的结构示意图;
图4示出了根据本发明实施例的韵律边界预测模型的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例的韵律边界预测方法的步骤流程图。
具体地,本发明实施例提供的韵律边界预测方法包括以下步骤:
在步骤S101中,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据。
在本实施例中,所述韵律边界预测模型可理解为用于韵律边界预测的神经网络模型。所述韵律边界预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等。所述韵律边界由韵律词(PW)、韵律短语(PPH)和语调短语(IPH)的边界构成。所述韵律词是一组在实际语流中联系密切、经常联在一起发音的音节。音节是人们听觉上最容易分辨出来的语音单位,也是语流中最自然的语音单位。韵律短语是介于韵律词和语调短语之间的中等节奏组块。它可能小于句法上的短语。内部各个韵律词之间可能出现韵律上的节奏边界,具有相对稳定的短语模式和短语重音配置模式。韵律短语是指组成韵律短语的几个韵律词听起来是共用一个节奏群。语调短语就是将几个韵律短语按照一定的句调模式连接起来,一般对应句法上的句子。如图2所示,文本“使用程序节省了时间且提高了数据的准确性”中的“使”、“用”、“程”、“序”、“节”、“省”、“了”、“时”、“间”、“且”、“提”、“高”、“了”、“数”、“据”、“的”、“准”、“确”、“性”为音节,文本“使用程序节省了时间且提高了数据的准确性”中的“使用”、“程序”、“节省了”、“时间”、“且”、“提高了”、“数据的”、“准确性”为韵律词,文本“使用程序节省了时间且提高了数据的准确性”中的“使用程序节省了时间”、“且提高了数据的准确性”为韵律短语,文本“使用程序节省了时间且提高了数据的准确性”为语调短语。所述韵律词边界预测子模型可理解为用于韵律词边界预测的神经网络子模型。所述韵律词边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等。所述待预测的说话人文本中的字符的特征数据可为所述待预测的说话人文本中的字符的字符特征向量。所述字符的韵律词特征数据可为所述字符的韵律词特征向量。
在本实施例中,所述字符的韵律词边界标签可理解为标记所述字符的韵律词边界的标签。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量,例如,用于表征所述字符的韵律词边界标签的one-hot编码。如果总共有四种韵律词边界标签,并且所述字符对应一种韵律词边界标签,那么one-hot编码的维度为四维,表示所述字符对应的韵律词边界标签的位置置1,表示其它韵律词边界标签的位置置0。
在一些可选实施例中,在通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码时,通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据。其中,所述字符的语义特征数据可为所述字符的语义特征向量。籍此,通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,能够准确地获得所述字符的语义特征数据和韵律词特征数据。
在一些可选实施例中,在通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码时,通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据;通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据。籍此,通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,能够准确地获得所述字符的语义特征数据。此外,通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,能够准确地获得所述字符的韵律词特征数据。
在一个具体的例子中,所述第一编码器是由多层BiLSTM(Bidirectional longand short time memory network,双向长短时记忆网络)网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息,分别从两个相反的方向得到正向的输出
Figure 2285DEST_PATH_IMAGE001
和反向的输出
Figure 388267DEST_PATH_IMAGE002
,并把它们拼在一起
Figure 495900DEST_PATH_IMAGE003
作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第二编码器可为变分自动编码器(Variational Autoencoder,VAE)。
在一些可选实施例中,在通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码时,通过所述第二编码器包括的韵律词特征编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据;通过所述第二编码器包括的第一线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的均值;通过所述第二编码器包括的第二线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的方差;基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,以获得所述字符的韵律词特征表征数据。籍此,通过所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,能够准确地获得所述字符的韵律词特征表征数据。
在一个具体的例子中,所述第二编码器可为变分自动编码器。所述变分自动编码器可由所述韵律词特征编码器、所述第一线性层和所述第二线性层构成。所述韵律词特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第一线性层和所述第二线性层可均为全连接层。如图3所示,所述韵律词特征编码器的输出端分别与所述第一线性层和所述第二线性层的输入端连接。所述第一线性层和所述第二线性层的输出端分别输出所述字符的韵律词特征数据的正态分布的均值和方差。所述第二编码器基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,能够准确地获得所述字符的韵律词特征表征数据。其中,所述字符的韵律词特征表征数据可为所述字符的韵律词特征表征向量。
在一个具体的例子中,所述变分自动编码器希望构建一个从隐变量Z生成目标数据X的模型,所述变分自动编码器假设Z服从某些常见的分布(比如正态分布或均匀分布),然后希望训练一个模型
Figure 156689DEST_PATH_IMAGE004
,该模型能够将原来的概率分布映射到训练集的概率分布,也就是说,其目的是进行分布之间的变换。
首先,有一批数据样本
Figure 174323DEST_PATH_IMAGE005
,其整体用X来描述,根据
Figure 262365DEST_PATH_IMAGE005
得到X的分布
Figure 529399DEST_PATH_IMAGE006
,如果能得到的话,那直接根据
Figure 305462DEST_PATH_IMAGE006
采样,就可以得到所有可能的X,这是一个终极理想的生成模型。当然,这很难实现,将其分布改为:
Figure 239920DEST_PATH_IMAGE007
此时,
Figure 436546DEST_PATH_IMAGE008
描述了一个由Z来生成X的模型,假设Z服从标准正态分布,也就是
Figure 456455DEST_PATH_IMAGE009
。如果这个理想能实现,就可以从标准正态分布中采样一个Z,然后根据Z来生成X,这是一个基于贝叶斯思想的生成模型。
具体来说,给定一个真实样本
Figure 193467DEST_PATH_IMAGE010
,根据后验分布服从标准正态分布的假设,希望能从分布
Figure 44748DEST_PATH_IMAGE011
中采样得到的
Figure 740172DEST_PATH_IMAGE012
还原
Figure 185060DEST_PATH_IMAGE010
。为了拟合出
Figure 725762DEST_PATH_IMAGE010
的正态分布
Figure 447862DEST_PATH_IMAGE011
的均值
Figure 783028DEST_PATH_IMAGE013
和方差
Figure 777529DEST_PATH_IMAGE014
,需要构建两个神经网络
Figure 59606DEST_PATH_IMAGE015
Figure 823162DEST_PATH_IMAGE016
来拟合它们。为了让
Figure 594809DEST_PATH_IMAGE011
达到标准正态分布
Figure 873344DEST_PATH_IMAGE017
使得二者尽量差异接近于0,可以计算KL散度
Figure 21429DEST_PATH_IMAGE018
作为额外的损失优化。本质上,所述变分自动编码器学习是希望KL散度值
Figure 577175DEST_PATH_IMAGE019
达到最小。
Figure 785302DEST_PATH_IMAGE020
这里d是隐变量Z的维度,而
Figure 800401DEST_PATH_IMAGE021
Figure 486597DEST_PATH_IMAGE022
分别代表一般正态分布的均值向量和方差向量的第i个分量。
其中,X表示的是韵律词特征数据,Z表示的是韵律词特征表征数据。在韵律边界预测阶段,基于所述字符的韵律词特征数据X的正态分布的均值
Figure 959166DEST_PATH_IMAGE013
和方差
Figure 275878DEST_PATH_IMAGE014
,对所述字符的韵律词特征数据X进行采样,获得所述字符的韵律词特征表征数据Z。
在一些可选实施例中,在基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码时,通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据。籍此,通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据。
在一些可选实施例中,在通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码时,通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据;通过所述第一解码模块包括的第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据;通过所述第一解码模块包括的第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据。其中,所述字符的韵律词边界标签的特征数据可为所述字符的韵律词边界标签的特征向量。籍此,通过所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据。
在一个具体的例子中,所述第一解码器可由一层单向GRU(Gated RecurrentUnit,循环门单元)网络构成。GRU的隐藏单元数目为256。所述第三线性层可为全连接层。所述第一计算层可为argmax层。所述第一解码器输出的所述字符的韵律词边界标签的特征数据经过一个线性层的映射,得到所述字符的韵律词边界标签的概率分布数据,再经过argmax层处理,得到每一个解码时间步的概率输出,概率最大的韵律词边界标签作为当前解码时间步的韵律词边界标签的分类结果,根据韵律词边界标签的分类结果得到对应的韵律词边界标签数据。
在一些可选实施例中,在通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码之前,所述方法还包括:通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性;通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据,所述通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,包括:通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据。其中,所述第一解码器当前的输入特征数据可为所述第一解码器当前的输入特征向量,所述字符的韵律词边界标签的特征数据可为所述字符的韵律词边界标签的特征向量。籍此,通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,并基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,能够准确地获得所述第一解码器当前的输入特征数据。此外,通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签的特征数据。
在一个具体的例子中,注意力机制可以使得所述第一解码器具备专注于其输入的某个子集的能力,即可以选择特定的输入。所述第一注意力层通过计算所述第一解码器的隐藏状态
Figure 466688DEST_PATH_IMAGE023
与所述说话人文本中的每个字符的语义特征向量和韵律词特征向量的拼接特征向量
Figure 18892DEST_PATH_IMAGE024
之间的相关性,使所述第一解码器在解码输出的某一时刻,将注意力集中在输入序列的某一部分,从而使学习更容易。
假设所述第一解码器的当前隐藏状态为
Figure 80389DEST_PATH_IMAGE025
,可以通过下述公式一计算所述说话人文本中的每个字符的拼接特征向量
Figure 630319DEST_PATH_IMAGE026
与所述第一解码器的当前隐藏状态为
Figure 246108DEST_PATH_IMAGE025
的关联性:
Figure 539686DEST_PATH_IMAGE027
公式一
其中,
Figure 799898DEST_PATH_IMAGE028
是一种相关性的加和计算:
Figure 989570DEST_PATH_IMAGE029
Figure 154973DEST_PATH_IMAGE030
Figure 924345DEST_PATH_IMAGE031
分别表示第一注意力层的待学习权重参数,
Figure 491593DEST_PATH_IMAGE032
表示第一注意力层的映射参数。关联性经过归一化得到注意力权重分布
Figure 180063DEST_PATH_IMAGE033
,利用
Figure 567182DEST_PATH_IMAGE034
加权求和得到相应的上下文向量(第一解码器当前的输入特征向量)
Figure 202563DEST_PATH_IMAGE035
,借助上下文向量计算第一解码器的下一个隐藏状态
Figure 296421DEST_PATH_IMAGE036
以及第一解码器在该时刻的解码输出
Figure 359055DEST_PATH_IMAGE037
。其中,
Figure 545054DEST_PATH_IMAGE038
表示第一解码器在上一个时刻的解码输出,
Figure 984126DEST_PATH_IMAGE039
表示第一解码器在该时刻的解码输出。
在步骤S102中,通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据。
在本实施例中,所述韵律短语边界预测子模型可理解为用于韵律短语边界预测的神经网络子模型。所述韵律短语边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。所述字符的特征数据可为所述字符的字符特征向量。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量。所述字符的韵律短语特征数据可为所述字符的韵律短语特征向量。
在本实施例中,所述字符的韵律短语边界标签可理解为标记所述字符的韵律短语边界的标签。所述字符的韵律短语边界标签数据可为所述字符的韵律短语边界标签向量,例如,用于表征所述字符的韵律短语边界标签的one-hot编码。如果总共有四种韵律短语边界标签,并且所述字符对应一种韵律短语边界标签,那么one-hot编码的维度为四维,表示所述字符对应的韵律短语边界标签的位置置1,表示其它韵律短语边界标签的位置置0。
在一些可选实施例中,在通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码时,通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,以获得所述字符的第一混合特征数据和韵律短语特征数据。其中,所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据,所述第一混合特征数据可为所述第一混合特征向量。籍此,通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,能够准确地获得所述字符的第一混合特征数据和韵律短语特征数据。
在一些可选实施例中,在通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码时,通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据;通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据。籍此,通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,能够准确地获得所述字符的第一混合特征数据。此外,通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,能够准确地获得所述字符的韵律短语特征数据。
在一个具体的例子中,所述第三编码器是由多层BiLSTM(Bidirectional longand short time memory network,双向长短时记忆网络)网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息,分别从两个相反的方向得到正向的输出
Figure 198070DEST_PATH_IMAGE001
和反向的输出
Figure 25080DEST_PATH_IMAGE002
,并把它们拼在一起
Figure 934262DEST_PATH_IMAGE003
作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第四编码器可为变分自动编码器(Variational Autoencoder,VAE)。
在一些可选实施例中,在通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码时,通过所述第四编码器包括的韵律短语特征编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据;通过所述第四编码器包括的第四线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的均值;通过所述第四编码器包括的第五线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的方差;基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,以获得所述字符的韵律短语特征表征数据。籍此,通过所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,能够准确地获得所述字符的韵律短语特征表征数据。
在一个具体的例子中,所述第四编码器可为变分自动编码器。所述变分自动编码器可由所述韵律短语特征编码器、所述第四线性层和所述第五线性层构成。所述韵律短语特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第四线性层和所述第五线性层可均为全连接层。所述韵律短语特征编码器的输出端分别与所述第四线性层和所述第五线性层的输入端连接。所述第四线性层和所述第五线性层的输出端分别输出所述字符的韵律短语特征数据的正态分布的均值和方差。所述第四编码器基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,能够准确地获得所述字符的韵律短语特征表征数据。其中,所述字符的韵律短语特征表征数据可为所述字符的韵律短语特征表征向量。
在一个具体的例子中,所述第四编码器的原理与所述第二编码器的原理类似,在此不再赘述。
在一些可选实施例中,在基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码时,通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据。籍此,通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据。
在一些可选实施例中,在通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码时,通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据;通过所述第二解码模块包括的第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据;通过所述第二解码模块包括的第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据。其中,所述字符的韵律短语边界标签的特征数据可为所述字符的韵律短语边界标签的特征向量。籍此,通过所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据。
在一个具体的例子中,所述第二解码器可由一层单向GRU(Gated RecurrentUnit,循环门单元)网络构成。GRU的隐藏单元数目为256。所述第六线性层可为全连接层。所述第二计算层可为argmax层。所述第二解码器输出的所述字符的韵律短语边界标签的特征数据经过一个线性层的映射,得到所述字符的韵律短语边界标签的概率分布数据,再经过argmax层处理,得到每一个解码时间步的概率输出,概率最大的韵律短语边界标签作为当前解码时间步的韵律短语边界标签的分类结果,根据韵律短语边界标签的分类结果得到对应的韵律短语边界标签数据。
在一些可选实施例中,在通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码之前,所述方法还包括:通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性;通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据,所述通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,包括:通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据。籍此,通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,并基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,能够准确地获得所述第二解码器当前的输入特征数据。此外,通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签的特征数据。
在一个具体的例子中,所述第二注意力层的原理与所述第一注意力层的原理类似,在此不再赘述。
在步骤S103中,通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
在本实施例中,所述语调短语边界预测子模型可理解为用于语调短语边界预测的神经网络子模型。所述语调短语边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。所述字符的特征数据可为所述字符的字符特征向量。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量。所述字符的韵律短语边界标签数据可为所述字符的韵律短语边界标签向量,所述字符的语调短语特征数据可为所述字符的语调短语特征向量。
在本实施例中,所述字符的语调短语边界标签可理解为标记所述字符的语调短语边界的标签。所述字符的语调短语边界标签数据可为所述字符的语调短语边界标签向量,例如,用于表征所述字符的语调短语边界标签的one-hot编码。如果总共有四种语调短语边界标签,并且所述字符对应一种语调短语边界标签,那么one-hot编码的维度为四维,表示所述字符对应的语调短语边界标签的位置置1,表示其它语调短语边界标签的位置置0。
在一些可选实施例中,在通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码时,通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,以获得所述字符的第二混合特征数据和语调短语特征数据,其中,所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据,所述第二混合特征数据可为所述第二混合特征向量。籍此,通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,能够准确地获得所述字符的第二混合特征数据和语调短语特征数据。
在一些可选实施例中,在通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码时,通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据;通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据。籍此,通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,能够准确地获得所述字符的第二混合特征数据。此外,通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,能够准确地获得所述字符的语调短语特征数据。
在一个具体的例子中,所述第五编码器是由多层BiLSTM(Bidirectional longand short time memory network,双向长短时记忆网络)网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息,分别从两个相反的方向得到正向的输出
Figure 849128DEST_PATH_IMAGE001
和反向的输出
Figure 979895DEST_PATH_IMAGE002
,并把它们拼在一起
Figure 446648DEST_PATH_IMAGE003
作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第六编码器可为变分自动编码器(Variational Autoencoder,VAE)。
在一些可选实施例中,在通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码时,通过所述第六编码器包括的语调短语特征编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据;通过所述第六编码器包括的第七线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的均值;通过所述第六编码器包括的第八线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的方差;基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,以获得所述字符的语调短语特征表征数据。籍此,通过所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,能够准确地获得所述字符的语调短语特征表征数据。
在一个具体的例子中,所述第六编码器可为变分自动编码器。所述变分自动编码器可由所述语调短语特征编码器、所述第七线性层和所述第八线性层构成。所述语调短语特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第七线性层和所述第八线性层可均为全连接层。所述语调短语特征编码器的输出端分别与所述第七线性层和所述第八线性层的输入端连接。所述第七线性层和所述第八线性层的输出端分别输出所述字符的语调短语特征数据的正态分布的均值和方差。所述第六编码器基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,能够准确地获得所述字符的语调短语特征表征数据。其中,所述字符的语调短语特征表征数据可为所述字符的语调短语特征表征向量。
在一个具体的例子中,所述第六编码器的原理与所述第二编码器的原理类似,在此不再赘述。
在一些可选实施例中,在基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码时,通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。籍此,通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。
在一些可选实施例中,在通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码时,通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据;通过所述第三解码模块包括的第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据;通过所述第三解码模块包括的第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据。其中,所述字符的语调短语边界标签的特征数据可为所述字符的语调短语边界标签的特征向量。籍此,通过所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。
在一个具体的例子中,所述第三解码器可由一层单向GRU(Gated RecurrentUnit,循环门单元)网络构成。GRU的隐藏单元数目为256。所述第九线性层可为全连接层。所述第三计算层可为argmax层。所述第三解码器输出的所述字符的语调短语边界标签的特征数据经过一个线性层的映射,得到所述字符的语调短语边界标签的概率分布数据,再经过argmax层处理,得到每一个解码时间步的概率输出,概率最大的语调短语边界标签作为当前解码时间步的语调短语边界标签的分类结果,根据语调短语边界标签的分类结果得到对应的语调短语边界标签数据。
在一些可选实施例中,在通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码之前,所述方法还包括:通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性;通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据,所述通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,包括:通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据。籍此,通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,并基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,能够准确地获得所述第三解码器当前的输入特征数据。此外,通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签的特征数据。
在一个具体的例子中,所述第三注意力层的原理与所述第一注意力层的原理类似,在此不再赘述。
在一个具体的例子中,如图4所示,通过所述韵律词边界预测子模型包括的第一编码器,基于所述说话人文本中的字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据;通过所述韵律词边界预测子模型包括的第二编码器,基于所述说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据。通过所述韵律词边界预测子模型包括的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性;通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据。通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据;通过所述第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据;通过所述第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据。通过所述韵律短语边界预测子模型包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据;通过所述韵律短语边界预测子模型包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据。通过所述韵律短语边界预测子模型包括的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性;通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据。通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据;通过所述第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据;通过所述第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据。通过所述语调短语边界预测子模型包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据;通过所述语调短语边界预测子模型包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据。通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性;通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据。通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据;通过所述第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据;通过所述第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据。
根据本发明实施例提供的韵律边界预测方案,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成,并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据,以及语调短语边界标签数据,因此,能够有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成系统中说话人合成语音的韵律表达。
本实施例提供的韵律边界预测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例二
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令;用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令;用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
可选地,所述用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令,包括:用于通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据的指令。
可选地,所述用于通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码的指令,包括:用于通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据的指令;用于通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令。
可选地,所述用于通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码的指令,包括:用于通过所述第二编码器包括的韵律词特征编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令;用于通过所述第二编码器包括的第一线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的均值的指令;用于通过所述第二编码器包括的第二线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的方差的指令;用于基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,以获得所述字符的韵律词特征表征数据的指令。
可选地,所述用于基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令,包括:用于通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令。
可选地,所述用于通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码的指令,包括:用于通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据的指令;用于通过所述第一解码模块包括的第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据的指令;用于通过所述第一解码模块包括的第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据的指令。
可选地,所述用于通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码的指令之前,所述可读程序还包括:用于通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性的指令;用于通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据的指令,所述用于通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码的指令,包括:用于通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据的指令。
可选地,所述用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据的指令,包括:用于通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,以获得所述字符的第一混合特征数据和韵律短语特征数据的指令,其中,所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据。
可选地,所述用于通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码的指令,包括:用于通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据的指令;用于通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据的指令。
可选地,所述用于通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码的指令,包括:用于通过所述第四编码器包括的韵律短语特征编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据的指令;用于通过所述第四编码器包括的第四线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的均值的指令;用于通过所述第四编码器包括的第五线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的方差的指令;用于基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,以获得所述字符的韵律短语特征表征数据的指令。
可选地,所述用于基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令,包括:用于通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令。
可选地,所述用于通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码的指令,包括:用于通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据的指令;用于通过所述第二解码模块包括的第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据的指令;用于通过所述第二解码模块包括的第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据的指令。
可选地,所述用于通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码的指令之前,所述可读程序还包括:用于通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性的指令;用于通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据的指令,所述用于通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码的指令,包括:用于通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据的指令。
可选地,所述用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据的指令,包括:用于通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,以获得所述字符的第二混合特征数据和语调短语特征数据的指令,其中,所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据。
可选地,所述用于通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码的指令,包括:用于通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据的指令;用于通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据的指令。
可选地,所述用于通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码的指令,包括:用于通过所述第六编码器包括的语调短语特征编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据的指令;用于通过所述第六编码器包括的第七线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的均值的指令;用于通过所述第六编码器包括的第八线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的方差的指令;用于基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,以获得所述字符的语调短语特征表征数据的指令。
可选地,所述用于基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令,包括:用于通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
可选地,所述用于通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码的指令,包括:用于通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据的指令;用于通过所述第三解码模块包括的第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据的指令;用于通过所述第三解码模块包括的第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据的指令。
可选地,所述用于通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码的指令之前,所述可读程序还包括:用于通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性的指令;用于通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据的指令,所述用于通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码的指令,包括:用于通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据的指令。
根据本申请实施例提供的计算机存储介质,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成,并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据,以及语调短语边界标签数据,因此,能够有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成系统中说话人合成语音的韵律表达。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的教师风格预测模型的训练方法。此外,当通用计算机访问用于实现在此示出的教师风格预测模型的训练方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的教师风格预测模型的训练方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (19)

1.一种韵律边界预测方法,其特征在于,所述方法包括:
通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据;
通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据;
通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据,
其中,所述通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,包括:
通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据。
2.根据权利要求1所述的韵律边界预测方法,其特征在于,所述通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,包括:
通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据;
通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据。
3.根据权利要求2所述的韵律边界预测方法,其特征在于,所述通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,包括:
通过所述第二编码器包括的韵律词特征编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据;
通过所述第二编码器包括的第一线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的均值;
通过所述第二编码器包括的第二线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的方差;
基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,以获得所述字符的韵律词特征表征数据。
4.根据权利要求1所述的韵律边界预测方法,其特征在于,所述基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据,包括:
通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据。
5.根据权利要求4所述的韵律边界预测方法,其特征在于,所述通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,包括:
通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据;
通过所述第一解码模块包括的第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据;
通过所述第一解码模块包括的第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据。
6.根据权利要求5所述的韵律边界预测方法,其特征在于,所述通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码之前,所述方法还包括:
通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性;
通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据,
所述通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,包括:
通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据。
7.根据权利要求1所述的韵律边界预测方法,其特征在于,所述通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,包括:
通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,以获得所述字符的第一混合特征数据和韵律短语特征数据,其中,所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据。
8.根据权利要求7所述的韵律边界预测方法,其特征在于,所述通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,包括:
通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据;
通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据。
9.根据权利要求8所述的韵律边界预测方法,其特征在于,所述通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,包括:
通过所述第四编码器包括的韵律短语特征编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据;
通过所述第四编码器包括的第四线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的均值;
通过所述第四编码器包括的第五线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的方差;
基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,以获得所述字符的韵律短语特征表征数据。
10.根据权利要求7所述的韵律边界预测方法,其特征在于,所述基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据,包括:
通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据。
11.根据权利要求10所述的韵律边界预测方法,其特征在于,所述通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,包括:
通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据;
通过所述第二解码模块包括的第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据;
通过所述第二解码模块包括的第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据。
12.根据权利要求11所述的韵律边界预测方法,其特征在于,所述通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码之前,所述方法还包括:
通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性;
通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据,
所述通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,包括:
通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据。
13.根据权利要求1所述的韵律边界预测方法,其特征在于,所述通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,包括:
通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,以获得所述字符的第二混合特征数据和语调短语特征数据,其中,所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据。
14.根据权利要求13所述的韵律边界预测方法,其特征在于,所述通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,包括:
通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据;
通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据。
15.根据权利要求14所述的韵律边界预测方法,其特征在于,所述通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,包括:
通过所述第六编码器包括的语调短语特征编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据;
通过所述第六编码器包括的第七线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的均值;
通过所述第六编码器包括的第八线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的方差;
基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,以获得所述字符的语调短语特征表征数据。
16.根据权利要求13所述的韵律边界预测方法,其特征在于,所述基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据,包括:
通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
17.根据权利要求16所述的韵律边界预测方法,其特征在于,所述通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,包括:
通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据;
通过所述第三解码模块包括的第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据;
通过所述第三解码模块包括的第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据。
18.根据权利要求17所述的韵律边界预测方法,其特征在于,所述通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码之前,所述方法还包括:
通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性;
通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据,
所述通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,包括:
通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据。
19.一种计算机存储介质,其特征在于,所述计算机存储介质存储有可读程序,所述可读程序包括:
用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令;
用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令;
用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令,
其中,所述用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令,包括:
用于通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据的指令。
CN202110337155.4A 2021-03-30 2021-03-30 韵律边界预测方法及计算机存储介质 Active CN112802451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337155.4A CN112802451B (zh) 2021-03-30 2021-03-30 韵律边界预测方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337155.4A CN112802451B (zh) 2021-03-30 2021-03-30 韵律边界预测方法及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112802451A CN112802451A (zh) 2021-05-14
CN112802451B true CN112802451B (zh) 2021-07-09

Family

ID=75815854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337155.4A Active CN112802451B (zh) 2021-03-30 2021-03-30 韵律边界预测方法及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112802451B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421550A (zh) * 2021-06-25 2021-09-21 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
CN110223671B (zh) * 2019-06-06 2021-08-10 标贝(深圳)科技有限公司 语言韵律边界预测方法、装置、系统和存储介质
CN111339771B (zh) * 2020-03-09 2023-08-18 广州深声科技有限公司 一种基于多任务多层级模型的文本韵律预测方法
CN112289305A (zh) * 2020-11-23 2021-01-29 北京有竹居网络技术有限公司 韵律预测方法、装置、设备以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向汉语统计参数语音合成的标注生成方法;郝东亮等;《计算机工程与应用》;20161001(第19期);146-153 *

Also Published As

Publication number Publication date
CN112802451A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US11881205B2 (en) Speech synthesis method, device and computer readable storage medium
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
JP7504188B2 (ja) エンドツーエンド音声合成システムにおける表現度の制御
CN107464559B (zh) 基于汉语韵律结构和重音的联合预测模型构建方法及系统
CN110288972B (zh) 语音合成模型训练方法、语音合成方法及装置
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
EP4029010B1 (en) Neural text-to-speech synthesis with multi-level context features
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111930900B (zh) 标准发音生成方法及相关装置
CN113593520B (zh) 歌声合成方法及装置、电子设备及存储介质
CN114387946A (zh) 语音合成模型的训练方法和语音合成方法
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备
CN112802451B (zh) 韵律边界预测方法及计算机存储介质
CN113555000A (zh) 声学特征转换及模型训练方法、装置、设备、介质
CN114999447B (zh) 一种基于对抗生成网络的语音合成模型及语音合成方法
CN116597809A (zh) 多音字消歧方法、装置、电子设备及可读存储介质
CN114333760B (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
CN116129856A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
CN114242038A (zh) 一种语音合成方法及系统
CN113571037A (zh) 一种汉语盲文语音合成方法及系统
CN115346510A (zh) 一种语音合成方法、装置、电子设备及存储介质
Eirini End-to-End Neural based Greek Text-to-Speech Synthesis
CN114267330A (zh) 语音合成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant