CN114708848A

CN114708848A - 音视频文件大小的获取方法和装置

Info

Publication number: CN114708848A
Application number: CN202210346097.6A
Authority: CN
Inventors: 高羽; 刘雪铃
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-05

Abstract

本申请涉及语音合成领域，提供一种音视频文件大小的获取方法和装置，所述音视频文件大小的获取方法，包括：获取目标文本；提取目标文本的特征，生成目标韵律特征和目标音素特征；基于生成目标韵律特征和目标音素特征，生成目标音频文件的目标文件大小，目标音频文件为对目标文本进行语音合成所生成的。本申请的音视频文件大小的获取方法，通过对目标文本进行韵律特征和音素特征提取，并基于提取得到的目标韵律特征和目标音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

Description

音视频文件大小的获取方法和装置

技术领域

本申请涉及语音合成技术领域，尤其涉及音视频文件大小的获取方法和装置。

背景技术

语音合成技术被广泛应用于日常生活中的方方面面，目前常见的语音合成方法为流式语音合成，但该方法只能在完全合成全部的音频文件并播放完成后，用户才会得知该音频文件对应大小，而无法在播放前即可获取该音频文件的大小，具有一定的滞后性。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种音视频文件大小的获取方法。

本申请还提出一种音视频文件大小的获取装置。

本申请还提出一种电子设备。

本申请还提出一种非暂态计算机可读存储介质。

本申请还提出一种计算机程序产品。

根据本申请第一方面实施例的音视频文件大小的获取方法，包括：

获取目标文本；

对所述目标文本进行特征提取，生成目标韵律特征和目标音素特征；

基于所述目标韵律特征和所述目标音素特征，获取目标音频文件的目标文件大小，所述目标音频文件为对所述目标文本进行语音合成所生成的。

根据本申请实施例的音视频文件大小的获取方法，通过对目标文本进行韵律特征和音素特征提取，并基于提取得到的目标韵律特征和目标音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

根据本申请的一个实施例，所述基于所述目标韵律特征和所述目标音素特征，获取目标音频文件的目标文件大小，包括：

基于所述目标韵律特征和所述目标音素特征，获取所述目标音频文件的第一预测文件大小；

对所述第一预测文件大小和目标残差值求和，生成所述目标文件大小，所述目标残差值基于样本文件大小和预测的样本文本对应的样本音频文件的大小确定的，所述样本文件大小为所述样本文本对应的样本音频文件的实际大小。

根据本申请的一个实施例，所述目标残差值通过如下步骤确定：

获取样本文本、所述样本文本对应的样本音频文件和所述样本音频文件对应的样本文件大小，所述样本音频文件为对所述样本文本进行语音合成所生成的；

对所述样本文本进行特征提取，生成样本韵律特征和样本音素特征；

基于所述样本韵律特征和所述样本音素特征，获取所述样本音频文件的第二预测文件大小；

将所述第二预测文件大小和所述样本文件大小的差值的最大绝对值，确定为所述目标残差值。

根据本申请的一个实施例，所述基于所述目标韵律特征和所述目标音素特征，获取所述目标音频文件的第一预测文件大小，包括：

将所述目标韵律特征和所述目标音素特征输入至文件大小预测模型，获取由所述文件大小预测模型输出的所述第一预测文件大小；其中，

所述文件大小预测模型为，以样本韵律特征和样本音素特征为样本，以与所述样本韵律特征和所述样本音素特征对应的样本文件大小为样本标签，训练得到。

根据本申请的一个实施例，在所述获取目标音频文件的目标文件大小之后，所述方法还包括：

基于所述目标韵律特征和音素特征对所述目标文本进行切分，生成多个分句序列；

对所述分句序列进行语音合成，生成分句语音；

输出所述分句语音和所述目标文件大小，并对所述分句语音进行拼接，生成所述目标音频文件。

根据本申请的一个实施例，所述对所述目标文本进行特征提取，生成目标韵律特征和目标音素特征，包括：

将所述目标文本转化为韵律音素序列，所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符；

对所述韵律音素序列进行特征提取，生成所述目标韵律特征和所述目标音素特征。

根据本申请的一个实施例，所述目标韵律特征和音素特征包括：所述韵律音素序列的长度、所述韵律音素序列中的中文拼音的数量、所述韵律音素序列中的停顿符号的数量、所述韵律音素序列中的英文音素的数量、所述韵律音素序列中的中文音素的数量、所述韵律音素序列中的中文声母的数量、所述韵律音素序列中的中文韵母的数量以及所述韵律音素序列中的各个类别的英文音素中的至少一种。

根据本申请第二方面实施例的音视频文件大小的获取装置，包括：

第一处理模块，用于获取目标文本；

第二处理模块，用于对所述目标文本进行特征提取，生成目标韵律特征和目标音素特征；

第三处理模块，用于基于所述目标韵律特征和所述目标音素特征，获取目标音频文件的目标文件大小，所述目标音频文件为对所述目标文本进行语音合成所生成的。

根据本申请实施例的音视频文件大小的获取装置，通过对目标文本进行韵律特征和音素特征提取，并基于提取得到的目标韵律特征和音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

根据本申请第三方面实施例的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述音视频文件大小的获取方法。

根据本申请第四方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音视频文件大小的获取方法。

根据本申请第五方面实施例的计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音视频文件大小的获取方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

通过对目标文本进行韵律特征和音素特征提取，并基于提取得到的目标韵律特征和音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

进一步的，通过将目标文本转化为音素序列，并基于句末信息、语调短语、韵律短语、韵律词和音节中的至少两种所对应的韵律标识符对音素序列进行标记以生成韵律音素序列，能够提供一种更加精细的韵律表征，从而有助于后续切分过程中的切分细腻度与准确性。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音视频文件大小的获取方法的流程示意图之一；

图2是本申请实施例提供的音视频文件大小的获取方法的流程示意图之二；

图3是本申请实施例提供的音视频文件大小的获取装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请的实施方式作进一步详细描述。以下实施例用于说明本申请，但不能用来限制本申请的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1-图2描述本申请实施例的音视频文件大小的获取方法。

该音视频文件大小的获取方法的执行主体可以为音视频文件大小的获取装置，或者可以为服务器，或者还可以为用户的终端，包括但不限于手机、平板电脑、pc端、车载终端以及家用智能电器等。

如图1所示，该音视频文件大小的获取方法，包括：步骤110、步骤120和步骤130。

步骤110、获取目标文本；

在该步骤中，目标文本为当前用于进行语音合成的文本。

其中，目标文本可以为数十至数百级别的常规文本，也可以为数千或数万级别的超长文本。

目标文本可以为存储于数据库中的本地文件，或者也可以为从网络下载的文件，本申请不做限定。

步骤120、对目标文本进行特征提取，生成目标韵律特征和目标音素特征；

在该步骤中，目标韵律特征用于表征目标文本的韵律特征，目标音素特征用于表征目标文本的音素特征。

其中，目标韵律特征和目标音素特征包括但不限于：音素及其对应的声调、音节、韵律词、韵律短语、语调短语、静音以及停顿等特征。

音节是语流中的语音单位，也是人们听觉上最容易分辨出来的语音单位，例如，音节可以为目标文本中的每一个汉字。

韵律词是一组在实际语流中联系密切且联在一起发音的音节。

韵律短语是介于韵律词和语调短语之间的中等节奏组块，韵律短语中可以包括多个韵律词和语气词，且组成该韵律短语的多个韵律词听起来是共用一个节奏群。

语调短语为将多个韵律短语按照一定的句调模式连接起来所组成的句子，用于表征较大的停顿。

句末信息用于表征每一个长句的结束。

例如，对于目标文本“上海市今天阴转多云东南风三到四级”，其中如“上”、“海”以及“市”等每一个汉字均为该目标文本对应的音节；“上海市”、“今天”以及“阴转多云”等单词或由单词组成的短语即为该目标文本对应的韵律短语；而由韵律短语“上海市”、“今天”以及“阴转多云”所组成的句子“上海市今天阴转多云”，则为该目标文本对应的语调短语。

在一些实施例中，步骤120可以包括：

将目标文本转化为韵律音素序列，韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素；

提取韵律音素序列的特征，生成目标韵律特征和音素特征。

在该实施例中，韵律音素序列为用于表征目标文本的韵律特征和音素特征的序列。

韵律音素序列包括位于相邻音素之间的韵律特征和音素标识符和与目标文本对应的多个音素。

其中，音素可以为一个或多个根据语音的自然属性划分出来的语音单位的组合，语音单位可以为一个汉字对应的拼音、声母或韵母或者一个英文单词、英文音标或英文字母。

韵律标识符为用于表征目标文本中每一个音素所对应的韵律特征的标识符，韵律特征包括但不限于：音素对应的声调、音节、韵律词、韵律短语、语调短语、静音以及停顿等特征。

其中，用于表征停顿的韵律标识符的细粒度高于用于表征语调短语的韵律的标识符的细粒度，用于表征语调短语的细粒度高于用于表征韵律短语的细粒度，用于表征韵律短语的细粒度高于用于表征韵律词的细粒度，用于表征韵律词的细粒度高于用于表征音节的细粒度。

在实际执行过程中，可以用不同的符号表示不同细粒度等级的韵律特征。

例如，对于目标文本“上海市今天阴转多云东南风三到四级”，可以将其转化为韵律音素序列：sil shang4#0hai3#0shi4#2jin1#0tian1#2yin1#0zhuan3#1duo1#0yun2#3dong1#0nan2#0feng1#2san1#0dao4#1si4#0ji2#4sil。

可以理解的是，对于该韵律音素序列，韵律标识符可以包括：各相邻的音素之间的数字、符号以及英文字符串；音素可以包括每一个汉字对应的拼音。

其中，韵律音素序列中的sil代表句首和句末的静音，#0代表着音节、#1代表韵律词、#2代表韵律短语、#3代表语调短语以及#4代表句末，每个音素后面的数字代表该音素的声调，如shang4中的4代表拼音“shang”的声调为第四声。

在一些实施例中，将目标文本转化为韵律音素序列，可以包括：

将目标文本转化为音素序列；

获取音素序列的句末信息、语调短语、韵律短语、韵律词和音节；

基于句末信息、语调短语、韵律短语、韵律词和音节中的至少两种对音素序列进行标记，生成韵律音素序列。

在该实施例中，音节是语流中的语音单位，也是人们听觉上最容易分辨出来的语音单位，例如，音节可以为目标文本中的每一个汉字。

句末信息用于表征每一个长句的结束。

在获取得到目标文本的句末信息、语调短语、韵律短语、韵律词和音节等信息后，基于其中的至少两种对目标文本进行标记，即可生成韵律序列。

申请人在研发过程中发现，相关技术中，往往是通过采用句子中的标点符号来表征句子的韵律，如在句子中的逗号或句号所在的位置处对句子进行切分，以得到多个分句。该方法一方面无法满足对无标点的文本的切分，另一方面还会导致切分后的两端不均衡，切分效果不佳。

而在本申请中，采用句末信息、语调短语、韵律短语、韵律词和音节至少两项来表征句子的韵律，并以此为基准对目标文本进行切分，不会出现在一次整词中间切断的情况，使得切分后得到的分句停顿和韵律均较为自然。

音素序列为由目标文本中的各音节所对应的音素(例如拼音、声调或音标)所连接而成的序列。

例如，对于目标文本“上海市今天阴转多云东南风三到四级”，可以将其转化为音素序列：shang4 hai3 shi4 jin1 tian1 yin1 zhuan3 duo1 yun2 dong1 nan2 feng1san1dao4 si4 ji2。

韵律标识符为用于表征目标文本中每一个音素所对应的韵律特征的标识符，也即，韵律标识符为用于表征句末信息、语调短语、韵律短语、韵律词和音节的符号。

在实际执行过程中，可以采用特殊符号与数字组合的形式或特定字母组合来表示韵律标识符，例如分别用“#0”、“#1”、“#2”、“#3”以及“#4”来表示韵律标识符，不同的组合表征不同的细粒度级别。

如：#0代表着音节、#1代表韵律词、#2代表韵律短语、#3代表语调短语以及#4代表句末，在该实施例中，细粒度由小到大依次为：#0＜#1＜#2＜#3＜#4。

在得到目标文本对应的音素序列以及韵律标识符后，将韵律标识符插入音素序列中的相应位置，如将用于表征音节的韵律标识符#0插入至音素序列中每一个音节所对应的拼音之后，将用于表征韵律短语的韵律标识符#2插入至音素序列中每一句韵律短语之后，从而将音素序列转化为韵律音素序列。

例如，分别采用#0”、“#1”、“#2”、“#3”以及“#4”对音素序列“shang4 hai3shi4jin1 tian1 yin1 zhuan3 duo1 yun2 dong1 nan2 feng1 san1 dao4 si4 ji2”进行标记，从而生成韵律音素序列：sil shang4#0hai3#0shi4#2jin1#0tian1#2yin1#0zhuan3#1duo1#0yun2#3dong1#0nan2#0feng1#2san1#0dao4#1si4#0ji2#4sil。

其中，sil表征句首和句末的静音。

在该实施例中，通过将目标文本转化为音素序列，并基于句末信息、语调短语、韵律短语、韵律词和音节中的至少两种所对应的韵律标识符对音素序列进行标记以生成韵律音素序列，能够提供一种更加精细的韵律表征，从而有助于后续切分过程中的切分细腻度与准确性。

在得到韵律音素序列后，提取韵律音素序列中的韵律特征和音素特征，即可生成目标韵律特征和目标音素特征。

在一些实施例中，目标韵律特征和目标音素特征可以包括：韵律音素序列的长度、韵律音素序列中的中文拼音的数量、韵律音素序列中的停顿符号的数量、韵律音素序列中的英文音素的数量、韵律音素序列中的中文音素的数量、韵律音素序列中的中文声母的数量、韵律音素序列中的中文韵母的数量以及韵律音素序列中的各个类别的英文音素中的至少一种。

其中，韵律音素序列的长度可以为韵律音素序列中音素的数量。

步骤130、基于目标韵律特征和目标音素特征，获取目标音频文件的目标文件大小。

在该步骤中，目标音频文件为对整个目标文本进行语音合成所生成的音频文件。

可以理解的是，对于音频文件，目标音频文件即为该音频文件；对于视频文件，目标音频文件为该视频文件中所包括的音频文件。

目标文件大小为预测得到的，目标音频文件的文件大小。

目标文件大小可以为文件体积信息，或者也可以为第三语音信息的语音长度信息，本申请不做限定。

在一些实施例中，步骤130可以包括：

基于目标韵律特征和目标音素特征，获取目标音频文件的第一预测文件大小；

对目标残差值和第一预测文件大小求和，生成目标文件大小。

在该实施例中，第一预测文件大小为基于目标韵律特征和目标音素特征预测得到的，未经校正的经目标文本合成的语音的初始文件大小值。

目标残差值用于对第一预测文件大小进行校正，以提高最终所生成的目标文件大小的准确性。

目标残差值基于样本文件大小和预测的样本文本对应的样本音频文件的大小确定的，样本文件大小为样本文本对应的样本音频文件的实际大小。

目标文件大小为基于目标韵律特征和目标音素特征预测，且经校正后的经目标文本合成的语音的文件大小值。可以理解的是，目标文件大小的准确性高于第一预测文件大小。

目标残差值为预先确定的数值，例如目标残差值可以为残差值的最大绝对值。

在该实施例中，通过对第一预测文件大小进行增补残差处理，以对第一预测文件大小进行校正，从而提高最终生成的目标文件大小的准确性。

在实际执行过程中，可以采用神经网络模型来预测第一预测文件大小。

下面以神经网络模型为文件大小预测模型为例，对该实施例中第一预测文件大小的生成方式进行说明。

在一些实施例中，步骤130可以包括：

将目标韵律特征和目标音素特征输入至文件大小预测模型，获取由文件大小预测模型输出的第一预测文件大小。

在该实施例中，文件大小预测模型可以为预训练的神经网络模型。

文件大小预测模型用于基于文本的韵律特征和音素特征预测该文本所合成的语音的文件大小值。

文件大小预测模型的训练过程为：以样本韵律特征和样本音素特征为样本，以与样本韵律特征和样本音素特征对应的样本文件大小为样本标签，对该文件大小预测模型进行训练。

其中，样本韵律特征和样本音素特征为对样本文本进行韵律特征和音素特征提取所生成的，样本韵律特征和样本音素特征的提取方式与上述目标韵律特征和目标音素特征的提取方式类似，在此不作赘述。

与样本韵律特征和样本音素特征对应的样本文件大小为对样本文本进行语音合成所生成的样本音频文件的实际大小值。

在实际应用过程中，将目标韵律特征和目标音素特征输入至训练好的文件大小预测模型，即可由文件大小预测模型输出该由该目标韵律特征和目标音素特征对应的目标文本进行语音合成所生成的语音所对应的初始文件大小值，也即第一预测文件大小。

在得到第一预测文件大小后，计算第一预测文件大小和目标残差值的和，即可生成目标文件大小。

在该实施例中，通过采用预训练的模型来获取第一预测文件大小，能够提高实际应用过程中的计算效率。

除此之外，对于实际应用过程中的每一个目标文本所对应的目标韵律特征和目标音素特征均可以作为后续训练该文件大小预测模型的训练样本，随着训练样本体积的增大，该文件大小预测模型的智能程度也将不断提高，所最终预测生成的结果也将更加准确。

下面通过具体实施例，对目标残差值的确定方式进行说明。

在一些实施例中，目标残差值通过如下步骤确定：

获取样本文本、样本音频文件对应的样本文件大小和样本文本对应的样本音频文件，样本音频文件为对样本文本进行语音合成所生成的；

对样本文本进行特征提取，生成样本韵律特征和样本音素特征；

基于样本韵律特征和样本音素特征，获取样本音频文件的第二预测文件大小；

将第二预测文件大小和样本文件大小的差值的最大绝对值，确定为目标残差值。

在该实施例中，样本文本可以为数十至数百级别的常规文本，也可以为数千或数万级别的超长文本。

样本音频文件为对样本文本进行语音合成，所最终生成的音频文件。

样本文件大小为样本音频文件的实际大小值或实际音频时长。

例如，可以采用语音合成系统计算样本文本对应的样本音频文件的真实wav文件大小或音频时长。

第二预测文件大小为经预测得到的，未经校正的样本音频文件的大小值或音频时长。

需要说明的是，第二预测文件大小的生成方式应与第一预测文件大小的生成方式保持一致。

在实际执行过程中，可以对样本文本进行特征提取，生成样本韵律特征和样本音素特征，并将样本韵律特征和样本音素特征输入至文件大小预测模型，获取由文件大小预测模型输出的第二预测文件大小。

然后计算第二预测文件大小减去样本文件大小的差值的最大绝对值，作为目标残差值。

可以理解的是，在执行过程中，可以对样本韵律特征和样本音素特征进行多次预测，以得到多个第二预测文件大小。则分别计算每一个第二预测文件大小与样本文件大小的差值，得到多个候选差值；然后从多个候选差值中选择最小非正值的绝对值，确定为目标残差值，以提高目标残差值的准确度。

根据本申请实施例提供的音视频文件大小的获取方法，通过对目标文本进行韵律特征以及音素特征的提取，并基于提取得到的目标韵律特征和目标音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

如图2所示，根据本申请的一些实施例，在步骤130之后，该方法还可以包括：

基于目标韵律特征和目标音素特征对目标文本进行切分，生成多个分句序列；

对分句序列进行语音合成，生成分句语音；

输出分句语音和目标文件大小，并对分句语音进行拼接，生成目标音频文件。

在该实施例中，每个分句序列包括至少一个音素，其中音素可以为中文音素或英文音素。

基于目标韵律特征中的音节、韵律词、韵律短语以及语调短语中的至少一个特征对目标文本进行切分，以得到至少两个分句序列。

例如，对于目标文本“上海市今天阴转多云东南风三到四级”，可以首先将其转化为韵律音素序列：sil shang4#0hai3#0shi4#2jin1#0tian1#2yin1#0zhuan3#1duo1#0yun2#3dong1#0nan2#0feng1#2san1#0dao4#1si4#0ji2#4sil；

然后在#3处进行切分，从而可以将该韵律音素序列切分为以下多个分句序列：

分句序列1：sil shang4#0hai3#0shi4#2jin1#0tian1#2yin1#0zhuan3#1duo1#0yun2#3；

分句序列2：dong1#0nan2#0feng1#2san1#0dao4#1si4#0ji2#4sil。

对多个分句序列中切分顺序最前的分句序列进行语音合成，生成该分句序列对应的分句语音；

输出该分句序列对应的分句语音以及目标文件大小，并合成后续分句序列。

例如，对于样本文本：详细内容麻烦在APP上搜寻下，可以转化为样本韵律音素序列：sil xiang2#0xi4#1nei4#0rong2#2ma2#0fan5#2zai4#1AE1 P#0shang4#1sou1#0xun2#0xia4#4sil；

然后对样本韵律音素序列进行特征提取，所提取的样本韵律特征和样本音素特征包括但不限于：样本韵律音素序列长度；样本韵律音素序列中的中文拼音出现的个数、样本韵律音素序列中的停顿符号(#0#1#2#3sil)的个数、样本韵律音素序列中的英文音素的个数、样本韵律音素序列中的中文音素的个数、样本韵律音素序列中的中文声母的个数、样本韵律音素序列中的中文韵母的个数、样本韵律音素序列中的每种类别的英文音素(Vowels,Diphthongs,R colored vowels,Stops,Affricates,Fricatives,Nasals,Liquids,Semivowels)的个数。

在准备好训练数据后，则可以训练基于ElasticNet回归模型的wav文件大小预测模型。

将上述获取的样本韵律特征和样本音素特征输入至wav文件大小预测模型，训练过程的目标输出为样本音频文件的真实wav文件字节数。

具体地，可以使用交叉验证选取表现最好的模型参数，然后用所选取的参数训练ElasticNet回归模型。

然后计算目标残差值，如使用样本韵律特征和样本音素特征作为模型的输入，得到第二预测文件大小。

计算第二预测文件大小减去样本文件大小的最小非正值的绝对值，作为最大残差值。

在实际应用过程中，客户端发起请求。如获取目标文本：上海市今天阴转多云东南风三到四级。

系统响应于请求，从客户端请求的目标文本中提取目标韵律特征和目标音素特征。

将提取的目标韵律特征和目标音素特征输入至如上所述的模型中，得到第一预测文件大小。

然后对第一预测文件大小增补残差，所生成的目标文件大小为第一预测文件大小和目标残差值之和。

将生成的目标文件大小作为wav文件大小预测值。

将wav文件大小预测值写入wav文件头。

然后将客户端请求的目标文本进行切分，生成多个分句序列，例如分为：

第一分句序列：上海市今天阴转多云；

第二分句序列：东南风三到四级。

合成第一分句序列“上海市今天阴转多云”的音频，生成第一分句语音，写入wav文件，返回给客户端。

然后按顺序合成第一分句序列之后的音频，并写入wav文件，直至合成完所有的请求。如合成“东南风三到四级”的音频，并写入wav文件，结束。

又如，对于文件大小表现为时长的情况，对于样本文本“可以控制”，可以转化为韵律音素序列：sil k e2#0y i3#1k ong4#0zh i4#3sil eos，并预测韵律和音素的时长(梅尔谱帧数)：3 1 3 1 1 6 2 2 7 2 4 5 11 4 12，并将该音素的时长总和作为样本文件大小。

在后续模型训练过程中，可以设置模型为1层256维的嵌入层，接4层通道数为256的1维卷积神经网络，接layer norm，接dropout，接一层输出维度维1的全连接层。

然后将音素时长序列d转换到log域，其中，d’＝log(d+1)；

其中损失函数可以包括音素时长序列的MSE损失和平均每个音素的总时长MAE损失。

然后采用Adam优化器对模型进行迭代优化。

在计算目标残差值的过程中，可以基于以上模型得到预测的梅尔谱总帧数作为第二预测文件大小，然后进行最大残差值的计算。

需要说明的是，在该实施例中，计算的是梅尔谱帧数，则根据梅尔谱帧移和wav文件的采样频率16000、采样位数16、声道数1将音频时长(梅尔谱总帧数)转换为wav文件大小：

其中wav文件大小＝((梅尔谱帧数x梅尔谱帧移/16000)*16000*16*1/8+44)字节。

根据本申请实施例提供的音视频文件大小的获取方法，通过对目标文本进行韵律及音素特征提取，并基于提取得到的目标韵律特征和目标音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

下面对本申请实施例提供的音视频文件大小的获取装置进行描述，下文描述的音视频文件大小的获取装置与上文描述的音视频文件大小的获取方法可相互对应参照。

如图3所示，该音视频文件大小的获取装置包括：第一处理模块310、第二处理模块320和第三处理模块330。

第一处理模块310，用于获取目标文本；

第二处理模块320，用于提取目标文本的特征，生成目标韵律特征和目标音素特征；

第三处理模块330，用于基于目标韵律特征和目标音素特征，获取目标音频文件的目标文件大小，目标音频文件为对目标文本进行语音合成所生成的。

根据本申请实施例提供的音视频文件大小的获取装置，通过对目标文本进行韵律特征和音素特征提取，并基于提取得到的目标韵律特征和目标音素特征预测由该目标文本所合成的目标音频文件的大小信息，能够在目标音频文件生成之前即可实现该目标文件的大小值的预测，具有一定的及时性；且预测结果的准确性和精确性较高。

在一些实施例中，第三处理模块330，用于：

对第一预测文件大小和目标残差值求和，生成目标文件大小，目标残差值基于样本文件大小和预测的样本文本对应的样本音频文件的大小确定的，样本文件大小为样本文本对应的样本音频文件的实际大小。

在一些实施例中，目标残差值通过如下步骤确定：

获取样本文本、样本文本对应的样本音频文件和样本音频文件对应的样本文件大小，样本音频文件为对样本文本进行语音合成所生成的；

在一些实施例中，第三处理模块330，用于：

将目标韵律特征和目标音素特征输入至文件大小预测模型，获取由文件大小预测模型输出的第一预测文件大小；其中，

文件大小预测模型为，以样本韵律特征和样本音素特征为样本，以与样本韵律特征和样本音素特征对应的样本文件大小为样本标签，训练得到。

在一些实施例中，该装置还可以包括：

第四处理模块，用于在生成目标音频文件的目标文件大小之后，基于目标韵律特征和音素特征对目标文本进行切分，生成多个分句序列；

对分句序列进行语音合成，生成分句语音；

在一些实施例中，第二处理模块320，还用于：

将目标文本转化为韵律音素序列，韵律音素序列包括与目54标文本对应的多个音素以及位于相邻音素之间的韵律标识符；

对韵律音素序列进行特征提取，生成目标韵律特征和音素特征。

在一些实施例中，第二处理模块320，还用于：

将目标文本转化为音素序列；

获取音素序列的音节、韵律词、韵律短语、语调短语和句末信息；

基于音节、韵律词、韵律短语、语调短语和句末信息中的至少两种对音素序列进行标记，生成韵律音素序列。

在一些实施例中，目标韵律特征和音素特征包括：韵律音素序列的长度、韵律音素序列中的中文拼音的数量、韵律音素序列中的停顿符号的数量、韵律音素序列中的英文音素的数量、韵律音素序列中的中文音素的数量、韵律音素序列中的中文声母的数量、韵律音素序列中的中文韵母的数量以及韵律音素序列中的各个类别的英文音素中的至少一种。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行音视频文件大小的获取方法，该方法包括：获取目标文本；提取目标文本的特征，生成目标韵律特征和目标音素特征；基于生成目标韵律特征和目标音素特征，生成目标音频文件的目标文件大小，目标音频文件为对目标文本进行语音合成所生成的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例所提供的音视频文件大小的获取方法，该方法包括：获取目标文本；提取目标文本的特征，生成目标韵律特征和目标音素特征；基于生成目标韵律特征和目标音素特征，生成目标音频文件的目标文件大小，目标音频文件为对目标文本进行语音合成所生成的。

另一方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的音视频文件大小的获取方法，该方法包括：获取目标文本；提取目标文本的特征，生成目标韵律特征和目标音素特征；基于生成目标韵律特征和目标音素特征，生成目标音频文件的目标文件大小，目标音频文件为对目标文本进行语音合成所生成的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

以上实施方式仅用于说明本申请，而非对本申请的限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行各种组合、修改或者等同替换，都不脱离本申请技术方案的精神和范围，均应涵盖在本申请的权利要求范围中。

Claims

1.一种音视频文件大小的获取方法，其特征在于，包括：

获取目标文本；

2.根据权利要求1所述的音视频文件大小的获取方法，其特征在于，所述基于所述目标韵律特征和所述目标音素特征，获取目标音频文件的目标文件大小，包括：

3.根据权利要求2所述的音视频文件大小的获取方法，其特征在于，所述目标残差值通过如下步骤确定：

将所述第二预测文件大小和所述样本文件大小的差值的绝对值，确定为所述目标残差值。

4.根据权利要求2所述的音视频文件大小的获取方法，其特征在于，所述基于所述目标韵律特征和所述目标音素特征，获取所述目标音频文件的第一预测文件大小，包括：

5.根据权利要求1所述的音视频文件大小的获取方法，其特征在于，在所述获取目标音频文件的目标文件大小之后，所述方法还包括：

基于所述目标韵律特征和所述目标音素特征对所述目标文本进行切分，生成多个分句序列；

对所述分句序列进行语音合成，生成分句语音；

6.根据权利要求1-5任一项所述的音视频文件大小的获取方法，其特征在于，所述对所述目标文本进行特征提取，生成目标韵律特征和目标音素特征，包括：

7.根据权利要求6所述的音视频文件大小的获取方法，其特征在于，所述目标韵律特征和所述目标音素特征包括：所述韵律音素序列的长度、所述韵律音素序列中的中文拼音的数量、所述韵律音素序列中的停顿符号的数量、所述韵律音素序列中的英文音素的数量、所述韵律音素序列中的中文音素的数量、所述韵律音素序列中的中文声母的数量、所述韵律音素序列中的中文韵母的数量以及所述韵律音素序列中的各个类别的英文音素中的至少一种。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述音视频文件大小的获取方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述音视频文件大小的获取方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述音视频文件大小的获取方法。