CN111739509A

CN111739509A - 电子书音频生成方法、电子设备及存储介质

Info

Publication number: CN111739509A
Application number: CN202010547966.2A
Authority: CN
Inventors: 曹雯潇; 朱军; 明瑞刚; 陈梦瑶; 唐旺
Original assignee: Ireader Technology Co Ltd
Current assignee: Ireader Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-02
Anticipated expiration: 2040-06-16
Also published as: CN111739509B

Abstract

本发明公开了一种电子书音频生成方法、电子设备及存储介质，方法包括：获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本‑音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。通过利用训练后的文本‑音频转换模型，基于文本内容、表述因子，得到转化后带有情感更符合真人朗读的电子书音频，提升用户听书体验，解决现有技术电子书音频声音呆板、单一、更机械化等问题。

Description

电子书音频生成方法、电子设备及存储介质

技术领域

本发明涉及电子书领域，具体涉及一种电子书音频生成方法、电子设备及存储介质。

背景技术

电子书的出现帮助用户实现了随时随地阅览书籍，不受纸质书籍阅读时的条件限制，为用户阅读提供了阅读书籍的便利性。

在电子书的基础之上，有声读物也越来越多的被用户所接受。听书可以避免用户用眼过度，缓解用户视力疲劳，充分调用用户大脑的感官神经。有声读物或者听书，一种采用的是专业录制的方式，但这种方式需要花费较多人力、时间成本，不能及时提供电子书对应的有声读物。另一种采用文字转语音技术，但得到的往往是比较呆板、生硬的声音，单一的语音提供给用户的体验不佳，使得用户无法从听觉上得到更切合书籍当前实际情景的感官体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子书音频生成方法、电子设备及存储介质。

根据本发明的一个方面，提供了一种电子书音频生成方法，其包括：

获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；

针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；

根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

根据本发明的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行以下操作：

根据本发明的又一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行以下操作：

根据本发明提供的电子书音频生成方法、电子设备及存储介质，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。通过利用训练后的文本-音频转换模型，基于文本内容、表述因子，得到转化后带有情感更符合真人朗读的电子书音频，将电子书中的情节更真实化的呈现，解决现有技术中电子书音频声音呆板、单一、更机械化等问题，使电子书音频与电子书情节更对应，更好地呈现电子书中的人物、情节、情感等，提升用户听书体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的电子书音频生成方法的流程示意图；

图2示出了根据本发明另一个实施例的电子书音频生成方法的流程示意图；

图3示出了根据本发明一个实施例的文本-音频转换模型训练过程的流程示意图；

图4示出了根据本发明一个实施例的一种电子设备的结构示意图。

具体实施方式

实施例一

图1示出了根据本发明一个实施例的电子书音频生成方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S101，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合。

获取整本电子书的文本内容后，由于整本电子书包含的文本内容较多，如果一次性对整本电子书生成电子书音频，会由于文本内容较多，导致转化的电子书音频速度较慢、转化时易出错等问题。因此，本实施例在获取电子书的文本内容后，结合阅读习惯，对文本内容进行切句处理，得到语句集合。语句集合中可以以整句为单位进行切句处理，或者，当整句过长时，如排比句等，可以以标点符号为单位进行切句处理，此处不做限定。

语句集合包含文本内容的各个语句，且记录各语句间的排列顺序，方便确定各个语句的上下文关系。

步骤S102，针对语句集合中的任一语句，确定语句的至少一个表述因子。

表述因子包括人物表述因子、情感表述因子等。人物表述因子包括该语句所属人物、人物性别、人物年纪、人物性格等；如该语句的人物为：温柔的中年女子、活泼的小女孩等；或者该语句为人物旁白等；情感表述因子为该语句包含的情感，如兴奋、忧伤、痛苦、失望等情感。

得到语句集合后，针对语句集合中的任一语句，结合语句的上下文关系，可以分析确定语句的表述因子。具体的，结合语句的上下文关系，对语句进行语义分析，根据语义分析结果确定语句的至少一个表述因子。如结合语句的上下文关系，得到语句的前一语句或前几语句，后一语句或后几语句，与本语句结合，进行语义分析，可以从语句中确定表述因子。如结合上下文从语义分析结果中可以得到当前语句为小A所说的话，小A为中年男子，其性格憨厚，还可以对语句所使用的标点符号等进行分析，确定表述的情感如愤怒、疑问等，得到语句对应的表述因子。以上为举例说明，具体根据实施情况设置。

语句所对应的各种人物表述因子，以及在语句在表述时的情感表述因子，有利于在生成音频时，音频与表述因子相对应，采用与人物对应的音频声音、饱含对应的情感来进行表述，解决现有音频中整本电子书都采用同一声音讲述，无法区分不同人物，声音呆板单一，不能表达语句情感变化等问题。

步骤S103，将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段。

在确定语句以及语句的至少一个表述因子后，将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，对语句进行转化，从而得到语句对应的音频片段。音频片段与语句、语句表述因子的人物表述因子、情感表述因子均对应，从而使音频片段更符合语句实际描述，使用户听到音频片段时更好地理解语句所要表述的内容。

以上步骤S102和S103的执行顺序，可以按照语句集合，对语句循环执行步骤S102和S103，也可以先对语句集合中的每个语句确定表述因子后，再循环执行步骤S103，得到各个语句对应的音频片段，此处不做限定。

步骤S104，根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

语句集合中记录了各个语句的排列顺序，按照排列顺序，将各个语句对应的音频片段依次进行拼接处理，得到电子书对应的一个完整的电子书音频。

根据本发明提供的电子书音频生成方法，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。通过利用训练后的文本-音频转换模型，基于文本内容、表述因子，得到转化后带有情感更符合真人朗读的电子书音频，将电子书中的情节更真实化的呈现，解决现有技术中电子书音频声音呆板、单一、更机械化等问题，使电子书音频与电子书情节更对应，更好地呈现电子书中的人物、情节、情感等，提升用户听书体验。

实施例二

图2示出了根据本发明另一个实施例的电子书音频生成方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤S201，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合。

步骤S202，针对语句集合中的任一语句，确定语句的至少一个表述因子。

以上步骤参照图1实施例中的步骤S101-S102的描述，此处不再赘述。

步骤S203，将语句及对应的至少一个表述因子进行向量化表示，得到输入向量。

为更准确地生成得到电子书音频，将语句以及对应的表述因子进行向量化表述，以方便文本-音频转换模型对其进行转换。具体的，对于语句，根据语句所包含的文字拼音来实现对语句进行向量化表示。如将语句中的各文字以拼音形式表示，将“今天”向量化为“jin tian”，对拼音进一步处理，得到“jin”、“tian”，或者，还有进一步细化为“j”、“in”、“t”、“ian”等向量，细化粒度根据事实情况设置。表述因子也采用不同数值标记，从而得到输入向量。

进一步，还可以根据日常阅读习惯，语句中间会有停顿，在语句中插入停留间隔符。对于语句样本中插入的停留间隔符也进行向量化表示，在得到音频片段时，使音频片段中也在停留间隔符处进行停顿。

语句中插入的停留间隔符可以根据日常停顿规则进行添加，如语句中各词语后插入停留间隔符等，此处不做限定。

步骤S204，将输入向量输入至训练后的文本-音频转换模型中，得到语句对应的音频片段。

将输入向量输入至训练后的文本-音频转换模型中，由文本-音频转换模型对输入向量进行转换，得到语句对应的音频片段。

步骤S205，根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

按照语句的排列顺序将语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

步骤S206，选取与电子书匹配的背景音，将电子书音频与背景音进行合成处理。

电子书对应不同的书籍类型，如武侠、言情等不同类型，可以基于电子书的不同类型，为其选取匹配的背景音。背景音可以预先指定不同类型，根据电子书的类型，选取类型匹配的背景音。

将电子书音频与背景音进行合成处理时，可以根据电子书中语句对应的音频片段位置，从指定位置处合成背景音。进一步，背景音可以选取一段或多段，在不同位置处合成对应的背景音，以突出电子书的不同情节。

根据本发明提供的电子书音频生成方法，将电子书的文本内容切句为语句集合，针对语句集合中的任一语句来转换得到音频片段，以提高音频片段转换的准确性。在输入时，将语句及对应的至少一个表述因子进行向量化表示，以提高音频片段的准确率。进一步，还可以在得到电子书音频后，为电子书音频合成背景音，以更突出电子书的情节，提升用户听书的体验效果。

实施例三

图3示出了根据本发明一个实施例的文本-音频转换模型训练过程的流程示意图，如图3所示，包括如下步骤：

步骤S301，获取训练样本数据。

本实施例用于将文本转换为音频片段，因此，训练样本数据中包括语句样本集合以及音频片段样本集合。其中，语句样本集合中的语句样本与音频片段样本集合中的音频片段样本一一对应，组成样本对。

在获取样本数据时，先获取得到文本样本和音频样本。音频样本可以为专门录制的专业音频样本，也可以包括现有的听书音频样本等。由于音频样本多种多样，还需先对音频样本进行预处理。如判断音频样本是否为包含背景音的音频，背景音会影响训练结果，若是，需要过滤掉包含背景音的音频样本，以及对应的文本样本。进一步，当音频样本长度过长时，需要对得到的音频样本进行切分处理，得到多个音频片段样本。音频片段样本可以如5-10秒，短音频片段可以更好地进行训练，避免过长音频样本在训练时需要与较多文本样本匹配，导致训练效率较低、训练不准确等问题。相应的对文本样本也进行切分处理，使文本样本与各音频片段样本向匹配。具体的，可以将音频片段样本转换成文字，从文本样本中解析出各个音频片段样本对应的语句样本，使其一一对应，从而得到训练样本数据。

步骤S302，针对任一样本对，确定样本对的至少一个表述因子。

针对得到的训练样本数据中的任一样本对，可以从音频样本或音频片段样本侧出发，根据语音分析工具，获取表述因子。表述因子包括人物表述因子、情感表述因子等。根据语音分析工具，确定音频样本或音频片段样本为愤怒的中年男子的语音，从而确定表述因子中的人物表述因子、情感表述因子等。或者，还可以根据文本样本，对其进行语义分析，得到表述因子中的人物表述因子、情感表述因子等。对文本样本确定表述因子时可以参照步骤102的描述，在此不再赘述。

步骤S303，根据样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练。

基于以上获取的样本对以及对应的至少一个表述因子，将样本对以及对应的至少一个表述因子进行向量化表示，得到样本数据向量，使样本数据更标准化，便于模型训练。

对于语句样本，将语句样本所包含的文字转化为文字拼音实现对语句样本向量化表示，对于音频片段样本，将音频片段样本采用傅里叶变化技术，对其进行分帧处理，得到各帧音频，实现对音频片段样本进行向量化表示。

进一步，对于语句样本，由于在实际阅读中，语句样本中各文字间会有停顿，为使训练更准确，在语句样本中插入停留间隔符，使其与音频片段样本更一一对应。对于语句样本中插入的停留间隔符也进行向量化表示，与音频片段样本中停顿的各帧音频相对应。语句样本中插入的停留间隔符可以根据日常停顿规则进行添加，如语句样本中各词语后插入停留间隔符、根据语气插入停留间隔符、根据样本对中的音频片段样本中的各文字的长音插入停留间隔符等，此处不做限定。

将向量化表示后的样本数据向量输入至待训练的文本-音频转换模型中进行训练，调整训练参数，以使样本数据向量相匹配，从而得到训练后的文本-音频转换模型。

根据本发明实施例提供的文本-音频转换模型训练过程，实现对文本向音频的准确转换，将文本转换为更真实化的音频效果，避免音频单一、呆板的效果。结合表述因子，使得音频转换更生动，提升用户体验。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的电子书音频生成方法。

可执行指令具体可以用于使得处理器执行以下操作：

获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：

将语句及对应的至少一个表述因子进行向量化表示，得到输入向量；其中，根据语句所包含的文字拼音实现对语句进行向量化表示；将输入向量输入至训练后的文本-音频转换模型中，得到语句对应的音频片段。

对语句进行语义分析，根据语义分析结果确定语句的至少一个表述因子。

获取训练样本数据；训练样本数据包括：语句样本集合以及音频片段样本集合，其中语句样本集合中的语句样本与音频片段样本集合中的音频片段样本一一对应组成样本对；针对任一样本对，确定样本对的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；根据样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练。

将样本对以及对应的至少一个表述因子进行向量化表示，得到样本数据向量；其中，根据语句样本所包含的文字拼音实现对语句样本进行向量化表示，根据对音频片段样本进行分帧处理实现对音频片段样本进行向量化表示；根据样本数据向量，对文本-音频转换模型进行训练。

在语句样本中插入停留间隔符，对插入停留间隔符的语句样本进行向量化表示。

获取文本样本和音频样本；判断音频样本是否为包含背景音的音频，若是，则过滤掉文本样本和音频样本；若否，则对音频样本进行切分处理，得到多个音频片段样本；从文本样本中解析出各个音频片段样本对应的语句样本，得到训练样本数据。

选取与电子书匹配的背景音；将电子书音频与背景音进行合成处理。

实施例五

图4示出了根据本发明实施例四的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述电子书音频生成方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

在一种可选的实施方式中，程序410用于使得处理器402将语句及对应的至少一个表述因子进行向量化表示，得到输入向量；其中，根据语句所包含的文字拼音实现对语句进行向量化表示；将输入向量输入至训练后的文本-音频转换模型中，得到语句对应的音频片段。

在一种可选的实施方式中，程序410用于使得处理器402对语句进行语义分析，根据语义分析结果确定语句的至少一个表述因子。

在一种可选的实施方式中，程序410用于使得处理器402获取训练样本数据；训练样本数据包括：语句样本集合以及音频片段样本集合，其中语句样本集合中的语句样本与音频片段样本集合中的音频片段样本一一对应组成样本对；针对任一样本对，确定样本对的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；根据样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练。

在一种可选的实施方式中，程序410用于使得处理器402将样本对以及对应的至少一个表述因子进行向量化表示，得到样本数据向量；其中，根据语句样本所包含的文字拼音实现对语句样本进行向量化表示，根据对音频片段样本进行分帧处理实现对音频片段样本进行向量化表示；根据样本数据向量，对文本-音频转换模型进行训练。

在一种可选的实施方式中，程序410用于使得处理器402在语句样本中插入停留间隔符，对插入停留间隔符的语句样本进行向量化表示。

在一种可选的实施方式中，程序410用于使得处理器402获取文本样本和音频样本；判断音频样本是否为包含背景音的音频，若是，则过滤掉文本样本和音频样本；若否，则对音频样本进行切分处理，得到多个音频片段样本；从文本样本中解析出各个音频片段样本对应的语句样本，得到训练样本数据。

在一种可选的实施方式中，程序410用于使得处理器402选取与电子书匹配的背景音；将电子书音频与背景音进行合成处理。

程序410中各步骤的具体实现可以参见上述电子书音频生成实施例中的相应步骤中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例提供的方案，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。通过利用训练后的文本-音频转换模型，基于文本内容、表述因子，得到转化后带有情感更符合真人朗读的电子书音频，将电子书中的情节更真实化的呈现，解决现有技术中电子书音频声音呆板、单一、更机械化等问题，使电子书音频与电子书情节更对应，更好地呈现电子书中的人物、情节、情感等，提升用户听书体验。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种电子书音频生成方法，其包括：

获取电子书的文本内容，对所述文本内容进行切句处理，得到语句集合；

针对所述语句集合中的任一语句，确定所述语句的至少一个表述因子；所述至少一个表述因子包括人物表述因子和/或情感表述因子；将所述语句及对应的所述至少一个表述因子输入至训练后的文本-音频转换模型中，得到所述语句对应的音频片段；

根据所述语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

A2.根据A1所述的方法，其中，所述将所述语句及对应的所述至少一个表述因子输入至训练后的文本-音频转换模型中，得到所述语句对应的音频片段进一步包括：

将所述语句及对应的所述至少一个表述因子进行向量化表示，得到输入向量；其中，根据语句所包含的文字拼音实现对所述语句进行向量化表示；

将所述输入向量输入至训练后的文本-音频转换模型中，得到所述语句对应的音频片段。

A3.根据A1或A2所述的方法，其中，所述确定所述语句的至少一个表述因子进一步包括：

对所述语句进行语义分析，根据语义分析结果确定所述语句的至少一个表述因子。

A4.根据A1-A3中任一项所述的方法，其中，所述文本-音频转换模型通过以下步骤训练得到：

获取训练样本数据；所述训练样本数据包括：语句样本集合以及音频片段样本集合，其中语句样本集合中的语句样本与音频片段样本集合中的音频片段样本一一对应组成样本对；

针对任一样本对，确定所述样本对的至少一个表述因子；所述至少一个表述因子包括人物表述因子和/或情感表述因子；

根据所述样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练。

A5.根据A4所述的方法，其中，所述根据所述样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练进一步包括：

将所述样本对以及对应的至少一个表述因子进行向量化表示，得到样本数据向量；其中，根据语句样本所包含的文字拼音实现对所述语句样本进行向量化表示，根据对音频片段样本进行分帧处理实现对所述音频片段样本进行向量化表示；

根据所述样本数据向量，对文本-音频转换模型进行训练。

A6.根据A5所述的方法，其中，对所述语句样本进行向量化表示进一步包括：在所述语句样本中插入停留间隔符，对插入停留间隔符的语句样本进行向量化表示。

A7.根据A4所述的方法，其中，所述获取训练样本数据进一步包括：

获取文本样本和音频样本；

判断音频样本是否为包含背景音的音频，若是，则过滤掉所述文本样本和音频样本；

若否，则对所述音频样本进行切分处理，得到多个音频片段样本；

从文本样本中解析出各个音频片段样本对应的语句样本，得到训练样本数据。

A8.根据A1-A7中任一项所述的方法，其中，在所述得到电子书对应的电子书音频之后，所述方法还包括：

选取与所述电子书匹配的背景音；

将所述电子书音频与所述背景音进行合成处理。

本发明还公开了：B9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

B10.根据B9所述的电子设备，所述可执行指令进一步使所述处理器执行以下操作：

B11.根据B9或B10所述的电子设备，所述可执行指令进一步使所述处理器执行以下操作：

B12.根据B9-B11中任一项所述的电子设备，其中，所述可执行指令进一步使所述处理器执行以下操作：

B13.根据B12所述的电子设备，所述可执行指令进一步使所述处理器执行以下操作：

根据所述样本数据向量，对文本-音频转换模型进行训练。

B14.根据B13所述的电子设备，所述可执行指令进一步使所述处理器执行以下操作：

在所述语句样本中插入停留间隔符，对插入停留间隔符的语句样本进行向量化表示。

B15.根据B12所述的电子设备，所述可执行指令进一步使所述处理器执行以下操作：

获取文本样本和音频样本；

B16.根据B9-B15中任一项所述的电子设备，所述可执行指令进一步使所述处理器执行以下操作：

选取与所述电子书匹配的背景音；

将所述电子书音频与所述背景音进行合成处理。

本发明还公开了：C17.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

C18.根据C17所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C19.根据C17或C18所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C20.根据C17-C19中任一项所述的计算机存储介质，其中，所述可执行指令进一步使所述处理器执行以下操作：

C21.根据C20所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

根据所述样本数据向量，对文本-音频转换模型进行训练。

C22.根据C21所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C23.根据C20所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

获取文本样本和音频样本；

C24.根据C17-C23中任一项所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

选取与所述电子书匹配的背景音；

将所述电子书音频与所述背景音进行合成处理。

Claims

1.一种电子书音频生成方法，其包括：

2.根据权利要求1所述的方法，其中，所述将所述语句及对应的所述至少一个表述因子输入至训练后的文本-音频转换模型中，得到所述语句对应的音频片段进一步包括：

3.根据权利要求1或2所述的方法，其中，所述确定所述语句的至少一个表述因子进一步包括：

4.根据权利要求1-3中任一项所述的方法，其中，所述文本-音频转换模型通过以下步骤训练得到：

5.根据权利要求4所述的方法，其中，所述根据所述样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练进一步包括：

根据所述样本数据向量，对文本-音频转换模型进行训练。

6.根据权利要求5所述的方法，其中，对所述语句样本进行向量化表示进一步包括：在所述语句样本中插入停留间隔符，对插入停留间隔符的语句样本进行向量化表示。

7.根据权利要求4所述的方法，其中，所述获取训练样本数据进一步包括：

获取文本样本和音频样本；

8.根据权利要求1-7中任一项所述的方法，其中，在所述得到电子书对应的电子书音频之后，所述方法还包括：

选取与所述电子书匹配的背景音；

将所述电子书音频与所述背景音进行合成处理。

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：