CN110941954B

CN110941954B - 文本播报方法、装置、电子设备及存储介质

Info

Publication number: CN110941954B
Application number: CN201911229852.7A
Authority: CN
Inventors: 石真; 卢甜恬
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-03-23
Anticipated expiration: 2039-12-04
Also published as: CN110941954A

Abstract

本申请公开了一种文本播报方法、装置、电子设备及存储介质，该方法包括：获取待播报文本，并将待播报文本转换为音频数据；对待播报文本进行识别，获得情感参数，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数；获取预先设置的播报虚拟人物；基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频，其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征；输出待播报视频。可以在用音频的方式播报文本的同时，显示虚拟人物来进行播报，从而提高文本播报的趣味性，提升了用户体验。

Description

文本播报方法、装置、电子设备及存储介质

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种文本播报方法、装置、电子设备及存储介质。

背景技术

随着社会的进步和人们生活水平的逐步提高，人们获取文本中信息的方式也越来越多，越来越方便。相比于之前仅能通过阅读的方式来获取文本中的信息，现在还可以通过音频播放的方式来实现。

虽然音频播放的方式可以方便用户在不用看着文本的情况下也能获取文本的信息，但是，音频的表现形式比较单调，用户在听了长时间音频后通常会感到枯燥，导致用户体验较差。

发明内容

鉴于上述问题，本申请提出了一种文本播报方法、装置、电子设备及存储介质，可以让用户同时从听觉和视觉上去获取文本中的信息，从而使文本信息能够更加生动形象地表现出来，提升了用户的阅读体验。

第一方面，本申请实施例提供了一种文本播报方法，该方法包括：获取待播报文本，并将待播报文本转换为音频数据；对待播报文本进行识别，获得情感参数，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数；获取预先设置的播报虚拟人物；基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频，其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征；输出待播报视频。

可选地，该方法还包括：识别待播报文本中与播报对象关联的关键词；获取与关键词对应的虚拟动画，以及与虚拟动画对应的音频信息；当待播报视频播放到与关键词对应的画面时，将待播报视频中的播报虚拟人物切换成虚拟动画，并播放与虚拟动画对应的音频信息。

可选地，关键词包括环境关键词和实物关键词，获取与关键词对应的虚拟动画，具体包括：获取与环境关键词对应的虚拟环境，并获取与实物关键词对应的虚拟形象；基于虚拟环境和虚拟形象生成虚拟动画。

可选地，在将待播报视频中的播报虚拟人物切换成虚拟动画，并播放与虚拟动画对应的音频信息之后，还包括：将关键词在待播报文本中所处的段落确定为第一段落；将与第一段落相邻的下一个段落确定为第二段落；判断第二段落中是否存在关键词；当不存在关键词时，在待播报视频播放到与第二段落对应的画面时，将虚拟动画切换成播报虚拟人物。

可选地，基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频，包括：根据表情参数以及动作参数驱动播报虚拟人物，得到多帧播报图像；根据语气参数以及音频数据合成播报语音；根据多帧播报图像和播报语音生成待播报视频。

可选地，获取预先设置的播报虚拟人物，包括：获取预先设置的多个虚拟人物，并将多个虚拟人物进行显示，其中，每个虚拟人物对应一个播报音色，且每个虚拟人物对应的播报音色不同；获取用户输入的选取指令；响应选取指令，从多个虚拟人物中选取与选取指令对应的虚拟人物；将与选取指令对应的虚拟人物确定为播报虚拟人物。

可选地，获取预先设置的播报虚拟人物，包括：获取用户的属性信息，属性信息包括年龄和性别中的至少一种；根据属性信息确定播报虚拟人物。

可选地，将待播报文本转换为音频数据，包括：对待播报文本进行预设处理，以划分待播报文本的文本内容的句子、段落以及章节，得到处理后的待播报文本；将处理后的待播报文本转换为音频数据。

可选地，对待播报文本进行识别，获得情感参数，包括：识别待播报文本中的情感关键词，情感关键词用于表征待播报文本中的播报对象的情感；根据情感关键词确定情感参数。

第二方面，本申请实施例提供了一种文本播报装置，该装置包括：音频数据转换模块、情感参数获取模块、播报虚拟人物获取模块、待播报视频生成模块以及输出模块。音频数据转换模块，用于获取待播报文本，并将待播报文本转换为音频数据；情感参数获取模块，用于对待播报文本进行识别，获得情感参数，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数；播报虚拟人物获取模块，用于获取预先设置的播报虚拟人物；待播报视频生成模块，用于基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频，其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征；输出模块，用于输出待播报视频。

第三方面，本申请实施例提供了一种电子设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供的文本播报方法、装置、电子设备及存储介质，通过获取待播报文本，并将待播报文本转换为音频数据；且对待播报文本进行识别，获得情感参数，其中，情感参数用于表征待播报文本中的播报对象的情感；再获取预先设置的播报虚拟人物，最后基于音频数据、情感参数、播报虚拟人物生成待播报视频。在待播报视频输出时，能够对待播报文本进行语音播报，同时显示播报虚拟人物进行播报，从而使待播报视频能够同时满足用户的视觉和听觉上的感官需求，增加了阅读的趣味性。另外，情感参数中包括了情感参数包括表情参数、动作参数以及语气参数，在待播报视频的播放过程中，通过基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征，可以使显示的虚拟人物更加生动、形象地播报待播报文本，从而提高了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的文本播报方法的流程示意图。

图2示出了本申请一个实施例提供的电子设备的显示界面示意图。

图3示出了本申请另一个实施例提供的文本播报方法的流程示意图。

图4示出了本申请另一个实施例提供的电子设备的显示界面示意图。

图5示出了本申请又一个实施例提供的文本播报方法的流程示意图。

图6示出了本申请再一个实施例提供的文本播报方法的流程示意图。

图7示出了本申请一个实施例提供的文本播报方法中步骤S403的流程示意图。

图8示出了本申请另一个实施例提供的文本播报方法中步骤S403的流程示意图。

图9示出了本申请又另一个实施例提供的文本播报方法的流程示意图。

图10示出了本申请一个实施例提供的文本播报方法中步骤S503的流程示意图。

图11示出了本申请实施例提供的文本播报装置的模块框图。

图12是本申请实施例的用于执行根据本申请实施例的文本播报方法的电子设备的框图。

图13是本申请实施例的用于保存或者携带实现根据本申请实施例的文本播报方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着社会进步，科技的发展，人们获取信息和知识的途径越来越多，但始终离不开文本的阅读，无论是在报纸上、在书籍中、还是在手机上，信息通常还是以文本的形式展现。虽然目前具有一些电子设备能够将文本数据转换为音频数据进行播放，从而方便用户在不用看着文本的情况下也能获取文本的信息，但是，音频的表现形式比较单调，用户在听了长时间音频后通常会感到枯燥，从而导致用户体验较差。

发明人在研究中发现，在用户通过电子设备阅读文本时，如果将文本数据转换为音频数据进行播放，并显示一个虚拟人物形象进行同步播报，能够同时满足用户在视觉和听觉上的需求，从而提升了文本播报的趣味性，避免了用户仅通过阅读的方式或音频播放的方式来接收文本中信息的枯燥。

然而，在实际的研究过程中，发明人发现，通常用虚拟人物进行播报时，仅有虚拟人物的嘴唇会随播报的文本内容变化，而虚拟人物的表情和形态往往不会改变，这导致播报的虚拟人物会看起来很僵硬，不自然，造成用户体验较差。

为了改善上述问题，发明人提出了本申请实施例中的文本播报方法、装置、电子设备及存储介质。可以通过音频的方式播报待播报的文本的同时，显示具有动态表情和动作的播报虚拟人物来进行播报，从而提高文本播报的趣味性和真实性，进而提升了用户体验。

下面将通过具体实施例对本申请实施例提供的文本播报方法、装置、电子设备及存储介质进行详细说明。

请参阅图1，图1示出了本申请一个实施例提供的文本播报方法的流程示意图。该方法可以应用于电子设备。其中，电子设备可以是具有显示屏、具有拍摄相机、具有音频输出功能且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于电子上具有的语音模块输入语音、字符输入模块输入字符等。

该方法可以包括如下步骤：

步骤S101，获取待播报文本，并将待播报文本转换为音频数据。

考虑到待播报文本通常会是电子版或者纸质版，在一些实施方式中，当电子设备获取待播报文本时，如果待播报文本是电子版，可以将电子版的待播报文本录入到电子设备中。录入的方式可以是有线录入，例如通过USB来进行录入；也可以是无线录入例如通过WiFi、4G、5G、蓝牙等方式进行录入。如果待播报文本是纸质版，则可以用电子设备对待播报文本进行扫描，利用光学字符识别(Optical Character Recognition,OCR)技术对待播报文本进行识别，从而获取到待播报文本。然后可以利用文本转语音(Text To Speech，TTS)技术将待播报文本转换为音频数据。其中，待播报文本可以是故事文本、新闻文本等等。

步骤S102，对待播报文本进行识别，获得情感参数。其中，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数。

在一些实施方式中，可以将待播放文本中的一个句子、一个段落、一个章节等作为单位进行识别。具体地，识别时可以将待播放文本中的任意一个句子输入至预先训练好的机器学习模型中，由机器学习模型输出与该句子对应的情感参数，其中，情感参数可以表征播报对象的开心、悲伤、愤怒等等情感。作为一种示例，如在预先训练好的机器学习模型中，句子“学生们放学了”对应了表征开心的情感参数，当识别到待播报文本中存在句子“学生们放学了”时，将该句子对应的情感参数确定为表征开心的情感参数，其中，该句子中的“学生们”即作为播报对象。以此类推，即可获得待播报文本中每个情感参数。同理，当识别的单位为段落和章节时，也可以通过上述方式得到对应的情感参数。

其中，播报对象的情感可以从表情、动作以及语气上体现出来，因此情感参数可以具体包括表情参数、动作参数以及语气参数中的至少一种。

步骤S103，获取预先设置的播报虚拟人物。

其中，播报虚拟人物可以预先存储在电子设备中的数据库中，当获取播报虚拟人物时，用户可以直接从数据库中调用。也可以由用户通过电子设备中的图片或视频自行制定。可选地，播报虚拟人物可以是具有真人样貌的人物，也可以是卡通人物。

步骤S104，基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频。

其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征。

在一些实施方式中，可以预先获取播报虚拟人物对应的多组图片或者多段动作视频。其中，一组图片可以对应播报虚拟人物的一种表情及动作，当该组图片中的多张图片连续播放时，可以得到播报虚拟人物的做出该表情及动作的视频。其中，一段动作视频可以记录播报虚拟人物做出一个表情及动作。另外将语气参数与对应进度的音频数据进行合成以得到合成后的音频数据，其中，语气参数可以表征愉快、愤怒、悲伤等语气，例如愤怒时，通常语速较快、响度较大、频率较高，因此可以通过设置语速、响度、频率等参数来组成表征愤怒的语气参数。再将待播报文本中的每个情感参数分别与上述获取的多组图片或多段动作视频对应进行关联，并整合成一个视频后与合成后的音频数据进行同步，从而生成与待播报文本对应的待播报视频。

步骤S105，输出待播报视频。

在一些实施方式中，可以在电子设备的显示屏上播放待播报视频，还可以用具有投影功能的电子设备通过投影的方式播放待播报视频。作为一种示例，如图2所示，电子设备在播放待播报时，可在显示屏上显示播报虚拟人物，播报虚拟人物伴随着音频数据的进度呈现对应的表情和动作，同时电子设备播放的音频数据随着文本中播报对象的情感变换而变换语气。可选地，在显示屏上除播报虚拟人物以外的区域可以显示当前播报到的待播报文本中的句子或段落。可选地，在显示屏上除播报虚拟人物以外的区域可以显示用于切换到只显示文本的按键。

在本实施例中，通过获取待播报文本，并将待播报文本转换为音频数据；且对待播报文本进行识别，获得情感参数，其中，情感参数用于表征待播报文本中的播报对象的情感；再获取预先设置的播报虚拟人物，最后基于音频数据、情感参数、播报虚拟人物生成待播报视频。在待播报视频输出时，能够对待播报文本进行语音播报，同时显示播报虚拟人物进行播报，从而使待播报视频能够同时满足用户的视觉和听觉上的感官需求，增加了阅读的趣味性。另外，情感参数中包括了情感参数包括表情参数、动作参数以及语气参数，在待播报视频的播放过程中，通过基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征，可以使显示的虚拟人物更加生动、形象地播报待播报文本，且更能够体现待播报文本中的播报对象的情感，从而提高了用户体验。

请参阅图3，图3示出了本申请另一个实施例提供的文本播报方法的流程示意图。该方法可以包括如下步骤：

步骤S201，获取待播报文本，并将待播报文本转换为音频数据。

步骤S202，对待播报文本进行识别，获得情感参数，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数。

步骤S203，获取预先设置的播报虚拟人物。

步骤S204，基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频。

步骤S205，输出待播报视频。

步骤S201至步骤S205具体可以参考步骤S101至步骤S105，故不在此一一赘述。

步骤S206，识别待播报文本中与播报对象关联的关键词。

在一些实施方式中，可以预先建立播报对象与一个或多个关键词的关联，例如播报对象为“猴子”，预先与“猴子”建立关联的关键词为“猴子”、“嬉戏”和“树上”。当播报对象为“猴子”时，则将待播报文本中的“猴子”、“嬉戏”和“树上”确定为关键词。

步骤S207，获取与关键词对应的虚拟动画，以及与虚拟动画对应的音频信息。

在一些实施方式中，当识别到关键词为“猴子”、“嬉戏”和“树上”时，可以从电子设备的虚拟动画数据库中获取一段猴子在树上嬉戏的虚拟动画，并从音频信息数据库中获取一段猴子的声音作为与虚拟动画对应的音频信息。

在一些实施方式中，关键词可以包括环境关键词和实物关键词，此时，在获取与关键词对应的虚拟动画时，可以获取与环境关键词对应的虚拟环境，并获取与实物关键词对应的虚拟形象，再基于虚拟环境和虚拟形象生成虚拟动画。作为一种示例，在待播报文本描述到“两只小猴子正在森林中的一课树上嬉戏”时，可以将“两只小猴子”和“一颗树”作为实物关键词，将“森林”作为环境关键词，然后根据实物关键词“两只小猴子”和“一颗树”获取两个猴子以及一颗树的图像，然后根据环境关键词“森林”获取显示有森林的图像，再将两个猴子以及一颗树的图像与显示有森林的图像进行合成，得到同时显示有两个猴子和一颗树在森林中的虚拟动画。

其中，获取与环境关键词对应的虚拟环境和获取与实物关键词对应的虚拟形象的先后顺序在此可以不做限定。

在本实施方式中，通过关键词包括环境关键词和实物关键词，获取与环境关键词对应的虚拟环境，并获取与实物关键词对应的虚拟形象，再基于虚拟环境和虚拟形象生成虚拟动画，使得虚拟动画的内容更加丰富，虚拟动画中的虚拟环境也能够让用户有身临其境的感觉，从而可以提高用户的体验感。

步骤S208，当待播报视频播放到与关键词对应的画面时，将待播报视频中的播报虚拟人物切换成虚拟动画，并播放与虚拟动画对应的音频信息。

作为一种示例，如图4所示，例如待播报视频播放到文本中描述的“两只小猴子正在森林中的一课树上嬉戏”时，可以确定关键词有“两只小猴子”、“一颗树上”以及“森林”，此时，可在音频数据播报的同时，将电子设备的显示屏上将播报虚拟人物切换成两只小猴子正在森林中的一颗树上嬉戏的虚拟动画，同时发出猴子的声音，其中，此处音频数据可以是通过开心的语气参数合成的音频数据。可选地，在虚拟动画上还可以显示当前播放到的文本。可选地，当电子设备的显示屏上播放虚拟动画时，可以在显示屏的角落同时显示缩小后的播报虚拟人物。

在本实施例中，通过当待播报视频播放到与关键词对应的画面时，将待播报视频中的播报虚拟人物切换成虚拟动画，并播放与虚拟动画对应的音频信息，可以真实、有效地模拟出待播报文本中的环境和情节，从而使用户在接收待播报视频时能有身临其境的感觉，进而提高了用户的体验感。

请参阅图5，图5示出了本申请又一个实施例提供的文本播报方法的流程示意图。该方法可以包括如下步骤：

步骤S301，获取待播报文本，并将待播报文本转换为音频数据。

步骤S302，对待播报文本进行识别，获得情感参数，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数。

步骤S303，获取预先设置的播报虚拟人物。

步骤S304，基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频，其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征。

步骤S305，输出待播报视频。

步骤S306，识别待播报文本中与播报对象关联的关键词。

步骤S307，获取与关键词对应的虚拟动画，以及与虚拟动画对应的音频信息。

步骤S308，当待播报视频播放到与关键词对应的画面时，将待播报视频中的播报虚拟人物切换成虚拟动画，并播放与虚拟动画对应的音频信息。

步骤S301至步骤S308具体可以参考步骤S201至步骤S208，故不在此一一赘述。

步骤S309，将关键词在待播报文本中所处的段落确定为第一段落。

例如关键词为“猴子”，则将该关键词所位于的段位确定为第一段落，其中，第一段落中出现关键词“猴子”的次数可以是一次，也可以是多次。

步骤S310，将与第一段落相邻的下一个段落确定为第二段落。

将在待播报文本中位于第一段落之后的且相邻的一个段落确定为第二段落。

步骤S311，判断第二段落中是否存在关键词。

查看第二段落中是否有出现上述关键词“猴子”，或者与“猴子”相似或相关的词语，例如“狐猴”、“猴”、“猴儿”等词语，又例如像英文“monkey”以及其他语言表示猴子的词语。当第二段落中出现了上述任意一个词语时，可以确定第二段落中存在关键词“猴子”。

步骤S312，当不存在关键词时，在待播报视频播放到与第二段落对应的画面时，将虚拟动画切换成播报虚拟人物。

如果第二段落中不存在上述关键词，则说明第二段落可能没有记载与关键词“猴子”相关的内容，此时也不必再通过与关键词“猴子”对应的虚拟动画来展示文本的情节。因此可以将虚拟动画切换回原来的播报虚拟人物进行播报。

步骤S313，当存在关键词时，继续播放虚拟动画。

如果第二段落中存在上述关键词，则说明第二段落很可能仍然在继续描述关于关键词“猴子”的情节，因此可以继续播放第一段落对应虚拟动画。

在本实施例中，通过判断待播报文本中关键词所处的段落的下一个段落中是否还存在关键词，当不存在关键词时，在待播报视频播放到与第二段落对应的画面时，将虚拟动画切换成播报虚拟人物。可以避免虚拟动画可能会在不符合文本中情节的地方进行显示，从而提高了用户接受播报视频的体验。当存在关键词时，继续播放虚拟动画。从而在符合文本中情节的情况下，保证了虚拟动画显示的连续性。

请参阅图6，图6示出了本申请再一个实施例提供的文本播报方法的流程示意图。该方法可以包括如下步骤：

步骤S401，获取待播报文本，并将待播报文本转换为音频数据。

步骤S402，对待播报文本进行识别，获得情感参数。

步骤S403，获取预先设置的播报虚拟人物。

在一些实施方式中，如图7所示，步骤S403可以包括：

步骤S4031A，获取预先设置的多个虚拟人物，并将多个虚拟人物进行显示。其中，每个虚拟人物对应一个播报音色，且每个虚拟人物对应的播报音色不同。

作为一种示例，可以在电子设备的虚拟人物显示界面上显示多个虚拟人物，以供用户选取。其中，每一个虚拟人物对应一个播报音色，且每个虚拟人物对应的播报音色不同，具体地，可以根据虚拟人物的性别对应播报音色，例如虚拟人物的性别为女性，则与该虚拟人物对应的播报音色为女性音色。

步骤S4032A，获取用户输入的选取指令。

其中，选取指令可以是用户在电子设备的触摸屏上的触碰位置，触碰位置对应虚拟人物的显示位置。也可以是用户在电子设备上按下的实体按键，不同的实体按键对应了不同的虚拟人物。

步骤S4033A，响应选取指令，从多个虚拟人物中选取与选取指令对应的虚拟人物。

电子设备接收到用户的触碰位置信息或者按下的按键信息后，选取出响应的虚拟人物。例如电子设备上显示的每个虚拟人物对应了数字号码，当按下某个数字的实体按键就可以选取出对应数字的虚拟人物。

步骤S4034A，将与选取指令对应的虚拟人物确定为播报虚拟人物。

在本实施方式中，通过获取多个虚拟人物，并将多个虚拟人物进行显示，其中，每个虚拟人物对应一个播报音色，且每个虚拟人物对应的播报音色不同获取用户输入的选取指令。响应选取指令，从多个虚拟人物中选取与选取指令对应的虚拟人物。将与选取指令对应的虚拟人物确定为播报虚拟人物。可以由用户自行选择喜爱的虚拟人物作为播报虚拟人物，提高了文本播报的灵活性，通过该方式可以使用户更有兴趣地接收文本中的信息，从而提升了用户体验。

在一些实施方式中，用户可以向电子设备上传自定义的虚拟人物图像，例如用户喜爱明星的图片，亲戚朋友的图片，以生成虚拟人物，并将自定义的虚拟人物确定为播报虚拟人物，从而提高了用户体验。

在另一些实施方式中，如图8所示，步骤S403可以包括：

步骤S4031B，获取用户的属性信息，属性信息包括年龄和性别中的至少一种。

在一些实施方式中，可以从电子设备上安装的社交软件中提取出用户的属性信息，例如从用户的微信账号中提取出用户的属性信息。

在一些实施方式中，可以通过电子设备的拍摄功能获取用户的外貌特征，并根据外貌特征识别出用户的年龄、性别等，从而获得用户的属性信息。作为一种示例，如可以通过拍摄得到包含用户脸部的图像，在从图像中识别用户的脸部是否有皱纹，以及皱纹的数量，以此为依据可以大致判断出用户所处的年龄段。又例如，可以通过拍摄到的包含用户体型的图片，识别出用户的身高信息和体重信息，再根据用户的身高信息和体重信息可大致判断出用户所处的年龄段。再例如，可以从拍摄到的用户图像中识别用户是否为长发，若为长发可大致判断出用户的性别为女性。其中，图像可以是图片，也可以是视频。

步骤S4032B，根据属性信息确定播报虚拟人物。

在一些实施方式中，当根据用户的属性信息确定用户的性别为男性时，可以从虚拟人物数据库中选取一个女性样貌的虚拟人物，并将该女性样貌的虚拟人物确定为播报虚拟人物，从而可提升用户的体验感。其中，虚拟人物数据库中可以存储有不同性别、不同年龄段以及不同容貌的虚拟人物。

在一些实施方式中，当根据用户的属性信息确定用户为儿童时，可以从虚拟人物数据库中选取一个卡通人物或者儿童形象的虚拟人物，并将卡通人物或者儿童形象的虚拟人物确定为播报虚拟人物，从而提升了播报虚拟人物在播报待播报文本时的趣味性。

在另一些实施方式中，属性信息还可以包括用户的身高、体重等，此时，根据属性信息去顶播报虚拟人物时，可以从虚拟人物数据库中选取与用户身高比例大致相同虚拟人物，并将该虚拟人物确定为播报虚拟人物，从而使用户能对播报虚拟人物带有一定亲切感。

在本实施方式中，通过根据属性信息确定播报虚拟人物，能够自动为用户匹配适合用户的播报虚拟人物，从而提高了播报虚拟人物播报待播报文本时用户的体验感。

步骤S404，根据表情参数以及动作参数驱动播报虚拟人物，得到多帧播报图像。

在一些实施方式中，可以预先建立播报虚拟人物模型，具体地，通过将样本表情参数、样本动作参数和样本播报图像输入至机器学习模型，即可得到播报虚拟人物模型。当把表情参数以及动作参数输入至播报虚拟人物模型时，从而驱动播报虚拟人物模型，以输出与表情参数以及动作参数对应的多帧播报图像。

步骤S405，根据语气参数以及音频数据合成播报语音。

其中，语气参数可以包括对应语气的语速参数、响度参数、频率参数等等，在合成播报语音时，可以通过语速参数调节音频数据的语速，通过频率参数以及响度参数调节音频数据的响度和频率。具体地，可以利用TTS语音合成技术，在其特有智能语音控制器的作用下通过语气参数和音频数据，或者直接通过语气参数和待播报文本来合成播报语音，从而可以使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。

步骤S406，根据多帧播报图像和播报语音生成待播报视频。其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征。

将多帧播报图像进行播放可以得到一个视频，再将该视频中的画面与播报语音的进度进行对应同步，即可生成待播报视频。

步骤S407，输出待播报视频。

在本实施例中，通过预先训练播报虚拟人物模型，当输入感情参数时可以快速得到基于该感情参数的播报虚拟人物图像，再通过基于该图像生成的视频与播报语音即可得到待播报视频。从而可以针对不同的内容的文本也能快捷地生成待播报视频，提成了待播报视频的生成效率。

请参阅图9，图9示出了本申请又另一个实施例提供的文本播报方法的流程示意图。该方法可以包括如下步骤：

步骤S501，获取待播报文本，对待播报文本进行预设处理，以划分待播报文本的文本内容的句子、段落以及章节，得到处理后的待播报文本。

由于获取的待播报文本可能分句、分段不恰当，甚至没有经过分句分段，这样可能导致待播报文本不能顺畅地被播报。因此，在一些实施方式中，可以对待播报文本进行预设处理来划分待播报文本的文本内容的句子、段落以及章节，以使待播报文本规范化。具体地，预设处理可以是电子设备响应用户在显示屏做出的用于分句、分段、分章节的操作。也可以是通过调用预设的代码来对待播报文本进行自动划分。

步骤S502，将处理后的待播报文本转换为音频数据。

步骤S503，对待播报文本进行识别，获得情感参数。其中情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数。

在一些实施方式中，如图10所示，步骤S503可以包括：

步骤S5031，识别待播报文本中的情感关键词，情感关键词用于表征待播报文本中的播报对象的情感。

其中，感情关键词可以是如“悲伤”、“开心”、“难过”等此类表达情感的词语。可以通过查看待播报文本中是否出现上述表达情感的词语来识别情感关键词。

步骤S5032，根据情感关键词确定情感参数。

具体地，可以将情感关键词输入到预先训练好的情感模型中，以输出与情感关键词对应的情感参数。例如输入的情感关键词为“悲伤”，则可以输出与“悲伤”对应的表情参数、动作参数以及语气参数。

步骤S504，获取预先设置的播报虚拟人物。

步骤S505，基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频。其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征。

步骤S506，输出待播报视频。

在本实施例中，通过对待播报文本进行预设处理，以划分待播报文本的文本内容的句子、段落以及章节，使待播报文本规范化，以便能够对待播报文本更通顺地播报。

请参阅图11，图11示出了本申请一个实施例提供的文本播报装置的模块框图。该装置应用于具有显示屏或其他图像输出装置的电子设备，电子设备可以是智能手机、平板电脑、投影仪、穿戴式智能终端等电子设备。

下面将针对图11所示的模块框图进行阐述，该装置500包括：音频数据转换模块510、情感参数获取模块520、播报虚拟人物获取模块530、待播报视频生成模块540以及输出模块550。音频数据转换模块510，用于获取待播报文本，并将待播报文本转换为音频数据；情感参数获取模块520，用于对待播报文本进行识别，获得情感参数，情感参数用于表征待播报文本中的播报对象的情感，情感参数包括表情参数、动作参数以及语气参数；播报虚拟人物获取模块530，用于获取预先设置的播报虚拟人物；待播报视频生成模块540，用于基于播报虚拟人物、情感参数、以及音频数据生成与待播报文本对应的待播报视频，其中，待播报视频包括在待播报视频的播放过程中，基于表情参数和动作参数更新播报虚拟人物的外在动作，以及基于语气参数更新音频数据的播报语气特征；输出模块550，用于输出待播报视频。

进一步的，该装置500还包括：虚拟动画输出模块550，该虚拟动画输出模块550包括：

关键词识别单元，用于识别待播报文本中与播报对象关联的关键词。

虚拟动画获取单元，用于获取与关键词对应的虚拟动画，以及与虚拟动画对应的音频信息。

虚拟动画输出单元，用于当待播报视频播放到与关键词对应的画面时，将待播报视频中的播报虚拟人物切换成虚拟动画，并播放与虚拟动画对应的音频信息。

进一步的，关键词包括环境关键词和实物关键词，关键词识别单元具体用于获取与环境关键词对应的虚拟环境，并获取与实物关键词对应的虚拟形象；基于虚拟环境和虚拟形象生成虚拟动画。

进一步的，该装置500还包括切换模块；该切换模块用于将关键词在待播报文本中所处的段落确定为第一段落；将与第一段落相邻的下一个段落确定为第二段落；判断第二段落中是否存在关键词；当不存在关键词时，在待播报视频播放到与第二段落对应的画面时，将虚拟动画切换成播报虚拟人物。

进一步的，待播报视频生成模块540具体用于根据表情参数以及动作参数驱动播报虚拟人物，得到多帧播报图像；根据语气参数以及音频数据合成播报语音；根据多帧播报图像和播报语音生成待播报视频。

进一步的，播报虚拟人物获取模块530具体用于获取预先设置的多个虚拟人物，并将多个虚拟人物进行显示，其中，每个虚拟人物对应一个播报音色，且每个虚拟人物对应的播报音色不同；获取用户输入的选取指令；响应选取指令，从多个虚拟人物中选取与选取指令对应的虚拟人物；将与选取指令对应的虚拟人物确定为播报虚拟人物。

进一步的，播报虚拟人物获取模块530还用于获取用户的属性信息，属性信息包括年龄和性别中的至少一种；根据属性信息确定播报虚拟人物。

进一步的，音频数据转换模块510还用于对待播报文本进行预设处理，以划分待播报文本的文本内容的句子、段落以及章节，得到处理后的待播报文本；将处理后的待播报文本转换为音频数据。

进一步的，情感参数获取模块520具体用于识别待播报文本中的情感关键词，情感关键词用于表征待播报文本中的播报对象的情感；根据情感关键词确定情感参数。

本申请实施例提供的文本播报装置500用于实现前述方法实施例中相应的文本播报方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的文本播报装置500能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置500和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置500或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图12，其示出了本申请实施例提供的一种电子设备600的结构框图。该电子设备600可以是智能手机、平板电脑等能够运行应用程序的电子设备。本申请中的电子设备600可以包括一个或多个如下部件：处理器610、存储器620以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本播报方法，其特征在于，所述方法包括：

获取待播报文本，并将所述待播报文本转换为音频数据；

对所述待播报文本进行识别，获得情感参数，所述情感参数用于表征所述待播报文本中的播报对象的情感，所述情感参数包括表情参数、动作参数以及语气参数，其中，所述播报对象为所述播报文本所描述的对象；

获取预先设置的播报虚拟人物；

基于所述播报虚拟人物、所述情感参数、以及所述音频数据生成与所述待播报文本对应的待播报视频，其中，所述待播报视频包括在所述待播报视频的播放过程中，基于所述表情参数和所述动作参数更新所述播报虚拟人物的外在动作，以及基于所述语气参数更新所述音频数据的播报语气特征；

输出所述待播报视频；

识别所述待播报文本中与所述播报对象关联的关键词；

获取与所述关键词对应的虚拟动画，以及与所述虚拟动画对应的音频信息；

当所述待播报视频播放到与所述关键词对应的画面时，将所述待播报视频中的所述播报虚拟人物切换成所述虚拟动画，并播放与所述虚拟动画对应的音频信息。

2.根据权利要求1所述的方法，其特征在于，所述关键词包括环境关键词和实物关键词，所述获取与所述关键词对应的虚拟动画，包括：

获取与所述环境关键词对应的虚拟环境，并获取与所述实物关键词对应的虚拟形象；

基于所述虚拟环境和所述虚拟形象生成所述虚拟动画。

3.根据权利要求1或2所述的方法，其特征在于，在所述将所述待播报视频中的所述播报虚拟人物切换成所述虚拟动画，并播放与所述虚拟动画对应的音频信息之后，还包括：

将所述关键词在所述待播报文本中所处的段落确定为第一段落；

将与所述第一段落相邻的下一个段落确定为第二段落；

判断所述第二段落中是否存在所述关键词；

当不存在所述关键词时，在所述待播报视频播放到与所述第二段落对应的画面时，将所述虚拟动画切换成所述播报虚拟人物。

4.根据权利要求1所述的方法，其特征在于，所述基于所述播报虚拟人物、所述情感参数、以及所述音频数据生成与所述待播报文本对应的待播报视频，包括：

根据所述表情参数以及所述动作参数驱动所述播报虚拟人物，得到多帧播报图像；

根据所述语气参数以及所述音频数据合成播报语音；

根据所述多帧播报图像和所述播报语音生成所述待播报视频。

5.根据权利要求1所述的方法，其特征在于，所述获取预先设置的播报虚拟人物，包括：

获取预先设置的多个虚拟人物，并将所述多个虚拟人物进行显示，其中，每个虚拟人物对应一个播报音色，且每个虚拟人物对应的播报音色不同；

获取用户输入的选取指令；

响应所述选取指令，从多个所述虚拟人物中选取与所述选取指令对应的虚拟人物；

将与所述选取指令对应的虚拟人物确定为所述播报虚拟人物。

6.根据权利要求1所述的方法，其特征在于，所述获取预先设置的播报虚拟人物，包括：

获取用户的属性信息，所述属性信息包括年龄和性别中的至少一种；

根据所述属性信息确定所述播报虚拟人物。

7.根据权利要求1所述的方法，其特征在于，所述将所述待播报文本转换为音频数据，包括：

对所述待播报文本进行预设处理，以划分所述待播报文本的文本内容的句子、段落以及章节，得到处理后的待播报文本；

将所述处理后的待播报文本转换为所述音频数据。

8.根据权利要求1所述的方法，其特征在于，所述对所述待播报文本进行识别，获得情感参数，包括：

识别所述待播报文本中的情感关键词；

根据所述情感关键词确定所述情感参数。

9.一种文本播报装置，其特征在于，所述装置包括：

音频数据转换模块，用于获取待播报文本，并将所述待播报文本转换为音频数据；

情感参数获取模块，用于对所述待播报文本进行识别，获得情感参数，所述情感参数用于表征所述待播报文本中的播报对象的情感，所述情感参数包括表情参数、动作参数以及语气参数，其中，所述播报对象为所述播报文本所描述的对象；

播报虚拟人物获取模块，用于获取预先设置的播报虚拟人物；

待播报视频生成模块，用于基于所述播报虚拟人物、所述情感参数、以及所述音频数据生成与所述待播报文本对应的待播报视频，其中，所述待播报视频包括在所述待播报视频的播放过程中，基于所述表情参数和所述动作参数更新所述播报虚拟人物的外在动作，以及基于所述语气参数更新所述音频数据的播报语气特征；

输出模块，用于输出所述待播报视频；

关键词识别单元，用于识别待播报文本中与播报对象关联的关键词；

虚拟动画获取单元，用于获取与关键词对应的虚拟动画，以及与虚拟动画对应的音频信息；

10.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1至8任一项所述的方法。

11.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至8任一项所述的方法。