CN109036372B

CN109036372B - 一种语音播报方法、装置及系统

Info

Publication number: CN109036372B
Application number: CN201810971540.2A
Authority: CN
Inventors: 王志鹍; 钟云秋; 谭冰洁; 兰剑; 张飞; 江源
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-10-08
Anticipated expiration: 2038-08-24
Also published as: CN109036372A

Abstract

本申请公开了一种语音播报方法、装置及系统，由服务端确定待播报文本中所包含的角色，及每一角色对应的文本内容，进一步为每一角色确定了对应的发声终端，通过向发声终端发送播报指令，可以使得发声终端以语音形式播报对应角色的文本内容，本申请通过将待播报文本按照角色划分对应的文本内容，并使用角色对应的发声终端对角色的文本内容进行播报，类似于话剧表演过程，更加便于用户对待播报文本内容的理解，且趣味性更强，提升了用户学习效率。

Description

一种语音播报方法、装置及系统

技术领域

本申请涉及电子信息技术领域，更具体地说，涉及一种语音播报方法、装置及系统。

背景技术

随着人工智能相关技术的发展，人们越来越习惯利用智能移动设备来完成阅读等需求,不少互联网企业都开始关注智能软硬件的设计与开发。比如，有声读物的发明为读书带来了便利。对于儿童来说，也越来越习惯于操纵智能电子设备，作为学习、阅读的工具和平台。例如，越来越多的家庭开始利用电子设备如阅读软件、故事机等，来增加孩子听故事、课外阅读和学习的机会。

现有的阅读软件和故事机一般是直接播放故事内容给用户，使用单一的语音角色进行讲故事的形式不易于用户理解故事内容，且缺乏乐趣，导致用户学习率不高。

发明内容

有鉴于此，本申请提供了一种语音播报方法、装置及系统，用于解决现有电子设备单一语音角色进行故事讲述的方式，不易于理解故事内容，缺乏兴趣，导致用户学习率不高的问题。

为了实现上述目的，现提出的方案如下：

一种语音播报方法，应用于服务端，该方法包括：

获取指定的待播报文本；

获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容；

确定每一所述角色对应的发声终端；

向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容。

优选地，所述获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容，包括：

获取所述待播报文本对应的标签信息，所述标签信息中存储了预先确定的所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容。

对所述待播报文本进行文本分析，以确定所述待播报文本中说话对象对应的角色列表，所述角色列表包含至少一角色；

识别所述待播报文本包含的每一条表示说话内容的文本内容；

针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色。

优选地，所述对所述待播报文本进行文本分析，以确定所述待播报文本中说话对象对应的角色列表，包括：

抽取所述待播报文本中每个句子的主语；

利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色；所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到。

优选地，所述识别所述待播报文本包含的每一条表示说话内容的文本内容，包括：

在所述待播报文本中查找双引号标识；

将所述待播报文本中，每一所述双引号标识所匹配的文本内容，确定为一条表示说话内容的文本内容。

优选地，所述针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色，包括：

针对每一条所述文本内容，在所述待播报文本中查找与所述文本内容距离满足第一设定距离条件的冒号标识；

若查找到满足第一设定距离条件的冒号标识，则在所述待播报文本中搜索所述冒号标识对应的主语；

若所述主语在所述角色列表中存在匹配角色，则将所述匹配角色确定为与所述文本内容对应的角色。

针对每一条所述文本内容，在所述待播报文本中查找与所述文本内容距离满足第二设定距离条件的动词；

若查找到满足第二设定距离条件的动词，则在所述待播报文本中搜索所述动词对应的主语；

针对每一条所述文本内容，在所述待播报文本中确定所述角色列表中每一角色与所述文本内容的匹配特征；

将每一角色的匹配特征输入预置的角色匹配模型，得到角色匹配模型输出的每一角色的匹配得分；所述角色匹配模型为以角色列表中每一角色与文本训练数据中每一文本内容的匹配特征作为训练样本，以每一角色与每一文本内容的匹配得分作为样本标签训练得到；

将匹配得分最高的角色确定为所述文本内容对应的角色。

优选地，所述确定每一所述角色对应的发声终端，包括：

接收角色与发声终端的第一关系绑定指令；

按照所述第一关系绑定指令的指示，确定每一所述角色对应的发声终端。

优选地，还包括：

在预存的个性化发音库中确定，与每一发声终端对应的个性化发音资源；

则所述播报指令具体用于，指示所述发声终端按照对应的个性化发音资源，以语音形式播报对应角色的文本内容。

优选地，所述在预存的个性化发音库中确定，与每一发声终端对应的个性化发音资源，包括：

接收发声终端与个性化发音资源的第二关系绑定指令；

按照所述第二关系绑定指令的指示，在预存的个性化发音库中确定每一发声终端对应的个性化发音资源。

优选地，所述向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容，包括：

向所述发声终端发送播报指令，所述播报指令包含所述发声终端对应角色的文本内容，及所述文本内容的播报进度，所述播报指令用于指示所述发声终端按照所述播报进度，以语音形式播报对应角色的文本内容。

向所述发声终端发送播报指令，所述播报指令包含根据所述发声终端对应角色的文本内容合成的音频，及所述音频的播报进度，所述播报指令用于指示所述发声终端按照所述播报进度播报所述音频。

一种语音播报方法，应用于客户端，该方法包括：

向服务端发送文本点播指令，所述文本点播指令包含指定的待播报文本；

接收并展示所述服务端返回的所述待播报文本所包含的角色；

响应角色与发声终端的绑定操作，确定每一所述角色与发声终端的对应关系；

向所述服务端发送包含每一所述角色与发声终端对应关系的第一关系绑定指令，所述第一关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在以语音形式播报时对应的发声终端。

优选地，还包括：

响应发声终端与个性化发音资源的绑定操作，确定每一发声终端与个性化发音资源的对应关系；

向所述服务端发送包含每一发声终端与个性化发音资源对应关系的第二关系绑定指令，所述第二关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在通过对应发声终端进行语音播报时所采用的个性化发音资源。

一种语音播报方法，应用于发声终端，该方法包括：

接收服务端发送的对待播报文本的播报指令；

按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报。

优选地，所述接收服务端发送的对待播报文本的播报指令，包括：

接收服务端发送的，包含所述待播报文本中本发声终端对应角色的文本内容，及所述文本内容的播报进度的播报指令；

所述按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报，包括：

按照所述播报指令中本发声终端对应角色的文本内容的播报进度，以语音形式播报对应的文本内容。

优选地，所述按照所述播报指令中文本内容的播报进度，以语音形式播报对应的文本内容，包括：

监听其它发声终端广播的报文，所述报文包含广播该报文的发声终端的当前合成进度，及语音合成结束标识；

根据监听到的报文所包含的当前合成进度，及本发声终端对应角色的文本内容的播报进度，确定是否达到本发声终端对应角色的文本内容的合成时间；

若是，将达到所述合成时间的文本内容作为待处理文本内容，对所述待处理文本内容进行语音合成播报；

在对所述待处理文本内容进行语音合成播报结束时，对外广播报文，广播的报文包括：由所述待处理文本内容的播报进度组成的当前合成进度，及语音合成结束标识。

接收服务端发送的，包含根据待播报文本中本发声终端对应角色的文本内容合成的音频，及所述音频的播报进度的播报指令；

所述按照所述播报指令的指示，以语音形式对待播报文本中与本发声终端对应角色的文本内容进行播报，包括：

按照所述播报指令中音频的播报进度，以语音形式播报对应的音频。

一种语音播报装置，应用于服务端，该装置包括：

待播报文本获取单元，用于获取指定的待播报文本；

角色及文本内容获取单元，用于获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容；

角色与发声终端对应单元，用于确定每一所述角色对应的发声终端；

播报指令发送单元，用于向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容。

一种语音播报装置，应用于客户端，该装置包括：

文本点播指令发送单元，用于向服务端发送文本点播指令，所述文本点播指令包含指定的待播报文本；

角色接收及展示单元，用于接收并展示所述服务端返回的所述待播报文本所包含的角色；

第一操作响应单元，用于响应角色与发声终端的绑定操作，确定每一所述角色与发声终端的对应关系；

第一关系绑定指令发送单元，用于向所述服务端发送包含每一所述角色与发声终端的对应关系的第一关系绑定指令，所述第一关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在以语音形式播报时对应的发声终端。

一种语音播报装置，应用于发声终端，该装置包括：

播报指令接收单元，用于接收服务端发送的对待播报文本的播报指令；

语音播报单元，用于按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报。

一种语音播报系统，包括：客户端、服务端和发声终端，其中：

所述客户端用于，向服务端发送文本播报指令，所述文本播报指令包含指定的待播报文本；以及，向服务端发送包含所述待播报文本中每一角色与发声终端对应关系的绑定指令；

所述服务端用于，根据所述文本播报指令获取待播报文本，及待播报文本所包含的角色，每一所述角色对应文本内容，以及，根据所述绑定指令确定每一所述角色对应的发声终端，并向所述发声终端发送播报指令；

所述发声终端用于，按照所述播报指令的指示，以语音形式对待播报文本中与本发声终端对应角色的文本内容进行播报。

从上述的技术方案可以看出，本申请实施例提供的语音播报方案，对于服务端而言，其获取指定的待播报文本，并进一步获取待播报文本所包含的角色，及待播报文本中与每一角色对应的文本内容。本申请还可以预先设置若干发声终端，基于此服务端可以确定每一角色对应的发声终端，并向发声终端发送播报指令，以指示发声终端以语音形式播报对应角色的文本内容。由此可见，本申请改变了传统的单一角色讲述内容的模式，由服务端确定待播报文本中所包含的角色，及每一角色对应的文本内容，进一步为每一角色确定了对应的发声终端，通过向发声终端发送播报指令，可以使得发声终端以语音形式播报对应角色的文本内容，本申请通过将待播报文本按照角色划分对应的文本内容，并使用角色对应的发声终端对角色的文本内容进行播报，类似于话剧表演过程，更加便于用户对待播报文本内容的理解，且趣味性更强，提升了用户学习效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请语音播报方法所适用的一种场景的组成结构示意图；

图2示例了若干发声终端的造型示意图；

图3为本申请从服务端角度公开的一种语音播报方法流程图；

图4为本申请从发声终端角度公开的一种语音播报方法流程图；

图5为本申请从客户端角度公开的一种语音播报方法流程图；

图6为本申请从服务端角度公开的一种语音播报装置结构示意图；

图7为本申请从客户端角度公开的一种语音播报装置结构示意图；

图8为本申请从发声终端角度公开的一种语音播报装置结构示意图；

图9为本申请实施例公开的一种服务端的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有故事机使用单一的语音角色讲述故事，其不易于用户理解故事内容，且缺乏乐趣，导致用户学习效率不高的问题，本申请提供了一种语音播报方案，该方案将待播报文本中不同角色的说话内容分配给对应的发声终端，由发声终端通过语音形式播报对应角色的说话内容，给用户打造一种话剧表演形式，通过发声终端线下演绎待播报文本内容，使得用户能够深入了解故事内容，更加便于理解故事，也进一步提升了用户学习效率。

图1示出了本申请语音播报方法所适用的一种场景的组成结构示意图。

在图1的场景中可以包括：客户端100，服务端200和发声终端300。

其中，发声终端300的个数至少为一个，一般性的可以设置多个发声终端。为了提高本申请方案的趣味性，本案中的发声终端300可以有多个，且发声终端300可以是卡通、玩偶造型等，当然发声终端300至少需要具备能够语音播报的功能。参见图2，图2示例了几种不同造型的发声终端300。

在本案中，发声终端300与待播报文本中角色对应，角色与发声终端间的对应关系可以是一对一，或多对一的形式。发声终端用于对对应角色的说话内容进行语音播报。基于此，多个发声终端配合，可以通过话剧形式线下演绎待播报文本，提高了待播报文本的易懂性。

其中，服务端200为实现本申请的语音播报方案的服务器，其可以是专门设置的服务器或服务器集群。服务端200可以内置有数据库，或者服务端200可以访问外部的数据库，数据库中可以存储待播报文本集合，该待播报文本可以是故事文本、小说文本等，一般性的，待播报文本中可以有两个或两个以上的角色。这里提及的待播报文本中的角色为根据待播报文本内容所确定，即待播报文本的内容所包含的说话人对应的角色。

为了便于理解，本实施例以“愚公移山”这篇短文故事作为待播报文本为例进行说明，故事内容如下：

在山的北面，住着一位叫愚公的老汉。有一天，他召集了全家老小，对他们说：“这两座大山，挡住了我们的出路，咱们大家一起努力，把它挖掉，你们看好不好？”大家都很赞同，只有他的妻子提出了疑问，她说：“像太行、王屋这么高大的山，挖出来的那些石头、泥头往哪里送呢？”愚公说：“这好办，把泥土、石块扔到渤海边上就行了！再多也不愁没地方堆。”黄河边上住着一个老汉，人们管他叫智叟。他看到愚公他们搬山，觉得可笑，就去劝愚公：“你这人可真傻，这么大岁数了，还能活几天？怎么能搬动这么大的山呢？”愚公深深地叹口气说：“我看你这人自以为聪明，其实是顽固不化。我是老了，活不了几年，可是，我死了还有儿子，儿子又生孙子，孙子又生儿子；子子孙孙，一直传下去，我们为什么不能把它们挖平呢！”

如上介绍的短文故事，其中存在说话内容的角色共有：旁白、愚公、愚公妻子、智叟。

服务端200可以获取到用户指定的待播报文本，并能够获取待播报文本所包含的角色，以及待播报文本中每一角色对应的文本内容。进一步地，服务端200还可以确定每一角色对应的发声终端300，也即服务端200可以将角色与发声终端300进行匹配，进而向发声终端300发声播报指令，以指示发声终端300以语音形式播报对应角色的文本内容。

仍以上述示例的“愚公移山”为待播报文本，本实施例可以设置四个发声终端300，分别为发声终端：A-D。在此基础上，可以将旁白、愚公、愚公妻子、智叟四个角色分别顺序分配给发声终端：A-D，即角色与发声终端对应关系可以如下表1所示：

角色	发声终端
		旁白	A
愚公	B
		愚公妻子	C
智叟	D

表1

当然，上述仅仅示例了一种可选的对应关系分配方式，除此之外，若确定某两个或多个角色对应的文本内容过少，可以将该两个或多个角色与一个发声终端对应。如，可以将上述智叟和旁白两个角色与发声终端A对应，愚公与发声终端B对应，愚公妻子与发声终端C对应。

其中，上述客户端100用于提供用户控制语音播报的功能，如供用户指定待播报文本，供用户分配待播报文本中角色与发声终端间的对应关系，以及控制语音播报开始、暂停、结束等功能。

客户端100可以是独立于发声终端300的独立电子设备，如手机、IPAD等可移动电子设备。用户可以通过独立的电子设备来控制语音播报过程。一种可应用的场景，用户可以在外地通过自己的手机，控制家中发声终端进行语音播报的过程。

除此之外，客户端100还可以集成在发声终端300上，即用户可以通过发声终端300上集成的客户端100，来控制语音播报过程，如实现待播报文本的点播、角色与发声终端的匹配、语音播报的开始、暂停、结束等。

当然，还可以设置多个客户端100，如可以设置独立于发声终端300的独立电子设备作为客户端100，同时，还可以设置集成在发声终端300上的客户端100。也即，用户可以分别通过多个客户端100来控制语音播报过程。

基于上述介绍的场景结构，下面先从服务端200的角度介绍本申请的语音播报方法的实现过程，参照图3，该方法可以包括：

步骤S100、获取指定的待播报文本。

具体地，用户可以通过客户端100与服务端200交互，进而通过客户端100指定需要进行语音播报的待播报文本。

其中，服务端200可以向客户端100提供可点播的所有待播报文本列表，由用户通过客户端100来选择所要进行点播的待播报文本。本步骤中，服务端200获取到该点播的待播报文本。

待播报文本可以是包含多角色的文本内容，如故事文本、小说文本等。

步骤S110、获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容。

具体地，服务端200在获取到待播报文本之后，进一步获取待播报文本包含的角色，以及待播报文本中，与每一角色对应的文本内容。

以上述示例的“愚公移山”为待播报文本，其中存在的角色共有：旁白、愚公、愚公妻子、智叟。

针对“智叟”这一角色，其在待播报文本中对应的文本内容包括：“你这人可真傻，这么大岁数了，还能活几天？怎么能搬动这么大的山呢？”。

步骤S120、确定每一所述角色对应的发声终端。

具体地，服务端200在获取到待播报文本所包含的角色及每一角色对应的文本内容之后，可以进一步确定每一角色对应的发声终端。

这里，角色与发声终端间的对应关系可以一对一，或多对一。如上表1示例了一种角色与发声终端间的对应关系。

通过确定角色对应的发声终端，角色的文本内容即为对应发声终端所要进行语音播报的文本内容。如以上表1示例的为例，“智叟”这一角色对应的发声终端为D，则确定“智叟”对应的文本内容：“你这人可真傻，这么大岁数了，还能活几天？怎么能搬动这么大的山呢？”需要通过发声终端D进行语音合成播报。

步骤S130、向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容。

具体地，上述已经确定了角色对应的文本内容，以及角色与发声终端间的对应关系。本步骤中，向发声终端发送播报指令，该播报指令用于指示发声终端以语音形式播报对应角色的文本内容。

本申请实施例通过将待播报文本按照角色划分对应的文本内容，并使用角色对应的发声终端对角色的文本内容进行播报，类似于话剧表演过程，更加便于用户对待播报文本内容的理解，且趣味性更强，提升了用户学习效率。

在本申请的另一个实施例中，对上述步骤S110，获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容的过程进行介绍。

本实施例介绍了上述步骤S110的两种实现过程，分别介绍如下：

第一种、

本实施例中，可以预先为每一待播报文本建立标签信息，该标签信息中存储了预先确定的待播报文本所包含的角色，及待播报文本中与每一角色对应的文本内容。

其中，预先确定待播报文本所包含的角色及角色对应的文本内容的过程，可以是人工分析待播报文本确定的，也可以是通过文本处理技术自动确定的。

基于预先为每一待播报文本建立的标签信息，上述步骤S110的实现过程可以包括：

获取指定的待播报文本的标签信息，该标签信息中存储了该指定的待播报文本所包含的角色，及待播报文本中与每一角色对应的文本内容。

第二种、

本实施例提供的第二种实现方式中，通过文本处理技术实现。具体实现过程如下：

S1、对所述待播报文本进行文本分析，以确定所述待播报文本中说话对象对应的角色列表，所述角色列表包含至少一角色。

一种可选的实现过程可以包括：

首先，抽取待播报文本中每个句子的主语。

具体地，可以基于词性标注信息和语法分析，抽取每个句子的主语。

进一步，利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色。由模型识别出的角色组成角色列表。

其中，所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到。本申请可以预先从故事、话剧、小说等文本中抽取主语训练数据，并标注主语训练数据是否为角色，基于该标注结果训练角色识别模型。

可选的，在训练角色识别模型时，对于训练数据的标注还可以增加角色性别，即在标注主语训练数据是否为角色的同时，进一步标注角色性别。基于此训练的角色识别模型，在能够识别主语是否为角色的同时，还可以给出识别为角色的性别。

S2、识别所述待播报文本包含的每一条表示说话内容的文本内容。

可选的，按照文本撰写规范可知，表示说话内容的文本内容一般通过双引号标识标注。因此，本步骤中可以在待播报文本中查找双引号标识，进一步将待播报文本中，每一双引号标识所匹配的文本内容，确定为一条表示说话内容的文本内容。

待播报文本中，除双引号标识所匹配的文本内容之外，剩余的文本内容为旁白，若将旁白也作为一个角色的话，可以直接将剩余的文本内容作为旁白对应的文本内容。

进一步的，某些情况下，双引号标识所匹配的文本内容也并不一定表示说话内容，如文章名称也可以通过双引号标识来标注。基于此，在上述查找到待播报文本中的双引号标识之后，将双引号标识所匹配的文本内容作为候选文本内容，增加对该候选文本内容进行过滤的环节。具体地，可以预先设定过滤规则，进而基于过滤规则，对候选文本内容进行过滤，滤除不属于说话内容的文本内容。

其中，过滤规则可以有多种，如：候选文本内容对应双引号之前是否存在冒号“：”标识、候选文本内容对应双引号之前是否存在设定的表示说话词的动词，如“说”、“讲”、“念”“回答”等等。

S3、针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色。

具体地，在S2中确定了表示为说话内容的文本内容之后，针对每一条文本内容，在S1确定的角色列表中确定与该文本内容对应的角色。

本实施例公开了几种可选的S3的实现过程，如下分别进行介绍。

1)一般性的，在待播报文本中，角色及其对应的文本内容之间会存在冒号标识。本申请可以基于这一特点来确定文本内容对应的角色：

SA31、针对每一条所述文本内容，在所述待播报文本中查找与所述文本内容距离满足第一设定距离条件的冒号标识。

SA32、若查找到满足第一设定距离条件的冒号标识，则在所述待播报文本中搜索所述冒号标识对应的主语。

具体地，若查找到满足第一设定距离条件的冒号标识，则该冒号标识即可以作为说话词。进一步在待播报文本中搜索该说话词对应的主语。

SA33、若所述主语在所述角色列表中存在匹配角色，则将所述匹配角色确定为与所述文本内容对应的角色。

在上一步搜索得到冒号标识对应的主语之后，判断主语在角色列表中是否存在匹配角色，若存在，则将匹配角色确定为与文本内容对应的角色。

具体地，上一步中搜索到的冒号标识对应的主语，可能是角色列表中存在的角色，还可能是代词，如她、他、它等。若主语为代词，则可以利用指代消解技术确定该代词在角色列表中所对应的匹配角色。

2)可以理解的是，在待播报文本中，角色及其对应的文本内容之间会存在动词，该动词一般为说话词，如说话词可以包括{说，讲，道，念，想，叫，喊，回答，回复，嘀咕，say，speak，talk，ask…}。本申请可以基于这一特点来确定文本内容对应的角色：

SB31、针对每一条所述文本内容，在所述待播报文本中查找与所述文本内容距离满足第二设定距离条件的动词。

SB32、若查找到满足第二设定距离条件的动词，则在所述待播报文本中搜索所述动词对应的主语。

SB33、若所述主语在所述角色列表中存在匹配角色，则将所述匹配角色确定为与所述文本内容对应的角色。

同上，上一步中搜索到的动词对应的主语，可能是角色列表中存在的角色，还可能是代词，如她、他、它等。若主语为代词，则可以利用指代消解技术确定该代词在角色列表中所对应的匹配角色。

3)第三种实施方式中，本实施例通过机器学习技术来确定文本内容对应角色。具体包括：

SC31、针对每一条所述文本内容，在所述待播报文本中确定所述角色列表中每一角色与所述文本内容的匹配特征。

为了便于表述，定义文本内容为T，角色为CC，则每一角色CC与文本内容T的匹配特征可以包括如下特征：

<1>角色CC到文本内容T的距离D；

具体地，在待播报文本中，查找角色CC出现的位置，并选取距离文本内容T最近的一个，确定该角色CC到文本内容T的距离D。

<2>角色CC在待播报文本中出现的频次f；

<3>角色CC在文本内容T中的出现与否信息U；

一般性的，说话人不会出现在自己的说话内容中。这里，将角色CC在文本内容T中的出现与否信息U作为一个匹配特征。

<4>角色CC的性别信息G；

具体地，角色CC的性别信息G可以根据上述角色识别模型得到。

<5>角色CC在文本内容T中的呼格信息V；

其中，呼格信息V是指，在文本内容T中所出现的角色；记录为角色CC与文本内容T的匹配特征。

示例如，针对角色1与文本内容T的匹配特征，假设文本内容1为“你好，王老师”，则确定呼格信息V为“王老师”这一角色，因此可以将“王老师”这一角色的标识作为角色1与文本内容T的匹配特征。

<6>待播报文本中文本内容T的相邻文本包含的角色N，及文本内容T是否为长段对话信息A。

一般性的，相邻两个句子不会是同一角色说的。因此，这里统计文本内容T的相邻文本包含的角色N。

进一步，对于某些待播报文本，其可能会出现长段对话信息，如话剧中经常出现的，长段的无角色标识的对话内容。这样的长段对话信息一般发生在两个角色对话过程，因此本实施例中将文本内容T的相邻文本包含的角色N，及文本内容T是否为长段对话信息A作为匹配特征。

上述示例了6种匹配特征的结构，本申请可以选取其中任意一种或多种的组合。当然，除了上述6种匹配特征之外，还可以设计其它结构的匹配特征。

SC32、将每一角色的匹配特征输入预置的角色匹配模型，得到角色匹配模型输出的每一角色的匹配得分。

其中，所述角色匹配模型为以角色列表中每一角色与文本训练数据中每一文本内容的匹配特征作为训练样本，以每一角色与每一文本内容的匹配得分作为样本标签训练得到。

SC33、将匹配得分最高的角色确定为所述文本内容对应的角色。

在本申请的又一个实施例中，对上述步骤S120，确定每一所述角色对应的发声终端的过程进行介绍。

对于服务端200而言，其可以通过多种方式来确定每一角色对应的发声终端。

一种可选的方式，用户可以通过客户端100发起角色与发声终端的第一关系绑定指令。服务端200接收该第一关系绑定指令，进而按照第一关系绑定指令的指示，确定每一角色对应的发声终端。

也即，用户可以通过客户端100指定每一角色对应的发声终端。

另一种可选的方式，若用户并未通过客户端100发起角色与发声终端的第一关系绑定指令，则服务端200可以随机或采用其他设定策略为每一角色确定对应的发声终端。

在本申请的又一个实施例中，介绍了另一种语音播报方法。具体地，在上述实施例的基础上，服务端200可以增加如下处理过程：

在预存的个性化发音库中确定，与每一发声终端对应的个性化发音资源。

具体地，用户可以通过客户端100录入设定的若干段文本的语音。由客户端100上传给服务端200，服务端200根据录入的语音采集用户声音特征，训练得到与用户音色相似的个性化发音资源，存储至个性化发音库中。个性化发音库中可以存储多个不同用户的个性化发音资源。

基于该预存的个性化发音库，服务端200可以确定与每一发声终端对应的个性化发音资源。与发声终端对应的个性化发音资源，用于供发声终端进行语音播报时采用对应的个性化发音资源进行语音合成。

服务端200确定了每一发声终端对应的个性化发音资源后，向发声终端发送的播报指令，具体可以用于指示所述发声终端按照对应的个性化发音资源，以语音形式播报对应角色的文本内容。

可选的，服务端200确定每一发声终端对应的个性化发音资源的过程，可以通过下述两种方式实现：

一种可选的方式，用户可以通过客户端100发起发声终端与个性化发音资源的第二关系绑定指令。服务端200接收该第二关系绑定指令，进而按照第二关系绑定指令的指示，在预存的个性化发音库中确定每一发声终端对应的个性化发音资源。

也即，用户可以通过客户端100指定每一发声终端对应的个性化发音资源。

另一种可选的方式，若用户并未通过客户端100发起发声终端与个性化发音资源的第二关系绑定指令，则服务端200可以随机或采用其他设定策略为每一发声终端确定对应的个性化发音资源。

示例如，前述已经确定了每一发声终端对应的角色，而角色的性别是可以确定的。同时，个性化发音库中每一条个性化发音资源的性别也是可以确定的。因此，可以基于发声终端对应角色的性别，在个性化发音库中选取相同性别的个性化发音资源，作为与发声终端对应的个性化发音资源。

在本申请的又一个实施例中，介绍了上述步骤S130，向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容的过程。

一种可选的实施方式中，服务端200可以向所述发声终端发送播报指令，所述播报指令包含所述发声终端对应角色的文本内容，及所述文本内容的播报进度，所述播报指令用于指示所述发声终端按照所述播报进度，以语音形式播报对应角色的文本内容。

当然，如果服务端200在发声播报指令之前还确定了发声终端与个性化发音资源的对应关系，还可以将发声终端对应的个性化发音资源或个性化发音资源的标识加入该播报指令，以指示发声终端按照所述播报进度，使用对应个性化发音资源以语音形式播报对应角色的文本内容。

对于发声终端而言，其在接收到播报指令时，根据文本内容的播报进度确定文本内容的播报时机，并在达到播报时机时，按照个性化发音资源对文本内容进行语音播报。

另一种可选的实施方式中，服务端200可以向所述发声终端发送播报指令，所述播报指令包含根据所述发声终端对应角色的文本内容合成的音频，及所述音频的播报进度，所述播报指令用于指示所述发声终端按照所述播报进度播报所述音频。

同上，如果服务端200在发声播报指令之前还确定了发声终端与个性化发音资源的对应关系，则服务端200可以根据发声终端对应的个性化发音资源，对发声终端对应角色的文本内容进行语音合成，得到合成后的音频。并且，服务端200可以得到每一音频的时间长度，进而可以确定每一音频的播报进度，将音频及对应的播报进度通过播报指令下发给发声终端。

示例如，针对“愚公移山”中部分片段作为待播报文本：

[{txt:”我们全家一起合作，把挡在门口的两座大山移开，让门口的路可以直通到外面的大路上，你们看好不好呢？”,role:[”A”]}，{txt:”好呀！好呀！”，role:[”B”]}，{txt:”不可能的，你连搬一个土丘的力气都没有，还想搬移大山！就算你搬得动，那些挖出来的泥土石块，你要扔到什么地方去呢？”,role:[”C”]},{{txt:”那有什么困难的！我们可以丢到海里面去呀！”}，role:[”A”,”B”]}]。

其中，role记录了对应文本内容的角色。

上述待播报文本包含三个角色，分别为角色A、B、C。服务端200确定角色A对应发声终端1，角色B对应发声终端2，角色C对应发声终端3。服务端200按照发声终端1对应个性化发音资源，对角色A的文本内容进行语音合成，其中角色A的文本内容及语音合成后音频播放进度如下所示：

A:[{txt:”我们全家一起合作，把挡在门口的两座大山移开，让门口的路可以直通到外面的大路上，你们看好不好呢？”,time:”1～10.4},{txt:”那有什么困难的！我们可以丢到海里面去呀！”,time:”25.6～29.6”}]

上述time即为对应文本合成后音频的播放进度。

同理，服务端200按照发声终端2对应个性化发音资源，对角色B的文本内容进行语音合成，其中角色B的文本内容及语音合成后音频播放进度如下所示：

B：[{txt:”好呀！好呀！”,time:”11.4～12.6”},{txt:”那有什么困难的！我们可以丢到海里面去呀！”,time:”25.6～29.6”}]

同理，服务端200按照发声终端3对应个性化发音资源，对角色C的文本内容进行语音合成，其中角色C的文本内容及语音合成后音频播放进度如下所示：

C:[{txt:”不可能的，你连搬一个土丘的力气都没有，还想搬移大山！就算你搬得动，那些挖出来的泥土石块，你要扔到什么地方去呢？”,time:”13.6～24.6”}]。

本申请实施例中，进一步从发声终端300的角度，对语音播报方法进行介绍。参见图4所示，该方法可以包括：

步骤S200、接收服务端发送的对待播报文本的播报指令。

具体地，基于上述实施例介绍的服务端200侧的执行策略可知，服务端200在获取指定的待播报文本，待播报文本所包含的角色、每一所述角色对应的文本内容，以及每一所述角色对应的发声终端之后，可以向发声终端发送待播报文本的播报指令。

本步骤中，发声终端300接收服务端200发送的播报指令。

步骤S210、按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报。

基于前述实施例的介绍可知，服务端200下发的播报指令可以有两种形式，即一种是文本内容，另一种是音频。针对两种不同形式的播报指令，分别介绍发声终端200的处理过程。

第一种、

发声终端200接收的播报指令包含所述待播报文本中本发声终端对应角色的文本内容，及所述文本内容的播报进度。

则，发声终端200按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报的过程，具体可以包括：

可以理解的是，若播报指令中还进一步包括本发声终端对应的个性化发音资源或个性化发音资源的标识。则发声终端可以按照所述播报指令中本发声终端对应角色的文本内容的播报进度，按照本发声终端对应个性化发音资源，以语音形式播报对应的文本内容。

本实施例中介绍了一种，发声终端按照所述播报指令中本发声终端对应角色的文本内容的播报进度，以语音形式播报对应的文本内容的实现方式。具体地，本案中多个发声终端300之间可以通过局域网互联。则实现过程可以包括：

1)、发声终端可以监听其它发声终端广播的报文，该报文包含广播该报文的发声终端的当前合成进度，及语音合成结束标识。

具体地，每一发声终端在对一条文本内容合成结束后，向外广播报文，该报文中包含了当前合成进度，及语音合成结束标识。其中，当前合成进度可以是发声终端已合成结束的文本内容的播报进度。文本内容的播报进度可以是文本内容在待播报文本中的位置标识。

如下示例的“愚公移山”作为待播报文本：

在山的北面，住着一位叫愚公的老汉。有一天，他召集了全家老小，对他们说：①“这两座大山，挡住了我们的出路，咱们大家一起努力，把它挖掉，你们看好不好？②”大家都很赞同，只有他的妻子提出了疑问，她说：③“像太行、王屋这么高大的山，挖出来的那些石头、泥头往哪里送呢？④”愚公说：⑤“这好办，把泥土、石块扔到渤海边上就行了！再多也不愁没地方堆。⑥”黄河边上住着一个老汉，人们管他叫智叟。他看到愚公他们搬山，觉得可笑，就去劝愚公：⑦“你这人可真傻，这么大岁数了，还能活几天？怎么能搬动这么大的山呢？⑧”愚公深深地叹口气说：⑨“我看你这人自以为聪明，其实是顽固不化。我是老了，活不了几年，可是，我死了还有儿子，儿子又生孙子，孙子又生儿子；子子孙孙，一直传下去，我们为什么不能把它们挖平呢！⑩”

其中，每一条文本内容均存在位置序号标识，从①-⑩共十条文本内容。可以将该位置序号标识作为对应文本内容的播报进度。

则发声终端在合成某一条文本内容之后广播的报文中，可以将该条文本内容的位置序号作为当前合成进度。

其中，报文的格式可以参照下表2所示：

帧头

发声终端编号

当前合成进度

合成结束标志

帧尾

表2

进一步可以理解的是，报文中记录的当前合成进度，还可以在发声终端暂停或结束语音播报后，再次启动时能够按照当前合成进度继续合成。

2)、根据监听到的报文所包含的当前合成进度，及本发声终端对应角色的文本内容的播报进度，确定是否达到本发声终端对应角色的文本内容的合成时间。

具体地，发声终端监听到其他发声终端广播的报文之后，可以获取到报文中当前合成进度。并且，发声终端存储有自身对应角色的文本内容的播报进度，通过对比当前合成进度及自身存储的文本内容的播报进度，确定自身存储的文本内容是否到达合成时间。

举例说明如下：

当前合成进度为：第⑤条文本内容。某一发声终端自身存储的文本内容包括：第⑥和第⑩条文本内容。则，可以确定第⑥条文本内容属于第⑤条文本内容的下一相邻文本内容，因此可以确定第⑥条文本内容达到合成时间。

3)、若是，将达到所述合成时间的文本内容作为待处理文本内容，对所述待处理文本内容进行语音合成播报。

仍以上一步骤示例的例子进行说明，第⑥条文本内容达到合成时间，则可以将该第⑥条文本内容作为待处理文本内容，对其进行语音合成播报。

可以理解的是，若发声终端接收的播报指令中包含了本发声终端对应个性化发音资源或个性化发音资源的标识，则发声终端在对待处理文本内容进行语音合成播报时，可以按照对应的个性化发音资源进行语音合成播报。

4)、在对所述待处理文本内容进行语音合成播报结束时，对外广播报文，广播的报文包括：由所述待处理文本内容的播报进度组成的当前合成进度，及语音合成结束标识。

具体地，发声终端在对待处理文本内容语义合成播报结束时，为了保证整个待播报文本语音播报的连贯性，发声终端可以对外广播报文，该报文中以待处理文本内容的播报进度组成当前合成进度，且报文包含语音合成结束标识。

仍以上述示例的例子进行说明，待处理文本内容为第⑥条文本内容，则广播的报文中当前合成进度为：待处理文本内容的播报进度：⑥。

第二种、

发声终端200接收的播报指令包含根据待播报文本中本发声终端对应角色的文本内容合成的音频，及所述音频的播报进度。

其中，音频可以是仅根据本发声终端对应角色的文本内容进行合成，还可以是按照本发声终端对应的个性化发音资源，对本发声终端对应角色的文本内容进行合成。

其中，音频的播报进度可以是播报时间段。

本申请实施例中，进一步从客户端100的角度，对语音播报方法进行介绍。参见图5所示，该方法可以包括：

步骤S300、向服务端发送文本点播指令，所述文本点播指令包含指定的待播报文本。

具体地，客户端100可以展示待播报文本列表，用户可以从中点播所要收听的待播报文本。进而，由客户端100将用户指定的待播报文本通过文本点播指令发送给服务端200。

步骤S310、接收并展示所述服务端返回的所述待播报文本所包含的角色。

具体地，服务端200在收到客户端发送的文本点播指令之后，获取指定的待播报文本所包含的角色，并将角色发送给客户端100，由客户端100接收并展示待播报文本所包含的角色。

步骤S320、响应角色与发声终端的绑定操作，确定每一所述角色与发声终端的对应关系。

具体地，用户可以在客户端100界面上发起角色与发声终端的绑定操作，由客户端100响应该绑定操作，确定每一角色与发声终端的对应关系。其中，角色与发声终端间的对应关系可以是一对一，或多对一。

步骤S330、向所述服务端发送包含每一所述角色与发声终端对应关系的第一关系绑定指令。

其中，所述第一关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在以语音形式播报时对应的发声终端。

本申请实施例提供的语音播报方法，用户可以通过客户端实现待播报文本的点播，以及为待播报文本所包含的角色分配对应的发声终端，该发声终端即为对角色对应的文本内容进行语音播报时的发声终端。按照本申请提供的方法，使用角色对应的发声终端对角色的文本内容进行播报，类似于话剧表演过程，更加便于用户对待播报文本内容的理解，且趣味性更强，提升了用户学习效率。

在上述实施例的基础上，本申请的方法还可以进一步包括如下过程：

客户端响应发声终端与个性化发音资源的绑定操作，确定每一发声终端与个性化发音资源的对应关系。

具体地，用户可以通过客户端，发起发声终端与个性化发音资源的绑定操作，即为每一发声终端分配对应的个性化发音资源。客户端响应该绑定操作，确定每一发声终端与个性化发音资源的对应关系。

进一步地，客户端向所述服务端发送包含每一发声终端与个性化发音资源对应关系的第二关系绑定指令。

其中，所述第二关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在通过对应发声终端进行语音播报时所采用的个性化发音资源。

发声终端通过采用个性化发音资源进行语音播报，提高了待播报文本语音播报的趣味性。并且，在故事讲述场景下，通过录入家长的个性化发音资源，使得发声终端可以按照家长的音色进行故事的讲述，对于陪伴缺失的孩子而言，更加有利于孩子的情感交流，同时学习效率也会提高。

下面对本申请实施例提供的语音播报装置进行描述，下文描述的语音播报装置与上文描述的语音播报方法可相互对应参照。

首先，介绍应用于服务端的语音播报装置，参见图6所示，该语音播报装置可以包括：

待播报文本获取单元11，用于获取指定的待播报文本；

角色及文本内容获取单元12，用于获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容；

角色与发声终端对应单元13，用于确定每一所述角色对应的发声终端；

播报指令发送单元14，用于向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容。

可选的，本申请实施例公开了角色及文本内容获取单元的两种不同结构，分别介绍如下：

第一种，上述角色及文本内容获取单元可以包括：

标签获取单元，用于获取所述待播报文本对应的标签信息，所述标签信息中存储了预先确定的所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容。

第二种，上述角色及文本内容获取单元可以包括：

文本分析单元，用于对所述待播报文本进行文本分析，以确定所述待播报文本中说话对象对应的角色列表，所述角色列表包含至少一角色；

文本内容识别单元，用于识别所述待播报文本包含的每一条表示说话内容的文本内容；

角色对应单元，用于针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色。

可选的，上述文本分析单元可以包括：

主语抽取单元，用于抽取所述待播报文本中每个句子的主语；

角色识别模型预测单元，用于利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色；所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到。

可选的，上述文本内容识别单元可以包括：

双引号标识查找单元，用于在所述待播报文本中查找双引号标识；

双引号标识匹配单元，用于将所述待播报文本中，每一所述双引号标识所匹配的文本内容，确定为一条表示说话内容的文本内容。

可选的，本申请实施例公开了上述角色对应单元的三种不同结构，接下来分别介绍：

第一种，角色对应单元可以包括：

冒号标识查找单元，用于针对每一条所述文本内容，在所述待播报文本中查找与所述文本内容距离满足第一设定距离条件的冒号标识；

冒号对应主语搜索单元，用于若查找到满足第一设定距离条件的冒号标识，则在所述待播报文本中搜索所述冒号标识对应的主语；

第一主语与角色匹配单元，用于若所述主语在所述角色列表中存在匹配角色，则将所述匹配角色确定为与所述文本内容对应的角色。

第二种，角色对应单元可以包括：

动词查找单元，用于针对每一条所述文本内容，在所述待播报文本中查找与所述文本内容距离满足第二设定距离条件的动词；

动词对应主语搜索单元，用于若查找到满足第二设定距离条件的动词，则在所述待播报文本中搜索所述动词对应的主语；

第二主语与角色匹配单元，用于若所述主语在所述角色列表中存在匹配角色，则将所述匹配角色确定为与所述文本内容对应的角色。

第三种，角色对应单元可以包括：

匹配特征确定单元，用于针对每一条所述文本内容，在所述待播报文本中确定所述角色列表中每一角色与所述文本内容的匹配特征；

角色匹配模型预测单元，用于将每一角色的匹配特征输入预置的角色匹配模型，得到角色匹配模型输出的每一角色的匹配得分；所述角色匹配模型为以角色列表中每一角色与文本训练数据中每一文本内容的匹配特征作为训练样本，以每一角色与每一文本内容的匹配得分作为样本标签训练得到；

匹配分筛选单元，用于将匹配得分最高的角色确定为所述文本内容对应的角色。

可选的，上述角色与发声终端对应单元可以包括：

第一关系绑定指令接收单元，用于接收角色与发声终端的第一关系绑定指令；

第一关系绑定指令处理单元，用于按照所述第一关系绑定指令的指示，确定每一所述角色对应的发声终端。

可选的，本申请的装置还可以包括：

个性化发音资源确定单元，用于在预存的个性化发音库中确定，与每一发声终端对应的个性化发音资源。基于此，所述播报指令具体用于，指示所述发声终端按照对应的个性化发音资源，以语音形式播报对应角色的文本内容。

可选的，上述个性化发音资源确定单元可以包括：

第二关系绑定指令接收单元，用于接收发声终端与个性化发音资源的第二关系绑定指令；

第二关系绑定指令处理单元，用于按照所述第二关系绑定指令的指示，在预存的个性化发音库中确定每一发声终端对应的个性化发音资源。

可选的，本申请实施例公开了播报指令发送单元的两种不同结构，分别介绍如下：

第一种，播报指令发送单元可以包括：

第一播报指令发送子单元，用于向所述发声终端发送播报指令，所述播报指令包含所述发声终端对应角色的文本内容，及所述文本内容的播报进度，所述播报指令用于指示所述发声终端按照所述播报进度，以语音形式播报对应角色的文本内容。

第二种，播报指令发送单元可以包括：

第二播报指令发送子单元，用于向所述发声终端发送播报指令，所述播报指令包含根据所述发声终端对应角色的文本内容合成的音频，及所述音频的播报进度，所述播报指令用于指示所述发声终端按照所述播报进度播报所述音频。

进一步，介绍应用于客户端的语音播报装置，参见图7所示，该语音播报装置可以包括：

文本点播指令发送单元21，用于向服务端发送文本点播指令，所述文本点播指令包含指定的待播报文本；

角色接收及展示单元22，用于接收并展示所述服务端返回的所述待播报文本所包含的角色；

第一操作响应单元23，用于响应角色与发声终端的绑定操作，确定每一所述角色与发声终端的对应关系；

第一关系绑定指令发送单元24，用于向所述服务端发送包含每一所述角色与发声终端对应关系的第一关系绑定指令，所述第一关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在以语音形式播报时对应的发声终端。

可选的，本申请的装置还可以包括：

第二操作响应单元，用于响应发声终端与个性化发音资源的绑定操作，确定每一发声终端与个性化发音资源的对应关系；

第二关系绑定指令发送单元，用于向所述服务端发送包含每一发声终端与个性化发音资源对应关系的第二关系绑定指令，所述第二关系绑定指令用于指示服务端确定所述待播报文本中每一角色的文本内容在通过对应发声终端进行语音播报时所采用的个性化发音资源。

再进一步，介绍应用于发声终端的语音播报装置，参见图8所示，该语音播报装置可以包括：

播报指令接收单元31，用于接收服务端发送的对待播报文本的播报指令；

语音播报单元32，用于按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报。

可选的，上述播报指令接收单元可以包括：

第一播报指令接收子单元，用于接收服务端发送的，包含所述待播报文本中本发声终端对应角色的文本内容，及所述文本内容的播报进度的播报指令。基于此，所述语音播报单元可以包括：

第一语音播报子单元，用于按照所述播报指令中本发声终端对应角色的文本内容的播报进度，以语音形式播报对应的文本内容。

可选的，上述第一语音播报子单元可以包括：

报文监听单元，用于监听其它发声终端广播的报文，所述报文包含广播该报文的发声终端的当前合成进度，及语音合成结束标识；

合成时间判断单元，用于根据监听到的报文所包含的当前合成进度，及本发声终端对应角色的文本内容的播报进度，确定是否达到本发声终端对应角色的文本内容的合成时间；

合成播报单元，用于将达到所述合成时间的文本内容作为待处理文本内容，对所述待处理文本内容进行语音合成播报；

报文广播单元，用于在对所述待处理文本内容进行语音合成播报结束时，对外广播报文，广播的报文包括：由所述待处理文本内容的播报进度组成的当前合成进度，及语音合成结束标识。

可选的，上述播报指令接收单元可以包括：

第二播报指令接收子单元，用于接收服务端发送的，包含根据待播报文本中本发声终端对应角色的文本内容合成的音频，及所述音频的播报进度的播报指令。基于此，所述语音播报单元可以包括：

第二语音播报子单元，用于按照所述播报指令中音频的播报进度，以语音形式播报对应的音频。

本申请实施例还提供了一种语音播报系统，该语音播报系统可以包括客户端、服务端和发声终端，其中：

可以理解的是，上述客户端、服务端和发声终端的详细处理逻辑可以参照前述相关实施例的介绍，此处不再赘述。

本申请实施例提供的服务端可以是PC终端、云平台、服务器及服务器集群等。可选的，图9示出了服务端的硬件结构框图，参照图9，服务端的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取指定的待播报文本；

确定每一所述角色对应的发声终端；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取指定的待播报文本；

确定每一所述角色对应的发声终端；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音播报方法，其特征在于，应用于服务端，该方法包括：

获取指定的待播报文本；

获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容；其中，所述获取所述待播报文本所包含的角色包括：抽取所述待播报文本中每个句子的主语，利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色，以确定所述待播报文本所包含的角色，所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到；

确定每一所述角色对应的发声终端，所述角色对应的文本内容为对应发声终端所要进行语音播报的文本内容；

2.根据权利要求1所述的方法，其特征在于，所述获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容，包括：

3.根据权利要求2所述的方法，其特征在于，所述识别所述待播报文本包含的每一条表示说话内容的文本内容，包括：

在所述待播报文本中查找双引号标识；

4.根据权利要求2所述的方法，其特征在于，所述针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色，包括：

5.根据权利要求2所述的方法，其特征在于，所述针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色，包括：

6.根据权利要求2所述的方法，其特征在于，所述针对每一条所述文本内容，在所述角色列表中确定与所述文本内容对应的角色，包括：

将匹配得分最高的角色确定为所述文本内容对应的角色。

7.根据权利要求1所述的方法，其特征在于，所述确定每一所述角色对应的发声终端，包括：

接收角色与发声终端的第一关系绑定指令；

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求8所述的方法，其特征在于，所述在预存的个性化发音库中确定，与每一发声终端对应的个性化发音资源，包括：

接收发声终端与个性化发音资源的第二关系绑定指令；

10.根据权利要求1所述的方法，其特征在于，所述向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容，包括：

11.根据权利要求1所述的方法，其特征在于，所述向所述发声终端发送播报指令，以指示所述发声终端以语音形式播报对应角色的文本内容，包括：

12.一种语音播报方法，其特征在于，应用于客户端，该方法包括：

接收并展示所述服务端返回的所述待播报文本所包含的角色；其中，所述待播报文本所包含的角色为所述服务端通过抽取所述待播报文本中每个句子的主语，利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色得到，所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到；

13.根据权利要求12所述的方法，其特征在于，还包括：

14.一种语音播报方法，其特征在于，应用于发声终端，该方法包括：

接收服务端发送的对待播报文本的播报指令；所述播报指令包含所述待播报文本中本发声终端对应角色的文本内容，及所述文本内容的播报进度；

按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报；

所述播报指令包含所述待播报文本中本发声终端对应角色的文本内容，则按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报，包括：

按照所述播报指令中本发声终端对应角色的文本内容的播报进度，以语音形式播报所述播报指令包含的本发声终端对应角色的文本内容；

所述按照所述播报指令中本发声终端对应角色的文本内容的播报进度，以语音形式播报所述播报指令包含的本发声终端对应角色的文本内容，包括：

15.一种语音播报装置，其特征在于，应用于服务端，该装置包括：

待播报文本获取单元，用于获取指定的待播报文本；

角色及文本内容获取单元，用于获取所述待播报文本所包含的角色，及所述待播报文本中与每一所述角色对应的文本内容；其中，所述获取所述待播报文本所包含的角色包括：抽取所述待播报文本中每个句子的主语，利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色，以确定所述待播报文本所包含的角色，所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到；

角色与发声终端对应单元，用于确定每一所述角色对应的发声终端，所述角色对应的文本内容为对应发声终端所要进行语音播报的文本内容；

16.一种语音播报装置，其特征在于，应用于客户端，该装置包括：

角色接收及展示单元，用于接收并展示所述服务端返回的所述待播报文本所包含的角色；其中，所述待播报文本所包含的角色为所述服务端通过抽取所述待播报文本中每个句子的主语，利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色得到，所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到；

17.一种语音播报装置，其特征在于，应用于发声终端，该装置包括：

播报指令接收单元，用于接收服务端发送的对待播报文本的播报指令；所述播报指令包含所述待播报文本中本发声终端对应角色的文本内容，及所述文本内容的播报进度；

语音播报单元，用于按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报；

所述播报指令包含所述待播报文本中本发声终端对应角色的文本内容，则语音播报单元按照所述播报指令的指示，以语音形式对所述待播报文本中与本发声终端对应角色的文本内容进行播报，包括：

18.一种语音播报系统，其特征在于，包括：客户端、服务端和发声终端，其中：

所述服务端用于，根据所述文本播报指令获取待播报文本，及待播报文本所包含的角色，每一所述角色对应文本内容，以及，根据所述绑定指令确定每一所述角色对应的发声终端，所述角色对应的文本内容为对应发声终端所要进行语音播报的文本内容，并向所述发声终端发送播报指令；其中，获取所述待播报文本所包含的角色包括：抽取所述待播报文本中每个句子的主语，利用预置的角色识别模型，识别每个所述主语是否为说话对象对应的角色，以确定所述待播报文本所包含的角色，所述角色识别模型为利用标注有是否为角色的标注结果的主语训练数据预训练得到；