CN112562430B

CN112562430B - 辅助阅读方法、视频播放方法、装置、设备及存储介质

Info

Publication number: CN112562430B
Application number: CN201910919879.2A
Authority: CN
Inventors: 张银利
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-12-13
Anticipated expiration: 2039-09-26
Also published as: CN112562430A

Abstract

公开了一种辅助阅读方法、视频播放方法、装置、设备及存储介质。以应用于辅助阅读场景为例，可以构建多个发音人模型，每个发音人模型对应一种发音模式；针对待阅读文本，从多个发音人模型中选择对应的发音人模型；将选择的发音人模型发送给客户端，以便客户端基于选择的发音人模型实现待阅读文本的语音播放。由此，通过使用合适的发音人模型播放(也即朗读)待阅读文本，可以提升用户的听书体验。

Description

辅助阅读方法、视频播放方法、装置、设备及存储介质

技术领域

本公开涉及电子书阅读领域，特别是涉及一种辅助阅读方法、视频播放方法、装置、设备及存储介质。

背景技术

伴随着生活节奏的日益加快，利用碎片化时间进行阅读或观看视频逐渐成为人们主要的休闲方式。

以阅读场景为例，为了能够充分利用碎片时间，越来越多的用户选择使用听书的方式进行阅读，以便在旅途中、开车过程中、做家务过程中也能够进行阅读。市面上现有的听书方式主要有两种：一种是单声机器播放，此种方式没有语气差异，不能吸引用户的对听书内容的兴趣；另一种是单真人声播放，此种方式类似于评书，一定程度上能吸引用户，但是如果阅读的内容涉及多场景、多人物，用户听起来就没有良好的效果。

以视频观看场景为例，大多是由视频内容制作者制作视频内容，用户只能被动地观看制作好的视频，在视频播放中仅能够对视频画面的清晰度、音量进行调整，无法基于自身喜好控制视频播放策略。

因此，仍需要一种能够提升用户的听书体验或视频观看体验的方案。

发明内容

本公开的一个目的在于，提供一种能够提升用户的听书体验或视频观看体验的方案。

根据本公开的第一个方面，提出了一种辅助阅读方法，包括：构建多个发音人模型，每个发音人模型对应一种发音模式；针对待阅读文本，从多个发音人模型中选择对应的发音人模型；将选择的发音人模型发送给客户端，以便客户端基于选择的发音人模型实现待阅读文本的语音播放。

可选地，从多个发音人模型中选择对应的发音人模型的步骤包括：根据待阅读文本针对的受众，从多个发音人模型中选择与受众相适配的发音人模型；并且/或者根据期望阅读待阅读文本的听众，从多个发音人模型中选择与听众相适配的发音人模型；并且/或者根据待阅读文本涉及的人物角色，从多个发音人模型中选择与人物角色相适配的发音人模型；并且/或者根据待阅读文本的内容，从多个发音人模型中选择与内容相匹配的发音人模型；并且/或者根据待阅读文本被其他客户端播放时所使用的发音人模型，从多个发音人模型中选择一个或多个发音人模型。

可选地，根据待阅读文本涉及的人物角色从多个发音人模型中选择与人物角色相适配的发音人模型的步骤包括：对待阅读文本进行解析，以确定待阅读文本涉及的人物角色以及待阅读文本中与各个人物角色相对应的文本内容；针对每个文本内容，从多个发音人模型中选择与该文本内容对应的人物角色相适配的发音人模型。

可选地，从多个发音人模型中选择的发音人模型包括：与待阅读文本的匹配度最高的第一发音人模型，第一发音人模型为待阅读文本的默认发音人模型；和/或一个或多个第二发音人模型，第二发音人模型为待阅读文本的候选发音人模型。

可选地，从多个发音人模型中选择的发音人模型包括第一发音人模型和一个或多个第二发音人模型，该方法还包括：将第一发音人模型和一个或多个第二发音人模型发送给待阅读文本的作者所使用的客户端；接收作者针对第一发音人模型的修改，其中，将选择的发音人模型发送给客户端的步骤包括：将修改后的第一发音人模型和一个或多个第二发音人模型发送给客户端。

可选地，该方法还包括：为发音人模型设置能够表征发音人模型所对应的发音模式的标签。

可选地，从多个发音人模型中选择对应的发音人模型的步骤包括：基于发音人模型具有的标签，从多个发音人模型中选择与待阅读文本相对应的发音人模型。

可选地，标签包括以下至少一项：用于表征发音人模型的性别的标签；用于表征发音人模型的发音风格的标签；用于表征发音人模型充当过的人物角色的标签；用于表征发音人模型适于充当的人物角色的标签。

根据本公开的第二个方面，还提出了一种辅助阅读方法，包括：构建多个发音人模型，每个发音人模型对应一种发音模式；针对待阅读文本，从多个发音人模型中选择对应的发音人模型；基于选择的发音人模型实现待阅读文本的语音播放。

可选地，从多个发音人模型中选择的发音人模型包括第一发音人模型和一个多个第二发音人模型，基于选择的发音人模型实现待阅读文本的语音播放的步骤包括：基于用户针对第一发音人模型的修改，使用修改后的第一发音人模型播放待阅读文本。

根据本公开的第三个方面，还提出了一种辅助阅读方法，包括：从服务器获取一个或多个发音人模型，一个或多个发音人模型为服务器针对待阅读文本从多个发音人模型中选择的发音人模型，每个发音人模型对应一种发音模式；以及基于用户选择的发音人模型实现待阅读文本的语音播放。

可选地，一个或多个发音人模型包括：与待阅读文本的匹配度最高的第一发音人模型，第一发音人模型为待阅读文本的默认发音人模型；和一个或多个第二发音人模型，第二发音人模型为待阅读文本的候选发音人模型。

根据本公开的第四个方面，还提出了一种辅助阅读方法，包括：构建多个发音人模型，每个发音人模型对应一种发音模式；接收用户通过第二客户端上传的文本；向第二客户端发送多个发音人模型；从第二客户端获取用户从多个发音人模型中选择的一个或多个发音人模型；将一个或多个发音人模型发送给期望阅读文本的第一客户端，以便第一客户端基于一个或多个发音人模型实现文本的语音播放。

根据本公开的第五个方面，还提出了一种辅助阅读方法，包括：将文本上传到服务器；获取服务器提供的多个发音人模型，每个发音人模型对应一种发音模式；以及将用户针对文本从多个发音人模型中选择的发音人模型的选择结果发送给服务器。

根据本公开的第六个方面，还提出了一种辅助阅读方法，包括：将待阅读文本拆分成多个文本内容；针对每个文本内容，从多个发音人模型中选择与该文本内容对应的发音人模型，其中，每个发音人模型对应一种发音模式；将针对各个文本内容所选择的发音人模型发送给客户端，以便客户端基于与文本内容对应的发音人模型，实现文本内容的语音播放。

根据本公开的第七个方面，还提出了一种视频播放方法，包括：构建多个发音人模型，每个所述发音人模型对应一种发音模式；针对待播放视频，从所述多个发音人模型中选择对应的发音人模型；将选择的发音人模型发送给客户端，以便所述客户端基于所述选择的发音人模型实现所述待播放视频的播放。

根据本公开的第八个方面，还提出了一种视频播放方法，包括：构建多个发音人模型，每个所述发音人模型对应一种发音模式；针对待播放视频，从所述多个发音人模型中选择对应的发音人模型；基于所述选择的发音人模型实现所述待播放视频的播放。

根据本公开的第九个方面，还提出了一种视频播放方法，包括：从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待播放视频从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式；以及基于用户选择的发音人模型实现所述待播放视频的播放。

根据本公开的第十个方面，还提出了一种视频播放方法，包括：构建多个发音人模型，每个所述发音人模型对应一种发音模式；接收用户通过第二客户端上传的视频；向所述第二客户端发送所述多个发音人模型；从所述第二客户端获取所述用户从所述多个发音人模型中选择的一个或多个发音人模型；将所述一个或多个发音人模型发送给期望观看所述视频的第一客户端，以便所述第一客户端基于所述一个或多个发音人模型实现所述视频的播放。

根据本公开的第十一个方面，还提出了一种视频播放方法，包括：将视频上传到服务器；获取所述服务器提供的多个发音人模型，每个所述发音人模型对应一种发音模式；以及将用户针对所述视频从所述多个发音人模型中选择的发音人模型的选择结果发送给所述服务器。

根据本公开的第十二个方面，还提出了一种辅助阅读装置，包括：构建模块，用于构建多个发音人模型，每个发音人模型对应一种发音模式；选择模块，用于针对待阅读文本，从多个发音人模型中选择对应的发音人模型；发送模块，用于将选择的发音人模型发送给客户端，以便客户端基于选择的发音人模型实现待阅读文本的语音播放。

根据本公开的第十三个方面，还提出了一种辅助阅读装置，包括：构建模块，用于构建多个发音人模型，每个发音人模型对应一种发音模式；选择模块，用于针对待阅读文本，从多个发音人模型中选择对应的发音人模型；语音播放模块，用于基于选择的发音人模型实现待阅读文本的语音播放。

根据本公开的第十四个方面，还提出了一种辅助阅读装置，包括：获取模块，用于从服务器获取一个或多个发音人模型，一个或多个发音人模型为服务器针对待阅读文本从多个发音人模型中选择的发音人模型，每个发音人模型对应一种发音模式；以及语音播放模块，用于基于用户选择的发音人模型实现待阅读文本的语音播放。

根据本公开的第十五个方面，还提出了一种辅助阅读装置，包括：构建模块，用于构建多个发音人模型，每个发音人模型对应一种发音模式；接收模块，用于接收用户通过第二客户端上传的文本；发送模块，用于向第二客户端发送多个发音人模型，接收模块还用于从第二客户端获取用户从多个发音人模型中选择的一个或多个发音人模型，发送模块还用于将一个或多个发音人模型发送给期望阅读文本的第一客户端，以便第一客户端基于一个或多个发音人模型实现文本的语音播放。

根据本公开的第十六个方面，还提出了一种辅助阅读装置，包括：上传模块，用于将文本上传到服务器；获取模块，用于获取服务器提供的多个发音人模型，每个发音人模型对应一种发音模式，上传模块还用于将用户针对文本从多个发音人模型中选择的发音人模型的选择结果发送给服务器。

根据本公开的第十七个方面，还提出了一种辅助阅读装置，包括：拆分模块，用于将待阅读文本拆分成多个文本内容；选择模块，用于针对每个文本内容，从多个发音人模型中选择与该文本内容对应的发音人模型，其中，每个发音人模型对应一种发音模式；发送模块，用于将针对各个文本内容所选择的发音人模型发送给客户端，以便客户端基于与文本内容对应的发音人模型，实现文本内容的语音播放。

根据本公开的第十八个方面，还提出了一种视频播放装置，包括：构建模块，用于构建多个发音人模型，每个所述发音人模型对应一种发音模式；选择模块，用于针对待播放视频，从所述多个发音人模型中选择对应的发音人模型；发送模块，用于将选择的发音人模型发送给客户端，以便所述客户端基于所述选择的发音人模型实现所述待播放视频的播放。

根据本公开的第十九个方面，还提出了一种视频播放装置，包括：构建模块，用于构建多个发音人模型，每个所述发音人模型对应一种发音模式；选择模块，用于针对待播放视频，从所述多个发音人模型中选择对应的发音人模型；播放模块，用于基于所述选择的发音人模型实现所述待播放视频的播放。

根据本公开的第二十个方面，还提出了一种视频播放装置，包括：获取模块，用于从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待播放视频从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式；以及播放模块，用于基于用户选择的发音人模型实现所述待播放视频的播放。

根据本公开的第二十一个方面，还提出了一种视频播放装置，包括：构建模块，用于构建多个发音人模型，每个所述发音人模型对应一种发音模式；接收模块，用于接收用户通过第二客户端上传的视频；发送模块，用于向所述第二客户端发送所述多个发音人模型，所述接收模块还用于从所述第二客户端获取所述用户从所述多个发音人模型中选择的一个或多个发音人模型，所述发送模块还用于将所述一个或多个发音人模型发送给期望观看所述视频的第一客户端，以便所述第一客户端基于所述一个或多个发音人模型实现所述视频的播放。

根据本公开的第二十二个方面，还提出了一种视频播放装置，包括：上传模块，用于将视频上传到服务器；获取模块，用于获取所述服务器提供的多个发音人模型，每个所述发音人模型对应一种发音模式，所述上传模块还用于将用户针对所述视频从所述多个发音人模型中选择的发音人模型的选择结果发送给所述服务器。

根据本公开的第二十三个方面，还提出了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面至第十一个方面中任一个方面述及的方法。

根据本公开的第二十四个方面，还提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面至第十一个方面中任一个方面述及的方法。

本公开通过在服务器端为待阅读文本或待播放视频选择对应的发音人模型，使得待阅读文本或待播放视频可以基于合适的发音人模型实现语音播放，从而可以提升用户的听书体验或视频观看体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一实施例的辅助阅读系统的功能框图。

图2示出了根据本公开一实施例的辅助阅读方法的示意性流程图。

图3示出了根据本公开一实施例的选择发音人模型的示意性流程图。

图4是示出了根据本公开另一实施例的辅助阅读方法的示意性流程图。

图5示出了根据本公开一实施例的辅助阅读装置的功能框图。

图6示出了根据本公开另一实施例的辅助阅读装置的功能框图。

图7示出了根据本公开另一实施例的辅助阅读装置的功能框图。

图8示出了根据本公开另一实施例的辅助阅读装置的功能框图。

图9示出了根据本公开另一实施例的辅助阅读装置的功能框图。

图10示出了根据本公开另一实施例的辅助阅读装置的功能框图。

图11示出了根据本公开一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

为了提升用户的听书体验或视频观看体验，本公开提出，可以预先构建多个发音人模型，每个发音人模型对应一种发音模式。针对待阅读文本或待播放视频，可以从这多个发音人模型中选择对应的发音人模型，基于选择的发音人模型实现待阅读文本的语音播放，或基于选择的发音人模型实现待播放视频的播放。由此，通过使用合适的发音人模型播放(也即朗读)待阅读文本或待播放视频，可以提升用户的听书体验或视频观看体验。

图1示出了根据本公开一实施例的辅助阅读系统的功能框图。

如图1所示，辅助阅读系统可以包括至少一个服务器20以及至少一个客户端(图中示出的10_1、10_2……10_N)。其中，N为大于或等于1的自然数。本公开述及的客户端可以是但不限于智能电话、平板电脑、智能手表、智能手环等便携式电子设备，也可以是指安装在上述电子设备中的阅读软件(也即电子阅读器)。

客户端可以经由网络40实现与服务器20的信息收发。另外，不同客户端之间也可以经由网络彼此通信。

网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。应当注意，如果向图1示出的环境中添加附加模块或从其中去除个别模块，不会改变本公开的示例实施例的底层概念。

下面结合图2至图4就服务器和客户端可以执行的操作做进一步说明。

参见图2，在步骤S210，可以由服务器构建多个发音人模型。

每个发音人模型可以视为一个虚拟发音人(也即虚拟播音员)，具有预定的发音模式。不同的发音人模型对应不同的发音模式。

发音模式用于表征发音人的发音特征，发音模式可以视为与发音相关的参数的集合，如可以包括但不限于音色、音调、音品等语音参数，以及低沉沙哑、激昂亢奋、热情欢快等能够表征发音人的情绪的情绪参数。

服务器可以通过多种方式构建发音人模型。例如，服务器可以基于不同类型的语料样本，训练不同的发音人模型；再例如，服务器也可以通过模拟真实发音人(如播音人员)的发音特征，构建发音人模型。其中在模拟真实发音人的发音特征时，可以在取得发音人的授权的情况下，构建与之匹配的发音人模型。

举例来说，服务器可以是指提供听书服务的服务端，服务器可以从其维护的书库中选取一本或多本书籍，对选取的书籍内容进行解析，得到多种类型的语料，基于不同类型的语料就可以训练出不同的发音人模型。

以用于描述环境的第一语料、用于描述人物内心独白的第二语料以及与人物角色相对应的第三语料为例，使用第一语料可以训练用于播放旁白的发音人模型，使用第二语料可以训练用于播放人物内心独白的发音人模型，使用第三语料可以训练对应于不同人物角色的发音人模型。

作为示例，在基于语料训练发音人模型时，可以对语料做更为精细的类别划分，以训练出粒度更为精细的发音人模型。例如，可以对描述环境的第一语料做进一步划分，划分出用于烘托恐怖氛围的环境语料、用于烘托祥和安宁氛围的环境语料等粒度更为精细的环境语料。如此基于粒度更为精细的环境语料进行发音人训练，可以训练出粒度更为精细的发音人模型。

基于上述方式可以构建多个粒度较为精细的发音人模型，并且在构建过程中可以对发音人模型不断调整，使其更接近人声或使发音人模型的发音模式符合期望的发音人形象。

本公开还可以为构建的发音人模型设置标签。此处述及的标签是指能够表征发音人模型所对应的发音模式的标签，可以包括但不限于用于表征发音人模型的性别的标签、用于表征发音人模型的发音风格的标签、用于表征发音人模型充当过的人物角色的标签、用于表征发音人模型适于充当的人物角色的标签等等。作为示例，某个发音人模型的标签可以设置为“女性、成熟、甄嬛、白浅”，其中“甄嬛”、“白浅”是指该发音人模型适于充当或充当过的人物角色，例如在发音人模型是基于“甄嬛”这一人物角色的对话语料训练得到的情况下，可以为发音人模型设置“甄嬛”这一标签。

在步骤S110，可以由客户端将用户针对待阅读文本的听书请求发送给服务器。

以客户端为向用户提供阅读服务的电子阅读器为例，客户端可以提供多个可供用户选择阅读的文本，在用户选中期望阅读的文本后，客户端可以向服务器发送针对选中的文本(即待阅读文本)的听书请求。

在步骤S220，可以由服务器针对待阅读文本，从多个发音人模型中选择对应的发音人模型。

本公开述及的待阅读文本可以是指经过筛选后得到的为大众所喜欢的书籍或书籍中的特定内容。也即本公开可以用于对畅销书籍或书籍中较受欢迎的文本内容选择发音人模型。

作为示例，服务器可以基于但不限于如下一种或多种方式的组合选择发音人模型。

1、基于受众选择发音人模型

可以对待阅读文本的类型进行解析，确定待阅读文本针对的受众，然后从多个发音人模型中选择与受众相适配的发音人模型。

举例来说，在对待阅读文本进行解析，确定待阅读文本为出版物书籍的情况下，可以进一步确定该出版物书籍针对的用户，比如针对女性还是针对男性，如果针对女性再进一步确定是针对哪个年龄阶段的女性，以此类推，通过深度解析，可以得到最细粒度的受众，然后可以基于确定的受众，从多个发音人模型中选择与该受众相适配的发音人模型。

以待阅读文本为游戏攻略文章为例，可以确定受众为年轻男性，此时可以选择符合“声音甜美的女性”这一形象的发音人模型，作为与该待阅读文本对应的发音人模型。

2、基于人物角色选择发音人模型

可以根据待阅读文本涉及的人物角色，从多个发音人模型中选择与人物角色相适配的发音人模型。

作为示例，可以对待阅读文本进行解析，确定待阅读文本涉及的人物角色以及待阅读文本中与各个人物角色相对应的文本内容，针对每个文本内容，可以从多个发音人模型中选择与该文本内容对应的人物角色相适配的发音人模型。其中，人物角色可以包括旁白。

3、基于内容选择发音人模型

可以根据待阅读文本的内容的类型和/或特征，从多个发音人模型中选择与内容相匹配的发音人模型。

举例来说，对于待阅读文本中用于描述环境信息的文本内容，可以根据该文本内容所表征的环境信息的环境特征，选择与该环境特征相匹配的发音人模型。例如，在文本内容是一段用于表征阴森恐怖的环境信息的段落内容的情况下，可以为该文本内容选择符合“阴森恐怖”这一特征的发音人模型。

4、基于历史播放记录选择发音人模型

可以根据之前该待阅读文本被其他客户端播放时所使用的发音人模型，从多个发音人模型中选择一个或多个发音人模型。

例如，在之前有多个客户端播放了该待阅读文本的情况下，可以选择被使用的次数最多或较多的发音人模型，作为该待阅读文本对应的发音人模型。

5、基于标签选择发音人模型

如上文所述，可以为构建的发音人模型设置能够用于表征发音人模型所对应的发音模式的标签。因此也可以基于发音人模型具有的标签，从多个发音人模型中选择与待阅读文本相对应的发音人模型。

作为示例，可以对待阅读文本进行解析，以确定待阅读文本的第一标签，然后可以查找具有与第一该标签相匹配的第二标签的发音人模型。

6、基于听众选择发音人模型

可以根据期望阅读所述待阅读文本的听众，从多个发音人模型中选择与听众相适配的发音人模型。例如，可以根据听众的年龄、身份、喜好等信息。

作为示例，可以根据听众的历史阅读记录，确定听众喜好的发音类型或发音人模型，如此可以从多个发音人模型中选择与用户的喜好相匹配的发音人模型。

参见图3，可以将待阅读文本拆分成n个文本内容，n为大于或等于1的自然数。针对每个文本内容，可以从多个发音人模型中选择与该文本内容对应的发音人模型。

在本实施例中，可以根据待阅读文本涉及的人物角色，将待阅读文本拆分成多个文本内容，此时每个文本内容对应一个人物角色。如此，可以得到待阅读文本中对应不同人物角色的文本内容的发音人模型。

另外也可以根据段落进行拆分，如可以将每个自然段视为一个文本内容，然后对每个段落进行解析，以确定该段落的类型和/或涉及的人物角色，基于解析结果，为该段落选择对应的发音人模型。如此，可以得到为待阅读文本中每个段落选择的发音人模型。

通过为待阅读文本中不同文本内容(如对应不同场景、人物的文本内容)设置相应的发音人模式，使得用户在听书过程中，能够得到身临其境的听觉体验，提升用户的听书体验。

服务器在确定了待阅读文本对应的发音人模型后，可以执行步骤S230，将选择的发音人模型发送给客户端。

在步骤S120，可以由客户端基于发音人模型实现待阅读文本的语音播放。

服务器针对待阅读文本选择的发音人模型可以是确定了的、不需用户再进行设置，客户端可以直接基于服务器选择的发音人模型播放待阅读文本。

另外，服务器针对待阅读文本选择的发音人模型也可以是多个候选发音人模型，客户端用户可以从这多个候选发音人模型中进一步选择期望使用的发音人模型。如此通过用户的参与，可以使得待阅读文本的发音效果能够更加契合用户需求，从而可以进一步提升用户的个性化听书体验。

也就是说，服务器在针对待阅读文本选择发音人模型时，可以从预先构建的多个发音人模型中筛选出多个适于播放待阅读文本的发音人模型，得到一个候选发音人模型列表。将该列表发送给客户端，由客户端用户进一步从中选择期望使用的发音人模型，如此通过用户的参与，可以使得待阅读文本的发音效果能够满足用户的个性化需求，从而可以提升用户的个性化听书体验。

举例来说，基于步骤S220选择的发音人模型可以包括与待阅读文本的匹配度最高的第一发音人模型和一个或多个第二发音人模型。其中，第一发音人模型可以视为待阅读文本的默认发音人模型，第二发音人模型可以视为待阅读文本的候选发音人模型。

客户端在接收到服务器所选择的发音人模型后，可以将第一发音人模型和一个或多个第二发音人模型以列表的形式展示给用户，由用户选择是否对第一发音人模型进行修改(也即是否更换默认发音人模型)。

如果用户不对第一发音人模型进行修改，则可以使用第一发音人模型播放待阅读文本；如果用户从一个或多个第二发音人模型中选择一个第二发音人模型来替换第一发音人模型，则可以使用替换后的第一发音人模型播放待阅读文本。

可选地，服务器在确定了待阅读文本的发音人模型后，也可以不执行步骤S230，而是由服务器基于选择的发音人模型实现待阅读文本的语音播放，此时服务器会将基于选择的发音人模型对待阅读文本进行播放产生的音频数据下发给客户端，由客户端输出给用户。

图4中示出的第一客户端是指听众使用的客户端，第二客户端是指上传文本的作者使用的客户端。需要说明的是，同一用户既可以作为听众，通过客户端实现待阅读文本的语音播放，也可以作为作者，通过客户端上传文本。因此，同一客户端即可以作为第一客户端，也可以作为第二客户端。

参见图4，在步骤S210，可以由服务器构建多个发音人模型。关于发音人模型及其构建过程可以参见上文结合图2的相关描述，此处不再赘述。

在步骤S310，可以由第二客户端将文本上传到服务器。

在步骤S220，可以由服务器针对文本，从多个发音人模型中选择对应的发音人模型。关于选择与文本对应的发音人模型的实现过程可以参见上文结合图2的相关描述，此处不再赘述。

在步骤S230，可以由服务器将选择的发音人模型发送给第二客户端。

在本实施例中，服务器选择的发音人模型可以包括多个候选发音人模型，可以由文本的作者对服务器选择的发音人模型作进一步修改，如可以对多个候选发音人模型的优先级顺序进行调整。

服务器可以按照自然段为文本中各个段落选择与该段落对应的多个候选发音人模型。服务器也可以按照文本涉及的人物角色，为每个人物角色选择对应的多个候选发音人模型。由此，针对文本的候选发音人模型可以包括多组候选发音人模型，每组候选发音人模型对应一个文本内容(该文本内容可以是一个段落，也可以是与人物角色对应的文本内容)。

作为示例，服务器选择的发音人模型可以包括与文本(或者与文本中各个文本内容)的匹配度最高的第一发音人模型和一个或多个第二发音人模型。其中，第一发音人模型可以视为待阅读文本的默认发音人模型，第二发音人模型可以视为待阅读文本的候选发音人模型。

在步骤S320，第二客户端的用户(也即文本的作者)可以对服务器为文本选择的发音人模型进行修改。例如，在服务器选择的发音人模型包括多个候选发音人模型的情况下，可以由文本的作者对这多个候选发音人模型的优先级顺序进行调整，或从这多个候选发音人模型中进一步选择一个或多个发音人模型，作为文本的默认发音人模型。

在一个实施例中，服务器向第二客户端发送的发音人模型可以包括与文本中各个段落对应的发音人模型，每个段落对应的发音人模型可以包括一个最匹配的第一发音人模型和多个可供选择的第二发音人模型。作者可以在第二客户端对由服务器确定的匹配的第一发音人模型进行试听，如果不满意可以对选择的段落更换第一发音人模型，此时更换后的发音人模型在文本中该段落的优先级会提高，例如作者可以选择其认为合适的第二发音人模型替换第一发音人模型。

在另一个实施例中，服务器向第二客户端发送的发音人模型可以包括与文本中各个人物角色对应的发音人模型，每个人物角色对应的发音人模型可以包括一个最匹配的第一发音人模型和多个可供选择的第二发音人模型。作者可以在第二客户端对由服务器确定的匹配的第一发音人模型进行试听，如果不满意则可以对人物角色的第一发音人模型进行更改，例如作者可以选择其认为合适的第二发音人模型替换第一发音人模型。

在步骤S330，可以由第二客户端将修改结果上传到服务器。

作者针对发音人模型的修改，对最终向第一客户端发送的发音人模型有影响。作为示例，可以基于服务器的选择结果和作者的修改结果(也即作者的选择结果)，确定最终向第一客户端发送的发音人模型。

在步骤S110，可以由第一客户端将听书请求发送给服务器。

服务器在接收到针对文本的听书请求后，可以将之前该文本的作者选择的发音人模型发送给第一客户端。

在步骤S120，基于发音人模型实现待阅读文本的语音播放。

第一客户端的用户(也即听众)也可以对发音人模型进行修改，确定最终使用的发音人模型。例如，可以向第一客户端用户提供一个发音人模型列表，用户可以从该列表中进一步选择期望使用的发音人模型。

在一个实施例中，服务器向第一客户端发送的发音人模型可以包括与待阅读文本中各个段落对应的发音人模型，每个段落对应的发音人模型可以包括一个最匹配的第一发音人模型和多个可供选择的第二发音人模型。用户在听书过程中，可以对选择的段落更换发音人模型，此时只改变当前用户针对当前待阅读文本的听书效果，此时该发音人模型在此段落的优先级会提高。

在另一个实施例中，服务器向第一客户端发送的发音人模型可以包括与待阅读文本中各个人物角色对应的发音人模型，每个人物角色对应的发音人模型可以包括一个最匹配的第一发音人模型和多个可供选择的第二发音人模型。用户在听书过程中，可以对各个人物角色的发音人模型进行更改。

另外，也可以不由服务器执行步骤S220，而是由待阅读文本的作者执行步骤S220，针对对其上传的文本从多个发音人模型中选择对应的发音人模型。也即，服务器在接收到作者通过第二客户端上传的文本后，可以向

第二客户端发送多个发音人模型，以便作者为其上传的文本选择发音人模型。服务器可以从第二客户端获取作者从多个发音人模型中选择的一个或多个发音人模型，并将一个或多个发音人模型发送给期望阅读该文本的第一客户端，以便第一客户端基于所述一个或多个发音人模型实现该文本的语音播放。

综上，本公开提供了一种基于云端(也即服务器端)的场景听书方案。

云端可以针对书籍智能选择最匹配的发音人模型列表，如针对出版物书籍，可以根据书籍的受众选择男声或者女声，针对小说，可以根据小说类型、小说中的人物，选择多个发音人模型。

本公开还可以提供给作者可以动态修改自己作品的听书效果的入口，上传文本的作者可以通过客户端(即上文述及的第二客户端)，针对自己作品设置或修改发音人模型。例如，书籍作者可以对云端选择的发音人模型进行二次选择。

期望阅读文本的听众可以通过客户端(即上文述及的第一客户端)，对服务器下发的发音人模型选择结果，做进一步选择。

在云端、作者、听众的协同作用下，在客户端用户听书的过程中，可以实现个性化的听书体验，例如基于本公开，用户在听《三生三世十里桃花》这本书的时候能够体验到和电视中的人物相同或相似的声音。

本公开还可以应用于视频场景(如短视频播放场景)，实现为一种视频播放方案。也即上文述及的待阅读文本可以替换为待播放视频，可以通过为待播放视频选择发音人模型，作为待播放视频的配音角色，在播放待播放视频的过程中，利用所选择的发音人模型为视频进行配音，从而可以提升用户的视频观看体验。

由此，本公开还提出了一种适于服务器执行的视频播放方法，包括但不限于以下步骤。其中步骤中涉及的细节可以参见上文相关描述，此处不再赘述。

S1、构建多个发音人模型，每个发音人模型对应一种发音模式。

关于发音人模型的构建过程可以参见上文相关描述，此处不再赘述。

S2、针对待播放视频，从多个发音人模型中选择对应的发音人模型；

作为示例，可以根据根据待播放视频针对的受众，从多个发音人模型中选择与受众相适配的发音人模型；并且/或者根据期望观看待播放视频的用户，从多个发音人模型中选择与用户相适配的发音人模型；并且/或者根据待播放视频涉及的人物角色，从多个发音人模型中选择与人物角色相适配的发音人模型，此处述及的人物角色是指在视频播放过程中发音的角色，也即具有台词的角色；并且/或者根据待播放视频的内容，从多个发音人模型中选择与内容相匹配的发音人模型，此处述及的内容是指待播放视频涉及的台词，例如可以对待播放视频进行解析，以确定待播放视频涉及的人物角色以及各个人物角色对应的台词，然后针对每个人物角色对应的台词，从多个发音人模型中选择与该台词对应的人物角色相适配的发音人模型；并且/或者根据待播放视频被其他客户端播放时所使用的发音人模型，从多个发音人模型中选择一个或多个发音人模型。

S3、将选择的发音人模型发送给客户端，以便客户端基于选择的发音人模型实现待播放视频的播放。可选地，也可以不执行步骤S3，而是基于选择的发音人模型实现待播放视频的播放。

本公开还提出了一种适于客户端执行的视频播放方法，包括：从服务器获取一个或多个发音人模型，一个或多个发音人模型为服务器针对待播放视频从多个发音人模型中选择的发音人模型，每个发音人模型对应一种发音模式；以及基于用户选择的发音人模型实现待播放视频的播放。

本公开还提出了一种适于服务器执行的视频播放方法，包括：构建多个发音人模型，每个发音人模型对应一种发音模式；接收用户通过第二客户端上传的视频；向第二客户端发送多个发音人模型；从第二客户端获取用户从多个发音人模型中选择的一个或多个发音人模型；将一个或多个发音人模型发送给期望观看视频的第一客户端，以便第一客户端基于一个或多个发音人模型实现视频的播放。

本公开还提出了一种适于客户端执行的视频播放方法，包括：将视频上传到服务器；获取服务器提供的多个发音人模型，每个发音人模型对应一种发音模式；以及将用户针对视频从多个发音人模型中选择的发音人模型的选择结果发送给服务器。

本公开还可以实现为一种辅助阅读装置。

辅助阅读装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图5至图9所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就辅助阅读装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

图5示出了根据本公开一实施例的辅助阅读装置的功能框图。

参见图5，辅助阅读装置500包括构建模块510、选择模块520以及发送模块530。

构建模块510用于构建多个发音人模型，每个发音人模型对应一种发音模式。

选择模块520用于针对待阅读文本，从多个发音人模型中选择对应的发音人模型。

选择模块520可以根据待阅读文本针对的受众，从多个发音人模型中选择与受众相适配的发音人模型；并且/或者选择模块520也根据待阅读文本涉及的人物角色，从多个发音人模型中选择与人物角色相适配的发音人模型；并且/或者选择模块520也根据待阅读文本的内容，从多个发音人模型中选择与内容相匹配的发音人模型；并且/或者选择模块520也根据待阅读文本被其他客户端播放时所使用的发音人模型，从多个发音人模型中选择一个或多个发音人模型。

发送模块530用于将选择的发音人模型发送给客户端，以便客户端基于选择的发音人模型实现待阅读文本的语音播放。

可选地，从多个发音人模型中选择的发音人模型可以包括：与待阅读文本的匹配度最高的第一发音人模型，第一发音人模型为待阅读文本的默认发音人模型；和/或一个或多个第二发音人模型，第二发音人模型为待阅读文本的候选发音人模型。

作为示例，辅助阅读装置500还可以包括接收模块。发送模块530还可以将第一发音人模型和一个或多个第二发音人模型发送给待阅读文本的作者所使用的客户端。可以由接收模块接收作者针对第一发音人模型的修改。此时，发送模块530可以将修改后的第一发音人模型和一个或多个第二发音人模型发送给客户端。

作为示例，辅助阅读装置500还可以包括设置模块，用于为发音人模型设置能够表征发音人模型所对应的发音模式的标签。选择模块520可以基于发音人模型具有的标签，从多个发音人模型中选择与待阅读文本相对应的发音人模型。

参见图6，辅助阅读装置600包括构建模块610、选择模块620以及语音播放拨款630。

构建模块610用于构建多个发音人模型，每个所述发音人模型对应一种发音模式。

选择模块620用于针对待阅读文本，从所述多个发音人模型中选择对应的发音人模型。

选择模块620可以根据待阅读文本针对的受众，从多个发音人模型中选择与受众相适配的发音人模型；并且/或者选择模块620也根据待阅读文本涉及的人物角色，从多个发音人模型中选择与人物角色相适配的发音人模型；并且/或者选择模块620也根据待阅读文本的内容，从多个发音人模型中选择与内容相匹配的发音人模型；并且/或者选择模块620也根据待阅读文本被其他客户端播放时所使用的发音人模型，从多个发音人模型中选择一个或多个发音人模型。

语音播放模块630用于基于所述选择的发音人模型实现所述待阅读文本的语音播放。

作为示例，辅助阅读装置600还可以包括发送模块和接收模块。发送模块可以将第一发音人模型和一个或多个第二发音人模型发送给待阅读文本的作者所使用的客户端，接收模块用于接收作者针对第一发音人模型的修改。此时语音播放模块630可以基于修改后的发音人模型实现待阅读文本的语音播放。其中，可以由发送模块将语音播放模块630产生的语音播放数据发送给客户端，由客户端输出给用户。

作为示例，辅助阅读装置600还可以包括设置模块，用于为发音人模型设置能够表征发音人模型所对应的发音模式的标签。选择模块620可以基于发音人模型具有的标签，从多个发音人模型中选择与待阅读文本相对应的发音人模型。

参见图7，辅助阅读装置700包括构建模块710、接收模块720以及发送模块730。

构建模块710用于构建多个发音人模型，每个发音人模型对应一种发音模式。接收模块720用于接收用户通过第二客户端上传的文本。发送模块730用于向第二客户端发送多个发音人模型。接收模块720还用于从第二客户端获取用户从多个发音人模型中选择的一个或多个发音人模型，发送模块730还用于将一个或多个发音人模型发送给期望阅读文本的第一客户端，以便第一客户端基于一个或多个发音人模型实现文本的语音播放。由此，可以由文本的作者为文本选择发音人模型，并将作者选择的发音人模型发送给听众对应的客户端。

参见图8，辅助阅读装置800包括拆分模块810、选择模块820以及发送模块830。

拆分模块810用于将待阅读文本拆分成多个文本内容。

选择模块820用于针对每个所述文本内容，从多个发音人模型中选择与该文本内容对应的发音人模型，其中，每个发音人模型对应一种发音模式。

发送模块830用于将针对各个所述文本内容所选择的发音人模型发送给客户端，以便所述客户端基于与文本内容对应的发音人模型，实现文本内容的语音播放。

在本实施例中，拆分模块810可以根据待阅读文本涉及的人物角色，将待阅读文本拆分成多个文本内容，此时每个文本内容对应一个人物角色。如此，可以得到待阅读文本中对应不同人物角色的文本内容的发音人模型。

另外拆分模块810也可以根据段落进行拆分，如可以将每个自然段视为一个文本内容，然后对每个段落进行解析，以确定该段落的类型和/或涉及的人物角色，基于解析结果，为该段落选择对应的发音人模型。如此，可以得到为待阅读文本中每个段落选择的发音人模型。

参见图9，辅助阅读装置900包括拆获取模块910和语音播放模块920。

获取模块910用于从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待阅读文本从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式。

语音播放模块920用于基于用户选择的发音人模型实现所述待阅读文本的语音播放。

辅助阅读装置900还可以包括提供模块，用于向用户提供发音人模型列表，以便用户选择最终使用的发音人模型。

在一个实施例中，获取模块910获取的发音人模型可以包括与待阅读文本中各个段落对应的发音人模型，每个段落对应的发音人模型可以包括一个最匹配的第一发音人模型和多个可供选择的第二发音人模型。用户在听书过程中，可以对选择的段落更换发音人模型，此时只改变当前用户针对当前待阅读文本的听书效果，此时该发音人模型在此段落的优先级会提高。

在另一个实施例中，获取模块910获取的发音人模型可以包括与待阅读文本中各个人物角色对应的发音人模型，每个人物角色对应的发音人模型可以包括一个最匹配的第一发音人模型和多个可供选择的第二发音人模型。用户在听书过程中，可以对各个人物角色的发音人模型进行更改。

参见图10，辅助阅读装置1000包括拆上传模块1010和获取模块1020。

上传模块1010用于将文本上传到服务器。

在本公开的一个实施例中，获取模块1020用于获取服务器提供的多个发音人模型，每个发音人模型对应一种发音模式，上传模块还用于将用户针对文本从多个发音人模型中选择的发音人模型的选择结果发送给服务器。

在本公开的另一个实施例中，获取模块1020用于从服务器获取一个或多个发音人模型，一个或多个发音人模型为服务器针对文本从多个发音人模型中选择的发音人模型，每个发音人模型对应一种发音模式。

本公开还可以实现为一种视频播放装置。

视频播放装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，下面所描述的视频播放装置中的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就视频播放装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

在本公开的一个实施例中，视频播放装置包括构建模块、选择模块以及发送模块。构建模块用于构建多个发音人模型，每个发音人模型对应一种发音模式；选择模块，用于针对待播放视频，从多个发音人模型中选择对应的发音人模型；发送模块，用于将选择的发音人模型发送给客户端，以便客户端基于选择的发音人模型实现待播放视频的播放。

在本公开的另一个实施例中，视频播放装置包括构建模块、选择模块以及播放播放模块。构建模块用于构建多个发音人模型，每个发音人模型对应一种发音模式；选择模块用于针对待播放视频，从多个发音人模型中选择对应的发音人模型；播放模块用于基于选择的发音人模型实现待播放视频的播放。

在本公开的另一个实施例中，视频播放装置包括获取模块和播放模块。获取模块用于从服务器获取一个或多个发音人模型，一个或多个发音人模型为服务器针对待播放视频从多个发音人模型中选择的发音人模型，每个发音人模型对应一种发音模式；播放模块用于基于用户选择的发音人模型实现待播放视频的播放。

在本公开的另一个实施例中，视频播放装置包括构建模块、接收模块、发送模块。构建模块用于构建多个发音人模型，每个发音人模型对应一种发音模式；接收模块用于接收用户通过第二客户端上传的视频；发送模块用于向第二客户端发送多个发音人模型，接收模块还用于从第二客户端获取用户从多个发音人模型中选择的一个或多个发音人模型，发送模块还用于将一个或多个发音人模型发送给期望观看视频的第一客户端，以便第一客户端基于一个或多个发音人模型实现视频的播放。

在本公开的另一个实施例中，视频播放装置包括上传模块、获取模块。上传模块用于将视频上传到服务器；获取模块用于获取服务器提供的多个发音人模型，每个发音人模型对应一种发音模式，上传模块还用于将用户针对视频从多个发音人模型中选择的发音人模型的选择结果发送给服务器。

图11示出了根据本公开一实施例可用于实现上述辅助阅读方法或视频播放方法的计算设备的结构示意图。

参见图11，计算设备1100包括存储器1110和处理器1120。

处理器1120可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1120可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1120可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器1110可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1120或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1110可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1110可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1110上存储有可执行代码，当可执行代码被处理器1120处理时，可以使处理器1120执行上文述及的辅助阅读方法或视频播放方法。

上文中已经参考附图详细描述了根据本发明的辅助阅读方法、视频播放方法、装置及设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种辅助阅读方法，其特征在于，包括：

构建多个发音人模型，每个所述发音人模型对应一种发音模式；

针对待阅读文本，从所述多个发音人模型中选择对应的发音人模型，其中，从所述多个发音人模型中选择的发音人模型包括：与所述待阅读文本的匹配度最高的第一发音人模型，所述第一发音人模型为所述待阅读文本的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待阅读文本的候选发音人模型；

将选择的发音人模型发送给客户端，以便所述客户端基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待阅读文本的语音播放所使用的发音人模型。

2.根据权利要求1所述的辅助阅读方法，其特征在于，从所述多个发音人模型中选择对应的发音人模型的步骤包括：

根据所述待阅读文本针对的受众，从所述多个发音人模型中选择与所述受众相适配的发音人模型；并且/或者

根据期望阅读所述待阅读文本的听众，从所述多个发音人模型中选择与所述听众相适配的发音人模型；并且/或者

根据所述待阅读文本涉及的人物角色，从所述多个发音人模型中选择与所述人物角色相适配的发音人模型；并且/或者

根据所述待阅读文本的内容，从所述多个发音人模型中选择与所述内容相匹配的发音人模型；并且/或者

根据所述待阅读文本被其他客户端播放时所使用的发音人模型，从所述多个发音人模型中选择一个或多个发音人模型。

3.根据权利要求2所述的辅助阅读方法，其特征在于，根据所述待阅读文本涉及的人物角色从所述多个发音人模型中选择与所述人物角色相适配的发音人模型的步骤包括：

对所述待阅读文本进行解析，以确定所述待阅读文本涉及的人物角色以及所述待阅读文本中与各个人物角色相对应的文本内容；

针对每个所述文本内容，从所述多个发音人模型中选择与该文本内容对应的人物角色相适配的发音人模型。

4.根据权利要求1所述的辅助阅读方法，其特征在于，从所述多个发音人模型中选择的发音人模型包括所述第一发音人模型和所述一个或多个第二发音人模型，该方法还包括：

将所述第一发音人模型和所述一个或多个第二发音人模型发送给所述待阅读文本的作者所使用的客户端；

接收所述作者针对所述第一发音人模型的修改，其中，所述将选择的发音人模型发送给客户端的步骤包括：将修改后的第一发音人模型和一个或多个第二发音人模型发送给客户端。

5.根据权利要求1所述的辅助阅读方法，其特征在于，还包括：

为所述发音人模型设置能够表征所述发音人模型所对应的发音模式的标签。

6.根据权利要求5所述的辅助阅读方法，其特征在于，从所述多个发音人模型中选择对应的发音人模型的步骤包括：

基于所述发音人模型具有的标签，从所述多个发音人模型中选择与所述待阅读文本相对应的发音人模型。

7.根据权利要求5所述的辅助阅读方法，其特征在于，所述标签包括以下至少一项：

用于表征所述发音人模型的性别的标签；

用于表征所述发音人模型的发音风格的标签；

用于表征所述发音人模型充当过的人物角色的标签；

用于表征所述发音人模型适于充当的人物角色的标签。

8.一种辅助阅读方法，其特征在于，包括：

基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待阅读文本的语音播放所使用的发音人模型。

9.一种辅助阅读方法，其特征在于，包括：

从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待阅读文本从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式，其中，所述一个或多个发音人模型包括：与所述待阅读文本的匹配度最高的第一发音人模型，所述第一发音人模型为所述待阅读文本的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待阅读文本的候选发音人模型；以及

10.一种辅助阅读方法，其特征在于，包括：

将待阅读文本拆分成多个文本内容；

针对每个所述文本内容，从多个发音人模型中选择与该文本内容对应的发音人模型，其中，每个发音人模型对应一种发音模式，从所述多个发音人模型中选择的发音人模型包括：与所述文本内容的匹配度最高的第一发音人模型，所述第一发音人模型为所述文本内容的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述文本内容的候选发音人模型；

将针对各个所述文本内容所选择的发音人模型发送给客户端，以便所述客户端基于用户是否将所述文本内容的默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现文本内容的语音播放所使用的发音人模型。

11.一种视频播放方法，其特征在于，包括：

针对待播放视频，从所述多个发音人模型中选择对应的发音人模型，其中，从所述多个发音人模型中选择的发音人模型包括：与所述待播放视频的匹配度最高的第一发音人模型，所述第一发音人模型为所述待播放视频的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待播放视频的候选发音人模型；

将选择的发音人模型发送给客户端，以便所述客户端基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待播放视频的播放所使用的发音人模型。

12.一种视频播放方法，其特征在于，包括：

基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待播放视频的播放所使用的发音人模型。

13.一种视频播放方法，其特征在于，包括：

从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待播放视频从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式，其中，所述一个或多个发音人模型包括：与所述待播放视频的匹配度最高的第一发音人模型，所述第一发音人模型为所述待播放视频的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待播放视频的候选发音人模型；以及

14.一种辅助阅读装置，其特征在于，包括：

构建模块，用于构建多个发音人模型，每个所述发音人模型对应一种发音模式；

选择模块，用于针对待阅读文本，从所述多个发音人模型中选择对应的发音人模型，其中，所述选择模块从所述多个发音人模型中选择的发音人模型包括：与所述待阅读文本的匹配度最高的第一发音人模型，所述第一发音人模型为所述待阅读文本的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待阅读文本的候选发音人模型；

发送模块，用于将选择的发音人模型发送给客户端，以便所述客户端基于所述选择的发音人模型实现所述待阅读文本的语音播放。

15.一种辅助阅读装置，其特征在于，包括：

语音播放模块，用于基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果所述选择的发音人模型，确定实现所述待阅读文本的语音播放所使用的发音人模型。

16.一种辅助阅读装置，其特征在于，包括：

获取模块，用于从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待阅读文本从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式，其中，所述一个或多个发音人模型包括：与所述待阅读文本的匹配度最高的第一发音人模型，所述第一发音人模型为所述待阅读文本的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待阅读文本的候选发音人模型；以及

语音播放模块，用于基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待阅读文本的语音播放所使用的发音人模型。

17.一种辅助阅读装置，其特征在于，包括：

拆分模块，用于将待阅读文本拆分成多个文本内容；

选择模块，用于针对每个所述文本内容，从多个发音人模型中选择与该文本内容对应的发音人模型，其中，每个发音人模型对应一种发音模式，其中，从所述多个发音人模型中选择的发音人模型包括：与所述文本内容的匹配度最高的第一发音人模型，所述第一发音人模型为所述文本内容的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述文本内容的候选发音人模型；

发送模块，用于将针对各个所述文本内容所选择的发音人模型发送给客户端，以便所述客户端基于用户是否将所述文本内容的默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现文本内容的语音播放所使用的发音人模型。

18.一种视频播放装置，其特征在于，包括：

选择模块，用于针对待播放视频，从所述多个发音人模型中选择对应的发音人模型，其中，所述选择模块从所述多个发音人模型中选择的发音人模型包括：与所述待播放视频的匹配度最高的第一发音人模型，所述第一发音人模型为所述待播放视频的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待播放视频的候选发音人模型；

发送模块，用于将选择的发音人模型发送给客户端，以便所述客户端基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待播放视频的播放所使用的发音人模型。

19.一种视频播放装置，其特征在于，包括：

播放模块，用于基于用户是否将默认发音人模型由第一发音人模型替换为第二发音人模型的操作结果，确定实现所述待播放视频的播放所使用的发音人模型。

20.一种视频播放装置，其特征在于，包括：

获取模块，用于从服务器获取一个或多个发音人模型，所述一个或多个发音人模型为所述服务器针对待播放视频从多个发音人模型中选择的发音人模型，每个所述发音人模型对应一种发音模式，其中，所述一个或多个发音人模型包括：与所述待播放视频的匹配度最高的第一发音人模型，所述第一发音人模型为所述待播放视频的默认发音人模型；和一个或多个第二发音人模型，所述第二发音人模型为所述待播放视频的候选发音人模型；以及

21.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至13中任何一项所述的方法。

22.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至13中任一项所述的方法。