CN111524501B

CN111524501B - 语音播放方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN111524501B
Application number: CN202010139967.3A
Authority: CN
Inventors: 张国超; 王海瑞; 苏少炜; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2023-09-26
Anticipated expiration: 2040-03-03
Also published as: CN111524501A

Abstract

本公开提供了一种语音播放方法、装置、计算机设备及计算机可读存储介质，属于语音处理技术领域。所述方法包括：接收目标书籍的音频资源获取请求，基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容，获取目标书籍的音频资源，并基于获取到的音频资源进行语音播放。对于目标书籍中不同角色对应的文本内容，获取音频资源时使用的是角色对应的不同音色模型，进而可以在语音播放时使用不同的声音来对不同的角色对应的文本内容进行播放，从而能够使得不同角色的文本内容能够以不同的听觉效果来展示给用户，可以便于用户对目标书籍中各个角色进行区分，提高用户体验。

Description

语音播放方法、装置、计算机设备及计算机可读存储介质

技术领域

本公开涉及语音处理技术领域，特别涉及一种语音播放方法、装置、计算机设备及计算机可读存储介质。

背景技术

在人们的日常生活过程中，阅读无疑是人们学习知识和丰富精神生活的重要途径，但在许多现实生活的场景中，如散步、开车、洗澡、做家务等，人们可能不方便实现文字阅读，因此，通过语音播放的方式来听书作为一种不伤眼且能利用碎片时间阅读的全新方式，逐渐成为人们阅读的一种重要方式。

目前在听书时，用户可以在终端上发起选择操作来选择想要阅读的书籍，终端可以响应于用户触发的选择操作，根据用户选择的书籍向服务器发送音频资源获取请求，服务器响应于接收到的音频资源获取请求，对书籍中的文字进行语音合成，并将合成得到的音频资源发送给服务器，由服务器返回给终端，而终端接收到服务器发送的音频资源后，可以基于接收到的音频资源进行播放，使得用户可以实现听书的目的。

对于书籍里的不同人物，在进行语音合成时使用的都是同一种音色，导致用户通过语音播放的方式来听书时，听到的都是同一种声音，用户需要根据听到的内容，自行对不同人物进行区分，这样很容易使用户产生听力疲劳，用户体验较差。

发明内容

本公开实施例提供了一种语音播放方法、装置、计算机设备及计算机可读存储介质，可以解决相关技术中用户需要自行对书籍中的不同人物进行区分、导致用户体验较差的问题。所述技术方案如下：

一方面，提供了一种语音播放方法，该方法包括：

接收目标书籍的音频资源获取请求；

基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源，该音频资源用于采用不同音色表示不同角色对应的文本内容；

基于该音频资源进行语音播放。

在一种可能的实现方式中，该基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源包括：

响应于该音频资源获取请求，向目标服务器发送音频资源获取指令，该音频资源获取指令携带该目标书籍的书籍标识；

接收该目标服务器返回的该音频资源。

对该目标书籍的文本内容进行识别，得到该目标书籍中不同角色对应的文本内容；

根据该目标书籍的文本内容，确定该目标书籍的文本内容对应的音素序列以及该目标书籍中不同角色对应的文本内容与该音素序列的对应关系；

通过该目标书籍的角色对应的不同音色模型，对该目标书籍中不同角色对应的文本内容对应的音素序列进行合成，得到该目标书籍的音频资源。

在一种可能的实现方式中，该目标书籍中的不同角色包括出场角色和背景角色，该对该目标书籍的文本内容进行识别，得到该目标书籍中不同角色对应的文本内容包括：

对该目标书籍的文本内容进行识别，得到该目标书籍中出场角色对应的角色名称和关键字；

将该角色名称及关键字对应的文本内容确定为该角色名称所指示的角色对应的内容，将剩余部分的文本内容确定为背景角色对应的内容。

在一种可能的实现方式中，该通过该目标书籍的角色对应的不同音色模型，对该目标书籍中不同角色对应的文本内容对应的音素序列进行合成之前，该方法还包括：

根据该音素序列中各个音素对应的上下文音素，预测该音素序列中各个音素的频率。

获取该目标书籍的音频配置文件，该音频配置文件用于指示该目标书籍的角色对应的不同音色类型；

根据该音频配置文件，确定该目标书籍的各个角色对应的不同音色类型的不同音色模型。

在一种可能的实现方式中，该接收目标书籍的音频资源获取请求之后，该方法还包括：

根据该目标书籍的书籍标识，在数据缓存中进行查询；

若该数据缓存中存在该书籍标识对应的音频资源，则基于该数据缓存中的音频资源进行语音播放；

若该数据缓存中不存在该书籍标识对应的音频资源，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤。

在一种可能的实现方式中，该若该数据缓存中存在该书籍标识对应的音频资源，则基于该数据缓存中的音频资源进行语音播放包括：

若该数据缓存中存在该书籍标识对应的音频资源，则根据该数据缓存中的音频资源生成随机因子；

若该随机因子小于或等于预设阈值，则基于该数据缓存中的音频资源进行语音播放；

若该随机因子大于预设阈值，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤。

在一种可能的实现方式中，该若该随机因子大于预设阈值，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤之后，该方法还包括：

将获取到的该目标书籍的音频资源与该数据缓存中的音频资源进行比较；

若获取到的该目标书籍的音频资源与该数据缓存中的音频资源相同，则基于该数据缓存中的音频资源进行语音播放；

若获取到的该目标书籍的音频资源与该数据缓存中的音频资源不相同，则将该数据缓存中的音频资源更新为获取到的该目标书籍的音频资源，基于该数据缓存中的音频资源进行语音播放。

一方面，提供了一种语音播放装置，该装置包括：

接收模块，用于接收目标书籍的音频资源获取请求；

获取模块，用于基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源，该音频资源用于采用不同音色表示不同角色对应的文本内容；

语音播放模块，用于基于该音频资源进行语音播放。

在一种可能的实现方式中，该装置还包括：

发送模块，用于响应于该音频资源获取请求，向目标服务器发送音频资源获取指令，该音频资源获取指令携带该目标书籍的书籍标识；

该接收模块，还用于接收该目标服务器返回的该音频资源。

在一种可能的实现方式中，该装置还包括：

识别模块，用于对该目标书籍的文本内容进行识别，得到该目标书籍中不同角色对应的文本内容；

确定模块，用于根据该目标书籍的文本内容，确定该目标书籍的文本内容对应的音素序列以及该目标书籍中不同角色对应的文本内容与该音素序列的对应关系；

合成模块，用于通过该目标书籍的角色对应的不同音色模型，对该目标书籍中不同角色对应的文本内容对应的音素序列进行合成，得到该目标书籍的音频资源。

在一种可能的实现方式中，该识别模块，还用于对该目标书籍的文本内容进行识别，得到该目标书籍中出场角色对应的角色名称和关键字；

该确定模块，还用于将该角色名称及关键字对应的文本内容确定为该角色名称所指示的角色对应的内容，将剩余部分的文本内容确定为背景角色对应的内容。

在一种可能的实现方式中，该装置还包括：

预测模块，用于根据该音素序列中各个音素对应的上下文音素，预测该音素序列中各个音素的频率。

在一种可能的实现方式中，该获取模块，还用于获取该目标书籍的音频配置文件，该音频配置文件用于指示该目标书籍的角色对应的不同音色类型；

该确定模块，还用于根据该音频配置文件，确定该目标书籍的各个角色对应的不同音色类型的不同音色模型。

在一种可能的实现方式中，该装置还包括：

查询模块，用于根据该目标书籍的书籍标识，在数据缓存中进行查询；

该语音播放模块，还用于若该数据缓存中存在该书籍标识对应的音频资源，则基于该数据缓存中的音频资源进行语音播放；

该获取模块，还用于若该数据缓存中不存在该书籍标识对应的音频资源，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤。

在一种可能的实现方式中，该装置还包括：

生成模块，用于若该数据缓存中存在该书籍标识对应的音频资源，则根据该数据缓存中的音频资源生成随机因子；

该语音播放模块，还用于若该随机因子小于或等于预设阈值，则基于该数据缓存中的音频资源进行语音播放；

该获取模块，还用于若该随机因子大于预设阈值，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤。

在一种可能的实现方式中，该装置还包括：

比较模块，用于将获取到的该目标书籍的音频资源与该数据缓存中的音频资源进行比较；

该语音播放模块，还用于若获取到的该目标书籍的音频资源与该数据缓存中的音频资源相同，则基于该数据缓存中的音频资源进行语音播放；

更新模块，用于若获取到的该目标书籍的音频资源与该数据缓存中的音频资源不相同，则将该数据缓存中的音频资源更新为获取到的该目标书籍的音频资源；

该语音播放模块，还用于基于该数据缓存中的音频资源进行语音播放。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该语音播放方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该语音播放方法所执行的操作。

一方面，提供了一种应用程序，该应用程序产品存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该语音播放方法所执行的操作。

本公开提供的方案，通过接收目标书籍的音频资源获取请求，基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容，获取目标书籍的音频资源，并基于获取到的音频资源进行语音播放。对于目标书籍中不同角色对应的文本内容，获取音频资源时使用的是角色对应的不同音色模型，进而可以在语音播放时使用不同的声音来对不同的角色对应的文本内容进行播放，从而能够使得不同角色的文本内容能够以不同的听觉效果来展示给用户，可以便于用户对目标书籍中各个角色进行区分，提高用户体验。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种语音播放方法的实施环境示意图；

图2是本公开实施例提供的一种语音播放方法的流程图；

图3是本公开实施例提供的一种语音播放方法的流程图；

图4是本公开实施例提供的一种音频资源获取过程的示意图；

图5是本公开实施例提供的一种获取音色模型和音频配置文件的原理示意图；

图6是本公开实施例提供的一种语音播放方法的流程图；

图7是本公开实施例提供的一种语音播放装置的结构示意图；

图8是本公开实施例提供的一种计算机设备的结构示意图；

图9是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

下面先对本公开涉及的相关技术和术语进行解释：

数字阅读：指阅读的数字化，主要有两层含义：一是阅读对象的数字化，也就是阅读的内容是以数字化的方式呈现的，如电子书、网络小说、电子地图、数码照片、博客、网页等等；二是阅读方式的数字化，就是阅读的载体、终端不是平面的纸张，而是带屏幕显示的电子仪器，如个人计算机(Personal Computer，PC)、掌上电脑(Personal DigitalAssistant，PDA)、动态影像专家压缩标准音频层面3(Moving Picture Experts GroupAudio Layer III，MP3)播放器、动态影像专家压缩标准音频层面4(Moving PictureExperts Group Audio Layer IV，MP4)播放器、笔记本电脑、手机、阅读器等等。与传统的纸质出版物相比，数字化电子出版物具有存储量大、检索便捷、便于保存、成本低廉等优点。

自然语言处理(Natural Language Processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理可以实现人与计算机之间用自然语言进行有效通信的各种理论和方法，简单来说，就是让机器理解人说话的意思。

语音合成：是通过机械的、电子的方法产生人造语音的技术。文语转换(Text ToSpeech，TTS)技术隶属于语音合成，可以将文本转化为语音输出，让机器可以说话。

图1是本公开实施例提供的一种语音播放方法的实施环境示意图，参见图1，该实施环境包括：计算机设备101和目标服务器102。

计算机设备101可以为智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。计算机设备101可以响应于在可视化界面上用户所触发的书籍播放操作，生成音频资源获取请求，并基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容，来获取目标书籍的音频资源，基于获取到的音频资源进行语音播放。计算机设备101还可以通过有线网络或无线网络与目标服务器102进行通信，响应于音频资源获取请求，向目标服务器发送音频资源获取指令，并接收目标服务器返回的音频资源，基于接收到的音频资源进行语音播放。该计算机设备101中还可以预先分配有一部分存储空间作为数据缓存，用于存储计算机设备101在一段时间内生成的音频资源，数据缓存中的音频资源存在有效时限，计算机设备101可以自行对该已过期的音频资源进行删除，并且可以基于新生成的音频资源对数据缓存中的音频资源进行更新。

计算机设备101可以泛指多个计算机设备中的一个，本实施例仅以计算机设备101来举例说明。本领域技术人员可以知晓，上述计算机设备的数量可以更多或更少。比如上述计算机设备可以仅为一个，或者上述计算机设备为几十个或几百个，或者更多数量，本申请实施例对计算机设备的数量和设备类型不加以限定。

目标服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。目标服务器102可以通过有线网络或无线网络与计算机设备101进行通信，接收计算机设备101发送的音频资源获取指令，响应于该音频资源获取请求，基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容，来获取目标书籍的音频资源，并向计算机设备101发送该音频资源。该目标服务器102中还可以预先分配有一部分存储空间，作为数据缓存，用于存储目标服务器102在一段时间内生成的音频资源，数据缓存中的音频资源存在有效时限，目标服务器102可以自行对该已过期的音频资源进行删除，并且可以基于新生成的音频资源对数据缓存中的音频资源进行更新。可选地，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，目标服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是本公开实施例提供的一种语音播放方法的流程图，该方法可以应用于计算机设备，参见图2，该方法包括：

201、接收目标书籍的音频资源获取请求。

202、基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源，该音频资源用于采用不同音色表示不同角色对应的文本内容。

203、基于该音频资源进行语音播放。

本公开实施例提供的方案，通过接收目标书籍的音频资源获取请求，基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容，获取目标书籍的音频资源，并基于获取到的音频资源进行语音播放。对于目标书籍中不同角色对应的文本内容，获取音频资源时使用的是角色对应的不同音色模型，进而可以在语音播放时使用不同的声音来对不同的角色对应的文本内容进行播放，从而能够使得不同角色的文本内容能够以不同的听觉效果来展示给用户，可以便于用户对目标书籍中各个角色进行区分，提高用户体验。

接收该目标服务器返回的该音频资源。

根据该目标书籍的书籍标识，在数据缓存中进行查询；

上述图2所示仅为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的方案进行进一步阐述，图3是本公开实施例提供的一种语音播放方法的流程图，参见图3，该方法包括：

301、计算机设备接收目标书籍的音频资源获取请求。

在一种可能的实现方式中，用户可以通过在可视化界面上点击目标书籍对应的播放按钮，计算机设备在检测到该触发操作时，可以触发该目标书籍的音频资源获取请求，该音频资源获取请求可以携带目标书籍的书籍标识。

需要说明的是，计算机设备接收该音频资源获取请求后，还可以从数据缓存中获取对应的音频资源，图4是本公开实施例提供的一种音频资源获取过程的示意图，参见图4，计算机设备可以根据该目标书籍的书籍标识，在数据缓存中进行查询，若该数据缓存中存在该书籍标识对应的音频资源，则可以基于该数据缓存中的音频资源进行语音播放，若该数据缓存中不存在该书籍标识对应的音频资源，则可以执行下述步骤302至307来进行该目标书籍的音频资源的获取，并基于获取到的音频资源进行语音播放。通过在数据缓存中存在该目标书籍的音频资源时，可以直接从数据缓存中获取到该音频资源，从而可以有效降低计算机设备和目标服务器的数据处理量，而且还可以减少响应时间，提高用户体验。

需要说明的是，计算机设备还可以根据随机因子来对是否使用数据缓存中的音频资源进行确定，参见图4，若该数据缓存中存在该书籍标识对应的音频资源，则计算机设备或目标服务可以根据该数据缓存中的音频资源生成随机因子，若该随机因子小于或等于预设阈值，则可以基于该数据缓存中的音频资源进行语音播放，若该随机因子大于预设阈值，则可以执行下述步骤302至307来进行该目标书籍的音频资源的获取，并基于获取到的音频资源进行语音播放。通过采用随机因子，来决定是否使用数据缓存中的音频资源，可以带来较为灵活的用户体验，而且可以随机触发后续对数据缓存中的音频资源的更新，保证数据缓存中音频资源的时效性。

其中，若该随机因子大于预设阈值，则计算机设备或目标服务器可以将获取到的该目标书籍的音频资源与该数据缓存中的音频资源进行比较，若获取到的该目标书籍的音频资源与该数据缓存中的音频资源相同，则可以基于该数据缓存中的音频资源进行语音播放，若获取到的该目标书籍的音频资源与该数据缓存中的音频资源不相同，则可以将该数据缓存中的音频资源更新为获取到的该目标书籍的音频资源，基于该数据缓存中的音频资源进行语音播放。通过对数据缓存中的音频数据进行更新，可以有效保障数据库中音频资源的准确性，从而可以在基于从数据缓存中获取到的音频资源进行语音播放时，保证用户的收听效果，提高用户体验。

需要说明的是，计算机设备还可以每隔预设时长对数据缓存中的音频资源进行清理，再重新将后续生成的新的音频资源存储到数据缓存中，以便对音频资源进行及时更新，保证用户从数据缓存中获取到的音频资源是更新后播放效果较佳的音频资源，提高用户的收听体验。

302、计算机设备获取该目标书籍的音频配置文件，该音频配置文件用于指示该目标书籍的角色对应的不同音色类型。

在一种可能的实现方式中，计算机设备在获取到该音频资源获取请求后，可以根据音频资源获取请求中携带的该目标书籍的书籍标识，在书籍配置信息数据库中进行查询，获取到该目标书籍的书籍标识对应的音频配置文件。

需要说明的是，该音频配置文件可以由书籍提供者上传至计算机设备处，参见图5，图5是本公开实施例提供的一种获取音色模型和音频配置文件的原理示意图，计算机设备可以从书籍提供者处获取到多本书籍的各种配置文件，如音频配置文件等，计算机设备还可以从音色模型提供者处获取到多种类型的音色模型。

其中，该音频配置文件可以用于指示该目标书籍中的角色和不同音色类型的对应关系，具体地，该音频配置文件可以指示出目标书籍的背景角色对应的音色类型以及目标书籍的出场角色对应的音色类型。可选地，该音频配置文件还可以仅用于指示该目标书籍中的出场角色和不同音色类型的对应关系。例如，对于包括3个角色的书籍，该音频配置文件可以指示出角色1对应的音色类型为甜美女声，出场角色2对应的音色类型为稚嫩童声，可选地，该音频配置文件还可以指示出背景角色对应的音色类型为阳光男声。

需要说明的是，该目标书籍的下载文件中可以包括该音频配置文件，也即是，若用户已经通过计算机设备对该目标书籍进行了下载，则此时计算机设备已经获取到了该目标书籍的音频配置文件，因而，计算机设备可以直接从该目标书籍的下载文件中提取音频配置文件，根据该音频配置文件的内容，来确定目标书籍中各个角色对应的不同音色类型的不同音色模型，而无需再进行音频配置文件的获取。

303、计算机设备根据该音频配置文件，确定该目标书籍的各个角色对应的不同音色类型的不同音色模型。

需要说明的是，计算机设备可以维护有一个音色信息数据库，该音色信息数据库中可以包括多种音色模型和各种音色模型与音色类型的对应关系。

在一种可能的实现方式中，计算机设备可以根据该音频配置文件所提供的音色类型，在音色信息数据库中进行查询，从而根据音色类型与音色模型的对应关系，确定背景角色和各个出场角色对应的音色模型。

在另一种可能的实现方式中，若音频配置文件仅用于指示该目标书籍中的出场角色和不同音色类型的对应关系，则计算机设备可以根据该音频配置文件所提供的音色类型，在音色信息数据库中进行查询，从而根据音色类型与音色模型的对应关系，确定各个出场角色对应的音色模型。而对于背景角色对应的音色类型，计算机设备还可以根据该目标书籍的书籍标识，确定该目标书籍的书籍类型，进而根据该目标书籍的书籍类型，确定该目标书籍的背景角色对应的音色类型，进而根据背景角色对应的音色类型在音色信息数据库中进行查询，从而根据音色类型与音色模型的对应关系，确定背景角色对应的音色模型。例如，若该目标书籍为仙侠小说，则计算机设备可以确定该目标书籍的背景角色对应的音色类型为仙女声音，若该目标书籍为军事题材小说，则计算机设备可以确定该目标书籍的背景角色对应的音色类型为阳光男声，若该目标书籍为少儿读物，则计算机设备可以确定该目标书籍的背景角色对应的音色类型为稚嫩童声。

其中，该音色信息数据库中还可以记录有各个音色模型的历史使用信息，如各个音色模型被使用的次数、概率等。该历史使用信息可以作为当一个音色类型对应于多个音色模型时的选取参考项目。若同一个音色类型对应多个音色模型，则计算机设备可以根据该历史使用信息，从同一个音色类型对应的多个音色模型中，确定历史使用信息满足目标条件的音色模型，作为与该音色类型对应的角色要使用的音色模型。例如，计算机设备可以选择同一个音色类型对应的多个音色模型中被使用次数最多的音色模型，作为与该音色类型对应的角色要使用的音色模型。通过根据各个音色模型的历史使用信息，来对各个音色模型进行选择，可以保证选择的音色模型比较符合用户的要求，提高用户体验。可选地，计算机设备还可以从一个音色类型所对应的多个音色模型中随机选择一个音色模型，本公开实施例对具体采用哪种方式不加以限定。

此外，若背景角色与目标书籍中任一个角色的音色类型相同，则计算机设备也可以基于历史使用信息来确定两者的音色模型，也即是，该方法可以包括：将历史使用次数最多的音色模型确定为该目标书籍中的角色对应的音色模型，将历史使用次数次之的音色模型确定为该目标书籍的背景角色对应的音色模型。可选地，计算机设备还可以将历史使用次数位于前两位的音色模型随机分配给目标书籍中的角色和背景角色，本公开实施例对具体采用哪种方式不加以限定。

在上述可能的实现方式中，是以该音频配置文件中可以包括角色和音色类型的对应关系为例进行说明，而在另一可能实现方式中，该音频配置文件还可以包括角色与音色模型的对应关系，进而计算机设备可以直接根据该音频配置文件，来确定目标书籍中各个角色对应的音色模型，例如，该音频配置文件的代码可以如下所示：

通过上述音频配置文件的代码，计算机设备即可以直接确定背景角色对应的是普通声音模型，角色A对应的是音色模型1，角色B对应的是音色模型2，角色C对应的是音色模型3，角色D对应的是音色模型4，角色E对应的是音色模型5，而无需再根据音色类型来进行音色模型的选择。

304、计算机设备对该目标书籍的文本内容进行识别，得到该目标书籍中出场角色对应的角色名称和关键字。

在一种可能的实现方式中，计算机设备可以通过语义识别，来对该目标书籍的文本内容进行识别，确定出该目标书籍中出场角色对应的角色名称，并在该角色名称后的预设数量的字符数内，来对文本内容中的关键字进行识别。例如，该关键字可以为“说”、“回答”、“问”等，可选地，该目标书籍中的关键字还可以有许多其他的字或词，本公开实施例对此不加以限定。

例如，对于如下一段书籍中的内容：

角色A说：“那时你自然也这般大叫了？”

角色B回答：“那一次卑职奉命驻守M地，并没有去N地。”

角色A惋惜的说：“原来如此，可惜，可惜！”

基于上述示例，计算机设备可以对这段文本内容进行识别，确定出这段文本内容中出场的角色A和角色B，并识别出角色名称后的文本内容中的关键字“说”、“回答”。

在另一种可能的实现方式中，计算机设备还可以对文本内容中的标点符号进行识别，识别出文本内容中用于指示说话内容的标点符号，将该标点符号所指示的内容确定角色对应的文本内容，再在该标点符号前后的预设数量的字符数内，来对文本内容中的角色名称进行识别。

305、计算机设备将该角色名称及关键字对应的文本内容确定为该角色名称所指示的角色对应的内容，将剩余部分的文本内容确定为背景角色对应的内容。

在一种可能的实现方式中，若计算机设备在步骤304中识别出了角色名称和关键字，则在该步骤305中，计算机设备可以对文本内容中的标点符号进行识别，并根据识别出的标点符号，结合识别出的出场角色的角色名称和关键字，来确定各个角色对应的文本内容的起始和终止。例如，计算机设备可以在识别出的角色名称和关键字后，将位于角色名称和关键字后的：或“作为该出场角色对应的文本内容的起始标识，将”确定为该出场角色对应的文本内容的终止标识，进而将位于起始标识和终止标识之间的文本内容确定为该角色名称所指示的角色对应的内容，而将位于上一个终止标识之后和这个起始标识之间的内容确定为背景角色对应的内容。可选地，该起始标识和终止标识还可以包括其他多种类型，本公开实施例对此不加以限定。

在另一种可能的实现方式中，若计算机设备在步骤304中识别出了“”和角色名称，则在该步骤305中，计算机设备可以将位于“”中的文本内容确定为该角色对应的文本内容。

306、计算机设备根据该目标书籍的文本内容，确定该目标书籍的文本内容对应的音素序列以及该目标书籍中不同角色对应的文本内容与该音素序列的对应关系。

需要说明的是，计算机设备可以通过TTS技术，将计算机设备自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出。具体来讲，通过TTS技术来进行语音合成可以分为文本转音素、频率预测、音频合成三个过程。其中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕和〔a〕两个发音动作，是两个音素。

在一种可能的实现方式中，计算机设备可以根据该目标书籍的文本内容，通过查询标准音素字典，确定与文本内容对应的音素序列，还可以根据步骤305中确定出的文本内容与角色的对应关系，确定出不同角色对应的文本内容与该音素序列的对应关系。

需要说明的是，在进行音素序列的确定时，对于标准音素字典里没有包含的字或词，可以通过神经网络的回退机制来对其音素进行预测。可选地，还可以采用其他方式，本公开实施例对此不加以限定。

307、计算机设备通过该目标书籍的角色对应的不同音色模型，对该目标书籍中不同角色对应的文本内容对应的音素序列进行合成，得到该目标书籍的音频资源。

需要说明的是，为了让发音尽可能地接近人声，在进行音频合成之前，还需要预测出每个音素的音调和语调，对于相同的声音，读出不同的音调和重音，会具有完全不同的含义，而预测每个音素的频率，可以帮助计算机设备确定什么音素该发什么音高和什么音调。此外，计算机设备还可以对各个音素发音的持续时长进行预测，以保证合成的音频资源更加准确。

在进行各个音素的频率和发音持续时长进行确定时，该方法还可以包括：

在进行音频合成之前，计算机设备可以通过分割模型，来进行各个音素的频率的确定，并结合各个音素的上下文，来对各个音素发音的持续时间进行预测，该分割模型可以由已有的文本数据及对应的音素提前训练得到，可选地，还可以采用其他方式来进行频率的确定和发音持续时长的预测，本公开实施例对此不加以限定。

在一种可能的实现方式中，计算机设备可以按照该音素序列中各个音素的顺序，并根据不同角色对应的文本内容该音素序列的对应关系，通过不同的音色模型，对将音素序列和各个音素的频率、发音持续时长进行合成，并将合成后的结果转化为原始波形，基于转化后得到的波形进行语音编码，以得到该目标书籍的音频资源。

例如，对于步骤304中作为示例的文本内容，若背景角色对应于普通声音模型，角色A对应于音色模型1，角色B对应于音色模型2，则在进行音频资源的合成时，可以按照示例的文本内容对应的音素序列的顺序，通过普通声音模型来对“角色A说”这部分文本内容的音频资源进行合成，通过音色模型1来对“那时你自然也这般大叫了”这部分文本内容的音频资源进行合成，通过普通声音模型来对“角色B回答”这部分文本内容的音频资源进行合成，通过音色模型2来对“那一次卑职奉命驻守M地，并没有去N地”这部分文本内容的音频资源进行合成，通过普通声音模型来对“角色A惋惜的说”这部分文本内容的音频资源进行合成，通过音色模型1来对“原来如此，可惜，可惜”这部分文本内容的音频资源进行合成，得到步骤304中这段文本内容对应的音频资源。

需要说明的是，上述步骤仅以按照文本顺序，来对各个角色对应的文本内容逐段进行语音合成，以得到整段文本内容对应的音频资源为例来进行说明的，在其他可能的实现方式中，计算机设备还可以并行对各个角色对应的文本内容进行语音合成，或按照任意顺序来对各个角色对应的文本内容进行语音合成，得到多个语音片段，最后再按照文本顺序对已合成的语音片段进行拼接，得到最终的音频资源，本公开实施例对具体采用哪种方式不加以限定。

308、计算机设备基于该音频资源进行语音播放。

需要说明的是，若是目标服务器通过与上述步骤302至307同理的步骤，来进行音频资源的获取，在获取到该目标书籍的音频资源后，可以将该音频资源发送给计算机设备，计算机设备可以接收目标服务器发送的音频资源，基于接收到的音频资源进行语音播放。

其中，在进行语音播放时，可以通过外接的耳机来进行语音播放，也可以通过计算机设备的外放来进行语音播放，本公开实施例对具体采用哪种方式不加以限定。

本公开实施例提供的方案，对于目标书籍中不同角色对应的文本内容，获取音频资源时使用的是角色对应的不同音色模型，进而可以在语音播放时使用不同的声音来对不同的角色对应的文本内容进行播放，从而能够使得不同角色的文本内容能够以不同的听觉效果来展示给用户，可以便于用户对目标书籍中各个角色进行区分，提高用户体验。通过根据书籍类型为书籍的背景角色定制不同的音色模型，并为书籍中的接收配置不同的音色模型来对该角色对应的文本内容进行阅读，可以为读者营造不同的氛围意境，此外，为小说中不同角色配置不同的音色，可以缓解因长期使用同一音色来对书籍进行语音播放带来的疲劳感。

上述图3所示的过程仅以计算机设备单独进行音频资源的获取为例进行说明，下面基于一种通过计算机设备与目标服务器之间的交互，来进行音频资源的获取的过程，来对本公开提供的方案进行进一步阐述，图6是本公开实施例提供的一种语音播放方法的流程图，参见图6，该方法包括：

601、计算机设备接收目标书籍的音频资源获取请求。

在一种可能的实现方式中，用户可以通过在可视化界面上点击目标书籍对应的播放按钮，计算机设备在检测到该触发操作时，可以触发该目标书籍的音频资源获取请求。

602、计算机设备响应于该音频资源获取请求，向目标服务器发送音频资源获取指令，该音频资源获取指令携带该目标书籍的书籍标识。

需要说明的是，目标服务器还可以根据该目标书籍的书籍标识，从数据缓存中获取音频资源，具体的获取过程与上述步骤301中所述的内容同理，此处不再赘述。

603、目标服务器获取该目标书籍的音频配置文件，该音频配置文件用于指示该目标书籍的角色对应的不同音色类型。

需要说明的是，目标服务器也可以维护有一个音色信息数据库，以便通过与上述步骤302中同理的方式，来对进行音频配置文件的获取，具体获取过程可以参见上述步骤302，此处不再赘述。

604、目标服务器根据该音频配置文件，确定该目标书籍的各个角色对应的不同音色类型的不同音色模型。

需要说明的是，该步骤的具体过程与上述步骤303同理，此处不再赘述。

605、目标服务器对该目标书籍的文本内容进行识别，得到该目标书籍中出场角色对应的角色名称和关键字。

需要说明的是，该步骤的具体过程与上述步骤304同理，此处不再赘述。

606、目标服务器将该角色名称及关键字对应的文本内容确定为该角色名称所指示的角色对应的内容，将剩余部分的文本内容确定为背景角色对应的内容。

需要说明的是，该步骤的具体过程与上述步骤305同理，此处不再赘述。

607、目标服务器根据该目标书籍的文本内容，确定该目标书籍的文本内容对应的音素序列以及该目标书籍中不同角色对应的文本内容与该音素序列的对应关系。

需要说明的是，该步骤的具体过程与上述步骤306同理，此处不再赘述。

608、目标服务器通过该目标书籍的角色对应的不同音色模型，对该目标书籍中不同角色对应的文本内容对应的音素序列进行合成，得到该目标书籍的音频资源。

需要说明的是，该步骤的具体过程与上述步骤307同理，此处不再赘述。

609、目标服务器将该目标书籍的音频资源发送给计算机设备。

610、计算机设备接收该目标服务器返回的该音频资源，基于该音频资源进行语音播放。

需要说明的是，该步骤中基于音频资源进行语音播放的具体过程与上述步骤308同理，此处不再赘述。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图7是本公开实施例提供的一种语音播放装置的结构示意图。参见图7，该装置包括：

接收模块701，用于接收目标书籍的音频资源获取请求；

获取模块702，用于基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源，该音频资源用于采用不同音色表示不同角色对应的文本内容；

语音播放模块703，用于基于该音频资源进行语音播放。

本公开实施例提供的装置，通过接收目标书籍的音频资源获取请求，基于目标书籍的角色对应的不同音色模型和目标书籍中不同角色对应的文本内容，获取目标书籍的音频资源，并基于获取到的音频资源进行语音播放。对于目标书籍中不同角色对应的文本内容，获取音频资源时使用的是角色对应的不同音色模型，进而可以在语音播放时使用不同的声音来对不同的角色对应的文本内容进行播放，从而能够使得不同角色的文本内容能够以不同的听觉效果来展示给用户，可以便于用户对目标书籍中各个角色进行区分，提高用户体验。

在一种可能的实现方式中，该装置还包括：

该接收模块701，还用于接收该目标服务器返回的该音频资源。

在一种可能的实现方式中，该装置还包括：

在一种可能的实现方式中，该获取模块702，还用于获取该目标书籍的音频配置文件，该音频配置文件用于指示该目标书籍的角色对应的不同音色类型；

在一种可能的实现方式中，该装置还包括：

该语音播放模块703，还用于若该数据缓存中存在该书籍标识对应的音频资源，则基于该数据缓存中的音频资源进行语音播放；

该获取模块702，还用于若该数据缓存中不存在该书籍标识对应的音频资源，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤。

在一种可能的实现方式中，该装置还包括：

该语音播放模块703，还用于若该随机因子小于或等于预设阈值，则基于该数据缓存中的音频资源进行语音播放；

该获取模块702，还用于若该随机因子大于预设阈值，则执行基于该目标书籍的角色对应的不同音色模型和该目标书籍中不同角色对应的文本内容，获取该目标书籍的音频资源的步骤。

在一种可能的实现方式中，该装置还包括：

该语音播放模块703，还用于若获取到的该目标书籍的音频资源与该数据缓存中的音频资源相同，则基于该数据缓存中的音频资源进行语音播放；

该语音播放模块703，还用于基于该数据缓存中的音频资源进行语音播放。

需要说明的是：上述实施例提供的语音播放装置在对书籍的文本内容进行语音播放时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音播放装置与语音播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本公开实施例提供的一种计算机设备的结构示意图。该计算机设备800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备800还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。

通常，计算机设备800包括有：一个或多个处理器801和一个或多个存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器801所执行以实现本公开中方法实施例提供的语音播放方法。

在一些实施例中，计算机设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置计算机设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在计算机设备800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在计算机设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在计算机设备的前面板，后置摄像头设置在计算机设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位计算机设备800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为计算机设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以计算机设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测计算机设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对计算机设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在计算机设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在计算机设备800的侧边框时，可以检测用户对计算机设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置计算机设备800的正面、背面或侧面。当计算机设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在计算机设备800的前面板。接近传感器816用于采集用户与计算机设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本公开实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)901和一个或多个的存储器902，其中，所述一个或多个存储器902中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的语音播放方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音播放方法，其特征在于，所述方法包括：

接收目标书籍的音频资源获取请求；

根据所述目标书籍的书籍标识，在数据缓存中进行查询；

若所述数据缓存中存在所述书籍标识对应的音频资源，则根据所述数据缓存中的音频资源生成随机因子；

若所述随机因子小于或等于预设阈值，则基于所述数据缓存中的音频资源进行语音播放；

若所述数据缓存中不存在所述书籍标识对应的音频资源，或，所述随机因子大于预设阈值，则基于所述目标书籍的角色对应的不同音色模型和所述目标书籍中不同角色对应的文本内容，获取所述目标书籍的音频资源，所述音频资源用于采用不同音色表示不同角色对应的文本内容；

基于所述音频资源进行语音播放。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标书籍的角色对应的不同音色模型和所述目标书籍中不同角色对应的文本内容，获取所述目标书籍的音频资源包括：

响应于所述音频资源获取请求，向目标服务器发送音频资源获取指令，所述音频资源获取指令携带所述目标书籍的书籍标识；

接收所述目标服务器返回的所述音频资源。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标书籍的角色对应的不同音色模型和所述目标书籍中不同角色对应的文本内容，获取所述目标书籍的音频资源包括：

对所述目标书籍的文本内容进行识别，得到所述目标书籍中不同角色对应的文本内容；

根据所述目标书籍的文本内容，确定所述目标书籍的文本内容对应的音素序列以及所述目标书籍中不同角色对应的文本内容与所述音素序列的对应关系；

通过所述目标书籍的角色对应的不同音色模型，对所述目标书籍中不同角色对应的文本内容对应的音素序列进行合成，得到所述目标书籍的音频资源。

4.根据权利要求3所述的方法，其特征在于，所述目标书籍中的不同角色包括出场角色和背景角色，所述对所述目标书籍的文本内容进行识别，得到所述目标书籍中不同角色对应的文本内容包括：

对所述目标书籍的文本内容进行识别，得到所述目标书籍中出场角色对应的角色名称和关键字；

将所述角色名称及关键字对应的文本内容确定为所述角色名称所指示的角色对应的内容，将剩余部分的文本内容确定为背景角色对应的内容。

5.根据权利要求3所述的方法，其特征在于，所述通过所述目标书籍的角色对应的不同音色模型，对所述目标书籍中不同角色对应的文本内容对应的音素序列进行合成之前，所述方法还包括：

根据所述音素序列中各个音素对应的上下文音素，预测所述音素序列中各个音素的频率。

6.根据权利要求1所述的方法，其特征在于，通过所述目标书籍的角色对应的不同音色模型，对所述目标书籍中不同角色对应的文本内容对应的音素序列进行合成之前，所述方法还包括：

获取所述目标书籍的音频配置文件，所述音频配置文件用于指示所述目标书籍的角色对应的不同音色类型；

根据所述音频配置文件，确定所述目标书籍的各个角色对应的不同音色类型的不同音色模型。

7.根据权利要求1所述的方法，其特征在于，所述若所述随机因子大于预设阈值，则执行基于所述目标书籍的角色对应的不同音色模型和所述目标书籍中不同角色对应的文本内容，获取所述目标书籍的音频资源的步骤之后，所述方法还包括：

将获取到的所述目标书籍的音频资源与所述数据缓存中的音频资源进行比较；

若获取到的所述目标书籍的音频资源与所述数据缓存中的音频资源相同，则基于所述数据缓存中的音频资源进行语音播放；

若获取到的所述目标书籍的音频资源与所述数据缓存中的音频资源不相同，则将所述数据缓存中的音频资源更新为获取到的所述目标书籍的音频资源，基于所述数据缓存中的音频资源进行语音播放。

8.一种语音播放装置，其特征在于，所述装置包括：

接收模块，用于接收目标书籍的音频资源获取请求；

查询模块，用于根据所述目标书籍的书籍标识，在数据缓存中进行查询；

生成模块，用于若所述数据缓存中存在所述书籍标识对应的音频资源，则根据所述数据缓存中的音频资源生成随机因子；

语音播放模块，用于若所述随机因子小于或等于预设阈值，则基于所述数据缓存中的音频资源进行语音播放；

获取模块，用于若所述数据缓存中不存在所述书籍标识对应的音频资源，或，若所述随机因子大于预设阈值，则基于所述目标书籍的角色对应的不同音色模型和所述目标书籍中不同角色对应的文本内容，获取所述目标书籍的音频资源，所述音频资源用于采用不同音色表示不同角色对应的文本内容；基于所述音频资源进行语音播放。

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音播放方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音播放方法所执行的操作。