CN113010138A

CN113010138A - 文章的语音播放方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113010138A
Application number: CN202110241752.7A
Authority: CN
Inventors: 谢映雪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-22
Anticipated expiration: 2041-03-04
Also published as: WO2022184055A1; CN113010138B

Abstract

本申请提供了一种文章的语音播放方法、装置、设备及计算机可读存储介质；方法包括：在文章的内容界面中，呈现文章的文本内容以及对应所述文章的语音播放功能项；接收到基于所述语音播放功能项触发的针对所述文章的语音播放指令；响应于所述语音播放指令，通过语音播放所述文本内容；在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色的角色特征相匹配的音色进行播放。通过本申请，能够在通过语音播放文本内容时，让用户感觉身临其境，提升语音播放所带来的沉浸感。

Description

文章的语音播放方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种文章的语音播放方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，基于智能终端的多媒体信息传播也越来越普遍，如，在手机终端呈现文章，供用户阅读。

相关技术中，在用户阅读文章的过程中，为用户提供语音播放功能，也即通过语音播放文章的文本内容，但相关技术中对于文章的所有内容都采用一个声音去朗读，导致用户无法沉浸于文章的内容中。

发明内容

本申请实施例提供一种文章的语音播放方法、装置、设备及计算机可读存储介质，能够在通过语音播放文本内容时，让用户感觉身临其境，提升语音播放所带来的沉浸感。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种文章的语音播放方法，包括：

在文章的内容界面中，呈现文章的文本内容以及对应所述文章的语音播放功能项；

接收到基于所述语音播放功能项触发的针对所述文章的语音播放指令；

响应于所述语音播放指令，通过语音播放所述文本内容；

在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色的角色特征相匹配的音色进行播放。

上述方案中，所述对于与所述角色对应的文本内容，采用与所述角色相匹配的音色进行播放，包括：

从所述文章的内容中，提取所述角色的基础信息；

获取与所述基础信息相适配的音色；

采用获取的音色，对相应的对话内容进行播放。

上述方案中，所述方法还包括：在通过语音播放所述文本内容的过程中，对当前播放的语句进行区别显示；

随着语音播放的进行，滚动呈现所述文章的文本内容，以使呈现的文本内容与语音播放的进度相匹配。

随着语音播放的进行，采用翻页的方式，呈现所述文章的文本内容，以使呈现的文本内容与语音播放的进度相匹配。

本申请实施例提供一种文章的语音播放装置，包括：

呈现模块，用于在文章的内容界面中，呈现文章的文本内容以及对应所述文章的语音播放功能项；

接收模块，用于接收到基于所述语音播放功能项触发的针对所述文章的语音播放指令；

第一播放模块，用于响应于所述语音播放指令，通过语音播放所述文本内容；

第二播放模块，用于在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色的角色特征相匹配的音色进行播放。

上述方案中，所述呈现模块，还用于在通过语音播放所述文本内容的过程中，以悬浮形式呈现提示框，并

在所述提示框中呈现文本提示信息；

其中，所述文本提示信息，用于提示正在通过语音播放所述文本内容。

上述方案中，所述呈现模块，还用于当所述文本提示信息的呈现时长达到时长阈值时，收缩所述提示框，并

将所述提示框中的文本提示信息切换为指示正在通过语音播放所述文本内容的播放图标。

上述方案中，所述第二播放模块，还用于响应于针对所述文本内容中目标内容的选定操作，呈现对应所述目标内容的至少两个音色选项；其中，每个所述音色选项对应一种音色；

响应于基于所述至少两个音色选项触发的音色选取操作，将所选取的目标音色作为所述目标内容所对应的角色的音色，以

在通过语音播放所述文本内容的过程中，对于所述目标内容所对应的角色对应的文本内容，采用目标音色进行播放。

上述方案中，所述第一播放模块，还用于呈现所述至少两个音色的试听功能项；

响应于针对目标音色对应的试听功能项的触发操作，采用所述试听功能项对应的所述目标音色播放所述目标内容。

上述方案中，所述第一播放模块，还用于在所述文章的内容界面中，呈现音色选取功能项；

响应于针对所述音色选取功能项的触发操作，呈现所述文章中的至少两个角色；

响应于针对所述至少两个角色中目标角色的选取操作，呈现与所述目标角色对应的至少两个音色；

响应于基于所述至少两个音色触发的音色选取操作，将所选取的目标音色作为所述目标角色的音色，以

在通过语音播放所述文本内容的过程中，对于所述目标角色对应的文本内容，采用所述目标音色进行播放。

上述方案中，所述第一播放模块，还用于在通过语音播放所述文本内容的过程中，呈现针对所述文本内容的音色切换按键；

当接收到针对所述音色切换按键的触发操作时，将当前播放内容所对应的音色由第一音色切换为第二音色。

上述方案中，所述第一播放模块，还用于在通过语音播放所述文本内容的过程中，呈现针对所述文本内容中目标文本内容的推荐音色信息；

其中，所述推荐音色信息，用于指示基于所述推荐音色信息，对所述目标文本内容所对应的角色的音色进行切换。

上述方案中，所述第一播放模块，还用于当所述文本内容中存在对应环境描述信息的文本内容时，在对所述对应环境描述信息的文本内容进行播放时，播放与所述环境描述信息相匹配的环境音乐作为背景音乐。

上述方案中，所述第一播放模块，还用于确定所述文本内容中各语句对应的情感色彩；

基于各语句对应的情感色彩，分别生成对应各所述语句的语音，以使所述语音携带相应的情感色彩；

播放生成的对应各所述语句的语音。

上述方案中，所述第一播放模块，还用于对所述文本内容中各语句进行情感标签提取；

采用提取的所述情感标签表示所述语句对应的情感色彩；

确定与所述情感标签相匹配的语音参数，所述语音参数包括音质、音律中至少之一；

基于所述语音参数，生成各所述语句的语音。

上述方案中，所述第一播放模块，还用于当播放至所述文本内容中的对话内容时，呈现卡通人物，并播放所述卡通人物采用所述音色朗读所述对话内容的动画；

其中，所述卡通人物与所述对话内容所述角色的角色特征相匹配。

上述方案中，所述第一播放模块，还用于从所述文章的内容中，提取所述对话内容所对应的角色的基础信息；

获取与所述基础信息相适配的音色；

采用获取的音色播放所述文本内容中的对话内容。

上述方案中，所述第一播放模块，还用于在通过语音播放所述文本内容的过程中，对当前播放的语句进行区别显示；

随着语音播放的进行，翻页呈现所述文章的文本内容，以使呈现的文本内容与语音播放的进度相匹配。

本申请实施例提供一种计算机设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的文章的语音播放方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的文章的语音播放方法。

本申请实施例具有以下有益效果：

应用上述实施例，通过在文章的内容界面中，呈现文章的文本内容以及对应所述文章的语音播放功能项；接收到基于所述语音播放功能项触发的针对所述文章的语音播放指令；响应于所述语音播放指令，通过语音播放所述文本内容；在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色的角色特征相匹配的音色进行播放；如此，由于对文本内容进行播放时，所采用的音色是与该文本内容所对应的角色特征相匹配的，使得用户在听到播放的文本内容时能够声临其境，更能够沉浸到文章的内容中，提高了语音播放所带来的沉浸感。

附图说明

图1是本申请实施例提供的文章的语音播放系统100的架构示意图；

图2是本申请实施例提供的电子设备500的结构示意图；

图3是本申请实施例提供文章的语音播放方法的流程示意图；

图4是本申请实施例提供的内容界面的示意图；

图5是本申请实施例提供的提示框的呈现示意图；

图6是本申请实施例提供的提示框的呈现示意图；

图7是本申请实施例提供的内容界面的示意图；

图8是本申请实施例提供的内容界面的示意图；

图9是本申请实施例提供的内容界面的示意图；

图10是本申请实施例提供的内容界面的示意图；

图11是本申请实施例提供的内容界面的示意图；

图12是本申请实施例提供的情感标签的示意图；

图13是本申请实施例提供到的语音参数的示意图；

图14是本申请实施例提供的情绪与语音参数对应关系的示意图；

图15是本申请实施例提供的内容界面的示意图；

图16是本申请实施例提供的内容界面的示意图；

图17是本申请实施例提供的区块链网络的应用架构示意图；

图18为本申请实施例提供的区块链网络600中区块链的结构示意图；

图19为本申请实施例提供的区块链网络600的功能架构示意图；

图20是本申请实施例提供的技术侧实现的流程示意图；

图21A是本申请实施例提供的基频点示意图；

图21B是本申请实施例提供的声调五度值图；

图22是申请实施例提供的声学模型训练流程示意图；

图23是本申请实施例提供的关键字词典的构建过程示意图；

图24是本申请实施例提供的基于性格的情感分类模型的示意图；

图25是本申请实施例提供的合成音频的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)角色特征，用于表征角色所对应的人物特点的特征，也可以理解为角色的人物画像特征，根据角色的性别，年龄、身份等角色基础信息抽象出的标签化的人物的信息全貌；如，角色特征可以包括：年龄特征、身份特征、性别特征、性格特征、健康状况特征等。

2)交易(Transaction)，等同于计算机术语“事务”，交易包括了需要提交到区块链网络执行的操作，并非单指商业语境中的交易，鉴于在区块链技术中约定俗成地使用了“交易”这一术语，本申请实施例遵循了这一习惯。

3)区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

4)区块链网络(Blockchain Network)，通过共识的方式将新区块纳入区块链的一系列的节点的集合。

5)账本(Ledger)，是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。

6)智能合约(Smart Contracts)，也称为链码(Chaincode)或应用代码，部署在区块链网络的节点中的程序，节点执行接收的交易中所调用的智能合约，来对状态数据库的键值对数据进行更新或查询的操作。

7)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(PoW，Proof of Work)、权益证明(PoS，Proof of Stake)、股份授权证明(DPoS，Delegated Proof-of-Stake)、消逝时间量证明(PoET，Proof of Elapsed Time)等。

参见图1，图1是本申请实施例提供的文章的语音播放系统100的架构示意图，为实现支撑一个示例性应用，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端，用于在文章的内容界面中，呈现文章的文本内容以及对应所述文章的语音播放功能项；接收到基于所述语音播放功能项触发的针对所述文章的语音播放指令；发送文本内容的语音获取请求至服务器；

服务器200，用于生成文本内容的语音，并发送至终端；

终端，用于根据接收到的语音，通过语音播放文本内容；在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色的角色特征相匹配的音色进行播放。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的电子设备500的结构示意图，在实际应用中，电子设备500可以为图1中的终端400或服务器200，以电子设备为图1所示的终端400为例，对实施本申请实施例的文章的语音播放方法的计算机设备进行说明。图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的文章的语音播放装置可以采用软件方式实现，图2示出了存储在存储器550中的文章的语音播放装置555，其可以是程序和插件等形式的软件，包括以下软件模块：呈现模块5551、接收模块5552、第一播放模块5553和第二播放模块5554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的文章的语音播放装置可以采用硬件方式实现，作为示例，本申请实施例提供的文章的语音播放装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的文章的语音播放方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

接下来对本申请实施例的提供的文章的语音播放方法进行说明，在实际实施时，本申请实施例提供的文章的语音播放方法可由终端单独实施，还可由服务器及终端协同实施。

参见图3，图3是本申请实施例提供文章的语音播放方法的流程示意图，将结合图3示出的步骤进行说明。

步骤301：终端在文章的内容界面中，呈现文章的文本内容以及对应文章的语音播放功能项。

在实际实施时，终端上设置有客户端，如阅读客户端、即时通讯客户端等，终端可以通过客户端呈现文章的文本内容。这里，文章可以是小说、散文、科普类文章等，文本内容是指书面语言的表现形式，是指具有特定含义的一个或多个字符，例如可以是具有特定含义的字、词、短语、句子、段落或篇章。

这里，在呈现文章的文本内容的同时，可以呈现对应文章的语音播放功能项，该语音播放功能项，用于在接收到触发操作时，通过语音播放文本内容。

作为示例，图4是本申请实施例提供的内容界面的示意图，参见图4，在文章的内容界面中，呈现文章的文本内容401及对应文章的播放功能项402。

步骤302：接收到基于语音播放功能项触发的针对文章的语音播放指令。

在实际实施时，用户在阅读呈现的文章的文本内容时，可以基于语音播放功能项触发的针对文章的语音播放指令，这里可以基于针对语音播放功能项的点击操作、双击操作、滑动操作等，触发针对文章的语音播放指令，例如，参见图4，当用户点击图4中的语音播放功能项402时，触发针对文章的语音播放指令。

步骤303：响应于语音播放指令，通过语音播放文本内容。

在实际实施时，终端在接收到语音播放指令时，获取对应文本内容的语音数据，对语音数据进行播放，以实现通过语音播放文本内容。

这里，语音数据是基于文本内容生成的，其中，生成语音数据的过程可以是在终端执行的，也可以是在服务器执行的，如可以是服务器生成语音数据后发送给终端，由终端播放该语音数据。需要说明的是，本申请播放的语音数据是智能生成的，而不是预先通过语音录制文章。

在一些实施例中，当终端接收到语音播放指令时，开始通过语音播放文本内容，在通过语音播放文本内容的过程中，可以呈现提示信息，以提示用户正在通过语音播放文本内容。

这里，提示信息的形式可以有多种，如提示信息可以是文本形式的、可以是图像形式的等。并且，提示信息的呈现方式也可以有多种，例如，可以悬浮形式呈现提示信息，也可以是在内容界面中的某一呈现区域呈现提示信息，如在内容界面的顶部呈现提示信息。

在一些实施例中，当提示信息为文本形式时，终端在通过语音播放文本内容的过程中，以悬浮形式呈现提示框，并在提示框中呈现文本提示信息；其中，文本提示信息，用于提示正在通过语音播放文本内容。

在实际实施时，提示框的呈现形式为悬浮形式，也即提示框是独立于内容界面的，且悬浮于内容界面之上。作为示例，图5是本申请实施例提供的提示框的呈现示意图，参见图5，以悬浮形式呈现提示框501，并在提示框501中呈现文本提示信息“您收听的是智能识别听书”。

这里，由于提示框是以悬浮形式呈现的，提示框是可移动的，也即用户可以触发针对悬浮框的移动操作，当接收到用户触发的针对提示框的移动操作后，控制提示框移动，如此，当提示框遮挡住用户想要浏览的内容时，可以移动该提示框，以避免提示框遮挡用户想要浏览的内容。

在实际应用中，提示框的呈现时间可以与通过语音播放文本内容的开始时间相同，也即在通过语音播放文本内容的同时呈现提示框。其中，提示框的呈现时长可以是预先设置的，也即，在提示框的呈现时长达到预设时长时，取消显示该提示框；提示框的呈现时长也可以是与通过语音播放文本内容的时长一致的，也即在通过语音播放文本内容的过程中始终呈现该提示框，当停止通过语音播放文本内容时，取消呈现该提示框；提示框的呈现时长还可以是由用户控制的，也即，用户在触发针对提示框的关闭操作时，取消呈现该提示框。

在一些实施例中，在呈现提示框的过程中，可以对提示框的呈现样式和/或提示框中的呈现内容进行调整，其中，提示框的呈现样式包括提示框的形状、尺寸、呈现位置等。

在一些实施例中，当文本提示信息的呈现时长达到时长阈值时，终端收缩提示框，并将提示框中的文本提示信息切换为指示正在通过语音播放文本内容的播放图标。

在实际实施时，时长阈值可以是预先设置的，如系统设置的、用户设置的等，当文本提示信息呈现后开始计时，以确定文本提示信息的呈现时长，在呈现时长达到时长阈值时，调整提示框的呈现样式和呈现内容，也即收缩提示框，以缩小提示框的尺寸，并将呈现的文本提示信息切换为播放图标。这里，收缩后的提示框的尺寸与提示框中的呈现内容相适配。

作为示例，图6是本申请实施例提供的提示框的呈现示意图，参见图6，假设时长阈值为10秒时，当图5中的文本提示信息的呈现时长达到10秒时，将图5中的文本提示信息切换为图6中的播放图标61，同时收缩提示框，以使提示框的尺寸与提示框中的内容尺寸相适配。

本申请实施例通过当文本提示信息的呈现时长达到时长阈值时，收缩提示框，并将提示框中的文本提示信息切换为指示正在通过语音播放文本内容的播放图标，避免了由于文本提示信息内容过多，提示框长时间遮盖过多的文本内容。

步骤304：在通过语音播放文本内容的过程中，当文本内容包括至少一个角色时，对于与角色对应的文本内容，采用与角色的角色特征相匹配的音色进行播放。

这里，与角色对应的文本内容指的是与角色相关联的文本内容，如该角色的对话内容、内心独白、描述内容等；角色特征可以是通过角色的至少两种基础信息抽象得到的标签，与角色的基础信息画像对应，例如，角色特征可以包括对角色的年龄信息、性别信息、身份信息(如霸道总裁)、性别信息、性格信息、健康状况信息，抽象得到的年龄特征、身份特征、性别特征、性格特征、健康状况特征。

在实际实施时，文本内容包括的角色数量可以为一个或者多个，其中，多个为至少两个，当文本内容包括多个角色时，角色与音色呈一一对应关系。

在实际应用中，对于各角色的文本内容，采用与角色的角色特征相匹配的音色进行播放，即获取多个角色的角色特征，然后分别将各角色的角色特征与音色进行匹配，以确定与各角色的角色特征相匹配的音色；通过获取的音色，对相应角色对应的文本内容进行播放。

这里，在将各角色的角色特征与音色进行匹配时，是将各角色的角色特征与音色对应的角色特征进行匹配；在一些实施例中，角色特征可以采用相应的标签(即角色标签)进行标识，例如，对于年龄特征采用年龄标签进行标识，对于身份特征采用身份标签标识，相应的，本申请中一个特定角色的角色特征包括至少两种，也即可以有至少两种标签。在实际实施时，可以预先存储多种(即至少两种)音色，每种音色对应有至少两种标签，在进行角色特征匹配时，可以将该角色所对应的至少两个标签与各个音色所对应的标签进行匹配，以确定与角色的角色特征相匹配的音色。

在实际应用中，当与某一角色的角色特征相匹配的音色存在至少两个时，可以随机从匹配得到的至少两个音色中选择一个作为目标音色，采用目标音色对该角色对应的文本内容进行播放；还可以获取各音色与角色特征的匹配度，根据匹配度高低，选取与角色特征的匹配度最高的音色作为目标音色，采用目标音色对该角色对应的文本内容进行播放；也可以是呈现匹配得到的至少两个音色所对应的选择项供用户选择，将用户选择的音色作为目标音色，采用目标音色对该角色对应的文本内容进行播放。

在一些实施例中，为实现采用目标音色对相应角色对应的文本内容进行播放，可以先确定对话内容中每个字如何发音，然后再添加目标音色的音色特征，以基于目标音色，生成文本内容的语音，进而播放生成的语音。

在一些实施例中，终端可以响应于针对文本内容中目标内容的选定操作，呈现对应目标内容的至少两个音色选项；其中，每个音色选项对应一种音色；响应于基于至少两个音色选项触发的音色选取操作，将所选取的目标音色作为目标内容所对应的角色的音色，以在通过语音播放文本内容的过程中，对于目标内容所对应的角色对应的文本内容，采用目标音色进行播放。

在实际实施时，用户可以自行选取某一角色的音色，以使终端在播放该角色对应的文本内容时，采用用户选择的音色进行播放。首先，用户基于呈现的文本内容选择需要进行音色选取的角色，这里通过选取文本内容来选取角色，也即将选取的目标内容所对应的角色作为选取的角色。然后，在确定目标内容后，呈现对应该目标内容的至少两个音色选项，这里在呈现音色选项时，可以根据各音色与目标内容所对应的角色的角色特征之间的匹配程度高低，对音色选项进行呈现，也即与目标内容所对应的角色的角色特征之间的匹配程度越高的音色所对应的音色选项的呈现位置越靠前。接着，用户基于呈现的至少两个音色选项，选择所要选择的音色，这里的选定操作可以是针对目标音色所对应的音色选项的点击操作，还可以针对目标音色所对应的音色选项的按压操作，这里不对选定操作的触发形式进行限定。

在实际应用中，至少两个音色选项可以以下拉列表形式呈现，也可以图标形式呈现，还可以以图像形式呈现，这里不对至少两个音色选项的呈现形式做限定。这里，可以直接在内容界面中呈现至少两个音色选项，也可以是呈现一个独立于内容界面之上的浮层，在浮层中呈现至少两个音色选项。

需要说明的是，上述针对目标内容的选定操作及音色选取操作可以在通过语音播放文本内容之前执行，也可以在通过语音播放文本内容的过程中执行。

作为示例，图7是本申请实施例提供的内容界面的示意图，参见图7，用户基于呈现的文本内容选择目标内容，这里可以通过点击文字来选择目标内容，也即当接收到用户的点击操作，将点击位置呈现的语句作为目标内容，并呈现一个浮层，在浮层中呈现至少两个音色选项701，这里音色选项以图文结合的形式呈现，也即呈现包含与音色相匹配的卡通人物的图像，并呈现音色的文本描述，如傻白甜型。

在一些实施例中，用户在选取音色之前，可以对各音色进行试听，即终端呈现对应目标内容的至少两个音色选项之后，还可以呈现至少两个音色的试听功能项；响应于针对目标音色对应的试听功能项的触发操作，采用试听功能项对应的目标音色播放目标内容。

在实际实施时，每个音色选项可以对应一个试听功能项，当用户触发某一试听功能项后，确定该试听功能项对应的目标音色，然后基于该目标音色播放目标内容。

作为示例，图8是本申请实施例提供的内容界面的示意图，参见图8，在用户基于呈现的文本内容选择目标内容，这里可以通过点击文字来选择目标内容，也即当接收到用户的点击操作，将点击位置呈现的语句作为目标内容，并呈现一个浮层，在浮层中呈现至少两个音色选项801，这里音色选项以图文结合的形式呈现，也即呈现包含与音色相匹配的卡通人物的图像，并呈现音色的文本描述，如傻白甜型；并在每个音色选项下方呈现一个试听功能项802，试听功能项与音色选项一一对应，例如，当用户点击位于傻白甜型的音色选项下方的试听功能项时，采用傻白甜型音色播放目标内容，也即选择的语句。

在一些实施例中，终端可以响应于针对呈现的对话内容中目标内容的选定操作，呈现对应目标内容的至少两个音色选项及确定功能项；其中，每个音色选项对应一种音色；响应于基于至少两个音色选项触发的音色选取操作，采用所选取的目标音色播放目标内容；相应于针对确定功能项的触发操作，将目标音色作为目标内容所对应的角色的音色，以在通过语音播放文本内容的过程中，对于目标内容所对应的角色的对话内容，采用目标音色进行播放。

在实际应用中，用户在触发确定功能项之前，可以切换选取的音色，且媒体选取音色后，都会采用所选取的音色播放目标内容，如此，用户可以根据播放声音，判断是否要选择该音色，避免选取错误后需要重新选取，提高了人机交互效率。

在一些实施例中，在文章的内容界面中，呈现音色选取功能项；响应于针对音色选取功能项的触发操作，呈现文章中的至少两个角色；响应于针对至少两个角色中目标角色的选取操作，呈现与目标角色对应的至少两个音色；响应于基于至少两个音色触发的音色选取操作，将所选取的目标音色作为目标角色的音色，以在通过语音播放文本内容的过程中，对于目标角色的对话内容，采用目标音色进行播放。

在实际应用中，在接收到音色选取功能项后，呈现文章中至少两个角色，这里，可以呈现文章中的所有角色，也可以仅呈现文章中的部分角色，如仅呈现当前呈现文本内容所处章节中出现的角色。在呈现文章中的至少两个角色后，用户可以从中选择一个作为目标角色，以选取该目标角色的目标音色。这里，在为一个角色选择目标音色之后，还可以再从至少两个角色中选择其它角色，为其它角色选择音色。

如此，用户不仅可以对当前内容界面中会话内容所对应的角色的音色进行选择，还可以对未呈现的会话内容所对应的角色选择音色。且，通过一次触发音色选取功能项，可以对呈现的多个角色的音色进行选择，提高了人机交互效率。

作为示例，图9是本申请实施例提供的内容界面的示意图，参见图9，在内容界面呈现音色选取功能项901，当用户点击该音色选取功能项901后，呈现音色选取界面，并在音色选取界面中呈现文章中的所有角色902；当用户点击某一角色，如点击“角色A”，呈现与“角色A”的角色特征相匹配的多个音色903，用户可以从呈现的多个音色中选择一个作为目标音色。

在一些实施例中，终端还可以在通过语音播放文本内容的过程中，呈现针对文本内容的音色切换按键；当接收到针对音色切换按键的触发操作时，将当前播放内容所对应的音色由第一音色切换为第二音色。

在实际实施时，本申请实施例提供一个快速切换音色的按键，即音色切换按键，在语音播放过程中，该音色切换按键用于对当前正在播放的语句对应的音色进行切换，第一音色是正在播放的音色，第二音色是推荐的供切换的音色，这里的第一音色不同于第二音色。

在实际应用中，第二音色与当前播放的语句相对应，不同语句对应的第二音色可以相同，也可以不同。这里，第一音色和第二音色可以都为与当前播放内容所对应的角色的角色特征相匹配的音色，例如，在播放至某一对话内容时，获取与该对话内容所对应的角色的角色特征相匹配的多个音色，然后从多个音色中选择一个作为第一音色，并选择一个作为第二音色，先采用第一音色播放该对话内容，当接收到针对切换按键的触发操作后，将第一音色切换为第二音色。

这里，在将当前播放内容所对应的音色由第一音色切换为第二音色后，对于与当前播放内容属于同一角色的内容，均采用第二音色进行播放。

在一些实施例中，在将当前播放内容所对应的音色由第一音色切换为第二音色后，还可以再次触发音色切换按键，当接收到针对音色切换按键的触发操作后，将第二音色切换为第三音色，其中，第一音色可以与第三音色相同，也可以不同。

在一些实施例中，终端在在通过语音播放文本内容的过程中，呈现针对文本内容中目标文本内容的推荐音色信息；其中，推荐音色信息，用于指示基于推荐音色信息，对目标文本内容所对应的角色的音色进行切换。

在实际实施时，可以为用户推荐音色，这里的目标文本内容可以是当前播放的文本内容，也可以是任一对应的角色的角色特征与推荐音色信息相匹配的文本内容。例如，根据当前播放的对话内容，获取与当前对话内容角色的角色特征相匹配的音色，基于匹配得到的音色，生成推荐音色信息，如，基于匹配度最高的音色，生成推荐音色信息；或者，当要推荐某一音色时，判断该文章中是否有与该音色相匹配的角色，若存在，则呈现相应的推荐音色信息。

作为示例，图10是本申请实施例提供的内容界面的示意图，参见图10，当识别到某一角色的角色特征与某一明星的音色相匹配时，呈现推荐音色信息1001，如“林xx的声音很匹配五师妹的声音”，以提示用户将五师妹的音色切换为林xx。

在一些实施例中，在呈现推荐音色信息的同时，呈现与该推荐音色信息相匹配的音色切换按键，当接收用户针对该音色切换按键的触发操作后，将相应对话内容对应的音色切换为推荐音色信息所指示的音色。

作为示例，图11是本申请实施例提供的内容界面的示意图，参见图11，当文章中某一角色的角色特征与某一明星的音色相匹配时，呈现推荐音色信息1101，如“林xx的声音很匹配五师妹的声音”，同时呈现音色切换按键1102，当用户点击音色切换按键1102时，采用林xx的声音播放五师妹对应的文本内容，如五师妹的对话内容。

在一些实施例中，终端还可以当文本内容中存在对应环境描述信息的文本内容时，在对对应环境描述信息的文本内容进行播放时，播放与环境描述信息相匹配的环境音乐作为背景音乐。

在实际实施时，当文本内容中存在对应环境描述信息的文本内容时，获取文本内容中的环境描述信息，这里，可以预先设置环境描述信息的关键词典，然后将文本内容与关键词典中的关键词进行匹配，当文本内容中包含与关键词典中的关键词相匹配的文本内容时，确定存在对应环境描述信息的文本内容，并提取与关键词典中的关键词相匹配的文本内容，将该文本内容与各环境音乐进行匹配，以获取与环境描述信息相匹配的环境音乐。

作为示例，文本内容包含的环境描述信息是一个下雨的夜晚时，可以获取与下雨相匹配的环境音乐，在对对应该环境描述信息的文本内容进行播放时，将与下雨相匹配的环境音乐作为背景音乐进行播放。

本申请通过加入环境音乐作为背景音乐，使用户能够融入该文本内容所描述的场景中，进一步提升语音播放所带来的沉浸感。

在一些实施例中，终端还可以通过以下方式播放文本内容：确定文本内容中各语句对应的情感色彩；基于各语句对应的情感色彩，分别生成对应各语句的语音，以使语音携带相应的情感色彩；播放生成的对应各语句的语音。

在实际实施时，文本内容中的每个语句都有对应的情感色彩，特别是对于文本内容中的对话内容，文章中的角色在说话的时候都是带有情感色彩的，如悲伤、开心等。本申请通过获取每个语句对应的情感色彩，使生成的语音中携带有情感色彩时，使得用户在听到语音时，能够有身临其境的感受。

在实际应用中，每个语句对应的情感色彩，不仅仅是基于语句本身，还需要结合该语句的上下文，以提升情感色彩确定的准确性。例如，仅根据“这时候她却泪眼婆娑地说”仅仅能够判断出当前角色哭了，但无法判断该语句对应的情感色彩是喜极而泣还是悲伤而哭，这是就需要结合上下文进行判断。

在一些实施例中，终端可以通过以下方式确定文本内容中各语句对应的情感色彩：对文本内容中各语句进行情感标签提取；采用提取的情感标签表示语句对应的情感色彩；基于各语句对应的情感色彩，分别生成对应各语句的语音，包括：确定与情感标签相匹配的语音参数，语音参数包括音质、音律中至少之一；基于语音参数，生成各语句的语音。

在实际实施时，由于语句对应的情感色彩不仅仅时有文本信息决定，还会受到文章中角色所处的环境以及角色的基础信息的影响，这里的情感标签包括以下至少之一：基础信息、认知评价、心理感受。

图12是本申请实施例提供的情感标签的示意图，参见图12，情感标签包括基础信息、认知评价和心理感受，其中，认知评价包括话语倾向性和话语样式，如话语倾向性可以是否定或肯定、冷漠或热情；基础信息包括年纪信息(如小朋友、年轻人等)、性别信息、身份信息(如霸道总裁)；心理感受包括积极感受(如舒畅、同情等)和消极感受(如哀怨、惊恐)。

这里，获取到的一个语句的情感标签可以是一个或者多个，基于获取到情感标签之后，可以直接基于情感标签与语音参数之间的对应关系，来确定与情感标签相匹配的语音参数；也可以先基于多个情感标签进行情感预测，然后根据预测得到的情感与语音参数之间的对应关系，来获取与情感标签相匹配的语音参数。在获取到语音参数后，基于语音参数生成对应语句的语音。

这里对情感参数进行说明。图13是本申请实施例提供到的语音参数的示意图，参见图13，语音参数包括音质和音律，其中音质包括明亮度、饱和度等，音律包括音高、语速、音节间隔、节奏、语调等。

图14是本申请实施例提供的情绪与语音参数对应关系的示意图，参见图14，不同的情感对应不同的语音参数，如情感为喜悦时，语速轻快，但有时较慢；情感为发怒时，语速稍快。

在一些实施例中，终端还可以呈现当播放至文本内容中的对话内容时，呈现卡通人物，并播放卡通人物采用音色朗读对话内容的动画；其中，卡通人物与对话内容所对应的角色的角色特征相匹配。

在实际实施时，终端还可以根据对话内容所对应的角色的角色特征，获取与该角色特征相匹配的卡通人物，并且播放该卡通人物采用与角色特征的音色朗读该对话内容的动画，如此，用户能够同时从听觉和视觉融入文章所描述的场景，为用户带来更好的沉浸感。

作为示例，图15是本申请实施例提供的内容界面的示意图，参见图15，这里对话内容所对应的角色为一个小朋友，在内容界面呈现一个小朋友形象的卡通人物1501，播放该卡通人物1501朗读对话内容的动画。

在一些实施例中，对于文本内容中的对话内容，采用与对话内容所对应的角色的角色特征相匹配的音色进行播放：从文章的内容中，提取对话内容所对应的角色的基础信息；获取与基础信息相适配的音色；采用获取的音色播放文本内容中的对话内容。

其中，基础信息包括以下至少之一：年龄信息、性别信息、身份信息。在实际实施时，从文章的内容中提取对话内容所对应的角色的基础信息，这里可以是从呈现的文本内容中提取，也可以从未呈现的文本内容中提取，可以理解的是，这里是结合文章中所有描述该角色的文本内容，提取对应该角色基础信息。

在一些实施例中，终端还可以在通过语音播放文本内容的过程中，对当前播放的语句进行区别显示；随着语音播放的进行，滚动呈现文章的文本内容，以使呈现的文本内容与语音播放的进度相匹配。

在实际实施时，用户可以边听边看，也即在听语音播放文本内容的同时，可以浏览呈现的文本内容，为了提示用户播放的具体内容，可以对当前播放的语句进行区别显示，以使用户能够快速找到当前播放的语句。作为示例，图16是本申请实施例提供的内容界面的示意图，参加图16，采用灰色背景色，呈现当前播放的语句1601，以将其与其它语句相区别。

这里，随着语音播放的进行，可以对文章的文本内容进行滚动呈现，以使当前播放的语句始终处于屏幕的中间位置。

在一些实施例中，终端还可以在通过语音播放文本内容的过程中，对当前播放的语句进行区别显示；随着语音播放的进行，翻页呈现文章的文本内容，以使呈现的文本内容与语音播放的进度相匹配。

在实际实施时，在当前呈现的文本内容播放完之后，可以进行翻页处理，呈现文章下一页的文本内容，以使呈现的文本内容与语音播放的进度相匹配。

在一些实施例中，终端还可以从文章的内容中获取各角色的角色特征，将各角色的角色特征存储至区块链网络；如此，在其它终端需要通过语音播放该文章的文本内容时，可以直接从区块链获取文章中各角色的角色特征。

这里，本申请实施例还可结合区块链技术，在终端获取各角色的角色特征获取各角色的角色特征之后，生成用于存储各角色的角色特征的交易，提交生成的交易至区块链网络的节点，以使节点对交易共识后存储各角色的角色特征至区块链网络；在存储至区块链网络之前，终端还可对各角色的角色特征进行哈希处理得到对应各角色的角色特征的摘要信息；将得到的对应各角色的角色特征的摘要信息存储至区块链网络。通过上述方式，防止了各角色的角色特征被篡改，提高了各角色的角色特征的安全性。

参见图17，图17为本申请实施例提供的区块链网络的应用架构示意图，包括业务主体400、区块链网络600(示例性示出了共识节点610-1至共识节点610-3)、认证中心700，下面分别说明。

区块链网络600的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络600；以联盟链为例，业务主体在获得授权后其下辖的计算机设备(例如终端/服务器)可以接入区块链网络600，此时，如成为区块链网络600中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络600的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络600的共识节点610的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络600中，通过区块链网络600实现数据和业务处理过程的可信和可追溯。

区块链网络600中的共识节点接收来自业务主体400的客户端节点提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410可以订阅区块链网络600中感兴趣的事件，例如区块链网络600中特定的组织/通道中发生的交易，由共识节点610推送相应的交易通知到客户端节点410，从而触发客户端节点410中相应的业务逻辑。

下面以业务主体接入区块链网络以实现文章的语音播放为例，说明区块链的示例性应用。

参见图17，文章的语音播放涉及的业务主体400，从认证中心700进行登记注册获得数字证书，数字证书中包括业务主体的公钥、以及认证中心700对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的计算机设备(例如终端或者服务器)运行的客户端都可以向区块链网络600请求接入而成为客户端节点。

业务主体400客户端节点410用于通过语音播放文本内容，例如，在文章的内容界面中，呈现文章的文本内容以及对应文章的语音播放功能项；接收到基于语音播放功能项触发的针对文章的语音播放指令；响应于语音播放指令，通过语音播放文本内容；在通过语音播放文本内容的过程中，当文本内容包括至少一个角色时，对于与角色对应的文本内容，采用与角色的角色特征相匹配的音色进行播放。这里，终端会获取文章中各角色的角色特征，并将各角色的角色特征发送至区块链网络600。

其中，将各角色的角色特征发送至区块链网络600的操作，可以预先在客户端节点410设置业务逻辑，当终端获取文章中各角色的角色特征时，客户端节点410将各角色的角色特征自动发送至区块链网络600，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包各角色的角色特征，并将其发送至区块链网络600。在发送时，客户端节点410根据各角色的角色特征生成对应存储操作的交易，在交易中指定了实现存储操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络600中的共识节点610。

区块链网络600中的共识节点610中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点610自己的数字签名(例如，使用节点610-1的私钥对交易的摘要进行加密得到)，并继续在区块链网络600中广播。

区块链网络600中的共识节点610接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络600中的共识节点610广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新各角色的角色特征的交易，在状态数据库中添加各角色的角色特征。

作为区块链示例，参见图18，图18为本申请实施例提供的区块链网络600中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本申请实施例提供的区块链网络的示例性的功能架构，参见图19，图19为本申请实施例提供的区块链网络600的功能架构示意图，区块链网络包括应用层601、共识层602、网络层603、数据层604和资源层605，下面分别进行说明。

资源层605封装了实现区块链网络600中的各个节点610的计算资源、存储资源和通信资源。

数据层604封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层603封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络600中节点610之间的通信，数据传播机制保证了交易在区块链网络600中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点610之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络600的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络600的权限；业务主体身份管理用于存储允许接入区块链网络600的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层602封装了区块链网络600中的节点610对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证节点610接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络600的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块序列号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易序列号查询区块；根据交易序列号查询交易；根据业务主体的账号(序列号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层601封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

应用上述实施例，通过在文章的内容界面中，呈现文章的文本内容以及对应文章的语音播放功能项；接收到基于语音播放功能项触发的针对文章的语音播放指令；响应于语音播放指令，通过语音播放文本内容；在通过语音播放文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色相匹配的音色进行播放；如此，由于对文本内容进行播放时，所采用的音色是与该文本内容所对应的角色相匹配的，使得用户在听到播放的文本内容时能够声临其境，更能够沉浸到文章的内容中，提高了语音播放所带来的沉浸感。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。以与角色对应的文本内容为对话内容为例，在实际实施时，终端呈现文章的文本内容，用户对呈现的文本内容进行浏览，在浏览的过程中，可以启用听书功能，如用户点击播放功能项后，通过语音播放文章的文本内容；在播放过程中，当识别到文章里有对话内容时，获取与对话内容所对应的角色的角色特征的音色，采用与对话内容所对应的角色的角色特征的音色，生成对话内容的语音，并根据对话内容对应的情感色彩，在语音中增加情感色彩；当识别到文章中有环境描述信息时，对于包含环境描述信息的文本内容，在对应该文本内容的语音中，增加与环境描述信息相匹配的环境音乐作为背景音乐。

作为示例，参见图4-图6，在文章的内容界面中，呈现文章的文本内容401及对应文章的播放功能项402；当用户点击播放功能项402后，终端开始通过语音播放文章的文本内容，以悬浮形式呈现提示框501，并在提示框501中呈现文本提示信息“您收听的是智能识别听书”；当图5中的文本提示信息的呈现时长达到时长阈值时，将图5中的文本提示信息切换为图6中的播放图标61，同时收缩提示框，以使提示框的尺寸与提示框中的内容尺寸相适配。

在实际应用中，用户可以自主为文章中的角色选择音色，也即，用户可根据自己的喜欢自主选择音色。首先，用户基于呈现的文本内容选择需要进行音色选取的角色，这里通过选取文本内容来选取角色，也即将选取的目标内容所对应的角色作为选取的角色。然后，在确定目标内容后，呈现对应该目标内容的至少两个音色选项；接着，用户基于呈现的至少两个音色选项，选择所要选择的音色。

例如，参见图7，用户基于呈现的文本内容选择目标内容，这里可以通过点击文字来选择目标内容，也即当接收到用户的点击操作，将点击位置呈现的语句作为目标内容，并呈现一个浮层，在浮层中呈现至少两个音色选项701，这里音色选项以图文结合的形式呈现，也即呈现包含与音色相匹配的卡通人物的图像，并呈现音色的文本描述，如傻白甜型，用户可以基于呈现的音色选项进行音色选择。

这里，在音色选择过程中，用户可以对各待选择的音色进行试听，也即用户用可以触发针对音色的试听操作，终端确定用户所要试听的音色，通过该音色播放所选择的目标内容，实现音色的试听，让用户能根据试听的语音来选择音色。

在一些实施例中，当识别到文章中某一角色的角色特征与推荐的音色相匹配时，可以弹出浮层，并在浮层中呈现推荐音色信息，并呈现与该推荐音色信息相匹配的音色切换按键，当接收用户针对该音色切换按键的触发操作后，将当前播放的对话内容对应的音色切换为推荐音色信息所指示的音色。

例如，参见图11，当识别到文章中某一角色的角色特征与某一明星的音色相匹配时，呈现推荐音色信息1101，如“林xx的声音很匹配五师妹的声音”，同时呈现音色切换按键1102，当用户点击音色切换按键1102时，采用林xx的声音播放五师妹的对话内容。

下面对本申请的技术实现过程进行说明。图20是本申请实施例提供的技术侧实现的流程示意图，参见图20，本申请实施例提供的文章的语音播放方法包括：

步骤2001：对音频数据进行采集。

在实际实施时，首先启动录音，采集需要的音频数据，以构建情感语料库，这里，情感语料是进行情感语音合成研究的重要基础，基于此，需要对采集到的音频数据进行筛选，也即，启动录音后，进行分贝检测，若背景音嘈杂，则需要重新录音。这里在录音过程中是逐段录音的，通过逐段录音，采集到音频数据后，将采集到的音频数据上传至服务器进行检测，当检测到音频数据存在音频质量问题，则重新录音。

在录音时，需要录制不同场景下不同情感的语音，如陈述句、疑问句和感叹句等。制完的音频数据我们需要通过praat工具进行标注，包括该音频数据的基频、音节边界、副语言学信息等。这些信息是为了后续在训练模型时，加入情感状态标签和情感关键词属性的标注信息。

作为示例，图21A是本申请实施例提供的基频点示意图，参见图21A，图中示出了“妈”跟“麻”的基频点的曲线图，其中，“妈”的声调为阴平，其对应的曲线为趋近于水平的曲线，“麻”的声调为阳平，对应的曲线为由下向上变化的曲线；图21B是本申请实施例提供的声调五度值图，参见图21B，该图与基频点示意图中曲线的走势相同。可以理解的是，就算没有语音，也可以根据基频点和声调五度值图得知什么时候该发音“妈”，什么时候该发音“麻”。

步骤2002：对声学模型进行训练。

在获取到音频数据后，对音频数据进行预处理，这里的预处理包括预加重、分帧等，这些操作的目的是消除人类发声器官本身和由于采集语音信号的设备所带来的混叠、失真等因素，为了使后续的语音处理得到的信号更加均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。在预处理完成后，将处理后的音频数据入库。基于入库的音频数据训练声学模型，例如让声学模型学习到每个发音到底怎么发、以及音色特征，以得到需要的声学模型。

为实现在语音中增加情感色彩，可以训练一个声学模型。首先对音频数据进行声学分析。这里，由于汉语的韵律多以音节为处理单位，在这种有调音节的韵律分析中，音节的韵律特征起着非常重要的作用，将语音参数分为：音质和音律。其中，音质可以包括明亮度、饱和度；音律包括音高、语速、音节间隔等。例如，人在表现兴奋时，说话语速会快，音强高，并可能带有一定的呼吸声。如此，可以获取基本情感色彩下的基频参数、谱参数等信息。

然后对声学模型进行训练，这里的声学模型采用隐马尔科夫模型(HMM，HiddenMarkov Model)，图22是申请实施例提供的声学模型训练流程示意图，参见图22，对语音语料中的语音信号进行基频参数提取得到基频参数，以及对语音语料中的语音信号进行谱参数提取，然后根据基频参数和谱参数对隐马尔科夫模型来进行训练。这里的语音语料是基于上述入库的音频数据构建的。

这里的谱参数和基频参数的作用是为了使合成的语句更加平滑和自然，谱参数由美尔倒谱参数(MFCC，Mel Frequency Ceptrum Coefficient)及其一阶二阶delta系数表示，基频参数由基频F0及其一阶二阶delta系数表示。

美尔倒谱系数是一种经典的语音特征，它是基于人耳听觉域特性提取的特征参数，是对人耳听觉特征的工程化模拟。人的听觉感知除了音调高低的感知之外，还包括响度的感知，人耳对向度的感知与声音频带有关，将语音信号的频谱变换到感知频域，能更好的模拟人耳听觉过程。美尔频率的意义为1Mel为1000Hz的音调感知程度的1/1000。而基频F0则为滤波器应用范围的最低频率。

步骤2003：合成音频。

在实际实施时，首先输入文章的文本，对文章的文本进行预处理，先给文本分词，把文本转换成由词组成的语句，再给这个语句标注音素级别、音节级别、单词级别等对语音合成有帮助的信息。

这里需要对文本进行逐级分析，如词、句、章、书逐级分析，这里的采用词频-逆文本频率指数(TF-IDF，Term Frequency–Inverse Document Frequency)算法结合n-gram(文本中连续出现的n个gram，gram为我们通过特定的阈值设定过滤好的词)，进行关键词提取；将提取出的关键词与关键字词典中的词进行文本相似度分析，以筛选出与情感标签相关的关键词，例如性格，情绪，场景，性别等。

图23是本申请实施例提供的关键字词典的构建过程示意图，参见图23，首先构建大规模文本语料库，以训练词向量模型；并采集数据，如站内小说、用户分类、小说标签、通用数据库等，由于小说标签、通用数据库是已经通过筛选的，根据小说标签、通用数据库构建种子词典；接着，基于词向量模型和种子词典进行模型训练，以基于训练得到的模型，预测新词；将预测到的新词加入关键字词典，以构建关键字词典。

进一步，可以通过情感分类模型，基于文章中角色的性格进行情感分类，图24是本申请实施例提供的基于性格的情感分类模型的示意图，可以通过以下方式提取与文中角色性格相关的情感标签：通过Word2Vec(训练词向量模型的工具)得到文本中词的词向量表示，进而得到段落或章节中的词向量矩阵，将该词向量矩阵输入基于角色性格的文本分析器2401，以获取不同类型的文本组，将不同类型的文本组输入相应类型的分类器2402，最后对各分类器的输出结果进行融合，得到最终的分类结果。其中，C、A、E分别指外向性，愉悦性和责任型三个维度，H、L各性格值的高低，例如HA表示高愉悦性、HC表示更外向、LE表示低责任型等。

通过上述的算法，就能够语音合成所需要的情感标签，即小说标签、基础信息(性格、身份、年龄、性别)、认知评价(环境、情绪)。然后，基于这些情感标签进行情感预测，以预测人在说出相应语句时所附带的情感色彩。

由于情感色彩不单单是由文本信息来决定，还受到文章中角色所处的环境以及身份地位等信息的影响。基于此，本申请是从文本的上下文中，推测出角色的情感色彩，从而达到能够顺利合成正确的语音。例如“这时候她却泪眼婆娑地说”，这时候我们得预测她的情感色彩是喜极而泣还是悲伤而哭。

在预测到情感色彩之后，结合情感色彩，合成音频。这里，合成携带有情感色彩的语音的关键在于获取基频参数，人之所以能从语音中辨别出不同的情感色彩，是因为语音包含有能体现情感的基频参数的差异来体现。图25是本申请实施例提供的合成音频的流程示意图，参见图25，合成音频的流程包括：

步骤2501：解析文本。

这里，解析文本包括语法解析和语义解析，其中，语法解析包括词性标注、词语解析、发音解析。

步骤2502：情感标签提取。

这里，提取的情感标签包括小说标签、基础信息(性格、身份、年龄、性别)、认知评价(环境、情绪)。

步骤2503：对语音进行标注。

在实际实施时，通过提取的情感标签对语音进行标注。这里，标注的逻辑与训练声学模型时一样，也即，调整基频参数等信息。在实际实施时，获取HMM模型输出的基频参数，基于情感标签对HMM模型输出的基频参数进行调整，以得到最终的基频参数。

步骤2504：合成音频。

通过合成滤波器，基于基频参数和HMM模型输出的谱参数合成音频。

应用上述实施例，能够让用户在听书的过程中能身临其境，更能沉浸式的进入到小说的场景中去，从而能提升用户使用体验感受和使用时长。

下面继续说明本申请实施例提供的文章的语音播放装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的文章的语音播放装置555中的软件模块可以包括：

呈现模块5551，用于在文章的内容界面中，呈现文章的文本内容以及对应所述文章的语音播放功能项；

接收模块5552，用于接收到基于所述语音播放功能项触发的针对所述文章的语音播放指令；

第一播放模块5553，用于响应于所述语音播放指令，通过语音播放所述文本内容；

第二播放模块5554，用于在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的文本内容，采用与所述角色的相匹配的音色进行播放。

在一些实施例中，所述呈现模块，还用于在通过语音播放所述文本内容的过程中，以悬浮形式呈现提示框，并

在所述提示框中呈现文本提示信息；

在一些实施例中，所述呈现模块，还用于当所述文本提示信息的呈现时长达到时长阈值时，收缩所述提示框，并

在一些实施例中，所述第二播放模块，还用于响应于针对所述文本内容中目标内容的选定操作，呈现对应所述目标内容的至少两个音色选项；其中，每个所述音色选项对应一种音色；

在一些实施例中，所述第一播放模块，还用于呈现所述至少两个音色的试听功能项；

在一些实施例中，所述第一播放模块，还用于在所述文章的内容界面中，呈现音色选取功能项；

在一些实施例中，所述第一播放模块，还用于在通过语音播放所述文本内容的过程中，呈现针对所述文本内容的音色切换按键；

当接收到针对所述音色切换按键的触发操作时，将所述文本内容对应的音色由第一音色切换为第二音色。

在一些实施例中，所述第一播放模块，还用于在通过语音播放所述文本内容的过程中，当播放至所述文本内容中的对话内容时，呈现针对所述文本内容中目标文本内容的推荐音色信息；

在一些实施例中，所述第一播放模块，还用于当所述文本内容中存在对应环境描述信息的文本内容时，在对所述对应环境描述信息的文本内容进行播放时，播放与所述环境描述信息相匹配的环境音乐作为背景音乐。

在一些实施例中，所述第一播放模块，还用于确定所述文本内容中各语句对应的情感色彩；

播放生成的对应各所述语句的语音。

在一些实施例中，所述第一播放模块，还用于对所述文本内容中各语句进行情感标签提取，所述情感标签包括以下至少之一：基础信息、认知评价、心理感受；

采用提取的所述情感标签表示所述语句对应的情感色彩；

基于各语句对应的情感色彩，分别生成对应各所述语句的语音，包括：

基于所述语音参数，生成各所述语句的语音。

在一些实施例中，所述第一播放模块，还用于当播放至所述文本内容中的对话内容时，呈现卡通人物，并播放所述卡通人物采用所述音色朗读所述对话内容的动画；

在一些实施例中，所述第一播放模块，还用于从所述文章的内容中，提取所述对话内容所对应的角色的画像信息；

获取与所述画像信息相适配的音色；

采用获取的音色播放所述文本内容中的对话内容。

在一些实施例中，所述第一播放模块，还用于在通过语音播放所述文本内容的过程中，对当前播放的语句进行区别显示；

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的文章的语音播放方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种文章的语音播放方法，其特征在于，所述方法包括：

响应于所述语音播放指令，通过语音播放所述文本内容；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

在通过语音播放所述文本内容的过程中，以悬浮形式呈现提示框，并

在所述提示框中呈现文本提示信息；

3.如权利要求2所述的方法，其特征在于，所述在所述提示框中呈现文本提示信息之后，所述方法还包括：

当所述文本提示信息的呈现时长达到时长阈值时，收缩所述提示框，并

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

响应于针对所述文本内容中目标内容的选定操作，呈现对应所述目标内容的至少两个音色选项；其中，每个所述音色选项对应一种音色；

5.如权利要求4所述的方法，其特征在于，所述呈现对应所述目标内容的至少两个音色选项之后，所述方法还包括：

呈现所述至少两个音色的试听功能项；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

在所述文章的内容界面中，呈现音色选取功能项；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

在通过语音播放所述文本内容的过程中，呈现针对所述文本内容的音色切换按键；

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

在通过语音播放所述文本内容的过程中，呈现针对所述文本内容中目标文本内容的推荐音色信息；

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

当所述文本内容中存在对应环境描述信息的文本内容时，在对所述对应环境描述信息的文本内容进行播放时，播放与所述环境描述信息相匹配的环境音乐作为背景音乐。

10.如权利要求1所述的方法，其特征在于，所述通过语音播放所述文本内容，包括：

确定所述文本内容中各语句对应的情感色彩；

播放生成的对应各所述语句的语音。

11.如权利要求10所述的方法，其特征在于，所述确定所述文本内容中各语句对应的情感色彩，包括：

对所述文本内容中各语句进行情感标签提取；

采用提取的所述情感标签表示所述语句对应的情感色彩；

基于所述语音参数，生成各所述语句的语音。

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

当播放至所述文本内容中的对话内容时，呈现卡通人物，并播放所述卡通人物采用所述音色朗读所述对话内容的动画；

13.一种文章的语音播放装置，其特征在于，所述装置包括：

第二播放模块，用于在通过语音播放所述文本内容的过程中，当所述文本内容包括至少一个角色时，对于与所述角色对应的内容，采用与所述角色的角色特征的相匹配的音色进行播放。

14.一种计算机设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的文章的语音播放方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的文章的语音播放方法。