CN110503991B

CN110503991B - 语音播报方法、装置、电子设备及存储介质

Info

Publication number: CN110503991B
Application number: CN201910726890.7A
Authority: CN
Inventors: 尚太章
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2022-03-18
Anticipated expiration: 2039-08-07
Also published as: CN110503991A

Abstract

本申请实施例公开了一种语音播报方法、装置、电子设备及存储介质，涉及语音处理技术领域。所述方法应用于服务器，所述方法包括：接收音频播放请求信息，所述音频播放请求信息包括待播放的音频文件的摘要信息，其中，所述摘要信息至少包括作者信息和音频名称；根据所述摘要信息，生成播报语音，所述播报语音包括使用以所述作者信息对应的声音播报的所述摘要信息；将所述播报语音发送至音频播放终端的音频应用的应用接口，所述播报语音用于指示所述音频应用在播放所述音频文件之前，播放所述播报语音。让用户能够在每个音频文件播放前获知该音频文件的相关介绍，避免了用户在听音频文件时的盲目性，也便于用户后续对该音频文件的查找。

Description

语音播报方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，更具体地，涉及一种语音播报方法、装置、电子设备及存储介质。

背景技术

目前有很多音乐播放软件通常会让歌曲顺序播放或者乱序播放，而且一首歌曲结束后立马会播放下一首歌曲，对于一些用户不熟悉的歌曲，即使用户听了很多遍，但是仍然不知道歌曲的作者是谁，歌曲的名称是什么。这样导致了用户听歌的盲目性，当用户想要查找该歌曲时，却无从下手。

发明内容

鉴于上述问题，本申请提出了一种语音播报方法、装置、电子设备及存储介质，能够在当前音频文件播放结束后，在下一个音频文件播放之前，播放下一个音频文件相关的摘要信息，从而让用户能够及时获知该音频文件的摘要信息。

第一方面，本申请实施例提供了一种语音播报方法，应用于服务器，方法包括：接收音频播放请求信息，音频播放请求信息包括待播放的音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称；根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；将播报语音发送至音频播放终端的音频应用的应用接口，播报语音用于指示音频应用在播放音频文件之前，播放播报语音。

第二方面，本申请实施例提供了一种语音播报方法，应用于音频播放终端，方法包括：确定待播放的音频文件；发送音频播放请求信息至服务器，音频播放请求信息包括音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称，音频播放请求信息用于指示服务器根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；接收服务器返回的播报语音；在播放音频文件之前，播放播报语音。

第三方面，本申请实施例提供了一种语音播报方法，方法包括：确定待播放的音频文件；获取音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称；根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；在播放音频文件之前，播放播报语音。

第四方面，本申请实施例提供了一种语音播报装置，应用于服务器，装置包括：音频播放请求信息接收模块、播报语音生成模块、以及发送模块，音频播放请求信息接收模块用于接收音频播放请求信息，音频播放请求信息包括待播放的音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称；播报语音生成模块用于根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；发送模块用于将播报语音发送至音频播放终端的音频应用的应用接口，播报语音用于指示音频应用在播放音频文件之前，播放播报语音。

第五方面，本申请实施例提供了一种语音播报装置，应用于音频播放终端，装置包括音频文件确定模块、音频播放请求信息发送模块、接收模块、以及播放模块，音频文件确定模块用于确定待播放的音频文件；音频播放请求信息发送模块用于发送音频播放请求信息至服务器，音频播放请求信息包括音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称，音频播放请求信息用于指示服务器根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；接收模块用于接收服务器返回的播报语音；播放模块用于在播放音频文件之前，播放播报语音。

第六方面，本申请实施例提供了一种电子设备，包括一个或多个处理器、存储器、以及一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述的语音播报装置方法。

第七方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述的语音播报装置方法。

本申请实施例提供的语音播报方法、装置、电子设备及存储介质，通过获取待播放音频文件的摘要信息，并根据摘要信息生成播报语音，其中，摘要信息包括了作者信息和音频名称，在播放音频文件之前，播放该播报语音，从而让用户能够在每个音频文件播放前获知该音频文件的相关介绍，避免了用户在听音频文件时的盲目性，也便于用户后续对该音频文件的查找。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例提供的应用环境示意图。

图2示出了根据本申请一个实施例的应用于服务器的语音播报方法流程图。

图3示出了根据本申请另一个实施例的语音播报方法流程图。

图4示出了根据本申请一个实施例的语音播报方法中步骤S240的具体方法流程图。

图5示出了根据本申请另一个实施例的语音播报方法中步骤S240的具体方法流程图。

图6示出了根据本申请又一个实施例的语音播报方法流程图。

图7示出了根据本申请再一个实施例的语音播报方法流程图。

图8示出了根据本申请还一个实施例的语音播报方法流程图。

图9示出了根据本申请实施例的语音播报方法的时序状态图。

图10示出了根据本申请再又一个实施例的语音播报方法流程图。

图11示出了本申请一实施例提供的语音播报装置的功能模块图。

图12示出了本申请另一实施例提供的语音播报装置的功能模块图。

图13示出了本申请实施例提供的电子设备的结构框图。

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的语音播报方法的程序代码的存储介质。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着社会信息技术的高速发展，人们对精神生活的追求越来越高，越来越多的音乐设备也层出不穷，而基于此类音乐设备的各种各样的音乐播放软件也相继出现。由于用户在使用音乐播放软件听歌时，一般不会一直盯着软件界面看当前播放的歌曲的信息，而是关闭音乐播放界面让歌曲在手机后台播放，或者在手机熄屏状态下播放。因此这样造成了用户听歌的盲目性，例如，很多用户不熟悉的歌曲，即使用户听了很多遍，觉得好听，但是始终不知道歌曲的名字是什么，也不知道歌曲的作者是谁，当用户想要找到这首歌的时候却无从下手。再加上现在的很多音乐播放软件会使用推荐算法帮用户选择歌曲播放的，这样导致用户无法根据歌曲的播放记录来查找该歌曲，增加了歌曲查找的难度。另外，目前歌曲的相关信息都是显示在手机的音乐播放界面上的，用户没有去查看该音乐播放界面就无法得知该歌曲的信息。针对上述问题，发明人提出了本申请实施例提供的语音播报方法、装置、电子设备及存储介质，通过获取待播放的音频文件的摘要信息，其中，摘要信息用于介绍该音频文件的相关信息，如音频文件的作者信息、音频名称等等。再根据摘要信息生成播报语音，最后在该音频文件播放前播放该播报语音，实现了用户在听每一个音频之前都会播报该音频的相关信息，以便于用户对不熟悉的音频的了解，避免了用户在听音频文件时的盲目性，也便于用户后续对该音频文件的查找。

下面对本申请实施例提供的语音播放方法的应用环境进行介绍。

请参见图1，图1示出了为本申请实施例提供的音频播放系统的网络框图，该音频播放系统包括音频播放终端100和服务器200，音频播放终端100和服务器200通信连接。其中，音频播放终端100和服务器200之间可以是有线或者无线连接，其中，无线连接可以是3G、4G、5G等移动网络数据连接，也可以是WiFi连接、蓝牙连接等等。该服务器200可以接收音频播放请求信息，并根据音频播放请求信息生成待播放的音频文件的播报语音，其播报语音可以用于以音频形式展示音频文件的相关信息。该服务器200还可以调用音频播放终端100的音频应用的应用接口，向应用接口发送播报语音。该音频播放终端100可以存储音频文件以及播报语音，并可以对音频文件以及播报语音进行播放。

其中，音频播放终端100可以是智能手机、平板电脑、智能音箱、智能电视以及其他可以进行音频播放的智能设备。服务器200可以是一个物理或逻辑服务器200等。在本申请实施例中，移动终端、服务器200的设备种类，以及移动终端与服务器200之间通信网络的类型、协议等均不做限定。

基于上面介绍的系统以及系统运行流程，下面将通过具体实施例对本申请实施例提供的语音播报方法、装置、电子设备进行详细说明。

本申请实施例提供了一种语音播报方法，该方法应用于服务器，请参阅图2，该方法可以包括：

步骤S110：接收音频播放请求信息，音频播放请求信息可以包括待播放的音频文件的摘要信息，其中，摘要信息至少可以包括作者信息和音频名称。

在本申请实施例中，服务器可通过有线通讯或无线通讯的方式接收音频播放终端发送的音频播放请求信息。其中，音频文件可以是音乐、歌曲、录音等等。摘要信息可以包括作者信息和音频名称；摘要信息也还可以包括音频文件的类型，例如当音频文件为歌曲，类型可以是摇滚、流行、古典等等。作者信息可以是作者的名称、作者的国籍、作者的年龄等等。

步骤S120：根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息。

在一些实施方式中，服务器可以在本地的数据库中查找并获取与该摘要信息匹配的播报语音，其中，播报语音可以包括用该音频文件对应的作者的声音来播报该摘要信息的语音，例如，音频文件为歌曲“半岛铁盒”，歌手为周杰伦，其播报语音即为用周杰伦的声音播报歌曲名称为“半岛铁盒”、歌手名称为“周杰伦”等摘要信息的语音。

在一些实施方式中，服务器也可以根据摘要信息，将摘要信息加入到预先设定的句式模板中，生成文字内容，再将文字内容转化为语音，从而得到播报语音。

当然，服务器根据摘要信息生成播报语音的具体方式可以不作为限定。

步骤S130：将播报语音发送至音频播放终端的音频应用的应用接口，播报语音用于指示音频应用在播放音频文件之前，播放播报语音。

当音频播放终端音频应用的应用接口接收该语音播报后，在音频应用播放该音频文件之前播放该播报语音，例如，当音频播放终端上的音频应用在播放歌曲“半岛铁盒”之前，会先以“周杰伦”的声音播报一段如“大家好，我是周杰伦，接下来将要播放的是我的歌曲半岛铁盒”的语音。其中，音频应用可以是例如网易云音乐、QQ音乐等具有音频播放功能的应用，可以理解的是，应用接口为应用程序接口(Application Programming Interface，API)，通过使用API函数开发应用程序，可以避免编写无用程序，以减轻编程任务。

在申请本实施例中，通过在音频文件播放之前播放该音频文件的作者信息、音频名称等信息，能够使用户在不查看音频应用的播放界面的情况下也能够获知该音频文件的作者信息、音频名称等信息，避免了用户听音频文件的盲目性。而且，考虑到播放的音频文件数量可能会很多，这样会导致用户即使在每个音频文件播放之前都听了播报语音，但在听完过后也不太容易分清哪一个音频文件对应了哪一个播报语音。所以在本实施例中还通过用音频文件的作者的声音来播放播报语音，基于不同的作者会有不同的音色、频率等声音特征，可提高了用户对播报语音的辨识度，从而方便用户能够更容易地将音频文件与该音频文件的播报语音对应起来。

本申请另一个实施例提供了一种语音播报方法，该方法应用于服务器，请参阅图3，该方法可以包括：

S210：接收音频播放请求信息，音频播放请求信息包括待播放的音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称。

在本申请实施例中，步骤S210可以参阅前述实施例的描述，在此不再赘述。

S220：判断本地是否存在播报语音。

在本申请实施例中，服务器可以将历史生成的播报语音存储至本地，从而在音频播放终端请求的播报语音为历史生成的播报语音时，可以直接从本地读取，而无需每次生成。

在一些实施方式中，服务器根据音频播放请求信息中的摘要信息，在服务器本地的数据库中查找是否存在与摘要信息对应的播报语音，以确定是否需要生成播报语音。

S230：如果本地存在播报语音，则读取本地存在的播报语音。

S240：如果本地不存在播报语音，则根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息。

参阅图4，在一些实施方式中，步骤S240可以包括：

S241：根据摘要信息生成第一语音，并获取作者信息对应的第二语音，第一语音至少包括用于介绍摘要信息的语音内容；第二语音包括用于表征作者信息对应的声音风格的语音。

在一些实施方式中，在根据摘要信息生成第一语音时，可以先根据摘要信息生成播报内容文字，再通过文本转语音算法将播报内容文字转化为第一语音。具体地，例如，摘要信息包括了“作者的名称：周杰伦，歌曲的名称：半岛铁盒”等用于介绍音频文件的信息，则根据该摘要信息生成的播报内容文字则可以是“大家好，我是周杰伦，接下来将要播放的是我的歌曲半岛铁盒”的内容文字，再通过文本转语音算法(Text To Speech，TTS)将该端内容文字进行转化成音频，以得到用音频形式展示该内容文字的第一语音。

在一些实施方式中，在获取作者信息对应的第二语音时，可以是先获取与作者信息对应的多个音频；再通过人声提取算法分别从多个音频中提取出第二语音。具体地，例如，选取一个歌手所唱的任意10首歌曲，通过人声提取算法将每首格的配乐部分(背景音乐)给去掉，只提取出歌曲中的人声部分，得到的该歌手的特有风格的人声即第二语音。可选地，除了作者所唱的歌曲文件以外，还可以从作者的录音或带有作者声音的视频中提取出作者的第二语音。

S242：根据第一语音和第二语音生成播报语音，播报语音包括以声音风格展现语音内容的语音。

在一些实施方式中，根据第一语音和第二语音生成播报语音，可以包括：将第一语音转换为第一声谱图，以及将第二语音转换为第二声谱图；基于语音风格转换算法将第一声谱图和第二声谱图转化为第三声谱图。

可选地，将第一语音转换为第一声谱图以及将第二语音转换为第二声谱图的方法可以是，先提取出第一语音和第二语音中的有效声音信号片段，将有效声音信号片段的波形图转换为由有效声音信号片段的频率、时间和声音强度三个维度信息组成的声谱图以得到第一声谱图和第二声谱图。具体地，可以将有效声音信号片段加窗划分为若干个帧，然后对每一帧进行短时傅里叶变换，得到该帧的频谱信息，该频谱信息用于表示该帧的频率与声音强度之间的关系，连接所有帧的频谱信息，得到有效声音信号片段的声谱图，声谱图由若干个点组成，任一点的二维坐标(x，y)用于表示该点在x时刻，y频率上对应的声音强度。

可以理解的是，语音风格转换算法为一个可以通过一个表征内容特征的语音(即第一语音)和一个表征风格特征的语音(即第二语音)生成一个同时具有第一语音的内容特征和第二语音的风格特征的语音的算法。

在一些具体实施方式中，基于语音风格转换算法将第一声谱图和第二声谱图转化为第三声谱图，可以包括：基于预先训练的卷积神经网络，提取第一声谱图的内容特征以及第二声谱图的风格特征；根据内容特征以及风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图。

在一些实施方式中，预先训练的卷积神经网络网络可以是采用imageNet中预训练的卷积神经网络，由于imageNet中预训练的卷积神经网络已经有很强的特征提取能力，因此不需要重新训练，基于imageNet中预训练的卷积神经网络即可对第一声谱图中的内容特征以及第二声谱图中的风格特征进行提取。用于风格转换的深度卷积网络可以对输入的声谱图进行风格转换，最后输出风格转换后的声谱图。

在一些实施方式中，在根据提取得到的内容特征以及风格特征，对输出的声谱图进行迭代训练的过程中，从深度卷积网络提取的第一声谱图的内容特征以及第二声谱图的风格特征为固定值，可以迭代训练的变量是上述深度卷积网络中输出的声谱图的每一个像素点，从而使得该深度卷积网络输出的声谱图中的风格特征不断接近第二声谱图的风格特征，深度卷积网络输出的声谱图中的内容特征不断接近第一声谱图的内容特征，最后迭代训练完成获得的第三声谱图既包含内容特征，也包含风格特征。

进一步的，根据内容特征以及风格特征，对深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图，可以包括：根据内容特征以及风格特征，获取用于风格转换的深度卷积网络输出的声谱图的总损失函数，总损失函数用于表征输出的声谱图相对第一声谱图的内容损失以及输出的声谱图相对第二声谱图的风格损失；根据总损失函数，对深度卷积网络输出的声谱图进行迭代训练，直至输出的声谱图对应的总损失函数的值满足设定条件，得到第三声谱图。

具体地，可以将第一声谱图作为初始输入上述深度卷积网络的图像，并根据该深度卷积网络输出的声谱图的总损失函数，对输出的声谱图进行迭代训练。每一次迭代训练后都会得到深度卷积网络输出的声谱图，在经历若干次迭代训练后，可得到总损失函数值较小的声谱图，即得到同时包含内容特征以及风格特征的声谱图。

具体地，在一种实施方式中，利用预先训练的卷积神经网络分别提取出第一声谱图的内容特征和第二声谱图的风格特征，并提取深度卷积网络输出的声谱图的内容特征和风格特征。然后根据第一声谱图的内容特征，以及输出的声谱图的内容特征，计算输出的声谱图的内容损失，并根据第二声谱图的风格特征以及输出的声谱图的风格特征，计算输出的声谱图的风格损失；再根据输出的声谱图的内容损失，以及输出的声谱图的风格损失，利用内容损失函数以及风格损失函数的占比，构建总损失函数。

作为一种示例，预先训练的深度卷积网络的总损失函数主要来源于两个方面。

一方面，来源于用于表征输出的声谱图相对第一声谱图的内容特征损失的内容损失函数，具体地，内容损失函数表达示可以如下：

其中，l表示深度卷积网络的第l层，p^l表示第一声谱图在第l层的特征，X^l为深度卷积网络输出的声谱图在对应的第l层的特征。其中，设第l层特征图维数为(1×N_l×w_l×h_l)，则

M_l＝w_l×h_l。

分别表示X^l和p^l在第i行第j列的特征值。

另一方面，来源于用于表征输出的声谱图相对第二声谱图的风格特征损失的风格损失函数，具体地，风格损失函数推导过程如下：

首先，使用格拉姆矩阵(Gram Matrix)度量风格：

其中，N_l表示在卷积神经网络第l层中卷积核的个数。

表示第l层特征X^l第i行第k列的特征值。

其次，格拉姆矩阵存储的是声谱图图片的风格特征，计算两两特征的相关性。卷积层中一层的损失为：

其中，G^l是深度卷积网络输出的声谱图在第l层的特征的格拉姆矩阵，A^l是第二声谱图在第l层的特征格拉姆矩阵。

最后，提取风格特征时，通常使用多个卷积层的输出，得到的风格损失函数如下：

其中，

是第一声谱图，

是深度卷积网络输出的声谱图；wl是每层损失的权重。

基于上述内容损失函数和风格损失函数，通过白噪声(高斯分布)初始化输出的声谱图，然后通过深度网络对输出的声谱图进行风格和内容两个方面的优化，最终得到的总损失函数如下：

其中，

是第一声谱图，

是第二声谱图，

是输出的声谱图。α和β是用来调整内容和风格占比的系数。

S243，将第三声谱图转换为第三语音，并将第三语音作为播报语音。

在一些实施方式中，可以根据第三频谱图中的时间、频率以及强度等参数生成声音信息片段，以得到第三语音。

在本实施方式中，可以通过将第一语音转换为第一声谱图，第二语音转换为第二声谱图，从第一声谱图提取出内容特征和从第二声谱图提取出风格特征，然后根据内容特征以及风格特征，对输出的声谱图进行迭代训练，得到第三声谱图，从而融合了局部和全局的特征信息，不仅能够保留更多的特征信息，而且节省了更多的计算机资源和运算时间。

参阅图5，在另一些实施方式中，步骤S240可以包括：

S244：根据摘要信息生成摘要文字，并获取作者信息对应的风格语音，摘要文字至少包括用于介绍摘要信息的文字内容，风格语音包括用于表征作者信息对应的声音风格的语音。

可选地，风格语音可以是截取的作者的声音片段，文字内容可以是类似于上述实施例根据摘要信息生成的文字。

S245：根据摘要文字和风格语音生成播报语音，播报语音包括以声音风格展现文字内容的语音。

在一些实施方式中，该播报语音可以是根据该文字内容将多个声音片段进行拼接，以组成一段完整的用于展示文字内容的语音。在另一些实施方式中，服务器可以存储有将文字转换为该作者的声音风格的语音的模型，服务器可以利用该模型将生成的摘要文字转换为语音，并将转换得到的语音作为播报语音。

在本实施方式中，通过按文字内容拼接声音片段，以形成播报语音，可简单、快捷地生成播报语音。

S250：将播报语音发送至音频播放终端的音频应用的应用接口，播报语音用于指示音频应用在播放音频文件之前，播放播报语音。

在本实施例中，通过检测服务器本地中是否存在待播放的音频文件的播报语音，若存在则直接调用该播报语音，若不存在则生成与该音频文件对应的播报语音，从而使服务器的数据库中数据更加完善。

本申请又一个实施例提供了一种语音播报方法，该方法应用于音频播放终端，请参阅图6，该方法可以包括：

S310：确定待播放的音频文件。

音频播放终端正在播放音频时，计算下一个要播放的音频文件。

S320：发送音频播放请求信息至服务器，音频播放请求信息包括音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称，音频播放请求信息用于指示服务器根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息。

S330：接收服务器返回的播报语音。

S340：在播放音频文件之前，播放播报语音。

本申请再一个实施例提供了一种语音播报方法，参阅图7，该方法可以应用于单机设备，该单机设备可以是同时具备音频播放功能以及生成播报语音能力的智能设备。该方法可以包括：

S410：确定待播放的音频文件。

S420：获取音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称。

S430：根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息。

S440：在播放音频文件之前，播放播报语音。

本申请还一个实施例提供了一种语音播报方法，该方法应用于音频播放系统，请参阅图8和图9，该语音播报方法可以包括：

S510：音频播放终端确定待播放的音频文件，并发送音频播放请求信息至服务器，音频播放请求信息包括音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称。

S520：服务器根据摘要信息，生成播报语音。

S530：服务器将播报语音发送至音频播放终端的音频应用的应用接口，播报语音包括使用以作者信息对应的声音播报的摘要信息。

S540：音频播放终端接收服务器返回播报语音，并在播放音频文件之前，播放播报语音。

本申请再又一个实施例提供了一种语音播报方法，该方法应用于音频播放系统，请参阅图10，该语音播报方法可以包括：

S610：音频播放终端确定待播放的音频文件，并判断音频播放终端中是否存在与音频文件对应的播报语音。

初始化音频播放终端时或者音频播放终端正在播放播放歌曲时，计算下一首将要播放的歌曲。并在音频播放终端的本地中查找下一首将要播放的歌曲的具有歌手声音风格特征的播报语音。

S620：若音频播放终端中存在播报语音，则在播放音频文件之前播放播报语音。

当存在播报语音时，在播放下一首歌曲之前播放该播报语音。

S630：若音频播放终端中不存在播报语音，则发送音频播放请求信息至服务器，音频播放请求信息包括音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称。

S640：服务器判断本地是否存在与该摘要信息对应的播报语音。

S650：若服务器中存在播报语音，则将播报语音发送至音频播放终端的音频应用的应用接口。

S660：若服务器中不存在播报语音，则根据摘要信息，生成播报语音。

S670：服务器将播报语音发送至音频播放终端的音频应用的应用接口，播报语音包括使用以作者信息对应的声音播报的摘要信息。

S680：音频播放终端接收服务器返回播报语音，并在播放音频文件之前，播放播报语音。

在本实施例中，通过检测音频播放终端是否存在播报语音，当存在时可以直接调用，不存在时可以从服务器进行调用。从而保证了音频播放终端在播放每一个音频文件时都能播放播报语音。

请参阅图11，其示出了本申请实施例提供的一种语音播报装置的结构框图，该装置700应用于服务器，该装置700可以包括：音频播放请求信息接收模块710、播报语音生成模块720以及发送模块730。音频播放请求信息接收模块710用于接收音频播放请求信息，音频播放请求信息包括待播放的音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称；播报语音生成模块720用于根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；发送模块730用于将播报语音发送至音频播放终端的音频应用的应用接口，播报语音用于指示音频应用在播放音频文件之前，播放播报语音。

进一步的，播报语音生成模块720可以包括：第一语音生成单元以及第二语音生成单元。其中，第一语音生成单元可以用于根据摘要信息生成第一语音，并获取作者信息对应的第二语音，第一语音至少包括用于介绍摘要信息的语音内容，第二语音包括用于表征作者信息对应的声音风格的语音；第二语音生成单元可以用于根据第一语音和第二语音生成播报语音，播报语音包括以声音风格展现语音内容的语音。

进一步的，第一语音生成单元可以具体用于：将第一语音转换为第一声谱图，以及将第二语音转换为第二声谱图；基于语音风格转换算法将第一声谱图和第二声谱图转化为第三声谱图；将第三声谱图转换为第三语音，并将第三语音作为播报语音。

进一步的，第二语音生成单元可以具体用于：基于预先训练的卷积神经网络，提取所述第一声谱图的内容特征以及所述第二声谱图的风格特征；根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到所述第三声谱图。

进一步的，第二语音生成单元根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到所述第三声谱图，可以包括：根据所述内容特征以及所述风格特征，获取用于风格转换的深度卷积网络输出的声谱图的总损失函数，所述总损失函数用于表征所述输出的声谱图相对所述第一声谱图的内容损失以及所述输出的声谱图相对所述第二声谱图的风格损失；根据所述总损失函数，对所述深度卷积网络输出的声谱图进行迭代训练，直至所述输出的声谱图对应的所述总损失函数的值满足设定条件，得到所述第三声谱图。。

进一步的，第一语音生成单元根据所述摘要信息生成第一语音，可以包括：根据摘要信息生成播报内容文字；通过文本转语音算法将播报内容文字转化为第一语音。

进一步的，第一语音生成单元根据所述摘要信息生成第一语音，可以包括：获取与作者信息对应的多个音频；通过人声提取算法分别从多个音频中提取出第二语音。

进一步的，第二语音生成单元也可以具体用于：根据摘要信息生成摘要文字，并获取作者信息对应的风格语音，摘要文字至少包括用于介绍摘要信息的文字内容，风格语音包括用于表征作者信息对应的声音风格的语音；根据摘要文字和风格语音生成播报语音，播报语音包括以声音风格展现文字内容的语音。

进一步的，该装置700还可以包括播报语音检测模块，播报语音检测模块用于判断本地是否存在播报语音；如果本地不存在播报语音，则播报语音生成模块720执行根据摘要信息，生成播报语音；如果本地存在播报语音，则读取本地存在的播报语音。

请参阅图12，其示出了本申请实施例提供的一种语音播报装置的结构框图，该装置800应用于音频播放终端，该装置800可以包括：音频文件确定模块810、音频播放请求信息发送模块820、接收模块830以及播放模块840，音频文件确定模块810用于确定待播放的音频文件；音频播放请求信息发送模块820用于发送音频播放请求信息至服务器，音频播放请求信息包括音频文件的摘要信息，其中，摘要信息至少包括作者信息和音频名称，音频播放请求信息用于指示服务器根据摘要信息，生成播报语音，播报语音包括使用以作者信息对应的声音播报的摘要信息；接收模块830用于接收服务器返回的播报语音；播放模块840用于在播放音频文件之前，播放播报语音。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图13，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备900可以是前述实施例中的服务器、音频播放终端等能够运行应用程序的电子设备900。本申请中的电子设备900可以包括一个或多个如下部件：处理器910、存储器920、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器920中并被配置为由一个或多个处理器910执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个移动终端内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行移动终端的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器910(CentralProcessing Unit，CPU)、图像处理器910(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910610中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器920(Random Access Memory，RAM)，也可以包括只读存储器920(Read-Only Memory)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码310，程序代码310可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音播报方法，其特征在于，应用于服务器，所述方法包括：

接收音频播放请求信息，所述音频播放请求信息包括待播放的音频文件的摘要信息，其中，所述摘要信息至少包括作者信息和音频名称；

根据所述摘要信息生成第一语音，并获取所述作者信息对应的第二语音，所述第一语音至少包括用于介绍所述摘要信息的语音内容，所述第二语音包括用于表征所述作者信息对应的声音风格的语音；

提取所述第一语音中的有效声音信号片段，将所述第一语音中的有效声音片段转换为由所述第一语音中的有效声音片段的频率、时间和声音强度组成的第一声谱图，以及提取所述第二语音中的有效声音信号片段，将所述第二语音中的有效声音片段转换为由所述第二语音中的有效声音片段的频率、时间和声音强度组成的第二声谱图；

基于预先训练的卷积神经网络，提取所述第一声谱图的内容特征以及所述第二声谱图的风格特征；其中，所述声谱图的内容特征以及所述第二声谱图的风格特征为固定值；

根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图；

将所述第三声谱图转换为第三语音，并将所述第三语音确定为播报语音，所述播报语音包括以所述声音风格展现所述语音内容的语音，所述播报语音包括使用以所述作者信息对应的声音播报的所述摘要信息；

将所述播报语音发送至音频播放终端的音频应用的应用接口，所述播报语音用于指示所述音频应用在播放所述音频文件之前，播放所述播报语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到所述第三声谱图，包括：

根据所述内容特征以及所述风格特征，获取用于风格转换的深度卷积网络输出的声谱图的总损失函数，所述总损失函数用于表征所述输出的声谱图相对所述第一声谱图的内容损失以及所述输出的声谱图相对所述第二声谱图的风格损失；

根据所述总损失函数，对所述深度卷积网络输出的声谱图进行迭代训练，直至所述输出的声谱图对应的所述总损失函数的值满足设定条件，得到所述第三声谱图。

3.根据权利要求1所述的方法，其特征在于，所述根据所述摘要信息生成第一语音，包括：

根据所述摘要信息生成播报内容文字；

通过文本转语音算法将所述播报内容文字转化为所述第一语音。

4.根据权利要求1所述的方法，其特征在于，所述获取所述作者信息对应的第二语音，包括：

获取与所述作者信息对应的多个音频；

通过人声提取算法分别从多个所述音频中提取出所述第二语音。

5.根据权利要求1所述的方法，其特征在于，所述根据摘要信息，生成播报语音，包括：

根据所述摘要信息生成摘要文字，并获取所述作者信息对应的风格语音，所述摘要文字至少包括用于介绍所述摘要信息的文字内容，所述风格语音包括用于表征所述作者信息对应的声音风格的语音；

根据所述摘要文字和所述风格语音生成所述播报语音，所述播报语音包括以所述声音风格展现所述文字内容的语音。

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述根据所述摘要信息生成第一语音之前，所述方法还包括：

判断本地是否存在所述播报语音；

如果本地不存在所述播报语音，则执行所述根据所述摘要信息，生成播报语音；

如果本地存在所述播报语音，则读取本地存在的所述播报语音。

7.一种语音播报方法，其特征在于，应用于音频播放终端，所述方法包括：

确定待播放的音频文件；

发送音频播放请求信息至服务器，所述音频播放请求信息包括所述音频文件的摘要信息，其中，所述摘要信息至少包括作者信息和音频名称，所述音频播放请求信息用于指示所述服务器根据所述摘要信息生成第一语音，并获取所述作者信息对应的第二语音，所述第一语音至少包括用于介绍所述摘要信息的语音内容，所述第二语音包括用于表征所述作者信息对应的声音风格的语音；并提取所述第一语音中的有效声音信号片段，将所述第一语音中的有效声音片段转换为由所述第一语音中的有效声音片段的频率、时间和声音强度组成的第一声谱图，以及提取所述第二语音中的有效声音信号片段，将所述第二语音中的有效声音片段转换为由所述第二语音中的有效声音片段的频率、时间和声音强度组成的第二声谱图；且基于预先训练的卷积神经网络，提取所述第一声谱图的内容特征以及所述第二声谱图的风格特征；其中，所述声谱图的内容特征以及所述第二声谱图的风格特征为固定值；并根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图；且将所述第三声谱图转换为第三语音，并将所述第三语音确定为播报语音，所述播报语音包括使用以所述作者信息对应的声音播报的所述摘要信息；

接收所述服务器返回的所述播报语音；

在播放所述音频文件之前，播放所述播报语音。

8.一种语音播报方法，其特征在于，所述方法包括：

确定待播放的音频文件；

获取所述音频文件的摘要信息，其中，所述摘要信息至少包括作者信息和音频名称；

根据所述摘要信息生成第一语音，并获取所述作者信息对应的第二语音，所述第一语音至少包括用于介绍所述摘要信息的语音内容，所述第二语音包括用于表征所述作者信息对应的声音风格的语音；并提取所述第一语音中的有效声音信号片段，将所述第一语音中的有效声音片段转换为由所述第一语音中的有效声音片段的频率、时间和声音强度组成的第一声谱图，以及提取所述第二语音中的有效声音信号片段，将所述第二语音中的有效声音片段转换为由所述第二语音中的有效声音片段的频率、时间和声音强度组成的第二声谱图；且基于预先训练的卷积神经网络，提取所述第一声谱图的内容特征以及所述第二声谱图的风格特征；其中，所述声谱图的内容特征以及所述第二声谱图的风格特征为固定值；并根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图；且将所述第三声谱图转换为第三语音，并将所述第三语音确定为播报语音，所述播报语音包括使用以所述作者信息对应的声音播报的所述摘要信息；

在播放所述音频文件之前，播放所述播报语音。

9.一种语音播报装置，其特征在于，应用于服务器，所述装置包括：

音频播放请求信息接收模块，用于接收音频播放请求信息，所述音频播放请求信息包括待播放的音频文件的摘要信息，其中，所述摘要信息至少包括作者信息和音频名称；

播报语音生成模块，用于根据所述摘要信息，生成第一语音，并获取所述作者信息对应的第二语音，所述第一语音至少包括用于介绍所述摘要信息的语音内容，所述第二语音包括用于表征所述作者信息对应的声音风格的语音；并提取所述第一语音中的有效声音信号片段，将所述第一语音中的有效声音片段转换为由所述第一语音中的有效声音片段的频率、时间和声音强度组成的第一声谱图，以及提取所述第二语音中的有效声音信号片段，将所述第二语音中的有效声音片段转换为由所述第二语音中的有效声音片段的频率、时间和声音强度组成的第二声谱图；且基于预先训练的卷积神经网络，提取所述第一声谱图的内容特征以及所述第二声谱图的风格特征；其中，所述声谱图的内容特征以及所述第二声谱图的风格特征为固定值；并根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图；且将所述第三声谱图转换为第三语音，并将所述第三语音确定为播报语音，所述播报语音包括使用以所述作者信息对应的声音播报的所述摘要信息；

发送模块，用于将所述播报语音发送至音频播放终端的音频应用的应用接口，所述播报语音用于指示所述音频应用在播放所述音频文件之前，播放所述播报语音。

10.一种语音播报装置，其特征在于，应用于音频播放终端，所述装置包括：

音频文件确定模块，用于确定待播放的音频文件；

音频播放请求信息发送模块，用于发送音频播放请求信息至服务器，所述音频播放请求信息包括所述音频文件的摘要信息，其中，所述摘要信息至少包括作者信息和音频名称，所述音频播放请求信息用于指示所述服务器根据所述摘要信息，生成第一语音，并获取所述作者信息对应的第二语音，所述第一语音至少包括用于介绍所述摘要信息的语音内容，所述第二语音包括用于表征所述作者信息对应的声音风格的语音；并提取所述第一语音中的有效声音信号片段，将所述第一语音中的有效声音片段转换为由所述第一语音中的有效声音片段的频率、时间和声音强度组成的第一声谱图，以及提取所述第二语音中的有效声音信号片段，将所述第二语音中的有效声音片段转换为由所述第二语音中的有效声音片段的频率、时间和声音强度组成的第二声谱图；且基于预先训练的卷积神经网络，提取所述第一声谱图的内容特征以及所述第二声谱图的风格特征；其中，所述声谱图的内容特征以及所述第二声谱图的风格特征为固定值；并根据所述内容特征以及所述风格特征，对用于风格转换的深度卷积网络输出的声谱图进行迭代训练，得到第三声谱图；且将所述第三声谱图转换为第三语音，并将所述第三语音确定为播报语音，所述播报语音包括使用以所述作者信息对应的声音播报的所述摘要信息；

接收模块，用于接收所述服务器返回的所述播报语音；

播放模块，用于在播放所述音频文件之前，播放所述播报语音。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-8任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。