CN110534131A

CN110534131A - 一种音频播放方法及系统

Info

Publication number: CN110534131A
Application number: CN201910816264.7A
Authority: CN
Inventors: 涂斌; 蔡剑文; 欧阳育军; 叶键晖
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-03

Abstract

本发明提供一种音频播放方法及系统，该方法为：获取待播放文本和多个预设语音包；利用预设的特征信息提取模型，提取待播放文本的每个角色对应的角色属性和每个场景对应的场景属性；根据每个预设语音包的语音属性，分别为每个角色属性和场景属性分配对应的角色语音包和场景语音包；利用每个角色语音包播放待播放文本中与其对应的角色对应的内容，以及利用每个场景语音包播放待播放文本中与其对应的场景对应的内容。本方案中，根据每个角色和场景的属性，为不同角色和不同场景分配各自对应的语音包，并分别利用每一角色和场景对应的语音包播放每一角色和场景对应的内容，提高用户的使用体验。

Description

一种音频播放方法及系统

技术领域

本发明涉及音频处理技术领域，具体涉及一种音频播放方法及系统。

背景技术

随着科学技术的发展，利用电子设备阅读电子文本逐渐成为阅读文本的主流方式。

在阅读电子文本时，用户可能因为自身需求，需要播放电子文本中的内容，通过收听的方式获取电子文本中的内容。目前播放电子文本中的内容的方式为：选择固定一种的声音类型播放电子文本的全部内容，在播放期间不能切换另外一种声音类型。但是电子文本中会涉及不同类型的角色和场景，例如角色的性别不同，如果采取固定的一种声音类型播放全部内容，会严重影响用户的收听体验，用户使用体验率差。

发明内容

有鉴于此，本发明实施例提供一种音频播放方法及系统，以解决现有播放电子文本的方式存在的用户使用体验率差等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种音频播放方法，所述方法包括：

获取待播放文本和多个预设语音包；

利用预设的特征信息提取模型，提取所述待播放文本的每个角色对应的角色属性和每个场景对应的场景属性，得到多个角色属性和多个场景属性，所述特征信息提取模型由角色样本数据和场景样本数据训练神经网络模型得到；

根据每个所述预设语音包的语音属性，为每个所述角色属性分配对应的角色语音包，以及为每个所述场景属性分配对应的场景语音包；

利用每个所述角色语音包播放所述待播放文本中与其对应的角色对应的内容，以及利用每个所述场景语音包播放所述待播放文本中与其对应的场景对应的内容。

优选的，所述根据每个所述预设语音包的语音属性，为每个所述角色属性分配对应的角色语音包，以及为每个所述场景属性分配对应的场景语音包，包括：

针对每一所述角色属性，获取所述角色属性与每个所述语音属性的匹配度；

针对每一所述场景属性，获取所述场景属性与每个所述语音属性的匹配度；

为每个所述角色属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述角色属性的角色语音包；

为每个所述场景属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述场景属性的场景语音包。

优选的，所述利用预设的特征信息提取模型，提取所述待播放文本的每个角色对应的角色属性和每个场景对应的场景属性，得到多个角色属性和多个场景属性之后，还包括：

为每个所述角色和每个所述场景进行标注，确定每个所述角色对应的角色标注和每个所述场景对应的场景标注。

优选的，所述利用每个所述角色语音包播放所述待播放文本中与其对应的角色对应的内容，以及利用每个所述场景语音包播放所述待播放文本中与其对应的场景对应的内容，包括：

实时检测所述待播放文本的待播放内容中的第一角色对应的角色标注和第一场景对应的场景标注；

若存在所述第一角色对应的角色标注，利用所述第一角色对应的角色语音包播放所述第一角色对应的内容；

若存在所述第一场景对应的场景标注，利用所述第一场景对应的场景语音包播放所述第一场景对应的内容。

本发明实施例第二方面公开一种音频播放系统，所述系统包括：

获取单元，用于获取待播放文本和多个预设语音包；

提取单元，用于利用预设的特征信息提取模型，提取所述待播放文本的每个角色对应的角色属性和每个场景对应的场景属性，得到多个角色属性和多个场景属性，所述特征信息提取模型由角色样本数据和场景样本数据训练神经网络模型得到；

分配单元，用于根据每个所述预设语音包的语音属性，为每个所述角色属性分配对应的角色语音包，以及为每个所述场景属性分配对应的场景语音包；

播放单元，用于利用每个所述角色语音包播放所述待播放文本中与其对应的角色对应的内容，以及利用每个所述场景语音包播放所述待播放文本中与其对应的场景对应的内容。

优选的，所述分配单元包括：

第一获取模块，用于针对每一所述角色属性，获取所述角色属性与每个所述语音属性的匹配度；

第二获取模块，用于针对每一所述场景属性，获取所述场景属性与每个所述语音属性的匹配度；

第一确定模块，用于为每个所述角色属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述角色属性的角色语音包；

第二确定模块，用于为每个所述场景属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述场景属性的场景语音包。

优选的，还包括：

标注单元，用于为每个所述角色和每个所述场景进行标注，确定每个所述角色对应的角色标注和每个所述场景对应的场景标注。

优选的，所述播放单元包括：

检测模块，用于实时检测所述待播放文本的待播放内容中的第一角色对应的角色标注和第一场景对应的场景标注；

第一播放模块，用于若存在所述第一角色对应的角色标注，利用所述第一角色对应的角色语音包播放所述第一角色对应的内容；

第二播放模块，用于若存在所述第一场景对应的场景标注，利用所述第一场景对应的场景语音包播放所述第一场景对应的内容。

本发明实施例第三方面公开一种电子设备，所述电子设备用于运行程序，其中，所述程序运行时执行如本发明实施例第一方面公开的音频播放方法。

本发明实施例第四方面公开一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本发明实施例第一方面公开的音频播放方法。

基于上述本发明实施例提供的一种音频播放方法及系统，该方法为：获取待播放文本和多个预设语音包；利用预设的特征信息提取模型，提取待播放文本的每个角色对应的角色属性和每个场景对应的场景属性；根据每个预设语音包的语音属性，分别为每个角色属性和场景属性分配对应的角色语音包和场景语音包；利用每个角色语音包播放待播放文本中与其对应的角色对应的内容，以及利用每个场景语音包播放待播放文本中与其对应的场景对应的内容。本方案中，根据每个角色和场景的属性，为不同角色和不同场景分配各自对应的语音包。利用每一角色对应的语音包播放待播放文本中与该角色对应的内容，以及利用每一场景对应的语音包播放待播放文本中与该场景对应的内容，提高用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种音频播放方法的流程图；

图2为本发明实施例提供的播放待播放文本内容的流程示意图；

图3为本发明实施例提供的分配角色语音包和场景语音包的流程图；

图4为本发明实施例提供的一种音频播放系统的结构框图；

图5为本发明实施例提供的另一种音频播放系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前播放电子文本中的内容的方式为：选择固定一种的声音类型播放电子文本的全部内容，在播放期间不能切换另外一种声音类型。但是电子文本中会涉及不同类型的角色和场景，例如角色的性别不同，如果采取固定的一种声音类型播放全部内容，会严重影响用户的收听体验，用户使用体验率差。

因此，本发明实施例提供一种音频播放方法及系统，根据不同角色和不同场景的属性，为每一角色和场景分配各自对应的语音包，并利用分配好的语音包播放角色和场景对应的内容，以提高用户的使用体验。

参见图1，示出了本发明实施例提供的一种音频播放方法的流程图，所述音频播放方法包括以下步骤：

步骤S101：获取待播放文本和多个预设语音包。

在具体实现步骤S101的过程中，预先获取多个预设语音包，利用所述多个预设语音包播放所述待播放文本中对应的内容。

步骤S102：利用预设的特征信息提取模型，提取所述待播放文本的每个角色对应的角色属性和每个场景对应的场景属性，得到多个角色属性和多个场景属性。

需要说明的是，预先利用角色样本数据和场景样本数据训练神经网络模型得到所述特征信息提取模型。

在具体实现步骤S102的过程中，将所述待播放文本输入所述特征信息提取模型中，所述特征信息提取模型输出所述待播放文本对应的内容中的角色和场景，以及输出每个角色对应的角色属性和每个场景对应的场景属性。

例如：将一段文本内容输入所述特征信息提取模型中，所述特征信息提取模型输出的角色属性为：小明，男性，输出的场景属性为：晴天。

优选的，在获取每个角色对应的角色属性和每个场景对应的场景属性之后，为每个所述角色和每个所述场景进行标注，确定每个所述角色对应的角色标注和每个所述场景对应的场景标注。

例如：标注每个角色和每个场景在所述待播放文本中的位置，以及每个角色的性别和每个场景的类型。

步骤S103：根据每个所述预设语音包的语音属性，为每个所述角色属性分配对应的角色语音包，以及为每个所述场景属性分配对应的场景语音包。

在具体实现步骤S103的过程中，利用每个所述语音包与每个场景属性和每个角色属性的匹配度，为每个所述角色属性和所述场景属性分配对应的语音包。

需要说明的是，在为每个所述角色属性和所述场景属性分配对应的语音包时，可能出现语音包数量小于场景数量与角色数量之和，即不能为每个不同的角色和不同的场景都分配不同的语音包。

例如：假设语音包数量为3个，场景数量为1个，角色数量为3个，则根据语音包与场景属性的匹配度为场景分配一个语音包后，还剩下2个语音包。利用复用算法，对剩下的2个语音包和3个角色属性进行交叉匹配，相似度最高的两个角色属性共同分配一个语音包，另一角色属性单独分配一个语音包。

优选的，也可为每一场景和每一角色指定对应的语音包，在本发明实施例中不做具体限定。

步骤S104：利用每个所述角色语音包播放所述待播放文本中与其对应的角色对应的内容，以及利用每个所述场景语音包播放所述待播放文本中与其对应的场景对应的内容。

在具体实现步骤S104的过程中，由前述内容可知，预先标注每个角色和每个场景在所述待播放文本中的位置。在播放所述待播放文本时，实时检测所述待播放文本的待播放内容中的第一角色对应的角色标注和第一场景对应的场景标注。

若存在所述第一角色对应的角色标注，利用所述第一角色对应的角色语音包播放所述第一角色对应的内容。

例如：检测到即将播放的内容中仅含有角色“小明”时，利用预先分配给“小明”的语音包播放该即将播放的内容。

例如：检测到即将播放的内容中仅含有场景“风和日丽”时，利用预先分配给“风和日丽”的语音包播放该即将播放的内容。

优选的，在播放所述待播放文本时，根据预先设置的切换时间，切换不同的语音包对所述待播放文本中的内容进行播放。例如：设置切换时间为3分钟，当开始播放所述待播放文本中的内容时，每隔3分钟切换一个语音包对所述待播放文本中的内容进行播放。

为更好解释说明上述涉及到的利用不同语音包所述待播放文本中的内容进行播放的过程，通过图2示出的播放待播放文本内容的流程示意图进行举例说明。

在所述图2中待播放内容中，提取到的场景属性为“风和日丽”，提取到的角色属性分别为“小红，女”和“小明，男”。图2中涉及的语音包为男声1、男声2和女声1，预先将男声1分配给“风和日丽”这一场景属性，将男声2分配给“小明，男”这一角色属性，将女声1分配给“小红，女”这一角色属性。

播放所述待播放内容的过程中，当检测到“风和日丽”对应的场景标注时，利用图2中的男声1播放所述待播放内容中“风和日丽”对应的内容，即播放图2中的“一个风和日丽的下午，小红打电话给小明”和“小明回答”这两段内容。

当检测到“小红，女”对应的角色标注时，利用女声1播放所述待播放内容中“小红”对应的内容，即播放图2中的“小明，我们去看电影吧”这一段内容。

当检测到“小明，男”对应的角色标注时，利用男声2播放所述待播放内容中“小明”对应的内容，即播放图2中的“好啊”这一段内容。

需要说明的是，上述图2中示出的内容仅用于举例说明。

在本发明实施例中，根据每个角色和场景的属性，为不同角色和不同场景分配各自对应的语音包。利用每一角色对应的语音包播放待播放文本中与该角色对应的内容，以及利用每一场景对应的语音包播放待播放文本中与该场景对应的内容，提高用户的使用体验。

上述本发明实施例图1步骤S103中涉及的为每个角色和每个场景分配语音包的过程，参见图3，示出了本发明实施例提供的分配角色语音包和场景语音包的流程图，包括以下步骤：

步骤S301：针对每一所述角色属性，获取所述角色属性与每个所述语音属性的匹配度。

在具体实现步骤S301的过程中，根据每一角色的角色属性，计算该角色对应的角色属性与每个所述语音属性的匹配度。例如：假设预设的语音包为10个，计算角色A的角色属性与每个所述语音属性的匹配度，得到10个匹配度。

步骤S302：针对每一所述场景属性，获取所述场景属性与每个所述语音属性的匹配度。

在具体实现步骤S302的过程中，根据每一场景的场景属性，计算该场景对应的场景属性与每个所述语音属性的匹配度。例如：假设预设的语音包为10个，计算场景B的场景属性与每个所述语音属性的匹配度，得到10个匹配度。

步骤S303：为每个所述角色属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述角色属性的角色语音包。

在具体实现步骤S303的过程中，由前述内容可知，预先计算每个所述角色属性与每个所述语音属性的匹配度，将与所述角色属性匹配度最高的语音属性对应的语音包分配给该角色属性。例如步骤S301中所示出的示例，从10个匹配度中，选择匹配度最高的语音属性对应的语音包分配给角色A。

步骤S304：为每个所述场景属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述场景属性的场景语音包。

在具体实现步骤S304的过程中，由前述内容可知，预先计算每个所述场景与每个所述语音属性的匹配度，将与所述场景属性匹配度最高的语音属性对应的语音包分配给该场景属性。例如步骤S302中所示出的示例，从10个匹配度中，选择匹配度最高的语音属性对应的语音包分配给场景B。

在本发明实施例中，根据每个角色属性与每个语音属性的匹配度，为每个角色属性分配匹配度最高的语音属性对应的语音包，以及根据每个场景属性与每个语音属性的匹配度，为每个场景属性分配匹配度最高的语音属性对应的语音包。在播放待播放文本时，分别利用每一角色和场景对应的语音包播放每一角色和场景对应的内容，提高用户的使用体验。

与上述本发明实施例提供的一种音频播放方法相对应，参见图4，示出了本发明实施例提供的一种音频播放系统的结构框图，所述音频播放系统包括：获取单元401、提取单元402、分配单元403和播放单元404；

获取单元401，用于获取待播放文本和多个预设语音包。

提取单元402，用于利用预设的特征信息提取模型，提取所述待播放文本的每个角色对应的角色属性和每个场景对应的场景属性，得到多个角色属性和多个场景属性，所述特征信息提取模型由角色样本数据和场景样本数据训练神经网络模型得到。

分配单元403，用于根据每个所述预设语音包的语音属性，为每个所述角色属性分配对应的角色语音包，以及为每个所述场景属性分配对应的场景语音包。

播放单元404，用于利用每个所述角色语音包播放所述待播放文本中与其对应的角色对应的内容，以及利用每个所述场景语音包播放所述待播放文本中与其对应的场景对应的内容。

优选的，结合图4，所述分配单元403包括：第一获取模块、第二获取模块、第一确定模块和第二确定模块。各个模块的执行原理如下：

第一获取模块，用于针对每一所述角色属性，获取所述角色属性与每个所述语音属性的匹配度。

第二获取模块，用于针对每一所述场景属性，获取所述场景属性与每个所述语音属性的匹配度。

第一确定模块，用于为每个所述角色属性分配与其匹配度最高的语音属性对应的语音包，确定每个所述角色属性的角色语音包。

优选的，结合图4，参见图5，示出了本发明实施例提供的一种音频播放系统的结构框图，所述音频播放系统还包括：

标注单元405，用于为每个所述角色和每个所述场景进行标注，确定每个所述角色对应的角色标注和每个所述场景对应的场景标注。

优选的，结合图4，所述播放单元404包括：检测模块、第一播放模块和第二播放模块，各个模块的执行原理如下：

检测模块，用于实时检测所述待播放文本的待播放内容中的第一角色对应的角色标注和第一场景对应的场景标注。

第一播放模块，用于若存在所述第一角色对应的角色标注，利用所述第一角色对应的角色语音包播放所述第一角色对应的内容。

基于上述本发明实施例公开的一种音频播放系统，上述各个模块可以通过一种由处理器和存储器构成的电子设备实现。具体为：上述各个模块作为程序单元存储于存储器中，由处理器执行存储在存储器中的上述程序单元来实现音频播放。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现音频播放。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

进一步的，本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行音频播放方法。

进一步的，本发明实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上任一实施例中示出的音频播放方法。

本发明实施例中公开的设备可以是PC、PAD、手机等。

进一步的，本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现音频播放。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如上任一实施例中示出的音频播放方法。

综上所述，本发明实施例提供一种音频播放方法及系统，该方法为：获取待播放文本和多个预设语音包；利用预设的特征信息提取模型，提取待播放文本的每个角色对应的角色属性和每个场景对应的场景属性；根据每个预设语音包的语音属性，分别为每个角色属性和场景属性分配对应的角色语音包和场景语音包；利用每个角色语音包播放待播放文本中与其对应的角色对应的内容，以及利用每个场景语音包播放待播放文本中与其对应的场景对应的内容。本方案中，根据每个角色和场景的属性，为不同角色和不同场景分配各自对应的语音包。利用每一角色对应的语音包播放待播放文本中与该角色对应的内容，以及利用每一场景对应的语音包播放待播放文本中与该场景对应的内容，提高用户的使用体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频播放方法，其特征在于，所述方法包括：

获取待播放文本和多个预设语音包；

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述预设语音包的语音属性，为每个所述角色属性分配对应的角色语音包，以及为每个所述场景属性分配对应的场景语音包，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预设的特征信息提取模型，提取所述待播放文本的每个角色对应的角色属性和每个场景对应的场景属性，得到多个角色属性和多个场景属性之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述利用每个所述角色语音包播放所述待播放文本中与其对应的角色对应的内容，以及利用每个所述场景语音包播放所述待播放文本中与其对应的场景对应的内容，包括：

5.一种音频播放系统，其特征在于，所述系统包括：

获取单元，用于获取待播放文本和多个预设语音包；

6.根据权利要求5所述的系统，其特征在于，所述分配单元包括：

7.根据权利要求5所述的系统，其特征在于，还包括：

8.根据权利要求7所述的系统，其特征在于，所述播放单元包括：

9.一种电子设备，其特征在于，所述电子设备用于运行程序，其中，所述程序运行时执行如权利要求1-4中任一所述的音频播放方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-4中任一所述的音频播放方法。