CN112423019A

CN112423019A - 调整音频播放速度的方法、装置、电子设备及存储介质

Info

Publication number: CN112423019A
Application number: CN202011287190.1A
Authority: CN
Inventors: 李楠; 郑羲光; 范欣悦; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-26
Anticipated expiration: 2040-11-17
Also published as: CN112423019B

Abstract

本公开关于一种调整音频播放速度的方法、装置、电子设备及存储介质。所述方法包括：获取音频信号；对音频信号进行分类以确定音频信号中的语音内容；确定音频信号中语音内容的语速；根据语音内容的语速确定第一音频播放倍速；以及根据第一音频播放倍速调整音频信号的播放速度。

Description

调整音频播放速度的方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理领域，尤其涉及一种调整音频播放速度的方法、装置、电子设备及存储介质。

背景技术

随着互联网技术和智能手机软硬件技术等的成熟和普及，诸如音视频播放器、音频电台等提供音视频内容(例如，多媒体节目内容)的软件被广泛使用。在以上软件中，倍速功能是用户经常使用的一个调整内容播放速度的关键功能。然而，由于所播放内容的速度和节奏是变化的，用户无法准确选择一个合理的播放倍速，对于音频内容来说，如果设置过快或过慢，都会导致音频内容听感不自然，严重影响内容的收听体验。鉴于此，需要能够合理调整音频播放速度的方法和装置。

发明内容

本公开提供一种调整音频播放速度的方法、装置、电子设备及存储介质，以至少解决相关技术中的由于无法合理设置音频播放倍速而导致的音频听感不自然且收听体验差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种调整音频播放速度的方法，所述方法包括：获取音频信号；对音频信号进行分类以确定音频信号中的语音内容；确定音频信号中语音内容的语速；根据语音内容的语速确定第一音频播放倍速；以及根据第一音频播放倍速调整音频信号的播放速度。

可选地，所述方法还可包括：获取由用户设置的第二音频播放倍速；其中，所述根据第一音频播放倍速调整音频信号的播放速度，包括：根据第一音频播放倍速以及第二音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

可选地，所述根据语音内容的语速确定第一音频播放倍速，包括：根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速；所述根据第一音频播放倍速以及第二音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度，包括：根据与所述每个音频帧对应的第一音频播放倍速和由用户设置的与所述每个音频帧对应的第二音频播放倍速确定与所述每个音频帧对应的最终播放倍速，并根据所述最终播放倍速调整所述每个音频帧的播放速度。

可选地，对音频信号进行分类还包括：确定音频信号中的非语音内容，其中，所述非语音内容包括空白内容和/或噪声内容，其中，所述根据第一音频播放倍速调整音频信号的播放速度包括：根据空白内容和/或噪声内容确定第三音频播放倍速；根据第一音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

可选地，所述根据语音内容的语速确定第一音频播放倍速，包括：根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速；所述根据空白内容和/或噪声内容确定第三音频播放倍速，包括：根据音频信号中直至所述每个音频帧为止出现的空白内容和/或噪声内容确定与所述每个音频帧对应的第三音频播放倍速；所述根据第一音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度，包括：根据与所述每个音频帧对应的第一音频播放倍速和第三音频播放倍速确定与所述每个音频帧对应的最终播放倍速，并根据所述最终播放倍速调整所述每个音频帧的播放速度。

可选地，对音频信号进行分类还包括：确定音频信号中的非语音内容，其中，所述非语音内容包括空白内容和/或噪声内容，其中，所述根据第一音频播放倍速调整音频信号的播放速度包括：根据空白内容和/或噪声内容确定第三音频播放倍速；根据第一音频播放倍速、第二音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

可选地，所述根据语音内容的语速确定第一音频播放倍速，包括：根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速；所述根据空白内容和/或噪声内容确定第三音频播放倍速，包括：根据音频信号中直至所述每个音频帧为止出现的空白内容和/或噪声内容确定与所述每个音频帧对应的第三音频播放倍速；所述根据第一音频播放倍速、第二音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度，包括：根据与所述每个音频帧对应的第一音频播放倍速、第三音频播放倍速和由用户设置的与所述每个音频帧对应的第二音频播放倍速确定与所述每个音频帧对应的最终播放倍速，并根据所述最终播放倍速调整所述每个音频帧的播放速度。

可选地，所述确定音频信号中语音内容的语速，包括：通过对所述音频信号进行分帧获得多个音频帧，并确定与所述多个音频帧中的每个音频帧对应的语速。

可选地，所述确定与所述多个音频帧中的每个音频帧对应的语速，包括：统计在所述每个音频帧之前的预定时间段内的音频帧中语音内容所占的比例，并且根据所述比例确定与所述每个音频帧对应的语速；或者基于所述每个音频帧以及所述每个音频帧之前的预定时间段内的音频帧，利用预先训练的神经网络模型确定与所述每个音频帧对应的语速。

可选地，所述根据所述比例确定与所述每个音频帧对应的语速，包括：响应于所述比例小于预定阈值，将与所述每个音频帧对应的语速确定为标准语速；响应于所述比例大于或等于预定阈值，通过以下方式确定与所述每个音频帧对应的语速：对所述每个音频帧以及所述每个音频帧之前的预定时间段内的音频帧进行低通滤波；计算所述预定时间段内经过低通滤波后的各音频帧的能量；根据计算出的能量确定与所述每个音频帧对应的语速。

可选地，所述根据计算出的能量确定与所述每个音频帧对应的语速，包括：对由计算出的各音频帧的能量组成的能量序列进行峰值检测来确定所述能量序列中峰值的数量；根据峰值的数量以及所述预定时间段，确定与所述每个音频帧对应的语速。

可选地，所述根据语音内容的语速确定第一音频播放倍速，包括：根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速；所述根据第一音频播放倍速调整音频信号的播放速度，包括：根据与所述每个音频帧对应的第一音频播放倍速调整所述每个音频帧的播放速度。

可选地，所述根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速，包括：根据与所述每个音频帧对应的语速、预先设定的标准语速以及所述每个音频帧之前的至少一个邻近音频帧的第一音频播放倍速，确定与所述每个音频帧对应的第一音频播放倍速。

可选地，所述根据与所述每个音频帧对应的语速、预先设定的标准语速以及所述每个音频帧之前的至少一个邻近音频帧的第一音频播放倍速，确定与所述每个音频帧对应的第一音频播放倍速，包括：计算与所述每个音频帧对应的语速和预先设定的标准语速之间的比值；根据所述比值以及所述每个音频帧之前的至少一个邻近音频帧的第一音频播放倍速，确定与所述每个音频帧对应的第一音频播放倍速。

可选地，所述根据音频信号中直至所述每个音频帧为止出现的空白内容和/或噪声内容确定与所述每个音频帧对应的第三音频播放倍速，包括：根据对音频信号中直至所述每个音频帧为止连续出现的空白内容和/或噪声内容的计数，确定与所述每个音频帧对应的第三音频播放倍速。

根据本公开实施例的第二方面，提供了一种调整音频播放速度的装置，所述装置包括：音频获取单元，被配置为获取音频信号；分类单元，被配置为对音频信号进行分类以确定音频信号中的语音内容；语速确定单元，被配置为确定音频信号中语音内容的语速；倍速确定单元，被配置为根据语音内容的语速确定第一音频播放倍速；以及播放速度调整单元，被配置为根据第一音频播放倍速调整音频信号的播放速度。

可选地，所述装置还可包括：倍速获取单元，被配置为获取由用户设置的第二音频播放倍速；其中，所述根据第一音频播放倍速调整音频信号的播放速度，包括：根据第一音频播放倍速以及第二音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

根据本公开实施例的第三方面，提供了一种电子设备，所述电子设备包括:至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的调整音频播放速度的方法。

根据本公开实施例的第四方面，提供了一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的调整音频播放速度的方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，所述计算机程序产品中的指令被电子设备中的至少一个处理器运行以执行如上所述的调整音频播放速度的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：由于可以根据音频信号中语音内容的语速确定音频播放倍速并根据确定的音频播放倍速调整音频播放速度，因此，可使音频内容的听感更加自然舒适，从而提高了音频内容的收听体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的示例实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开的示例性实施例可以应用于其中的示例性系统架构图；

图2是根据本公开示例性实施例的调整音频播放速度的方法的流程图；

图3是示出根据本公开示例性实施例的用于对音频信号进行分类的方法的示意图；

图4是示出根据本公开示例性实施例的确定语音内容的语速的方法的示意图；

图5是示出根据本公开另一示例性实施例的确定语音内容的语速的方法的示意图；

图6是示出根据本公开示例性实施例的调整音频播放速度的方法的示意图；

图7是示出根据本公开示例性实施例的调整音频播放速度的装置的框图；

图8是根据本公开示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

如本公开背景技术中所提及的，用户可手动设置音频播放倍速，但是常常无法准确选择一个合理的播放倍速，从而导致音频内容听感不自然，收听体验差。相关技术中，调整音频播放速度的方式除了由用户手动设置音频播放倍速之外，也可简单地将音频信号中的纯静音段剪切，从而使得播放的音频只存在包含有效信息的内容，然而由于仅仅去除静音段，因此对音频信号只有加速作用，无法令音频节目的播放速度保持在一个自然舒适的范围内，会出现原本快速的语音变得更快的现象，而且这样的方法没有对音频信号本身做智能倍速处理，可实现的倍速范围只能与音频中的空白段所占比例相关，因此变速范围可控性差。针对此，本公开提出了能够根据语音内容的语速调整音频播放速度的构思，以使音频内容具有更加舒适自然的听感，进而提高用户的收听体验。下面将结合示例性实施例对本公开的构思进行详细介绍。

图1示出了本公开的示例性实施例可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如音视频数据上传请求、音视频数据获取请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如音视频播放器、音频电台、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放和录制的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有图像采集装置(例如摄像头)，以采集视频数据。实践中，组成视频的最小视觉单位是帧(Frame)。每一帧是一幅静态的图像。将时间上连续的帧序列合成到一起便形成动态视频。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。

终端设备101、102、103可以利用安装于其上的图像采集装置进行视频数据的采集，并可以利用安装于其上的支持音频播放的音频处理组件播放音频数据。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接收到的音视频数据上传请求等数据进行解析、存储等处理，并且还可以接收终端设备101、102、103所发送的音视频数据获取请求，并将该音视频数据获取请求所指示的音视频数据(例如，音视频节目数据)反馈至终端设备101、102、103。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的调整音频播放速度的方法一般由终端设备101、102、103执行，相应地，调整音频播放速度的装置一般设置于终端设备101、102、103中。然而，本公开实施例所提供的调整音频播放速度的方法也可由服务器执行，或者，可由终端设备和服务器协作执行。相应地，调整音频播放速度的装置也可以设置在服务器中，或者可设置在终端设备和服务器两者中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

图2是根据示例性实施例的调整音频播放速度的方法的流程图；

在步骤S201，获取音频信号(在下文中，也可被称为音频内容)。作为示例，可响应于用户输入，从本地获取音频信号，或者，也可响应于用户请求，从外部装置(例如，服务器)获取音频信号，需要说明的是，本公开对获取音频信号的方式并无限制。根据示例性实施例，音频信号可以是多媒体节目中的音频信号、音频电台中的音频信号、电影或电视剧中的音频信号，等等。可选地，在获取音频信号之后，可以对音频信号进行解码来获得解码后的音频信号。

在步骤S202，对音频信号进行分类以确定音频信号中的语音内容。根据另一示例性实施例，对音频信号进行分类还包括确定音频信号中的非语音内容。这里，非语音内容可以是除了语音内容之外的任何音频内容，例如，非语音内容可包括空白内容和/或噪声内容，或者，除了包括空白内容和/或噪声内容之外，还可包括音乐内容(不包括语音)。图3示出了用于对音频信号进行分类的方法的示意图。如图3所示，例如，可利用神经网络对音频信号进行分类。具体地，可将时序的音频信号进行分帧处理(例如，一帧20ms，分别标记为1,2,……,n-1,n,n+1,……帧)，并对音频帧进行特征提取，作为示例，提取的特征可以是输入的音频帧进行短时傅里叶变换后所获得的时频幅度谱或能量谱。随后，可将提取的特征输入至预先训练好的神经网络中来获得分类结果。例如，将第n音频帧(可记作C(n))的提取的特征输入至预先训练好的神经网络中来判断第n音频帧属于语音内容(记作CS)、噪声和/或空白(记作CN)，还是音乐内容(记作CM)。在分类结果是三种分类结果的情况下，相应地，在对神经网络进行训练的过程中，需要有足够的训练数据对神经网络进行有监督的机器学习，并且数据需要涵盖最终输出的三分类结果的音频内容。作为示例，所使用的神经网络结构可以是全连接网络、卷积神经网络和迭代神经网络等。

在确定了音频信号中的语音内容之后，在步骤S203，可确定音频信号中语音内容的语速。具体地，可通过对所述音频信号进行分帧获得多个音频帧，并确定与所述多个音频帧中的每个音频帧对应的语速。作为示例，可统计在所述每个音频帧之前的预定时间段内的音频帧中语音内容所占的比例，并且根据所述比例确定与所述每个音频帧对应的语速。如在步骤S202时所提到的，通过对音频信号进行分类可确定每个音频帧是否属于语音内容，通过统计在第n帧之前的预定时间段(以下，为描述方便，将该预定时间段称为“TimeRange”)内语音内容和非语音内容的数量，可统计出TimeRange内语音内容所占的比例(以下，为描述方便，将其称为“SpeechRatio(n)”)，然后，可根据所述比例确定与第n音频帧对应的语速(以下，为描述方便，将其称为“SpeechSpeed(n)”)。

根据示例性实施例，响应于所述比例小于预定阈值(在下文中，为描述方便，将其称为“SpeechRatioThreshold”)，可将与所述每个音频帧对应的语速确定为标准语速(在下文中，为描述方便，将其称为“StandardSpeechSpeed”)。然而，响应于所述比例大于或等于预定阈值，通过以下方式确定与所述每个音频帧对应的语速：对所述每个音频帧以及所述每个音频帧之前的预定时间段内的音频帧进行低通滤波；计算所述预定时间段内经过低通滤波后的各音频帧的能量；根据计算出的能量确定与所述每个音频帧对应的语速。这里，根据计算出的能量确定与所述每个音频帧对应的语速例如可以包括：对由计算出的各音频帧的能量组成的能量序列进行峰值检测来确定所述能量序列中峰值的数量；根据峰值的数量以及所述预定时间段，确定与所述每个音频帧对应的语速。

图4是示出根据本公开示例性实施例的确定语音内容的语速的方法的示意图。参照图4，可以按照以下过程确定与第n音频帧对应的语速：

(1)首先判断SpeechRatio(n)大小和预定阈值SpeechRatioThreshold的大小关系，若SpeechRatio(n)<SpeechRatioThreshold，设置SpeechSpeed(n)＝StandardSpeechSpeed(其中StandardSpeechSpeed为设置的标准语速)，并直接执行后续确定音频播放倍速的操作，而不再执行下面的操作(2)至(5)，因为此时的语音内容比例过低，不能够检测出可靠的语速。若SpeechRatio(n)≥SpeechRatioThreshold，则进行步骤(2)；

(2)将第n音频帧以及第n音频帧之前的TimeRange时间段内的音频帧进行低通滤波处理，去除高频分量，以主要保留标志着各种语言(例如，中文或英文)发音中一个字的元音成分；

(3)求TimeRange时间段内的经过低通滤波后的各音频帧的能量，组成能量序列；

(4)对能量序列进行峰值检测(可采用现有技术中任何一种峰值检测方法，本公开对此没有限制)来确定能量序列中尖峰的数量PeakNumber(n)；

(5)根据PeakNumber(n)和TimeRange计算每秒的字数，作为与第n音频帧对应的语速SpeechSpeed(n)，其中，SpeechSpeed(n)＝PeakNumber(n)/TimeRange。

除了以上描述的确定语速的方式之外，根据本公开另一示例实施例，还可基于每个音频帧以及所述每个音频帧之前的预定时间段内的音频帧，利用预先训练的神经网络模型确定与所述每个音频帧对应的语速。图5是示出根据本公开另一示例性实施例的确定语音内容的语速的方法的示意图。参照图5，可首先对音频输入(具体地，第n音频帧)进行特征提取，提取的特征可以是例如经过短时傅里叶变换后的时频能量谱或时频幅度谱等。然后，将提取的特征输入经过训练的神经网络中，神经网络的输出结果为第n音频帧的语速SpeechSpeed(n)。

返回参照图2，在确定了语速之后，在步骤S204，可根据语音内容的语速确定第一音频播放倍速。具体而言，可根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速。作为示例，可根据与所述每个音频帧对应的语速、预先设定的标准语速以及所述每个音频帧之前的至少一个邻近音频帧的第一音频播放倍速，确定与所述每个音频帧对应的第一音频播放倍速。具体地，例如，可首先计算与所述每个音频帧对应的语速和预先设定的标准语速之间的比值，然后，根据所述比值以及所述每个音频帧之前的至少一个邻近音频帧的第一音频播放倍速，确定与所述每个音频帧对应的第一音频播放倍速。下面，以第n音频帧且n大于或等于1为例，对以上过程进行示例性说明。具体地，假设将与第n音频帧对应的语速表示为SpeechSpeed(n)，预先设定的标准语速表示为StandardSpeechSpeed，所述比值表示为AutoSpeedRaw，与第n音频帧对应的第一音频播放倍速表示为AutoSpeed(n)(例如，可设置AutoSpeed(0)＝1.0)，并且所述至少一个邻近音频帧是第n-1音频帧，则：

首先，计算AutoSpeedRaw＝SpeechSpeed(n)/StandardSpeechSpeed；

然后，计算AutoSpeed(n)，例如，可如下计算AutoSpeed(n)：

AutoSpeed(n)＝AutoSpeed(n-1)×smoothfactor+AutoSpeedRaw×(1-smoothfactor)

其中，smoothfactor为平滑因子。smoothfactor可由用户预先设定，其用于对以上提到比值AutoSpeedRaw进行平滑处理使得该比值与历史比值(第n帧之前的至少一个音频帧对应的AutoSpeedRaw)不至于相差太大。

在确定了第一音频播放倍速之后，在步骤S205，可根据第一音频播放倍速调整音频信号的播放速度。具体地，可根据与所述每个音频帧对应的第一音频播放倍速调整所述每个音频帧的播放速度。例如，以AutoSpeed(n)为变速比例，对第n音频帧进行变速处理。

根据图2所示的调整音频播放速度的方法，可根据语音内容的语速确定音频播放倍速，进而调整音频信号的播放速度，使得音频内容的听感更加自然舒适，从而提高了音频内容的收听体验。

可选地，根据本公开另一示例性实施例，可在考虑语音内容的语速的基础上结合用户设置的音频播放倍速来调整音频播放速度。具体而言，在这种情况下，以上参照图2所描述的调整音频播放速度的方法还可包括：获取由用户设置的第二音频播放倍速。例如，用户可在音频播放开始时或在音频播放过程中的任何时刻设置第二音频播放倍速。如果在音频播放开始时设置了第二音频播放倍速，则与音频信号中的每个音频帧对应的音频播放倍速均是设置的该第二音频播放倍速。如果在音频播放过程中设置第二音频播放倍速，则可确定当前播放的是音频信号的哪一帧，并将与该帧对应的第二音频播放倍速改变为新设置的播放倍速，并且该帧之后的音频帧的第二音频播放倍速也变为新设置的播放倍速。在图2所述的方法包括获取由用户设置的第二音频播放倍速的情况下，以上描述的步骤S205中根据第一音频播放倍速调整音频信号的播放速度可包括：根据第一音频播放倍速以及第二音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。具体地，根据第一音频播放倍速以及第二音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度可以包括：根据与所述每个音频帧对应的第一音频播放倍速和由用户设置的与所述每个音频帧对应的第二音频播放倍速确定与所述每个音频帧对应的最终播放倍速，并根据所述最终播放倍速调整所述每个音频帧的播放速度。如以上参照图2所描述的可根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速(以上已经在图2的描述中介绍了确定与每个音频帧对应的第一音频播放速度的方式，这里不再赘述)。

假设与第n音频帧对应的第一音频播放倍速是AutoSpeed(n),由用户设置的与第n音频帧对应的第二音频播放倍速是ManualSpeed(n)，与第n帧对应的最终播放倍速是SmartSpeed(n)，则SmartSpeed(n)可以例如是：SmartSpeed(n)＝AutoSpeed(n)×ManualSpeed(n)。

需要说明的是，尽管以上示出通过第一音频播放倍速和第二音频播放倍速相乘的方式确定最终播放倍速，但是这仅是示例，根据第一音频播放倍速和第二音频播放倍速确定最终音频播放倍速的方式不限于此。在该示例性实施例中，通过在考虑语音内容的语速的基础上结合用户设置的音频播放倍速来调整音频播放速度，可不仅使音频内容的听感自然舒适，而且能够使音频内容的播放速度适于用户期望，从而可进一步提高用户的收听体验。

可选地，根据本公开另一示例性实施例，可在考虑语音内容的语速的情况下结合空白内容和/或噪声内容来调整音频播放速度。具体地，如上所述，在以上参照图2所描述的调整音频播放速度的方法中，对音频信号进行分类除了包括确定语音内容之外，还包括：确定音频信号中的非语音内容，其中，所述非语音内容可包括空白内容和/或噪声内容。此外，在步骤S205中根据第一音频播放倍速调整音频信号的播放速度可包括：根据空白内容和/或噪声内容确定第三音频播放倍速，并且根据第一音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。如以上参照图2所描述的，根据语音内容的语速确定第一音频播放倍速可以包括：根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速。而根据空白内容和/或噪声内容确定第三音频播放倍速可以包括：根据音频信号中直至所述每个音频帧为止出现的空白内容和/或噪声内容确定与所述每个音频帧对应的第三音频播放倍速。作为示例，可根据对音频信号中直至所述每个音频帧为止连续出现的空白内容和/或噪声内容的计数，确定与所述每个音频帧对应的第三音频播放倍速。例如，可根据对直至第n音频帧连续存在的噪声和/或空白(记作CN)的计数变量Counter(n)做如下操作(设定Counter(0)＝0)：

若C(n)＝CN：Counter(n)＝Counter(n-1)+1；

若C(n)≠CN：Counter(n)＝0；

然后，根据Counter(n)决定当前时间与第n音频帧对应的第三音频播放倍速JumpSpeed(n),(设置JumpSpeed(0)＝0)：

若Counter(n)>Nthreshold：JumpSpeed(n)＝JumpSpeed(n-1)+1.0，

若Counter(n)≤Nthreshold：JumpSpeed(n)＝1.0，

其中，Nthreshold是预先设置的计数阈值。

在确定了与每个音频帧对应的第一音频播放倍速和第三音频播放倍速之后，可根据与所述每个音频帧对应的第一音频播放倍速和第三音频播放倍速确定与所述每个音频帧对应的最终播放倍速，并根据所述最终播放倍速调整所述每个音频帧的播放速度。

例如，假设与第n音频帧对应的第一音频播放倍速是AutoSpeed(n),与第n音频帧对应的第三音频播放倍速是JumpSpeed(n)，与第n帧对应的最终播放倍速是SmartSpeed(n)，则SmartSpeed(n)可以例如是：SmartSpeed(n)＝AutoSpeed(n)×JumpSpeed(n)。

需要说明的是，尽管以上示出通过第一音频播放倍速和第三音频播放倍速相乘的方式确定最终播放倍速，但是这仅是示例，根据第一音频播放倍速和第三音频播放倍速确定最终音频播放倍速的方式不限于此。在该示例性实施例中，通过在考虑语音内容的语速的基础上结合空白内容/和/或操作内容来调整音频播放速度，可不仅使音频内容的听感自然舒适，而且能够便于快速跳过空白内容和/或噪声内容，从而可进一步提高用户的收听体验。

可选地，根据本公开又一示例性实施例，可在考虑语音内容的语速的情况下结合用户设置的音频播放倍速以及空白内容和/或噪声内容来调整音频播放速度。图6是示出根据该示例性实施例的调整音频播放速度的方法的示意图。参照图6，在获取到音频信号之后，可首先对音频信号进行分类以确定语音内容，此外，对音频信号进行分类除了包括确定语音内容之外，还包括：确定音频信号中的非语音内容，其中，所述非语音内容可包括空白内容和/或噪声内容。可选地，非语音内容还可包括音乐内容。例如，如图6所示，通过对音频信号进行分类，确定出了语音内容、噪声和/或空白内容以及音乐内容。通过统计非语音内容以及语音内容可确定语音内容所占比例，根据所述比例以及输入的音频信号可以确定语速，而根据语速可确定第一音频播放倍速。在图2的描述中，已经对如何确定第一音频播放倍速进行了详细介绍，这里不再赘述。此外，在该示例性实施例中，图2所述的方法还可包括：获取由用户设置的第二音频播放倍速，并且在以上参照图2所描述的步骤S205中根据第一音频播放倍速调整音频信号的播放速度可包括：根据空白内容和/或噪声内容确定第三音频播放倍速，并且根据第一音频播放倍速、第二音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。具体地，可根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速，根据音频信号中直至所述每个音频帧为止出现的空白内容和/或噪声内容确定与所述每个音频帧对应的第三音频播放倍速，随后，根据与每个音频帧对应的第一音频播放倍速、第三音频播放倍速和由用户设置的与所述每个音频帧对应的第二音频播放倍速确定与所述每个音频帧对应的最终播放倍速，并根据所述最终播放倍速调整所述每个音频帧的播放速度。在其他示例性实施例中，已经对根据与音频信号中的每个音频帧对应的语速确定与所述每个音频帧对应的第一音频播放倍速以及根据音频信号中直至所述每个音频帧为止出现的空白内容和/或噪声内容确定与所述每个音频帧对应的第三音频播放倍速进行了介绍，这里不再赘述。

假设与第n音频帧对应的第一音频播放倍速是AutoSpeed(n),由用户设置的与n音频帧对应的第二音频播放倍速是ManualSpeed(n)，与第n音频帧对应的第三音频播放倍速是JumpSpeed(n)，与第n帧对应的最终播放倍速是SmartSpeed(n)，则SmartSpeed(n)可以例如是：

SmartSpeed(n)＝JumpSpeed(n)×AutoSpeed(n)×ManualSpeed(n)。

可选地，在以上所有示例性实施例中计算出SmartSpeed(n)之后，都可对SmartSpeed(n)做限制幅度的处理，例如，可通过以下公式进行限制幅度的处理以防止超过预先设置的最大和最小允许播放倍速：

其中，MaxSpeed和MinSpeed为预先设置的最大和最小允许播放倍速。

如图6所示，在确定了最终播放倍速之后，可根据最终播放倍速对音频信号进行变速处理，然后输出处理后的音频信号。需要说明的是，尽管以上示出通过第一音频播放倍速、第二音频播放倍速和第三音频播放倍速相乘的方式确定最终播放倍速，但是这仅是示例，根据第一音频播放倍速、第二音频播放倍速和第三音频播放倍速确定最终音频播放倍速的方式不限于此。在该示例性实施例中，通过在考虑语音内容的语速的基础上结合用户设置的音频播放倍速以及空白内容/和/或操作内容来调整音频播放速度，可不仅使音频内容的听感自然舒适，而且能够便于快速跳过空白内容和/或噪声内容并且使音频内容的播放速度适于用户期望，从而可进一步提高用户的收听体验。

图7是示出根据本公开示例性实施例的调整音频播放速度的装置(以下，为描述方便，将其简称为“音频播放速度调整装置”)的框图。

参照图7，音频播放速度调整装置700可包括音频获取单元701、分类单元702、语速确定单元703、倍速确定单元704和播放速度调整单元705。具体而言，音频获取单元可获取音频信号，分类单元702可为对音频信号进行分类以确定音频信号中的语音内容，语速确定单元703可确定音频信号中语音内容的语速，倍速确定单元704可根据语音内容的语速确定第一音频播放倍速，播放速度调整单元705可根据第一音频播放倍速调整音频信号的播放速度。可选地，音频播放速度调整装置700还可包括倍速获取单元(未示出)，倍速获取单元可获取由用户设置的第二音频播放倍速。

由于图2所示的调整音频播放速度的方法可由图7所示的音频播放速度调整装置700来执行，并且音频获取单元701、分类单元702、语速确定单元703、倍速确定单元704和播放速度调整单元705可分别执行与图2中的步骤201、步骤202、步骤203、步骤204、步骤205对应的操作，因此，关于图7中的单元所执行的操作中涉及的任何相关细节均可参见关于图2的相应描述，这里都不再赘述。

此外，需要说明的是，尽管以上在描述音频播放速度调整装置700时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在音频播放速度调整装置700不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，音频播放速度调整装置700还可包括其他单元，例如，音频处理单元等。

图8是根据本公开实施例的电子设备800的框图。参照图8，电子设备800可包括至少一个存储器801和至少一个处理器802，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的调整音频播放速度的方法。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开示例性实施例的调整音频播放速度的方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可被电子设备中的至少一个处理器运行以执行根据本公开示例性实施例的调整音频播放速度的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种调整音频播放速度的方法，其特征在于，包括：

获取音频信号；

对音频信号进行分类以确定音频信号中的语音内容；

确定音频信号中语音内容的语速；

根据语音内容的语速确定第一音频播放倍速；以及

根据第一音频播放倍速调整音频信号的播放速度。

2.如权利要求1所述的方法，其特征在于，还包括：

获取由用户设置的第二音频播放倍速；

其中，所述根据第一音频播放倍速调整音频信号的播放速度，包括：

根据第一音频播放倍速以及第二音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

3.如权利要求1所述的方法，其特征在于，对音频信号进行分类还包括：确定音频信号中的非语音内容，其中，所述非语音内容包括空白内容和/或噪声内容，

其中，所述根据第一音频播放倍速调整音频信号的播放速度包括：

根据空白内容和/或噪声内容确定第三音频播放倍速；

根据第一音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

4.如权利要求2所述的方法，其特征在于，对音频信号进行分类还包括：确定音频信号中的非语音内容，其中，所述非语音内容包括空白内容和/或噪声内容，

根据空白内容和/或噪声内容确定第三音频播放倍速；

根据第一音频播放倍速、第二音频播放倍速和第三音频播放倍速确定最终播放倍速并根据最终播放倍速调整音频信号的播放速度。

5.如权利要求1所述的方法，其特征在于，所述确定音频信号中语音内容的语速，包括：

通过对所述音频信号进行分帧获得多个音频帧，并确定与所述多个音频帧中的每个音频帧对应的语速。

6.如权利要求5所述的方法，其特征在于，所述确定与所述多个音频帧中的每个音频帧对应的语速，包括：

统计在所述每个音频帧之前的预定时间段内的音频帧中语音内容所占的比例，并且根据所述比例确定与所述每个音频帧对应的语速；或者

基于所述每个音频帧以及所述每个音频帧之前的预定时间段内的音频帧，利用预先训练的神经网络模型确定与所述每个音频帧对应的语速。

7.如权利要求6所述的方法，其中，所述根据所述比例确定与所述每个音频帧对应的语速，包括：

响应于所述比例小于预定阈值，将与所述每个音频帧对应的语速确定为标准语速；

响应于所述比例大于或等于预定阈值，通过以下方式确定与所述每个音频帧对应的语速：对所述每个音频帧以及所述每个音频帧之前的预定时间段内的音频帧进行低通滤波；计算所述预定时间段内经过低通滤波后的各音频帧的能量；根据计算出的能量确定与所述每个音频帧对应的语速。

8.一种调整音频播放速度的装置，包括：

音频获取单元，被配置为获取音频信号；

分类单元，被配置为对音频信号进行分类以确定音频信号中的语音内容；

语速确定单元，被配置为确定音频信号中语音内容的语速；

倍速确定单元，被配置为根据语音内容的语速确定第一音频播放倍速；以及

播放速度调整单元，被配置为根据第一音频播放倍速调整音频信号的播放速度。

9.一种电子设备，其特征在于，包括:

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的方法。

10.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的方法。