CN109698976A

CN109698976A - 基于音频特征提取的快进快退播放方法、装置和播放器

Info

Publication number: CN109698976A
Application number: CN201910031193.XA
Authority: CN
Inventors: 全玲
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-04-30

Abstract

本发明涉及一种基于音频特征提取的快进快退播放方法、装置和播放器，所述快进快退播放方法，包括：根据音频特征在链表中确定定位点，或者，复读起点和终点；播放符合指定条件的一段音频；其中，所述链表是指在音频解码播放过程中，按顺序将每个数据帧的音频特征以及该数据帧在整个音频文件中的偏移量作为一个记录节点形成的一个链表。本发明所述的快进快退播放方法通过在音频解码播放过程中提取音频特征来确定定位点，或者，复读起点和终点，从而实现快进快退或复读功能；本发明所述的方法运算量小，查找效率高，准确度高，且用户操作简单，有利于提高用户的快进快退播放和复读体验。

Description

基于音频特征提取的快进快退播放方法、装置和播放器

技术领域

本发明涉及音频播放技术领域，具体涉及一种基于音频特征提取的快进快退播放方法、装置和播放器。

背景技术

对于大多数音频播放器，比如语言学习机，卡拉OK等各种语音相关设备通常都具有快进快退、复读功能，以方便用户在学习语言或对某段音乐感兴趣时，能够不断重复聆听以便于记忆。

通常采用的复读方法是：将外部存储单元中的语音信息转换为电信号；微控制器将电信号转换为数字信号，并复制一个段落或一个句子至语言复读机的存储单元中。当进入复读状态时，微控制器从语言复读机的存储单元中取出要反复收听的段落或句子，并输出至语音输出单元，由语音输出单元播放，以方便用户反复收听和跟读模仿。传统的AB复读方式是根据用户手动设定一个重复读出或播放的起点(标记为A)和一个重复读出或播放的终点(标记为B)，使播放设备在A与B之间重复读或播放；传统的快进快退播放方式也需要用户手动设置快进或快退播放的音频位置。

传统的方案需要用户手动分别设置播放起点或终点或快进或快退位置，操作复杂，而且用户手动查找播放起点、终点或快进快退位置，往往不能一下就找到想要重复播放的位置，用户需要尝试多次才能找到想要重复播放的位置，查找效率低，传统的快进快退播放方法给用户的使用带来很大不便，用户体验差，智能化程度低。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于音频特征提取的快进快退播放方法、装置和播放器。

为实现以上目的，本发明采用如下技术方案：一种基于音频特征提取的快进快退播放方法，包括：

根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点；

播放符合指定条件的一段音频；

其中，所述链表是指在音频解码播放过程中，按顺序将每个数据帧的音频特征以及该数据帧在整个音频文件中的偏移量作为一个记录节点形成的一个链表。

可选的，所述每个数据帧的音频特征包括：

目标声、背景音和静音。

可选的，确定所述每个数据帧的音频特征，包括：

在音频解码播放过程中，获取音频信号的频谱分布信息；

对所述频谱分布信息进行处理，并结合目标声音的频谱特征确定出该数据帧的音频特征；

具体的，所述对所述频谱分布信息进行处理，并结合目标声音的频谱特征确定出该数据帧的音频特征，包括：

判断该音频信息是否为静音；

如果该音频信息不是静音，则进一步判断该音频信息是否包含目标声音；

如果目标声音有男声和女声之分，则进一步判断该目标声音包含的是男声还是女声。

可选的，所述判断该音频信息是否为静音，包括：

利用解码过程中解析出的特定字段直接判断该音频信息是否为静音，或者，根据解码过程中获取的频谱幅值信息判断该音频信息是否为静音，将在特定频率范围内频谱幅值小于第一阈值的音频信息判断为静音；

所述判断该音频信息是否包含目标声音，包括：

如果该音频信号的频谱在目标声音的基音频点或泛音频点上对应的幅值大于第二阈值，则确定该数据帧包含有目标声音。

可选的，所述根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点，包括：

在解码播放过程中，在链表中根据每个数据帧的音频特征查找到符合条件的一段连续目标声数据帧，应在符合条件的连续目标声数据帧中找到最后一个符合条件的目标声数据帧，并将该数据帧所在的音频位置作为复读终点或定位点的基准点；

在解码播放过程中，在链表中根据每个数据帧的音频特征查找到符合条件的一段连续目标声数据帧，应在符合条件的连续目标声数据帧中找到第一个符合条件的目标声数据帧，并将该数据帧所在的音频位置作为复读起点或定位点的基准点。

可选的，在执行所述根据音频特征在链表中确定定位点，或者，复读起点和终点之前，还包括：

接收用户发送的快进快退播放指令和设定条件，即播放的时间或者位置范围等信息，

其中，所述快进快退播放指令包括复读指令。

可选的，所述快进快退播放方法还包括：

在接收到快进快退播放指令或者复读指令时，如果此时解码播放出的数据帧的音频特征是目标声，则继续播放，直到解码播放出的数据帧音频特征不是目标声时，跳转到所述定位点或复读起点重新播放。

可选的，所述快进快退播放方法还包括：

在接收到快进快退播放指令或者复读指令时，直接跳转到所述定位点或复读起点重新播放。

本发明还提供了一种基于音频特征提取的快进快退播放装置，包括：

播放断点查找模块，用于根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点；

播放模块，用于播放符合指定条件的一段音频；

本发明还提供了一种播放器，包括：如前面所述的快进快退播放装置；

所述播放器是如下项中的一项：

智能学习机、点读机、音乐播放器和KTV点唱机。

本发明采用以上技术方案，所述基于音频特征提取的快进快退播放方法，包括：根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点；播放符合指定条件的一段音频；其中，所述链表是指在音频解码播放过程中，按顺序将每个数据帧的音频特征以及该数据帧在整个音频文件中的偏移量作为一个记录节点形成的一个链表。本发明所述的快进快退播放方法通过在音频解码播放过程中提取音频特征来确定定位点，或者，复读起点和终点，从而实现快进快退或复读功能；本发明所述的方法运算量小，查找效率高，准确度高，且用户操作简单，有利于提高用户的快进快退播放和复读体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于音频特征提取的快进快退播放方法实施例一提供的流程示意图；

图2是本发明中确定每个数据帧的音频特征的流程示意图；

图3是音频解码的原理示意图；

图4是本发明基于音频特征提取的快进快退播放装置实施例一提供的结构示意图。

图中：1、播放断点查找模块；2、播放模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明基于音频特征提取的快进快退播放方法实施例一提供的流程示意图。

如图1所示，本实施例所述的基于音频特征提取的快进快退播放方法，包括：

S11：根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点；

S12：播放符合指定条件的一段音频；

进一步的，所述每个数据帧的音频特征包括：

目标声、背景音和静音。

进一步的，如图2和图3所示，确定所述每个数据帧的音频特征，包括：

S21：在音频解码播放过程中，获取音频信号的频谱分布信息；

S22：对所述频谱分布信息进行处理，并结合目标声音的频谱特征确定出该数据帧的音频特征。

进一步的，所述对所述频谱分布信息进行处理，并结合目标声音的频谱特征确定出该数据帧的音频特征，包括：

判断该音频信息是否为静音；

进一步的，在图3中编号为1的位置进行静音分析，具体的，所述判断该音频信息是否为静音，包括：

具体的，以MP3音频文件为例，在对原始音频进行编码时，会按照编码协议根据音频的频谱分布信息计算出特定语法字段的取值；在解码播放时，通过特定字段的取值来判断音频数据帧是否为静音，避免了解码播放时再次使用传统功率计算方法对数据帧进行判断，本实施例所述的静音帧判断方法更加简便和高效。

进一步的，所述判断该音频信息是否包含目标声音，包括：

在实际应用中，在图3中编号为2的位置进行频谱分析，如分析时频变换后的频谱对应的信号是男声还是女声。具体的，输入的时域信号转换为频域信号，这个频域数据存储在一个数组里按照频率从低到高顺序排列，每个样本频率间隔由采样率和样本数相除来得到，这样我们能得到每个数组成员所代表的频率位置，数组成员的值也就是这个频率分量在信号中所占成份大小。这个数组反映了该帧数据的频率成份。从连续多个帧的数组我们就可以看出声音的变化，比如男声的基音频率在64Hz-523Hz左右，我们找到64Hz-523Hz的位置，比如数组是以30Hz为频率间隔分布的，即每个数组成员在[61Hz,90Hz]、[91Hz,120Hz]、……、[511Hz,540Hz]频率区间上，分析其幅度变化，如果在男声基音频点或泛音频点上对应的幅值大于第二阈值，则判断该数据帧的音频特征为男声；同理，在数组中找到女声的基音频率160Hz-1.2KHz的位置，观察其幅度变化，如果在女声的基音频点或泛音频点上对应的幅值大于第二阈值，则判断该数据帧的音频特征为女声。

需要说明的是，目标声音就是某个单一音色的声音，如男声或女声或者某种乐器声音，其基音和泛音的频谱范围是常识上判断的。

可以理解的是，所述第一阈值与第二阈值的取值可以相同，也可以不同。

需要说明的是，现有音频文件格式大多都是将原始音频信号经过一定的压缩算法，形成特定的格式加以存储或传输，诸如MP3、AAC、WMA、OGG等音频格式，本实施例所述的编码过程就是指现有音频文件的所有压缩编码过程，例如MP3、AAC、WMA、OGG压缩编码标准等，这样的文件在播放时候需要解码还原成原始音频数据，虽然文件格式有多种，但都遵循通用压缩编码标准，如时域到频域的变换，经过这个变换，时间信号将被转换为采样频率范围内的频率信号，对这些频率信号就可以进行上文所述的分析处理，即可确定声音特征(是否是目标声、背景音和静音)；在时域到频域的变换后，现有的压缩编码过程还会存在量化编码过程，对于某些编码格式，在量化编码处理后，可进行静音分析，用特定语法字段的取值来表示数据帧是否为静音。对某些不存在这种字段的编码格式，仍可采用前面所述频谱分析后的结果做静音分析。本实施例所述的提取各种音频格式中的音频特征信息，均是直接利用了压缩编码计算出的结果，通过简单的计算比较过程即可判断出声音特征，运算量小。

需要说明的是，本实施例所述的解码播放过程可加入到开源框架中实现，对于一些廉价嵌入式设备，可采用单片机，arm7等芯片，在原有的解码播放程序上，增加本发明的过程，该处理过程能和解码播放结合，在原解码播放框架流程改动很小的前提下，就可以实现快进快退播放和复读功能。

进一步的，所述根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点，包括：

在解码播放过程中，在链表中根据每个数据帧的音频特征查找到符合条件的一段连续目标声数据帧，应在符合条件的连续目标声数据帧中找到第一个符合条件的目标声数据帧，并将该数据帧所在的音频位置作为复读起点或定位点的基准点；

当解码播放到所述复读终点时，发送跳转指令，跳转到所述复读起点重新播放。

进一步的，在执行所述根据音频特征在链表中确定定位点，或者，复读起点和终点之前，还包括：

其中，所述快进快退播放指令包括复读指令。

进一步的，所述快进快退播放法还包括：

在实际使用中，如果用户正在收听包含有20个句子的音频文件，该音频文件播放的过程其实就是解码的过程，在解码播放过程中，按顺序记录该数据帧在整个音频文件中的偏移量；

如果用户按下的是向前回退一句复读，则在链表中向前查找距离当前播放时间最近的一段连续目标声数据帧,并在这段最近的连续目标声数据帧中找到第一个符合条件的目标声数据帧(之前是静音或者背景音)，作为复读的起点，以及最后一个符合条件的目标声数据帧(之后是静音或者背景音)，作为复读的终点。

如果用户按下的是向前回退两句复读，则在链表中向前查找距离当前播放时间次近的一段连续目标声数据帧，重复上述过程。

可自行定义各种条件，以查找各种时间或位置的目标声。

从复读起点开始播放到复读终点，此过程可循环进行，形成了给定条件下的自动复读，如果用户不发结束指令，会一直自动复下去。该处理过程能够实现一键自动复读或一键快进快退播放功能，操作简单，且查找效率高，准确度高。

需要说明的是，在接收到快进快退播放指令或者复读指令时，也可不采用上文所述的处理方式，而是直接跳转到所述定位点或复读起点重新播放。

本实施例所述的快进快退播放方法通过在音频解码播放过程中提取音频特征来确定快进快退的定位点，或者，复读起点和终点，从而实现快进快退播放或复读功能；本实施例所述的方法运算量小，能够根据用户下发的指令自动查找定位点，或者，复读起点和复读终点，用户操作简单，且查找效率快，准确度高，有利于提高用户的快进快退播放和复读体验。

如图4所示，该实施例中所述的快进快退播放装置包括：

播放断点查找模块1，用于根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点；

播放模块2，用于播放符合指定条件的一段音频；

本实施例所述的快进快退播放装置的工作原理与上述快进快退播放方法实施例所述的工作原理相同，在此不再赘述。

此外，本发明还提供了一种播放器，包括：如图4所示的快进快退播放装置；

所述播放器是如下项中的一项：

智能学习机、点读机、音乐播放器和KTV点唱机。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于音频特征提取的快进快退播放方法，其特征在于，包括：

播放符合指定条件的一段音频；

2.根据权利要求1所述的方法，其特征在于，所述每个数据帧的音频特征包括：

目标声、背景音和静音。

3.根据权利要求2所述的方法，其特征在于，确定所述每个数据帧的音频特征，包括：

在音频解码播放过程中，获取音频信号的频谱分布信息；

判断该音频信息是否为静音；

4.根据权利要求3所述的方法，其特征在于，所述判断该音频信息是否为静音，包括：

所述判断该音频信息是否包含目标声音，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据音频特征在链表中确定快进快退的定位点，或者，复读起点和终点，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，在执行所述根据音频特征在链表中确定定位点，或者，复读起点和终点之前，还包括：

接收用户发送的快进快退播放指令和设定条件，

其中，所述快进快退播放指令包括复读指令。

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求6所述的方法，其特征在于，还包括：

9.一种基于音频特征提取的快进快退播放装置，其特征在于，包括：

播放模块，用于播放符合指定条件的一段音频；

10.一种播放器，其特征在于，包括：如权利要求9所述的快进快退播放装置；

所述播放器是如下项中的一项：

智能学习机、点读机、音乐播放器和KTV点唱机。