CN103400593B - 一种试听音频的方法及装置 - Google Patents
一种试听音频的方法及装置 Download PDFInfo
- Publication number
- CN103400593B CN103400593B CN201310279017.0A CN201310279017A CN103400593B CN 103400593 B CN103400593 B CN 103400593B CN 201310279017 A CN201310279017 A CN 201310279017A CN 103400593 B CN103400593 B CN 103400593B
- Authority
- CN
- China
- Prior art keywords
- audio
- primitive
- primitive group
- audio file
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 239000012634 fragment Substances 0.000 claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 90
- 239000013598 vector Substances 0.000 claims description 67
- 238000012216 screening Methods 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 6
- 239000000725 suspension Substances 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- -1 and if not Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施方式提供了一种试听音频的方法,例如可以包括:响应于接收到对音频文件集合进行试听的触发事件,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;播放读取出的特征片段。应用本发明的实施方式,用户无需手动调整播放进度就可以快速试听专辑/歌单中歌曲的精华部分,在众多歌曲中快速找出自己喜欢的歌曲,提高用户体验。此外,本发明的实施方式提供了一种试听音频的装置。
Description
技术领域
本发明的实施方式涉及音频领域,更具体地,本发明的实施方式涉及一种试听音频的方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
随着数字媒体技术的发展,提供音频下载、在线试听等服务的平台随之出现。为了迎合人们的各种喜好,在平台上通常会提供海量歌曲(或者称为音频文件)。这些歌曲可能会根据歌手、专辑名、用户等信息被收纳至各个专辑/歌单(或者称为音频文件集合)中。当用户想要在专辑/歌单中寻找自己喜欢的歌曲时,通常会进入其欣赏的歌手或用户分享的专辑/歌单中,逐个试听专辑/歌单中的歌曲以找出自己喜欢的歌曲。
发明内容
但是,现有技术中如果用户想要从专辑/歌单中快速找出自己喜欢的歌曲,需在试听专辑/歌单中的每个歌曲时,手动对播放进度进行调整以寻找精华部分,浪费了用户大量时间,降低了用户体验。
因此,在现有技术中,对专辑/歌单的试听是非常令人烦恼的问题。
为此,非常需要一种改进的试听音频的方法,以使用户无需手动调整歌曲播放进度就可以快速对专辑/歌单中的歌曲的精华部分进行试听,提高用户体验。
在本上下文中,本发明的实施方式期望提供一种试听音频的方法及装置。
在本发明实施方式的第一方面中,提供了一种试听音频的方法,例如,可以包括:响应于接收到对音频文件集合进行试听的触发事件,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;播放读取出的特征片段。
在本发明实施方式的第二方面中,提供了一种试听音频的装置,例如,该装置可以包括:读取特征片段单元:配置用于响应于接收到对音频文件集合试听的触发事件,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;播放特征片段单元:配置用于播放读取出的特征片段。
根据本发明实施方式的试听音频的方法和装置,当响应于接收到对音频文件集合的试听的触发事件后,自动读取出了音频文件集合中的一个以上音频文件对应的特征片段,因此,可以仅播放读取出的精华部分,无需进行完整歌曲播放,实现了用户无需手动调整播放进度就可以快速试听音频文件集合中一个以上音频文件的精华部分,提高用户体验。
另外,本发明实施方式的试听音频的方法和装置,还根据音频特征对音频文件的若干音频片段进行聚类,将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段,从而可以从若干合并音频片段中筛选出音频能量及重复次数符合预设条件的一个合并音频片段,以该筛选出的合并音频片段作为该音频文件的特征片段,实现了自动准确抽取特征片段的目的,克服了现有技术需通过人工试听音频来提取特征片段而导致的效率低下的问题。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图;
图2示意性地示出了根据本发明实施例的应用场景;
图3示意性地示出了根据本发明实施例的方法流程示意图之一;
图4示意性地示出了根据本发明实施例的方法流程示意图之二;
图5示意性地示出了根据本发明实施例的方法流程示意图之三;
图6示意性地示出了本发明实施例的方法涉及的chroma特征矩阵示意图;
图7示意性地示出了本发明实施例的方法涉及的第一基元组示意图;
图8示意性地示出了根据本发明实施例的方法流程示意图之四;
图9示意性地示出了本发明实施例的方法涉及的相似度矩阵示意图;
图10示意性地示出了本发明实施例的方法涉及的第二基元组示意图;
图11示意性地示出了根据本发明实施例的方法流程示意图之五;
图12示意性地示出了根据本发明实施例的装置结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算系统100可以包括:中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有CPU101、RAM102、ROM103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
根据本发明的实施方式,提出了一种试听音频的方法和装置。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,当用户想要从专辑/歌单中快速找出自己喜欢的歌曲时,现有技术提供的对音频的试听的方法,需要用户进入专辑/歌单选择单个歌曲逐个进行完整播放并人工对单曲播放进度进行调整以寻找精华部分。
针对这一问题,本发明人发现,在响应于接收到对专辑/歌单(或者称为音频文件集合)进行试听的触发事件之后,自动读取专辑/歌单中一个以上歌曲(音频文件)对应的精华部分(或者称为特征片段),则可以在读取出精华部分后仅播放读取出的精华部分,无需进行完整歌曲播放。这样,用户无需手动调整播放进度就可以快速试听专辑/歌单中歌曲的精华部分,在众多歌曲中快速找出自己喜欢的歌曲,提高用户体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图2,本发明实施方式可以应用的场景例如可以为如图2所示的音乐交互平台提供的专辑/歌单的试听。
示例性方法
下面结合图2的应用场景,参考图3来描述根据本发明示例性实施方式的试听音频的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
参见图3,为本发明实施例提供的一种试听音频的方法流程示意图之一,如图所示,该方法可以包括:
S310、响应于接收到对音频文件集合进行试听的触发事件;
例如,可以在如图2所示的音乐交互平台提供对专辑/歌单试听的功能触发按钮210,当用户点击按钮210后,应用本发明方法的音乐交互平台即可响应于接收到对音频文件集合进行试听的触发事件,进入后续流程。
S320、自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;
例如,可以在后台数据库预先保存所述一个以上音频文件分别对应的特征片段,在响应于接收到对音频文件集合进行试听的触发事件之后,可以从后台数据库预先保存的特征片段中,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;或者,例如,可以在响应于接收到对音频文件集合进行试听的触发事件之后,启动从音频文件中提取特征片段的流程,实时地从所述一个以上音频文件中分别提取出各自对应的特征片段。在实际应用中,这两种实现方式可以根据实际需要进行实施,在本发明中并不进行限制。
还需要说明的是,在本发明实施例中,在自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段时,可以一次性读取出音频文件集合中所有音频文件分别对应的特征片段,也可以按需读取出指定的一个以上音频文件分别对应的特征片段,也可以随机读取出预设个数的音频文件分别对应的特征片段。对此,本发明并不进行限制。当并非一次性读取出音频文件集合中所有音频文件对应的特征片段时,为了避免用户重复收听已试听的特征片段,在播放读取出的特征片段之后还可以包括:将该特征片段标记为已试听;如果再次响应于接收到对所述音频文件集合进行试听的触发事件,在自动读取音频文件集合中一个以上音频文件分别对应的特征片段时,可以根据该已试听标记排除已试听的特征片段,避免对标记为已试听的特征片段进行读取。
S330、播放读取出的特征片段。
考虑到用户在试听音频文件集合时,有可能对界面中其他内容进行浏览而脱离当前试听音频文件集合的控制界面。为了便于用户对试听音频文件集合的流程进行控制,例如,在播放读取出的特征片段过程中,还可以在界面显示以下悬浮控件的任一个或者组合:
用于结束所述播放的悬浮控件,例如,如图2所示的按钮控件220;
用于跳转到界面中指定位置的悬浮控件,所述指定位置为试听音频文件集合的触发控件210在界面中的位置,例如,如图2所示的按钮控件220;
用于显示所述播放的进度的悬浮控件,例如,如图2所示的按钮控件240。
应用本发明实施例提供的方法,由于在响应于接收到对音频文件集合进行试听的触发事件后,自动读取出了音频文件集合中的一个以上音频文件对应的特征片段,因此,可以仅播放读取出的精华部分,无需进行完整歌曲播放,实现了用户无需手动调整播放进度就可以快速试听音频文件集合中一个以上音频文件的精华部分,提高用户体验。
另外,在本发明实例提供的方法实现了对音频文件集合中音频文件的特征片段的试听的基础上,还实现了对音频文件的特征片段的自动提取。例如,参见图4,本发明实施例中所述的音频文件对应的特征片段可以预先通过如图4所示的流程获得,可以包括:
S410、将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
例如,可以以预设间隔对音频数据进行划分(如每0.5秒为一个片段);或者,基于常见的节奏检测方法以检测到的音频数据的节拍点进行划分。
S420、计算所述若干音频片段中每个音频片段的特征向量;
例如,可以先根据所述若干音频片段的音频信号特征,计算反应音频文件特征的特征矩阵;再对所述特征矩阵进行分解,得到反应音频文件特征的基元组;针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量。
其中音频信号特征可以包括很多不同方面的特征,具体可以根据实施需要提取相应的音频信号特征。例如,音频信号特征可以包括:FFT幅度特征(FastFourierTransform,快速傅里叶变换,其结果为复数形式,通过取复数的模得到FFT的幅度信息);MFCC特征(MelFrequencyCepstralCoefficient,梅尔频域倒谱系数);PLP特征(PerceptualLinearPredictive,感觉加权线性预测系数);LPCC特征(LinearPredictiveCepstrumCoefficient,线性预测系数);chroma特征(频谱色度特征)。这些特征都是音频信号分析中常用的音频信号特征,可以从不同方面反映原始信号中各频率分量的组成。对于每一个音频片段来说,其音频信号特征都是一个一维的向量,向量中元素的个数根据特征的不同以及参数设置的不同会有所差别。
S430、按特征向量的相似度对所述若干音频片段进行聚类,并将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
例如,可以采用层次聚类法或K均值法等,其中类的数量可以根据需要指定。如果期望最终获得的特征片段较短,则可以将类的数量适当设置的多些,使得聚类后每个类别中的音频片段的个数较少,在后续步骤中得到的合并音频片段相应较短。
S440、针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;
例如,可以查找所述若干合并音频片段中,与位于所述音频文件开始及结尾的合并音频片段属于同一类别的合并音频片段;将所查找出的音频片段及位于所述音频文件开始及结尾的合并音频片段从所述若干合并音频片段中排除,得到第一待选的合并音频片段;从第一待选的合并音频片段中,选取出音频能量超于预设能量阈值的合并音频片段,得到第二待选的合并音频片段;从第二待选的合并音频片段中,选取出重复次数最多的合并音频片段,得到第三待选的合并音频片段;根据预设的试听时长,对所述第三待选的合并音频片段进行截取或者扩展,得到符合预设条件的特征片段。
S450、从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段。
本发明实施例根据音频特征对音频文件的若干音频片段进行聚类,将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段,从而可以从若干合并音频片段中筛选出音频能量及重复次数符合预设条件的一个合并音频片段,以该筛选出的合并音频片段作为该音频文件的特征片段,实现了自动准确抽取特征片段的目的,克服了现有技术需通过人工试听音频来提取特征片段而导致的效率低下的问题。
下面,以根据chroma特征获得音频文件的特征片段为例对本发明上述实施例进行说明。例如,参见图5,本发明实施例中所述的音频文件对应的特征片段可以预先通过如图5所示的流程获得,可以包括:
S510、将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
S520、根据所述若干音频片段中每个音频片段的chroma特征,得到每个音频片段的第一初始特征向量;
例如,可以先提取出每个音频片段的chroma特征,再根据所提取出的chroma特征,针对每个音频片段,生成该音频片段的第一初始特征向量fi,假设所述若干音频片段一共有n个,那么可以得到n个音频片段各自的第一初始特征向量;
S530、将所述若干音频片段中所有音频片段的第一初始特征向量按照时间顺序拼接,得到反应音频文件特征的chroma特征矩阵;
需要说明的是,所述按照时间顺序拼接,也就是按照每个音频片段在音频文件中的顺序进行拼接。例如,假设音频文件中第一个音频片段的第一初始特征向量为f1,第二个音频片段的第一初始特征向量为f2,第三个音频片段的第一初始特征向量为f3…,以此类推第n个音频片段的第一初始特征向量为fn,则反应音频文件特征的chroma特征矩阵F=[f1f2f3...fn]。例如,假设对某一音频文件的若干音频片段的第一初始特征向量按照时间顺序拼接,得到的反应音频文件特征的chroma特征矩阵可以如图6所示,其中图6所示的chroma特征矩阵以相同颜色表示相同的值。从该图6可以看出,横轴(音频片段)35附近的特征矩阵与70和90附近的特征矩阵相似,这三个时间段在听觉感知,即音色上存在一定的相似性。chroma特征矩阵在一定程度上能够反应音频文件的音色信息。
S540、对chroma特征矩阵采用SIPLCA算法(shiftinvariantprobabilisticlatentcomponentanalysis,平移不变的概率隐含成分分析)进行分解,得到反应音频文件音色信息的第一基元组,以该反应音频文件音色信息的第一基元组作为最终反应音频文件特征的基元组;
需要说明的是,由于chroma特征矩阵反应音频文件的音色信息,当歌曲中不同位置出现相似的音色时,会表现出相近的chroma特征,通过分解则可以得到反应歌曲音色信息的基元组。
例如,对chroma特征矩阵采用SIPLCA算法进行分解,可以得到其中,r是分解前指定的基元数目,Wk是分解得到的基元,是基元在音频文件中对应的表示权重的矩阵。假定对上述图6所示chroma特征矩阵进行分解,且分解之前指定基元组中基元的数目为4,可以得到如图7所示的第一基元组,包括基元701a、702a、703a及704a,其中基元701a对应的权重可以参见701b所示的矩阵,其中横轴表示音频片段,纵轴表示权重,同理,基元702a对应的权重可以参见702b所示的矩阵,基元703a对应的权重可以参见703b所示的矩阵,基元704a对应的权重可以参见704b所示的矩阵。
S550、针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量;
例如,假设针对第一个音频片段生成该音频片段的特征向量,则可以从701b、702b、703b及704b所示的矩阵中分别取出横轴为1的片段在纵轴上对应的权重的值,再将所取出的4个权重组合成一个一维的向量以生成该音频片段的特征向量。
S560、按特征向量的相似度对所述若干音频片段进行聚类,并将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
S570、针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;
S580、从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段。
本发明该实例提供的方法,根据每个音频片段的chroma特征,得到每个音频片段的第一初始特征向量,进而得到了反应音频文件音色特征的chroma特征矩阵。再对chroma特征矩阵采用SIPLCA算法进行分解,得到了反应音频文件音色信息的第一基元组。因此,所得到的第一基元组中的各个基元能够代表不同音色,能够提取到音色最具有规律性重复的精华片段。本发明该实施例提供的方法尤其适于音色特征出现规律性重复的轻音乐的专辑/歌单的试听。
下面,以根据FFT幅度特征获得音频文件的特征片段为例对本发明上述实施例进行说明。例如,参见图8,本发明实施例中所述的音频文件对应的特征片段可以预先通过如图8所示的流程获得,可以包括:
S810、将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
S820、根据所述若干音频片段中每个音频片段的FFT幅度特征,得到每个音频片段的第二初始特征向量;
例如,可以先提取出每个音频片段的FFT幅度特征,再根据所提取出的FFT幅度特征,针对每个音频片段,生成该音频片段的第二初始特征向量fi,假设所述若干音频片段一共有n个,那么可以得到n个音频片段各自的第二初始特征向量;
S830、针对每个音频片段,计算该音频片段的第二初始特征向量与所述若干音频片段中每个音频片段的第二初始特征向量的相似度值;
需要说明的是,该步骤相当于计算了所述若干音频片段中任意两个音频片段之间的相似度值,其中包括每个音频片段与自身的相似度值;
S840、根据每个音频片段与所述若干音频片段中每个音频片段的相似度值,生成相似度矩阵;
例如,假设所述若干音频片段为n个音频片段,所述相似度矩阵初始时为未填充任何相似度值的n*n的矩阵;
查询出所述相似度矩阵中任一未填充相似度值的元素,假设该元素为第i行,第j列;
将步骤S830计算出的第i个音频片段与第j个音频片段的相似度值放在所述相似度矩阵的第i行第j列;
判断所述相似度矩阵中是否还有未填充相似度值的元素,如果有,返回到查询出所述相似度矩阵中任一未填充相似度值的元素的步骤,如果没有,完成生成相似度矩阵的步骤。
例如,根据上述步骤可以生成类似如图9所示的相似度矩阵。如图9所示,矩阵中对角线上的元素表示音频片段自身与自身之间的相似度,始终为最大值,当矩阵非对角线位置出现与对角线上的元素相似度相近的元素,且其连线与对角线平行时,表示某些片段在不同位置重复出现(如15-45这一片段在50-80位置重复出现),体现了歌曲结构上的重复性信息。
S850、对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组,以该反应音频文件结构信息的第二基元组作为最终反应音频文件特征的基元组;
需要说明的是,由于相似度矩阵反应音频文件的结构信息,当歌曲中不同位置出现相似的结构时,会表现出相近的结构,通过分解则可以得到反应歌曲结构信息的基元组。
例如,对相似度矩阵S(大小为n*n)采用非负矩阵分解,可以得到S≈W·H,其中W大小为n*r,H大小为r*n,r为分解中指定的参数,r<n,则Si=W(:,i)iH(i,:),其中W(:,i)表示矩阵W的第i列(第i列为n*1的向量),H(i,:)表示矩阵H的第i行(第i行为1*n的向量),Si为反应歌曲结构信息的基元,每个基元均为n*n的矩阵。其中每个基元对角线上的各个元素分别表示该基元中各个音频片段对应的权重。假设对相似度矩阵采用非负矩阵分解,指定r=6,则可以得到类似如图10所示的第二基元组,其中有6个基元。其中基元1001对角线1007上的元素表示各个音频片段对应的权重,例如,从基元1001对角线1007上取出各个音频片段对应的权重可以如下表所示:
音频片段序号 | 对角线上的值 |
1 | 0.0076 |
2 | 0.0044 |
3 | 0.0058 |
4 | 0.0152 |
5 | 0.0134 |
... | ... |
35 | 0.4172 |
36 | 0.3520 |
S860、针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量;
例如,假设针对第一个音频片段生成该音频片段的特征向量,则可以从基元1001到1006的对角线上分别取出第一个音频片段对应的权重,生成该第一个音频片段的特征向量,针对第二个音频片段生成该音频片段的特征向量,则可以从基元1001到1006的对角线上分别取出第二个音频片段对应的权重,生成该第二个音频片段的特征向量,以此类推可以生成如下表所示的每个音频片段的特征向量:
S870、按特征向量的相似度对所述若干音频片段进行聚类,并将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
S880、针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;
S890、从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段。
本发明该实例提供的方法,根据每个音频片段的FFT幅度特征,得到每个音频片段的第二初始特征向量,进而得到了反应音频文件结构特征的相似度矩阵,再对相似度矩阵采用非负矩阵分解,得到了反应音频文件结构信息的第二基元组。因此,所得到的第二基元组中的各个基元能够代表不同结构,进而能够提取到结构最具有规律性重复的精华片段。本发明该实施例提供的方法尤其适于结构特征出现规律性重复的流行音乐的专辑/歌单的试听。
鉴于chroma特征(频谱色度特征)或者FFT幅度特征分别体现音频片段的音色及结构信息,各适应于提取不同风格音频的特征片段,为了能够自适应地选择chroma特征(频谱色度特征)或者FFT幅度特征以获得更加准确的特征片段,本发明提出以下实施例。例如,参见图11,本发明实施例中所述的音频文件对应的特征片段可以预先通过如图11所示的流程获得,可以包括:
S1110、将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
S1120、根据所述若干音频片段中每个音频片段的chroma特征,得到每个音频片段的第一初始特征向量;
S1121、将所述若干音频片段中所有音频片段的第一初始特征向量按照时间顺序拼接,得到chroma特征矩阵;
S1122、对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组;以及,
S1130、根据所述若干音频片段中每个音频片段的FFT幅度特征,得到每个音频片段的第二初始特征向量;
S1131、针对每个音频片段,计算该音频片段的第二初始特征向量与所述若干音频片段中每个音频片段的第二初始特征向量的相似度值;
S1132、根据每个音频片段与所述若干音频片段中每个音频片段的相似度值,生成相似度矩阵;
S1133、对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组;
需要说明的是,上述步骤S1120-S1122与S1130-S1133之间无特定执行顺序,例如,也可以先执行S1130-S1133,再执行S1120-S1122,或者,S1120-S1122与S1130-S1133并行执行,本发明对此并不进行限制。
S1140、根据预设的选择算法,从第一基元组及第二基元组中选择一个基元组作为最终反应音频文件特征的基元组;
S1150、针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量;
S1160、按特征向量的相似度对所述若干音频片段进行聚类,并将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
S1170、针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;
S1180、从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段。
其中,步骤S1140根据预设的选择算法,从第一基元组及第二基元组中选择一个基元组作为最终反应音频文件特征的基元组的具体实现方式可以根据实施需要预设选择算法。在本发明实施例中,提供以下三种可能的实现方式,包括:
(一)相似筛选步骤,该步骤包括:根据第一基元组中各个基元的相似度,以及第二基元组中各个基元的相似度,选择组中各个基元相似程度最低的一个基元组作为最终反应音频文件特征的基元组。
例如:针对第一基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第一基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C1;以及,针对第二基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第二基元组的所有基元对应的方差的均值,得到反应第二基元组各个基元之间的相似度的值,假定该值为C2;根据C1及C2的值,选择第一基元组中相似度最低的一个基元组作为最终反应音频文件特征的基元组。
需要说明的是,该相似筛选步骤找出第一基元组及第二基元组中各基元的特征相互之间差别较大的一组的原因是:当基元组中各个基元的特征相互之间差别较大时,说明得到的基元能够凸显音频文件不同的特征,更加具有代表性。
(二)比例筛选步骤,该步骤包括:根据第一基元组的各个基元中每个音频片段对应的权重,计算第一基元组的各个基元分别对应的权重和,以及根据第二基元组的各个基元中每个音频片段对应的权重,计算第二基元组的各个基元分别对应的权重和,选择组中各个基元分别对应的权重和最接近的一个基元组作为最终反应音频文件特征的基元组。
例如:针对第一基元组的每个基元,提取该基元中各音频片段对应的权重,计算该基元对应的权重和;计算第一基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的权重比例的值,假定该值为D1;以及,针对第二基元组的每个基元,提取该基元中各音频片段对应的权重,计算该基元对应的权重和;计算第二基元组的所有基元对应的权重和的方差,得到反应第二基元组各个基元之间的权重比例的值,假定该值为D2;根据D1及D2的值,选择组中各个基元分别对应的权重和最接近的一个基元组作为最终反应音频文件特征的基元组。
需要说明的是,该比例筛选步骤找出第一基元组及第二基元组中各基元分别对应的权重和均匀的一组的原因是:当基元组中各个基元对应的权重和更加均匀时,说明得到的各个基元均匀地分解到了音频文件中足够的信息量,可以更加全面的体现音频文件的特征,也更加具有代表性。
(三)组合筛选步骤,该步骤包括:
计算反应第一基元组各个基元之间的相似度的值,假定该值为C1;以及,计算反应第二基元组各个基元之间的相似度的值,假定该值为C2;以及,
计算反应第一基元组各个基元之间的权重比例的值,假定该值为D1;以及,计算反应第二基元组各个基元之间的权重比例的值,假定该值为D2;
将所述C1、C2、D1及D2输入公式 以计算出p值,其中该公式中的w0,w1,w2,w3,w4为回归系数,该回归系数通过对海量音频数据进行logistic回归算法分析获得;
如果p值在预设筛选阈值与第一基元组的回归目标值之间,则选择第一基元组作为最终反应音频文件特征的基元组,如果p值在预设筛选阈值与第二基元组的回归目标值之间,则选择第二基元组作为最终反应音频文件特征的基元组,其中所述预设筛选阈值位于第一基元组的回归目标值与第二基元组的回归目标值之间。
需要说明的是,其中公式 中的w0,w1,w2,w3,w4通过对海量音频数据进行logistic回归算法分析获得,其具体实现可以包括以下步骤,例如:
针对海量音频文件中的每个音频文件,获得对该音频文件执行如图5所示的流程之后获得的第一特征片段及该音频文件的chroma特征矩阵分解后的第一基元组;以及,
针对海量音频文件中的每个音频文件,获得对该音频文件执行如图8所示的流程之后获得的第二特征片段及该音频文件的相似度矩阵分解后的第二基元组;
针对海量音频文件中的每个音频文件,计算该音频文件的第一基元组各个基元之间的相似度的值,假定该值为C1;以及,计算该音频文件的第二基元组各个基元之间的相似度的值,假定该值为C2;以及,计算该音频文件的第一基元组各个基元之间的权重比例的值,假定该值为D1;以及,计算该音频文件的第二基元组各个基元之间的权重比例的值,假定该值为D2;
对所述海量音频文件的每个音频文件的第一特征片段及第二特征片段进行人工评价,从第一特征片段及第二特征片段中找出表现更好的特征片段;
针对所述海量音频文件的每个音频文件进行判断,包括:如果该音频文件的第一特征片段表现更好,确定该音频文件的第一基元组表现更好,如果该音频文件的第二特征片段表现更好,确定该音频文件第二基元组表现更好;
将海量音频文件进行分类,其中一类为第一基元组表现更好,另一类为第二基元组表现更好;
设置第一基元组表现更好的音频文件的回归目标值及第二基元组表现更好的音频文件的回归目标值,(其中回归目标值为1或者0);
将海量音频文件中的每个音频文件的C1、C2、D1及D2作为输入特征进行logistic回归分析,得到回归系数w0,w1,w2,w3,w4。
需要说明的是,该组合筛选步骤通过模式识别中的分类/回归技术组合上述相似筛选步骤及比例筛选步骤,进行最终的判断,从中找出了最能够体现音频文件特征的第一基元组或者第二基元组。
可见,本发明该实例提供的方法,根据chroma特征矩阵反应音频文件的音色信息,相似度矩阵反应音频文件的结构信息,二者各适于不同的风格的音频文件特点,在生成chroma特征矩阵及相似度矩阵之后,分别对这两个矩阵进行分解,获得与之对应的反应音色信息的第一基元组及反应结构信息的第二基元组,从而,可以从这两个基元组中选择音色特征或者结构特征更加明显的一个基元组作为最终反应音频文件特征的基元组,使得本发明实施例的方法对各种不同类型的歌曲均可以抽取到最能够反应音频文件特征的特征片段,具有良好的自适应性。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图12对本发明示例性实施方式的试听音频的装置进行介绍。
参见图12,为本发明实施例提供的一种试听音频的装置结构示意图,该实施例提供的装置可以包括:
读取特征片段单元1210:可以配置用于响应于接收到对音频文件集合进行试听的触发事件,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;
播放特征片段单元1220:可以配置用于播放读取出的特征片段。
应用本发明实施例提供的装置,由于读取特征片段单元1210在响应于接收到对音频文件集合进行试听的触发事件后,自动读取出了音频文件集合中的一个以上音频文件对应的特征片段,因此,可以由播放特征片段单元1220仅播放读取出的精华部分,无需进行完整歌曲播放,实现了用户无需手动调整播放进度就可以快速试听音频文件集合中一个以上音频文件的精华部分,提高用户体验。
为了避免用户重复试听音频文件集合中已试听过的音频文件的特征片段,其中所述播放特征片段单元1220:还可以配置用于在播放读取出的特征片段之后,将该特征片段标记为已试听。且,所述读取特征片段单元1210:可以配置用于如果再次响应于接收到对所述音频文件集合进行试听的触发事件,在自动读取音频文件集合中一个以上音频文件分别对应的特征片段时,避免对标记为已试听的特征片段进行读取。
为了能够快速读取到音频文件的特征片段,所述音频文件集合中一个以上音频文件分别对应的特征片段预先保存于后台数据库,其中所述读取特征片段单元1210:可以配置用于从后台数据库预先保存的特征片段中,读取出所述音频文件集合中一个以上音频文件分别对应的特征片段。
为了便于用户对试听音频文件集合的流程进行控制,本发明实施例提供的装置还可以包括:显示控件单元1230:可以配置用于在界面显示以下任一悬浮控件或者组合:用于结束所述播放的悬浮控件;用于跳转到界面中指定位置的悬浮控件,所述指定位置为用于触发试听所述音频文件集合的控件在所述界面中的位置;用于显示所述播放的进度的悬浮控件。
在本发明实施例提供的装置的一种可能的实现方式中,例如,还可以包括:生成特征片段单元1240,其中所述生成特征片段单元1240可以包括:
划分子单元1241:可以配置用于将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
例如,所述划分子单元1241:可以配置用于以预设间隔对音频数据进行划分;或者,以检测到的音频数据的节拍点进行划分。
计算子单元1242:可以配置用于计算所述若干音频片段中每个音频片段的特征向量;
例如,所述计算子单元1242可以包括:第一计算子单元1242a:可以配置用于根据所述若干音频片段的音频信号特征,计算反应音频文件特征的特征矩阵;第二计算子单元1242b:可以配置用于对所述特征矩阵进行分解,得到反应音频文件特征的基元组;第三计算子单元1242c:可以配置用于针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量。
聚类子单元1243:可以配置用于按特征向量的相似度对所述若干音频片段进行聚类;
合并子单元1244:可以配置用于将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
筛选子单元1245:可以配置用于针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段。
其中,所述筛选子单元1245:可以配置用于查找所述若干合并音频片段中,与位于所述音频文件开始及结尾的合并音频片段属于同一类别的合并音频片段;将所查找出的音频片段及位于所述音频文件开始及结尾的合并音频片段从所述若干合并音频片段中排除,得到第一待选的合并音频片段;从第一待选的合并音频片段中,选取出音频能量超于预设能量阈值的合并音频片段,得到第二待选的合并音频片段;从第二待选的合并音频片段中,选取出重复次数最多的合并音频片段,得到第三待选的合并音频片段;根据预设的试听时长,对所述第三待选的合并音频片段进行截取或者扩展,得到符合预设条件的特征片段。
在该装置实施例中,不仅实现了对音频文件集合中音频文件的特征片段的试听,还由生成特征片段单元1240实现了对音频文件的特征片段的自动提取,克服了现有技术需通过人工试听音频来提取特征片段而导致的效率低下的问题。
基于上述实施例,在本发明实施例提供的装置的一种可能的实现方式中,例如,其中所述第一计算子单元1242a:可以配置用于根据所述若干音频片段中每个音频片段的chroma特征,得到每个音频片段的第一初始特征向量;将所述若干音频片段中所有音频片段的第一初始特征向量按照时间顺序拼接,得到chroma特征矩阵;
和/或者,
可以配置用于根据所述若干音频片段中每个音频片段的FFT幅度特征,得到每个音频片段的第二初始特征向量;针对每个音频片段,计算该音频片段的第二初始特征向量与所述若干音频片段中每个音频片段的第二初始特征向量的相似度值;根据每个音频片段与所述若干音频片段中每个音频片段的相似度值,生成相似度矩阵。
其中,所述第二计算子单元1242b:可以配置用于对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组,以该反应音频文件音色信息的第一基元组作为最终反应音频文件特征的基元组;
或者,
可以配置用于对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组,以该反应音频文件结构信息的第二基元组作为最终反应音频文件特征的基元组;
或者,
可以配置用于对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组;以及,对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组;根据预设的选择算法,从第一基元组及第二基元组中选择一个基元组作为最终反应音频文件特征的基元组。
其中,所述第二计算子单元1242b可以包括以下任一单元:
相似筛选子单元:可以配置用于根据第一基元组中各个基元的相似度,以及第二基元组中各个基元的相似度,选择组中各个基元相似程度最低的一个基元组作为最终反应音频文件特征的基元组;
比例筛选子单元:可以配置用于根据第一基元组的各个基元中每个音频片段对应的权重,计算第一基元组的各个基元分别对应的权重和,以及根据第二基元组的各个基元中每个音频片段对应的权重,计算第二基元组的各个基元分别对应的权重和,选择组中各个基元分别对应的权重和最接近的一个基元组作为最终反应音频文件特征的基元组;
组合筛选子单元:可以配置用于针对第一基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第一基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C1;以及,针对第二基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第二基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C2;以及,针对第一基元组的每个基元,计算该基元中各音频片段对应的权重,得到该基元对应的权重和,计算第一基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的相似度的值,假定该值为D1;以及,针对第二基元组的每个基元,计算该基元中各音频片段对应的权重,得到该基元对应的权重和,计算第二基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的相似度的值,假定该值为D2;将所述C1、C2、D1及D2输入公式 以计算出p值,其中该公式中的w0,w1,w2,w3,w4为回归系数,该回归系数通过对海量音频数据进行logistic回归算法分析获得;如果p值在预设筛选阈值与第一基元组的回归目标值之间,则选择第一基元组作为最终反应音频文件特征的基元组,如果p值在预设筛选阈值与第二基元组的回归目标值之间,则选择第二基元组作为最终反应音频文件特征的基元组,其中所述预设筛选阈值位于第一基元组的回归目标值与第二基元组的回归目标值之间。
可见,由于本发明该实例提供的装置的第二计算子单元1242b在生成chroma特征矩阵及相似度矩阵之后,分别对这两个矩阵进行分解,获得与之对应的反应音色信息的第一基元组及反应结构信息的第二基元组,从而,可以从这两个基元组中选择音色特征或者结构特征更加明显的一个基元组作为最终反应音频文件特征的基元组,使得本发明实施例的方法对各种不同类型的歌曲均可以抽取到最能够反应音频文件特征的特征片段,具有良好的自适应性。
应当注意,尽管在上文详细描述中提及了试听音频的装置的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (18)
1.一种试听音频的方法,包括:
响应于接收到对音频文件集合进行试听的触发事件,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;
播放读取出的特征片段;
通过以下步骤获得所述音频文件对应的特征片段:
将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
计算所述若干音频片段中每个音频片段的特征向量;
按特征向量的相似度对所述若干音频片段进行聚类,并将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;
从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段;
其中,所述计算若干音频片段中每个音频片段的特征向量包括:
根据所述若干音频片段的音频信号特征,计算反应音频文件特征的特征矩阵;
对所述特征矩阵进行分解,得到反应音频文件特征的基元组;
针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量。
2.根据权利要求1所述的方法,其中在播放读取出的特征片段之后还包括:将该特征片段标记为已试听;
且,如果再次响应于接收到对所述音频文件集合进行试听的触发事件,在自动读取音频文件集合中一个以上音频文件分别对应的特征片段时,避免对标记为已试听的特征片段进行读取。
3.根据权利要求2所述的方法,其中所述读取出音频文件集合中一个以上音频文件分别对应的特征片段包括:
从后台数据库预先保存的特征片段中,读取出所述音频文件集合中一个以上音频文件分别对应的特征片段。
4.根据权利要求1所述的方法,其中在播放读取出的特征片段过程中,还在界面显示以下任一悬浮控件或者组合:
用于结束所述播放的悬浮控件;
用于跳转到界面中指定位置的悬浮控件,所述指定位置为试听音频文件集合的触发控件在界面中的位置;
用于显示所述播放的进度的悬浮控件。
5.根据权利要求1所述的方法,其中所述对音频数据进行划分包括:
以预设间隔对音频数据进行划分;
或者,
以检测到的音频数据的节拍点进行划分。
6.根据权利要求1所述的方法,其中所述从若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段包括:
查找所述若干合并音频片段中,与位于所述音频文件开始及结尾的合并音频片段属于同一类别的合并音频片段;
将所查找出的音频片段及位于所述音频文件开始及结尾的合并音频片段从所述若干合并音频片段中排除,得到第一待选的合并音频片段;
从第一待选的合并音频片段中,选取出音频能量超于预设能量阈值的合并音频片段,得到第二待选的合并音频片段;
从第二待选的合并音频片段中,选取出重复次数最多的合并音频片段,得到第三待选的合并音频片段;
根据预设的试听时长,对所述第三待选的合并音频片段进行截取或者扩展,得到符合预设条件的特征片段。
7.根据权利要求1所述的方法,其中所述根据若干音频片段的音频信号特征,计算反应音频文件特征的特征矩阵包括:
根据所述若干音频片段中每个音频片段的chroma特征,得到每个音频片段的第一初始特征向量;将所述若干音频片段中所有音频片段的第一初始特征向量按照时间顺序拼接,得到chroma特征矩阵;
和/或者,
根据所述若干音频片段中每个音频片段的FFT幅度特征,得到每个音频片段的第二初始特征向量;针对每个音频片段,计算该音频片段的第二初始特征向量与所述若干音频片段中每个音频片段的第二初始特征向量的相似度值;根据每个音频片段与所述若干音频片段中每个音频片段的相似度值,生成相似度矩阵。
8.根据权利要求7所述的方法,所述对特征矩阵进行分解,得到反应音频文件特征的基元组包括:
对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组,以该反应音频文件音色信息的第一基元组作为最终反应音频文件特征的基元组;
或者,
对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组,以该反应音频文件结构信息的第二基元组作为最终反应音频文件特征的基元组;
或者,
对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组;以及,对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组;根据预设的选择算法,从第一基元组及第二基元组中选择一个基元组作为最终反应音频文件特征的基元组。
9.根据权利要求8所述的方法,其中所述根据预设的选择算法,从第一基元组及第二基元组中选择一个基元组作为最终反应音频文件特征的基元组包括以下相似筛选步骤、比例筛选步骤或者组合筛选步骤中的任意一个:
其中所述相似筛选步骤包括:根据第一基元组中各个基元的相似度,以及第二基元组中各个基元的相似度,选择组中各个基元相似程度最低的一个基元组作为最终反应音频文件特征的基元组;
其中所述比例筛选步骤包括:根据第一基元组的各个基元中每个音频片段对应的权重,计算第一基元组的各个基元分别对应的权重和,以及根据第二基元组的各个基元中每个音频片段对应的权重,计算第二基元组的各个基元分别对应的权重和,选择组中各个基元分别对应的权重和最接近的一个基元组作为最终反应音频文件特征的基元组;
其中所述组合筛选步骤包括:
针对第一基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第一基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C1;以及,
针对第二基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第二基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C2;以及,
针对第一基元组的每个基元,计算该基元中各音频片段对应的权重,得到该基元对应的权重和,计算第一基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的相似度的值,假定该值为D1;以及,
针对第二基元组的每个基元,计算该基元中各音频片段对应的权重,得到该基元对应的权重和,计算第二基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的相似度的值,假定该值为D2;
将所述C1、C2、D1及D2输入公式 以计算出p值,其中该公式中的w0,w1,w2,w3,w4为回归系数,该回归系数通过对海量音频数据进行logistic回归算法分析获得;
如果p值在预设筛选阈值与第一基元组的回归目标值之间,则选择第一基元组作为最终反应音频文件特征的基元组,如果p值在预设筛选阈值与第二基元组的回归目标值之间,则选择第二基元组作为最终反应音频文件特征的基元组,其中所述预设筛选阈值位于第一基元组的回归目标值与第二基元组的回归目标值之间。
10.一种试听音频的装置,包括:
读取特征片段单元:配置用于响应于接收到对音频文件集合进行试听的触发事件,自动读取出所述音频文件集合中一个以上音频文件分别对应的特征片段;
播放特征片段单元:配置用于播放读取出的特征片段;
还包括生成特征片段单元,所述生成特征片段单元包括:
划分子单元:配置用于将所述音频文件解码为wav格式的音频数据,并对所述音频数据进行划分,得到若干音频片段;
计算子单元:配置用于计算所述若干音频片段中每个音频片段的特征向量;
聚类子单元:配置用于按特征向量的相似度对所述若干音频片段进行聚类;
合并子单元:配置用于将聚为一类且在音频文件中位置相邻的音频片段合并为一个音频片段,得到若干合并音频片段;
筛选子单元:配置用于针对每个合并音频片段,计算该合并音频片段的音频能量,以及,计算该合并音频片段所属类别中合并音频片段的个数,将该个数作为该合并音频片段的重复次数;从所述若干合并音频片段中,选取音频能量及重复次数符合预设条件的一个合并音频片段作为音频文件的特征片段;
其中所述计算子单元包括:
第一计算子单元:配置用于根据所述若干音频片段的音频信号特征,计算反应音频文件特征的特征矩阵;
第二计算子单元:配置用于对所述特征矩阵进行分解,得到反应音频文件特征的基元组;
第三计算子单元:配置用于针对每个音频片段,根据该音频片段在基元组的各个基元中对应的权重,生成该音频片段的特征向量。
11.根据权利要求10所述的装置,其中所述播放特征片段单元:配置用于在播放读取出的特征片段之后,将该特征片段标记为已试听;
且,所述读取特征片段单元:配置用于如果再次响应于接收到对所述音频文件集合进行试听的触发事件,在自动读取音频文件集合中一个以上音频文件分别对应的特征片段时,避免对标记为已试听的特征片段进行读取。
12.根据权利要求10所述的装置,其中读取特征片段单元:配置用于从后台数据库预先保存的特征片段中,读取出所述音频文件集合中一个以上音频文件分别对应的特征片段。
13.根据权利要求10所述的装置,还包括:显示控件单元:配置用于在界面显示以下任一悬浮控件或者组合:用于结束所述播放的悬浮控件;用于跳转到界面中指定位置的悬浮控件,所述指定位置为试听音频文件集合的触发控件在界面中的位置;用于显示所述播放的进度的悬浮控件。
14.根据权利要求10所述的装置,其中划分子单元:配置用于以预设间隔对音频数据进行划分;或者,以检测到的音频数据的节拍点进行划分。
15.根据权利要求10所述的装置,其中所述筛选子单元:配置用于查找所述若干合并音频片段中,与位于所述音频文件开始及结尾的合并音频片段属于同一类别的合并音频片段;将所查找出的音频片段及位于所述音频文件开始及结尾的合并音频片段从所述若干合并音频片段中排除,得到第一待选的合并音频片段;从第一待选的合并音频片段中,选取出音频能量超于预设能量阈值的合并音频片段,得到第二待选的合并音频片段;从第二待选的合并音频片段中,选取出重复次数最多的合并音频片段,得到第三待选的合并音频片段;根据预设的试听时长,对所述第三待选的合并音频片段进行截取或者扩展,得到符合预设条件的特征片段。
16.根据权利要求10所述的装置,其中所述第一计算子单元:配置用于根据所述若干音频片段中每个音频片段的chroma特征,得到每个音频片段的第一初始特征向量;将所述若干音频片段中所有音频片段的第一初始特征向量按照时间顺序拼接,得到chroma特征矩阵;
和/或者,
配置用于根据所述若干音频片段中每个音频片段的FFT幅度特征,得到每个音频片段的第二初始特征向量;针对每个音频片段,计算该音频片段的第二初始特征向量与所述若干音频片段中每个音频片段的第二初始特征向量的相似度值;根据每个音频片段与所述若干音频片段中每个音频片段的相似度值,生成相似度矩阵。
17.根据权利要求16所述的装置,其中所述第二计算子单元:配置用于对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组,以该反应音频文件音色信息的第一基元组作为最终反应音频文件特征的基元组;
或者,
配置用于对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组,以该反应音频文件结构信息的第二基元组作为最终反应音频文件特征的基元组;
或者,
配置用于对chroma特征矩阵采用SIPLCA算法进行分解,得到反应音频文件音色信息的第一基元组;以及,对所述相似度矩阵采用非负矩阵分解,得到反应音频文件结构信息的第二基元组;根据预设的选择算法,从第一基元组及第二基元组中选择一个基元组作为最终反应音频文件特征的基元组。
18.根据权利要求17所述的装置,其中所述第二计算子单元可以包括以下任一单元:
相似筛选子单元:可以配置用于根据第一基元组中各个基元的相似度,以及第二基元组中各个基元的相似度,选择组中各个基元相似程度最低的一个基元组作为最终反应音频文件特征的基元组;
比例筛选子单元:可以配置用于根据第一基元组的各个基元中每个音频片段对应的权重,计算第一基元组的各个基元分别对应的权重和,以及根据第二基元组的各个基元中每个音频片段对应的权重,计算第二基元组的各个基元分别对应的权重和,选择组中各个基元分别对应的权重和最接近的一个基元组作为最终反应音频文件特征的基元组;
组合筛选子单元:可以配置用于针对第一基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第一基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C1;以及,针对第二基元组的每个基元,计算该基元中各音频片段对应的权重的方差,得到该基元对应的方差,计算第二基元组的所有基元对应的方差的均值,得到反应第一基元组各个基元之间的相似度的值,假定该值为C2;以及,针对第一基元组的每个基元,计算该基元中各音频片段对应的权重,得到该基元对应的权重和,计算第一基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的相似度的值,假定该值为D1;以及,针对第二基元组的每个基元,计算该基元中各音频片段对应的权重,得到该基元对应的权重和,计算第二基元组的所有基元对应的权重和的方差,得到反应第一基元组各个基元之间的相似度的值,假定该值为D2;将所述C1、C2、D1及D2输入公式 以计算出p值,其中该公式中的w0,w1,w2,w3,w4为回归系数,该回归系数通过对海量音频数据进行logistic回归算法分析获得;如果p值在预设筛选阈值与第一基元组的回归目标值之间,则选择第一基元组作为最终反应音频文件特征的基元组,如果p值在预设筛选阈值与第二基元组的回归目标值之间,则选择第二基元组作为最终反应音频文件特征的基元组,其中所述预设筛选阈值位于第一基元组的回归目标值与第二基元组的回归目标值之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310279017.0A CN103400593B (zh) | 2013-07-03 | 2013-07-03 | 一种试听音频的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310279017.0A CN103400593B (zh) | 2013-07-03 | 2013-07-03 | 一种试听音频的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103400593A CN103400593A (zh) | 2013-11-20 |
CN103400593B true CN103400593B (zh) | 2016-02-24 |
Family
ID=49564198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310279017.0A Active CN103400593B (zh) | 2013-07-03 | 2013-07-03 | 一种试听音频的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103400593B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104078063A (zh) * | 2014-06-19 | 2014-10-01 | 深圳市中兴移动通信有限公司 | 音频文件播放方法和系统 |
CN105845158A (zh) | 2015-01-12 | 2016-08-10 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及客户端 |
CN104778216B (zh) | 2015-03-20 | 2017-05-17 | 广东欧珀移动通信有限公司 | 一种预设风格歌曲处理的方法及装置 |
CN104750818B (zh) * | 2015-03-30 | 2019-03-19 | Oppo广东移动通信有限公司 | 基于无线音乐系统的歌曲试听方法、控制终端及系统 |
CN106448713B (zh) * | 2015-08-11 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 音频播放方法和装置 |
CN106384603A (zh) * | 2016-09-30 | 2017-02-08 | 四川九洲电器集团有限责任公司 | 一种音乐播放方法及音乐播放设备 |
CN107799113B (zh) * | 2017-09-26 | 2021-12-07 | Oppo广东移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
CN110109645A (zh) | 2019-04-30 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 一种交互式音乐试听方法、装置和终端 |
CN111399745B (zh) * | 2020-03-26 | 2021-06-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐播放方法、音乐播放界面生成方法及相关产品 |
CN112035698B (zh) * | 2020-09-11 | 2022-02-25 | 北京字跳网络技术有限公司 | 音频试听方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1598923A (zh) * | 2004-09-10 | 2005-03-23 | 清华大学 | 用于音乐试听的流行歌曲关键段提取方法 |
CN102467939A (zh) * | 2010-11-04 | 2012-05-23 | 北京彩云在线技术开发有限公司 | 一种歌曲音频切割装置及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464872A (zh) * | 2007-12-21 | 2009-06-24 | 鸿富锦精密工业(深圳)有限公司 | 具有快速浏览功能的电子装置及媒体文件的快速浏览方法 |
-
2013
- 2013-07-03 CN CN201310279017.0A patent/CN103400593B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1598923A (zh) * | 2004-09-10 | 2005-03-23 | 清华大学 | 用于音乐试听的流行歌曲关键段提取方法 |
CN102467939A (zh) * | 2010-11-04 | 2012-05-23 | 北京彩云在线技术开发有限公司 | 一种歌曲音频切割装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103400593A (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103400593B (zh) | 一种试听音频的方法及装置 | |
US10133538B2 (en) | Semi-supervised speaker diarization | |
EP3508986B1 (en) | Music cover identification for search, compliance, and licensing | |
Cano et al. | Robust sound modeling for song detection in broadcast audio | |
US10963781B2 (en) | Classification of audio segments using a classification network | |
US11816151B2 (en) | Music cover identification with lyrics for search, compliance, and licensing | |
KR101637282B1 (ko) | 음악 플레이리스트 생성방법, 및 음악 플레이리스트 생성장치 | |
US7805389B2 (en) | Information processing apparatus and method, program and recording medium | |
KR20070121810A (ko) | 복합 뉴스 스토리 합성 | |
US9774948B2 (en) | System and method for automatically remixing digital music | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
KR101942459B1 (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
Niyazov et al. | Content-based music recommendation system | |
WO2016102737A1 (en) | Tagging audio data | |
CN108628886B (zh) | 一种音频文件推荐方法及装置 | |
CN113691909B (zh) | 具有音频处理推荐的数字音频工作站 | |
JP4479210B2 (ja) | サマリ作成用プログラム | |
WO2016102738A1 (en) | Similarity determination and selection of music | |
US20180173400A1 (en) | Media Content Selection | |
WO2019053544A1 (en) | IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX | |
KR20120021174A (ko) | 감정 모델을 이용한 음악 검색 장치 및 방법 | |
Zhang et al. | A novel singer identification method using GMM-UBM | |
KR20200118587A (ko) | 음악의 내재적 정보를 이용한 음악 추천 시스템 | |
KR20070048484A (ko) | 음악파일 자동 분류를 위한 특징 데이터베이스 생성 장치및 그 방법과, 그를 이용한 재생 목록 자동 생성 장치 및그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20161031 Address after: Hangzhou City, Zhejiang province Zhejiang District 310052 e-businessmen Road No. 599 building 601 room 4 Patentee after: Hangzhou NetEase cloud Music Technology Co., Ltd. Address before: Hangzhou City, Zhejiang province Binjiang District 310052 River Street Network Road No. 599 building 4 layer 7 Patentee before: NetEase (Hangzhou) Network Co., Ltd. |