CN105045809B

CN105045809B - 多媒体文件的试播方法及装置

Info

Publication number: CN105045809B
Application number: CN201510310134.8A
Authority: CN
Inventors: 张超钢
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Chengdu kugou business incubator management Co.,Ltd.
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2017-03-15
Anticipated expiration: 2035-06-05
Also published as: CN105045809A

Abstract

本发明公开了一种多媒体文件的试播方法及装置，属于网络技术领域。所述方法包括：接收试播请求，所述试播请求携带待试播的多媒体文件标识；根据所述多媒体文件标识，获取多媒体文件；根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点；以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。本发明通过基于多媒体文件的结构信息，为用户提供对应的试播时间点，使得用户能够灵活的试听最能表征多媒体文件实际内容的部分，而避免了由于断章取义而造成的时间浪费以及流量浪费，提高了获取多媒体文件过程中的命中率，从而提高多媒体文件的获取效率。

Description

多媒体文件的试播方法及装置

技术领域

本发明涉及网络技术领域，特别涉及一种多媒体文件的试播方法及装置。

背景技术

随着网络技术的发展，人们可以应用网络实现多种基于多媒体文件的娱乐活动，如上网听歌、上网看视频等等。然而，随着网络信息量越来越大，面对海量信息，用户很难高效率的获取到自己感兴趣的多媒体文件。

为了提高效率，现有的网站一般会从多媒体文件中截取开头部分或是高潮部分作为试播文件，并将试播文件提供给用户，当用户对网站进行浏览时，可以通过观看多媒体文件的试播文件，判断自己是否对该多媒体文件感兴趣，如果感兴趣，可以通过下载等方式获取该多媒体文件。

然而，由于试播文件仅是网站对多媒体文件开头部分或高潮部分的截取得到的，因此，其对多媒体文件整体的表征性较差，除非用户进行整体下载，才能够对多媒体文件的其他部分有所了解，因此，不能够真实体现多媒体文件的特征，因此，亟需一种多媒体文件的试播方法，以提高获取多媒体文件过程中的命中率，从而提高多媒体文件的获取效率。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种多媒体文件的试播方法及装置。所述技术方案如下：

一方面，本发明实施例提供了一种多媒体文件的试播方法，所述方法包括：

接收试播请求，所述试播请求携带待试播的多媒体文件标识；

根据所述多媒体文件标识，获取多媒体文件；根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点；以用户所选择的试播时间点为播放起点，播放所述多媒体文件。

另一方面，本发明实施例提供了一种多媒体文件的试播装置，所述装置包括：

接收模块，用于接收试播请求，所述试播请求携带待试播的多媒体文件标识；获取模块，用于根据所述多媒体文件标识，获取多媒体文件；提供模块，用于根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点；播放模块，用于以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。

本发明实施例提供的技术方案带来的有益效果是：

通过基于多媒体文件的结构信息，为用户提供对应的试播时间点，使得用户能够灵活的试听最能表征多媒体文件实际内容的部分，而避免了由于断章取义而造成的时间浪费以及流量浪费，提高了获取多媒体文件过程中的命中率，从而提高多媒体文件的获取效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体文件的试播方法的流程图；

图2是本发明实施例提供的一种多媒体文件的试播方法的流程图；

图3是本发明实施例提供的一种多媒体文件的试播装置的结构示意图；

图4是本发明实施例提供的一种多媒体文件的试播装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种多媒体文件的试播方法的流程图。参见图1，该实施例具体包括：

101、接收试播请求，所述试播请求携带待试播的多媒体文件标识。

102、根据所述多媒体文件标识，获取多媒体文件。

103、根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点。

其中，多媒体文件的结构信息包括人声起始位置、副歌起始位置、副歌结束位置和人声结束位置。

104、以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。

本发明实施例提供的方法，通过基于多媒体文件的结构信息，为用户提供对应的试播时间点，使得用户能够灵活的试听最能表征多媒体文件实际内容的部分，而避免了由于断章取义而造成的时间浪费以及流量浪费，提高了获取多媒体文件过程中的命中率，从而提高多媒体文件的获取效率。

可选地，所述多媒体文件的结构信息包括人声起始位置、副歌起始位置、副歌结束位置和人声结束位置。

可选地，根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点包括：

根据所述多媒体文件的结构信息以及所述多媒体文件的进度条总长度，确定所述结构信息中不同信息所对应的进度条位置；

根据所述结构信息中不同信息所对应的进度条位置，在所述多媒体文件的进度条上显示所述结构信息中不同信息对应的试播时间点。

可选地，所述方法还包括：

当检测到通过外设设备对所述多个试播时间点中任一个试播时间点的选择操作时，获取被选择的试播时间点；或，

当检测到用户对指定按键或指定按键组合的点击操作，获取指定按键或指定按键组合对应的试播时间点；或，

当检测到指定摇晃操作时，获取所述指定摇晃操作对应的试播时间点；或，

当检测到指定触屏操作时，获取所述指定触屏操作对应的试播时间点；或，

当接收到指定音频指令时，获取所述指定音频指令对应的试播时间点；或，

当接收到指定传感器的指定传感信号时，获取所述定传感信号对应的试播时间点。

可选地，根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点之前，所述方法还包括：

对所述多媒体文件进行人声和伴奏分离处理，得到所述多媒体文件的人声音频和伴奏音频；

基于所述多媒体文件的人声音频，得到所述多媒体文件的人声起始位置和人声结束位置；

基于所述多媒体文件的伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置。

可选地，基于所述多媒体文件的人声音频，得到所述多媒体文件的人声起始位置和人声结束位置包括：

对所述人声音频进行时间分帧处理，形成多个音频帧；

基于所述多个音频帧，获取每一帧音频帧的频谱；

根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本；

基于第二分块时长和所述第一数目的样本，获取所述人声音频中的人声起始位置和人声结束位置。

可选地，根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本包括：

以第一分块时长对所述多个音频帧进行分块，计算分块后的频谱统计特征，得到第二数目的频谱统计特征；

对所述第二数目的频谱统计特征进行人声和伴奏分类；

根据当前分类所确定的人声所在分块，获取与所述人声所在分块对应的第一数目的样本。

可选地，基于第二分块时长和所述第一数目的样本，获取所述人声音频中的人声起始位置和人声结束位置包括：

以第二分块时长对所述第一数目的样本进行分块，计算分块后的频谱统计特征，得到第三数目的频谱统计特征；

对所述第三数目的频谱统计特征进行人声和伴奏分类；

根据当前分类所确定的人声所在分块，确定人声起始位置和人声结束位置。

可选地，基于所述伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置包括：

将所述伴奏音频分解成第四数目的频段，将每个频段对应于所述第四数目的音符中的一个音符，得到频段和音符之间的对应关系；

对所述伴奏音频进行时间分帧处理，形成多个音频帧；

基于所述多个音频帧，获取每一帧音频帧的频谱；

根据所述每一帧音频帧的频谱、所述频段和音符之间的对应关系以及音符和色度之间的映射关系，获取所述每一帧音频帧所对应的色度向量；

基于所述每一帧音频帧所对应的色度向量，获取所述多媒体文件的副歌起始位置和副歌结束位置。

可选地，基于所述每一帧音频帧所对应的色度向量，获取所述多媒体文件的副歌起始位置和副歌结束位置包括：

对所述每一帧音频帧所对应的色度向量进行幅度归一化，得到所述每一帧音频帧的归一化向量；

基于所述每一帧音频帧的归一化向量，获取所述每一帧音频帧的相似矩阵；

将所述每一帧音频帧的相似矩阵中与主对角线重复次数最多的相似矩阵所对应的音频帧，按照时间顺序，确定为述多媒体文件的副歌起始位置和副歌结束位置。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种多媒体文件的试播方法的流程图。参见图2，该方法的执行主体为服务器，该方法包括：

201、多媒体服务器对多媒体文件进行人声和伴奏分离处理，得到所述多媒体文件的人声音频和伴奏音频。

在该步骤201中，该将人声音频和伴奏音频分离的过程，可以分为以下步骤201A-201I：

201A、将输入音频进行时间分帧处理，形成N帧音频帧，每帧音频帧的帧长为96ms，每帧重叠比例50％。

201B、对每一帧音频帧进行短时傅里叶变换(STFT)，获取每一帧的频谱的幅度谱，其中，第i帧的幅度谱为s_i。

201C、计算第i帧幅度谱sx和第j帧幅度谱s_j-之间的欧拉距离D_i，j，其中，i≤N，j≤N。

201D、记D_i，j矩阵第i行为D_i，将D_i按距离大小进行升序排列，找到距离最小的n个位置[p₁ p₂ … p_n]，得到距离s_i最小的n个帧[s_p1 s_p2 … s_pn]。

201E、基于上述距离s_i最小的n个帧[s_p1 s_p2 … s_pn]，通过中值滤波器(Medianfilter)计算第i帧的背景伴奏B_i。

该步骤201E具体可以应用以下公式：B_i＝Median([s_p1 s_p2 … s_pn])，其中，Median指代中值滤波操作。

201F、对中值滤波处理后的背景伴奏B_i进行处理，保证分离后伴奏幅度小于或等于原始音频的幅度。

进一步地，在该步骤201F中，可以对背景伴奏进行如下处理：B_i＝min(B_f，i，s_f，i)，也即是，当任一个频点上的幅度大于分离前音频帧的幅度时，将分离前音频帧的幅度作为处理后的频点幅度，f为估计伴奏B_i帧的第f个频点。

201G、根据音频帧上每个频点的幅度以及处理后的背景伴奏，获取音频帧中伴奏和人声的分离矩阵。

音频中伴奏和人声的分离矩阵W可通过下式计算：

其中，W_f,i为第i帧上第f个频点的分离矩阵，S_f,i为第i帧上第f个频点的频率幅度，B_f,i为第i帧上第f个频点的频率幅度，μ为分离权重因子。

201H、根据分离矩阵和每一帧的频谱的幅度谱，对N个音频帧进行人声和伴奏分离。

具体地，对音频中分离的伴奏幅度谱可估计为B_f，i＝S_f，iW_f，i，分离的人声幅度谱可估计为V_f，i＝S_f，i(1-W_f，i)。

201I、基于分离得到的伴奏幅度谱和人声幅度谱，进行反傅里叶变换，得到分离后的人声音频和伴奏音频。

由于先对多媒体文件进行了分离处理，以将人声音频和伴奏音频分离出来，使得在后续确定结构信息的过程中，可以基于已经分离的人声音频和伴奏音频分别进行，从而在获取结构信息的同时，提高结构信息的准确度。

202、基于所述多媒体文件的人声音频，得到所述多媒体文件的人声起始位置和人声结束位置。

具体地，基于所述人声音频，得到所述多媒体文件的结构信息包括下述不受202A-202D：

202A、对所述人声音频进行时间分帧处理，形成多个音频帧。

在该步骤202A中，音频帧的帧长为96ms，每帧重叠比例50％。

202B、基于所述多个音频帧，获取每一帧音频帧的频谱。

对每一帧音频帧就进行短时傅里叶变换，获取每一帧的频谱，该频谱事实上是频率幅度谱。

202C、根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本。

该步骤202C具体包括下述步骤：

(1)以第一分块时长对所述多个音频帧进行分块，计算分块后的频谱统计特征，得到第二数目的频谱统计特征。

在该步骤(1)中，首先，基于每一帧的频谱，计算每一帧的第二数目(如，第二数目为8)个频谱统计特征，例如，以第二数目为8进行后续描述，该8个频谱统计特征分别为：质心(centroid)、能量(energy)、滚降系数(rolloff)、平坦度(flatness)、通度(flux)、方差(spread)、峭度(kurtosis)、峰度(skewness)。然后，以第一分块时长(如5s)对多个音频帧进行分块，得到多个音频块，计算每个音频块的上述8个频谱统计特征的方差和均值，得到每个音频块的16个频谱统计特征。

(2)对所述第二数目的频谱统计特征进行人声和伴奏分类。

将上述步骤(2)中所得到的每个音频块的16个频谱统计特征输入已训练好的人声/伴奏分类器，得到人声/伴奏粗略分类结果，即哪几块音频块中包括人声，哪几块音频块中包括伴奏，从而确定人声所在分块，则可以将第一块人声所在分块的起始位置作为人声起始位置，将最后一块人声所在分块的结束位置作为人声结束位置。需要说明的是，其分类精度为5s精度。

在本发明实施例中，该人声/伴奏分类器可以采用贝叶斯分类器、决策树和人工神经网络等常用分类器。

(3)根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本。

通常，通过上述步骤(1)和(2)，已经可以初步确定人声起始位置和人声结束位置，那么，为了进一步提高结构信息的准确性，可以采用进一步的分类过程，来进一步细分人声起始位置、人声结束位置，因此，可以从上述多个音频块中，确定人声起始位置所在的第M1个音频块，人声结束位置所在的第M2个音频块，并基于这几个音频块提取细分所用的样本，如，选择人声起始位置前后两块，对应第M1-1、M1、M1+1块，共计15s；以及，选择人声结束位置前后两块，对应第M2-1、M2、M2+1块，共计15s。

202D、基于第二分块时长和所述第一数目的样本，获取所述人声音频中的人声起始位置和人声结束位置。

具体地，上述步骤202D可以包括以下步骤一至步骤三：

步骤一、以第二分块时长对所述第一数目的样本的频谱进行分块，计算分块后的频谱统计特征，得到第三数目的频谱统计特征。

其中，第三数目事实上可以根据基于第二分块时长进行分块所得到的块数和频谱统计特征的类型数计算得到，如，第二分块时长为1s时，如果分块得到的块数为30个，如果所需的频谱统计特征为频谱统计特征的方差和均值时，对于每个分块来说，可以有两个频谱统计特征，则该第三数目为480个。

步骤二、对所述第三数目的频谱统计特征进行人声和伴奏分类。

需要说明的是，该步骤一和步骤二，与上述步骤(1)和(2)同理，其不同之处在于第二分块时长小于第一分块时长，从而实现了更准确的位置定位，该第二分块时长可以为0.1s～4s，可选地，该第二分块时长为1s，本次的定位精度为1s。

步骤三、根据分类所确定的人声所在分块，确定人声起始位置和人声结束位置。

基于上述第二分块时长再次进行分类，可以确定出更细化的人声所在分块，如对于上述第M1-1、M1、M1+1块的音频块来说，经过重新分块，对于音频块M1来说，可以得到M11、M12、M13、M14和M15的子音频块，那么，经过分类，可以得到M13为人声所在分块的第一个子音频块，则可以将M13的起始位置作为该多媒体文件的人声起始位置(一般位于歌曲前1分钟)，对于人声结束位置，可以采用样本中最后一个人声所在分块的结束位置(一般位于歌曲最后1分钟)。

通过上述步骤202中至少两级的定位，实现了对人声音频中人声起始位置和人声结束位置到的获取，大大提高了结构信息的准确性。

203、基于所述多媒体文件的伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置。

需要说明的是，该步骤203和步骤202可以是同时进行，也可以用一定先后顺序进行，本发明实施例对此不作限定。

该步骤203包括下述步骤203A-203D：

203A、将所述伴奏音频分解成第四数目的频段，将每个频段对应于所述第四数目的音符中的一个音符，得到频段和音符之间的对应关系。

在本发明实施例中，可以将输入的伴奏音频分解为88个频段，分别对应于A0至C8这88个音符。当然，为了进一步提高相邻音符之间的隔离度，可采用具有精确截止特性的椭圆滤波器执行上述分解过程。

203B、对所述伴奏音频进行时间分帧处理，形成多个音频帧。

对于伴奏音频，也可以对其进行分帧处理，在本发明实施例中，伴奏音频的音频帧帧长可以为200ms，每帧重叠50％。

203C、基于所述多个音频帧，获取每一帧音频帧的频谱。

该获取频谱的过程与上述步骤201B同理，在此不作赘述。

203D、根据所述每一帧音频帧的频谱、所述频段和音符之间的对应关系以及音符和色度之间的映射关系，获取所述每一帧音频帧所对应的色度向量。

将通过步骤203C中所得到的每个音频帧的频谱，根据频率大小以及在步骤203A中所建立的频段和音符之间的对应关系，将每个音频帧的频谱映射到对应的88音符(A0至C8之间)上；然后，再将每个音频帧的音符，按照音频和色度之间的映射关系，映射到对应的12个色度(A,Bb,B,C,C#,D,Eb,E,F,F#,G,G#)。如，A0，A1，...，A7映射为A，C#1，C#2...，C#7映射为C#，等等；则可得到的每个音频帧的色度向量，如，第i帧12维的色度向量v_i为v_i＝[v_i，1v_i，2 … v_i，12]，其中，v_i，1 v_i，2 … v_i，12分别对应12个色度(A,Bb,B,C,C#,D,Eb,E,F,F#,G,G#)的频谱幅度大小。

203E、基于所述每一帧音频帧所对应的色度向量，获取所述多媒体文件的副歌起始位置和副歌结束位置。

具体地，该步骤203E包括：

一、对所述每一帧音频帧所对应的色度向量进行幅度归一化，得到所述每一帧音频帧的归一化向量。

基于上述步骤203D的例子，对于第i帧来说，对其色度向量[v_i，1 v_i，2 … v_i，12]进行幅度归一化，得到第i帧音频帧的归一化向量。

二、基于所述每一帧音频帧的归一化向量，获取所述每一帧音频帧的相似矩阵。

对于第i帧来说，其相似矩阵为其中，i≤N，j≤N。

三、将所述每一帧音频帧的相似矩阵中与主对角线重复次数最多的相似矩阵所对应的音频帧，按照时间顺序，确定为多媒体文件的副歌起始位置和副歌结束位置。

一般而言，副歌是音频中重复最多的片段，显示在相似矩阵就是与主对角线重复次数最多的相似矩阵所对应的音频帧，因此，可以通过相似矩阵中与主对角线重复次数，来确定多媒体文件的副歌起始位置和副歌结束位置。

副歌路径的确定可通过以下步骤实现：

(1)利用主对角线元素将相似矩阵S归一化到[01]之间，相似矩阵S中小于门限T的值设为一个负的惩罚因子N；其中，惩罚因子N设为小于-1的负数，且门限T的选择需保证：相似矩阵S小于门限T的元素的个数控制在总元素个数的75％以内；

(2)由于相似矩阵S是个方阵，那么对某个路径p而言，投影在相似矩阵S上有行和列两个维度；在这里，假定X(x_start，x_end)为路径p在行维度上的位置坐标，Y(y_start，y_end)为路径p在列维度上的位置坐标；那么在给定X(x_start，x_end)的情况下，有多个对应的Y_i(y_start，y_end)，其中i＝0,1,...,L，L为Y_i的个数；

定义以x_start为起点、x_end为终点的路径得分为

P_score(x_start，x_end)＝max(sum(S(X,Y_i)))，其中i＝0,1,...,L；

(3)根据步骤计算的P_score(x_start，x_end)，副歌路径path(t_start,t_end)可通过下式估算出：

path(t_start,t_end)＝arg max(P_score(x_start，x_end))

即t_start为副歌的起始位置，t_end为副歌的结束位置。

进一步地，为了增强相似矩阵的副歌路径，还可以采用以下一种或几种方式：

(1)直接沿着相似矩阵S进行主对角线平滑滤波。

(2)根据音频节拍波动，对相似矩阵S进行平滑滤波。

(3)门限处理：幅值越大的路径，赋予权重越大。

在实际场景中，为了避免寻找到时间过短的非副歌路径，导致误判，需要对副歌路径指定一定的范围，例如最短路径长度为15s，最长路径为30s。在寻找到副歌路径后，利用上述范围，对路径进行筛选，从而排除过长或过短的路径。

对于服务器来说，可以在获取到多媒体文件后，对多媒体文件的结构信息进行提取，并将多媒体文件或多媒体文件标识与该结构信息对应存储，从而使得在后续的试播过程中，可以响应于用户的试播请求，从用于存储结构信息的数据库中，获取到对应的结构信息，以为用户提供便捷的试播服务，当然，该获取结构信息的过程，也可以在接收到试播请求后实时获取，本发明实施例对此不作限定。

204、接收试播请求，所述试播请求携带待试播的多媒体文件标识。

该试播请求可以由用户在使用多媒体服务器时触发，如，用户在某一多媒体展示界面上，对某一首歌曲进行了点击操作，则触发对该歌曲的试播请求。

205、根据所述多媒体文件标识，获取多媒体文件。

通常多媒体服务器将多媒体文件标识与多媒体文件对应存储，从而使得在接收到多媒体文件标识时，可以获取到多媒体文件。在本发明实施例中，在获取到多媒体文件的同时，还可以获取到多媒体文件标识所对应的多媒体文件的结构信息，在此对该过程不作赘述。当然，该过程还可以是用户设备下载多媒体文件以及结构信息的过程，通过下载多媒体文件以及结构信息，使得用户设备可以在离线状态仍然基于不同的控制操作实现在试播时间点之间的跳转。

206、根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点。

具体地，该多媒体服务器在提供试播时间点时，可以是提供多个按键，每个按键对应于一个试播时间点，也可以是不提供按键，而是根据用户的实际操作获取下一个或上一个试播时间点。

如，以多媒体文件的播放进度用进度条展示为例进行说明，该步骤206可以包括：根据所述多媒体文件的结构信息以及所述多媒体文件的进度条总长度，确定所述结构信息中不同信息所对应的进度条位置；根据所述结构信息中不同信息所对应的进度条位置，在所述多媒体文件的进度条上显示所述结构信息中不同信息对应的试播时间点。

在该过程中，可以基于结构信息中的人声起始位置、副歌起始位置、副歌结束位置和人声结束位置分别生成对应的试播时间点，从而使得用户可以从上述试播时间点中任选一个作为当前试播的起始点，并基于用户的操作，在试播时间点中进行切换。如，用户在最开始可以选择副歌起始位置，然后再选择人声起始位置。

在实际场景中，如何获取用户所选择的试播时间点可以通过多种不同的方式，下面逐一进行说明。

第一种方式、当检测到通过外设设备对所述多个试播时间点中任一个试播时间点的选择操作时，获取被选择的试播时间点。

该外设设备可以是鼠标，采用鼠标的双击或单击操作，来作为试播时间点的选择操作，如，用户通过鼠标对任一个试播时间点进行单击操作，该被单击的试播时间点即为用户所获取的试播时间点。

第二种方、当检测到用户对指定按键或指定按键组合的点击操作，获取指定按键或指定按键组合对应的试播时间点。

该指定按键可以是虚拟按键也可以是实体按键，不同的虚拟按键(或实体按键)可以对应于不同的试播时间点，不同的按键组合也可以对应于不同的试播时间点，因此，通过对指定按键或指定按键组合的点击操作，也可以快捷的获取到用户想要开始播放的试播时间点。

第三种方式、当检测到指定摇晃操作时，获取所述指定摇晃操作对应的试播时间点。

而对于具有摇一摇功能的多媒体播放来说，利用指定摇晃操作，也可以实现试播时间点的选择，如当检测到一次摇晃操作时，获取下一个试播时间点，当检测到两次摇晃操作时，获取上一个试播时间点。本发明实施例对指定摇晃操作的具体形式不作限定，可以是不同的摇晃次数，也可以是不同的摇晃方向。

第四种方式、当检测到指定触屏操作时，获取所述指定触屏操作对应的试播时间点。

该指定触屏操作可以与上述第二种方式中的虚拟按键同理，当然，该指定触屏操作还可以是指滑动操作，如不同方向的滑动操作可以对应于不同的试播时间点，当检测到向左滑动的滑动操作时，可以获取下一个试播时间点，当检测到向右滑动的滑动操作时，可以获取上一个试播时间点，本发明实施例对指定滑动操作与试播时间点之间的对应关系不作限定，同样，也不限定指定滑动操作的具体形式。

第五种方式、当接收到指定音频指令时，获取所述指定音频指令对应的试播时间点。

对于具有麦克风的用户设备来说，可以通过语音等方式发出试播时间点的切换或选择指令，因此，服务器上可以存储有相应的音频指令，不同音频指令可以对应于不同的试播时间点，当然，不同音频指令还可以对应于不同的切换，如，“上一个”可以对应于切换至上一个试播时间点，本发明实施例对此不作赘述。

第六种方式、当接收到指定传感器的指定传感信号时，获取所述定传感信号对应的试播时间点。

对于配置有传感器的用户设备来说，可以通过敲击、拍打等方式触发指定传感器的指定传感信号，因此，服务器上可以存储有相应的指定传感信号，不同音频指令可以对应于不同的试播时间点，当然，不同传感信号还可以对应于不同的切换，如，在左侧敲击一次可以对应于切换至上一个试播时间点，本发明实施例对此不作赘述。

上述几种方式可以同时提供给用户，使得用户随意选择控制方式，大大提高了用户设备本身的利用率，其应用于常见的移动端(例如手机、pad等)、PC端、笔记本、音响等音频播放装置，也提高了该多媒体文件试播过程的灵活性。

207、以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。

通过上述多种过程，使得服务器能够根据用户的反馈和控制，自动将多媒体文件切换到对应的播放位置，实现音频的快速试听和选择，且本发明实施例提供了多种操作方式，使得用户可以利用鼠标、键盘或传感器等，获取到用户的反馈和控制，实用性强，操作方式灵活多变。

本发明实施例提供的方法，通过基于多媒体文件的结构信息，为用户提供对应的试播时间点，使得用户能够灵活的试听最能表征多媒体文件实际内容的部分，而避免了由于断章取义而造成的时间浪费以及流量浪费，提高了获取多媒体文件过程中的命中率，从而提高多媒体文件的获取效率。进一步地，本发明实施例中所提供的结构信息获取过程，能够准确的提取多媒体文件中的人声以及伴奏相关位置，大大提高了结构信息的准确性。

图3是本发明实施例提供的一种多媒体文件的试播装置的结构示意图。参见图3，所述装置包括：

接收模块301，用于接收试播请求，所述试播请求携带待试播的多媒体文件标识；

获取模块302，用于根据所述多媒体文件标识，获取多媒体文件；

提供模块303，用于根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点；

播放模块304，用于以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。

可选地，所述提供模块用于根据所述多媒体文件的结构信息以及所述多媒体文件的进度条总长度，确定所述结构信息中不同信息所对应的进度条位置；根据所述结构信息中不同信息所对应的进度条位置，在所述多媒体文件的进度条上显示所述结构信息中不同信息对应的试播时间点。

可选地，所述装置还包括：获取模块，所述获取模块用于：

可选地，所述装置还包括：

分离模块，用于对所述多媒体文件进行人声和伴奏分离处理，得到所述多媒体文件的人声音频和伴奏音频；

人声处理模块，用于基于所述多媒体文件的人声音频，得到所述多媒体文件的人声起始位置和人声结束位置；

伴奏处理模块，用于基于所述多媒体文件的伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置。

可选地，所述人声处理模块用于对所述人声音频进行时间分帧处理，形成多个音频帧；基于所述多个音频帧，获取每一帧音频帧的频谱；基于所述每一帧音频帧的频谱和第一分块时长，从所述多个音频帧中提取第一数目的样本；基于第二分块时长和所述第一数目的样本，获取所述人声音频中的人声起始位置和人声结束位置。

可选地，所述人声处理模块用于以第一分块时长对所述多个音频帧进行分块，计算分块后的频谱统计特征，得到第二数目的频谱统计特征；对所述第二数目的频谱统计特征进行人声和伴奏分类；根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本

可选地，所述人声处理模块用于以第二分块时长对所述第一数目的样本进行分块，计算分块后的频谱统计特征，得到第三数目的频谱统计特征；对所述第三数目的频谱统计特征进行人声和伴奏分类；根据当前分类所确定的人声所在分块，确定人声起始位置和人声结束位置。

可选地，所述伴奏处理模块用于将所述伴奏音频分解成第四数目的频段，将每个频段对应于所述第四数目的音符中的一个音符，得到频段和音符之间的对应关系；对所述伴奏音频进行时间分帧处理，形成多个音频帧；基于所述多个音频帧，获取每一帧音频帧的频谱；根据所述每一帧音频帧的频谱、所述频段和音符之间的对应关系以及音符和色度之间的映射关系，获取所述每一帧音频帧所对应的色度向量；基于所述每一帧音频帧所对应的色度向量，获取所述多媒体文件的副歌起始位置和副歌结束位置。

可选地，所述伴奏处理模块用于对所述每一帧音频帧所对应的色度向量进行幅度归一化，得到所述每一帧音频帧的归一化向量；基于所述每一帧音频帧的归一化向量，获取所述每一帧音频帧的相似矩阵；将所述每一帧音频帧的相似矩阵中与主对角线重复次数最多的相似矩阵所对应的音频帧，按照时间顺序，确定为述多媒体文件的副歌起始位置和副歌结束位置。

需要说明的是：上述实施例提供的多媒体文件的试播装置在多媒体文件的试播时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体文件的试播装置与多媒体文件的试播方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是根据一示例性实施例示出的一种多媒体文件的试播装置400的框图。例如，装置400可以被提供为一服务器。参照图4，装置400包括处理组件422，其进一步包括一个或多个处理器，以及由存储器432所代表的存储器资源，用于存储可由处理部件422的执行的指令，例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件422被配置为执行指令，以执行上述多媒体文件的试播方法。

装置400还可以包括一个电源组件426被配置为执行装置400的电源管理，一个有线或无线网络接口450被配置为将装置400连接到网络，和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体文件的试播方法，其特征在于，所述方法包括：

对多媒体文件进行人声和伴奏分离处理，得到所述多媒体文件的人声音频和伴奏音频；

基于所述多媒体文件的伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置；

根据所述多媒体文件标识，获取所述多媒体文件；

根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点，所述多媒体文件的结构信息包括所述人声起始位置、所述副歌起始位置、所述副歌结束位置和所述人声结束位置；

以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。

2.根据权利要求1所述的方法，其特征在于，根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，基于所述多媒体文件的人声音频，得到所述多媒体文件的人声起始位置和人声结束位置包括：

对所述人声音频进行时间分帧处理，形成多个音频帧；

基于所述多个音频帧，获取每一帧音频帧的频谱；

基于所述每一帧音频帧的频谱和第一分块时长，获取第一数目的样本；

5.根据权利要求4所述的方法，其特征在于，基于所述每一帧音频帧的频谱和第一分块时长，获取第一数目的样本包括：

对所述第二数目的频谱统计特征进行人声和伴奏分类；

根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本。

6.根据权利要求4所述的方法，其特征在于，基于第二分块时长和所述第一数目的样本，获取所述人声音频中的人声起始位置和人声结束位置包括：

对所述第三数目的频谱统计特征进行人声和伴奏分类；

7.根据权利要求1所述的方法，其特征在于，基于所述伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置包括：

对所述伴奏音频进行时间分帧处理，形成多个音频帧；

基于所述多个音频帧，获取每一帧音频帧的频谱；

8.根据权利要求7所述的方法，其特征在于，基于所述每一帧音频帧所对应的色度向量，获取所述多媒体文件的副歌起始位置和副歌结束位置包括：

9.一种多媒体文件的试播装置，其特征在于，所述装置包括：

分离模块，用于对多媒体文件进行人声和伴奏分离处理，得到所述多媒体文件的人声音频和伴奏音频；

伴奏处理模块，用于基于所述多媒体文件的伴奏音频，得到所述多媒体文件的副歌起始位置和副歌结束位置；

接收模块，用于接收试播请求，所述试播请求携带待试播的多媒体文件标识；

获取模块，用于根据所述多媒体文件标识，获取所述多媒体文件；

提供模块，用于根据所述多媒体文件的结构信息，为用户提供所述多媒体文件的多个试播时间点，所述多媒体文件的结构信息包括所述人声起始位置、所述副歌起始位置、所述副歌结束位置和所述人声结束位置；

播放模块，用于以用户所选择的试播时间点为播放起点，为所述用户播放所述多媒体文件。

10.根据权利要求9所述的装置，其特征在于，所述提供模块用于根据所述多媒体文件的结构信息以及所述多媒体文件的进度条总长度，确定所述结构信息中不同信息所对应的进度条位置；根据所述结构信息中不同信息所对应的进度条位置，在所述多媒体文件的进度条上显示所述结构信息中不同信息对应的试播时间点。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：获取模块，所述获取模块用于：

当接收到指定音频指令时，获取所述指定音频指令对应的试播时间点；

12.根据权利要求9所述的装置，其特征在于，所述人声处理模块用于对所述人声音频进行时间分帧处理，形成多个音频帧；基于所述多个音频帧，获取每一帧音频帧的频谱；基于所述每一帧音频帧的频谱和第一分块时长，从所述多个音频帧中提取第一数目的样本；基于第二分块时长和所述第一数目的样本，获取所述人声音频中的人声起始位置和人声结束位置。

13.根据权利要求12所述的装置，其特征在于，所述人声处理模块用于

以第一分块时长对所述多个音频帧进行分块，计算分块后的频谱统计特征，得到第二数目的频谱统计特征；对所述第二数目的频谱统计特征进行人声和伴奏分类；根据当前分类所确定的人声所在分块，从分块所得到的多个音频块中提取与所述人声所在分块对应的第一数目的样本。

14.根据权利要求12所述的装置，其特征在于，所述人声处理模块用于以第二分块时长对所述第一数目的样本进行分块，计算分块后的频谱统计特征，得到第三数目的频谱统计特征；对所述第三数目的频谱统计特征进行人声和伴奏分类；根据当前分类所确定的人声所在分块，确定人声起始位置和人声结束位置。

15.根据权利要求9所述的装置，其特征在于，所述伴奏处理模块用于将所述伴奏音频分解成第四数目的频段，将每个频段对应于所述第四数目的音符中的一个音符，得到频段和音符之间的对应关系；对所述伴奏音频进行时间分帧处理，形成多个音频帧；基于所述多个音频帧，获取每一帧音频帧的频谱；根据所述每一帧音频帧的频谱、所述频段和音符之间的对应关系以及音符和色度之间的映射关系，获取所述每一帧音频帧所对应的色度向量；基于所述每一帧音频帧所对应的色度向量，获取所述多媒体文件的副歌起始位置和副歌结束位置。

16.根据权利要求15所述的装置，其特征在于，所述伴奏处理模块用于对所述每一帧音频帧所对应的色度向量进行幅度归一化，得到所述每一帧音频帧的归一化向量；基于所述每一帧音频帧的归一化向量，获取所述每一帧音频帧的相似矩阵；将所述每一帧音频帧的相似矩阵中与主对角线重复次数最多的相似矩阵所对应的音频帧，按照时间顺序，确定为述多媒体文件的副歌起始位置和副歌结束位置。