CN105161116A

CN105161116A - 多媒体文件高潮片段的确定方法及装置

Info

Publication number: CN105161116A
Application number: CN201510623805.6A
Authority: CN
Inventors: 刘翠; 张超钢; 陈传艺
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2015-12-16
Anticipated expiration: 2035-09-25
Also published as: CN105161116B

Abstract

本发明公开了一种多媒体文件高潮片段的确定方法及装置，属于网络技术领域。所述方法包括：本发明通过获取多媒体文件中的音频信号；获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度；根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵；根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段；对所述多个候选高潮片段；根据打分结果，确定所述多媒体文件的高潮片段。采用这样的方法，以色度距离矩阵确定每个音频帧之间的相关性，进而确定多个候选高潮片段，从而提高了多媒体文件高潮片段确定的准确性。

Description

多媒体文件高潮片段的确定方法及装置

技术领域

本发明涉及网络技术领域，特别涉及一种多媒体文件高潮片段的确定方法及装置。

背景技术

随着网络技术的普及，网络可以为用户提供了足不出户即可获取到的视听享受，如，服务提供商提供了音乐平台等多媒体平台，以为用户提供多媒体搜索、播放、下载和分享等功能。由于多媒体平台上提供了海量的多媒体文件，那么，用户为了找到自己喜欢的多媒体文件，可能需要对多媒体文件进行试听，试听过程往往会受到网速的限制，且，由于多媒体文件数量较多，试听效率较低。为了解决这一问题，多媒体平台上提供了对多媒体文件高潮部分的试听方法，以使得用户能够通过播放高潮部分，收听到多媒体文件的最有代表性的部分。

为了进行上述试听，需要对多媒体文件的高潮部分进行确定，在现有技术中，该确定方式包括以下两种：

第一种方式是基于多媒体文件的歌词信息进行确定。具体方法如下：通过对大量多媒体文件的歌词信息进行统计与分析，确定出歌词语速、字数等特征，计算出多媒体文件中歌词重复出现的片段，最终确定出歌曲的高潮片段。

第二种方式是通过多媒体文件的音频内容进行确定。具体方法如下：先将多媒体数据流划分成一系列定长的多媒体片段，获取每个多媒体片段的短时能量和所有多媒体片段的平均能量，再把所有多媒体片段按时间先后分组，每组所包含的多媒体片段数相同，再通过计算多媒体数据中每个多媒体片段组的短时能量阈值穿越频率，得到整个多媒体数据流的短时能量阈值穿越频率曲线，二值化该短时能量阈值穿越频率曲线后，曲线中每个连续的“1”值部分对应的就是该多媒体信息流中的相对高能量区域，即为可能的候选片段。最后在候选片段中选择具有合适长度且平均短时能量最高的片段作为高潮片段。

但是，在利用第一种方式进行确定时，对于一些没有歌词的多媒体文件来说，无法进行高潮部分的确定，也即是，该方法的应用局限性较大。利用第二种方式进行确定时，对于现场类型的音乐等多媒体文件，录制过程中若歌手说话或移动，都会导致录制声音会发生忽大忽小的变化，然而第二种方式无法准确识别出这种声音变化，从而对歌曲高潮片段的确定准确性较差。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种多媒体文件高潮片段的确定方法。所述技术方案如下：

一方面，提供了一种多媒体文件高潮片段的确定方法，所述方法包括：

获取多媒体文件中的音频信号；

获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度；

根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵；

根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段；

对所述多个候选高潮片段进行打分；

至少根据打分结果，确定所述多媒体文件的高潮片段。

在本发明的一个实施例中，获取所述音频信号的色度特征矩阵之前，所述方法还包括：

判断所述音频信号的时长是否大于预设时长，若大于，则执行获取所述音频信号的色度特征矩阵的步骤，若不大于，则结束。

在本发明一个实施例中，所述根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵包括：

根据公式：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

公式中，B表示所述色度距离矩阵，A表示所述色度特征矩阵，i和j表示所述色度特征矩阵中的音频帧的标号，t表示所述色度特征矩阵中的色度特征维度的标号，n表示所述色度特征矩阵中最大的色度特征维度标号。

在本发明一个实施例中，所述根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段包括：

将每一条子对角线上符合预设标准的元素置为0，其他元素保持不变；

计算所述每一条对角线上由所述其他元素组成的至少一个连续片段的平均值；

将所述至少一个连续片段中平均值最大的片段，获取为候选高潮片段。

在本发明一个实施例中，所述至少根据打分结果，确定所述多媒体文件的高潮片段包括：

将所述多个候选高潮片段中分数最高的候选片段确定为最佳候选片段；

根据歌词确定多个音频片段的起点时间；

将所述多个音频片段的起点时间与所述最佳候选片段的起点时间进行比对；

将所述多个音频片段的起点时间中最接近所述最佳候选片段的起点时间确定为高潮片段的起点时间。

另一方面，提供了一种多媒体文件高潮片段的确定装置，所述装置包括：

音频信号获取模块，用于获取多媒体文件中的音频信号；

色度特征矩阵获取模块，用于获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度；

色度距离矩阵获取模块，用于根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵；

候选片段确定模块，用于根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段；

打分模块，用于对所述多个候选高潮片段进行打分；

高潮片段确定模块，用于至少根据打分结果，确定所述多媒体文件的高潮片段。

在本发明一个实施例中，所述装置还包括：

判断模块，用于判断所述音频信号的时长是否大于预设时长，若大于，则执行获取所述音频信号的色度特征矩阵的步骤，若不大于，则结束。

在本发明一个实施例中，所述色度距离矩阵获取模块用于：

根据公式：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

在本发明一个实施例中，所述候选片段确定模块用于：

在本发明一个实施例中，所述高潮片段确定模块用于：

根据歌词确定多个音频片段的起点时间；

本发明实施例提供的技术方案带来的有益效果是：

通过获取多媒体文件中的音频信号；获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度；根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵；根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段；对所述多个候选高潮片段进行打分；至少根据打分结果，确定所述多媒体文件的高潮片段。采用这样的方法，以色度距离矩阵确定每个音频帧之间的相关性，进而确定多个候选高潮片段，从而提高了多媒体文件高潮片段确定的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体文件中高潮片段的确定方法流程图。

图2是本发明实施例提供的一种多媒体文件中高潮片段的确定方法流程图。

图3是本发明实施例提供的一种色度距离矩阵的示意图；

图4是本发明实施例提供的一种多媒体文件高潮片段的确定装置的框图。

图5是本发明实施例提供的一种多媒体文件高潮片段的确定装置500的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种多媒体文件中高潮片段的确定方法流程图。参见图1，所述方法包括：

101、获取多媒体文件中的音频信号。

102、获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度。

103、根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵。

104、根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段。

105、对所述多个候选高潮片段进行打分。

106、至少根据打分结果，确定所述多媒体文件的高潮片段。

可选地，获取所述音频信号的色度特征矩阵之前，所述方法还包括：

可选地，所述根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵包括：

根据公式：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

可选地，所述根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段包括：

可选地，所述至少根据打分结果，确定所述多媒体文件的高潮片段包括：

根据歌词确定多个音频片段的起点时间；

将所述多个音频片段的起点时间中最接近所述最佳候选片段的起点时间确定为高潮片段的起点时间。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种多媒体文件中高潮片段的确定方法流程图。参见图2，所述方法包括：

201、获取多媒体文件中的音频信号。

该音频信号为待提取高潮片段的音频信号。

由于通常的音频信号的采样率是44.1kHz，如果直接进行处理的话，数据量会较大，增加计算复杂度。因此，为了提高运算速度，本发明实施例以指定的采样率对该多媒体文件中的音频信号进行重采样。优选地，该指定的采样率可以定为8kHz。需要说明的是，该指定的采样率可以根据实际情况进行设定，不限于8k，本发明对该待提取高潮片段的音频信号采样率不作具体限定。

本发明认识到，为了方便用户的试听，对于时长越长的音频信号越需要进行高潮片段提取，而对于时长较短的音频信号可以直接试听，进而无需进行高潮片段提取。基于这样的认识，在本发明实施例中，判断该音频信号的时长是否大于预设值。如果该音频信号的时长大于该预设值，则进行高潮片段提取；如果该音频信号的时长不大于该预设值，则不进行高潮片段提取。优选地，该预设值为40秒。需要说明的是，该预设可以根据实际情况进行设定，不限于40秒，本发明对该需要进行高潮提取的音频信号的时长不作具体限定。

202、获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度。

该色度特征是指音频信号在多个音级上的分布特征。在本发明实施例中，该多个音级为将一个八度按照十二个平均律划分的音级，该每个音级表示一个频率。例如，该十二个音级可以为C、C#、D、D#、E、F、F#、G、G#、A、A#、B，其中C音表示n*256Hz的频率。需要说明的是，在实际应用中，该多个音级还可以按照乐理中其他的规律进行划分，例如按照七声音阶划分，本发明对该音级的划分规律不作具体限定。

该色度特征可以用色度特征向量表示，具体地，上述每个音级可以定义为该色度特征向量的一个维度。在本发明实施例中，通过提取音频文件每个音频帧的频谱特征，根据该频谱特征确定该每个音频帧的色度特征向量。对该每音频帧进行标号，进而该每个音频帧的色度特征向量组成了所述色度特征矩阵。例如：对于色度特征矩阵为A(x，y)形式的情况，则x为音频帧的标号，y为色度特征维度的标号。

优选地，由于多媒体文件的音频信号在结尾处多为空白，为了减少无意义的计算，本发明实施例中，将上述色度特征矩阵中末尾处音频帧对应的向量删除，形成新的色度特征矩阵，基于该新的色度特征矩阵进行以下步骤的处理。

203、根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵。

本发明认识到，多媒体文件的高潮片段通常为重复的音频信号片段，所以该歌曲高潮片段可以通过每帧音频信号之间相似性确定。在本发明实施例中，以每帧音频信号的色度距离的互相关函数表示该每帧音频之间的相似性，进而确定该音频信号的高潮片段。

具体地，根据公式一：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

204、将每一条子对角线上符合预设标准的元素置为0，其他元素保持不变。

该预设标准可以是指该元素的数值低于该条对角线上所有矩阵元素的平均值与增益门限的乘积。该步骤204具体可以包括：将每一条子对角线上的低于其gain*diag(k)的元素置为0，其余元素保持不变。

其中，gain为增益门限，一般可设为[0.1，1]之间的常数，diag(k)为第k条子对角线上所有矩阵元素的平均值，

d i a g (k) = \frac{1}{l e n - k} Σ_{t = 1}^{l e n - k} B (i + k, i)

在公式中，len为音频帧的总数量，i表示音频帧的标号。

205、计算所述每一条对角线上由所述其他元素组成的至少一个连续片段的平均值，将所述至少一个连续片段中平均值最大的片段，获取为候选高潮片段。

进一步地，在步骤205之前，还可以从至少一个连续片段中删除长度小于一定帧数的片段，以减少后续计算量。例如，每个子对角线上都出现N块连续的片段，并计算这N块片段的平均值mean(n),n＝1,2,...,N。这N块片段中，删除长度小于某个帧数的片段(例如，150帧或其他帧数)，假设剩下M块片段；在剩下的这M块子对角线片段中选择平均值mean(n)最大的片段，作为高潮提取的候选子片段。

如图3所示，该图3中所示的矩阵中表示了经过了步骤204的转换后的各个元素，片段1至片段9均为元素不为0的连续片段，其中，片段1的长度为120帧，而平均值mean(1)＝150，片段2的长度为160帧，平均值mean(2)＝40，片段3的长度为200帧，而平均值mean(3)＝90，则根据上述选择标准，可以选中片段3为候选子片段。

优选地，为了方便后续处理，该候选子对角线包含的每个矩阵元素可以向量表示。在本发明实施例中，该对角线向量可以为二值化的向量。具体地，可以将所述候选子对角线上的每个元素与预设值进行比较，如果大于该预设值则将该元素设置为1，如果不大于该元素则设置为-1，该预设值可以根据历史经验进行设定，本发明对该预设值的具体数值不作限定。

205、根据所述候选子对角线，从所述音频信号中确定多个候选高潮片段。

将所述候选子对角线对应的音频帧确定为候选高潮片段的起点。对于具有多个候选子对角线的情况，将每个候选子对角线对应的音频帧确定为每个候选高潮片段的起点。

206、对所述多个候选高潮片段进行打分。

为了准确的确定多媒体文件的高潮片段，可以根据相应的指标对上述多个候选高潮片进行打分。本发明实施例至少提供以下三个标准：

1、高潮片段的起点距离歌曲1/4处的比例。

具体地，根据公式三：

s1＝1-abs(E(i,2)+0.5*(E(i,3)-E(i,1))-round(NM/4))/(round(NM/4))；

确定该高潮片段的起点距离歌曲1/4处的比例，公式中，E(i,1)表示i个高潮片段的第1起点，E(i,2),E(i,3)同理类推，i表示所有高潮片段个数，NM是音频帧的总数量。

2、高潮片段的起点距离歌曲3/4处的比例。

具体地，根据公式四：

s2＝1-abs(E(i,1)+0.5*(E(i,3)-E(i,1))-round(3*NM/4))/(round(NM/4))

3、高潮片段中的音频信号强度。

将多个高潮片段中信号强度越高的音频信号确定为得分越高的高潮片段。

需要说明的是，在实际应用中，还可以根据其他的标准进行打分，例如，根据色度特征的距离比进行打分，本发明对其他的打分标准不作限定。

优选地，将多个打分标准的打分结果进行加权处理，获得最终的打分结果。

207、至少根据打分结果，确定所述多媒体文件的高潮片段。

将所述多个候选高潮片段中分数最高的候选片段确定为最佳候选片段，此时，可以将该最佳候选片段确定为所述多媒体文件的高潮片段。

优选地，为了更准确的多媒体文件的高潮片段，本发明实施例提供一种结合歌词确定高潮片段的方法，具体包括：

根据歌词确定多个音频片段的起点时间，具体地，将每句歌词的起点时间确定为多个音频片段的起点时间；

将所述多个音频片段的起点时间与所述最佳候选片段的起点时间进行比对；将所述多个音频片段的起点时间中最接近所述最佳候选片段的起点时间确定为高潮片段的起点时间。例如，对于最佳候选片段的起点时间为第1300帧的情况，将第十句歌词对应的音频片段的起点时间为1250帧，则将该音频片段的起点时间1250帧确定为高潮片段的起点时间。

进一步地，在确定高潮片段之后，本发明实施例提供的方法还包括将该确定的高潮片段设置为用户试听的片段，使得在用户触发试听指令时，向该用户播放该高潮片段。采用这样的方法，使得用户可以方便的对多媒体文件进行试听，进而能够大大提高在海量数据中寻找自己感兴趣多媒体文件的效率，且减少了用户的流量消耗以及耗时。

需要说明的是，本发明实施例中仅以每个音频帧的色度特征进行分析，进而确定高潮片段，而在实际应用中，可以提取该音频信号中的节拍特征，并获取每个节拍内多个音频帧的色度特征的平均值，将该平均值确定为该节拍的色度特征，进而以每个节拍的色度特征进行分析，进而确定高潮片段，具体确定过程与上述图2所示实施例同理，在此不再赘述。

本发明实施例通过获取多媒体文件中的音频信号；获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度；根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵；根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段；对所述多个候选高潮片段进行打分；至少根据打分结果，确定所述多媒体文件的高潮片段。采用这样的方法，以色度距离矩阵确定每个音频帧之间的相关性，结合音频信号幅度、节拍、歌词时间等信息，进而确定多个候选高潮片段，从而提高了多媒体文件高潮片段确定的准确性。

图4是本发明实施例提供的一种多媒体文件高潮片段的确定装置的框图。参见图4，所述装置包括：

音频信号获取模块401，用于获取多媒体文件中的音频信号；

色度特征矩阵获取模块402，用于获取所述音频信号的色度特征矩阵，所述色度特征矩阵的每个元素用于表示每个音频帧上每个色度特征维度的信号强度；

色度距离矩阵获取模块403，用于根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵；

候选片段确定模块404，用于根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段；

打分模块405，用于对所述多个候选高潮片段进行打分；

高潮片段确定模块406，用于至少根据打分结果，确定所述多媒体文件的高潮片段。

在本发明一个实施例中，所述装置还包括：

在本发明一个实施例中，所述色度距离矩阵获取模块用于：

根据公式：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

在本发明一个实施例中，所述候选片段确定模块用于：

在本发明一个实施例中，所述高潮片段确定模块用于：

根据歌词确定多个音频片段的起点时间；

图5是本发明实施例提供的一种多媒体文件高潮片段的确定装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理部件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述图1或图2所示的多媒体文件高潮片段的确定方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如WindowsServer^TM，MacOSX^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体文件高潮片段的确定方法，其特征在于，所述方法包括：

获取多媒体文件中的音频信号；

对所述多个候选高潮片段进行打分；

至少根据打分结果，确定所述多媒体文件的高潮片段。

2.根据权利要求1所述的方法，其特征在于，获取所述音频信号的色度特征矩阵之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述色度特征矩阵中每个音频帧之间的互相关函数，获取色度距离矩阵包括：

根据公式一：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

4.根据权利要求1所述的方法，其特征在于，所述根据所述色度距离矩阵，从所述音频信号中确定多个候选高潮片段包括：

5.根据权利要求1所述的方法，其特征在于，所述至少根据打分结果，确定所述多媒体文件的高潮片段包括：

根据歌词确定多个音频片段的起点时间；

6.一种多媒体文件高潮片段的确定装置，其特征在于，所述装置包括：

音频信号获取模块，用于获取多媒体文件中的音频信号；

打分模块，用于对所述多个候选高潮片段进行打分；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述色度距离矩阵获取模块用于：

根据公式：

B (i, j) = Σ (\frac{1}{n} Σ_{t = 0}^{n - 1} A (i, t) * A (j, t))

获取所述色度距离矩阵；

9.根据权利要求6所述的装置，其特征在于，所述候选片段确定模块用于：

10.根据权利要求6所述的装置，其特征在于，所述高潮片段确定模块用于：

根据歌词确定多个音频片段的起点时间；