CN106782601A

CN106782601A - 一种多媒体数据处理方法及其装置

Info

Publication number: CN106782601A
Application number: CN201611094263.9A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-12-01
Filing date: 2016-12-01
Publication date: 2017-05-31
Anticipated expiration: 2036-12-01
Also published as: CN106782601B

Abstract

本发明实施例公开一种多媒体数据处理方法及其装置，其中方法包括如下步骤：获取多媒体数据对应的多个音频文件样本，并生成各音频文件样本分别对应的目标音频能量矩阵；各音频文件样本中的帧数相同；每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值；对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，所述目标均值化矩阵中的各元素为各帧的音频能量平均值；将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻。本发明实施例可以通过多个音频文件样本完成对多媒体数据的副歌的准确定位。

Description

一种多媒体数据处理方法及其装置

技术领域

本发明涉及多媒体技术领域，尤其涉及一种多媒体数据处理方法及其装置。

背景技术

歌曲一般由一定结构性的段落如前奏，两段主歌，一段副歌，过门音乐，重复一次的副歌和主歌，以及结尾音乐顺序地连接而成的。副歌，通常是我们口头所说的音乐的高潮部分，作为一首歌曲的标志，常常可应用于音乐试听、手机彩铃等等。在一些歌曲处理过程中，也经常需要对副歌进行分析和处理，比如确定歌曲基调，音乐搜索，乐曲识别等等。

由于歌曲中信号的复杂性和不同歌曲之间的差异性，为副歌定位带来了很多困难。现有的副歌检测方法主要包括以下方式：歌词或乐谱检测法，通过对歌词的相似性进行检测或根据乐谱特征进行检测，该方法对歌词或乐谱依赖性较高且准确度不高；音频特征检测法，例如通过重复片段或节拍等规律来检测副歌的位置，只能适用于特征规律的歌曲，难以满足较为复杂性的歌曲的副歌定位。因此，如何准确地对歌曲的副歌进行定位，成为当前亟需解决的关键问题。

发明内容

本发明实施例提供一种多媒体数据处理方法及其装置，可以完成对副歌的准确定位。

本发明实施例第一方面提供了一种多媒体数据处理方法，可包括：

获取多媒体数据对应的多个音频文件样本，并生成各音频文件样本分别对应的目标音频能量矩阵；各音频文件样本中的帧数相同；每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值；

对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，所述目标均值化矩阵中的各元素为各帧的音频能量平均值；

将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻。

本发明实施例第二方面提供了一种多媒体数据处理装置，可包括：

样本获取单元，用于获取多媒体数据对应的多个音频文件样本；

矩阵生成单元，生成各音频文件样本分别对应的目标音频能量矩阵；各音频文件样本中的帧数相同；每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值；

均值化处理单元，用于对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，所述目标均值化矩阵中的各元素为各帧的音频能量平均值；

帧确定单元，用于将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧；

副歌起始单元，用于根据所述目标帧确定所述多媒体数据的副歌起始时刻。

在本发明实施例中，可通过获取多媒体数据对应的多个音频文件样本，并生成各音频文件样本分别对应的目标音频能量矩阵，然后对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，并将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻，完成对多媒体数据的副歌的准确定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体数据处理方法的流程示意图；

图2是本发明实施例提供的另一种多媒体数据处理方法的流程示意图；

图3是本发明实施例提供的一种多媒体数据处理装置的结构示意图；

图4是本发明实施例提供的另一种多媒体数据处理装置的结构示意图；

图5是本发明实施例提供的矩阵生成单元的结构示意图；

图6是本发明实施例提供的副歌起始单元的结构示意图；

图7是本发明实施例提供的又一种多媒体数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合附图1-附图2，对本发明实施例提供的多媒体数据处理方法进行详细介绍。

请参见图1，为本发明实施例提供的一种多媒体数据处理方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取多媒体数据对应的多个音频文件样本，并生成各音频文件样本分别对应的目标音频能量矩阵。

具体的，由于当前一些歌曲类应用软件较为普及，用户可以通过这些软件演唱歌曲并进行存储或处理，因此这些应用的应用数据库中，会存储有大量的用户演唱数据。本发明实施例可以基于上述数据进行副歌定位。如通过在数据库中获取任意选取一首歌曲(多媒体数据)中的多个用户演唱的音频文件，或者是任意一首歌曲的某个用户演唱的多个音频文件，作为该多媒体数据对应的多个音频文件样本。

本发明实施例中，第n个音频文件样本可采用Sn(n＝1,2,3.....N)来表示，假设音频数据长度为L(标准长度，可以以原唱歌曲长度为准)，设定帧长为FL，确定音频数据帧个数M(M＝L/FL，当样本Sn的实际数据长度L’≠L时，可以统一补零或截断，以使L’＝L),各音频文件样本中的帧数相同，且每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值，即样本Sn(n＝1,2,3.....N)对应的目标音频能量矩阵En为：

S1：E1＝{E₁(1)，E₁(2)，E₁(3)，......，E₁(M)}；

S2：E2＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

其中，E_n(K)表示样本Sn中的第K帧的音频能量值，K＝1,2,3.....M。

S102，对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵。

具体的，对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，所述目标均值化矩阵中的各元素为各帧的音频能量平均值。本发明实施例中，生成各音频文件样本分别对应的目标音频能量矩阵之后，可以对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，均值化处理具体过程包括：将E1～EN中的各元素分别按帧进行叠加，并除以帧个数N，即

E_r(1)＝(E₁(1)+E₂(1)+E₃(1)+......+E_N(1))/N；

E_r(2)＝(E₁(2)+E₂(2)+E₃(2)+......+E_N(2))/N；

......

E_r(M)＝(E₁(M)+E₂(M)+E₃(M)+......+E_N(M))/N；

其中，目标均值化矩阵用Er表示，Er＝{E_r(1)，E_r(2)，E_r(3)，......，E_r(M)}。

S103，将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻。

具体的，将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻。本发明实施例中，假设E_r(3)为最大音频能量平均值，则将E_r(3)对应的帧确定为目标帧，即第三帧确定为目标帧。根据目标帧确定所述多媒体数据的副歌起始时刻的计算公式(1)为：

T_K＝K*FL/fs (1)

其中，T_K表示多媒体数据的副歌起始时刻，K表示第几帧，fs为音频文件的采样率。

请参见图2，为本发明实施例提供的另一种多媒体数据处理方法的流程示意图。如图2所示，所述方法可以包括以下步骤S201-步骤S209。

S201，获取多媒体数据对应的多个音频文件样本。

S202，判断所述多个音频文件样本中的声道属性是否均为单声道。

具体的，声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，由于录制时存在音源数量不同，多个音频文件样本中可能会出现一个或多个为非单声道的样本，这时，需要执行步骤S203，若多个音频文件样本的声道属性均为单声道，则可以执行步骤S204。

S203，若否，基于向下混音算法将所述多个音频文件样本中非单声道的音频文件样本的声道属性调整为单声道。

具体的，若所述多个音频文件样本中存在声道属性为非单声道的音频文件样本，例如存在一个或多个双声道的音频文件，则可以基于向下混音算法将声道属性为非单声道的音频文件样本的声道属性调整为单声道。

S204，获取各音频文件样本中各帧的音频能量值。

具体的，本发明实施例中，第n个音频文件样本可采用Sn(n＝1,2,3.....N)来表示，假设音频数据长度为L(标准长度，可以以原唱歌曲长度为准)，设定帧长为FL，将确定音频数据帧个数M(M＝L/FL，当样本Sn的实际数据长度L’≠L时，可以统一补零或截断，以使L’＝L),各音频文件样本中的帧数相同，可获取各音频文件样本中各帧的音频能量值，能量值计算公式(2)为：

其中，x(i)(i＝0,1,2......N’)为每帧中的各个数据点的能量值，E_n(K)表示样本Sn中的第K帧的音频能量值，K＝1,2,3.....M。

具体获取方式可以是：将各帧分别按照正常帧长FL分为多个数据点，获取每帧中的各个数据点的能量值x(i)，然后按计算公式获取各帧的能量值E_n(K)。

S205，将所述各音频文件样本中各帧的音频能量值中低于预设能量阈值的音频能量值设置为预设能量值，并生成所述各音频文件样本分别对应的初始音频能量矩阵。

具体的，本发明实施例中，预设能量阈值可以用Te表示，将所有E_n(K)与Te进行比较，小于该Te的将其设置为预设能量值(例如0)，假设E₁(1)，E₁(2)，E₁(3)均小于Te，则生成的各音频文件样本分别对应的初始音频能量矩阵En’为：

S1：E1’＝{0，0，0，......，E₁(M)}；

S2：E2’＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3’＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN’＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

S206，对各所述初始音频能量矩阵分别进行归一化处理，生成所述各音频文件样本分别对应的目标音频能量矩阵。

具体的，本发明实施例中，对各所述初始音频能量矩阵分别进行归一化处理，归一化公式为：

E’_N(M)＝E_N(M)/E_Nmax (3)

其中，E’_N(M)为归一化后的各帧的能量值，E’_N(M)∈[0,1]。

S207，将所有所述目标音频能量矩阵中的音频能量值按照相同列进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵。

具体的，将所有所述目标音频能量矩阵中的音频能量值按照相同列(例如，E’₁(1)，E’₂(1)......和E’_N(1)为相同列上的音频能量值)进行叠加后除以所述目标音频能量矩阵的个数(假设为N)，并进行滤波处理，获得目标矩阵，所述目标音频能量矩阵中的每列上的元素为每帧对应的音频能量值，即

E’_r(1)＝(E’₁(1)+E’₂(1)+E’₃(1)+......+E’_N(1))/N；

E’_r(2)＝(E’₁(2)+E’₂(2)+E’₃(2)+......+E’_N(2)/N；

......

E’_r(M)＝(E’₁(M)+E’₂(M)+E’₃(M)+......+E’_N(M)/N；

其中，目标均值化矩阵用E’r表示，E’r＝{E’_r(1)，E’_r(2)，E’_r(3)，......，E’_r(M)}。进一步地，可以对E’r进行均值滤波或者中值滤波，滤波器阶数为I，I的取值可以为7(具体可根据经验选用)。

S208，将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻。

具体的，本发明实施例中，假设E’_r(3)为最大音频能量平均值，则将E’_r(3)对应的帧确定为目标帧，即第三帧确定为目标帧。通过获取预设帧长、预设采样率和目标帧的位置信息，计算所述多媒体数据的第一目标时刻，将所述第一目标时刻确定为所述多媒体数据的副歌起始时刻。根据目标帧确定所述多媒体数据的副歌起始时刻的计算公式(1)为：

T_K＝K*FL/fs (1)

S209，获取副歌经验时长，计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻，将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻。

具体的，获取副歌经验时长，计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻，将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻。多媒体数据的副歌终止时刻(即第二目标时刻)T_over的计算公式(4)为：

T_over＝T_K+T_offset (4)

其中，T_offset为副歌经验时长，T_K为多媒体数据的副歌起始时刻。

在本发明实施例中，可以通过获取多媒体数据对应的多个音频文件样本，并判断所述多个音频文件样本中的声道属性是否均为单声道，若否，基于向下混音算法将所述多个音频文件样本中非单声道的音频文件样本的声道属性调整为单声道，然后获取各音频文件样本中各帧的音频能量值，将所述各音频文件样本中各帧的音频能量值中低于预设能量阈值的音频能量值设置为预设能量值，并生成所述各音频文件样本分别对应的初始音频能量矩阵，对各所述初始音频能量矩阵分别进行归一化处理，生成所述各音频文件样本分别对应的目标音频能量矩阵，将所有所述目标音频能量矩阵中的音频能量值按照相同列进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵，将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻，进一步可获取副歌经验时长，计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻，将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻，完成对多媒体数据的副歌的起始时刻和终止时刻进行定位。

下面将结合附图3-附图7，对本发明实施例提供的多媒体数据处理装置进行详细接收。需要说明的是，附图3-附图7所示的多媒体数据处理装置，用于执行本发明图1-图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图2所示的实施例。

请参见图3，为本发明实施例提供的一种多媒体数据处理装置的结构示意图。如图3所示，本发明实施例的所述多媒体数据处理装置1可以包括：样本获取单元11、矩阵生成单元12、均值化处理单元13、帧确定单元14和副歌起始单元15。

样本获取单元11，用于获取多媒体数据对应的多个音频文件样本。

具体的，由于当前一些歌曲类应用软件较为普及，用户可以通过这些软件演唱歌曲并进行存储或处理，因此这些应用的应用数据库中，会存储有大量的用户演唱数据。本发明实施例可以基于上述数据进行副歌定位。如样本获取单元11可通过在数据库中获取任意选取一首歌曲(多媒体数据)中的多个用户演唱的音频文件，或者是任意一首歌曲的某个用户演唱的多个音频文件，作为该多媒体数据对应的多个音频文件样本。

矩阵生成单元12，生成各音频文件样本分别对应的目标音频能量矩阵,各音频文件样本中的帧数相同，每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值。

具体的，第n个音频文件样本可采用Sn(n＝1,2,3.....N)来表示，假设音频数据长度为L(标准长度，可以以原唱歌曲长度为准)，设定帧长为FL，矩阵生成单元12确定音频数据帧个数M(M＝L/FL，当样本Sn的实际数据长度L’≠L时，可以统一补零或截断，以使L’＝L),各音频文件样本中的帧数相同，且每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值，即样本Sn(n＝1,2,3.....N)对应的目标音频能量矩阵En为：

S1：E1＝{E₁(1)，E₁(2)，E₁(3)，......，E₁(M)}；

S2：E2＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

均值化处理单元13，用于对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，所述目标均值化矩阵中的各元素为各帧的音频能量平均值。

具体的，均值化处理单元13对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，所述目标均值化矩阵中的各元素为各帧的音频能量平均值。本发明实施例中，均值化处理单元13生成各音频文件样本分别对应的目标音频能量矩阵之后，可以对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标均值化矩阵，均值化处理具体过程包括：将E1～EN中的各元素分别按帧进行叠加，并除以帧个数N，即

E_r(1)＝(E₁(1)+E₂(1)+E₃(1)+......+E_N(1))/N；

E_r(2)＝(E₁(2)+E₂(2)+E₃(2)+......+E_N(2)/N；

......

E_r(M)＝(E₁(M)+E₂(M)+E₃(M)+......+E_N(M)/N；

帧确定单元14，用于将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧。

具体的，帧确定单元14将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻。本发明实施例中，假设E_r(3)为最大音频能量平均值，则将E_r(3)对应的帧确定为目标帧，即第三帧确定为目标帧。

副歌起始单元15，用于根据所述目标帧确定所述多媒体数据的副歌起始时刻。

具体的，副歌起始单元15根据所述目标帧确定所述多媒体数据的副歌起始时刻。副歌起始单元15根据目标帧确定所述多媒体数据的副歌起始时刻的计算公式(1)为：

T_K＝K*FL/fs (1)

请参见图4，为本发明实施例提供的另一种多媒体数据处理装置的结构示意图。如图4所示，本发明实施例的所述多媒体数据处理装置1除包括图4所述的单元外，还可以包括：时长获取单元16、和计算单元17、副歌终止单元18、判断单元19和调整单元20。

所述样本获取单元11所执行的动作的详细解释请参考图3对应的实施例中的相应单元，在此不再赘述。

判断单元19，用于判断所述多个音频文件样本中的声道属性是否均为单声道。

具体的，声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，由于录制时存在音源数量不同，多个音频文件样本中可能会出现一个或多个为非单声道的样本，若判断单元19判断所述多个音频文件样本中的声道属性不均为单声道，即多个音频文件样本中存在非单声道的音频文件样本，则调用调整单元20进行调整，若多个音频文件样本的声道属性均为单声道，则调用矩阵生成单元12。

调整单元20，用于若所述多个音频文件样本中存在声道属性为非单声道的音频文件样本，基于向下混音算法将所述多个音频文件样本中非单声道的音频文件样本的声道属性调整为单声道。

具体的，若所述多个音频文件样本中存在声道属性为非单声道的音频文件样本，例如存在一个或多个双声道的音频文件，则调整单元20可以基于向下混音算法将声道属性为非单声道的音频文件样本的声道属性调整为单声道。

矩阵生成单元12，用于生成各音频文件样本分别对应的目标音频能量矩阵；各音频文件样本中的帧数相同。

具体的，请参见图5，,图5为本发明实施例提供的矩阵生成单元的结构示意图，所述矩阵生成单元12具体包括：能量值获取子单元121、设置子单元122、生成子单元123和归一化处理子单元124。

能量值获取子单元121，用于获取各音频文件样本中各帧的音频能量值。

具体的，本发明实施例中，第n个音频文件样本可采用Sn(n＝1,2,3.....N)来表示，假设音频数据长度为L(标准长度，可以以原唱歌曲长度为准)，设定帧长为FL，将确定音频数据帧个数M(M＝L/FL，当样本Sn的实际数据长度L’≠L时，可以统一补零或截断，以使L’＝L),各音频文件样本中的帧数相同，能量值获取子单元121可获取各音频文件样本中各帧的音频能量值，能量值计算公式(2)为：

具体获取方式可以是：将各帧分别按照正常帧长FL分为多个数据点，能量值获取子单元121获取每帧中的各个数据点的能量值x(i)，然后按计算公式获取各帧的能量值E_n(K)。

设置子单元122，用于将所述各音频文件样本中各帧的音频能量值中低于预设能量阈值的音频能量值设置为预设能量值。

生成子单元123，用于生成所述各音频文件样本分别对应的初始音频能量矩阵。

具体的，本发明实施例中，预设能量阈值可以用Te表示，设置子单元122将所有E_n(K)与Te进行比较，小于该Te的将其设置为预设能量值(例如0)，假设E₁(1)，E₁(2)，E₁(3)均小于Te，则生成子单元123生成的各音频文件样本分别对应的初始音频能量矩阵En’为：

S1：E1’＝{0，0，0，......，E₁(M)}；

S2：E2’＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3’＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN’＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

归一化处理子单元124，用于对各所述初始音频能量矩阵分别进行归一化处理，生成所述各音频文件样本分别对应的目标音频能量矩阵。

具体的，本发明实施例中，归一化处理子单元124对各所述初始音频能量矩阵分别进行归一化处理，归一化公式为：

E’_N(M)＝E_N(M)/E_Nmax (3)

其中，E’_N(M)为归一化后的各帧的能量值，E’_N(M)∈[0,1]。

均值化处理单元13，用于将所有所述目标音频能量矩阵中的音频能量值按照相同列进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵。

具体的，均值化处理单元13将所有所述目标音频能量矩阵中的音频能量值按照相同列(例如，E’₁(1)，E’₂(1)......和E’_N(1)为相同列上的音频能量值)进行叠加后除以所述目标音频能量矩阵的个数(假设为N)，并进行滤波处理，获得目标矩阵，所述目标音频能量矩阵中的每列上的元素为每帧对应的音频能量值，即

E’_r(1)＝(E’₁(1)+E’₂(1)+E’₃(1)+......+E’_N(1))/N；

E’_r(2)＝(E’₁(2)+E’₂(2)+E’₃(2)+......+E’_N(2)/N；

......

E’_r(M)＝(E’₁(M)+E’₂(M)+E’₃(M)+......+E’_N(M)/N；

帧确定单元14，用于将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，

所述帧确定单元14所执行的动作的详细解释请参考图3对应的实施例中的相应单元，在此不再赘述。

如图6所示，图6为本发明实施例提供的副歌起始单元的结构示意图，所述副歌起始单元15包括信息获取子单元151、计算子单元152和确定子单元153。

信息获取子单元151，用于获取预设帧长、预设采样率和目标帧的位置信息。

计算子单元152，用于根据所述预设帧长、所述预设采样率和所述目标帧的位置信息计算所述多媒体数据的第一目标时刻。

确定子单元153，用于将所述第一目标时刻确定为所述多媒体数据的副歌起始时刻。

具体的，根据目标帧确定所述多媒体数据的副歌起始时刻的计算公式(1)为：

T_K＝K*FL/fs (1)

时长获取单元16，用于获取副歌经验时长。

和计算单元17，用于计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻。

副歌终止单元18，用于将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻。

具体的，获取副歌经验时长，计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻，将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻。多媒体数据的副歌终止时刻(即第二目标时刻)T_over的计算公式(3)为：

T_over＝T_K+T_offset (3)

请参见图7，为本发明实施例提供的又一种多媒体数据处理装置的结构示意图。如图7所示，本发明实施例的所述多媒体数据处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个输入装置1002，至少一个输出装置1003,存储器1004，至少一个通信总线1005。其中，通信总线1005用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1003可选的还可以是至少一个位于远离前述处理器1001的存储装置。

在图7所示的多媒体数据处理装置1000中，处理器1001可以用于调用存储器1005中存储的代码，并具体执行以下步骤：

在一个实施例中，所述处理器1001在执行生成各音频文件样本分别对应的目标音频能量矩阵步骤时，具体执行以下步骤：

获取各音频文件样本中各帧的音频能量值；

将所述各音频文件样本中各帧的音频能量值中低于预设能量阈值的音频能量值设置为预设能量值，并生成所述各音频文件样本分别对应的初始音频能量矩阵；

对各所述初始音频能量矩阵分别进行归一化处理，生成所述各音频文件样本分别对应的目标音频能量矩阵。

在一个实施例中，所述处理器1001在执行对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标矩阵步骤时，具体执行以下步骤：

将所有所述目标音频能量矩阵中每帧对应的所有音频能量值进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵。

在一个实施例中，所述处理器1001在执行根据所述目标帧确定所述多媒体数据的副歌起始时刻步骤时，具体执行以下步骤：

获取预设帧长、预设采样率和目标帧的位置信息；

根据所述预设帧长、所述预设采样率和所述目标帧的位置信息计算所述多媒体数据的第一目标时刻；

将所述第一目标时刻确定为所述多媒体数据的副歌起始时刻。

在一个实施例中，所述处理器1001在执行根据所述目标帧确定所述多媒体数据的副歌起始时刻步骤之后，还执行以下步骤：

获取副歌经验时长；

计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻；

将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻。

在一个实施例中，所述处理器1001在执行获取多媒体数据对应的多个音频文件样本步骤之后，还执行以下步骤：

判断所述多个音频文件样本中的声道属性是否均为单声道；

若否，基于向下混音算法将所述多个音频文件样本中非单声道的音频文件样本的声道属性调整为单声道。

在本发明实施例中，可以通过获取多媒体数据对应的多个音频文件样本，并判断所述多个音频文件样本中的声道属性是否均为单声道，若否，基于向下混音算法将所述多个音频文件样本中非单声道的音频文件样本的声道属性调整为单声道，然后获取各音频文件样本中各帧的音频能量值，将所述各音频文件样本中各帧的音频能量值中低于预设能量阈值的音频能量值设置为预设能量值，并生成所述各音频文件样本分别对应的初始音频能量矩阵，对各所述初始音频能量矩阵分别进行归一化处理，生成所述各音频文件样本分别对应的目标音频能量矩阵，将所有所述目标音频能量矩阵中每帧对应的所有音频能量值进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵，将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧，并根据所述目标帧确定所述多媒体数据的副歌起始时刻，进一步可获取副歌经验时长，计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻，将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻，完成对多媒体数据的副歌的起始时刻和终止时刻进行定位。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述生成各音频文件样本分别对应的目标音频能量矩阵，包括：

获取各音频文件样本中各帧的音频能量值；

3.根据权利要求1所述的方法，其特征在于，所述对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理，获得目标矩阵，包括：

将所有所述目标音频能量矩阵中的音频能量值按照相同列进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵；所述目标音频能量矩阵中的每列上的元素为每帧对应的音频能量值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标帧确定所述多媒体数据的副歌起始时刻，包括：

获取预设帧长、预设采样率和目标帧的位置信息；

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标帧确定所述多媒体数据的副歌起始时刻之后，还包括：

获取副歌经验时长；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取多媒体数据对应的多个音频文件样本之后，还包括：

判断所述多个音频文件样本中的声道属性是否均为单声道；

7.一种多媒体数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述矩阵生成单元包括：

能量值获取子单元，用于获取各音频文件样本中各帧的音频能量值；

设置子单元，用于将所述各音频文件样本中各帧的音频能量值中低于预设能量阈值的音频能量值设置为预设能量值；

生成子单元，用于生成所述各音频文件样本分别对应的初始音频能量矩阵；

归一化处理子单元，用于对各所述初始音频能量矩阵分别进行归一化处理，生成所述各音频文件样本分别对应的目标音频能量矩阵。

9.根据权利要求7所述的装置，其特征在于，所述均值化处理单元具体用于：

将所有所述目标音频能量矩阵中音频能量值按照相同列进行叠加后除以所述目标音频能量矩阵的个数，并进行滤波处理，获得目标矩阵；所述目标音频能量矩阵中的每列上的元素为每帧对应的音频能量值。

10.根据权利要求7所述的装置，其特征在于，所述副歌起始单元包括：

信息获取子单元，用于获取预设帧长、预设采样率和目标帧的位置信息；

计算子单元，用于根据所述预设帧长、所述预设采样率和所述目标帧的位置信息所述多媒体数据的第一目标时刻；

确定子单元，用于将所述第一目标时刻确定为所述多媒体数据的副歌起始时刻。

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

时长获取单元，用于获取副歌经验时长；

和计算单元，用于计算所述副歌经验时长和所述副歌起始时刻的和，得到所述多媒体数据中的第二目标时刻；

副歌终止单元，用于将所述第二目标时刻确定为所述多媒体数据的副歌终止时刻。

12.根据权利要求7-11任一项所述的装置，其特征在于，所述装置还包括：

判断单元，用于判断所述多个音频文件样本中的声道属性是否均为单声道；

调整单元，用于若所述多个音频文件样本中存在声道属性为非单声道的音频文件样本，基于向下混音算法将所述多个音频文件样本中非单声道的音频文件样本的声道属性调整为单声道。