CN104142989A

CN104142989A - 一种匹配检测方法及装置

Info

Publication number: CN104142989A
Application number: CN201410362558.4A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2014-11-12
Anticipated expiration: 2034-07-28
Also published as: CN104142989B

Abstract

本发明实施例公开了一种匹配检测方法及装置，其中的方法可包括：构建音频文件的音频特征序列和字幕文件的字幕特征序列；根据所述音频特征序列和所述字幕特征序列，确定相关因子；采用所述相关因子进行相关运算，获得相关函数序列；根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测。本发明能够对音频文件和字幕文件进行匹配检测，满足对音频文件的应用需求，提升音频文件的应用智能性。

Description

一种匹配检测方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及音频处理技术领域，尤其涉及一种匹配检测方法及装置。

背景技术

随着互联网技术的发展，互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件，关于互联网音频的应用也日渐增多，例如：K歌系统、听歌系统等等。在应用音频文件的过程中，用户通常希望播放音频文件的同时获得对应的字幕信息，例如：用户在演唱或收听某歌曲时，希望查看对应的歌词；等等，然而，音频文件与字幕文件常常会出现不匹配的情况，无法满足用户对音频文件的使用需求，从而降低了音频文件的应用智能性。

发明内容

本发明实施例所要解决的技术问题在于，提供一种匹配检测方法及装置，能够对音频文件和字幕文件进行匹配检测，满足对音频文件的应用需求，提升音频文件的应用智能性。

本发明实施例第一方面提供一种匹配检测方法，可包括：

构建音频文件的音频特征序列和字幕文件的字幕特征序列；

根据所述音频特征序列和所述字幕特征序列，确定相关因子；

采用所述相关因子进行相关运算，获得相关函数序列；

根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测。

本发明实施例第二方面提供一种匹配检测装置，可包括：

构建模块，用于构建音频文件的音频特征序列和字幕文件的字幕特征序列；

因子确定模块，用于根据所述音频特征序列和所述字幕特征序列，确定相关因子；

相关运算模块，用于采用所述相关因子进行相关运算，获得相关函数序列；

匹配检测模块，用于根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测。

实施本发明实施例，具有如下有益效果：

本发明实施例中，可根据音频文件的音频特征序列和字幕文件的字幕特征序列，构建相关函数序列；通过分析所述相关函数序列，了解所述音频文件与所述字幕文件之间的相关性，从而实现了对音频文件和字幕文件之间的匹配检测，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种匹配检测方法的流程图；

图2为本发明实施例提供的另一种匹配检测方法的流程图；

图3为图2所示的步骤S201的一个实施例的流程图；

图4a为本发明实施例提供的一种构建音频文件的音频特征序列的方法的流程图；

图4b为本发明实施例提供的一种构建字幕文件的字幕特征序列的方法的流程图；

图5a为本发明实施例提供的一种确定相关因子的方法的流程图；

图5b为本发明实施例提供的另一种确定相关因子的方法的流程图；

图6a为本发明实施例提供的一种根据相关函数序列进行匹配检测的方法的流程图；

图6b为本发明实施例提供的另一种根据相关函数序列进行匹配检测的方法的流程图；

图7为本发明实施例提供的一种匹配检测装置的结构示意图；

图8为本发明实施例提供的另一种匹配检测装置的结构示意图；

图9为本发明实施例提供的一种预处理模块的结构示意图；

图10a为本发明实施例提供的一种构建模块的结构示意图；

图10b为本发明实施例提供的另一种构建模块的结构示意图；

图11a为本发明实施例提供的一种因子确定模块的结构示意图；

图11b为本发明实施例提供的另一种因子确定模块的结构示意图；

图12a为本发明实施例提供的一种匹配检测模块的结构示意图；

图12b为本发明实施例提供的另一种匹配检测模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段等文件。字幕文件可以包括但不限于：歌词、歌词片段等文件。一个音频文件可由至少一个音频单句顺序排列而成，该至少一个音频单句的集合描述了音频文件中演唱内容部分；音频单句之间还可包括无演唱内容部分。以歌曲A为例，歌曲A的描述可表示如下：

[661，770]，[661，20]a₁[661，60]a₂[721，170]a₃[891，200]a₄[1091，70]a₅[1161，180]a₆[1341，20]a₇[1361，50]a₈

[1541，180]，[1541，20]b₁[1561，50]b₂[1611，20]b₃[1631，30]b₄[1661，0]b₅[1661，10]b₆[1671，20]b₇[1701，30]b₈

[1871，730]，[1871，60]c₁[1931，100]c₂[2031，110]c₃[2141，200]c₄[2341，70]c₅[2411，60]c₆[2471，50]c₇[2421，80]c₈

……

上述歌曲A的描述中，诸如“a₁a₂a₃a₄a₅a₆a₇a₈”、“b₁b₂b₃b₄b₅b₆b₇b₈”、“c₁c₂c₃c₄c₅c₆c₇c₈”可分别用于表示一个音频单句，各音频单句之前的“[]”用于描述对应的音频单句的时间属性，其单位时间通常为ms，例如：上述[661，770]用于描述音频单句“a₁a₂a₃a₄a₅a₆a₇a₈”的时间属性，其中的“661”表示音频单句“a₁a₂a₃a₄a₅a₆a₇a₈”的开始时间，“770”表示音频单句“a₁a₂a₃a₄a₅a₆a₇a₈”的持续时间，假设歌曲A共5分钟，音频单句“a₁a₂a₃a₄a₅a₆a₇a₈”则从第661ms开始演唱，持续770ms结束演唱。各音频单句中，每个音频字之前的“[]”用于描述对应的音频字的时间属性，其单位时间通常为ms，例如：上述[661，20]用于描述音频字“a₁”的时间属性，其中的“661”表示音频字“a₁”的开始时间，“20”表示音频字“a₁”的持续时间。按照开始时间的先后顺序，可确定音频文件包含的各音频单句的顺序，例如：根据上述歌曲A的描述，音频单句“a₁a₂a₃a₄a₅a₆a₇a₈”为第一个音频单句，其在歌曲A中的顺序为1；音频单句“b₁b₂b₃b₄b₅b₆b₇b₈”为第二个音频单句，其在歌曲A中的顺序为2；以此类推。可以理解的是，每个音频单句开始之前或结束之后还可包含无演唱内容，例如：上述歌曲A的0-661ms时间段则为无演唱内容部分，该部分可包含前奏信息。

一个字幕文件可由至少一个显示字符单句顺序排列而成，该至少一个显示字符单句的集合描述了字幕文件中的显示内容部分；显示字符单句之间还可包括空白字符，空白字符描述了字幕文件中无显示内容部分。

下面将结合图1-图6，对本发明实施例提供的匹配检测方法进行详细介绍。

请参见图1，为本发明实施例提供的一种匹配检测方法的流程图；该方法可包括以下步骤S101-步骤S104。

S101，构建音频文件的音频特征序列和字幕文件的字幕特征序列。

所述音频特征序列可由至少一个音频元素通过其取值及索引构建形成，其中，音频元素的索引指该音频元素在所述音频特征序列中的顺序，可用于表征所述音频文件的时间特征；音频元素的值可用于体现所述音频文件的演唱特征；例如：某音频元素的值为第一预设值(例如：第一预设值为1)，可表示音频文件中该音频元素的索引所表征的时间片为演唱内容部分；或者，某音频元素的值为第二预设值(例如：第二预设值为0)，可表示音频文件中该音频元素的索引所表征的时间片为无演唱内容部分。

所述字幕特征序列可由至少一个字幕元素通过其取值及索引构建形成，其中，字幕元素的索引指该字幕元素在所述字幕特征序列中的顺序，可用于表征所述字幕文件的时间特征；字幕元素的值可用于体现所述字幕文件的字符特征；例如：某字幕元素的值为第一预设值(例如：第一预设值为1)，可表示字幕文件中该字幕元素的索引所表征的时间片为显示内容部分；或者，某字幕元素的值为第二预设值(例如：第二预设值为0)，可表示字幕文件中该字幕元素的索引所表征的时间片为无显示内容部分。

S102，根据所述音频特征序列和所述字幕特征序列，确定相关因子。

S103，采用所述相关因子进行相关运算，获得相关函数序列。

其中，所述相关因子可用于表征所述音频特征序列的音频元素和所述字幕特征序列的字幕元素之间的关系。采用所述相关因子进行相关运算，获得相关函数序列，所述相关函数序列可以表征所述音频文件和所述字幕文件的相关性。

S104，根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测。

由于所述相关函数序列可用于表征所述音频文件和所述字幕文件的相关性，本步骤中，通过分析所述相关函数序列，可检测所述音频文件和所述字幕文件的匹配情况。具体地，若所述音频文件和所述字幕文件的相关性越高，所述音频文件和所述字幕文件越匹配；反之，若所述音频文件和所述字幕文件的相关性越低，所述音频文件和所述字幕文件越不匹配。

请参见图2，为本发明实施例提供的另一种匹配检测方法的流程图；该方法可包括以下步骤S201-步骤S205。

S201，对所述音频文件和所述字幕文件进行预处理。

本步骤中，对所述音频文件和所述字幕文件进行预处理的目的在于：使所述音频文件的播放时长与所述字幕文件的显示时长相统一，以使后续的匹配检测结果更为准确。

S202，构建音频文件的音频特征序列和字幕文件的字幕特征序列。

S203，根据所述音频特征序列和所述字幕特征序列，确定相关因子。

S204，采用所述相关因子进行相关运算，获得相关函数序列。

S205，根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测。

本实施例的步骤S202-步骤S205可参见图1所示实施例的步骤S101-步骤S104，在此不赘述。

请参见图3，为图2所示的步骤S201的一个实施例的流程图；该步骤S201可包括以下步骤s1001-步骤s1004。

s1001，获取所述音频文件的源播放时长和所述字幕文件的源显示时长。

所述音频文件的源播放时长为：所述音频文件中演唱内容部分的时长和无演唱内容部分的时长总和，例如：假设歌曲A共5分钟，其中演唱内容部分的时长为4分钟，无演唱内容部分的时长为1分钟，则本步骤所获取的所述音频文件的源播放时长为5分钟。

所述字幕文件的源显示时长为：所述字幕文件中显示内容部分的时长和无显示内容部分的时长总和，例如：假设歌曲A的歌词文件共需要显示4.5分钟，其中显示内容部分的时长为4分钟，无显示内容部分的时长为0.5分钟，则本步骤所获取的所述字幕文件的源显示时长为4.5分钟。

s1002，选取所述源播放时长和所述源显示时长二者中的最大者，将所选取的最大者作为基准时长。

按照步骤s1001中所示例子，所述源播放时长为5分钟，所述源显示时长为4.5分钟，本步骤则选取5分钟作为基准时长，该基准时长可表示为T_max。

s1003，采用所述基准时长对所述音频文件的源播放时长进行归整处理，获得所述音频文件的目标播放时长。

s1004，采用所述基准时长对所述音频文件的源显示时长进行归整处理，获得所述字幕文件的目标显示时长。

步骤s1003-s1004中，归整处理的目的是使所述音频文件的播放时长与所述字幕文件的显示时长相统一，以使后续的匹配检测结果更为准确。具体地，由于基准时长T_max等于所述音频文件的源播放时长，因此，步骤s1003中可直接将该基准时长T_max作为所述音频文件的目标播放时长。由于基准时长T_max大于所述字幕文件的源显示时长，因此，步骤s1004中的归整处理过程可包括：在所述字幕文件的结束时间点之后插入空白字符，使所述字幕文件的源显示时长增加至T_max，归整处理之后，所述字幕文件的目标显示时长也为该基准时长T_max。

请参见图4a，为本发明实施例提供的一种构建音频文件的音频特征序列的方法的流程图；本实施例可以为图1所示的步骤S101的具体细化流程，也可以为图2所示的步骤S202的具体细化流程。该方法可包括以下步骤s2001-步骤s2006。

s2001，按照预设时间刻度对所述音频文件的目标播放时长进行等分处理，获得至少一个播放时间片。

所述预设时间刻度可根据实际需要进行设定，例如：可考虑节拍因素，一个节拍通常为200ms，可将时间刻度设定为节拍的倍数，诸如：100ms、200ms、400ms等等。所述预设时间刻度可采用T表示，本步骤中，可采用公式(1)进行等分处理，该公式(1)可表示如下：

N＝T_max/T (1)

上述公式(1)中，N为正整数。通过上述公式(1)，所述音频文件的目标播放时长T_max被划分为N个播放时间片；例如：假设N为10，T_max等于5分钟(0-4分59秒)，则第一个播放时间片为0-29秒，第二个播放时间片为30秒-59秒，以此类推，第N个播放时间片为4分30秒-4分59秒。

s2002，根据所述至少一个播放时间片的数量，确定构建所述音频特征序列的音频元素的数量。

所述播放时间片的数量等于所述音频元素的数量。本步骤中，可确定构建所述音频特征序列的音频元素的数量为N，即确定所述音频特征序列由N个音频元素构成。

s2003，根据所述至少一个播放时间片中各播放时间片的顺序，确定构建所述音频特征序列的各音频元素的索引。

所述播放时间片的顺序与所述音频元素的索引一一对应；具体地，第一个播放时间片的顺序为1，该第一个播放时间片对应的音频元素的索引为1；第二个播放时间片的顺序为2，该第二个播放时间片对应的音频元素的索引为2；以此类推，第N个播放时间片的顺序为，该第N个播放时间片对应的音频元素的索引为N。

s2004，计算所述各播放时间片内的能量。

设定一个播放时间片内包括L(L为小于等于N的正整数)个音频帧，一个播放时间片内的音频可以为该L个音频帧顺序排列构成，则一个播放时间片内的音频序列可表示为其中x(j)，j为整数，且0≤j≤L-1。本实施例中，N个播放时间片中每个播放时间片内的音频序列可表示为x₁(j)，i为整数，且0≤i≤N-1，i表示播放时间片的顺序或音频元素的索引。具体地，第一个播放时间片的音频序列可表示为x₀(j)，第二个播放时间片的音频序列可表示为x₁(j)，以此类推，第N个播放时间片的音频序列可表示为x_N-1(j)。

本步骤中，可采用公式(2)计算各播放时间片内的能量，该公式(2)可表示如下：

E (i) = Σ_{j = 0}^{L - 1} x_{i} (j) - - - (2)

通过上述公式(2)可计算获得第一个播放时间片内的能量为E(0)，第二个播放时间片内的能量为E(1)，以此类推，第N个播放时间片内的能量为E(N-1)。

s2005，根据所述各播放时间片内的能量，设置构建所述音频特征序列的各音频元素的值。

本发明实施例中，可设定能量阈值Tenergy，该能量阈值可以根据实际需要进行设定。本步骤中，可将所述各播放时间片内的能量E(i)与所述能量阈值Tenergy的大小进行比较，若E(i)＞Tenergy，表明能量为E(i)的播放时间片为演唱内容部分，则设置能量为E(i)的播放时间片对应的音频元素的值为1；若E(i)≤Tenergy，表明能量为E(i)的播放时间片为无演唱内容部分，则设置能量为E(i)的播放时间片对应的音频元素的值为0。

s2006，按照构建所述音频特征序列的各音频元素的值及索引，构建所述音频文件的音频特征序列。

所述音频文件的音频特征序列可采用M(i)进行表示，M(i)可采用下述式(3)表示如下：

M (i) = \{\begin{matrix} 1, E (i) > Tenergy \\ 0, E (i) \leq Tenergy \end{matrix}\} - - - (3)

请参见图4b，为本发明实施例提供的一种构建字幕文件的字幕特征序列的方法的流程图；本实施例可以为图1所示的步骤S102的具体细化流程，也可以为图2所示的步骤S203的具体细化流程。该方法可包括以下步骤s3001-步骤s3005。

s3001，按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理，获得至少一个显示时间片。

本实施例的步骤s3001可参见图4a所示的步骤s2001，本步骤中，所述字幕文件的目标显示时长T_max被划分为N个显示时间片；例如：假设N为10，T_max等于5分钟(0-4分59秒)，则第一个显示时间片为0-29秒，第二个显示时间片为30秒-59秒，以此类推，第N个显示时间片为4分30秒-4分59秒。

s3002，根据所述至少一个显示时间片的数量，确定构建所述字幕特征序列的字幕元素的数量。

所述显示时间片的数量等于所述字幕元素的数量。本步骤中，可确定构建所述字幕特征序列的字幕元素的数量为N，即确定所述字幕特征序列由N个字幕元素构成。

s3003，根据所述至少一个显示时间片中各显示时间片的顺序，确定构建所述字幕特征序列的各字幕元素的索引。

所述显示时间片的顺序与所述字幕元素的索引一一对应；具体地，第一个显示时间片的顺序为1，该第一个显示时间片对应的字幕元素的索引为1；第二个显示时间片的顺序为2，该第二个显示时间片对应的字幕元素的索引为2；以此类推，第N个显示时间片的顺序为，该第N个显示时间片对应的字幕元素的索引为N。

s3004，根据所述各显示时间片与所述字幕文件中包含的字符的对应关系，设置构建所述字幕特征序列的各字幕元素的值。

本步骤中，可根据所述各显示时间片内是否包含显示字符，设置各字幕元素的值；具体地，若某显示时间片内包含显示字符，设置该显示时间片对应的字幕元素的值为1；若某显示时间片内仅包含空白字符，未包含显示字符，则设置该显示时间片对应的字幕元素的值为0。

s3005，按照构建所述字幕特征序列的各字幕元素的值及索引，构建所述字幕文件的字幕特征序列。

所述字幕文件的字幕特征序列可采用Q(i)进行表示，Q(i)可采用下述式(4)表示如下：

请参见图5a，为本发明实施例提供的一种确定相关因子的方法的流程图；本实施例可以为图1所示的步骤S103的一个具体细化流程，也可以为图2所示的步骤S204的一个具体细化流程。该方法可包括以下步骤s4001-步骤s4003。

s4001，对所述音频特征序列进行循环移动，获得所述音频文件的音频转换序列。

所述音频转换序列可表示M(i-n)，0≤n≤N-1。所述音频转换序列M(i-n)为所述音频特征序列M(i)循环移动n形成的序列。

s4002，统计所述音频转换序列与所述字幕特征序列中等值元素的数量，获得第一相关因子。

所述第一相关因子可采用A进行表示，A代表所述音频转换序列M(i-n)与所述字幕特征序列Q(i)之间值相等的元素的数量。

s4003，统计所述音频转换序列与所述字幕特征序列中非等值元素的数量，获得第二相关因子。

所述第二相关因子可采用D进行表示，D代表所述音频转换序列M(i-n)与所述字幕特征序列Q(i)之间值不等的元素的数量。

本实施例中，在获得第一相关因子A和第二相关因子D之后，可采用公式(5)进行相关运算，获得相关函数序列，该公式(5)可表示如下：

R(n)＝(A-D)/(A+D) (5)

上述公式(5)中，R(n)表示相关函数序列。

请参见图5b，为本发明实施例提供的另一种确定相关因子的方法的流程图；本实施例可以为图1所示的步骤S103的另一个具体细化流程，也可以为图2所示的步骤S204的另一个具体细化流程。该方法可包括以下步骤s5001-步骤s5003。

s5001，对所述字幕特征序列进行循环移动，获得所述字幕文件的字幕转换序列。

所述字幕转换序列可表示Q(i-n)，0≤n≤N-1。所述字幕转换序列Q(i-n)为所述字幕特征序列Q(i)循环移动n形成的序列。

s5002，统计所述音频特征序列与所述字幕转换序列中等值元素的数量，获得第三相关因子。

所述第三相关因子可采用A’进行表示，A’代表所述音频特征序列M(i)与所述字幕转换序列Q(i-n)之间值相等的元素的数量。

s5003，统计所述音频特征序列与所述字幕转换序列中非等值元素的数量，获得第四相关因子。

所述第四相关因子可采用D’进行表示，D’代表所述音频特征序列M(i)与所述字幕转换序列Q(i-n)之间值不等的元素的数量。

本实施例中，在获得第三相关因子A’和第四相关因子D’之后，可采用公式(6)进行相关运算，获得相关函数序列，该公式(6)可表示如下：

R(n)＝(A'-D')/(A'+D') (6)

上述公式(6)中，R(n)表示相关函数序列。

请参见图6a，为本发明实施例提供的一种根据相关函数序列进行匹配检测的方法的流程图；本实施例可以为图1所示的步骤S104的一个具体细化流程，也可以为图2所示的步骤S205的一个具体细化流程。该方法可包括以下步骤s6001-步骤s6004。

s6001，计算所述相关函数序列的最大值。

本步骤中，可采用公式(7)计算所述相关函数序列的最大值，该公式(7)可表示如下：

[RMAX,ind]＝max(R(n)) (7)

上述公式(7)中，max()为最大值求取操作；RMAX表示所述相关函数序列的最大值；ind表示R(n)取最大值时所对应的索引，即R(n)取最大值时n的取值。

s6002，判断所述最大值是否大于或等于预设阈值；若判断结果为是，转入步骤s6003；否则，转入步骤s6004。

所述预设阈值可表示为Thrd_error_1，所述预设阈值可根据实际情况进行设定。RMAX可用于体现所述音频文件与所述字幕文件的相关性，RMAX值越大，表明所述音频文件和所述字幕文件的相关性越高，所述音频文件和所述字幕文件越匹配；反之，RMAX值越小，表明所述音频文件和所述字幕文件的相关性越低，所述音频文件和所述字幕文件越不匹配。本步骤中，若所述最大值RMAX大于或等于所述预设阈值Thrd_error_1，表明所述音频文件与所述字幕文件的相关性较高；否则，表明所述音频文件与所述字幕文件的相关性较低。

s6003，确定所述音频文件与所述字幕文件相匹配；之后结束。

s6004，确定所述音频文件与所述字幕文件不匹配。

请参见图6b，为本发明实施例提供的另一种根据相关函数序列进行匹配检测的方法的流程图；本实施例可以为图1所示的步骤S104的另一个具体细化流程，也可以为图2所示的步骤S205的另一个具体细化流程。该方法可包括以下步骤s7001-步骤s7005。

s7001，根据所述相关函数序列，计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差。

本步骤可采用上述公式(7)获得的索引ind，计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差，具体地，可采用公式(8)计算时间差，该公式(8)可表示如下：

Tdiff＝ind*T (8)

上述公式(8)中，Tdiff表示所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差；T代表所述预设时间刻度。

s7002，判断所述时间差是否位于预设时间范围内；若判断结果为是，转入步骤s7003；否则，转入步骤s7005。

所述预设时间范围可表示为(0,Thrd_error_2)，所述预设时间范围可根据实际需要进行设定。本步骤需要判断时间差Tdiff是否位于所述预设时间范围(0,Thrd_error_2)内，若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)内，表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差在容错范围内，不影响浏览效果；若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)外，表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差超出容错范围内，影响浏览。

s7003，确定所述音频文件与所述字幕文件相匹配。

s7004，根据所述时间差，对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理；之后结束。

本步骤中，若所述音频文件的播放时间较所述字幕文件的显示时间提前所述时间差Tdiff，则可使所述字幕文件的显示时间往后调整Tdiff，以与所述音频文件的播放时间统一；若所述音频文件的播放时间较所述字幕文件的显示时间落后所述时间差Tdiff，则可使所述字幕文件的显示时间往前调整Tdiff，以与所述音频文件的播放时间统一。

s7005，确定所述音频文件与所述字幕文件不匹配。

下面将结合图7-图12，对本发明实施例提供的一种匹配检测装置进行详细介绍。需要说明的是，图7-图12所述的匹配检测装置可应用于执行上述附图1-附图6所示的方法。实际应用中，所述匹配检测装置可以运行于服务器端，或者运行于诸如笔记本电脑、手机、PAD(平板电脑)、智能可穿戴设备等等终端中。

请参见图7，为本发明实施例提供的一种匹配检测装置的结构示意图；该装置可包括：构建模块101、因子确定模块102、相关运算模块103和匹配检测模块104。

构建模块101，用于构建音频文件的音频特征序列和字幕文件的字幕特征序列。

因子确定模块102，用于根据所述音频特征序列和所述字幕特征序列，确定相关因子。

相关运算模块103，用于采用所述相关因子进行相关运算，获得相关函数序列。

其中，所述相关因子可用于表征所述音频特征序列的音频元素和所述字幕特征序列的字幕元素之间的关系。所述相关运算模块103采用所述相关因子进行相关运算，获得相关函数序列，所述相关函数序列可以表征所述音频文件和所述字幕文件的相关性。

匹配检测模块104，用于根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测。

由于所述相关函数序列可用于表征所述音频文件和所述字幕文件的相关性，所述匹配检测模块104通过分析所述相关函数序列，可检测所述音频文件和所述字幕文件的匹配情况。具体地，若所述音频文件和所述字幕文件的相关性越高，所述音频文件和所述字幕文件越匹配；反之，若所述音频文件和所述字幕文件的相关性越低，所述音频文件和所述字幕文件越不匹配。

请参见图8，为本发明实施例提供的另一种匹配检测装置的结构示意图；该装置可包括：构建模块101、因子确定模块102、相关运算模块103、匹配检测模块104和预处理模块105，其中，构建模块101、因子确定模块102、相关运算模块103和匹配检测模块104的结构和功能可参见图7所示实施例的相关描述，在此不赘述。

预处理模块105，用于对所述音频文件和所述字幕文件进行预处理。

所述预处理模块105对所述音频文件和所述字幕文件进行预处理的目的在于：使所述音频文件的播放时长与所述字幕文件的显示时长相统一，以使后续的匹配检测结果更为准确。

请参见图9，为本发明实施例提供的一种预处理模块的结构示意图；该预处理模块105可包括：时长获取单元1501、基准选取单元1502、第一归整单元1503和第二归整单元1504。

时长获取单元1501，用于获取所述音频文件的源播放时长和所述字幕文件的源显示时长。

所述音频文件的源播放时长为：所述音频文件中演唱内容部分的时长和无演唱内容部分的时长总和，例如：假设歌曲A共5分钟，其中演唱内容部分的时长为4分钟，无演唱内容部分的时长为1分钟，则所述时长获取单元1501所获取的所述音频文件的源播放时长为5分钟。

所述字幕文件的源显示时长为：所述字幕文件中显示内容部分的时长和无显示内容部分的时长总和，例如：假设歌曲A的歌词文件共需要显示4.5分钟，其中显示内容部分的时长为4分钟，无显示内容部分的时长为0.5分钟，则所述时长获取单元1501所获取的所述字幕文件的源显示时长为4.5分钟。

基准选取单元1502，用于选取所述源播放时长和所述源显示时长二者中的最大者，将所选取的最大者作为基准时长。

按照本实施例中的例子，所述源播放时长为5分钟，所述源显示时长为4.5分钟，所述基准选取单元1502则选取5分钟作为基准时长，该基准时长可表示为T_max。

第一归整单元1503，用于采用所述基准时长对所述音频文件的源播放时长进行归整处理，获得所述音频文件的目标播放时长。

第二归整单元1504，用于采用所述基准时长对所述音频文件的源显示时长进行归整处理，获得所述字幕文件的目标显示时长。

归整处理的目的是使所述音频文件的播放时长与所述字幕文件的显示时长相统一，以使后续的匹配检测结果更为准确。具体地，由于基准时长T_max等于所述音频文件的源播放时长，因此，所述第一归整单元1503可直接将该基准时长T_max作为所述音频文件的目标播放时长。由于基准时长T_max大于所述字幕文件的源显示时长，因此，所述第二归整单元1504的归整处理过程可包括：在所述字幕文件的结束时间点之后插入空白字符，使所述字幕文件的源显示时长增加至T_max，归整处理之后，所述字幕文件的目标显示时长也为该基准时长T_max。

请参见图10a，为本发明实施例提供的一种构建模块的结构示意图；该构建模块101可包括：播放时长处理单元1101、第一数量确定单元1102、第一索引确定单元1103、能量计算单元1104、音频元素赋值单元1105和第一构建单元1106。

播放时长处理单元1101，用于按照预设时间刻度对所述音频文件的目标播放时长进行等分处理，获得至少一个播放时间片。

所述预设时间刻度可根据实际需要进行设定，例如：可考虑节拍因素，一个节拍通常为200ms，可将时间刻度设定为节拍的倍数，诸如：100ms、200ms、400ms等等。所述预设时间刻度可采用T表示。所述播放时长处理单元1101可采用图4a所示实施例中的公式(1)进行等分处理，通过公式(1)，所述音频文件的目标播放时长T_max被划分为N个播放时间片；例如：假设N为10，T_max等于5分钟(0-4分59秒)，则第一个播放时间片为0-29秒，第二个播放时间片为30秒-59秒，以此类推，第N个播放时间片为4分30秒-4分59秒。

第一数量确定单元1102，用于根据所述至少一个播放时间片的数量，确定构建所述音频特征序列的音频元素的数量。

所述播放时间片的数量等于所述音频元素的数量。所述第一数量确定单元1102可确定构建所述音频特征序列的音频元素的数量为N，即确定所述音频特征序列由N个音频元素构成。

第一索引确定单元1103，用于根据所述至少一个播放时间片中各播放时间片的顺序，确定构建所述音频特征序列的各音频元素的索引。

能量计算单元1104，用于计算所述各播放时间片内的能量。

所述能量计算单元1104可采用图4a所示实施例中的公式(2)计算各播放时间片内的能量E(i)。第一个播放时间片内的能量为E(0)，第二个播放时间片内的能量为E(1)，以此类推，第N个播放时间片内的能量为E(N-1)。

音频元素赋值单元1105，用于根据所述各播放时间片内的能量，设置构建所述音频特征序列的各音频元素的值。

本发明实施例中，可设定能量阈值Tenergy，该能量阈值可以根据实际需要进行设定。所述音频元素赋值单元1105可将所述各播放时间片内的能量E(i)与所述能量阈值Tenergy的大小进行比较，若E(i)＞Tenergy，表明能量为E(i)的播放时间片为演唱内容部分，则设置能量为E(i)的播放时间片对应的音频元素的值为1；若E(i)≤Tenergy，表明能量为E(i)的播放时间片为无演唱内容部分，则设置能量为E(i)的播放时间片对应的音频元素的值为0。

第一构建单元1106，用于按照构建所述音频特征序列的各音频元素的值及索引，构建所述音频文件的音频特征序列。

所述音频文件的音频特征序列可采用M(i)进行表示，M(i)可采用图4a所示实施例中的公式(3)进行表示。

请参见图10b，为本发明实施例提供的另一种构建模块的结构示意图；该构建模块101可包括：显示时长处理单元1111、第二数量确定单元1112、第二索引确定单元1113、字幕元素赋值单元1114和第二构建单元1115。

显示时长处理单元1111，用于按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理，获得至少一个显示时间片。

所述显示时长处理单元1111的处理过程可参见图10a所示实施例中的所述播放时长处理单元1101的处理过程。所述字幕文件的目标显示时长T_max被划分为N个显示时间片；例如：假设N为10，T_max等于5分钟(0-4分59秒)，则第一个显示时间片为0-29秒，第二个显示时间片为30秒-59秒，以此类推，第N个显示时间片为4分30秒-4分59秒。

第二数量确定单元1112，用于根据所述至少一个显示时间片的数量，确定构建所述字幕特征序列的字幕元素的数量。

所述显示时间片的数量等于所述字幕元素的数量。第二数量确定单元1112可确定构建所述字幕特征序列的字幕元素的数量为N，即确定所述字幕特征序列由N个字幕元素构成。

第二索引确定单元1113，用于根据所述至少一个显示时间片中各显示时间片的顺序，确定构建所述字幕特征序列的各字幕元素的索引。

字幕元素赋值单元1114，用于根据所述各显示时间片与所述字幕文件中包含的字符的对应关系，设置构建所述字幕特征序列的各字幕元素的值。

所述字幕元素赋值单元1114可根据所述各显示时间片内是否包含显示字符，设置各字幕元素的值；具体地，若某显示时间片内包含显示字符，设置该显示时间片对应的字幕元素的值为1；若某显示时间片内仅包含空白字符，未包含显示字符，则设置该显示时间片对应的字幕元素的值为0。

第二构建单元1115，用于按照构建所述字幕特征序列的各字幕元素的值及索引，构建所述字幕文件的字幕特征序列。

所述字幕文件的字幕特征序列可采用Q(i)进行表示，Q(i)可采用图4b所示实施例中的公式(4)进行表示。

请参见图11a，为本发明实施例提供的一种因子确定模块的结构示意图；该因子确定模块102可包括：音频移动单元1201、第一统计单元1202和第二统计单元1203。

音频移动单元1201，用于对所述音频特征序列进行循环移动，获得所述音频文件的音频转换序列。

第一统计单元1202，用于统计所述音频转换序列与所述字幕特征序列中等值元素的数量，获得第一相关因子。

第二统计单元1203，用于统计所述音频转换序列与所述字幕特征序列中非等值元素的数量，获得第二相关因子。

本实施例中，在获得第一相关因子A和第二相关因子D之后，所述相关运算模块103可采用图5a所示实施例中的公式(5)进行相关运算，获得相关函数序列R(n)。

请参见图11b，为本发明实施例提供的另一种因子确定模块的结构示意图；该因子确定模块102可包括：字幕移动单元1211、第三统计单元1212和第四统计单元1213。

字幕移动单元1211，用于对所述字幕特征序列进行循环移动，获得所述字幕文件的字幕转换序列。

第三统计单元1212，用于统计所述音频特征序列与所述字幕转换序列中等值元素的数量，获得第三相关因子。

第四统计单元1213，用于统计所述音频特征序列与所述字幕转换序列中非等值元素的数量，获得第四相关因子。

本实施例中，在获得第三相关因子A’和第四相关因子D’之后，所述相关运算模块103可采用图5b所示实施例中的公式(6)进行相关运算，获得相关函数序列R(n)。

请参见图12a，为本发明实施例提供的一种匹配检测模块的结构示意图；该匹配检测模块104可包括：最大值计算单元1401、第一判断单元1402和第一结果确定单元1403。

最大值计算单元1401，用于计算所述相关函数序列的最大值。

所述最大值计算单元1401可采用图6a所示实施例中的公式(7)计算所述相关函数序列的最大值RMAX。

第一判断单元1402，用于判断所述最大值是否大于或等于预设阈值。

所述预设阈值可表示为Thrd_error_1，所述预设阈值可根据实际情况进行设定。RMAX可用于体现所述音频文件与所述字幕文件的相关性，RMAX值越大，表明所述音频文件和所述字幕文件的相关性越高，所述音频文件和所述字幕文件越匹配；反之，RMAX值越小，表明所述音频文件和所述字幕文件的相关性越低，所述音频文件和所述字幕文件越不匹配。若所述第一判断单元1402判断所述最大值RMAX大于或等于所述预设阈值Thrd_error_1，表明所述音频文件与所述字幕文件的相关性较高；否则，表明所述音频文件与所述字幕文件的相关性较低。

第一结果确定单元1403，用于若所述最大值大于或等于所述预设阈值，确定所述音频文件与所述字幕文件相匹配；或者，用于若所述最大值小于所述预设阈值，确定所述音频文件与所述字幕文件不匹配。

请参见图12b，为本发明实施例提供的另一种匹配检测模块的结构示意图；该匹配检测模块104可包括：时间差计算单元1411、第二判断单元1412和第二确定单元1413。

时间差计算单元1411，用于根据所述相关函数序列，计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差。

所述时间差计算单元1411可采用图6a所示实施例中的公式(7)获得的索引ind，计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差，具体地，所述时间差计算单元1411可采用图6b所示实施例中的公式(8)计算时间差Tdiff。

第二判断单元1412，用于判断所述时间差是否位于预设时间范围内。

所述预设时间范围可表示为(0,Thrd_error_2)，所述预设时间范围可根据实际需要进行设定。所述第二判断单元1412需要判断时间差Tdiff是否位于所述预设时间范围(0,Thrd_error_2)内，若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)内，表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差在容错范围内，不影响浏览效果；若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)外，表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差超出容错范围内，影响浏览。

第二确定单元1413，用于若所述时间差位于所述预设时间范围内，确定所述音频文件与所述字幕文件相匹配；或者，用于若所述时间差位于所述预设时间范围外，确定所述音频文件与所述字幕文件不匹配。

再请参见图12b，可选地，所述匹配检测模块104还包括：校准处理单元1414。

校准处理单元1414，用于根据所述时间差，对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理。

若所述音频文件的播放时间较所述字幕文件的显示时间提前所述时间差Tdiff，所述校准处理单元1414则可使所述字幕文件的显示时间往后调整Tdiff，以与所述音频文件的播放时间统一；若所述音频文件的播放时间较所述字幕文件的显示时间落后所述时间差Tdiff，所述校准处理单元1414则可使所述字幕文件的显示时间往前调整Tdiff，以与所述音频文件的播放时间统一。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种匹配检测方法，其特征在于，包括：

构建音频文件的音频特征序列和字幕文件的字幕特征序列；

采用所述相关因子进行相关运算，获得相关函数序列；

2.如权利要求1所述的方法，其特征在于，所述构建音频文件的音频特征序列和字幕文件的字幕特征序列之前，还包括：

对所述音频文件和所述字幕文件进行预处理。

3.如权利要求2所述的方法，其特征在于，所述对所述音频文件和所述字幕文件进行预处理，包括：

获取所述音频文件的源播放时长和所述字幕文件的源显示时长；

选取所述源播放时长和所述源显示时长二者中的最大者，将所选取的最大者作为基准时长；

采用所述基准时长对所述音频文件的源播放时长进行归整处理，获得所述音频文件的目标播放时长；

采用所述基准时长对所述音频文件的源显示时长进行归整处理，获得所述字幕文件的目标显示时长。

4.如权利要求3所述的方法，其特征在于，所述构建音频文件的音频特征序列，包括：

按照预设时间刻度对所述音频文件的目标播放时长进行等分处理，获得至少一个播放时间片；

根据所述至少一个播放时间片的数量，确定构建所述音频特征序列的音频元素的数量；

根据所述至少一个播放时间片中各播放时间片的顺序，确定构建所述音频特征序列的各音频元素的索引；

计算所述各播放时间片内的能量；

根据所述各播放时间片内的能量，设置构建所述音频特征序列的各音频元素的值；

按照构建所述音频特征序列的各音频元素的值及索引，构建所述音频文件的音频特征序列。

5.如权利要求4所述的方法，其特征在于，所述构建字幕文件的字幕特征序列，包括：

按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理，获得至少一个显示时间片；

根据所述至少一个显示时间片的数量，确定构建所述字幕特征序列的字幕元素的数量；

根据所述至少一个显示时间片中各显示时间片的顺序，确定构建所述字幕特征序列的各字幕元素的索引；

根据所述各显示时间片与所述字幕文件中包含的字符的对应关系，设置构建所述字幕特征序列的各字幕元素的值；

按照构建所述字幕特征序列的各字幕元素的值及索引，构建所述字幕文件的字幕特征序列。

6.如权利要求1-5任一项所述的方法，其特征在于，所述根据所述音频特征序列和所述字幕特征序列，确定相关因子，包括：

对所述音频特征序列进行循环移动，获得所述音频文件的音频转换序列；

统计所述音频转换序列与所述字幕特征序列中等值元素的数量，获得第一相关因子；

统计所述音频转换序列与所述字幕特征序列中非等值元素的数量，获得第二相关因子。

7.如权利要求1-5任一项所述的方法，其特征在于，所述根据所述音频特征序列和所述字幕特征序列，确定相关因子，包括：

对所述字幕特征序列进行循环移动，获得所述字幕文件的字幕转换序列；

统计所述音频特征序列与所述字幕转换序列中等值元素的数量，获得第三相关因子；

统计所述音频特征序列与所述字幕转换序列中非等值元素的数量，获得第四相关因子。

8.如权利要求1-5任一项所述的方法，其特征在于，所述根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测，包括：

计算所述相关函数序列的最大值；

判断所述最大值是否大于或等于预设阈值；

若所述最大值大于或等于所述预设阈值，确定所述音频文件与所述字幕文件相匹配；

若所述最大值小于所述预设阈值，确定所述音频文件与所述字幕文件不匹配。

9.如权利要求1-5任一项所述的方法，其特征在于，所述根据所述相关函数序列，对所述音频文件和所述字幕文件进行匹配检测，包括：

根据所述相关函数序列，计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差；

判断所述时间差是否位于预设时间范围内；

若所述时间差位于所述预设时间范围内，确定所述音频文件与所述字幕文件相匹配；

若所述时间差位于所述预设时间范围外，确定所述音频文件与所述字幕文件不匹配。

10.如权利要求9所述的方法，其特征在于，所述确定所述音频文件与所述字幕文件相匹配之后，还包括：

根据所述时间差，对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理。

11.一种匹配检测装置，其特征在于，包括：

12.如权利要求11所述的装置，其特征在于，还包括：

预处理模块，用于对所述音频文件和所述字幕文件进行预处理。

13.如权利要求12所述的装置，其特征在于，所述预处理模块包括：

时长获取单元，用于获取所述音频文件的源播放时长和所述字幕文件的源显示时长；

基准选取单元，用于选取所述源播放时长和所述源显示时长二者中的最大者，将所选取的最大者作为基准时长；

第一归整单元，用于采用所述基准时长对所述音频文件的源播放时长进行归整处理，获得所述音频文件的目标播放时长；

第二归整单元，用于采用所述基准时长对所述音频文件的源显示时长进行归整处理，获得所述字幕文件的目标显示时长。

14.如权利要求13所述的装置，其特征在于，所述构建模块包括：

播放时长处理单元，用于按照预设时间刻度对所述音频文件的目标播放时长进行等分处理，获得至少一个播放时间片；

第一数量确定单元，用于根据所述至少一个播放时间片的数量，确定构建所述音频特征序列的音频元素的数量；

第一索引确定单元，用于根据所述至少一个播放时间片中各播放时间片的顺序，确定构建所述音频特征序列的各音频元素的索引；

能量计算单元，用于计算所述各播放时间片内的能量；

音频元素赋值单元，用于根据所述各播放时间片内的能量，设置构建所述音频特征序列的各音频元素的值；

第一构建单元，用于按照构建所述音频特征序列的各音频元素的值及索引，构建所述音频文件的音频特征序列。

15.如权利要求14所述的装置，其特征在于，所述构建模块包括：

显示时长处理单元，用于按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理，获得至少一个显示时间片；

第二数量确定单元，用于根据所述至少一个显示时间片的数量，确定构建所述字幕特征序列的字幕元素的数量；

第二索引确定单元，用于根据所述至少一个显示时间片中各显示时间片的顺序，确定构建所述字幕特征序列的各字幕元素的索引；

字幕元素赋值单元，用于根据所述各显示时间片与所述字幕文件中包含的字符的对应关系，设置构建所述字幕特征序列的各字幕元素的值；

第二构建单元，用于按照构建所述字幕特征序列的各字幕元素的值及索引，构建所述字幕文件的字幕特征序列。

16.如权利要求11-15任一项所述的装置，其特征在于，所述因子确定模块包括：

音频移动单元，用于对所述音频特征序列进行循环移动，获得所述音频文件的音频转换序列；

第一统计单元，用于统计所述音频转换序列与所述字幕特征序列中等值元素的数量，获得第一相关因子；

第二统计单元，用于统计所述音频转换序列与所述字幕特征序列中非等值元素的数量，获得第二相关因子。

17.如权利要求11-15任一项所述的装置，其特征在于，所述因子确定模块包括：

字幕移动单元，用于对所述字幕特征序列进行循环移动，获得所述字幕文件的字幕转换序列；

第三统计单元，用于统计所述音频特征序列与所述字幕转换序列中等值元素的数量，获得第三相关因子；

第四统计单元，用于统计所述音频特征序列与所述字幕转换序列中非等值元素的数量，获得第四相关因子。

18.如权利要求11-15任一项所述的装置，其特征在于，所述匹配检测模块包括：

最大值计算单元，用于计算所述相关函数序列的最大值；

第一判断单元，用于判断所述最大值是否大于或等于预设阈值；

第一结果确定单元，用于若所述最大值大于或等于所述预设阈值，确定所述音频文件与所述字幕文件相匹配；或者，用于若所述最大值小于所述预设阈值，确定所述音频文件与所述字幕文件不匹配。

19.如权利要求11-15任一项所述的装置，其特征在于，所述匹配检测模块包括：

时间差计算单元，用于根据所述相关函数序列，计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差；

第二判断单元，用于判断所述时间差是否位于预设时间范围内；

第二确定单元，用于若所述时间差位于所述预设时间范围内，确定所述音频文件与所述字幕文件相匹配；或者，用于若所述时间差位于所述预设时间范围外，确定所述音频文件与所述字幕文件不匹配。

20.如权利要求19所述的装置，其特征在于，所述匹配检测模块还包括：

校准处理单元，用于根据所述时间差，对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理。