CN104142989A - 一种匹配检测方法及装置 - Google Patents

一种匹配检测方法及装置 Download PDF

Info

Publication number
CN104142989A
CN104142989A CN201410362558.4A CN201410362558A CN104142989A CN 104142989 A CN104142989 A CN 104142989A CN 201410362558 A CN201410362558 A CN 201410362558A CN 104142989 A CN104142989 A CN 104142989A
Authority
CN
China
Prior art keywords
file
sequence
subtitle
audio
audio file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410362558.4A
Other languages
English (en)
Other versions
CN104142989B (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410362558.4A priority Critical patent/CN104142989B/zh
Publication of CN104142989A publication Critical patent/CN104142989A/zh
Application granted granted Critical
Publication of CN104142989B publication Critical patent/CN104142989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Studio Circuits (AREA)

Abstract

本发明实施例公开了一种匹配检测方法及装置,其中的方法可包括:构建音频文件的音频特征序列和字幕文件的字幕特征序列;根据所述音频特征序列和所述字幕特征序列,确定相关因子;采用所述相关因子进行相关运算,获得相关函数序列;根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。本发明能够对音频文件和字幕文件进行匹配检测,满足对音频文件的应用需求,提升音频文件的应用智能性。

Description

一种匹配检测方法及装置
技术领域
本发明涉及互联网技术领域,具体涉及音频处理技术领域,尤其涉及一种匹配检测方法及装置。
背景技术
随着互联网技术的发展,互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件,关于互联网音频的应用也日渐增多,例如:K歌系统、听歌系统等等。在应用音频文件的过程中,用户通常希望播放音频文件的同时获得对应的字幕信息,例如:用户在演唱或收听某歌曲时,希望查看对应的歌词;等等,然而,音频文件与字幕文件常常会出现不匹配的情况,无法满足用户对音频文件的使用需求,从而降低了音频文件的应用智能性。
发明内容
本发明实施例所要解决的技术问题在于,提供一种匹配检测方法及装置,能够对音频文件和字幕文件进行匹配检测,满足对音频文件的应用需求,提升音频文件的应用智能性。
本发明实施例第一方面提供一种匹配检测方法,可包括:
构建音频文件的音频特征序列和字幕文件的字幕特征序列;
根据所述音频特征序列和所述字幕特征序列,确定相关因子;
采用所述相关因子进行相关运算,获得相关函数序列;
根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
本发明实施例第二方面提供一种匹配检测装置,可包括:
构建模块,用于构建音频文件的音频特征序列和字幕文件的字幕特征序列;
因子确定模块,用于根据所述音频特征序列和所述字幕特征序列,确定相关因子;
相关运算模块,用于采用所述相关因子进行相关运算,获得相关函数序列;
匹配检测模块,用于根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
实施本发明实施例,具有如下有益效果:
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种匹配检测方法的流程图;
图2为本发明实施例提供的另一种匹配检测方法的流程图;
图3为图2所示的步骤S201的一个实施例的流程图;
图4a为本发明实施例提供的一种构建音频文件的音频特征序列的方法的流程图;
图4b为本发明实施例提供的一种构建字幕文件的字幕特征序列的方法的流程图;
图5a为本发明实施例提供的一种确定相关因子的方法的流程图;
图5b为本发明实施例提供的另一种确定相关因子的方法的流程图;
图6a为本发明实施例提供的一种根据相关函数序列进行匹配检测的方法的流程图;
图6b为本发明实施例提供的另一种根据相关函数序列进行匹配检测的方法的流程图;
图7为本发明实施例提供的一种匹配检测装置的结构示意图;
图8为本发明实施例提供的另一种匹配检测装置的结构示意图;
图9为本发明实施例提供的一种预处理模块的结构示意图;
图10a为本发明实施例提供的一种构建模块的结构示意图;
图10b为本发明实施例提供的另一种构建模块的结构示意图;
图11a为本发明实施例提供的一种因子确定模块的结构示意图;
图11b为本发明实施例提供的另一种因子确定模块的结构示意图;
图12a为本发明实施例提供的一种匹配检测模块的结构示意图;
图12b为本发明实施例提供的另一种匹配检测模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,音频文件可以包括但不限于:歌曲、歌曲片段等文件。字幕文件可以包括但不限于:歌词、歌词片段等文件。一个音频文件可由至少一个音频单句顺序排列而成,该至少一个音频单句的集合描述了音频文件中演唱内容部分;音频单句之间还可包括无演唱内容部分。以歌曲A为例,歌曲A的描述可表示如下:
[661,770],[661,20]a1[661,60]a2[721,170]a3[891,200]a4[1091,70]a5[1161,180]a6[1341,20]a7[1361,50]a8
[1541,180],[1541,20]b1[1561,50]b2[1611,20]b3[1631,30]b4[1661,0]b5[1661,10]b6[1671,20]b7[1701,30]b8
[1871,730],[1871,60]c1[1931,100]c2[2031,110]c3[2141,200]c4[2341,70]c5[2411,60]c6[2471,50]c7[2421,80]c8
……
上述歌曲A的描述中,诸如“a1a2a3a4a5a6a7a8”、“b1b2b3b4b5b6b7b8”、“c1c2c3c4c5c6c7c8”可分别用于表示一个音频单句,各音频单句之前的“[]”用于描述对应的音频单句的时间属性,其单位时间通常为ms,例如:上述[661,770]用于描述音频单句“a1a2a3a4a5a6a7a8”的时间属性,其中的“661”表示音频单句“a1a2a3a4a5a6a7a8”的开始时间,“770”表示音频单句“a1a2a3a4a5a6a7a8”的持续时间,假设歌曲A共5分钟,音频单句“a1a2a3a4a5a6a7a8”则从第661ms开始演唱,持续770ms结束演唱。各音频单句中,每个音频字之前的“[]”用于描述对应的音频字的时间属性,其单位时间通常为ms,例如:上述[661,20]用于描述音频字“a1”的时间属性,其中的“661”表示音频字“a1”的开始时间,“20”表示音频字“a1”的持续时间。按照开始时间的先后顺序,可确定音频文件包含的各音频单句的顺序,例如:根据上述歌曲A的描述,音频单句“a1a2a3a4a5a6a7a8”为第一个音频单句,其在歌曲A中的顺序为1;音频单句“b1b2b3b4b5b6b7b8”为第二个音频单句,其在歌曲A中的顺序为2;以此类推。可以理解的是,每个音频单句开始之前或结束之后还可包含无演唱内容,例如:上述歌曲A的0-661ms时间段则为无演唱内容部分,该部分可包含前奏信息。
一个字幕文件可由至少一个显示字符单句顺序排列而成,该至少一个显示字符单句的集合描述了字幕文件中的显示内容部分;显示字符单句之间还可包括空白字符,空白字符描述了字幕文件中无显示内容部分。
下面将结合图1-图6,对本发明实施例提供的匹配检测方法进行详细介绍。
请参见图1,为本发明实施例提供的一种匹配检测方法的流程图;该方法可包括以下步骤S101-步骤S104。
S101,构建音频文件的音频特征序列和字幕文件的字幕特征序列。
所述音频特征序列可由至少一个音频元素通过其取值及索引构建形成,其中,音频元素的索引指该音频元素在所述音频特征序列中的顺序,可用于表征所述音频文件的时间特征;音频元素的值可用于体现所述音频文件的演唱特征;例如:某音频元素的值为第一预设值(例如:第一预设值为1),可表示音频文件中该音频元素的索引所表征的时间片为演唱内容部分;或者,某音频元素的值为第二预设值(例如:第二预设值为0),可表示音频文件中该音频元素的索引所表征的时间片为无演唱内容部分。
所述字幕特征序列可由至少一个字幕元素通过其取值及索引构建形成,其中,字幕元素的索引指该字幕元素在所述字幕特征序列中的顺序,可用于表征所述字幕文件的时间特征;字幕元素的值可用于体现所述字幕文件的字符特征;例如:某字幕元素的值为第一预设值(例如:第一预设值为1),可表示字幕文件中该字幕元素的索引所表征的时间片为显示内容部分;或者,某字幕元素的值为第二预设值(例如:第二预设值为0),可表示字幕文件中该字幕元素的索引所表征的时间片为无显示内容部分。
S102,根据所述音频特征序列和所述字幕特征序列,确定相关因子。
S103,采用所述相关因子进行相关运算,获得相关函数序列。
其中,所述相关因子可用于表征所述音频特征序列的音频元素和所述字幕特征序列的字幕元素之间的关系。采用所述相关因子进行相关运算,获得相关函数序列,所述相关函数序列可以表征所述音频文件和所述字幕文件的相关性。
S104,根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
由于所述相关函数序列可用于表征所述音频文件和所述字幕文件的相关性,本步骤中,通过分析所述相关函数序列,可检测所述音频文件和所述字幕文件的匹配情况。具体地,若所述音频文件和所述字幕文件的相关性越高,所述音频文件和所述字幕文件越匹配;反之,若所述音频文件和所述字幕文件的相关性越低,所述音频文件和所述字幕文件越不匹配。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图2,为本发明实施例提供的另一种匹配检测方法的流程图;该方法可包括以下步骤S201-步骤S205。
S201,对所述音频文件和所述字幕文件进行预处理。
本步骤中,对所述音频文件和所述字幕文件进行预处理的目的在于:使所述音频文件的播放时长与所述字幕文件的显示时长相统一,以使后续的匹配检测结果更为准确。
S202,构建音频文件的音频特征序列和字幕文件的字幕特征序列。
S203,根据所述音频特征序列和所述字幕特征序列,确定相关因子。
S204,采用所述相关因子进行相关运算,获得相关函数序列。
S205,根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
本实施例的步骤S202-步骤S205可参见图1所示实施例的步骤S101-步骤S104,在此不赘述。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图3,为图2所示的步骤S201的一个实施例的流程图;该步骤S201可包括以下步骤s1001-步骤s1004。
s1001,获取所述音频文件的源播放时长和所述字幕文件的源显示时长。
所述音频文件的源播放时长为:所述音频文件中演唱内容部分的时长和无演唱内容部分的时长总和,例如:假设歌曲A共5分钟,其中演唱内容部分的时长为4分钟,无演唱内容部分的时长为1分钟,则本步骤所获取的所述音频文件的源播放时长为5分钟。
所述字幕文件的源显示时长为:所述字幕文件中显示内容部分的时长和无显示内容部分的时长总和,例如:假设歌曲A的歌词文件共需要显示4.5分钟,其中显示内容部分的时长为4分钟,无显示内容部分的时长为0.5分钟,则本步骤所获取的所述字幕文件的源显示时长为4.5分钟。
s1002,选取所述源播放时长和所述源显示时长二者中的最大者,将所选取的最大者作为基准时长。
按照步骤s1001中所示例子,所述源播放时长为5分钟,所述源显示时长为4.5分钟,本步骤则选取5分钟作为基准时长,该基准时长可表示为Tmax
s1003,采用所述基准时长对所述音频文件的源播放时长进行归整处理,获得所述音频文件的目标播放时长。
s1004,采用所述基准时长对所述音频文件的源显示时长进行归整处理,获得所述字幕文件的目标显示时长。
步骤s1003-s1004中,归整处理的目的是使所述音频文件的播放时长与所述字幕文件的显示时长相统一,以使后续的匹配检测结果更为准确。具体地,由于基准时长Tmax等于所述音频文件的源播放时长,因此,步骤s1003中可直接将该基准时长Tmax作为所述音频文件的目标播放时长。由于基准时长Tmax大于所述字幕文件的源显示时长,因此,步骤s1004中的归整处理过程可包括:在所述字幕文件的结束时间点之后插入空白字符,使所述字幕文件的源显示时长增加至Tmax,归整处理之后,所述字幕文件的目标显示时长也为该基准时长Tmax
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图4a,为本发明实施例提供的一种构建音频文件的音频特征序列的方法的流程图;本实施例可以为图1所示的步骤S101的具体细化流程,也可以为图2所示的步骤S202的具体细化流程。该方法可包括以下步骤s2001-步骤s2006。
s2001,按照预设时间刻度对所述音频文件的目标播放时长进行等分处理,获得至少一个播放时间片。
所述预设时间刻度可根据实际需要进行设定,例如:可考虑节拍因素,一个节拍通常为200ms,可将时间刻度设定为节拍的倍数,诸如:100ms、200ms、400ms等等。所述预设时间刻度可采用T表示,本步骤中,可采用公式(1)进行等分处理,该公式(1)可表示如下:
N=Tmax/T   (1)
上述公式(1)中,N为正整数。通过上述公式(1),所述音频文件的目标播放时长Tmax被划分为N个播放时间片;例如:假设N为10,Tmax等于5分钟(0-4分59秒),则第一个播放时间片为0-29秒,第二个播放时间片为30秒-59秒,以此类推,第N个播放时间片为4分30秒-4分59秒。
s2002,根据所述至少一个播放时间片的数量,确定构建所述音频特征序列的音频元素的数量。
所述播放时间片的数量等于所述音频元素的数量。本步骤中,可确定构建所述音频特征序列的音频元素的数量为N,即确定所述音频特征序列由N个音频元素构成。
s2003,根据所述至少一个播放时间片中各播放时间片的顺序,确定构建所述音频特征序列的各音频元素的索引。
所述播放时间片的顺序与所述音频元素的索引一一对应;具体地,第一个播放时间片的顺序为1,该第一个播放时间片对应的音频元素的索引为1;第二个播放时间片的顺序为2,该第二个播放时间片对应的音频元素的索引为2;以此类推,第N个播放时间片的顺序为,该第N个播放时间片对应的音频元素的索引为N。
s2004,计算所述各播放时间片内的能量。
设定一个播放时间片内包括L(L为小于等于N的正整数)个音频帧,一个播放时间片内的音频可以为该L个音频帧顺序排列构成,则一个播放时间片内的音频序列可表示为其中x(j),j为整数,且0≤j≤L-1。本实施例中,N个播放时间片中每个播放时间片内的音频序列可表示为x1(j),i为整数,且0≤i≤N-1,i表示播放时间片的顺序或音频元素的索引。具体地,第一个播放时间片的音频序列可表示为x0(j),第二个播放时间片的音频序列可表示为x1(j),以此类推,第N个播放时间片的音频序列可表示为xN-1(j)。
本步骤中,可采用公式(2)计算各播放时间片内的能量,该公式(2)可表示如下:
E ( i ) = Σ j = 0 L - 1 x i ( j ) - - - ( 2 )
通过上述公式(2)可计算获得第一个播放时间片内的能量为E(0),第二个播放时间片内的能量为E(1),以此类推,第N个播放时间片内的能量为E(N-1)。
s2005,根据所述各播放时间片内的能量,设置构建所述音频特征序列的各音频元素的值。
本发明实施例中,可设定能量阈值Tenergy,该能量阈值可以根据实际需要进行设定。本步骤中,可将所述各播放时间片内的能量E(i)与所述能量阈值Tenergy的大小进行比较,若E(i)>Tenergy,表明能量为E(i)的播放时间片为演唱内容部分,则设置能量为E(i)的播放时间片对应的音频元素的值为1;若E(i)≤Tenergy,表明能量为E(i)的播放时间片为无演唱内容部分,则设置能量为E(i)的播放时间片对应的音频元素的值为0。
s2006,按照构建所述音频特征序列的各音频元素的值及索引,构建所述音频文件的音频特征序列。
所述音频文件的音频特征序列可采用M(i)进行表示,M(i)可采用下述式(3)表示如下:
M ( i ) = 1 , E ( i ) > Tenergy 0 , E ( i ) ≤ Tenergy - - - ( 3 )
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图4b,为本发明实施例提供的一种构建字幕文件的字幕特征序列的方法的流程图;本实施例可以为图1所示的步骤S102的具体细化流程,也可以为图2所示的步骤S203的具体细化流程。该方法可包括以下步骤s3001-步骤s3005。
s3001,按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理,获得至少一个显示时间片。
本实施例的步骤s3001可参见图4a所示的步骤s2001,本步骤中,所述字幕文件的目标显示时长Tmax被划分为N个显示时间片;例如:假设N为10,Tmax等于5分钟(0-4分59秒),则第一个显示时间片为0-29秒,第二个显示时间片为30秒-59秒,以此类推,第N个显示时间片为4分30秒-4分59秒。
s3002,根据所述至少一个显示时间片的数量,确定构建所述字幕特征序列的字幕元素的数量。
所述显示时间片的数量等于所述字幕元素的数量。本步骤中,可确定构建所述字幕特征序列的字幕元素的数量为N,即确定所述字幕特征序列由N个字幕元素构成。
s3003,根据所述至少一个显示时间片中各显示时间片的顺序,确定构建所述字幕特征序列的各字幕元素的索引。
所述显示时间片的顺序与所述字幕元素的索引一一对应;具体地,第一个显示时间片的顺序为1,该第一个显示时间片对应的字幕元素的索引为1;第二个显示时间片的顺序为2,该第二个显示时间片对应的字幕元素的索引为2;以此类推,第N个显示时间片的顺序为,该第N个显示时间片对应的字幕元素的索引为N。
s3004,根据所述各显示时间片与所述字幕文件中包含的字符的对应关系,设置构建所述字幕特征序列的各字幕元素的值。
本步骤中,可根据所述各显示时间片内是否包含显示字符,设置各字幕元素的值;具体地,若某显示时间片内包含显示字符,设置该显示时间片对应的字幕元素的值为1;若某显示时间片内仅包含空白字符,未包含显示字符,则设置该显示时间片对应的字幕元素的值为0。
s3005,按照构建所述字幕特征序列的各字幕元素的值及索引,构建所述字幕文件的字幕特征序列。
所述字幕文件的字幕特征序列可采用Q(i)进行表示,Q(i)可采用下述式(4)表示如下:
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图5a,为本发明实施例提供的一种确定相关因子的方法的流程图;本实施例可以为图1所示的步骤S103的一个具体细化流程,也可以为图2所示的步骤S204的一个具体细化流程。该方法可包括以下步骤s4001-步骤s4003。
s4001,对所述音频特征序列进行循环移动,获得所述音频文件的音频转换序列。
所述音频转换序列可表示M(i-n),0≤n≤N-1。所述音频转换序列M(i-n)为所述音频特征序列M(i)循环移动n形成的序列。
s4002,统计所述音频转换序列与所述字幕特征序列中等值元素的数量,获得第一相关因子。
所述第一相关因子可采用A进行表示,A代表所述音频转换序列M(i-n)与所述字幕特征序列Q(i)之间值相等的元素的数量。
s4003,统计所述音频转换序列与所述字幕特征序列中非等值元素的数量,获得第二相关因子。
所述第二相关因子可采用D进行表示,D代表所述音频转换序列M(i-n)与所述字幕特征序列Q(i)之间值不等的元素的数量。
本实施例中,在获得第一相关因子A和第二相关因子D之后,可采用公式(5)进行相关运算,获得相关函数序列,该公式(5)可表示如下:
R(n)=(A-D)/(A+D)   (5)
上述公式(5)中,R(n)表示相关函数序列。
请参见图5b,为本发明实施例提供的另一种确定相关因子的方法的流程图;本实施例可以为图1所示的步骤S103的另一个具体细化流程,也可以为图2所示的步骤S204的另一个具体细化流程。该方法可包括以下步骤s5001-步骤s5003。
s5001,对所述字幕特征序列进行循环移动,获得所述字幕文件的字幕转换序列。
所述字幕转换序列可表示Q(i-n),0≤n≤N-1。所述字幕转换序列Q(i-n)为所述字幕特征序列Q(i)循环移动n形成的序列。
s5002,统计所述音频特征序列与所述字幕转换序列中等值元素的数量,获得第三相关因子。
所述第三相关因子可采用A’进行表示,A’代表所述音频特征序列M(i)与所述字幕转换序列Q(i-n)之间值相等的元素的数量。
s5003,统计所述音频特征序列与所述字幕转换序列中非等值元素的数量,获得第四相关因子。
所述第四相关因子可采用D’进行表示,D’代表所述音频特征序列M(i)与所述字幕转换序列Q(i-n)之间值不等的元素的数量。
本实施例中,在获得第三相关因子A’和第四相关因子D’之后,可采用公式(6)进行相关运算,获得相关函数序列,该公式(6)可表示如下:
R(n)=(A'-D')/(A'+D')   (6)
上述公式(6)中,R(n)表示相关函数序列。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图6a,为本发明实施例提供的一种根据相关函数序列进行匹配检测的方法的流程图;本实施例可以为图1所示的步骤S104的一个具体细化流程,也可以为图2所示的步骤S205的一个具体细化流程。该方法可包括以下步骤s6001-步骤s6004。
s6001,计算所述相关函数序列的最大值。
本步骤中,可采用公式(7)计算所述相关函数序列的最大值,该公式(7)可表示如下:
[RMAX,ind]=max(R(n))   (7)
上述公式(7)中,max()为最大值求取操作;RMAX表示所述相关函数序列的最大值;ind表示R(n)取最大值时所对应的索引,即R(n)取最大值时n的取值。
s6002,判断所述最大值是否大于或等于预设阈值;若判断结果为是,转入步骤s6003;否则,转入步骤s6004。
所述预设阈值可表示为Thrd_error_1,所述预设阈值可根据实际情况进行设定。RMAX可用于体现所述音频文件与所述字幕文件的相关性,RMAX值越大,表明所述音频文件和所述字幕文件的相关性越高,所述音频文件和所述字幕文件越匹配;反之,RMAX值越小,表明所述音频文件和所述字幕文件的相关性越低,所述音频文件和所述字幕文件越不匹配。本步骤中,若所述最大值RMAX大于或等于所述预设阈值Thrd_error_1,表明所述音频文件与所述字幕文件的相关性较高;否则,表明所述音频文件与所述字幕文件的相关性较低。
s6003,确定所述音频文件与所述字幕文件相匹配;之后结束。
s6004,确定所述音频文件与所述字幕文件不匹配。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图6b,为本发明实施例提供的另一种根据相关函数序列进行匹配检测的方法的流程图;本实施例可以为图1所示的步骤S104的另一个具体细化流程,也可以为图2所示的步骤S205的另一个具体细化流程。该方法可包括以下步骤s7001-步骤s7005。
s7001,根据所述相关函数序列,计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差。
本步骤可采用上述公式(7)获得的索引ind,计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差,具体地,可采用公式(8)计算时间差,该公式(8)可表示如下:
Tdiff=ind*T   (8)
上述公式(8)中,Tdiff表示所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差;T代表所述预设时间刻度。
s7002,判断所述时间差是否位于预设时间范围内;若判断结果为是,转入步骤s7003;否则,转入步骤s7005。
所述预设时间范围可表示为(0,Thrd_error_2),所述预设时间范围可根据实际需要进行设定。本步骤需要判断时间差Tdiff是否位于所述预设时间范围(0,Thrd_error_2)内,若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)内,表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差在容错范围内,不影响浏览效果;若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)外,表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差超出容错范围内,影响浏览。
s7003,确定所述音频文件与所述字幕文件相匹配。
s7004,根据所述时间差,对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理;之后结束。
本步骤中,若所述音频文件的播放时间较所述字幕文件的显示时间提前所述时间差Tdiff,则可使所述字幕文件的显示时间往后调整Tdiff,以与所述音频文件的播放时间统一;若所述音频文件的播放时间较所述字幕文件的显示时间落后所述时间差Tdiff,则可使所述字幕文件的显示时间往前调整Tdiff,以与所述音频文件的播放时间统一。
s7005,确定所述音频文件与所述字幕文件不匹配。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
下面将结合图7-图12,对本发明实施例提供的一种匹配检测装置进行详细介绍。需要说明的是,图7-图12所述的匹配检测装置可应用于执行上述附图1-附图6所示的方法。实际应用中,所述匹配检测装置可以运行于服务器端,或者运行于诸如笔记本电脑、手机、PAD(平板电脑)、智能可穿戴设备等等终端中。
请参见图7,为本发明实施例提供的一种匹配检测装置的结构示意图;该装置可包括:构建模块101、因子确定模块102、相关运算模块103和匹配检测模块104。
构建模块101,用于构建音频文件的音频特征序列和字幕文件的字幕特征序列。
所述音频特征序列可由至少一个音频元素通过其取值及索引构建形成,其中,音频元素的索引指该音频元素在所述音频特征序列中的顺序,可用于表征所述音频文件的时间特征;音频元素的值可用于体现所述音频文件的演唱特征;例如:某音频元素的值为第一预设值(例如:第一预设值为1),可表示音频文件中该音频元素的索引所表征的时间片为演唱内容部分;或者,某音频元素的值为第二预设值(例如:第二预设值为0),可表示音频文件中该音频元素的索引所表征的时间片为无演唱内容部分。
所述字幕特征序列可由至少一个字幕元素通过其取值及索引构建形成,其中,字幕元素的索引指该字幕元素在所述字幕特征序列中的顺序,可用于表征所述字幕文件的时间特征;字幕元素的值可用于体现所述字幕文件的字符特征;例如:某字幕元素的值为第一预设值(例如:第一预设值为1),可表示字幕文件中该字幕元素的索引所表征的时间片为显示内容部分;或者,某字幕元素的值为第二预设值(例如:第二预设值为0),可表示字幕文件中该字幕元素的索引所表征的时间片为无显示内容部分。
因子确定模块102,用于根据所述音频特征序列和所述字幕特征序列,确定相关因子。
相关运算模块103,用于采用所述相关因子进行相关运算,获得相关函数序列。
其中,所述相关因子可用于表征所述音频特征序列的音频元素和所述字幕特征序列的字幕元素之间的关系。所述相关运算模块103采用所述相关因子进行相关运算,获得相关函数序列,所述相关函数序列可以表征所述音频文件和所述字幕文件的相关性。
匹配检测模块104,用于根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
由于所述相关函数序列可用于表征所述音频文件和所述字幕文件的相关性,所述匹配检测模块104通过分析所述相关函数序列,可检测所述音频文件和所述字幕文件的匹配情况。具体地,若所述音频文件和所述字幕文件的相关性越高,所述音频文件和所述字幕文件越匹配;反之,若所述音频文件和所述字幕文件的相关性越低,所述音频文件和所述字幕文件越不匹配。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图8,为本发明实施例提供的另一种匹配检测装置的结构示意图;该装置可包括:构建模块101、因子确定模块102、相关运算模块103、匹配检测模块104和预处理模块105,其中,构建模块101、因子确定模块102、相关运算模块103和匹配检测模块104的结构和功能可参见图7所示实施例的相关描述,在此不赘述。
预处理模块105,用于对所述音频文件和所述字幕文件进行预处理。
所述预处理模块105对所述音频文件和所述字幕文件进行预处理的目的在于:使所述音频文件的播放时长与所述字幕文件的显示时长相统一,以使后续的匹配检测结果更为准确。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图9,为本发明实施例提供的一种预处理模块的结构示意图;该预处理模块105可包括:时长获取单元1501、基准选取单元1502、第一归整单元1503和第二归整单元1504。
时长获取单元1501,用于获取所述音频文件的源播放时长和所述字幕文件的源显示时长。
所述音频文件的源播放时长为:所述音频文件中演唱内容部分的时长和无演唱内容部分的时长总和,例如:假设歌曲A共5分钟,其中演唱内容部分的时长为4分钟,无演唱内容部分的时长为1分钟,则所述时长获取单元1501所获取的所述音频文件的源播放时长为5分钟。
所述字幕文件的源显示时长为:所述字幕文件中显示内容部分的时长和无显示内容部分的时长总和,例如:假设歌曲A的歌词文件共需要显示4.5分钟,其中显示内容部分的时长为4分钟,无显示内容部分的时长为0.5分钟,则所述时长获取单元1501所获取的所述字幕文件的源显示时长为4.5分钟。
基准选取单元1502,用于选取所述源播放时长和所述源显示时长二者中的最大者,将所选取的最大者作为基准时长。
按照本实施例中的例子,所述源播放时长为5分钟,所述源显示时长为4.5分钟,所述基准选取单元1502则选取5分钟作为基准时长,该基准时长可表示为Tmax
第一归整单元1503,用于采用所述基准时长对所述音频文件的源播放时长进行归整处理,获得所述音频文件的目标播放时长。
第二归整单元1504,用于采用所述基准时长对所述音频文件的源显示时长进行归整处理,获得所述字幕文件的目标显示时长。
归整处理的目的是使所述音频文件的播放时长与所述字幕文件的显示时长相统一,以使后续的匹配检测结果更为准确。具体地,由于基准时长Tmax等于所述音频文件的源播放时长,因此,所述第一归整单元1503可直接将该基准时长Tmax作为所述音频文件的目标播放时长。由于基准时长Tmax大于所述字幕文件的源显示时长,因此,所述第二归整单元1504的归整处理过程可包括:在所述字幕文件的结束时间点之后插入空白字符,使所述字幕文件的源显示时长增加至Tmax,归整处理之后,所述字幕文件的目标显示时长也为该基准时长Tmax
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图10a,为本发明实施例提供的一种构建模块的结构示意图;该构建模块101可包括:播放时长处理单元1101、第一数量确定单元1102、第一索引确定单元1103、能量计算单元1104、音频元素赋值单元1105和第一构建单元1106。
播放时长处理单元1101,用于按照预设时间刻度对所述音频文件的目标播放时长进行等分处理,获得至少一个播放时间片。
所述预设时间刻度可根据实际需要进行设定,例如:可考虑节拍因素,一个节拍通常为200ms,可将时间刻度设定为节拍的倍数,诸如:100ms、200ms、400ms等等。所述预设时间刻度可采用T表示。所述播放时长处理单元1101可采用图4a所示实施例中的公式(1)进行等分处理,通过公式(1),所述音频文件的目标播放时长Tmax被划分为N个播放时间片;例如:假设N为10,Tmax等于5分钟(0-4分59秒),则第一个播放时间片为0-29秒,第二个播放时间片为30秒-59秒,以此类推,第N个播放时间片为4分30秒-4分59秒。
第一数量确定单元1102,用于根据所述至少一个播放时间片的数量,确定构建所述音频特征序列的音频元素的数量。
所述播放时间片的数量等于所述音频元素的数量。所述第一数量确定单元1102可确定构建所述音频特征序列的音频元素的数量为N,即确定所述音频特征序列由N个音频元素构成。
第一索引确定单元1103,用于根据所述至少一个播放时间片中各播放时间片的顺序,确定构建所述音频特征序列的各音频元素的索引。
所述播放时间片的顺序与所述音频元素的索引一一对应;具体地,第一个播放时间片的顺序为1,该第一个播放时间片对应的音频元素的索引为1;第二个播放时间片的顺序为2,该第二个播放时间片对应的音频元素的索引为2;以此类推,第N个播放时间片的顺序为,该第N个播放时间片对应的音频元素的索引为N。
能量计算单元1104,用于计算所述各播放时间片内的能量。
设定一个播放时间片内包括L(L为小于等于N的正整数)个音频帧,一个播放时间片内的音频可以为该L个音频帧顺序排列构成,则一个播放时间片内的音频序列可表示为其中x(j),j为整数,且0≤j≤L-1。本实施例中,N个播放时间片中每个播放时间片内的音频序列可表示为x1(j),i为整数,且0≤i≤N-1,i表示播放时间片的顺序或音频元素的索引。具体地,第一个播放时间片的音频序列可表示为x0(j),第二个播放时间片的音频序列可表示为x1(j),以此类推,第N个播放时间片的音频序列可表示为xN-1(j)。
所述能量计算单元1104可采用图4a所示实施例中的公式(2)计算各播放时间片内的能量E(i)。第一个播放时间片内的能量为E(0),第二个播放时间片内的能量为E(1),以此类推,第N个播放时间片内的能量为E(N-1)。
音频元素赋值单元1105,用于根据所述各播放时间片内的能量,设置构建所述音频特征序列的各音频元素的值。
本发明实施例中,可设定能量阈值Tenergy,该能量阈值可以根据实际需要进行设定。所述音频元素赋值单元1105可将所述各播放时间片内的能量E(i)与所述能量阈值Tenergy的大小进行比较,若E(i)>Tenergy,表明能量为E(i)的播放时间片为演唱内容部分,则设置能量为E(i)的播放时间片对应的音频元素的值为1;若E(i)≤Tenergy,表明能量为E(i)的播放时间片为无演唱内容部分,则设置能量为E(i)的播放时间片对应的音频元素的值为0。
第一构建单元1106,用于按照构建所述音频特征序列的各音频元素的值及索引,构建所述音频文件的音频特征序列。
所述音频文件的音频特征序列可采用M(i)进行表示,M(i)可采用图4a所示实施例中的公式(3)进行表示。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图10b,为本发明实施例提供的另一种构建模块的结构示意图;该构建模块101可包括:显示时长处理单元1111、第二数量确定单元1112、第二索引确定单元1113、字幕元素赋值单元1114和第二构建单元1115。
显示时长处理单元1111,用于按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理,获得至少一个显示时间片。
所述显示时长处理单元1111的处理过程可参见图10a所示实施例中的所述播放时长处理单元1101的处理过程。所述字幕文件的目标显示时长Tmax被划分为N个显示时间片;例如:假设N为10,Tmax等于5分钟(0-4分59秒),则第一个显示时间片为0-29秒,第二个显示时间片为30秒-59秒,以此类推,第N个显示时间片为4分30秒-4分59秒。
第二数量确定单元1112,用于根据所述至少一个显示时间片的数量,确定构建所述字幕特征序列的字幕元素的数量。
所述显示时间片的数量等于所述字幕元素的数量。第二数量确定单元1112可确定构建所述字幕特征序列的字幕元素的数量为N,即确定所述字幕特征序列由N个字幕元素构成。
第二索引确定单元1113,用于根据所述至少一个显示时间片中各显示时间片的顺序,确定构建所述字幕特征序列的各字幕元素的索引。
所述显示时间片的顺序与所述字幕元素的索引一一对应;具体地,第一个显示时间片的顺序为1,该第一个显示时间片对应的字幕元素的索引为1;第二个显示时间片的顺序为2,该第二个显示时间片对应的字幕元素的索引为2;以此类推,第N个显示时间片的顺序为,该第N个显示时间片对应的字幕元素的索引为N。
字幕元素赋值单元1114,用于根据所述各显示时间片与所述字幕文件中包含的字符的对应关系,设置构建所述字幕特征序列的各字幕元素的值。
所述字幕元素赋值单元1114可根据所述各显示时间片内是否包含显示字符,设置各字幕元素的值;具体地,若某显示时间片内包含显示字符,设置该显示时间片对应的字幕元素的值为1;若某显示时间片内仅包含空白字符,未包含显示字符,则设置该显示时间片对应的字幕元素的值为0。
第二构建单元1115,用于按照构建所述字幕特征序列的各字幕元素的值及索引,构建所述字幕文件的字幕特征序列。
所述字幕文件的字幕特征序列可采用Q(i)进行表示,Q(i)可采用图4b所示实施例中的公式(4)进行表示。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图11a,为本发明实施例提供的一种因子确定模块的结构示意图;该因子确定模块102可包括:音频移动单元1201、第一统计单元1202和第二统计单元1203。
音频移动单元1201,用于对所述音频特征序列进行循环移动,获得所述音频文件的音频转换序列。
所述音频转换序列可表示M(i-n),0≤n≤N-1。所述音频转换序列M(i-n)为所述音频特征序列M(i)循环移动n形成的序列。
第一统计单元1202,用于统计所述音频转换序列与所述字幕特征序列中等值元素的数量,获得第一相关因子。
所述第一相关因子可采用A进行表示,A代表所述音频转换序列M(i-n)与所述字幕特征序列Q(i)之间值相等的元素的数量。
第二统计单元1203,用于统计所述音频转换序列与所述字幕特征序列中非等值元素的数量,获得第二相关因子。
所述第二相关因子可采用D进行表示,D代表所述音频转换序列M(i-n)与所述字幕特征序列Q(i)之间值不等的元素的数量。
本实施例中,在获得第一相关因子A和第二相关因子D之后,所述相关运算模块103可采用图5a所示实施例中的公式(5)进行相关运算,获得相关函数序列R(n)。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图11b,为本发明实施例提供的另一种因子确定模块的结构示意图;该因子确定模块102可包括:字幕移动单元1211、第三统计单元1212和第四统计单元1213。
字幕移动单元1211,用于对所述字幕特征序列进行循环移动,获得所述字幕文件的字幕转换序列。
所述字幕转换序列可表示Q(i-n),0≤n≤N-1。所述字幕转换序列Q(i-n)为所述字幕特征序列Q(i)循环移动n形成的序列。
第三统计单元1212,用于统计所述音频特征序列与所述字幕转换序列中等值元素的数量,获得第三相关因子。
所述第三相关因子可采用A’进行表示,A’代表所述音频特征序列M(i)与所述字幕转换序列Q(i-n)之间值相等的元素的数量。
第四统计单元1213,用于统计所述音频特征序列与所述字幕转换序列中非等值元素的数量,获得第四相关因子。
所述第四相关因子可采用D’进行表示,D’代表所述音频特征序列M(i)与所述字幕转换序列Q(i-n)之间值不等的元素的数量。
本实施例中,在获得第三相关因子A’和第四相关因子D’之后,所述相关运算模块103可采用图5b所示实施例中的公式(6)进行相关运算,获得相关函数序列R(n)。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图12a,为本发明实施例提供的一种匹配检测模块的结构示意图;该匹配检测模块104可包括:最大值计算单元1401、第一判断单元1402和第一结果确定单元1403。
最大值计算单元1401,用于计算所述相关函数序列的最大值。
所述最大值计算单元1401可采用图6a所示实施例中的公式(7)计算所述相关函数序列的最大值RMAX。
第一判断单元1402,用于判断所述最大值是否大于或等于预设阈值。
所述预设阈值可表示为Thrd_error_1,所述预设阈值可根据实际情况进行设定。RMAX可用于体现所述音频文件与所述字幕文件的相关性,RMAX值越大,表明所述音频文件和所述字幕文件的相关性越高,所述音频文件和所述字幕文件越匹配;反之,RMAX值越小,表明所述音频文件和所述字幕文件的相关性越低,所述音频文件和所述字幕文件越不匹配。若所述第一判断单元1402判断所述最大值RMAX大于或等于所述预设阈值Thrd_error_1,表明所述音频文件与所述字幕文件的相关性较高;否则,表明所述音频文件与所述字幕文件的相关性较低。
第一结果确定单元1403,用于若所述最大值大于或等于所述预设阈值,确定所述音频文件与所述字幕文件相匹配;或者,用于若所述最大值小于所述预设阈值,确定所述音频文件与所述字幕文件不匹配。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
请参见图12b,为本发明实施例提供的另一种匹配检测模块的结构示意图;该匹配检测模块104可包括:时间差计算单元1411、第二判断单元1412和第二确定单元1413。
时间差计算单元1411,用于根据所述相关函数序列,计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差。
所述时间差计算单元1411可采用图6a所示实施例中的公式(7)获得的索引ind,计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差,具体地,所述时间差计算单元1411可采用图6b所示实施例中的公式(8)计算时间差Tdiff。
第二判断单元1412,用于判断所述时间差是否位于预设时间范围内。
所述预设时间范围可表示为(0,Thrd_error_2),所述预设时间范围可根据实际需要进行设定。所述第二判断单元1412需要判断时间差Tdiff是否位于所述预设时间范围(0,Thrd_error_2)内,若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)内,表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差在容错范围内,不影响浏览效果;若时间差Tdiff位于所述预设时间范围(0,Thrd_error_2)外,表明所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差超出容错范围内,影响浏览。
第二确定单元1413,用于若所述时间差位于所述预设时间范围内,确定所述音频文件与所述字幕文件相匹配;或者,用于若所述时间差位于所述预设时间范围外,确定所述音频文件与所述字幕文件不匹配。
再请参见图12b,可选地,所述匹配检测模块104还包括:校准处理单元1414。
校准处理单元1414,用于根据所述时间差,对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理。
若所述音频文件的播放时间较所述字幕文件的显示时间提前所述时间差Tdiff,所述校准处理单元1414则可使所述字幕文件的显示时间往后调整Tdiff,以与所述音频文件的播放时间统一;若所述音频文件的播放时间较所述字幕文件的显示时间落后所述时间差Tdiff,所述校准处理单元1414则可使所述字幕文件的显示时间往前调整Tdiff,以与所述音频文件的播放时间统一。
本发明实施例中,可根据音频文件的音频特征序列和字幕文件的字幕特征序列,构建相关函数序列;通过分析所述相关函数序列,了解所述音频文件与所述字幕文件之间的相关性,从而实现了对音频文件和字幕文件之间的匹配检测,既满足了用户对于音频文件的应用过程中的实际需求,又提升了音频文件的应用智能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (20)

1.一种匹配检测方法,其特征在于,包括:
构建音频文件的音频特征序列和字幕文件的字幕特征序列;
根据所述音频特征序列和所述字幕特征序列,确定相关因子;
采用所述相关因子进行相关运算,获得相关函数序列;
根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
2.如权利要求1所述的方法,其特征在于,所述构建音频文件的音频特征序列和字幕文件的字幕特征序列之前,还包括:
对所述音频文件和所述字幕文件进行预处理。
3.如权利要求2所述的方法,其特征在于,所述对所述音频文件和所述字幕文件进行预处理,包括:
获取所述音频文件的源播放时长和所述字幕文件的源显示时长;
选取所述源播放时长和所述源显示时长二者中的最大者,将所选取的最大者作为基准时长;
采用所述基准时长对所述音频文件的源播放时长进行归整处理,获得所述音频文件的目标播放时长;
采用所述基准时长对所述音频文件的源显示时长进行归整处理,获得所述字幕文件的目标显示时长。
4.如权利要求3所述的方法,其特征在于,所述构建音频文件的音频特征序列,包括:
按照预设时间刻度对所述音频文件的目标播放时长进行等分处理,获得至少一个播放时间片;
根据所述至少一个播放时间片的数量,确定构建所述音频特征序列的音频元素的数量;
根据所述至少一个播放时间片中各播放时间片的顺序,确定构建所述音频特征序列的各音频元素的索引;
计算所述各播放时间片内的能量;
根据所述各播放时间片内的能量,设置构建所述音频特征序列的各音频元素的值;
按照构建所述音频特征序列的各音频元素的值及索引,构建所述音频文件的音频特征序列。
5.如权利要求4所述的方法,其特征在于,所述构建字幕文件的字幕特征序列,包括:
按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理,获得至少一个显示时间片;
根据所述至少一个显示时间片的数量,确定构建所述字幕特征序列的字幕元素的数量;
根据所述至少一个显示时间片中各显示时间片的顺序,确定构建所述字幕特征序列的各字幕元素的索引;
根据所述各显示时间片与所述字幕文件中包含的字符的对应关系,设置构建所述字幕特征序列的各字幕元素的值;
按照构建所述字幕特征序列的各字幕元素的值及索引,构建所述字幕文件的字幕特征序列。
6.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述音频特征序列和所述字幕特征序列,确定相关因子,包括:
对所述音频特征序列进行循环移动,获得所述音频文件的音频转换序列;
统计所述音频转换序列与所述字幕特征序列中等值元素的数量,获得第一相关因子;
统计所述音频转换序列与所述字幕特征序列中非等值元素的数量,获得第二相关因子。
7.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述音频特征序列和所述字幕特征序列,确定相关因子,包括:
对所述字幕特征序列进行循环移动,获得所述字幕文件的字幕转换序列;
统计所述音频特征序列与所述字幕转换序列中等值元素的数量,获得第三相关因子;
统计所述音频特征序列与所述字幕转换序列中非等值元素的数量,获得第四相关因子。
8.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测,包括:
计算所述相关函数序列的最大值;
判断所述最大值是否大于或等于预设阈值;
若所述最大值大于或等于所述预设阈值,确定所述音频文件与所述字幕文件相匹配;
若所述最大值小于所述预设阈值,确定所述音频文件与所述字幕文件不匹配。
9.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测,包括:
根据所述相关函数序列,计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差;
判断所述时间差是否位于预设时间范围内;
若所述时间差位于所述预设时间范围内,确定所述音频文件与所述字幕文件相匹配;
若所述时间差位于所述预设时间范围外,确定所述音频文件与所述字幕文件不匹配。
10.如权利要求9所述的方法,其特征在于,所述确定所述音频文件与所述字幕文件相匹配之后,还包括:
根据所述时间差,对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理。
11.一种匹配检测装置,其特征在于,包括:
构建模块,用于构建音频文件的音频特征序列和字幕文件的字幕特征序列;
因子确定模块,用于根据所述音频特征序列和所述字幕特征序列,确定相关因子;
相关运算模块,用于采用所述相关因子进行相关运算,获得相关函数序列;
匹配检测模块,用于根据所述相关函数序列,对所述音频文件和所述字幕文件进行匹配检测。
12.如权利要求11所述的装置,其特征在于,还包括:
预处理模块,用于对所述音频文件和所述字幕文件进行预处理。
13.如权利要求12所述的装置,其特征在于,所述预处理模块包括:
时长获取单元,用于获取所述音频文件的源播放时长和所述字幕文件的源显示时长;
基准选取单元,用于选取所述源播放时长和所述源显示时长二者中的最大者,将所选取的最大者作为基准时长;
第一归整单元,用于采用所述基准时长对所述音频文件的源播放时长进行归整处理,获得所述音频文件的目标播放时长;
第二归整单元,用于采用所述基准时长对所述音频文件的源显示时长进行归整处理,获得所述字幕文件的目标显示时长。
14.如权利要求13所述的装置,其特征在于,所述构建模块包括:
播放时长处理单元,用于按照预设时间刻度对所述音频文件的目标播放时长进行等分处理,获得至少一个播放时间片;
第一数量确定单元,用于根据所述至少一个播放时间片的数量,确定构建所述音频特征序列的音频元素的数量;
第一索引确定单元,用于根据所述至少一个播放时间片中各播放时间片的顺序,确定构建所述音频特征序列的各音频元素的索引;
能量计算单元,用于计算所述各播放时间片内的能量;
音频元素赋值单元,用于根据所述各播放时间片内的能量,设置构建所述音频特征序列的各音频元素的值;
第一构建单元,用于按照构建所述音频特征序列的各音频元素的值及索引,构建所述音频文件的音频特征序列。
15.如权利要求14所述的装置,其特征在于,所述构建模块包括:
显示时长处理单元,用于按照预设时间刻度对所述字幕文件的目标显示时长进行等分处理,获得至少一个显示时间片;
第二数量确定单元,用于根据所述至少一个显示时间片的数量,确定构建所述字幕特征序列的字幕元素的数量;
第二索引确定单元,用于根据所述至少一个显示时间片中各显示时间片的顺序,确定构建所述字幕特征序列的各字幕元素的索引;
字幕元素赋值单元,用于根据所述各显示时间片与所述字幕文件中包含的字符的对应关系,设置构建所述字幕特征序列的各字幕元素的值;
第二构建单元,用于按照构建所述字幕特征序列的各字幕元素的值及索引,构建所述字幕文件的字幕特征序列。
16.如权利要求11-15任一项所述的装置,其特征在于,所述因子确定模块包括:
音频移动单元,用于对所述音频特征序列进行循环移动,获得所述音频文件的音频转换序列;
第一统计单元,用于统计所述音频转换序列与所述字幕特征序列中等值元素的数量,获得第一相关因子;
第二统计单元,用于统计所述音频转换序列与所述字幕特征序列中非等值元素的数量,获得第二相关因子。
17.如权利要求11-15任一项所述的装置,其特征在于,所述因子确定模块包括:
字幕移动单元,用于对所述字幕特征序列进行循环移动,获得所述字幕文件的字幕转换序列;
第三统计单元,用于统计所述音频特征序列与所述字幕转换序列中等值元素的数量,获得第三相关因子;
第四统计单元,用于统计所述音频特征序列与所述字幕转换序列中非等值元素的数量,获得第四相关因子。
18.如权利要求11-15任一项所述的装置,其特征在于,所述匹配检测模块包括:
最大值计算单元,用于计算所述相关函数序列的最大值;
第一判断单元,用于判断所述最大值是否大于或等于预设阈值;
第一结果确定单元,用于若所述最大值大于或等于所述预设阈值,确定所述音频文件与所述字幕文件相匹配;或者,用于若所述最大值小于所述预设阈值,确定所述音频文件与所述字幕文件不匹配。
19.如权利要求11-15任一项所述的装置,其特征在于,所述匹配检测模块包括:
时间差计算单元,用于根据所述相关函数序列,计算所述音频文件的播放时间与所述字幕文件的显示时间之间的时间差;
第二判断单元,用于判断所述时间差是否位于预设时间范围内;
第二确定单元,用于若所述时间差位于所述预设时间范围内,确定所述音频文件与所述字幕文件相匹配;或者,用于若所述时间差位于所述预设时间范围外,确定所述音频文件与所述字幕文件不匹配。
20.如权利要求19所述的装置,其特征在于,所述匹配检测模块还包括:
校准处理单元,用于根据所述时间差,对所述音频文件的播放时间和所述字幕文件的显示时间进行校准处理。
CN201410362558.4A 2014-07-28 2014-07-28 一种匹配检测方法及装置 Active CN104142989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410362558.4A CN104142989B (zh) 2014-07-28 2014-07-28 一种匹配检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410362558.4A CN104142989B (zh) 2014-07-28 2014-07-28 一种匹配检测方法及装置

Publications (2)

Publication Number Publication Date
CN104142989A true CN104142989A (zh) 2014-11-12
CN104142989B CN104142989B (zh) 2017-10-17

Family

ID=51852163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410362558.4A Active CN104142989B (zh) 2014-07-28 2014-07-28 一种匹配检测方法及装置

Country Status (1)

Country Link
CN (1) CN104142989B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882152A (zh) * 2015-05-18 2015-09-02 广州酷狗计算机科技有限公司 生成歌词文件的方法及装置
CN106055659A (zh) * 2016-06-01 2016-10-26 腾讯科技(深圳)有限公司 一种歌词数据匹配方法及其设备
WO2017181852A1 (zh) * 2016-04-19 2017-10-26 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置、存储介质
WO2022177509A1 (zh) * 2021-02-19 2022-08-25 脸萌有限公司 歌词文件生成方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127210A (zh) * 2007-09-20 2008-02-20 Ut斯达康通讯有限公司 实现歌曲播放过程中歌词同步的方法和装置
CN101615417A (zh) * 2009-07-24 2009-12-30 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
US20100142925A1 (en) * 2008-12-04 2010-06-10 Yasuharu Asano Data processing device, data processing method, and program
CN101751967A (zh) * 2008-12-05 2010-06-23 康佳集团股份有限公司 多媒体文件制作及播放方法、多媒体文件制作装置、播放器
CN101808202A (zh) * 2009-02-18 2010-08-18 联想(北京)有限公司 实现影音文件中声音与字幕同步的方法、设备和计算机
CN102290081A (zh) * 2011-06-27 2011-12-21 深圳市基思瑞科技有限公司 语言学习播放控制方法
CN102630017A (zh) * 2012-04-10 2012-08-08 中兴通讯股份有限公司 一种移动多媒体广播字幕同步的方法和系统
CN102868822A (zh) * 2012-09-24 2013-01-09 广东欧珀移动通信有限公司 一种移动终端实施的歌词显示方法
CN103442001A (zh) * 2013-08-22 2013-12-11 百度在线网络技术(北京)有限公司 信息推荐方法、装置和服务器
CN103647909A (zh) * 2013-12-16 2014-03-19 宇龙计算机通信科技(深圳)有限公司 字幕调节方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127210A (zh) * 2007-09-20 2008-02-20 Ut斯达康通讯有限公司 实现歌曲播放过程中歌词同步的方法和装置
US20100142925A1 (en) * 2008-12-04 2010-06-10 Yasuharu Asano Data processing device, data processing method, and program
CN101751967A (zh) * 2008-12-05 2010-06-23 康佳集团股份有限公司 多媒体文件制作及播放方法、多媒体文件制作装置、播放器
CN101808202A (zh) * 2009-02-18 2010-08-18 联想(北京)有限公司 实现影音文件中声音与字幕同步的方法、设备和计算机
CN101615417A (zh) * 2009-07-24 2009-12-30 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
CN102290081A (zh) * 2011-06-27 2011-12-21 深圳市基思瑞科技有限公司 语言学习播放控制方法
CN102630017A (zh) * 2012-04-10 2012-08-08 中兴通讯股份有限公司 一种移动多媒体广播字幕同步的方法和系统
CN102868822A (zh) * 2012-09-24 2013-01-09 广东欧珀移动通信有限公司 一种移动终端实施的歌词显示方法
CN103442001A (zh) * 2013-08-22 2013-12-11 百度在线网络技术(北京)有限公司 信息推荐方法、装置和服务器
CN103647909A (zh) * 2013-12-16 2014-03-19 宇龙计算机通信科技(深圳)有限公司 字幕调节方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882152A (zh) * 2015-05-18 2015-09-02 广州酷狗计算机科技有限公司 生成歌词文件的方法及装置
CN104882152B (zh) * 2015-05-18 2018-04-10 广州酷狗计算机科技有限公司 生成歌词文件的方法及装置
WO2017181852A1 (zh) * 2016-04-19 2017-10-26 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置、存储介质
US10719551B2 (en) 2016-04-19 2020-07-21 Tencent Technology (Shenzhen) Company Limited Song determining method and device and storage medium
CN106055659A (zh) * 2016-06-01 2016-10-26 腾讯科技(深圳)有限公司 一种歌词数据匹配方法及其设备
WO2022177509A1 (zh) * 2021-02-19 2022-08-25 脸萌有限公司 歌词文件生成方法及装置

Also Published As

Publication number Publication date
CN104142989B (zh) 2017-10-17

Similar Documents

Publication Publication Date Title
EP2685450B1 (en) Device and method for recognizing content using audio signals
US10818320B2 (en) Looping audio-visual file generation based on audio and video analysis
US20180366097A1 (en) Method and system for automatically generating lyrics of a song
US8886635B2 (en) Apparatus and method for recognizing content using audio signal
CN104142989A (zh) 一种匹配检测方法及装置
CN105190618B (zh) 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
US9613605B2 (en) Method, device and system for automatically adjusting a duration of a song
US20130006627A1 (en) Method and System for Communicating Between a Sender and a Recipient Via a Personalized Message Including an Audio Clip Extracted from a Pre-Existing Recording
CN103988193A (zh) 管理同步内容的播放
CN103999150A (zh) 媒体数据中的低复杂度重复检测
CN103714104B (zh) 使用环境上下文回答问题
CN104602130A (zh) 实现交互式广告的方法及系统
US11386876B2 (en) Method for extracting big beat information from music beat points, storage medium and terminal
CN101641696A (zh) 响应于搜索查询来标识可执行场景解决方案
US11328699B2 (en) Musical analysis method, music analysis device, and program
CN114495128B (zh) 字幕信息检测方法、装置、设备以及存储介质
CN103854661A (zh) 一种提取音乐特征的方法及装置
CN110688560A (zh) 一种信息推荐的方法和装置
CN104143340B (zh) 一种音频测评方法及装置
US20240054157A1 (en) Song recommendation method and apparatus, electronic device, and storage medium
CN104882152A (zh) 生成歌词文件的方法及装置
CN104778220B (zh) 一种清唱歌曲拼接的方法及装置
CN107622775A (zh) 含噪声歌曲拼接的方法及相关产品
CN112784016A (zh) 一种检测言论信息的方法与设备
CN105590633A (zh) 一种用于歌曲评分的曲谱生成方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161124

Address after: 510000 Guangzhou, Tianhe District branch Yun Yun Road, No. 16, self built room 2, building 1301

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: No. 315, Huangpu Avenue middle, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.

Address before: 510000 room 1301, building 2, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.