CN105657535A

CN105657535A - 一种音频识别方法和装置

Info

Publication number: CN105657535A
Application number: CN201511017807.7A
Authority: CN
Inventors: 姚光超
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-08
Anticipated expiration: 2035-12-29
Also published as: WO2017113973A1; CN105657535B

Abstract

本申请公开了一种音频识别方法和装置，涉及音频技术领域。所述方法包括：从视频文件的源数据中截取第一时间长度的音频流；依据所述第一时间长度的音频流检索得到对应的音频信息，并展示给用户；所述依据所述第一时间长度的音频流检索得到对应的音频信息包括：按照预设的规则将所述音频流划分为至少两个子音频流；对划分得到的子音频流依次进行检索，以获取音频信息。本申请可以直接从当前播放的视频源数据中提取音频流以进行检索，没有额外的录音操作，不受嘈杂环境的影响，操作简单，准确率高，检索过程不影响用户对视频的正常观看，能够提高检索效率以及检索成功率。

Description

一种音频识别方法和装置

技术领域

本申请涉及音频技术领域，特别是涉及一种音频识别方法和装置。

背景技术

现在通过网络观看视频的用户越来越多，比如通过PC端的浏览器或者视频播放器观看网络视频，或者通过移动终端的浏览器或者视频播放器观看网络视频。但是在用户观看视频的过程中可能会遇到如下情况：视频播放中有一段很好听的背景音乐或插曲，用户很想知道该背景音乐的详细信息。但是现有技术中，用户如果需要知道该背景音乐的详细信息，其可能存在如下获取手段：

1、用户根据视频名称，在搜索引擎中进行查询。

2、用户记住背景音乐的歌词，将歌词输入到搜索引擎中，查询背景音乐的信息。

3、用户哼唱一段背景音乐，终端对该背景音乐进行录音，然后通过录音再去音频搜索引擎中检索音乐信息。

4、选取需要播放背景音乐的那段视频，对其进行录音，然后通过录音再去音频搜索引擎中检索音乐信息。

上述第1、2种方式根据关键字进行搜索，但是操作繁琐，需要用户在检索结果中不断进行查看-筛选操作，如果遇到小众音乐，还可能检索不到。

上述第3、4种方式虽然可以解决第1、2种方式检索繁琐以及检索不到的问题，但是需要用户手动进行录音，再进行检索，操作麻烦。且第3、4种方式是以录音方式进行的，如果录音环境的噪声很大，通过该录音去检索的准确率很低。另外，第3、4种方式在很多场合下应用很不方便，比如用户在移动终端中观看视频，如果要进行语音录制，则必须切换到录制软件中才能完成录音，进而完成检索，因此会中断用户观看视频的过程。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题的音频识别方法和相应的音频识别装置。

依据本发明第一方面，提供了一种音频识别方法，包括：

从视频文件的源数据中截取第一时间长度的音频流；

依据所述第一时间长度的音频流检索得到对应的音频信息，并展示给用户；

所述依据所述第一时间长度的音频流检索得到对应的音频信息包括：

按照预设的规则将所述音频流划分为至少两个子音频流；

对划分得到的子音频流依次进行检索，以获取音频信息。

优选的，所述从视频文件的源数据中截取第一时间长度的音频流，依据所述第一时间长度的音频流检索得到对应的音频信息，包括：

从所述视频文件的源数据中，依次截取所述第一时间长度的音频流；

对截取得到的各音频流进行检索，分别得到各音频流对应的音频信息。

优选的，在所述从视频文件的源数据中截取第一时间长度的音频流之前，所述方法还包括：

在视频播放的过程中，接收对背景音乐的识别指令；

则，所述从视频文件的源数据中截取第一时间长度的音频流，包括：

以所述识别指令的接收时间或所述接收时间往前一定时间段的时间为截取起始时间，从当前视频文件的源数据中截取所述第一时间长度的音频流。

优选的，在所述依据所述第一时间长度的音频流检索得到对应的音频信息之后，所述方法还包括：

记录所述音频信息以及所述音频信息的起始位置；所述音频信息的位置为所述音频流的截取起始时间；

在所述视频文件再次播放至所述音频信息的起始位置时，展示所述音频信息。

判断是否存在起始位置与当前截取起始时间的差值小于预设第一阈值的音频信息；

如果存在，则将所述音频信息展示给用户；

如果不存在，执行所述从视频文件的源数据中截取第一时间长度的音频流的步骤。

优选的，在依据所述第一时间长度的音频流检索得到对应的音频信息之前，所述方法还包括：

根据所述视频文件的类型，选择相应的去噪包对所述音频流进行噪声过滤。

优选的，所述对划分得到的子音频流依次进行检索，以获取音频信息，包括：

从划分得到的第一个子音频流开始检索；

如果检索得到对应的音频信息，则停止对下一个子音频流进行检索；

如果未检索到对应的音频信息，则对下一个子音频流进行检索，直至检索得到对应的音频信息。

提取所述子音频流的指纹特征；

依据所述指纹特征查找指纹索引库，获得所述子音频流对应的音频信息；其中，所述指纹特征包括两个能量峰值的频率、时间差和能量比。

优选的，所述提取所述子音频流的指纹特征，依据所述指纹特征查找指纹索引库，获得所述子音频流对应的音频信息，包括：

从所述子音频流对应的频谱图中选定各能量峰值以及各能量峰值对应的目标区域；

将每个能量峰值以及所述能量峰值对应的目标区域中包括的所有能量峰值进行两两组合，构造所述指纹特征；

基于所述指纹特征查找指纹索引库，获得与所述指纹特征对应的原始音乐的音频信息，作为所述子音频流对应的音频信息。

优选的，所述方法还包括

从原始音乐对应的频谱图中选定各能量峰值以及各能量峰值对应的目标区域；

将每个能量峰值以及所述能量峰值对应的目标区域中包括的所有能量峰值进行两两组合，构造所述原始音乐的指纹特征；

建立所述原始音乐、所述原始音乐的音频信息以及所述原始音乐的指纹特征之间的关联，并保存在所述指纹索引库中。

本发明第二方面，提供一种音频识别装置，包括：

音频流截取模块，适于从视频文件的源数据中截取第一时间长度的音频流；

检索模块，适于依据所述第一时间长度的音频流检索得到对应的音频信息；

展示模块，适于将所述检索得到的音频信息展示给用户；

所述检索模块包括：音频流划分子模块和第一检索子模块；

所述音频流划分子模块，适于按照预设的规则将所述音频流划分为至少两个子音频流；

所述第一检索子模块，适于对划分得到的子音频流依次进行检索，以获取音频信息。

本发明第三方面，提供一种用于音频识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从视频文件的源数据中截取第一时间长度的音频流；

按照预设的规则将所述音频流划分为至少两个子音频流；

对划分得到的子音频流依次进行检索，以获取音频信息。

相对现有技术，本发明具备如下优点：

1、本发明可以直接从当前播放的视频源数据中提取音频流以进行检索，没有额外的录音操作，不受嘈杂环境的影响，操作简单，准确率高(识别速度快)。

2、本发明在视频播放界面的过程中，可以对视频播放终端已缓存的视频中截取音频流进行背景音乐的检索，其是在后台自动完成整个检索过程，不影响用户对视频的正常观看。

3、本发明可以将获取到的音频流按时间顺序分解为各子音频流，以各个子音频流的时间顺序依次去检索，从而能够加快检索速度，提高检索效率以及检索成功率。

附图说明

图1示出了本申请一种音频识别方法的流程示意图；

图1A示出了音频流转换到频域后的立体的频谱图；

图1B示出了图2的频谱图的时间-频率平面图；

图1C示出了本申请的指纹索引结构示例；

图1D示出了本申请的检索到的各原始音乐的排序示例；

图2示出了本申请另一种音频识别方法的流程示意图；

图3示出了本申请另一种视频播放器中音频识别方法的流程示意图；

图4示出了本申请另一种浏览器中音频识别方法的流程示意图；

图5示出了本申请一种音频识别装置的结构示意图；

图6示出了本申请另一种视频播放器的结构示意图；

图7示出了本申请另一种浏览器的结构示意图；

图8示出了本申请一种音频识别装置的结构示意图；

图9是本发明实施例中服务器的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本发明的核心思想之一在于，为了方便用户在观看视频的过程中获取其关注的背景音乐的详细信息，而又不中断视频的播放，本发明实施例中，视频播放终端可以从已缓存视频的源数据中截取音频流，再基于该音频流自动去搜索引擎检索相应背景音乐的音频信息。本发明公开的方法中，对视频的背景音乐的识别不需用户进行繁琐的操作，且在背景音乐识别过程中不会中断用户对视频的观看过程；同时，本发明采用视频文件中原始的音频流进行识别，没有额外的环境噪声的干扰，识别准确率高；另外，本发明可以将获取到的音频流按时间顺序分解为各子音频流，以各个子音频流的时间顺序依次去检索，从而能够加快检索速度，提高检索效率以及检索成功率。

实施例

参照图1，其示出了一种音频识别方法的流程示意图，具体可以包括：

步骤110，从视频文件的源数据中截取第一时间长度的音频流；

需要说明的是，本发明实施例中，该视频文件可以是从各视频网站上抓取得到的。具体的，提前爬取网络上的所有的视频文件，对每个视频文件，从该视频文件的源数据中截取第一时间长度的音频流，对该音频流进行音频信息识别。

本发明另一实施例中，该视频文件也可以是用户当前正在播放的视频文件。具体的，当用户正在观看某视频文件时，对当前正在播放的视频的背景音乐很感兴趣，则可以触发对该背景音乐进行识别的操作；接收到该识别指令后，从当前正在播放的视频文件的源数据中截取第一时间长度的音频流，对该音频流进行音频信息识别。

在本发明另一优选的实施例中，所述步骤110包括子步骤A11：

子步骤A11，从所述视频文件的源数据中，依次截取所述第一时间长度的音频流。

在本发明实施例中，在所述视频文件的源数据中，可以按时间顺序依次截取所述第一时间长度的音频流，以进行后续的检索过程。

优选的，子步骤A11包括子步骤A111：

子步骤A111，从视频文件的源数据中，按序截取第一时间长度的音频流。

在本发明实施例中，对于抓取得到的视频文件，比如视频文件的长度为00:00:00—00:10:00，可以设定第一时间长度1分钟。那么首先可以从其00:00开始，从其源数据中截取00:00:00—00:00:59的音频流；下一次则可以从00:01:00开始，截取00:01:00—00:01:59的音频流；再下一次，从00:02:00开始，截取00:02:00—00:02:59的音频流；依次类推。

在实际应用中，为了避免背景音乐丢失，可以交叉截取所述第一时间长度的音频流。例如：从其00:00开始，从其源数据中截取00:00:00—00:00:59的音频流，下一次则可以从00:00:49开始，截取00:00:49—00:01:59的音频流；再下一次，从00:01:49开始，截取00:01:49—00:02:59的音频流；依次类推

在本发明实施例中音频截取指令可为：/ffmepg–ivideo_file–v8–n–ar8000–ac1–vnaudio_file，其中-i指定视频文件，-v指定log打印等级，-n避免覆盖，-ar表示音频的采样率，-ac表示声道个数，-vn表示禁止产生视频，audio_file指定输出的音频文件名。在本发明实施例中，必选字段是-i，-vn，即可截取音频流，其他字段可以根据需要进行设置。

步骤120，依据所述第一时间长度的音频流检索得到对应的音频信息，并展示给用户。

在本发明实施例中，客户端在从源数据中截取了第一长度的音频流之后，可以依据该音频流去服务器中间色相应的音频信息，服务器如果检索到音频信息，则返回给客户端，客户端则可以展示该音频信息。

进一步的，本发明实施例中，对于检索得到的音频信息可以建立该视频文件的ID、该音频信息以及该音频信息的起始位置之间的对应关系，并将该对应关系保存在数据库中。用户点击播放该视频文件时，当视频文件播放至某个音频信息的起始位置对应的时间点时，可以自动从数据库中依据该时间点找到对应的音频信息，并加载该音频信息，并展示给用户。

其中，该视频文件的ID可以为所述视频文件的MD5值、或网址链接、或视频名称等，在此不做限定。

需要说明的是，很多时候对于一个视频文件，可能会检索得到多个音频信息，则可以记录每个音频信息以及该音频信息对应的起始位置，并在该视频文件的进度条上各音频信息的起始位置对应的时间点上显示标记，该标记用于向用户表明该处有背景音乐，且当前是视频文件可以提供该背景音乐的音频信息。当用户点击播放该视频文件至各标记位置时，可以自动从数据库中依据该时间点找到对应的音频信息，自动加载该标记对应的音频信息并展示给用户。进一步的，通过该标记，用户也可以直接将播放进度拉倒该标记处，查看该处背景音乐对应的音频信息。

其中，所述音频信息的起始位置即为该音频信息对应的音频流的截取起始时间。

例如，仍以上述长度为00:00:00—00:10:00的视频文件为例进行说明。假设通过截取并检索，可以确定，该视频文件包括3段背景音乐并分别检索得到了对应的音频信息，假设各音频信息对应的音频流的截取起始时间分别为00:02:00、00:05:00以及00:08:00，则可以在该视频文件的进度条上分别标记该三处音频信息。具体的，在进度条上，00:02:00对应的位置处做标记1，当用户视频文件文件至该标记1位置时，加载起始位置为00:02:00的音频信息并展示给用户；在进度条上，00:05:00对应的位置处做标记2，当用户视频文件文件至该标记2位置时，加载起始位置为00:05:00的音频信息并展示给用户；在进度条上，00:08:00对应的位置处做标记3，当用户视频文件文件至该标记3位置时，加载起始位置为00:08:00的音频信息并展示给用户。优选的，在子步骤A11的基础上，步骤120的依据所述第一时间长度的音频流检索得到对应的音频信息包括；

子步骤A12，对截取得到的各音频流进行检索，分别得到各音频流对应的音频信息。

由于不确定视频文件的哪个具体阶段包括背景音乐，则可以通过采用连续截取的方式对视频文件中的音频流进行截取，可以避免遗漏对背景音乐的检索。比如例如对于一个视频文件，从0开始，截取第一个1分钟的音频流，然后根据该音频流去检索音频信息，如果检索到音频信息则建立该视频文件ID、截取起始时间点与该音频信息的对应关系，保存在数据库中；如果没有检索到音频信息，则再截取第二个1分钟，再根据该音频流去检索音频信息，如果检索到音频信息，则建立视频文件ID、该截取起始时间点与该音频信息的对应关系，保存在数据库中。

进一步的，为了避免背景音乐的遗漏，可以采用交叉截取的方式对视频文件中的音频流进行截取。具体包括：截取的后一段音频流可以与前一段音频流具有重复的音频片段。比如第一次截取了00:00:00—00:00:59的音频流，第二次则可截取00:00:49—00:01:59的音频流，第三次可以截取00:01:49—00:02:59的音频流。依次类推。本发明对交叉的时间长度不加以限制，可以根据实际需求设定。

其中，步骤120中所述依据所述第一时间长度的音频流检索得到对应的音频信息可以包括步骤121和步骤122：

步骤121，按照预设的规则将所述音频流划分为至少两个子音频流；

可以理解，对于从一个视频文件中提取的第一时间长度的音频流，该音频流时间长度可能比较长，比如1分钟，如果通过该音频流去检索音频信息，会使得计算量比较大，检索时间比较长。

那么，本发明实施例中，对于第一时间长度的音频流，本发明可以将其划分为若干个子音频流。当然，划分后的各子音频流的时长可以相同，也可以不同。

例如，可以按照预设的第一时间长度对该音频流进行划分，得到若干个相同时间长度的子音频流，且每个子音频流的时长均为该第一时间长度。比如第一时间长度为00:10:00-00:11:00的音频流，则可按第一时间长度10s对该音频流进行划分，即00:10:00-00:10:10为第一个子音频流，00:10:11-00:10:20为第二个子音频流，依此类推。

步骤122，对划分得到的子音频流依次进行检索，以获取音频信息。

本发明实施例可以按时间顺序逐个根据每个子音频流去检索音频信息，当根据某个子音频流检索到音频信息之后，则不再使用该子音频流之后的子音频流去检索。

优选的，步骤122包括：子步骤A21。

子步骤A21，从划分得到的第一个子音频流开始检索；如果检索得到对应的音频信息，则停止对下一个子音频流进行检索；如果未检索到对应的音频信息，则对下一个子音频流进行检索，直至检索得到对应的音频信息。

在本发明实施例中，对于划分得到的子音频流，为了降低资源消耗，在从第一个子音频流开始检索后，如果检索得到对应的音频信息，就不再进行下一次检索，反之，才进行下一次检索。

在实际应用中，客户端是按照预设的顺序将划分得到的子音频流依次发送至服务器，使得服务器依据接收到的子音频流进行检索，直至检索到所述音频流对应的音频信息。

在本发明实施例中，对于前述第一时间长度的子音频流，客户端可以按时间顺序依次将各个子音频流发送给服务器，由服务器根据接收到的子音频流进行检索；如果服务器根据接收到的某个子音频流检索到音频信息，则将该检索到的音频信息返回给客户端，客户端接收到该音频信息后，则不用再继续发送后续的子音频流至服务器；如果服务器根据当前接收到的子音频流未检索到音频信息，则返回未检索到的通知信息给客户端，客户端接收到该未检索到的通知信息后，则继续发送后续的子音频流到服务器，服务器继续进行检索，直到检索到该音频流对应的音频信息为止，客户端才不会再发送后续子音频流到服务器。

本发明其他实施例中，如果服务器根据当前接收到的子音频流未检索到音频信息，也可以不返回任何信息给客户端；客户端未接收到服务器返回的音频信息时，就会持续发送后续的子音频流到服务器，服务器继续进行检索，直到客户端接收到服务器返回的检索到的音频信息并确认该音频信息无误为止，客户端才会停止发送后续子音频流到服务器。

比如客户端将第一个00:10:00-00:10:10的子音频流发送至服务器以进行检索，如果没有从服务器得到对应的音频信息，则继续发送第二个00:10:11-00:10:20的子音频流到服务器以进行检索，如果从服务器得到了对应的音频信息，则不再发送第三个子音频流，如果仍未从服务器得到对应的音频信息，则继续发送第三个00:10:21-00:10:30的子音频流到服务器以进行检索，以此类推，直至从服务器得到对应的音频信息为止。

步骤121-步骤122实现了对较大的音频流进行分包，从而可以利用短时长的子音频流在服务器中进行检索，从而能够加快检索速度，提高检索效率。

优选的，在本发明另一实施例中，步骤122中对划分得到的子音频流依次进行检索，以获取音频信息，还可以包括子步骤M121-M122：

子步骤M121，提取所述子音频流的指纹特征；所述指纹特征包括两个能量峰值的频率、时间差和能量比；

子步骤M122，依据所述指纹特征查找指纹索引库，获得所述子音频流对应的音频信息。

在本发明实施例中，可以预先针对各种原始音乐的音频信息构建指纹索引。对于上述子音频流，可以从该子音频流中提取指纹，从而可根据该指纹查找指纹索引，获得对应的音频信息。

可以理解，由于指纹索引比较庞大，可以将其存放于服务器中，减少客户端的存储空间的占用。

在本发明实施例中，可以预先针对各个原始音乐，获取每个原始音乐的指纹以构建指纹索引，该指纹索引对应该原始音频的音频信息。

其中，所述指纹包括：两个能量峰值的频率、时间差和能量比。

优选的，步骤122之前，还包括子步骤S101至子步骤S103：

子步骤S101，从原始音乐对应的频谱图中选定各能量峰值以及各能量峰值对应的目标区域。

在实际应用中，本发明实施例先获取对应原始音乐的频谱图，然后从该频谱图中选定各能量峰值以及各能量峰值对应的目标区域。具体的，子步骤S101可以通过子步骤S11至S13来实现：

子步骤S11，对于每个原始音乐，将时域的原始音乐采用快速傅里叶变换变换到频域，得到频谱图。

原始音乐的音频流一般是波形音乐，其是时域的音频流。那么本步骤将波形音乐由时域变换到频域，变换之后会得到一个频谱图，如图1A所示，频谱图是一个三维图，X坐标是时间，Y坐标是频率，Z坐标是能量。如图1B所示，其是图1A的平面图。

子步骤S12，按指定规则从频谱图中选定一系列能量峰值。

能量峰值如图1A的黑点所示。其中选定能量峰值的指定规则本发明不对其加以限定，可根据不同的方法和参数选定的不同的中心能量峰值。所述指定规则包括选定大于一定能量阈值的能量峰值，以该能量峰值为参考能量峰值，以在后续使用。

子步骤S13，针对每个选定的能量峰值，确定对应的目标区域。

其中，目标区域就是针对选定能量峰值构造指纹的范围，其中包括了各种能量峰值点。可以理解对于每个目标区域，本发明也可预先设定规则进行选择，比如在频谱图的XY平面，对于每个选定的能量峰值，选择其所在时间之后的一段时间长度，以及其所在频率的前、后预设频率阈值范围内的矩阵区域即为目标区域。

子步骤S102，将每个能量峰值以及所述能量峰值对应的目标区域中包括的所有能量峰值进行两两组合，构造所述原始音乐的指纹特征。

针对每个选定能量峰值，结合该能量峰值对应的目标区域范围内包括的所有能量峰值构造指纹。即将能量峰值和目标区域中的所有能量峰值两两组合，构造一个指纹。指纹至少由以下几部分构成：两个能量峰值的频率和两个能量峰值的时间差、两个能量峰值的能量比，同时每个指纹都有一个对应的时间，通过两个能量峰值的时间构造该指纹的时间，比如取两个能量峰值的时间的平均值为指纹的时间。当然，指纹还可包括其他参数，本发明不对其加以限制。

子步骤S103，建立所述原始音乐、所述原始音乐的音频信息以及所述原始音乐的指纹特征之间的关联，并保存在所述指纹索引库中。

对于每个指纹，其可能在N个原始音乐的指纹中出现。那么可以构造如图1C的倒排的指纹索引。即将每个指纹在各个音乐中出现的位置与该指纹进行对照，即一个指纹的索引列表可能出现一批原始音乐的相关信息。

在本发明实施例中，对于指纹的个数，采用相应长度的数组存储该指纹的参数。图1C中假设指纹的个数是24位，则分配一个长度是2²⁴的数组，然后每一个指纹都指向一个倒排列表。倒排列表中存储的是各个音乐id和该指纹在该首音乐中出现的时间点pos_i的组合，即(音乐ID，出现时间)，如(id1，pos₁)。当然，每个原始音乐ID可对应其具体的音频信息，比如名称、作者等。

本领域惯用技术手段中，对于指纹的构造，只从时间和频率两个维度去构造，能量对其来说只是选择构造点的一个参照物。其指纹只包括两个能量峰值的频率和两个能量峰值的时间差，以及指纹出现的时刻。但是该种指纹，对每个音乐，其指纹识别率低，可能同一个指纹出现在相对较多的多个原始音乐中，其构造的索引列表长，导致识别准确率低，检索时间长。而本发明指纹至少包括两个能量峰值的频率、时间差和能量比，以及指纹出现的时刻，对于每个原始音乐，由于指纹识别度高，同一个指纹出现在较少的原始音乐中，在匹配时准确率高，检索速度快。

比如对于只包括两个能量峰值的频率和两个能量峰值的时间差，以及指纹出现的时刻的指纹，其个数是20位，即指纹的个数为2²⁰-1个，本发明实施例加了两个能量峰值的能量比，由于参数增加，其个数是可能增加到24位，即指纹的个数增加到了2²⁴-1个(如图1C)。

那么对于同样总数的原始音乐，由于20位的指纹，其指纹中提取的参数少，那么每个指纹出现在的音乐中就可能很多，即每个指纹对应的倒排列表中的(音乐ID，出现时间)组合多，从而检索的(音乐ID，出现时间)组合多，而指纹本身少。而本发明实施例29位的指纹索引中，由于指纹中提取的参数多，那么每个指纹出现在的音乐中就相对的少，从而每个指纹对应的倒排列表中的(音乐ID，出现时间)组合少，从而检索的(音乐ID，出现时间)组合少，而指纹本身很多，那么相应的结果就是对指纹的识别率高，检索速度快。

当然，本发明实施例中，原始音乐的索引还可以采用其他形式，本发明不对其加以限制。

当然，步骤S101至子步骤S103还可以在步骤110之前，具体顺序本发明实施例不对其加以限制。

在上述指纹索引的基础之上，优选的，所述子步骤M121包括子步骤M1211至M1212：

子步骤M1211，从所述子音频流对应的频谱图中选定各能量峰值以及各能量峰值对应的目标区域。

在实际应用中，首先获取对应音频流的频谱图，然后从所述频谱图中选定各能量峰值以及对应各能量峰值对应的目标区域。

在实际中，可以通过如下子步骤P11至子步骤P13实现从音频流对应的频谱图中选定的各能量峰值以及各能量峰值对应的目标区域：

子步骤P11，将提取的音频流采用快速傅里叶变换从时域转换到频域，获取频谱图。

从视频源数据中提取的音频流一般是波形音乐，其是时域的音频流。那么本步骤将波形音乐由时域变换到频域，变换之后会得到一个频谱图。

对频谱图的获取类似子步骤S11的原理，在此不再赘叙。

子步骤P12，按指定规则从频谱图中选定一系列能量峰值。

对能量峰值的选定类似子步骤S12的原理，在此不再赘叙。

子步骤P13，针对每个选定的能量峰值，确定对应的目标区域。

对目标区域的确定类似子步骤S13的原理，在此不再赘叙。

子步骤M1212，将每个能量峰值以及所述能量峰值对应的目标区域中包括的所有能量峰值进行两两组合，构造所述指纹特征；

对指纹的构造类似子步骤S102的原理，在此不再赘叙。

进一步的，所述子步骤M122包括子步骤M1221：

子步骤M1221，基于所述指纹特征查找指纹索引库，获得与所述指纹特征对应的原始音乐的音频信息，作为所述子音频流对应的音频信息。

然后即可通过当前音频流的指纹，去查找指纹索引，在确定对应的原始音乐后，即可将原始音乐的音频信息返回给客户端。

优选的，子步骤M1221具体的可以包括子步骤P14至子步骤P16：

子步骤P14，针对每个指纹，在指纹索引中获取对应所述指纹的倒排列表。

即在类似图1C的指纹索引获取相应的倒排列表，比如对于指纹2，获取指纹2的倒排列表为(id3，pos₃)|(id4，pos₄)(id5，pos₅)……。

子步骤P15，将倒排列表中该指纹对应每个原始音乐的时间点与提取的指纹对应的时间点相减，如果时间差大于等于零，则将所述时间差保存到对应的原始音乐之下。

其中，对于截取的音频流，其时间可从0开始，那么每个指纹的提取时间则跟其在整个音频流的时间对应。

如图1C中，由于每个指纹可能对应多首原始音乐，相应的每首原始音乐对应多个指纹。

那么对于一个指纹对应的倒排列表中的原始音乐记录，其计算时间差之后则会分散到图1D中的多个原始音乐的列表中。如此，对于当前提取的指纹，对指纹索引中该指纹的倒排列表计算上述时间差之后，则会得到图1D的形式，每个原始音乐对应一系列的时间差。

子步骤P16，统计每首原始音乐中时间差相同的个数，并返回相同个数最多的原始音乐的音频信息。

在本发明实施例中，可以将时间差相同个数最多的原始音乐作为与当前背景音乐相匹配的原始音乐。

比如音乐1(id1)中时间差相同个数最多的为20个△t₁，其他的时间差相同个数均小于20个。音乐2(id2)中时间差相同个数最多的为8个△t₂，音乐3(id3)中时间差相同个数最多的为10个△t₃，其他所有音乐的时间差相同个数最多的均不超过20个。因此返回音乐1(id1)对应的原始音乐的音频信息给客户端。

进一步的，本发明还可通过引入其他信息来确定检索得到的背景音乐的音频信息的置信度，并建立该视频文件、音频信息、音频信息的起始位置以及该音频信息的置信度之间的对应关系，并保存在数据库中。当该视频文件播放时该音频信息的起始位置时，加载该音频信息以及该音频信息的置信度，并展示给用户。

将该音频信息的置信度展示给用户，以供用户参考，提高为用户提供背景音乐信息的客观度。例如可以在对音频流进行检索时，获取检索得到的音频信息的置信度，并将各音频信息的置信度记录在音频信息与视频文件的对应关系中，并保存在数据库中。当视频文件播放至该音频信息的起始位置时，自动加载该音频信息并显示给用户，同时向用户显示该音频信息的置信度，以提高该检索结果的客观度。

其中，该置信度可以通过指纹特征的比对结果来确定。当指纹特征的比对结果为非常匹配时，该置信度为高；当指纹特征的比对结果为较匹配时，该置信度为中；当指纹特征的比对结果为基本匹配时，该置信度可以为低。

进一步的，还可以向用户提供对该音频信息的评价打分接口，通过该接口用户可以对该音频信息的匹配度进行打分。需要说明的是，实际应用中，某些用户可能对当前播放的视频文件的某段背景音乐非常熟悉或有些印象，则当该用户看到后台提供并自动展示的该背景音乐的音频信息时，可以根据自己的认知对该音频信息与背景音乐的匹配度进行打分。例如，当用户确定该音频信息完全符合该背景音乐时，可以对匹配度打分较高；当用户确定基本不匹配时，可以打分较低。

进一步的，基于接收到用户对该音频信息的评价打分，对该音频信息的置信度进行修正，以提高该置信度的准确度。

优选的，在本发明另外一个实施例中，步骤120之前，还包括步骤115：

步骤115，根据所述视频文件的类型，选择相应的去噪包对所述音频流进行噪声过滤。

在本发明实施例中，截取的音频流可能包括各种噪音，比如枪战类视频中包括枪声、炮声、呐喊声等噪声，武侠类视频中包括：打斗声、马蹄声、兵器撞击声、呐喊声等噪声。在本发明实施例中，对于某个类型的视频，会预先设定一系列的去噪包。那么对于当前播放的视频，可以从视频来源的站点中获取视频对应的类型，然后调用该类型对应的一系列去噪包，对所述音频流去噪。

对于去噪包可以采用多种，在本发明实施例中主要是用音频分离技术(speechorsingingvoiceseparation)进行去噪。其中，对于人声的去噪可以采用通常的人声分离技术，在传统保留人声而遗弃背景音乐的思路之上，反其道而行之，保留背景音乐而遗弃人声，比如通过DBN(DeepBeliefNetwork，深度信念网络)和BP(Back-Propagation，反向传播)神经网络分离音频流中人声和背景音乐，然后保留背景音乐。对于，非人声的噪声可以采用模式识别模型进行过滤，比如HMM(HiddenMarkovModel，隐马尔可夫模型)，ICA(IndependentComponentAnalysis，独立成分分析模型)和NMF(Non-negativeMatrixFactorization，非负矩阵分解模型)。

在本发明实施例中对音频流的去噪过程可以在服务器执行。当然，也可以在客户端执行。

优选的，在步骤115之前还包括步骤114：

步骤114，针对不同的噪声，采集相应样本训练去噪包，并将各种去噪包按照类型进行标记。

可以理解，在本发明实施例中，在进行去噪之前，需要首先训练枪声、炮声、呐喊声、打斗声、马蹄声、兵器撞击声等各种噪声的去噪包。并按视频类型进行标记。

比如枪战类对应：枪声、炮声、呐喊声等去噪包。武打类对应：打斗声、马蹄声、兵器撞击声等去噪包。

一般来说，上述去噪包的训练为离线训练。可以理解，上述去噪包的训练可以理解为训练各种噪声的去噪模型，比如前述的DBN+BP神经网络模型、HMM模型、ICA模型、NMF模型等。

在本发明实施例中，对于人声，采集大量的带有人声的音乐素材，然后利用这些素材训练去噪包。比如前述DBN+BP神经网络模型，首先将一份音乐素材进行傅里叶变换获得初步特征；然后，利用前述初步特征带入DBN模型，利用所述DBN特征抽取模型抽取出有利于分离伴奏声和人声的高层抽象特征；将前述有利于分离伴奏声和人声的高层抽象特征作为的BP神经网络分离模型的输入，利用所述已训练得到的BP神经网络分离模型分离出伴奏声和人声特征；由BP神经网络分离模型输出的伴奏声和人声的特征得到伴奏声和人声。然后根据伴奏声和人声的误差修正DBN和BP神经网络的参数。当误差达到一定阈值后，则得到DBN和BP神经网络的人声去噪包。对于其他非人声的模型的训练类似，均是采用样本进行训练。

那么，对于本发明截取的音频流，则可以将其进行快速傅里叶变换，将变换后的结果，按序作为各种去噪模型的输入，通过模型分离噪声和背景音乐。

在本发明实施例中，对于音频流的去噪，可以采用串行的方式，一个个调用去噪包进行去噪。比如对于类型A的视频，其对应的去噪包可以包括：A1、A2、A3。

那么对于从类型A的视频中截取的音频流B，将其进行快速傅里叶变换，将变换后的结果B1以去噪包A1进行过滤得到结果B2，再将B2以去噪包A2进行过滤得到B3，再将B3以去噪包A3过滤得到B4。那么B4即为全部过滤后的频域状态的音频流。

本发明前述实施例介绍的方法是后台对离线抓取的每个视频文件进行音频流的截取并检索，从而得到每个视频文件包括的各背景音乐的音频信息，并建立视频文件与各音频信息的对应关系，当该视频文件被播放至各音频信息的起始位置时，自动加载该音频信息并展示给用户。

本发明其他实施例中，该视频文件也可以是用户当前正在播放的视频文件。具体的，当用户正在观看某视频文件时，对当前正在播放的视频的背景音乐很感兴趣，则可以触发对该背景音乐进行识别的操作；接收到该识别指令后，从当前正在播放的视频文件的源数据中截取第一时间长度的音频流，对该音频流进行音频信息识别。

优选的，在本发明另一优选的实施例中，在步骤110还包括步骤105：

步骤105，在视频播放的过程中，接收对背景音乐的识别指令。

在本发明实施例中，用户在客户端通过视频播放终端点击视频文件，当用户对视频播放过程中某个背景音乐感兴趣时，则可触发对于该背景音乐的识别指令。该视频播放终端接收用户触发的对背景音乐的识别指令。

在实际应用中，在客户端侧，可以在视频播放终端中为用户提供音频识别接口，其中，所述视频播放终端比如各种视频播放器、各种浏览器，视频播放器如搜狐视频播放器、暴风影音视频播放器等、浏览器如IE浏览器、Chrome浏览器等。用户通过视频播放终端视频文件时，当需要获取视频中某个时刻的背景音乐的详细信息时，则可以点击该视频播放终端上设置的音频识别接口，该视频播放终端即可通过所述音频识别接口接收该识别指令。

比如用户在用搜狐视频播放器观看电视剧《天龙八部》，看到某处时，突然发现表现忧伤气氛的背景音乐很好听，很想知道歌名，则可点击搜狐视频播放器中的音频识别接口以触发对背景音乐识别指令，搜狐视频播放器则判断是否通过音频识别接口接收到该背景音乐的识别指令。如果接收到则进入子步骤111，如果未接收到则进入步骤112。

进一步的，所述步骤110，包括子步骤111和子步骤112：

子步骤111，以所述识别指令的接收时间为起始时间，从当前视频文件的源数据中截取所述第一时间长度的音频流。

本发明实施例中，客户端侧接收到对背景音乐的识别指令之后，以识别指令的接收时间点为起始时间，从当前视频文件的源数据中截取预设第一时间长度的源数据，然后从该源数据中提取预设第一时间长度的音频流。

在本发明实施例中，用户在客户端通过视频播放终端点击视频文件，首先会从视频服务器预加载一部分视频到缓存中，然后视频播放终端再从缓存中已缓存的部分开始播放。

当然，实际应用中，可以预加载全部视频到视频缓存中，然后视频文件。也可以预加载视频的一部分到视频缓存中，然后在播放过程中持续预加载后续未播放的视频到视频缓存中，直到完成整部视频的预加载。

当然，实际应用中，上述对视频的预加载是将视频源数据以视频分片的形式进行加载的。也即在点击视频播放时，先加载开始的几分钟的视频，然后在播放过程中，将当前播放时刻之后几分钟的视频内容预先加载到本地的视频缓存中。

因此，客户端中的浏览器或者视频播放器只需要从上述视频缓存中拷贝一份或几份视频分片，然后进行音频流提取即可。

那么本发明实施例则可以从已缓存的视频的源数据中，连续提取音频流。比如用户刚点击视频播放，则缓存了一部分视频，则本发明实施例则自动从该源数据中截取音频流，然后视频不断播放，本发明实施例则不断从未播放的缓存中，对视频流的源数据进行截取操作，截取第一时间长度的音频流。比如截取1分钟的音频流。

比如对于一个视频A，在播放至第18分钟，即00:18:00时，用户点击了一下音频识别接口触发识别指令，客户端接收到该识别指令的时间为00:18:01，则从00:18:01开始，获取时间点00:18:01之后预设的第一时间长度的视频的源数据，然后从该视频的源数据中截取预设的第一时间长度音频流。

当然，可以理解，上述预设第一时间长度可以根据实际需求设定，比如10秒。

在实际应用中，客户端侧接收到识别指令后，会启动一线程，然后以该线程调用系统中的相应资源，实现以所述识别指令的接收时间点为起始时间，从当前视频文件的源数据中截取预设第一时间长度的音频流的过程。进入步骤120。

然后，依据所述第一时间长度的音频流检索得到对应的音频信息，并展示给用户。

本发明为了方便用户在观看视频的过程中获取其关注的背景音乐的详细信息，而又不中断视频的播放，本发明实施例可以接收用户触发的对背景音乐的识别指令，视频播放终端接收用户的识别指令，然后即从当前视频文件的源文件中同步提取原始的音频流，再基于该音频流自动去搜索引擎检索相应背景音乐的音频信息，其背景音乐的识别只需用户进行一次点击即可完成，不需用户进行繁琐的操作，且在背景音乐识别过程中不会中断用户对视频的观看过程。

在本发明实施例中，虽然前台视频是实时播放的，但是由于该音频流是从当前视频文件的缓存区中获取的，即客户端获取的是当前视频文件的当前播放时刻后续几分钟的音频流，并且由于对该音频流进行了拆分，利用拆分得到的更小粒度的音频流进行检索，所以该检索工作可以在视频播放的同时迅速地完成，在不影响用户视频的正常播放的同时，快速为用户提供背景音乐的音频信息。

当然，如果对于用户触发的识别指令，第一次没有检索到相关音频信息，则在步骤120之后，还可以包括子步骤A121-A122：

子步骤A121，判断是否在预定时间阈值内，获取到音频信息；如果未在预定时间阈值内获取到音频信息，则进入子步骤A122；如果在预定时间阈值内获取到音频信息，则在视频播放至截取位置后，展示所述音频信息。

子步骤A122，提示用户重新触发所述音乐识别指令。

在本发明实施例中，对于由用户触发的音频流检索，在实际应用中，由于视频处于播放过程中，其背景音乐可能在变化，如果检索时间过长，其检索得到音频信息可能跟检索触发时刻的背景音乐不相匹配，从而该音频信息可能对用户产生误导。那么本发明则可以设置一个时间阈值，该时间阈值从识别指令的接受时间点为起点。比如时间阈值为10s，如果当前的检索在10s之内未得到检索结果，则可以提示用户该次检索不精确，需要重新触发检索过程。

当然，如果在该时间阈值内，发送了n个子音频流，达到该时间阈值后，则可以不再发送第n+1个子音频流进行检索，转而提示用户该次检索可能不精确，是否需要重新检索，如果用户点击是，则重新触发前述音乐识别指令。

优选的，在本发明另一个实施例中，基于步骤105，在步骤120之后，还包括：

步骤B11，接收重检索指令；

步骤B12，根据所述重检索指令，在所述第二时间长度的音频流之后，再截取另外一个第二时间长度的音频流，进入步骤120。

在本发明实施例中，用户触发了对某个背景音乐的识别指令，从而得到的音频信息，但是用户对该结果不满意，则可以再触发重新检索指令，在前次检索的基础上，再次执行检索过程，即在前次对第二时间长度的音频流进行检索后，再截取另外一个第二时间长度的音频流进行120的过程。

优选的，子步骤111可以包括下述子步骤S1111至子步骤S1112：

子步骤S1111，从当前视频文件的缓存区中，获取所述识别指令的接收时间点之后预设第一时间长度的视频分片。

在实际应用中，客户端加载视频的分片长度大约在6～10min之间，本发明可从视频缓存一次性拷贝整个视频分片，然后一次性地进行音频提取。

子步骤S1112，从所述视频分片中截取所述音频流。

子步骤112，自动从视频文件的源数据中截取第一时间长度的音频流。

即进入自动化识别音频流的音频信息的过程。

优选的，在本发明另一优选的实施例中，在步骤120之后，还包括步骤C11-C12：

步骤C11，记录所述音频信息以及所述音频信息的起始位置；所述音频信息的位置为所述音频流的截取起始时间；

在本发明实施例中，对于某个视频文件，如果从中截取了一段音频流，而通过上述步骤查找到了该音频流的音频信息，则记录该音频信息的起始位置，该起始位置即为对应音频流的截取起始时间。比如从某个视频文件A中截取的音频流对应视频文件的时间为12:00:00-12:01:00，那么如果获取到该音频流的音频信息，则记录该音频信息及其起始位置12:00:00。

当然，实际应用中，检索得到音频流对应的音频信息后，建立该视频文件的ID、音频信息以及音频信息的起始位置之间的对应关系，并保存在数据库中。

在本发明实施例中，上述数据库可存储于服务器。具体的，可以通过各客户端对视频文件包括的音频流进行检索，并分别将检索得到的上述对应关系上传至服务器，由服务器保存各个视频文件的各个音频信息以所述音频信息在视频中的起始位置的对应关系。

当某个客户端播放某视频文件时，可以向服务器请求该视频文件对应的音频信息文件；服务器基于该视频文件的ID检索得到与该视频文件ID对应的音频信息以及各音频信息的起始位置，下发至该客户端；客户端依据接收到的文件，自动加载该音频信息，并在各音频信息的起始位置出向用户展示。

当然，本发明实施例中，由于每隔指定时间，就会截取一段音频进行检索。而由于可能在很长时间内背景音乐都为一首音乐。那么本发明实施例可以将同一音频信息的不同截取位置进行合并处理。比如音频信息1的一个截取位置为00:10:00—00:11:00，音频信息1的另一个截取位置为00:12:00—00:13:00，那么可以对其进行合并(音频信息1；00:10:00—00:11:00，00:12:00—00:13:00)。

还可以将两个截取位置之间的差值进行填充，比如上述例子可以填充为(音频信息1；00:10:00—00:13:00)。当然，在实际应用中，如果要填充，需要该音频信息的检索是连续两次检索得到，保证背景音乐的音乐位置的准确性。

步骤C12，在所述视频文件再次播放至所述音频信息的起始位置时，展示所述音频信息。

然后，当某个客户端再次播放上述记录过的视频时，如果播放到某个视频时，如果播放至记录的起始位置，则获取相应的音频信息，然后进行展示。

在实际应用中，本发明实施例可以监控视频播放到什么位置，当该位置到达截取位置后，展示该音频信息。该截取位置为视频中对应所述截取第一时间长度的音频流的位置。

比如在截取音频流时，视频播放到00:06:00时刻，而截取音频流对应的视频的截取位置为00:10:00-00:11:00，那么对于00:10:00-00:11:00的音频流，如果查找到音频信息。则可以在视频播放至00:10:00时，开始显示该音频信息，直到00:11:00结束。其中，截取位置为00:10:00-00:11:00。

优选的，将音频信息展示给用户可以包括步骤D11：

步骤D11，在获得所述音频信息之后，在视频播放界面指定位置生成弹出框，以加载所述音频信息。

在本发明实施例中，在获得所述音频信息之后，还可在视频播放界面指定位置生成弹出框，将所述音频信息加载在该弹出框中。

所述音频信息包括：音频名称、简介和/或下载链接。

在本发明实施例中，最优的，如前述指纹索引中，可以在服务器侧，以音乐ID对应音频名称、简介、和该音频的下载链接。

在弹出框中，可以展示该音频名称、简介，同时提供下载链接。当用户在弹出框中点击该下载链接之后，即可调用下载组件下载该音频。

本发明可以预先就将背景音乐的相关音频信息检索完成，在视频播放到该音频信息相关位置时，展示该音频信息，音频信息展示较为及时。

优选的，为了避免重复检索造成的资源浪费，在本发明另一优选的实施例中，在步骤110之前，还可以包括：

步骤C13，判断是否存在起始位置与当前截取开始时间的差值小于预设第一阈值的音频信息；如果存在，则将所述音频信息展示给用户；如果不存在，执行步骤120。

在本发明实施例中，如果一个视频文件包括的背景音乐在后台或者是某个视频播放终端播放的时候已经被检索过，则数据库中可能已经保存了该视频文件对应的音频信息，则不需要再对该视频文件的背景音乐进行检索了。此时，在对该视频的背景音乐开始检索前，只需要先查找数据库，判断是会否存在与该视频文件ID对应的音频信息即可，如果存在，直接加载该音频信息；如果不存在，在启动对该视频文件的检索工作。

进一步的，如果是用户点击触发的背景音乐识别指令，则只需要查找数据库，判断是否存在与该视频文件ID对应的，且起始位置与当前截取开始时间的差值小于预设第一阈值的音频信息，如果存在，则可以直接将该音频信息展示给用户，不再需要重复执行检索工作。

本发明实施例可以先将视频文件的ID发送到服务器中，服务器通过该视频文件的ID检索是否存在与该视频文件ID对应的记录，即是否针对该视频名称记录了其各种音频信息及对应的截取时间。如果有，则视频播放终端从服务器获取这些音频信息及其截取时间。然后在视频播放至截取位置后，展示所述音频信息。其中，所述视频文件的ID可以是视频文件的MD5值、或网页链接、或视频名称等。

比如，数据库中保存有视频文件A对应的三组音频信息记录，分别可以为：(视频文件ID_A，音频信息1，00:10:00-00:11:00)，(视频文件ID_A，音频信息2，00:20:00-00:21:00)，(视频文件ID_A，音频信息3，00:30:00-00:31:00)。当用户在视频播放终端点击播放该视频文件A时，在该视频文件A的进度条上会显示各音频信息的标记。具体的，各音频信息的标记位于该音频信息的起始位置对应的时间点上。当该视频文件A播放至各音频信息的起始位置时，展示该音频信息。例如，当播放至00:10:00时，则可以展示该音频信息1，直到00:11:00。其他情况以此类推。

当然，在本发明实施例中，对于截取的音频流，提取该音频流的起始时间点，然后与记录的各个起始位置进行比较，当该音频流的起始时间点与某个起始位置之间查找小于预设的第一阈值，比如5s，则可以获取该起始位置对应的音频信息，然后展示给用户。如果没有符合的音频信息，则执行所述从视频文件的源数据中截取第一时间长度的音频流的步骤。

在本发明实施例中，对截取的音频流的处理过程可以在服务器侧执行，减轻客户端的计算负担，避免影响性能。

本发明实施例中，视频播放终端可以从已缓存视频的源数据中截取音频流，再基于该音频流自动去搜索引擎检索相应背景音乐的音频信息。本发明公开的方法中，具备以下优点：

实施例二

参照图2，其示出了一种音频识别方法的流程示意图，具体可以包括：

步骤210，判断是否接收到由用户触发的对背景音乐的识别指令；如果接收到由用户触发的对背景音乐的识别指令，则进入步骤220；如果未接收到由用户触发的对背景音乐的识别指令，则进入步骤230。

在实际应用中，可以在视频播放终端中为用户提供音频识别接口，其中，所述视频播放终端比如各种视频播放器、各种浏览器，视频播放器如搜狐视频播放器、暴风影音视频播放器等、浏览器如IE浏览器、Chrome浏览器等。用户通过视频播放终端视频文件时，当需要获取视频中某个时刻的背景音乐的详细信息时，则可以点击该视频播放终端上设置的音频识别接口，该视频播放终端即可通过所述音频识别接口接收该识别指令。

比如用户在用搜狐视频播放器观看电视剧《天龙八部》，看到某处时，突然发现表现忧伤气氛的背景音乐很好听，很想知道歌名，则可点击搜狐视频播放器中的音频识别接口以触发对背景音乐识别指令，搜狐视频播放器则判断是否通过音频识别接口接收到该背景音乐的识别指令。如果接收到则进入步骤220，如果未接收到则进入步骤230。

步骤220，以所述识别指令的接收时间或所述接收时间往前一定时间段的时间为起始时间，从当前视频文件的源数据中截取预设第一时间长度的音频流。进入步骤240。

本发明实施例中，客户端侧接收到对背景音乐的识别指令之后，以识别指令的接收时间或所述接收时间往前一定时间段的时间为起始时间，从当前视频文件的源数据中截取预设第一时间长度的源数据，然后从该源数据中提取预设第一时间长度的音频流。

需要说明的是，一般用户听到一段背景音乐，觉得喜欢，想对它进行检索，直到触发对背景音乐的识别指令，中间会间隔一定的时间，在这段时间里，背景音乐一般已播放了一段时间。因此，一般而言，在接收到对背景音乐的识别指令时，距离该背景音乐的起始时间已经有一段时间间隔，所以可以以所述识别指令的接收时间往前一定时间段的时间为起始时间，从当前视频文件的源数据中截取预设第一时间长度的源数据。

当然，也可以以所述识别指令的接收时间往前一定时间段的时间为起始时间，例如，客户端接收到该识别指令的时间为00:18:01，则从00:17:01开始，获取时间点00:17:01之后预设的第一时间长度的视频的源数据，然后从该视频的源数据中截取预设的第一时间长度音频流。

当然，可以理解，上述预设第一时间长度可以根据实际需求设定，比如5秒。

在实际应用中，客户端侧接收到识别指令后，会启动一线程，然后以该线程调用系统中的相应资源，实现以所述识别指令的接收时间点为起始时间，从当前视频文件的源数据中截取预设第一时间长度的音频流的过程。

进一步的，本发明其他实施例中，还可以包括：在步骤210所述如果接收到由用户触发的对背景音乐的识别指令之后，且步骤220之前，所述方法还可以包括：

判断数据库中所述视频文件对应的音频信息中，是否存在起始位置与当前截取起始时间的差值小于预设第一阈值的音频信息；所述截取起始时间可以为接收到所述识别指令的时间；如果存在，则直接提取该音频信息，并将所述音频信息展示给用户；如果不存在，则执行步骤220中所述从视频文件的源数据中截取第一时间长度的音频流的步骤。

基于此，可以实现，当接收到用户触发的识别指令时，并不直接截取音频流并启动音频信息检索，而是首先查找数据库，判断数据库中是否存在与当前视频文件ID相同，且起始位置与当前截取起始时间的差值小于预设第一阈值的音频信息；如果有，则表明该视频文件的该段音频曾经被检索过，且检索得到的音频信息已被保存在数据库中，可以直接从数据库中获取并展示给用户。由此可以使得，对于已经检索过的视频文件对应的音频信息，不必再重复检索工作，即节省了操作时间，又加快了展示给用户的速度。

步骤230，从所述视频文件的源数据中，依次截取所述第一时间长度的音频流，并进入步骤240；

步骤240，按照预设的规则将所述音频流划分为至少两个子音频流；

步骤250，对划分得到的子音频流依次进行检索，以获取音频信息，进入步骤260；

优选的，当对第一时间长度的音频流经过步骤240-250之后，在本发明另一个实施例中，步骤250之后，还可以包括子步骤252：

子步骤252，当针对每个第一时间长度的音频流，通过该音频流的各子音频流未检索到音频信息，则在所述第一时间长度的音频流之后，再截取另外一个第一时间长度的音频流，进入步骤240。

在本发明实施例中，如果第一次截取得到的第一时间长度的音频流，通过该音频流的子音频流未检索到音频信息，则在该音频流之后再截取第一时间长度的音频流，进行下一轮的检索。当在第二次截取得到的第一时间长度的音频流，通过该音频流的子音频流未检索到音频信息，则在该音频流之后再截取第一时间长度的音频流，再进行下一轮的检索，依次类推。

当然，实际应用中，可以设置检索只检索几轮，比如3轮，如果还检索不到，则提示用户未检索到相应音频信息。

优选的，当对第一时间长度的音频流经过步骤240-250之后，在本发明另一个实施例中，步骤250之后，还可以包括子步骤253：

子步骤253，判断是否在预定时间阈值内，获取到音频信息；如果未在预定时间阈值内获取到音频信息，则进入子步骤254；如果在预定时间阈值内获取到音频信息，则进入步骤260。

子步骤254，提示用户重新触发所述音乐识别指令。

步骤260，在视频播放至截取位置后，展示所述音频信息；所述截取位置为视频中对应所述截取第一时间长度的音频流的位置。

优选的，在本发明另一个实施例中，步骤260之后，还包括：

步骤261，接收重检索指令；

步骤262，根据所述重检索指令，在所述第一时间长度的音频流之后，再截取另外一个第一时间长度的音频流，进入步骤240。

本发明为了方便用户在观看视频的过程中获取其关注的背景音乐的详细信息，而又不中断视频的播放，本发明实施例可以接收用户触发的对背景音乐的识别指令，视频播放终端接收用户的识别指令，然后即从当前视频文件的源文件中同步提取原始的音频流，再基于该音频流自动去搜索引擎检索相应背景音乐的音频信息。其背景音乐的识别只需用户进行一次点击即可完成，不需用户进行繁琐的操作，且在背景音乐识别过程中不会中断用户对视频的观看过程；同时，本发明采用视频文件中原始的音频流进行识别，没有额外的环境噪声的干扰，识别准确率高；另外，本发明可以将获取到的音频流按时间顺序分解为各子音频流，以各个子音频流的时间顺序依次去检索，从而能够加快检索速度，提高检索效率以及检索成功率。

当然，用户也可以不触发对背景音乐的识别指令，由本发明实施例自动对背景音的识别。本发明可以预先就将背景音乐的相关音频信息检索完成，在视频播放到该音频信息相关位置时，展示该音频信息，音频信息展示较为及时。

下面分别以移动终端的视频播放器为应用环境和以浏览器的网页视频播放为应用环境分别进行介绍：

实施例三

其为移动终端的视频播放器为应用环境下的一种音频识别方法。

参照图3，示出了一种视频播放器中音频识别方法的流程示意图，具体可以包括：

步骤310，视频播放器从视频文件的源数据中截取第一时间长度的音频流；

步骤320，视频播放器依据所述第一时间长度的音频流检索得到对应的音频信息，并展示给用户。

优选的，在步骤310之前还可以包括步骤305：

步骤305，在视频播放的过程中，接收对背景音乐的识别指令；

在实际应用中，通过在视频播放器音频识别接口接收用户对背景音乐的识别指令。

在本发明实施例中，可以将所述音频识别接口以按钮的形式添加在视频播放器的播放工具栏中。

则，所述步骤310还可以包括步骤311：

步骤311，以所述识别指令的接收时间为起始时间，从当前视频文件的源数据中截取所述第一时间长度的音频流。

其中，步骤320所述依据所述第一时间长度的音频流检索得到对应的音频信息可以包括步骤321-步骤322：

步骤321，按照预设的规则将所述音频流划分为至少两个子音频流；

步骤322，对划分得到的子音频流依次进行检索，以获取音频信息。

优选的，在步骤311的基础上，所述步骤322包括步骤3221-步骤3224：

步骤3221，视频播放器以所述识别指令的接收时间点为起始时间，从当前视频文件的源数据中截取预设第一时间长度的音频流，并将所述音频流发送至服务器，进入步骤3222。

步骤3222，服务器根据所述视频的类型，选择相应的去噪包对所述音频流进行噪声过滤。

步骤3223，服务器按照预设的规则将所述音频流划分为至少两个子音频流；

步骤3224，服务器对划分得到的子音频流依次进行检索，以获取音频信息，返回音频信息至视频播放器。

然后，在步骤320中视频播放器在视频播放至截取位置后，展示所述音频信息。

本发明实施例的原理与实施例一、二类似，在此不再赘叙。

实施例四

其为以浏览器的网页视频播放为应用环境下的一种音频识别方法。

参照图4，示出了浏览器的网页中的一种音频识别方法的流程示意图，具体可以包括：

步骤410，在浏览器的一视频网页进行视频播放的过程中，从视频文件的源数据中截取第一时间长度的音频流；

步骤420，视频播放器依据所述第一时间长度的音频流检索得到对应的音频信息，并展示给用户。

优选的，在步骤410之前还可以包括步骤405：

步骤405，在视频播放的过程中，接收对背景音乐的识别指令；

在本发明实施例中，可以通过插件的形式将本发明实施例嵌入到浏览器中。当浏览器侦测到当前网页在视频文件，则可在网页指定位置添加一个识别按钮，该识别按钮为音频识别接口。当然，也可以在网页中的网页视频播放器的播放工具条附近添加所述识别按钮。

在实际中，本发明的插件可在网页指定位置添加一个识别按钮，可以解析HTML(HyperTextMarkupLanguage，超级文本标记语言)文档，通过在HTML文档的DOM(DocumentObjectModel，文档对象模型)树指定位置(比如网页视频播放器的播放工具栏所在位置)添加一个识别按钮，然后当接收到用户的点击操作后，进行本发明实施例的执行过程。

当然，在本发明实施例中，也可以在服务器侧的视频网页中的HTML代码中直接添加识别脚本，在浏览器获取该HTML代码后，进行解析以打开该视频网页时，启动该识别脚本，在网页指定位置(比如网页视频播放器的播放工具栏中)添加一个识别按钮，然后接上到用户的点击操作后，执行本发明实施例的过程。

则，所述步骤410可以包括步骤411：

步骤411，以所述识别指令的接收时间为起始时间，从当前视频文件的源数据中截取所述第一时间长度的音频流。

其中，步骤420所述依据所述第一时间长度的音频流检索得到对应的音频信息包括：

步骤421，按照预设的规则将所述音频流划分为至少两个子音频流；

步骤422，对划分得到的子音频流依次进行检索，以获取音频信息。

优选的，在步骤411的基础上，所述步骤422包括步骤4221-步骤4224：

步骤4221，在浏览器中以所述识别指令的接收时间点为起始时间，从当前视频文件的源数据中截取预设第一时间长度的音频流，并将所述视频流发送至服务器，进入步骤4222。

在浏览器接收到用户点击所述视频网页中的识别按钮的操作，则启动音频流截取线程，该线程控制音频截取脚本，根据所述识别指令的接收时间点，从所述视频网页播放的视频源数据中截取音频流。

步骤4222，服务器根据所述视频的类型，选择相应的去噪包对所述音频流进行噪声过滤。

步骤4223，服务器按照预设的规则将所述音频流划分为至少两个子音频流；

步骤4224，服务器对划分得到的子音频流依次进行检索，以获取音频信息，返回音频信息至浏览器。

然后，在步骤420中浏览器在视频播放至截取位置后，展示所述音频信息。

在浏览器获得所述音频信息之后，在视频播放至截取位置后，可通过在网页上弹出一个小弹窗的形式，加载所述音频信息进行展示。

本发明实施例的原理与实施例一、二类似，在此不再赘叙。

实施例五

参照图5，其示出了一种音频识别装置的结构示意图。所述音频识别装置具体可以包括：音频流截取模块510、检索模块520和展示模块530。

所述音频流截取模块510，适于从视频文件的源数据中截取第一时间长度的音频流；

所述检索模块520，适于依据所述第一时间长度的音频流检索得到对应的音频信息；

所述展示模块530，适于将检索得到的音频信息展示给用户；

所述检索模块520包括：

划分子模块521，适于按照预设的规则将所述音频流划分为至少两个子音频流；

第一检索子模块522，适于对划分得到的子音频流依次进行检索，以获取音频信息。

在本发明另一优选的实施例中，所述音频流截取模块510可以包括：第一截取子模块，适于从所述视频文件的源数据中，依次截取所述第一时间长度的音频流；

则，所述检索模块520可以包括：第二检索子模块，适于对截取得到的各音频流进行检索，分别得到各音频流对应的音频信息。

在本发明另一优选的实施例中，所述装置还可以包括：

指令接收模块，适于在视频播放的过程中，接收对背景音乐的识别指令，并触发所述音频流截取模块510；

则，所述音频流截取模块510还可以包括：第二截取子模块；

所述第二截取子模块，适于以所述识别指令的接收时间为起始时间，从当前视频文件的源数据中截取所述第一时间长度的音频流。

在本发明另一优选的实施例中，所述装置还可以包括：

记录模块，适于在所述依据所述第一时间长度的音频流检索得到对应的音频信息之后，记录所述音频信息以及所述音频信息的起始位置；所述音频信息的位置为所述音频流的截取起始时间；

所述展示模块530，还适于在所述视频文件再次播放至所述音频信息的起始位置时，展示所述音频信息。

在本发明另一优选的实施例中，所述装置还可以包括：

时间判断模块，适于判断是否存在起始位置与当前截取起始时间的差值小于预设第一阈值的音频信息；如果存在，则触发所述展示模块530；如果不存在，则触发所述检索模块520。

在本发明另一优选的实施例中，所述装置还可以包括：

去噪模块，适于根据所述视频文件的类型，选择相应的去噪包对所述音频流进行噪声过滤。

进一步的，所述装置还可以包括：噪声类型预置模块；

所述噪声类型预置模块，适于针对不同的噪声，采集相应样本训练去噪包，并将各种去噪包按照类型进行标记。

其中，所述音频信息包括：音频名称、和/或简介和/或下载链接。

在本发明另一优选的实施例中，所述第一检索子模块522包括：第一循环检索子模块；

所述第一循环检索子模块，适于从划分得到的第一个子音频流开始检索；如果检索得到对应的音频信息，则停止对下一个子音频流进行检索；如果未检索到对应的音频信息，则对下一个子音频流进行检索，直至检所得到对应的音频信息。

在本发明另一优选的实施例中，所述第一检索子模块522可以包括：指纹提取子模块和音频查找子模块。

所述指纹提取子模块，适于提取所述子音频流的指纹特征；所述指纹特征包括两个能量峰值的频率、时间差和能量比；

所述音频查找子模块，适于依据所述指纹特征查找指纹索引库，获得所述子音频流对应的音频信息。

在本发明另一优选的实施例中，所述指纹提取子模块可以包括：实时能量峰值确定子模块和指纹构造子模块；

所述实时能量峰值确定子模块，适于从所述子音频流对应的频谱图中选定各能量峰值以及各能量峰值对应的目标区域；

所述指纹构造子模块，适于将每个能量峰值以及所述能量峰值对应的目标区域中包括的所有能量峰值进行两两组合，构造所述指纹特征；

则所述音频查找子模块可以包括：第一音频查找子模块；

第一音频查找子模块，适于基于所述指纹特征查找指纹索引库，获得与所述指纹特征对应的原始音乐的音频信息，作为所述子音频流对应的音频信息。

在本发明另一优选的实施例中，所述装置还可以包括：原始能量峰值确定模块、原始指纹构造模块和指纹索引构建模块；

所述原始能量峰值确定模块，适于从原始音乐对应的频谱图中选定各能量峰值以及各能量峰值对应的目标区域；

所述原始指纹构造模块，适于将每个能量峰值以及所述能量峰值对应的目标区域中包括的所有能量峰值进行两两组合，构造所述原始音乐的指纹特征；

所述指纹索引构建模块，适于建立所述原始音乐、所述原始音乐的音频信息以及所述原始音乐的指纹特征之间的关联，并保存在所述指纹索引库中。

在本发明一种优选的实施例中，所述音频流截取模块510包括:

视频提取子模块，适于从视频缓冲区中，拷贝所述接收时间点之后的指定时间长度的视频分片从当前视频文件的缓冲区中，获取所述识别指令的接收时间点之后预设第一时间长度的视频分片。

第一音频截取子模块，适于调用音频截取指令，从所述视频分片中截取音频流从所述视频分片中截取所述音频流。

优选的，所述展示模块530包括：

弹出框展示模块，适于在获得所述音频信息之后，在视频播放界面指定位置生成弹出框，以加载所述音频信息。

实施例六

参照图6，其示出了一种视频播放器的结构示意图，具体可以包括：

音频流截取模块610，适于从视频文件的源数据中截取第一时间长度的音频流；

检索模块620，适于依据所述第一时间长度的音频流检索得到对应的音频信息；

展示模块630，适于将检索得到的音频信息展示给用户；

所述检索模块620包括：

音频流划分子模块621，适于按照预设的规则将所述音频流划分为至少两个子音频流；

第一检索子模块622，适于对划分得到的子音频流依次进行检索，以获取音频信息。

当然视频播放器还包括：解析视频格式的解码模块、播放操作模块等视频播放器通用的模块。

本发明实施例的视频播放器还可包括前述音频识别装置的任意优选的模块。

实施例七

参照图7，其示出了一种浏览器的结构示意图，具体可以包括：

音频流截取模块710，适于从视频文件的源数据中截取第一时间长度的音频流；

检索模块720，适于依据所述第一时间长度的音频流检索得到对应的音频信息；

展示模块730，适于将所述检索得到的音频信息展示给用户；

所述检索模块720包括：

音频流划分子模块721，适于按照预设的规则将所述音频流划分为至少两个子音频流；

第一检索子模块722，适于对划分得到的子音频流依次进行检索，以获取音频信息。

当然，浏览器还包括：用于渲染网页的渲染模块、用于与用户进行交互的交互模块等通用浏览器使用的模块。

本发明实施例的浏览器还可包括前述音频识别装置的任意优选的模块。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种音频识别装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种音频识别方法，所述方法包括：

从视频文件的源数据中截取第一时间长度的音频流；

按照预设的规则将所述音频流划分为至少两个子音频流；

对划分得到的子音频流依次进行检索，以获取音频信息。

图9是本发明实施例中服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作系统941，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，包括：

从视频文件的源数据中截取第一时间长度的音频流；

按照预设的规则将所述音频流划分为至少两个子音频流；

对划分得到的子音频流依次进行检索，以获取音频信息。

2.根据权利要求1所述的方法，其特征在于，所述从视频文件的源数据中截取第一时间长度的音频流，依据所述第一时间长度的音频流检索得到对应的音频信息，包括：

3.根据权利要求1所述的方法，其特征在于，在所述从视频文件的源数据中截取第一时间长度的音频流之前，所述方法还包括：

在视频文件播放的过程中，接收对背景音乐的识别指令；

4.根据权利要求2或3所述的方法，其特征在于，在所述依据所述第一时间长度的音频流检索得到对应的音频信息之后，所述方法还包括：

记录所述音频信息以及所述音频信息的起始位置；所述音频信息的起始位置为所述音频流的截取起始时间；

5.根据权利要求4所述的方法，其特征在于，在所述从视频文件的源数据中截取第一时间长度的音频流之前，所述方法还包括：

如果存在，则将所述音频信息展示给用户；

6.根据权利要求1所述的方法，其特征在于，在依据所述第一时间长度的音频流检索得到对应的音频信息之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述对划分得到的子音频流依次进行检索，以获取音频信息，包括：

从划分得到的第一个子音频流开始检索；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述对划分得到的子音频流依次进行检索，以获取音频信息，包括：

提取所述子音频流的指纹特征；

9.根据权利要求8所述的方法，其特征在于，所述提取所述子音频流的指纹特征，依据所述指纹特征查找指纹索引库，获得所述子音频流对应的音频信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括

11.一种音频识别装置，其特征在于，包括：

展示模块，适于将所述检索得到的音频信息展示给用户；

所述检索模块包括：音频流划分子模块和第一检索子模块；

12.一种用于音频识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从视频文件的源数据中截取第一时间长度的音频流；

按照预设的规则将所述音频流划分为至少两个子音频流；

对划分得到的子音频流依次进行检索，以获取音频信息。