CN105430494A

CN105430494A - 在播放视频的设备中识别视频中音频的方法和装置

Info

Publication number: CN105430494A
Application number: CN201510875730.0A
Authority: CN
Inventors: 宋治云; 姜史哲
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-03-23

Abstract

本申请公开了在播放视频的设备中识别视频中音频的方法和装置。所述方法的一具体实施方式包括：响应于用户的截取指令而截取正在播放的视频中的音频信息；对截取的音频信息提取音频特征，得到待识别音频指纹；比对待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据；呈现查询得到的元数据。该实施方式降低了识别过程中的环境噪音，有效提高了音频识别的精准度以及音频识别的成功率。

Description

在播放视频的设备中识别视频中音频的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及音频处理领域，尤其涉及在播放视频的设备中识别视频中音频的方法和装置。

背景技术

随着娱乐信息技术的蓬勃发展，用户越来越追求高质、高速且无障碍的信息获取。例如，用户在观看视频时，若听到好听的背景音乐，可能希望获得背景音乐的乐曲信息。

目前，在观看视频时获取背景音乐的乐曲信息的方式，通常是在第二设备中打开基于音频识别乐曲的应用，以接收来自播放视频的第一设备的音频，并对该音频进行分析处理后给出结果。

然而，这种跨设备进行的音频识别方式，可能存在较大的环境噪音，因此会产生较大的识别误差或导致识别失败。

发明内容

本申请的目的在于提出一种在播放视频的设备中识别视频中音频的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种在播放视频的设备中识别视频中音频的方法，包括：响应于用户的截取指令而截取正在播放的视频中的音频信息；对截取的音频信息提取音频特征，得到待识别音频指纹；比对所述待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据；呈现查询得到的元数据。

在一些实施例中，所述方法还包括：接收用户操作；响应于所述用户操作符合预设的触发操作，触发所述用户的截取指令。

在一些实施例中，响应于所述用户操作符合预设的触发操作，触发所述用户的截取指令包括以下一项或多项：响应于所述用户操作为对正在播放的视频中呈现的截取选项的选择操作，并且所述选择操作符合预设的触发操作，触发所述用户的截取指令；响应于所述用户操作为对快捷键的按键操作，并且所述按键操作符合预设的触发操作，触发所述用户的截取指令；响应于所述用户操作为指纹输入，并且所述指纹输入为预设的触发操作，触发所述用户的截取指令；响应于所述用户操作为音波输入，并且所述音波输入为预设的触发操作，触发所述用户的截取指令；以及响应于所述用户操作为正在播放视频的设备感应到的操作，并且所述感应到的操作符合预设的触发操作，触发所述用户的截取指令。

在一些实施例中，所述响应于用户的截取指令而截取正在播放的视频中的音频信息包括：响应于用户的截取指令而截取所述正在播放的视频的音频源文件，得到截取的音频信息；和/或响应于用户的截取指令而对所述正在播放的视频进行录音，得到截取的音频信息。

在一些实施例中，在云端服务器进行以下一项或多项操作：对截取的音频信息提取音频特征，得到待识别音频指纹；比对所述待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据。

在一些实施例中，通过以下一项或多项表现形式向用户呈现查询得到的乐曲的元数据：语音、文本、图片和流媒体。

在一些实施例中，在预设位置以以下一项或多项呈现方式向用户呈现查询得到的乐曲的元数据：预设颜色、预设亮度和预设遮罩状态。

第二方面，本申请提供了一种在播放视频的设备中识别视频中音频的装置，其特征在于，所述装置包括：截取模块，用于响应于用户的截取指令而截取正在播放的视频中的音频信息；提取模块，用于对截取的音频信息提取音频特征，得到待识别音频指纹；比对模块，用于比对所述待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；获取模块，用于按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据；呈现模块，用于呈现查询得到的乐曲的元数据。

在一些实施例中，所述装置还包括：接收模块，用于接收用户操作；触发模块，用于响应于所述用户操作符合预设的触发操作，触发所述用户的截取指令。

在一些实施例中，所述触发模块包括以下一项或多项：选项触发模块，用于响应于所述用户操作为对正在播放的视频中呈现的截取选项的选择操作，并且所述选择操作符合预设的触发操作，触发所述用户的截取指令；快捷键触发模块，用于响应于所述用户操作为对快捷键的按键操作，并且所述按键操作符合预设的触发操作，触发所述用户的截取指令；指纹触发模块，用于响应于所述用户操作为指纹输入，并且所述指纹输入为预设的触发操作，触发所述用户的截取指令；音波触发模块，用于响应于所述用户操作为音波输入，并且所述音波输入为预设的触发操作，触发所述用户的截取指令；以及感应触发模块，用于响应于所述用户操作为正在播放视频的设备感应到的操作，并且所述感应到的操作符合预设的触发操作，触发所述用户的截取指令。

在一些实施例中，所述截取模块包括：源音频截取模块，用于响应于用户的截取指令而截取所述正在播放的视频的音频源文件，得到截取的音频信息；和/或录音截取模块，用于响应于用户的截取指令而对所述正在播放的视频进行录音，得到截取的音频信息。

在一些实施例中，以下一个或多个模块设于云端服务器：提取模块、比对模块和获取模块。

在一些实施例中，所述呈现模块通过以下一项或多项表现形式向用户呈现查询得到的乐曲的元数据：语音、文本、图片和流媒体。

在一些实施例中，所述呈现模块在预设位置以以下一项或多项呈现方式向用户呈现查询得到的乐曲的元数据：预设颜色、预设亮度和预设遮罩状态。

第三方面，本申请提供了一种视频播放装置，所述视频播放装置包括如上所述的在播放视频的设备中识别视频中音频的装置。

第四方面，本申请提供了一种电子设备，所述电子设备包括：如上所述的在播放视频的设备中识别视频中音频的装置；和/或如上所述的视频播放装置。

本申请提供的在播放视频的设备中识别视频中音频的方法和装置，通过响应于用户的截取指令而截取正在播放的视频中的音频信息，而后对截取的音频信息提取音频特征，比对所述待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度，之后按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据，最后呈现查询得到的元数据，从而有效降低了识别过程中的环境噪音，进而提高了音频识别的精准度以及音频识别的成功率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的在播放视频的设备中识别视频中音频的方法的一个实施例的流程图；

图3是根据本申请的在播放视频的设备中识别视频中音频的方法的一个应用场景的截屏示意图；

图4是根据本申请的在播放视频的设备中识别视频中音频的方法的又一个实施例的流程图；

图5是根据本申请的在播放视频的设备中识别视频中音频的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的在播放视频的设备中识别视频中音频的方法和装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频播放平台、网页浏览应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持视频播放的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的视频播放提供支持的后台服务器。后台服务器可以对截取的音频信息等数据进行分析等处理，并将处理结果(例如以获取的音频指纹为索引的乐曲的元数据)反馈给终端设备。

需要说明的是，本申请实施例所提供的在播放视频的设备中识别视频中音频的方法一般由终端设备101、102、103执行，但在部分实施例中，方法中的一部分步骤也可以由服务器105执行；相应地，在播放视频的设备中识别视频中音频的装置一般设置于终端设备101、102、103中，但在部分实施例中，装置中的一部分模块也可以设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的在播放视频的设备中识别视频中音频的方法的一个实施例的流程200。所述的在播放视频的设备中识别视频中音频的方法，包括以下步骤：

步骤201，响应于用户的截取指令而截取正在播放的视频中的音频信息。

在本实施例中，播放视频的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式连接云端服务器。上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

通常，用户利用终端设备上安装的视频播放平台来播放视频，若在播放视频时接收到用户的截取指令，则可以响应于用户的截取指令开始截取正在播放的视频中的音频信息。

终端设备或视频播放平台在接收用户的截取指令时，可以通过多种现有技术中的获取方式或未来技术中开发的获取方式来完成接收。例如，可以通过预设的触发方式来触发截取指令：通过预设的动作触发截取指令、通过预设的按键触发截取指令等，也可以通过预设的人机交互接口来接收用户的截取指令。

在截取正在播放的视频中的音频信息时，可以通过多种现有技术中已知的获取方式或未来技术中开发的获取方式来得到截取的音频信息，例如，可以通过截取正在播放的视频中的音频源文件而得到截取的音频信息，也可以通过对正在播放的视频进行录音而得到截取的音频信息。

为了尽可能提高截取的音频信息的质量，在本实施例的一些可选实现方式中，还可以通过以下方式得到截取的音频信息：首先查询正在播放的视频的音频源文件是否处于可获取状态，若处于可获取状态，则对正在播放的视频进行录音以得到截取的音频信息；若正在播放的视频的音频源文件处于不可获取状态，则对正在播放的视频进行录音以得到截取的音频信息。从而优先获取高质量的截取的音频信息，以提高识别的准确率和成功率。

步骤202，对截取的音频信息提取音频特征，得到待识别音频指纹。

在本实施例中，对用户终端或视频播放平台截取的音频信息提取音频特征，得到待识别音频指纹的方法，可以包括现有技术中或未来技术中开发的提取音频特征以得到待识别音频指纹的方法。例如，可以首先将音频信号分成互相重叠的帧，对每一帧计算一系列特征，这些特征需要对各种音频信号处理至少在一定程度上保持不变。目前已经提出的特征有傅立叶系数、迈尔倒谱系数、频谱平滑度、尖锐度、线性预测编码系数等，还有这些基本量的导出量如均值和方差。通常这些特征使用分类器技术映射到一个更简洁的表示，如隐含马尔可夫模型或量化技术。之后，可以根据提取的音频特征，得到待识别音频指纹。

在这里，需要说明的是，音频指纹是可以代表一段音乐重要声学特征的基于内容的紧致数字签名，可以视为一段音频的摘要。因此，对截取的音频信息提取音频特征，得到待识别音频指纹后，可以将其与预设的音频指纹数据库中的乐曲音频指纹进行比对，以提高比对效率。

本领域技术人员应当理解，对截取的音频信息提取音频特征以得到待识别音频指纹所采取的方法，与预设的数据库中得到乐曲音频指纹的方法应相同，以减少由于提取方法不同所带来的识别误差，进而提高后续比对步骤的准确度。

步骤203，比对待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度。

在本实施例中，采用音频指纹进行比对的主要目的，是建立一种有效机制来比较两个音频数据的感知听觉质量。注意这里不是直接比较通常很大的音频数据本身，而是比较其相应通常较小的音频指纹。

比对音频指纹时，可以将待识别音频指纹和预设的数据库中存储的大量音频指纹相比对，从而得到比对结果。一个有效的指纹提取算法和指纹比对算法，能够在预设的数据库中存储的大量音频指纹中，根据待识别音频指纹与数据库中存储的大量音频指纹的相似度，正确识别出可能经受各种信号处理失真的待识别音频的原始版本。

在这里，预设的音频指纹数据库可以为乐曲数据库的一部分，该乐曲数据库中可以包括乐曲和音频指纹数据库，音频指纹数据库又包括乐曲音频指纹的集合以及以乐曲音频指纹为索引的乐曲的元数据；预设的音频指纹数据库也可以为仅包括乐曲音频指纹的集合以及以乐曲音频指纹为索引的乐曲的元数据的数据库。

在一些可选的实现方式中，预设的音频指纹数据库存储于本地，且该音频指纹数据库包括乐曲音频指纹以及以乐曲音频指纹为索引的乐曲的元数据，此时可以在播放视频的电子设备中进行比对步骤。在进行比对时，可以将待识别音频指纹与音频指纹数据库中的乐曲音频指纹进行比对，从而得到以乐曲音频指纹为索引的乐曲的元数据，从而实现在保证比对精度的情况下，减少本地存储的数据量。

步骤204，按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据。

在本实施例中，由于待识别音频指纹可能仅为乐曲的部分内容，因此与待识别音频指纹相似的乐曲音频指纹可能有多个，例如与待识别音频指纹相似的由不同演奏者演奏的同一钢琴曲的音频指纹。

为了向用户更为精准的推送与待识别音频指纹相似的乐曲的元数据，可按照与待识别音频指纹的相似度，获取预设数量的乐曲音频指纹，之后查询以获取的音频指纹为索引的乐曲的元数据，以便呈现给用户。

应当理解，在一些实现中，可以呈现用户设定界面以接收用户设定的获取查询的乐曲的元数据的数量，从而确定获取的乐曲音频指纹的数量；备选地或附加地，也可以呈现技术开发人员设定界面，以接收技术开发人员设定的获取乐曲音频指纹的数量。

步骤205，呈现查询得到的元数据。

在本实施例中，在步骤204查询得到乐曲的元数据之后，可以在播放视频的终端设备中或在播放视频的终端设备的视频播放平台中呈现查询得到的元数据。

在呈现查询得到的元数据时，可以以文本形式进行呈现，也可以基于从文本到语音(TTS)技术以语音形式进行呈现，还可以以图片(包括乐曲的宣传图片)或流媒体的形式进行呈现，当然，还可以以上述形式的组合进行呈现，例如以文本+图片的形式进行呈现。

呈现查询得到的元数据的位置，可以为播放视频的交互界面中的任意位置，例如可以在播放视频的窗口中的一个浮动窗口中呈现，或者滚动呈现于播放视频的窗口的侧边处，或者呈现于独立于播放视频的窗口之外的悬浮窗口处等。

在呈现查询得到的元数据时，可以以预设的颜色、预设的亮度和预设的遮罩状态进行呈现。

在本实施例中，上述步骤201和205可以运行于播放视频的终端设备，步骤202、203和204中的一个或多个步骤可以运行于播放视频的终端设备或运行于云端服务器。例如，若播放视频的电子设备的处理器性能较低或存储空间较少，则可以在云端服务器上存储上述预设的数据库，并在云端运行步骤202、203和204中的一个或多个步骤，反之，若播放视频的电子设备的处理器性能较高并且存储空间较多，则可以在本地存储有上述的预设的数据库，并在本地运行步骤202、203和204中的一个或多个步骤。又或者若播放视频的电子设备处于未连接网络状态，且本地存储有上述的预设的数据库，则步骤202、203和204中的一个或多个步骤可以运行于播放视频的电子设备。

继续参见图3，图3示出了根据本实施例的在播放视频的设备中识别视频中音频的方法的应用场景的截屏示意图。在该应用场景中，包括但不限于以下步骤：首先在步骤310中，视频播放平台在接收到用户对播放视频的界面中呈现的截取选项301的点击时，开始截取正在播放的视频中的音频信息；接着在步骤320中，步骤310中呈现的截取选项301变更为暂停选项302，当接收到用户对暂停选项302的点击操作时，完成对播放的视频的音频信息的截取；之后在步骤330中，若接收到用户对识别选项303的点击，则对截取的音频进行识别，执行步骤440，若接收到的用户对取消选项304的点击，则放弃本次识别；之后在步骤440中，将识别的结果呈现于半透明呈现框305中。

本领域技术人员应当理解，上述的应用场景仅为本实施例的一个示意性应用场景，并不对本申请构成限定。例如，上述的截取选项301、暂停选项302、识别选项303、取消选项304以及半透明呈现框305均可以为其它形式(不同于图3中的形状、颜色和遮罩状态等)的呈现，例如，上述的截取选项301、暂停选项302、识别选项303、取消选项304以及半透明呈现框305可以呈现于独立于视频播放设备的其它应用(例如，识别音频的应用)的窗口中。

本申请的上述实施例提供的在播放视频的设备中识别视频中音频的方法，通过响应于用户的截取指令而截取正在播放的视频中的音频信息，从而在播放视频的设备中低噪音截取音频信息，之后对截取的音频信息提取音频特征，得到待识别音频指纹，之后比对待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度，由于音频指纹的数据量相对比较小，因此可以大大减少对硬盘及内存的存储要求，音频指纹来源于音频数据听觉最重要的部分，因此在经受信号失真时仍能进行有效比对，然后按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据，最后呈现查询得到的元数据，提高了音频识别的精准度以及音频识别的成功率。

进一步参考图4，其示出了在播放视频的设备中识别视频中音频的方法的又一个实施例的流程400。该在播放视频的设备中识别视频中音频的方法的流程400，包括以下步骤：

步骤401，接收用户操作。

在本实施例中，在电子设备中正在播放视频的时候，可以通过多种接收方式来接收用户操作，而无需中止或暂停正在播放的视频。

接收用户操作的方式，可以包括但不限于晃动终端、点击虚拟按钮(例如显示于正在播放的视频上的虚拟按钮)、点击实体按钮(例如电源键或音量按键)、手势识别、人脸识别、语音识别或者其它未来将开发的接收用户操作的方式。

步骤402，响应于用户操作符合预设的触发操作，触发用户的截取指令。

在本实施例中，在步骤401中接收用户操作之后，响应于用户操作符合预设的触发操作，则可以触发用户的截取指令。以手势识别为例，在终端具有摄像头的情况下，接收的用户操作还可以是作用于所述摄像头的、与预设的触发操作相对应的操作手势。更具体而言，首先，可以预定义与预设的触发操作相对应的操作手势；之后，所述终端的摄像头可以实时地对用户手势进行捕捉和识别，如果所述用户手势随后被识别为与预设的触发操作相对应的操作手势，则触发用户的截取指令。

在本实施例的一些可选实现方式中，响应于用户操作符合预设的触发操作，触发用户的截取指令可以包括但不限于以下一项或多项：响应于用户操作为对正在播放的视频中呈现的截取选项的选择操作，并且选择操作符合预设的触发操作，触发用户的截取指令；响应于用户操作为对快捷键的按键操作，并且按键操作符合预设的触发操作，触发用户的截取指令；响应于用户操作为指纹输入，并且指纹输入为预设的触发操作，触发用户的截取指令；响应于用户操作为音波输入，并且音波输入为预设的触发操作，触发用户的截取指令；以及响应于用户操作为正在播放视频的设备感应到的操作，并且感应到的操作符合预设的触发操作，触发用户的截取指令。

步骤403，响应于用户的截取指令而截取正在播放的视频中的音频信息。

通常，用户利用终端设备上安装的视频播放平台来播放视频，此时若用户终端或视频播放平台接收到由步骤402触发的用户的截取指令，则可以响应于用户的截取指令开始截取正在播放的视频中的音频信息。

步骤404，对截取的音频信息提取音频特征，得到待识别音频指纹。

在本实施例中，对用户终端或视频播放平台截取的音频信息提取音频特征，得到待识别音频指纹的方法，可以包括现有技术中或未来技术中开发的提取音频特征的方法。例如，可以首先将音频信号分成互相重叠的帧，对每一帧计算一系列特征，这些特征需要对各种音频信号处理至少在一定程度上保持不变。目前已经提出的特征有傅立叶系数、迈尔倒谱系数、频谱平滑度、尖锐度、线性预测编码系数等，还有这些基本量的导出量如均值和方差。通常这些特征使用分类器技术映射到一个更简洁的表示，如隐含马尔可夫模型或量化技术。之后，可以根据提取的音频特征，得到待识别音频指纹。

在这里，需要说明的是，音频指纹可以是代表一段音乐重要声学特征的基于内容的紧致数字签名，可以视为一段音频的摘要。因此，对截取的音频信息提取音频特征，得到待识别音频指纹后，可以将其与预设的数据库中的乐曲音频指纹进行比对，以提高比对效率。

本领域技术人员应当理解，对截取的音频信息提取音频特征以得到待识别音频指纹所采取的方法，与预设的音频指纹数据库中得到乐曲音频指纹的方法应相同，以减少由于提取方法不同所带来的误差，进而提高后续比对步骤的准确度。

步骤405，比对待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度。

比对音频指纹时，可以将待识别音频指纹和预设的数据库中存储的大量音频指纹相比对，从而得到比对结果。一个有效的指纹提取算法和指纹比对算法，能够在预设的数据库中存储的大量音频指纹中，根据待识别音频指纹与数据库中存储的大量音频指纹的相似度，正确识别出且可能经受各种信号处理失真的待识别音频的原始版本。

步骤406，按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据。

步骤407，呈现查询得到的元数据。

在本实施例中，在步骤406进行查询得到元数据之后，可以在播放视频的终端设备中或在播放视频的终端设备的视频播放平台中呈现查询得到的元数据。

呈现查询得到的元数据的位置，可以为播放视频的交互界面中的任意位置，例如可以在播放视频的窗口中的一个浮动窗口中呈现，或者滚动于播放视频的窗口的侧边处，或者为独立于播放视频的窗口之外的悬浮窗口处等。

在本实施例中，上述步骤401、402、403和407可以运行于播放视频的终端设备，步骤404、405和406中的一个或多个步骤可以运行于播放视频的终端设备或运行于云端服务器。例如，若播放视频的电子设备的处理器性能较低或存储空间较少，则可以在云端服务器上存储上述预设的数据库，并在云端运行步骤404、405和406中的一个或多个步骤，反之，若播放视频的电子设备的处理器性能较高并且存储空间较多，则可以在本地存储有上述的预设的数据库，并在本地运行步骤404、405和406中的一个或多个步骤。又或者若播放视频的电子设备处于未连接网络状态，且本地存储有上述的预设的数据库，则步骤404、405和406中的一个或多个步骤可以运行于播放视频的电子设备。

从图4中可以看出，与图2对应的实施例相比，本实施例中的在播放视频的设备中识别视频中音频的方法的流程400突出了根据接收的用户操作触发用户截取指令的步骤。由此，本实施例描述的方案可以引入用户操作以触发用户截取指令，从而扩展了人机交互方式，实现了有效的用户截取指令的生成。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种在播放视频的设备中识别视频中音频的装置的一个实施例，该装置实施例与图2至图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的在播放视频的设备中识别视频中音频的装置500可以包括但不限于：截取模块510，提取模块520，比对模块530，获取模块540和呈现模块550。

截取模块510，配置用于响应于用户的截取指令而截取正在播放的视频中的音频信息。

在本实施例中，截取模块510可以通过多种现有技术中已知的获取方式或未来技术中开发的获取方式来接收用户的截取指令。例如，可以通过预设的触发方式来触发截取指令：通过预设的动作触发截取指令、通过预设的按键触发截取指令等，也可以通过预设的人机交互接口来接收用户的截取指令。

截取模块510在接收用户的截取指令之后，响应于用户的截取指令，截取正在播放的视频中的音频信息。在截取正在播放的视频中的音频信息时，可以通过多种现有技术中已知的获取方式或未来技术中开发的获取方式来得到截取的音频信息，例如通过复制音频源文件或录音截取音频信息。

在本实施例的一些可选实现方式中，截取模块可以包括但不限于：源音频截取模块，配置用于响应于用户的截取指令而截取正在播放的视频的音频源文件，得到截取的音频信息；和/或录音截取模块，配置用于响应于用户的截取指令而对正在播放的视频进行录音，得到截取的音频信息。

提取模块520，配置用于对截取的音频信息提取音频特征，得到待识别音频指纹。

在本实施例中，提取模块520所采用的对用户终端或视频播放平台截取的音频信息提取音频特征，得到待识别音频指纹的方法，可以包括现有技术中或未来技术中开发的提取音频特征的方法。例如，可以首先将音频信号分成互相重叠的帧，对每一帧计算一系列特征，这些特征需要对各种音频信号处理至少在一定程度上保持不变。目前已经提出的特征有傅立叶系数、迈尔倒谱系数、频谱平滑度、尖锐度、线性预测编码系数等，还有这些基本量的导出量如均值和方差。通常这些特征使用分类器技术映射到一个更简洁的表示，如隐含马尔可夫模型或量化技术。之后，可以根据提取的音频特征，得到待识别音频指纹。

本领域技术人员应当理解，提取模块520所采用的对截取的音频信息提取音频特征以得到待识别音频指纹所采取的方法，与预设的音频指纹数据库中得到乐曲音频指纹的方法应相同，以减少由于提取方法不同所带来的误差，进而提高后续比对步骤的准确度。

比对模块530，配置用于比对待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度。

在本实施例中，比对模块530在比对音频指纹时，可以将待识别音频指纹和预设的数据库中存储的大量音频指纹相比对，从而得到比对结果。一个有效的指纹提取算法和指纹比对算法，能够在预设的数据库中存储的大量音频指纹中，根据待识别音频指纹与数据库中存储的大量音频指纹的相似度，正确识别出可能经受各种信号处理失真的待识别音频的原始版本。

在一些可选的实现方式中，若比对模块530设置于播放视频的电子设备中，预设的音频指纹数据库存储于本地，且该音频指纹数据库包括乐曲音频指纹以及以乐曲音频指纹为索引的乐曲的元数据，此时可以在比对模块530中进行比对步骤。在进行比对时，可以将待识别音频指纹与音频指纹数据库中的乐曲音频指纹进行比对，从而得到以乐曲音频指纹为索引的乐曲的元数据，从而实现在保证比对精度的情况下，减少本地存储的数据量。

获取模块540，配置用于按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据。

为了向用户更为精准的推送与待识别音频指纹相似的乐曲的元数据，获取模块540可按照与待识别音频指纹的相似度，获取预设数量的乐曲音频指纹，之后查询以获取的音频指纹为索引的乐曲的元数据，以便呈现给用户。

应当理解，在一些实现中，获取模块540可以呈现用户设定界面以接收用户设定的获取的查询的乐曲的元数据的数量，从而确定获取的乐曲音频指纹的数量；备选地或附加地，获取模块540也可以呈现技术开发人员设定界面，以接收技术开发人员设定的获取的乐曲音频指纹的数量。

呈现模块550，配置用于呈现查询得到的乐曲的元数据。

在本实施例中，呈现模块550呈现查询得到的元数据的位置，可以为播放视频的交互界面中的任意位置，例如可以在播放视频的窗口中的一个浮动窗口中呈现，或者滚动呈现于播放视频的窗口的侧边处，或者呈现于独立于播放视频的窗口之外的悬浮窗口处等。

在本实施例的一些可选实现方式中，呈现模块可以通过以下一项或多项表现形式向用户呈现查询得到的乐曲的元数据：语音(从文本到语音TTS)、文本、图片和流媒体。

在本实施例的一些可选实现方式中，呈现模块在预设位置以以下一项或多项呈现方式向用户呈现查询得到的乐曲的元数据：预设颜色、预设亮度和预设遮罩状态。

在本实施例的一些可选实现方式中，以下一个或多个模块可以设于云端服务器：提取模块、比对模块和获取模块。

在本实施例的一些可选实现方式中，上述的在播放视频的设备中识别视频中音频的装置还可以包括但不限于(未示出)：接收模块，配置用于接收用户操作；触发模块，配置用于响应于用户操作符合预设的触发操作，触发用户的截取指令。

在本实现方式中，触发模块可以包括但不限于以下一项或多项：选项触发模块，配置用于响应于用户操作为对正在播放的视频中呈现的截取选项的选择操作，并且选择操作符合预设的触发操作，触发用户的截取指令；快捷键触发模块，配置用于响应于用户操作为对快捷键的按键操作，并且按键操作符合预设的触发操作，触发用户的截取指令；指纹触发模块，配置用于响应于用户操作为指纹输入，并且指纹输入为预设的触发操作，触发用户的截取指令；音波触发模块，配置用于响应于用户操作为音波输入，并且音波输入为预设的触发操作，触发用户的截取指令；以及感应触发模块，配置用于响应于用户操作为正在播放视频的设备感应到的操作，并且感应到的操作符合预设的触发操作，触发用户的截取指令。

本领域技术人员可以理解，上述在播放视频的设备中识别视频中音频的装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

应当理解，装置500中记载的诸模块与参考图2、图3及图4描述的方法中的各个步骤相对应。由此，上文针对在播放视频的设备中识别视频中音频的方法描述的操作和特征同样适用于装置500及其中包含的模块，在此不再赘述。装置500中的相应模块可以与终端设备和/或服务器中的模块相互配合以实现本申请实施例的方案。

本申请还提供了一种视频播放装置，该视频播放装置可以包括但不限于本申请上述实施例中所述的在播放视频的设备中识别视频中音频的装置。

本申请还提供了一种电子设备，该电子设备可以包括但不限于本申请上述实施例中所述的在播放视频的设备中识别视频中音频的装置，备选地或附加地，该电子设备可以包括但不限于本申请上述实施例中所述的视频播放装置。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括截取模块、提取模块、比对模块、获取模块和呈现模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，截取模块还可以被描述为“响应于用户的截取指令而截取正在播放的视频中的音频信息的模块”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：响应于用户的截取指令而截取正在播放的视频中的音频信息；对截取的音频信息提取音频特征，得到待识别音频指纹；比对待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据；呈现查询得到的元数据。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种在播放视频的设备中识别视频中音频的方法，其特征在于，包括：

响应于用户的截取指令而截取正在播放的视频中的音频信息；

对截取的音频信息提取音频特征，得到待识别音频指纹；

比对所述待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；

按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据；

呈现查询得到的元数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收用户操作；

响应于所述用户操作符合预设的触发操作，触发所述用户的截取指令。

3.根据权利要求2所述的方法，其特征在于，响应于所述用户操作符合预设的触发操作，触发所述用户的截取指令包括以下一项或多项：

响应于所述用户操作为对正在播放的视频中呈现的截取选项的选择操作，并且所述选择操作符合预设的触发操作，触发所述用户的截取指令；

响应于所述用户操作为对快捷键的按键操作，并且所述按键操作符合预设的触发操作，触发所述用户的截取指令；

响应于所述用户操作为指纹输入，并且所述指纹输入为预设的触发操作，触发所述用户的截取指令；

响应于所述用户操作为音波输入，并且所述音波输入为预设的触发操作，触发所述用户的截取指令；以及

响应于所述用户操作为正在播放视频的设备感应到的操作，并且所述感应到的操作符合预设的触发操作，触发所述用户的截取指令。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述响应于用户的截取指令而截取正在播放的视频中的音频信息包括：

响应于用户的截取指令而截取所述正在播放的视频的音频源文件，得到截取的音频信息；和/或

响应于用户的截取指令而对所述正在播放的视频进行录音，得到截取的音频信息。

5.根据权利要求4所述的方法，其特征在于，在云端服务器进行以下一项或多项操作：

对截取的音频信息提取音频特征，得到待识别音频指纹；

按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据。

6.根据权利要求5所述的方法，其特征在于，通过以下一项或多项表现形式向用户呈现查询得到的乐曲的元数据：

语音、文本、图片和流媒体。

7.根据权利要求6所述的方法，其特征在于，在预设位置以以下一项或多项呈现方式向用户呈现查询得到的乐曲的元数据：

预设颜色、预设亮度和预设遮罩状态。

8.一种在播放视频的设备中识别视频中音频的装置，其特征在于，所述装置包括：

截取模块，用于响应于用户的截取指令而截取正在播放的视频中的音频信息；

提取模块，用于对截取的音频信息提取音频特征，得到待识别音频指纹；

比对模块，用于比对所述待识别音频指纹与预设的音频指纹数据库中的乐曲音频指纹的相似度；

获取模块，用于按照相似度从高至低，获取预设数量的乐曲音频指纹，查询以获取的音频指纹为索引的乐曲的元数据；

呈现模块，用于呈现查询得到的乐曲的元数据。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收用户操作；

触发模块，用于响应于所述用户操作符合预设的触发操作，触发所述用户的截取指令。

10.根据权利要求9所述的装置，其特征在于，所述触发模块包括以下一项或多项：

选项触发模块，用于响应于所述用户操作为对正在播放的视频中呈现的截取选项的选择操作，并且所述选择操作符合预设的触发操作，触发所述用户的截取指令；

快捷键触发模块，用于响应于所述用户操作为对快捷键的按键操作，并且所述按键操作符合预设的触发操作，触发所述用户的截取指令；

指纹触发模块，用于响应于所述用户操作为指纹输入，并且所述指纹输入为预设的触发操作，触发所述用户的截取指令；

音波触发模块，用于响应于所述用户操作为音波输入，并且所述音波输入为预设的触发操作，触发所述用户的截取指令；以及

感应触发模块，用于响应于所述用户操作为正在播放视频的设备感应到的操作，并且所述感应到的操作符合预设的触发操作，触发所述用户的截取指令。

11.根据权利要求8-10任意一项所述的装置，其特征在于，所述截取模块包括：

源音频截取模块，用于响应于用户的截取指令而截取所述正在播放的视频的音频源文件，得到截取的音频信息；和/或

录音截取模块，用于响应于用户的截取指令而对所述正在播放的视频进行录音，得到截取的音频信息。

12.根据权利要求11所述的装置，其特征在于，以下一个或多个模块设于云端服务器：提取模块、比对模块和获取模块。

13.根据权利要求12所述的装置，其特征在于，所述呈现模块通过以下一项或多项表现形式向用户呈现查询得到的乐曲的元数据：

语音、文本、图片和流媒体。

14.根据权利要求13所述的装置，其特征在于，所述呈现模块在预设位置以以下一项或多项呈现方式向用户呈现查询得到的乐曲的元数据：

预设颜色、预设亮度和预设遮罩状态。

15.一种视频播放装置，其特征在于，所述视频播放装置包括如权利要求8-14任意一项所述的在播放视频的设备中识别视频中音频的装置。

16.一种电子设备，其特征在于，所述电子设备包括：

如权利要求8-14任意一项所述的在播放视频的设备中识别视频中音频的装置；和/或

如权利要求15所述的视频播放装置。