CN102970578A

CN102970578A - 一种多媒体信息识别、训练的方法及装置

Info

Publication number: CN102970578A
Application number: CN2012104695208A
Authority: CN
Inventors: 李鹏; 孙熙; 陆承恩; 高鹏程
Original assignee: TENFEN Inc
Current assignee: KUYUN INTERACTIVE TECHNOLOGY LIMITED
Priority date: 2012-11-19
Filing date: 2012-11-19
Publication date: 2013-03-13
Also published as: WO2014075568A1

Abstract

本发明公开了一种多媒体信息识别、训练的方法及装置，用于实现较快的获得数据源信息。所述方法包括：通过录制方式获得多媒体数据；确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据；向用户输出确定的数据源信息。本发明还公开了用于实现所述方法的装置。

Description

一种多媒体信息识别、训练的方法及装置

技术领域

本发明涉及计算机及互联网技术领域，尤其涉及一种多媒体信息识别、训练的方法及装置。

背景技术

互联网作为信息传播的新载体，科技创新的新手段，引发了前所未有的信息革命和产业革命，同时互联网的普及和发展深刻地改变了人类的生活和生产方式，给人们的日常生活和工作带来极大便利。

比如，人们可以在网络上通过搜索引擎的拼写补全功能来找到自己感兴趣的一类新闻或信息，也可以在购物网站上输入自己感兴趣的商品后，网站的推荐系统会根据用户的购买商品的行为历史列出用户可能感兴趣的其他多件相关商品。

具体到多媒体领域，当用户在视频/音频(表示视频、音频、视频和音频)网站上通过搜索来收看/收听(表示收看、收听、收看和收听)某部视频/音频时，网站的推荐系统也会给出用户可能感兴趣的相关相近的视频/音频内容来供用户选择。但是当用户面对偶然看到的视频或音频节目时，由于用户对播放的节目信息一无所知，因而无法利用“关键字”搜索的方法上网搜索节目的相关信息时，用户想要获取该节目的相关信息就产生了困难，自然也无法根据用户的信息输入，来给出用户可能感兴趣的相近的节目信息以供用户判断。因此，本申请的发明人发现，应当开发相关应用，以解决用户无论何时何地通过媒体设备观看/收听视频/音频节目时，都不能及时地通过互联网网络通讯技术获取该节目的相关信息及播放内容的问题。

发明内容

本发明实施例提供一种多媒体信息识别、训练的方法及装置，用于实现较快的获得数据源信息。

一种识别多媒体数据的方法，包括以下步骤：通过录制方式获得多媒体数据；确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据；向用户输出确定的数据源信息。本实施例通过录得的数据可以直接定位到能够提供该数据的数据源。不再需要用户输入关键词进行搜索。

优选的，确定获得的多媒体数据对应的数据源信息的步骤包括：将获得的多媒体数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。本实施例通过已有的多媒体数据训练模型对获得的多媒体数据进行识别，以定位到相应的数据源信息，可使定位较准确。

优选的，将获得的多媒体数据与预存的多媒体数据进行比对的步骤包括：按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。关注度越高，匹配成功的可能性越大，因此可以提高匹配成功的效率。

优选的，获得的多媒体数据包括多媒体实质数据和噪声数据。因为大量的用户可能在类似的场景下录制多媒体数据，所以噪声数据也具有共性。带着噪声数据进行数据源定位，可提高定位的准确度。

优选的，确定获得的多媒体数据对应的数据源信息的步骤包括：通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据；将多媒体实质数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。这样，可提高确定的数据源信息的准确度。

优选的，通过录制方式获得多媒体数据的步骤包括：移动终端通过录制方式获得多媒体数据，并发送给服务器；确定获得的多媒体数据对应的数据源信息的步骤包括：服务器确定获得的多媒体数据对应的数据源信息，并将确定的数据源信息发送给移动终端；向用户输出确定的数据源信息的步骤包括：移动终端向用户输出确定的数据源信息。上述方法可以由移动终端实现，但是移动终端的性能有限，因此将确定数据源信息的过程放在服务器侧处理，可提高处理的效率和准确度。

优选的，确定获得的多媒体数据对应的数据源信息的步骤包括：通过录制方式，每获得满足预设时长的多媒体数据时，确定总共获得的多媒体数据对应的数据源信息。这样可伴随整个录制过程，不断的进行数据源信息的定位，并动态调整，可进一步提高定位的准确性。

一种训练多媒体数据的方法，包括以下步骤：通过录制方式获得多媒体数据，该多媒体数据包括噪声数据和多媒体实质数据；将获得的多媒体数据作为样本，加入训练模型中。本实施例将录制得到的多媒体数据作为样品加入到训练模型中，以便对训练模型进行训练，可以使该训练模型更完善，利用该训练模式进行多媒体数据识别时可提高识别的准确度。

优选的，所述方法还包括步骤：确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据；向用户输出确定的数据源信息；接收用户输入的选择指令，根据该选择指令确定用户选择的数据源信息；建立获得的多媒体数据与选择的数据源信息的对应关系；将建立的对应关系加入训练模型中。本实施例中通过用户的选择可建立较准确的多媒体数据与数据源信息的对应关系，将该对应关系加入训练模型，以便对训练模型进行训练，可进一步提高训练模型的准确度。

一种识别多媒体数据的装置，包括：

录制模块，用于通过录制方式获得多媒体数据；

查询模块，用于确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据；

接口模块，用于向用户输出确定的数据源信息。

优选的，查询模块将获得的多媒体数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

优选的，查询模块按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。

优选的，获得的多媒体数据包括多媒体实质数据和噪声数据。

优选的，查询模块通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据；将多媒体实质数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

优选的，通过录制方式，每获得满足预设时长的多媒体数据时，查询模块确定总共获得的多媒体数据对应的数据源信息。

一种训练多媒体数据的装置，包括：

录制模块，用于通过录制方式获得多媒体数据，该多媒体数据包括噪声数据和多媒体实质数据；

训练模块，用于将获得的多媒体数据作为样本，加入训练模型中。

优选的，所述装置还包括：

接口模块，用于向用户输出确定的数据源信息；接收用户输入的选择指令，根据该选择指令确定用户选择的数据源信息；

训练模块还用于建立获得的多媒体数据与选择的数据源信息的对应关系，将建立的对应关系加入训练模型中。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中识别多媒体数据的主要方法流程图；

图2为本发明实施例中由移动终端识别多媒体数据的方法流程图；

图3为本发明实施例中由服务器识别多媒体数据的方法流程图；

图4为本发明实施例中训练多媒体数据的方法流程图；

图5为本发明实施例中识别多媒体数据的装置结构图；

图6为本发明实施例中训练多媒体数据的装置主要结构图；

图7为本发明实施例中训练多媒体数据的装置详细结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本实施例通过录得的数据可以直接定位到能够提供该数据的数据源。不再需要用户输入关键词进行搜索。

参见图1，本实施例中识别多媒体数据的主要方法流程如下：

步骤101：通过录制方式获得多媒体数据。多媒体数据包括视频数据和音频数据。

步骤102：确定获得的多媒体数据对应的数据源信息。其中，数据源信息标记的数据源能够提供获得的多媒体数据。

较佳的，通过录制方式，每获得满足预设时长的多媒体数据时，确定总共获得的多媒体数据对应的数据源信息。

步骤103：向用户输出确定的数据源信息。

其中，数据源信息可具体为频道链接或其它网络媒体资源链接等。获得的数据源信息可以以列表形式输出给用户，由用户选择后链接到相应的数据源；或者自动链接到匹配程度最高的数据源信息对应的数据源。

较佳的，确定获得的多媒体数据对应的数据源信息的步骤包括：将获得的多媒体数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

为了进一步提高匹配多媒体数据的效率，将获得的多媒体数据与预存的多媒体数据进行比对的步骤包括：按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。其中，关注度包括收视率、收听率和搜索频率等。

本实施例中获得的多媒体数据包括多媒体实质数据和噪声数据。则，确定获得的多媒体数据对应的数据源信息的步骤包括：通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据；将多媒体实质数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

以上方法可均有移动终端实现。或者：移动终端通过录制方式获得多媒体数据，并发送给服务器；服务器确定获得的多媒体数据对应的数据源信息，并将确定的数据源信息发送给移动终端；移动终端向用户输出确定的数据源信息。

下面通过两个典型实施例来详细介绍识别多媒体数据的过程。

参见图2，本实施例中由移动终端识别多媒体数据的方法流程如下：

步骤201：移动终端通过录制方式获得满足预设时长的多媒体数据。其中，预设时长包括3～5秒。

在步骤201中每获得预设时长的多媒体数据，就执行以下步骤。

步骤202：移动终端将总共获得的多媒体数据与预存的多媒体数据进行比对。此步骤具体采用模糊匹配的方式。因为对于大量用户来说，很多典型噪声可能在大量场景出现，所以可以将噪声作为多媒体数据的一部分，带着噪声进行匹配，可提高匹配的准确度。当然，预存的多媒体数据也包括噪声数据。典型噪声如：说话声、走路声等。

预存的多媒体数据为训练模型的样品，具体通过训练模型对获得的多媒体数据进行识别。可以直接对多媒体数据进行识别，或者获得多媒体数据的指纹，并指纹进行识别。还可以有其它识别方式，能够识别多媒体数据的方式均适用于本实施例。

步骤203：移动终端确定匹配成功的预存的多媒体数据。这里的匹配成功是指匹配相似度超过预设阈值(如60％)的多媒体数据。

步骤204：移动终端根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

步骤205：移动终端向用户输出确定的数据源信息。

参见图3，本实施例中由服务器识别多媒体数据的方法流程如下：

步骤301：移动终端通过录制方式获得满足预设时长的多媒体数据，并发送给服务器。移动终端可以发送多媒体数据本身，也可以发送多媒体数据的指纹。

步骤302：服务器通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据。

步骤303：服务器将多媒体实质数据与预存的多媒体数据进行比对。较佳的，按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。

步骤304：服务器确定匹配成功的预存的多媒体数据。

步骤305：服务器根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息(包括匹配程度信息)，并发送给移动终端。

步骤306：移动终端按照匹配程度由高到低的顺序向用户输出数据源信息。具体的，移动终端可直接根据匹配度最高的数据源信息链接到数据源，或者，根据用户对数据源信息的选择链接到选择的数据源。

本实施例中录制的多媒体数据有两个作用，一是据此确定提供该多媒体数据的数据源，二是可利用该多媒体数据对训练模型进行训练。下面对训练过程进行介绍。

参见图4，本实施例中训练多媒体数据的方法流程如下：

步骤401：通过录制方式获得多媒体数据，该多媒体数据包括噪声数据和多媒体实质数据。

步骤402：将获得的多媒体数据作为样本，加入训练模型中。

较佳的，在步骤401之后，确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据；向用户输出确定的数据源信息；接收用户输入的选择指令，根据该选择指令确定用户选择的数据源信息；建立获得的多媒体数据与选择的数据源信息的对应关系；将建立的对应关系加入训练模型中。本实施例中通过用户的选择可建立较准确的多媒体数据与数据源信息的对应关系，将该对应关系加入训练模型，以便对训练模型进行训练，可进一步提高训练模型的准确度。

通过以上描述了解了识别和训练多媒体数据的实现过程，该过程可由装置实现，下面对装置的内部结构和功能进行介绍。

参见图5，本实施例中识别多媒体数据的装置包括：录制模块501、查询模块502和接口模块503。所述装置可具体为移动终端。或者，录制模块501和接口模块503位于移动终端，查询模块502位于服务器，则所述装置构成了一个系统。

录制模块501用于通过录制方式获得多媒体数据。

查询模块502用于确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据。

接口模块503用于向用户输出确定的数据源信息。

较佳的，查询模块502将获得的多媒体数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

查询模块502按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。

获得的多媒体数据包括多媒体实质数据和噪声数据。则，查询模块502通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据；将多媒体实质数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

另外，通过录制方式，每获得满足预设时长的多媒体数据时，查询模块确定总共获得的多媒体数据对应的数据源信息。

参见图6，本实施例中训练多媒体数据的装置包括：录制模块601和训练模块602。所述装置可具体为移动终端。或者，录制模块601位于移动终端，训练模块603位于服务器，则所述装置构成了一个系统。

录制模块601用于通过录制方式获得多媒体数据，该多媒体数据包括噪声数据和多媒体实质数据。

训练模块602用于将获得的多媒体数据作为样本，加入训练模型中。

所述装置还包括：查询模块603和接口模块604，参见图7所示。

查询模块603用于确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据。

接口模块604用于向用户输出确定的数据源信息；接收用户输入的选择指令，根据该选择指令确定用户选择的数据源信息。

训练模块602还用于建立获得的多媒体数据与选择的数据源信息的对应关系，将建立的对应关系加入训练模型中。

本实施例通过录得的数据可以直接定位到能够提供该数据的数据源。不再需要用户输入关键词进行搜索。并且，本发明实施例还从噪声角度进一步提高了多媒体数据匹配的准确度，进而更准确的定位数据源信息。以及，通过优先匹配关注度高的多媒体数据，提高了匹配效率。另外，本发明实施例还利用录制得到的多媒体数据进行模型训练，以便利用训练后的模型更准确的识别多媒体数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多媒体信息识别的方法，其特征在于，包括以下步骤：

通过录制方式获得多媒体数据；

确定获得的多媒体数据对应的数据源信息，其中，数据源信息标记的数据源能够提供获得的多媒体数据；

向用户输出确定的数据源信息。

2.如权利要求1所述的方法，其特征在于，确定获得的多媒体数据对应的数据源信息的步骤包括：

将获得的多媒体数据与预存的多媒体数据进行比对；

确定匹配成功的预存的多媒体数据；

根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

3.如权利要求2所述的方法，其特征在于，将获得的多媒体数据与预存的多媒体数据进行比对的步骤包括：

按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。

4.如权利要求1、2或3所述的方法，其特征在于，获得的多媒体数据包括多媒体实质数据和噪声数据。

5.如权利要求4所述的方法，其特征在于，确定获得的多媒体数据对应的数据源信息的步骤包括：

通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据；

将多媒体实质数据与预存的多媒体数据进行比对；

确定匹配成功的预存的多媒体数据；

6.如权利要求1所述的方法，其特征在于，通过录制方式获得多媒体数据的步骤包括：移动终端通过录制方式获得多媒体数据，并发送给服务器；

确定获得的多媒体数据对应的数据源信息的步骤包括：服务器确定获得的多媒体数据对应的数据源信息，并将确定的数据源信息发送给移动终端；

向用户输出确定的数据源信息的步骤包括：移动终端向用户输出确定的数据源信息。

7.如权利要求1所述的方法，其特征在于，确定获得的多媒体数据对应的数据源信息的步骤包括：

通过录制方式，每获得满足预设时长的多媒体数据时，确定总共获得的多媒体数据对应的数据源信息。

8.一种训练多媒体数据的方法，其特征在于，包括以下步骤：

通过录制方式获得多媒体数据，该多媒体数据包括噪声数据和多媒体实质数据；

将获得的多媒体数据作为样本，加入训练模型中。

9.如权利要求8所述的方法，其特征在于，还包括步骤：

向用户输出确定的数据源信息；

接收用户输入的选择指令，根据该选择指令确定用户选择的数据源信息；

建立获得的多媒体数据与选择的数据源信息的对应关系；

将建立的对应关系加入训练模型中。

10.一种多媒体信息识别的装置，其特征在于，包括：

录制模块，用于通过录制方式获得多媒体数据；

接口模块，用于向用户输出确定的数据源信息。

11.如权利要求10所述的装置，其特征在于，查询模块将获得的多媒体数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

12.如权利要求11所述的装置，其特征在于，查询模块按照预存的多媒体数据的关注度由高到低的顺序，将获得的多媒体数据与预存的多媒体数据进行比对。

13.如权利要求10、11或12所述的装置，其特征在于，获得的多媒体数据包括多媒体实质数据和噪声数据。

14.如权利要求13所述的装置，其特征在于，查询模块通过预存的噪声数据样本从获得的多媒体数据中识别出噪声，确定多媒体实质数据；将多媒体实质数据与预存的多媒体数据进行比对；确定匹配成功的预存的多媒体数据；根据预设的预存的多媒体数据与数据源信息的对应关系，确定匹配成功的预存的多媒体数据对应的数据源信息。

15.如权利要求1所述的装置，其特征在于，通过录制方式，每获得满足预设时长的多媒体数据时，查询模块确定总共获得的多媒体数据对应的数据源信息。

16.一种训练多媒体数据的装置，其特征在于，包括：

17.如权利要求16所述的装置，其特征在于，还包括：