CN109218750A

CN109218750A - 视频内容检索的方法、装置、存储介质和终端设备

Info

Publication number: CN109218750A
Application number: CN201811276934.2A
Authority: CN
Inventors: 王群; 董维山
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-01-15
Anticipated expiration: 2038-10-30
Also published as: CN109218750B

Abstract

本发明提出一种视频内容检索的方法、装置、存储介质和终端设备，其中，所述方法包括：在视频的播放界面中显示搜索控件；检测对所述搜索控件的触控；如果检测到对所述搜索控件的触控，则显示内容框；其中，所述内容框用于框住所述搜索控件所在位置的视频内容；检测对所述内容框的触控；以及如果检测到对所述内容框的触控，则显示所述内容框所框住的视频内容的关联信息；其中，所述关联信息用于描述所述视频内容；所述视频内容预先与所述关联信息建立索引关系。采用本发明，可以满足了观看视频的用户搜索相关内容的需求，且快速，简化视频检索步骤。

Description

视频内容检索的方法、装置、存储介质和终端设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频内容检索的方法、装置、存储介质和终端设备。

背景技术

随着互联网技术的发展，人们可以通过液晶电视、平板电脑、智能手机等终端设备观看在线或离线视频。这些终端设备可以提供触屏交互或点击交互等功能，以方便用户与终端设备显示的视频内容进行交互。

用户在观看视频的过程中，如果对视频中的某一视频内容感兴趣，例如，商品、人物、音乐、地点、场所、字幕等，通常会暂停视频，然后再打浏览器和搜索引擎，在搜索引擎中输入用户自已认为贴切的关键字进行搜索。但是，需要用户跳转页面进行搜索，搜索麻烦。

发明内容

本发明实施例提供一种视频内容检索的方法、装置、存储介质和终端设备，以解决或缓解现有技术中的以上一个或多个技术问题。

第一方面，本发明实施例提供了一种视频内容检测的方法，包括：

在视频的播放界面中显示搜索控件；

检测对所述搜索控件的触控；

如果检测到对所述搜索控件的触控，则显示内容框；其中，所述内容框用于框住所述搜索控件所在位置的视频内容；

检测对所述内容框的触控；以及

如果检测到对所述内容框的触控，则显示所述内容框所框住的视频内容的关联信息；其中，所述关联信息用于描述所述视频内容；所述视频内容预先与所述关联信息建立索引关系。

在一种实施方式中，所述显示内容框包括：

判断当前帧的视频图像相比前一帧的视频图像所出现的新的视频内容是否为可搜索关联信息的视频内容；以及

如果所述新的视频内容为可搜索关联信息的视频内容，将所述新的视频内容的标注信息更新在所述视频的播放器中，以使所述播放器根据所述标注信息显示搜索控件；其中，所述标注信息包括所述搜索控件显示在所述视频中的视频图像的视频帧号和显示位置。

在一种实施方式中，所述标注信息包括连续的多个视频帧号；以及所述判断的过程包括：

判断当前帧的视频图像相比前一帧的视频图像是否出现新的视频内容；

如果出现新的视频内容，查找是否存在包括与所述新的视频内容的帧号相同且排序最前的视频帧号的标注信息；以及

如果存在所述标注信息，则判定所述新的视频内容为可搜索关联信息的视频内容。

在一种实施方式中，所述标注信息还包括所述内容框的显示尺寸，所述显示内容框包括：

根据所述搜索控件显示在所述视频中的视频图像的视频帧号和显示位置、以及所述内容框的显示尺寸，确定所述内容框的显示位置；以及

控制所述播放器在所述内容框的显示位置上显示所述内容框。

在一种实施方式中，所述方法还包括：

判断当前帧的视频图像相比前一帧的视频图像已消失的视频内容是否可搜索关联信息的视频内容；以及

如果所述已消失的视频内容为可搜索关联信息的视频内容，在所述视频的播放器中清除所述已消失的视频内容的标注信息。

在一种实施方式中，所述视频内容预先通过标记词与所述关联信息建立索引关系，以及所述显示所述内容框所框住的视频内容的关联信息，包括：

获取所述内容框所框住的视频内容的标记词；

根据所述标记词，获取与所述标记词建立索引关系的关联信息；以及

在所述播放界面中显示获取到的关联信息。

在一种实施方式中，在显示所述内容框所框住的视频内容的关联信息的同时，所述方法还包括：

在所述播放界面中显示隐藏控件；

检测对所述隐藏控件的触控；以及

如果检测到对所述隐藏控件的触控，隐藏所述关联信息并再次显示所述内容框。

在一种实施方式中，所述方法还包括在播放所述视频之前，标注可搜索关联信息的视频内容的标注信息的过程，所述标注的过程包括：

获取所述视频；

确定可搜索关联信息的视频内容首次出现在所述视频中的视频图像；

从所述视频图像中获取所述视频内容中的截图；以及

根据所述截图对所述视频进行识别，获得所述视频内容的标注信息；其中，所述标注信息包括所述视频内容的搜索控件显示在所述视频中的视频图像的视频帧号和显示位置、以及所述内容框的显示尺寸。

在一种实施方式中，所述标注信息包括所述视频内容的标记词，以及所述方法还包括：

根据所述视频内容的标记词，检索与所述标记词关联的关联信息；以及

建立所述标记词与所述关联信息的索引关系。

在一种实施方式中，所述根据所述截图对所述视频进行识别，获得所述视频内容的标注信息，包括：

利用智能标注模型，根据所述截图对所述视频进行识别，获得所述视频内容的标注信息；其中，所述智能标注模型预先通过训练数据训练生成的，所述训练数据包括样本视频、样本截图和样本标注信息；所述样本截图包括可搜索关联信息的视频内容，所述样本标注信息包括用于所述视频内容的搜索控件显示在所述视频中的视频图像的视频帧号和显示位置、以及所述内容框的显示尺寸。

第二方面，一种视频内容检索的装置，包括：

搜索控件显示模块，用于在视频的播放界面中显示搜索控件；

搜索控件检测模块，用于检测对所述搜索控件的触控；

内容框显示模块，用于如果检测到对所述搜索控件的触控，则显示内容框；其中，所述内容框用于框住所述搜索控件所在位置的视频内容；

内容框检测模块，用于检测对所述内容框的触控；以及

关联信息显示模块，用于如果检测到对所述内容框的触控，则显示所述内容框所框住的视频内容的关联信息；其中，所述关联信息用于描述所述视频内容；所述视频内容预先与所述关联信息建立索引关系。

在一种实施方式中，所述搜索控件显示模块包括：

可搜索内容判断单元，用于判断当前帧的视频图像相比前一帧的视频图像所出现的新的视频内容是否为可搜索关联信息的视频内容；以及

标注信息更新单元，用于如果所述新的视频内容为可搜索关联信息的视频内容，将所述新的视频内容的标注信息更新在所述视频的播放器中，以使所述播放器根据所述标注信息显示搜索控件；其中，所述标注信息包括所述搜索控件显示在所述视频中的视频图像的视频帧号和显示位置。

在一种实施方式中，所述标注信息包括连续的多个视频帧号；以及所述可搜索内容判断单元包括：

新内容判断子单元，用于判断当前帧的视频图像相比前一帧的视频图像是否出现新的视频内容；

标注信息查找单元，用于如果出现新的视频内容，查找是否存在包括与所述新的视频内容的帧号相同且排序最前的视频帧号的标注信息；以及

判定单元，用于如果存在所述标注信息，则判定所述新的视频内容为可搜索关联信息的视频内容。

在一种实施方式中，所述标注信息还包括所述内容框的显示尺寸，所述内容框显示模块包括：

内容框位置确定单元，用于根据所述搜索控件显示在所述视频中的视频图像的视频帧号和显示位置、以及所述内容框的显示尺寸，确定所述内容框的显示位置；以及

控制显示单元，用于控制所述播放器在所述内容框的显示位置上显示所述内容框。

在一种实施方式中，所述装置还包括：

已消失内容判断模块，用于判断当前帧的视频图像相比前一帧的视频图像已消失的视频内容是否可搜索关联信息的视频内容；以及

标注信息清除模块，用于如果所述已消失的视频内容为可搜索关联信息的视频内容，在所述视频的播放器中清除所述已消失的视频内容的标注信息。

在一种实施方式中，所述视频内容预先通过标记词与所述关联信息建立索引关系，以及所述关联信息显示模块包括：

标注信息获取单元，用于获取所述内容框所框住的视频内容的标记词；

关联信息获取单元，用于根据所述标记词，获取与所述标记词建立索引关系的关联信息；以及

显示单元，用于在所述播放界面中显示获取到的关联信息。

在一种实施方式中，所述装置还包括：

隐藏控件显示模块，用于在显示所述内容框所框住的视频内容的关联信息的同时，显示隐藏控件；

隐藏控件检测模块，用于检测对所述隐藏控件的触控；以及

隐藏与显示模块，用于如果检测到对所述隐藏控件的触控，隐藏所述关联信息并再次显示所述内容框。

在一种实施方式中，所述装置还包括标注信息标注模块，包括：

视频获取单元，用于在播放所述视频之前获取所述视频；

视频图像确定单元，用于确定可搜索关联信息的视频内容首次出现在所述视频中的视频图像；

截图获取单元，用于从所述视频图像中获取所述视频内容中的截图；以及识别单元，用于根据所述截图对所述视频进行识别，获得所述视频内容的标注信息；其中，所述标注信息包括所述视频内容的搜索控件显示在所述视频中的视频图像的视频帧号和显示位置、以及所述内容框的显示尺寸。

在一种实施方式中，所述标注信息包括所述视频内容的标记词，以及所述装置还包括：

关联信息检索模块，用于根据所述视频内容的标记词，检索与所述标记词关联的关联信息；以及

索引关系建立模块，用于建立所述标记词与所述关联信息的索引关系。

在一种实施方式中，所述识别单元具体用于：

第三方面，本发明实施例提供了一种视频内容检测的装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，视频内容检测的结构中包括处理器和存储器，所述存储器用于视频内容检测的装置执行上述视频内容检测的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述视频内容检测的装置还可以包括通信接口，用于视频内容检测的装置与其他设备或通信网络通信。

第四方面，本发明实施例还提供一种计算机可读存储介质，用于视频内容检测的装置所用的计算机软件指令，其中包括用于执行上述视频内容检测的方法所涉及的程序。

上述技术方案中的任意一个技术方案具有如下优点或有益效果：

本发明实施例预先将视频的可搜索关联信息的视频内容与其关联信息预先建立索引关系以及预先确定视频内容的搜索控件的显示位置。在视频播放过程中显示可搜索关联信息的搜索控件。当搜索控件被触控时，则在可搜索关联信息的视频内容中显示内容框，以框住搜索控件所在位置上视频内容。如果此内容框被触控，则将此内容框框住的视频内容的关联信息显示出来，满足了观看视频的用户搜索相关内容的需求，且快速，无需要跳转页面进行检索，简化检索步骤。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1是本发明提供的视频内容检测的方法的一个实施例的流程示意图。

图2是本发明提供的显示内容框的过程的一个实施例的流程示意图。

图3是本发明提供的可搜索关联信息的判断过程的一个实施例的流程示意图。

图4是本发明提供的标注信息的清除过程的一个实施例的流程示意图。

图5是本发明提供的关联信息的显示过程的一个实施例的流程示意图。

图6是本发明提供的隐藏关联信息的过程的一个实施例的流程示意图。

图7是本发明提供的标注信息的标注过程的一个实施例的流程示意图。

图8-1至图8-3是本发明提供的视频内容检索的交互界面的一个应用示例的示意图。

图9是本发明提供视频内容标注过程的一个应用示例的示意框图。

图10是本发明提供的关联信息与标志词关联的一个应用示例的示意框图。

图11是本发明提供的视频内容检索的交互过程的一个应用示例的示意框图。

图12是本发明提供的视频内容检测的装置的一个实施例的结构示意图；

图13是本发明提供的终端设备的一个实施例的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

请参阅图1，本发明实施例提供了一种视频内容检测的方法。本实施例可以应用在视频播放器中。例如，优酷、抖音、爱奇艺等视频播放器。也可以应用在视频网站的播放器中。本实施例包括步骤S100至步骤S300，具体如下：

S100，在视频的播放界面中显示搜索控件，并检测对此搜索控件的触控。

在一些实施例中，在视频播放的过程中，可以在视频的播放界面中显示搜索控件。此搜索控件可以在此播放界面可以进行搜索的视频内容的显示区域中显示。为了提高视频的观看体验，可以在用户移动鼠标进入到播放界面时才显示搜索控件。

在一些实施例中，搜索控件可以以放大镜、方框、圆框等搜索图形显示。本发明实施提供的搜索控件不随用户的鼠标的移动而移动，也不随用户的触摸的滑动而移动。触控包括但不限于点击、触按或长按等操作。

在一些实施例中，如果同一时刻显示的视频的视频图像中包括多个可搜索关联信息的视频内容，则此播放界面中可以显示多个搜索控件。

S200，如果检测到对搜索控件的触控，则显示内容框并检测对此内容框的触控。其中，内容框用于框住搜索控件所在位置的视频内容。

在一些实施例中，如果视频的播放界中显示的搜索控件被观看视频的用户点击、触按或长按等触控时，实施本实施例的系统可以检测到此触控的指令，将此搜索控件所位置的视频内容的内容框显示出来，且内容框可以框住此视频内容的大部分区域或全部区域。

在一些实施例中，视频内容可以包括视频中显示的人物、动物、物品、图案、文字等。如果同一时刻显示的视频的视频图像中包括多个可搜索关联信息的视频内容，则此播放界面中可以显示多个内容框。内容框可以包括虚线框、实线框或四角实线框等，框的形式可以是各类型的几何图形中的一者。

在一些实施例中，关联信息可以包括描述视频内容的名称、百科信息、用途、链接等。关联信息可以预先根据视频内容的名称、关键词进行检索而得。例如，在360搜索、搜狗搜索、必应搜索、谷歌搜索等搜索引擎中搜索相关的信息，并将检索得到的信息存储在数据库。然后将视频内容的名称、关键词等与关联信息建立索引关系。在本实施例中，可以将视频内容的名称、关键词等作为标记词，然后将标记词与关联信息预先建立索引关系。

S300，如果检测到对内容框的触控，显示内容框所框住的视频内容的关联信息。

在一些实施例中，当内容框框住界面中的视频内容时，观看视频的用户可以意识到此视频内容可以被搜索，且能够搜索出关联信息。如果用户触控了此内容框，则根据此内容框所框住的视频内容的索引关系，可以从数据库中提取出预先检测到的关联信息，并将关联信息显示在视频的播放界面中。其中，此数据库可以离线放置在云端服务器，也可以放置在本地。

在一些实施例中，如图2所示，上述步骤S100中显示搜索控件的过程，可以包括步骤S110和步骤S120，如下：

S110，判断当前帧的视频图像相比前一帧的视频图像所出现的新的视频内容是否为可搜索关联信息的视频内容。

S120，如果新的视频内容为可搜索关联信息的视频内容，将新的视频内容的标注信息更新在视频的播放器中，以使播放器根据标注信息显示搜索控件。其中，标注信息包括搜索控件显示在视频中的视频图像的视频帧号和显示位置。

在本实施例中，视频可以包括多帧视频图像。在视频的播放过程中，视频图像是一帧一帧地播放在播放器中。因此，当有新的可搜索关联信息的视频内容存在时，可以将搜索控件显示在此视频内容中，以表示此视频内容可以进行搜索。

在一些实施例中，可以通过判断新的视频内容是否存在其关联的标注信息，来判别新的视频内容是否为可搜索关联信息的视频内容。如果具有标注信息可以确定其可以显示搜索控件。此标注信息可以包括搜索控件显示在视频的视频图像的视频帧号、显示位置和显示样式等。显示样式可以包括搜索控件的尺寸、几何形式等。视频帧号可以包括一个或多个，可以包括连续的多个帧号，显示位置可以包括在每一视频帧号所对应的视频图像上的坐标位置。播放器可以根据搜索控件的视频帧号、显示位置和显示样式，将搜索控件绘制显示在播放界面中。

在一些实施例中，由于标注信息可以包括连续的多个视频帧号，如果视频包括的标注信息过多，且视频通常仅包含视频的帧信息，因此，可以通过帧号与标注信息的帧号来进行识别新的视频内容是否为可搜索的。如图3所示，上述的步骤S210的可搜索关联信息的判断过程，可以包括步骤S222至步骤S226，如下：

S222，判断当前帧的视频图像相比前一帧的视频图像是否出现新的视频内容。

S224，如果出现新的视频内容，查找是否存在包括与新的视频内容的帧号相同且排序最前的视频帧号的标注信息。

S226，如果存在标注信息，则判定新的视频内容为可搜索关联信息的视频内容。

在本实施例中，由于视频由一帧帧的视频图像构成的，同一视频内容可以出现连续多帧图像中。如果此视频内容被预先标注了标注信息，那么标注信息包括多帧连续的帧号且包括相对应的每一帧号上的搜索控件的显示位置和显示样式等，则标注信息可以包括连续排列的首帧帧号，即排序最前的视频帧号。如果帧号按时间顺序排序，则首帧帧号为时间最先的帧号。如果帧号按编号从小到大来排序，则首帧帧号为编号最小的帧号。当然，在此种情况下，播放器播放视频帧图像也是按编号从小到大来进行排序播放的。

如果播放界面中显示了搜索控件，此时可以向用户表示此搜索控件的显示区域的视频内容可被搜索。如果用户点击或触按了搜索控件，则可以将此显示区域内的视频内容用内容框框起来，以表示放大的意思。具体地，显示内容框的过程可以如下：

其一，如果标注信息可以包括内容框显示在视频的视频图像的视频帧号、显示位置和显示样式等。显示样式可以包括内容框的尺寸、几何形式等。视频帧号可以包括一个或多个，可以包括连续的多个帧号，显示位置可以包括在每一视频帧号所对应的视频图像上的坐标位置。在播放器获取标注信息后，控制播放器可以根据内容框的视频帧号、显示位置和显示样式，将内容框绘制显示在播放界面中。

其二，如果标注信息包括内容框的显示尺寸，则可以根据所述搜索控件显示在视频中的视频图像的视频帧号和显示位置、以及内容框的显示尺寸，确定内容框的显示位置。例如，确定当前显示的视频图像，则以此视频图像中搜索控件的显示位置为内容框显示中心，然后按内容框的显示尺寸，确定内容框在此视频图像中的显示位置。最后，控制播放器将内容框绘制显示在此显示位置上。

在一些实施例中，如果存在多个标注信息的首帧帧号与新的视频内容的帧号相同时，可以将多个标注信息发送给播放器，播放器可以按多个标注信息中搜索控件的视频帧号、显示位置和显示样式等信息来显示多个搜索控件。

在一些实施例中，如果可搜索关联信息的视频内容已从当前播放界面中消失了，则可以将原搜索控件或内容框的显示也清除，以避免误操作事件发生。因此，如图4所示，本实施例还提供标注信息的清除过程，可以包括步骤S410和步骤S420，如下：

S410，判断当前帧的视频图像相比前一帧的视频图像已消失的视频内容是否可搜索关联信息的视频内容。

S420，如果已消失的视频内容为可搜索关联信息的视频内容，在视频的播放器中清除已消失的视频内容的标注信息。

在一些实施例中，也可以通过将标注信息的连续多个帧号中的尾帧帧号与当前帧的前一帧的帧号进行比较，来判断已消失的视频内容是否为可搜索关联信息的视频内容。如果当前帧的前一帧的帧号与标注信息的连续多个帧号的尾帧帧号相同，则已消失的视频内容是可搜索关联信息的视频内容，此时可以在播放器中将关于已消失的视频内容的标注信息清除。

对于如何识别播放器中的哪些标注信息才是已消失的视频内容的标注信息，只要确定标注信息的连续多个帧号的尾帧帧号与当前帧的前一帧的帧号相同，则可以确定这些是已消失的视频内容的标注信息，可以将标注信息清除。虽然未清除此标注信息也不会影响内容框的显示，但是会占用播放器的解析资源。因此，将已消失的视频内容的标注信息从播放器中清除，可以提高播放器的资源利用率。

在一些实施例中，如图5所示，上述步骤S300中的关联信息的显示过程，可以包括步骤S310至步骤S330，如下：

S310，获取内容框所框住的视频内容的标记词。

在一些实施例中，由于内容框是按内容框的显示位置来显示，因此可以通内容框的显示位置，确定其框住的视频内容的标记词。可以预先将内容框的显示位置与标记词关联。以及，此视频内容可以预先通过标记词与所述关联信息建立索引关系。

S320，根据标记词，获取与标记词建立索引关系的关联信息。其中，关联信息可以存储在云端的服务器中，也可存储在本地的数据库。如果存在在云端的服务器中，可以通过向服务器发送请求，此请求中包括标记词，服务器根据标记词查找索引关系，并将索引到关联信息返回给客户端。客户端为实施本实施例的方法的系统，其可以是装载在播放器中的一个插件。

S330，在播放视频的播放界面中显示获取到的关联信息。

在一些实施例中，可以以浮层的形式将关联信息显示在播放界面中，可以遮盖播放界面的一部分。

为了可以提高观看关联信息的观看体验，在显示关联信息的同时，可以暂停在界面中显示内容框。

如果观看视频的用户在查看了其想知道的视频内容的关联信息之后想继续观看视频，则可以将此关联信息收起来。因此，在一些实施例中，可以在播放界面中设置隐藏控件。当用户点击或触摸隐藏控件时，可以隐藏关联信息。如图6所示，本实施例提供的隐藏关联信息的过程，可以包括步骤S510至S530，如下：

S510，在显示内容框所框住的视频内容的关联信息的同时，显示隐藏控件。

S520，检测对隐藏控件的触控。

S530，如果检测到对所述隐藏控件的触控，隐藏关联信息并再次显示内容框。

在一些实施例中，隐藏控件可以设置在关联信息显示区域的边缘，例如左边缘、右边缘、上边缘或下边缘等。如果与关联信息对应的图像内容已从视频的当前的播放界面中消失，则在隐藏此关联信息之后，不再显示此图像内容的内容框。但如果存在其他可搜索关联信息的图像内容在当前的播放界面中，仍会在隐藏此关联信息之后，显示此图像内容的内容框。

如果在视频提供给播放器播放之前，视频的可搜索关联信息的视频内容未被标注有标注信息以及未为其建立索引关系，那么，此时可以为此视频内容确定标注信息，并为此视频内容建立索引关系。

在一些实施例中，如图7所示，标注信息的标注过程，可以包括步骤S610至步骤S640，如下：

S610，在播放视频之前，获取视频。

S620，确定可搜索关联信息的视频内容首次出现在视频中的视频图像。

S630，从视频图像中获取视频内容中的截图。

S640，根据截图对视频进行识别，获得视频内容的标注信息；其中，标注信息包括视频内容的搜索控件显示在视频中的视频图像的视频帧号和显示位置、以及内容框的显示尺寸。

本实施例的目的是为视频中的部分可搜索的视频内容确定标注信息，以在视频播放过程中，可以根据标注信息中记载的搜索控件的视频帧号和显示位置来显示搜索控件，以提示用户此搜索控件所在显示位置上的视频内容可以被搜索。然后，也可以根据内容框的显示尺寸以及搜索控件的显示位置，确定内容框的位置，以在用户点击搜索控件时框住搜索控件所在显示位置上的视频内容。

通过本实施例的截图，可以知道此视频内容在视频图像中的位置信息，以及可以确定此视频内容的标记词。首次出现在视频中的视频图像为视频内容的首帧图像。通过步骤S630可以获得视频内容在首帧图像中的信息。在一些实施例中，可以先确定视频内容在首帧图像中的首帧标注信息。首帧标注信息可以包括{视频内容的坐标位置，内容框的显示尺寸，首帧帧号，标记词}。对于其他帧的标注信息可以利用步骤S640自动标注获取。在本实施例中，视频内容的坐标位置可以作为搜索控件的显示位置

在一些实施例中，还可以直接获取截图，然后在步骤S640中利用截图对视频进行识别，可以自动获得视频内容在其出现在的每一帧视频图像中的标注信息。标注过程可以一帧帧地确定视频内容在每一帧图像中的标注信息，得到标注信息集合。每一帧标注可以包括{视频内容的坐标位置，内容框的显示尺寸，视频帧号，标记词}。其中，在某一视频帧号中的视频内容的坐标位置和内容框的显示尺寸以确定内容框显示在此视频帧号的视频图像中的显示位置。

在一些实施例中，上述步骤S640可以通过智能标注模型自动标注。例如，将截图、视频、标记词输入到智能标注模块中，可以获得此截图对应的视频内容的标注信息。其中，视频内容出现在视频中的每一帧对应的标注信息包括{视频内容的坐标位置，内容框的显示尺寸，视频帧号，标记词}。如果将截图、视频输入到智能标注模块，可以得到：视频内容出现在视频中的每一帧对应的标注信息包括{视频内容的坐标位置，内容框的显示尺寸，视频帧号}。

其中，智能标注模型可以提前训练好。例如，采用训练数据对预设的神经网络进行训练，生成智能标注模型。训练数据包括样本视频、样本截图、样本标注词和样本标注信息等；样本截图包括可搜索关联信息的视频内容，样本标注信息包括用于框住视频内容的内容框的视频帧号和显示位置、以及样本标注词。

在为可搜索关联信息的视频内容确定了标注信息之后，还需要为视频内容与其关联信息建立索引关系。在一些实施例中，由于标注信息可以包括视频内容的标记词，因此，可以利用标记词建立索引关系。建立索引关系的过程可以包括：以标记词作为输入，根据视频内容的标记词，检索与标记词关联的关联信息；然后建立标记词与关联信息的索引关系。检索过程可以在各大搜索引擎中进行检索。例如：百度、谷歌、必应等。

示例性地，获得标记词B的关联信息文档A，将{标记词B、文档A}关联存储在数据库中。在实际应用时，可以过标记词B来查找到{标记词B、文档A}的信息，然后，将文档A提取出来，进行显示。

请参见图8-1至图8-3、图9至图11。图8-1至图8-3是本发明实施例提供一种视频内容检索的交互界面的应用示例的示意图。图9是本发明提供视频内容标注过程的一个应用示例的示意框图。图10是本发明提供的关联信息与标志词关联的一个应用示例的示意框图。图11是本发明提供的视频内容检索的交互过程的一个应用示例的示意框图。

本应用示例基于AI(Artificial Intelligence，人工智能)离线处理的支持搜索的web(World Wide Web，全球广域网)视频播放器的应用场景为：用户打开手机上的视频播放器或通过PC浏览器进入视频网站观看影片。当用户在播放器中开启视频知识搜索功能，在视频播放的过程中，播放界面出现搜索控件，可以如图8-1所示的放大镜。当用户点击搜索控件，可以对相关圈定的内容显示内容框，可以如图8-2所示。如果对内容框点击，则进行搜索，并返回搜索结果显示在视频的播放界面中，可以如图8-3所示。

以此应用场景为例，本应用实例的实施过程可以由以下提出的模块来实现，具体如下：

1、离线内容标注与训练模块。本模块主要是通过标注和智能标注的方法，将视频中能够进行检索的内容进行离线标注。例如，将视频输入到视频分帧标注模块，可以圈定或标注每段视频中首次出现可搜索物体(即上述实施例的视频内容)的位置方块，以及确定此可搜索物体的标记词，并输出视频的可搜索物体的首帧标注信息，包括{可搜索物体的坐标，用于圈定可搜索物体的内容框的宽度和高度，首帧帧号(可搜索物体首次出现在的视频图像的帧号)，可搜索物体的标记词}。同时，将此首帧圈定的可搜索物体的位置方块图片以及标记词输入到智能标注模型，智能标注模型对视频中的此可搜索物体的其他帧的标注信息进行标注，即标注补间生成。最后将此可搜索物体的所有帧的标注信息汇集成一个数据集合。以及，上述的标注信息可以输入智能标注训练模块，用于训练生成或更新智能标注模型，提高自动化标记的准确程度。具体可以如图9所示。

2、检索内容生成模块。本模块的主要作用是将标记信息与百科文本的检索内容进行信息关联。在上一步骤产出的{视频标识，视频帧号，可搜索物体的坐标，可搜索物体的标志词}的数据集合作为输入，输入到信息映射模块，利用标志词在百科数据库中进行检索，然后将检测到的百科数据与标记词建立映射关系。建立好的{可搜索物体的标志词，可搜索物体的坐标位置，内容框的宽度和高度，首帧帧号，百科信息}的数据集。具体可以如图5所示。

3、播放器的信息标注解析模块。本模块的主要作用是将特定视频和步骤2的数据集传输到浏览器的web搜索播放器中。播放器解析标识信息，在播放视频的过程中，视频每读取到一帧视频图像时，判断此帧的帧号是否为新的“开始帧号”，即首帧帧号。如果存在新的“开始帧号”，则将相应的标注信息和显示样式提供给播放器上。以及，视频每读取到一帧视频图像时，判断此帧的帧号是否为尾帧帧号。如果存在尾帧帧号，则将相应的标注信息从播放器中清除。

4、播放器的信息交互模块。此模块主要是控制交互和搜索相关逻辑的模块。播放器的播放界面中显示如图8-1的放大镜，如果用户点击图8-1的放大镜，则会触发图8-2将内容框显示出来。然后，当内容框被点击时，在播放器的内容播放区域上以浮层的形式返回此内容框内的可搜索物体的百科信息结果。此百科信息结果来源于检索内容生成模块。具体地如图11所示。

本实施例通过对web播放器进行升级接入离线检索插件，可以实现在用户观看视频内容的过程中推荐用户检索入口，满足视频用户对视频内容检索的需求。

请参阅图12，本发明实施例提供一种视频内容检索的装置，包括：

搜索控件显示模块100，用于在视频的播放界面中显示搜索控件；

搜索控件检测模块200，用于检测对所述搜索控件的触控；

内容框显示模块300，用于如果检测到对所述搜索控件的触控，则显示内容框；其中，所述内容框用于框住所述搜索控件所在位置的视频内容；

内容框检测模块400，用于检测对所述内容框的触控；以及

关联信息显示模块500，用于如果检测到对所述内容框的触控，则显示所述内容框所框住的视频内容的关联信息；其中，所述关联信息用于描述所述视频内容；所述视频内容预先与所述关联信息建立索引关系。

在一种实施方式中，所述搜索控件显示模块100包括：

在一种实施方式中，所述装置还包括：

显示单元，用于在播放所述视频的播放界面中显示获取到的关联信息。

在一种实施方式中，所述装置还包括：

隐藏控件检测模块，用于检测对所述隐藏控件的触控；以及

视频获取单元，用于在播放所述视频之前获取所述视频；

在一种实施方式中，所述识别单元具体用于：

利用智能标注模型根据所述截图对所述视频进行识别，获得所述视频内容的标注信息；其中，所述智能标注模型预先通过训练数据训练生成的，所述训练数据包括样本视频、样本截图和样本标注信息；所述样本截图包括可搜索关联信息的视频内容，所述样本标注信息包括用于所述视频内容的搜索控件显示在所述视频中的视频图像的视频帧号和显示位置、以及所述内容框的显示尺寸。

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，视频内容检测的结构中包括处理器和存储器，所述存储器用于视频内容检测的装置执行上述第一方面中视频内容检测的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述视频内容检测的装置还可以包括通信接口，用于视频内容检测的装置与其他设备或通信网络通信。

本发明实施例还提供一种视频内容检测的终端设备，如图13所示，该设备包括：存储器21和处理器22，存储器21内存储有可在处理器22上的计算机程序。处理器22执行计算机程序时实现上述实施例中的视频内容检测的方法。存储器21和处理器22的数量可以为一个或多个。

该设备还包括：

通信接口23，用于处理器22与外部设备之间的通信。

存储器21可能包括高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器21、处理器22和通信接口23独立实现，则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23集成在一块芯片上，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包括、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包括的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的程序，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频内容检索的方法，其特征在于，包括：

在视频的播放界面中显示搜索控件；

检测对所述搜索控件的触控；

检测对所述内容框的触控；以及

2.如权利要求1所述的方法，其特征在于，所述显示搜索控件包括：

3.如权利要求2所述的方法，其特征在于，所述标注信息包括连续的多个视频帧号；以及所述判断的过程包括：

4.如权利要求2所述的方法，其特征在于，所述标注信息还包括所述内容框的显示尺寸，所述显示内容框包括：

5.如权利要求2所述的方法，其特征在于，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述视频内容预先通过标记词与所述关联信息建立索引关系，以及所述显示所述视频内容的关联信息，包括：

获取所述内容框所框住的视频内容的标记词；

在所述播放界面中显示获取到的关联信息。

7.如权利要求1至6任一项所述的方法，其特征在于，在显示所述内容框所框住的视频内容的关联信息的同时，所述方法还包括：

在所述播放界面中显示隐藏控件；

检测对所述隐藏控件的触控；以及

8.如权利要求1至6任一项所述的方法，其特征在于，所述方法还包括在播放所述视频之前，标注可搜索关联信息的视频内容的标注信息的过程，所述标注的过程包括：

获取所述视频；

从所述视频图像中获取所述视频内容中的截图；以及

9.如权利要求8所述的方法，其特征在于，所述标注信息包括所述视频内容的标记词，以及所述方法还包括：

建立所述标记词与所述关联信息的索引关系。

10.如权利要求8所述的方法，其特征在于，所述根据所述截图对所述视频进行识别，获得所述视频内容的标注信息，包括：

11.一种视频内容检索的装置，其特征在于，包括：

搜索控件检测模块，用于检测对所述搜索控件的触控；

内容框检测模块，用于检测对所述内容框的触控；以及

12.如权利要求11所述的装置，其特征在于，所述搜索控件显示模块包括：

13.如权利要求12所述的装置，其特征在于，所述标注信息包括连续的多个视频帧号；以及所述可搜索内容判断单元包括：

14.如权利要求12所述的装置，其特征在于，所述标注信息还包括所述内容框的显示尺寸，所述内容框显示模块包括：

15.如权利要求12所述的装置，其特征在于，所述装置还包括：

16.如权利要求11所述的装置，其特征在于，所述视频内容预先通过标记词与所述关联信息建立索引关系，以及所述关联信息显示模块包括：

显示单元，用于在所述播放界面中显示获取到的关联信息。

17.如权利要求11至16任一项所述的装置，其特征在于，所述装置还包括：

隐藏控件检测模块，用于检测对所述隐藏控件的触控；以及

18.如权利要求11至16任一项所述的装置，其特征在于，所述装置还包括标注信息标注模块，包括：

视频获取单元，用于在播放所述视频之前获取所述视频；

19.一种视频内容检索的终端设备，其特征在于，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-10中任一所述的视频内容检索的方法。

20.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的视频内容检索的方法。