CN106372106A

CN106372106A - 一种提供视频内容辅助信息的方法及装置

Info

Publication number: CN106372106A
Application number: CN201610696116.2A
Authority: CN
Inventors: 万晓东
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-02-01

Abstract

本发明公开了一种提供视频内容辅助信息的方法及装置。所述提供视频内容辅助信息的方法，包括：获取视频当前播放的视频帧图像；识别出所述视频帧图像中的显著的物体图像；在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像；将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法。本发明可自动识别出视频中的显著的物体图像，提供给用户与该显著的物体图像相关的信息，并且将该信息中的核心词汇关联到输入法中，便于用户针对该视频进行相应的文字编辑工作。

Description

一种提供视频内容辅助信息的方法及装置

技术领域

本发明涉及视频分析技术领域，特别涉及一种提供视频内容辅助信息的方法及装置。

背景技术

近些年来，随着科技的发展和生活质量的提升，人们在观看视频的同时，产生了想要即时的了解视频中出现的显著的物体的相关信息的需求。在观看视频的当下，人们在进行文字编辑的时候也更希望输入与视频中显著的物体相关的词汇。上述情况对于视频后期的文字编辑工作者而言，需求尤为强烈。如何妥善的解决上述问题，就成为了业界亟待解决的课题。

发明内容

本发明提供一种提供视频内容辅助信息的方法及装置，用以自动识别出视频中的显著的物体图像，提供给用户与该显著的物体图像相关的信息，并且将该信息中的核心词汇关联到输入法中，便于用户针对该视频进行相应的文字编辑工作。

根据本发明实施例的第一方面，提供一种提供视频内容辅助信息的方法，包括：

获取视频当前播放的视频帧图像；

识别出所述视频帧图像中的显著的物体图像；

在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像；

将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法。

在一个实施例中，所述识别出所述视频帧图像中的显著的物体图像，包括：

根据所述视频帧图像中的景深关系，分析出前景图像区域和背景图像区域；

在所述前景图像区域中，筛选出物体图像的面积比大于预设的面积比阈值的物体图像；

在所述物体图像中，筛选出所述物体图像连续出现的视频帧的帧数大于预设的帧数阈值的物体图像；

确定所述物体图像为所述显著的物体图像。

在一个实施例中，所述在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像，包括：

分析出所述显著的物体图像的图像特征，所述图像特征包括颜色特征、轮廓特征、纹理特征和语义特征中任一者或多者；

使用预设的图像数据图中各个图像的图像特征与所述显著的物体图像的图像特征进行分析，得出所述预设的图像数据图中各个图像与所述显著的物体图像的相似度；

在所述预设的图像数据图中，筛选出相似度的数值最高的图像；

确定所述图像为所述检索图像。

在一个实施例中，所述将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法，包括：

将所述检索图像的相关信息输出到显示界面的侧栏，所述检索图像的相关信息包括文字信息、图片信息、音频信息和视频信息中的任一者或多者；

将所述检索图像的相关信息中的词汇加载到输入法的词库中，并提高所述词汇的优先级；

从所述词汇加载到输入法的词库的时刻开始计时，在预设的优先级的持续时长之后，终止所述词汇的优先级。

在一个实施例中，还包括：

在检索出所述显著的物体图像相似度最高的检索图像之后，通过预设的标记方式来突出所述显著的物体图像。

根据本发明实施例的第二方面，提供一种提供视频内容辅助信息的装置，包括：

获取模块，用于获取视频当前播放的视频帧图像；

识别模块，用于识别出所述视频帧图像中的显著的物体图像；

检索模块，用于在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像；

绑定模块，用于将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法。

在一个实施例中，所述识别模块，包括：

第一分析子模块，用于根据所述视频帧图像中的景深关系，分析出前景图像区域和背景图像区域；

第一筛选子模块，用于在所述前景图像区域中，筛选出物体图像的面积比大于预设的面积比阈值的物体图像；

第二筛选子模块，用于在所述物体图像中，筛选出所述物体图像连续出现的视频帧的帧数大于预设的帧数阈值的物体图像；

第一确定子模块，用于确定所述物体图像为所述显著的物体图像。

在一个实施例中，所述检索模块，包括：

第二分析子模块，用于分析出所述显著的物体图像的图像特征，所述图像特征包括颜色特征、轮廓特征、纹理特征和语义特征中任一者或多者；

第三分析子模块，用于使用预设的图像数据图中各个图像的图像特征与所述显著的物体图像的图像特征进行分析，得出所述预设的图像数据图中各个图像与所述显著的物体图像的相似度；

第三筛选子模块，用于在所述预设的图像数据图中，筛选出相似度的数值最高的图像；

第二确定子模块，用于确定所述图像为所述检索图像。

在一个实施例中，所述绑定模块，包括：

输出子模块，用于将所述检索图像的相关信息输出到显示界面的侧栏，所述检索图像的相关信息包括文字信息、图片信息、音频信息和视频信息中的任一者或多者；

加载子模块，用于将所述检索图像的相关信息中的词汇加载到输入法的词库中，并提高所述词汇的优先级；

终止子模块，用于从所述词汇加载到输入法的词库的时刻开始计时，在预设的优先级的持续时长之后，终止所述词汇的优先级。

在一个实施例中，还包括：

标记模块，用于在检索出所述显著的物体图像相似度最高的检索图像之后，通过预设的标记方式来突出所述显著的物体图像。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一示例性实施例示出的一种提供视频内容辅助信息的方法的流程图；

图2为本发明一示例性实施例示出的一种提供视频内容辅助信息的方法的步骤S12的流程图；

图3为本发明一示例性实施例示出的一种提供视频内容辅助信息的方法的步骤S13的流程图；

图4为本发明一示例性实施例示出的一种提供视频内容辅助信息的方法的步骤S14的流程图；

图5为本发明另一示例性实施例示出的一种提供视频内容辅助信息的方法的流程图；

图6为本发明一示例性实施例示出的一种提供视频内容辅助信息的装置的框图；

图7为本发明一示例性实施例示出的一种提供视频内容辅助信息的装置的识别模块62的框图；

图8为本发明一示例性实施例示出的一种提供视频内容辅助信息的装置的检索模块63的框图；

图9为本发明一示例性实施例示出的一种提供视频内容辅助信息的装置的绑定模块64的框图；

图10为本发明另一示例性实施例示出的一种提供视频内容辅助信息的装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是根据一示例性实施例示出的一种提供视频内容辅助信息的方法流程图，如图1所示，该提供视频内容辅助信息的方法，包括以下步骤S11-S14：

在步骤S11中，获取视频当前播放的视频帧图像；

在步骤S12中，识别出所述视频帧图像中的显著的物体图像；

在步骤S13中，在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像；

在步骤S14中，将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法。

在一个实施例中，首先，获取视频当前播放的视频帧图像。

其次，根据视频帧图像中的景深关系，分析出前景图像区域和背景图像区域。在该前景图像区域中，筛选出物体图像的面积比大于预设的面积比阈值的物体图像。进一步的，在该物体图像中，筛选出该物体图像连续出现的视频帧的帧数大于预设的帧数阈值的物体图像，并确定该物体图像为该显著的物体图像。

然后，分析出该显著的物体图像的图像特征，该图像特征包括颜色特征、轮廓特征、纹理特征和语义特征中任一者该多者。使用预设的图像数据图中各个图像的图像特征与该显著的物体图像的图像特征进行分析，可得出该预设的图像数据图中各个图像与该显著的物体图像的相似度。在该预设的图像数据图中，筛选出相似度的数值最高的图像，并确定该图像为该检索图像。

最后，将该检索图像的相关信息输出到显示界面的侧栏，该检索图像的相关信息包括文字信息、图片信息、音频信息和视频信息中的任一者该多者。并将该检索图像的相关信息中的词汇加载到输入法的词库中，并提高该词汇的优先级。进一步的，从该词汇加载到输入法的词库的时刻开始计时，在预设的优先级的持续时长之后，终止该词汇的优先级。

还有，在检索出该显著的物体图像相似度最高的检索图像之后，通过预设的标记方式来突出该显著的物体图像，使得视频观看者可以便捷的将该检索图像的相关信息和该显著的物体图像对应起来。进一步的，当同一个视频帧图像中存在多个显著的物体图像时，鼠标停留在某一个显著的物体图像时，只在显示界面上显示该显著的物体图像对应的检索图像的相关信息。

在一个实施例中，如图2所示，步骤S12包括如下步骤S21-S24：

在步骤S21中，根据所述视频帧图像中的景深关系，分析出前景图像区域和背景图像区域；

在步骤S22中，在所述前景图像区域中，筛选出物体图像的面积比大于预设的面积比阈值的物体图像；

在步骤S23中，在所述物体图像中，筛选出所述物体图像连续出现的视频帧的帧数大于预设的帧数阈值的物体图像；

在步骤S24中，确定所述物体图像为所述显著的物体图像。

在一个实施例中，首先，通过预设的图像景深算法，可以得到图像中各个物体图像的景深数据。根据对比关系，可以明确的区分出前景图像区域和背景图像区域。众所周知，人们在观赏视频时，绝大部分的注意力都集中在前景图像区域，而且在很多影视作品中有时会适当的背景虚化。其次，在前景图像区域中的重要的物体图像在整个视频图像中会所占据的一定的比例，若物体图像占据的比例过小是很难引起观看者注意的。还有，若在视频中物体图像连续出现的视频帧的帧数过小，例如只出现了6帧，电影中1秒是24帧，6帧所占有的时间只有0.25秒。在如此短的时间内，人眼是无法充分识别并记住该物品图像的，故需要排除掉连续出现视频帧的帧数低于预设的帧数阈值的物体图像。当所述物品图像同时满足在前景图像区域、面积比大于预设的面积比阈值、连续出现的图像帧的帧数大于预设的帧数阈值时，将同时满足上述三个条件的物体图像确定为显著的物体图像。

在一个实施例中，如图3所示，步骤S13包括如下步骤S31-S34：

在步骤S31中，分析出所述显著的物体图像的图像特征，所述图像特征包括颜色特征、轮廓特征、纹理特征和语义特征中任一者或多者；

在步骤S32中，使用预设的图像数据图中各个图像的图像特征与所述显著的物体图像的图像特征进行分析，得出所述预设的图像数据图中各个图像与所述显著的物体图像的相似度；

在步骤S33中，在所述预设的图像数据图中，筛选出相似度的数值最高的图像；

在步骤S34中，确定所述图像为所述检索图像。

在一个实施例中，预设的图像数据库可以为预先准备好的独立的图像数据库，还可以通过网络搜索引擎中的以图搜图方式得到的图像数据库。根据上述实施例得到的显著的物体图像，对该显著的物体图像进行图像特征分析，得出该显著的物体图像的图像特征，该图像特征包括颜色特征、轮廓特征、纹理特征和语义特征中任一者或多者。然后使用该显著的物体图像的图像特征和预设的图像数据库中的各个图像的图像特征进对比分析，可以得出该预设的图像数据图中各个图像与所述显著的物体图像的相似度。接着筛选出相似度数值最高的图像，并确定所述图像为检索图像。进一步的，可以筛选出相似度数值排名前n的n幅图像，并确定相似度数值排名最高的图像为检索图像，以及确定相似度排名从2到n的图像为备选检索图像。

在一个实施例中，如图4所示，步骤S14包括如下步骤S41-S42：

在步骤S41中，将所述检索图像的相关信息输出到显示界面的侧栏，所述检索图像的相关信息包括文字信息、图片信息、音频信息和视频信息中的任一者或多者；

在步骤S42中，将所述检索图像的相关信息中的词汇加载到输入法的词库中，并提高所述词汇的优先级；

在步骤S43中，从所述词汇加载到输入法的词库的时刻开始计时，在预设的优先级的持续时长之后，终止所述词汇的优先级。

在一个实施例中，视频观看者，尤其是后期字幕编辑人员可以便捷的获取到检索图像的相关信息，本实施例中在视频界面的侧栏显示该检索图像的相关信息，该侧栏在屏幕左右两侧均可，且该侧栏并不占据视频画面本身的显示区域，故不会影响视频观看者观看该视频。或者，该检索图像的相关信息还可以通过弹幕的方式来显示在视频画面之上。

系统通过与播放该视频的终端设备上的输入法程序进行交互，将该检索图像的相关信息中的词汇，尤其是核心词汇加载到该输入法程序的词库中。同时提高该些词汇的优先级，尤其是核心词汇的优选级，使得视频观看者在进行文字输入的时候，可便捷的输入与该检索图像的相关信息中的词汇，尤其是核心词汇。

进一步的，设置预设的优先级持续时长，目的在于及时的终止该检索图像的相关信息中的词汇的优先级。系统从该检索图像的相关信息中的词汇加载到输入法的词库的时刻开始计时，在该预设的优先级的持续时长之后，终止该词汇的优先级。在视频观看者当下观看该视频中出现的检索图像时，提高该检索图像的相关信息的词汇的优先级，是为了视频观看者当下更便捷的输入文字信息，因为视频观看者当下想要输入该检索图像的相关信息的词汇的可能性会很高，但在一段时间之后，视频观看者当下想要输入该检索图像的相关信息的词汇的可能性并不会很高，所以需要及时的结束该检索图像的相关信息的词汇的优先级，以避免给视频观看者带来不必要的困扰。

在一个实施例中，如图5所示，还包括如下步骤S51：

在步骤S51中，在检索出所述显著的物体图像相似度最高的检索图像之后，通过预设的标记方式来突出所述显著的物体图像。

在一个实施例中，在某些情况下，视频观看者在获取到检索图像的相关信息之后，难以辨别出该相关信息对应的是视频画面中的哪一个物体图像。为了视频观看者能够将该检索图像的相关信息与该检索图像便捷的建立起对应关系。在检索出该显著的物体图像相似度最高的检索图像之后，通过预设的标记方式来突出该显著的物体图像，例如对该显著的物体图像的轮廓进行高亮处理并且轮廓闪烁一小段时间。

在一个实施例中，图6是根据一示例性实施例示出的一种提供视频内容辅助信息的装置框图。如图6示，该装置包括获取模块61、识别模块62、检索模块63和绑定模块64。

该获取模块61，用于获取视频当前播放的视频帧图像；

该识别模块62，用于识别出所述视频帧图像中的显著的物体图像；

该检索模块63，用于在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像；

该绑定模块64，用于将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法。

如图7所示，该识别模块62包括第一分析子模块71、第一筛选子模块72、第二筛选子模块73和第一确定子模块74。

该第一分析子模块71，用于根据所述视频帧图像中的景深关系，分析出前景图像区域和背景图像区域；

该第一筛选子模块72，用于在所述前景图像区域中，筛选出物体图像的面积比大于预设的面积比阈值的物体图像；

该第二筛选子模块73，用于在所述物体图像中，筛选出所述物体图像连续出现的视频帧的帧数大于预设的帧数阈值的物体图像；

该第一确定子模块74，用于确定所述物体图像为所述显著的物体图像。

如图8所示，该检索模块63包括第二分析子模块81、第三分析子模块82、第三筛选子模块83和第二确定子模块84。

该第二分析子模块81，用于分析出所述显著的物体图像的图像特征，所述图像特征包括颜色特征、轮廓特征、纹理特征和语义特征中任一者或多者；

该第三分析子模块82，用于使用预设的图像数据图中各个图像的图像特征与所述显著的物体图像的图像特征进行分析，得出所述预设的图像数据图中各个图像与所述显著的物体图像的相似度；

该第三筛选子模块83，用于在所述预设的图像数据图中，筛选出相似度的数值最高的图像；

该第二确定子模块84，用于确定所述图像为所述检索图像。

如图9所示，该绑定模块64包括输出子模块91、加载子模块92和终止子模块93。

该输出子模块91，用于将所述检索图像的相关信息输出到显示界面的侧栏，所述检索图像的相关信息包括文字信息、图片信息、音频信息和视频信息中的任一者或多者；

该加载子模块92，用于将所述检索图像的相关信息中的词汇加载到输入法的词库中，并提高所述词汇的优先级；

该终止子模块93，用于从所述词汇加载到输入法的词库的时刻开始计时，在预设的优先级的持续时长之后，终止所述词汇的优先级。

如图10所示，还包括标记模块101。

该标记模块101，用于在检索出所述显著的物体图像相似度最高的检索图像之后，通过预设的标记方式来突出所述显著的物体图像。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提供视频内容辅助信息的方法，其特征在于，包括：

获取视频当前播放的视频帧图像；

识别出所述视频帧图像中的显著的物体图像；

2.如权利要求1所述的方法，其特征在于，所述识别出所述视频帧图像中的显著的物体图像，包括：

确定所述物体图像为所述显著的物体图像。

3.如权利要求2所述的方法，其特征在于，所述在预设的图像数据图中，检索出与所述显著的物体图像相似度最高的检索图像，包括：

确定所述图像为所述检索图像。

4.如权利要求3所述的方法，其特征在于，所述将与所述检索图像关联的相关信息输出到显示界面上，并将所述检索图像的相关信息中的核心词汇绑定到输入法，包括：

5.如权利要求1所述的方法，其特征在于，还包括：

6.一种提供视频内容辅助信息的装置，其特征在于，包括：

获取模块，用于获取视频当前播放的视频帧图像；

7.根据权利要求6的装置，其特征在于，所述识别模块，包括：

8.根据权利要求7的装置，其特征在于，所述检索模块，包括：

第二确定子模块，用于确定所述图像为所述检索图像。

9.根据权利要求8的装置，其特征在于，所述绑定模块，包括：

10.根据权利要求6的装置，其特征在于，还包括：