CN107590150A

CN107590150A - 基于关键帧的视频分析实现方法及装置

Info

Publication number: CN107590150A
Application number: CN201610533606.0A
Authority: CN
Inventors: 朱二龙; 罗旻
Original assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2016-07-07
Filing date: 2016-07-07
Publication date: 2018-01-16

Abstract

本发明公开了一种基于关键帧的视频分析实现方法及装置，该方法包括：根据接收到的视频分析请求，获取待处理的视频文件；对所述视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧；对提取的所述镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到所述镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果；根据所述图像特征分析结果和人脸识别定位分析结果，生成所述视频文件的视频分析结果记录文件，将所述视频分析结果记录文件添加到视频特征数据库中。能够全面、准确的提取视频的特征信息，提高视频搜索匹配的准确率。

Description

基于关键帧的视频分析实现方法及装置

技术领域

本发明属于视频分析检索技术领域，尤其涉及一种基于关键帧的视频分析实现方法及装置。

背景技术

随着网络技术的不断发展，网络视频越来越普及，人们通过网络搜索获取自己想要观看的视频并在线观看，网络上视频的数量也越来越多，因此，从海量视频中搜索到用户所需要的视频，属于视频搜索领域中备受关注的问题。

传统的视频搜索技术，一般都是基于文字的视频搜索技术，通常需要针对视频文件进行人工注释，但现在网络上的视频越来越多，对于大量的视频文件逐一进行注释工作量很大，需要大量的人力资源，增加人力成本，且效率低下。

因此，基于内容的视频搜索技术开始兴起，这种方式能够自动提取视频特征，方便用户视频搜索，从一定程度上避免上述缺点。用户通过客户端检索工具实现视频搜索，通过视频分析获取视频的特征，以方便视频检索。这种方式需要准确的获取视频的特征，才能实现准确的视频搜索匹配，现有的视频检索系统虽然包含一个视频信息数据库系统来存储视频的特征信息，但这些视频信息往往仅包含人工输入的视频特征数据信息，信息形式单一、信息量小，难以满足用户的检索需求。

为了改变视频数据检索的这种状况，必须将无序的视频数据有序化，从而建立基于内容的视频检索工具，让用户能随时检索到想要的视频数据，让视频能自动地适应环境，可以互动式操作，快速地检索,并在网上迅速、可靠地传送。这就需要对视频进行分析并提取其特征信息。

目前，市场上还没有一套完整的、自动的视频内容分析系统，能够完成全面准确的提取视频的特征信息，用于满足后续视频的搜索需求。

发明内容

有鉴于此，本发明的一个目的是提供一种基于关键帧的视频分析实现方法及装置，用以解决现有技术中存在不能全面、准确的提取用于视频搜索的视频特征信息的问题。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

本发明实施例提供一种基于关键帧的视频分析实现方法，包括：

根据接收到的视频分析请求，获取待处理的视频文件；

对所述视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧；

对提取的所述镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到所述镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果；

根据所述图像特征分析结果和人脸识别定位分析结果，生成所述视频文件的视频分析结果记录文件，将所述视频分析结果记录文件添加到视频特征数据库中。

在一些可选的实施例中，根据接收到的视频分析请求，获取待处理的视频文件；

接收网络中的视频分析服务器发送的视频分析请求，或接收本地用户发送的视频分析请求；

根据所述视频分析请求建立视频分析任务，将视频分析任务加入分析任务队列中；

按照设定的规则获取视频分析任务队列中的视频分析任务；

当获取到该视频分析请求所对应的视频分析任务时，获取该视频分析请求的待处理的视频文件。

在一些可选的实施例中，所述视频分析请求中携带有待处理的视频文件信息，视频分析任务标识和任务优先级，视频分析任务的相关信息。

在一些可选的实施例中，对提取的所述镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，具体包括：

对提取的所述镜头关键帧和场景关键帧，提取图像特征信息，所述图像特征信息包括图像的颜色、纹理、形状中的至少一项；以及

采用选定的人脸检测定位算法，对提取的所述镜头关键帧和场景关键帧进行人脸检测定位和人脸识别，确定人脸在图像中的位置和提取人脸的特征信息；

相应的，所述图像特征分析结果和人脸识别定位分析结果中包括：提取的图像特征信息、确定出的人脸在图像中的位置和提取的人脸的特征信息。

在一些可选的实施例中，上述方法还包括：

将生成的视频文件的视频分析结果记录文件，通过预设的审核窗口展示给用户，进行人工审核，判断是否存在误差；

当存在误差时，对存在误差的部分进行人工修改，将修改后的视频分析结果记录文件添加到视频特征数据库中。

本发明实施例还提供一种基于关键帧的视频分析实现装置，包括：

获取模块，用于根据接收到的视频分析请求，获取待处理的视频文件；

提取模块，用于对所述视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧；

分析模块，用于对提取的所述镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到所述镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果；

生成模块，用于根据所述图像特征分析结果和人脸识别定位分析结果，生成所述视频文件的视频分析结果记录文件；

记录模块，用于将所述视频分析结果记录文件添加到视频特征数据库中。

在一些可选的实施例中，所述获取模块，具体用于：

按照设定的规则获取视频分析任务队列中的视频分析任务；

在一些可选的实施例中，所述获取模块，具体用于：

获取的视频分析请求中携带有待处理的视频文件信息，视频分析任务标识和任务优先级，视频分析任务的相关信息。

在一些可选的实施例中，所述分析模块，具体用于：

得到的所述图像特征分析结果和人脸识别定位分析结果中包括提取的图像特征信息、确定出的人脸在图像中的位置和提取的人脸的特征信息。

在一些可选的实施例中，上述装置还包括：

审核模块，用于将生成的视频文件的视频分析结果记录文件，通过预设的审核窗口展示给用户，进行人工审核，判断是否存在误差；当存在误差时，对存在误差的部分进行人工修改；相应的，

所述记录模块，具体用于将修改后的视频分析结果记录文件添加到视频特征数据库中。

本发明实施例提供的基于关键帧的视频分析实现方法及装置，对待处理的视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧；对镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，根据得到的图像特征分析结果和人脸识别定位分析结果，生成视频文件的视频分析结果记录文件添加到视频特征数据库中，从而能够从镜头关键帧和场景关键帧中全面、准确的提取视频的特征信息，用于视频搜索匹配，以便能够快速的提供给用户所需要搜索的视频文件，提高视频搜索匹配的准确率，提高视频搜索匹配的速度和效率。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

说明书附图

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施例一中基于关键帧的视频分析实现方法的流程图；

图2是本发明实施例二中基于关键帧的视频分析实现方法的流程图；

图3是本发明实施例三中基于关键帧的视频分析实现方法的流程图；

图4是本发明实施例中基于关键帧的视频分析实现装置的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

为了解决现有技术中存在不能全面、准确的提取视频的特征信息，以提高视频搜索的准确性的问题，本发明实施例提供一种基于关键帧的视频分析实现方法，能够从场景和镜头关键帧中提取出全面、准确的视频特征信息，用于视频搜索，从而提高视频搜索的准确性。

实施例一

本发明实施例一提供一种基于关键帧的视频分析实现方法，其流程如图1所示，包括如下步骤：

步骤S101：根据接收到的视频分析请求，获取待处理的视频文件。

当接收到视频分析请求时，解析视频分析请求，获取视频分析请求中携带的待处理的视频文件信息，视频分析任务标识和任务优先级，视频分析任务的相关信息。以便根据获取的信息获取待处理的视频文件。

可以通过用户界面接收用户的分析本地视频命令，也可以通过系统带有的TCP/IP网络连接接收来自视频融合分析服务器的视频分析命令。支持包括MPEG1、MPEG2、MPEG4、H.263等视频流格式的解码。

步骤S102：对获取的视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧。

其中，对视频文件进行镜头分割时，可以采用基于滑动窗和直方图距离的镜头分割算法，根据视频镜头分割子模块的结果，对镜头内的视频帧进行聚类分析，产生能够代表镜头信息的镜头关键帧。

对视频文件进行场景分割时可以根据不同视频类别的结构特点来进行分割，选取分割出的各场景中包含的镜头的关键帧，进行聚类分析，产生代表场景信息的关键帧。采用的聚类算法与之前所讲的镜头关键帧提取算法类似，提取出代表场景信息的场景关键帧。

可以将镜头分割和场景分割的分割时间点通过预设的显示界面显示给用户，供用户参考。

步骤S103：对提取的镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果。

对提取的镜头关键帧和场景关键帧，提取图像特征信息，其中图像特征信息包括图像的颜色、纹理、形状中的至少一项。

采用选定的人脸检测定位算法，对提取的镜头关键帧和场景关键帧进行人脸检测定位和人脸识别，确定人脸在图像中的位置和提取人脸的特征信息。

相应的，得到的图像特征分析结果和人脸识别定位分析结果中包括：提取的图像特征信息、确定出的人脸在图像中的位置和提取的人脸的特征信息。

步骤S104：根据图像特征分析结果和人脸识别定位分析结果，生成视频文件的视频分析结果记录文件。

视频分析结果记录文件可以采用XML文件，视频分析结果记录文件中可以包括如下内容：

视频文件的基本信息，包括视频文件名、视频文件路径、视频文件类型、视频内容结构化信息入库时间等；

镜头信息，包括镜头开始时间、结束时间、镜头关键帧数量；

镜头关键帧信息，包括关键帧所在的时间点、关键帧编号、关键帧图片名；

场景信息，包括场景开始时间、结束时间、所包含的镜头数量、场景关键帧的数量；

场景关键帧信息，包括关键帧所在的时间点、关键帧编号、关键帧图片名；

关键帧图像特征信息，包括关键帧的颜色信息、纹理信息和形状信息；

人脸特征信息，包括人脸所在帧的时间点，人脸编号，人脸对应的人物名字。

步骤S105：将生成的视频分析结果记录文件添加到视频特征数据库中。

生成的视频分析结果上传给视频特征数据库；视频特征数据库用于存储与视频相关的基本信息、视频内容分析结果信息、音频信息和视频字幕信息等等。

实施例二

本发明实施例二提供一种基于关键帧的视频分析实现方法，其流程如图2所示，包括如下步骤：

步骤S201：接收网络中的视频分析服务器发送的视频分析请求，或接收本地用户发送的视频分析请求。

步骤S202：根据视频分析请求建立视频分析任务，将视频分析任务加入分析任务队列中。

可以仅根据视频分析任务的建立时间，建立分析任务队列，也可以根据视频分析任务的优先级，建立不同的优先级队列，每个优先级队列中的视频分析任务根据视频分析任务的建立时间进入。

优先级高、到达时间早的任务将加入到任务队列的前面，反之，优先级低、到达时间晚的任务将放置在任务队列的后面。

步骤S203：按照设定的规则获取视频分析任务队列中的视频分析任务。

可以根据视频分析任务的优先级，从视频分析任务队列列中依次获取视频分析任务，当只有一个优先级队列时，按先进先出的方式获取。

步骤S204：当获取到该视频分析请求所对应的视频分析任务时，获取该视频分析请求的待处理的视频文件。

当获取到某一个视频分析任务时，解析视频分析请求中的内容，获取待处理的视频文件。

步骤S201-步骤S204实现了根据接收到的视频分析请求，获取待处理的视频文件。

步骤S205：对获取的视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧。

步骤S206：对提取的镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果。

对镜头关键帧和场景关键帧提取颜色、纹理和形状三个特征参数，颜色特征的表示方法有颜色直方图、颜色相关图、颜色矩等方法；纹理特征的表示方法有共生矩阵、Tamura纹理特征、Gabor特征等方法；形状特征的表示方法有傅立叶描述子、小波轮廓描述法等。

对镜头关键帧和场景关键帧进行人脸检测定位和人脸识别时，人脸检测定位算法采用基于Adaboost的方法或人脸识别方法采用Fisher脸算法。

步骤S207：根据图像特征分析结果和人脸识别定位分析结果，生成视频文件的视频分析结果记录文件。

步骤S208：将生成的视频分析结果记录文件添加到视频特征数据库中。

如果接收网络中的视频分析服务器发送的视频分析请求后进行分析，得到视频分析结果记录文件后，将分析结果记录文件添加到视频特征数据库中时，向视频分析服务器发送分析完成的通知消息。

如果接收本地用户发送的视频分析请求后进行分析，得到视频分析结果记录文件后，将分析结果记录文件添加到视频特征数据库中时，在本机记录分析完成的信息。

实施例三

本发明实施例三提供一种基于关键帧的视频分析实现方法，其流程如图3所示，包括如下步骤：

步骤S301：根据接收到的视频分析请求，获取待处理的视频文件。

步骤S302：对获取的视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧。

步骤S303：对提取的镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果。

步骤S304：根据图像特征分析结果和人脸识别定位分析结果，生成视频文件的视频分析结果记录文件。

步骤S305：将生成的视频文件的视频分析结果记录文件，通过预设的审核窗口展示给用户，进行人工审核。

生成的视频分析结果记录文件需要经过人工审核才能进一步提高其准确性。用户可以通过视频分析结果审核界面修改视频内容分析结果中有误差的地方。

步骤S306：判断生成的视频分析结果记录文件是否存在误差。

当存在误差时，执行步骤S307，否则执行步骤S308。

步骤S307：对存在误差的部分进行人工修改。

步骤S308：将视频分析结果记录文件添加到视频特征数据库中。

当存在误差时，将修改后的视频分析结果记录文件添加到视频特征数据库中，当不存在误差时，将生成并审核后的视频分析结果记录文件添加到视频特征数据库中。

审核通过后视频分析结果才能上传给视频特征数据库。

可以采用视频分析显示界面向用户显示视频分析的各种信息，包括视频文件名、文件格式、文件大小、视频持续时间长、视频位置等；通过视频分析结果显示界面向用户展示视频分析结果。

基于同一发明构思，本发明实施例还提供一种基于关键帧的视频分析实现装置，其结构如图4所示，包括：获取模块401、提取模块402、分析模块403、生成模块404和记录模块405。

获取模块401，用于根据接收到的视频分析请求，获取待处理的视频文件。

提取模块402，用于对获取的视频文件进行镜头分割和场景分割，提取镜头关键帧和场景关键帧。

分析模块403，用于对提取的镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，得到镜头关键帧和场景关键帧的图像特征分析结果和人脸识别定位分析结果。

生成模块404，用于根据得到的图像特征分析结果和人脸识别定位分析结果，生成视频文件的视频分析结果记录文件。

记录模块405，用于将生成的视频分析结果记录文件添加到视频特征数据库中。

优选的，上述获取模块401，具体用于接收网络中的视频分析服务器发送的视频分析请求，或接收本地用户发送的视频分析请求；根据视频分析请求建立视频分析任务，将视频分析任务加入分析任务队列中；按照设定的规则获取视频分析任务队列中的视频分析任务；当获取到该视频分析请求所对应的视频分析任务时，获取该视频分析请求的待处理的视频文件。

优选的，上述获取模块401，具体用于获取的视频分析请求中携带有待处理的视频文件信息，视频分析任务标识和任务优先级，视频分析任务的相关信息。

优选的，上述分析模块403，具体用于对提取的镜头关键帧和场景关键帧，提取图像特征信息，所述图像特征信息包括图像的颜色、纹理、形状中的至少一项；以及采用选定的人脸检测定位算法，对提取的镜头关键帧和场景关键帧进行人脸检测定位和人脸识别，确定人脸在图像中的位置和提取人脸的特征信息；得到的图像特征分析结果和人脸识别定位分析结果中包括提取的图像特征信息、确定出的人脸在图像中的位置和提取的人脸的特征信息。

优选的，上述装置还包括：

审核模块406，用于将生成的视频文件的视频分析结果记录文件，通过预设的审核窗口展示给用户，进行人工审核，判断是否存在误差；当存在误差时，对存在误差的部分进行人工修改；相应的，

上述记录模块405，具体用于将修改后的视频分析结果记录文件添加到视频特征数据库中。

上述基于关键帧的视频分析实现装置可以单独设置为一个网络设备或终端设备，也可以设置在已有的网络服务器或用于视频搜索的终端设备中。

除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程，所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如，在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种基于关键帧的视频分析实现方法，其特征在于，包括：

根据接收到的视频分析请求，获取待处理的视频文件；

2.如权利要求1所述的方法，其特征在于，根据接收到的视频分析请求，获取待处理的视频文件；

按照设定的规则获取视频分析任务队列中的视频分析任务；

3.如权利要求1所述的方法，其特征在于，所述视频分析请求中携带有待处理的视频文件信息，视频分析任务标识和任务优先级，视频分析任务的相关信息。

4.如权利要求1所述的方法，其特征在于，对提取的所述镜头关键帧和场景关键帧进行图像特征分析和人脸识别定位，具体包括：

5.如权利要求1-4任一所述的方法，其特征在于，还包括：

6.一种基于关键帧的视频分析实现装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述获取模块，具体用于：

按照设定的规则获取视频分析任务队列中的视频分析任务；

8.如权利要求6所述的装置，其特征在于，所述获取模块，具体用于：

9.如权利要求6所述的装置，其特征在于，所述分析模块，具体用于：

10.如权利要求6-9任一所述的装置，其特征在于，还包括：