CN108833964B

CN108833964B - 一种实时的连续帧信息植入识别系统

Info

Publication number: CN108833964B
Application number: CN201810594053.9A
Authority: CN
Inventors: 肖东晋; 张立群
Original assignee: Alva Systems
Current assignee: Alva Systems
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2022-01-25
Anticipated expiration: 2038-06-11
Also published as: CN108833964A

Abstract

本发明公开了一种实时的连续帧信息植入识别系统，包括：视频处理模块，所述视频处理模块包括帧抽取单元、特征标注单元、植入信息生成单元和文件生成单元；以及识别和呈现模块，所述识别和呈现模块获取所述描述性文件包，所述识别和呈现模块包括视频采集单元、图像识别单元、植入信息获取单元和呈现单元，其中所述视频采集单元实时获取视频图像信息并将其显示在显示屏，所述图像识别单元基于描述性文件包中的关键帧的标识信息对所述视频采集单元获取的视频图像进行匹配，识别出所述关键帧，所述植入信息获取单元获取与所述关键帧对应的标注信息和植入信息，所述呈现单元基于标注信息在所述视频采集单元获取的视频图像上添加标注，然后在显示屏上呈现所述植入信息。

Description

一种实时的连续帧信息植入识别系统

技术领域

本发明涉及图像处理领域，具体而言，本发明涉及一种实时的连续帧信息植入识别系统。

背景技术

现在主要的连续帧信息植入识别方法主要靠前贴片、插入贴片、角标关联、暂停弹出的方式植入，通过用户点击进入所表达的信息页来呈现，这样的方法可植入的信息量少，且占用视频播放时间和播放界面，带来糟糕的用户体验。

现有的其它连续帧信息植入识别方法，没有达到实时或即时识别连续帧的功能，用户通常需要暂停视频到相应帧，框选或点击识别目标，而反馈信息经常会直接叠加显示在正在播放的视频上，影响用户观感；在处理帧的效率上也存在不足，由于一个视频的总帧数很多，终端访问服务器端获取数据过程耗时较长，而且视频播放在场景的变形、缩放、拼接、频繁移动，交接都会对分析视频内容产生干扰，导致信息反馈的速度和准确率达不到要求。

因此，本领域需要一种新型实时的连续帧信息植入识别系统，至少部分地解决现有技术中存在的问题。

发明内容

针对现有技术中存在的问题，本发明提出了一种实时的连续帧信息植入识别系统，包括：

视频处理模块，所述视频处理模块包括帧抽取单元、特征标注单元、植入信息生成单元和文件生成单元，其中所述帧抽取单元抽取视频中的关键帧并生成该关键帧的标识信息，所述特征标注单元针对所述关键帧生成标注信息，所述植入信息生成单元生成与标注信息相关联的植入信息，所述文件生成单元基于关键帧的标识信息、关键帧的标注信息和关键帧的植入信息生成描述性文件包；以及

识别和呈现模块，所述识别和呈现模块获取所述描述性文件包，所述识别和呈现模块包括视频采集单元、图像识别单元、植入信息获取单元和呈现单元，其中所述视频采集单元实时获取视频图像信息并将其显示在显示屏，所述图像识别单元基于描述性文件包中的关键帧的标识信息对所述视频采集单元获取的视频图像进行匹配，识别出所述关键帧，所述植入信息获取单元获取与所述关键帧对应的标注信息和植入信息，所述呈现单元基于标注信息在所述视频采集单元获取的视频图像上添加标注，然后在显示屏上呈现所述植入信息。

在本发明的一个实施例中，所述帧抽取单元每隔若干帧选取一帧作为关键帧。

在本发明的一个实施例中，所述帧抽取单元每隔特定时间选取一帧作为关键帧。

在本发明的一个实施例中，所述标注信息是所述关键帧的特定内容在所述关键帧中的位置，所述植入信息是与所述特定内容有关的信息。

在本发明的一个实施例中，所述植入信息生成单元在一个关键帧上生成一个或多个标注信息。

根据本发明的另一个实施例中，提出一种视频处理方法，包括：

获取特定视频；

抽取所述特定视频中的关键帧；

基于所述关键帧生成标识信息；

对所述关键帧进生成标注信息；

生成与所述标注信息相关联的植入信息；以及

基于所述关键帧的标识信息、关键帧的标注信息和关键帧的植入信息生成描述性文件包。

在本发明的另一个实施例中，在所述特定视频中每隔若干帧选取一帧作为关键帧。

在本发明的另一个实施例中，在所述特定视频中每隔特定时间选取一帧作为关键帧。

在本发明的另一个实施例中，标识信息是基于所述关键帧提取的图形特征。

在本发明的另一个实施例中，标注信息是所述关键帧的特定内容在所述关键帧中的位置，所述植入信息是与所述特定内容有关的信息。

根据本发明的又一个实施例中，提出一种视频识别和植入信息呈现方法，包括：

获取特定视频的描述性文件包；

在所述特定视频的播放过程中，通过视频采集单元实时获取视频图像信息并将其显示在显示屏上；

基于所述描述性文件包中的关键帧的标识信息对获取的视频图像进行匹配，识别出一个或多个关键帧；

获取与所述一个或多个关键帧对应的标注信息和植入信息；

基于所述标注信息在获取的视频图像上添加标注；以及

在显示屏上呈现与所述标注信息相关联的植入信息。

通过本发明的方案，实现图片、文字、音频等媒体元素组成的插入信息在视频中的植入，植入的信息与视频相分离，视频的播放效果不会受到影响，并且达到插入信息互动显示的效果，这样用户可以根据喜好主动、即时的获取商品的相关信息，提高互动性和用户体验效果，处理好植入信息与用户之间的受动关系。通过本发明的方案，避免由于过多的广告信息植入引起用户的反感，同时能满足用户想要获取植入信息的需求，用户自主选择是否查看植入信息，植入信息的显示不影响视频播放。

附图说明

为了进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出根据本发明的一个实施例的连续帧实时信息植入识别系统100 的框图。

图2示出根据本发明的一个实施例的连续帧实时信息植入识别的示意图。

图3A示出根据本发明的另一个实施例的连续帧实时信息植入识别的示意图。

图3B示出根据本发明的又一个实施例的连续帧实时信息植入识别的示意图。

图4示出根据本发明的一个实施例的对视频进行处理的过程的流程图。

图5示出根据本发明的一个实施例的对视频进行识别的过程的流程图。

具体实施方式

在以下的描述中，参考各实施例对本发明进行描述。然而，本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中，未示出或未详细描述公知的结构、材料或操作以免使本发明的各实施例的诸方面晦涩。类似地，为了解释的目的，阐述了特定数量、材料和配置，以便提供对本发明的实施例的全面理解。然而，本发明可在没有特定细节的情况下实施。此外，应理解附图中示出的各实施例是说明性表示且不一定按比例绘制。

在本说明书中，对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。

基于人工智能在视频上进行视频理解是增强现实系统的一项核心技术，该技术主要通过对视频进行结构化分析，即是对视频进行帧、超帧、镜头、场景、故事等分割，从而在多个层次上，用有效的特征对其内容进行理解和表达。

深度学习(Deep Learning)的视频识别技术，对图像内容的表达能力很强，在视频的内容表达上也有相应的方法，近些年来出现的几种主流的技术有：基于单帧的识别方法，基于CNN(Convolution neural network)扩展网络的识别方法，双路CNN的识别方法，基于LSTM(Long Short Term Memory networks)的识别方法，3维卷积核(3D CNN法)等优秀图像视频识别处理技术，为解决实时的连续帧识别处理问题提供了有力支持。

本发明采用视频关键帧抽取方法、图像识别算法和便捷的操作流程，解决现有方案存在的缺陷或不足。

本发明区别于占用播放时间和界面的无关广告信息植入方法，实现精准连续帧关联信息植入，而且可植入信息量很大。本发明中的视频关键帧抽取方法和图像识别算法，解决处理连续帧速度慢、受视频中场景和光线变化的干扰问题，能够实时快速准确获取、处理、反馈视频帧的植入信息。整个过程中，不需要对正在观看的视频做任何操作，不影响继续观看视频，就能够准确快速便捷的实现实时连续帧信息植入识别。

通过本发明的方案，能够实现图片、文字、音频、视频等植入信息的实时显示，植入信息与视频分离，视频播放不会受到影响，同时达到植入信息与视频互动的效果，用户可以根据喜好即时获取与视频相关的信息，提高互动性和用户体验效果。

图1示出根据本发明的一个实施例的连续帧实时信息植入识别系统100 的框图。如图1所示，连续帧实时信息植入识别系统100可包括视频处理模块 110、识别和呈现模块120。视频处理模块110包括帧抽取单元111、特征标注单元112、植入信息生成单元113和文件生成单元114。识别和呈现模块120 可包括图像识别单元121、植入信息获取单元122、呈现单元123和视频采集单元124。

视频处理模块110可以被包含在服务器或客户端中。识别和呈现模块120 可以被包含在客户端中。视频处理模块110与识别和呈现模块120可通过有线或无线的方式进行通信连接。

在本发明的一个实施例中，视频处理模块110对视频进行处理。帧抽取单元111抽取视频中的关键帧。可采用视频切割技术抽取每秒视频中的一帧作为关键帧，并生成该关键帧的标识信息。在实际的关键帧抽取过程中，可根据实际视频的大小以及处理器的工作能力，每隔若干帧选取一帧作为关键帧，例如，每隔15帧、30帧、64帧或80帧等选取一帧作为关键帧。同时为了避免用户长时间搜索不到关键帧导致体检效果差，关键帧间的时间间隔应该不能太长，因此，也可以每0.5秒、1秒、1.5秒或2秒抽取一帧作为关键帧。本领域的技术人员应该理解，以上选取关键帧的标准仅仅是示例性的，可以根据视频大小、机器性能、用户体验等因素确定关键帧的选取标准。关键帧的标识信息可以是从该关键帧图像中提取的图形描述。换言之，帧抽取单元111可基于该关键帧图像生成图形特征，作为标识信息。识别和呈现模块120可基于关键帧的图形描述进行图形匹配，从而快速确定该关键帧。

特征标注单元112针对这些关键帧生成标注信息。首先，在关键帧中确定特定内容。该特定内容可以是用户可能感兴趣的内容，例如，服装饰品、物件、品牌、交通工具、场景等。确定用户可能感兴趣的内容与关键帧的关系，即，用户可能感兴趣的内容在关键帧中的位置。将内容与关键帧的关系作为标注信息。

植入信息生成单元113生成与特定内容相关联的信息作为植入信息。例如，相关联的信息可以包括图片、文字、音频、视频、购买链接等等。

文件生成单元114基于关键帧的标识信息、关键帧的标注信息和关键帧植入信息生成描述性文件包，将其存储在服务器或客户端中。

用户在视频播放的过程中，识别和呈现模块120首先获取该视频的描述性文件包，基于该文件包中的信息进行识别和呈现。视频采集单元124对准视频，从而实时获取视频图像信息，并将其显示在显示屏上。例如，视频采集单元124 可以是摄像头、相机或类似装置。图像识别单元121基于文件包中的关键帧的标识信息对视频采集单元124获取的视频图像进行匹配，从而识别出一个或多个关键帧。植入信息获取单元122获取与一个或多个关键帧对应的标注信息和植入信息。呈现单元123基于标注信息在视频采集单元124获取的视频图像上对用户可能感兴趣的一个或多个内容添加标注，然后将与标注的内容相关的植入信息呈现给用户。

通过识别和呈现模块120，可直接实时有效的获取识别视频某关键帧中的所有标注信息，准确快速的呈现用户所有感兴趣的内容的关联信息。这是因为识别和呈现模块120识别所需数据量和计算量较小。例如，以每秒24帧视频为例，视频处理模块每秒仅提取一个关键帧，并且基于该关键帧生成图形描述作为该关键帧的标识信息，识别和呈现模块仅需获取关键帧的标识信息和相关联的标注及植入信息，所需数据量较小，在图像识别过程中，仅需基于图形描述进行关键帧匹配，大大减少了计算量，从而实现实时快速准确获取、处理、反馈视频帧的植入信息。

图2示出根据本发明的一个实施例的连续帧实时信息植入识别的示意图。如图2所示，显示器210正在播放一段视频。终端220包含本发明公开的识别和呈现模块。终端220可以是具有视频采集单元和显示单元的智能电话、平板电脑、笔记本电脑、台式电脑、专用计算机、游戏机或类似装置。

终端220的视频采集单元对准显示器210正在播放的视频，并在显示单元上显示动态视频图像信息，通过图像识别单元识别播放视频中关键帧并且在关键帧上对用户可能感兴趣的内容添加标注221。在图2中，用户可能感兴趣的内容为女士皮鞋。接下来，终端220的显示屏转入植入信息显示界面，向用户显示植入信息，即该女士皮鞋的完整图片、品牌或价格等信息。用户可以根据自己的喜好点击植入信息显示界面，从而获取进一步详细的信息，例如，该女士皮鞋的购买链接地址、商家信息等。或者，用户也可以选择返回按钮，退出植入信息显示界面，继续识别视频的其它关键帧。

图3A示出根据本发明的另一个实施例的连续帧实时信息植入识别的示意图。如图3A所示，显示器310正在播放一段视频。终端320包含本发明公开的识别和呈现模块。终端320的视频采集单元对准显示器310正在播放的视频，并在显示单元上显示动态视频图像信息，通过图像识别单元识别播放视频中的关键帧并且在关键帧上对多个用户可能感兴趣的内容分别添加标注321至 323。在图3A中，标注的内容为帽子、女士连衣裙、旅行箱。接下来，终端 320的显示单元转入植入信息显示界面，向用户显示植入信息，即帽子的具体信息324、旅行箱的具体信息325和连衣裙的具体信息326。用户可以根据自己的喜好点击其中的一个植入信息框，从而获取进一步详细的信息，例如，该女士连衣裙的购买链接地址、商家信息等。或者，用户也可以选择返回按钮，退出植入信息显示界面，继续识别视频其它帧中的特征。

图3B示出根据本发明的又一个实施例的连续帧实时信息植入识别的示意图。与图3A的实施方案的不同之处在于图像识别单元识别播放视频中的两个关键帧341和342，对每个关键帧添加标注331至334，并实时显示在显示单元上。然后，显示单元转入植入信息显示界面，向用户显示植入信息335至338，即分别与标注331至334相关联的植入信息。用户可以根据自己的喜好点击其中的一个植入信息框，从而获取进一步详细的信息，例如，该女士连衣裙的购买链接地址、商家信息等。或者，用户也可以选择返回按钮，退出植入信息显示界面，继续识别视频其它帧中的特征。

本领域的技术人员应该理解，在本发明的其它实施例中，图像识别单元可以识别播放视频中的多个关键帧，分别进行标注并在显示单元上实时显示经标注的视频，然后显示单元转入植入信息显示界面。在植入信息显示界面中，可以显示与所有标注内容相关的植入信息，也可以仅显示与标注内容中的一个或几个有关的植入信息。

首先，在步骤410，获取特定视频。

在步骤420，通过帧抽取单元抽取该视频中的关键帧。可采用视频切割技术抽取每秒视频中的一帧作为关键帧，并生成该关键帧的标识信息。在实际的关键帧抽取过程中，可根据实际视频的大小以及处理器的工作能力，每隔若干帧选取一帧作为关键帧，例如，每隔15帧、30帧、64帧或80帧等选取一帧作为关键帧。同时为了避免用户长时间搜索不到关键帧导致体检效果差，关键帧间的时间间隔应该不能太长，因此，也可以每0.5秒、1 秒、1.5秒或2秒抽取一帧作为关键帧。本领域的技术人员应该理解，以上选取关键帧的标准仅仅是示例性的，可以根据视频大小、机器性能、用户体验等因素确定关键帧的选取标准。关键帧的标识信息可以是从该关键帧图像中提取的图形描述。换言之，可基于该关键帧图像生成图形特征，作为标识信息。

在步骤430，对关键帧进生成标注信息。首先，在关键帧中确定特定内容。该特定内容可以是用户可能感兴趣的内容，例如，服装饰品、物件、品牌、交通工具、场景等。确定用户可能感兴趣的内容与关键帧的关系，即，用户可能感兴趣的内容在关键帧中的显示位置。将内容与关键帧的关系作为标注信息。

在步骤440，生成与特定内容相关联的信息作为植入信息。例如，相关联的信息可以包括图片、文字、音频、视频、购买链接等等。

在步骤450，基于关键帧的标识信息、关键帧的标注信息和关键帧植入信息生成描述性文件包，将其存储在服务器或客户端中。

图5示出根据本发明的一个实施例的对视频进行识别和植入信息呈现的过程的流程图。

在步骤510，获取该特定视频的描述性文件包。可以从服务器获取该文件包，或者可以从本地存储器获取该文件包。

在特定视频的播放过程中，在步骤520，通过视频采集单元对准视频，从而获取视频图像信息，并将其显示在显示屏上。

在步骤530，通过图像识别单元基于文件包中的关键帧的标识信息对视频采集单元获取的视频图像进行匹配，从而识别出一个或多个关键帧。

在步骤540，获取与一个或多个关键帧对应的标注信息和植入信息。

在步骤550，基于标注信息在视频采集单元获取的视频图像上对特定内容添加标注。特定内容可以是用户可能感兴趣的内容。

然后，在步骤560，将与标注的内容相关的植入信息呈现给用户。

在本发明的一些实施例中，在步骤530，识别出一个关键帧后，进行内容标注，然后转入植入信息显示界面，显示与标注内容相关的植入信息。在本发明的另一些实施例中，在步骤530，识别出多个关键帧后，对每个关键帧进行内容标注，并实时显示在显示单元上，然后转入植入信息显示界面，显示与部分或全部标注内容相关的植入信息。

通过本发明的方案，实现图片、文字、音频等媒体元素组成的插入信息在视频中的植入，植入的信息与视频相分离，视频的播放效果不会受到影响，并且达到插入信息互动显示的效果，这样用户可以根据喜好主动、即时的获取商品的相关信息，提高互动性和用户体验效果，处理好植入信息与用户之间的受动关系。通过本发明的方案，避免由于过多的广告信息植入引起用户发反感，同时能满足用户想要获取植入信息的需求，用户自主选择是否查看植入信息，植入信息的显示不影响视频播放。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种实时的连续帧信息植入识别系统，包括：

视频处理模块，所述视频处理模块包括帧抽取单元、特征标注单元、植入信息生成单元和文件生成单元，其中所述帧抽取单元抽取视频中的关键帧并生成该关键帧的标识信息，所述特征标注单元针对所述关键帧生成标注信息，所述植入信息生成单元生成与标注信息相关联的植入信息，所述文件生成单元基于关键帧的标识信息、关键帧的标注信息和关键帧的植入信息生成描述性文件包，其中帧抽取单元基于所述关键帧图像生成图形特征，作为标识信息；以及

识别和呈现模块，所述识别和呈现模块获取所述描述性文件包，所述识别和呈现模块包括视频采集单元、图像识别单元、植入信息获取单元和呈现单元，其中所述视频采集单元实时获取视频图像信息并将其显示在显示屏，所述图像识别单元基于所述关键帧的图形特征进行图形匹配，从视频图像识别出所述关键帧，所述植入信息获取单元获取与所述关键帧对应的标注信息和植入信息，所述呈现单元基于标注信息在所述视频采集单元获取的视频图像上添加标注，然后在显示屏上呈现所述植入信息，图像识别单元识别播放视频中的多个关键帧，分别进行标注并在显示单元上实时显示经标注的视频，然后显示单元转入植入信息显示界面。

2.如权利要求1所述的实时的连续帧信息植入识别系统，其特征在于，所述帧抽取单元每隔若干帧选取一帧作为关键帧。

3.如权利要求1所述的实时的连续帧信息植入识别系统，其特征在于，所述帧抽取单元每隔特定时间选取一帧作为关键帧。

4.如权利要求1所述的实时的连续帧信息植入识别系统，其特征在于，所述标注信息是所述关键帧的特定内容在所述关键帧中的位置，所述植入信息是与所述特定内容有关的信息。

5.如权利要求1所述的实时的连续帧信息植入识别系统，其特征在于，所述植入信息生成单元在一个关键帧上生成一个或多个标注信息。

6.一种视频处理方法，包括：

获取特定视频；

抽取所述特定视频中的关键帧；

基于所述关键帧生成标识信息，其中基于所述关键帧图像生成图形特征，作为标识信息；

对所述关键帧生成标注信息；

生成与所述标注信息相关联的植入信息；以及

7.如权利要求6所述的方法，其特征在于，在所述特定视频中每隔若干帧选取一帧作为关键帧。

8.如权利要求6所述的方法，其特征在于，在所述特定视频中每隔特定时间选取一帧作为关键帧。

9.如权利要求6所述的方法，其特征在于，所述标注信息是所述关键帧的特定内容在所述关键帧中的位置，所述植入信息是与所述特定内容有关的信息。

10.一种视频识别和植入信息呈现方法，包括：

获取特定视频的描述性文件包；

基于关键帧的图形特征进行图形匹配从视频图像识别出一个或多个关键帧；

获取与所述一个或多个关键帧对应的标注信息和植入信息；

基于所述标注信息在获取的视频图像上添加标注；以及

在显示屏上呈现与所述标注信息相关联的植入信息，

其中通过图像识别单元识别播放视频中的多个关键帧，分别进行标注并在显示单元上实时显示经标注的视频，然后转入植入信息显示界面。