CN106559678A

CN106559678A - 一种对数字视频进行结构化处理的方法

Info

Publication number: CN106559678A
Application number: CN201510623340.4A
Authority: CN
Inventors: 宋松; 许怡洋; 张岳; 闫军; 马超杰
Original assignee: Beijing Vision Communication Technology Co Ltd
Current assignee: Beijing Vision Communication Technology Co Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2017-04-05

Abstract

本发明，“一种对数字视频进行结构化处理的方法”，提供了一种对数字视频进行结构化处理的技术，使得数字视频的结构化处理不再以节目、时间或视频帧为单元，代之以视频中的特定对象亦即视频画面的子画面或图像中的特定物体作为结构化处理的基本单元，应用于数字视频进行结构化的描述、存储、传输，从而提供更好、更丰富的视频应用及服务。

Description

一种对数字视频进行结构化处理的方法

技术领域

本发明总体上涉及一种对数字视频进行结构化处理的方法。特别的，本发明通过视频节目中的特定对象，包括其定义、属性、表现形式、获取方法及关联关系等，对数字视频的内容进行结构化的描述、存储、分类、检索、传输及应用。

背景技术

数字视频本身是由一系列图像帧及像素构成的非结构化数据，在管理、存储、检索及应用中具有相当的不便。随着信息技术的发展，基于内容的数字视频结构化技术开始出现并得到广泛应用。已有技术中针对视频内容、场景及表现形式的分析和描述，是目前数字视频结构化处理和应用的普遍方法。

现有的数字视频结构化方法通常是以视频节目、视频帧(亦可转化为时间)为基本单元，在此单元上建立相关的结构化数据，用于分类及检索。例如在一部电影中，可以把这部影片的整个时间长度作为一个单元，以影片的内容介绍，演职员表，影片的拍摄花絮等信息作为其结构化信息。更进一步，还可以以影片的某一时刻(或帧)的场景建立更为丰富的结构化信息。

但是由于以视频帧为单元建立的结构化数据过于粗糙，很多基于节目内容的应用不仅需要知道某一场景出现在某一帧，还需要知道某一具体对象出现在某一帧的具体位置，其大小、形状、表现形式、运动轨迹以及其它关联信息等，甚至对象彼此之间的相互关系。例如用户在观看某个视频的时候，可能对视频中的某个物体(对象)产生兴趣，希望通过以与视频进行交互(点击或触摸屏幕上该物体的影像)获取有关该物体更多的信息。再如在视频游戏中，可能需要记录和判断用户追踪某个物体的过程从而完成游戏。目前以视频帧为单元的结构化数据无法精准的表现带有更为丰富信息的对象，也无从获知用户与对象的交互，因而难以提供观看视频以外更为丰富的增值服务。

针对上述问题和用户需求，本发明提供了一种对数字视频进行更为精细地结构化处理的技术，使得数字视频的结构化处理不再限于以节目、时间或视频帧为单元，代之以视频中的特定对象作为结构化处理的基本单元，应用于数字视频进行结构化的描述、存储、传输，从而提供更好、更丰富的视频应用及服务。

发明内容

为了便于理解，下面首先对本发明涉及的一些术语进行解释。

在本发明中，所谓“数字视频”包含以任何数字编码方式，以任何介质存储或传输的视频数据。

“结构化数据”为信息技术中的专门术语，指任何可利用关系型数据库进行存储、管理、分类及检索或以任何可标识语言(MarkableLanguage)所表示的数据。

“对象”是指视频画面中用户所关心的任何部分或其组合，如人物，车辆，花园，或人物的服装、饰品等。

“轮廓”表示对象的边界曲线。

“位图”，数字视频中构成对象的像素点阵的集合。

“复合对象”，由其它对象组合而成的新对象，特指其属性中的轮廓或位图由其它对象的轮廓或位图组合而成。

“元对象”，非由其它对象组合而成的对象，可由其构成复合对象。

“数字视频结构化处理”是指以上述对象及其组合作为视频内容的基本分割单元，通过其定义、属性、表现形式、获取方法及关联关系等，对数字视频内容进行结构化的描述、存储、分类、检索、传输及应用。

“关联信息”，指一个对象所代表或包含的用于各种应用调用的数据或代码，如URL(统一资源定位器)链接或一段程序代码。

本发明所提供的对数字视频进行结构化处理的技术，使得数字视频的结构化处理不再以传统的时间或视频帧为单元，代之以视频中的特定对象作为结构化处理的基本单元，应用于数字视频进行结构化的描述、存储、传输，从而提供更好、更丰富的视频应用及服务。

本发明通过定义数字视频中特定的“对象”作为数字视频结构化处理的基本单元。该对象可以表现为视频帧某一画面的局部子画面，某一物体的轮廓，或以特殊图形轮廓如圆形、矩形、多边形等指定的特定对象，或轮廓所包含的图像(位图)。从视频画面中获取“对象”的具体方法并不属于本发明的内容，事实上，各种已有的或未来的图像、图形处理技术均可用于本发明中。

本发明中对于上述“对象”除赋予其各种常规属性用于描述其各种时间、空间及感官属性，运动及变化方式、状态，所含关联信息等，还定义了与其它对象的关系以及与使用者进行交互的信息等更为复杂的属性，用于构造更为丰富的应用。

针对上述“对象”，本发明建立了相应的数据模型，还提供了将其存储于关系型数据库，或以标记语言进行描述及传输的方法。

最后，本发明还提供了将上述对象在视频应用加以呈现的方法，以及利用原有对象(元对象)进行组合构造出更为复杂的新对象的方法。

图表说明

本说明书中所参考的图表只用于示例本发明的典型实施例，不应该认为是对本发明范围的限制。

具体方法

下列讨论中，提供大量具体的细节以帮助彻底了解本发明。然而，很显然对于本领域技术人员来说，即使没有这些具体细节，并不影响对本发明的理解。并且应该认识到，使用如下的任何具体术语仅仅是为了方便描述，因此，本发明不应当局限于只用在这样的术语所标识和/或暗示的任何特定应用中。

在本发明所涉及的对数字视频进行结构化处理的方法中，首先需要从数字视频中选择对象所在的视频帧(步骤101)及相应的对象。对象的选取应根据不同的应用需要选择不同的粒度(步骤102)，亦即视频画面中用户所关心的部分，或子画面，如人物或某个物品。从视频画面中获取指定的对象可以采用数字图像处理技术由计算机自动提取(步骤103)，也可由人工手工描绘(步骤104)，还可以采用简单的几何图形(步骤105)如矩形、多边形、圆，或其组合等加以标识，其后由计算机计算出相应的轮廓或位图。不论采用哪种方式，获得的对象均由其轮廓或位图的点阵或者几何参数或轮廓上的关键点加以表示，其形式为视频帧上的坐标序列。

在数字视频的应用中，常常需要对视频图像的分辨率或尺寸进行调整，以满足不同显示设备及传输网络的要求，如1080P、720P、480P等，甚至还有某些特殊的规格，如网页上大小可变的窗口。因此，以上述方式在某一图像格式下获得的对象用于其它不同的显示格式时，将产生错误。为了解决这一问题，本发明中对象轮廓或位图点阵坐标进行了如下归一化处理(步骤106)。

假设获取对象时图像的宽、高分别为w和h(以像素数表示，下同)，对所获对象轮廓或位图上所有点的坐标x，y分别进行如下变换，从而得到新的归一化后的坐标X，Y：

X＝x/w

Y＝y/h

这样在应用时如果图像的尺寸变为新的W和H，只需将归一化的坐标X，Y进行如下变换，即可获得对象在新图像中的轮廓或位图：

x’＝X*W

y’＝Y*H

上述对象的定义应根据不同的应用而采用不同的粒度(步骤102)。例如既可以把某一产品上的商标作为对象，也可以把带有商标的单个产品，甚至画面中所有的产品作为对象，取决于今后的应用是针对商标、单个产品还是一组产品。

特别地，所定义的对象不一定是一个独立的图像区域(元图像)，而可以是多个区域的组合，且这些区域无需彼此相邻。亦即，一个对象可以是多个元对象的组合。

对于定义的对象，本发明中采用一系列的属性对其大小、形状、位置、运动形式、关联信息、表现形式等加以描述。

在本发明中，所有对象均以唯一的数字或/和字符形式的“对象标识”加以标记，用于存储、管理和检索以及构造复合对象。

对象类型分为“元对象”和“复合对象”两种。对于“元对象”，其数据中包含由步骤101-106所获得的轮廓或位图。而对于复合对象，其轮廓或位图数据来自于构成复合对象的“子对象”，因而其数据中仅需包含其所有“子对象”的“对象标识”。当然，根据需要，亦可包含由“子对象”组合后获得的轮廓或位图数据。

由于本发明所涉及的是数字视频，因此所有对象均应包含其随时间变化的“运动信息”，亦即对象在空间位置或大小尺寸上随时间变化的信息(步骤107)。对于空间上相对静止的对象，即大小和位置均不随时间改变的对象，其信息比较简单，仅包含对象所出现的起始时间或起始帧以及对象消失的结束时间或结束帧(步骤108)。运动对象，即大小和/或位置随时间发生变化的对象，则较为复杂，需要记录其每一时间点或每一帧的轮廓或位图信息，亦即需要为每一视频帧独立设定对象。特别地，对于按照某一确定规律运动，例如大小按比例变化或位置按特定曲线变化的对象，可以仅记录某一帧的完整对象，以及其大小变化或/和轨迹曲线在每一帧的变化参数及计算公式或其在每一帧的大小及位置信息(步骤109)，在应用时通过计算获得其实际对象，以减小对象存储及传输的数据量。当然，根据需要，这些变化参数也应进行相应的归一化处理。

本发明中还定义了对象所包含的“关联信息”(步骤110)，即对象所代表或包含的用于各种应用调用的数据或代码。对于元对象，所谓“关联信息”表现为URL(统一资源定位器)链接或一段程序代码。然而在复合对象中，该“关联信息”既可来自(继承域)其包含的全部或部分元对象，亦可根据应用的需要重新定义。

本发明中将数字视频的结构化数据与传统的数字视频数据分开进行存储和传输，在应用中通过对象数据中所记录的时间(帧)信息与视频数据保持同步，以最大程度与现有数字视频系统兼容，并不影响已有系统的运行。特别地，与视频数据的数据量相比，结构化数据的数据量要小很多，为了更好地保持同步，在实际应用中，可在加载视频数据之前，一次性将结构化数据先期加载到应用中。

Claims

1.一种对数字视频进行结构化处理的方法，亦即将视频节目中的特定对象作为结构化处理的基本单元，通过其定义、属性、表现形式、获取方法及关联关系等，对数字视频的内容进行结构化的描述、存储、分类、检索、传输及应用的方法。

2.根据权利要求1所述的方法，所述“对象”是指视频画面中用户所关心的任何部分或其组合，如人物，车辆，花园，或人物的服装、饰品等。

3.根据权利要求1所述的方法，对象的定义过程包括：

●从数字视频中选择对象所在的视频帧

●提取指定的对象亦即视频画面中用户所关心的部分，或子画面的轮廓或位图，并以

●轮廓或位图的点阵或者几何参数或轮廓上的关键点加以表示，其形式为视频画面上的坐标序列或用于推导出这些坐标序列的公式及参数

●根据视频图像的分辨率对上述点阵坐标进行归一化处理，即以逻辑分辨率下的坐标代替图像的实际分辨率下的坐标。

4.根据权利要求1所述的方法，所述“对象”可以由其它对象(元对象)复合而成，复合对象可以标识为构成它的元对象的标识的集合，亦可由元对象通过计算所获得的新的轮廓或位图表示。

5.根据权利要求1所述的方法，所提取的对象包含其随时间变化的“运动信息”，亦即对象所出现的时间、空间信息，即对象所处视频帧及在某一视频帧上的位置信息。

6.对于权利要求5所述的“运动信息”，空间上相对静止的对象，即大小和位置均不随时间改变的对象，仅包含起始时间和结束时间或起始帧和结束帧。

7.对于权利要求5所述的“运动信息”，运动对象，即大小和/或位置随时间发生变化的对象，以每一帧独立设定对象。

8.对于权利要求5所述的“运动信息”，按照某一确定规律运动，例如大小按比例变化或位置按特定曲线变化的对象，仅记录某一帧的完整对象，以及其大小变化或/和轨迹曲线在每一帧的变化参数或位置信息，在应用时通过计算获得其实际对象。

9.对于权利要求8所述的按照某一确定规律运动的对象，其变化参数根据视频图像的分辨率进行归一化处理。

10.对于经权利要求3和权利要求9所述归一化处理的对象，在应用时，应根据当前显示分辨率进行逆归一化处理，即将对象的位置信息由逻辑分辨率下的坐标系转换为当前显示分辨率下的坐标系。