CN110765314A

CN110765314A - 一种视频语义结构化提取与标注的方法

Info

Publication number: CN110765314A
Application number: CN201910999187.3A
Authority: CN
Inventors: 刘湘辉
Original assignee: Changsha Military And Civilian Advanced Technology Research Co Ltd; Changsha Pinxian Information Technology Co Ltd
Current assignee: Changsha Military And Civilian Advanced Technology Research Co Ltd; Changsha Pinxian Information Technology Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-07

Abstract

本发明公开了一种视频语义结构化提取与标注的方法，包括如下步骤：S1、预处理，对视频进行镜头分割，并选择镜头中的某一帧作为关键帧代表镜头；S2、以镜头为单位提取镜头内的语义，并组成镜头语义序列；S3、半监督地利用镜头语义及时序信息对镜头之间结构化的上下文关系进行分析，利用结构化信息以场景为单位提取场景语义；S4、将镜头语义、场景语义及语义间的结构化关系作为标注内容对视频进行结构化的语义标注。相比现有技术，在弥补传统只能以镜头为单位标注语义，不能对视频进行多粒度的语义标注缺陷的同时，还能对视频镜头语义之间彼此依赖的关系信息进行分析并应用于场景语义的推理，具有应用范围广的优点。

Description

一种视频语义结构化提取与标注的方法

技术领域

本发明主要涉及人工智能识别技术领域，具体地说，涉及一种视频语义结构化提取与标注的方法。

背景技术

“语义”这一概念起源于19世纪末，是虚拟数据所对应的现实世界中的事物所代表的含义的表现，以及这些含义之间的关系，是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的，当我们想用计算机来理解视频之中的“语义”时，计算机只能够识别诸如颜色、形状等底层特征。因此，我们需要采用一些方法将这些底层的特征联系起来，形成一些更高层的含义，从而将视频中所要展示的信息更好的表达出来。

视频结构化是一种视频内容信息提取的技术，它对视频内容按照语义关系，采用时空分割、特征提取、对象识别等处理手段，组织成可供计算机和人理解的文本信息的技术。原始的视频实际上是一种非结构化的数据，其本身具有一定的层次结构，不同层次会产生不同粒度的语义，而且不同粒度的语义之间会形成一定的层次结构。视频结构化就是将视频这种非结构化的数据中的目标贴上相对应的标签，变为可通过某种条件进行搜索的结构化数据。

随着视频检索技术的发展，低粒度的、无层次的视频语义标注模型与技术已经满足不了用户与检索技术的需求。例如用户在检索足球视频时输入的关键词往往不是“裁判”、“足球”等单个镜头中低粒度的对象语义，而是“进球”、“犯规”、“任意球”等由视频场景表达的高粒度的事件语义。为了更好地存储视频的语义内容并利用其进行视频检索，现有研究人员构建了许多结构化的视频语义模型。结构化的视频语义模型不仅含有从不同层次中提取的语义，语义间的关系信息也是模型中的重要内容。与之相对应的，传统的低粒度的视频语义标注方法也就满足不了视频语义模型对标注内容的要求，这就势必要求找到一种方法能够全局地分析视频的内部结构，然后充分利用结构关系信息提取视频中不同粒度的语义并进行标注。

发明内容

有鉴于此，本发明的目的在于提供一种视频语义结构化提取与标注的方法，能从不同层次提取视频语义，并能够将语义间结构化关系作为标注内容，解决了传统只能以镜头为单位标注语义，不能对视频进行多粒度的语义标注的缺陷。

本发明一种视频语义结构化提取与标注的方法，包括如下步骤：

S1、预处理，对视频进行镜头分割，并选择镜头中的某一帧作为关键帧代表镜头；

S2、以镜头为单位提取镜头内的语义，并组成镜头语义序列；

S3、半监督地利用镜头语义及时序信息对镜头之间结构化的上下文关系进行分析，利用结构化信息以场景为单位提取场景语义；

S4、将镜头语义、场景语义及语义间的结构化关系作为标注内容对视频进行结构化的语义标注。

作为本发明进一步的改进，所述步骤S1中在对视频进行镜头分割之前还包括如下步骤：

将视频帧原有RGB颜色空间转换为HSI颜色空间；

在HIS颜色空间中采用基于块的镜头分割方法，将视频帧分成n个块并对相邻帧的对应块进行比较，镜头边界检测后取镜头内的某一帧作为关键帧代表镜头。

作为本发明进一步的改进，所述步骤S2中镜头语义序列提取包括如下步骤：

S21、提取镜头内特定的语义，组成语义集W；

S22、从语义集W中选择一个语义W_i为关键语义代表该镜头；

S23、根据镜头的时序关系将每个镜头的关键语义组合成镜头关键语义序列Seq。

作为本发明进一步的改进，所述关键帧中语义对象包括前景对象和背景对象，镜头语义提取前需先分离前景对象和背景对象，再根据对象的不同使用相对应的语义分析方法。

作为本发明进一步的改进，所述背景对象通过如下步骤提取特征：

计算颜色特征；

使用Canny算子进行纹理特征的提取：提取图像边缘后以5°为范围进行划分，形成一个36维的边缘直方图C，对得到的边缘直方图C进行归一化处理，获得36维的纹理特征向量；

所述颜色特征与36维的纹理特征向量一起组成72维的特征向量；

使用支持向量机SVM对标注后语义的训练样本的72维特征向量进行学习；

将训练后的SVM对样本进行分类，分类结果作为镜头的背景语义W_b，且W_b∈W。

作为本发明进一步的改进，所述前景对象通过如下步骤提取特征：

计算颜色特征；

进行形状特征提取：选择具有抗干扰形状特征的长宽比LW、周长面积比AP及归一化后的面积Ar；

所述颜色特征、36维的纹理特征向量及形状特征一起组成75维的特征向量；

使用支持向量机SVM对训练样本的75维特征向量进行学习；

将训练后的SVM对样本进行分类，分类结果作为镜头的前景语义W_f，且W_f∈W。

作为本发明进一步的改进，所述前景对象和背景对象分离的方法包括减背景法和光流法。

作为本发明进一步的改进，所述减背景法应用于监控视频，所述光流法应用于体育竞技类视频。

作为本发明进一步的改进，所述步骤S3中提取场景语义前还包括场景语义推理，场景语义推理具体通过如下步骤实现：

将视频分为若干场景；

将场景内各个镜头的语义集W中的每个语义W_i和每个语义W_i的关系作为决策属性；

利用决策树算法进行场景语义推理。

作为本发明进一步的改进，所述关键帧为镜头中间的一帧。

本方法针对视频结构化语义的提取与标注问题，建立了三层的结构化视频语义提取与标注框架，逐层推理语义，提取了不同粒度的语义及语义之间的结构化关系：第一层，根据镜头关键帧的视觉特征提取低粒度的镜头语义；第二层，通过分析不同镜头语义的上下文关系获取镜头之间的结构化关系；第三层，利用各个镜头的语义信息及镜头的结构化关系信息进行高粒度的场景语义推理，以实现将镜头语义、场景语义及语义间的结构化关系作为标注内容对视频进行结构化的语义标注。一方面弥补了传统只能以镜头为单位标注语义，不能对视频进行多粒度的语义标注的缺陷，另一方面，还能对视频镜头语义之间彼此依赖的关系信息进行分析并应用于场景语义的推理，具有应用范围广的优点。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明一种视频语义结构化提取与标注的方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本发明提供了一种视频语义结构化提取与标注的方法，包括如下步骤：

S1、预处理，对视频进行镜头分割，并选择镜头中的某一帧作为关键帧代表镜头。

由于大部分视频帧的默认颜色空间是RGB颜色空间，所以首先，要将RGB颜色空间转换为跟接近人类对视觉相似性感知的HSI颜色空间，且在HIS空间计算像素的颜色变化更加简单直观，有助于提高边界检测的准确率和特征的提取。然后，在HIS空间中采用基于块的镜头分割方法，将将视频帧分成n个块并对相邻帧的对应块进行比较，镜头边界检测后取镜头内的某一帧作为关键帧代表镜头。优选地，选择镜头中间一帧作为关键帧。

S2、以镜头为单位提取镜头内的语义，并组成镜头语义序列。

镜头语义序列是分析镜头之间依赖关系的基本单位，正确提取镜头内的语义信息，然后形成具有时间约束的语义序列是本方法提出方法的重要基础。

具体地，提取镜头语义序列的主要步骤包括：

S21、提取镜头内特定的语义，组成语义集W；

S22、从W选择一个语义W_i为关键语义代表该镜头；

进一步需要阐述的是，关键帧中的语义对象可以分为前景对象和背景对象。在进行语义提取前，首先要对关键帧的前景对象进行检测并分离前景对象和背景对象，然后根据对象的不同使用相对应的语义分析方法。前景对象和背景对象分离的方法包括减背景法和光流法。对于摄像头视角固定的视频可以使用减背景法将前景与背景分离，例如监控视频；对于摄像头视角转动的视频通常使用光流法进行前景检测，例如体育竞技类视频。足球视频在拍摄的过程中摄像头跟踪足球、运动员等目标物，所以使用光流法对其进行前景与背景的分割。将关键帧的前景与背景分开后，然后分别对不同对象使用不同的方法提取特征。

优选地，所述背景对象通过如下步骤提取特征：

计算颜色特征；

所述前景对象通过如下步骤提取特征：

计算颜色特征；

使用支持向量机SVM对训练样本的75维特征向量进行学习；

S3、半监督地利用镜头语义及时序信息对镜头之间结构化的上下文关系进行分析，利用结构化信息以场景为单位提取场景语义。

需要说明的是，所述步骤S3中提取场景语义前还包括场景语义推理，场景语义推理具体通过如下步骤实现：

将视频分为若干场景；

利用决策树算法进行场景语义推理。

综上所述，本方法针对视频结构化语义的提取与标注问题，建立了三层的结构化视频语义提取与标注框架，逐层推理语义，提取了不同粒度的语义及语义之间的结构化关系：第一层，根据镜头关键帧的视觉特征提取低粒度的镜头语义；第二层，通过分析不同镜头语义的上下文关系获取镜头之间的结构化关系；第三层，利用各个镜头的语义信息及镜头的结构化关系信息进行高粒度的场景语义推理。一方面弥补了传统只能以镜头为单位标注语义，不能对视频进行多粒度的语义标注的缺陷，另一方面，还能对视频镜头语义之间彼此依赖的关系信息进行分析并应用于场景语义的推理，具有应用范围广的优点。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频语义结构化提取与标注的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的视频语义结构化提取与标注的方法，其特征在于，所述步骤S1中在对视频进行镜头分割之前还包括如下步骤：

将视频帧原有RGB颜色空间转换为HSI颜色空间；

3.根据权利要求2所述的视频语义结构化提取与标注的方法，其特征在于，所述步骤S2中镜头语义序列提取包括如下步骤：

S21、提取镜头内特定的语义，组成语义集W；

S22、从语义集W中选择一个语义W_i为关键语义代表该镜头；

4.根据权利要求3所述的视频语义结构化提取与标注的方法，其特征在于，所述关键帧中语义对象包括前景对象和背景对象，镜头语义提取前需先分离前景对象和背景对象，再根据对象的不同使用相对应的语义分析方法。

5.根据权利要求4所述的视频语义结构化提取与标注的方法，其特征在于，所述背景对象通过如下步骤提取特征：

计算颜色特征；

6.根据权利要求5所述的视频语义结构化提取与标注的方法，其特征在于，所述前景对象通过如下步骤提取特征：

计算颜色特征；

使用支持向量机SVM对训练样本的75维特征向量进行学习；

7.根据权利要求6所述的视频语义结构化提取与标注的方法，其特征在于，所述前景对象和背景对象分离的方法包括减背景法和光流法。

8.根据权利要求7所述的视频语义结构化提取与标注的方法，其特征在于，所述减背景法应用于监控视频，所述光流法应用于体育竞技类视频。

9.根据权利要求8所述的视频语义结构化提取与标注的方法，其特征在于，所述步骤S3中提取场景语义前还包括场景语义推理，场景语义推理具体通过如下步骤实现：

将视频分为若干场景；

利用决策树算法进行场景语义推理。

10.根据权利要求2所述的视频语义结构化提取与标注的方法，其特征在于，所述关键帧为镜头中间的一帧。