CN110197135A

CN110197135A - 一种基于多维分割的视频结构化方法

Info

Publication number: CN110197135A
Application number: CN201910394330.6A
Authority: CN
Inventors: 胡燕祝; 田雯嘉
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-03
Anticipated expiration: 2039-05-13
Also published as: CN110197135B

Abstract

本发明主要提供一种基于多维分割的视频结构化方法，具体内容包括：步骤一：视频解析；步骤二：场景分割中的关键帧提取；步骤三：基于关键帧的场景分割；步骤四，视频的音频分割；步骤五，视频的语义分割；步骤六，信息熵为目标函数的分割规则。本发明对同一段视频在场景、声音、文本三个维度上进行分割后，采用了信息熵的形式对分割规则进行了评价。与其他视频结构化方法相比，本发明结合图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系对视频在图像维度实现了很好的分割，保留了视频的关键信息，可以提供一种有效的视频结构化方法。

Description

一种基于多维分割的视频结构化方法

技术领域

本发明主要涉及了一种视频结构化方法，特别是涉及一种基于多维分割的视频结构化方法。

背景技术

目前针对视频结构化问题，大多数都是对视频进行图像这一单维要素方面的分割，在基于多维分割的视频结构化方法研究涉及较少。而在实际中，视频中包含的音频信息、文字信息等对视频监控工作也发挥着重要作用。此外，在对视频中的运动物体进行分割提取关键帧时，为了考虑运算效率问题，仅仅是取视频当中的某一帧作为关键帧，往往会忽略视频中包含的重要信息，或者是通过设置阈值的方式对视频帧依次进行视觉特征比对来选取关键帧，以上方法均没有考虑图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系。同时，在对同一段视频进行场景、声音、文本三个维度上的分割后，得到了不同时间段的视频。在这三个维度上分割得到的视频并不能完全对齐，会产生交叉的情况。因此，需要建立一种基于图像、音频、文本等多维分割的视频结构化方法。

当前在视频结构化方面的应用非常广泛。例如，视频结构化技术在安防行业的应用、公共安全中的视频结构化以及基于视频结构化描述技术的车辆大数据系统等。随着城市视频监控系统的大规模部署,视频监控已深入城市各个角落,在智能交通、政府监管、企业运营等各行各业产生大量的监控视频数据。随着边缘计算、云计算、大数据技术的不断深入,面向大规模实时视频监控数据，要想对视频流数据进行实时的时空信息标注,字符提取、特征提取,目标分类,结构化标注等图像处理工作,并快速传输给中心计算处理，需要构建一种基于多维分割的视频结构化方法，为我国政府及各企业运营提供实时高效的监控手段。

发明内容

针对上述现有技术中存在的问题，本发明主要提供一种基于多维分割的视频结构化方法，其具体流程如图1所示。

技术方案实施步骤如下：

步骤一：视频解析。

视频解析的第一步是数据接收，需要对视频做一个解复用的处理，分解为图像轨道、音频轨道、字幕轨道。

步骤二：场景分割中的关键帧提取。

关键帧提取方法主要分为五类，具体方法如图2所示。

(1)基于边界提取关键帧。该方法把每个镜头第一帧和最后一帧或中间帧直接作为关键帧选取出来。这样运算量小，适合于内容活动性小或保持不变的镜头。

(2)基于视觉特征提取关键帧。该方法首先选择第一帧作为最近的关键帧，然后，后面的帧依次与其比较视觉特征，这些特征包括颜色、运动、边缘、形状和空间关系等。如果当前帧和最近的关键帧之间的差值超过了一个预定的阈值，那么当前帧就被选为关键帧。

(3)基于聚类提取关键帧。这类方法使用了聚类技术，将一个镜头的所有帧进行聚类，然后根据某些准则，比如类别中的帧数，在这些类别中选取关键类别，再在关键类别中选取聚类参数最小的帧作为关键帧。

(4)基于多模式提取关键帧。该类方法主要是模仿人类感知能力进行精简视频内容分析，一般是综合视频、音频、文本等。比如，在电影、体育等视频中的场景切换，视频与音频内容往往同时变化，所以就需要用多模式的提取方法，当镜头边界的音频和视频特征同时变化较大时，该镜头边界为新的场景边界。

(5)基于压缩域提取关键帧。基于压缩域的方法无需对视频流解压或只需部分解压，直接从MPEG压缩视频流上提取关键帧，降低了计算的复杂性。

步骤三：基于关键帧的场景分割。

主要包括如下三个方面：

(1)基于帧间差分检测。帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法，它可以很好地适用于存在多个运动目标和摄像机移动的情况。

(2)基于背景差分检测。背景差分法是一种对静止场景进行运动分割的通用方法，它将当前获取的图像帧与背景图像做差分运算，得到目标运动区域的灰度图，对灰度图进行阈值化提取运动区域，而且为避免环境光照变化影响，背景图像根据当前获取图像帧进行更新。具体内容如图3所示。

(3)基于光流法检测。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，根据上一帧与当前帧之间的对应关系，计算得到相邻帧之间物体的运动信息。

(4)分割后的视频，可以被表示为x₁,…,x_i，其中x表示被分割的视频的时间段，i表示被分割视频的个数。

步骤四：视频的音频分割。

基于EMD的音频分割方法，具体过程如下：

(1)原音频数据序列X(t)，确定所有极大值点，并用三次样条插值函数拟合形成原数据的上包络线。

(2)找出所有的极小值点，并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线。

(3)上包络线和下包络线的均值记作ml，将原数据序列X(t)减去该平均包络ml，得到一个新的音频数据序列hl，如公式所示：

hl＝x(t)-ml

(4)对EMD分解后的音频数据进行聚类分割。

(5)分割后的音频，可以被表示为y1,…,y_j，其中y表示被分割的音频的时间段，j表示被分割音频的个数。

步骤五：视频的语义分割。

对于段落的语义分割，主要包含如下几个方面：

(1)定义语义块。语义块是指将一个句子分割为若干个相对独立的语义单元，长度基于词义之上句义之下；是一种语法、语义、语用关联的预处理手段。各语义块之间非递归、非嵌套、不重叠。

(2)句义分割。自然语言处理通常需要分析三个方面：语法，语义和上下文，因此首先进行文本分词及词性标的统计处理工作，进行完词分类后，对其进行快速标注工作，随后对于词进行语义重组，最后在根据定义好的语义块，进行句义分割。

(3)分割后的段落，可以被表示为z₁,…,z_k，其中z表示被分割的音频的时间段，k表示被分割音频的个数。

步骤六：信息熵为目标函数的分割规则。

对于同一段视频，进行上面的场景、声音、段落三个维度上进行分割后，得到了不同时间段的视频，在三个维度分割的视频，并不能完全对齐，会产生交叉的情况，因此本发明采用信息熵的形式，对上述指标进行评价。

∑[p(t|x₁),…,p(t|x_i)]＝∑[p(t|y₁),…,p(t|y_j)]＝∑[p(t|z₁),…,p(t|z_k)]＝1

其中，t表示每一秒的视频，p(t|)是指当前在各个维度分割视频段的出现概率。

根据此公式，信息熵公式如下：

H(t)＝-{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}

其中，H(t)为在视频某时刻的信息熵的数值，而形成的信息熵序列。对H(t)进行一阶、二阶处理，看信息熵序列是否平滑。

本发明比现有技术具有的优点：

(1)本发明结合图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系对视频在图像维度实现了很好的分割，保留了视频的关键信息。

(2)本发明对同一段视频在场景、声音、文本三个维度上进行分割后，采用了信息熵的形式对分割规则进行了评价。

为了更好地理解本发明，下面结合附图作进一步的说明。

图1是建立基于多维要素的视频分割规则评判方法步骤流程图；

图2是关键帧提取方法示意图；

图3是基于背景差分检测方法的内容示意图；

具体实施方案

下面通过实施案例对本发明作进一步详细说明。

技术方案实施步骤如下：

步骤一：视频解析。

对北京市某处的交通监控视频进行解复用处理，视频时长1分50秒，将其分解为图像轨道、音频轨道和字幕轨道，分解后的音频轨道、字幕轨道时长为1分50秒。

步骤二：场景分割中的关键帧提取。

关键帧提取方法主要分为五类，具体方法如图2所示。

本例中，采用聚类提取关键帧的方法对视频进行处理，将关键帧聚类为5大类。

步骤三：基于关键帧的场景分割。

主要包括如下三个方面：

对视频进行关键帧提取以后，采用光流法检测技术对视频进行分割，分割后的视频共有25段，分别为x₁，x₂，...，x₂₅。

步骤四：视频的音频分割。

基于EMD的音频分割方法，具体过程如下：

M＝X(t)-ml

(4)对EMD分解后的音频数据进行聚类分割。

原音频数据序列X(t)中包含的极大值点分别有2.3,2.1，2,1.9，1.8,1.7,0.9,0.8。极小值分别有-1.9， -2.1，-2.6,-3.0，0，-1.0，-0.5。计算上包络线的均值为1.6875，下包络线的均值为-1.586。分割后的音频个数为25个，分别为y₁，y₂，...，y₂₅。

步骤五：视频的语义分割。

对于段落的语义分割，主要包含如下几个方面：

(3)分割后的段落，可以被表示为z₁,…,z_k，其中z表示被分割的文本的时间段，k表示被分割文本的个数。

分割后的文本个数为25个，分别为z₁，z₂，...，z₂₅，具体内容有“十字路口右转”，“行人止步”，“车辆拥堵现象严重”等。

步骤六：信息熵为目标函数的分割规则。

根据此公式，信息熵公式如下：

H(t)＝-{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}

本例中，在视频15s-30s时间段内信息熵的数值分别为0.77,0.22,0,0.25,0,0.18,0.82,0.77,0.22， 0,0.25,0.75,0.125,0.18,0.82。

Claims

1.本发明主要提供一种基于多维分割的视频结构化方法，其特征在于：

步骤一：视频解析。

步骤二：场景分割中的关键帧提取。

关键帧提取方法主要分为五类，具体方法如图2所示。

步骤三：基于关键帧的场景分割。

主要包括如下三个方面：

步骤四：视频的音频分割。

基于EMD的音频分割方法，具体过程如下：

hl＝x(t)-ml

(4)对EMD分解后的音频数据进行聚类分割。

(5)分割后的音频，可以被表示为y₁,…,y_j，其中y表示被分割的音频的时间段，j表示被分割音频的个数。

步骤五：视频的语义分割。

对于段落的语义分割，主要包含如下几个方面：

步骤六：信息熵为目标函数的分割规则。

根据此公式，信息熵公式如下：

H(t)＝-{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}