CN112084968B

CN112084968B - 基于空中监控视频的语义表征方法、系统及电子设备

Info

Publication number: CN112084968B
Application number: CN202010957860.XA
Authority: CN
Inventors: 陶晓明; 段一平; 赵梓淇; 黄丹蓝; 葛宁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2023-05-26
Anticipated expiration: 2040-09-11
Also published as: CN112084968A; US20220083780A1; US11256922B1

Abstract

本发明提供了一种基于空中监控视频的语义表征方法、系统及电子设备，涉及视频语义表征技术领域，该方法将监控视频中的行人以及交通工具作为目标进行跟踪；再将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果；然后将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中输出目标的第二语义结果；对第一语义结果进行集群分析得到目标的目标群体，并根据目标的目标群体、以及获取的场景分析结果以及第二语义结果确定监控视频的语义。该方法通过将语义结构化地表示和计算，从而能够处理场景中的多目标事件和并行事件，提高了对空中监控视频中多目标事件以及并行事件的语义表征效果。

Description

基于空中监控视频的语义表征方法、系统及电子设备

技术领域

本发明涉及视频语义表征技术领域，尤其是涉及一种基于空中监控视频的语义表征方法、系统及电子设备。

背景技术

在空中监测情景中，大多是从半高空中向下拍摄的室外场景的视频，这类场景下的目标多为行人或者交通工具，场景目标的数量较多，并存在大量的并行事件和群体事件。而现有的基于语法结构的视频事件识别方法存在一些明显的缺点：第一这类语法模型只能处理序列事件，不能处理并行事件；第二，由于序列事件中包含的目标数量一般很少，处理多目标事件以及多目标间的交互关系效果较差，而这些目标间的交互关系往往是用户所关心的；第三，缺少统一的语义模型范式，导致语义符号操作的扩展性较差。正因为存在上述技术问题，现有技术中在空中检测情境下的语义表征过程中，还存在着并行事件处理效率低下、语义表征效果差的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于空中监控视频的语义表征方法、系统及电子设备，通过将语义结构化地表示和计算，从而能够处理场景中的多目标事件和并行事件，提升并行事件处理效率，提高了空中监控视频中对于多目标事件以及并行事件的语义表征效果。

第一方面，本发明实施例提供了一种基于空中监控视频的语义表征方法，该方法包括：

对监控视频中的目标进行跟踪，确定目标的跟踪数据；其中，目标为行人以及行驶的交通工具；

将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果；其中，第一语义结果表征目标在低于预设时间间隔内的行为；

将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，第二语义结果表征目标在不低于预设时间间隔内的转向情况；

根据目标的跟踪数据以及监控视频中的预设标记，对监控视频中的场景进行分析，得到场景分析结果；

对第一语义结果进行集群分析得到目标的目标群体，并根据目标的目标群体、场景分析结果以及第二语义结果确定监控视频的语义。

在一些实施方式中，上述将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果的步骤，包括：

确定目标的语义库；

将已完成训练的语义分类模型作为第一语义分类器，目标的坐标轨迹输入至语义分类模型中，输出目标的行为分类结果；

根据目标的行为分类结果、目标的语义库以及预设时间，确定目标的第一语义结果；第一语义结果表征目标在低于预设时间间隔内的行为。

在一些实施方式中，上述已完成训练的语义分类模型采用支持向量机模型；所用的核函数为高斯核函数；训练过程采用sklearn库函数。

在一些实施方式中，上述将第一语义结果进行语义合并，包括：

初始化语义元组；其中，语义元组为五元数组集合；

将第一语义结果映射至已初始化的语义元组中，完成语义合并；其中，五元数组集合中的第一集合包含两个数字，分别存放目标的id及目标的类型；五元数组集合中的第二集合为数字，存放语义分类的结果；五元数组集合中的第三集合包含两个向量，分别存放目标在本时间间隔内的横坐标序列和纵坐标序列；五元数组集合中的第四集合包含两个数，分别为语义元组所属时间间隔的头帧序号和尾帧序号；五元数组集合中的第五集合为列表，记录语义元组所属时间间隔内目标所在群体的全部成员id。

在一些实施方式中，上述对第一语义结果进行集群分析得到目标的目标群体，包括：

获取第一语义结果中的第四集合相同的语义元组，记为临时语义元组；

按照时间顺序对临时语义元组中的第三集合进行采样，获得采样结果；采样结果为多个多维向量，多维向量的个数与目标的数量相同；

利用scipy库函数对多维向量进行多次聚类，并将聚类结果保存在预设的字典中；

将字典输入至预设的图数据结构中，确定目标的目标群体。

在一些实施方式中，上述将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果的步骤，包括：

对目标中不同时段的语义元组按时间顺序排列，得到第一临时序列；第一临时序列表征目标在每个时间段内的运动情况；

将第一临时序列输入至预设的纠错单元得到第二临时序列，并将第二临时序列作为语义合并结果；

将已完成训练的转向分类模型作为第二语义分类器，语义合并结果输入至转向分类模型中输出目标的转向分类结果，并将目标的转向分类结果作为目标的第二语义结果。

在一些实施方式中，上述已完成训练的转向分类模型采用bp神经网络模型；输入层结点40个，隐藏层结点12个，输出层结点3个，输入层和隐藏层之间使用ReLU激活函数，隐藏层和输出层间使用softmax激活函数；

数据集按照60％，20％，20％的比例划分成训练集、验证集和测试集；训练过程中选择交叉熵损失函数。

第二方面，本发明实施例提供了一种基于空中监控视频的语义表征系统，系统包括：

跟踪数据确定模块，用于对监控视频中的目标进行跟踪，确定目标的跟踪数据；其中，目标为行人以及行驶的交通工具；

第一语义结果生成模块，用于将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果；其中，第一语义结果表征目标在低于预设时间间隔内的行为；

第二语义结果生成模块，用于将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，第二语义结果表征目标在不低于预设时间间隔内的转向情况；

场景分析结果生成模块，用于根据目标的跟踪数据以及监控视频中的预设标记，对监控视频中的场景进行分析，得到场景分析结果；

语义确定模块，用于对第一语义结果进行集群分析得到目标的目标群体，并根据目标的目标群体、场景分析结果以及第二语义结果确定监控视频的语义。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述第二方面任意可能的实施方式中提到的基于空中监控视频的语义表征方法的步骤。

第四方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，程序代码使处理器实现上述第一方面任意可能的实施方式中提到的基于空中监控视频的语义表征方法。

本发明实施例带来了以下有益效果：

本发明提供了一种基于空中监控视频的语义表征方法、系统及电子设备，该方法将监控视频中的行人以及交通工具作为目标进行跟踪，并确定目标的跟踪数据；再将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果；其中，第一语义结果表征目标在低于预设时间间隔内的行为；然后将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中输出目标的第二语义结果；其中，第二语义结果表征目标在不低于预设时间间隔内的转向情况；根据目标的跟踪数据以及监控视频中的预设标记，对监控视频中的场景进行分析，得到场景分析结果；最后对第一语义结果进行集群分析得到目标的目标群体，并根据目标的目标群体、场景分析结果以及第二语义结果确定监控视频的语义。该方法通过将语义结构化地表示和计算，从而能够处理场景中的多目标事件和并行事件，提升并行事件处理效率，提高了空中监控视频中对于多目标事件以及并行事件的语义表征效果。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于空中监控视频的语义表征方法的流程图；

图2为本发明实施例提供的基于空中监控视频的语义表征方法中，步骤S102的流程图；

图3为本发明实施例提供的基于空中监控视频的语义表征方法中，将第一语义结果进行语义合并的流程图；

图4为本发明实施例提供的基于空中监控视频的语义表征方法中，对第一语义结果进行集群分析得到目标的目标群体的流程图；

图5为本发明实施例提供的基于空中监控视频的语义表征方法中，另一种对第一语义结果进行集群分析得到目标的目标群体的流程图；

图6为本发明实施例提供的基于空中监控视频的语义表征方法中，步骤S103的流程图；

图7为本发明实施例提供的采用基于空中监控视频的语义表征方法得到的语义分类结果中的单目标短时语义分类器和转向分类器ROC曲线；

图8为本发明实施例提供的采用基于空中监控视频的语义表征方法得到的语义分类结果中的单目标长时语义结果；

图9为本发明实施例提供的采用基于空中监控视频的语义表征方法得到的语义分类结果中的群体识别结果；

图10为本发明实施例提供的采用基于空中监控视频的语义表征方法得到的语义分类结果中的场景分析结果；

图11为本发明实施例提供的基于空中监控视频的语义表征系统的结构示意图；

图12为本发明实施例提供的一种电子设备的结构示意图。

图标：

1110-跟踪数据确定模块；1120-第一语义结果生成模块；1130-第二语义结果生成模块；1140-场景分析结果生成模块；1150-语义确定模块；101-处理器；102-存储器；103-总线；104-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图像(视频)媒介是信息获取的最重要的手段，因为相比其他媒介，图像(视频)数据包含了更多的信息。对于决策者用户而言，图像数据给出的关于感兴趣目标的信息是最直观的，但是图像信息存在着大量冗余。对真实场景中获取的视频目标进行语义表征，有利于决策者用户从知识和语义的层面去认识和判断场景形势。对图像/视频进行语义表征，就是将像素级别的图像信息处理成目标级别的语义信息的过程，这里的语义信息是指该目标的属性、行为等内容。一般来说，视频语义表征可以分为两个步骤，先识别出视频中发生的事件，再使用一定规则的语言表示这些事件。

现有的视频语义表征方法大多数可以归类为基于语法结构的视频事件识别方法，具体过程为：首先输入一段视频，经过一个检测器独立地检测每个时间段内的子事件；再根据预先定义的子事件语义库将这些检测器的输出抽象成特定的符号，这些符号随着时间的推移扩展成一个符号序列，即子事件序列；最后根据上下文信息和场景规则对这个符号序列做出分析和解释，以生成对整个事件的连贯的、长时间的语义表示。其中，子事件识别可以使用各种机器学习方法来实现，语义解释中的场景规则也随着应用场景的变化而变化，这些内容在不同的具体任务中实现的方法也是不同的。

对视频目标进行语义表征，即对视频目标所蕴涵的语义进行识别和表示，是一项类似于视频内容理解的任务，但又不完全相同。视频内容理解倾向于对视频整体的语义用一个抽象的符号来表示，通常可以设置标准答案，因此可以训练分类器来完成。而对视频目标的语义表征，则需要识别每个目标个体或者相互之间的属性和行为，并用一定的语言来表示出来，类似于“看图写话”，没有标准答案，因此，一般使用方法的适用性来评价一种视频语义表征方法的好坏，即该方法是否适合应用场景，该方法能否处理复杂情况，该方法的语义表征结果是否方便理解和使用等。

基于语法结构的视频事件识别方法，如SCFGs，存在一些明显的缺点：一是，这类语法模型只能处理序列事件，不能处理并行事件；二是，由于序列事件中包含的目标数量一般很少，所以这类语法模型大多数不能处理多目标事件，当然也不能处理多目标间的交互关系，而这些目标间的交互关系往往是我们所关心的；三是，这类语法模型通常由于语境的需要，采用的符号结构各不相同，难以确定统一的语义模型范式，因此不方便对语义符号进行进一步操作。空中监测情景，即从半高空中向下拍摄的室外场景的视频，该场景下主要场景目标多为行人，或者其他交通工具，而且场景目标的数量可能很多，存在大量的并行事件和群体事件。对于空中检测情景来说，传统的基于语法结构的视频事件识别方法既不能处理并行事件，也不能处理多目标事件，显然是不适合的。

综上所述，现有技术中在空中检测情境下的语义表征过程中，还存在着并行事件处理效率低下、语义表征效果差的问题。

基于此，本发明实施例提供了一种基于空中监控视频的语义表征方法、系统及电子设备，可通过将语义结构化地表示和计算，从而能够处理场景中的多目标事件和并行事件，提升并行事件处理效率，提高了空中监控视频中对于多目标事件以及并行事件的语义表征效果。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于空中监控视频的语义表征方法进行详细介绍。

参见图1所示的一种基于空中监控视频的语义表征方法的流程图，该方法包括以下步骤：

步骤S101，对监控视频中的目标进行跟踪，确定目标的跟踪数据；其中，目标为行人以及行驶的交通工具。

监控视频可来源于侦查飞行器、无人机飞行器、卫星等，多为户外场景下的俯视视频。需要跟踪的目标为行人以及交通工具，其中，行人多为运动状态；交通工具也为行驶状态中的各类工具，如：自行车、滑板、汽车、公共汽车以及高尔夫球车等等。

对于上述行人以及交通工具的语义，主要与目标的空间位置上的变化有关，如是否移动、是否停下、转弯方向等。

根据语义的实现原理可知，由于不同的场景会必然会产生不同的概念，因此一个完整的语义概念依赖于特定且固定的场景；然后再进行场景语义的分析，确定场景语义库，即场景目标可能具有的属性、可能执行的动作以及目标之间可能发生的关系等。场景语义库是一个有限集合，后续步骤中目标的语义仅能在语义库中取值。

在确定监控视频中的目标后，需要对这些目标进行跟踪，确定目标的跟踪数据。目标的跟踪数据可以直接使用目标跟踪数据集的结果，也可以由目标跟踪算法得到。

步骤S102，将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果；其中，第一语义结果表征目标在低于预设时间间隔内的行为。

坐标轨迹获取后，将其作为输入数据输入至第一语义分类器中，由于空中监控视频中的目标是动态的，因此需要将目标轨迹按照一定的时间间隔进行采样及标注，并通过第一语义分类器进行语义分类，得到目标的第一语义结果。

第一语义结果表征目标在低于预设时间间隔内的行为，在具体实施过程中，可将第一语义结果记为短时语义结果，例如将时间间隔为3秒，目标为行人或自行车，行人作为单目标其短时语义有行走(walk)以及静止(stay)两种；自行车有骑行(ride)、推行(walk)和停止(stop)三种。上述行为作为第一语义结果，在将目标的坐标轨迹输入至第一语义分类器后可直接获取得到；上述行为也作为输入数据，用于第一语义分类器的生成、训练以及获取时所用。

步骤S103，将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，第二语义结果表征目标在不低于预设时间间隔内的转向情况。

该步骤中，首先对第一语义结果进行语义合并，得到语义合并结果。具体的说，将第一语义结果按照预设关系进行映射，最终得到特殊形式的语义元组。在语义元组中，包含了目标各种语义分类的结果、坐标数据以及相关子成员的数据。例如，语义元组可四元组、五元组或者六元组，其中的每一个元组为数组、集合、字典以及数字，用来表征各类的语义及其对应的目标数据。语义合并结果可认为是对第一语义结果进行特殊的格式化过程，格式化后的语义结果有利于进行后续的处理及语义的生成。

语义合并过程可根据语义元组中包含的各类元组来进行整理排序，具体的说，可将属于同一个目标的不同时间段的语义元组按时间顺序排列，得到目标的语义元组序列，该序列反应了该目标在每个时间段内的运动情况。将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，第二语义结果表征目标在不低于预设时间间隔内的转向情况，在具体实施过程中，可将第二语义结果记为长时语义结果。可见，该步骤中的第二语义分类器用于获取目标的运动方向，在将目标的语义元组序列输入至第二语义分类器后可根据目标的运动轨迹生成目标的转向情况。

步骤S104，根据目标的跟踪数据以及监控视频中的预设标记，对监控视频中的场景进行分析，得到场景分析结果。

场景分析结果的关键即为场景标记，标记场景时依据空中监控视频中的地标或者特殊地点，分析目标轨迹和地标间的空间关系，可以统计关于场景的一些宏观信息。例如在十字路口监控的视频中，标记四个路口的坐标，监测通过路口的目标，可以统计进入和离开每个路口的目标数量。

步骤S105，对第一语义结果进行集群分析得到目标的目标群体，并根据目标的目标群体、场景分析结果以及第二语义结果确定监控视频的语义。

该步骤首先获取目标群体，目标群体是指同类的目标集合在一起时形成的集合。由于在空中监控视频中，常常出现同类的目标聚集在一起的情况，例如：在路口等红绿灯时，行人以及自行车会在停止线附近进行聚集，而聚集时容易出现误判的情况，即行人和自行车被判断是同一类目标，导致最终的语义判断出现错误，因此有必要对目标群体进行判定。

目标群体的判断过程可通过集群分析，具体实现过程可通过对目标的语义元组，按照时间顺序进行排列，而后对排列结果进行聚类，并可使用图数据结构进行群体识别，最后通过连通分量的结点数据来判断是否为同一目标群体。

在获取目标的目标群体后、结合目标群体、场景分析结果以及第二语义结果最终确定监控视频的语义。视频中的目标语义包含了目标的编号、行为、行为完成的时间段、行为完成的视频帧数等等。这些目标的语义数据可直接打印在空中监控视频中，也可打印在文本中作为日志文件。

从本发明实施例中提供的基于空中监控视频的语义表征方法可知，该方法引入了群体识别过程，对传统的基于语法结构的视频事件识别方法进行了改进，使得该方法能够处理多目标事件和并行事件；并使用语义元组这种结构化的语义模型来表示目标的子事件，这种结构化的模型方便计算机对语义符号进行计算和处理；该方法直接使用目标跟踪的结果作为输入数据，而不使用视频的低层(像素)和中层(颜色，纹理等)特征，相当于直接过滤了视频数据中的冗余信息，这是因为中低层特征几乎没有语义意义。可见，该方法能够处理场景中的多目标事件和并行事件，提升了并行事件处理效率，提高了空中监控视频中对于多目标事件以及并行事件的语义表征效果。

在一些实施方式中，上述将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果的步骤S102，如图2所示，包括：

步骤S201，确定目标的语义库。

确定的语义库为目标的场景语义库，即场景目标可能具有的属性、可能执行的动作以及目标之间可能发生的关系等，场景的语义库是一个有限集合，后续步骤中目标的语义仅能在语义库中取值。在空中检测情景下，目标种类多为行人和其他交通工具，目标具有的语义信息主要和空间位置上的变化有关，如移动、停下等。

步骤S202，将已完成训练的语义分类模型作为第一语义分类器，目标的坐标轨迹输入至语义分类模型中，输出目标的行为分类结果。

此类实施方式中的第一语义分类器，为具有语义分类功能的卷积神经网络。具体实施过程中，上述已完成训练的语义分类模型采用支持向量机模型；所用的核函数为高斯核函数；训练过程采用sklearn库函数得以实现。

步骤S203，根据目标的行为分类结果、目标的语义库以及预设时间，确定目标的第一语义结果。

根据步骤S201中获取的目标语义库，以及步骤S202中获取的行为分类结果，结合预设的时间间隔得到第一语义结果，可见第一语义结果表征目标在低于预设时间间隔内的行为。获得的第一语义结果可作为模型训练的输入数据用于语义分类模型的训练过程。

在一些实施方式中，上述将第一语义结果进行语义合并，如图3所示，包括：

步骤S301，初始化语义元组；其中，语义元组为五元数组集合。

其中，五元数组集合中的第一集合包含两个数字，分别存放目标的id及目标的类型；五元数组集合中的第二集合为数字，存放语义分类的结果；五元数组集合中的第三集合包含两个向量，分别存放目标在本时间间隔内的横坐标序列和纵坐标序列；五元数组集合中的第四集合包含两个数，分别为语义元组所属时间间隔的头帧序号和尾帧序号；五元数组集合中的第五集合为列表，记录语义元组所属时间间隔内目标所在群体的全部成员id。

步骤S302，将第一语义结果映射至已初始化的语义元组中，完成语义合并。

具体的说，将五元数组集合中第二集合按照时间排列得到一个序列，该序列反应了该目标在每个时间段内的运动情况。该序列先经过一个纠错单元，纠错单元用于纠正序列中的毛刺，假设某一时间段内该目标的短时语义为stay，而前后均有至少3个连续的时间段的短时语义为walk，则认为本时间段的短时语义stay为毛刺噪声，并纠正为walk。然后再进行语义合并，语义合并将序列中的连续成分合并起来，并记录该连续成分的起始帧。

在一些实施方式中，上述对第一语义结果进行集群分析得到目标的目标群体，如图4所示，包括：

步骤S401，获取第一语义结果中的第四集合相同的语义元组，记为临时语义元组。

该步骤可认为是数据预处理操作，按照时间顺序，将五元组中的第四集合相同的元组放在一起，用于后续的采样。

步骤S402，按照时间顺序对临时语义元组中的第三集合进行采样，获得采样结果；采样结果为多个多维向量，多维向量的个数与目标的数量相同。

对这些元组的第三集合进行采样，第三集合包含了目标点时间间隔内(如3秒)的坐标，并对其进行等间隔采样，共采样9个点，得到18维向量。在每个时间段内，18维向量的个数为该时间段内场景中的目标数量。

步骤S403，利用scipy库函数对多维向量进行多次聚类，并将聚类结果保存在预设的字典中。

按照时间顺序，在每个时间段内分别对这些向量进行聚类，聚类方法采用自下而上的层次聚类算法，聚类的实现过程使用python中的scipy库函数，其中的核心函数是scipy.cluster.hierarchy中的linkage和fcluster两个函数。linkage函数计算类间距离并实现层次聚类，其核心参数为“method”连接标准和“metric”距离标准，距离标准选择欧氏距离'euclidean'，连接标准选择组平均'average'。其中每个时间段内进行两次聚类，两次聚类的阈值不同，分别为0.6和0.8，聚类结果保存在两个字典中，记为d1和d2。

步骤S404，将字典输入至预设的图数据结构中，确定目标的目标群体。

使用一个图数据结构来进行群体识别，图与场景目标的对应关系如下：无向图中的每一个结点对应场景中的一个目标，如果两个结点之间有边，表示两目标属于同一个群体，因此每一个连通分量表示一个目标群体。

具体的说，上述目标群体的另一种计算过程如图5所示：

(a)首先初始化结点，t＝0，根据场景目标的数量建立结点，结点之间均没有边连接，初始化矩阵count，count(i,j)的值表示结点i和结点j之间的时间相关程度，此时count矩阵初始化为零矩阵。

(b)所有结点间计算语义相似度A，假设结点i和结点j相似，则在两个结点间建立边(如果i和j之间已存在边则不再新增边)，并对count(i,j)自增(如果count(i,j)大于等于3则不再自增)。其中，计算语义相似度A的方法为：检查结点i和结点j在聚类结果d1中的情况，如果i和j在接下来的6个时间段内(包括本时间段)有至少3个时间段内属于同一组，则认为结点i和结点j语义相似。

(c)所有结点间计算语义相似度B，假设结点i与结点j不相似，则对count(i,j)自减(如果count(i,j)等于0则不再自减)，如果count(i,j)等于0则删除i与j之间的边。其中，计算语义相似度B的方法为：检查结点i和结点j在聚类结果d2中的情况，如果i和j在本时间段内属于不同组，则认为结点i和结点j语义不相似。

(d)在本时间段内，对整个图结算连通分量，属于同一连通分量的结点即为同一个群体的成员，并以此为根据更新语义元组的G成员。

(e)t＝t+Δt，重复步骤(a)(b)(c)(d)，直至视频结束。

在一些实施方式中，上述将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果的步骤S103，如图6所示，包括：

步骤S601，对目标中不同时段的语义元组按时间顺序排列，得到第一临时序列；第一临时序列表征目标在每个时间段内的运动情况。

该步骤为语义元组的整理过程，以五元宿主集合为例，将五元数组集合中第二集合按照时间排列得到一个序列，得到属于同一个目标的不同时间段的语义元组按时间顺序排列，该序列反映了该目标在每个时间段内的运动情况。

步骤S602，将第一临时序列输入至预设的纠错单元得到第二临时序列，并将第二临时序列作为语义合并结果。

由于数据采集以及处理时产生的异常，得到的第一临时序列中会包含一些特殊数据，这些数据为序列中的毛刺数据，这些毛刺数据会影响语义的表征效果，因此需要将该序列进行纠错，去除毛刺数据。具体的说，将该第一临时序列先经过一个纠错单元，纠错单元用于纠正序列中的毛刺，假设某一时间段该目标的短时语义为stay，而前后均有至少3个连续的时间段的短时语义为walk，则认为本时间段的短时语义stay为毛刺噪声，并纠正为walk。去除毛刺后的第一临时序列即为第二临时序列，该第二临时序列作为语义合并结果用于后续步骤所用。

步骤S603，将已完成训练的转向分类模型作为第二语义分类器，语义合并结果输入至转向分类模型中输出目标的转向分类结果，并将目标的转向分类结果作为目标的第二语义结果。

第二语义分类器为预先训练完成的神经网络模型，在具体实施方式中，上述已完成训练的转向分类模型采用bp神经网络模型；输入层结点40个，隐藏层结点12个，输出层结点3个，输入层和隐藏层之间使用ReLU激活函数，隐藏层和输出层间使用softmax激活函数；数据集按照60％，20％，20％的比例划分成训练集、验证集和测试集；训练过程中选择交叉熵损失函数。转向分类的数据从空中监控的原始视频中采集和标注，标注好的样本为一些目标通过十字路口的一段轨迹，这些运动轨迹的转向情况比较清晰，适合作为转向分类器的训练数据集。将数据等距采样，采样点数为20，所以每个样本是长度为40的向量(20个x坐标，20个y坐标)。

下面对上述实施例中提到的基于空中监控视频的语义表征方法结合某场景数据集进行模拟，具体过程如下：

数据集采用了公开的数据集Stanford Drone Dataset，该数据集是一个目标跟踪数据集，内容为在真实世界户外环境(如大学校园)中的各类目标(除了行人，还有自行车、滑板、汽车、公共汽车和高尔夫球车)的图像和视频。数据集由八个独特的场景组成，共60个视频。

第一语义分类器从3个场景的8个视频中标记数据作为训练数据集，行人使用的数据集共6898个样本，其中walk为4198个，stay为2698个，自行车使用的数据集共2286个样本，其中ride为864个，walk为693个，stop为729个。对样本随机分割，其中40％为训练集，60％为测试集。

第二语义分类器从2个场景的6个视频中标记数据作为训练数据集，最终共标记了479个样本，其中go straight 269个，turn left 102个，turn right108个。数据集按照60％，20％，20％的比例划分成训练集、验证集和测试集。超参数设置如下，学习率为6×10^(-3)，batchsize为10，采用Adam优化器，epoch为25时停止训练。

此前已经说过，对视频目标的语义表征，需要识别每个目标个体或者相互之间的属性和行为，并用一定的语言来表示出来，类似于“看图写话”，没有标准答案，此外，由于没有其他人对同样的数据集进行过类似的实验，因此实验的结果难以通过对比来进行评价。因此，一般使用方法的适用性来评价一种视频语义表征方法的好坏，即该方法是否适合应用场景，该方法能否处理复杂情况，该方法的语义表征结果是否方便理解和使用等。本发明针对空中检测情景的特点而制定方法，不仅能够对行人和自行车等目标的运动行为进行分析，还考虑到该情景下目标较多的问题，引入了目标的集群分析对目标群体进行识别，因此非常适用于这种应用场景。

此外，还可以从两方面评价算法的有效性，一方面为分类器的客观指标，另一方面为语义结果的可视化验证结果。首先给出分类器的客观指标，如图7所示单目标短时语义分类器和转向分类器ROC曲线。为了衡量分类器的性能，对测试集的测试结果引入了受试者工作特性曲线(ROC)下面积(AUC)值作为指标。ROC曲线用于展示二分类结果真阳性率和假阳性率之间的关系，对多分类问题也可以对每一类分别绘制ROC曲线。图7中的左上图为行人的单目标短时语义分类器，图7中的右上图为自行车的单目标短时语义分类器，图7中的下图为转向分类器。从图7中可以观察到，行人分类器的AUC值已经十分接近1，表明该分类器几乎可以完全分离两类样本；自行车分类器中，ride(AUC＝0.96)和stop(AUC＝0.98)两类的分类性能非常好，walk(AUC＝0.86)类的性能稍次，但平均曲线(AUC＝0.95)表明该分类器的总体性能很好；转向分类器对三类转向情况的分类性能都很好，平均AUC值达到了0.96。

将语义结果输出到视频中以便可视化验证其正确性，如图8、9、10所示。

如图8所示的单目标长时语义结果，左图为将结果字符串打印在视频中同步播放的示意图。此外，可以在视频中将目标的轨迹可视化以验证结果的正确性。例如，为了验证结果字段“pedestrian139:turn right,move from(471,1107)to(662,1414)frame:2540to2900”，将id为139的目标轨迹显示出来，如右图所示，标记为walk的小圆为轨迹起点，被矩形框围住的目标位于轨迹终点，显然目标的转向情况为右转，从而验证了结果的正确性。

图9所示为群体识别结果在视频中表示的示意图，图中深色框表示单个目标，浅色框表示一个目标群体，处于同一个浅色框中的目标属于同一个群体，可以看到图中共有4个目标群体。图9下方两张图片为一个典型的例子，反映了本算法的抗干扰能力。图9下方左图中下方的两个群体没有改变过位置，处于右上方的群体从下方的两个群体中间穿过，并到达两个群体的左下方，如右图的位置。整个过程中，群体识别的结果保持稳定，尽管左图中右上方的群体在穿过下方两个群体的时候，在空间上的距离非常近，但是系统没有将他们误判成同一个群体，很好地避免了错误。

如图10所示的场景分析结果可知，这是一个十字路口视频的截图，场景分析实时统计了每个路口当前已经进入和离开的目标数，并将统计结果打印在路口处。统计的结果核对无误。在图10中，将单目标长时语义的结果映射成结果字符串，结果字符串的几种类型及形式如下(斜体表示变量)：

进入。“kind+id:come in,frame:frame”。例如，“bike91:come in,frame:300”。

离开。“kind+id:leave,frame:frame”。例如，“pedestrian53:leave,frame:1490”。

停留。“kind+id:stay at(x,y),frame:frame1 to frame2”。例如，“pedestrian94:stay at(1418,640)frame:950to 1040”。

移动。“kind+id:turn,move from(x1,y1)to(x2,y2)frame:frame1 to frame2”。其中，turn有三种情况，分别为“go straight”、“turn left”和“turn right”。例如，“bike121:go straight,move from(682,39)to(694,586)frame:270to 450”。

从上述实施例中提供的基于空中监控视频的语义表征方法可知，该方法引入了群体识别过程，对传统的基于语法结构的视频事件识别方法进行了改进，使得该方法能够处理多目标事件和并行事件；并使用语义元组这种结构化的语义模型来表示目标的子事件，这种结构化的模型方便计算机对语义符号进行计算和处理；该方法直接使用目标跟踪的结果作为输入数据，而不使用视频的低层(像素)和中层(颜色，纹理等)特征，相当于直接过滤了视频数据中的冗余信息，这是因为中低层特征几乎没有语义意义。并通过具体实施例来印证了该方法能够处理场景中的多目标事件和并行事件，并提升了并行事件处理效率，提高了空中监控视频中对于多目标事件以及并行事件的语义表征效果。

对应于上述方法实施例，本发明实施例提供了一种基于空中监控视频的语义表征系统，该系统的结构示意图如图11所示，包括：

跟踪数据确定模块1110，用于对监控视频中的目标进行跟踪，确定目标的跟踪数据；其中，目标为行人以及行驶的交通工具；

第一语义结果生成模块1120，用于将目标的坐标轨迹输入至第一语义分类器中，输出目标的第一语义结果；其中，第一语义结果表征目标在低于预设时间间隔内的行为；

第二语义结果生成模块1130，用于将第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，第二语义结果表征目标在不低于预设时间间隔内的转向情况；

场景分析结果生成模块1140，用于根据目标的跟踪数据以及监控视频中的预设标记，对监控视频中的场景进行分析，得到场景分析结果；

语义确定模块1150，用于对第一语义结果进行集群分析得到目标的目标群体，并根据目标的目标群体、场景分析结果以及第二语义结果确定监控视频的语义。

该实施例中的基于空中监控视频的语义表征系统，与上述方法实施例中提供的基于空中监控视频的语义表征方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

本实施例还提供一种电子设备，为该电子设备的结构示意图如图12所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述基于空中监控视频的语义表征方法。

图12所示的电子设备还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于空中监控视频的语义表征方法，其特征在于，所述方法包括：

对监控视频中的目标进行跟踪，确定所述目标的跟踪数据；其中，所述目标为行人以及行驶的交通工具；

将所述目标的坐标轨迹输入至第一语义分类器中，输出所述目标的第一语义结果；其中，所述第一语义结果表征所述目标在低于预设时间间隔内的行为；

将所述第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，所述第二语义结果表征所述目标在不低于预设时间间隔内的转向情况；

根据所述目标的跟踪数据以及所述监控视频中的预设标记，对所述监控视频中的场景进行分析，得到场景分析结果；

对所述第一语义结果进行集群分析得到所述目标的目标群体，并根据所述目标的目标群体、所述场景分析结果以及所述第二语义结果确定所述监控视频的语义。

2.根据权利要求1所述的基于空中监控视频的语义表征方法，其特征在于，所述将所述目标的坐标轨迹输入至第一语义分类器中，输出所述目标的第一语义结果的步骤，包括：

确定所述目标的语义库；

将已完成训练的语义分类模型作为所述第一语义分类器，所述目标的坐标轨迹输入至所述语义分类模型中，输出所述目标的行为分类结果；

根据所述目标的行为分类结果、所述目标的语义库以及所述预设时间，确定所述目标的第一语义结果；所述第一语义结果表征所述目标在低于预设时间间隔内的行为。

3.根据权利要求2所述的基于空中监控视频的语义表征方法，其特征在于，所述已完成训练的语义分类模型采用支持向量机模型；所用的核函数为高斯核函数；训练过程采用sklearn库函数。

4.根据权利要求1所述的基于空中监控视频的语义表征方法，其特征在于，将所述第一语义结果进行语义合并，包括：

初始化语义元组；其中，所述语义元组为五元数组集合；

将所述第一语义结果映射至已初始化的所述语义元组中，完成语义合并；其中，所述五元数组集合中的第一集合包含两个数字，分别存放所述目标的id及所述目标的类型；所述五元数组集合中的第二集合为数字，存放语义分类的结果；所述五元数组集合中的第三集合包含两个向量，分别存放所述目标在本时间间隔内的横坐标序列和纵坐标序列；所述五元数组集合中的第四集合包含两个数，分别为所述语义元组所属时间间隔的头帧序号和尾帧序号；所述五元数组集合中的第五集合为列表，记录所述语义元组所属时间间隔内所述目标所在群体的全部成员id。

5.根据权利要求4所述的基于空中监控视频的语义表征方法，其特征在于，对所述第一语义结果进行集群分析得到所述目标的目标群体，包括：

获取所述第一语义结果中的第四集合相同的语义元组，记为临时语义元组；

按照时间顺序对所述临时语义元组中的第三集合进行采样，获得采样结果；所述采样结果为多个多维向量，所述多维向量的个数与所述目标的数量相同；

利用scipy库函数对所述多维向量进行多次聚类，并将聚类结果保存在预设的字典中；

将所述字典输入至预设的图数据结构中，确定所述目标的目标群体。

6.根据权利要求5所述的基于空中监控视频的语义表征方法，其特征在于，所述将所述第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出所述目标的第二语义结果的步骤，包括：

对所述目标中不同时段的语义元组按时间顺序排列，得到第一临时序列；所述第一临时序列表征所述目标在每个时间段内的运动情况；

将所述第一临时序列输入至预设的纠错单元得到第二临时序列，并将所述第二临时序列作为所述语义合并结果；

将已完成训练的转向分类模型作为所述第二语义分类器，所述语义合并结果输入至所述转向分类模型中输出所述目标的转向分类结果，并将所述目标的转向分类结果作为所述目标的第二语义结果。

7.根据权利要求6所述的基于空中监控视频的语义表征方法，其特征在于，所述已完成训练的转向分类模型采用bp神经网络模型；输入层结点40个，隐藏层结点12个，输出层结点3个，输入层和隐藏层之间使用ReLU激活函数，隐藏层和输出层间使用softmax激活函数；

8.一种基于空中监控视频的语义表征系统，其特征在于，所述系统包括：

跟踪数据确定模块，用于对监控视频中的目标进行跟踪，确定所述目标的跟踪数据；其中，所述目标为行人以及行驶的交通工具；

第一语义结果生成模块，用于将所述目标的坐标轨迹输入至第一语义分类器中，输出所述目标的第一语义结果；其中，所述第一语义结果表征所述目标在低于预设时间间隔内的行为；

第二语义结果生成模块，用于将所述第一语义结果进行语义合并，并将获得的语义合并结果输入至第二语义分类器中，输出目标的第二语义结果；其中，所述第二语义结果表征所述目标在不低于预设时间间隔内的转向情况；

场景分析结果生成模块，用于根据所述目标的跟踪数据以及所述监控视频中的预设标记，对所述监控视频中的场景进行分析，得到场景分析结果；

语义确定模块，用于对所述第一语义结果进行集群分析得到所述目标的目标群体，并根据所述目标的目标群体、所述场景分析结果以及所述第二语义结果确定所述监控视频的语义。

9.一种电子设备，其特征在于，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时实现如权利要求1至7任一项所述的基于空中监控视频的语义表征方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现上述权利要求1至7任一项所述的基于空中监控视频的语义表征方法的步骤。