CN108764192B

CN108764192B - 一种面向平安城市视频监控应用的多示例多标签学习方法

Info

Publication number: CN108764192B
Application number: CN201810562849.6A
Authority: CN
Inventors: 胡征兵; 胡岑诺; 聂聪; 杨琳; 蒋玲
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2021-05-18
Anticipated expiration: 2038-06-04
Also published as: CN108764192A

Abstract

本发明公开了一种面向平安城市视频监控应用的多示例多标签的学习方法，本发明获取平安城市视频监控的多示例多标签数据集，挖掘这些多示例数据和多标签数据间的内在联系就可以对新的视频监控进行预测，从而判断新视频监控所在区域隐含的可能多发的治安和交通状况；本发明主要做出了两个方面的贡献，一是首次采用分层标签的策略解决标签种类众多的问题，实现了既保留了多标签的完整性又不损失标签之间关联信息的目标，二是首次将卷积神经网络引入平安城市视频监控网络，利用了卷积神经网络的优势，对示例之间的关联性进行了充分深层学习，充分挖掘了示例之间的信息。

Description

一种面向平安城市视频监控应用的多示例多标签学习方法

技术领域

本发明属于计算机科学和多示例多标签学习技术领域，涉及一种面向平安城市视频监控应用的多示例多标签的学习方法。

背景技术

构建平安城市是建设和谐社会的首要目标，实现城市交通和治安管理的完善是构建平安城市的重中之重，当前构建平安城市依然有许多问题，尚有许多可以改进的地方，如视频监控网络。现今城市视频监控网络已经成为城市管理的重要工具，然而众多的视频数据无标签，零散混乱，管理者无法从这些数据中知道城市的哪些地方交通需疏导，哪些地方治安需整治，这些本可以通过数据挖掘得到的信息却无从获取。管理者无法从数据中获取需要集中管理的区域，更加无法获取数据中的隐藏信息和关联信息从而对一些危险或动乱防患于未然，造成的结果是浪费了大量视频信息资源，也不利于城市管理和平安城市的建设，若能对城市视频监控网络信息合理处理分析利用，城市的治安和交通状况还有很大提升空间。然而目前这一领域无人涉足，没有直接可借鉴的解决方案。一个简单的解决方案是使用大量人工打标签的方式对视频信息进行处理分析，而完成这些数据的处理人工整理难度大，且数据更新快，数据量庞大，需要大量的人力物力，并且人工标记易出错，人和人之间的思维也不一致，对同一个问题可能打出不同的标签，因此人工整理无可操作性。因此合理的解决方案是使用机器自动标注的方式，既可以避免人工出错的可能性，也解放了人力物力的限制，并且随着技术和算法的进步自动标注的准确性将稳步提升。

挖掘视频数据信息一个合理自然的思路是对城市视频监控中大量视频进行人工打标签，标签的种类包括城市交通和治安的各种情形，然后对这些匹配好的数据进行训练，得到视频数据和标签之间的关联，然后对未打标签的视频数据通过这些关联关系得到其标签，从而实现打标签的目的。然而这样做的过程中会遇到两个问题，第一，视频数据信息零散混乱，图像可以使用像素作为输入进行学习，然而视频数据若用像素作为输入学习，数据的存储和计算将是巨大的挑战，并且难以抓取真正有效的信息，因此需要寻找有效的且数量有限的特征，第二，视频数据即使不转化为像素处理，也必然具备众多特征，而标签的种类也不会是单一的，视频数据的特征和视频数据的标签的关联关系是多对多的关系，一对一的问题可以使用普通的监督学习解决，多对一的问题可以使用神经网络解决，然而多对多的问题无法直接解决。

对于第一个问题，视频数据的像素特征无法利用，一个较合理的做法是使用图像处理技术进行视频信息提取，利用目标跟踪提取技术提取到大量的高层信息，而不再局限于像素这样的底层信息，而这些高层信息包括视频中可以提取到的实物信息如斑马线、树木等，也包括一些统计信息，如车流量、人流量等，目前的目标提取技术已经比较成熟，足以解决这个问题，并且每个摄像头提取到信息都是不同的，特征足够多的情况下，足以作为视频监控的特征进行分类打标签。对于第二个问题，一个可能的解决方案是标签分拆，将每个视频的多标签问题转化为单标签问题，具体方案是每个视频每次只学习一个标签，然后将所有学习到的单标签合并作为此视频的所有标签。这样强行分离标签的做法是可行且简单高效的，然而却丢失了标签之间的关联性，造成了大量信息丢失，学习效果不佳，有些标签和标签之间有很强的关联关系，容易通过标签学习得到，却难以通过视频特征得到，因此这样的退化策略可能造成某些重要的关联关系无法提取，某些标签无法学习到。因此传统的监督学习和神经网络算法不适用于平安城市视频监控打标签的问题，必须使用更合适的方法解决，而目前在这个领域还没有任何研究成果可以参考，只能借鉴其他领域比较成功的案例。

多对多的问题目前一个比较成熟的解决方案是多示例多标签学习算法，该算法的特点就是既可以学习多对多的问题，又可以尽量避免学习过程中的信息丢失以更好地学习到示例和标签之间的关联关系。在本发明研究的问题中，多示例多标签学习算法既可以学习到视频数据和标签内在的联系，也保留了视频数据的标签之间的关联关系，因此多示例多标签学习算法相比于传统的监督学习和神经网络算法更加合适处理给平安城市视频监控打标签的问题。在城市视频监控中，城市视频监控网络由一个个摄像头组成，大量的摄像头遍布整个城市，每个摄像头拍到的视频数据可能包含大量的人和物，如行人、小猫、商店等，这些事物可以看作多示例多标签学习算法的多个示例，摄像头所在的地区的治安和交通状况也可以通过交通部门和公安部门查询并人工整理得到，如偷窃、吸毒、酒驾等，这些被打上的标签可以看作多示例多标签学习算法的多个标签，因此可以先利用视频提取技术，标记出视频监控中的事物，通过训练大量的数据学习到视频监控中标记的事物和视频监控所在区域的治安和交通状况之间的联系，这样在新的区域也可以通过这样的联系预测得到该区域的治安和交通状况，给这些视频数据打上标签可以为城市治安和交通管理提供更多的信息，更好地建设平安城市，也避免了大量人力物力的浪费，因此这个课题具有重大的研究意义，此外，多示例多标签学习算法可以嵌入到平安城市视频监控应用的学习过程中，具有进一步探讨研究的价值。

一个监控摄像头可以标记到多个事物，该监控摄像头所在区域多发的治安和交通状况也对应多个种类，若要寻找这两者之间的关联，传统的监督学习已无法解决这样的问题，本发明首次将多示例多标签学习框架(Multi-instanceMulti-label Learning,MIML)引入到这样的问题中，输入空间是摄像头标记的多个事物(多示例)，输出空间是该摄像头对应区域的多种治安和交通状况(多标签)，可以很好地解决这样的问题。多示例多标签学习框架是传统的单示例单标签学习框架(监督学习)、单示例多标签学习框架(多标签学习)、多示例单标签学习框架(多示例学习)的扩展，现实生活中有许多适用于多示例多标签学习框架来解决的问题，比如一张图片可能包含多个对象区域，每个对象区域包含的事物有所不同，如包含树木、海滩、天空等，而这幅图片又可能包含多个不同的主题，如自然风光、旅游景点、天气晴朗等。多示例多标签学习框架综合考虑了输入空间和输出空间的歧义性，相较于传统的学习框架可以得到更好的学习效果。多示例多标签学习已经被广泛应用于图像标注(Zhu F et al.,2017)、文本分类(Chen S et al.,2017)、视频标注(Zhou Y etal.,2017)、自然语言处理(Feng X et al.,2017)等各个领域；本发明需要研究的问题正是一个适合多示例多标签学习框架解决的问题。

发明内容

针对传统多示例多标签学习算法难以学习到高层特征之间的内在联系和计算量太大等问题，本发明提供了一种面向平安城市视频监控应用的多示例多标签的学习方法。

本发明所采用的技术方案是：一种面向平安城市视频监控应用的多示例多标签的学习方法，其特征在于，包括以下步骤：

步骤1：获取城市监控视频，提取视频的高层信息；所述高层信息包括实物信息和统计信息；所述高层信息的数量，作为多示例数据的真值，从而映射得到的多示例数据；

步骤2：统计目标监控区域中城市治安和交通状况，并人工划定多发区域；给这些治安和交通事故多发区域的视频监控打上标签，某种治安或交通多发则标定为+1，否则为-1，这些-1和+1的标签作为多标签数据的真值，从而映射得到的多标签数据；

步骤3：获取步骤1中的高层信息和步骤2中的标签之间的对应关系；当获取高层信息所在的地理区域与标签所对应的地理区域一致时，两者有对应关系；

步骤4：制作多示例多标签数据集(X_u,Y_u)，u＝1,2,…,m；其中，X_u表示第u个摄像头的高层信息所映射得到的多示例数据，Y_u表示第u个摄像头所在区域的治安和交通信息所映射得到的多标签数据，m表示数据集元素个数；

步骤5：将标签集拆分成p个子标签集Y¹,Y²,…,Y^p，将数据集拆分成p个多示例子标签集

p表示拆分的子标签集个数；

步骤6：对每个多示例子标签集

执行以下操作；

步骤6.1：将每个多示例子标签集

转化为多示例单标签集

每个多示例数据对应的子标签集

都会转化为一个单标签

子标签集的真值范围为-1和+1，-1看做二进制的0，+1看做二进制的1，从而将子标签集转化为一个二进制串，进而得到一个十进制值，这个十进制值即为转化后的单标签；

步骤6.2：将多示例X_u映射到卷积神经网络的输入矩阵，将单标签

所有可能取值映射到卷积神经网络的输出矩阵；

步骤6.3：设计卷积神经网络，设置初始的卷积核和偏置的参数值，这些参数的初始值在tensorflow中使用一个随机函数进行初始设置；

步骤6.4：在预先制作的SCVS数据集中的训练集上使用卷积神经网络对数据进行学习训练，优化参数；卷积神经网络利用反向传播算法不断调节这些初始参数从而进行优化，获得训练好的神经网络；

步骤7：针对目标监控区域中新的监控视频，提取视频的高层信息，将这些高层信息的值映射为多示例数据，这些多示例数据作为已训练好的神经网络的输入；

步骤8：执行已经训练好的神经网络，得到监控视频对应的预测单标签；

步骤9：将预测到的单标签反向转化为多标签，并将所有的子标签合并为初始完整的标签集；

步骤10：输出该监控视频所有的预测标签。

传统的多示例多标签学习方法要么难以学习到高层特征之间的内在联系，缺乏学习能力，没有完全考虑示例、标签之间的相关性，造成精确度不够高，要么难以处理大标签的问题导致标签预测能力弱，在处理众多标签问题上计算复杂，计算难度随示例和标签数量指数增长，因此需要提出新的改进方法。本发明针对这些问题提出了一种改进的多示例多标签学习方法(Layered Convolutional Neural Network Multi-instance Multi-label Learning,MIML-LCNN)，本发明采用已经比较成熟的卷积神经网络解决示例之间的相关性学习不足的问题，比较适合处理示例众多且数据量大的情况，可以充分挖掘示例之间的相关性，就可以挖掘到高层特征之间的关联性，得到这些高层特征与特征之间的内在联系，由于可训练的数据量庞大，因此可以得到准确的预测结果；此外，本发明还采用分层标签的方法解决标签过多的问题，并且保留了标签间大部分的相关性，不会造成标签之间相关性的不足，分层标签的思路是将标签进行分层学习，先将大标签进行分解，经过不同的神经网络学习后将学习到的小标签合并得到完整的大标签，这个过程大大降低了学习过程中计算的难度且不会造成预测结果难以收敛的问题。

附图说明

图1是本发明实施例的流程示意图；

图2是本发明实施例的RBF网络陀婆结构示意图；

图3是本发明实施例的多示例数据转化为矩阵的过程示意图；

图4是本发明实施例的卷积示意图；

图5是本发明实施例的ReLU激活函数图像示意图；

图6是本发明实施例的池化示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

一座城市上百上千万的摄像头每天可以收集到大量数据，这些数据没有标签，没有描述信息，若能对这些视频监控数据打上城市交通和治安的标签，如果视频对应的区域抢劫多发，则此处的视频监控会打上抢劫的标签，那么城市管理者就可以通过这些标签进行集中治理，重点整治，还可以将一些潜在高危地区标注出来预防性处理，因此打上城市交通和治安状况的标签有助于促进城市管理和平安城市的建设。本发明首先通过成熟的视频目标追踪技术提取到了视频的众多高层信息，这些高层信息包括一些实物信息和一些统计信息，然后收集城市各地发生的交通和治安情况，给这些视频监控打上标签，然后学习这些高层信息和标签之间的关联，最后通过学到的关联信息预测新的视频监控的标签实现机器打标签的目的。为了学习到这些高层信息和标签之间的关联，本发明提出了一个改进的多示例多标签学习方法(Layered Convolutional Neural Network Multi-instance Multi-label Learning,MIML-LCNN)，旨在解决为平安城市视频监控打标签的问题。通过本发明可以学习城市视频监控和其标签之间的联系从而预测新的视频监控的标签。

在城市视频监控中，每个摄像头均可以获得大量图像和视频数据，进而可以获得许多图像信息和统计信息这样的高层信息，如花、人行道数目、车流量等(可将这些信息看作是一个摄像头的多个示例)，每个摄像头所在的区域，也可以统计到得到大量的治安和交通信息，如斗殴、吸毒、酒驾等(可将这些信息看作该摄像头的多个标签，标签的范围均是{-1,+1})，挖掘这些图像与统计信息和这些治安和交通信息之间的联系就是求解一个多示例多标签学习问题。然而，求解这个问题有两大难点，一是标签数量庞大，即大标签问题，在城市的建设中治安和交通问题种类繁多，本实验室制作的数据集中标签数量多达68个，而传统的多标签学习问题的标签数量大多不足10个；一是示例众多，传统的算法求解易造成示例与示例之间的信息丢失，本实验室制作的数据集中示例的数目有104个，示例之间的深层信息难以挖掘。针对这两个问题，本发明改进了多示例多标签学习算法，提出了分层卷积神经网络多示例多标签学习方法(以下简称MIML-LCNN方法)。

MIML-LCNN方法的整体流程如图1所示，整个方法处理的前提是获取平安城市视频监控的多示例多标签数据集，而获取此多示例多标签数据集首先需提取城市视频监控信息，进而得到所需的高层信息。视频监控信息主要是视频信息和图像信息，对这些视频和图像信息进行目标提取得到高层信息，本发明从每个视频监控中需获取的高层信息的种类数为104种，可获得104种高层信息，包括花、草、车道、日均车流量等，每种高层信息都有数据范围，比如花的数据范围是{-1,+1}，其中-1代表视频监控中可以检测到花，-1则表示检测不到，车道的数据范围是{0,1,2,3,4}，0表示视频监控中检测不到车道，1、2、3、4分别代表着检测的路段的车道数为一、二、三、四，这些高层信息的数据可以进一步映射为多示例多标签数据集的多示例部分，视频监控所在区域的治安和交通信息包括斗殴、偷窃、酒驾等，这些信息的数据范围均为{-1，+1}，-1表示该事件在该地区未发生或少发生，+1则表示该事件在该地区多发，多发和少发的标准由人为定义，这些视频监控所在区域对应的治安和交通信息则可以映射为多示例多标签数据集的多标签部分，这两部分构成了完整的平安城市视频监控的多示例多标签数据集，其中每个视频监控其高层信息映射的多示例与其所在区域的治安和交通信息映射的多标签是对应的，此数据集的大小与监控摄像头的数目是一致的。其中高层信息向多示例的映射过程如图2(a)所示，治安和交通信息向多标签的映射过程如图2(b)所示。

经过这样的映射后，就可以得到多示例多标签的训练数据集，挖掘这些多示例数据和多标签数据间的内在联系就可以对新的视频监控进行预测，新的视频监控同样提取到同样的高层信息，再将这些高层信息映射为多示例数据，通过训练数据集学习到的多示例数据和多标签数据的内在联系，就可以得到新的视频信息的多标签，从而判断新视频监控所在区域隐含的可能多发的治安和交通状况，加强管理。

MIML-LCNN方法沿用了传统的多示例多标签学习算法的解决思路，使用了退化的策略，首先将多示例多标签学习问题退化成多示例学习问题，与传统的多示例多标签学习算法不同的是MIML-LCNN方法不再继续退化，而是直接求解多示例学习问题。为了解决大标签问题，MIML-LCNN方法首次使用多标签分层的思路，将大多标签问题合理拆分为若干子标签集，然后对子标签集使用第二种多标签学习算法的改进算法将多示例多标签学习问题转化为多示例学习；为了深度挖掘示例之间关联性，MIML-LCNN采用了经典的卷积神经网络算法，卷积神经网络不仅可以深度挖掘示例之间的关联性，而且直接解决这个多示例学习问题，从而完整求解了本发明中的多示例多标签问题。值得注意的是卷积神经网络的特点是训练数据越多，求解结果越准确，而城市视频监控网络的数据是非常庞大的，足以支撑卷积神经网络训练数据，因此本发明为此采集了41392个摄像头的数据，进行了大量训练。MIML-LCNN方法的流程，具体包括以下步骤：

步骤1：获取城市监控视频，提取视频的高层信息，这些高层信息的有无多寡可以用数值表示，这些数值可以作为多示例数据的真值，从而映射得到的多示例数据；

本实施例的高层信息包括实物信息和统计信息，实物信息包括花、天桥、人行道等，统计信息包括日均人流量、车流量等；

步骤2：统计目标监控区域中城市治安和交通状况，这些统计数据来源于用于实验用途的民用城市视频监控系统，统计的数据包括火灾、吸毒、酒驾等治安和交通数据，并人工划定多发区域；给这些治安和交通事故多发区域的视频监控打上标签，某种治安和交通多发则标定为+1，否则为-1，这些-1和+1的标签作为多标签数据的真值，从而映射得到的多标签数据；

步骤3：获取步骤1中的高层信息和步骤2中的标签之间的对应关系；获取高层信息所在的地理区域与标签所对应的地理区域一致时，两者有对应关系；

p表示拆分的子标签集个数；

步骤6：对每个多示例子标签集

执行以下操作；

步骤6.1：将每个多示例子标签集

转化为多示例单标签集

每个多示例数据对应的子标签集

都会转化为一个单标签

子标签集的真值范围为-1和+1，-1看做二进制的0，+1看做二进制的1，就可以将子标签集转化为一个二进制串，进而可以得到一个十进制值，这个十进制值即为转化后的单标签；

所有可能取值映射到卷积神经网络的输出矩阵；

步骤6.4：在预先制作的SCVS数据集中的训练集上使用卷积神经网络对数据进行学习训练，优化参数，卷积神经网络利用反向传播算法可以不断调节这些初始参数从而进行优化，获得训练好的神经网络；

步骤7：针对目标监控区域中新的监控视频，提取视频的高层信息，同样将这些高层信息的值映射为多示例数据，这些多示例数据作为已训练好的神经网络的输入；

步骤10：输出该监控视频所有的预测标签。

本发明首先获取城市某区域所有的视频监控信息，并通过视频信息提取技术将所有需要的实物信息和统计信息提取出来，完成了视频监控多示例的提取，再获取所有的视频监控附近的治安和交通状况，为这些视频监控打上标签，完成了为视频监控打上多标签的任务，这样就可以制作一个多示例多标签的数据集，其中多示例多标签数据集(X_u,Y_u)中的X_u表示第u个摄像头的高层信息所映射得到的多示例数据，如图3(a)所示，Y_u表示第u个摄像头所在区域的治安和交通信息所映射得到的多标签数据，如图3(b)所示。由于标签众多，需要进一步进行标签拆分，分成若干小标签集，本发明中将标签拆分成7个小标签集，算法中p＝7，这样拆分的好处是既能容易地将多示例多标签学习转化为多示例单标签学习问题，又能减少卷积神经网络的类别数目，降低学习难度。

按照标签的分层和转化方法将标签分层后，标签被拆分成若干份，每份的标签数量较少，标签的组合情况也较少，每个标签的取值范围都是-1或+1，这样所有的标签组合构成了一个不大的标签集合，假设标签数量为G，标签的所有组合情况为2^G个，这样就变成了一个分类问题，类别总数为2^G种，每个视频监控仅对应一个类别，每个视频监控的特征即示例有许多个，这样就变成了一个适合用卷积神经网络解决的问题，适合用卷积神经网络的原因有三个，一是分类种类不多，一是训练数据量庞大，一是卷积神经网络适合深度学习示例之间的局部关联。由于分类种类不多，标签的组合情况也就不多，并且训练数据量庞大，可以保证训练效果和预测准确度，而且卷积神经网络可以有效学习示例的局部关联，那么输入的高层特征之间的关联性更容易被学习到，学习过程中可以获得更多的信息，保证学习的效果。传统的多示例多标签学习算法会选择进一步将这样的多对一的多示例学习问题退化为普通的一对一的监督学习问题，这样做的缺点是退化的过程就是信息减少的过程，不仅无法充分学习示例之间的特征，还会造成许多信息丢失导致学习效果不佳。因此本发明采用卷积神经网络的算法可以避免进一步的信息丢失，也可以充分挖掘已有信息。

对于传统的监督学习而言，示例和标签是一对一的关系，而多标签学习问题中示例和标签是一对多的关系，若直接将标签分拆为单个标签然后使用传统的监督学习算法进行解决会造成标签间关联性丢失，损耗大量有用信息造成学习不到正确的对应关系。因此需要一种好的不丢失关联性又能完整转化的退化方法。

对于从城市视频监控网络中获取的图像和统计信息即示例集合，使用X_u(u＝1,2,…,m)表示，对于摄像头区域获取的治安和交通信息即标签集合，使用Y_u(u＝1,2,…,m)表示，分拆为p个子标签集

对于任意子标签集

都包含有限个标签，标签的取值范围是{-1,+1}，因此所有的子标签集都可以转化为一组y和

的集合，y表示标签取+1，

表示标签取-1，例如初始的对应表格如表1所示。

表1简单的多示例多标签数据集

表1中，示例采用了简化的写法，每个都是示例的集合，这是一个简单的多示例多标签的数据集，可以采用简单的转化，转化为表2所示。

表2简单的多示例多标签数据集初步转化

如表2所示，所有的标签都统一为y₁,y₂,y₃,y₄的集合，则4个二进制就可以完全表示整个标签空间，包含的标签就用二进制1表示，不包含的标签就用二进制0表示，比如第一个标签集合y₁

y₄可以表示为二进制1001，经过这种方法转化后如表3所示。

表3简单的多示例多标签数据集进一步转化

对象	示例	标签
			1	X<sub>1</sub>	1001
2	X<sub>2</sub>	1010
			3	X<sub>3</sub>	0111

经过这几轮转化，多示例多标签的问题就成功转化为多示例单标签的问题，并且没有拆分标签，标签之间的关联性依然存在，对本发明中的问题依然可以采用这样的方法，然而本发明中标签的数目多达68个，意味着标签要使用68位二进制进行表示，这显然不方便表示，标签空间过大不利于后续的卷积神经网络的训练学习，因为标签空间越大表示训练需要的数据量越大，68位二进制造成的标签空间需要的数据量是无法使用人工采集得到的，这种方法无法直接适用于大标签问题，因此需要加入新的策略完成学习任务。

本发明采用了分层标签的策略对众多标签进行分拆，拆分成若干个子标签集，需要注意的是若拆分的子标签集过多，标签之间的关联性信息就会损失越多，而若拆分的子标签集过少，标签空间依然过大，后续卷积神经网络的学习效果将会很差，因此需要采用折中的策略，选择一个合适的中间值。假设将表3拆分成2个子标签集{y₁,y₂}和{y₃,y₄}，则表3可以转化为表4中的两张表，进而可以转化为表5中10进制表示，多对多向多对一的转化过程完成。

表4简单的多示例多标签数据集拆分成子标签集

表5子标签集二进制向十进制的转化

对本发明中的68个标签经过多次实验尝试，采用每个子标签集包含10个标签的分配方法进行分配，这样可以分成6组，还多余8个标签，为了让后续的神经网络可以适用所有的标签并且不用为了8个标签重新设计新的神经网络，本发明直接补两个全-1的标签，补足的这两个标签的特点是无论示例怎么变化这两个标签始终是全-1，这样也不会影响最终的实验结果，神经网络也可以重复利用。每个子标签集的示例空间用10个二进制数即可完全表示，转化为10进制即1024个数即可完全表示所有的子标签集空间，这样就完成了多示例多标签学习问题向多示例单标签问题的转化，才能满足卷积神经网络的输入和输出要求。这样转化成功之后，经过卷积神经网络的训练学习之后，每次新的摄像头的所有示例输入经过卷积神经网络预测之后就可以得到7个十进制数，进而可以得到7个10位的二进制数，即得到了70个二进制，删去补充的2个标签，就得到了68个二进制数，按照1代表标签的+1，0代表标签的-1的对应关系就可以得到所有示例的68个标签，经过这样一系列的变换，新的摄像头所在区域的治安和交通状况就可以通过本发明的方法预测得到。

本发明采用的分层标签的策略不仅可以避免大标签带来的表示困难和标签空间指数膨胀，还可以简化后续的学习过程，使得学习过程更加简单网络更易收敛学习结果更加有效。虽然在一定程度上这种策略使得标签间的关联性有一定损失，但可以通过合理的标签分拆处理，将有关联的标签分到同一组子标签集中，从而最大限度减少标签分拆过程中造成的信息丢失，相对于当前的多示例多标签学习算法的退化损失而言，这种程度的信息丢失是可以接受的，并且本发明的子标签集有10个，经过标签的原始合理分配和二次分配后可以实现更合理的分配，进而实现标签信息更少的丢失。

经过标签地分层和转化，求解多示例多标签问题变成了求解一个单纯的多示例问题，数据集变成了

示例是城市视频监控监测得到的众多图像信息和统计信息，标签是经过转化后的十进制数，本发明采用卷积神经网络学习这一多示例学习问题，将所有的示例X_u作为卷积神经网络的输入，将转化后的标签

作为卷积神经网络的输出，然后构建卷积神经网络，对示例和标签之间的联系进行深度学习，最终得到一个合适的分类器。卷积神经网络的两个优势一是局部连接，一是参数共享，仅仅只使用输入矩阵的局部区域连接可以针对性地提取局部特征，并且卷积核的使用使得参数数量大大减少，训练复杂度降低，并减轻了过拟合的现象。

对于一个包含10个标签的子标签集，需要用10位二进制来表示，也就是涵盖了1024个10进制数，也就是整个标签空间共包含1024个不同的分类，因此卷积神经网络的输出应该是一个1024维的向量(可以用1024×1的矩阵表示)，本发明制作的数据集中示例的个数为104个，示例与示例间也应有许多信息，因此本发明将示例转化为11×11的矩阵形式(需要补齐17个示例，将这17个示例的取值全取0，可以得到121个示例)，这样可以对示例进行卷积计算提取示例间的关联信息，卷积神经网络的输入就变成了11×11的矩阵，整个卷积神经网络的输入和输出问题就解决了。本发明的输入矩阵比较小，因此并不需要十分复杂的深层卷积神经网络就可以完成学习，此外虽然本发明的输出空间比较大，但是训练数据的数据量也比较大，因此依然可以达到良好学习效果。多示例数据转化为矩阵的过程如图3所示。

卷积神经网络的一般步骤是卷积->激活->池化若干次(每一次称为一层神经网络)，然后全连接，最后进行Softmax回归得到分类矩阵，然后通过使用反向传播算法求梯度进行调参，逐步优化。

卷积就是利用卷积核在输入矩阵上不断滑动(卷积核是一个小型矩阵)，并对应相乘，得到新的矩阵，如图4所示，大矩阵即为输入矩阵，卷积核为小矩阵

卷积核与最左上的3×3矩阵对应相乘得到的数值为4，填入新的矩阵中(图4(a))，然后卷积核右移一步继续对应相乘填入新的矩阵中(4(b))，最终卷积完整个矩阵后得到如图4(c)所示的右边的新矩阵，则一次卷积完成。

激活就是指使用一些激活函数引入非线性性，卷积神经网络中最常用的激活函数就是ReLU函数，当没有激活函数时增加神经网络的层数是没有意义的，ReLU函数的图像如图5所示。ReLU的优点就是收敛快，并且求梯度简单。ReLU激活函数的公式如式(1)所示，其中x指的是经卷积后得到的矩阵中的值，如3-1(c)右侧的矩阵，其中没有负数，因此此矩阵经过激活后不会变化。

f(x)＝max(0,x) (1)

池化也就是降采样，当图片经过卷积之后形成的矩阵依然太大时可以采用降采样的方法直接去除大量数据，本发明采用最大池化的方法，如图6所示，使用2×2的滤波器以步长为2进行最大池化，最左上的2×2矩阵取最大的6填入新的矩阵，向右跨过两步的矩阵最大是8填入新的矩阵，这样就可以将矩阵从4×4降为2×2，简单高效地缩小了矩阵大小。

全连接就是将卷积核的大小设置为和输入矩阵大小相同，这样经过卷积之后只能得到一个1×1的数字，然后使用T组不同的卷积核就可以得到1×T的矩阵，经过全连接之后，就可以转化为1×T的矩阵形式，与最后需要求得的输出矩阵形式一致，那么整个卷积神经网络就构造完成了。

Softmax回归是一个归一化的过程，得到了1×T的矩阵，其中的值是大小各异没有范围的，经过Softmax回归后，就可以得到1×T个范围为0到1的数值，并且这T个数的总和为1。比如本发明中神经网络的输出是一个1024×1的矩阵，在这个矩阵中的第i个值代表着标签为i的数值的取值，采用独热编码(one-hot编码)，这1024个数值中只有一个为1，其余均为0，每个数值都代表着一个标签，从0到1023，为了更加直观地表示，卷积神经网络设置的输出矩阵在第i个位置上存放标签为i的概率值，如第124个位置上的数值是0.07表示标签为123的概率为7％，最后输出概率最大的那个标签。而这个概率转化过程使用了Softmax回归，Softmax回归的方程如式4.2所示，其中的i表示输出矩阵的第i个值，j的范围是0到1023，x指的是经过卷积神经网络的计算后未被归一化的矩阵的值，x_i表示矩阵中的第i个值。

反向传播算法是通过对参数求梯度的方式进行调参的过程，最后得到的概率矩阵中最大的值和真实的标签不一致时必须对参数进行调整，而调整的过程就是使用反向传播算法对参数求梯度，参数向梯度方向上变化就可以逐步改善参数，每一轮数据训练都使得参数变得更好一点，这样经过成千上万次的训练后，参数就能适应于各种情况，当新的示例矩阵进入输入端时，经过这些参数的计算就可以得到比较正确的预测分类。需要注意的是Softmax回归得到的一维概率矩阵需要通过计算交叉熵来判断得到的矩阵的优劣，交叉熵是计算代价函数的一种计算方式，其值总是大于0的，交叉熵越小说明一维概率矩阵预测结果与真实结果越接近，预测效果越好，否则效果越差就需要进行调参使得交叉熵往小的方向改变，交叉熵相当于函数，参数相当于自变量，输入矩阵相当于常数，梯度就是自变量的切线方向，向梯度方向变化可以使得交叉熵最快得到改变，使得交叉熵更小。交叉熵的计算公式如式(3)所示，其中y表示输出矩阵给出的预测标签，y′表示已知的正确标签，i表示输出矩阵的第i项，i的范围是0到1023。

H_y′(y)＝-∑_iy_i′log(y_i) (3)

这样整个卷积神经网络的流程就十分清晰了，卷积池化全连接可以将输入矩阵转化为输出矩阵的形式，激活函数可以加入非线性性以表示覆盖更加复杂多变的情况，交叉熵就是代价函数可以评估输出矩阵的好坏，Softmax函数可以将输出矩阵概率化表示，表示意义更加明确，反向传播函数可以求解函数的梯度从而完成调参的过程，大量的训练数据使得这个过程得以不断进行，参数逐步可以覆盖更多的情形，最终可以得到一个适应绝大多数情形的参数集合，当新的输入矩阵传入时，经过已训练好的卷积神经网络就可以得到正确的标签，进而转化为具有真实意义的治安和交通状况的预测情况。

本发明中的卷积神经网络输入矩阵为11×11，第一层的卷积核选择3×3，卷积核的数目选择32个，则可以得到32个9×9的矩阵，然后进行ReLU激活，不进行池化，第二层卷积核选择5×5，卷积核数目选择256个，则可以得到256个5×5的矩阵，然后进行ReLU激活，最后进行全连接，继续采用5×5的卷积核，选择1024个卷积核，则可以得到1024个1×1的矩阵，也就是获得了1024×1的矩阵，与需要的输出矩阵大小一致，接着进行Softmax回归，就可以得到1024×1个范围为0到1的概率矩阵，接着按照上述的步骤计算交叉熵，反向传播求梯度调参，不断重复训练，优化参数，当训练精度的结果收敛时结束训练，用得到的训练参数对预先制作的SCVS数据集中的测试集进行预测，与真实结果进行比对，评估预测效果；获得训练好的神经网络。

前面将标签拆分为了7个子标签集，每个子标签集包含10个标签，因此需要训练7个卷积神经网络，网络结构完全一致，但是显然经训练后得到的参数不同，当新的示例需要进行预测时，需输入到7个训练好的卷积神经网络中，得到7个标签值，标签值的含义并不相同，然后分解为7个10位的二进制数，根据原始的对应关系，合并得到标签的所有二进制值，并去除冗余的两个标签，最终输出所有标签的真值。在测试集上进行测试时，所有的测试示例都需要经过同样的步骤，经过7个训练好的神经网络，得到7个10进制的标签值，进而得到7个10位二进制，最后得到所有的预测标签的真值，接着与这些示例实际的标签进行比较，采用一系列评估方法对算法性能进行评估。

多示例多标签问题经过将标签分拆处理并完成多标签向单标签的转化后就变成了多示例单标签问题，然后经过卷积神经网络的训练学习得到多示例和单标签之间的关系就可以实现新示例的标签预测了，也即完成了获取到新的摄像头信息后就可以直接预测到该摄像头所在区域的治安和交通状况的功能。

本发明主要做出了两个方面的贡献，一是首次采用分层标签的策略解决标签种类众多的问题，实现了既保留了多标签的完整性又不损失标签之间关联信息的目标，二是首次将卷积神经网络引入平安城市视频监控网络，利用了卷积神经网络的优势，对示例之间的关联性进行了充分深层学习，充分挖掘了示例之间的信息。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向平安城市视频监控应用的多示例多标签的学习方法，其特征在于，包括以下步骤：

p表示拆分的子标签集个数；

步骤6：对每个多示例子标签集

执行以下操作；

步骤6.1：将每个多示例子标签集

转化为多示例单标签集

每个多示例数据对应的子标签集

都会转化为一个单标签

所有可能取值映射到卷积神经网络的输出矩阵；

步骤10：输出该监控视频所有的预测标签。

2.根据权利要求1所述的面向平安城市视频监控应用的多示例多标签的学习方法，其特征在于：步骤6.3中所述卷积神经网络，卷积神经网络输入矩阵为11×11，第一层的卷积核为3×3，卷积核的数目为32个，得到32个9×9的矩阵，然后进行ReLU激活，不进行池化；第二层卷积核为5×5，卷积核数目为256个，得到256个5×5的矩阵，然后进行ReLU激活；最后进行全连接，继续采用5×5的卷积核，选择1024个卷积核，得到1024个1×1的矩阵，获得了1024×1的矩阵，与需要的输出矩阵大小一致，接着进行Softmax回归，得到1024×1个范围为0到1的概率矩阵；接着计算交叉熵，反向传播求梯度调参，不断重复训练，优化参数，当训练精度的结果收敛时结束训练，用得到的训练参数对预先制作的SCVS数据集中的测试集进行预测，与真实结果进行比对，评估预测效果；获得训练好的神经网络。