CN105022835B

CN105022835B - 一种群智感知大数据公共安全识别方法及系统

Info

Publication number: CN105022835B
Application number: CN201510500666.8A
Authority: CN
Inventors: 叶登攀; 张倬胜; 卢玥锟; 张浩天; 吴荀
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2018-01-12
Anticipated expiration: 2035-08-14
Also published as: CN105022835A

Abstract

本发明公开了一种群智感知大数据公共安全识别方法及系统，本发明分为样本训练和识别两个环节。经前期对不同模态的异常数据采样后，根据声音、视频、图像、文本形式将样本分类并设置关联标记；采用对应的训练算法建立特征集，恢复样本之间的关联，建立异常检测模型。实际应用阶段，通过爬虫程序或者用户主动上传的方式获取异构检测数据源，关联分类后与检测模型进行特征匹配，若匹配决策为异常，则将相关联的数据显示出来，并提示安全异常。本发明运用大数据群智感知和多媒体深度学习的思想追踪和识别特定暴恐目标，形成一套全方位、多模态社会公共安全搜索和识别系统，弥补传统专用安防平台检测盲点和有效影音不足的现状。

Description

一种群智感知大数据公共安全识别方法及系统

技术领域

本发明属于公共安全识别技术领域，涉及一种将多模态数据训练与识别的方法及系统，特别是对涉及一种公共安全的数据进行归类识别并建立数据关联的方法及系统。

背景技术

群智感知(Crowd Sensing)主要来源于众包(Crowdsourcing)的思想，所以又称之为“众包感知”(Crowdsourced Sensing)。众包是《连线》(Wired)杂志在2006年发明的一个专业术语，用来描述一种新的分布式问题解决和工作模式，即企业利用互联网来将工作分配出去、发现创意或解决技术问题。近年来，人们将众包的思想与移动感知相结合，将普通用户的移动设备(手机、平板电脑等)作为基本感知单元，通过移动互联网进行有意识或无意识的协作，形成群智感知网络，实现感知任务分发与感知数据收集，完成大规模的、复杂的社会感知任务。

通过群智感知方法从移动终端，例如腾讯qq、微信、Facebook等各类社交网络平台的数据，包括各种图片、音频、视频和文本，具有多模态、多关联的特征。虽能用于安全检测，然而需要对多模态数据采用信息融合的方法并建立关联才能使用。

基于内容的图像检索技术(content-based image retrieval)区别于传统的基于文本的图像检索技术(text-based image retrieval)中对图像进行人工标注的做法，基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引，如色彩、纹理、形状等。图像中的人脸是图像内容的一个重要部分，往往可以作为检索图像的一个重要的线索，而且人脸作为一个整体，在图像中往往比较容易被检测定位出来。

异常声音检索是多媒体检索中的一个重要组成部分。音频相对于视频而言，具有复杂度小、成本低、高性能且能够充分保护隐私等诸多优点。目前基于内容的音频检索方法应用较为广泛，如利用语音识别技术进行音频检索。近二十年来，语音识别技术已经取得了显著进步。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。在语音识别技术中，通常采用LPC、LPCC、MFCC作为特征参数，SVM、HMM、GMM作为分类器。

目前的普遍的方法仅针对不同的类型进行检测与识别，存在单模态、功能独立的问题，缺乏一种完善的公共安全识别的方法来实现暴恐检测。公安部门对于收集到的海量数据往往会进行视频检索、图像检索等以获取相关信息。但是，由于视频数据涉及到的冗余信息较多，检索耗时较长，不能很好地达到暴恐检测、城市安防的效果。

发明内容

针对上述问题，本发明综合多种识别技术，建立数据关联，提出了一种大数据公共安全识别方法及系统。

本发明的方法所采用的技术方案是：一种群智感知大数据公共安全识别方法，其特征在于，包括以下步骤：

步骤1：人工搜集安全异常样本，所述的安全异常样本包括实例图片、视频片段、异常声音、敏感文本信息，根据来源位置及时间建立不同安全异常样本之间的关联；所述的异常声音包括枪击声、爆炸声、撞击声、尖叫声，所述的敏感文本包括敏感词汇库中的词汇；

步骤2：根据不同信息类别采用不同方法进行安全异常样本训练，建立安全异常模型；

(1)若安全异常样本为实例图片，首先进行预处理，进行尺寸变换，基于BoW模型，采用SIFT算法生成图片的特征向量，采用K-means算法进行聚类，完成图片样本的训练；

(2)若安全异常样本为视频片段，首先将视频分帧，后续采用与实例图片相同的训练方法完成各帧的训练；

(3)若安全异常样本为异常声音，首先对音频进行分割，采用MFCC算法提取39维音频特征向量，最后使用GMM模型对音频归类；

(4)若安全异常样本为文本，直接通过LCA算法检测敏感词，建立敏感词库；

步骤3：建立安全异常模型后，通过群智感知方法从移动终端后台抓取或者用户主动上传的方法获取多模态数据；

步骤4：将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联，贴上识别标签；

步骤5：根据数据类型的不同自动采用对应的特征识别、匹配的方法；其中实例图片采用K-means算法进行聚类，异常声音采用GMM模型分类匹配，文本通过LCA算法检测敏感词；

步骤6：当有新的数据传入时，重复上述步骤3～步骤5，利用卷积分解神经网络方法进行深度学习，进一步完善安全异常模型；

步骤7：决策获取的数据与安全异常样本的匹配结果，若出现偏差系统发出警告，人们对有差错的地方进行改正，不断改进安全异常模型；

步骤8：若识别出安全异常，报警并提示其相关联的其他模态数据以进行异常追踪。

作为优选，步骤4中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联，其具体关联关系为：其具体关联关系为：用户信息、视频信息与图像信息之间关联，用户信息、音频信息与文本信息之间关联，用户信息、音频信息与图像之间关联；所述的用户信息包括姓名、手机号、MAC地址、IP地址、数据编号、数据类型；所述的视频信息包括存储位置、状态、标记号、异常帧数；所述的图像包括存储位置、状态、标记号、异常位置；所述的文本信息包括存储位置、状态、标记号、异常字符串。

本发明的系统所采用的技术方案是：一种群智感知大数据公共安全识别系统，其特征在于：包括应用层、服务层、数据处理层和群智感知层；所述的应用层包括暴恐防测模块、疑犯追踪模块、大众安防模块、城市监控模块；所述的服务层包括数据存储模块、数据管理模块、数据转发模块；所述的数据处理层包括数据部分加密模块、多模态数据融合模块；所述的群智感知层包括网络爬虫模块、上传模块、监控信息获取模块；

所述的群智感知层负责通过抓取各种渠道获取的数据资源，所述的各种渠道包括网络社交平台公开数据、城市监控、用户上传，所述的数据资源包括图片、音频、视频、位置信息以及其他描述信息；

所述的数据处理层首先对群智感知层所获取的数据进行部分加密，保护涉及用户隐私范畴的数据，随后对加密后的数据进行多模态数据融合，主要服务于两大核心功能：

(1)以图搜图；结合文本信息，检索出图片数据库中，所有出现了用户所上传的疑犯人相的图片；所述的文本信息包括位置、时间、描述；

(2)视频分类；主要基于音频，结合视频的文本信息，遴选出含有犯罪、暴恐特征的片段，将对应视频归类整理；

所述的服务层主要用于接收应用层请求，并向数据处理层发出请求，实现数据传输；

所述的应用层主要用于客户端，完成暴恐监测、疑犯追踪、大众安防、城市监控任务。

本发明先从视频中提取音频，进行音频检索，从中搜索在公共场合下与暴恐等情景相关的异常声音，如：枪击声、爆炸声、撞击声、尖叫声等，若出现异常则定位异常位置，再对视频片段进行关键位置识别。同时，在识别音频时若有文字语音信息，则将语音转换为文字，对文字进行敏感词匹配。综合上述方法，实现安全检测。

本发明的有益效果是：运用大数据群智感知和多媒体深度学习的思想追踪和识别特定暴恐目标，形成一套全方位、多模态社会公共安全搜索和识别系统，弥补传统专用安防平台检测盲点和有效影音不足的现状。

附图说明

图1：本发明实施例的流程图；

图2：本发明实施例的安全异常样本训练流程图；

图3：本发明实施例的K-Means算法流程图；

图4：本发明实施例的MFCC参数提取过程图；

图5：本发明实施例的GMM训练流程图；

图6：本发明实施例的GMM识别流程图；

图7：本发明实施例的系统架构图；

图8：本发明实施例的系统功能层次图；

图9：本发明实施例的功能关联逻辑图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1和图2，本发明提供的一种群智感知大数据公共安全识别方法，包括以下步骤：

从海量视频中快速检索出实例图片，主要分成三个过程：提取图像、距离测算、图像对比。算法实现过程中，本发明使用BOW模型，主要算法为SIFT算法和K-Means算法。

BOW模型即是bag of words，Bag-of-words模型是信息检索领域常用的文档表示方法。

在信息检索中，BOW模型假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。也就是说，文档中任意一个位置出现的任何单词，都不受该文档语意影响而独立选择的。

BOW模型同样适用于图像领域，虽然SIFT特征虽然也能描述一幅图像，但是每个SIFT矢量都是128维的，而且一幅图像通常都包含成百上千个SIFT矢量，在进行相似度计算时，这个计算量是非常大的，通行的做法是用聚类算法(K-Means算法)对这些矢量数据进行聚类，然后用聚类中的一个簇代表BOW中的一个视觉词，将同一幅图像的SIFT矢量映射到视觉词序列生成码本，这样每一幅图像只用一个码本矢量来描述，通过结合SIFT算法和BOW模型大大提高了计算相似度时效率和准确性。

构建BOW码本步骤：

①假设训练集有M幅图像，对训练图象集进行预处理。包括图像增强，分割，图像统一格式，统一规格等等。

②提取SIFT特征。对每一幅图像提取SIFT特征(每一幅图像提取多少个SIFT特征不定)。每一个SIFT特征用一个128维的描述子矢量表示，假设M幅图像共提取出N个SIFT特征。

③用K-means对2中提取的N个SIFT特征进行聚类，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。聚类中心有k个(在BOW模型中聚类中心我们称它们为视觉词)，码本的长度也就为k，计算每一幅图像的每一个SIFT特征到这k个视觉词的距离，并将其映射到距离最近的视觉词中(即将该视觉词的对应词频+1)。完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。

SIFT算法思想：

①构建尺度空间；

这是一个初始化操作，尺度空间理论目的是模拟图像数据的多尺度特征。高斯卷积核是实现尺度变换的唯一线性核，于是一副二维图像的尺度空间定义为：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

其中G(x,y,σ)是尺度可变高斯函数，(x,y)是空间坐标，是尺度坐标。σ大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率)，反之，对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点，提出了高斯差分尺度空间(DOG scale-space)，由不同尺度的高斯差分核与图像卷积生成：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)

＝L(x,y,kσ)-L(x,y,σ)

②图像金字塔的建立；

建立不同尺度的图像，也称为子八度，即在任何尺度都能够有对应的特征点，第一个子八度的为原图大小，后面每个子八度为上一个子八度降采样的结果，即原图的1/4(长宽分别减半)，构成下一个子八度(高一层金字塔)

为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。

③除去不好的特征点；

通过拟和三维二次函数以精确确定关键点的位置和尺度(达到亚像素精度)，同时去除低对比度的关键点和不稳定的边缘响应点(因为DoG算子会产生较强的边缘响应)，以增强匹配稳定性、提高抗噪声能力，在这里使用近似Harris Corner检测器。

A:空间尺度函数泰勒展开式如下：对上式求导，并令其为0，得到精确的位置，得

B:已经检测到的特征点中，要去掉低对比度的特征点和不稳定的边缘响应点。去除低对比度的点：即在DoG Space的极值点处D(x)取值，可得：若该特征点就保留下来，否则丢弃。

C:边缘响应的去除；

一个定义不好的高斯差分算子的极值在横跨边缘的地方有较大的主曲率，而在垂直边缘的方向有较小的主曲率。主曲率通过一个2×2的Hessian矩阵H求出:导数由采样点相邻差估计得到。

D的主曲率和H的特征值成正比，令α为较大特征值，β为较小的特征值，则：

Tr(H)＝D_xy+D_yy＝α+β,

Det(H)＝D_xxD_yy-(D_xy)²αβ，

令α＝rβ，则

的值在两个特征值相等的时候最小，随着r的增大而增大，因此，为了检测主曲率是否在某域值r下，只需检测如果则退出。

④给特征点赋值一个128维方向参数；

上一步中确定了每幅图中的特征点，为每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

为(x,y)处梯度的模值和方向公式。其中L所用的尺度为每个关键点各自所在的尺度。至此，图像的关键点已经检测完毕，每个关键点有三个信息：位置，所处尺度、方向，由此可以确定一个SIFT特征区域。

梯度直方图的范围是0～360度，其中每10度一个柱，总共36个柱。随着距中心点越远的领域其对直方图的贡献也响应减小。要使用高斯函数对直方图进行平滑，减少突变的影响。

直方图中的峰值就是主方向，其他的达到最大值80％的方向可作为辅助方向通过对关键点周围图像区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象，具有唯一性。

⑤关键点描述子的生成；

首先将坐标轴旋转为关键点的方向，以确保旋转不变性。以关键点为中心取8×8的窗口。

计算keypoint周围的16*16的window中每一个像素的梯度，而且使用高斯下降函数降低远离中心的权重。在每个4*4的1/16象限中，通过加权梯度值加到直方图8个方向区间中的一个，计算出一个梯度方向直方图。这样就可以对每个feature形成一个4*4*8＝128维的描述子，每一维都可以表示4*4个格子中一个的scale/orientation.将这个向量归一化之后，就进一步去除了光照的影响。

K-Means算法流程，如图3所示：

①从n个数据对象任意选择k个对象作为初始聚类中心；

②循环Step 3到Step 4直到每个聚类不再发生变化为止；

③根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分；

④重新计算每个(有变化)聚类的均值(中心对象)。

一个声音识别系统主要包括训练和识别两个阶段。无论是训练还是识别，都需要对输入的原始声音进行预处理，并进行特征提取。音频特征提取是指从音频信号中获得一种能够描述音频信号特征的过程。

①预处理；

声音信号的预处理主要包括滤波、A/D转换、预加重、分帧、端点检测等，假设经A/D转换后的数字音频信号为(n)，预处理过程如下：

A:归一化处理；

归一化处理的目的是消除不同样本声音之间的大小差异，将样本幅度值限定在[一1，+1]范围内。

B:预加重；

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿音频信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

预加重通常使用具有6dB/倍频程的一阶数字滤波器来实现，如公式：H(x)＝1-μz^-1，其中μ的值介于0.9-1.0之间，通常取0.97。

②特征参数提取；

声音特征的选择取决于具体的系统，比较有代表性的特征包括幅度(或功率)、过零率、线性预测系数特征矢量(LPC)、LPC倒谱特征矢量(LPCC)、梅尔倒谱系数(MFCC)等。特征提取完成对声音信号进行分析处理，去掉与声音识别无关的冗余信息，获得影响声音识别的重要信息。由于倒频谱(cepstrum)有着能将频谱上的高低频分开的优点，因此被广泛地应用在声音识别领域，如LPCC和MFCC。MFCC参数提取过程如图4所示。

A：分帧；

虽然声音信号是非线性时变信号，但它具有短时平稳的特点，对其进行分帧可以提取其短时特性。通常取帧长为10～30ms，为了避免帧与帧之间的特性变化过大，帧移通常取帧长的1/2，即相邻帧之间有12的重叠数据。为了进行短时分析，必须通过加窗来选取窗口内的声音信号，窗口外的声音信号为0，最常用的窗El函数是汉明窗。一般取256点为一帧，帧间重叠为128点。

B：加窗；

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n)，n＝0，1…，N-1，N为帧的大小，那么乘上汉明窗后S'(n)＝S(n)×W(n)，不同的a值会产生不同的汉明窗，一般情况下a取0.46。

C：快速傅里叶变换(FFT)；

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来分析其特征参数。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对音频信号的频谱取模平方得到音频信号的功率谱。设音频信号的DFT为：

其中x(n)为输入的音频信号，N为傅里叶变换的点数。

D：三角窗滤波；

三角窗滤波对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。

对能量谱依照Mel尺度的三角形滤波器组做卷积。定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m)，m＝1，2，...，M，M通常取20-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

三角窗滤波的频率响应定义为：

E：对数运算；

每个滤波组输出的对数能量为

F：离散余弦变换(DCT)；

将上述的对数能量带入离散余弦变换，求出L阶的MFCC。L阶指MFCC系数阶数，通常取12-16。本模块选取L＝12，得到12阶MFCC，

③短时能量；

音频信号的能量随着时间变化比较明显，音频信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于音频信号毛x_t(τ)，短时能量：其中：(En)_t为第t帧的短时能量；τ为一帧内的样本点；L为帧长，本文取256。

MFCC系数与短时能量混合得到的特征矢量记为MFCC_M。特征矢量的排列顺序是将短时能量(En)_t。作为MFCC_M特征矢虽的第1维，将原始MFCC的12维作为特征矢量MFCC_M的第2维到第13维。

④GMM；

利用特征提取环节得到MFCC是一个13维的向量，如果不考虑准确度，可以直接将其作为输入用于构建分类器。为了提高分类准确度，本发明将得到13维向量，作为特征输入构建分类器。普遍采用的分类器有支持向量机(Support Vector Machine，SVM)。、隐马尔科夫模型(Hidden MarkovModel，HMM)IS]和高斯混合型(Gaussian Mixture Model，GMM)等。

GMM本质上是一种基于参数估计的多维概率统计模型，它认为每一种声音的特征在特征空间中都形成特定的分布，并且可以用多个高斯分布组合对它的特征分布进行拟合。不同参数的高斯分布组合可以用来表征不同的声音，即每种声音的特征参数对应一个GMM。本方法所用GMM训练过程如图5所示。

训练过程是采用从训练样本中提取的特征矢量的方法来训练GMM，对于有5种声音的异常声音识别系统，每种声音用一个GMM来代表，得到5种声音的模型参数。最终得到描述每种声音的整个GMM的三元式：λ＝{P_i，μ_i，ε_i}；i＝1,2,3,…,N，其中：Pi为混合分量的权值；μ_i为均值矢量；ε_i为协方差矩阵；N为混合阶数。

识别过程如图6所示，识别过程是采用从测试样本中提取的特征矢量，结合GMM分类器，通过求取后验概率的最大值得到每类单个测试样本的识别结果，最后将每一类所有测试样本的识别结果相加，求出每类声音的总体识别率。

请见图7，经前期对不同模态的异常数据采样后，根据声音、视频、图像、文本形式将样本分类并设置关联标记，其具体关联关系为：用户信息、视频信息与图像信息之间关联，用户信息、音频信息与文本信息之间关联，用户信息、音频信息与图像之间关联；所述的用户信息包括姓名、手机号、MAC地址、IP地址、数据编号、数据类型；所述的视频信息包括存储位置、状态、标记号、异常帧数；所述的图像包括存储位置、状态、标记号、异常位置；所述的文本信息包括存储位置、状态、标记号、异常字符串。

请见图8和图9，本发明提供的一种群智感知大数据公共安全识别系统，其特征在于：包括应用层、服务层、数据处理层和群智感知层；应用层包括暴恐防测模块、疑犯追踪模块、大众安防模块、城市监控模块；服务层包括数据存储模块、数据管理模块、数据转发模块；数据处理层包括数据部分加密模块、多模态数据融合模块；群智感知层包括网络爬虫模块、上传模块、监控信息获取模块；

群智感知层负责通过抓取各种渠道获取的数据资源，各种渠道包括网络社交平台公开数据、城市监控、用户上传，数据资源包括图片、音频、视频、位置信息以及其他描述信息；

数据处理层首先对群智感知层所获取的数据进行部分加密，保护涉及用户隐私范畴的数据，随后对加密后的数据进行多模态数据融合，主要服务于两大核心功能：

(1)以图搜图；结合文本信息，检索出图片数据库中，所有出现了用户所上传的疑犯人相的图片；文本信息包括位置、时间、描述；

服务层主要用于接收应用层请求，并向数据处理层发出请求，实现数据传输；

应用层主要用于客户端，完成暴恐监测、疑犯追踪、大众安防、城市监控任务。

本发明分为样本训练和识别两个环节。经前期对不同模态的异常数据采样后，根据声音、视频、图像、文本形式将样本分类并设置关联标记；采用对应的训练算法建立特征集，恢复样本之间的关联，建立异常检测模型。

实际应用阶段，通过爬虫程序或者用户主动上传的方式获取异构检测数据源，关联分类后与检测模型进行特征匹配，若匹配决策为异常，则将相关联的数据显示出来，并提示安全异常。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种群智感知大数据公共安全识别方法，其特征在于，包括以下步骤：

（1）若安全异常样本为实例图片，首先进行预处理，进行尺寸变换，基于BoW模型，采用SIFT算法生成图片的特征向量，采用K-means算法进行聚类，完成图片样本的训练；

（2）若安全异常样本为视频片段，首先将视频分帧，后续采用与实例图片相同的训练方法完成各帧的训练；

（3）若安全异常样本为异常声音，首先对音频进行分割，采用MFCC算法提取39维音频特征向量，最后使用GMM模型对音频归类；

（4）若安全异常样本为文本，直接通过LCA算法检测敏感词，建立敏感词库；

步骤6：当有新的数据传入时，重复上述步骤3~步骤5，利用卷积分解神经网络方法进行深度学习，进一步完善安全异常模型；

2.根据权利要求1所述的群智感知大数据公共安全识别方法，其特征在于：步骤4中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联，其具体关联关系为：用户信息、视频信息与图像信息之间关联，用户信息、音频信息与文本信息之间关联，用户信息、音频信息与图像信息之间关联；所述的用户信息包括姓名、手机号、MAC地址、IP地址、数据编号、数据类型；所述的视频信息包括存储位置、状态、标记号、异常帧数；所述的图像信息包括存储位置、状态、标记号、异常位置；所述的文本信息包括存储位置、状态、标记号、异常字符串。

3.一种群智感知大数据公共安全识别系统，其特征在于：包括应用层、服务层、数据处理层和群智感知层；所述的应用层包括暴恐防测模块、疑犯追踪模块、大众安防模块、城市监控模块；所述的服务层包括数据存储模块、数据管理模块、数据转发模块；所述的数据处理层包括数据部分加密模块、多模态数据融合模块；所述的群智感知层包括网络爬虫模块、上传模块、监控信息获取模块；

（1）以图搜图；结合文本信息，检索出图片数据库中，所有出现了用户所上传的疑犯人相的图片；所述的文本信息包括位置、时间、描述；

（2）视频分类；主要基于音频，结合视频的文本信息，遴选出含有犯罪、暴恐特征的片段，将对应视频归类整理；