CN112732965A

CN112732965A - 基于图像描述生成的异常事件检测方法及检测系统

Info

Publication number: CN112732965A
Application number: CN201911031049.2A
Authority: CN
Inventors: 侯晓楠; 邱雪涛; 柴洪峰
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-04-30

Abstract

本发明涉及基于图像描述生成的异常事件检测方法及其检测系统。该方法包括：图像描述生成步骤，利用图像描述生成算法对输入的图像进行计算，获得对图像进行描述的标注文本；异常关键词定义步骤，根据应用场景定义用于检测异常事件的异常关键词；以及异常事件检测步骤，在所述标注文本中检测是否出现所述异常关键词，当在所述标注文本中检测到所述异常关键词的情况下，判断存在异常事件。利用本发明，能够及时发现异常事件并且通用性强。

Description

基于图像描述生成的异常事件检测方法及检测系统

技术领域

本发明涉及计算机技术，具体地涉及一种基于图像描述生成技术的异常事件检测方法及异常事件检测系统。

背景技术

目前监控中的异常检测主要还是依靠人工来监测异常。此外，随着人工智能技术的发展，涌现出一些监督、半监督的自动异常检测方法。

一般，人工监测异常的缺点：

受人为因素的影响导致异常发现不及时、甚至漏掉异常的情况；以及

需要有专人负责不间断地观看监控，因此人力成本较高。

另外，现有自动异常检测方法的缺点在于：

异常事件发生的频率很低，导致数据的收集和标注比较困难；

异常事件的稀少导致训练中的正样本远少于负样本；

方法灵活性不足，在监控场景中，不管是通常还是异常事件都是很多样且复杂的，即类别内的多样性很高，变化很严重；

方法不具有通用性，不同应用场景对异常现象的定义不同，需要根据不同场景，采集相应的数据，训练特定场景的模型。

发明内容

鉴于上述问题，本发明旨在提出一种能够及时发现异常并且通用性强的基于图像描述生成的异常事件检测方法及检测系统。

本发明一方面的基于图像描述生成的异常事件检测方法，其特征在于，包括：

异常关键词定义步骤，根据应用场景定义用于检测异常事件的异常关键词；

图像描述生成步骤，利用图像描述生成算法对被输入的图像进行计算，获得对图像进行描述的标注文本；以及

异常事件检测步骤，在所述标注文本中检测是否出现所述异常关键词，当在所述标注文本中检测到所述异常关键词的情况下，判断存在异常事件。

可选地，所述图像描述生成步骤包括下述子步骤：

提取子步骤，对被输入的图像提取图像特征得到图像特征数据；

嵌入子步骤，对所述图像特征数据进行基于词嵌入的编码得到编码数据；

卷积子步骤，对于所述编码数据进行掩膜卷积并输出词概率；以及

输出子步骤，选择所述词概率中概率最大的作为当前单词的输出。

可选地，在所述提取子步骤中，采用VGG16对输入的图像提取图像特征。

可选地，在所述提取子步骤中，采用VGG16对输入的图像提取图像特征后进一步进行随机失活、ReLU、线性层进行维度扩充。

可选地，在所述提取子步骤中在输入图像时设定开始符号。

可选地，在所述卷积子步骤，依次进行三次掩膜卷积。

可选地，在所述异常关键词定义步骤中，采用词袋方式形成用于检测异常事件的异常关键词的字典集词袋。

可选地，所述异常事件检测步骤包括下述子步骤：

将所述图像描述生成步骤中生成的标注文本的词投射到所述字典集词袋中以将所述标注文本转化成向量，其中所述字典集词袋中的每个词的序号与向量的维度对应；以及

根据每个维度上的向量的值来判断是否出现过所述异常关键词。

可选地，在所述异常关键词定义步骤中，采用分布式表示形成用于检测异常事件的异常关键词的向量表示。

可选地，在所述异常关键词定义步骤中，将每个所述异常关键词映射成一个固定的向量表示，该向量表示是构成异常关键词词库的每个词的向量表示。

可选地，所述异常事件检测步骤包括下述子步骤：

将所述图像描述生成步骤中生成的标注文本中的每一个词转换成向量表示；

计算所述标注文本的每一个词转换成的向量表示与所述异常关键词词库的每个词的向量表示之间的相似度；

通过判断相似度是否大于预先设定的阈值而来判断在所述标注文本中是否出现过所述异常关键词。

本发明的一方面的基于图像描述生成的异常事件检测系统，其特征在于，包括：

异常关键词设置模块，根据应用场景定义用于检测异常事件的异常关键词；

图像描述生成模块，利用图像描述生成算法对输入的图像进行计算，获得对图像进行描述的标注文本；以及

异常事件检测模块，在所述图像描述生成模块生成的所述标注文本中检测是否出现由所述异常关键词设置模块设置的所述异常关键词，当在所述标注文本中检测到所述异常关键词的情况下，判断存在异常事件。

可选地，所述图像描述生成模块包括下述子模块：

提取子模块，对输入的图像提取图像特征得到图像特征数据；

嵌入子模块，对所述图像特征数据进行基于词嵌入(word embeddings)的编码得到编码数据；

卷积子模块，对于所述编码数据进行掩膜卷积并输出词概率；以及

输出子模块，选择所述词概率中概率最大的作为当前单词的输出。

可选地，在所述提取子模块中，采用VGG16对输入的图像提取图像特征。

可选地，在所述异常关键词设置模块中，采用词袋方式形成用于检测异常事件的异常关键词的字典集词袋。

可选地，所述异常事件检测模块用于将所述图像描述生成模块中生成的标注文本的词投射到所述字典集词袋中以将所述标注文本转化成向量，其中所述字典集词袋中的每个词的序号与向量的维度对应，并且根据每个维度上的向量的值来判断是否出现过所述异常关键词。

可选地，在所述异常关键词设置模块中，采用分布式表示形成用于检测异常事件的异常关键词的向量表示。

可选地，在所述异常关键词设置模块中，将每个所述异常关键词映射成一个固定的向量表示，该向量表示是构成异常关键词词库的每个词的向量表示。

可选地，所述异常事件检测模块用于将所述图像描述生成模块中生成的标注文本中的每一个词转换成向量表示，计算所述标注文本的每一个词转换成的向量表示与所述异常关键词词库的每个词的向量表示之间的相似度，并且通过判断相似度是否大于预先设定的阈值而来判断在所述标注文本中是否出现过所述异常关键词。

可选地，所述提取子模块采用VGG16对输入的图像提取图像特征后进一步进行随机失活、ReLU、线性层进行维度扩充。

可选地，所述提取子模块中在输入图像时先设定开始符号。

可选地，在所述卷积子模块采用CNN模型。

本发明的计算机可读介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现上述的基于图像描述生成的异常事件检测方法。

本发明的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的基于图像描述生成的异常事件检测方法。

如上所述，根据本发明的基于图像描述生成的异常事件检测方法以及检测系统，将视频的图像转换成标注文本，通过在标注文本中检测是否出现异常关键字来发现异常事件，能够及时发现异常，并且可以大幅降低人力投入。

而且，在本发明中，通过图像描述生成给出图像的客观描述，借助图像描述生成的语义信息，针对特定场景下的异常事件对应的关键词，进行异常检测，灵活度更高并且通用性强。

附图说明

图1是表示本发明第一实施方式的基于图像描述生成的异常事件检测方法的流程示意图。

图2是表示本发明第一实施方式的图像描述生成步骤采用的图像描述生成算法中的卷积模型的一个示例示意图。

图3(a)表示在图像生成步骤中输入的图像的示例，图3(b)表示对于输入的图像利用图像描述生成算法生成的对应的标注文本的示例。

图4是表示本发明第一实施方式的基于图像描述生成的异常事件检测系统的结构框图。

图5(a)和(b)是表示实施例2的越界异常事件检测的示意图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

出于简洁和说明性目的，本文主要参考其示范实施例来描述本发明的原理。但是，本领域技术人员将容易地认识到，相同的原理可等效地应用于所有类型的基于图像描述生成的异常事件检测方法以及基于图像描述生成的异常事件检测系统，并且可以在其中实施这些相同的原理，以及任何此类变化不背离本专利申请的真实精神和范围。

而且，在下文描述中，参考了附图，这些附图图示特定的示范实施例。在不背离本发明的精神和范围的前提下可以对这些实施例进行电、机械、逻辑和结构上的更改。此外，虽然本发明的特征是结合若干实施/实施例的仅其中之一来公开的，但是如针对任何给定或可识别的功能可能是期望和/或有利的，可以将此特征与其他实施/实施例的一个或多个其他特征进行组合。因此，下文描述不应视为在限制意义上的，并且本发明的范围由所附权利要求及其等效物来定义。

诸如“具备”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

视频检测是计算机视觉领域最重要的应用之一，从视频序列中检测出异常事件有相当大的实际意义。其中，基于视频的人群异常行为检测尤为重要，这项技术对区域内人群进行检测，可以将潜在的危险事件检测出来，从而提高相关部门的响应和救援效率。

人群异常事件检测就是从监控视频中发现异于正常的事件，并发出警报。通常人群异常事件可以分为局部异常事件和全局异常事件，其中，局部异常事件是指人群中某些个体的行为异于其他个体的行为，例如步行街上的骑车、轮滑和车辆通行等。全局异常事件是指监控区域中多个个体行为异于之前群体的行为，如人群恐慌、踩踏以及道路上的群体聚集等。

图像描述生成是指针对图像的视觉内容，通过机器学习的方法自动给图像添加反应其内容的文本特征信息的过程。基本思想是:利用已标注图像集或其他可获得的信息，自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系，给未知图像添加文本异常关键词。经过图像描述生成技术的处理，图像信息问题可以转化为技术已经相对较成熟的文本信息处理问题。

因此，在本发明的主要技术构思在于：通过利用图像描述生成技术对图像(例如视频的帧)进行描述生成，得到用自然语言表示的图像内容的标注文本；然后根据不同的应用场景，设置不同的异常关键词；在标注文本中检索异常关键词，以确定是否存在异常事件。第一实施方式

如图1所示，本发明的基于图像描述生成的异常事件检测方法用于在给定的异常检查场景(即应用场景)下进行异常事件检测，包括：

步骤S100(即异常关键词定义步骤)：根据应用场景设置(或者定义)用于检测异常事件的异常关键词；

步骤S200(即图像描述生成步骤)，利用图像描述生成算法对输入的图像(例如，监控视频的帧)进行计算，获得对图像进行描述的标注文本；以及

步骤S300(即异常事件检测步骤)：在所述标注文本中检测是否存在所述异常关键词来判断是否存在异常事件，具体地，当成功检测到异常关键词的情况下(图1中“成功”的情况下)，则判断为可能出现异常事件，例如可以设置为发出提醒，当未检测到异常关键词的情况下(图1中“失败”的情况下)，则判断为未发现异常事件。

在上述说明中先说明了步骤S100再说明了步骤S200，当然本领域技术人员也可以明了的是，同样地也可以变换为先执行步骤S200再执行步骤S100，这两个步骤是分别进行的，两者之间没有先后关系。因此，在本发明中不对步骤S100和步骤S200的先后顺序进行限定。

接着，异常关键词定义步骤、图像描述生成步骤以及异常事件检测步骤的具体内容进行说明。

首先，说明图像描述生成步骤。

接着，参照图2对于图像描述生成步骤进行具体说明。

首先，图像I通过VGG16提取其特征，然后经过dropout、ReLU、线性层最终获得一个512维的图像嵌入Wi<I>(用于实现“提取子步骤”)。它与下文中的“input embedding”共同作为输入传至B层区域。

另外，在这里作为示例采用了VGG16来提取图像的特征，作为其他可替换的方式，例如还有VGG64、ResNet、Inception等，但VGG16是比较经典的模型，效果较好，参数较少，模型较为轻量级。

再者，在A层区域，<S>代表句子的开始标识符，y₁ ^*，y₂ ^*…y_N-1 ^*，表示输入的词(即指图2中的“InputWords”)。

在B层区域，进行输入词的文字嵌入(即指图2中的“Input Word Embeddings”，它用于实现“嵌入子步骤”)，在该区域接受上述的图像嵌入Wi<I>和来自A层区域的输入的词。其中，每个单词一开始是词袋(one-hot)的(A层区域)，总共9221维(因为该实施例中设定的单词集有9221个)，然后进行嵌入变成512维的向量，与RNN方法保持一致。最后，得到输入词y₁ ^*，y₂ ^*…y_N-1 ^*的文字嵌入W_ey₁ ^*，W_ey₂ ^*…W_ey_N-1 ^*。

接着，C层区域表示一个CNN模型(它用于实现“卷积子步骤”)。这个CNN模型(即，卷积神经网络模型)具有三层掩膜卷积(masked convolutions)，每一层卷积的padding都补0以保证最后输出也是512维。激活函数用的是GLU，后续过程还使用了参数归一化、dropout等。

其中，图2中的Convolutional Kemel是部分参考了LSTM(Long Short-TermMemory，长短期记忆网络)，但部分换成了掩膜卷积(即图2中的Mask部分)。为了不让卷积操作使用当前单词之后的单词，使用已掩膜卷积(masked convolutional)层来只针对“过去”的单词。就好比图中输出y_i的卷积层，它的输入只能包括y₁ ^*，y₂ ^*，后面的y₃ ^*，y₄ ^*等都不能作为它的输入。

另外，图2中的“PARALLEL CONVOLUTIONS”是指并行卷积，对所输入的词同时进行卷积操作，而不是对每个词汇顺序的进行卷积操作。

在D层区域(可以看做分类层)，O_i表示输出文字嵌入，即将W_o作用于O_i，得到输出文字嵌入特征(即图2中的“Output Word Probabilities”)W_oO₁，W_oO₂，W_oO₃…W_oO_N。在D层区域。使用的是一个线性层来将最终输出的512维向量转为256维，然后通过全连接上采样到9221维，其实就是one-hot型，再使用softmax(归一化指数函数)就可以获得单词的概率分布p(y₁)，p(y₂|y_<2 ^*)，p(y3|y_<3 ^*)…p(y_N|y_<N ^*)。

最后，在E层区域中，选择所述词概率p(y₁)，p(y₂|y_<2 ^*)，p(y3|y_<3 ^*)…p(y_N|y_<N ^*)中概率最大的作为当前单词的输出(用于实现“输出子步骤”)。

如上所述，在图2中，主要是利用VGG16提取图像的特征，然后利用imageembedding(图像嵌入)编码后输入到masked convolution(掩膜卷积)，将word embedding(文字嵌入)后按顺序一个个地传进masked convolution(掩膜卷积)，每一步都会获得一个概率分布p_i,w(y_i|I)，其中，w是参数，I是输入图像，选择这个分布中概率最大的作为当前单词的输出，一直到结束标志出现或者达到了设定的最大句长(其中，N为最大句长)。在上述内容中，模型顺序地在一个时间节点i预测一个词y_i。词y_i是从一个预先给定的词集y(这里假定包含9221个词)选定的，选取词库y中使得词库y中概率p_i,w(y_i|I)最大的y，作为y_i。

其中，图3(a)的画面中的女孩躺的床是黄色(但是由于附图只能是黑白图，所以在图3(a)中没有表示出来黄色)。

这样，如上所述，通过本发明申请的图像生成步骤能够利用图像描述生成技术对输入图像(例如视频的帧)进行描述生成，得到用自然语言表示的图像内容的标注文本。

接着，说明异常关键词定义步骤和异常事件检测步骤。

在异常关键词定义步骤中，根据应用场景，定义相应的异常关键词，以下列举几个示例。

示例1：在监控是否工作人员存在失职的场景

作为异常关键词，例如设定：“躺”、“趴”、“睡”、“倒”等。

当在监控值班室内，如果视频的语义标注文本中出现“躺”、“趴”、“睡”、“倒”等，则认为工作人员存在失职的可能，可定义为异常情况，给出提醒。

示例2：监控是否有人闯入禁止入内的场景

作为异常关键词，例如设定：“人”、“徘徊”、“攀爬”等。

对于禁止人进入的场所，如天台等，如果监控视频的语言标注文本中出现“人”、“徘徊”、“攀爬”等异常关键词，则可认为出现异常情况，需要给出提醒。

作为一个实施方式，在异常关键词定义步骤中，采用“词袋方式”形成用于检测异常事件的异常关键词的字典集词袋。

那么，在异常事件检测步骤中，将所述图像描述生成步骤中生成的标注文本的词投射到所述字典集词袋中以将所述标注文本转化成向量，其中所述字典集词袋中的每个词的序号与向量的维度对应；以及

这里，举例说明“词袋方式”。

首先，使用词袋方式(one-hot)形成一个异常关键词组成的字典集，然后将图像描述生成步骤中生成的描述文本的词投射到词袋中，对应的位置用异常关键词出现的频次填充，若没有的填充为零。

以下说明“词袋方式”的一个示例。

首先，建立如下表这样的一个词袋：

序号	词
		1	苹果
2	手机
		3	魅族
4	非常
		5	好用
6	美观
		7	完美
8	小米
		9	平板
10	薄

假设，图像描述生成步骤生成的标注文本有以下四句文本：

A：苹果/手机/非常/美观

B：苹果/手机/非常/好用

C：小米/手机/非常/好用

D:魅族/平板/非常/好用

将这四句标注文本按照上表转化为向量为：

A:[1,1,0,1,0,1,0,0,0,0]

B:[1,1,0,1,1,0,0,0,0,0]

C:[0,1,0,1,1,0,0,1,0,0]

D:[0,0,1,1,1,0,0,0,1,0]

即，词袋中每个词的序号与向量的维度对应，根据每个维度上的值来判断对应词袋中的词是否有出现过，如果数值大于0，则认为该词出现过，等于0，则该词未出现过。以上述A语句举例的话，具体的向量转化过程如下：词袋中第一个单词是“苹果”，A语句中有“苹果”一词，所以A向量的第一位就为“1”；同理，词袋中第三个单词是“魅族”，而A语句中没有“魅族”一词，所以A向量的第三位就为“0”。

利用上述“词袋方式”，可以快速将图像描述生成步骤生成的标注文本转换为向量，根据向量的值判断是否有异常关键词出现，从而检测异常。

接着，对于本发明第一实施方式的基于图像描述生成的异常事件检测系统进行说明。

如图4所示，本发明第一实施方式的基于图像描述生成的异常事件检测系统包括：

异常关键词设置模块100，根据应用场景设置用于检测异常事件的异常关键词；

图像描述生成模块200，利用图像描述生成算法对输入的图像进行计算，获得对图像进行描述的标注文本；以及

异常事件检测模块300，在所述图像描述生成模块200生成的所述标注文本中检测是否出现由所述异常关键词设置模块100设置的所述异常关键词，当在所述标注文本中检测到所述异常关键词的情况下，判断存在异常事件。

其中，图像描述生成模块200包括：

提取子模块210，对输入的图像提取图像特征得到图像特征数据；

嵌入子模块220，对所述图像特征数据进行基于词嵌入(word embeddings)的编码得到编码数据；

卷积子模块230，对于所述编码数据进行掩膜卷积并输出词概率；以及

输出子模块240，选择所述词概率中概率最大的作为当前单词的输出。

在提取子模块210中，采用VGG16对输入的图像提取图像特征。

首先，利用VGG16提取图像的特征，然后利用image embedding(图像嵌入)编码后输入到masked convolution(掩膜卷积)；将word embedding(文字嵌入)后按顺序一个个地传进masked convolution(掩膜卷积)。每一步都会获得一个概率分布p_i，w(y_i|I)(w是参数，I是输入图像)，选择这个分布中概率最大的作为当前单词的输出，一直到结束标志出现或者达到了设定的最大句长。具体与参照上文对图2的描述。

在第一实施方式中，异常关键词设置模块100中采用词袋方式形成用于检测异常事件的异常关键词的字典集词袋。

这样，异常事件检测模块300用于将所述图像描述生成模块中生成的标注文本的词投射到所述字典集词袋中以将所述标注文本转化成向量，其中所述字典集词袋中的每个词的序号与向量的维度对应，并且根据每个维度上的向量的值来判断是否出现过所述异常关键词。

在本发明第一实施方式的基于图像描述生成的异常事件检测方法以及检测系统中，将视频的图像转换成标注文本，通过在标注文本中检测是否出现异常关键字来发现异常事件，利用本发明，能够及时发现异常，并且可以大幅降低人力投入。而且可以选择多种多样的图像进行图像描述生成的训练，而不必局限于某一场景下的某种或某几种异常事件的图片，所以本发明的通用性强。再者，图像描述生成给出图像的客观描述，借助图像描述生成的语义信息，针对特定场景下的异常事件对应的关键词，进行异常检测，灵活度更高。另外，也可以使用通用的图像描述生成模型，根据具体应用场景，定制化地定义什么是异常，因此通用性更强。

第二实施方式

以上说明了本发明第一实施方式的基于图像描述生成的异常事件检测方法以及检测系统，接着，对于本发明第二实施方式的基于图像描述生成的异常事件检测方法。

本发明第二实施方式的基于图像描述生成的异常事件检测方法的流程也如图1所示那样包括：步骤S100(即异常关键词定义步骤)、步骤S200(即图像描述生成步骤)以及步骤S300(即异常事件检测步骤)。其中，步骤S200(即图像描述生成步骤)的具体内容与第一实施方式相同，步骤S100(即异常关键词定义步骤)以及步骤S200(即异常事件检测步骤)的具体内容与第一实施方式的不同。

下面，具体说明第二实施方式的异常关键词定义步骤和异常事件检测步骤。

在第二实施方式中，使用分布式表示(Distributed representation)替代“词袋方式”(one-hot)进行异常关键词定义步骤中的图像文本描述的向量表示。

具体地，在第二实施方式中的异常关键词定义步骤中，将每个异常关键词映射成一个固定的向量表示，该向量表示是构成异常关键词词库的每个词的向量表示。

接着，第二实施方式中的异常事件检测步骤包括下述子步骤：

将图像描述生成步骤中生成的标注文本中的每一个词转换成向量表示；

计算标注文本的每一个词转换成的向量表示与异常关键词词库的每个词的向量表示之间的相似度；以及

判断相似度是否大于预先设定的阈值，当相似度大于预先设定的阈值则判断在标注文本中出现过异常关键词。

其中，在本发明中，分布式表示主要构思在于，通过训练将每个词映射成一个固定长度的向量，所有这些向量就构成一个词向量空间，每一个向量可视为该空间上的一个点。此时向量长度可以自由选择，与词典规模无关，这样扩展性稿，这一点的有非常大的优势。

以[“面条”,”方便面”,”狮子”]为例，输入到分布式表示模型，“面条”对应的向量可能是[1,0,1,1,0]，而“方便面”对应的可能是[1,0,1,0,0]，而“狮子”对应的可能是[0,1,0,0,1]。这样“面条”向量乘“方便面”＝2，而“面条”向量乘“狮子”＝0。这样就体现出面条与方便面之间的关系更加紧密，而与狮子就没什么关系了。这种表示方式更精准的表现出近义词之间的关系。

在得到图像描述文本中每一个词的向量表示后，与异常关键词词库每个词的向量表示进行相似性计算，如果相似度大于某个阈值(例如将阈值设定为0.9，本发明对于阈值的数值不进行限定)，则认为标注文本与该关键词相关，判断为异常时间出现；如果标注文本与所有异常关键词的相似度均小于阈值，则判断为没有出现异常。

接着，对于本发明第二施方式的基于图像描述生成的异常事件检测系统进行说明。

本发明第二实施方式的基于图像描述生成的异常事件检测系统与第一实施方式相同地包括：图像描述生成模块、异常关键词设置模块以及异常事件检测模块。

其中，第二实施方式中的图像描述生成模块与第一实施方式中的图像描述生成模块200相同，而第二实施方式中的异常关键词设置模块以及异常事件检测模块的功能与第一实施方式的不同。

下面，具体说明第二实施方式的异常关键词设置模块和异常事件检测模块。

在所述异常关键词设置模块中，采用分布式表示形成用于检测异常事件的异常关键词的向量表示。

在第二实施方式中，在所述异常关键词设置模块中，将每个所述异常关键词映射成一个固定的向量表示，该向量表示是构成异常关键词词库的每个词的向量表示。

这样，所述异常事件检测模块用于将所述图像描述生成模块中生成的标注文本中的每一个词转换成向量表示，计算所述标注文本的每一个词转换成的向量表示与所述异常关键词词库的每个词的向量表示之间的相似度，并且通过判断相似度是否大于预先设定的阈值而来判断在所述标注文本中是否出现过所述异常关键词。

接着，对于将本发明的基于图像描述生成技术的异常事件检测方法及检测系统应用于各种不同的应用场景的实例进行说明。

实施例1：人员意外异常检测的应用场景

对人员意外倒地，斗殴等进行识别与报警，该功能的实现能一定程度上提升人员意外情况下反应的及时性。

在异常关键词定义步骤中，定义异常关键词“倒”、“趴”、“躺”、“卧”、“推”、“打”等，组成异常关键词袋，例如下表：

序号	词
		1	倒
2	趴
		3	躺
4	卧
		5	推

在图像描述生成步骤中，对于监控视频，每隔规定的帧，例如5帧，取一帧进行图像描述生成，得到该帧图像的语义描述即标注文本，该步骤的具体内容如下：

(a)原图最开始是224x224x3——经过VGG16后变成4096维——然后经过dropout(随机失活)、ReLU、线性层变成512维——维度扩充变成512x15(因为这里设定N＝15，其中，N为最大句长)；

(b)输入文本，先是给一个开始符号<S>，然后对每个词袋(one-hot)的9221维单词进行文字嵌入(word embedding)，获得512维的向量，同理因为句长为15，所以维度也扩充维512x15；

(c)把(a)、(b)的结果连接，维度是1024x15；

(d)把(c)的连接结果作为输入传至第一个掩膜卷积(masked convolution)，依次经过随机失活(dropout)、卷积、GLU、注意力机制(attention)；

(e)将(c)的结果经过线性变化后再加上(d)的结果；

(f)将(e)的结果作为第二个掩膜卷积(masked convolution)的输入，与第(d)步相似，也经过随机失活(dropout)、卷积、GLU、注意力机制(attention)；

(g)把(e)的结果直接和(f)的结果相加，并类似(f)、(g)步循环一次，最终获得512x15的向量；

(h)三层掩膜卷积(masked convolution)后，经过线性变换变成256x15维，然后利用全连接上采样到9221x15维，最终经过归一化指数函数(softmax)获得15个单词的概率分布。

这样，在图像描述生成步骤中获取的图像描述文本中检索异常关键词定义步骤中所定义的异常关键词袋。如果检测到关键词，则怀疑出现异常情况，给出异常提醒；否则，认为没有出现异常情况。

实施例2：越界异常检测的应用场景

图5(a)和(b)是表示实施例2的越界异常事件检测的示意图。

实施例2应用于越界异常事件的检测，即，识别人员或物品未经授权跨越警戒或重点区域(或自主设置的虚拟防线)并进行告警。图5(a)表示了拌线检测的示意图，图5(b)表示了穿越围栏检测的示意图。

在实施例2中，在异常关键词定义步骤中，定义异常关键词“跨越”、“穿越”、“跳越”、“进入”等，组成异常关键词袋，例如下表：

序号	词
		1	跨越
2	穿越
		3	跳越
4	进入

在图像描述生成步骤中，对于监控视频，每隔5帧，取一帧做图像描述生成，得到对该帧图像的标注文本，具体步骤与实施例1相同。

在异常检测步骤中，在由图像描述生成步骤生成的标注文本中，检索是否存在由异常关键词步骤中定义的异常关键词，如果检测到关键词，则怀疑出现异常情况，给出异常提醒，由工作人员进行进一步确认；否则，认为没有出现异常情况。

实施例3：值班状态异常检测的应用场景

实施例3是用于主动分析监控中心人员值班及工作状态，包括人员疲劳姿势、睡眠姿势、离岗超时、异常聚集等，并在异常情况下进行报警。

在异常关键词定义步骤中，定义异常关键词“趴”、“躺”、“睡”、“闭眼”等，组成异常关键词袋，例如下表：

序号	词
		1	趴
2	躺
		3	睡
4	闭眼

在图像描述生成步骤中，对于监控视频，每隔5帧，取一帧做图像描述生成，得到对该帧图像的语义描述，具体步骤如实施例1。

实施例4：刷脸支付异常检测的应用场景

如果用户在进行刷脸支付时，使用含有他人人脸的照片在刷脸摄像头前晃动，或者使用含有他人人脸的手机在刷脸摄像头前晃动，又或者用户手持面具挡住其人脸出现在刷脸摄像头前，用于行为分析的摄像头可以进行识别并进行警告。

首先，在异常关键词定义步骤中，定义异常关键词“晃动”、“照片”、“手机”、“面具”等，组成异常关键词袋，例如：

序号	词
		1	晃动
2	照片
		3	手机
4	面具

其次，在图像描述生成步骤中，对于监控视频，每隔5帧，取一帧做图像描述生成，得到对该帧图像的标注文本，具体步骤如实施例1。

接着，在异常检测步骤中，在利用图像描述生成步骤获取的标注文本中检索利用异常关键词定义步骤)定义的异常关键词。如果检测到关键词，则怀疑出现异常情况，给出异常提醒，由工作人员进行进一步确认或者增加对用户的检测项(比如要求用户配合进行语音识别等)，以确保刷脸支付的安全；否则，认为没有出现异常情况。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于图像描述生成的异常事件检测方法。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的基于图像描述生成的异常事件检测方法。

如上所述，根据本发明的基于图像描述生成的异常事件检测方法以及检测系统，将视频的图像转换成标注文本，通过在标注文本中检测是否出现异常关键字来发现异常事件，能够及时发现异常，并且可以大幅降低人力投入。而且，在本发明中，通过图像描述生成给出图像的客观描述，借助图像描述生成的语义信息，针对特定场景下的异常事件对应的关键词，进行异常检测，灵活度更高并且通用性强。

以上例子主要说明了本发明的基于图像描述生成技术的异常事件检测方法及检测系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种基于图像描述生成的异常事件检测方法，其特征在于，包括：

2.如权利要求1所述的基于图像描述生成的异常事件检测方法，其特征在于，

所述图像描述生成步骤包括下述子步骤：

3.如权利要求2所述的基于图像描述生成的异常事件检测方法，其特征在于，

在所述提取子步骤中，采用VGG16、VGG64、ResNet、Inception中的任意一种方式对输入的图像提取图像特征。

4.如权利要求2所述的基于图像描述生成的异常事件检测方法，其特征在于，

在所述提取子步骤中，对输入的图像提取图像特征后进一步进行随机失活、ReLU以及线性层进行维度扩充。

5.如权利要求2所述的基于图像描述生成的异常事件检测方法，其特征在于，

在所述提取子步骤中在输入图像时设定开始符号。

6.如权利要求2所述的基于图像描述生成的异常事件检测方法，

在所述卷积子步骤中，采用CNN模型。

7.如权利要求1所述的基于图像描述生成的异常事件检测方法，其特征在于，

在所述异常关键词定义步骤中，采用词袋方式形成用于检测异常事件的异常关键词的字典集词袋。

8.如权利要求7所述的基于图像描述生成的异常事件检测方法，其特征在于，

所述异常事件检测步骤包括下述子步骤：

9.如权利要求1或2所述的基于图像描述生成的异常事件检测方法，其特征在于，

在所述异常关键词定义步骤中，采用分布式表示形成用于检测异常事件的异常关键词的向量表示。

10.如权利要求9所述的基于图像描述生成的异常事件检测方法，其特征在于，

在所述异常关键词定义步骤中，将每个所述异常关键词映射成一个固定的向量表示，该向量表示是构成异常关键词词库的每个词的向量表示。

11.如权利要求10所述的基于图像描述生成的异常事件检测方法，其特征在于，

所述异常事件检测步骤包括下述子步骤：

计算所述标注文本的每一个词转换成的向量表示与所述异常关键词词库的每个词的向量表示之间的相似度；以及

12.一种基于图像描述生成的异常事件检测系统，其特征在于，包括：

异常关键词设置模块，用于根据应用场景定义用于检测异常事件的异常关键词；

图像描述生成模块，用于利用图像描述生成算法对输入的图像进行计算，获得对图像进行描述的标注文本；以及

异常事件检测模块，用于在所述图像描述生成模块生成的所述标注文本中检测是否出现由所述异常关键词设置模块设置的所述异常关键词，当在所述标注文本中检测到所述异常关键词的情况下，判断存在异常事件。

13.如权利要求12所述的基于图像描述生成的异常事件检测系统，其特征在于，

所述图像描述生成模块包括下述子模块：

提取子模块，用于对输入的图像提取图像特征得到图像特征数据；

嵌入子模块，用于对所述图像特征数据进行基于词嵌入（word embeddings）的编码得到编码数据；

卷积子模块，用于对于所述编码数据进行掩膜卷积并输出词概率；以及

输出子模块，用于选择所述词概率中概率最大的作为当前单词的输出。

14.如权利要求2所述的基于图像描述生成的异常事件检测系统，其特征在于，

在所述提取子模块中，采用VGG16、VGG64、ResNet、Inception中的任意一种方式对输入的图像提取图像特征。

15.如权利要求12所述的基于图像描述生成的异常事件检测系统，其特征在于，

在所述异常关键词设置模块中，采用词袋方式形成用于检测异常事件的异常关键词的字典集词袋。

16.如权利要求15所述的基于图像描述生成的异常事件检测系统，其特征在于，

所述异常事件检测模块用于将所述图像描述生成模块中生成的标注文本的词投射到所述字典集词袋中以将所述标注文本转化成向量，其中所述字典集词袋中的每个词的序号与向量的维度对应，并且根据每个维度上的向量的值来判断是否出现过所述异常关键词。

17.如权利要求12或13所述的基于图像描述生成的异常事件检测系统，其特征在于，

18.如权利要求17所述的基于图像描述生成的异常事件检测系统，其特征在于，

在所述异常关键词设置模块中，将每个所述异常关键词映射成一个固定的向量表示，该向量表示是构成异常关键词词库的每个词的向量表示。

19.如权利要求18所述的基于图像描述生成的异常事件检测系统，其特征在于，

所述异常事件检测模块用于将所述图像描述生成模块中生成的标注文本中的每一个词转换成向量表示，计算所述标注文本的每一个词转换成的向量表示与所述异常关键词词库的每个词的向量表示之间的相似度，并且通过判断相似度是否大于预先设定的阈值而来判断在所述标注文本中是否出现过所述异常关键词。

20.如权利要求13所述的基于图像描述生成的异常事件检测系统，其特征在于，

所述提取子模块对输入的图像提取图像特征后进一步进行随机失活、ReLU、线性层进行维度扩充。

21.如权利要求13所述的基于图像描述生成的异常事件检测系统，其特征在于，

所述提取子模块在输入图像时先设定开始符号。

22.如权利要求13所述的基于图像描述生成的异常事件检测系统，其特征在于，

所述卷积子模块采用CNN模型。

23.一种计算机可读介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现权利要求1~11任意一项所述的基于图像描述生成的异常事件检测方法。

24.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1~11任意一项所述的基于图像描述生成的异常事件检测方法。