CN113850109A

CN113850109A - 一种基于注意力机制和自然语言处理的视频图像告警方法

Info

Publication number: CN113850109A
Application number: CN202110224481.4A
Authority: CN
Inventors: 李鸣秋; 杭云
Original assignee: Tianyi Smart Family Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-12-28

Abstract

本发明涉及一种基于注意力机制和自然语言处理的视频图像告警方法。该方法利用注意力机制模型对监控画面的主要信息进行提取分析，再通过自然语言处理中的LSTM方法对监控中变化的画面的重要信息生成精准的图像描述，同时根据描述利用机器学习分类方法对危险情况与等级进行判定，最终将准确具体有用的告警信息推送给用户，为用户更好地起到安全防控的作用。

Description

一种基于注意力机制和自然语言处理的视频图像告警方法

技术领域

本发明涉及图像识别领域，主要涉及用于视频图像告警的方法和系统。

背景技术

摄像头视频监控技术目前已经应用在各项安全领域，视频技术也已经成为继刑事科学技术、行动技术、网络侦查技术之后的第四大侦查技术领域。

视频监控摄像机的发展，是由最初的闭路电视监控系统即第一代模拟电视监控系统到后来半数字时代的基于PC机插卡式的视频监控系统，最后进入到现在的以嵌入式技术为依托，以网络、通信技术为平台，以智能图像分析为特色的网络视频监控系统为主的数字时代。

由于机器学习和人工智能技术的发展和不断进步，智能视频监控技术的应用也越来越普遍。目前的智能视频分析技术主要针对实时的视频图像进行分析，以达到预警的作用。所以，如何更好地对数据进行更好的挖掘、利用与分析是我们目前需要重点思考的方向。

但是如今的监控摄像头的告警功能，只是对于画面产生变化以及检测到有人形移动时提出告警。这种告警机制没有内容分析和智能判别模式，发出的警告不能对于具体发生的情况给予准确的描述并判定其危险程度。同时它也存在着对于一些无关紧要的情况也会发出警告，告警信息繁多单一同时无法抓住重点信息的情况。这导致用户虽然收到的信息数量多，但只是单纯的告知，并且大多数是没有用的信息。所以监控摄像头无法起到准时，准确地为用户告警的作用。

因此，需要一种技术来将准确、具体且有用的告警信息推送给用户，为用户更好地起到安全防控的作用。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

根据本发明的一个实施例，本发明整体为编码、解码和反馈三个部分。在编码过程中，首先对摄像头监控变化画面进行获取，然后利用卷积神经网络(CNN)对获取的图像进行特征提取，对提取的特征向量用注意力机制模型赋予其不同的权重，细化其不同。在解码过程中，将赋予了不同权重的特征向量送入长短期记忆(LSTM)网络生成图像描述，由于加入了注意力机制，此时生成的图像描述为整张图片的重要主体部分。在反馈过程中，生成的图像描述会进行分类处理，划分不同的危险等级向用户报送，由于系统增加了反馈机制，所以用户方收到信息后需要确认危险等级，向系统反馈。这个反馈机制会动态增加模型训练的数据，不断更新数据库，增强模型训练的效果。

根据本发明的一个实施例，公开了一种用于视频监控图像报警的系统，包括：触发模块，触发模块被配置成提取指定时间段内连续图像，对所提取的连续图像进行像素点融合，以生成单个经像素点融合的图像；编码器，编码器被配置为对于单个经像素点融合的图像进行卷积神经网络CNN编码，以获得表示单个经像素点融合的图像的特征的特征向量；包括注意力机制模块和解码模块的解码器，其中注意力机制模块被配置成采用注意力机制，向特征向量中的每个特征赋予不同的注意力权值，其中每个特征代表单个经像素点融合的图像中的一个区域；解码模块，解码模块被配置为使用循环神经网络RNN，根据经注意力机制加权后的特征向量来逐字生成图像场景描述；分类判别模块，分类判别模块被配置成利用分类模型对图像场景描述进行危险等级分类判别；以及反馈模块，反馈模块被配置成将基于危险等级的告警信息传送到用户，并接收来自用户的反馈信息。

根据本发明的另一个实施例，提供了一种用于视频监控图像报警的方法，包括：提取指定时间段内的连续图像以进行像素点融合，从而生成单个经像素点融合的图像；对单个经像素点融合的图像进行编码，以获得表示单个经像素点融合的图像的特征的特征向量；采用注意力机制，向特征向量中的每个特征赋予不同的注意力权值，其中每个特征代表单个经像素点融合的图像中的一个区域；基于经注意力机制加权的特征向量来生成图像场景描述；利用分类模型对图像场景描述进行危险等级分类判别；将基于危险等级的告警信息传送到用户。

根据本发明的还一个实施例，提供了一种用于视频监控图像报警的计算设备，包括：处理器；存储器，存储器存储有指令，指令在被处理器执行时能执行上述方法。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的用于视频监控图像报警的系统100的框图；

图2示出了不采用注意力机制的编码器-解码器框架201和采用注意力机制的编码器-解码器框架202的示意图；

图3示出了Attention(注意力)机制的示意图；

图4示出了根据本发明的一个实施例的解码模块105基于特征向量来生成图像场景描述的示例；

图5示出了根据本发明的一个实施例的分类判别模块106的工作流程示意图；

图6示出了根据本发明的一个实施例的反馈模块107的工作流程示意图；

图7示出了根据本发明的一个实施例用于视频监控图像报警的方法700的流程图；以及

图8示出了根据本发明的一个实施例的示例性计算设备的框图800。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

如上文提出的，在现有技术中，摄像头监控报警系统存在以下问题：如今视频监控告警方法产生的信息繁多单一，无法抓住重要部分；生成的告警信息没有融合动态场景，且没有贴合实际的具体描述；对危险情况没有进行贴合用户的智能分类判别。

针对上述提出的摄像头监控报警系统所存在的一些问题，本发明提出了一种基于深度学习中注意力机制模型和自然语言处理的视频图像告警方法，利用注意力机制模型对监控画面的主要信息进行提取分析，再通过自然语言处理中的LSTM方法对监控中变化的画面的重要信息生成精准的图像描述，并对危险等级进行判定，最终将准确且对用户而言有用的告警信息推送给用户，为用户更好地起到安全防控的作用。本发明采取场景图像描述的方法产生告警信息，比单纯感知画面变动，检测人形更加的人性化且准确度高。可以满足大数据情况下，对视频信息的精准分析，弥补了之前告警信息不准确以及单一的不足之处。

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。所以，深度学习中的注意力机制借鉴人类的注意力思维模式，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。在本发明中，在利用深度学习对视频监控图像的特征提取的过程中加入注意力机制，尽可能的抽取对安全防护有关的，对人们更有用的信息。

图1示出了根据本发明的一个实施例的用于视频监控图像报警的系统100的框图。如图1中示出的，该系统100按模块进行划分，各模块之间通过本领域已知的方式进行通信和数据交换。在本发明中，各模块可通过软件或硬件或其组合的方式来实现。该系统100可包括触发模块101，编码器102，解码器103(包括注意力机制模块104，解码模块105)，分类判别模块106和反馈模块107。

总体而言，参考图1，在本发明中，在监控设备检测到画面发生变动时，通过监控设备中的触发模块101将一段时间内的图片像素点融合到一张图像上。之后，触发模块101将该单张图像传入编码器102，编码器102对接收到的图像进行CNN编码，以得到特征向量。编码器102将得到的特征向量传入解码器103。解码器103中的注意力机制模块104赋予特征向量不同的权重，以区分每个特征的不同重要性。解码器103中的解码模块105根据被赋予不同权重的特征向量来逐字生成图像场景描述。解码器103将生成的图像场景描述传入分类判别模块106，由此将生成的场景图像描述分为不同的危险等级。分类判别模块106将划分的危险等级传递到反馈模块107，反馈模块107将该危险等级传送给用户，并向用户提示需要反馈。由此，用户在接收到告警提示后，会根据提示反馈收到信息的正确程度，这个信息会被存入训练模型的数据库中，继续增强模型训练。

本领域的技术人员可知，本发明中的监控设备一般指智能家居领域中所涉及的看家摄像头，智慧城市领域中所涉及的监控探头，以及一般安装在公共场所起到监控作用的摄像设备。此种监控设备能对场景进行拍照、摄像，并将获取的图像数据存储在本机进行后续处理或将数据发送到远程设备(例如，智能家居控制平台、中央控制平台、其他计算设备等)进行处理。本文并未对监控设备与远程设备之间的连接和通信方式进行限制，而是认为可采用本领域已知的各种方式来进行。

根据本发明的一个实施例，触发模块101被实现在监控设备中，而编码器102，解码器103，分类判别模块106和反馈模块107被实现在远程设备上。根据本发明的另一个实施例，触发模块101，编码器102，解码器103，分类判别模块106和反馈模块107均被实现在监控设备中。

下面来参考附图进一步介绍系统100。

根据本发明的一个实施例，当监控设备检测到画面变动时，激发触发模块101启动。触发模块101被配置成提取连续图像，对所提取的连续图像进行像素点融合，以得到单个经像素点融合的图像。

在实践中，单凭某一个时刻获取的实时视频图像并不能十分准确地描绘图像中的对象以及该对象的具体行为，因此，较为理想的，需要多个连续时刻的图像数据的融合来描述该对象或该对象的具体行为。图像融合是将2张或2张以上的图像信息融合到1张图像上，使得融合的图像含有更多的信息、能够更方便人来观察或者计算机处理。图像融合的目标是将相关信息最大合并的基础上减少输出的不确定度和冗余度。图像融合的优点很明显，它能扩大图像所含有的时间空间信息，减少不确定性，增加可靠性，改进系统的鲁棒性能。像素级融合中有空间域算法和变换域算法，空间域算法中又有多种融合规则方法，如逻辑滤波法，灰度加权平均法，对比调制法等；变换域中又有金字塔分解融合法，小波变换法。在得到的融合图像中，每一个像素都是由几个源图像所对应的区域决定而得。

根据本发明的一个实施例，该连续图像可以是指定时间段内所获取的一系列图像。指定时间段可以根据实际需求被预先设定，例如0.1秒，0.5秒，1秒、2秒等。

举例而言，当监控设备监控到画面出现变动时，监控设备会对变动的像素点进行坐标定位，并根据所定位的坐标来转动监控设备，使抓取的画面变动方位位于画面中心，避免缺少信息。同时，监控设备中的触发模块101启动，并在指定时间段内连续抓取视频监控图像，把图像的像素点合成在一张图片上，进行特征融合，得到最终包含该指定时间段场景信息的图片。由此，通过利用像素点的融合，可以将动态场景的图像特征集中在单个静态图像中，方便后续对图像进行特征提取。

触发模块101被进一步配置为将生成的经像素点融合的图像传送到编码器102。编码器102被配置为对于获取的图像进行CNN编码，由此获得特征向量。

根据本发明的一个实施例，触发模块101生成的经像素点融合的图像是大小为(3*H*W)的三通道彩色图像，其中3代表三通道，H代表图像的高，W代表图像的宽。送入编码器102的卷积核为(3*3*3)的卷积神经网络CNN中的Resnet残差网络进行训练，同时在边界进行补零操作。本领域的技术人员可以理解，普通直连的卷积神经网络和Resnet的最大区别在于，Resnet有很多旁路的支线将输入直接连到后面的层，使得后面的层可以直接学习残差。传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题。Resnet在某种程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化学习目标和难度。

根据本发明的一个实施例，Resnet网络编码的结果是由2048个通道大小为14*14的图像组成，模型参数通过迁移学习获得。最终在Resnet的输出层得到图像每个区域的特征向量h。特征向量h中包含图像所表示的信息，并且向量维度为(2048，14，14)。

编码器102被进一步配置为将上述经过卷积神经网络提取的特征向量传送到解码器103。解码器103包括注意力机制模块104和解码模块105。解码器103被配置为结合注意力机制和循环神经网络(RNN)，使用注意力机制对接收到的特征向量进行注意力加权，并基于经注意力机制加权后的特征向量来生成图像场景描述。

根据本发明的一个实施例，解码器103中的注意力机制模块104被配置成采用注意力机制，向特征向量中的每个特征赋予不同的注意力权值，从而强调不同特征的重要性。由于特征向量中的一个特征代表图像的一个区域，从而通过加权，可以更加突出图像中的哪个/些区域更加重要。

参考图2，其示出了不采用注意力机制的编码器-解码器框架201和采用注意力机制的编码器-解码器框架202的示意图。在图2中，假设框架201和202的输入是一副图片，编码器会对图片进行特征提取，并将特征向量传送到解码器，解码器会使用RNN或LSTM来输出能够描述图片语义内容的自然语言句子。在201中，提供给解码器的每个特征输入(例如，特征向量中的每个特征)对于解码器所产生的自然语言句子的作用是相同的。例如，特征输入1和特征输入2对解码器所产生的自然语言句子的作用相同。而在202中，由于加入了注意力机制，特征向量在被提供给解码器之前，每个特征会被赋予的不同权重(例如，特征输入1被赋予权重1，特征输入2被赋予权重2)，从而在解码器所产生的自然语言句子中起到不同的作用。注意力机制在这里起到了类似人类视觉选择性注意的作用，在输出某个实体单词的时候会将注意力焦点聚焦在图片中相应的区域上。

如果把Attention(注意力)机制从编码器-解码器框架中剥离，并进一步做抽象，可以参考图3来看待Attention机制。将Source(源)中的构成元素想象成是由一系列的<Key(键),Value(值)>数据对构成，此时给定Target(目标)中的某个元素Query(查询)，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention Value(注意力值)。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。即可以将其本质思想改写为如下公式：

其中，Lx＝||Source||，代表Source的长度，公式含义即如上所述。训练注意力权重的系数的过程是将输入信息的构成元素想象成由一系列的<Key,Value>数据对构成，注意力机制的实质其实就是一个寻址(addressing)的过程，给定一个和任务相关的查询Query向量q，通过计算与Key的注意力分布并附加在Value上，从而计算注意力权重。至于Attention机制的具体计算过程，如果对目前大多数方法进行抽象的话，可以将其归纳为两个过程：第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。而第一个过程又可以细分为两个阶段：第一个阶段根据Query和Key计算两者的相似性或者相关性；第二个阶段对第一阶段的原始分值进行归一化处理。

解码模块105被配置成在注意力机制模块104生成经注意力机制加权后的特征向量后，使用循环神经网络(RNN)，根据经注意力机制加权后的特征向量来逐字生成图像场景描述。

根据本发明的一个实施例，解码模块105选用的RNN类型为LSTM，这是因为LSTM可以避免传统RNN算法所带来的梯度消失和梯度爆炸，拥有更好的处理序列问题的性能，此时生成的描述语言更具逻辑性与贴合现实性。此时，送入LSTM的特征向量生成第一个单词后，将该单词作为输入生成下一个单词。

参考图4，示出了根据本发明的一个实施例的解码模块105基于特征向量来生成图像场景描述的示例。其中V表示输入，X表示未加权之前的输入，S表示存储，O表示输出。可以看到，前一次的输出作为下一次的输入，由此来得到图像场景描述。

一般而言，在解码器不使用注意力机制的情况，解码器的算法流程是：首先对编码图像所有像素进行平均，得到2048×1的向量，然后无论对该向量是否进行线性变换，都可以将其作为第一个隐藏状态输入解码器，生成第一个单词，并用该单词作为输入生成下一个单词。若解码器使用注意力机制，那么解码器在生成单词时，需要考虑该单词最相关的图像部分。解码器的输入是前一个RNN单元的输出隐藏层，上一个单词的嵌入向量和注意力机制生成的权重图像，由此需要将嵌入向量和注意力机制拼接成一个向量作为输入，来生成下一个单词。

解码器103被进一步配置成将生成的图像场景描述传送到分类判别模块106。分类判别模块106被配置成利用分类模型对图像场景描述进行危险等级分类判别。根据本发明的一个实施例，分类模型是被SVM支持向量机所训练的。支持向量机是一个利用划分超平面进行分类的模型，它可使在低维空间中线性不可分的数据映射到高维空间从而使数据线性可分，达到分类的效果。图像场景描述语句在进行分词和TF-IDF词语向量化的过程后，经过分类模型训练可以分为不同的危险等级，从而对用户进行告警提示。

参见图5，示出了根据本发明的一个实施例的分类判别模块106的工作流程示意图。例如，对于“一个男人正在扔棒球”这个图像场景描述，可以输出“高”、“中”、“低”中的一个危险等级。根据本发明的一个实施例，危险等级的具体分类可根据实际场景调整，在图5的示意中为高中低三种，但是完全可以采用其他类型的分类和其他数量的分类等级。

分类判别模块106被进一步配置成将生成的危险等级传送到反馈模块107。根据本发明的一个实施例，分类判别模块106可被配置为将危险等级与图像场景描述一起发送到反馈模块107。例如，参考图5的示例，分类判别模块106可将“一个男人正在扔棒球”以及“高危险等级”的描述传送到反馈模块107。

图6示出了根据本发明的一个实施例的反馈模块107的工作流程示意图。反馈模块107被配置成将告警信息传送到用户，并接收来自用户的反馈信息。根据本发明的一个实施例，告警信息可包括接收到的危险等级、图像场景描述以及触发模块102生成的单个经像素点融合的图像。根据本发明的一个实施例，触发模块102生成的单个经像素点融合的图像可被存储或高速缓存，以供后续反馈模块107的抓取。

根据本发明的又一个实施例，告警信息被传送到与用户相关联的设备，例如，用户的移动计算设备或用户指定的其他设备。与用户相关联的设备可被预先绑定到监控设备或远程设备，以进行信息的收发。本领域的技术人员完全可知，可有多种通信方式将信息从反馈模块107传送到用户的计算设备以及将信息从用户的计算设备传送到反馈模块107，本发明在此不做任何限制。例如，告警信息可以文本消息(短消息服务)、即时通讯、电话、电子邮件等方式被传送给用户。

根据本发明的又一个实施例，反馈模块107被配置成在将告警信息传送到用户时，同时向用户传送反馈提示(例如，“请确认当前危险等级是否正确”等)，以提示用户在接收到告警信息后来反馈该信息的正确程度。反馈模块107在接收到来自用户的反馈信息后，可将该反馈信息存入分类模型的数据库中，以进行训练，从而强化模型的分类判别能力。

图7示出了根据本发明的一个实施例用于视频监控图像报警的方法700的流程图。该方法基于深度学习中注意力机制模型以及自然语言处理。

在步骤701，提取指定时间段内的连续图像进行像素点融合，以得到单个经像素点融合的图像。根据本发明的一个实施例，当监控设备检测到实时画面有变动时，触发提取连续图像。例如，监控设备检测到在实时画面中一个男人正在挥舞球棒，由此判断检测到画面变动，并转动摄像头，以跟踪画面。根据本发明的又一个实施例，该指定时间段可由用户预先确定或被由厂家预先设定。

在步骤702，对单个经像素点融合的图像进行编码，以得到表示图像特征的特征向量。根据本发明的一个实施例，该特征向量为由ResNet网络编码的特征向量，向量维度为(2048，14，14)。

在步骤703，采用注意力机制对特征向量赋予不同的注意力权重。根据本发明的一个实施例，通过注意力机制，特征向量中的每个特征被赋予不同的注意力权重，由此对图像中的重要信息进行强调。

在步骤704，基于经注意力机制加权的特征向量来生成图像场景描述。根据本发明的一个实施例，使用LSTM来生成图像描述。其中，特征向量中具有更高注意力权重的特征所代表的图像区域，在所生成的图像场景描述中起到更多的作用，使得生成的图像场景描述更加关注于图像中的主要信息。

在步骤705，利用分类模型对图像场景描述进行危险等级分类判别。根据本发明的一个实施例，在机器学习的SVM训练分类模型时，可分为高、中、低三个告警等级进行分类。

在步骤706，将告警信息传送到用户。根据本发明的一个是实施例，告警信息被传送到与用户相关联的设备。根据本发明的一个实施例，告警信息可包括危险等级分类以及图像场景描述。根据本发明的又一个实施例，告警信息可包括危险等级分类、图像场景描述以及步骤702得到的单个经像素点融合的图像。根据本发明的另一个实施例，告警信息可与提示用户对告警信息的准确性进行确认的反馈提示一起被传送。

在步骤707，接收来自用户的对告警信息的反馈信息。例如，反馈信息可包括用户对该告警信息的“确认正确”反馈，“确认不正确”反馈等。本领域的技术人员可根据实际应用需要来设计不同的提示消息和反馈信息。

在步骤708，存储该反馈信息并将该反馈信息送入分类模型进行训练，强化分类模型的分类判别能力。

综上，本发明和现有技术相比，主要优势在于：1.优化了监控设备对图像监测的告警功能，对动态画面的信息捕捉地更加迅速全面，例如利用像素点的融合，将动态场景的图像特征集中在静态图像中，方便后续对图像进行特征提取；2.向用户发送的告警信息更准确，对于所发生场景的描述更细致，更能抓住重点，例如引进注意力机制模型关注图像重要信息，对无关的干扰信息进行排除；3.技术不是只关注图像识别本身的告警，采用了图像与语言文字相结合的场景识别告警方法；4.增加告警分类和反馈机制，例如采用文本分类方法，对告警信息进行智能识别和判断，对于根据图像所产生的描述进行危险等级分类，如高、中、低等，用户接收后也会给监控系统一个反馈，增强训练。

图8示出了根据本发明的一个实施例的示例性计算设备的框图800，该计算设备是可应用于本发明的各方面的硬件设备的一个示例。例如，上文提及的监控设备、远程设备、与用户相关联的计算设备均可被实现为图8中的计算设备。计算设备800可以是可被配置成用于实现处理和/或计算的任何机器，可以是但并不局限于工作站、服务器、桌面型计算机、膝上型计算机、平板计算机、个人数字处理、智能手机、车载计算机或者它们的任何组合。计算设备800可包括可经由一个或多个接口和总线802连接或通信的组件。例如，计算设备800可包括总线802、一个或多个处理器804、一个或多个输入设备806以及一个或多个输出设备808。该一个或多个处理器504可以是任何类型的处理器并且可包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如，专门的处理芯片)。输入设备806可以是任何类型的能够向计算设备输入信息的设备并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备808可以是任何类型的能够呈现信息的设备并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备800也可以包括非瞬态存储设备810或者与所述非瞬态存储设备相连接，所述非瞬态存储设备可以是非瞬态的并且能够实现数据存储的任何存储设备，并且所述非瞬态存储设备可以包括但不限于磁盘驱动器、光存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何存储芯片或盒式磁带、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。非瞬态存储设备810可从接口分离。非瞬态存储设备810可具有用于实施上述方法和步骤的数据/指令/代码。计算设备800也可包括通信设备812。通信设备812可以是任何类型的能够实现与内部装置通信和/或与网络通信的设备或系统并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙设备、IEEE 1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似设备。

总线802可以包括但不限于工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外部设备互连(PCI)总线。

计算设备800还可包括工作存储器814，该工作存储器814可以是任何类型的能够存储有利于处理器804的工作的指令和/或数据的工作存储器并且可以包括但不限于随机存取存储器和/或只读存储设备。

软件组件可位于工作存储器814中，这些软件组件包括但不限于操作系统816、一个或多个应用程序818、驱动程序和/或其它数据和代码。用于实现本发明上述方法和步骤的指令可包含在所述一个或多个应用程序818中，并且可通过处理器804读取和执行所述一个或多个应用程序818的指令来实现本发明的上述方法700。

也应该认识到可根据具体需求而做出变化。例如，也可使用定制硬件、和/或特定组件可在硬件、软件、固件、中间件、微代码、硬件描述语音或其任何组合中实现。此外，可采用与其它计算设备、例如网络输入/输出设备等的连接。例如，可通过具有汇编语言或硬件编程语言(例如，VERILOG、VHDL、C++)的编程硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)利用根据本发明的逻辑和算法来实现所公开的方法和设备的部分或全部。

尽管目前为止已经参考附图描述了本发明的各方面，但是上述方法和设备仅是示例，并且本发明的范围不限于这些方面，而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外，也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外，可以按各种方式组合各种组件。也重要的是，随着技术的发展，所描述的组件中的许多组件可被之后出现的等同组件所替代。

Claims

1.一种用于视频监控图像报警的系统，包括：

触发模块，所述触发模块被配置成提取指定时间段内连续图像，对所提取的连续图像进行像素点融合，以生成单个经像素点融合的图像；

编码器，所述编码器被配置为对于单个经像素点融合的图像进行卷积神经网络CNN编码，以获得表示所述单个经像素点融合的图像的特征的特征向量；

解码器，包括：

注意力机制模块，所述注意力机制模块被配置成采用注意力机制，向所述特征向量中的每个特征赋予不同的注意力权值，其中每个特征代表所述单个经像素点融合的图像中的一个区域；

解码模块，所述解码模块被配置为使用循环神经网络RNN，根据经注意力机制加权后的特征向量来逐字生成图像场景描述；

分类判别模块，所述分类判别模块被配置成利用分类模型对所述图像场景描述进行危险等级分类判别；以及

反馈模块，所述反馈模块被配置成将基于危险等级的告警信息传送到用户，并接收来自用户的反馈信息。

2.如权利要求1所述的系统，其特征在于，所述经注意力机制加权后的特征向量中具有更高注意力权重的特征所代表的图像区域，在所述图像场景描述中起到更多的作用。

3.如权利要求1所述的系统，其特征在于，所述触发模块被进一步配置为，响应于检测到实时画面发生变动，启动对所述连续图像的提取。

4.如权利要求1所述的系统，其特征在于，所述告警信息包括所述图像场景描述和所述危险等级。

5.如权利要求1所述的系统，其特征在于，所述反馈模块进一步被配置成将所述告警信息与提示用户对所述告警信息的准确性进行确认的反馈提示一起传送到用户。

6.如权利要求1所述的系统，其特征在于，所述反馈信息被用于训练所述分类模型，所述分类模型被SVM支持向量机训练。

7.一种用于视频监控图像报警的方法，包括：

提取指定时间段内的连续图像以进行像素点融合，从而生成单个经像素点融合的图像；

对所述单个经像素点融合的图像进行编码，以获得表示所述单个经像素点融合的图像的特征的特征向量；

采用注意力机制，向所述特征向量中的每个特征赋予不同的注意力权值，其中每个特征代表所述单个经像素点融合的图像中的一个区域；

基于经注意力机制加权的特征向量来生成图像场景描述；

利用分类模型对所述图像场景描述进行危险等级分类判别；

将基于危险等级的告警信息传送到用户。

8.如权利要求7所述的方法，其特征在于，进一步包括：

接收来自用户的对所述告警信息的反馈信息；

存储所述反馈信息并将所述反馈信息送入所述分类模型进行训练，强化所述分类模型的分类判别能力。

9.如权利要求8所述的方法，其特征在于，所述告警信息包括所述图像场景描述和所述危险等级。

10.一种用于视频监控图像报警的计算设备，包括：

处理器；

存储器，所述存储器存储有指令，所述指令在被所述处理器执行时能执行如权利要求7-9任一所述的方法。