CN108154115B

CN108154115B - 基于摄像头场景的对象识别方法及装置、计算设备

Info

Publication number: CN108154115B
Application number: CN201711407626.4A
Authority: CN
Inventors: 董健
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-06-29
Anticipated expiration: 2037-12-22
Also published as: CN108154115A

Abstract

本发明公开了一种基于摄像头场景的对象识别方法及装置、计算设备，方法对摄像头拍摄的图像进行分组处理，包括：获取摄像头拍摄的图像；将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果；根据对象识别结果，发送对应的信息给用户终端。本发明利用摄像头拍摄的各帧图像之间的连续性、关联性，在对其进行对象识别时，将各帧图像分组处理，根据图像在其所属分组中的帧位置不同，对应的对获取的图像进行对象识别。方便根据得到的对象识别结果，可以及时的反馈给用户终端准确的信息，使用户终端可以及时地根据对象识别结果进行相应的处理。

Description

基于摄像头场景的对象识别方法及装置、计算设备

技术领域

本发明涉及图像处理领域，具体涉及一种基于摄像头场景的对象识别方法及装置、计算设备。

背景技术

目前，摄像头已经被广泛应用于实时监控、远程医疗及视频会议等方面。通过摄像头的拍摄，方便对安装摄像头的场景进行监控，使用户可以实时观看摄像头拍摄的图像。但这样需要用户时刻关注摄像头的拍摄，对用户而言，没有办法做到一直观看摄像头的拍摄，而且摄像头有时拍摄的图像不是用户关注的焦点。众多的视频监控应用迫切需要一种远距离、用户非配合状态下的快速对象识别技术，以求远距离快速确认场景，获取其中的识别结果反馈给用户，实现智能预警等。如对图像中的人物识别，一般通过人脸识别实现，人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术。

对人脸识别的应用中包括如识别出图像中的人脸，进一步判断是否为陌生人，当发现为陌生人时，这时需要快速及时识别，以避免险情发生。现有技术中，对摄像头采集的图像进行识别时，往往是将摄像头采集的每一帧图像作为单独的帧图像进行识别，得到每一帧图像的识别结果。但这种处理方式对每一帧图像进行相同的处理，没有考虑到摄像头采集的各帧图像之间的关联性。使得处理的速度较慢，需要花费较多的时间，相对的对识别结果作出的反应也会变慢，无法及时的进行反应。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于摄像头场景的对象识别方法及装置、计算设备。

根据本发明的一个方面，提供了一种基于摄像头场景的对象识别方法，方法对摄像头拍摄的图像进行分组处理，其包括：

获取摄像头拍摄的图像；

将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果；

根据对象识别结果，发送对应的信息给用户终端。

可选地，对象识别结果中的特定对象不是数据库中预先已标注的第一对象；

根据对象识别结果，发送对应的信息给用户终端进一步包括：

根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且当前时间处于预设安保时间范围，发送报警信息给用户终端。

可选地，对象识别结果中的特定对象不是数据库中预先已标注的第一对象；对象识别结果还包括对特定对象携带的物品的识别结果；

根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且对象识别结果中特定对象携带的物品属于预设危险物品列表，发送报警信息给用户终端。

可选地，对象识别结果中的特定对象不是数据库中预先已标注的第一对象；对象识别结果还包括对特定对象动作的识别结果；

根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且对象识别结果中对象识别结果为特定对象动作属于预设危险动作列表，发送报警信息给用户终端。

可选地，对象识别结果中的特定对象是数据库中预先已标注的第一对象；

根据对象识别结果中图像包含的特定对象是数据库中预先已标注的第一对象的对象识别结果，发送提醒信息给用户终端。

可选地，方法还包括：

向摄像头发送拍摄指令，以供摄像头拍摄包含特定关注对象的视频数据。

可选地，对象识别结果包括特定对象分割结果；

方法还包括：

将对象识别结果发送给用户终端，以供用户终端通过人工标注将特定对象标注为第一对象。

可选地，将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果进一步包括：

判断图像是否为任一分组的第1帧图像；

若是，则将图像输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到图像的对象识别结果；

若否，则将图像输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取图像所属分组的第1帧图像输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到图像的对象识别结果；其中，i和j为自然数。

可选地，在判断出图像不是任一分组的第1帧图像之后，方法还包括：

计算图像与其所属分组的第1帧图像的帧间距；

根据帧间距，确定i和j的取值；其中，第i层卷积层与最后一层卷积层之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。

可选地，方法还包括：预先设置帧间距与i和j的取值的对应关系。

可选地，在直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合之后，方法还包括：

若第j层反卷积层是神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到图像的对象识别结果；

若第j层反卷积层不是神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续反卷积层和输出层的运算，以得到图像的对象识别结果。

可选地，将图像输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到图像的对象识别结果进一步包括：在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果之前，方法还包括：在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，摄像头拍摄的图像分组中每组包含n帧帧图像；其中，n为固定预设值。

根据本发明的另一方面，提供了一种基于摄像头场景的对象识别装置，装置对摄像头拍摄的图像进行分组处理，其包括：

获取模块，适于获取摄像头拍摄的图像；

识别模块，适于将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果；

发送模块，适于根据对象识别结果，发送对应的信息给用户终端。

发送模块进一步适于：

可选地，装置还包括：

拍摄模块，适于向摄像头发送拍摄指令，以供摄像头拍摄包含特定关注对象的视频数据。

可选地，装置还包括：

标注模块，适于将对象识别结果发送给用户终端，以供用户终端通过人工标注将特定对象标注为第一对象。

可选地，识别模块进一步包括：

判断单元，适于图像是否为任一分组的第1帧图像，若是，执行第一识别单元；否则，执行第二识别单元；

第一识别单元，适于将图像输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到图像的对象识别结果；

第二识别单元，适于将图像输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取图像所属分组的第1帧图像输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到图像的对象识别结果；其中，i和j为自然数。

可选地，识别模块还包括：

帧间距计算单元，适于计算图像与其所属分组的第1帧图像的帧间距；

确定单元，适于根据帧间距，确定i和j的取值；其中，第i层卷积层与最后一层卷积层之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。

可选地，识别模块还包括：

预设单元，适于预先设置帧间距与i和j的取值的对应关系。

可选地，第二识别单元进一步适于：

可选地，第一识别单元进一步适于：

在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，第二识别单元进一步适于：

在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述基于摄像头场景的对象识别方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述基于摄像头场景的对象识别方法对应的操作。

根据本发明提供的基于摄像头场景的对象识别方法及装置、计算设备，获取摄像头拍摄的图像；将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果；根据对象识别结果，发送对应的信息给用户终端。本发明利用摄像头拍摄的各帧图像之间的连续性、关联性，在对其进行对象识别时，将各帧图像分组处理，根据图像在其所属分组中的帧位置不同，对应的对帧图像进行对象识别，进一步，对每组中对第1帧图像由神经网络完成全部卷积层和反卷积层的运算，对除第1帧图像之外的其他帧图像仅运算至第i层卷积层，复用第1帧图像已经得到的第j层反卷积层的运算结果进行图像融合，大大降低了神经网络的运算量，提高了对象识别的速度。方便根据得到的对象识别结果，可以及时的反馈给用户终端准确的信息，使用户终端可以及时地根据对象识别结果进行相应的处理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于摄像头场景的对象识别方法的流程图；

图2示出了根据本发明另一个实施例的基于摄像头场景的对象识别方法的流程图；

图3示出了根据本发明一个实施例的基于摄像头场景的对象识别装置的功能框图；

图4示出了根据本发明另一个实施例的基于摄像头场景的对象识别装置的功能框图；

图5示出了根据本发明一个实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的基于摄像头场景的对象识别方法的流程图。如图1所示，基于摄像头场景的对象识别方法具体包括如下步骤：

步骤S101，获取摄像头拍摄的图像。

摄像头应用于实时监控是非常普遍的，例如在家里、公司等场所安装摄像头，可以非常方便得查看实时情况。获取摄像头所拍摄到的图像，本实施例是对图像中特定对象进行识别，因此获取摄像头拍摄的包含特定对象的图像，以便后续对该图像进行处理。此处，特定对象包括如人物、物品等各种对象，具体根据实施情况进行设置，此处不做限定。

本实施例利用了摄像头拍摄的各帧图像之间的连续性、关联性，在对摄像头拍摄的各帧图像进行对象识别时，先将摄像头拍摄的各帧图像进行分组处理。进行分组处理时，考虑各帧图像间的关联关系，将各帧图像中关联关系紧密的帧图像分为一组。不同组帧图像中具体包含的帧图像的帧数可以是相同的或者不同的，假设每组帧图像中包含n帧帧图像，n可以为固定值或非固定值，n的取值根据实施情况设置。在摄像头拍摄的图像时，就对图像进行分组，确定其是否为当前分组中的一帧图像或为新分组中的第1帧图像。具体的，需要根据获取的图像与其前一帧图像或前几帧图像之间的关联关系进行分组。如使用跟踪算法，若跟踪算法得到图像为有效的跟踪结果，将图像确定为当前分组中的一帧图像，若跟踪算法得到图像为无效的跟踪结果，将图像确实为新分组中的第1帧图像；或者按照各帧图像的顺序，将相邻的两帧或三帧图像分为一组，以三帧图像一组为例，摄像头拍摄的第1帧图像为第一分组的第1帧图像，第2帧图像为第一分组的第2帧图像，第3帧图像为第一分组的第3帧图像，第4帧图像为第二分组的第1帧图像，第5帧图像为第二分组的第2帧图像，第6帧图像为第二分组的第3帧图像，依次类推。实施中具体的分组方式根据实施情况确实，此处不做限定。

步骤S102，将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果。

将图像输入至经训练得到的神经网络中后，根据图像在其所属分组中的帧位置，对图像进行处理。根据当前帧在所属分组中帧位置的不同，对其进行对象识别的处理也不同。

具体的，判断图像是否为其中任一分组的第1帧图像，若判断图像为其中任一分组的第1帧图像，则将图像输入至经训练得到的神经网络中，依次由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，最终得到图像的对象识别结果。具体的，如该神经网络中包含4层卷积层的运算和3层反卷积层的运算，将图像输入至该神经网络经过全部的4层卷积层的运算和3层反卷积层的运算。

若判断图像不是任一分组中的第1帧图像，则将图像输入至经训练得到的神经网络中，此时，不需要由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，仅运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，直接获取图像所属分组的第1帧图像输入至神经网络中得到的第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，就可以得到图像的对象识别结果。其中，第i层卷积层和第j层反卷积层之间具有对应关系，该对应关系具体为第i层卷积层的运算结果与第j层反卷积层的运算结果的输出维度相同。i和j均为自然数，且i的取值不超过神经网络所包含的最后一层卷积层的层数，j的取值不超过神经网络所包含的最后一层反卷积层的层数。具体的，如将图像输入至神经网络中，运算至神经网络第1层卷积层，得到第1层卷积层的运算结果，直接获取图像所属分组的第1帧图像输入至神经网络中得到的第3层反卷积层的运算结果，将第1层卷积层的运算结果与第1帧图像的第3层反卷积层的运算结果进行融合。其中，第1层卷积层的运算结果与第3层反卷积层的运算结果的输出维度是相同的。通过复用所属分组中第1帧图像已经运算得到的第j层反卷积层的运算结果，可以减少神经网络对图像的运算，大大加快神经网络的处理速度，从而提高神经网络的计算效率。进一步，若第j层反卷积层是神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到图像的对象识别结果。若第j层反卷积层不是神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续各反卷积层，以及输出层的运算，以得到图像的对象识别结果。

对于图像不是任一分组中的第1帧图像，需要确定i和j的取值。在判断出图像不是任一分组的第1帧图像之后，计算图像与其所属分组的第1帧图像的帧间距。如图像为任一分组的第3帧图像，计算得到其与所属分组的第1帧图像的帧间距为2。根据得到的帧间距，可确定神经网络中第i层卷积层的i的取值，以及第1帧图像第j层反卷积层的j的取值。

在确定i和j时，可以认为第i层卷积层与最后一层卷积层(卷积层的瓶颈层)之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。当帧间距越大时，第i层卷积层与最后一层卷积层之间的层距越小，i值越大，越需要运行较多的卷积层的运算；第j层反卷积层与输出层之间的层距越大，j值越小，需获取更小层数的反卷积层的运算结果。以神经网络中包含第1-4层卷积层为例，其中，第4层卷积层为最后一层卷积层；神经网络中还包含了第1-3层反卷积层和输出层。当帧间距为1时，确定第i层卷积层与最后一层卷积层之间的层距为3，确定i为1，即运算至第1层卷积层，确定第j层反卷积层与输出层之间的层距为1，确定j为3，获取第3层反卷积层的运算结果；当帧间距为2时，确定第i层卷积层与最后一层卷积层之间的层距为2，确定i为2，即运算至第2层卷积层，确定第j层反卷积层与输出层之间的层距为2，j为2，获取第2层反卷积层的运算结果。具体层距的大小与神经网络所包含的卷积层和反卷积层的各层数、以及实际实施所要达到的效果相关，以上均为举例说明。

或者，在确定i和j时，可以直接根据帧间距，预先设置帧间距与i和j的取值的对应关系。具体的，根据不同的帧间距预先设置不同i和j的取值，如帧间距为1，设置i的取值为1，j的取值为3；帧间距为2，设置i的取值为2，j的取值为2；或者还可以根据不同的帧间距，设置相同的i和j的取值；如不论帧间距的大小时，均设置对应的i的取值为2，j的取值为2；或者还可以对一部分不同的帧间距，设置相同的i和j的取值，如帧间距为1和2，设置对应的i的取值为1，j的取值为3；帧间距为3和4，设置对应的i的取值为2，j的取值为2。具体根据实施情况进行设置，此处不做限定。

进一步，为提高神经网络的运算速度，若判断图像为其中任一分组的第1帧图像，在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。若判断图像不是任一分组中的第1帧图像，则在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。即将图像输入神经网络后，在第1层卷积层运算后，对运算结果进行下采样处理，降低运算结果的分辨率，再将下采样后的运算结果进行第2层卷积层运算，并对第2层卷积层的运算结果也进行下采样处理，依次类推，直至神经网络的最后一层卷积层(即卷积层的瓶颈层)或第i层卷积层，以最后一层卷积层或第i层卷积层为第4层卷积层为例，在第4层卷积层运算结果之后不再做下采样处理。第4层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理，降低各层卷积层输入的帧图像的分辨率，可以提高神经网络的运算速度。需要注意的是，在神经网络的第一次卷积层运算时，输入的是获取的图像，而没有进行下采样处理，这样可以得到比较好的图像的细节。之后，在对输出的运算结果进行下采样处理时，既不会影响图像的细节，又可以提高神经网络的运算速度。

步骤S103，根据对象识别结果，发送对应的信息给用户终端。

根据对象识别结果，如对象识别结果为特定对象是用户特别关注的对象，发送如提醒信息给用户终端，以提醒用户。或者对象识别结果为特定对象是陌生人，发送如报警信息给用户终端。发送的对应的信息中可以携带有摄像头拍摄的图像，方便用户终端可以直接查看图像，更一目了解的了解到特定对象当前的情况。

根据本发明提供的基于摄像头场景的对象识别方法，获取摄像头拍摄的图像；将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果；根据对象识别结果，发送对应的信息给用户终端。本发明利用摄像头拍摄的各帧图像之间的连续性、关联性，在对其进行对象识别时，将各帧图像分组处理，根据图像在其所属分组中的帧位置不同，对应的对获取的图像进行对象识别，进一步，对每组中对第1帧图像由神经网络完成全部卷积层和反卷积层的运算，对除第1帧图像之外的其他帧图像仅运算至第i层卷积层，复用第1帧图像已经得到的第j层反卷积层的运算结果进行图像融合，大大降低了神经网络的运算量，提高了对象识别的速度。方便根据得到的对象识别结果，可以及时的反馈给用户终端准确的信息，使用户终端可以及时地根据对象识别结果进行相应的处理。

图2示出了根据本发明另一个实施例的基于摄像头场景的对象识别方法的流程图。如图2所示，基于摄像头场景的对象识别方法具体包括如下步骤：

步骤S201，获取摄像头拍摄的图像。

步骤S202，将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果。

以上步骤参照图1实施例中的步骤S101-S102，在此不再赘述。

步骤S203，根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且当前时间处于预设安保时间范围，发送报警信息给用户终端。

此处，特定对象以人物为例进行说明，但不仅限于人物。预先在数据库中可以存储一些已标注的第一对象，第一对象为用户预先设定的对象。对象可以为用户重点关注对象，也可以为用户根据已知对象进行预先标注的对象。对象与摄像头的使用场景相关，如摄像头的使用场景为家用场景，对象可以为家人，如老人或孩子；或者摄像头的使用场景为公司场景，对象为员工或公司重要客户；或者摄像头的使用场景为银行场景，对象为银行员工。

当对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，家用场景下，特定对象可能为陌生人、快递员、邻居、保姆，或者是远亲等。结合当前时间进行考虑，预设安保时间可以设置为晚间10点至凌晨6点。当当前时间处于该时间范围时，晚间10点至凌晨6点还在图像中出现的特定对象一般为陌生人，且该陌生人出现的时间也不正常，该特定对象存在可疑，发送报警信息给用户终端。公司或银行场景下，特定对象可能为陌生人、物业人员、保洁人员等。预设安保时间可以设置为下班之后的时间范围。当当前时间处于该时间范围时，下班后还出现在图像中的特定对象一般为陌生人，且该陌生人出现的时间也不正常，该特定对象存在可疑，发送报警信息给用户终端。

步骤S204，根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且对象识别结果中特定对象携带的物品属于预设危险物品列表，发送报警信息给用户终端。

对象识别结果还包括对特定对象携带的物品的识别结果，通过对特定对象手部、背部等部位所携带的物品进行识别，得到物品的识别结果。如对象识别结果包括特定对象携带的物品为礼品、快递箱子、清扫物品、刀具、棍子等物品。

当对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，家用场景下，特定对象可能为陌生人、快递员、邻居、保姆，或者是远亲等。当对象识别结果中特定对象携带的物品属于预设危险物品列表，预设危险物品列表包括如刀具、棍棒、枪支等能够危及人体安全和财产安全的物品。图像中出现的特定对象为危险陌生人，发送报警信息给用户终端。公司或银行场景下，特定对象可能为陌生人、物业人员、保洁人员等。当对象识别结果中特定对象携带的物品属于预设危险物品列表，预设危险物品列表包括如刀具、棍棒、枪支等能够危及人体安全和财产安全的物品。图像中出现的特定对象为危险陌生人，发送报警信息给用户终端。

步骤S205，根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且对象识别结果中对象识别结果为特定对象动作属于预设危险动作列表，发送报警信息给用户终端。

对象识别结果还包括对特定对象动作的识别结果。通过对特定对象姿势识别，得到特定对象当前的动作结果。如对象识别结果包括特定对象动作为取东西、推他人、抓住他人等动作。

当对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，家用场景下，特定对象可能为陌生人、快递员、邻居、保姆，或者是远亲等。当特定对象动作属于预设危险动作列表，预设危险动作列表包括如偷拿东西、推倒他人、勒住他人脖子等能够危及人体安全和财产安全的动作。图像中出现的特定对象为危险陌生人，发送报警信息给用户终端。公司或银行场景下，特定对象可能为陌生人、物业人员、保洁人员等。当特定对象动作属于预设危险动作列表，预设危险动作列表包括如偷拿东西等能够危及财产安全的动作。图像中出现的特定对象为危险陌生人，发送报警信息给用户终端。

步骤S206，根据对象识别结果中图像包含的特定对象是数据库中预先已标注的第一对象的对象识别结果，发送提醒信息给用户终端。

第一对象为用户预先设定的用户重点关注对象。用户重点关注对象与摄像头的使用场景相关，如摄像头的使用场景为家用场景，用户重点关注对象为老人或孩子；或者摄像头的使用场景为公司场景，用户重点关注对象为公司重要客户。

当对象识别结果中图像包含的特定对象是数据库中预先已标注的第一对象时，家用场景下，将摄像头设置在易发生危险的场所，当有老人或孩子出现在图像中时，快速地得到对象识别结果，发送提醒信息给用户终端，以便用户及时阻止危险发生；或者将摄像头设置在门口，当老人或孩子出门时，图像中会出现老人或孩子，快速地得到对象识别结果，发送提醒信息给用户终端，以便用户了解老人或孩子动态。公司场景下，将摄像头设置在公司门口，当公司重要客户出现在图像中时，快速地得到对象识别结果，发送提醒信息给用户终端，以便用户及时迎接公司重要客户。

步骤S207，向摄像头发送拍摄指令，以供摄像头拍摄包含特定关注对象的视频数据。

在得到识别结果后，还可以向摄像头发送拍摄指令，摄像头根据指令录制包含特定对象的视频数据。如可以用于安防系统中，当陌生人进入摄像头所在的监控区域，对象识别结果识别出该陌生人后，摄像头拍摄包含该陌生人的视频数据，方便用户查看视频数据时了解该陌生人在监控区域的行踪。或者还可以用于家庭信息记录，当老人或孩子出现在摄像头所在的拍摄区域，对象识别结果识别出老人或孩子后，摄像头拍摄包含老人或孩子的视频数据，以记录家庭生活。

步骤S208，将对象识别结果发送给用户终端，以供用户终端通过人工标注将特定对象标注为第一对象。

对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，但有可能该特定对象是用户漏存的需要标注的第一用户；或者该特定用户是新的家庭成员；或者该特定用户是新入职的员工等，当对象识别结果发送给用户终端后，用户终端通过人工标注将特定对象标注为第一对象，后续可以将该特定对象识别为第一对象。

步骤S203-步骤S206可以在实施时任选一步骤执行，也可以根据具体情况执行以上对应的步骤S203-步骤S206。这些步骤之间不存在执行先后顺序的限定。步骤S208执行时可以在步骤S202之后执行，也可以在步骤S203-步骤S206之后执行，也可以在步骤S207之后执行，具体执行顺序根据实施情况设置，此处不做限定。

根据本发明提供的基于摄像头场景的对象识别方法，利用摄像头拍摄的各帧图像之间的连续性、关联性，在对象识别时，先将各帧图像分组处理，根据获取的图像在其所属分组中的帧位置不同，对应的对帧图像进行对象识别，得到图像的对象识别结果。进一步，基于得到的对象识别结果，结合当前时间、对象识别结果中包括的特定对象携带的物品、对象识别结果中包括的特定对象动作等等信息，发送相应的信息给用户终端，以提醒用户终端引起注意，避免危险或意外等发生，或者帮助用户终端及时发现特定对象，提前做好准确。本发明还可以向摄像头发送拍摄指令，控制摄像头录制包含特定关注对象的视频数据并保存，录制保存的视频数据具有针对性，方便用户对视频数据进行查看或利用。还可以允许用户终端通过人工标注将特定对象标注为第一对象，以及时修正特定对象，使得对象识别结果更准确。

图3示出了根据本发明一个实施例的基于摄像头场景的对象识别装置的功能框图。如图3所示，基于摄像头场景的对象识别装置包括如下模块：

获取模块310，适于获取摄像头拍摄的图像。

摄像头应用于实时监控是非常普遍的，例如在家里、公司等场所安装摄像头，可以非常方便得查看实时情况。获取模块310获取摄像头所拍摄到的图像，本实施例是对图像中特定对象进行识别，因此获取模块310获取摄像头拍摄的包含特定对象的图像，以便后续对该图像进行处理。此处，特定对象包括如人物、物品等各种对象，具体根据实施情况进行设置，此处不做限定。

识别模块320，适于将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果。

识别模块320将图像输入至经训练得到的神经网络中后，根据图像在其所属分组中的帧位置，识别模块320对图像进行处理。根据当前帧在所属分组中帧位置的不同，识别模块320对其进行对象识别的处理也不同。

识别模块320包括了判断单元321、第一识别单元322和第二识别单元323。

具体的，判断单元321判断图像是否为其中任一分组的第1帧图像，若判断单元321判断图像为其中任一分组的第1帧图像，则第一识别单元322将图像输入至经训练得到的神经网络中，依次由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，最终得到图像的对象识别结果。具体的，如该神经网络中包含4层卷积层的运算和3层反卷积层的运算，第一识别单元322将图像输入至该神经网络经过全部的4层卷积层的运算和3层反卷积层的运算。

若判断单元321判断图像不是任一分组中的第1帧图像，则第二识别单元323将图像输入至经训练得到的神经网络中，此时，不需要由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，第二识别单元323仅运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，第二识别单元323直接获取图像所属分组的第1帧图像输入至神经网络中得到的第j层反卷积层的运算结果，第二识别单元323将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，就可以得到图像的对象识别结果。其中，第i层卷积层和第j层反卷积层之间具有对应关系，该对应关系具体为第i层卷积层的运算结果与第j层反卷积层的运算结果的输出维度相同。i和j均为自然数，且i的取值不超过神经网络所包含的最后一层卷积层的层数，j的取值不超过神经网络所包含的最后一层反卷积层的层数。具体的，如第二识别单元323将图像输入至神经网络中，运算至神经网络第1层卷积层，得到第1层卷积层的运算结果，第二识别单元323直接获取图像所属分组的第1帧图像输入至神经网络中得到的第3层反卷积层的运算结果，第二识别单元323将第1层卷积层的运算结果与第1帧图像的第3层反卷积层的运算结果进行融合。其中，第1层卷积层的运算结果与第3层反卷积层的运算结果的输出维度是相同的。第二识别单元323通过复用所属分组中第1帧图像已经运算得到的第j层反卷积层的运算结果，可以减少神经网络对图像的运算，大大加快神经网络的处理速度，从而提高神经网络的计算效率。进一步，若第j层反卷积层是神经网络的最后一层反卷积层，则第二识别单元323将图像融合结果输入到输出层，以得到图像的对象识别结果。若第j层反卷积层不是神经网络的最后一层反卷积层，则第二识别单元323将图像融合结果输入到第j+1层反卷积层，经过后续各反卷积层，以及输出层的运算，以得到图像的对象识别结果。

识别模块320还包括了帧间距计算单元324、确定单元325和/或预设单元326。

对于图像不是任一分组中的第1帧图像，识别模块320需要确定i和j的取值。在判断单元321判断出图像不是任一分组的第1帧图像之后，帧间距计算单元324计算图像与其所属分组的第1帧图像的帧间距。如图像为任一分组的第3帧图像，帧间距计算单元324计算得到其与所属分组的第1帧图像的帧间距为2。确定单元325根据得到的帧间距，可确定神经网络中第i层卷积层的i的取值，以及第1帧图像第j层反卷积层的j的取值。

确定单元325在确定i和j时，可以认为第i层卷积层与最后一层卷积层(卷积层的瓶颈层)之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。当帧间距越大时，第i层卷积层与最后一层卷积层之间的层距越小，i值越大，越需要运行较多的卷积层的运算；第j层反卷积层与输出层之间的层距越大，j值越小，需获取更小层数的反卷积层的运算结果。以神经网络中包含第1-4层卷积层为例，其中，第4层卷积层为最后一层卷积层；神经网络中还包含了第1-3层反卷积层和输出层。当帧间距计算单元324计算帧间距为1时，确定单元325确定第i层卷积层与最后一层卷积层之间的层距为3，确定i为1，即第二识别单元323运算至第1层卷积层，确定单元325确定第j层反卷积层与输出层之间的层距为1，确定j为3，第二识别单元323获取第3层反卷积层的运算结果；当帧间距计算单元324计算帧间距为2时，确定单元325确定第i层卷积层与最后一层卷积层之间的层距为2，确定i为2，即第二识别单元323运算至第2层卷积层，确定单元325确定第j层反卷积层与输出层之间的层距为2，j为2，第二识别单元323获取第2层反卷积层的运算结果。具体层距的大小与神经网络所包含的卷积层和反卷积层的各层数、以及实际实施所要达到的效果相关，以上均为举例说明。

或者，在确定i和j时，预设单元326可以直接根据帧间距，预先设置帧间距与i和j的取值的对应关系。具体的，预设单元326根据不同的帧间距预先设置不同i和j的取值，如帧间距计算单元324计算帧间距为1，预设单元326设置i的取值为1，j的取值为3；帧间距计算单元324计算帧间距为2，预设单元326设置i的取值为2，j的取值为2；或者预设单元326还可以根据不同的帧间距，设置相同的i和j的取值；如不论帧间距的大小时，预设单元326均设置对应的i的取值为2，j的取值为2；或者预设单元326还可以对一部分不同的帧间距，设置相同的i和j的取值，如帧间距计算单元324计算帧间距为1和2，预设单元326设置对应的i的取值为1，j的取值为3；帧间距计算单元324计算帧间距为3和4，预设单元326设置对应的i的取值为2，j的取值为2。具体根据实施情况进行设置，此处不做限定。

进一步，为提高神经网络的运算速度，若判断单元321判断图像为其中任一分组的第1帧图像，第一识别单元322在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。若判断单元判断图像不是任一分组中的第1帧图像，则第二识别单元323在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。即第一识别单元322或第二识别单元323将图像输入神经网络后，在第1层卷积层运算后，对运算结果进行下采样处理，降低运算结果的分辨率，再将下采样后的运算结果进行第2层卷积层运算，并对第2层卷积层的运算结果也进行下采样处理，依次类推，直至神经网络的最后一层卷积层(即卷积层的瓶颈层)或第i层卷积层，以最后一层卷积层或第i层卷积层为第4层卷积层为例，在第4层卷积层运算结果之后第一识别单元322或第二识别单元323不再做下采样处理。第4层卷积层之前的每一层卷积层运算后，第一识别单元322或第二识别单元323对每一层卷积层的运算结果进行下采样处理，降低各层卷积层输入的帧图像的分辨率，可以提高神经网络的运算速度。需要注意的是，在神经网络的第一次卷积层运算时，输入的是获取的图像，而没有进行下采样处理，这样可以得到比较好的图像的细节。之后，在对输出的运算结果进行下采样处理时，既不会影响图像的细节，又可以提高神经网络的运算速度。

发送模块330，适于根据对象识别结果，发送对应的信息给用户终端。

发送模块330根据对象识别结果，如对象识别结果为特定对象是用户特别关注的对象，发送模块330发送如提醒信息给用户终端，以提醒用户。或者对象识别结果为特定对象是陌生人，发送模块330发送如报警信息给用户终端。发送模块330发送的对应的信息中可以携带有摄像头拍摄的图像，方便用户终端可以直接查看图像，更一目了解的了解到特定对象当前的情况。

发送模块330进一步适于根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且当前时间处于预设安保时间范围，发送报警信息给用户终端。

此处，特定对象以人物为例进行说明，但不仅限于人物。用户预先在数据库中可以存储一些已标注的第一对象，第一对象为用户预先设定的对象。对象可以为用户重点关注对象，也可以为用户根据已知对象进行预先标注的对象。对象与摄像头的使用场景相关，如摄像头的使用场景为家用场景，对象可以为家人，如老人或孩子；或者摄像头的使用场景为公司场景，对象为员工或公司重要客户；或者摄像头的使用场景为银行场景，对象为银行员工。

当对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，家用场景下，特定对象可能为陌生人、快递员、邻居、保姆，或者是远亲等。发送模块330结合当前时间进行考虑，预设安保时间可以设置为晚间10点至凌晨6点。当当前时间处于该时间范围时，晚间10点至凌晨6点还在图像中出现的特定对象一般为陌生人，且该陌生人出现的时间也不正常，该特定对象存在可疑，发送模块330发送报警信息给用户终端。公司或银行场景下，特定对象可能为陌生人、物业人员、保洁人员等。预设安保时间可以设置为下班之后的时间范围。当当前时间处于该时间范围时，下班后还出现在图像中的特定对象一般为陌生人，且该陌生人出现的时间也不正常，该特定对象存在可疑，发送模块330发送报警信息给用户终端。

发送模块330进一步适于根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且对象识别结果中特定对象携带的物品属于预设危险物品列表，发送报警信息给用户终端。

对象识别结果还包括对特定对象携带的物品的识别结果，识别模块320通过对特定对象手部所携带的物品进行识别，得到物品的识别结果。如对象识别结果包括特定对象携带的物品为礼品、快递箱子、清扫物品、刀具、棍子等物品。

当对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，家用场景下，特定对象可能为陌生人、快递员、邻居、保姆，或者是远亲等。当对象识别结果中特定对象携带的物品属于预设危险物品列表，预设危险物品列表包括如刀具、棍棒、枪支等能够危及人体安全和财产安全的物品。图像中出现的特定对象为危险陌生人，发送模块330发送报警信息给用户终端。公司或银行场景下，特定对象可能为陌生人、物业人员、保洁人员等。当对象识别结果中特定对象携带的物品属于预设危险物品列表，预设危险物品列表包括如刀具、棍棒、枪支等能够危及人体安全和财产安全的物品。图像中出现的特定对象为危险陌生人，发送模块330发送报警信息给用户终端。

发送模块330进一步适于根据对象识别结果中图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且对象识别结果中对象识别结果为特定对象动作属于预设危险动作列表，发送报警信息给用户终端。

对象识别结果还包括对特定对象动作的识别结果。识别模块320通过对特定对象姿势识别，得到特定对象当前的动作结果。如对象识别结果包括特定对象动作为取东西、推他人、抓住他人等动作。

当对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，家用场景下，特定对象可能为陌生人、快递员、邻居、保姆，或者是远亲等。当特定对象动作属于预设危险动作列表，预设危险动作列表包括如偷拿东西、推倒他人、勒住他人脖子等能够危及人体安全和财产安全的动作。图像中出现的特定对象为危险陌生人，发送模块330发送报警信息给用户终端。公司或银行场景下，特定对象可能为陌生人、物业人员、保洁人员等。当特定对象动作属于预设危险动作列表，预设危险动作列表包括如偷拿东西等能够危及财产安全的动作。图像中出现的特定对象为危险陌生人，发送模块330发送报警信息给用户终端。

发送模块330进一步适于根据对象识别结果中图像包含的特定对象是数据库中预先已标注的第一对象的对象识别结果，发送提醒信息给用户终端。

当对象识别结果中图像包含的特定对象是数据库中预先已标注的第一对象时，家用场景下，将摄像头设置在易发生危险的场所，当有老人或孩子出现在图像中时，识别模块320快速地得到对象识别结果，发送模块330发送提醒信息给用户终端，以便用户及时阻止危险发生；或者将摄像头设置在门口，当老人或孩子出门时，图像中会出现老人或孩子，识别模块320快速地得到对象识别结果，发送模块330发送提醒信息给用户终端，以便用户了解老人或孩子动态。公司场景下，将摄像头设置在公司门口，当公司重要客户出现在图像中时，识别模块320快速地得到对象识别结果，发送模块330发送提醒信息给用户终端，以便用户及时迎接公司重要客户。

根据本发明提供的基于摄像头场景的对象识别装置，获取摄像头拍摄的图像；将图像输入至经训练得到的神经网络中，根据图像在其所属分组中的帧位置，对图像进行处理，得到对象识别结果；根据对象识别结果，发送对应的信息给用户终端。本发明利用摄像头拍摄的各帧图像之间的连续性、关联性，在对其进行对象识别时，将各帧图像分组处理，根据图像在其所属分组中的帧位置不同，对应的对获取的图像进行对象识别，进一步，对每组中对第1帧图像由神经网络完成全部卷积层和反卷积层的运算，对除第1帧图像之外的其他帧图像仅运算至第i层卷积层，复用第1帧图像已经得到的第j层反卷积层的运算结果进行图像融合，大大降低了神经网络的运算量，提高了对象识别的速度。进一步，基于得到的对象识别结果，结合当前时间、对象识别结果中包括的特定对象携带的物品、对象识别结果中包括的特定对象动作等等信息，发送相应的信息给用户终端，以提醒用户终端引起注意，避免危险或意外等发生，或者帮助用户终端及时发现特定对象，提前做好准确。

图4示出了根据本发明另一个实施例的基于摄像头场景的对象识别装置的功能框图。如图4所示，与图3不同之处在于，基于摄像头场景的对象识别装置还包括：

拍摄模块340，适于向摄像头发送拍摄指令，以供摄像头拍摄包含特定关注对象的视频数据。

拍摄模块340可以向摄像头发送拍摄指令，摄像头根据指令录制包含特定对象的视频数据。如拍摄模块340可以用于安防系统中，当陌生人进入摄像头所在的监控区域，识别模块320识别出该陌生人后，拍摄模块340使摄像头拍摄包含该陌生人的视频数据，方便用户查看视频数据时了解该陌生人在监控区域的行踪。或者拍摄模块340还可以用于家庭信息记录，当老人或孩子出现在摄像头所在的拍摄区域，识别模块320识别出老人或孩子后，拍摄模块340使摄像头拍摄包含老人或孩子的视频数据，以记录家庭生活。

标注模块350，适于将对象识别结果发送给用户终端，以供用户终端通过人工标注将特定对象标注为第一对象。

对象识别结果中的特定对象不是数据库中预先已标注的第一对象时，但有可能该特定对象是用户漏存的需要标注的第一用户；或者该特定用户是新的家庭成员；或者该特定用户是新入职的员工等，标注模块350将对象识别结果发送给用户终端后，由用户终端通过人工标注将特定对象标注为第一对象，后续识别模块320可以将该特定对象识别为第一对象。

根据本发明提供的基于摄像头场景的对象识别装置，利用摄像头拍摄的各帧图像之间的连续性、关联性，在对象识别时，先将各帧图像分组处理，根据获取的图像在其所属分组中的帧位置不同，对应的对帧图像进行对象识别，得到图像的对象识别结果。本发明还可以向摄像头发送拍摄指令，控制摄像头录制包含特定关注对象的视频数据并保存，录制保存的视频数据具有针对性，方便用户对视频数据进行查看或利用。还可以允许用户终端通过人工标注将特定对象标注为第一对象，以及时修正特定对象，使得对象识别结果更准确。

本申请还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于摄像头场景的对象识别方法。

图5示出了根据本发明一个实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述基于摄像头场景的对象识别方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行上述任意方法实施例中的基于摄像头场景的对象识别方法。程序510中各步骤的具体实现可以参见上述基于摄像头场景的对象识别实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于摄像头场景的对象识别的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于摄像头场景的对象识别方法，所述方法对摄像头拍摄的图像进行分组处理，其包括：

获取摄像头拍摄的图像；

将所述图像输入至经训练得到的神经网络中，根据所述图像在其所属分组中的帧位置，对所述图像进行处理，得到对象识别结果，其中，所述神经网络包括卷积层以及反卷积层，采用全部卷积层和反卷积层对每个所述分组的第一帧图像进行处理得到识别结果，将非第一帧图像的卷积层处理结果与所在分组的第一帧图像的反卷积层处理融合得到识别结果，所述非第一帧图像采用部分卷积层处理；

根据所述对象识别结果，发送对应的信息给用户终端。

2.根据权利要求1所述的方法，其中，所述对象识别结果中的特定对象不是数据库中预先已标注的第一对象；

所述根据所述对象识别结果，发送对应的信息给用户终端进一步包括：

根据所述对象识别结果中所述图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且当前时间处于预设安保时间范围，发送报警信息给用户终端。

3.根据权利要求1所述的方法，其中，所述对象识别结果中的特定对象不是数据库中预先已标注的第一对象；所述对象识别结果还包括对特定对象携带的物品的识别结果；

根据所述对象识别结果中所述图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且所述对象识别结果中所述特定对象携带的物品属于预设危险物品列表，发送报警信息给用户终端。

4.根据权利要求1所述的方法，其中，所述对象识别结果中的特定对象不是数据库中预先已标注的第一对象；所述对象识别结果还包括对特定对象动作的识别结果；

根据所述对象识别结果中所述图像包含的特定对象不是数据库中预先已标注的第一对象的对象识别结果，且所述对象识别结果中所述对象识别结果为特定对象动作属于预设危险动作列表，发送报警信息给用户终端。

5.根据权利要求1所述的方法，其中，所述对象识别结果中的特定对象是数据库中预先已标注的第一对象；

根据所述对象识别结果中所述图像包含的特定对象是数据库中预先已标注的第一对象的对象识别结果，发送提醒信息给用户终端。

6.根据权利要求1-5中任一项所述的方法，其中，所述方法还包括：

向所述摄像头发送拍摄指令，以供所述摄像头拍摄包含特定关注对象的视频数据。

7.根据权利要求1-5中任一项所述的方法，其中，所述对象识别结果包括特定对象分割结果；

所述方法还包括：

将所述对象识别结果发送给用户终端，以供用户终端通过人工标注将特定对象标注为第一对象。

8.根据权利要求1所述的方法，其中，所述将所述图像输入至经训练得到的神经网络中，根据所述图像在其所属分组中的帧位置，对所述图像进行处理，得到对象识别结果进一步包括：

判断所述图像是否为任一分组的第1帧图像；

若是，则将所述图像输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到所述图像的对象识别结果；

若否，则将所述图像输入至经训练得到的神经网络中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取所述图像所属分组的第1帧图像输入至所述神经网络中得到的第j层反卷积层的运算结果，直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合，得到所述图像的对象识别结果；其中，i和j为自然数。

9.根据权利要求8所述的方法，其中，在判断出所述图像不是任一分组的第1帧图像之后，所述方法还包括：

计算所述图像与其所属分组的第1帧图像的帧间距；

根据所述帧间距，确定i和j的取值；其中，所述第i层卷积层与最后一层卷积层之间的层距与所述帧间距成反比关系，所述第j层反卷积层与输出层之间的层距与所述帧间距成正比关系。

10.根据权利要求8或9所述的方法，其中，所述方法还包括：预先设置帧间距与所述i和j的取值的对应关系。

11.根据权利要求8或9所述的方法，其中，在所述直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合之后，所述方法还包括：

若所述第j层反卷积层是所述神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到所述图像的对象识别结果；

若所述第j层反卷积层不是所述神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续反卷积层和输出层的运算，以得到所述图像的对象识别结果。

12.根据权利要求8或9所述的方法，其中，所述将所述图像输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到所述图像的对象识别结果进一步包括：在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

13.根据权利要求8或9所述的方法，其中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果之前，所述方法还包括：在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

14.根据权利要求1-5中任一项所述的方法，其中，所述摄像头拍摄的图像分组中每组包含n帧帧图像；其中，n为固定预设值。

15.一种基于摄像头场景的对象识别装置，所述装置对摄像头拍摄的图像进行分组处理，其包括：

获取模块，适于获取摄像头拍摄的图像；

识别模块，适于将所述图像输入至经训练得到的神经网络中，根据所述图像在其所属分组中的帧位置，对所述图像进行处理，得到对象识别结果，其中，所述神经网络包括卷积层以及反卷积层，采用全部卷积层和反卷积层对每个所述分组的第一帧图像进行处理得到识别结果，将非第一帧图像的卷积层处理结果与所在分组的第一帧图像的反卷积层处理融合得到识别结果，所述非第一帧图像采用部分卷积层处理；

发送模块，适于根据所述对象识别结果，发送对应的信息给用户终端。

16.根据权利要求15所述的装置，其中，所述对象识别结果中的特定对象不是数据库中预先已标注的第一对象；

所述发送模块进一步适于：

17.根据权利要求15所述的装置，其中，所述对象识别结果中的特定对象不是数据库中预先已标注的第一对象；所述对象识别结果还包括对特定对象携带的物品的识别结果；

所述发送模块进一步适于：

18.根据权利要求15所述的装置，其中，所述对象识别结果中的特定对象不是数据库中预先已标注的第一对象；所述对象识别结果还包括对特定对象动作的识别结果；

所述发送模块进一步适于：

19.根据权利要求15所述的装置，其中，所述对象识别结果中的特定对象是数据库中预先已标注的第一对象；

所述发送模块进一步适于：

20.根据权利要求15-19中任一项所述的装置，其中，所述装置还包括：

拍摄模块，适于向所述摄像头发送拍摄指令，以供所述摄像头拍摄包含特定关注对象的视频数据。

21.根据权利要求15-19中任一项所述的装置，其中，所述装置还包括：

标注模块，适于将所述对象识别结果发送给用户终端，以供用户终端通过人工标注将特定对象标注为第一对象。

22.根据权利要求15-19中任一项所述的装置，其中，所述识别模块进一步包括：

判断单元，适于所述图像是否为任一分组的第1帧图像，若是，执行第一识别单元；否则，执行第二识别单元；

第一识别单元，适于将所述图像输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到所述图像的对象识别结果；

第二识别单元，适于将所述图像输入至经训练得到的神经网络中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取所述图像所属分组的第1帧图像输入至所述神经网络中得到的第j层反卷积层的运算结果，直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合，得到所述图像的对象识别结果；其中，i和j为自然数。

23.根据权利要求22所述的装置，其中，所述识别模块还包括：

帧间距计算单元，适于计算所述图像与其所属分组的第1帧图像的帧间距；

确定单元，适于根据所述帧间距，确定i和j的取值；其中，所述第i层卷积层与最后一层卷积层之间的层距与所述帧间距成反比关系，所述第j层反卷积层与输出层之间的层距与所述帧间距成正比关系。

24.根据权利要求22所述的装置，其中，所述识别模块还包括：

预设单元，适于预先设置帧间距与所述i和j的取值的对应关系。

25.根据权利要求22所述的装置，其中，所述第二识别单元进一步适于：

26.根据权利要求22所述的装置，其中，所述第一识别单元进一步适于：

27.根据权利要求22所述的装置，其中，所述第二识别单元进一步适于：

28.根据权利要求15-19中任一项所述的装置，其中，所述摄像头拍摄的图像分组中每组包含n帧帧图像；其中，n为固定预设值。

29.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-14中任一项所述的基于摄像头场景的对象识别方法对应的操作。

30.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-14中任一项所述的基于摄像头场景的对象识别方法对应的操作。