CN111291222A

CN111291222A - 图像识别方法及其装置、计算机可读介质和系统

Info

Publication number: CN111291222A
Application number: CN202010064795.8A
Authority: CN
Inventors: 黄杰; 魏子昆; 杨忠程; 张至先
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-16
Anticipated expiration: 2040-01-20
Also published as: CN111291222B

Abstract

本申请涉及图像识别领域，公开了一种图像识别方法及其装置、计算机可读介质和系统。本申请中图像识别方法包括：从视频中获取多个帧图像得到第一图像组；从第一图像组中选取出同时包含犬只和行人的图像，得到第二图像组，其中，第二图像组中相邻帧图像的时间间隔与所述第一图像中相邻帧图像的时间间隔相同；根据第二图像组，确定同一犬只和同一行人同时出现的时长与第一图像组的时长之间的关系是否满足预定条件，其中，时长为图像组中所有相邻帧图像的时间间隔之和；在确定的结果不满足预定条件时，判定犬只为流浪犬。

Description

图像识别方法及其装置、计算机可读介质和系统

技术领域

本申请涉及图像识别领域，特别涉及一种图像识别方法及其装置、计算机可读介质和系统。

背景技术

当下城市管理中，对犬只的管理越来越规范。由于居民饲养宠物狗的数量越来越多，随之带来的问题是遗弃的流浪狗的数量也在增加，这些流浪狗无论是在安全还是疾病传染方面都给居民的生活带来影响。因此，通过在小区的安防摄像头拍摄的视频，如何判断视频中的犬只是否为流浪狗是一个亟待解决的问题。

发明内容

本申请实施例提供了一种图像识别方法及其装置、计算机可读介质和系统。本申请实施例提供的图像识别方法简单高效，能够快速检测到视频场景中的流浪犬。

第一方面，本申请实施例提供了一种图像识别方法，包括：

从视频中获取多个帧图像得到第一图像组；

从所述第一图像组中选取出同时包含行人和犬只的图像，得到第二图像组，其中，所述第二图像组中相邻帧图像的时间间隔与所述第一图像中相邻帧图像的时间间隔相同；

根据所述第二图像组，确定同一行人和同一犬只同时出现的时长与所述第一图像组的时长之间的关系是否满足预定条件，其中，所述时长为图像组中所有相邻帧图像的时间间隔之和；

在所述确定的结果不满足预定条件时，判定所述犬只为流浪犬。

在上述第一方面的一种可能的实现中，上述方法还包括，所述预定条件包括：

同一行人和同一犬只同时出现的时长与所述第一图像组的时长的比值大于时间阈值。

在上述第一方面的一种可能的实现中，上述方法还包括，通过以下方式确定同一行人和同一犬只同时出现的时长：

从所述第二图像组中，选取出图像中的行人和犬只为同一行人和同一犬只的图像，得到第三图像组；

确定所述第三图像组中的行人是否为犬只的主人；

在确定所述行人是犬只主人的情况下，确定第三图像组的时长为同一犬只和同一行人同时出现的时长。

在上述第一方面的一种可能的实现中，上述方法还包括，所述确定第三图像组中的行人是否为犬只的主人包括：

判断第三图像组中图像的数量与第二图像组中图像的数量的比值是否大于数量阈值；

在所述比值大于数量阈值的情况下，确定第三图像组中的行人是犬只的主人。

在上述第一方面的一种可能的实现中，上述方法还包括，所述确定第三图像组中的行人是否为犬只的主人还包括：

从第三图像组中选取一张图像，以第一比例外扩行人检测框，并获得其与所述犬只检测框的第一重叠区域；

判断所述第一重叠区域与所述犬只感兴趣的第一重叠度是否大于第一阈值；

在所述第一重叠度大于第一阈值的情况下，确定第三图像组中的行人是犬只的主人。

从第三图像组中选取一张图像，以第二比例外扩犬只检测框，并获得其与所述行人检测框的第二重叠区域；

判断所述第二重叠区域与所述行人检测框的第二重叠度是否大于第二阈值；

在所述第二重叠度大于第二阈值的情况下，确定第三图像组中的行人是犬只的主人。

在上述第一方面的一种可能的实现中，上述方法还包括，所述从所述第一图像组中选取出同时包含犬只和行人的图像，得到第二图像组包括：

从第一图像组选取一张图像，通过行人检测算法检测该图像中是否有行人，并通过犬只检测算法检测该图像中是否有犬只；

在上述第一方面的一种可能的实现中，上述方法还包括，所述从视频中获取多个帧图像得到第一图像组，包括：

从所述视频中提取关键帧，组成第一图像组。

从所述视频中预定时间间隔提取视频帧，组成第一图像组。

第二方面，本申请实施里提供了一种图像识别装置，所述图像识别装置包括：

获取模块，用于从视频中获取多个帧图像得到第一图像组；

识别模块，用于从所述第一图像组中选取出同时包含行人和犬只的图像，得到第二图像组，其中，所述第二图像组中相邻帧图像的时间间隔与所述第一图像中相邻帧图像的时间间隔相同；

判断模块，用于根据所述第二图像组，确定同一行人和同一犬只同时出现的时长与所述第一图像组的时长之间的关系是否满足预定条件，其中，所述时长为图像组中所有相邻帧图像的时间间隔之和；

输出模块，用于在所述确定的结果不满足预定条件时，判定所述犬只为流浪犬。

在上述第二方面的一种可能的实现中，上述装置还包括，所述判断模块判断所述预定条件包括：同一行人和同一犬只同时出现的时长与所述第一图像组的时长的比值大于时间阈值。

在上述第二方面的一种可能的实现中，上述装置还包括，所述判断模块通过以下方式确定同一行人和同一犬只同时出现的时长：

确定所述第三图像组中的行人是否为犬只的主人；

在确定所述行人是犬只主人的情况下，确定第三图像组的时长为同一行人和同一犬只同时出现的时长。

在上述第二方面的一种可能的实现中，上述装置还包括，所述判断模块通过以下方式确定第三图像组中的行人是否为犬只的主人包括：

在所述比值大于数量阈值的情况下，确定所述第三图像组中的行人是犬只的主人。

在上述第二方面的一种可能的实现中，上述装置还包括，所述判断模块通过以下方式确定第三图像组中的行人是否为犬只的主人还包括：

在上述第二方面的一种可能的实现中，上述装置还包括，所述识别模块从所述第一图像组中选取出同时包含犬只和行人的图像，得到第二图像组包括：

从第一图像组选取一张图像，通过行人检测算法检测该图像中是否有行人，并通过犬只检测算法检测该图像中是否有犬只。

在上述第二方面的一种可能的实现中，上述装置还包括，所述获取模块从视频中获取多个帧图像得到第一图像组，包括：从所述视频中提取关键帧，组成第一图像组。

在上述第二方面的一种可能的实现中，上述装置还包括，所述获取模块从视频中获取多个帧图像得到第一图像组，包括：从所述视频中预定时间间隔提取视频帧，组成第一图像组。

第三方面，本申请实施里提供了一种计算机可读介质，所述可读介质上存储有指令，该指令在机器上执行时使机器执行上述任一方面的图像识别方法。

第四方面，本申请实施里提供了一种系统，所述系统包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，是系统的处理器之一，用于执行上述任一方面的图像识别方法。

附图说明

图1根据本申请的一些实施例，示出了一种犬只识别装置结构示意图。

图2根据本申请的一些实施例，示出了一种行人犬只检测框示意图。

图3根据本申请的一些实施例，示出了一种行人犬只检测框示意图。

图4根据本申请的一些实施例，示出了图像识别的方法流程图。

图5根据本申请的一些实施例，示出了一种系统的框图。

图6根据本申请一些实施例，示出了一种片上系统(SoC)的框图。

具体实施例

本申请的说明性实施例包括但不限于图像识别方法及其装置、计算机可读介质和系统。

可以理解，如本文所使用的，术语“模块”可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。

可以理解，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

下面将结合附图对本申请的实施例作进一步地详细描述。

根据本申请的一些实施例，图1示意性示出了一种犬只识别装置100示意图。如图1所示，犬只识别装置100包括获取模块101、识别模块102、判断模块103和输出模块104。其中，获取模块101获取一段视频，通过对视频解帧得到图像组a。

需要说明的是，可以通过视频关键帧提取算法提取视频中的关键帧获得图像组a，或者以预定时间间隔提取视频中的视频帧得到图像组a。

获取模块101将图像组a发送给识别模块102，识别模块102首先通过图像识别技术识别出图像组a中同时包含犬只和行人的图像，这些同时包含犬只和和行人的图像组成图像组b。再根据图像匹配技术识别出图像组b中同一行人和同一犬只的图像，这些包含同一行人和同一犬只的图像组成图像组c。应当理解的是，图像组a、b、c中的相邻两张帧图像的时间间隔相同，所以，图像组a、b、c的时长为图像组中所有相邻两张帧图像的时间间隔之和。

例如，图像组a是从视频中抽取1001张图像，且相邻两张图像的时间间隔为0.04秒，则图像组a的时长为40秒，图像组b从图像组a中抽取的是501张，则图像组b的时长为20秒，图像组c又从图像组b中抽取251张，则图像组c的时长为10秒。

需要说明的是，图像组的时长计算可以通过时间间隔获取，还可以通过图像组中的最后一张图像和第一张图像的时间标签的差得到，例如，在图像组a中，第一帧图像的时间标签为1:01，表示为1分01秒这一时刻，最后一帧图像的时间标签为5:01,表示5分01秒这一时刻，那么图像组a的时长为4分钟。同理，图像组b和c的时长也可以通过同样的方式得到，在此不作赘述。

需要说明的是，图像识别技术包含犬只检测算法和行人检测算法，下面以犬只检测算法为例说明如何检测出图像组a中的犬只，行人检测算法与犬只检测算法相似，在本申请实施例中不作赘述。犬只检测算法过程如下：

首先图像组b中的视频帧通过候选检测模块，检测出疑似犬只的检测框，接着对所有疑似犬只的检测框，通过误报过滤模块，去除误报留下可靠的犬只的检测框，然后对于各个视频帧中的犬只检测框，通过Tracking算法补全检测到帧间的犬只，并合并各视频帧中同一检测到的犬只到一个Tracking中，最后输出所有检测到的犬只。

需要说明的是，检测候选模块使用的算法是一个基于神经网络的目标检测算法，如SSD，Faster RCNN，YOLO等，通过该算法从视频帧中检测出犬只所在的区域，获得候选犬只检测框。

获得候选检测模块检测的候选犬只检测框，外扩犬只检测框并截取一定大小的ROI ROI(Region OF Interest,感兴趣区域)图像，其中，机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。将此ROI图像输入一个分类卷积神经网络中，网络将区分犬只和非犬只，从而将正例和负例区分，误报过滤模块通过的检测框，则认为是该帧上最后该输出的结果。

对于各个视频帧，犬只的位置和大小范围通过上述模块进行，而其他帧则通过目标追踪算法，获得各非关键帧中的犬只的位置，Tracking算法可以是KCF(KernelizedCorrelation Filters，核化相关滤波器)、卡尔曼滤波等。

根据识别模块102识别出同时出现的同一行人和同一犬只的图像组成图像组c,判断模块103首先判断图像组c中的行人是否为犬只的主人。一种方法是判断图像组c中的图像的数量与图像组b中的图像的数量的比值是否大于数量阈值，如果该比值大于数量阈值，则图像组c中的行人是犬只的主人。

示例性的，图像组b中有1000帧图像，图像组c中有900帧图像,数量阈值为50％，则图像组c中的图像的数量与图像组b中的图像的数量的比值为90％，大于数量阈值50％，可以判定图像组c中的行人是犬只的主人。或者，图像组b中有1000帧图像，图像组c中有100帧图像,数量阈值为50％，则图像组c中的图像的数量与图像组b中的图像的数量的比值为10％，小于数量阈值50％，可以判定图像组c中的行人不是犬只的主人。

另一种方法是选取图像组c中的一张图像，将行人ROI外扩，然后获得其与犬只ROI的重叠区域，判断重叠区域与犬只ROI的比值是否大于犬只控制阈值。或者，将图像中的犬只ROI外扩，然后获得其与行人ROI的重叠区域，判断重叠区域与行人ROI的比值是否大于行人控制阈值。本申请实施例通过外扩行人ROI检测框，获得与犬只ROI的重叠区域，从而进行犬只识别，方法简单，犬只识别率高。

示例性的，如图2所示，示出了包括犬只的犬只检测框201和包括行人的行人检测框202，将行人检测框以1:2的比例外扩后的得到行人检测框203，从图2中可以看出，犬只检测框201和行人检测框203有重叠区域，并且重叠区域占犬只检测框201的比值为30％，假设犬只控制阈值为20％，则重叠区域与犬只检测框的比值大于犬只控制阈值，因此，可以认为犬只检测框201对应的犬只和行人检测框202对应的行人在一起，行人是犬只的主人。

示例性的，如图3所示，犬只检测框201以1:2的比例外扩后得到犬只检测框204，其与行人检测框202有重叠区域，并且重叠区域占行人检测框的10％，假设行人控制阈值为5％，则重叠区域与行人检测框202的比值大于行人控制阈值，因此，也可以认为犬只检测框201对应的犬只和行人检测框202对应的行人在一起，行人是犬只的主人。

需要说明的是，虽然图2和图3中示出了1个犬只和一个行人，但实际上图像中可以包括任意数量的犬只和行人，图2中以1:2的比例外扩行人检测框，也可以以替他比例外扩行人检测框，图3中以1:2的比例外扩犬只检测框，也可以以替他比例外扩犬只检测框。图2和图3中的行人ROI和犬只ROI以矩形检测框表示，也可以以其他形式的检测框表示，例如椭圆、不规则图形等。

判断模块103判断出图像组c中的行人是犬只的主人，则图像组c的时长为同一行人和同一犬只同时出现的时长，接着判断模块103判断同一行人和同一犬只同时出现的时长与图像组a的时长的比值是否满足预设条件，其中，预设条件是同一犬只和同一行人同时出现的时长与图像组a的时长的比值大于时间阈值。

示例性的，由获取模块101可知，图像组a的时长为10分钟，如果在图像组a中，行人和犬只同时出现的时长为9分钟，也就是说，有90％的时间同一行人和犬只出现在图像组a中，满足预设条件(例如，时间阈值为50％)，如果在图像组a中，同一行人和同一犬只同时出现的时长为1分钟，只有10％的时间同一行人和犬只出现在图像组a中，不满足预设条件。

判断模块103将判断的结果发送给输出模块104，输出模块104根据判断的结果，输出犬只是否为流浪犬。例如，在视频帧a(10分钟)中，犬只检测框201和行人检测框202有90％的时间(9分钟)都是同时出现，满足预设条件(时间阈值为50％)，则输出模块104输出犬只检测框202对应的犬只受人控制，该犬只不是流浪犬。反之，如果在视频帧a(10分钟)中，犬只检测框201和行人检测框202只有10％的时间(1分钟)是同时出现，则不满足预设条件(时间阈值为50％)，则输出模块104输出犬只检测框202对应的犬只不受人控制，该犬只是流浪犬。

根据本申请的一些实施例，图4示意性示出了一种图像识别的方法流程图，图中实现方法的功能模块可以通过上述实施例中的模块实现，具体包括：

(1)从视频中获取多个帧图像得到第一图像组(401)；根据获取的视频，通过提取视频中的关键帧获得第一图像组，或者从视频中预定时间间隔提取视频帧获得第一图像组。

(2)从第一图像组中选取同时包括犬只和行人的图像，得到第二图像组(402)；再根据图像匹配技术识别出第二图像组中同一行人和同一犬只的图像，组成第三图像组，其中，第一、第二和第三图像组中相邻帧图像的时间间隔相同，图像组的时长为图像组中所有相邻帧图像的时间间隔之和。图像识别技术包括行人检测算法和犬只检测算法，通过这两种算法识别出同时包含犬只和行人的图像组成第二图像组。以犬只检测算法为例，首先对第一图像组中的视频帧通过候选检测模块，检测出疑似犬只的检测框，接着对所有疑似犬只的检测框，通过误报过滤模块，去除误报留下可靠的犬只的检测框，然后对于各个视频帧中的犬只检测框，通过Tracking算法补全检测到帧间的犬只，并合并各视频帧中同一检测到的犬只到一个Tracking中，最后输出所有检测到的犬只。

(3)根据第二图像组，确定同一犬只和同一行人同时出现的时长与第一图像组的时长之间的关系是否满足预定条件(403)；首先判断第三图像组中的行人是否为犬只的主人，一种方法是判断第三图像组中的图像数量与第二图像组中图像的数量是否大于数量阈值，如果大于数量阈值，确定第三图像组中的行人是犬只的主人。另一种方法是从第三图像组中选取一张图像，然后将行人ROI外扩，获得其与犬只ROI的重叠区域，判断重叠区域与犬只ROI的比值是否大于控制阈值，如果大于控制阈值，则犬只和行人同时出现，行人是犬只的主人。或者，将图像中的犬只ROI外扩，然后获得其与行人ROI的重叠区域，判断重叠区域与行人ROI的比值是否大于控制阈值，如果大于控制阈值，则行人是犬只的主人。

如果判断第三图像组的行人是犬只的主人，则第三图像组的时长是同一犬只和同一行人同时出现的时长，然后判断同一犬只和同一行人同时出现的时长与所述第一图像组的时长之间的关系是否满足预定条件，其中，预设条件为同一犬只和同一行人同时出现的时长与第一图像组的时长的比值大于时间阈值。

(4)输出犬只是否为流浪犬的结果，如果同一犬只和同一行人同时出现的时长与第一图像组的时长之间的比值不满足预定条件，则判定犬只为流浪犬(404)，如果同一犬只和同一行人同时出现的时长与第一图像组的时长之间的比值满足预定条件，则判定犬只不是流浪犬(405)。

现在参考图5，所示为根据本申请的一个实施例的电子设备500的框图。图5示意性地示出了根据多个实施例的示例电子设备500。在一个实施例中，电子设备500可以包括一个或多个处理器504，与处理器504中的至少一个连接的系统控制逻辑508，与系统控制逻辑508连接的系统内存512，与系统控制逻辑508连接的非易失性存储器(NVM)516，以及与系统控制逻辑508连接的网络接口520。

在一些实施例中，处理器504可以包括一个或多个单核或多核处理器。在一些实施例中，处理器504可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在电子设备500采用eNB(Evolved Node B，增强型基站)101或RAN(Radio Access Network，无线接入网)控制器102的实施例中，处理器504可以被配置为执行各种符合的实施例，例如，如图1-4所示的多个实施例中的一个或多个。

在一些实施例中，系统控制逻辑508可以包括任意合适的接口控制器，以向处理器504中的至少一个和/或与系统控制逻辑508通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑508可以包括一个或多个存储器控制器，以提供连接到系统内存512的接口。系统内存512可以用于加载以及存储数据和/或指令。在一些实施例中电子设备500的内存512可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器516可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器516可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM/存储器516可以包括安装电子设备500的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口520通过网络访问NVM/存储516。

特别地，系统内存512和NVM/存储器516可以分别包括：指令524的暂时副本和永久副本。指令524可以包括：由处理器504中的至少一个执行时导致电子设备500实施如图2-4所示的方法的指令。在一些实施例中，指令524、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑508，网络接口520和/或处理器504中。

网络接口520可以包括收发器，用于为电子设备500提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口520可以集成于电子设备500的其他组件。例如，网络接口520可以集成于处理器504的，系统内存512，NVM/存储器516，和具有指令的固件设备(未示出)中的至少一种，当处理器504中的至少一个执行所述指令时，电子设备500实现如图1-4所示的方法。

网络接口520可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口520可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器504中的至少一个可以与用于系统控制逻辑508的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器504中的至少一个可以与用于系统控制逻辑508的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

电子设备500可以进一步包括：输入/输出(I/O)设备532。I/O设备532可以包括用户界面，使得用户能够与电子设备500进行交互；外围组件接口的设计使得外围组件也能够与电子设备500交互。在一些实施例中，电子设备500还包括传感器，用于确定与电子设备500相关的环境条件和位置信息的至少一种。

在一些实施例中，用户界面可包括但不限于显示器(例如，液晶显示器，触摸屏显示器等)，扬声器，麦克风，一个或多个相机(例如，静止图像照相机和/或摄像机)，手电筒(例如，发光二极管闪光灯)和键盘。

在一些实施例中，外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。

在一些实施例中，传感器可包括但不限于陀螺仪传感器，加速度计，近程传感器，环境光线传感器和定位单元。定位单元还可以是网络接口520的一部分或与网络接口520交互，以与定位网络的组件(例如，全球定位系统(GPS)卫星)进行通信。

根据本申请的实施例，图6示出了一种SoC(System on Chip，片上系统)600的框图。在图6中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图6中，SoC 600包括：互连单元650，其被耦合至应用处理器66；系统代理单元670；总线控制器单元680；集成存储器控制器单元640；一组或一个或多个协处理器620，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元630；直接存储器存取(DMA)单元660。在一个实施例中，协处理器620包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

从视频中获取多个帧图像得到第一图像组；

2.根据权利要求1所述的方法，其特征在于，所述预定条件包括：

3.根据权利要求2所述的方法，其特征在于，通过以下方式确定同一行人和同一犬只同时出现的时长：

确定所述第三图像组中的行人是否为犬只的主人；

4.根据权利要求3所述的方法，其特征在于，所述确定第三图像组中的行人是否为犬只的主人包括：

5.根据权利要求3所述的方法，其特征在于，所述确定第三图像组中的行人是否为犬只的主人还包括：

6.根据权利要求3所述的方法，其特征在于，所述确定第三图像组中的行人是否为犬只的主人还包括：

7.根据权利要求1所述的方法，其特征在于，所述从所述第一图像组中选取出同时包含犬只和行人的图像，得到第二图像组包括：

8.一种图像识别装置，其特征在于，包括：

获取模块，用于从视频中获取多个帧图像得到第一图像组；

9.一种计算机可读介质，其特征在于，所述可读介质上存储有指令，该指令在机器上执行时使机器执行权利要求1至7中任一项的图像识别方法。

10.一种系统，其特征在于，包括：

处理器，是系统的处理器之一，用于执行权利要求1至7中任一项的图像识别方法。