CN110298210B

CN110298210B - 一种基于视觉进行异常判断的方法和装置

Info

Publication number: CN110298210B
Application number: CN201810233794.4A
Authority: CN
Inventors: 张彦刚
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2022-07-19
Anticipated expiration: 2038-03-21
Also published as: CN110298210A

Abstract

本申请公开了一种基于视觉进行异常判断的方法和装置，应用于智能机器人中，其中所述基于视觉进行异常判断的方法包括：获取场景图像；将所述场景图像输入到基于空间金字塔池化的卷积神经网络，通过所述基于空间金字塔池化的卷积神经网络中的卷积神经网络提取所述场景图像的特征图，由所述基于空间金字塔池化的卷积神经网络中的空间金字塔池化网络对所述特征图进行空间金字塔池化处理，获得预设维数特征向量；将所述预设维数的特征向量输入到预先训练的异常检测器，根据所述异常检测器的检测结果确定是否发生异常情况。

Description

一种基于视觉进行异常判断的方法和装置

技术领域

本申请涉及图像处理和智能机器人技术领域，特别是涉及一种基于视觉进行异常判断的方法和装置。

背景技术

智能机器人在执行任务的过程中经常需要与周围场景发生各种类型的交互动作。这往往需要智能机器人预先判断当前的场景条件是否满足执行后续动作的条件，是否需要停止当前工作任务进行异常处理，例如：通过调整自身的位置或姿态满足执行后续动作的条件。异常判断是智能机器人具备初步“智能”的基础，如果异常判断的方法不能迅速准确地反馈判断结果，会造成机器人的空运行，表现为机器人交互动作生硬呆板，用户使用体验差。

在现有的工业机器人的工作场景中，异常判断通常需要借助外部传感设备获取机器人与作业对象和/或周围场景的关系参数。通过机器人内置的规划算法根据传感设备获取的相关参数进行异常判断，所述算法包括路径规划、抓取规划和细微运动规划等。采用传统方法进行异常判断的工业机器人，需要在设计时就根据具体要执行的任务、机器人的结构尺度和工作场景的具体情况确定传感器的位置和种类，所述传感器包括触觉传感器、视觉传感器、压力传感器、距离传感器、超声波传感器或听觉传感器等。传统方法只能实现在固定场景下的异常判断，无法适应随机场景或复杂场景。

为了克服传统方法的局限性，出现了基于视觉进行异常判断的方法，该方法通过实时获取当前工作场景的图像利用通用的分类网络实现正常和/或异常场景的判断。但这种方法要求输入固定大小的图像，且输入的图像需要经过裁剪或扭曲，经裁剪的图像可能不包含完整的检测对象，经扭曲的图像可能发生几何失真，这都会损害判断结果的准确性。此外，上述方法要求被检测对象在整张图像中占据比较大的比例，这一要求限制了该方法的应用场景。尤其是需要在一个较大的场景内以某一较小的被检测对象作为异常和/或正常的判断标准的情况下，由于提供关键信息的被检测对象在整张图像中所占比例较小，经常会导致分类算法失效，最终无法得到正确的判断结果。

发明内容

为了解决现有技术中存在的问题，发明人构思了一种基于视觉进行异常判断的方法、装置、智能设备和存储介质。根据本申请的基于视觉进行异常判断的方法能够在大范围场景下稳定地提取到关键特征，从而增强分类模型的识别泛化能力，克服现有技术的局限性。

本申请公开了一种基于视觉进行异常判断的方法，应用于智能机器人中，所述方法包括：

获取场景图像；

将所述场景图像输入到基于空间金字塔池化的卷积神经网络按照预设维数提取所述场景图像的全图特征向量并输出；

将所述场景图像的全图特征向量输入到预先训练的异常检测器，根据所述分类模型的分类结果确定是否发生异常情况。

可选地，所述基于空间金字塔池化的卷积神经网络包括一个或多个卷积层和连接到最后一个卷积层之后的空间金字塔池化层，所述将所述场景图像输入到基于空间金字塔池化的卷积神经网络得到预设维数的特征向量包括：

将所述场景图像输入到所述基于空间金字塔池化的卷积神经网络；

所述一个或多个卷积层将所述场景图像转化为特征图，并且由最后一个卷积层将所述特征图输出至所述空间金字塔池化层；

所述空间金字塔池化层对所述场景图像的特征图进行空间金字塔池化处理，按照预设的规则对所述特征图提取特征，得到预设维数的特征向量。

在本申请的一实施例中，所述获取场景图像包括：

接收获取场景图像的触发指令；

根据所述触发指令获取对应的场景图像。

可选地，所述获取场景图像包括：

按照预定的视频采集规则获取任务视频；

从所述任务视频中采集一帧或多帧画面作为所述场景图像。

本申请的一实施例中，在从所述任务视频中采集一帧或多帧画面作为所述场景图像包括：

将所述任务视频输入预先训练的任务解译模型中确定所述任务视频所执行的任务类型；

根据所确定的任务类型按照预定的视频采集序列从所述任务视频中采集视频帧作为所述场景图像。

在本申请的一实施例中，根据所确定的所述任务视频所执行的任务类型，检索并调用与所述任务类型匹配的异常检测器。

在本申请的一实施例中，

所述将所述任务视频输入预先训练的任务解译模型中确定所述任务视频所执行的任务类型包括：

通过卷积神经网络提取所述任务视频中的特征向量；

将所述特征向量输入到预先训练的循环神经网络模型中，对所述特征向量进行处理，得到所述任务视频的标签，所述标签用于对所述任务视频的内容进行分类；

根据所述标签确定所述任务视频所执行的任务类型并输出。

在本申请一实施列中，

通过卷积神经网络提取所述任务视频中的特征向量；

根据所述标签确定所述任务视频所执行的任务类型并输出。

可选地，所述异常检测器由全连接神经网络实现。

可选地，采用所述基于空间金字塔池化的卷积神经网络提取训练所述异常检测器所需的样本图像的特征向量。

本申请还公开了一种基于视觉进行异常判断的装置，设置于智能机器人中，所述装置包括：

获取模块，被配置为获取场景图像；

图像处理模块，被配置为将所述场景图像输入到基于空间金字塔池化的卷积神经网络得到预设维数特征向量；

异常检测模块，被配置为将所述预设维数的特征向量输入到预先训练的异常检测器，根据所述异常检测器的检测结果确定是否发生异常情况。

在本申请一实施例中，所述获取模块被配置为：

接收获取场景图像的触发指令；

根据所述触发指令获取对应的场景图像。

在本申请的一实施例中，所述获取模块还被配置为：

按照预定的视频采集规则获取任务视频；

从所述任务视频中采集一帧或多帧画面作为所述场景图像。

在本申请一实施例中，所述装置还包括：

任务解译模块，被配置为在从所述任务视频中采集一帧或多帧画面作为所述场景图像包括将所述任务视频输入预先训练的任务解译模型中确定所述任务视频所执行的任务类型；

所述获取模块，被配置为根据所确定的任务类型按照预定的视频采集序列从所述任务视频中采集视频帧作为所述场景图像。

在本申请一实施例中，所述任务解译模块被配置为：

通过卷积神经网络提取所述任务视频中的特征向量；

根据所述标签确定所述任务视频所执行的任务类型并输出。

本申请还公开了一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现前述的基于视觉进行异常判断的方法。

本申请还公开了一种可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现前述的基于视觉进行异常判断的方法。

根据本申请的基于视觉进行异常判断的方法、装置、智能设备和存储介质能够在大范围场景下稳定地提取到关键特征，增强分类模型的识别泛化能力，实现快速准确的正常和/或异常场景的判断，改善机器人交互动作的表现，提升用户的使用体验。

附图说明

图1是本申请一实施例的基于视觉进行异常判断的方法的流程示意图；

图2是本申请一实施例中基于视觉进行异常判断的方法的流程示意图；

图3是本申请一实施例的具有空间金字塔池化层的卷积神经网络的结构示意图；

图4是本申请一实施例中基于视觉进行异常判断的方法的流程示意图；

图5是一实施例中基于视觉进行异常判断的方法的流程示意图；

图6是本申请一实施例的基于视觉进行异常判断的装置的结构示意图；

图7是本申请另一实施例的基于视觉进行异常判断的装置的结构示意图；

图8是本申请一具体实施例的智能设备的结构示意图；

具体实施方式

下面结合附图通过实施例来阐述本申请的细节，这样更有利于理解本申请的内容，但本申请能够以多种不同于具体实施例的方式来实施，本领域技术人员可以在不违背本申请内涵的情况下结合现有技术做类似推广，因此本申请不受以下公开的具体实施方式的限制。

在本申请中，“第一”、“第二”、“第三”等仅用于彼此的区分，而非表示重要程度及顺序、以及互为存在的前提等。

在本申请中，提供了一种基于视觉进行异常判断的方法、装置、智能设备和存储介质，在下面的实施例中逐一进行详细说明。

在本申请一实施例中公开了一种基于视觉进行异常判断的方法，应用于智能机器人中，所述方法包括：

步骤101：获取场景图像；

步骤102：将所述场景图像输入到基于空间金字塔池化的卷积神经网络得到预设维数特征向量；

步骤103：将所述预设维数的特征向量输入到预先训练的异常检测器，根据所述异常检测器的检测结果确定是否发生异常情况。

异常判断常被应用于确认目标对象是否存于当前场景中和目标对象是否被放置在预定的位置上。例如，在一个具体应用中，智能机器人的任务是收取桌面上的杯子，在这个任务中异常判断的核心就在于确认桌面上是否放置有待收取的杯子，若桌面上不存在待收取的杯子则确定为异常情况，不执行抓取杯子的动作。在该任务中，“杯子”作为异常判断的目标对象可能被放置在桌面的任意位置上，机器人通过摄像头获取桌面范围的场景图像，由于拍摄角度和距离远近的差异，目标对象“杯子”在场景图像中可能会发生平移或尺寸变化，根据本申请的异常判断的方法的场景图像的特征提取算法能够保证一定范围内的平移不变性和尺度不变性，即图像中的目标对象“杯子”发生平移或者尺度发生变化的情况下，卷积层能提取到相同的有效特征，因此分类模型依然能够对图像特征进行精确分类确定是否发生异常情况。为了达到这一目的，在该实施例中采用多层卷积神经网络提取场景图像特征，从而得到所述场景图像的特征图，之后通过空间金字塔池化网络对所述特征图进行空间金字塔池化处理，按照预先定义的区块的大小，对特征图进行分割，从而获得特定维度的特征向量。该方法实现了对图像特征的多尺度分析，提高了异常检测器判断结果的准确性。

卷积神经网络(Convolutional Neural Network)的强大之处在于它的多层卷积结构具有强大的自动学习特征的能力。多个卷积层能够学习到多个层次的特征，其中较浅的卷积层感知域较小，能够学习到图像局部区域的一些特征，而较深的卷积层具有较大的感知域，能够学习到更加抽象一些的特征。这些抽象特征对目标对象的大小、位置和方向等敏感性更低，有助于识别性能的提高。而且这些抽象的特征也能够很好地帮助分类模型判断场景图像中包含什么类别的目标对象，从而快速准确地确定是否有异常情况发生。

在一个具体应用中，机器人可以通过摄像头获取一张任意大小的图像后，对该图像一直进行卷积、池化，直到即将与全连接层连接的时候连接空间金字塔池化层，所述空间金字塔池化层能够将任意大小的特征图转换成固定大小的特征向量，这就是引入空间金字塔池化技术的意义，即，实现多尺度特征提取并输出固定大小的特征向量。由于空间金字塔池化技术将图像分割成不同大小的分割块，并提取每个分割块中的特征，这样就可以根据不同块的有效特征进行分类，只要在任何一个分割块中存在有效特征，最终就能得到正确的分类结果。结合了空间金字塔池化技术的卷积神经网络，对于获取到的场景图像大小是否一样没有要求。由于具有输入图像尺度的灵活性，不仅能够解决多尺度图像的训练问题，更重要的是能够克服因获取图像的距离和角度不同导致目标对象尺度不同对特征提取的影响，保证算法能够从场景图像中提取到有效的特征信息作为分类的依据。

在本申请一实施例中提供了一种基于视觉进行异常判断的方法，其中，基于空间金字塔池化的卷积神经网络包括一个或多个卷积层和连接到最后一个卷积层之后的空间金字塔池化层，所述方法包括：

步骤201：获取场景图像；

步骤202：将所述场景图像输入到所述基于空间金字塔池化的卷积神经网络；

步骤203：所述一个或多个卷积层将所述场景图像转化为特征图，并且由最后一个卷积层将所述特征图输出至所述空间金字塔池化层；

步骤204：所述空间金字塔池化层对所述场景图像的特征图进行空间金字塔池化处理，按照预设的规则对所述特征图提取特征，得到预设维数的特征向量；

步骤205：将所述预设维数的特征向量输入到预先训练的异常检测器，根据所述异常检测器的检测结果确定是否发生异常情况。

以下结合图3中示出的一个基于空间金字塔池化的卷积神经网络300的具体例子详细描述将所述场景图像输入到基于空间金字塔池化的卷积神经网络中如何按照预设维数提取所述场景图像的特征向量的方法步骤。

首先需要建立一个基于空间金字塔池化的卷积神经网络300，所述基于空间金字塔池化的卷积神经网络300可以包括一个或多个卷积层302、连接到最后一个卷积层之后的空间金字塔池化层303和连接在所述空间金字塔池化层303之后的全连接层306。

机器人将通过摄像头获取到的场景图像301输入到预先建立好的基于空间金字塔池化的卷积神经网络300。

之后由多个卷积层302将所述场景图像301转化为特征图并输出至所述空间金字塔池化层303。所述卷积层302不但可接受任意尺度的图像，也可产生任意可变尺度的输出。

所述空间金字塔池化层303对接收到的所述场景图像301的特征图进行空间金字塔池化处理，按照预设维数将所述场景图像的特征图转化为多个固定长度的特征向量并输出至所述全连接层306。在图3中，空间金字塔层303对输入的场景图像的特征图进行了三种不同尺寸的分割，每一种分割代表金字塔的一层，第一层中包含16个区块，第二层中包含4个区块，第三层中包含1个区块，由此总共得到21个区块，从这21个区块中各提取出一组特征，这样就得到21维特征向量，其中每组特征的大小与卷积层的卷积核数量有关。以空间金字塔进行最大池化的过程为例，其实就是保留这21各个区块中的最大值，从而将一张任意大小的特征图转换成了固定大小的21维特征向量。实际应用中可以根据实际需要设计出其它维数的输出，增加金字塔的层数，或者改变分割网格的大小。预设维数，就是指预先自定义了各个区块的大小，所以得到的特征向量是特定维度的，定义了块的大小和分割的方式，就确定了特征维度和空间金字塔池化层的输出神经元个数。

最后，由空间金字塔池化层的输出的将所述预设维数的特征向量输入到预先训练的异常检测器，即全连接层306，根据所述异常检测器的检测结果确定是否发生异常情况。

通过空间金字塔池化层303对卷积层302提供的特征图进行多层抽象和提取，特征向量的维度与输入的特征图像的尺寸无关，只与分割区块的数量有关，因此两个包含大小不同的相同目标对象的场景图像在进行分类的时候能够被准确地的分类为同一结果。

在本申请一实施例中还提供了一种基于视觉进行异常判断的方法，该方法包括与图1所示的实施例相同的步骤102和步骤103，其中，步骤101可以通过图4示出步骤401至402实现。

步骤401：按照预定的视频采集规则获取任务视频；

步骤402：从所述任务视频中采集一帧或多帧画面作为所述场景图像。

实际应用中，往往无法仅依据一个场景图像就判断出是否发生异常情况，例如，机器人执行按按钮的任务的同时通过自身配置的摄像头拍摄一段任务视频，在该视频后段采集几帧场景图像用于判断按下按钮的动作完成后按钮的指示灯是否亮起，用于确定机器人是否正确执行了按按钮的任务。通过基于空间金字塔池化的卷积神经网络按照预设维数从这些场景图像提取特征向量序列并输入到预先训练的异常检测器中，如果得到的分类结果是指示灯没有亮起，则确定机器人没有完成该任务属于异常情况，机器人转为执行异常处理流程。从所述任务视频中采集一帧或多帧画面作为所述场景图像的技术方案，尤其适用于无法预先确定获取场景图片的最佳时刻的情况，例如不知道任务开始或结束的具体时刻的情况。

在本申请的另一个实施例中，还提供了一种基于视觉进行异常判断的方法，该方法包括与图1所示的实施例相同的步骤102和步骤103，其中，步骤101可以通过图4示出步骤401至402实现，并且在步骤402还包括步骤S1和S2：

步骤S1：将所述任务视频输入预先训练的任务解译模型中确定所述任务视频所执行的任务类型；

步骤S2：根据所确定的任务类型按照预定的视频采集序列从所述任务视频中采集视频帧作为所述场景图像。

在更为复杂的任务场景中，可能需要从视频的采集一帧或多帧图像，例如从视频的前段和/或中段和/或后段中采集一帧或多帧图像，之后通过前述的异常判断的方法分别对每个图像进行特征提取后，将每个图像的特征向量序列输入到预先训练的异常检测器，根据所述分类模型的分类结果确定是否发生异常情况。例如，机器人在执行门禁检查任务时，需要进行一系列异常判断，其中最重要的两个判断是有没有人员出现在出入口范围内和该人员有没有出示门禁卡。首先，机器人需要通过摄像头每隔10秒钟获取一次出入口位置的场景图像，并按照前述的异常判断的方法判断是否有人员出现在出入口，此时目标对象是出入口场景中的“人员”，如果场景图像中识别到目标对象“人员”，则确认有人员出现在入口范围，此时机器人立即通过摄像头拍摄时长为20秒的任务视频，并且从视频的第5、10、15、20秒处分别采集一帧画面作为场景图像，之后按照前述的异常判断的方法分别对采集到的四个场景图像进行异常判断，如果判断结果是四个场景图像中都没有发现目标对象“通行证件”，则确定所述人员未出示通行证件，属于异常情况，此时智能机器人无法继续执行验证“通行证件”的正常流程，而是转为执行异常处理流程。

其中，所述步骤S1可通过图5示出的步骤501至503实现。

步骤501：通过卷积神经网络提取所述任务视频中的特征向量；

步骤502：将所述特征向量输入到预先训练的循环神经网络模型中，对所述特征向量进行处理，得到所述任务视频的标签，所述标签用于对所述任务视频的内容进行分类；

步骤503：根据所述标签确定所述任务视频所执行的任务类型并输出。

所述循环神经网络，又称为递归神经网络(Recurrent Neural Networks)，是一种具有记忆功能的神经网络，常用于用于描述时间上连续状态的输出。与传统的神经网络不同之处在于，循环神经网络的输入通常为有明显前后关系的特征序列。在本实施例中，通过卷积神经网络从任务视频的各帧画面中提取特征向量，而循环神经网络对这些特征向量进行处理，通过标签的方式对所述任务视频的内容进行分类，从而确定机器人当前实际执行的任务类型。

上述实施例提供了一种能够预先确定当前实际执行的任务类型的方法，以此为前提，就可以针对不同的任务类型制定不同任务场景中的图像采集规则，为特定任务专门训练正常和/或异常情况的分类模型，这样做不仅能得到更好的分类结果，提高根据本申请的基于视觉进行异常判断的方法的准确性，而且为智能机器人执行多类型任务提供了可能。例如，在收取杯子的任务中，需要采集视频前段的3至5帧图像用于判断杯子在不在桌面上，门禁检查任务中需要从视频的第5、10、15、20秒处分别采集一帧或多帧图像用于判断人员是否出示了通行证件，按按钮任务中需要在视频后段采集几帧图像用于判断按下按钮后状态指示灯是否亮起等。未来智能机器人能够执行更为多样的任务，即使在相同场景下也会涉及到执行不同种类的任务，因此这种设计对于执行多任务的智能机器人的异常判断特别有利，机器人能够自己学习到当前在执行什么任务，确定当前是否真实处于某个特定任务中，改善机器人交互动作的表现，提升用户的使用体验。

在一个可选的实施例中，所述异常检测器由全连接神经网络实现。

进行异常判断需要提前训练正常和/或异常情况的分类模型，经过训练获得的正常和/或异常情况的分类模型用于对具体任务中获取的场景图像进行正常和/或异常情况的分类，根据所述分类模型的分类结果确定是否发生异常情况。通过这种方式训练正常和/或异常情况的分类模型，能够省去大量数据训练的过程。通常只需从某一任务的工作流中采集少量的异常和/或正常图像，例如采集正常和异常情况的样本图像各一百至二百个，将这些正常和/或异常情况的样本图像输入到基于空间金字塔池化的卷积神经网络按照预设维数提取正常和/或异常情况的样本图像的特征向量序列，然后进行正常情况和/或异常情况的二分类训练。例如，机器人在执行为流水线添加物料的任务场景中，只有当监控台上全部5个正常状态指示灯都亮起的情况下机器人才能够继续执行后续的添加物料的动作，因此只有5个正常状态指示灯都亮起这一种情况属于正常情况。为了训练应用于该任务的判断正常和/或异常情况的分类模型，需要预先收集一定数量正常和/或异常情况的样本图像，例如，收集全部5个正常状态指示灯亮起的监控台场景图像10个和部分正常状态指示灯未亮起的监控台场景图像200个，将所述正常和/或异常情况的样本图像输入到基于空间金字塔池化的卷积神经网络按照预设维数提取正常和/或异常情况的监控台场景的样本图像的特征向量序列，基于所述监控台场景的样本图像的特征向量序列进行针对正常和/或异常情况的二分类训练，最终得到应用于为流水线添加物料的任务场景中的异常检测器。机器人实际执行为流水线添加物料的任务时，将实时获取到的场景图像的特征向量序列输入到用上述方法训练的异常检测器中，并根据所述分类模型的分类结果确定是否发生5个正常状态指示灯中一个或多个未亮起的异常情况。

此外，所述基于空间金字塔池化的卷积神经网络技术也可提取训练所述异常检测器所需的样本图像的特征向量。

将所述将正常和/或异常情况的样本图像输入到基于空间金字塔池化的卷积神经网络按照预设维数提取正常和/或异常情况的样本图像的特征向量序列的步骤与前述将所述场景图像输入到基于空间金字塔池化的卷积神经网络按照预设维数提取所述场景图像的特征向量序列并输出的步骤基本相同，在此不再赘述。采用卷积神经网络与空间金字塔池化网络相结合提取正常和/或异常情况的样本图像的特征向量的步骤中，能够克服因获取图像的距离和角度不同导致目标对象尺度不同对特征提取的影响，保证算法能够从正常和/或异常情况的样本图像中提取到有效的特征信息作为训练分类模型的依据。

本申请一实施例公开了一种如图6所示的基于视觉进行异常判断的装置600，设置于智能机器人中，所述装置600包括：

获取模块601，被配置为获取场景图像；

图像处理模块602，被配置为将所述场景图像输入到基于空间金字塔池化的卷积神经网络得到预设维数特征向量；

异常检测模块603，被配置为将所述预设维数的特征向量输入到预先训练的异常检测器，根据所述异常检测器的检测结果确定是否发生异常情况。

采用采用卷积神经网络与空间金字塔池化网络相结合，提取图像特征并对图像特征进行多尺度的分析，能够在大范围场景下稳定地提取到关键特征，增强分类模型的识别泛化能力，从而大大提高异常判断结果的正确性。

在本申请的另一个实施例中，所述获取模块601还被配置为：

按照预定的视频采集规则获取任务视频；

从所述任务视频中采集一帧或多帧画面作为所述场景图像。

实际应用中，尤其是在较为复杂的任务场景中，往往无法仅依据一个场景图像就判断出是否发生异常情况。该实施例的基于视觉进行异常判断的装置特别适合于需要反复获取多个场景图像才能实现异常判断的任务。

在本申请的另一个可选的实施例中，一种如图7所示的基于视觉进行异常判断的装置700，其中图像处理模块702和异常检测模块703与图6所示装置600的图像处理模块602和异常检测模块603完全相同，此处对其功能就不再赘述。所述装置600与前述装置600的不同之处在于：

所述装置700的获取模块701被配置为按照预定的视频采集规则获取任务视频。

此外，所述装置700还包括任务解译模块704，所述任务解译模块704任务解译模块被配置为在从所述任务视频中采集一帧或多帧画面作为所述场景图像可以是将所述任务视频输入预先训练的任务解译模型中确定所述任务视频所执行的任务类型，并将所确定的任务类型输送至所述获取模块701，所述获取模块701根据所确定的任务类型按照预定的视频采集序列从所述任务视频中采集视频帧作为所述场景图像。

由于智能机器人能够执行多种多样的任务，即使在相同场景下也会涉及到执行不同种类的任务，因此在复杂场景中有必要在先将任务视频输入到任务解译模块704中确定当前执行的任务类型，之后根据具体要执行的任务类型确定从视频中采集图像的画面时间或数量。针对各种已知的任务类型，可预先设定从视频中采集图像的规则。

在本申请的另一个实施例中，所述任务解译模块704被配置为执行以下确定所述任务视频所执行的任务的步骤：

通过卷积神经网络提取所述任务视频中的特征向量；

根据所述标签确定所述任务视频所执行的任务类型。

这种设计特别有利于机器人执行复杂任务时的异常判断，机器人能够根据任务视频自己学习到当前在执行什么任务，确定自己是否真实处于某个特定任务中，从而进一步改善机器人交互动作的表现，提升用户的使用体验。

图8是示出了根据本申请一实施例的智能设备800的结构框图。该智能设备800的部件包括但不限于存储器801和处理器802。处理器802与存储器801相连接。常见的有智能设备包括智能手机、智能音箱、智能电视、智能机器人等。

虽然图8中没有示出，但是应该知道，智能设备800还可以包括网络接口，网络接口使得智能设备800能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。智能设备可以通过网络接口访问页面。

在本申请的一个实施例中，智能设备800的上述以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的智能设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

所述存储器801上存储有计算机指令，当所述计算机指令被所述处理器802执行时，使所述处理器执行上文所述的基于视觉进行异常判断的方法。

上述实施例是对本申请的基于视觉进行异常判断的装置的说明。需要注意的是，装置的技术方案与上述的基于视觉进行异常判断的方法的技术方案属于同一构思，装置的技术方案未详细描述的细节内容，均可以参见上述基于视觉进行异常判断的方法的技术方案的描述。

本申请一实施例还提供一种可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述的基于视觉进行异常判断的方法。

需要说明的是，该存储介质的技术方案与上述的基于视觉进行异常判断的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述基于视觉进行异常判断的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于视觉进行异常判断的方法，其特征在于，应用于智能机器人中，所述方法包括：

通过卷积神经网络提取任务视频中的特征向量，将所述特征向量输入到预先训练的循环神经网络模型中，对所述特征向量进行处理，得到所述任务视频的标签，根据所述标签确定所述任务视频所执行的任务类型，通过所述任务类型对应的图像采集规则，获取场景图像，其中，针对不同的任务类型制定不同任务场景中的图像采集规则，所述标签用于对所述任务视频的内容进行分类；

将所述场景图像输入到基于空间金字塔池化的卷积神经网络，通过所述基于空间金字塔池化的卷积神经网络中的卷积神经网络提取所述场景图像的特征图，由所述基于空间金字塔池化的卷积神经网络中的空间金字塔池化网络对所述特征图进行空间金字塔池化处理，获得预设维数特征向量；

将所述预设维数的特征向量输入到预先训练的异常检测器，根据所述异常检测器的检测结果确定是否发生异常情况。

2.根据权利要求1所述的方法，其特征在于，所述基于空间金字塔池化的卷积神经网络包括一个或多个卷积层和连接到最后一个卷积层之后的空间金字塔池化层，所述将所述场景图像输入到基于空间金字塔池化的卷积神经网络得到预设维数的特征向量包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取场景图像包括：

接收获取场景图像的触发指令；

根据所述触发指令获取对应的场景图像。

4.根据权利要求1或2所述的方法，其特征在于，还包括：

按照预定的视频采集规则获取任务视频；

所述通过所述任务类型对应的图像采集规则，获取场景图像包括：

从所述任务视频中通过所述任务类型对应的图像采集规则采集一帧或多帧画面作为所述场景图像。

5.根据权利要求4所述的方法，其特征在于，在从所述任务视频中通过所述任务类型对应的图像采集规则采集一帧或多帧画面作为所述场景图像包括：

根据所述任务类型按照预定的视频采集序列从所述任务视频中采集视频帧作为所述场景图像。

6.根据权利要求5所述的方法，其特征在于，根据所述任务视频所执行的任务类型，检索并调用与所述任务类型匹配的异常检测器。

7.根据权利要求1或2所述的方法，其特征在于，所述异常检测器由全连接神经网络实现。

8.根据权利要求7所述的方法，其特征在于，采用所述基于空间金字塔池化的卷积神经网络提取训练所述异常检测器所需的样本图像的特征向量。

9.一种基于视觉进行异常判断的装置，其特征在于，设置于智能机器人中，所述装置包括：

获取模块，被配置为通过卷积神经网络提取任务视频中的特征向量，将所述特征向量输入到预先训练的循环神经网络模型中，对所述特征向量进行处理，得到所述任务视频的标签，根据所述标签确定所述任务视频所执行的任务类型，通过所述任务类型对应的图像采集规则，获取场景图像，其中，针对不同的任务类型制定不同任务场景中的图像采集规则，所述标签用于对所述任务视频的内容进行分类；

图像处理模块，被配置为将所述场景图像输入到基于空间金字塔池化的卷积神经网络，通过所述基于空间金字塔池化的卷积神经网络中的卷积神经网络提取所述场景图像的特征图，由所述基于空间金字塔池化的卷积神经网络中的空间金字塔池化网络对所述特征图进行空间金字塔池化处理，获得预设维数特征向量；

10.根据权利要求9所述的装置，其特征在于，所述获取模块被配置为：

接收获取场景图像的触发指令；

根据所述触发指令获取对应的场景图像。

11.根据权利要求9所述的装置，其特征在于，所述获取模块还被配置为：

按照预定的视频采集规则获取任务视频；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述获取模块，被配置为根据所述任务类型按照预定的视频采集序列从所述任务视频中采集视频帧作为所述场景图像。

13.一种智能设备，所述智能设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1至8中任一项所述的基于视觉进行异常判断的方法。

14.一种可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至8中任一项所述的基于视觉进行异常判断的方法。