CN109800802A

CN109800802A - 视觉传感器及应用于视觉传感器的物体检测方法和装置

Info

Publication number: CN109800802A
Application number: CN201910024672.9A
Authority: CN
Inventors: 曲晓峰; 游延筠; 张龙
Original assignee: Shenzhen Lumi United Technology Co Ltd
Current assignee: Shenzhen Lumi United Technology Co Ltd
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-05-24

Abstract

本申请公开了一种视觉传感器及应用于视觉传感器的物体检测方法和装置，该方法包括：获取目标图像；对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；将所述分析结果以非图像形式输出。本方法利用后处理操作将物体检测的分析结果以非图像形式输出，在保护用户隐私的同时可以降低视觉传感器的功耗，另外，还可以提高物体检测的准确度。

Description

视觉传感器及应用于视觉传感器的物体检测方法和装置

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种视觉传感器及应用于视觉传感器的物体检测方法和装置。

背景技术

随着电子技术的发展，视觉传感器的集成度越来越高，体积越来越小，分辨率越来越高。而不断涌现的各种算法，更是使得视觉传感器的应用领域不断拓张，传感性能不断提高。尤其是近几年深度学习算法的发展，更是将视觉传感器拓展到前所未有的应用领域。

发明内容

有鉴于此，本申请提出了一种视觉传感器及应用于视觉传感器的物体检测方法和装置，以改善上述缺陷。

第一方面，本申请实施例提供了一种物体检测方法，该方法应用于视觉传感器，该方法包括：获取目标图像；对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；将所述分析结果以非图像形式输出。

第二方面，本申请实施例提供了一种物体检测装置，该装置应用于视觉传感器，所述装置包括：图像获取模块、物体检测模块、后处理模块和输出模块。图像获取模块用于获取目标图像。物体检测模块用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果。后处理模块用于根据应用需求对所述目标物体检测结果进行后处理操作，得到分析结果。输出模块用于将所述分析结果以非图像形式输出。

第三方面，本申请实施例提供了一种视觉传感器，包括成像模组、神经网络加速器、基本模块和输出接口。成像模组用于获取目标图像。神经网络加速器用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果。基本模块用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果。输出接口用于将所述分析结果以非图像形式输出。

第四方面，本申请实施例提供了一种智能加速系统，包括视觉传感器和终端设备。所述视觉传感器包括成像模组、神经网络加速器、基本模块和输出接口，所述成像模组用于获取目标图像；所述神经网络加速器用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；所述基本模块用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；所述输出接口用于将所述分析结果以非图像形式输出，所述终端设备用于接收非图像形式输出的分析结果。

第五方面，本申请实施例提供了一种计算机系统，计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行本申请任意实施例提供的物体检测的方法。

相对于现有技术，本申请实施例提出了一种视觉传感器及应用于视觉传感器的物体检测方法和装置通过获取目标图像；对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；将所述分析结果以非图像形式输出。本申请利用后处理操作对目标物体的检测结果进行分析获得分析结果，然后将获得的分析结果以非图像形式输出，本申请通过对目标图像进行物体检测，充分利用了对图像进行物体检测具有的检测准确性高和检测效率高的优势，提高了目标识别的准确性，且根据应用需求在视觉传感器本地进行后处理操作以得到分析结果，且将所述分析结果以非图像形式输出，也即是不会有任何图像输出至外部设备，有效的保护用户的隐私。

为使本申请的上述目的、特征和优点能够更明显易懂，下文特举较佳实施例，并配合所附附图，做详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提出的一种网络系统的结构示意图；

图2示出了本申请一个实施例提出的一种物体检测方法流程图；

图3示出了本申请一个实施例提出的一种物体检测方法中步骤S130的具体流程图；

图4示出了本申请一个实施例提出的一种物体检测方法中步骤S140的具体流程图；

图5示出了本申请另一个实施例提出的一种物体检测方法流程图；

图6示出了本申请另一个实施例提出的一种物体检测方法中步骤S221的具体流程图；

图7示出了本申请另一个实施例提出的一种物体检测方法中Faster R-CNN的结构示意图；

图8示出了本申请另一个实施例中Faster R-CNN进行物体检测的具体流程图；

图9示出了本申请又一个实施例提出的一种物体检测方法流程图；

图10示出了本申请又一个实施例提出的一种物体检测方法中步骤S331的具体流程图；

图11示出了本申请实施例提出的一种物体检测装置的结构框图；

图12示出了本申请实施例提出的一种视觉传感器的结构框图；

图13示出了本申请实施例提出的一种视觉传感器的基本模块的具体结构框图；

图14示出了本申请实施例提出的一种智能家居系统的结构框图；

图15示出了本申请实施例提出的用于保存或者携带实现根据本申请实施例的物体检测方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号或字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为了便于详细说明本申请方案，下面先将结合附图对本申请的系统进行介绍。

本申请下述实施例如无特别说明均可应用于如图1所示的系统10中，该系统10可以包括视觉传感器13、服务器12和终端设备11。其中，视觉传感器13可以连接到服务器12进行信息的传输，视觉传感器13可以包括成像模组、基本模块、神经网络加速器以及输出接口。成像模组可以用来获取图像；基本模组是传统摄像机基本的组成模块，其可以包括中央处理器、图像信号处理以及内存等；神经网络加速器是在硬件产品本地进行加速深度学习运算必不可少的硬件基础，可以将其用于物体检测、物体识别或者物体跟踪等；输出接口是运算结果输出通道，其可以是简单的GPIO、工业标准的串口RS232\RS485、局部现场总线CAN等、以太网和无线以太网、智能家居常见的无线通讯接口2.4Ghz/zigbee/蓝牙等、无线USB、或者其它物理接口。另外，在一种实施方式中，视觉传感器13内部集成有网关模块。

终端设备11可以是手机、平板电脑、PC(personal computer)电脑、笔记本电脑、电子阅读器、智能电视、车载终端等。视觉传感器13与服务器12相连，本实施例中目标物体可以在视觉传感器13的拍摄范围内，也可以不在视觉传感器13的拍摄范围内，具体可以根据实际情况而定，终端设备11可以通过网络与服务器12和视觉传感器13相连，其也可以直接与视觉传感器13连接，具体如何连接这里不进行明确限制。

传感器应用范围广泛，从日常家用的温度计，到工业上的位移、距离，到交通方面的车辆、行人等，显然现在传感器应用的主要趋势是非接触、非侵入、高准确性以及高响应速度。但是，现有的传感器中却没有一个可以适用于图像或视频的传感器，这也使得很多和图像或视频相关的安全和隐私得不到很好的保护，即便一些传感器可以用于图像或视频的处理，但是也是勉强使用的。例如，目前基于红外的人体传感器，误报率高，准确性差，功能单一，不能做到很好的保护用户的安全。

通过上述可以知道现有的非视觉的传感器多存在性能不稳定，功能局限的问题。例如，人体传感器，采用红外感应检测待测定区域内是否有人，但是若是存在火灾或者动物时，其依旧输出有人的检测结果，存在着误报，性能不稳定的问题。为了解决非视觉传感器的问题视觉传感器应用而生了，现有的视觉传感将摄像机作为传感器，但是现有的视觉传感器也存在着两个主要问题，一是本地比较难完成运算，图像和视频需要传输到云端或者服务中心进行运算，中间容易出现用户信息或隐私被窃取的情况；二是图像和视频数据是通过比较简单的软件和/或硬件进行传输的，如此不能充分保护用户的隐私，并且数据很容易被窃取。

因此，为了克服上述缺陷，如图2，本申请实施例提供了一种物体检测方法，该方法应用于视觉传感器，作为一种实施方式，本方法的执行主体可以是视觉传感器，该方法包括步骤S110至步骤S140。

步骤S110：获取目标图像。

视觉传感器利用图像获取模块获取目标图像，所述图像获取模块可以包括红外摄像头、彩色摄像头等，图像获取模块的具体类型在本申请实施例中并不作为限定，目标图像中既可能包括目标物体，也可能不包括目标物体。在一个实施例中，目标图像可以为帧间图像，主要原因是图像获取模块获取的资源为视频资源，图像获取模块将获取的视频资源以帧间图像的形式传输至物体检测模块，因此，物体检测模块接收到的目标图像可以为是视频资源的最新一帧图像。需要说明的是，本实施例中的视频资源可以是实时视频也可以是历史视频，实时视频是指通过图像获取模块实时获取的视频，而历史视频则是指经过图像获取模块获取存储于视觉传感器中的视频，历史视频也可以是用户在本地拍摄后上传至图像获取模块的视频。

在一个实施例中视觉传感器可以安装于任何需要进行物体检测的场所，例如，养老院、医院、银行、商场或者家里，而不同场景的不同房间也可以安装多个视觉传感器，例如，家中的客厅、卧室、厨房或者洗手间都可以安装视觉传感器。视觉传感器可以检测的物体类别有多种，例如，人、动物、桌子、椅子、笔、“摔倒的人”、“哭泣的小孩”、火灾或者烟雾等，其中动物可以包括猫、狗或者老鼠等，检测的物体具体是哪一类这里不进行明确限制，因为用户的需求不同则检测的物体也不相同。例如，当子女想要检测老人是否跌倒时可以用本申请提出的方法对老人的行为进行检测，由此来预测老人是否跌倒；又如，当用户想要时刻检测家中是否有火灾发生时可以使用本申请提出的方法对火灾进行实时检测，当发生火灾时就可以发出警报并通知用户。

需要说明的是，获取到目标图像后，可以对所述目标图像进行预处理，常用的图像预处理操作可以包括：图像增强、图像复原、图像分割、图像去噪、图像灰度化以及图像滤波等操作，通过对图像进行预处理操作可以将目标图像中的干扰信息剔除掉，如此，便于提取目标图像中目标物体的特征信息。

步骤S120：对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果。

获取到目标图像后，对目标图像进行特征提取，并通过提取的特征判断目标图像中是否存在目标物体，如果目标图像中没有目标物体则不需要进行进一步的目标检测，继续获取下一帧目标图像；如果目标图像中包含目标物体则利用提取到的特征获取目标物体的类别和位置。在一个实施例中，检测结果可以包括目标物体的类别和位置。

物体检测的主要任务是对目标图像中物体的类别或者状态的识别，物体检测对于人眼来说并不困难，通过对图片中不同颜色、纹理、边缘模块的感知很容易定位出目标物体，但计算机面对的是RGB像素矩阵，很难得到狗和猫这样的抽象概念并定位其位置，再加上物体姿态、光照和复杂背景混合在一起，使得物体检测更加困难。在一种实施例中物体检测方法包括两种，一种是传统的物体检测算法，另一种是基于深度学习的物体检测算法。

传统的物体检测算法通常可以包括三部分，第一部分是检测窗口的选择，针对不同的检测物体选择不同的检测窗口，例如，对人脸进行检测时，需要选择适合人脸的检测窗口，所述窗口可以恰当的框出人脸的位置以及人脸的大小；第二部分是特征的设计，是指设计提取的特征，即确定提取图像中哪些特征，图像中的特征可以包括边缘信息、纹理信息或者颜色信息等，传统的特征设计方法有HOG检测、ACF检测或者Haar检测等；第三部分是分类器的设计，分类器用于判断目标物体所属的类别，常用的分类器有Adaboost分类器、SVM(Support Vector Machine，支持向量机)分类器、决策树(Decision Tree)分类器以及随机森林分类器等。

基于深度学习的物体检测方法主要是根据候选区域(region proposal)来对目标图像中的物体进行检测，候选区域利用图像中的纹理、边缘和颜色等信息预先找出图中目标可能出现的位置，可以保证在选取较少窗口的情况下保持较高的召回率，如此，可以降低后续操作的时间复杂度，并且获取的候选窗口的质量更高。基于深度学习的物体检测常用神经网络有R-CNN网络、Fast R-CNN网络、Faster R-CNN网络、YOLO网络以及SSD网络等。

通过物体检测获取到目标物体检测结果，本实施例中目标物体检测结果可以包括目标物体的类别和位置，检测结果的格式可以为{[T1，x1，y1，w1，h1]，[T2，x2，y2，w2，h2]...}，其中T1和T2指的是目标物体的种类；(x1，y1)和(x2，y2)指的是目标物体左上角或右下角的坐标点；(w1，h1)和(w2，h2)指的是目标物体边界框的长和宽。现举例进行详细说明，如目标图像中包括一只猫和一个男人，其检测结果可以为{[2，3，5，340，200]，[3，320，300，360，400]}。其中，[2，3，5，340，200]里面的2为目标物体的类别其表示的是猫，(3，5)指的是猫左上角的坐标点或者是猫右下角的坐标点，(340，200)可以是猫的边界框的长和宽；同理，[3，320，300，360，400]中3表示的是男人，(320，300)指的是男人左上角或者右下角的坐标点，(360，400)为男人边界框的长和宽。

步骤S130：根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果。

本申请实施例中应用需求可以包括有人无人判断，人数检测，人和动物区分，手势判断，跌倒检测，区域警戒检测，火焰检测中的至少一种。通过上述介绍知道目标物体的检测结果可以包括目标物体的类别和位置，所述根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果，即可以包括根据预设应用需求对所述目标物体的检测结果进行后处理操作，本申请实施例中应用需求为预设应用需求，具体流程如图3所示，从图3可以看出步骤S130包括步骤S131至步骤S133，详细如下所示：

步骤S131：获取所述目标图像中所述目标物体的类别和所述目标物体在所述目标图像中的位置。

通过步骤S120可以知道在进行目标物体检测之前需先判断目标图像中是否包括目标物体，如果目标图像中没有目标物体则对当前图像的物体检测操作结束，获取下一帧目标图像，如果目标图像中包括目标物体，则利用物体检测模块获取目标图像中所有目标物体的类别和其在目标图像中的位置，并将检测结果传输至后处理模块进行处理。

步骤S132：判断所述目标图像中是否包括多个目标物体。

后处理模块获取到目标物体检测结果后，需先判断目标物体中是否包括多个目标物体，目标图像中可以只包括一个目标物体也可以同时包括多个目标物体，而多个目标物体的类别可以是相同也可以是不相同的。例如，在街道上拍摄了一张目标图像，这张目标图像中可以包括行人、汽车、树木、商城、动物或者楼房等，而这些目标物体又可以分为不同类别，如行人可以包括男人、女人、老人或者小孩等；汽车可以包括出租车、公交车、私家车、洒水车或者货车等；动物可以包括猫、狗、小鸟、老鼠或者鸽子等，具体包括哪些类别这里不进行明确限制。当确定目标图像中包含多个目标物体时，获取到目标图像中所有目标物体的检测结果，例如，目标图像中同时包括一只猫、一个人和一棵树，那么目标物体检测结果为{[2，3，5，340，200]，[3，320，300，360，400]，[4，50，70，500，230]}。

需要说明的是，目标图像中也可能只包括一个目标物体或者不包括任何目标物体，例如，目标物体是人和动物，而目标图像中只包括天空、地板或者墙面等则目标图像中不包括目标物体，当目标图像中只包括一个目标物体时，其检测结果和多个目标物体的检测结果类似，例如，目标图像中只包括一只猫则其检测结果可以是[2，3，5，340，200]。当目标图像中不包括任何目标物体时则获取下一帧图像，将下一帧图像作为目标图像继续上述操作。

步骤S133：当所述目标图像中包括多个目标物体时，利用所述目标物体的类别和位置获取多个目标物体之间的关系信息，将所述关系信息作为所述分析结果。

在一个实施例中，多个目标物体之间的关系可以包括多个目标物体之间的位置关系、类别关系以及数量关系。多个目标物体之间的位置关系可以指的是距离关系，距离关系指的是多个目标物体之间的距离远近；多个目标物体之间的位置关系还可以是方向关系，方向关系指的是多个目标物体之间的相对方向关系，例如A物体和B物体之间的方向关系可以是：A在B的左边，A在B的右边、A在B的前面或者A在B的后面等；多个目标物体之间的位置关系还可以指的是重叠关系，重叠关系指的是多个目标物体之间的边界框有重叠，例如，人抱着猫，这里的人的边界框和猫的边界框就是重叠关系。获取到多个目标物体之间的关系信息后，将所述关系信息作为分析结果。多个目标物体之间的类别关系指的多个目标物体之间的从属关系，例如，人可以包括男人、女人，动物可以包括猫、狗或者老虎等，车辆可以包括轿车、大卡车、公交车等。数量关系指的是目标图像中目标物体之间的数量关系，例如，目标图像中目标物体有猫、狗和树，其中，猫的数量是狗的数量的两倍，而树的数量是猫和狗的总和等。

步骤S140：将所述分析结果以非图像形式输出。

非图像形式可以包括文本形式或语音形式，将所述分析结果以非图像形式输出，从图4可知步骤S140可以包括步骤S141至步骤S142，详细如下所示：

步骤S141：获取所述分析结果。

在一种实施方式中，检测到目标物体的类别和位置后，利用后处理模块对所述目标物体的类别和所述目标物体的位置进行判断或计算，获取到多个目标物体之间的关系信息。例如，通过计算或判断可对目标图像中的人数进行统计；通过计算或判断可以分析出目标图像中老人和年轻人的占比；通过计算或判断可以分析出目标图像中不同目标物体之间的距离等，如此，就可以获取到分析结果。

步骤S142:将所述分析结果转换以所述文本形式或语音形式输出。

为了保护用户的隐私，本申请实施例将分析结果转换为文本形式或语音形式输出，换句话说，视觉传感器分析目标图像后可以输出文本形式的提示信息也可以输出语音形式的提示信息。文本形式的提示信息指的是不同形式的协议，在一个实施例中，文本形式可以是简单的0-1高低电平、数字字符、文本字符串、JSON、XML、YAML等数据交换格式，这些文本形式的提示信息可以通过显示装置进行显示，所述显示装置可以安装于视觉传感器上或者被控设备上，例如，输出的结果可以是{Pets:Cats:1Dogs:0，People:Men:1Women:0}，其主要意思是目标图像中包括宠物和人，宠物只有一只猫没有狗，人只有一个男人而没有女人。另外，也可以将分析结果转换为语音形式输出，本实施例既可以在视觉传感器上安装语音设备也可以在被控设备上安装语音设备，当视觉传感器上安装语音设备时可以直接发出语音提示信息，当被控设备上安装语音设备的时候，视觉传感器可以发出控制指令来控制被控设备上的语音设备发出语音提示信息。

现用一个具体的实施例来说明根据预设应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果。例如，在一个24小时无人值守ATM机旁边，安装一个危险侵入报警系统视觉传感器，其主要作用是用户在ATM机上进行业务操作时，如果有其他人从背后接近用户，这个危险侵入报警系统就会发出提示信息。使用本实施例提出的方案之前需要先在合适的位置安装视觉传感器，并且要对视觉传感器的光学成像参数进行配置，视觉传感器的光学成像参数可以包括视觉传感器的焦距、视觉传感器的物距以及视觉传感器的分辨率等。另外，安装视觉传感器时要求ATM前面、用户和用户身后一定空间都能在视觉传感器中清晰稳定的成像。视觉传感器中的物体检测模块要能检测到不同体型的人体，换句话说，不管用户的体型是哪种视觉传感器的物体检测模块都能够检测的到，用户的体型可以是高、是矮、是胖或者是瘦。

当检测到有人体后，后处理模块结合ATM的工作状态，判断用户是否是在办理业务，如果用户在办理业务，则视觉传感器进入设防状态。视觉传感器在设防状态时，如果在画面中同时检测到两个人，并且ATM还在业务工作状态，则考虑两个人的位置。如果一个人在ATM机前业务位置，本实施例将办理业务的人作为用户，则计算用户与另一个人的实时距离，并判断是否过于接近，即判断另一个人与用户之间的实时距离是否超出了距离阈值，如果实时距离超出了距离阈值，则表明另一个人与用户之间的距离过于接近，如果过于接近，视觉传感器则发送报警提示指令至后台，提示后台监控值守人员提高警惕，注意观察。同时，可以在ATM上播放相关提示语音，例如，“本ATM具有安防录像功能”、“请注意提款安全”或者“请保持排队距离与秩序”等。

本申请实施例提出了一种物体检测方法，利用后处理操作对目标物体检测结果进行分析，进而得到分析结果，即通过本地计算不需要输出图像，仅输出目标物体检测结果，如此，在提高目标物体检测准确性的情况下可以保护用户的隐私，因此，可以将其应用于众多的私密场景。可以将本申请应用于智能家居系统或者智能安防系统等，相较于传统的传感器设备，本申请提出的物体检测方法准确度高，并且功能更加丰富。另外，本申请提出的物体检测方法功耗低，因为不需要输出实时图像，所以可以极低帧频、较低间隔的对图像中的物体进行检测或识别，因为本申请可以使用电池供电，因此安装便捷。

为了更好的对物体进行检测，本申请另一实施例提出了一种物体检测方法，该方法应用于视觉传感器，请参阅图5，从图5可以看出该方法包括步骤S210至步骤S240，其中步骤S220包括步骤S221至步骤S223，详细如下所示：

步骤S210：获取目标图像。

步骤S220：对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果。

步骤S221：将所述目标图像输入至神经网络加速器。

视觉传感器的图像获取模块获取到目标图像后将所述目标图像输入至神经网络加速器中进行物体检测，本申请实施例中神经网络加速器可以直接安装于视觉传感器中。神经网络加速器可以看作是张量处理管道，其有一个针对输入数据和权重快速卷积核优化了的神经网络计算引擎，辅之以各种其他单元的表现元素和张量操作，如激活、汇集和规范化，该神经网络加速器可以将操作分组传递，从而最小化外部内存访问。

在一个实施例中，神经网络加速器可以是CNN(Convolutional Neural Networks，卷积神经网络)加速器，因为CNN能模仿生物视觉神经的行为获得很高识别准确率，因此CNN加速器具有更高性能、可重配置、快速开发等周期优势。一个CNN加速器可以包括处理单元、片上缓存、外部存储器以及片内外互联，处理单元是卷积的基本计算单元，用于处理的所有数据放在外部存储器，由于片上资源限制，数据首先缓存到片上双缓冲，之后才送到处理单元，片上互联用于处理单元和片上缓冲的通信。

调用所述神经网络加速器中的物体检测模型，并对所述目标图像中的目标物体进行检测之前，还包括如图6所示的步骤S2211至步骤S2212，详细如下所示：

步骤S2211：获取不同物体在不同环境下的图像数据集，并标注出所述图像数据集中每个图像中的目标物体的类别和该目标物体在所对应的图像中的位置，生成文本数据集，所述图像数据集与文本数据集构成目标数据库。

利用物体检测模型对目标图像中的目标物体进行检测之前，需先构建一个图像数据集，优选的，该图像数据集中的图像不仅要求质量良好，而且要求必须是标准的图像。另外，该图像数据集可以包括不同物体在不同情况下的图像，例如，对猫进行检测时，构建数据集时可以收集不同类别的猫的图像，还可以包括这些不同类别的猫在不同环境下的图像，甚至可以是同一个猫的不同姿态的图像，这些图像可以通过图像获取模块获取，也可以利用网络爬虫从互联网中获取。构建图像数据集时不仅需要构建目标物体的图像，而且要构建除了目标物体以外的其他物体的图像。例如，对猫进行检测时，不仅需收集猫的图像，很像猫的狗或者老虎的图像也需要收集。需要说明的是，如果构建的数据集不足，可以通过图像处理获取更多的图像数据集，例如，可以对已经构建的图像数据集进行滤波、加噪等图像处理。

本实施例中，获取到不同物体在不同环境下的图像数据集后，需标注图像中目标物体的类别和位置，得到标注信息，所述标注信息构成文本数据集。标注每个图像中目标物体的位置，可以是标注出每张图像中目标物体所在左上角的坐标点和右下角的坐标点，也可以是标注出每张图像中目标物体所在右上角的坐标点和左下角的坐标点。在一个实施例中，对图像中的目标物体进行标注可以使用专用的工具和标准的格式，专用的标注工具有Labelme、LabelImg或者YOLO_mark等，通过这些标注工具用户可以快速有效的标注出目标物体的类别以及目标物体在图像中的位置。在进行图像标注的时候需要注意的是不可以有遗漏，即需对图像数据集中的目标物体进行标注，因为当正样本没有被标注出来的时候，神经网络会自动将其作为负样本，如此，会降低最后获得的网络模型的检测性能。

步骤S2212：获取物体检测网络，并将所述目标数据库输入至物体检测网络中进行训练，获取到物体检测模型，将所述物体检测模型存储至神经网络加速器中。

物体检测模型训练就是将图像输入到物体检测网络中，统计物体检测网络的输出与标定数据的差别，利用随机梯度下降法不断自动化调整物体检测网络，直到网络输出与标定数据偏差小于一定阈值或在迭代中不再减小，如此就可以获取到物体检测模型，利用所述物体检测模型就可以得到目标物体的类别和位置。因为获取到的物体检测模型对可变参数进行了固化(frozen)，因此可以直接利用此模型进行物体检测。

步骤S222：调用所述神经网络加速器中的物体检测模型，并对所述目标图像中的目标物体进行检测。

为了更准确的对物体进行检测本实施例使用了Faster R-CNN网络，Faster R-CNN的结构如图7，Faster R-CNN中的Faster指的是本网络相对过往的其他基于深度学习的物体检测算法更为快速。Faster R-CNN中的R-CNN(Regional Convolutional NeuralNetwork，区域卷积神经网络)对目标图像进行物体检测的主要过程是：首先将整幅图像划分为多个候选区域；然后利用卷积神经网络对获取到的多个候选区域进行特征提取；最后将获取到的特征进行分类，获得分类结果。

Faster R-CNN能够达到更快速度的原因是，没有像以往的算法那样，先划分区域(Region)，在每一个Region上进行深度卷积神经网络特征提取，在进行特征提取的时候需要运行很多神经网络，如此，会导致神经网络运行的速度很慢。Faster R-CNN网络则是先在整幅目标图像上进行CNN特征提取，再在提取好的特征图上划分区域，最后根据划分好的区域进行分类，这样只需要进行一次深度卷积神经网络特征提取，比较省时并且运行速度也加快很多。

利用Faster R-CNN进行物体检测的具体流程如图8所示，从图8可以看出步骤S222可以包括步骤S2220至步骤S2229，详细如下所示：

步骤S2220：输入目标图像。

步骤S2221：深度卷积神经网络特征提取。

Faster R-CNN获取到目标图像后，直接使用卷积神经网络进行特征提取，FasterR-CNN进行特征提取的主干是卷积神经网络。换句话说，就是给卷积神经网络输入图像，获取到目标物体的特征图。本实施例中卷积神经网络CNN，可以使用各种新颖的高性能的CNN结构，常见的如谷歌发表的Inception、ResNet等，这些CNN性能好，但是速度慢、体积大；又或者MobileNet，Yolo等网络虽然性能稍差，但是速度快。CNN部分也可以称为backbone(基干网络)，因为该CNN有很多可选的实现，能够比较容易的替换，且物体检测算法以backbone提取到的特征为基础。

步骤S2222：输出特征图。

Backbone网络多是基于性能较好的分类网络裁剪，截去后几层，这些被截去的网络层多是全连接层，即将二维图像缩减为一维特征列向量的部分，因此最后输出的特征图还是二维特征图的部分。

步骤S2223：候选区域推荐网络。

在特征图上，按照规则提取候选区域(Region Proposal)，规则是，先在图像上平均选取锚点m个，在同一个锚点，选取不同长宽比和不同面积的n个区域，如此可以得到m*n个候选区域。对这些候选区域进行特征提取，并对提取的特征进行二分类，所述二分类主要包括两类，这两类分别是包含物体的区域和不包含物体的区域。选择最有可能包含物体的100-300个区域，作为关注区域(Region，ROI)，通过候选区域推荐网络获取到的是关注区域Region的位置坐标。

步骤S2224：关注区域对齐式提取层。

关注区域对齐式提取层的作用是提取关注区域Region坐标对应的特征图，即根据得到的关注区域Region的位置坐标以后，再回到通过CNN得到的特征图，提取对应坐标区域的特征图。

步骤S2225：固定尺寸的特征图。

通过步骤S2224可以获取到关注区域ROI的特征图，将所述特征图缩放变换为一个固定尺寸的特征图，固定尺寸的主要原因是CNN的全连接层的输入是固定的，如果输入向量的位数不固定，那么全连接的权值参数的量也是不固定的，就会造成Faster R-CNN网络的动态变化，进而无法实现参数训练的目的，因此需要将特征图变换为固定尺寸的。

步骤S2226：全连接网络1。

将获取到的固定尺寸的特征图送入全连接网络1，进行分类，可以得到目标物体的类别。

步骤S2227：全连接网络2。

将获取到的固定尺寸的特征同时送入全连接网络2，进行回归处理，得到目标物体的坐标与该特征图的偏差即目标物体的位置。

步骤S2228：得到目标物体的类别。

步骤S2229：得到目标物体的定位框。

通过步骤S2220至步骤S2229就可以同时获取到目标图像中目标物体的类别以及目标物体的精确位置。

步骤S223：获得所述目标物体的检测结果。

利用神经网络加速加速器可以快速有效的获取到目标图像中所有目标物体的类别和位置，目标物体可以根据用户需求进行确定，其可以是具有一定形状的，例如，用户想要对人脸进行检测，那么目标物体就是人脸；用户想要对车辆进行检测，那么目标物体就是车辆；另外，目标物体也可以不具有一定的形状，即目标物体的轮廓是不断变换的，例如，用户想要对火灾进行检测，那么目标物体就是火苗；用户想要对水质进行检测，那么目标物体就是水等。

步骤S230：根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果。

步骤S240：将所述分析结果以非图像形式输出。

本申请利用神经网络加速器实现嵌入式物体检测算法，再结合简单的本地计算能力就可以满足绝大多数传感需求，即本实施例在视觉传感器本地搭载图像识别算法，进行物体检测，只输出文字或者语音，可以充分保护用户的隐私。

本申请又一实施例提出了一种物体检测方法，该方法应用于视觉传感器，请参阅图9，通过图9可以看出该方法包括步骤S310至步骤S340，其中步骤S330包括步骤S331至步骤S333，详细如下所示：

步骤S310：获取目标图像。

步骤S320：对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果。

步骤S330：根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果。

步骤S331：根据所述目标物体的检测结果在所述多个应用需求中选择一个所述应用需求作为目标应用需求。

请参阅图10可以看出，步骤S331可以包括步骤S3311至步骤S3312，详细如下所示：

步骤S3311：根据所述目标物体的检测结果确定所述目标图像的类别。

通过神经网络加速器可以获取到目标图像中目标物体的类别，根据所述类别可以获取到目标图像的类别，例如，当目标图像检测结果中目标物体的类别是手势时，则目标图像的类别为手势图像；当目标图像检测结果中目标物体的类别是人体时，则目标图像的类别为人体图像；当目标图像检测结果中目标物体的类别是文本时，则目标图像的类别为自然本文图像；当目标图像检测结果中目标物体的类别是人体和宠物时，则目标图像的类别为人和宠物图像；当目标图像检测结果中目标物体的类别是火焰时，则目标图像的类别为火灾图像；当目标图像检测结果中目标物体的类别是老人时，则目标图像的类别为跌倒预测图像；当目标图像检测结果中目标物体的类别是ATM机和用户时，目标图像的类别为ATM设防图像等。在一个实施例中，目标图像的类别有多种情况，而目标图像的类别不相同则对应的应用需求也是不相同的，目标图像具体类别包括哪些这里不进行明确限制。

步骤S3312：查找与所述目标图像的类别对应的应用需求，并将此应用需求作为目标应用需求。

目标图像的类别不相同则对应的应用需求也不相同，当目标图像的类别是手势时，则应用需求是检测目标图像中的各种手势，即区分不同的手势动作，例如挥手、鼓掌等；当目标图像的类别是人体图像时，应用需求可以是确定目标图像中是否“有人”，通过这种方法，可以精确检测人体；当目标图像的类别是人和宠物图像时，应用需求是检测出目标图像中的人和宠物，并且实时关注宠物的动作，例如，若宠物进入主人工作的书房，远程提醒主人，并在厨房播放“过来吃东西”的语音，引走宠物；当目标图像的类别是老人图像时，应用需求是时刻监测老人是否摔倒，如果老人摔倒则发出报警信息；当目标图像的类别是火焰图像时，则应用需求是判断是否有火灾发生；当目标图像的类别是ATM设防图像时，则应用需求是判断是否有危险侵入等。

本实施例可以在视觉传感器中同时设置多个应用需求，当通过神经网络加速器确定出目标图像的类别后，根据所述目标图像的类别查找出与其对应的应用需求，即查找与目标图像的类别对应的应用需求，并将此应用需求作为目标应用需求。目标图像的类别和应用需求是一一对应的，即一种目标图像对应一个应用需求，目标图像的类别和应用需求的对应关系存储于视觉传感器中。

步骤S332：确定所述目标应用需求对应的后处理操作。

目标应用需求不相同则对应的后处理操作是不相同，例如，ATM设防图像中后处理操作计算的可以是用户与另一个人之间的距离；又如，人和宠物图像中后处理操作计算的可以是人和宠物的距离或者是宠物与厨房的距离等，后处理操作具体是那种这里不进行明确限制，可以根据用户的实际需求进行确定。

步骤S333：利用所述后处理操作得到分析结果。

步骤S340：将所述分析结果以非图像形式输出。

通过上述介绍可以知道，用户的应用需求不相同则对应的后处理操作也不相同，本申请实施例可以针对不同的应用需求，即获取到的目标图像类别不相同则对应的后处理操作也不相同，即在保护用户隐私的同时也增加了物体检测使用的灵活性。

请参阅图11，本申请实施例提出的一种物体检测装置400，应用于视觉传感器，该装置包括图像获取模块410，物体检测模块420，后处理模块430，输出模块440。

图像获取模块410，用于获取目标图像。

物体检测模块420，用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果。

物体检测模块420用于将图像获取模块410获取的目标图像输入至神经网络加速器，调用所述神经网络加速器中的物体检测模型，并将所述目标图像中的目标物体进行检测，获得所述目标物体的检测结果。

后处理模块430，用于根据应用需求对所述目标物体检测结果进行后处理操作，得到分析结果。

本申请实施例中应用需求可以包括有人无人判断，人数检测，人和动物区分，手势判断，跌倒检测，区域警戒检测，火焰检测中的至少一种。后处理模块430对所述目标物体的检测结果进行后处理操作，包括：根据预设应用需求对所述目标物体的检测结果进行后处理操作；或者根据所述目标物体的检测结果在所述多个应用需求中选择一个所述应用需求作为目标应用需求；确定所述目标引用需求对应的后处理操作；利用所述后处理操作得到分析结果。其中，根据所述目标物体的检测结果在所述多个应用需求中选择一个所述应用需求作为目标应用需求，包括：根据所述目标物体的检测结果确定所述目标图像的类别；查找与所述目标图像的类别对应的应用需求，并将此应用需求作为目标应用需求。

目标物体检测结果包括目标物体的类别和位置，后处理模块还用于获取所述目标图像中目标物体的类别和在所述目标图像中的位置；判断所述目标图像中是否包括多个目标物体；当所述目标图像中包括多个目标物体时，利用所述目标物体的类别和位置获取多个目标物体之间的关系信息，将所述关系信息作为所述分析结果，所述多个目标物体之间的关系信息包括所述多个目标物体之间的位置关系、类别关系以及数量关系。

输出模块440，用于将所述分析结果以非图像形式输出。

非图像形式可以包括文本形式或语音形式，输出模块440用于获取分析结果，并将所述分析结果转换以所述文本形式或语音形式输出。

请参阅图12，本申请实施例提出的一种视觉传感器500，该视觉传感器可以包括成像模组510、神经网络加速器520、基本模块530和输出接口540。

成像模组510，用于获取目标图像。

神经网络加速器520，用于对所述目标图像进行物体检测，获得所述目标图像中每目标物体的检测结果。

基本模块530，用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果。

基本模块530还可以用于将成像模组获取到的目标图像发送至处理器模块。

本实施例中视觉传感器500还可以包括如图13所示的部件，从图13可以看出视觉传感器500可以包括处理器550、存储器560以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器560中并被配置为由一个或多个处理器550执行，一个或多个程序配置用于执行如下述方法实施例所描述的方法。

处理器550可以包括感光耦合组件(Charge-CoupledDevice，CCD)传感器或者互补性氧化金属半导体(Complementary Metal-Oxide Semiconductor，CMOS)传感器、处理器、通信模块等，视觉传感器随着CCD传感器的发明而出现，从早期的单像素传感器发展为线性阵列传感器，再发展到面阵传感器，工艺也改进提高为CMOS工艺，带来了更广泛的应用领域和更高的传感性能。一个实施例中，传感器可以用于感受和记录外界光线的信息，并将其转换成电流，同时转换为数字信息，通信单元用于连接其他模块进行数据传输。

处理器550可以包括一个或者多个处理核。处理器550利用各种接口和线路连接整个视觉传感器内的各个部分，通过运行或执行存储在存储器560内的指令、程序、代码集或指令集，以及调用存储在存储器560内的数据，执行视觉传感器的各种功能和处理数据。可选地，处理器550可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器550可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、视频处理器(Video Processing Unit，VPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；VPU具有对视频处理能力，其可以对电视的图像进行优化；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器550中，单独通过一块通信芯片进行实现。

存储器560可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器560可用于存储指令、程序、代码、代码集或指令集。存储器560可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储视觉传感器在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

输出接口540，用于将所述分析结果以非图像形式输出。

请参阅图14，本申请实施例提供了一种智能加速系统600，包括视觉传感器610和终端设备620，所述视觉传感器610包括成像模组510、神经网络加速器520、基本模块530和输出接口540，所述成像模组510用于获取目标图像；所述神经网络加速器520用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；所述基本模块530用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；所述输出接口540用于将所述分析结果以非图像形式输出，所述终端设备620用于接收非图像形式输出的分析结果。

请参考图15，本申请实施例提出的用于保存或者携带实现根据本申请实施例的物体检测方法的程序代码的存储单元。该计算机可读存储介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种物体检测方法，其特征在于，应用于视觉传感器，包括：

获取目标图像；

对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；

根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；

将所述分析结果以非图像形式输出。

2.根据权利要求1所述的方法，其特征在于，所述应用需求包括：

有人无人判断，人数检测，人和动物区分，手势判断，跌倒检测，区域警戒检测，火焰检测中的至少一种。

3.根据权利要求1或2所述的方法，其特征在于，所述非图像形式包括文本形式或语音形式；

所述将所述分析结果以非图像形式输出，包括：

获取所述分析结果；

将所述分析结果转换以所述文本形式或语音形式输出。

4.根据权利要求1或2所述的方法，其特征在于，所述视觉传感器包括神经网络加速器；

所述对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果，包括：

将所述目标图像输入至神经网络加速器；

调用所述神经网络加速器中的物体检测模型，并对所述目标图像中的目标物体进行检测；

获得所述目标物体的检测结果。

5.根据权利要求1或2所述的方法，其特征在于，对所述目标物体的检测结果进行后处理操作，包括：

根据预设应用需求对所述目标物体的检测结果进行后处理操作；或者

根据所述目标物体的检测结果在多个应用需求中选择一个所述应用需求作为目标应用需求；

确定所述目标应用需求对应的后处理操作；

利用所述后处理操作得到分析结果。

6.根据权利要求5所述的方法，其特征在于，根据所述目标物体的检测结果在所述多个应用需求中选择一个所述应用需求作为目标应用需求，包括：

根据所述目标物体的检测结果确定所述目标图像的类别；

查找与所述目标图像的类别对应的应用需求，并将此应用需求作为目标应用需求。

7.根据权利要求1或2所述的方法，其特征在于，所述目标物体的检测结果包括所述目标物体的类别和位置；

所述根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果，还包括：

获取所述目标图像中所述目标物体的类别和所述目标物体在所述目标图像中的位置；

判断所述目标图像中是否包括多个目标物体；

当所述目标图像中包括多个目标物体时，利用所述目标物体的类别和位置获取多个目标物体之间的关系信息，将所述关系信息作为所述分析结果。

8.根据权利要求7所述的方法，其特征在于，所述多个目标物体之间的关系信息包括所述多个所述目标物体之间的位置关系、类别关系以及数量关系中至少一种。

9.一种物体检测装置，其特征在于，应用于视觉传感器，包括：

图像获取模块，用于获取目标图像；

物体检测模块，用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；

后处理模块，用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；

输出模块，用于将所述分析结果以非图像形式输出。

10.一种视觉传感器，其特征在于，包括成像模组、神经网络加速器、基本模块和输出接口：

成像模组，用于获取目标图像；

神经网络加速器，用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；

基本模块，用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；

输出接口，用于将所述分析结果以非图像形式输出。

11.根据权利要求10所述的视觉传感器，其特征在于：

所述基本模块还用于将所述分析结果转化为符合所述输出接口的协议类型，以供所述输出接口将所述分析结果以非图像形式输出。

12.根据权利要求10或11所述的视觉传感器，其特征在于，所述基本模块还用于将所述成像模组获取到的目标图像发送至神经网络加速器。

13.一种智能家居系统，其特征在于，包括视觉传感器和终端设备，所述视觉传感器包括成像模组、神经网络加速器、基本模块和输出接口，所述成像模组用于获取目标图像；所述神经网络加速器用于对所述目标图像进行物体检测，获得所述目标图像中目标物体的检测结果；所述基本模块用于根据应用需求对所述目标物体的检测结果进行后处理操作，得到分析结果；所述输出接口用于将所述分析结果以非图像形式输出，所述终端设备用于接收非图像形式输出的分析结果。

14.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。