CN110046631A

CN110046631A - 用于自动推断时空图像的变化的系统和方法

Info

Publication number: CN110046631A
Application number: CN201811085927.4A
Authority: CN
Inventors: 普拉克鲁蒂·维诺钱德拉·巴特; 萨纳特·萨兰吉; 斯里尼瓦苏·帕普拉
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-01-15
Filing date: 2018-09-18
Publication date: 2019-07-23
Anticipated expiration: 2038-09-18
Also published as: US10679330B2; BR102018068976A2; US20190220967A1; JP6935377B2; CO2018010023A1; CN110046631B; ZA201806145B; JP2019125340A

Abstract

本公开通过利用从在变化的上下文上训练的卷积神经网络(CNN)提取出的高级别稳健特征而不是依赖于数据的特征方法来解决了能够自动推断时空图像变化的技术问题。基于高级别特征的无监督聚类消除了对图像标记的繁琐要求。由于模型未在任何特定上下文上训练，因此可以接受任何图像。通过无监督聚类和监督分类的某种组合能够进行实时推断。云边缘拓扑结构即使在连接是不可用时也通过确保更新后的分类模型被部署在边缘上来确保进行实时推断。基于自适应学习创建知识本体使能够以变化的精度水平对输入图像进行推断。精细农作可以是本公开的应用。

Description

用于自动推断时空图像的变化的系统和方法

优先权要求

本申请要求于2018年1月15日提交的印度专利申请号201821001685的优先权。上述申请的全部内容通过引用并入本文。

技术领域

本文的公开内容总体涉及图像处理和分类，并且更具体地涉及用于自动推断时空图像的变化的系统和方法。

背景技术

开发对于给定农业场景可以以最小人为干预来学习并适应计算机视觉要求的系统是复杂的任务。然而，物联网(IoT)部署(特别是具有用于连续监视植物的相机)需要这样的能力。该挑战特别是跟踪与植物的生物过程相关联的事件(诸如与生长和健康相关联的那些事件)。在特定阶段，及时地和局部地识别生长阶段或健康状况对于提高产量非常重要。考虑到不同种类的农作物，它们的生长模式以及由于老化或外部因素(诸如疾病或缺陷)引起的物理外观上的表现差异，在其生命周期期间仅识别和标记农作物外观的变化是不简单的(non-trivial)。然而，这样做的能力是必不可少的，例如，以便将来自农场处的图像采集系统的必要事件标记和转发到云，而不是周期性地转发冗余图像。

图像分类通常涉及用于对图像数据集进行标记以用于监督分类的人为干预的主要挑战。深度卷积神经网络(CNN)已被证明针对特征提取给出了较高的准确性。然而，他们需要大量标记的数据集来训练分类模型。

对于涉及相机传感器的IoT部署或等效的参与式感测场景，配置计算机视觉方案以满足被监视的上下文(context)的特定感测要求成为挑战。此外，执行对提交给IoT平台以在边缘处进行处理的图像的实时解释是一种挑战，其中连接(connectivity)不是容易可用的，特别是在发展中国家的农村地区。

发明内容

本公开的实施例呈现了对作为本发明人认识到的传统系统中的上述技术问题中的一个或多个的解决方案的技术改进。

在一方面，提供了处理器实施的方法，该方法包括：以一个或多个时间间隔接收与所考虑的上下文有关的多个图像，所接收图像与空间信息和时间信息中的至少一个相关并关联；基于该空间信息或时间信息和自适应阈值，以一个或多个时间间隔智能地识别和发送所接收图像的至少一个子集；通过将所接收图像向前传递(forward passing)通过在与变化的上下文有关的多个图像的数据集上预训练的神经网络模型，来从所接收图像中提取特征；通过使用所提取特征将所接收图像聚类为一个或多个类别来执行第一级别推断，该聚类步骤包括：使用轮廓系数(Silhouette coefficient)来确定一个或多个类别的最优数量；通过执行以下中的至少一个来基于在所接收图像之间检测到的相似性来识别一个或多个类别：计算第一距离测量值，其由所接收图像中的每个与所接收图像中的每个其他图像的球面距离来表示；使用基于最大后验概率(MAP)的类别分布来计算所接收图像中的每个图像属于类别的可能性；以及计算第二距离测量值，其由所接收图像中的每个与一个或多个类别中的每个的质心之间的球面距离来表示；其中，一个或多个类别的数量等于所确定的最优数量；以及使用归一化互信息(NMI)分数、兰德指数(Rand Index)和纯度测量值中的一个或多个来验证一个或多个类别的质量；以及基于所考虑的上下文将一个或多个类别与标签相关联。

在另一方面，提供了一种系统，该系统包括：一个或多个内部数据存储设备，其可操作地耦合到一个或多个硬件处理器，以用于存储被配置为由一个或多个硬件处理器执行的指令，该指令被包括在以下中：输入模块，被配置为：以一个或多个时间间隔接收与所考虑的上下文有关的多个图像，所接收图像与空间信息和时间信息中的至少一个相关并关联；以及基于空间信息或时间信息和自适应阈值，以一个或多个时间间隔智能地识别并发送所接收图像的至少一个子集；特征提取器，被配置为通过将所接收图像向前传递通过在与变化的上下文有关的多个图像的数据集上预训练的神经网络模型，来从所接收图像中提取特征；聚类模块，被配置为通过使用所提取特征将所接收图像聚类为一个或多个类别来执行第一级别推断，该聚类步骤包括：使用轮廓系数来确定一个或多个类别的最优数量；通过执行以下中的至少一个来基于在所接收图像之间检测到的相似性来识别一个或多个类别：计算第一距离测量值，其由所接收图像中的每个与所接收图像中的每个其他图像的球面距离来表示；使用基于最大后验概率(MAP)的类别分布来计算所接收图像中的每个图像属于类别的可能性；以及计算第二距离测量值，其由所接收图像中的每个与一个或多个类别中的每个的质心之间的球面距离来表示；其中，一个或多个类别的数量等于所确定的最优数量；以及使用归一化互信息(NMI)分数、兰德指数和纯度测量值中的一个或多个来验证一个或多个类别的质量；以及基于所考虑的上下文将一个或多个类别与标签相关联。

在又另一方面，提供了一种计算机程序产品，其包括具有包含在其中的计算机可读程序的非暂时性计算机可读介质，其中，当在计算设备上执行时，计算机可读程序致使计算设备：以一个或多个时间间隔接收与所考虑的上下文有关的多个图像，所接收图像与空间信息和时间信息中的至少一个相关并关联；基于空间信息或时间信息和自适应阈值，以一个或多个时间间隔智能地识别并发送所接收图像的至少一个子集；通过将所接收图像向前传递通过在与变化的上下文有关的多个图像的数据集上预训练的神经网络模型，从所接收图像中提取特征；通过使用提取出的特征将所接收图像聚类成一个或多个类别来执行第一级别推断，该聚类步骤包括：使用轮廓系数来确定所述一个或多个类别的最优数量；通过执行以下中的至少一个来基于在所接收图像之间检测到的相似性来识别一个或多个类别：计算第一距离测量值，其由所接收图像中的每个与所接收图像中的每个其他图像的球面距离来表示；使用基于最大后验概率(MAP)的类别分布来计算所接收图像中的每个图像属于类别的可能性；以及计算第二距离测量值，其由所接收图像中的每个与一个或多个类别中的每个的质心之间的球面距离来表示；其中，一个或多个类别的数量等于所确定的最优数量；以及使用归一化互信息(NMI)分数、兰德指数和纯度测量值中的一个或多个来验证一个或多个类别的质量；以及基于所考虑的上下文将一个或多个类别与标签相关联。

在本公开的实施例中，输入模块还被配置为获得与所接收图像相关联的至少一些元数据；和基于相关联的标签来更新与所接收图像相关联的元数据。

在本公开的实施例中，上述系统还包括预处理模块，其被配置为在提取特征之前通过执行以下中的至少一个来预处理所接收图像：(i)第一级别预处理，通过执行归一化、主成分分析(PCA)白化、亮度校正、标准化和分割中的一个或多个来增强所接收图像的质量；和(ii)第二级别预处理，通过执行旋转、裁剪、移位、缩放和变焦中的一个或多个来使所接收图像适于向前传递到神经网络模型。

在本公开的实施例中，特征提取器还被配置为用包括形态特征和颜色相关特征的额外特征来增补由神经网络模型提取出的特征，以导出主特征集；以及使用降维方法来压缩主特征集。

在本公开的实施例中，聚类模块还被配置为在一个或多个类别中的一个或多个内执行第一级别推断。

在本公开的实施例中，上述系统还包括分类模块，其被配置为通过将一个或多个类别分类为一个或多个子类别来执行第二级别推断，该分类步骤包括：获得与对应于与所考虑的上下文有关的一个或多个类别的一个或多个子类别相关联的多个预训练的标记器模型，其中预训练的标记器模型由主特征集来训练；基于多个预训练的标记器模型将来自第一级别推断的一个或多个类别分类为一个或多个子类别；计算所分类的一个或多个子类别的置信水平；用与低于预定义阈值的置信水平相关联的图像重新训练多个预训练的标记器模型，以获得多个分类模型；以及基于所述一个或多个类别、其中的一个或多个子类别以及其相互关系来创建分类模型的知识本体。

在本公开的实施例中，分类模块还被配置为在重新训练预训练的标记器模型之前，利用相关联的元数据来评估与低于预定义阈值的置信水平相关联的所接收图像。

在本公开的实施例中，上述系统还包括：数据库，被配置为存储所接收图像和与其相关联的元数据、一个或多个类别、一个或多个子类别、多个分类模型以及知识本体。

在本公开的实施例中，输入模块还被配置为通过执行以下中的一个或多个来智能地识别和发送所接收图像的至少一个子集：基于与所接收图像相关联的熵值来确定所接收图像是否有效；和将所接收图像与预定数量的先前图像进行比较来确定所接收图像是否适合与其相关联的一个或多个子类，其中，先前图像的预定数量是基于所考虑的上下文的自适应阈值。

在本公开的实施例中，系统被配置在云边缘拓扑结构中，该系统具有(i)用作IoT网关的输入模块；(ii)被实施为基于云的设备的聚类模块、分类模块、预训练的标记器模型和数据库；(iii)被实施为云端设备以及边缘端设备的预处理模块；以及(iv)被实施为云端设备并被部署在边缘端上使得边缘端以其当前版本而被更新的特征提取器和分类模型。

要理解的是，前面的一般性描述和下面的详细描述都只是示例性和说明性的，并不是对要求保护的本公开的实施例的限制。

附图说明

附图示出了示例性实施例并与说明书一起用于解释所公开的原理，附图被并入本公开并构成本公开的一部分。

图1示出了本领域已知的云边缘拓扑的示例性示意图。

图2示出了根据本公开的实施例的具有可以被配置在图1的云边缘拓扑结构中的用于时空图像变化的自动推断的系统的功能模块的示例性框图。

图3示出了根据本公开的实施例的在图2的系统的云端处实施的功能模块及其互连的示例性框图。

图4示出了根据本公开的实施例的示出了在执行第一级别推断的步骤中涉及的方法流程的示例性框图。

图5示出了根据本公开的实施例的示出了在第二级别推断的步骤中涉及的方法流程的示例性框图。

图6示出了根据本公开的实施例的表示在图1的云边缘拓扑结构的边缘上的分类模型的部署以及随后的推断的示例性框图。

图7是示出了根据本公开的实施例的用于时空图像变化的自动推断的计算机实施的方法的示例性流程图。

本领域技术人员应该理解的是，本文中的任何框图表示体现本主题的原理的说明性系统的概念图。类似地，将要理解的是，任何流程图、流程图表、状态转变图、伪代码等表示各种过程，该过程可以基本上被表示在计算机可读介质中并由计算设备或处理器执行，无论是否明确示出了这样的计算设备或处理器。

具体实施方式

参考附图来描述示例性实施例。在附图中，附图标记最左边的一个或多个数字标识了其中该附图标记首次出现的附图。只要方便，在所有附图中使用相同的附图标记来指代相同或相似的部分。虽然本文描述了所公开原理的示例和特征，但是在不脱离所公开实施例的精神和范围的情况下，修改、调整和其他实施方式是可能的。以下详细描述旨在被视为仅是示例性的，而真实范围和精神由所附权利要求指示。

本公开提供了端到端分布框架，其分析特定上下文的相关图像并导出相关推断。上下文可以涉及农业、交通、安全性监督、家畜监视、监测结构的健康等。尽管以下描述是参考农业上下文提供的，但是可以理解的是，在不脱离本公开的精神的情况下，下文中描述的系统和方法可以应用于任何这样的上下文。

在本公开的上下文中，表述“相关的图像”是指上下文相关的图像。再次，下文中提到的表述“时空图像”涉及在给定时间内在特定空间中收集到的图像。可以注意的是，在本公开的上下文中，表述“图像”是指直接获得的或从视频中提取的静态图像。

深度卷积神经网络(CNN)被证明提供比启用监督分类更稳健的特征。然而，需要通过人为干预标记的上下文特定数据的大数据库。还必要的是，在受控制的环境中捕捉用于分类所提供的图像，并且在特定数据上训练用于分类的模型，在没有这的情况下监督分类可能是不可行的。对连接的设备的实时监视是收集数据的基础。这些收集到的实时数据为精细农作等应用提供了非常有价值的见解。本公开的系统和方法便于在源处针对给定上下文以图像形式对收集到的数据进行智能标记，以允许以可缩放方式进行推断，可缩放性不仅与本公开的系统和方法可以处理的图像的数量及分类的可能层级相关联，而且还与可以被处理的图像的可能类别相关联。还解决了在通过不同相机捕捉和在不受控制的条件下拍摄的图像的稳健特征计算方面所面临的挑战。本公开通过无监督归类和监督归类的某种组合促进时空图像变化的自动推断。本公开的系统和方法还能够在缺少连接的情况下实时推断在边缘上获得的图像。

现在参考附图，并且更具体地参考图1至图7(其中相似的附图标记贯穿附图始终表示相应的特征)，示出了优选的实施例，并且在以下示例性系统和方法的上下文中描述这些实施例。

图1示出了如本领域中已知的云边缘拓扑100的示例性示意表示，并且图2示出了根据本公开的实施例的具有用于检测欺骗性(deceptive)信号中的故障及其计算严重性(severity)的系统200的功能模块的示例性框图。在实施例中，系统200可以驻留在一个或多个计算机上，并且包括一个或多个处理器(未示出)、通信接口或输入/输出(I/O)接口(未示出)、以及可操作地耦合到一个或多个处理器的存储器或一个或多个内部数据设备(未示出)。在本公开的上下文中，一个或多个内部数据存储设备可以被可互换地称为存储器或数据库。作为硬件处理器的一个或多个处理器104可以被实施为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、图形控制器、逻辑电路、和/或基于操作指令来操纵信号的任何设备。在其他能力中，(一个或多个)处理器被配置为取出并执行存储在存储器中的计算机可读指令，以用于执行图7中以示例性流程图的形式示出的本公开的方法300的步骤。

在实施例中，系统200可以被实施为涉及各种计算系统，诸如膝上型计算机、台式计算机、笔记本、工作站、大型计算机、服务器、网络服务器、云、手持式设备等。构成客户端120的计算系统经由任何类型的网络110与构成服务器130的计算系统通信。I/O接口可以包括各种软件接口和硬件接口(例如，web接口、图形用户接口等)，并且可以便于各种网络110和协议类型(包括例如LAN、电缆等的有线网络和诸如WLAN、小区或卫星的无线网络)内的多个通信。在实施例中，I/O接口可以包括一个或多个端口，以用于将多个设备彼此连接或连接到另一个服务器。存储器可以包括本领域中已知的任何计算机可读介质，包括例如易失性存储器(诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(诸如只读存储器(ROM)、可擦除可编程ROM、闪存、硬盘、光盘和磁带)。在实施例中，存储器可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储器和缓存存储器，其提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储器获取代码的次数。在实施例中，系统200的各种功能模块(参见图2)可以被存储在存储器中。

图7是示出了根据本公开的实施例的用于时空图像变化的自动推断的计算机实施的方法300的示例性流程图。现在将参考图2的系统200的组件和图3至图6中呈现的细节来详细解释方法300的步骤，其中，图3示出了根据本公开的实施例的在图2的系统的云端处实施的功能模块以及其互连的示例性框图；图4示出了根据本公开的实施例的示出了在执行第一级别推断的步骤中涉及的方法流程的示例性框图；图5示出了根据本公开的实施例的示出了在第二级别推断的步骤中涉及的方法流程的示例性框图；以及图6示出了根据本公开的实施例的表示在图1的云边缘拓扑的边缘上的分类模型的部署以及随后推断的示例性框图。尽管可以按连续顺序来描述过程步骤、方法步骤、技术等，但是这样的过程、方法和技术可以被配置为以交替顺序工作。换句话说，可以描述的步骤的任何次序或顺序未必指示按该顺序来执行步骤的要求。本文描述的过程的步骤可以按任何实际顺序来执行。此外，可以同时执行一些步骤。

在本公开的实施例中，如图2中所示的本公开的系统200被配置在如图1中所示的云边缘拓扑结构100中，其中，云边缘拓扑结构100的边端一般由附图标记120表示，并且云边缘拓扑100的云端一般由附图标记130表示，网络110将边缘端120连接到云端130。在实施例中，云边缘拓扑结构100可以是IoT实施方式。一个或多个边缘端设备(均与所考虑的上下文有关并且一般被表示为边缘1、…边缘n)可以被配置在边缘端120处。同样地，一般被表示为系统1、...系统n的一个或多个云端设备可以被配置在云端130处。构成系统200的示例性功能模块可以包括输入模块120a，其可以用作桥接IoT设备和云端130之间的通信间隙的IoT网关。聚类模块(130e)、分类模块(130f)、预训练的标记器模型(130a)和数据库(130g)可以被实施为云端设备。预处理模块(120b)可以被实施为云端设备以及边缘端设备两者。特征提取器(130c)和分类模型(130d)可以被实施为云端设备，并且然后被部署在边缘端(120c、120d)上，使得用当前版本的云端设备来更新边缘端。

所示的分布式框架使能够有效地学习和过滤在IoT实施方式的边缘端120处接收到的冗余图像并提高系统的效率。由于边缘端上的执行是框架的一部分，即使在缺少连接的情况下也可以在边缘端120上获得所接收图像的实时推断，并且只要数据连接可用就可以将图像上传到云端130。除了便于实时推断以外，分布式框架还调节到云端130的流量(traffic)。

本领域技术人员可以理解的是，尽管分布式框架是用于实时推断和管理流量的优选框架，但是本公开的功能模块可以被集成到单个处理系统中。

因此，在本公开的实施例中，输入模块120a可以被配置为在步骤302处以一个或多个时间间隔来接收与所考虑的上下文(例如农业上下文)有关的多个图像。在边缘端120处所接收图像与空间信息和时间信息中的至少一个相关并关联。可以从安装在与所考虑的上下文相关联的区域中的相机传感器来捕捉图像。图像也可以作为参与感测应用的一部分被获得。在实施例中，至少一些元数据可以与所接收图像相关联。由于将主要从其中图像的支持信息可能是不完整的多个用户/源获得图像，因此图像元数据可能是非结构化的、不正确的或不充分的。在实施例中，在边缘端120没有智能的情况下，元数据可以通过有限次数的初始迭代的专家干预来关联。在实施例中，可以呈现界面或控制台以供人类或专家系统进行专家干预。

在实施例中，输入模块还可以被配置为在步骤304处，基于空间信息或时间信息和自适应阈值，以一个或多个时间间隔发送所接收图像的至少一个子集。在第一次迭代中，作为初始化的一部分，在边缘端120处没有智能的情况下，可以将所有所接收图像发送到云端130。随后，当系统200在云端130上自主学习并丰富数据库130g时，步骤304还可以包括智能地识别和发送所接收图像的子集，如稍后在描述中所解释的。

在实施例中，在步骤314处，在将所接收图像和关联的元数据发送到云端130之后，可以将所接收图像和关联的元数据存储在数据库130g中。

在本公开的实施例中，在步骤306处，云端130上的特征提取器(130c)可以被配置为通过将所接收图像向前传递通过神经网络模型而从所接收图像中提取特征。本公开便于利用(leveraging)使用神经网络模型提取出的高级别稳健特征。然而，不同于传统系统(其中在上下文特定数据的大数据库上预训练神经网络模型)，根据本公开，在与变化的上下文有关的多个图像的数据集上预训练神经网络模型，从而使特征提取步骤306与所考虑的域无关。再次，由于神经网络模型未在特定数据集上训练，因此系统200能够分析通过不同相机捕捉的所有类型图像或在不受控制的条件(如不同的亮度、背景、有遮挡和变化的角度)下拍摄的图像。

根据实施例，包括特征提取的步骤306可以在由云端处的预处理模块(130b)对所接收图像进行预处理之后。在实施例中，预处理可以涉及执行以下中的至少一个：(i)第一级别预处理，通过执行归一化、主成分分析(PCA)白化、亮度校正、标准化和分割中的一个或多个来增强所接收图像的质量；以及(ii)第二级别预处理，通过执行旋转、裁剪、移位、缩放和变焦中的一个或多个来使所接收图像适于向前传递到神经网络模型。

在实施例中，特征提取器130c还可以被配置为用诸如形态特征和颜色相关特征的额外特征来增补由神经网络模型提取出的特征，以导出主特征集。在实施例中，还可以使用降维方法来压缩主特征集。

根据本公开，执行层级的分类模式，其涉及使能够识别所接收图像中的级(stage)和相关联特性的第一粗略分类级别。在第二精细分类级别中，可以在每个识别出的级内识别事件。在实施例中，分类可以被嵌套到多个级别，例如，在许多相关图像中发现农作物外观中的特定异常，从而在本公开的系统和方法的推断能力方面实现变化的精度水平。可以注意到的是，与所有类别在一起的单个分类级别相比，每个类别或种类的级联图像分类给出了更好的准确性。

在实施例中，选自由K-平均值(KM)、小批量K-平均值(MBKM)、平均移位(MS)、相似性传播(AP)、DBSCAN、凝聚聚类(AC)和BIRCH组成的组的已知聚类方法可以被采用以进行聚类。然而，已知方法可能不提供如本领域中已知的高效聚类，这是因为根据本公开在变化的上下文上训练神经网络模型，并且可能导致非常大尺寸的提取特征，使聚类效率低。大尺寸的提取特征还排除了使用线性距离测量值来检测相似性。因此，根据本公开，采用球面距离测量值，如以下本文所解释的。

因此，在本公开的实施例中，聚类模块103e可以被配置为在步骤308处通过使用由以下方法提取的特征将所接收图像聚类为一个或多个类别来执行第一级别推断：其中，首先在步骤308a处，使用轮廓系数来确定类别的最优数量。然后，在步骤308b处，基于在所接收图像之间检测到的相似性，来识别一个或多个类别。在实施例中，相似性检测涉及在三个步骤308b-1、步骤308b-2和步骤308b-3中的至少一个处执行。作为初始化的一部分，在第一次迭代中，相似性检测是基于第一距离测量值，其由在步骤308b-1处计算出的所接收图像中的每个其他图像与所接收图像中的每个图像的球面距离来表示。在随后的迭代中，当接收到(一个或多个)新图像时，可以执行308b-2和步骤308b-3中的至少一个，其中，在步骤308b-2处，使用基于最大后验概率(MAP)的类别分布来计算所接收图像中的每个图像属于类别的可能性；以及在步骤308b-3处，计算第二距离测量值，其由所接收图像中的每个与在步骤308b-1中识别出的一个或多个类别中的每个的质心之间的球面距离来表示。在步骤308b-3处的第二距离测量值的计算消除了对于单独寻址每个图像的需要，并且仅处理一个或多个类别的质心，从而减少了处理时间并使该方法高效。根据本公开，在步骤308a处，一个或多个类别的数量等于所确定的最优数量。在实施例中，聚类模块103e可以被配置为在一个或多个类别中的一个或多个内执行第一级别推断，以作为以上本文所述聚类的嵌套级别的一部分。例如，均被聚类为一个类别的特定农作物的不同生长阶段(例如幼苗、茎伸长、营养期、出芽、开花、结果实、成熟、萎蔫、干枯等)的图像还可以被分类为如疾病/害虫识别的事件。聚类步骤308还可以在所接收图像的提取特征和与在步骤308b-1处识别的一个或多个类别相关联的特征之间缺少相似性的情况下标记新类别。

根据本公开，一旦在步骤308处执行了第一级别推断，就在步骤308c处通过使用归一化互信息(NMI)分数、兰德指数(Rand Index)和纯度测量值中的一个或多个来验证与所识别的一个或多个类别相关联的质量。如果有效性检查失败，则可以对一个或多个类别进行重新聚类。当接收到(一个或多个)新图像并且在步骤308b-2处计算出的可能性和在步骤308b-3处计算出的第二距离测量值都不提供便于聚类的清楚指示时，也可以发起重新聚类。

与涉及使用监督分类的神经网络模型的传统方法相比，根据本公开的无监督聚类方法消除了对通常依赖于人为干预对所接收图像进行繁琐的图像标记的需要。

在本公开的实施例中，在步骤310处，可以呈现界面或控制台，以供人类或专家系统进行专家干预，以基于所考虑的上下文来标记一个或多个类别。可以注意到的是，可以仅在初始化期间需要这种干预。可以基于关联的标签来更新与所接收图像相关联的元数据。

在本公开的实施例中，分类模块130f可以被配置为在步骤312处通过将一个或多个类别分类为一个或多个子类别来执行第二级别推断。对于较精细的分类，在步骤312a处获得与所考虑的上下文有关的多个预训练的标记器模型130a。预训练的标记器模型130a与对应于与所考虑的上下文有关的一个或多个类别的一个或多个子类别相关联，并且由在上述聚类步骤308之前提取出的相同主特征集来训练。再次，标记器模型130a的预训练涉及使用有限的上下文特定图像集，其中图像集可以是在输入模块120a处所接收图像的一部分。预训练的标记器模型130a便于在步骤312b处将在第一分类级别中识别的一个或多个类别分类为一个或多个子类别。在实施例中，在步骤312c处，可以计算所分类的一个或多个子类别的置信水平，基于该置信水平，可以在步骤312d处使用与低于预定义阈值的置信水平相关联的图像来重新训练预训练的标记器模型130a。重新训练的标记器模型表示分类模型130d。重新训练和相关联的自学习用仅在初始迭代中发生的最小人为干预来使系统200智能化并适于计算机视觉要求。在本公开的实施例中，在步骤310处呈现的用于由人类或专家系统进行专家干预的界面或控制台可以涉及基于所考虑的上下文来标记与一个或多个类别相关联的一个或多个子类别。在几次迭代和重新训练之后，可以不需要专家验证和标记，并且系统200可以自动标记所接收图像，并且还可以在数据库130g中更新相关联的元数据。因此，可以注意到的是，多个预训练的标记器模型130a可以共同捕捉所考虑的上下文的整个分类法。

在实施例中，分类模块130f还可以被配置为在步骤312d处重新训练预训练的标签模型130a之前，利用获得的元数据来评估与低于预定义阈值的置信水平相关联的所接收图像，以确保基于专家标记进行重新培训的有效理由。

在实施例中，分类模块130f还可以被配置为在步骤312e处基于一个或多个类别、其中的一个或多个子类别以及其相互关系来创建知识本体。通过根据所接收图像进行自适应学习来根据所接收图像创建知识本体，使本公开的系统和方法不仅能够对所接收的新图像进行分类，而且能够识别特定空间和/或时间内图像中的对象特性的变化。所识别的特性的质量可以取决于可用于图像的元数据的级别。可以注意到的是，预训练的标记器模型130a的自学习和重新训练有助于通过用每次迭代添加智能和消除对人类专家的依赖性来丰富知识模型。关于所考虑的农业上下文，各种农作物的分类模型、以综合知识本体的形式可用的其生长阶段和健康状况有助于使用本公开的系统和方法来解释所捕捉图像中的农作物。例如，如果农民通过移动应用捕捉了病变农作物的图像，则本公开的系统可以检测该植物的生长阶段和该阶段内受疾病影响的农作物。这进而可以帮助建议可以被实施以保护农作物的必要补救办法。此外，在使用相机传感器监视农作物的同时，还可以学习在给定生长条件下植物的生长周期和健康状况。这增加了可以与农民分享关于特定种类农作物如何生长以及在什么条件下生长的知识。

在实施例中，作为步骤314的一部分，一个或多个类别、一个或多个子类别、多个分类模型和知识本体可以被存储在数据库130g上，其中所接收图像和相关联的元数据被存储。

作为分布式框架的一部分，当系统200被实施在云边缘拓扑结构中时，云端130上的特征提取器130c和分类模型130d被部署在边缘端上作为特征提取器120c和分类模型120d，以确保当前版本的这些功能模块在边缘端120处是可用的，以在所接收图像的边缘上进行实时推断，而不依赖于边缘端120和云端130之间的连接。

边缘端120处的更新后的功能模块向输入模块120a提供了智能，以使得能够在后续迭代中智能地识别所接收图像的子集并将其发送到云端130。智能识别首先涉及基于与所接收图像相关联的熵值来确定所接收图像是否有效。然后将有效的所接收图像与预定数量的先前图像进行比较，以确定所接收图像是否适合与先前图像相关联的一个或多个子类别，其中，预定数量的先前图像是基于所考虑的上下文的自适应阈值。

传统上，已知不同的分类方法，但是本公开的系统和方法便于用最少的标记和专家干预对数据库中的图像进行分类和标记，而具有更高的准确性。用于标记的人类专家干预可以仅在初始迭代中被调用，并且对于有限的图像集也是如此，在其后预训练的标记器模块的自学习和重新训练向本公开的系统和方法提供了自适应能力。本公开的系统和方法便于自动获取图像、以层级方式将图像分类、使用无监督聚类和监督分类的某种组合进行自学习和重新训练以对大量图像进行分类和适当标记，从而提供用于空间-时间图像的自动推断的准确的、可缩放和高效的系统和方法。

评估结果

参考广泛涉及“使用CNN的分类”现有方法，以下实验证明使用从CNN提取出的特征的本公开的基于层级聚类的分类的方法准确地执行。

用于比较研究的图像数据集由10个类别组成。

1、柑橘果实-褐斑

2、柑橘果实-白斑

3、柑橘叶-泛黄

4、柑橘树干-流胶(gummosis)

5、葡萄叶-健康

6、葡萄叶-泛黄

7、茶叶-黑斑

8、茶叶-褐斑

9、茶叶-健康

10、茶叶-害虫出没

用于执行比较研究的数据集对于所考虑的所有方法是相同的。

与现有技术相比，本公开的方法涉及使用来自预训练的CNN的特征来对图像进行聚类(无监督分类)。因此，下面提供的是在使用CNN的监督分类方法和本公开的方法之间的结果比较。

方法1(现有技术)：用上下文的、标记的图像集来训练CNN，以将图像分类为预定数量的类别(所有可能的类别、单个级别分类)。

方法2(具有单个分类级别的本公开的修改版本)：从预训练的CNN(不可知上下文)中提取特征，并使用分类器对所有预定数量的子类别中的图像进行分类(所有可能的类别、单个级别分类)

方法3(本公开)：从预训练的CNN(不可知上下文)中提取特征，将图像聚类为宽类别并进一步将每个聚类分类为其子类别。

在本公开的系统/方法的第一次迭代中使用的数据量是243个图像，其中218个图像被用于训练和验证分类系统，并且25个图像被用于测试本公开的系统/方法。

结果：

方法1(现有技术)：在所述数据集上训练CNN模型。

分类准确性：52％

混淆矩阵：

标签：褐变柑橘、柑橘叶、葡萄病变、葡萄健康、茶黑斑、茶褐斑、茶健康、茶害虫、树干流胶、白柑橘。

[[1 0 1 0 0 1 0 0 1 0]

[0 1 0 0 0 0 0 0 0 0]

[0 0 3 0 1 0 0 0 1 0]

[0 0 0 3 0 0 0 0 0 0]

[0 0 0 0 2 0 0 0 0 0]

[0 0 1 0 0 1 0 0 0 0]

[0 1 0 0 0 0 0 0 1 0]

[0 0 1 0 0 0 0 0 0 0]

[0 0 0 0 0 0 0 0 2 1]

[0 0 2 0 0 0 0 0 0 0]]

分类报告

类别号	类别	精度	召回	F1-分数	支持
						1	褐变柑橘	1.00	0.25	0.40	4
2	柑橘叶	0.50	1.00	0.67	1
						3	葡萄病变	0.38	0.60	0.46	5
4	葡萄健康	1.00	1.00	1.00	3
						5	茶黑斑	0.67	1.00	0.80	2
6	茶褐斑	0.50	0.50	0.50	2
						7	茶害虫	0	0	0	2
8	树干流胶	0.40	0.67	0.5	3
						9	白柑橘	0	0	0	2
	平均/总计	0.52	0.52	0.47	25

方法-1中的CNN分类器给出了低的准确性，这是因为数据量较少导致过拟合。

方法2(具有单个分类级别的本公开的修改版本)：对于从CNN提取出的特征，分类器被训练为将数据分类为10个已知类别。

分类准确性：80％

混淆矩阵：

[[1 0 0 0 0 0 0 0 0 0]

[0 1 0 0 0 0 0 0 0 0]

[0 0 3 0 0 0 0 0 0 0]

[0 0 2 6 0 0 0 0 0 0]

[0 1 0 0 2 0 0 0 0 0]

[0 0 0 0 1 1 0 1 0 0]

[0 0 0 0 0 0 0 0 0 0]

[0 0 0 0 0 0 0 1 0 0]

[0 0 0 0 0 0 0 0 4 0]

[0 0 0 0 0 0 0 0 0 1]]

从结果可以注意到的是，在具有不同疾病/健康状况的相同植物的叶之间存在错误分类。可以推断的是单个级别分类不能够区分相同种类叶/果实的子类别之间的微小差异。

方法3(本公开)：

分类准确性：93.75％

混淆矩阵：

	茶黑斑	茶褐斑	茶褐斑	茶害虫
					茶黑斑	3	0	0	0
茶褐斑	0	2	0	1
					茶褐斑	0	0	2	0
茶害虫	0	0	0	1

分类报告：

在本公开的方法中识别的子类别提供了对来自茶叶聚类的图像的更精细分类，所述茶叶聚类使用以上方法1和2被错误地分类，如从对应的混淆矩阵中看到的。

在以上方法1和2中，较好准确性所需的数据量较高，并且所指出的错误分类是由于高的类别间相似性。此外，即使引入了与现有10个类别不同的单个新类别，也需要重新训练分类器。而且，在将所有类别分类在一起时，分类准确性由于一些类别之间的高相似性(例如，相同农作物叶的疾病状况)而降低。

在本公开的方法-3中，即使在初始可用的数据较少时，准确性也相对较好。以粗略的第一级别聚类的形式执行将多级别分类为类别，并进一步更精细地分类为子类别，提高了获得的准确性。此外，由于聚类智能(wise)分类器彼此独立，如果必须引入新类别，则仅需要训练属于该聚类的子类别的图像的分类器，而不是像本领域已知的方法1和2那样重新训练整个分类系统。

书面描述描述了本文的主题，以使本领域技术人员能够制造和使用实施例。本主题实施例的范围由权利要求限定，并且可以包括本领域技术人员想到的其它修改。如果这样的其它修改具有与权利要求的字面语言没有不同的类似要素，或者如果它们包括与权利要求的字面语言无实质性差别的等价要素，则这些其它修改意图在权利要求的范围内。

这里定义的本主题实施例的范围可以包括本领域技术人员想到的其它修改。如果这些其它修改具有与权利要求的字面语言没有不同的相似要素，或者如果它们包括与字面语言无实质性差别的等价要素，则这些其它修改意图在该范围内。

要理解的是，保护的范围被扩展到这样的程序，并且加上其中具有消息的计算机可读装置；当程序在服务器或移动设备或任何合适的可编程设备上运行时，这样的计算机可读存储装置含有用于实施该方法的一或多个步骤的程序代码装置。硬件设备可以是可以编程的任何类型的设备，包括例如如服务器任何类型的计算机或个人计算机等或者其的任何组合。该装置还可以包括可以是例如硬件装置的装置(如例如专用集成电路(ASIC)、现场可编程门阵列(FPGA))，或者硬件和软件装置的组合(例如ASIC和FPGA)，或者至少一个微处理器和软件模块位于其中的至少一个存储器。因此，该装置可以包括硬件装置和软件装置两者。本文描述的方法实施例可以以硬件和软件来实施。该设备还可以包括软件装置。可替选地，实施例可以在不同的硬件设备上实施，例如使用多个CPU。

本文的实施例可以包括硬件和软件元件。以软件实施的实施例包括但不限于固件、驻留软件、微代码等。由本文描述的各种模块执行的功能可以在其他模块或其他模块的组合中实施。出于此描述的目的，计算机可用或计算机可读介质可以是可以包括、存储、通信、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用的任何装置。

此外，尽管可以按连续顺序来描述过程步骤、方法步骤、技术等，但是这样的过程、方法和技术可以被配置为以交替顺序工作。换句话说，可以描述的步骤的任何次序或顺序未必指示按该顺序来执行步骤的要求。本文描述的过程的步骤可以按任何实际顺序来执行。此外，可以同时执行一些步骤。

所阐述的步骤被阐述以解释所示的示例性实施例，并且应该预期正在进行的技术开发将改变执行特定功能的方式。这些实施例在本文中用于说明而非限制的目的。此外，为了便于描述，本文已经任意地定义了功能构建块的边界。可以定义可替选的边界，只要指定的功能及其关系被适当地执行。基于本文所包含的教导，可替选方案(包括本文所描述那些的等价物、扩展、变型、偏差等)对于一个或多个相关领域技术人员来说将是显而易见的。这样可替选方案落入所公开实施例的范围和精神内。此外，词语“包含”、“具有”、“含有”和“包括”以及其他类似形式在含义上是等价的，并且是开放式的，因为这些词语中的任何一个之后的一个或多个项目并不意味着是这样一个或多个项目的穷举列表，或者仅限于所列出的一个或多个项目。还必须注意的是，如本文和所附权利要求中使用的，除非上下文另有明确说明，否则单数形式“一”、“一个”和“该”包括复数引用。

本公开和示例旨在被认为仅是示例性的，所公开的实施例的真实范围和精神由所附权利要求指示。

Claims

1.一种处理器实施的方法(300)，该方法包括：

以一个或多个时间间隔接收与所考虑的上下文有关的多个图像，所接收图像与空间信息和时间信息中的至少一个相关且关联(302)；

基于所述空间信息或时间信息和自适应阈值，以所述一个或多个时间间隔来识别和发送所接收图像的至少一个子集(304)；

通过将所接收图像向前传递通过在与变化的上下文有关的多个图像的数据集上被预训练的神经网络模型，来从所接收图像中提取特征(306)；

通过使用所提取特征将所接收图像聚类为一个或多个类别，来执行第一级别推断(308)，该聚类的步骤包括：

使用轮廓系数确定所述一个或多个类别的最优数量(308a)；

通过执行以下中的至少一个而基于在所接收图像之间检测到的相似性来识别所述一个或多个类别(308b)：

计算第一距离测量值，其由所接收图像中的每个与所接收图像中的每个其他图像的球面距离来表示(308b-1)；

使用基于最大后验概率(MAP)的类别分布来计算所接收图像中的每个图像属于类别的可能性(308b-2)；以及

计算第二距离测量值，其由所接收图像中的每个和所述一个或多个类别中的每个的质心之间的球面距离来表示(308b-3)；

其中，所述一个或多个类别的数量等于所确定的最优数量；以及

使用归一化互信息(NMI)分数、兰德指数和纯度测量值中的一个或多个来验证所述一个或多个类别的质量(308c)；以及

基于所考虑的上下文将所述一个或多个类别与标签相关联(310)。

2.根据权利要求1所述的处理器实施的方法，其中，所述接收的步骤包括：获得与所接收图像相关联的至少一些元数据；以及基于所关联的标签来更新与所接收图像相关联的元数据。

3.根据权利要求2所述的处理器实施的方法，其中，在从所接收图像中提取特征的步骤之前是预处理步骤，该预处理步骤包括以下中的至少一个：(i)第一级别预处理，通过执行归一化、主成分分析(PCA)白化、亮度校正、标准化和分割中的一个或多个来增强所接收图像的质量；和(ii)第二级别预处理，通过执行旋转、裁剪、移位、缩放和变焦中的一个或多个来使所接收图像适于向前传递到所述神经网络模型；并且其中，从所接收图像中提取特征的步骤包括以下中的一个或多个：用包括形态特征和颜色相关特征的额外特征来增补由所述神经网络模型提取出的特征，以导出主特征集；以及使用降维方法来压缩所述主特征集。

4.根据权利要求1所述的处理器实施的方法，其中，在所述一个或多个类别中的一个或多个内实施执行第一级别推断的步骤。

5.根据权利要求3所述的处理器实施的方法，还包括：

通过将所述一个或多个类别分类为一个或多个子类别来执行第二级别推断(312)，该分类的步骤包括：

获得与对应于与所考虑的上下文有关的一个或多个类别的一个或多个子类别相关联的多个预训练的标记器模型，其中，所述预训练的标记器模型由所述主特征集来训练(312a)；

基于所述多个预训练的标记器模型将来自所述第一级别推断的所述一个或多个类别分类为所述一个或多个子类别(312b)；

计算所分类的一个或多个子类别的置信水平(312c)；

用与低于预定义阈值的置信水平相关联的所接收图像来重新训练所述多个预训练的标记器模型，以获得多个分类模型(312d)；以及

基于所述一个或多个类别、其中的一个或多个子类别以及其相互关系来创建所述分类模型的知识本体(312e)；以及

对所接收图像和与其关联的元数据、所述一个或多个类别、所述一个或多个子类别、所述多个分类模型和所述知识本体进行存储(314)。

6.根据权利要求5所述的处理器实施的方法，其中，在重新训练所述多个预训练的标记器模型的步骤之前，用所述相关联的元数据来评估与低于所述预定义阈值的置信水平相关联的所接收图像。

7.根据权利要求6所述的处理器实施的方法，其中，识别和发送所接收图像的至少一个子集的步骤包括执行以下中的一个或多个：

基于与所接收图像相关联的熵值来确定所接收图像是否有效；以及

将所接收图像与预定数量的先前图像进行比较以确定所接收图像是否适合于与其相关联的一个或多个子类别，其中，所述先前图像的预定数量是基于所考虑的上下文的自适应阈值。

8.一种系统(200)，包括：

一个或多个内部数据存储设备，其可操作地耦合到一个或多个硬件处理器，以用于存储被配置为由所述一个或多个硬件处理器执行的指令，该指令被包括在以下中：

输入模块(120a)，被配置为：

以一个或多个时间间隔接收与所考虑的上下文有关的多个图像，所接收图像与空间信息和时间信息中的至少一个相关并关联；以及

基于所述空间信息或时间信息和自适应阈值，以所述一个或多个时间间隔来识别和发送所接收图像的至少一个子集；

特征提取器(120c、130c)，被配置为通过将所接收图像向前传递通过在与变化的上下文有关的多个图像的数据集上被预训练的神经网络模型，来从所接收图像中提取特征；

聚类模块(130e)，被配置为通过使用所提取特征将所接收图像聚类为一个或多个类别来执行第一级别推断，该聚类的步骤包括：

使用轮廓系数来确定所述一个或多个类别的最优数量；

通过执行以下中的至少一个而基于在所接收图像之间检测到的相似性来识别所述一个或多个类别：

计算第一距离测量值，其由所接收图像中的每个与所接收图像中的每个其他图像的球面距离来表示；

使用基于最大后验概率(MAP)的类别分布来计算所接收图像中的每个图像属于类别的可能性；以及

计算第二距离测量值，其由所接收图像中的每个和所述一个或多个类别中的每个的质心之间的球面距离来表示；

使用归一化互信息(NMI)分数、兰德指数和纯度测量值中的一个或多个来验证所述一个或多个类别的质量；以及

基于所考虑的上下文将所述一个或多个类别与标签相关联。

9.根据权利要求8所述系统，还包括以下中的一个或多个：

预处理模块(120b、130b)，被配置为在提取特征之前，通过执行以下中的至少一个来预处理所接收图像：(i)第一级别预处理，通过执行归一化、主成分分析(PCA)白化、亮度校正、标准化和分割中的一个或多个来增强所接收图像的质量；和(ii)第二级别预处理，通过执行旋转、裁剪、移位、缩放和变焦中的一个或多个来使所接收图像适于向前传递到所述神经网络模型；

分类模块(130f)，被配置为通过将所述一个或多个类别分类为一个或多个子类别来执行第二级别推断，其中，所述分类通过以下来执行：

获得与对应于与所考虑的上下文有关的一个或多个类别的一个或多个子类别相关联的多个预训练的标记器模型(130a)，其中，所述预训练的标记器模型由所述主特征集来训练；

基于所述多个预训练的标记器模型将来自所述第一级别推断的所述一个或多个类别分类为所述一个或多个子类别；

计算所分类的一个或多个子类别的置信水平；

用与低于预定义阈值的置信水平相关联的图像来重新训练所述多个预训练的标记器模型，以获得多个分类模型(120d、130d)；以及

基于所述一个或多个类别、其中的一个或多个子类别以及其相互关系来创建所述分类模型的知识本体；以及

数据库(130g)，被配置为对所接收图像和与其关联的元数据、所述一个或多个类别、所述一个或多个子类别、所述多个分类模型以及所述知识本体进行存储。

10.根据权利要求9所述的系统，其中，所述特征提取器还被配置为用包括形态特征和颜色相关特征的额外特征来增补由所述神经网络模型提取出的特征，以导出主特征集；以及使用降维方法来压缩所述主特征集；其中，所述聚类模块还被配置为在所述一个或多个类别中的一个或多个内执行所述第一级别推断；其中，所述分类模块还被配置为在重新训练所述预训练的标记器模型之前，用相关联的元数据来评估与低于所述预定义阈值的置信水平相关联的所接收图像；其中，所述输入模块还被配置为获得与所接收图像相关联的至少一些元数据，并且基于所述相关联的标签来更新与所接收图像相关联的元数据，并且其中，所述输入模块还被配置为通过执行以下中的一个或多个来识别和发送所接收图像的至少一个子集：