CN111814768A

CN111814768A - 基于ai复合模型的图像识别方法、装置、介质和设备

Info

Publication number: CN111814768A
Application number: CN202010907506.6A
Authority: CN
Inventors: 吴斌
Original assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Xuanwei Beijing Biotechnology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-10-23
Anticipated expiration: 2040-09-02
Also published as: CN111814768B

Abstract

本发明的实施方式提供了一种基于AI复合模型的图像识别方法、装置、介质和设备。该方法包括：采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。本申请采用AI复合模型对图像进行识别，可以直接将直播的视频信号作为模型的输入，采用高速模型快速发现视频中需要识别的目标，对于需要进行精准识别的小目标或具有复杂轮廓的对象，调用其中的高精度模型进行处理，最终输出分割区域、目标类别及边框，并叠加显示在视频中作为提醒。从而保证了视频图像如直播中目标检测的实时性，并且减少了精度误差，为用户带来了更好的体验。

Description

基于AI复合模型的图像识别方法、装置、介质和设备

技术领域

本发明的实施方式涉及图像识别领域，更具体地，本发明的实施方式涉及一种基于AI复合模型的图像识别方法、装置、介质和设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着计算机断层扫描(computed tomography，CT)、核磁共振成像(magneticresonance imaging，MRI)以及超声(ultrasonic，US)等医学成像技术的产生和飞速发展，医院中产生并存储了大量的可供临床诊断和分析的医学图像。近年来，随着计算机及其相关技术的迅速发展以及图形图像技术的日趋成熟，医务工作者可以从多方位、多层次、多角度地对医学图像进行观察，从而辅助医生对病变体及其他感兴趣区域进行重点分析，提高了临床诊断的准确性。

当前已有不少工作将机器学习方法应用到医疗图像的自动诊断中，但是无法适用于实时性及精度要求都非常高的场景，例如医学图像往往存在很多需要识别检测的小目标，且这些小目标的轮廓可能非常复杂，如果需要对这些目标进行准确识别和检测，往往很难在短时间内完成。

发明内容

在本上下文中，本发明的实施方式期望提供一种基于AI复合模型的图像识别方法、装置、介质和设备。

在本发明实施方式的第一方面中，提供了一种基于AI复合模型的图像识别方法，包括：

采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；

通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。

在本发明的一个实施例中，所述高速中精度模型中包括用于区分前景和背景的至少包括双分支的神经网络模型，其中至少一个分支采用注意力机制对输入数据进行处理以准确区分前景和背景。

在本发明的一个实施例中，所述至少包括双分支的神经网络模型中的第一分支采用注意力机制对输入第一分支的数据进行处理，第二分支直接将输入其中的数据与经第一分支处理后的输出数据融合以输出结果。

在本发明的一个实施例中，所述第一分支至少采用多通道注意力机制对输入第一分支的数据进行处理。

在本发明的一个实施例中，所述第一分支至少采用空间注意力机制对输入第一分支的数据进行处理。

在本发明的一个实施例中，所述第一分支通过以下步骤采用多通道注意力机制对输入第一分支的数据进行处理：

基于神经网络的损失函数得到各个特征图的权重，其中高价值特征图的权重比低价值或无价值特征图的权重大。

在本发明的一个实施例中，所述第一分支通过以下步骤实现多通道注意力机制对输入第一分支的数据进行处理：

对输入第一分支的数据或第一分支中上一神经网络层处理后的数据进行全局均值池化；

根据全局均值池化之后得到的全局信息计算得到各个特征图的权重。

在本发明的一个实施例中，通过以下方式计算得到各个特征图的权重：

将所述全局信息输入顺序连接的两个全连接层，其中在前的全连接层采用预设的压缩系数对特征图进行压缩，排序在后的全连接层将压缩后的特征图恢复到原来的维度，两个全连接层采用不同的激活函数。

在本发明的一个实施例中，所述第一分支通过以下步骤实现空间注意力机制对输入第一分支的数据进行处理：

将输入数据进行平均池化、最大池化和条纹池化处理；

将处理后的数据通过多层感知机进行变换；

将变换后的数据进行交叉通道池化处理进行降维，得到表征空间注意力的特征图；

将所述特征图和输入数据进行对位相乘。

在本发明的一个实施例中，所述中速高精度模型中包括采用空洞卷积的神经网络模型，所述中速高精度模型通过预先设置在空洞卷积末端的输出层得到特征图以准确区分图像中不同大小的对象。

在本发明的一个实施例中，所述输出层通过以下步骤得到特征图：

将不同层级的特征图输入特定卷积核的卷积层得到各个特征图的空间权重向量；

将各个空间权重向量在通道方向拼接得到权重融合图；

对所述权重融合图进行卷积计算得到各个特征图的权重向量；

在通道方向上对各个特征图的权重向量进行逻辑回归和归一化处理；

将处理后的各个特征图的权重向量乘加到各个特征图以得到最终的特征图。

在本发明的一个实施例中，所述图像流通过图像采集设备实时获取。

在本发明的一个实施例中，所述方法还包括：

在显示设备实时显示视频图像及所述视频图像中识别出的对象及相关信息。

在本发明实施方式的第二方面中，提供了一种基于AI复合模型的图像识别装置，包括：

图像确定模块，被配置为采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；

目标检测模块，被配置为通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。

在本实施方式的一个实施例中，所述高速中精度模型中包括用于区分前景和背景的至少包括双分支的神经网络模型，其中至少一个分支采用注意力机制对输入数据进行处理以准确区分前景和背景。

在本实施方式的一个实施例中，所述至少包括双分支的神经网络模型中的第一分支采用注意力机制对输入第一分支的数据进行处理，第二分支直接将输入其中的数据与经第一分支处理后的输出数据融合以输出结果。

在本实施方式的一个实施例中，所述第一分支至少采用多通道注意力机制对输入第一分支的数据进行处理。

在本实施方式的一个实施例中，所述第一分支至少采用空间注意力机制对输入第一分支的数据进行处理。

在本实施方式的一个实施例中，所述第一分支采用多通道注意力机制对输入第一分支的数据进行处理，包括：

在本实施方式的一个实施例中，所述第一分支通过多通道注意力机制对输入第一分支的数据进行处理，包括：

在本实施方式的一个实施例中，通过以下方式计算得到各个特征图的权重：

在本实施方式的一个实施例中，所述第一分支通过空间注意力机制对输入第一分支的数据进行处理，包括：

将输入数据进行平均池化、最大池化和条纹池化处理；

将处理后的数据通过多层感知机进行变换；

将所述特征图和输入数据进行对位相乘。

在本实施方式的一个实施例中，所述中速高精度模型中包括采用空洞卷积的神经网络模型，所述中速高精度模型通过预先设置在空洞卷积末端的输出层得到特征图以准确区分图像中不同大小的对象。

在本实施方式的一个实施例中，所述输出层通过以下方式得到特征图：

将各个空间权重向量在通道方向拼接得到权重融合图；

在本实施方式的一个实施例中，所述装置还包括：

图像采集模块，被配置为通过图像采集设备实时获取图像流。

在本实施方式的一个实施例中，所述装置还包括：

显示模块，被配置为在显示设备实时显示视频图像及所述视频图像中识别出的对象及相关信息。

在本发明实施方式的第三方面中，提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可以实现所述基于AI复合模型的图像识别方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述基于AI复合模型的图像识别方法。

根据本发明实施方式的基于AI复合模型的图像识别方法、装置、介质和设备，采用人工智能复合模型对图像进行识别，可以直接将直播的视频信号作为模型的输入，快速发现视频中需要识别的目标，对于需要进行精准识别的小目标或具有复杂轮廓的对象，调用其中的高精度模型进行处理，最终输出分割区域、目标类别及边框，并叠加显示在视频中作为提醒。从而确保了直播视频的实时性，并且减少了目标检测的精度误差，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的一种应用场景；

图2示意性地示出了根据本发明一实施例的基于AI复合模型的图像识别方法的流程示意图；

图3示意性地示出了根据本发明一实施例的包括ST分支的神经网络结构图；

图4示意性地示出了根据本发明一实施例的SE模块的经网络结构图；

图5示意性地示出了根据本发明一实施例的Transition模块的经网络结构图；

图6示意性地示出了根据本发明一实施例的包括SE模块和Transition模块的神经网络结构图；

图7示意性地示出了根据本发明一实施例的包括双分支的神经网络结构图；

图8为本发明实施例提供的基于AI复合模型的图像识别装置的模块示意图;

图9为本发明实施例提供的一种存储介质的示意图;

图10为本发明实施例提供的一种计算设备的示意；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于AI复合模型的图像识别方法、装置、介质和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，当前虽然存在大量对图像进行识别或对目标进行检测的神经网络模型，但普遍无法适用于实时性及精度要求都非常高的场景，例如医学图像往往存在很多需要识别检测的小目标，且这些小目标的轮廓可能非常复杂，如果需要对这些目标进行准确识别和检测，往往很难在短时间内完成，而有实时要求的医学图像，如直播的检查或手术图像，并不是每一帧图像都包括需要进行准确识别和检测的小目标，由此，发明人考虑采用人工智能复合模型对此类视频图像进行实时处理，以同时满足实时性与准确性的要求，具体而言，可以采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；然后通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，在获取到图像流后，可以采用能够实施本申请的基于AI（人工智能）复合模型的图像识别方法的设备对图像流进行实时的处理，以确定图像流中是否存在目标对象，进一步地，还可以在显示设备实时显示图像流以及其中的目标对象及相关信息，例如可以通过CT、核磁共振成像以及超声等设备对人体进行检查，得到人体相应部位或器官的视频图像，然后采用本申请的基于AI复合模型的图像识别方法对所述视频图像进行处理，在处理后既可以直接输出视频图像中是否存在目标对象，以及目标对象所在的帧图像，并在相应的帧图像中采用边框等形式将目标对象标注出来，具体而言，可以在检查人体的肠胃时，直接在显示设备上以边框标注出图像中存在的病灶图像。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的基于AI复合模型的图像识别方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。其他存在复杂轮廓和小目标或实时性要求的场景均是本申请的适用范围，例如可以是光伏组件的缺陷检测。

本发明的实施方式提供了一种基于AI复合模型的图像识别方法，包括：

步骤S110，采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；

步骤S120，通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。

下面结合附图说明如何基于AI复合模型进行图像识别。

在本实施方式中，步骤S110中首先采用高速中精度模型对图像流进行处理，所述图像流可以是图像采集设备（如CT、核磁共振和摄像头等）实时采集到的，也可以是通过网络实时传输的，或者是存储在本地的，本实施方式对此不作限定。可以理解的是，虽然此处描述的是图像流，但是本申请的实质为图像识别方法，即本申请的步骤S110并不限定为视频，也可以是静态的图像或照片，这并不影响本发明的有效性，其也应当属于本申请的保护范围。

在本实施方式的一个实施例中，首先高速中精度模型识别图像流中的目标对象，然后确定包括所述目标对象的图像，接下来，若目标对象的轮廓并不复杂，或并非小目标，则也可以直接采用所述高速中精度模型输出分割区域、目标类别及边框，并叠加显示在视频中作为提醒。若目标对象的轮廓较为复杂，或属于小目标，则执行步骤S120，通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息，即输出分割区域、目标类别及边框，并叠加显示在视频中作为提醒或将相应的图像和目标对象信息报告给用户，以辅助用户进行工作。

本实施方式中，所述高速中精度模型至少包括YOLACT或YOLACT++或Blend Mask，优选地，在本实施方式的一个实施例中，所述高速中精度模型为YOLACT++。所述中速高精度模型至少包括U-Net或DeepLabv1或DeepLabv2或DeepLabv3或DeepLabv3+，优选地，在本实施方式的一个实施例中，所述中速高精度模型为DeepLabv3+。可以理解的是，采用以上两个模型仅仅是可以取得最佳效果的最优实施例，采用本实施方式列举的或现有技术中的其他符合要求的模型依然可以解决技术问题，并不影响本发明的有效性。

在本实施方式的优选实施例中，所述YOLACT++模型对输入的图像进行实例分割，识别无需进一步识别分析的目标（例如手术器具、轮廓较为规则和/或范围较大的区域）和/或感兴趣的区域，即包括所述目标对象的图像区域（例如范围较小和/或轮廓较为复杂的区域）。在确定感兴趣的区域之后，所述DeepLabv3+模型对所述图像进行语义分割，精确识别出所述图像中包括的各个目标对象，例如可以在图像中（采用目标边框）直接标识出识别出的目标对象以及目标对象的识别信息（如分类信息）。

可以理解的是，所述高速中精度模型还可以是其他实例分割模型，所述中速高精度模型还可以是其他语义分割模型，并不限于本实施方式中所列举的几个图像识别模型。

为了进一步提高图像识别或目标检测的精度和效率。在本实施方式的一个实施例中，所述高速中精度模型中包括用于区分前景和背景的至少包括双分支的神经网络模型，其中至少一个分支采用注意力机制对输入数据进行处理以准确区分前景和背景。

在图像处理领域，前景为目标对象所在的区域或感兴趣区域，背景则是非前景的区域，即不感兴趣的区域或不存在目标对象的区域。

在本实施例中，以YOLACT++为例进行详细说明，并不代表其他模型无法采用本实施方式的技术手段进行改造，在本实施例中，为了同时兼顾图像识别或目标检测的精度和效率所述至少包括双分支的神经网络模型中的第一分支采用注意力机制对输入第一分支的数据进行处理，第二分支直接将输入其中的数据与经第一分支处理后的输出数据融合以输出结果。如图3所示，本实施例中在YOLACT++中产生原型掩膜的Protonet部分加入所述第一分支和第二分支（即图中所示的ST模块），以构成所述包括双分支的神经网络模型，可以理解的是，Protonet是一个全卷积网络，用于产生区分前景和背景的原型掩膜（Prototypemask），分支结构简单，运行速度快，但在遇到复杂轮廓的情况下，掩码质量差，分辨精度低。因此本实施例中对Prototype mask分支进行了改进优化。具体而言，所述第一分支至少采用多通道注意力机制对输入第一分支的数据进行处理，具体而言，所述第一分支可以通过以下步骤采用多通道注意力机制对输入第一分支的数据进行处理：

基于神经网络的损失函数得到各个特征图的权重，其中高价值特征图的权重比低价值或无价值特征图的权重大，例如对输入第一分支的数据或第一分支中上一神经网络层处理后的数据进行全局均值池化；然后根据全局均值池化之后得到的全局信息计算得到各个特征图的权重，例如，可以通过以下方式计算得到各个特征图的权重：

在本实施方式的一个实施例中，依然可以通过预先构建的神经网络模型实现所述多通道注意力机制，如图4所示，图中的Ftr是已有的卷积神经网络，X和U是Ftr的输入（维度为C'xH'xW'）和输出（维度为CxHxW），均属于现有技术。本实施例中实现的是U之后的部分：对U先做一个全局均值池化Global Average Pooling（图中的Fsq(.)），输出的1x1xC数据再经过两级全连接（图中的Fex(.)），最后用sigmoid激活函数限制到[0，1]的范围，把这个值作为scale乘到U的C个通道上，作为下一级的输入数据。此结构的原理是想通过控制scale的大小，把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。下面来看下SENet的一些细节：

进行全局均值池化有很多算法，本实施例中采用最简单的求平均的方法：

，将空间上所有点的信息都平均成一个值。由于最终的scale是对整个通道作用的，由此必须基于通道的整体信息来计算scale。另外本实施例中还要利用是通道间的相关性，而不是空间分布中的相关性，用GAP屏蔽掉空间上的分布信息能使得scale的计算更加准确。

接下来，第一个全连接层把C个通道压缩成了C/r个通道来降低计算量（之后采用RELU激活函数），第二个全连接层再恢复回C个通道（之后采用Sigmoid激活函数），r是指压缩的比例。在本实施例中r=16时，整体性能和计算量最平衡。

需要说明的是，在本实施方式的其他实施例中，还可以采用其他方式实现多通道注意力机制，并不限于以上实施例中所阐述的方式，例如SKNet（(Selective KernelNetworks)）、SENet（Squeeze-and-Excitation Networks）和GCNet。

另外，在本实施方式的一个实施例中，所述第一分支至少采用空间注意力机制对输入第一分支的数据进行处理，具体而言，所述第一分支可以通过以下步骤实现空间注意力机制对输入第一分支的数据进行处理：

将输入数据进行平均池化、最大池化和条纹池化处理；

将处理后的数据通过多层感知机进行变换；

将所述特征图和输入数据进行对位相乘。

在本实施方式的一个实施例中，依然可以通过预先构建的神经网络模型实现所述空间注意力机制，如图5所示，输入数据Xin（即输入图像）通过特征池化层Pooling Feature进行处理，所述Pooling Feature包含3个池化层，分别是平均池化层average pooling, 最大池化层max pooling和条纹池化层Strip pooling。通过Pooling Feature得到融合特征的经过多层感知机进行变换，然后经过交叉通道池化进行降维，得到一个1通道的表征空间注意力机制的特征图,此特征图与输入的Xin 进行对位相乘，得到输出Xout（即包括目标对象的图像）。

需要说明的是，在本实施方式的其他实施例中，还可以采用其他方式实现空间注意力机制，并不限于以上实施例中所阐述的方式，例如STN（空间变换网络，SpatialTransformer Network)和CBAM（卷积模块的注意力机制模块，Convolutional BlockAttention Module）。

参照图6，以上两个实施例中实现多通道注意力机制和空间注意力机制的神经网络结构可以串联组合共同使用在图像识别模型中，其中所述实现多通道注意力机制的神经网络结构可以称之为SE模块，所述实现空间注意力机制的神经网络结构可以称之为Transition模块，所述Transition模块串联在SE模块之后。

需要说明的是，将所述Transition模块串联在SE模块之后仅仅是本实施方式中的一种优选实施例，并不代表必须采用这种方式才可以实现本发明的技术目的，发明人为了探究最优的实施方式，采用MSCOCO数据集设计并进行了实验，具体的，从MSCOCO数据集上随机抽取1000张图片，在所述YOLACT++中产生原型掩膜的Protonet部分以SE模块和Transition模块的各种排列组合方式加入，并进行识别结果测试，具体的组合形式和对应的结果如表1，其中Channel表示通道注意力机制，Spatial表示空间注意力机制，inparallel表示并联，mAP(mean average percision)平均精度均值是目前评价目标检测模型的识别能力和安全性的主流指标，其采用交并比IoU和平均准确率AP (averageprecision)来同时评估模型的定位和识别能力，数值越大表明模型的能力越强，识别效果越好。

表1

通过实验可以看出，先经过SE模块再经过Transition模块的mAP最高，掩码的效果最好。由此，先经过通道的注意力机制模型，可有效增强特征图的空间特征之间的联系，从而更有利于transition模块增强空间特征。而其他组合则显然没有先经过SE模块再经过Transition模块的效果好。

在确定目标对象所在的区域或感兴趣区域之后，即可采用所述中速高精度模型（如DeepLabv3+模型）对包括目标对象的图像进行处理，以精确识别其中的目标对象。

考虑到不同尺度空洞卷积学习出来的语义特征是连续相似的，如果图像中包含不同大小的对象，则不同级别的特征之间的冲突往往会占据空洞空间卷积池化金字塔ASPP的主要部分，这种不一致会干扰训练期间的梯度计算，并降低ASPP的有效性。目前这种融合方式不够科学,模型应该自适应融合。

在本实施方式的一个实施例中，为了使得模型能够自动找出最合适的融合特征，对所述中速高精度模型（如DeepLabv3+模型）进行了改进，所述中速高精度模型中包括采用空洞卷积的神经网络模型，所述中速高精度模型通过预先设置在空洞卷积末端的输出层得到特征图以准确区分图像中不同尺度大小的对象，参照图7，输出层的每个特征图 Y _i可以由下列公式给出：

其中

为网络自适应学习的参数，且有：

具体而言，所述输出层通过以下步骤得到特征图：

将各个空间权重向量在通道方向拼接得到权重融合图；

参照图7，例如，空洞卷积中输出 4个层级的特征图，然后将其输入到1x1xn的卷积中(n是预先设定的)，得到4个空间权重向量，每个大小是[N,H,W]，然后在通道方向拼接得到[4N,H,W]的权重融合图，接下来为了得到通道为4的权重图，对上述特征图采用1x1x4的卷积，得到[4,H,W]的权重向量,之后在通道方向进行逻辑回归（softmax）操作，并进行归一化，将4个向量乘加到4个特征图上面，得到融合后的[N,W,H]特征图

为了验证本实施例中对所述中速高精度模型（如DeepLabv3+模型）的改造效果，发明人设计并进行了实验，具体而言，发明人根据以上实施例的内容在DeepLabv3+模型增加了空间自适应融合模块与单纯的DeepLabv3+模型基于MSCOCO数据集进行了图像识别实验，具体的实验结果如表2所示，其中， mIOU即上一实施例中多个所述的交并比IoU的平均值，数值越高表示模型的识别能力越强，效果越好。

表2

模型样式	mIOU
		Deeplabv3+	78.83
Deeplabv3+ +空间自适应融合模块	80.24

本申请采用AI复合模型对图像进行识别，可以直接将直播的视频信号作为模型的输入，采用高速模型快速发现视频中需要识别的目标，对于需要进行精准识别的小目标或具有复杂轮廓的对象，调用其中的高精度模型进行处理，最终输出分割区域、目标类别及边框，并叠加显示在视频中作为提醒。从而保证了直播的实时性，并且减少了精度误差，为用户带来了更好的体验。

另外，在任务开始时，计算设备可以加载人工只能复合模型（如经改造后的Yolact++和Deeplabv3+）到内存，并加载实时视频流读取程序。由于Yolact++的FPS速度可以达到30以上，是实现对实时视频进行实例分割最快的模型。在之前通过特定数据集对模型进行训练之后，所述模型已经学习到了目标的特有特征，可以用来快速发现视频中需要识别的目标，在将直播的视频信号作为模型的输入时，模型可以通过已训练好的特征提取器来提取每一帧视频中输入的图像特征，最终输出分割区域、目标类别及边框，并叠加显示在视频中作为提醒。但是由于模型偏向于速度优先，牺牲了一定的精度，目标掩码会发生一定的泄露。由此，在发现到需要高精度识别的目标后，计算设备可以启动一个新的线程将目标所在图片发送至Deeplabv3+模型进行处理，提取特定区域的高级特征来实现检测，具体而言，模型可以通过DCNN（深度卷积神经网络）提取视频图像的深层特征，再利用编码器和解码器输出像素级的分割结果图。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图8对本发明示例性实施方式的基于AI复合模型的图像识别装置。

一种基于AI复合模型的图像识别装置，包括：

图像确定模块210，被配置为采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；

目标检测模块220，被配置为通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。

将输入数据进行平均池化、最大池化和条纹池化处理；

将处理后的数据通过多层感知机进行变换；

将所述特征图和输入数据进行对位相乘。

将各个空间权重向量在通道方向拼接得到权重融合图；

在本实施方式的一个实施例中，所述装置还包括：

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图9对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图9，其示出的计算机可读存储介质为光盘70，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图对本发明示例性实施方式的、用于

图10示出了适于用来实现本发明实施方式的示例性计算设备80的框图，该计算设备80可以是计算机系统或服务器。图10显示的计算设备80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算设备80的组件可以包括但不限于：一个或者多个处理器或者处理单元801，系统存储器802，连接不同系统组件（包括系统存储器802和处理单元801）的总线803。

计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器802可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）8021和/或高速缓存存储器8022。计算设备80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM8023可以用于读写不可移动的、非易失性磁介质（图10中未显示，通常称为“硬盘驱动器”）。尽管未在图10中示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块8024的程序/实用工具8025，可以存储在例如系统存储器802中，且这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备80也可以与一个或多个外部设备804（如键盘、指向设备、显示器等）通信。这种通信可以通过输入/输出（I/O）接口805进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图10所示，网络适配器806通过总线803与计算设备80的其它模块（如处理单元801等）通信。应当明白，尽管图10中未示出，可以结合计算设备80使用其它硬件和/或软件模块。

处理单元801通过运行存储在系统存储器802中的程序，从而执行各种功能应用以及数据处理，例如，采用高速中精度模型识别图像流中的目标对象，确定包括所述目标对象的图像；通过中速高精度模型对包括所述目标对象的图像进行处理，得到目标对象的相关信息。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了基于AI复合模型的图像识别装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

Claims

1.一种基于AI复合模型的图像识别方法，包括：

2.如权利要求1所述的基于AI复合模型的图像识别方法，其中，所述高速中精度模型中包括用于区分前景和背景的至少包括双分支的神经网络模型，其中至少一个分支采用注意力机制对输入数据进行处理以准确区分前景和背景。

3.如权利要求2所述的基于AI复合模型的图像识别方法，其中，所述至少包括双分支的神经网络模型中的第一分支采用注意力机制对输入第一分支的数据进行处理，第二分支直接将输入其中的数据与经第一分支处理后的输出数据融合以输出结果。

4.如权利要求3所述的基于AI复合模型的图像识别方法，其中，所述第一分支至少采用多通道注意力机制对输入第一分支的数据进行处理。

5.如权利要求3所述的基于AI复合模型的图像识别方法，其中，所述第一分支至少采用空间注意力机制对输入第一分支的数据进行处理。

6.如权利要求4所述的基于AI复合模型的图像识别方法，其中，所述第一分支通过以下步骤采用多通道注意力机制对输入第一分支的数据进行处理：

7.如权利要求4所述的基于AI复合模型的图像识别方法，其中，所述第一分支通过以下步骤实现多通道注意力机制对输入第一分支的数据进行处理：

8.如权利要求7所述的基于AI复合模型的图像识别方法，其中，通过以下方式计算得到各个特征图的权重：

9.如权利要求5所述的基于AI复合模型的图像识别方法，其中，所述第一分支通过以下步骤实现空间注意力机制对输入第一分支的数据进行处理：

将输入数据进行平均池化、最大池化和条纹池化处理；

将处理后的数据通过多层感知机进行变换；

将所述特征图和输入数据进行对位相乘。

10.如权利要求5所述的基于AI复合模型的图像识别方法，其中，所述中速高精度模型中包括采用空洞卷积的神经网络模型，所述中速高精度模型通过预先设置在空洞卷积末端的输出层得到特征图以准确区分图像中不同大小的对象。

11.如权利要求10所述的基于AI复合模型的图像识别方法，其中，所述输出层通过以下步骤得到特征图：

将各个空间权重向量在通道方向拼接得到权重融合图；

12.如权利要求1所述的基于AI复合模型的图像识别方法，其中，所述图像流通过图像采集设备实时获取。

13.如权利要求1所述的基于AI复合模型的图像识别方法，其中，所述方法还包括：

14.一种基于AI复合模型的图像识别装置，包括：

15.如权利要求14所述的基于AI复合模型的图像识别装置，其中，所述高速中精度模型中包括用于区分前景和背景的至少包括双分支的神经网络模型，其中至少一个分支采用注意力机制对输入数据进行处理以准确区分前景和背景。

16.如权利要求15所述的基于AI复合模型的图像识别装置，其中，所述至少包括双分支的神经网络模型中的第一分支采用注意力机制对输入第一分支的数据进行处理，第二分支直接将输入其中的数据与经第一分支处理后的输出数据融合以输出结果。

17.如权利要求16所述的基于AI复合模型的图像识别装置，其中，所述第一分支至少采用多通道注意力机制对输入第一分支的数据进行处理。

18.如权利要求16所述的基于AI复合模型的图像识别装置，其中，所述第一分支至少采用空间注意力机制对输入第一分支的数据进行处理。

19.如权利要求17所述的基于AI复合模型的图像识别装置，其中，所述第一分支采用多通道注意力机制对输入第一分支的数据进行处理，包括：

20.如权利要求17所述的基于AI复合模型的图像识别装置，其中，所述第一分支通过多通道注意力机制对输入第一分支的数据进行处理，包括：

21.如权利要求20所述的基于AI复合模型的图像识别装置，其中，通过以下方式计算得到各个特征图的权重：

22.如权利要求18所述的基于AI复合模型的图像识别装置，其中，所述第一分支通过空间注意力机制对输入第一分支的数据进行处理，包括：

将输入数据进行平均池化、最大池化和条纹池化处理；

将处理后的数据通过多层感知机进行变换；

将所述特征图和输入数据进行对位相乘。

23.如权利要求18所述的基于AI复合模型的图像识别装置，其中，所述中速高精度模型中包括采用空洞卷积的神经网络模型，所述中速高精度模型通过预先设置在空洞卷积末端的输出层得到特征图以准确区分图像中不同大小的对象。

24.如权利要求23所述的基于AI复合模型的图像识别装置，其中，所述输出层通过以下方式得到特征图：

将各个空间权重向量在通道方向拼接得到权重融合图；

25.如权利要求14所述的基于AI复合模型的图像识别装置，其中，所述装置还包括：

26.如权利要求14所述的基于AI复合模型的图像识别装置，其中，所述装置还包括：

27.一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可以实现上述权利要求1-11中任一所述的方法。

28.一种计算设备，所述计算设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述权利要求1-11中任一所述的方法。