CN115311657A

CN115311657A - 多源藻类图像目标检测方法、系统、电子设备及存储介质

Info

Publication number: CN115311657A
Application number: CN202211068927.XA
Authority: CN
Inventors: 李建庆; 员安然; 王彬彬; 邹海林; 王劼睿
Original assignee: Macau Univ of Science and Technology
Current assignee: Macau Univ of Science and Technology
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-08
Anticipated expiration: 2042-09-02
Also published as: US20240087310A1; CN115311657B

Abstract

本发明涉及一种多源藻类图像目标检测方法、系统、电子设备及存储介质，属于淡水水体藻华事件监测领域，首先通过编写的藻类自动化爬取工具爬取选定藻类种类的图像，该图像包含所有格式，对藻类图像中的藻细胞进行分类标注，并将所有分类标注的藻类图像构成源域数据集；然后结合目标域数据集，采用FasterRCNN进行迁移学习，获得多源藻类图像目标检测模型；最后即可利用多源藻类图像目标检测模型进行识别与分类。本发明在现有小量标注样本的藻类数据集的基础上，训练一个通用的可识别多种类的藻类目标检测模型，可以检测来自多格式的藻类图片，并能够对多源藻类实现高精度识别与分类。

Description

多源藻类图像目标检测方法、系统、电子设备及存储介质

技术领域

本发明涉及淡水水体藻华事件监测领域，特别是涉及一种多源藻类图像目标检测方法、系统、电子设备及存储介质。

背景技术

随着工农业的迅速发展，加之人们对环境保护认识的不足及缺乏有效的监管，使环境污染日益恶化。特别是世界范围内的水体富营养化问题日渐凸显，而这就引起了水体藻类突发性过度增殖，俗称水华，它是一种由水体中浮游植物大量增殖引起的自然现象。因为水华现象的频繁发生，对淡水形成二次污染，其水质遭到严重破坏，给人们的日常生活和生产活动带来了十分恶劣的影响。

某些藻类在一定的环境下会产生对健康有害的毒素，并且在不同水域，导致水华的频繁爆发均各不相同，造成水华的有害物种包含六种藻类:硅藻、甲藻、触生植物、针藻、蓝藻和浮游植物，而它们在形态、生理和生态特征方面差异很大。因此有必要具体识别产生藻华爆发的物种。

解决技术：对产生藻华爆发的物种的具体识别

本领域现有技术：基于机器学习的藻类图像分类技术

(1)对于图像源来说，近年来在开展的藻华监测中，数据源主要包含IFCB设备，显微镜，Flowcam流式细胞摄像系统等设备拍摄到的藻类图像。不同数据源中的藻类图像格式不兼容，目前，基于机器学习的相关藻类图像分类技术仅针对单一的数据源图像进行图像处理和分析。

(2)对于藻类图像分类算法来说，例如Promdaen等人在泰国水生生态系统中发现的12种微藻分类，采用基于特征组合方法的机器学习模型和序列最小优化(SMO)技术实现了高达97.22％的准确率。Deglint等人使用预先训练的深度残差卷积神经网络技术对六种藻类分类群进行分类，其准确率达到了96％。Park等人使用CNN模型对流域中的8个藻类分类群进行了分类，并获得了0.95的F1分数。在墨西哥湾，Balakrishna Gokaraju等人提出了一种基于机器学习的时空数据挖掘方法检测水华事件。在香港地区，Jiuhao Guo、JosephH.W.Lee以及Ken T.M.Won等人利用IFCB传感器所测得的香港周围的亚热带沿岸水域的水质数据，提出基于数据驱动的人工神经网络(ANN)每日藻华风险预测系统。

现有技术存在的缺陷与不足：

(1)现有的藻类分类模型分类效果有待提升

基于机器学习的藻类图像识别方法，例如深度神经网络需要大量具有标签的图像数据。现有研究对有害藻分类所能区分的种类不多，一旦面对种类繁多的真实藻类图像，尤其在藻类种类繁多的情况下其分类效果有待提升，还无法代替具有丰富经验的藻类专家进行藻的分类工作。且现有的分类方法都是基于大量数据的基础之下，在实际应用当中会有很大的局限性。

更重要的是，通常的环境和水里工作者通过光学显微镜采集到最新的藻类图像，通常视野中藻类图像中包含多个藻细胞，图像分类对一幅图片只有一个分类目标，无法对图中的多个藻类信息进行诠释。

(2)各地区藻类品种不一样导致模型无法直接移植

现有的藻类数据库还存在通用性差的问题，并不能适用于自己的水体。再加上通过我们的调研发现，在针对亚太水域的藻类研究十分有限，对于大部分淡水或海水中藻类的研究基本只停留在藻类学家通过人力观察、分类、统计所得，其相关的藻类数据库在样本量、图像质量、种类等方面相对于其他地区的研究都有所欠缺，这使得在开展利用神经网络进行识别，对训练藻类检测模型的任务中，对达到理想效果，即可以投入实际使用中都有着较大的难度。

(3)现有的藻类分类模型泛化能力弱，采样设备规格不一导致识别效果差

由于出于实际考虑，在采样设备规格不同时，不同国家的IFCB和显微镜下所拍摄到的图片在规格上与数据库当中的藻类图像大不相同，导致其识别效果差。现如今，也没有研究表明，可以有一种分类器可以兼容各种设备所采集到的藻类图片，并对其进行检测与分类，例如GaurA等学者用到的16,000张8种不同的藻类图像数据集来自于各种开放访问的藻类图像库，Ghatkar则不是利用图像，而是利用传感器所测得的遥感数据，及水华的光谱信息对形成水华的有害藻类进行分类。即使其在实验中表明有着比较好的分类效果，但并没有体现出其模型对数据集的兼容性问题。

发明内容

本发明的目的是提供一种多源藻类图像目标检测方法、系统、电子设备及存储介质，以对多源藻类实现高精度识别与分类。

为实现上述目的，本发明提供了如下方案：

一种多源藻类图像目标检测方法，包括：

编写藻类自动化爬取工具；

按照选定种类的藻类名称，利用所述藻类自动化爬取工具爬取多源的藻类图像；

使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围，并赋予爬虫索引的标签，构成源域数据集；

获取由无标签藻类图像构成的目标域数据集；

根据源域数据集和目标域数据集，采用FasterRCNN进行迁移学习，获得多源藻类图像目标检测模型；

将待检测的藻类图像输入所述多源藻类图像目标检测模型，输出藻类图像中每个藻细胞的分类。

可选的，所述藻类自动化爬取工具包括：URL管理器、调度器、网页下载器和网页解析器；

调度器用于从URL管理器中获取需要爬取的URL地址，将需要爬取的URL地址传入网页下载器；

网页下载器用于根据所述需要爬取的URL地址下载网页，并转换成网页字符串后通过调度器传入网页解析器；

网页解析器用于解析网页字符串，利用正则表达式获得所有藻类图像的下载地址，并根据下载地址通过半自动化的形式从开源的中英文网站中爬取藻类图像；

调度器还用于接收爬取的藻类图像。

可选的，按照选定种类的藻类名称，利用所述藻类自动化爬取工具爬取多源的藻类图像，之后还包括：

将每张藻类图像输入预先训练好的二分类器中判断是否为细胞图片，获得第一输出结果；

若所述第一输出结果表示否，则删除藻类图像；

若所述第一输出结果表示是，则保留清晰度大于清晰度阈值，且藻类细胞在整张图像中所占的比例大于比例阈值的藻类图像；

使用目标检测算法判断保留的藻类图像中是否存在异物，获得第二输出结果；

若所述第二输出结果表示否，则保留藻类图像；

若所述第二输出结果表示是，则将通过消融实验判断异物会对后续网络学习造成干扰的藻类图像删除；

从保留的藻类图像中选取预设数量的藻类图像，并通过裁剪、旋转和缩放对预设数量的藻类图像进行数据增强。

可选的，所述采用Faster RCNN进行迁移学习，具体包括：

冻结Faster RCNN中Backbone模块的初始预设层数的卷积层和池化层，并利用Backbone模块提取特征图；

根据源域数据集和目标域数据集中的不同，调节网络参数；

采用深度适应网络中的多核MMD自适应FasterRCNN中RCNN network模块的多层全连接网络层，通过多核MMD减少源域与目标域之间的差异。

可选的，所述待检测的藻类图像是在光学显微镜下观察到藻细胞的藻类图像。

一种多源藻类图像目标检测系统，包括：

编写模块，用于编写藻类自动化爬取工具；

爬模块，用于按照选定种类的藻类名称，利用所述藻类自动化爬取工具爬取多源的藻类图像；

分类标注模块，用于使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围，并赋予爬虫索引的标签，构成源域数据集；

目标域数据集获取模块，用于获取由无标签藻类图像构成的目标域数据集；

迁移学习模块，用于根据源域数据集和目标域数据集，采用Faster RCNN进行迁移学习，获得多源藻类图像目标检测模型；

分类检测模块，用于将待检测的藻类图像输入所述多源藻类图像目标检测模型，输出藻类图像中每个藻细胞的分类。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的多源藻类图像目标检测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的多源藻类图像目标检测方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种多源藻类图像目标检测方法、系统、电子设备及存储介质，首先通过编写的藻类自动化爬取工具爬取选定藻类种类的图像，该图像包含所有格式，对藻类图像中的藻细胞进行分类标注，并将所有分类标注的藻类图像构成源域数据集；然后结合目标域数据集，采用FasterRCNN进行迁移学习，获得多源藻类图像目标检测模型；最后即可利用多源藻类图像目标检测模型进行识别与分类。本发明在现有小量标注样本的藻类数据集的基础上，训练一个通用的可识别多种类的藻类目标检测模型，可以检测来自多格式的藻类图片，并能够对多源藻类实现高精度识别与分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多源藻类图像目标检测方法的流程图；

图2为本发明实施例提供的藻类自动化爬取工具的算法原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种多源藻类图像目标检测方法，如图1所示，包括：

步骤S1，编写藻类自动化爬取工具。

图2为藻类自动化爬取工具的算法原理图。图2的左半部分为爬虫框架，主要由4个部分构成：URL管理器、调度器、网页下载器和网页解析器。调度器主要负责调度URL管理器、网页下载器和网页解析器之间的协调工作。

本发明通过编写通用的藻类自动化爬取工具，对网络上其他相关藻类数据库进行爬取，用于扩充适用于目标水体的藻类数据库。其优势在于可以自动进行爬取，无需指定目标，从而为样本提供多样性，极大提高效率以及样本不足的问题，对迁移模型的训练提供了更好的效果。

步骤S2，按照选定种类的藻类名称，利用藻类自动化爬取工具爬取多源的藻类图像。

根据生物学家提供的目标水域的常见藻类清单，按照清单的藻类名称，通过藻类自动化爬取工具从网络爬取到的藻类图像(一般包含IFCB，Flowcam等流式细胞仪，光学显微镜等多种采样仪器设备)。

以淡水藻为研究对象，以爬取澳门地区淡水中常见的Chroococcus(绿球藻属)这一物种为例，爬取的过程为：

1.首先调度器从URL管理器中获取需要爬取的URL地址，将其传入下载器；

2.模拟在网站中搜索Chroococcus(绿球藻属)，获得搜索结果的URL地址，下载器通过URL地址来下载该网页并转换成字符串。

3.解析器对网页字符串进行解析，分析图片下载地址在字符串中的位置，利用正则表达式获得所有Chroococcus图片的下载地址。

4.解析方法一般有正则表达式、html.parser(Python自带功能)和beautifulsoup(第三方插件)。

5.通过半自动化的形式从开源的中英文网站(百度百科、维基百科、第三方网站)中爬取藻类图片。

步骤S3，使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围，并赋予爬虫索引的标签，构成源域数据集。

参照图2，爬取的藻类图片传入筛选器，帅选器的筛选规则为：

1.依据已收集藻类图片的清晰度、颜色、样式、细胞数目/大小、是否存在异物等特征，将图片输入预先训练好的二分类器中判断是否是细胞图片，之后在进行后续筛选。

2.确保每个格式的图片都有，清晰度高的图片保留，藻类细胞在整张图片中所占的比例大的图片保留。

3.使用目标检测算法来判断图片中是否存在异物以及异物是否遮挡住细胞，后续可以通过消融实验来判断异物是否会对后续网络学习造成干扰。

4.依据上述九点规则筛选出前50张高质量的Chroococcus(绿球藻属)藻类图片作为后续迁移学习中用到的数据集。

5.将爬取到的50张藻类图像通过裁剪、旋转、缩放等变换数据增强。方便后续进行目标检测算法实验。

人工辅助yolo v3模型对爬取到的所有网络图像选取目标框，作为藻类图像进行数据集扩充。定义这部分数据为迁移学习中的源域数据，这部分数据是有标签的。

进一步地，人工辅助检查源域数据及标定的准确性。

步骤S4，获取由无标签藻类图像构成的目标域数据集。

定义迁移学习的目标域数据是工作人员在实地采样后，未经过生物分类学家鉴定得到的藻类图像(一般由光学显微镜获取，仪器单一)，故目标域是无标签的。

步骤S5，根据源域数据集和目标域数据集，采用Faster RCNN进行迁移学习，获得多源藻类图像目标检测模型。

首先使用Faster RCNN作为base network，Faster RCNN由卷积层，区域生成网络(RPN)，目标区域(ROI)池化及分类四部分组成。作为一种卷积神经网络(CNN)目标检测方法，Faster RCNN首先使用一组基础的卷积、启动函数、池化层提取特征图用于后续RPN层和全连接层。RPN网络判断锚点属于正值或负值，再利用回归修正锚点获得精确的目标框。ROI池化层收集输入的特征图和目标区域，综合这些信息后送入后续全连接层判定目标类别。最后对目标框进行分类并再次回归获得精确位置。

由于深度特征最终会沿着网络从一般过渡到特定，使用Faster RCNN算法中的Backbone模块的初始几层卷积层和池化层主要负责接收输入数据，并进行数据预处理和特征提取得到输入图像对应的feature maps，并传递给下一层。这部分提取的特征是较为通用的，因此在源域和目标域的特征提取过程，这些层被冻结。

Faster RCNN中Backbone模块的中间层的可迁移性稍差，通过微调网络参数来学习源域和目标域中的不同。

采用深度适应网络(Deep Adaptation Netowrk，DAN)中的MK-MMD(Multi-kernelMMD，多核MMD)适应Faster RCNN的RCNN network模块中的多层全连接网络层。

对RoI传入的特征进行分类和回归，以得到预测目标的位置和标签，计算RCNN的损失，用于更新网络的参数。

计算MMD用于减小源域与目标域之间的差异。通过MK-MMD算法减少显微镜图像和细胞流式仪等设备带来的数据域的差异，增强深度学习神经网络的具体任务层的特征迁移性。

步骤S6，将待检测的藻类图像输入所述多源藻类图像目标检测模型，输出藻类图像中每个藻细胞的分类。

训练好迁移学习网络之后，实验人员获取最新的藻类图像作为输入，得到预测到的藻类细胞目标框。

本发明采用数据爬取技术、迁移学习技术等，在现有小量标注样本的藻类数据集的基础上，训练一个通用的可识别多种类的淡水藻类目标检测模型，通过研究，期望搭建选定种类藻类的图像数据集、达到对选定种类的目标水域的淡水藻实现高精度识别与分类、同时可适用于非选定藻类的训练与分析。

(1)基于网络爬虫的有标注藻类数据集扩充方法

针对自动化爬取工具所获得的资料，建立一套可以兼容不同水体的通用水体标准，例如对采集到的藻类图像可以有不同格式、尺度和尺寸，甚至是不同设备所采集到的藻类图像。利用此通用水体标准对数据进行筛选工作，以提高藻类数据的质量，将其大小，像素等统一化。

通常的分藻类系统在更换水体后，由于藻类种类发生变化，分类表现差，所以在大部分情况下藻类的分类工作只能依靠人工，而人工培养成本高，且人工分类效率低下。例如进口美国的仪器对美国的藻类品种识别度高，但对大湾区的品种识别度差。通过建立独有藻类数据库，弥补效率以及人力资源匮乏问题，解决生物鉴定专家少、藻类图像样本少、藻类图像捕获仪器成本高等难题。

(2)建立网络藻类数据库到目标水域藻类数据库的迁移模型

通常，深度学习模型通常不具有普适性，即在某个数据集上训练的结果只能在某个领域中有效，而很难迁移到其他的场景中，因此出现了迁移学习这一领域，其目标就是将原数据域“学习”到的信息尽可能好地迁移到目标。具体而言，定义爬取数据为无标签数据，目标水体数据为有标签数据，无监督模型和监督模型的损失函数和训练方式的定义，Transfer过程中知识蒸馏的方法。

本发明可以自动学习更换水体后的藻类信息。通常的分类系统对数据量要求很高，而本发明的分类系统与大数据样本量相反，只需要研究人员在显微镜下观察到藻类样本信息，即可实现较好的目标检测效果。该检测系统可学习到通用的藻类学习能力，并且可以兼容来自多格式的藻类图片，包含流式细胞仪获取到的图像，显微镜得到的图像，通过手机自带的显微拍摄系统得到的藻类图像等。

对应于上述提供的多源藻类图像目标检测方法，本发明实施例还提供了一种多源藻类图像目标检测系统，包括：

编写模块，用于编写藻类自动化爬取工具；

本发明实施例提供的多源藻类图像目标检测系统与上述实施例所述的多源藻类图像目标检测方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述方法实施例的介绍。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现如前述的多源藻类图像目标检测方法。

此外，上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被执行时实现如前述的多源藻类图像目标检测方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多源藻类图像目标检测方法，其特征在于，包括：

编写藻类自动化爬取工具；

获取由无标签藻类图像构成的目标域数据集；

2.根据权利要求1所述的多源藻类图像目标检测方法，其特征在于，所述藻类自动化爬取工具包括：URL管理器、调度器、网页下载器和网页解析器；

调度器还用于接收爬取的藻类图像。

3.根据权利要求1所述的多源藻类图像目标检测方法，其特征在于，按照选定种类的藻类名称，利用所述藻类自动化爬取工具爬取多源的藻类图像，之后还包括：

若所述第一输出结果表示否，则删除藻类图像；

若所述第二输出结果表示否，则保留藻类图像；

4.根据权利要求1所述的多源藻类图像目标检测方法，其特征在于，所述采用FasterRCNN进行迁移学习，具体包括：

冻结FasterRCNN中Backbone模块的初始预设层数的卷积层和池化层，并利用Backbone模块提取特征图；

根据源域数据集和目标域数据集中的不同，调节网络参数；

5.根据权利要求1所述的多源藻类图像目标检测方法，其特征在于，所述待检测的藻类图像是在光学显微镜下观察到藻细胞的藻类图像。

6.一种多源藻类图像目标检测系统，其特征在于，包括：

编写模块，用于编写藻类自动化爬取工具；

7.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的多源藻类图像目标检测方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1至5中任一项所述的多源藻类图像目标检测方法。