CN115311657A - 多源藻类图像目标检测方法、系统、电子设备及存储介质 - Google Patents
多源藻类图像目标检测方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115311657A CN115311657A CN202211068927.XA CN202211068927A CN115311657A CN 115311657 A CN115311657 A CN 115311657A CN 202211068927 A CN202211068927 A CN 202211068927A CN 115311657 A CN115311657 A CN 115311657A
- Authority
- CN
- China
- Prior art keywords
- algae
- source
- image
- target detection
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000195493 Cryptophyta Species 0.000 title claims abstract description 247
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000009193 crawling Effects 0.000 claims abstract description 41
- 238000013526 transfer learning Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013508 migration Methods 0.000 claims description 11
- 230000005012 migration Effects 0.000 claims description 11
- 241000894007 species Species 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000002679 ablation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 239000013505 freshwater Substances 0.000 abstract description 8
- 239000005422 algal bloom Substances 0.000 abstract description 5
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 23
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 18
- 238000011160 research Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 241000192710 Microcystis aeruginosa Species 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241001219477 Chroococcus Species 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012851 eutrophication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000684 flow cytometry Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000035755 proliferation Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000206761 Bacillariophyta Species 0.000 description 1
- 241000195649 Chlorella <Chlorellales> Species 0.000 description 1
- 241000206751 Chrysophyceae Species 0.000 description 1
- 241000192700 Cyanobacteria Species 0.000 description 1
- 241000199914 Dinophyceae Species 0.000 description 1
- 241001181909 Gaura Species 0.000 description 1
- 241001518135 Shewanella algae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003653 coastal water Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001000 micrograph Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明涉及一种多源藻类图像目标检测方法、系统、电子设备及存储介质,属于淡水水体藻华事件监测领域,首先通过编写的藻类自动化爬取工具爬取选定藻类种类的图像,该图像包含所有格式,对藻类图像中的藻细胞进行分类标注,并将所有分类标注的藻类图像构成源域数据集;然后结合目标域数据集,采用FasterRCNN进行迁移学习,获得多源藻类图像目标检测模型;最后即可利用多源藻类图像目标检测模型进行识别与分类。本发明在现有小量标注样本的藻类数据集的基础上,训练一个通用的可识别多种类的藻类目标检测模型,可以检测来自多格式的藻类图片,并能够对多源藻类实现高精度识别与分类。
Description
技术领域
本发明涉及淡水水体藻华事件监测领域,特别是涉及一种多源藻类图像目标检测方法、系统、电子设备及存储介质。
背景技术
随着工农业的迅速发展,加之人们对环境保护认识的不足及缺乏有效的监管,使环境污染日益恶化。特别是世界范围内的水体富营养化问题日渐凸显,而这就引起了水体藻类突发性过度增殖,俗称水华,它是一种由水体中浮游植物大量增殖引起的自然现象。因为水华现象的频繁发生,对淡水形成二次污染,其水质遭到严重破坏,给人们的日常生活和生产活动带来了十分恶劣的影响。
某些藻类在一定的环境下会产生对健康有害的毒素,并且在不同水域,导致水华的频繁爆发均各不相同,造成水华的有害物种包含六种藻类:硅藻、甲藻、触生植物、针藻、蓝藻和浮游植物,而它们在形态、生理和生态特征方面差异很大。因此有必要具体识别产生藻华爆发的物种。
解决技术:对产生藻华爆发的物种的具体识别
本领域现有技术:基于机器学习的藻类图像分类技术
(1)对于图像源来说,近年来在开展的藻华监测中,数据源主要包含IFCB设备,显微镜,Flowcam流式细胞摄像系统等设备拍摄到的藻类图像。不同数据源中的藻类图像格式不兼容,目前,基于机器学习的相关藻类图像分类技术仅针对单一的数据源图像进行图像处理和分析。
(2)对于藻类图像分类算法来说,例如Promdaen等人在泰国水生生态系统中发现的12种微藻分类,采用基于特征组合方法的机器学习模型和序列最小优化(SMO)技术实现了高达97.22%的准确率。Deglint等人使用预先训练的深度残差卷积神经网络技术对六种藻类分类群进行分类,其准确率达到了96%。Park等人使用CNN模型对流域中的8个藻类分类群进行了分类,并获得了0.95的F1分数。在墨西哥湾,Balakrishna Gokaraju等人提出了一种基于机器学习的时空数据挖掘方法检测水华事件。在香港地区,Jiuhao Guo、JosephH.W.Lee以及Ken T.M.Won等人利用IFCB传感器所测得的香港周围的亚热带沿岸水域的水质数据,提出基于数据驱动的人工神经网络(ANN)每日藻华风险预测系统。
现有技术存在的缺陷与不足:
(1)现有的藻类分类模型分类效果有待提升
基于机器学习的藻类图像识别方法,例如深度神经网络需要大量具有标签的图像数据。现有研究对有害藻分类所能区分的种类不多,一旦面对种类繁多的真实藻类图像,尤其在藻类种类繁多的情况下其分类效果有待提升,还无法代替具有丰富经验的藻类专家进行藻的分类工作。且现有的分类方法都是基于大量数据的基础之下,在实际应用当中会有很大的局限性。
更重要的是,通常的环境和水里工作者通过光学显微镜采集到最新的藻类图像,通常视野中藻类图像中包含多个藻细胞,图像分类对一幅图片只有一个分类目标,无法对图中的多个藻类信息进行诠释。
(2)各地区藻类品种不一样导致模型无法直接移植
现有的藻类数据库还存在通用性差的问题,并不能适用于自己的水体。再加上通过我们的调研发现,在针对亚太水域的藻类研究十分有限,对于大部分淡水或海水中藻类的研究基本只停留在藻类学家通过人力观察、分类、统计所得,其相关的藻类数据库在样本量、图像质量、种类等方面相对于其他地区的研究都有所欠缺,这使得在开展利用神经网络进行识别,对训练藻类检测模型的任务中,对达到理想效果,即可以投入实际使用中都有着较大的难度。
(3)现有的藻类分类模型泛化能力弱,采样设备规格不一导致识别效果差
由于出于实际考虑,在采样设备规格不同时,不同国家的IFCB和显微镜下所拍摄到的图片在规格上与数据库当中的藻类图像大不相同,导致其识别效果差。现如今,也没有研究表明,可以有一种分类器可以兼容各种设备所采集到的藻类图片,并对其进行检测与分类,例如GaurA等学者用到的16,000张8种不同的藻类图像数据集来自于各种开放访问的藻类图像库,Ghatkar则不是利用图像,而是利用传感器所测得的遥感数据,及水华的光谱信息对形成水华的有害藻类进行分类。即使其在实验中表明有着比较好的分类效果,但并没有体现出其模型对数据集的兼容性问题。
发明内容
本发明的目的是提供一种多源藻类图像目标检测方法、系统、电子设备及存储介质,以对多源藻类实现高精度识别与分类。
为实现上述目的,本发明提供了如下方案:
一种多源藻类图像目标检测方法,包括:
编写藻类自动化爬取工具;
按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像;
使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围,并赋予爬虫索引的标签,构成源域数据集;
获取由无标签藻类图像构成的目标域数据集;
根据源域数据集和目标域数据集,采用FasterRCNN进行迁移学习,获得多源藻类图像目标检测模型;
将待检测的藻类图像输入所述多源藻类图像目标检测模型,输出藻类图像中每个藻细胞的分类。
可选的,所述藻类自动化爬取工具包括:URL管理器、调度器、网页下载器和网页解析器;
调度器用于从URL管理器中获取需要爬取的URL地址,将需要爬取的URL地址传入网页下载器;
网页下载器用于根据所述需要爬取的URL地址下载网页,并转换成网页字符串后通过调度器传入网页解析器;
网页解析器用于解析网页字符串,利用正则表达式获得所有藻类图像的下载地址,并根据下载地址通过半自动化的形式从开源的中英文网站中爬取藻类图像;
调度器还用于接收爬取的藻类图像。
可选的,按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像,之后还包括:
将每张藻类图像输入预先训练好的二分类器中判断是否为细胞图片,获得第一输出结果;
若所述第一输出结果表示否,则删除藻类图像;
若所述第一输出结果表示是,则保留清晰度大于清晰度阈值,且藻类细胞在整张图像中所占的比例大于比例阈值的藻类图像;
使用目标检测算法判断保留的藻类图像中是否存在异物,获得第二输出结果;
若所述第二输出结果表示否,则保留藻类图像;
若所述第二输出结果表示是,则将通过消融实验判断异物会对后续网络学习造成干扰的藻类图像删除;
从保留的藻类图像中选取预设数量的藻类图像,并通过裁剪、旋转和缩放对预设数量的藻类图像进行数据增强。
可选的,所述采用Faster RCNN进行迁移学习,具体包括:
冻结Faster RCNN中Backbone模块的初始预设层数的卷积层和池化层,并利用Backbone模块提取特征图;
根据源域数据集和目标域数据集中的不同,调节网络参数;
采用深度适应网络中的多核MMD自适应FasterRCNN中RCNN network模块的多层全连接网络层,通过多核MMD减少源域与目标域之间的差异。
可选的,所述待检测的藻类图像是在光学显微镜下观察到藻细胞的藻类图像。
一种多源藻类图像目标检测系统,包括:
编写模块,用于编写藻类自动化爬取工具;
爬模块,用于按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像;
分类标注模块,用于使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围,并赋予爬虫索引的标签,构成源域数据集;
目标域数据集获取模块,用于获取由无标签藻类图像构成的目标域数据集;
迁移学习模块,用于根据源域数据集和目标域数据集,采用Faster RCNN进行迁移学习,获得多源藻类图像目标检测模型;
分类检测模块,用于将待检测的藻类图像输入所述多源藻类图像目标检测模型,输出藻类图像中每个藻细胞的分类。
一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的多源藻类图像目标检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如前述的多源藻类图像目标检测方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种多源藻类图像目标检测方法、系统、电子设备及存储介质,首先通过编写的藻类自动化爬取工具爬取选定藻类种类的图像,该图像包含所有格式,对藻类图像中的藻细胞进行分类标注,并将所有分类标注的藻类图像构成源域数据集;然后结合目标域数据集,采用FasterRCNN进行迁移学习,获得多源藻类图像目标检测模型;最后即可利用多源藻类图像目标检测模型进行识别与分类。本发明在现有小量标注样本的藻类数据集的基础上,训练一个通用的可识别多种类的藻类目标检测模型,可以检测来自多格式的藻类图片,并能够对多源藻类实现高精度识别与分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种多源藻类图像目标检测方法的流程图;
图2为本发明实施例提供的藻类自动化爬取工具的算法原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多源藻类图像目标检测方法、系统、电子设备及存储介质,以对多源藻类实现高精度识别与分类。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种多源藻类图像目标检测方法,如图1所示,包括:
步骤S1,编写藻类自动化爬取工具。
图2为藻类自动化爬取工具的算法原理图。图2的左半部分为爬虫框架,主要由4个部分构成:URL管理器、调度器、网页下载器和网页解析器。调度器主要负责调度URL管理器、网页下载器和网页解析器之间的协调工作。
本发明通过编写通用的藻类自动化爬取工具,对网络上其他相关藻类数据库进行爬取,用于扩充适用于目标水体的藻类数据库。其优势在于可以自动进行爬取,无需指定目标,从而为样本提供多样性,极大提高效率以及样本不足的问题,对迁移模型的训练提供了更好的效果。
步骤S2,按照选定种类的藻类名称,利用藻类自动化爬取工具爬取多源的藻类图像。
根据生物学家提供的目标水域的常见藻类清单,按照清单的藻类名称,通过藻类自动化爬取工具从网络爬取到的藻类图像(一般包含IFCB,Flowcam等流式细胞仪,光学显微镜等多种采样仪器设备)。
以淡水藻为研究对象,以爬取澳门地区淡水中常见的Chroococcus(绿球藻属)这一物种为例,爬取的过程为:
1.首先调度器从URL管理器中获取需要爬取的URL地址,将其传入下载器;
2.模拟在网站中搜索Chroococcus(绿球藻属),获得搜索结果的URL地址,下载器通过URL地址来下载该网页并转换成字符串。
3.解析器对网页字符串进行解析,分析图片下载地址在字符串中的位置,利用正则表达式获得所有Chroococcus图片的下载地址。
4.解析方法一般有正则表达式、html.parser(Python自带功能)和beautifulsoup(第三方插件)。
5.通过半自动化的形式从开源的中英文网站(百度百科、维基百科、第三方网站)中爬取藻类图片。
步骤S3,使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围,并赋予爬虫索引的标签,构成源域数据集。
参照图2,爬取的藻类图片传入筛选器,帅选器的筛选规则为:
1.依据已收集藻类图片的清晰度、颜色、样式、细胞数目/大小、是否存在异物等特征,将图片输入预先训练好的二分类器中判断是否是细胞图片,之后在进行后续筛选。
2.确保每个格式的图片都有,清晰度高的图片保留,藻类细胞在整张图片中所占的比例大的图片保留。
3.使用目标检测算法来判断图片中是否存在异物以及异物是否遮挡住细胞,后续可以通过消融实验来判断异物是否会对后续网络学习造成干扰。
4.依据上述九点规则筛选出前50张高质量的Chroococcus(绿球藻属)藻类图片作为后续迁移学习中用到的数据集。
5.将爬取到的50张藻类图像通过裁剪、旋转、缩放等变换数据增强。方便后续进行目标检测算法实验。
人工辅助yolo v3模型对爬取到的所有网络图像选取目标框,作为藻类图像进行数据集扩充。定义这部分数据为迁移学习中的源域数据,这部分数据是有标签的。
进一步地,人工辅助检查源域数据及标定的准确性。
步骤S4,获取由无标签藻类图像构成的目标域数据集。
定义迁移学习的目标域数据是工作人员在实地采样后,未经过生物分类学家鉴定得到的藻类图像(一般由光学显微镜获取,仪器单一),故目标域是无标签的。
步骤S5,根据源域数据集和目标域数据集,采用Faster RCNN进行迁移学习,获得多源藻类图像目标检测模型。
首先使用Faster RCNN作为base network,Faster RCNN由卷积层,区域生成网络(RPN),目标区域(ROI)池化及分类四部分组成。作为一种卷积神经网络(CNN)目标检测方法,Faster RCNN首先使用一组基础的卷积、启动函数、池化层提取特征图用于后续RPN层和全连接层。RPN网络判断锚点属于正值或负值,再利用回归修正锚点获得精确的目标框。ROI池化层收集输入的特征图和目标区域,综合这些信息后送入后续全连接层判定目标类别。最后对目标框进行分类并再次回归获得精确位置。
由于深度特征最终会沿着网络从一般过渡到特定,使用Faster RCNN算法中的Backbone模块的初始几层卷积层和池化层主要负责接收输入数据,并进行数据预处理和特征提取得到输入图像对应的feature maps,并传递给下一层。这部分提取的特征是较为通用的,因此在源域和目标域的特征提取过程,这些层被冻结。
Faster RCNN中Backbone模块的中间层的可迁移性稍差,通过微调网络参数来学习源域和目标域中的不同。
采用深度适应网络(Deep Adaptation Netowrk,DAN)中的MK-MMD(Multi-kernelMMD,多核MMD)适应Faster RCNN的RCNN network模块中的多层全连接网络层。
对RoI传入的特征进行分类和回归,以得到预测目标的位置和标签,计算RCNN的损失,用于更新网络的参数。
计算MMD用于减小源域与目标域之间的差异。通过MK-MMD算法减少显微镜图像和细胞流式仪等设备带来的数据域的差异,增强深度学习神经网络的具体任务层的特征迁移性。
步骤S6,将待检测的藻类图像输入所述多源藻类图像目标检测模型,输出藻类图像中每个藻细胞的分类。
训练好迁移学习网络之后,实验人员获取最新的藻类图像作为输入,得到预测到的藻类细胞目标框。
本发明采用数据爬取技术、迁移学习技术等,在现有小量标注样本的藻类数据集的基础上,训练一个通用的可识别多种类的淡水藻类目标检测模型,通过研究,期望搭建选定种类藻类的图像数据集、达到对选定种类的目标水域的淡水藻实现高精度识别与分类、同时可适用于非选定藻类的训练与分析。
(1)基于网络爬虫的有标注藻类数据集扩充方法
针对自动化爬取工具所获得的资料,建立一套可以兼容不同水体的通用水体标准,例如对采集到的藻类图像可以有不同格式、尺度和尺寸,甚至是不同设备所采集到的藻类图像。利用此通用水体标准对数据进行筛选工作,以提高藻类数据的质量,将其大小,像素等统一化。
通常的分藻类系统在更换水体后,由于藻类种类发生变化,分类表现差,所以在大部分情况下藻类的分类工作只能依靠人工,而人工培养成本高,且人工分类效率低下。例如进口美国的仪器对美国的藻类品种识别度高,但对大湾区的品种识别度差。通过建立独有藻类数据库,弥补效率以及人力资源匮乏问题,解决生物鉴定专家少、藻类图像样本少、藻类图像捕获仪器成本高等难题。
(2)建立网络藻类数据库到目标水域藻类数据库的迁移模型
通常,深度学习模型通常不具有普适性,即在某个数据集上训练的结果只能在某个领域中有效,而很难迁移到其他的场景中,因此出现了迁移学习这一领域,其目标就是将原数据域“学习”到的信息尽可能好地迁移到目标。具体而言,定义爬取数据为无标签数据,目标水体数据为有标签数据,无监督模型和监督模型的损失函数和训练方式的定义,Transfer过程中知识蒸馏的方法。
本发明可以自动学习更换水体后的藻类信息。通常的分类系统对数据量要求很高,而本发明的分类系统与大数据样本量相反,只需要研究人员在显微镜下观察到藻类样本信息,即可实现较好的目标检测效果。该检测系统可学习到通用的藻类学习能力,并且可以兼容来自多格式的藻类图片,包含流式细胞仪获取到的图像,显微镜得到的图像,通过手机自带的显微拍摄系统得到的藻类图像等。
对应于上述提供的多源藻类图像目标检测方法,本发明实施例还提供了一种多源藻类图像目标检测系统,包括:
编写模块,用于编写藻类自动化爬取工具;
爬模块,用于按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像;
分类标注模块,用于使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围,并赋予爬虫索引的标签,构成源域数据集;
目标域数据集获取模块,用于获取由无标签藻类图像构成的目标域数据集;
迁移学习模块,用于根据源域数据集和目标域数据集,采用Faster RCNN进行迁移学习,获得多源藻类图像目标检测模型;
分类检测模块,用于将待检测的藻类图像输入所述多源藻类图像目标检测模型,输出藻类图像中每个藻细胞的分类。
本发明实施例提供的多源藻类图像目标检测系统与上述实施例所述的多源藻类图像目标检测方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述方法实施例的介绍。
本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现如前述的多源藻类图像目标检测方法。
此外,上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如前述的多源藻类图像目标检测方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种多源藻类图像目标检测方法,其特征在于,包括:
编写藻类自动化爬取工具;
按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像;
使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围,并赋予爬虫索引的标签,构成源域数据集;
获取由无标签藻类图像构成的目标域数据集;
根据源域数据集和目标域数据集,采用FasterRCNN进行迁移学习,获得多源藻类图像目标检测模型;
将待检测的藻类图像输入所述多源藻类图像目标检测模型,输出藻类图像中每个藻细胞的分类。
2.根据权利要求1所述的多源藻类图像目标检测方法,其特征在于,所述藻类自动化爬取工具包括:URL管理器、调度器、网页下载器和网页解析器;
调度器用于从URL管理器中获取需要爬取的URL地址,将需要爬取的URL地址传入网页下载器;
网页下载器用于根据所述需要爬取的URL地址下载网页,并转换成网页字符串后通过调度器传入网页解析器;
网页解析器用于解析网页字符串,利用正则表达式获得所有藻类图像的下载地址,并根据下载地址通过半自动化的形式从开源的中英文网站中爬取藻类图像;
调度器还用于接收爬取的藻类图像。
3.根据权利要求1所述的多源藻类图像目标检测方法,其特征在于,按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像,之后还包括:
将每张藻类图像输入预先训练好的二分类器中判断是否为细胞图片,获得第一输出结果;
若所述第一输出结果表示否,则删除藻类图像;
若所述第一输出结果表示是,则保留清晰度大于清晰度阈值,且藻类细胞在整张图像中所占的比例大于比例阈值的藻类图像;
使用目标检测算法判断保留的藻类图像中是否存在异物,获得第二输出结果;
若所述第二输出结果表示否,则保留藻类图像;
若所述第二输出结果表示是,则将通过消融实验判断异物会对后续网络学习造成干扰的藻类图像删除;
从保留的藻类图像中选取预设数量的藻类图像,并通过裁剪、旋转和缩放对预设数量的藻类图像进行数据增强。
4.根据权利要求1所述的多源藻类图像目标检测方法,其特征在于,所述采用FasterRCNN进行迁移学习,具体包括:
冻结FasterRCNN中Backbone模块的初始预设层数的卷积层和池化层,并利用Backbone模块提取特征图;
根据源域数据集和目标域数据集中的不同,调节网络参数;
采用深度适应网络中的多核MMD自适应FasterRCNN中RCNN network模块的多层全连接网络层,通过多核MMD减少源域与目标域之间的差异。
5.根据权利要求1所述的多源藻类图像目标检测方法,其特征在于,所述待检测的藻类图像是在光学显微镜下观察到藻细胞的藻类图像。
6.一种多源藻类图像目标检测系统,其特征在于,包括:
编写模块,用于编写藻类自动化爬取工具;
爬模块,用于按照选定种类的藻类名称,利用所述藻类自动化爬取工具爬取多源的藻类图像;
分类标注模块,用于使用yolo v3模型目标检测算法框定每个藻类图像中出现的藻类细胞的具体像素范围,并赋予爬虫索引的标签,构成源域数据集;
目标域数据集获取模块,用于获取由无标签藻类图像构成的目标域数据集;
迁移学习模块,用于根据源域数据集和目标域数据集,采用Faster RCNN进行迁移学习,获得多源藻类图像目标检测模型;
分类检测模块,用于将待检测的藻类图像输入所述多源藻类图像目标检测模型,输出藻类图像中每个藻细胞的分类。
7.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的多源藻类图像目标检测方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1至5中任一项所述的多源藻类图像目标检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068927.XA CN115311657B (zh) | 2022-09-02 | 2022-09-02 | 多源藻类图像目标检测方法、系统、电子设备及存储介质 |
US18/063,781 US20240087310A1 (en) | 2022-09-02 | 2022-12-09 | Method and system for multi-source algae image target detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068927.XA CN115311657B (zh) | 2022-09-02 | 2022-09-02 | 多源藻类图像目标检测方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115311657A true CN115311657A (zh) | 2022-11-08 |
CN115311657B CN115311657B (zh) | 2024-01-05 |
Family
ID=83866417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211068927.XA Active CN115311657B (zh) | 2022-09-02 | 2022-09-02 | 多源藻类图像目标检测方法、系统、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240087310A1 (zh) |
CN (1) | CN115311657B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386090A (zh) * | 2023-06-07 | 2023-07-04 | 中国水产科学研究院南海水产研究所 | 一种基于扫描图谱的浮游生物识别方法、系统及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897778A (zh) * | 2018-06-04 | 2018-11-27 | 四川创意信息技术股份有限公司 | 一种基于多源大数据分析的图像标注方法 |
CN109977780A (zh) * | 2019-02-26 | 2019-07-05 | 广东工业大学 | 一种基于深度学习算法的硅藻的检测与识别方法 |
CN111986201A (zh) * | 2020-09-28 | 2020-11-24 | 南方电网科学研究院有限责任公司 | 一种绝缘子的表面藻类密度的测算方法和装置 |
CN112766384A (zh) * | 2021-01-24 | 2021-05-07 | 湖南大学 | 一种基于深度学习的藻类絮体去除率评估方法 |
CN112861616A (zh) * | 2020-12-31 | 2021-05-28 | 电子科技大学 | 一种无源领域自适应目标检测方法 |
CN113128385A (zh) * | 2021-04-08 | 2021-07-16 | 北京工业大学 | 一种有毒藻类监测预警方法及系统 |
CN114626461A (zh) * | 2022-03-16 | 2022-06-14 | 西安理工大学 | 基于领域自适应的跨域目标检测方法 |
-
2022
- 2022-09-02 CN CN202211068927.XA patent/CN115311657B/zh active Active
- 2022-12-09 US US18/063,781 patent/US20240087310A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897778A (zh) * | 2018-06-04 | 2018-11-27 | 四川创意信息技术股份有限公司 | 一种基于多源大数据分析的图像标注方法 |
CN109977780A (zh) * | 2019-02-26 | 2019-07-05 | 广东工业大学 | 一种基于深度学习算法的硅藻的检测与识别方法 |
CN111986201A (zh) * | 2020-09-28 | 2020-11-24 | 南方电网科学研究院有限责任公司 | 一种绝缘子的表面藻类密度的测算方法和装置 |
CN112861616A (zh) * | 2020-12-31 | 2021-05-28 | 电子科技大学 | 一种无源领域自适应目标检测方法 |
CN112766384A (zh) * | 2021-01-24 | 2021-05-07 | 湖南大学 | 一种基于深度学习的藻类絮体去除率评估方法 |
CN113128385A (zh) * | 2021-04-08 | 2021-07-16 | 北京工业大学 | 一种有毒藻类监测预警方法及系统 |
CN114626461A (zh) * | 2022-03-16 | 2022-06-14 | 西安理工大学 | 基于领域自适应的跨域目标检测方法 |
Non-Patent Citations (2)
Title |
---|
ARABINDA SAMANTARAY ET AL.: "Algae Detection Using Computer Vision and Deep Learning", ARXIV, pages 1 - 8 * |
叶司琪 等: "基于改进卷积神经网络的藻类分类与识别方法", 长春理工大学学报(自然科学版), vol. 44, no. 4, pages 119 - 124 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386090A (zh) * | 2023-06-07 | 2023-07-04 | 中国水产科学研究院南海水产研究所 | 一种基于扫描图谱的浮游生物识别方法、系统及介质 |
CN116386090B (zh) * | 2023-06-07 | 2023-09-19 | 中国水产科学研究院南海水产研究所 | 一种基于扫描图谱的浮游生物识别方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20240087310A1 (en) | 2024-03-14 |
CN115311657B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Spiesman et al. | Assessing the potential for deep learning and computer vision to identify bumble bee species from images | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN109800736A (zh) | 一种基于遥感影像和深度学习的道路提取方法 | |
Soltis et al. | Plants meet machines: Prospects in machine learning for plant biology | |
Weaver et al. | LeafMachine: Using machine learning to automate leaf trait extraction from digitized herbarium specimens | |
CN112418117A (zh) | 一种基于无人机图像的小目标检测方法 | |
CN114565826B (zh) | 一种农业病虫害识别诊断方法、系统及装置 | |
CN104764744A (zh) | 一种禽蛋新鲜度的视觉检测装置及其方法 | |
CN114387499A (zh) | 一种海岛滨海湿地水鸟识别方法、分布查询系统及介质 | |
Xuesong et al. | Aphid identification and counting based on smartphone and machine vision | |
CN115311657B (zh) | 多源藻类图像目标检测方法、系统、电子设备及存储介质 | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
CN116310718A (zh) | 一种基于YOLOv5模型的害虫目标检测方法、系统及设备 | |
Wang et al. | Vision-based in situ monitoring of plankton size spectra via a convolutional neural network | |
CN113963251A (zh) | 一种海洋生物检测方法、系统和设备 | |
CN116664944A (zh) | 一种基于属性特征知识图谱的葡萄园害虫识别方法 | |
CN111461323A (zh) | 一种图像识别方法及装置 | |
CN115100497A (zh) | 基于机器人的通道异常物体巡检方法、装置、设备及介质 | |
CN113673618A (zh) | 一种融合注意力模型的烟虫目标检测方法 | |
Zhang et al. | A precise apple leaf diseases detection using BCTNet under unconstrained environments | |
Alsaadi et al. | An automated mammals detection based on SSD-mobile net | |
Poonguzhali et al. | Crop condition assessment using machine learning | |
CN115019243A (zh) | 基于改进YOLOv3的监控漂浮物轻量化目标检测方法及系统 | |
CN113223018A (zh) | 细粒度图像分析处理方法 | |
CN112465821A (zh) | 一种基于边界关键点感知的多尺度害虫图像检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |