CN115019306A - 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 - Google Patents
一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 Download PDFInfo
- Publication number
- CN115019306A CN115019306A CN202210653981.4A CN202210653981A CN115019306A CN 115019306 A CN115019306 A CN 115019306A CN 202210653981 A CN202210653981 A CN 202210653981A CN 115019306 A CN115019306 A CN 115019306A
- Authority
- CN
- China
- Prior art keywords
- image
- embedding box
- label
- box label
- dimensional code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/80—Recognising image objects characterised by unique random patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/36—Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Nonlinear Science (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统,为了解决包埋盒在运输流程中容易丢失无法追溯,人工记录信息费时费力效率低下的问题,对包埋盒脱水过程进行监管。针对密集目标检测能力不足、模型泛化能力有限的问题,本发明采用高斯模糊处理和光照变换处理的训练图像增强方式。为了解决目标检测网络前向推理速度慢和特征提取能力不足的问题,本发明改进了目标检测模型的主干特征提取网络结构,并在模型前部分添加了空间池化金字塔模块。本发明还提出了适合本场景的二维码检测方法,以解决二维码检测和识别准确率不高的问题。
Description
技术领域
本发明涉及信息识别技术领域,尤其涉及一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统。
背景技术
病理标本运输流程的监管是医院病理科管理的一个重要组成部分,目前病理科对包埋盒脱水流程没有较好的信息化手段进行监管,造成包埋盒出现异常情况无法进行追溯,容易造成包埋盒丢失;为了加强包埋盒脱水流程的管理,需要对包埋盒流程信息进行记录,但是人工输入包埋盒标签信息的方法费时费力,效率低下。
现有方法对包埋盒标签进行检测和识别过程中,往往需要目标检测技术。目前基于深度学习的目标检测的技术目前大多使用旋转、缩放、平移等常规通用的数据增强方式,对于某些场景模型泛化能力有限,针对密集目标检测能力不足;通用的目标检测模型结构复杂,前向推理时间过长,不能满足实际生成环境的对于模型速度性能的需求。在对包埋盒标签检测完成之后,需要对标签上的二维码进行检测和识别,目前算法通常只针对二维码进行解析,而检测准确率不高。
发明内容
为了解决包埋盒在运输流程中容易丢失无法追溯,人工记录信息费时费力效率低下的问题,发明了一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统,对包埋盒脱水过程进行监管。针对密集目标检测能力不足、模型泛化能力有限的问题,本发明采用高斯模糊处理和光照变换处理的训练图像增强方式。为了解决目标检测网络前向推理速度慢和特征提取能力不足的问题,本发明改进了目标检测模型的主干特征提取网络结构,并在模型前部分添加了空间池化金字塔模块。本发明还提出了适合本场景的二维码检测方法,以解决二维码检测和识别准确率不高的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本公开第一方面提供了一种基于深度学习和机器视觉的包埋盒标签批量识别方法,包括以下步骤:
步骤1:获得包埋盒数字图像;
步骤2:对获得的包埋盒数字图像进行目标检测,获得整张包埋盒数字图像中每个包埋盒标签的具体坐标,并根据位置坐标裁剪出每个包埋盒标签的图像;
步骤3:对获得的每个包埋盒标签图像进行文字识别,获得每个包埋盒标签的字符编号信息;
步骤4:对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息;
步骤5:将得到的每个包埋盒标签的字符编号信息和二维码标识信息,录入系统,进行病理标本包埋盒信息的登记和记录。
进一步的,步骤1中,获得包埋盒数字图像后,将采集到的包埋盒数字图像传入系统进行标签信息识别或者用于图像标注和模型训练。
进一步的,步骤2中,采用深度学习技术对获得的包埋盒数字图像进行目标检测,具体包括,图像采集和标注、数据预处理和增强、模型搭建和训练以及模型预测。
更进一步的,图像采集和标注为利用步骤1中采集的包埋盒数字图像作为模型的训练数据,对采集图像中的包埋盒标签进行矩形框标注。
更进一步的,数据处理和增强为对标注完的图像使用旋转、缩放、平移和颜色干扰对标注图像进行增强,以获得更多样的训练数据,提高模型泛化能力。
优选的,数据处理和增强步骤中,使用高斯滤波随机选取图像中的部分区域作模糊处理。
优选的,随机选取图像中的部分区域作光照变换处理,增强或降低图像部分区域RGB三个通道的颜色强度值,以提高样本泛化能力,降低真实场景中光照对于图像检测效果的影响。
更进一步的,模型搭建和训练具体为,使用卷积神经网络对包埋盒图像进行目标检测,所述卷积神经网络由一系列卷积层、池化层、激活函数和BN层搭建构成。
优选的,模型搭建和训练过程中,在模型主干网络特征提取前部分添加空间池化金字塔模块,对提取到的上一层的特征图像,分别设置1×1、2×2、4×4、8×8四个不同卷积核大小从四个不同尺寸提取特征图,通过1×1的卷积平滑通道后做池化操作,通过双线性差值恢复到原特征图1/2大小,通过concatenate操作融合四个不同视野的特征图。
进一步的,步骤3中,把识别到的标签字符信息记录下来并进行规则校验,判断字符信息长度是否在8到15之间,字符前六位是否与当前年月份对应,是否包含连接符“-”,对于不符合规则的标签信息,在识别结果栏给出误识别警告再进行人工矫正。
进一步的,步骤4中,对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息时,首先利用机器视觉技术对获得的包埋盒标签图像进行二维码检测;对检测到的二维码进行二维码识别,解析得到二维码标识信息。
更进一步的,利用机器视觉技术对获得的包埋盒标签图像进行二维码检测,具体为:
步骤(4-1-1):对包埋盒标签图像进行灰度化操作,将RGB三通道图像转换为单通道灰度图像;
步骤(4-1-2):对灰度图像进行阈值化操作,将灰度图像转化为0和255组成的二值图像;
步骤(4-1-3):对二值图像进行膨胀处理,内核大小设置为5×5矩阵,迭代次数设置为1,以增强目标整体性;
步骤(4-1-4):对膨胀后的二值图像进行查找目标轮廓操作,得到包埋盒标签图像中的所有可能目标轮廓信息,并计算所有目标轮廓的外接矩形框信息;
步骤(4-1-5):对所有目标轮廓的外接矩形框信息进行过滤,判断条件为:面积在包埋盒标签图像高度的1/3倍和1倍之间,矩形框长宽比在0.7-1.3之间,矩形框坐标位置在包埋盒标签图像长度中点的右侧,得到所有二维码可能目标;
步骤(4-1-6):对过滤得到的所有二维码可能目标,根据矩形框坐标位置在步骤4-1-2的二值图像中裁剪相同位置的区域图像,以避免膨胀操作的对后续检测的影响,对可能的二维码目标区域图像进行腐蚀处理,以去除线条毛躁和粘连。
步骤(4-1-7):在腐蚀处理后的图像上查找二维码三个定位点,根据是否包含三个定位点确定此目标是否为二维码目标。
本公开第二方面提供了一种基于深度学习和机器视觉的包埋盒标签批量识别系统,包括:
图像获取模块,被配置为获得包埋盒数字图像;
图像检测模块,被配置为对获得的包埋盒数字图像进行目标检测,获得整张包埋盒数字图像中每个包埋盒标签的具体坐标,并根据位置坐标裁剪出每个包埋盒标签的图像;
图像识别模块,被配置为对获得的每个包埋盒标签图像进行文字识别,获得每个包埋盒标签的字符编号信息;
二维码识别模块,被配置为对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息;
信息录入模块,被配置为将得到的每个包埋盒标签的字符编号信息和二维码标识信息,录入系统,进行病理标本包埋盒信息的登记和记录。
上述本发明的实施例的有益效果如下:
本发明提出的一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统,解决了医院病理科病理标本包埋盒运输流程中的丢失难追溯问题,文字和二维码识别率达到90%以上,满足实际生成环境的需要。本发明提出的高斯模糊处理和光照变换处理的训练数据增强方式,增强了数据多样性来提高模型泛化能力,改进后的检测模型减少了网络深度,降低了预测时间。本发明提出的二维码检测方法在满足一定图像分辨率基础上检测率可达90%,效果良好。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明对包埋盒标签图像批量自动识别的系统流程图;
图2为本发明对包埋盒标签图像批量自动识别的算法流程图;
图3为本发明对包埋盒标签图像批量自动识别过程中目标检测模型结构图。
具体实施方式:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本公开实施例一提供了一种基于深度学习和机器视觉的包埋盒标签批量识别方法,包括以下步骤:
步骤1:利用摄像设备对病理蜡块包埋盒收纳箱中的包埋盒标签进行摄像,获得高清晰度、高分辨率、摆放整齐的包埋盒数字图像;
步骤2:对获得的包埋盒数字图像进行目标检测,获得整张包埋盒数字图像中每个包埋盒标签的具体坐标,并根据位置坐标裁剪出每个标签的图像;
步骤3:对获得的每个包埋盒标签图像进行文字识别,获得每个包埋盒标签的字符编号信息;
步骤4:对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息。
步骤5:得到每个包埋盒标签的字符编号信息和二维码标识信息,把所有识别结果录入系统,进行病理标本包埋盒信息的登记和记录。
在步骤1中:参考图2,利用摄像设备采集图像,摄像设备位于包埋盒标签样本的正上方,以便于采集到边框对齐、清晰度高的图像,之后将采集到的图像传入系统进行标签信息识别或者用于图像标注和模型训练。
在步骤2中:参考图3,使用深度学习技术对获得的包埋盒数字图像进行目标检测,具体包括图像采集和标注、数据预处理和增强、模型搭建和训练、模型预测。
步骤(2-1)图像采集和标注,利用步骤1中的摄像设备和方法采集1000张包埋盒数字图像作为模型的训练数据,使用Labelme或者LabelImg等开源工具对采集图像中的包埋盒标签进行矩形框标注。
步骤(2-2)数据处理和增强为对标注完的图像使用旋转、缩放、平移和颜色干扰对标注图像进行增强,以获得更多样的训练数据,提高模型泛化能力。
特别地,本方法使用高斯滤波随机选取图像中的部分区域作模糊处理,和Cutout随机选择方形区域填充0的方式不同的是,本方法可以不完全遮挡目标,直观上保留目标的视野,又拟合了真实场景中由于污渍、沾染等不同原因造成的标签模糊的情况,提高了数据在真实场景中的契合度。
二维平面的高斯滤波公式为:
其中(u,v)为像素坐标,u2+v2为模糊半径的平方,σ是正态分布的标准偏差。
特别地,本方法随机选取图像中的部分区域作光照变换处理,增强或降低图像部分区域RGB三个通道的颜色强度值,以提高样本泛化能力,降低真实场景中光照对于图像检测效果的影响。
本方法对部分区域作光照变换处理,相对于其他方法不同之处在于,现有光照变换处理为先对图像的像素进行PCA(主成分分析)获得RGB空间中的特征值和特征向量,然后沿着特征向量的方向对图片的像素值做一些随机的加减的方法,或者从亮度、对比度、色彩度、饱和度几个方面对图像进行变换,本方法则是把变换区域限定在图像左方或者上方而不是随机区域,更贴合本方法的使用场景,并且只对RGB通道上的像素值做限定在[0,150]区间上的加法处理,以此提高样本泛化能力,降低真实场景中光照对于图像检测效果的影响。
步骤(2-3)模型搭建和训练,本方法使用卷积神经网络对包埋盒图像进行目标检测,所述卷积神经网络由一系列卷积层、池化层、激活函数和BN层搭建构成,本方法网络结构在YoloV3基础上做出改进,以提高模型预测速度满足实际应用场景中的需要。
特别地,如图3所示,本文替换原先YoloV3网络模型中的darknet53主干网络特征提取部分进行优化,一方面,使用激活函数Swish替换线性激活函数,连续且可导容易训练,没有上边界不会出现饱和并且固定下边界产生更好的正则化效果。通过增加特征图分辨率,提高密集场景检测的适应性,通过减少模型网络结构深度以减少整体参数来提高模型推理的速度。
另一方面,如图3所示,本发明在模型主干网络特征提取前部分添加空间池化金字塔模块,对提取到的上一层的特征图像,分别设置1×1、2×2、4×4、8×8四个不同卷积核大小从四个不同尺寸提取特征图,通过1×1的卷积平滑通道后做池化(核为2×2,步长为2)操作,通过双线性差值恢复到原特征图1/2大小,通过concatenate操作融合四个不同视野的特征图,使得模型特征提取能力更强。
步骤(2-4)模型预测,如图3所示:
步骤(2-4-1)原始输入图像通过resize统一调整为416×416分辨率大小;
步骤(2-4-2)图像输入第一个卷积层,卷积核大小为3×3,通道数为128,进行初步特征提取;
步骤(2-4-3)之后通过SPP(spatial pyramid pooling)模块,使用不同大小的卷积核提取多尺度特征;
步骤(2-4-4)通过一个卷积核为3×3、步长为2、通道数为256的卷积层,上层特征图尺寸缩小一半,通道数翻倍补偿特征图缩小的信息损失;连续通过两个1×1、3×3、1×1组成的卷积块,继续提取特征,特征图大小不变,卷积层参数不变;
步骤(2-4-5)通过一个卷积核为3×3、步长为2、通道数为512的卷积层,特征图尺寸减半;连续通过两个1×1、3×3、1×1组成的卷积块,特征图大小不变;
步骤(2-4-6)通过一个卷积核为3×3、步长为2、通道数为1024的卷积层,特征图尺寸减半;连续通过两个1×1、3×3、1×1组成的卷积块,特征图大小不变;
步骤(2-4-7)在26×26的特征图上连续通过一个3×3的卷积层一个一个1×1的卷积层并在此大小特征图上进行预测1;
步骤(2-4-8)在26×26的特征图上通过一个1×1的卷积并做上采样,将图像尺寸扩充一倍,通过concatenate操作连接(2-3-5)中52×52的特征图,连续通过一个3×3的卷积层一个一个1×1的卷积层并在此大小特征图上进行预测2;
步骤(2-4-9)在52×52的特征图上通过一个1×1的卷积并作上采用,将图像尺寸扩充一倍,通过concatenate操作连接(2-3-4)中104×104的特征图,连续通过一个3×3的卷积层一个一个1×1的卷积层并在此大小特征图上进行预测3;
在步骤3中:如图2所示,对获得的每个包埋盒标签图像利用OCR工具进行文字识别,获得每个包埋盒标签的字符编号信息和位置坐标;把识别到的标签字符信息记录下来并进行规则校验,判断字符信息长度是否在8到15之间,字符前六位是否与当前年月份对应,是否包含连接符“-”,对于不符合规则的标签信息,在识别结果栏给出误识别警告再进行人工矫正。
在步骤4中:如图2所示,对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息。
步骤(4-1)首先利用机器视觉技术对获得的包埋盒标签图像进行二维码检测,具体为:
步骤(4-1-1)对包埋盒标签图像进行灰度化操作,将RGB三通道图像转换为单通道灰度图像;
步骤(4-1-2)对灰度图像进行阈值化操作,将灰度图像转化为0和255组成的二值图像;
步骤(4-1-3)对二值图像进行膨胀处理,内核大小设置为5×5矩阵,迭代次数设置为1,增强目标整体性。
步骤(4-1-4)对二值图像进行查找目标轮廓操作,得到包埋盒标签图像中的所有可能目标轮廓信息,并计算所有目标轮廓的外接矩形框信息;
步骤(4-1-5)对所有可能目标轮廓信息进行过滤,判断条件为:面积在包埋盒标签图像高度的1/3倍和1倍之间,矩形框长宽比在0.7-1.3之间,矩形框坐标位置在包埋盒标签图像长度中点的右侧。
步骤(4-1-6)对过滤得到的所有二维码可能目标,根据矩形框坐标位置在步骤4-1-2的二值图像中裁剪相同位置的区域图像,以避免膨胀操作的对后续检测的影响,对可能的二维码目标区域图像进行腐蚀处理,以去除线条毛躁和粘连。
步骤(4-1-7)在上一步的图像上查找二维码三个定位点(三个边角的黑色方形),具体为:查找目标轮廓,根据长宽比(0.8-1.2)和面积(目标宽度1/6倍-1/2倍)过滤得到,确定此目标为二维码目标。
步骤(4-2)对检测到的二维码利用cv2.wechat_qrcode_WeChatQRCode工具中的detector.detectAndDecode进行二维码识别,解析得到二维码标识信息。
在步骤5中:得到每个包埋盒标签的文字编号信息和二维码标识信息,把所有识别结果录入系统,进行脱水蜡块标本的登记和记录。具体的:得到每个包埋盒标签的字符编号信息和二维码标识信息,字符编号对应包埋盒在系统中的病理号,二维码标识用于辅助双向验证病理号的正确性,识别完成后字符编号(例如202104322-2)和对应的二维码标识(例如22398)自动传入包埋盒登记系统,在系统中记录下这两个字段,从而完成包埋盒标签的识别。
实施例二:
本公开实施例二提供了一种基于深度学习和机器视觉的包埋盒标签批量识别系统,包括:
图像获取模块,被配置为获得包埋盒数字图像;
图像检测模块,被配置为对获得的包埋盒数字图像进行目标检测,获得整张包埋盒数字图像中每个包埋盒标签的具体坐标,并根据位置坐标裁剪出每个包埋盒标签的图像;
图像识别模块,被配置为对获得的每个包埋盒标签图像进行文字识别,获得每个包埋盒标签的字符编号信息;
二维码识别模块,被配置为对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息。
信息录入模块,被配置为将得到的每个包埋盒标签的字符编号信息和二维码标识信息,录入系统,进行病理标本包埋盒信息的登记和记录。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,包括以下步骤:
步骤1:获得包埋盒数字图像;
步骤2:对获得的包埋盒数字图像进行目标检测,获得整张包埋盒数字图像中每个包埋盒标签的具体坐标,并根据位置坐标裁剪出每个包埋盒标签的图像;
步骤3:对获得的每个包埋盒标签图像进行文字识别,获得每个包埋盒标签的字符编号信息;
步骤4:对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息;
步骤5:将得到的每个包埋盒标签的字符编号信息和二维码标识信息,录入系统,进行病理标本包埋盒信息的登记和记录。
2.如权利要求1所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,步骤1中,获得包埋盒数字图像后,将采集到的包埋盒数字图像传入系统进行标签信息识别或者用于图像标注和模型训练。
3.如权利要求1所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,步骤2中,采用深度学习技术对获得的包埋盒数字图像进行目标检测,具体包括,图像采集和标注、数据预处理和增强、模型搭建和训练以及模型预测。
4.如权利要求3所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,图像采集和标注为利用步骤1中采集的包埋盒数字图像作为模型的训练数据,对采集图像中的包埋盒标签进行矩形框标注。
5.如权利要求3所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,数据处理和增强为对标注完的图像使用旋转、缩放、平移和颜色干扰对标注图像进行增强,以获得更多样的训练数据,提高模型泛化能力;
或者,数据处理和增强步骤中,使用高斯滤波随机选取图像中的部分区域作模糊处理;
或者,数据处理和增强步骤中,随机选取图像中的部分区域作光照变换处理,增强或降低图像部分区域RGB三个通道的颜色强度值,以提高样本泛化能力,降低真实场景中光照对于图像检测效果的影响。
6.如权利要求3所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,模型搭建和训练具体为,使用卷积神经网络对包埋盒图像进行目标检测,所述卷积神经网络由一系列卷积层、池化层、激活函数和BN层搭建构成;
或者,模型搭建和训练过程中,在模型主干网络特征提取前部分添加空间池化金字塔模块,对提取到的上一层的特征图像,分别设置1×1、2×2、4×4、8×8四个不同卷积核大小从四个不同尺寸提取特征图,通过1×1的卷积平滑通道后做池化操作,通过双线性差值恢复到原特征图1/2大小,通过concatenate操作融合四个不同视野的特征图。
7.如权利要求1所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,步骤3中,把识别到的标签字符信息记录下来并进行规则校验,判断字符信息长度是否在8到15之间,字符前六位是否与当前年月份对应,是否包含连接符“-”,对于不符合规则的标签信息,在识别结果栏给出误识别警告再进行人工矫正。
8.如权利要求1所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,步骤4中,对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息时,首先利用机器视觉技术对获得的包埋盒标签图像进行二维码检测;对检测到的二维码进行二维码识别,解析得到二维码标识信息。
9.如权利要求8所述的基于深度学习和机器视觉的包埋盒标签批量识别方法,其特征在于,利用机器视觉技术对获得的包埋盒标签图像进行二维码检测,具体为:
步骤(4-1-1):对包埋盒标签图像进行灰度化操作,将RGB三通道图像转换为单通道灰度图像;
步骤(4-1-2):对灰度图像进行阈值化操作,将灰度图像转化为0和255组成的二值图像;
步骤(4-1-3):对二值图像进行膨胀处理,内核大小设置为5×5矩阵,迭代次数设置为1,以增强目标整体性;
步骤(4-1-4):对膨胀后的二值图像进行查找目标轮廓操作,得到包埋盒标签图像中的所有可能目标轮廓信息,并计算所有目标轮廓的外接矩形框信息;
步骤(4-1-5):对所有目标轮廓的外接矩形框信息进行过滤,判断条件为:面积在包埋盒标签图像高度的1/3倍和1倍之间,矩形框长宽比在0.7-1.3之间,矩形框坐标位置在包埋盒标签图像长度中点的右侧,得到所有二维码可能目标;
步骤(4-1-6):对过滤得到的所有二维码可能目标,根据矩形框坐标位置在步骤4-1-2的二值图像中裁剪相同位置的区域图像,以避免膨胀操作的对后续检测的影响,对可能的二维码目标区域图像进行腐蚀处理,以去除线条毛躁和粘连;
步骤(4-1-7):在腐蚀处理后的图像上查找二维码三个定位点,根据是否包含三个定位点确定此目标是否为二维码目标。
10.一种基于深度学习和机器视觉的包埋盒标签批量识别系统,包括:
图像获取模块,被配置为获得包埋盒数字图像;
图像检测模块,被配置为对获得的包埋盒数字图像进行目标检测,获得整张包埋盒数字图像中每个包埋盒标签的具体坐标,并根据位置坐标裁剪出每个包埋盒标签的图像;
图像识别模块,被配置为对获得的每个包埋盒标签图像进行文字识别,获得每个包埋盒标签的字符编号信息;
二维码识别模块,被配置为对获得的每个包埋盒标签图像进行二维码检测和识别,获得每个包埋盒标签的二维码标识信息;
信息录入模块,被配置为将得到的每个包埋盒标签的字符编号信息和二维码标识信息,录入系统,进行病理标本包埋盒信息的登记和记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653981.4A CN115019306A (zh) | 2022-06-10 | 2022-06-10 | 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653981.4A CN115019306A (zh) | 2022-06-10 | 2022-06-10 | 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019306A true CN115019306A (zh) | 2022-09-06 |
Family
ID=83072778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210653981.4A Withdrawn CN115019306A (zh) | 2022-06-10 | 2022-06-10 | 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019306A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497115A (zh) * | 2022-11-03 | 2022-12-20 | 杭州实在智能科技有限公司 | 基于深度学习的页眉页脚检测方法及系统 |
-
2022
- 2022-06-10 CN CN202210653981.4A patent/CN115019306A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497115A (zh) * | 2022-11-03 | 2022-12-20 | 杭州实在智能科技有限公司 | 基于深度学习的页眉页脚检测方法及系统 |
CN115497115B (zh) * | 2022-11-03 | 2024-03-15 | 杭州实在智能科技有限公司 | 基于深度学习的页眉页脚检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104903A (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN114549981A (zh) | 一种基于深度学习的智能巡检指针式仪表识别及读数方法 | |
CN110276759B (zh) | 一种基于机器视觉的手机屏坏线缺陷诊断方法 | |
CN111539330B (zh) | 一种基于双svm多分类器的变电站数显仪表识别方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN107944403A (zh) | 一种图像中的行人属性检测方法及装置 | |
CN111695373B (zh) | 斑马线的定位方法、系统、介质及设备 | |
Naufal et al. | Preprocessed mask RCNN for parking space detection in smart parking systems | |
CN105405138A (zh) | 基于显著性检测的水面目标跟踪方法 | |
Antar et al. | Automatic number plate recognition of Saudi license car plates | |
CN113033385A (zh) | 一种基于深度学习的违章建筑遥感识别方法及系统 | |
CN112907626A (zh) | 基于卫星超时相数据多源信息的运动目标提取方法 | |
CN112488083A (zh) | 基于heatmap提取关键点的交通信号灯的识别方法、装置、介质 | |
CN113435452A (zh) | 一种基于改进ctpn算法的电气设备铭牌文本检测方法 | |
CN116993970A (zh) | 基于yolov5的油气管道挖掘机占压检测方法及系统 | |
CN115424217A (zh) | 基于ai视觉的车辆智能识别方法、装置和电子设备 | |
CN115019306A (zh) | 一种基于深度学习和机器视觉的包埋盒标签批量识别方法及系统 | |
CN114331961A (zh) | 用于对象的缺陷检测的方法 | |
CN113610052A (zh) | 一种基于深度学习的隧道渗漏水自动识别方法 | |
CN116503733B (zh) | 遥感图像目标检测方法、设备及存储介质 | |
CN111402185B (zh) | 一种图像检测方法及装置 | |
CN113642430B (zh) | 基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统 | |
CN116385477A (zh) | 一种基于图像分割的杆塔图像配准方法 | |
CN115984712A (zh) | 基于多尺度特征的遥感图像小目标检测方法及系统 | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220906 |
|
WW01 | Invention patent application withdrawn after publication |