CN113220925A - 一种细胞图像查重方法和系统 - Google Patents

一种细胞图像查重方法和系统 Download PDF

Info

Publication number
CN113220925A
CN113220925A CN202110450762.1A CN202110450762A CN113220925A CN 113220925 A CN113220925 A CN 113220925A CN 202110450762 A CN202110450762 A CN 202110450762A CN 113220925 A CN113220925 A CN 113220925A
Authority
CN
China
Prior art keywords
image
checked
cell
array
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110450762.1A
Other languages
English (en)
Other versions
CN113220925B (zh
Inventor
马琼雄
何海森
李梓岚
苏志豪
陆清航
郭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202110450762.1A priority Critical patent/CN113220925B/zh
Publication of CN113220925A publication Critical patent/CN113220925A/zh
Application granted granted Critical
Publication of CN113220925B publication Critical patent/CN113220925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种细胞图像查重方法及系统,该方法包括建立图像数据库database和重复图像数据库re‑database;移动显微镜,获取视野下的待查细胞;输入一张待查细胞图像img的路径;获取待查图像的指纹fp;计算图像指纹fp的一维近似表示od;获取待查图像的颜色直方图的特征数组fh;获取待查图像的颜色指纹cfp;计算待查图像img的SIFT特征描述子desp;若数据库database中有与待查图像img重复的图像,获取其od、fp、cfp、fh、desp后保存至数据库;将列表内其他相似的图像的路径提取出来,在数据库database中查找并删掉。该方法能够减少不必要的计算,提高运行效率。

Description

一种细胞图像查重方法和系统
技术领域
本发明涉及计算机图像处理技术领域,具体涉及一种细胞图像查重方法和系统。
背景技术
随着算力和数据量的增加,人工智能正在进入各个领域。而在医学图像处理领域,人工智能也有着广阔的前景。在血细胞形态学检查方面,需要将病人的外周血或骨髓制成涂片,然后在显微镜底下观察各种血细胞的形态,在显微镜下计数涂片中至少200个有核细胞,观察各系细胞增生情况、各阶段细胞比例及形态学特征、是否存在病变情况及其特征,并用文字描述细胞检验结果,最后提出诊断意见和建议。在使用计算机视觉技术辅助医生提高血细胞形态学检验效率的过程中,在对显微镜当前视野下图像的细胞分类计数后,移动涂片进行显微镜下一个视野下图像的细胞分类计数,这个过程中,获取的细胞图像有时会因涂片的移动距离较小导致前后视野的图像有大量重叠的地方而重复计数细胞,这将影响检验结果的准确性。因此,亟需一种细胞图像查重方法来避免大量的重复细胞图像对诊断结果造成干扰。
传统的图像查重技术一般都是单层结构,单层结构的查重技术很难在时间复杂度和匹配准确性之间取舍。对于医学图像的处理,必须要保证足够的准确率,因为重复计数的异常图像会导致误判病人的病情。即使是将多种查重算法简单堆叠也并不能取得很好的结果,一方面是因为简单地堆叠算法会增加计算量,降低查重的效率,另一方面如果前一层的算法查出大量非相似的图像会导致后一层算法浪费计算资源。虽然多层查重结构在准确性方面由于单层结构,但若结构设计不当反而会起反效果,重复的图像会混有其他非重复的图像。
发明内容
有鉴于此,为了解决现有技术中的上述问题,本发明提出一种细胞图像查重方法和系统,在保证运行速度快的前提下,提高查重的准确性。
本发明通过以下技术手段解决上述问题:
一方面,本发明提供一种细胞图像查重方法,包括如下步骤:
S1:建立图像数据库database,用来保存图像路径、图像指纹fp、颜色指纹cfp和特征描述子desp;建立重复图像数据库re-database,用来保存重复的图像的路径;
S2:从显微镜获取一张当前视野的全局图glo-gpi,glo-gpi表示第i张全局图;通过目标检测算法得到该视野下全部细胞,并将它们保存到图像文件夹f,图像命名包含一维坐标z的信息,其中z=x+y,坐标x和y由目标检测算法提供,同时用队列que保存图像的路径,入队顺序按z从小到大;
S3:从队列que弹出一张待查重细胞图像img的路径,获得其坐标z;检查图像数据库database中是否存在img的路径,若存在则输入下一张;
S4:获取待查重细胞图像的指纹fp:将待查重细胞图像缩小到32*32的尺寸,并进行灰度化处理,随后对图像做离散余弦变换得到disp,选取disp左上角8*8的区域,计算该区域的均值,将大于或等于平均值的数值计为1,小于平均值计为0,最终生成二进制数组作为待查重细胞图像的指纹fp;
S5:计算待查重细胞图像的指纹fp的一维近似表示od;
S6:获取待查重细胞图像的颜色直方图的特征数组fh;
S7:获取待查重细胞图像的颜色指纹cfp;
S8:计算待查重细胞图像img的SIFT特征描述子desp;
S9:当图像数据库database不为空时,在图像数据库database中搜索与待查细胞的od相近的细胞图像,这些图像构成图像集I1,否则执行S15;
S10:通过S4获得待查重细胞图像的指纹fp计算待查重细胞图像img与图像集I1中每张图像的指纹的汉明距离,若有与img的汉明距离小于阈值d的图像,则这些图像构成图片集I2并进入下一查重阶段,若无则执行S15;
S11:如果图片集I2不为空,则将I2中颜色指纹范围在[cfp-ct,cfp+ct]的图像构成图片集I3,其中ct为预设常量;
S12:如果图片集I3不为空,则计算img与图片集I3中所有图像的色彩差异度,若有与img的色彩差异度小于阈值cd的图像,则该图像构成图像集I4进入下一阶段,若无则执行S13;
S13:如果图像集I4不为空,则将待查重细胞图像img的SIFT特征描述子与图像集I4中每张图像的SIFT特征描述子进行匹配,大于阈值则为相似图像,将这些图像构成图像集I5
S14:如果图像集I5不为空,则说明待查重细胞图像img在图像数据库database中有和它相似的图像,这些图像即为图像集I5中的图像,将图像集I5中图像的路径和待查重细胞图像的路径以列表的形式保存到重复图像数据库re-database;
S15:将待查重细胞图像img的路径和S4-S8获得的待查重细胞图像img的图像信息od、fp、cfp、fh以及desp保存到图像数据库database;
S16:若图像数据库database中有与待查重细胞图像img重复的图像,则提取这些重复图像的一维坐标zi和与之对应的全局图序号ni,zi和ni分别表示第i张重复细胞图像的一维坐标和第i张重复细胞图像的全局图序号,0<i<=n,n为重复细胞的个数;若在这些重复细胞图像对应的全局图中存在一维坐标的范围在[zi-2*a,zi+2*a]的细胞图像,其中a为常量,则从队列que弹出一张待查重细胞图像的路径后判断其对应的坐标是否在[z-2*a,z+2*a]的范围内,否则执行下一步;若在范围内,判断全局图序号为ni,坐标范围在[zi-2*a,zi+2*a]的细胞图像中是否存在其一维坐标和zi的差值的绝对值和该张待查重细胞图像一维坐标和z的差值的绝对值相等的细胞图像,其中0<i<=n,n为重复细胞的个数,否则执行下一步;若存在,将这些细胞的路径和该张待查重细胞的路径构成列表L,保存该张待查重细胞图像的路径到数据库database并标记为不可查状态,将L保存至重复数据库re-database,否则执行下一步;若队列que下一张细胞图像不在范围内执行下一步;
S17:提取重复图像数据库re-database的信息,发送给软件端并显示,可在界面中选择合适的图像,将列表内其他相似的图像的路径提取出来,在图像数据库database中查找并删掉;
S18:重复执行S3~S17,直至该张全局图中所有图像都被载入数据库;
S19:重复执行S2~S18,直至数据库中不重复的图像达到预定数量。
进一步地,步骤S5具体包括:
S5.1:将8*8的指纹fp分别点乘以opth和optv得到fph和fpv:
fph=fp*opth
fpv=fp*optv
其中optv是大小为8*8、奇数列为1和偶数列为0的数组,opth是大小为8*8、奇数行为1和偶数行为0的数组;
S5.2:将fpv按垂直方向求和,得到1*8的数组v;将fph按水平方向求和,得到8*1的数组h;
S5.3:分别将h和v乘以数组[1,0,-1,0,1,0,-1,0]并求和得到x和y;
S5.4:计算od:
od=drr(x,y)
drr为映射函数,将x和y从二维坐标映射到一维坐标。
进一步地,步骤S6具体包括:
S6.1:统计得到颜色直方图hist,大小为3*256;将颜色数值从1~256合并为0~4,即将1~64相加,同样操作64~128、128~192和192~256,得到大小为3*4的数组fla;将fla第1维展开,即大小从3*4变为1*12;
S6.2:对fla进行编码:
初始化数组cod1,当数组fla第i个元素的数值大于后一个元素的数值时,则将cod1i赋值为1,反之为0,其中i<12;当i=12时,则数组fla中最后一个元素的数值与第一个元素的数值比较;最后得到大小为1*12编码后的数组cod1;
初始化数组cod2,当数组fla第i个元素的数值为0时,将数组cod2的第i个元素值为1,反之为0,最后得到大小为1*12的数组cod2;
S6.3:连接cod1和cod2,组成大小为1*24的特征数组fh。
进一步地,步骤S7具体包括:
S7.1:将S6获得的fla的大小重塑为3*4,并按行求和,变为1*4,再将其重塑为2*2,对列求和得到新的fla数组,其大小为2*1,fla[1]是其第一个元素,fla[2]是其第2个元素;
S7.2:计算颜色指纹cfp:
cfp=e1/(∝+|fla[1]-fla[2|)
其中∝为常数。
进一步地,步骤S9具体包括:
S9.1:在图像数据库database中通过od查找与指纹fp近似的其他图像的指纹:从数据库中提取一维近似表示在od附近的图像,即od在图4.2中外围n圈的图像,其中为n预设值,默认为1;
S9.2:将这些图像构成图像集I1
进一步地,步骤S12具体包括:
S12.1:色彩差异度:计算图片集I3中每张图像的特征数组和待查重细胞图像img的特征数组fh的汉明距离,其中图片集I3中第i张图像和待查重细胞图像img的色彩差异度表示为d3i
S12.2:如果图片集I3中的图片对应的色彩差异度d3i小于阈值cd,则这些图像构成图像集I4并进入SIFT特征查重阶段。
进一步地,步骤S13具体包括:
S13.1:计算图像集I4中每张图像的SIFT特征描述子,记为desp4,其中第i张图像的SIFT特征描述子表示为desp4i
S13.2:计算待查重细胞图像img与图像集I4中每张图像的的SIFT特征描述子的欧式距离,得到特征描述子距离数组disarr,图像集I4中第i张图像的SIFT特征描述子与待查重细胞图像img的SIFT特征描述子的特征距离表示为disarr[i]:
a、初始化距离数组disarr,大小为m*n,m为图像集I4的图像数目,n为待查重细胞图像img的SIFT特征描述子desp的特征个数;
b、从desp4中选取一个特征描述子desp4i,其中0<i<=m,m为集合中特征描述子的个数;
c、计算desp的第c个特征与desp4i所有特征的距离,选取最小的距离最为最佳匹配距离,并保存到disarr[i][c],其中0<c<=n,n为desp的特征个数;
d、重复执行步骤c,直至desp所有的特征都获得对应的特征距离;
e、重复执行步骤b~d,直至集和中所有的特征描述子都被计算;
S13.3:计算特征相似度s:
Figure BDA0003038571740000061
其中arr为disarr[i],0<i<=m,表示desp与desp4i的特征距离数组;a∈arr,a表示desp某个特征与desp4i的最佳匹配距离;该公式表示desp4i与desp的特征距离<=距离阈值dt的个数与总特征数n的比重;
S13.4:如果图片集I4中的图片对应的SIFT特征描述子和待查重细胞图像img的SIFT特征描述子之间的特征相似度s大于相似度阈值st,则说明该张图片与待查图片img是重复的;将这些图像构成图像集I5
另一方面,本发明提供一种细胞图像查重系统,包括:
数据库建立模块,用于建立图像数据库database,用来保存图像路径、图像指纹fp、颜色指纹cfp和特征描述子desp;建立重复图像数据库re-database,用来保存重复的图像的路径;
待查图像获取模块,用于从显微镜获取一张当前视野的全局图glo-gpi,glo-gpi表示第i张全局图;通过目标检测算法得到该视野下全部细胞,并将它们保存到图像文件夹f,图像命名包含一维坐标z的信息,其中z=x+y,坐标x和y由目标检测算法提供,同时用队列que保存图像的路径,入队顺序按z从小到大;
待查图像路径检查模块,用于从队列que弹出一张待查重细胞图像img的路径,获得其坐标z;检查图像数据库database中是否存在img的路径,若存在则输入下一张;
待查图像指纹获取模块,用于获取待查重细胞图像的指纹fp:将待查重细胞图像缩小到32*32的尺寸,并进行灰度化处理,随后对图像做离散余弦变换得到disp,选取disp左上角8*8的区域,计算该区域的均值,将大于或等于平均值的数值计为1,小于平均值计为0,最终生成二进制数组作为待查重细胞图像的指纹fp;
一维近似表示计算模块,用于计算待查重细胞图像的指纹fp的一维近似表示od;
特征数组获取模块,用于获取待查重细胞图像的颜色直方图的特征数组fh;
颜色指纹获取模块,用于获取待查重细胞图像的颜色指纹cfp;
特征描述子计算模块,用于计算待查重细胞图像img的SIFT特征描述子desp;
相近图像搜索模块,用于当图像数据库database不为空时,在图像数据库database中搜索与待查细胞的od相近的细胞图像,这些图像构成图像集I1;否则执行图像信息保存模块的功能;
汉明距离计算模块,用于通过待查重细胞图像的指纹fp计算待查重细胞图像img与图像集I1中每张图像的指纹的汉明距离,若有与img的汉明距离小于阈值d的图像,则这些图像构成图片集I2并进入下一查重阶段,若无则执行图像信息保存模块的功能;
指纹范围匹配模块,用于如果图片集I2不为空,则将I2中颜色指纹范围在[cfp-ct,cfp+ct]的图像构成图片集I3,其中ct为预设常量;
色彩差异度计算模块,用于如果图片集I3不为空,则计算img与图片集I3中所有图像的色彩差异度,若有与img的色彩差异度小于阈值cd的图像,则该图像构成图像集I4进入下一阶段,若无则执行特征描述子匹配模块的功能;
特征描述子匹配模块,用于如果图像集I4不为空,则将待查重细胞图像img的SIFT特征描述子与图像集I4中每张图像的SIFT特征描述子进行匹配,大于阈值则为相似图像,将这些图像构成图像集I5
图像路径保存模块,用于如果图像集I5不为空,则说明待查重细胞图像img在图像数据库database中有和它相似的图像,这些图像即为图像集I5中的图像,将图像集I5中图像的路径和待查重细胞图像的路径以列表的形式保存到重复图像数据库re-database;
图像信息保存模块,用于将待查重细胞图像img的路径和获得的待查重细胞图像img的图像信息od、fp、cfp、fh以及desp保存到图像数据库database;
近邻匹配查重模块,用于若图像数据库database中有与待查重细胞图像img重复的图像,则提取这些重复图像的一维坐标zi和与之对应的全局图序号ni,zi和ni分别表示第i张重复细胞图像的一维坐标和第i张重复细胞图像的全局图序号,0<i<=n,n为重复细胞的个数;若在这些重复细胞图像对应的全局图中存在一维坐标的范围在[zi-2*a,zi+2*a]的细胞图像,其中a为常量,则从队列que弹出一张待查重细胞图像的路径后判断其对应的坐标是否在[z-2*a,z+2*a]的范围内,否则执行重复图像删除模块的功能;若在范围内,判断全局图序号为ni,坐标范围在[zi-2*a,zi+2*a]的细胞图像中是否存在其一维坐标和zi的差值的绝对值和该张待查重细胞图像一维坐标和z的差值的绝对值相等的细胞图像,其中0<i<=n,n为重复细胞的个数,否则执行重复图像删除模块的功能;若存在,将这些细胞的路径和该张待查重细胞的路径构成列表L,保存该张待查重细胞图像的路径到数据库database并标记为不可查状态,将L保存至重复数据库re-database,否则执行重复图像删除模块的功能;若队列que下一张细胞图像不在范围内执行重复图像删除模块的功能;
重复图像删除模块,用于提取重复图像数据库re-database的信息,发送给软件端并显示,可在界面中选择合适的图像,将列表内其他相似的图像的路径提取出来,在图像数据库database中查找并删掉。
进一步地,计算待查重细胞图像的指纹fp的一维近似表示od具体包括:
S5.1:将8*8的指纹fp分别点乘以opth和optv得到fph和fpv:
fph=fp*opth
fpv=fp*optv
其中optv是大小为8*8、奇数列为1和偶数列为0的数组,opth是大小为8*8、奇数行为1和偶数行为0的数组;
S5.2:将fpv按垂直方向求和,得到1*8的数组v;将fph按水平方向求和,得到8*1的数组h;
S5.3:分别将h和v乘以数组[1,0,-1,0,1,0,-1,0]并求和得到x和y;
S5.4:计算od:
od=drr(x,y)
drr为映射函数,将x和y从二维坐标映射到一维坐标;
获取待查重细胞图像的颜色直方图的特征数组fh具体包括:
S6.1:统计得到颜色直方图hist,大小为3*256;将颜色数值从1~256合并为0~4,即将1~64相加,同样操作64~128、128~192和192~256,得到大小为3*4的数组fla;将fla第1维展开,即大小从3*4变为1*12;
S6.2:对fla进行编码:
初始化数组cod1,当数组fla第i个元素的数值大于后一个元素的数值时,则将cod1i赋值为1,反之为0,其中i<12;当i=12时,则数组fla中最后一个元素的数值与第一个元素的数值比较;最后得到大小为1*12编码后的数组cod1;
初始化数组cod2,当数组fla第i个元素的数值为0时,将数组cod2的第i个元素值为1,反之为0,最后得到大小为1*12的数组cod2;
S6.3:连接cod1和cod2,组成大小为1*24的特征数组fh;
获取待查重细胞图像的颜色指纹cfp具体包括:
S7.1:将S6获得的fla的大小重塑为3*4,并按行求和,变为1*4,再将其重塑为2*2,对列求和得到新的fla数组,其大小为2*1,fla[1]是其第一个元素,fla[2]是其第2个元素;
S7.2:计算颜色指纹cfp:
cfp=e1/(∝+|fla[1]-fla[2|)
其中∝为常数。
进一步地,相近图像搜索模块生成图像集I1具体包括:
S9.1:在图像数据库database中通过od查找与指纹fp近似的其他图像的指纹:从数据库中提取一维近似表示在od附近的图像,即od在图4.2中外围n圈的图像,其中为n预设值,默认为1;
S9.2:将这些图像构成图像集I1
色彩差异度计算模块生成图像集I4具体包括:
S12.1:色彩差异度:计算图片集I3中每张图像的特征数组和待查重细胞图像img的特征数组fh的汉明距离,其中图片集I3中第i张图像和待查重细胞图像img的色彩差异度表示为d3i
S12.2:如果图片集I3中的图片对应的色彩差异度d3i小于阈值cd,则这些图像构成图像集I4并进入SIFT特征查重阶段;
特征描述子匹配模块生成图像集I5具体包括:
S13.1:计算图像集I4中每张图像的SIFT特征描述子,记为desp4,其中第i张图像的SIFT特征描述子表示为desp4i
S13.2:计算待查重细胞图像img与图像集I4中每张图像的的SIFT特征描述子的欧式距离,得到特征描述子距离数组disarr,图像集I4中第i张图像的SIFT特征描述子与待查重细胞图像img的SIFT特征描述子的特征距离表示为disarr[i]:
a、初始化距离数组disarr,大小为m*n,m为图像集I4的图像数目,n为待查重细胞图像img的SIFT特征描述子desp的特征个数;
b、从desp4中选取一个特征描述子desp4i,其中0<i<=m,m为集合中特征描述子的个数;
c、计算desp的第c个特征与desp4i所有特征的距离,选取最小的距离最为最佳匹配距离,并保存到disarr[i][c],其中0<c<=n,n为desp的特征个数;
d、重复执行步骤c,直至desp所有的特征都获得对应的特征距离;
e、重复执行步骤b~d,直至集和中所有的特征描述子都被计算;
S13.3:计算特征相似度s:
Figure BDA0003038571740000111
其中arr为disarr[i],0<i<=m,表示desp与desp4i的特征距离数组;a∈arr,a表示desp某个特征与desp4i的最佳匹配距离;该公式表示desp4i与desp的特征距离<=距离阈值dt的个数与总特征数n的比重;
S13.4:如果图片集I4中的图片对应的SIFT特征描述子和待查重细胞图像img的SIFT特征描述子之间的特征相似度s大于相似度阈值st,则说明该张图片与待查图片img是重复的;将这些图像构成图像集I5
与现有技术相比,本发明的有益效果至少包括:
1、本发明通过采用先进行形态匹配,再进行颜色匹配,最后进行特征匹配的流程查找与待查图像相似的图像,通过设定参数能够在准确性和速度之间取得平衡。
2、本发明采用hash指纹匹配作为查重的第一阶段,有效地降低查重的时间。
3、本发明提出快速查找hash指纹的方法——使用od快速查找,使用od数值近似的图像进行hash指纹匹配,能大幅缩短hash指纹匹配所需的时间。
4、在颜色匹配阶段采用颜色指纹能够减小颜色匹配的次数,降低匹配时间。
5、本发明使用颜色直方图的特征数组,能够减少计算量,并且对颜色变化不敏感,能够将色彩有差异,但为同一物体的图像检测出来。
6、特征匹配查找作为最后一层结构,能明显减少形态和颜色相似的图像,并且在做匹配时,简化计算相似度流程,降低该阶段的查重时间。
7、在查找到相似图像时,能够定位该待查重细胞图在之前视野下的坐标z,并将新视野下它周围一定区域内的图像判定为重复图像,该方法能够减少不必要的计算,提高运行效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统操作流程图;
图2为计算图像信息流程图;
图3为形态匹配流程图;
图4为颜色匹配流程图;
图5为特征匹配流程图;
图6为近邻匹配流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-6所示,本发明提供一种细胞图像查重方法,包括如下步骤:
S1:建立图像数据库database,用来保存图像路径、图像指纹fp、颜色指纹cfp、特征描述子desp;建立重复图像数据库re-database,用来保存重复的图像的路径;以下设置的所有阈值和常量在使用同一数据库database时均不变;初始化:设置阈值d、cd、dt,st,常量∝、n、ct、a。本实施例中:阈值d=12、cd=4、dt=200,st=0.6,常量∝=0.1、n=1、ct=1.5、a=2。
S2:从显微镜获取一张当前视野的全局图glo-gpi,glo-gpi表示第i张全局图;通过目标检测算法得到该视野下全部细胞,并将它们保存到图像文件夹f,图像命名包含一维坐标z的信息,其中z=x+y,坐标x和y由目标检测算法提供,同时用队列que保存图像的路径,入队顺序按z从小到大。
S3:从que弹出一张待查重细胞图像img的路径(以下待查重细胞图像简称待查图像),获得其坐标z;检查数据库database中是否存在img的路径,若存在则输入下一张。
S4:获取待查图像的指纹fp:将待查图像缩小到32*32的尺寸,并进行灰度化处理,随后对图像做离散余弦变换(DCT)得到disp,选取disp左上角8*8的区域,计算该区域的均值,将大于或等于平均值的数值计为1,小于平均值计为0,最终生成二进制数组作为待查图像的指纹fp。
S5:计算图像指纹fp的一维近似表示od:
S5.1:将8*8的指纹fp分别点乘以opth和optv得到fph和fpv:
fph=fp*opth
fpv=fp*optv
其中optv是大小为8*8、奇数列为1、偶数列为0的数组,opth是大小为8*8、奇数行为1、偶数行为0的数组。
S5.2:将fpv按垂直方向求和,得到1*8的数组v;将fph按水平方向求和,得到8*1的数组h;
S5.3:分别将h和v乘以数组[1,0,-1,0,1,0,-1,0]并求和得到x和y;
S5.4:计算od:
od=drr(x,y)
drr为映射函数,将x和y从二维坐标映射到一维坐标;drr的映射规则如表1(drr映射)所示。
表1
Figure BDA0003038571740000141
Figure BDA0003038571740000151
例如h原本大小是8*8,变为8*1之后,因为求和最大值为8,假设它为[8,0,0,0,8,0,0,0],乘以数组[1,0,-1,0,1,0,-1,0]并求和得到16,所以x属于[-16,16],y也同样。
drr映射只要是从左上角的(-16,16)到右下角的(16,-16)是连续的数值都可以,比如从1~1089是一种,2~1090也行。
S6:获取待查图像的颜色直方图的特征数组fh:
S6.1:统计得到颜色直方图hist,大小为3*256;将颜色数值从1~256合并为0~4,即将1~64相加,同样操作64~128、128~192和192~256,得到大小为3*4的数组fla;将fla第1维展开,即大小从3*4变为1*12;
S6.2:对fla进行编码:
初始化数组cod1,当数组fla第i个元素的数值大于后一个元素的数值时,则将cod1i赋值为1,反之为0,其中i<12;当i=12时,则数组fla中最后一个元素的数值与第一个元素的数值比较。最后得到大小为1*12编码后的数组cod1;
初始化数组cod2,当数组fla第i个元素的数值为0时,将数组cod2的第i个元素值为1,反之为0,最后得到大小为1*12的数组cod2;
S6.3:连接cod1和cod2,组成大小为1*24的特征数组fh。
S7:获取待查图像的颜色指纹cfp:
S7.1:将S6获得的fla的大小重塑为3*4,并按行求和,变为1*4,再将其重塑为2*2,对列求和得到新的fla数组,其大小为2*1,fla[1]是其第一个元素,fla[2]是其第2个元素;
S7.2:计算颜色指纹cfp:
cfp=e1/(∝+|fla[1]-fla[2|)
其中∝为常数。
S8:计算待查图像img的SIFT特征描述子desp。
S9:当数据库database不为空时,在数据库database中搜索与待查细胞的od相近的细胞图像,这些图像构成图像集I1,否则执行S15;
S9.1:在数据库database中通过od查找与指纹fp近似的其他图像的指纹:从数据库中提取一维近似表示在od附近的图像,即od在图4中外围n圈的图像(在计算od时,x和y是二维坐标,所以其相邻的还包括上下,哪怕降到一维,它原来在二维中的位置关系也不变,例如坐标(0,0),降到一维变为545,那原来的(0,1)在它上面其一维坐标是545-32=513,这个从数据库中提取的方法就是在一维坐标中我们只需要od加减1,od加减32的图像,这个就是提取外围一圈的),其中为n预设值,默认为1;
S9.2将这些图像构成图像集I1
S10:通过S4获得待查图像的指纹fp计算待查图像img与图像集I1中每张图像的指纹的汉明距离,若有与img的汉明距离小于阈值d的图像,则这些图像构成图片集I2并进入下一查重阶段,若无则执行S15。
S11:如果图片集I2不为空,则将I2中颜色指纹范围在[cfp-ct,cfp+ct]的图像构成图片集I3,其中ct为预设常量。
S12:如果图片集I3不为空,则计算img与图片集I3中所有图像的色彩差异度,若有与img的色彩差异度小于阈值cd的图像,则该图像进入下一阶段,若无则执行S13;
S12.1:色彩差异度:计算图片集I3中每张图像的特征数组和待查图像img的特征数组fh的汉明距离,其中图片集I3中第i张图像和待查图像img的色彩差异度表示为d3i
S12.2:如果图片集I3中的图片对应的色彩差异度d3i小于阈值cd,则这些图像构成图像集I4并进入SIFT特征查重阶段。
S13:如果图像集I4不为空,则将待查图像img的SIFT特征描述子与图像集I4中每张图像的SIFT特征描述子进行匹配,大于阈值则为相似图像;
S13.1:计算图像集I4中每张图像的SIFT特征描述子,记为desp4,其中第i张图像的SIFT特征描述子表示为desp4i
S13.2:计算待查图像img与图像集I4中每张图像的的SIFT特征描述子的欧式距离,得到特征描述子距离数组disarr,图像集I4中第i张图像的SIFT特征描述子与待查图像img的SIFT特征描述子的特征距离表示为disarr[i]:
a、初始化距离数组disarr,大小为m*n,m为图像集I4的图像数目,n为待查重细胞图像img的SIFT特征描述子desp的特征个数;
b、从desp4中选取一个特征描述子desp4i,其中0<i<=m,m为集合中特征描述子的个数;
c、计算desp的第c个特征与desp4i所有特征的距离,选取最小的距离最为最佳匹配距离,并保存到disarr[i][c],其中0<c<=n,n为desp的特征个数;
d、重复执行步骤c,直至desp所有的特征都获得对应的特征距离;
e、重复执行步骤b~d,直至集和中所有的特征描述子都被计算;
S13.3:计算特征相似度s:
Figure BDA0003038571740000171
其中arr为disarr[i],0<i<=m,表示desp与desp4i的特征距离数组。a∈arr,a表示desp某个特征与desp4i的最佳匹配距离。该公式表示desp4i与desp的特征距离<=距离阈值dt的个数与总特征数n的比重;
S13.4:如果图片集I4中的图片对应的SIFT特征描述子和待查图像img的SIFT特征描述子之间的特征相似度s大于相似度阈值st,则说明该张图片与待查图片img是重复的。将这些图像构成图像集I5
S14:如果图像集I5不为空,则说明待查图像img在数据库database中有和它相似的图像,这些图像即为图像集I5中的图像,将图像集I5中图像的路径和待查图像的路径以列表的形式保存到重复图像数据库re-database。
S15:将待查图像img的路径和S4-S8获得的待查图像img的图像信息od、fp、cfp、fh以及desp保存到图像数据库database。
S16:若图像数据库database中有与待查重细胞图像img重复的图像,则提取这些重复图像的一维坐标zi和与之对应的全局图序号ni,zi和ni分别表示第i张重复细胞图像的一维坐标和第i张重复细胞图像的全局图序号,0<i<=n,n为重复细胞的个数;若在这些重复细胞图像对应的全局图中存在一维坐标的范围在[zi-2*a,zi+2*a]的细胞图像,其中a为常量,则从队列que弹出一张待查重细胞图像的路径后判断其对应的坐标是否在[z-2*a,z+2*a]的范围内,否则执行下一步;若在范围内,判断全局图序号为ni,坐标范围在[zi-2*a,zi+2*a]的细胞图像中是否存在其一维坐标和zi的差值的绝对值和该张待查重细胞图像一维坐标和z的差值的绝对值相等的细胞图像,其中0<i<=n,n为重复细胞的个数,否则执行下一步;若存在,将这些细胞的路径和该张待查重细胞的路径构成列表L,保存该张待查重细胞图像的路径到数据库database并标记为不可查状态,将L保存至重复数据库re-database,否则执行下一步;若队列que下一张细胞图像不在范围内执行下一步;
S17:提取重复图像数据库re-database的信息,发送给软件端并显示,可在界面中选择合适的图像,将列表内其他相似的图像的路径提取出来,在数据库database中查找并删掉。
S18:重复执行S3~S17,直至该张全局图中所有图像都被载入数据库。
S19:重复执行S2~S18,直至数据库中不重复的图像达到预定数量。
表2为输入500张图片的运行结果:
表2
Figure BDA0003038571740000191
从表2可以看出,仅在第一层指纹算法处使用od来查找指纹能将时间缩短一半,而第二层颜色指纹的cfp快速查找算法也能将时间缩短1/5。两种算法同时使用时,时间虽然比单独使用od查找要长1.3秒,这是cfp算法带来的额外计算导致的,当查找的图像增加时,这部分的额外计算所占用的时间最终会被其他计算带来的时间增长所覆盖,即最终运行时间会比仅仅使用od查找短。
实施例2
本发明提供一种细胞图像查重系统,包括:
数据库建立模块,用于建立图像数据库database,用来保存图像路径、图像指纹fp、颜色指纹cfp和特征描述子desp;建立重复图像数据库re-database,用来保存重复的图像的路径;
待查图像获取模块,用于从显微镜获取一张当前视野的全局图glo-gpi,glo-gpi表示第i张全局图;通过目标检测算法得到该视野下全部细胞,并将它们保存到图像文件夹f,图像命名包含一维坐标z的信息,其中z=x+y,坐标x和y由目标检测算法提供,同时用队列que保存图像的路径,入队顺序按z从小到大;
待查图像路径检查模块,用于从队列que弹出一张待查重细胞图像img的路径,获得其坐标z;检查图像数据库database中是否存在img的路径,若存在则输入下一张;
待查图像指纹获取模块,用于获取待查重细胞图像的指纹fp:将待查重细胞图像缩小到32*32的尺寸,并进行灰度化处理,随后对图像做离散余弦变换得到disp,选取disp左上角8*8的区域,计算该区域的均值,将大于或等于平均值的数值计为1,小于平均值计为0,最终生成二进制数组作为待查重细胞图像的指纹fp;
一维近似表示计算模块,用于计算待查重细胞图像的指纹fp的一维近似表示od;
特征数组获取模块,用于获取待查重细胞图像的颜色直方图的特征数组fh;
颜色指纹获取模块,用于获取待查重细胞图像的颜色指纹cfp;
特征描述子计算模块,用于计算待查重细胞图像img的SIFT特征描述子desp;
相近图像搜索模块,用于当图像数据库database不为空时,在图像数据库database中搜索与待查细胞的od相近的细胞图像,这些图像构成图像集I1;否则执行图像信息保存模块的功能;
汉明距离计算模块,用于通过待查重细胞图像的指纹fp计算待查重细胞图像img与图像集I1中每张图像的指纹的汉明距离,若有与img的汉明距离小于阈值d的图像,则这些图像构成图片集I2并进入下一查重阶段,若无则执行图像信息保存模块的功能;
指纹范围匹配模块,用于如果图片集I2不为空,则将I2中颜色指纹范围在[cfp-ct,cfp+ct]的图像构成图片集I3,其中ct为预设常量;
色彩差异度计算模块,用于如果图片集I3不为空,则计算img与图片集I3中所有图像的色彩差异度,若有与img的色彩差异度小于阈值cd的图像,则该图像构成图像集I4进入下一阶段,若无则执行特征描述子匹配模块的功能;
特征描述子匹配模块,用于如果图像集I4不为空,则将待查重细胞图像img的SIFT特征描述子与图像集I4中每张图像的SIFT特征描述子进行匹配,大于阈值则为相似图像,将这些图像构成图像集I5
图像路径保存模块,用于如果图像集I5不为空,则说明待查重细胞图像img在图像数据库database中有和它相似的图像,这些图像即为图像集I5中的图像,将图像集I5中图像的路径和待查重细胞图像的路径以列表的形式保存到重复图像数据库re-database;
图像信息保存模块,用于将待查重细胞图像img的路径和获得的待查重细胞图像img的图像信息od、fp、cfp、fh以及desp保存到图像数据库database;
近邻匹配查重模块,用于若图像数据库database中有与待查重细胞图像img重复的图像,则提取这些重复图像的一维坐标zi和与之对应的全局图序号ni,zi和ni分别表示第i张重复细胞图像的一维坐标和第i张重复细胞图像的全局图序号,0<i<=n,n为重复细胞的个数;若在这些重复细胞图像对应的全局图中存在一维坐标的范围在[zi-2*a,zi+2*a]的细胞图像,其中a为常量,则从队列que弹出一张待查重细胞图像的路径后判断其对应的坐标是否在[z-2*a,z+2*a]的范围内,否则执行重复图像删除模块的功能;若在范围内,判断全局图序号为ni,坐标范围在[zi-2*a,zi+2*a]的细胞图像中是否存在其一维坐标和zi的差值的绝对值和该张待查重细胞图像一维坐标和z的差值的绝对值相等的细胞图像,其中0<i<=n,n为重复细胞的个数,否则执行重复图像删除模块的功能;若存在,将这些细胞的路径和该张待查重细胞的路径构成列表L,保存该张待查重细胞图像的路径到数据库database并标记为不可查状态,将L保存至重复数据库re-database,否则执行重复图像删除模块的功能;若队列que下一张细胞图像不在范围内执行重复图像删除模块的功能;
重复图像删除模块,用于提取重复图像数据库re-database的信息,发送给软件端并显示,可在界面中选择合适的图像,将列表内其他相似的图像的路径提取出来,在图像数据库database中查找并删掉。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种细胞图像查重方法,其特征在于,包括如下步骤:
S1:建立图像数据库database,用来保存图像路径、图像指纹fp、颜色指纹cfp和特征描述子desp;建立重复图像数据库re-database,用来保存重复的图像的路径;
S2:从显微镜获取一张当前视野的全局图glo-gPi,glo-gPi表示第i张全局图;通过目标检测算法得到该视野下全部细胞,并将它们保存到图像文件夹f,图像命名包含一维坐标z的信息,其中z=x+y,坐标x和y由目标检测算法提供,同时用队列que保存图像的路径,入队顺序按z从小到大;
S3:从队列que弹出一张待查重细胞图像img的路径,获得其坐标z;检查图像数据库database中是否存在img的路径,若存在则输入下一张;
S4:获取待查重细胞图像的指纹fp:将待查重细胞图像缩小到32*32的尺寸,并进行灰度化处理,随后对图像做离散余弦变换得到disp,选取disp左上角8*8的区域,计算该区域的均值,将大于或等于平均值的数值计为1,小于平均值计为0,最终生成二进制数组作为待查重细胞图像的指纹fp;
S5:计算待查重细胞图像的指纹fp的一维近似表示od;
S6:获取待查重细胞图像的颜色直方图的特征数组fh;
S7:获取待查重细胞图像的颜色指纹cfp;
S8:计算待查重细胞图像img的SIFT特征描述子desp;
S9:当图像数据库database不为空时,在图像数据库database中搜索与待查细胞的od相近的细胞图像,这些图像构成图像集I1,否则执行S15;
Sl0:通过S4获得待查重细胞图像的指纹fp计算待查重细胞图像img与图像集I1中每张图像的指纹的汉明距离,若有与img的汉明距离小于阈值d的图像,则这些图像构成图片集I2并进入下一查重阶段,若无则执行S15;
S11:如果图片集I2不为空,则将I2中颜色指纹范围在[cfp-ct,cfp+ct]的图像构成图片集I3,其中ct为预设常量;
S12:如果图片集I3不为空,则计算img与图片集I3中所有图像的色彩差异度,若有与img的色彩差异度小于阈值cd的图像,则该图像构成图像集I4进入下一阶段,若无则执行S13;
S13:如果图像集I4不为空,则将待查重细胞图像img的SIFT特征描述子与图像集I4中每张图像的SIFT特征描述子进行匹配,大于阈值则为相似图像,将这些图像构成图像集I5
S14:如果图像集I5不为空,则说明待查重细胞图像img在图像数据库database中有和它相似的图像,这些图像即为图像集I5中的图像,将图像集I5中图像的路径和待查重细胞图像的路径以列表的形式保存到重复图像数据库re-database;
S15:将待查重细胞图像img的路径和S4-S8获得的待查重细胞图像img的图像信息od、fp、cfp、fh以及desp保存到图像数据库database;
S16:若图像数据库database中有与待查重细胞图像img重复的图像,则提取这些重复图像的一维坐标zi和与之对应的全局图序号ni,zi和ni分别表示第i张重复细胞图像的一维坐标和第i张重复细胞图像的全局图序号,0<i<=n,n为重复细胞的个数;若在这些重复细胞图像对应的全局图中存在一维坐标的范围在[zi-2*a,zi+2*a]的细胞图像,其中a为常量,则从队列que弹出一张待查重细胞图像的路径后判断其对应的坐标是否在[z-2*a,z+2*a]的范围内,否则执行下一步;若在范围内,判断全局图序号为ni,坐标范围在[zi-2*a,zi+2*a]的细胞图像中是否存在其一维坐标和zi的差值的绝对值和该张待查重细胞图像一维坐标和z的差值的绝对值相等的细胞图像,其中0<i<=n,n为重复细胞的个数,否则执行下一步;若存在,将这些细胞的路径和该张待查重细胞的路径构成列表L,保存该张待查重细胞图像的路径到数据库database并标记为不可查状态,将L保存至重复数据库re-database,否则执行下一步;若队列que下一张细胞图像不在范围内执行下一步;
S17:提取重复图像数据库re-database的信息,发送给软件端并显示,可在界面中选择合适的图像,将列表内其他相似的图像的路径提取出来,在图像数据库database中查找并删掉;
S18:重复执行S3~S17,直至该张全局图中所有图像都被载入数据库;
S19:重复执行S2~S18,直至数据库中不重复的图像达到预定数量。
2.根据权利要求1所述的细胞图像查重方法,其特征在于,步骤S5具体包括:
S5.1:将8*8的指纹fp分别点乘以opth和optv得到fph和fpv:
fph=fp*opth
fpv=fp*optv
其中optv是大小为8*8、奇数列为1和偶数列为0的数组,opth是大小为8*8、奇数行为1和偶数行为0的数组;
S5.2:将fpv按垂直方向求和,得到1*8的数组v;将fph按水平方向求和,得到8*1的数组h;
S5.3:分别将h和v乘以数组[1,0,-1,0,1,0,-1,0]并求和得到x和y;
S5.4:计算od:
od=drr(x,y)
drr为映射函数,将x和y从二维坐标映射到一维坐标。
3.根据权利要求1所述的细胞图像查重方法,其特征在于,步骤S6具体包括:
S6.1:统计得到颜色直方图hist,大小为3*256;将颜色数值从1~256合并为0~4,即将1~64相加,同样操作64~128、128~192和192~256,得到大小为3*4的数组fla;将fla第1维展开,即大小从3*4变为1*12;
S6.2:对fla进行编码:
初始化数组cod1,当数组fla第i个元素的数值大于后一个元素的数值时,则将cod1i赋值为1,反之为0,其中i<12;当i=12时,则数组fla中最后一个元素的数值与第一个元素的数值比较;最后得到大小为1*12编码后的数组cod1;
初始化数组cod2,当数组fla第i个元素的数值为0时,将数组cod2的第i个元素值为1,反之为0,最后得到大小为1*12的数组cod2;
S6.3:连接cod1和cod2,组成大小为1*24的特征数组fh。
4.根据权利要求1所述的细胞图像查重方法,其特征在于,步骤S7具体包括:
S7.1:将s6获得的fla的大小重塑为3*4,并按行求和,变为1*4,再将其重塑为2*2,对列求和得到新的fla数组,其大小为2*1,fla[1]是其第一个元素,fla[2]是其第2个元素;
S7.2:计算颜色指纹cfp:
cfp=e1/(∝+|fla[1]-fla[2|)
其中∝为常数。
5.根据权利要求1所述的细胞图像查重方法,其特征在于,步骤S9具体包括:
S9.1:在图像数据库database中通过od查找与指纹fp近似的其他图像的指纹:从数据库中提取一维近似表示在od附近的图像,即od在图4.2中外围n圈的图像,其中为n预设值,默认为1;
S9.2:将这些图像构成图像集I1
6.根据权利要求1所述的细胞图像查重方法,其特征在于,步骤S12具体包括:
S12.1:色彩差异度:计算图片集I3中每张图像的特征数组和待查重细胞图像img的特征数组fh的汉明距离,其中图片集I3中第i张图像和待查重细胞图像img的色彩差异度表示为d3i
S12.2:如果图片集I3中的图片对应的色彩差异度d3i小于阈值cd,则这些图像构成图像集I4并进入SIFT特征查重阶段。
7.根据权利要求1所述的细胞图像查重方法,其特征在于,步骤S13具体包括:
S13.1:计算图像集I4中每张图像的SIFT特征描述子,记为desp4,其中第i张图像的SIFT特征描述子表示为desp4i
S13.2:计算待查重细胞图像img与图像集I4中每张图像的的SIFT特征描述子的欧式距离,得到特征描述子距离数组disarr,图像集I4中第i张图像的SIFT特征描述子与待查重细胞图像img的SIFT特征描述子的特征距离表示为disarr[i]:
a、初始化距离数组disarr,大小为m*n,m为图像集I4的图像数目,n为待查重细胞图像img的SIFT特征描述子desp的特征个数;
b、从desp4中选取一个特征描述子desp4i,其中0<i<=m,m为集合中特征描述子的个数;
c、计算desp的第c个特征与desp4i所有特征的距离,选取最小的距离最为最佳匹配距离,并保存到disarr[i][c],其中0<c<=n,n为desp的特征个数;
d、重复执行步骤c,直至desp所有的特征都获得对应的特征距离;
e、重复执行步骤b~d,直至集和中所有的特征描述子都被计算;
S13.3:计算特征相似度s:
Figure FDA0003038571730000061
其中arr为disarr[i],0<i<=m,表示desp与desp4i的特征距离数组;a∈arr,a表示desp某个特征与desp4i的最佳匹配距离;该公式表示desp4i与desp的特征距离<=距离阈值dt的个数与总特征数n的比重;
S13.4:如果图片集I4中的图片对应的SIFT特征描述子和待查重细胞图像img的SIFT特征描述子之间的特征相似度s大于相似度阈值st,则说明该张图片与待查图片img是重复的;将这些图像构成图像集I5
8.一种细胞图像查重系统,其特征在于,包括:
数据库建立模块,用于建立图像数据库database,用来保存图像路径、图像指纹fp、颜色指纹cfp和特征描述子desp;建立重复图像数据库re-database,用来保存重复的图像的路径;
待查图像获取模块,用于从显微镜获取一张当前视野的全局图glo-gpi,glo-gpi表示第i张全局图;通过目标检测算法得到该视野下全部细胞,并将它们保存到图像文件夹f,图像命名包含一维坐标z的信息,其中z=x+y,坐标x和y由目标检测算法提供,同时用队列que保存图像的路径,入队顺序按z从小到大;
待查图像路径检查模块,用于从队列que弹出一张待查重细胞图像img的路径,获得其坐标z;检查图像数据库database中是否存在img的路径,若存在则输入下一张;
待查图像指纹获取模块,用于获取待查重细胞图像的指纹fp:将待查重细胞图像缩小到32*32的尺寸,并进行灰度化处理,随后对图像做离散余弦变换得到disp,选取disp左上角8*8的区域,计算该区域的均值,将大于或等于平均值的数值计为1,小于平均值计为0,最终生成二进制数组作为待查重细胞图像的指纹fp;
一维近似表示计算模块,用于计算待查重细胞图像的指纹fp的一维近似表示0d;
特征数组获取模块,用于获取待查重细胞图像的颜色直方图的特征数组fh;
颜色指纹获取模块,用于获取待查重细胞图像的颜色指纹cfp;
特征描述子计算模块,用于计算待查重细胞图像img的SIFT特征描述子desp;
相近图像搜索模块,用于当图像数据库database不为空时,在图像数据库database中搜索与待查细胞的od相近的细胞图像,这些图像构成图像集I1;否则执行图像信息保存模块的功能;
汉明距离计算模块,用于通过待查重细胞图像的指纹fp计算待查重细胞图像img与图像集I1中每张图像的指纹的汉明距离,若有与img的汉明距离小于阈值d的图像,则这些图像构成图片集I2并进入下一查重阶段,若无则执行图像信息保存模块的功能;
指纹范围匹配模块,用于如果图片集I2不为空,则将I2中颜色指纹范围在[cfp-ct,cfp+ct]的图像构成图片集I3,其中ct为预设常量;
色彩差异度计算模块,用于如果图片集I3不为空,则计算img与图片集I3中所有图像的色彩差异度,若有与img的色彩差异度小于阈值cd的图像,则该图像构成图像集I4进入下一阶段,若无则执行特征描述子匹配模块的功能;
特征描述子匹配模块,用于如果图像集I4不为空,则将待查重细胞图像img的SIFT特征描述子与图像集I4中每张图像的SIFT特征描述子进行匹配,大于阈值则为相似图像,将这些图像构成图像集I5
图像路径保存模块,用于如果图像集I5不为空,则说明待查重细胞图像img在图像数据库database中有和它相似的图像,这些图像即为图像集I5中的图像,将图像集I5中图像的路径和待查重细胞图像的路径以列表的形式保存到重复图像数据库re-database;
图像信息保存模块,用于将待查重细胞图像img的路径和获得的待查重细胞图像img的图像信息od、fp、cfp、fh以及desp保存到图像数据库database;
近邻匹配查重模块,用于若图像数据库database中有与待查重细胞图像img重复的图像,则提取这些重复图像的一维坐标zi和与之对应的全局图序号ni,zi和ni分别表示第i张重复细胞图像的一维坐标和第i张重复细胞图像的全局图序号,0<i<=n,n为重复细胞的个数;若在这些重复细胞图像对应的全局图中存在一维坐标的范围在[zi-2*a,zi+2*a]的细胞图像,其中a为常量,则从队列que弹出一张待查重细胞图像的路径后判断其对应的坐标是否在[z-2*a,z+2*a]的范围内,否则执行重复图像删除模块的功能;若在范围内,判断全局图序号为ni,坐标范围在[zi-2*a,zi+2*a]的细胞图像中是否存在其一维坐标和zi的差值的绝对值和该张待查重细胞图像一维坐标和z的差值的绝对值相等的细胞图像,其中0<i<=n,n为重复细胞的个数,否则执行重复图像删除模块的功能;若存在,将这些细胞的路径和该张待查重细胞的路径构成列表L,保存该张待查重细胞图像的路径到数据库database并标记为不可查状态,将L保存至重复数据库re-database,否则执行重复图像删除模块的功能;若队列que下一张细胞图像不在范围内执行重复图像删除模块的功能;
重复图像删除模块,用于提取重复图像数据库re-database的信息,发送给软件端并显示,可在界面中选择合适的图像,将列表内其他相似的图像的路径提取出来,在图像数据库database中查找并删掉。
9.根据权利要求8所述的细胞图像查重系统,其特征在于,计算待查重细胞图像的指纹fp的一维近似表示od具体包括:
S5.1:将8*8的指纹fp分别点乘以opth和optv得到fph和fpv:
fph=fp*opth
fpv=fp*optv
其中optv是大小为8*8、奇数列为1和偶数列为0的数组,opth是大小为8*8、奇数行为1和偶数行为0的数组;
S5.2:将fpv按垂直方向求和,得到1*8的数组v;将fph按水平方向求和,得到8*1的数组h;
S5.3:分别将h和v乘以数组[1,0,-1,0,1,0,-1,0]并求和得到x和y;
S5.4:计算od:
od=drr(x,y)
drr为映射函数,将x和y从二维坐标映射到一维坐标;
获取待查重细胞图像的颜色直方图的特征数组fh具体包括:
S6.1:统计得到颜色直方图hist,大小为3*256;将颜色数值从1~256合并为0~4,即将1~64相加,同样操作64~128、128~192和192~256,得到大小为3*4的数组fla;将fla第1维展开,即大小从3*4变为1*12;
S6.2:对fla进行编码:
初始化数组cod1,当数组fla第i个元素的数值大于后一个元素的数值时,则将cod1i赋值为1,反之为0,其中i<12;当i=12时,则数组fla中最后一个元素的数值与第一个元素的数值比较;最后得到大小为1*12编码后的数组cod1;
初始化数组cod2,当数组fla第i个元素的数值为0时,将数组cod2的第i个元素值为1,反之为0,最后得到大小为1*12的数组cod2;
S6.3:连接cod1和cod2,组成大小为1*24的特征数组fh;
获取待查重细胞图像的颜色指纹cfp具体包括:
S7.1:将S6获得的fla的大小重塑为3*4,并按行求和,变为1*4,再将其重塑为2*2,对列求和得到新的fla数组,其大小为2*1,fla[1]是其第一个元素,fla[2]是其第2个元素;
S7.2:计算颜色指纹cfp:
cfp=e1/(∝+|fla[1]-fla[2|)
其中∝为常数。
10.根据权利要求8所述的细胞图像查重系统,其特征在于,相近图像搜索模块生成图像集I1具体包括:
S9.1:在图像数据库database中通过od查找与指纹fp近似的其他图像的指纹:从数据库中提取一维近似表示在od附近的图像,即od在图4.2中外围n圈的图像,其中为n预设值,默认为1;
S9.2:将这些图像构成图像集I1
色彩差异度计算模块生成图像集I4具体包括:
S12.1:色彩差异度:计算图片集I3中每张图像的特征数组和待查重细胞图像img的特征数组fh的汉明距离,其中图片集I3中第i张图像和待查重细胞图像img的色彩差异度表示为d3i
S12.2:如果图片集I3中的图片对应的色彩差异度d3i小于阈值cd,则这些图像构成图像集I4并进入SIFT特征查重阶段;
特征描述子匹配模块生成图像集I5具体包括:
S13.1:计算图像集I4中每张图像的SIFT特征描述子,记为desp4,其中第i张图像的SIFT特征描述子表示为desp4i
S13.2:计算待查重细胞图像img与图像集I4中每张图像的的SIFT特征描述子的欧式距离,得到特征描述子距离数组disarr,图像集I4中第i张图像的SIFT特征描述子与待查重细胞图像img的SIFT特征描述子的特征距离表示为disarr[i]:
a、初始化距离数组disarr,大小为m*n,m为图像集I4的图像数目,n为待查重细胞图像img的SIFT特征描述子desp的特征个数;
b、从desp4中选取一个特征描述子desp4i,其中0<i<=m,m为集合中特征描述子的个数;
c、计算desp的第c个特征与desp4i所有特征的距离,选取最小的距离最为最佳匹配距离,并保存到disarr[i][c],其中0<c<=n,n为desp的特征个数;
d、重复执行步骤c,直至desp所有的特征都获得对应的特征距离;
e、重复执行步骤b~d,直至集和中所有的特征描述子都被计算;
S13.3:计算特征相似度s:
Figure FDA0003038571730000111
其中arr为disarr[i],0<i<=m,表示desp与desp4i的特征距离数组;a∈arr,a表示desp某个特征与desp4i的最佳匹配距离;该公式表示desp4i与desp的特征距离<=距离阈值dt的个数与总特征数n的比重;
S13.4:如果图片集I4中的图片对应的SIFT特征描述子和待查重细胞图像img的SIFT特征描述子之间的特征相似度s大于相似度阈值st,则说明该张图片与待查图片img是重复的;将这些图像构成图像集I5
CN202110450762.1A 2021-04-26 2021-04-26 一种细胞图像查重方法和系统 Active CN113220925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110450762.1A CN113220925B (zh) 2021-04-26 2021-04-26 一种细胞图像查重方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110450762.1A CN113220925B (zh) 2021-04-26 2021-04-26 一种细胞图像查重方法和系统

Publications (2)

Publication Number Publication Date
CN113220925A true CN113220925A (zh) 2021-08-06
CN113220925B CN113220925B (zh) 2022-04-12

Family

ID=77089031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110450762.1A Active CN113220925B (zh) 2021-04-26 2021-04-26 一种细胞图像查重方法和系统

Country Status (1)

Country Link
CN (1) CN113220925B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6300108B1 (en) * 1999-07-21 2001-10-09 The Regents Of The University Of California Controlled electroporation and mass transfer across cell membranes
US20050272055A1 (en) * 2000-02-01 2005-12-08 Rina Das Method of treating lethal shock induced by toxic agents and diagnosing exposure to toxic agents by measuring distinct pattern in the levels of expression of specific genes
US20060184038A1 (en) * 2004-11-30 2006-08-17 Affymetrix, Inc. System, method, and product for analyzing images comprising small feature sizes
US20080228410A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Genetic attribute analysis
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法
CN110188217A (zh) * 2019-05-29 2019-08-30 京东方科技集团股份有限公司 图像查重方法、装置、设备和计算机可读储存介质
CN111325103A (zh) * 2020-01-21 2020-06-23 华南师范大学 一种细胞标注系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6300108B1 (en) * 1999-07-21 2001-10-09 The Regents Of The University Of California Controlled electroporation and mass transfer across cell membranes
US20050272055A1 (en) * 2000-02-01 2005-12-08 Rina Das Method of treating lethal shock induced by toxic agents and diagnosing exposure to toxic agents by measuring distinct pattern in the levels of expression of specific genes
US20060184038A1 (en) * 2004-11-30 2006-08-17 Affymetrix, Inc. System, method, and product for analyzing images comprising small feature sizes
US20080228410A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Genetic attribute analysis
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法
CN110188217A (zh) * 2019-05-29 2019-08-30 京东方科技集团股份有限公司 图像查重方法、装置、设备和计算机可读储存介质
CN111325103A (zh) * 2020-01-21 2020-06-23 华南师范大学 一种细胞标注系统和方法

Also Published As

Publication number Publication date
CN113220925B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Saavedra et al. Sketch based Image Retrieval using Learned KeyShapes (LKS).
CN110298383B (zh) 基于多模态深度学习的病理分类方法及系统
CN110276408B (zh) 3d图像的分类方法、装置、设备及存储介质
CN110838125A (zh) 医学图像的目标检测方法、装置、设备、存储介质
CN111242122A (zh) 一种轻量级深度神经网络旋转目标检测方法和系统
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN111400528A (zh) 一种图像压缩方法、装置、服务器及存储介质
CN111415373A (zh) 基于孪生卷积网络的目标跟踪与分割方法、系统及介质
CN109840529B (zh) 一种基于局部敏感置信度评估的图像匹配方法
CN111126296A (zh) 水果定位方法及装置
CN107526772A (zh) Spark平台下基于SURF‑BIT算法的图像检索系统
CN109766924A (zh) 基于图像信息熵与自适应阈值daisy特征点的图像检测方法
Park et al. Patch-based fake fingerprint detection using a fully convolutional neural network with a small number of parameters and an optimal threshold
CN113220925B (zh) 一种细胞图像查重方法和系统
Arjun et al. An efficient image retrieval system based on multi-scale shape features
US20030108242A1 (en) Method and apparatus for processing data
Di Ruberto Generalized hough transform for shape matching
CN116012393A (zh) 一种纸箱点云分割方法、装置以及处理设备
CN116403010A (zh) 一种基于fast算法的医学图像匹配方法
Rao et al. Hybrid Technology for Multilevel Feature Extraction in CBMIR
CN114331942A (zh) 多期医学图像的处理方法、系统、计算机存储介质及设备
CN111931791B (zh) 一种实现图像翻转不变性的方法
Tang et al. Automatic segmentation algorithm for breast cell image based on multi-scale CNN and CSS corner detection
Dong et al. Noise-robust SLIC superpixel for natural images
Dixit et al. Forgery detection in medical images with distinguished recognition of original and tampered regions using density-based clustering technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant