CN115274093B - 生成包含自动标注文件的基准病理数据集的方法及系统 - Google Patents

生成包含自动标注文件的基准病理数据集的方法及系统 Download PDF

Info

Publication number
CN115274093B
CN115274093B CN202210882919.2A CN202210882919A CN115274093B CN 115274093 B CN115274093 B CN 115274093B CN 202210882919 A CN202210882919 A CN 202210882919A CN 115274093 B CN115274093 B CN 115274093B
Authority
CN
China
Prior art keywords
image
pathology
data set
target image
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210882919.2A
Other languages
English (en)
Other versions
CN115274093A (zh
Inventor
李庆利
李逸殊
林凡力
胡雨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202210882919.2A priority Critical patent/CN115274093B/zh
Publication of CN115274093A publication Critical patent/CN115274093A/zh
Application granted granted Critical
Publication of CN115274093B publication Critical patent/CN115274093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Radiology & Medical Imaging (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了生成包含自动标注文件的基准病理数据集的方法及系统,包括以下步骤:获取病理图像,其中所述病理图像包括:目标图像和高光谱图像;对所述高光谱图像提取伪彩图;对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;对所述目标图像和所述伪彩图进行聚类,基于聚类结果对所述目标图像和所述伪彩图进行染色归一化处理,得到病理数据集的图像部分;基于所述标签部分和所述图像部分,得到病理数据集。通过以上技术方案,本发明能够生成了包含自动标注文件的基准病理数据集,缓解了计算机辅助诊断方面研究数据集紧缺的情况。

Description

生成包含自动标注文件的基准病理数据集的方法及系统
技术领域
本发明属于医学肿瘤识别领域,特别是涉及生成包含自动标注文件的基准病理数据集的方法及系统。
背景技术
在人工智能(AI)的大趋势下,实现人工智能与数字病理学的结合可能是该领域的趋势。对于病理学家来说,许多癌症的检测和分析越来越依赖于数字病理学,越来越多的深度学习模型被提出,用来评估和预测肿瘤。然而,这些智能算法都需要大量的带有标注的高质量数据集。
目前数据集都需要专业人员手工标注,成本高,准确率低,可获取量很少,识别分析结果的准确率和算法鲁棒性不足以满足实际应用中计算机辅助病理诊断的要求。虽然已有学者意识到了带有标注信息数据集地重要性,一些数据集也被制作出来。但是,所有这些已经得到的数据集仍然需要专业人员手工进行标注,即使是专业病理医生,也容易遗漏小区域的肿瘤,收集带有大量注释信息的数据集来训练深度学习模型变得不切实际。
发明内容
本发明的目的是提供一种生成包含自动标注文件的基准病理数据集的方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种生成包含自动标注文件的基准病理数据集的方法,包括以下步骤:
获取病理图像,其中所述病理图像包括:目标图像和高光谱图像;对所述高光谱图像提取伪彩图;
对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;
对所述目标图像和所述伪彩图进行聚类,基于所述聚类结果对所述目标图像和所述伪彩图进行染色归一化处理,得到病理数据集的图像部分;基于所述标签部分和所述图像部分,得到病理数据集。
优先地,得到病理数据集的标签部分的过程包括:
通过病理识别模型对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分。
优先地,对所述高光谱图像中的像素进行识别标注之前还包括:
提取所述高光谱图像的特征像素,基于所述特征像素的通道值及标签构建病理识别模型,通过决策树算法对所述病理识别模型进行训练,直到输出的误差减小到期望值,得到训练好的病理识别模型,通过训练好的病理识别模型对所述高光谱图像中的像素进行识别标注。
优先地,对所述目标图像和所述伪彩图进行聚类的过程包括:
基于所述目标图像和所述伪彩图中的像素值,对所述目标图像和所述伪彩图分别进行聚类,得到聚类结果。
优先地,得到病理数据集的图像部分的过程包括:
基于所述聚类结果,分别计算第一亮度值和第二亮度值,将所述第一亮度值和所述第二亮度值进行比较,若所述第一亮度值小于所述第二亮度值,则将所述伪彩图中像素点的红绿蓝三通道的值替换成所述目标图像中像素点的红绿蓝三通道的值;否则不替换;基于比较结果得到病理数据集的图像部分;
其中所述第一亮度值为所述伪彩图中像素点的亮度值,所述第二亮度值为所述目标图像中像素点亮度值。
另一方面,为了实现上述技术目的,本发明提供了一种生成包含自动标注文件的基准病理数据集的系统,包括:病理图像获取模块、数据集标签获取模块及数据集图像获取模块;
所述病理图像获取模块,用于获取病理图像,其中所述病理图像包括:目标图像和高光谱图像;对所述高光谱图像提取伪彩图;
所述数据集标签获取模块,用于对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;
所述数据集图像获取模块,用于对所述目标图像和所述伪彩图进行聚类,基于所述聚类结果对所述目标图像和所述伪彩图进行染色归一化处理,得到病理数据集的图像部分。
优选地,所述数据集标签获取模块包括模型构建单元;
所述模型构建单元,用于提取所述高光谱图像的特征像素,基于所述特征像素的通道值及标签构建病理识别模型,通过决策树算法对所述病理识别模型进行训练,直到输出的误差减小到期望值,得到训练好的病理识别模型。
优选地,所述数据集标签获取模块还包括标签获取单元;
所述标签获取单元,用于通过所述训练好的病理识别模型对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分。
优选地,所述数据集图像获取模块包括图像处理单元;
所述图像处理单元,基于所述目标图像和所述伪彩图中的像素值,对所述目标图像和所述伪彩图分别进行聚类,得到聚类结果。
优选地,所述数据集图像获取模块还包括亮度值比较单元;
所述亮度值比较单元,基于所述聚类结果,分别计算第一亮度值和第二亮度值,将所述第一亮度值和所述第二亮度值进行比较,若所述第一亮度值小于所述第二亮度值,则将所述伪彩图中像素点的红绿蓝三通道的值替换成所述目标图像中像素点的红绿蓝三通道的值;否则不替换;基于比较结果得到病理数据集的图像部分;其中所述第一亮度值为所述伪彩图中像素点的亮度值,所述第二亮度值为所述目标图像中像素点亮度值。
本发明的技术效果为:本发明获取目标图像、原图像及高光谱图像;利用高光谱图像实现了病理影像的自动标注,得到数据集的标签部分;通过对目标图像和原图像进行聚类计算,进一步实现染色体归一化,得到数据集的图片部分,不需要大量数据提前训练网络,本发明充分利用高光谱图像的光谱信息,生成了包含自动标注文件的基准病理数据集,缓解了计算机辅助诊断方面研究数据集紧缺的情况。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的方法流程图;
图2为本发明实施例中的数据集中标签变化过程示意图;
图3为本发明实施例中的染色标准化流程图;
图4为本发明实施例中的数据集中图像变化过程示意图;
图5为本发明实施例中的系统示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例中提供一种生成包含自动标注文件的基准病理数据集的方法,包括以下步骤:
获取病理图像,其中病理图像包括:目标图像和高光谱图像;对高光谱图像提取伪彩图;
对高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;
对目标图像和伪彩图进行聚类,基于聚类结果对目标图像和伪彩图进行染色归一化处理,得到病理数据集的图像部分;基于标签部分和图像部分,得到病理数据集。
在一些实施例中,得到病理数据集的标签部分的过程包括:
通过病理识别模型对高光谱图像中的像素进行识别标注,得到病理数据集的标签部分。
在一些实施例中,对高光谱图像中的像素进行识别标注之前还包括:
提取高光谱图像的代表性像素,基于代表性像素的通道值及标签构建病理识别模型,通过决策树算法对病理识别模型进行训练,直到输出的误差减小到期望值,得到训练好的病理识别模型,通过训练好的病理识别模型对高光谱图像中的像素进行识别标注。
在一些实施例中,对目标图像和伪彩图进行聚类的过程包括:
基于目标图像和伪彩图中的像素值,对目标图像和伪彩图分别进行聚类,得到聚类结果。
在一些实施例中,得到病理数据集的图像部分的过程包括:
基于聚类结果,分别计算第一亮度值和第二亮度值,将第一亮度值和第二亮度值进行比较,若第一亮度值小于第二亮度值,则将伪彩图中像素点的R、G、B的值替换成目标图像中像素点的R、G、B的值;否则不替换;基于比较结果得到病理数据集的图像部分;
其中第一亮度值为伪彩图中像素点的亮度值,第二亮度值为目标图像中像素点亮度值。
生成病理数据集的具体实施步骤包括:
(1)组织活检并制备病理切片,得到单染,双染和高光谱图像;
该步骤具体为:
①、组织活检,制备苏木精-伊红染色(h&e)的病理切片以及h&e与免疫组化染色(CAM5.2)的双染病理切片;
②、使用全玻片彩色扫描仪得到单染图其放大20倍后的全玻片彩色图像;
③、用显微高光谱成像平台得到双染图的高光谱图像;
④、从高光谱图像中抽三个近似R、G、B波段得到伪彩图;
(2)利用XGBoost的改进集成算法LightGBM训练分类器,通过高光谱图像多个通道的光谱信息,区分出两个感兴趣区域:病变区域非病变区域。得到数据集的标签部分;
该步骤具体为:
①、利用ENVI软件挑选部分具有代表性的像素,将这些像素所有通道的值及其标签(癌症区域为0,正常区域为1)生成excel表;
②、将生成的excel表输入LightGBM进行训练,LightGBM采用了基于直方图(Histogram)的决策树算法,基本思想是:把连续的浮点特征值离散化成K个整数;遍历数据,根据离散化后的值作为索引在直方图中累积统计量;然后根据直方图的离散值,遍历寻找最优的分割点。相比基于预排序(pre-sorting)的XGBoost,直方图算法有占用内存小和时间复杂度低的优点。
在Histogram算法之上,LightGBM进行进一步的优化。首先它抛弃了大多数GBDT工具使用的按层生长(level-wise)的决策树生长策略,而使用了带有深度限制的按叶子生长(leaf-wise)算法,降低了更多误差,提升了精度。但可能会长出比较深的决策树,产生过拟合,所以叶子节点数是其中最重要的参数;
③、调整参数,叶子节点数的值越大准确率越高,但是太大会出现过拟合,将其从30调为60后,准确率从0.97上升为0.98;
④、用训练好的模型对整幅图中每个像素进行预测,>0.5作黑色正常区域,<0.5作白色癌症区域;
⑤、对得到的图像进行中值滤波(窗口大小为36)优化结果。数据集中标签过程示意图,如图2所示。
(3)提出了一种结合K-means聚类和Wasserstein距离的染色标准化算法,得到数据集的图像部分。
该步骤具体为:
①、对伪彩图和目标图像(h&e单染图像)分别进行kmeans聚类,各聚20类;
②、根据伪彩图和目标图像灰度图中每个像素的值所属的区间(0到255分成255个区间),得到上述40类的分布;
③、由上述的分布利用wasserstein距离为伪彩图中的每一类找到目标图中最相近的一类,公式如下:
W(P1, P2)=
Figure SMS_1
其中,γ为每一个可能的联合分布,
x和y为从γ中采样得的样本,
||x−y||为这对样本的距离,
Wasserstein距离就是在所有可能的联合分布中样本对距离的期望值能够取到的下界。
④、比较伪彩图中每个像素点的亮度(0.299*R + 0.587*G+ 0.114*B)和该像素点所属类别对应目标图中类别中心的亮度,如果小于,则将该点处R、G、B的值换为对应目标图中类别中心处R、G、B的值;否则将该点处R、G、B的值不变。具体染色标准化流程图,如图3所示;数据集中图像过程示意图,如图4所示。
本实施例有益效果:
本实施例提出的生成包含自动标注文件的基准病理数据集的方法,通过制备多标记的病理切片,利用高光谱图像多出的一维光谱信息实现了病理影像的自动标注,得到数据集的标签部分;使用kmeans等无监督的方法实现染色体归一化,得到数据集的图片部分,不需要大量数据提前训练网络。本发明充分利用高光谱图像的光谱信息,生成了包含自动标注文件的基准病理数据集,缓解了计算机辅助诊断方面研究数据集紧缺的情况。
实施例二
如图5所示,本发明提供了一种生成包含自动标注文件的基准病理数据集的系统,包括:病理图像获取模块、数据集标签获取模块及数据集图像获取模块;
病理图像获取模块,用于获取病理图像,其中病理图像包括:目标图像和高光谱图像;对高光谱图像提取伪彩图;
数据集标签获取模块,用于对高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;
数据集图像获取模块,用于对目标图像和伪彩图进行聚类,基于聚类结果对目标图像和伪彩图进行染色归一化处理,得到病理数据集的图像部分。
在一些实施例中,数据集标签获取模块包括模型构建单元;
模型构建单元,用于提取高光谱图像的代表性像素,基于代表性像素的通道值及标签构建病理识别模型,通过决策树算法对病理识别模型进行训练,直到输出的误差减小到期望值,得到训练好的病理识别模型。
在一些实施例中,数据集标签获取模块还包括标签获取单元;
标签获取单元,用于通过训练好的病理识别模型对高光谱图像中的像素进行识别标注,得到病理数据集的标签部分。
在一些实施例中,数据集图像获取模块包括图像处理单元;
图像处理单元,基于目标图像和伪彩图中的像素值,对目标图像和伪彩图分别进行聚类,得到聚类结果。
在一些实施例中,数据集图像获取模块还包括亮度值比较单元;
亮度值比较单元,基于聚类结果,分别计算第一亮度值和第二亮度值,将第一亮度值和第二亮度值进行比较,若第一亮度值小于第二亮度值,则将伪彩图中像素点的R、G、B的值替换成目标图像中像素点的R、G、B的值;否则不替换;基于比较结果得到病理数据集的图像部分;其中第一亮度值为伪彩图中像素点的亮度值,第二亮度值为目标图像中像素点亮度值。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种生成包含自动标注文件的基准病理数据集的方法,其特征在于,包括以下步骤:
获取病理图像,其中所述病理图像包括:目标图像和高光谱图像;对所述高光谱图像提取伪彩图;
对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;
对所述目标图像和所述伪彩图进行聚类,基于聚类结果对所述目标图像和所述伪彩图进行染色标准化处理,得到病理数据集的图像部分;基于所述标签部分和所述图像部分,得到病理数据集;
对所述目标图像和所述伪彩图进行聚类,基于聚类结果对所述目标图像和所述伪彩图进行染色标准化处理,得到病理数据集的图像部分的具体步骤:
①、对伪彩图和目标图像分别进行kmeans聚类,各聚20类;
②、根据伪彩图和目标图像灰度图中每个像素的值所属的区间,得到40类的分布;
③、由上述的分布利用wasserstein距离为伪彩图中的每一类找到目标图中最相近的一类,公式如下:
Figure QLYQS_1
其中,γ为每一个可能的联合分布,
x和y为从γ中采样得的样本,
||x−y||为这对样本的距离,
Wasserstein距离就是在所有可能的联合分布中样本对距离的期望值能够取到的下界;
④、比较伪彩图中每个像素点的亮度和该像素点所属类别对应目标图中类别中心的亮度,如果小于,则将该像素点处R、G、B的值换为对应目标图中类别中心处R、G、B的值;否则该像素点处R、G、B的值不变。
2.根据权利要求1所述的生成包含自动标注文件的基准病理数据集的方法,其特征在于,
对所述高光谱图像中的像素进行识别标注之前还包括:
提取所述高光谱图像的代表性像素,基于所述代表性像素的通道值及标签构建病理识别模型,通过决策树算法对所述病理识别模型进行训练,直到输出的误差减小到期望值,得到训练好的病理识别模型,其中所述病理识别模型为LightGBM模型。
3.根据权利要求2所述的生成包含自动标注文件的基准病理数据集的方法,其特征在于,
得到病理数据集的标签部分的过程包括:
通过训练好的病理识别模型对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分。
4.一种生成包含自动标注文件的基准病理数据集的系统,其特征在于,包括:病理图像获取模块、数据集标签获取模块及数据集图像获取模块;
所述病理图像获取模块,用于获取病理图像,其中所述病理图像包括:目标图像和高光谱图像;对所述高光谱图像提取伪彩图;
所述数据集标签获取模块,用于对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分;
所述数据集图像获取模块,用于对所述目标图像和所述伪彩图进行聚类,基于聚类结果对所述目标图像和所述伪彩图进行染色标准化处理,得到病理数据集的图像部分;基于所述标签部分和所述图像部分,得到病理数据集;
对所述目标图像和所述伪彩图进行聚类,基于聚类结果对所述目标图像和所述伪彩图进行染色标准化处理,得到病理数据集的图像部分的具体步骤:
①、对伪彩图和目标图像分别进行kmeans聚类,各聚20类;
②、根据伪彩图和目标图像灰度图中每个像素的值所属的区间,得到40类的分布;
③、由上述的分布利用wasserstein距离为伪彩图中的每一类找到目标图中最相近的一类,公式如下:
Figure QLYQS_2
其中,γ为每一个可能的联合分布,
x和y为从γ中采样得的样本,
||x−y||为这对样本的距离,
Wasserstein距离就是在所有可能的联合分布中样本对距离的期望值能够取到的下界;
④、比较伪彩图中每个像素点的亮度和该像素点所属类别对应目标图中类别中心的亮度,如果小于,则将该像素点处R、G、B的值换为对应目标图中类别中心处R、G、B的值;否则该像素点处R、G、B的值不变。
5.根据权利要求4所述的生成包含自动标注文件的基准病理数据集的系统,其特征在于,
所述数据集标签获取模块包括模型构建单元;
所述模型构建单元,用于提取所述高光谱图像的代表性像素,基于所述代表性像素的通道值及标签构建病理识别模型,通过决策树算法对所述病理识别模型进行训练,直到输出的误差减小到期望值,得到训练好的病理识别模型,其中所述病理识别模型为LightGBM模型。
6.根据权利要求5所述的生成包含自动标注文件的基准病理数据集的系统,其特征在于,
所述数据集标签获取模块还包括标签获取单元;
所述标签获取单元,用于通过所述训练好的病理识别模型对所述高光谱图像中的像素进行识别标注,得到病理数据集的标签部分。
CN202210882919.2A 2022-07-26 2022-07-26 生成包含自动标注文件的基准病理数据集的方法及系统 Active CN115274093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210882919.2A CN115274093B (zh) 2022-07-26 2022-07-26 生成包含自动标注文件的基准病理数据集的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210882919.2A CN115274093B (zh) 2022-07-26 2022-07-26 生成包含自动标注文件的基准病理数据集的方法及系统

Publications (2)

Publication Number Publication Date
CN115274093A CN115274093A (zh) 2022-11-01
CN115274093B true CN115274093B (zh) 2023-06-23

Family

ID=83769540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210882919.2A Active CN115274093B (zh) 2022-07-26 2022-07-26 生成包含自动标注文件的基准病理数据集的方法及系统

Country Status (1)

Country Link
CN (1) CN115274093B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1806449A (zh) * 2004-05-27 2006-07-19 索尼株式会社 图像处理设备、图像处理方法和计算机程序
CN104318570A (zh) * 2014-10-29 2015-01-28 沈阳建筑大学 一种基于背景的自适应迷彩伪装设计方法
CN104766338A (zh) * 2015-04-28 2015-07-08 中云智慧(北京)科技有限公司 一种复杂x光伪彩图的显著性检测方法
CN111986148A (zh) * 2020-07-15 2020-11-24 万达信息股份有限公司 一种前列腺数字病理图像的快速Gleason评分系统
CN112446830A (zh) * 2019-08-27 2021-03-05 浙江宇视科技有限公司 一种图像色边的处理方法、装置、存储介质及电子设备
CN112508950A (zh) * 2021-02-02 2021-03-16 常州微亿智造科技有限公司 异常检测方法和装置
CN112652027A (zh) * 2020-12-30 2021-04-13 凌云光技术股份有限公司 一种伪彩检测算法及系统
WO2021169122A1 (zh) * 2020-02-25 2021-09-02 平安科技(深圳)有限公司 图像标注管理方法、装置、计算机系统及可读存储介质
CN114596298A (zh) * 2022-03-16 2022-06-07 华东师范大学 基于高光谱成像的精标注数字病理数据集自动生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8526733B2 (en) * 2010-06-03 2013-09-03 The United States Of America As Represented By The Administrator Of The National Aeronautics Space Administration System and method for improved computational processing efficiency in the HSEG algorithm
US9129371B2 (en) * 2010-06-25 2015-09-08 Cireca Theranostics, Llc Method for analyzing biological specimens by spectral imaging
US9025850B2 (en) * 2010-06-25 2015-05-05 Cireca Theranostics, Llc Method for analyzing biological specimens by spectral imaging
US10013477B2 (en) * 2012-11-19 2018-07-03 The Penn State Research Foundation Accelerated discrete distribution clustering under wasserstein distance

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1806449A (zh) * 2004-05-27 2006-07-19 索尼株式会社 图像处理设备、图像处理方法和计算机程序
CN104318570A (zh) * 2014-10-29 2015-01-28 沈阳建筑大学 一种基于背景的自适应迷彩伪装设计方法
CN104766338A (zh) * 2015-04-28 2015-07-08 中云智慧(北京)科技有限公司 一种复杂x光伪彩图的显著性检测方法
CN112446830A (zh) * 2019-08-27 2021-03-05 浙江宇视科技有限公司 一种图像色边的处理方法、装置、存储介质及电子设备
WO2021169122A1 (zh) * 2020-02-25 2021-09-02 平安科技(深圳)有限公司 图像标注管理方法、装置、计算机系统及可读存储介质
CN111986148A (zh) * 2020-07-15 2020-11-24 万达信息股份有限公司 一种前列腺数字病理图像的快速Gleason评分系统
CN112652027A (zh) * 2020-12-30 2021-04-13 凌云光技术股份有限公司 一种伪彩检测算法及系统
CN112508950A (zh) * 2021-02-02 2021-03-16 常州微亿智造科技有限公司 异常检测方法和装置
CN114596298A (zh) * 2022-03-16 2022-06-07 华东师范大学 基于高光谱成像的精标注数字病理数据集自动生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Aero-Engine Faults Diagnosis Based on K-Means Improved Wasserstein GAN and Relevant Vector Machine;Zihe Zhao 等;《2019 Chinese Control Conference (CCC)》;4795-4800 *
K-means and Hierarchical Cluster Analysis as segmentation algorithms of FTIR hyperspectral images collected from cutaneous tissue;Cassio Lima等;《2018 SBFoton International Optics and Photonics Conference (SBFoton IOPC)》;1-4 *
基于动态分组卷积和置信学习的高光谱图像分类;詹巧巧;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第07期);C028-39 *
结合倒置特征金字塔和U-Net的高光谱图像分类;程嵩阳 等;《中国图象图形学报》;第26卷(第08期);1994-2008 *

Also Published As

Publication number Publication date
CN115274093A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112017191B (zh) 基于注意力机制的肝脏病理图像分割模型建立及分割方法
CN111512383B (zh) 用于图像处理的自动测定评估和归一化
CN107247971B (zh) 一种超声甲状腺结节风险指标的智能分析方法及系统
CN111986150B (zh) 一种数字病理图像的交互式标注精细化方法
CN113723573B (zh) 基于自适应比例学习的肿瘤组织病理分类系统及方法
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
CN110533583B (zh) 一种基于宫颈液基细胞的自适应图像增广系统
CN112036231B (zh) 一种基于车载视频的车道线和路面指示标志检测与识别方法
CN110766670A (zh) 一种基于深度卷积神经网络的乳腺钼靶图像肿瘤定位算法
CN116188436B (zh) 基于局部特征和全局特征融合的膀胱镜图像分类方法
CN115909006B (zh) 基于卷积Transformer的乳腺组织图像分类方法及系统
CN110826560A (zh) 一种食管癌病理图像标注方法
CN113538422B (zh) 一种基于染色强度矩阵的病理图像自动分类方法
CN114841947A (zh) 肺腺癌h&amp;e染色病理图像肿瘤区域多尺度特征提取与预后分析方法、装置
CN114864075A (zh) 一种基于病理图像的胶质瘤级别分析方法及装置
CN115274093B (zh) 生成包含自动标注文件的基准病理数据集的方法及系统
CN116113983A (zh) 多重免疫荧光染色组织的数字图像中坏死区域的自动化识别
US11763453B1 (en) Automatic generation method of fine-labeled digital pathological data set based on hyperspectral imaging
CN114693600A (zh) 一种对组织病理图像进行细胞核分割的半监督学习方法
CN113222009A (zh) 一种基于甲状腺超声视频估算结节纵横比的方法
CN116705289B (zh) 基于语义分割网络的宫颈病理诊断装置
CN117496276B (zh) 肺癌细胞形态学分析、识别方法及计算机可读存储介质
Marcuzzo et al. A hybrid approach for Arabidopsis root cell image segmentation
CN113642663B (zh) 一种卫星遥感影像水体提取方法
CN113269789B (zh) 一种遥感图像无监督域自适应的水陆分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant