CN115424707A - 基于图像比对的医学图像数据众包标注方法、系统及终端 - Google Patents
基于图像比对的医学图像数据众包标注方法、系统及终端 Download PDFInfo
- Publication number
- CN115424707A CN115424707A CN202211067692.2A CN202211067692A CN115424707A CN 115424707 A CN115424707 A CN 115424707A CN 202211067692 A CN202211067692 A CN 202211067692A CN 115424707 A CN115424707 A CN 115424707A
- Authority
- CN
- China
- Prior art keywords
- labeling
- medical image
- crowdsourcing
- images
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 150
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 45
- 238000012795 verification Methods 0.000 claims description 30
- 238000012423 maintenance Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 210000001503 joint Anatomy 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012358 sourcing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/67—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供的基于图像比对的医学图像数据众包标注方法、系统及终端,包括:制定标注任务;根据标注任务的需求,采集医学图像并校验;对符合校验标准的医学图像进行统计,得到采集到的图像数据量;将符合校验标准的医学图像归档;设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;将医学图像数据库中的医学图像进行分配至多个众包标注端,以使每个医学图像被多个众包标注端标注;众包标注端标注根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像;对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;本发明具有有效提升标注效率和标志质量的有益效果,适用于数据处理领域。
Description
技术领域
本发明涉及数据处理的技术领域,具体涉及基于图像比对的医学图像数据众包标注方法、系统及终端。
背景技术
数据标注是人工智能领域的最为基础工作,高质量的已标注数据可有效的提升人工智能算法的表现,医学图像领域也不例外。
对于医学图像领域的数据标注,现有的标注方法通常是需专业人员手动的从医院信息系统中导出所需要的数据,然后将出具进行初步的整理与分发,并告知标注人员所需要的标注规则,最终标注完成后,再进行数据整合与汇总,该种方式进行标注效率较低,无法实现较大规模的医学图像标注,一定程度上阻碍了医学人工智能的发展。
发明内容
针对相关技术中存在的不足,本发明所要解决的技术问题在于:提供一种有效提升标注效率和标志质量的基于图像比对的医学图像数据众包标注方法、系统及终端。
为解决上述技术问题,本发明采用的技术方案为:
基于图像比对的医学图像数据众包标注方法,包括:
S10,制定标注任务;
S20,根据标注任务的需求,采集医学图像并校验;以及对符合校验标准的医学图像进行统计,得到采集到的图像数据量;
S30,将符合校验标准的医学图像归档,形成医学图像数据库;
S40,设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;
S50,将医学图像数据库中的医学图像进行分配至多个众包标注端,以使每个医学图像被多个众包标注端标注;
S60,众包标注端标注根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像;
S70,对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档。
优选地,基于图像比对的医学图像数据众包标注方法,还包括:在众包标注端上设置有培训模块,以对标注者进行标注前培训。
优选地,所述标注任务包括:本次标注的疾病诊断、图像类型、参数集;参数集的表达式为:para_set={grid_size,coincidence_rate,threshold_value};
其中,grid_size为网格大小,coincidence_rate为重合率,threshold_value为阈值。
优选地,所述步骤S70,对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;具体包括:
S701,接收同一医学图像的k个标注图像,对每个标注图像均按照参数集表达式中的网格大小,将其切割为网格状的单元格矩阵Pc(m,n),c=1,2...,k;Pc(m,n)表示第c个标注图像对应的单元格矩阵;其中,被标注单元格的值为1;
S702,将k个标注图像进行叠加处理,得到重复矩阵;
S703,基于阈值对重复矩阵进行压缩处理,得到最终重复矩阵,以删除重复率不高的区域;
S704,计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率,按重叠率从高向低进行排名;
S705,获取重叠率排名前两个的单元格矩阵,并将其进行矩阵相加处理,计算出最终重叠区域;
S706,将最终重叠区域存入数据库,待任务复验无误后,形成金标准。
优选地,所述步骤S704中,计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率,具体包括:
S7041,重叠率计算过程中,设:标注结果对应的单元格矩阵为:P1(m,n),最终重复矩阵为:P2(m,n);
S7042,对单元格矩阵P1(m,n)、P2(m,n)进行像素标记;具体为:
按像素为单位,将被标注的单元格值设为1,其他未标记单元格值设为0;
S7043,对像素标记后的单元格矩阵P1(m,n)、P2(m,n)进行抽样;具体为:
对于标记后的像素矩阵P1(m,n)与P2(m,n),依次在m和n方向进行x:1抽样,即每x个像素格中均抽取最后一个,采样后的矩阵记为New_P1(m/x,n/x)与New_P2(m/x,n/x);
抽样后的单元格矩阵的大小为:m/x*n/x;
S7044,分别计算New_P1(m/x,n/x)、New_P2(m/x,n/x)的二维哈希,分别得到:New_P1(m/x,n/x)的横向哈希值、纵向哈希值,以及New_P2(m/x,n/x)的横向哈希值、纵向哈希值;
S7045,基于二维哈希,计算两个单元格矩阵的重复率;具体为:
比较New_P1(m/x,n/x)与New_P2(m/x,n/x)的横向哈希值,计算出两列哈希值中不同的行数为difm;
比较New_P1(m/x,n/x)与New_P2(m/x,n/x)的纵向哈希值,计算出两行哈希值中不同的行数为difn;
重复率的表达式为:
S7046,重复执行步骤S7041至S7045,完成所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率计算;
S7047,基于所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率,将重叠率从高向低进行排名。
优选地,所述步骤S702中,重复矩阵的表达式为:
式(1)中,Merge_P(m,n)表示重复矩阵;
所述步骤S703中,压缩处理的表达式为:
式(2)中,ROUND(coincidence_rate*K)表示K个图像重合率的四舍五入值;
Final_Merge_P(m,n)表示最终重复矩阵。
优选地,所述步骤S20中,对医学图像校验,包括:格式校验和内容校验;
其中,格式校验具体为:判断医学图像是否满足DICOM标准,若满足,则格式校验通过,否则,不通过校验;
内容校验具体为:判断采集到的医学图像是否与运行维护端所发布的任务一致;若一致,则内容校验通过,否则,不通过校验;
符合校验标准,具体为:格式校验和内容校验均为通过。
相应地,本发明还提供了基于图像比对的医学图像数据众包标注系统,包括:运行维护端、数据采集端、中心服务端和众包标注端;
所述运行维护端,用于制定标注任务;
所述数据采集端,用于与医院PACS系统对接,并根据标注任务的需求,采集医学图像并校验,以及对符合校验标准的医学图像进行统计,得到采集到的图像数据量;
所述中心服务端,用于将符合校验标准的医学图像归档,形成医学图像数据库;
以及设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;
以及将医学图像数据库中的医学图像进行分配至多个众包标注端,以使每个医学图像被多个众包标注端标注;
以及接收众包标注端的标注结果,并对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;
所述众包标注端,根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像。
相应地,本发明还提供了一种终端,包括:
存储器,用于存储计算机程序;
控制器,用于在执行所述计算机程序时实现如上所述的基于图像比对的医学图像数据众包标注方法。
本发明的有益技术效果在于:
本发明提供的基于图像比对的医学图像数据众包标注方法、系统及终端,以众包方式进行标注,最大限度提升标注速率,通过对多个标注图像进行融合,获取标注的最终结果并归档,能够自动得出准确率较高的标注结果,降低工作量的同时保证准确率,实用性极强。
附图说明
图1是本发明实施例一提供的基于图像比对的医学图像数据众包标注方法的流程示意图;
图2是本发明实施例一提供的基于图像比对的医学图像数据众包标注系统的结构示意图;
图3是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中步骤S70的流程示意图;
图4是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中单元格矩阵的结构示意图;
图5是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中步骤S704的流程示意图;
图6是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中二维哈希的计算示意图;
图中:
10为运行维护端,20为数据采集端,30为中心服务端,40为众包标注端。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
以下结合附图详细说明本发明的一个实施例。
实施例一
如图1所示,基于图像比对的医学图像数据众包标注方法,包括:
S10,制定标注任务;
S20,根据标注任务的需求,采集医学图像并校验;以及对符合校验标准的医学图像进行统计,得到采集到的图像数据量;
S30,将符合校验标准的医学图像归档,形成医学图像数据库;
S40,设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;
S50,将医学图像数据库中的医学图像进行分配至多个众包标注端,以使每个医学图像被多个众包标注端标注;
S60,众包标注端标注根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像;
S70,对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档。
具体地,本实施例中,所述标注任务包括:本次标注的疾病诊断、图像类型、参数集;参数集的表达式为:
para_set={grid_size,coincidence_rate,threshold_value};
其中,grid_size为网格大小,coincidence_rate为重合率,threshold_value为阈值。
进一步地,所述步骤S20中,对医学图像校验,包括:格式校验和内容校验;
其中,格式校验具体为:判断医学图像是否满足DICOM标准,若满足,则格式校验通过,否则,不通过校验;
内容校验具体为:判断采集到的医学图像是否与运行维护端所发布的任务一致;若一致,则内容校验通过,否则,不通过校验;
符合校验标准,具体为:格式校验和内容校验均为通过。
本实施例中,所述步骤S40,设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;其中,标注方案可包括:
方案说明文档,该文档用于描述本次需要标注的具体内容、标注标准和注意事项等内容;
医学图像标注金标准,可由多名专家标注完成的本次医学图像标注的金标准,作为标注样例,以供众包标注者参考。
本实施例中,所述步骤S50,将医学图像数据库中的医学图像进行分配至多个众包标注端,以使每个医学图像被多个众包标注端标注;具体可包括:
S501,查询历史标注任务的分配列表,选择数据集中的一个医学图像数据,检查该医学图像数据是否已经被众包标注端过:是,则选择下一个医学图像数据;否,则将该医学图像数据分配给众包标注端进行标注;
众包标注端在对该医学图像数据标注完毕后,将标注结果发送给中心服务端;
S502,重复执行步骤S501,直到数据集中的所有医学图像数据均被标注;
S503,根据步骤S501到步骤S502的方法,将数据集的标注任务分配给多个众包标注端,直到数据集中的每一个数据均被数个众包标注端标注过。
进一步地,还包括:在众包标注端上设置有培训模块,以对标注者进行标注前培训。
本发明还提供了基于图像比对的医学图像数据众包标注系统。
如图2所示,基于图像比对的医学图像数据众包标注系统,包括:运行维护端10、数据采集端20、中心服务端30和众包标注端40;
所述运行维护端10,用于制定标注任务;
所述数据采集端20,用于与医院PACS系统对接,并根据标注任务的需求,采集医学图像并校验,以及对符合校验标准的医学图像进行统计,得到采集到的图像数据量;
所述中心服务端30,用于将符合校验标准的医学图像归档,形成医学图像数据库;
以及设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;
以及将医学图像数据库中的医学图像进行分配至多个众包标注端40,以使每个医学图像被多个众包标注端40标注;
以及接收众包标注端40的标注结果,并对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;
所述众包标注端40,根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像。
本实施例中,医院PACS系统是指:影像归档和通信系统。
本实施例中,通过众包方式对数据进行标注,众包标注端具有参与标注前培训、参与标注、结果反馈等功能。
标注前培训:众包标注的方式进行标注,具有速度快、成本低等特点,但如果众包标注者的水平参差不齐,会直接影响医学图像数据最终的标注结果;因此,在参与标注之前,需要对标注者水平进行考核认定,并依据其考核表现,定制不同等级的个性化培训方案,同时在标注不同类型的数据时,系统会推送相关的标注手册与方案,提升标注的准确率。
参与标注:即以众包方式开始对医学图像数据进行标注,众包方式标注是本发明的重要特点,众包方式进行标注相比外包方式进行标注,具有标注速度快、成本低等特点,任何经过认证与培训的医务人员都可参与到标注工作中,通过给予相应报酬或允许使用部分数据等激励措施调动医务人员积极性。
结果反馈:标注完成后,可将众包参与者标注的结果反馈至运行维护端,运行维护端对标注结果进行记录,并将其与参与标注者进行关联,用于对参与标注者进行打分以及后续的绩效考核管理等操作。
本实施例中,通过部署数据采集端,与医院PACS系统对接,实现待标注医学图像的采集,同时,通过校验和统计,完成数据的筛选与初步整理工作,降低手动筛选数据的工作量;同时,在标注过程中,以众包方式进行标注,最大限度提升标注速率。
此外,本申请中的众包标注端上可设置培训模块,以使对参与众包标注者进行认证,提升标注质量,通过对众包标注者进行教学培训,可以完成不同粒度的标注工作,也可通过机器学习算法,实现对众包标注参与者的教学,对每个参与者实现个性化培训。
本发明提供的基于图像比对的医学图像数据众包标注方法、系统及终端,以众包方式进行标注,最大限度提升标注速率,通过对多个标注图像进行融合,获取标注的最终结果并归档,能够自动得出准确率较高的标注结果,降低工作量的同时保证准确率,实用性极强。
实施例二
本实施例中,假定对于一张医学图像,本次共有k位标注者进行了标注,即得到k张具有不同标注结果的标注图像,对多个标注图像进行融合的具体过程如下。
如图3所示,基于图像比对的医学图像数据众包标注方法,所述步骤S70,对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;具体包括:
S701,接收同一医学图像的k个标注图像,对每个标注图像均按照参数集表达式中的网格大小,将其切割为网格状的单元格矩阵Pc(m,n),c=1,2...,k;Pc(m,n)表示第c个标注图像对应的单元格矩阵;其中,被标注单元格的值为1;
该步骤中,对于每一个标注结果:
首先,根据参数集para_set中第一个参数grid_size中规定的单个网格大小,将每张标注结果切分为网格状的单元格矩阵P(m,n);
然后,将标注者所标注区域覆盖到的单元格值设为1;如图4所示,图中灰度区域为一位标注者所标注的区域,灰度区域内的单元格其对应矩阵值为1。
S702,将k个标注图像进行叠加处理,得到重复矩阵;具体地,重复矩阵的表达式为:
式(1)中,Merge_P(m,n)表示重复矩阵;
该步骤中,Merge_P(m,n)包含有每一个单元格的重叠次数(即:每一个单元格被标注的次数)。
S703,基于阈值对重复矩阵进行压缩处理,得到最终重复矩阵,以删除重复率不高的区域;具体地,压缩处理的表达式为:
式(2)中,ROUND(coincidence_rate*K)表示K个图像重合率的四舍五入值;
Final_Merge_P(m,n)表示最终重复矩阵;
该步骤中,由于重复矩阵Merge_P(m,n)较大,可根据参数集para_set中第二个参数coincidence_rate重复率进行计算用于筛选的阈值。
S704,计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率,按重叠率从高向低进行排名;
S705,获取重叠率排名前两个的单元格矩阵,并将其进行矩阵相加处理,计算出最终重叠区域;
S706,将最终重叠区域存入数据库,待任务复验无误后,形成金标准。
本实施例中,考虑到医学图像文件通常都较大,以像素为单位进行比对时,对计算资源的需求很高,且比对时间较慢,为快速计算两张标注图像之前的重叠率,本申请中,设计了基于图像抽样与二维哈希的图像重叠率计算方法,具体如下:
如图5所示,所述步骤S704中,计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率,具体包括:
S7041,重叠率计算过程中,设:标注结果对应的单元格矩阵为:P1(m,n),最终重复矩阵为:P2(m,n);
S7042,对单元格矩阵P1(m,n)、P2(m,n)进行像素标记;具体为:
按像素为单位,将被标注的单元格值设为1,其他未标记单元格值设为0;
S7043,对像素标记后的单元格矩阵P1(m,n)、P2(m,n)进行抽样;具体为:
对于标记后的像素矩阵P1(m,n)与P2(m,n),依次在m和n方向进行x:1抽样,即每x个像素格中均抽取最后一个,采样后的矩阵记为New_P1(m/x,n/x)与New_P2(m/x,n/x);
抽样后的单元格矩阵的大小为:m/x*n/x;
S7044,分别计算New_P1(m/x,n/x)、New_P2(m/x,n/x)的二维哈希,分别得到:New_P1(m/x,n/x)的横向哈希值、纵向哈希值,以及New_P2(m/x,n/x)的横向哈希值、纵向哈希值;
S7045,基于二维哈希,计算两个单元格矩阵的重复率;具体为:
比较New_P1(m/x,n/x)与New_P2(m/x,n/x)的横向哈希值,计算出两列哈希值中不同的行数为difm;
比较New_P1(m/x,n/x)与New_P2(m/x,n/x)的纵向哈希值,计算出两行哈希值中不同的行数为difn;
重复率的表达式为:
S7046,重复执行步骤S7041至S7045,完成所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率计算;
S7047,基于所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率,将重叠率从高向低进行排名。
具体地,在m和n方向进行x:1抽样过程中,x的取值优选为10。
以取值10为例,抽样后,矩阵为:New_P1(m/10,n/10)与New_P2(m/10,n/10),其大小为m/10*n/10,将原图片大小缩小100倍。
进一步地,如图6所示,对于New_P1(m/10,n/10)与New_P2(m/10,n/10),分别以行列为单位,采用FarmHash函数,计算横向每一行与纵向每一列的哈希值,FarmHash函数将行或者列的0-1矩阵作为输入,输出一个64位的唯一哈希值,获得大小为[1,m/10]的纵向哈希特征和[1,n/10]的横向哈希特征。
本发明还提供了一种存储设备,其中存储有多条指令,所述指令适于由处理器加载并执行如上述的基于图像比对的医学图像数据众包标注方法。
所述存储设备可为一计算机可读存储介质,可以包括:ROM、RAM、磁盘或光盘等。
本发明还提供了一种终端,所述终端可包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行如上述的基于图像比对的医学图像数据众包标注方法。
所述终端可为台式电脑、手提电脑等,具体可以通过软件和/或硬件来实现。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法、装置及系统中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定的编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.基于图像比对的医学图像数据众包标注方法,其特征在于:包括:
S10,制定标注任务;
S20,根据标注任务的需求,采集医学图像并校验;以及对符合校验标准的医学图像进行统计,得到采集到的图像数据量;
S30,将符合校验标准的医学图像归档,形成医学图像数据库;
S40,设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;
S50,将医学图像数据库中的医学图像进行分配至多个众包标注端,以使每个医学图像被多个众包标注端标注;
S60,众包标注端标注根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像;
S70,对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档。
2.根据权利要求1所述的基于图像比对的医学图像数据众包标注方法,其特征在于:还包括:
在众包标注端上设置有培训模块,以对标注者进行标注前培训。
3.根据权利要求1所述的基于图像比对的医学图像数据众包标注方法,其特征在于:所述标注任务包括:本次标注的疾病诊断、图像类型、参数集;参数集的表达式为:para_set={grid_size,coincidence_rate,threshold_value};
其中,grid_size为网格大小,coincidence_rate为重合率,threshold_value为阈值。
4.根据权利要求3所述的基于图像比对的医学图像数据众包标注方法,其特征在于:所述步骤S70,对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;具体包括:
S701,接收同一医学图像的k个标注图像,对每个标注图像均按照参数集表达式中的网格大小,将其切割为网格状的单元格矩阵Pc(m,n),c=1,2...,k;Pc(m,n)表示第c个标注图像对应的单元格矩阵;其中,被标注单元格的值为1;
S702,将k个标注图像进行叠加处理,得到重复矩阵;
S703,基于阈值对重复矩阵进行压缩处理,得到最终重复矩阵,以删除重复率不高的区域;
S704,计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率,按重叠率从高向低进行排名;
S705,获取重叠率排名前两个的单元格矩阵,并将其进行矩阵相加处理,计算出最终重叠区域;
S706,将最终重叠区域存入数据库,待任务复验无误后,形成金标准。
5.根据权利要求3所述的基于图像比对的医学图像数据众包标注方法,其特征在于:所述步骤S704中,计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率,具体包括:
S7041,重叠率计算过程中,设:标注结果对应的单元格矩阵为:P1(m,n),最终重复矩阵为:P2(m,n);
S7042,对单元格矩阵P1(m,n)、P2(m,n)进行像素标记;具体为:
按像素为单位,将被标注的单元格值设为1,其他未标记单元格值设为0;
S7043,对像素标记后的单元格矩阵P1(m,n)、P2(m,n)进行抽样;具体为:
对于标记后的像素矩阵P1(m,n)与P2(m,n),依次在m和n方向进行x:1抽样,即每x个像素格中均抽取最后一个,采样后的矩阵记为New_P1(m/x,n/x)与New_P2(m/x,n/x);
抽样后的单元格矩阵的大小为:m/x*n/x;
S7044,分别计算New_P1(m/x,n/x)、New_P2(m/x,n/x)的二维哈希,分别得到:New_P1(m/x,n/x)的横向哈希值、纵向哈希值,以及New_P2(m/x,n/x)的横向哈希值、纵向哈希值;
S7045,基于二维哈希,计算两个单元格矩阵的重复率;具体为:
比较New_P1(m/x,n/x)与New_P2(m/x,n/x)的横向哈希值,计算出两列哈希值中不同的行数为difm;
比较New_P1(m/x,n/x)与New_P2(m/x,n/x)的纵向哈希值,计算出两行哈希值中不同的行数为difn;
重复率的表达式为:
S7046,重复执行步骤S7041至S7045,完成所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率计算;
S7047,基于所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率,将重叠率从高向低进行排名。
7.根据权利要求3所述的基于图像比对的医学图像数据众包标注方法,其特征在于:所述步骤S20中,对医学图像校验,包括:格式校验和内容校验;
其中,格式校验具体为:判断医学图像是否满足DICOM标准,若满足,则格式校验通过,否则,不通过校验;
内容校验具体为:判断采集到的医学图像是否与运行维护端所发布的任务一致;若一致,则内容校验通过,否则,不通过校验;
符合校验标准,具体为:格式校验和内容校验均为通过。
8.基于图像比对的医学图像数据众包标注系统,其特征在于:包括:运行维护端(10)、数据采集端(20)、中心服务端(30)和众包标注端(40);
所述运行维护端(10),用于制定标注任务;
所述数据采集端(20),用于与医院PACS系统对接,并根据标注任务的需求,采集医学图像并校验,以及对符合校验标准的医学图像进行统计,得到采集到的图像数据量;
所述中心服务端(30),用于将符合校验标准的医学图像归档,形成医学图像数据库;
以及设置标注规则,并根据标注任务的需求以及标注规则,生成标注方案和标注样例;
以及将医学图像数据库中的医学图像进行分配至多个众包标注端(40),以使每个医学图像被多个众包标注端(40)标注;
以及接收众包标注端(40)的标注结果,并对同一医学图像对应的多个标注图像进行融合,获取标注的最终结果并归档;
所述众包标注端(40),根据标注方案和标注样例,对分配的医学图像进行标注,形成标注图像。
9.一种终端,其特征在于:包括:
存储器,用于存储计算机程序;
控制器,用于在执行所述计算机程序时实现如权利要求1至7任一项所述的基于图像比对的医学图像数据众包标注方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067692.2A CN115424707A (zh) | 2022-09-01 | 2022-09-01 | 基于图像比对的医学图像数据众包标注方法、系统及终端 |
PCT/CN2022/125398 WO2024045286A1 (zh) | 2022-09-01 | 2022-10-14 | 基于图像比对的医学图像数据众包标注方法、系统及终端 |
US18/213,884 US20240078796A1 (en) | 2022-09-01 | 2023-06-26 | Method, system and terminal of crowdsourcing annotation for medical image data based on image comparison |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067692.2A CN115424707A (zh) | 2022-09-01 | 2022-09-01 | 基于图像比对的医学图像数据众包标注方法、系统及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424707A true CN115424707A (zh) | 2022-12-02 |
Family
ID=84202917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211067692.2A Pending CN115424707A (zh) | 2022-09-01 | 2022-09-01 | 基于图像比对的医学图像数据众包标注方法、系统及终端 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240078796A1 (zh) |
CN (1) | CN115424707A (zh) |
WO (1) | WO2024045286A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150370985A1 (en) * | 2014-06-24 | 2015-12-24 | Joseph R Carvalko | System and Method for Crowdsourcing Biological Specimen Identification |
CN107273492B (zh) * | 2017-06-15 | 2021-07-23 | 复旦大学 | 一种基于众包平台处理图像标注任务的交互方法 |
CN110991486B (zh) * | 2019-11-07 | 2023-12-29 | 北京邮电大学 | 多人协作图像标注质量控制的方法和装置 |
CN114693587A (zh) * | 2020-12-28 | 2022-07-01 | 深圳硅基智能科技有限公司 | 眼底图像的数据标注的质量控制方法及质量控制系统 |
-
2022
- 2022-09-01 CN CN202211067692.2A patent/CN115424707A/zh active Pending
- 2022-10-14 WO PCT/CN2022/125398 patent/WO2024045286A1/zh unknown
-
2023
- 2023-06-26 US US18/213,884 patent/US20240078796A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2024045286A1 (zh) | 2024-03-07 |
US20240078796A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889433B (zh) | 人脸聚类方法、装置、计算机设备及存储介质 | |
CN110292775B (zh) | 获取差异数据的方法及装置 | |
CN113642088B (zh) | 一种施工进度信息反馈及bim模型实时展示偏差的方法 | |
CN111831636A (zh) | 一种数据处理方法、装置、计算机系统及可读存储介质 | |
CN111161804B (zh) | 一种用于物种基因组学数据库的查询方法及系统 | |
CN111553485A (zh) | 基于联邦学习模型的视图显示方法、装置、设备及介质 | |
US20220237917A1 (en) | Video comparison method and apparatus, computer device, and storage medium | |
CN114781272A (zh) | 碳排放量预测方法、装置、设备及存储介质 | |
CN113821668A (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
WO2020190176A1 (ru) | Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных | |
CN111860484A (zh) | 一种区域标注方法、装置、设备及存储介质 | |
CN111552811A (zh) | 知识图谱中信息补全的方法、装置、计算机设备和存储介质 | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN112596723B (zh) | 数据库脚本生成方法、装置、设备及介质 | |
CN115424707A (zh) | 基于图像比对的医学图像数据众包标注方法、系统及终端 | |
CN110502620B (zh) | 导诊相似问题对生成方法、系统及计算机设备 | |
CN111695689A (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN116451095A (zh) | 多源异构医疗数据多视图聚类方法、装置、介质及设备 | |
CN115909441A (zh) | 人脸识别模型建立方法、人脸识别方法和电子设备 | |
CN113110804B (zh) | 重复图片删除方法、装置、设备及存储介质 | |
US20220138554A1 (en) | Systems and methods utilizing machine learning techniques for training neural networks to generate distributions | |
CN114238768A (zh) | 资讯信息的推送方法、装置、计算机设备和存储介质 | |
CN111597444A (zh) | 一种搜索方法、装置、服务器、存储介质 | |
CN110929163A (zh) | 课程推荐方法、装置、计算机设备及存储介质 | |
CN114581946B (zh) | 人群计数方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |