CN115424707A

CN115424707A - 基于图像比对的医学图像数据众包标注方法、系统及终端

Info

Publication number: CN115424707A
Application number: CN202211067692.2A
Authority: CN
Inventors: 赵杰; 何贤英; 石金铭; 崔芳芳; 叶明�; 卢耀恩; 王琳; 高景宏; 石小兵; 刘冬清; 张绪
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-02
Also published as: WO2024045286A1; US20240078796A1

Abstract

本发明提供的基于图像比对的医学图像数据众包标注方法、系统及终端，包括：制定标注任务；根据标注任务的需求，采集医学图像并校验；对符合校验标准的医学图像进行统计，得到采集到的图像数据量；将符合校验标准的医学图像归档；设置标注规则，并根据标注任务的需求以及标注规则，生成标注方案和标注样例；将医学图像数据库中的医学图像进行分配至多个众包标注端，以使每个医学图像被多个众包标注端标注；众包标注端标注根据标注方案和标注样例，对分配的医学图像进行标注，形成标注图像；对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；本发明具有有效提升标注效率和标志质量的有益效果，适用于数据处理领域。

Description

基于图像比对的医学图像数据众包标注方法、系统及终端

技术领域

本发明涉及数据处理的技术领域，具体涉及基于图像比对的医学图像数据众包标注方法、系统及终端。

背景技术

数据标注是人工智能领域的最为基础工作，高质量的已标注数据可有效的提升人工智能算法的表现，医学图像领域也不例外。

对于医学图像领域的数据标注，现有的标注方法通常是需专业人员手动的从医院信息系统中导出所需要的数据，然后将出具进行初步的整理与分发，并告知标注人员所需要的标注规则，最终标注完成后，再进行数据整合与汇总，该种方式进行标注效率较低，无法实现较大规模的医学图像标注，一定程度上阻碍了医学人工智能的发展。

发明内容

针对相关技术中存在的不足，本发明所要解决的技术问题在于：提供一种有效提升标注效率和标志质量的基于图像比对的医学图像数据众包标注方法、系统及终端。

为解决上述技术问题，本发明采用的技术方案为：

基于图像比对的医学图像数据众包标注方法，包括：

S10，制定标注任务；

S20，根据标注任务的需求，采集医学图像并校验；以及对符合校验标准的医学图像进行统计，得到采集到的图像数据量；

S30，将符合校验标准的医学图像归档，形成医学图像数据库；

S40，设置标注规则，并根据标注任务的需求以及标注规则，生成标注方案和标注样例；

S50，将医学图像数据库中的医学图像进行分配至多个众包标注端，以使每个医学图像被多个众包标注端标注；

S60，众包标注端标注根据标注方案和标注样例，对分配的医学图像进行标注，形成标注图像；

S70,对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档。

优选地，基于图像比对的医学图像数据众包标注方法，还包括：在众包标注端上设置有培训模块，以对标注者进行标注前培训。

优选地，所述标注任务包括：本次标注的疾病诊断、图像类型、参数集；参数集的表达式为：para_set＝{grid_size,coincidence_rate,threshold_value}；

其中，grid_size为网格大小，coincidence_rate为重合率，threshold_value为阈值。

优选地，所述步骤S70，对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；具体包括：

S701，接收同一医学图像的k个标注图像，对每个标注图像均按照参数集表达式中的网格大小，将其切割为网格状的单元格矩阵P_c(m，n)，c＝1，2...，k；P_c(m，n)表示第c个标注图像对应的单元格矩阵；其中，被标注单元格的值为1；

S702，将k个标注图像进行叠加处理，得到重复矩阵；

S703，基于阈值对重复矩阵进行压缩处理，得到最终重复矩阵，以删除重复率不高的区域；

S704，计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率，按重叠率从高向低进行排名；

S705，获取重叠率排名前两个的单元格矩阵，并将其进行矩阵相加处理，计算出最终重叠区域；

S706，将最终重叠区域存入数据库，待任务复验无误后，形成金标准。

优选地，所述步骤S704中，计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率，具体包括：

S7041，重叠率计算过程中，设：标注结果对应的单元格矩阵为：P1(m，n)，最终重复矩阵为：P2(m，n)；

S7042，对单元格矩阵P1(m，n)、P2(m，n)进行像素标记；具体为：

按像素为单位，将被标注的单元格值设为1，其他未标记单元格值设为0；

S7043，对像素标记后的单元格矩阵P1(m，n)、P2(m，n)进行抽样；具体为：

对于标记后的像素矩阵P1(m，n)与P2(m，n)，依次在m和n方向进行x：1抽样，即每x个像素格中均抽取最后一个，采样后的矩阵记为New_P1(m/x，n/x)与New_P2(m/x，n/x)；

抽样后的单元格矩阵的大小为：m/x*n/x；

S7044，分别计算New_P1(m/x，n/x)、New_P2(m/x，n/x)的二维哈希，分别得到：New_P1(m/x，n/x)的横向哈希值、纵向哈希值，以及New_P2(m/x，n/x)的横向哈希值、纵向哈希值；

S7045，基于二维哈希，计算两个单元格矩阵的重复率；具体为：

比较New_P1(m/x，n/x)与New_P2(m/x，n/x)的横向哈希值，计算出两列哈希值中不同的行数为dif_m；

比较New_P1(m/x，n/x)与New_P2(m/x，n/x)的纵向哈希值，计算出两行哈希值中不同的行数为dif_n；

重复率的表达式为：

S7046，重复执行步骤S7041至S7045，完成所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率计算；

S7047，基于所有标注结果对应的单元格矩阵与最终重复矩阵的重叠率，将重叠率从高向低进行排名。

优选地，所述步骤S702中，重复矩阵的表达式为：

式(1)中，Merge_P(m，n)表示重复矩阵；

所述步骤S703中，压缩处理的表达式为：

式(2)中，ROUND(coincidence_rate*K)表示K个图像重合率的四舍五入值；

Final_Merge_P(m，n)表示最终重复矩阵。

优选地，所述步骤S20中，对医学图像校验，包括：格式校验和内容校验；

其中，格式校验具体为：判断医学图像是否满足DICOM标准，若满足，则格式校验通过，否则，不通过校验；

内容校验具体为：判断采集到的医学图像是否与运行维护端所发布的任务一致；若一致，则内容校验通过，否则，不通过校验；

符合校验标准，具体为：格式校验和内容校验均为通过。

相应地，本发明还提供了基于图像比对的医学图像数据众包标注系统，包括：运行维护端、数据采集端、中心服务端和众包标注端；

所述运行维护端，用于制定标注任务；

所述数据采集端，用于与医院PACS系统对接，并根据标注任务的需求，采集医学图像并校验，以及对符合校验标准的医学图像进行统计，得到采集到的图像数据量；

所述中心服务端，用于将符合校验标准的医学图像归档，形成医学图像数据库；

以及设置标注规则，并根据标注任务的需求以及标注规则，生成标注方案和标注样例；

以及将医学图像数据库中的医学图像进行分配至多个众包标注端，以使每个医学图像被多个众包标注端标注；

以及接收众包标注端的标注结果，并对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；

所述众包标注端，根据标注方案和标注样例，对分配的医学图像进行标注，形成标注图像。

相应地，本发明还提供了一种终端，包括：

存储器，用于存储计算机程序；

控制器，用于在执行所述计算机程序时实现如上所述的基于图像比对的医学图像数据众包标注方法。

本发明的有益技术效果在于：

本发明提供的基于图像比对的医学图像数据众包标注方法、系统及终端，以众包方式进行标注，最大限度提升标注速率，通过对多个标注图像进行融合，获取标注的最终结果并归档，能够自动得出准确率较高的标注结果，降低工作量的同时保证准确率，实用性极强。

附图说明

图1是本发明实施例一提供的基于图像比对的医学图像数据众包标注方法的流程示意图；

图2是本发明实施例一提供的基于图像比对的医学图像数据众包标注系统的结构示意图；

图3是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中步骤S70的流程示意图；

图4是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中单元格矩阵的结构示意图；

图5是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中步骤S704的流程示意图；

图6是本发明实施例二提供的基于图像比对的医学图像数据众包标注方法中二维哈希的计算示意图；

图中：

10为运行维护端，20为数据采集端，30为中心服务端，40为众包标注端。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

以下结合附图详细说明本发明的一个实施例。

实施例一

如图1所示，基于图像比对的医学图像数据众包标注方法，包括：

S10，制定标注任务；

具体地，本实施例中，所述标注任务包括：本次标注的疾病诊断、图像类型、参数集；参数集的表达式为：

para_set＝{grid_size,coincidence_rate,threshold_value}；

进一步地，所述步骤S20中，对医学图像校验，包括：格式校验和内容校验；

符合校验标准，具体为：格式校验和内容校验均为通过。

本实施例中，所述步骤S40，设置标注规则，并根据标注任务的需求以及标注规则，生成标注方案和标注样例；其中，标注方案可包括：

方案说明文档，该文档用于描述本次需要标注的具体内容、标注标准和注意事项等内容；

医学图像标注金标准，可由多名专家标注完成的本次医学图像标注的金标准，作为标注样例，以供众包标注者参考。

本实施例中，所述步骤S50，将医学图像数据库中的医学图像进行分配至多个众包标注端，以使每个医学图像被多个众包标注端标注；具体可包括：

S501，查询历史标注任务的分配列表，选择数据集中的一个医学图像数据，检查该医学图像数据是否已经被众包标注端过：是，则选择下一个医学图像数据；否，则将该医学图像数据分配给众包标注端进行标注；

众包标注端在对该医学图像数据标注完毕后，将标注结果发送给中心服务端；

S502，重复执行步骤S501，直到数据集中的所有医学图像数据均被标注；

S503，根据步骤S501到步骤S502的方法，将数据集的标注任务分配给多个众包标注端，直到数据集中的每一个数据均被数个众包标注端标注过。

进一步地，还包括：在众包标注端上设置有培训模块，以对标注者进行标注前培训。

本发明还提供了基于图像比对的医学图像数据众包标注系统。

如图2所示，基于图像比对的医学图像数据众包标注系统，包括：运行维护端10、数据采集端20、中心服务端30和众包标注端40；

所述运行维护端10，用于制定标注任务；

所述数据采集端20，用于与医院PACS系统对接，并根据标注任务的需求，采集医学图像并校验，以及对符合校验标准的医学图像进行统计，得到采集到的图像数据量；

所述中心服务端30，用于将符合校验标准的医学图像归档，形成医学图像数据库；

以及将医学图像数据库中的医学图像进行分配至多个众包标注端40，以使每个医学图像被多个众包标注端40标注；

以及接收众包标注端40的标注结果，并对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；

所述众包标注端40，根据标注方案和标注样例，对分配的医学图像进行标注，形成标注图像。

本实施例中，医院PACS系统是指：影像归档和通信系统。

本实施例中，通过众包方式对数据进行标注，众包标注端具有参与标注前培训、参与标注、结果反馈等功能。

标注前培训：众包标注的方式进行标注，具有速度快、成本低等特点，但如果众包标注者的水平参差不齐，会直接影响医学图像数据最终的标注结果；因此，在参与标注之前，需要对标注者水平进行考核认定，并依据其考核表现，定制不同等级的个性化培训方案，同时在标注不同类型的数据时，系统会推送相关的标注手册与方案，提升标注的准确率。

参与标注：即以众包方式开始对医学图像数据进行标注，众包方式标注是本发明的重要特点，众包方式进行标注相比外包方式进行标注，具有标注速度快、成本低等特点，任何经过认证与培训的医务人员都可参与到标注工作中，通过给予相应报酬或允许使用部分数据等激励措施调动医务人员积极性。

结果反馈：标注完成后，可将众包参与者标注的结果反馈至运行维护端，运行维护端对标注结果进行记录，并将其与参与标注者进行关联，用于对参与标注者进行打分以及后续的绩效考核管理等操作。

本实施例中，通过部署数据采集端，与医院PACS系统对接，实现待标注医学图像的采集，同时，通过校验和统计，完成数据的筛选与初步整理工作，降低手动筛选数据的工作量；同时，在标注过程中，以众包方式进行标注，最大限度提升标注速率。

此外，本申请中的众包标注端上可设置培训模块，以使对参与众包标注者进行认证，提升标注质量，通过对众包标注者进行教学培训，可以完成不同粒度的标注工作，也可通过机器学习算法，实现对众包标注参与者的教学，对每个参与者实现个性化培训。

实施例二

本实施例中，假定对于一张医学图像，本次共有k位标注者进行了标注，即得到k张具有不同标注结果的标注图像，对多个标注图像进行融合的具体过程如下。

如图3所示，基于图像比对的医学图像数据众包标注方法，所述步骤S70，对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；具体包括：

该步骤中，对于每一个标注结果：

首先，根据参数集para_set中第一个参数grid_size中规定的单个网格大小，将每张标注结果切分为网格状的单元格矩阵P(m，n)；

然后，将标注者所标注区域覆盖到的单元格值设为1；如图4所示，图中灰度区域为一位标注者所标注的区域，灰度区域内的单元格其对应矩阵值为1。

S702，将k个标注图像进行叠加处理，得到重复矩阵；具体地，重复矩阵的表达式为：

式(1)中，Merge_P(m，n)表示重复矩阵；

该步骤中，Merge_P(m，n)包含有每一个单元格的重叠次数(即：每一个单元格被标注的次数)。

S703，基于阈值对重复矩阵进行压缩处理，得到最终重复矩阵，以删除重复率不高的区域；具体地，压缩处理的表达式为：

Final_Merge_P(m，n)表示最终重复矩阵；

该步骤中，由于重复矩阵Merge_P(m，n)较大，可根据参数集para_set中第二个参数coincidence_rate重复率进行计算用于筛选的阈值。

本实施例中，考虑到医学图像文件通常都较大，以像素为单位进行比对时，对计算资源的需求很高，且比对时间较慢，为快速计算两张标注图像之前的重叠率，本申请中，设计了基于图像抽样与二维哈希的图像重叠率计算方法，具体如下：

如图5所示，所述步骤S704中，计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率，具体包括：

抽样后的单元格矩阵的大小为：m/x*n/x；

比较New_P1(m/x，n/x)与New_P2(m/x，n/x)的纵向哈希值，计算出两行哈希值中不同的行数为difn；

重复率的表达式为：

具体地，在m和n方向进行x：1抽样过程中，x的取值优选为10。

以取值10为例，抽样后，矩阵为：New_P1(m/10，n/10)与New_P2(m/10，n/10)，其大小为m/10*n/10，将原图片大小缩小100倍。

进一步地，如图6所示，对于New_P1(m/10，n/10)与New_P2(m/10，n/10)，分别以行列为单位，采用FarmHash函数，计算横向每一行与纵向每一列的哈希值，FarmHash函数将行或者列的0-1矩阵作为输入，输出一个64位的唯一哈希值，获得大小为[1，m/10]的纵向哈希特征和[1，n/10]的横向哈希特征。

本发明还提供了一种存储设备，其中存储有多条指令，所述指令适于由处理器加载并执行如上述的基于图像比对的医学图像数据众包标注方法。

所述存储设备可为一计算机可读存储介质，可以包括：ROM、RAM、磁盘或光盘等。

本发明还提供了一种终端，所述终端可包括：

处理器，适于实现各指令；以及

存储设备，适于存储多条指令，所述指令适于由处理器加载并执行如上述的基于图像比对的医学图像数据众包标注方法。

所述终端可为台式电脑、手提电脑等，具体可以通过软件和/或硬件来实现。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法、装置及系统中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定的编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于图像比对的医学图像数据众包标注方法，其特征在于：包括：

S10，制定标注任务；

S70，对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档。

2.根据权利要求1所述的基于图像比对的医学图像数据众包标注方法，其特征在于：还包括：

在众包标注端上设置有培训模块，以对标注者进行标注前培训。

3.根据权利要求1所述的基于图像比对的医学图像数据众包标注方法，其特征在于：所述标注任务包括：本次标注的疾病诊断、图像类型、参数集；参数集的表达式为：para_set＝{grid_size，coincidence_rate，threshold_value}；

4.根据权利要求3所述的基于图像比对的医学图像数据众包标注方法，其特征在于：所述步骤S70，对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；具体包括：

S702，将k个标注图像进行叠加处理，得到重复矩阵；

5.根据权利要求3所述的基于图像比对的医学图像数据众包标注方法，其特征在于：所述步骤S704中，计算每个标注结果对应的单元格矩阵与最终重复矩阵的重叠率，具体包括：

抽样后的单元格矩阵的大小为：m/x*n/x；

重复率的表达式为：

6.根据权利要求5所述的基于图像比对的医学图像数据众包标注方法，其特征在于：所述步骤S702中，重复矩阵的表达式为：

式(1)中，Merge_P(m，n)表示重复矩阵；

所述步骤S703中，压缩处理的表达式为：

式(2)中，ROUND(coincidence_rate*K)表示K个图像重合率的四舍五入值；Final_Merge_P(m，n)表示最终重复矩阵。

7.根据权利要求3所述的基于图像比对的医学图像数据众包标注方法，其特征在于：所述步骤S20中，对医学图像校验，包括：格式校验和内容校验；

符合校验标准，具体为：格式校验和内容校验均为通过。

8.基于图像比对的医学图像数据众包标注系统，其特征在于：包括：运行维护端(10)、数据采集端(20)、中心服务端(30)和众包标注端(40)；

所述运行维护端(10)，用于制定标注任务；

所述数据采集端(20)，用于与医院PACS系统对接，并根据标注任务的需求，采集医学图像并校验，以及对符合校验标准的医学图像进行统计，得到采集到的图像数据量；

所述中心服务端(30)，用于将符合校验标准的医学图像归档，形成医学图像数据库；

以及将医学图像数据库中的医学图像进行分配至多个众包标注端(40)，以使每个医学图像被多个众包标注端(40)标注；

以及接收众包标注端(40)的标注结果，并对同一医学图像对应的多个标注图像进行融合，获取标注的最终结果并归档；

所述众包标注端(40)，根据标注方案和标注样例，对分配的医学图像进行标注，形成标注图像。

9.一种终端，其特征在于：包括：

存储器，用于存储计算机程序；

控制器，用于在执行所述计算机程序时实现如权利要求1至7任一项所述的基于图像比对的医学图像数据众包标注方法。