CN112331348A - 集标注、数据、项目管理和无编程化建模的分析方法和系统 - Google Patents

集标注、数据、项目管理和无编程化建模的分析方法和系统 Download PDF

Info

Publication number
CN112331348A
CN112331348A CN202011135088.XA CN202011135088A CN112331348A CN 112331348 A CN112331348 A CN 112331348A CN 202011135088 A CN202011135088 A CN 202011135088A CN 112331348 A CN112331348 A CN 112331348A
Authority
CN
China
Prior art keywords
data
labeling
user
algorithm
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011135088.XA
Other languages
English (en)
Other versions
CN112331348B (zh
Inventor
刘浩
吴日城
庄雯璟
冯赛
张佳琦
王子腾
吕晨翀
丁佳
胡阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yizhun Intelligent Technology Co ltd
Original Assignee
Beijing Yizhun Medical AI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhun Medical AI Co Ltd filed Critical Beijing Yizhun Medical AI Co Ltd
Priority to CN202011135088.XA priority Critical patent/CN112331348B/zh
Publication of CN112331348A publication Critical patent/CN112331348A/zh
Application granted granted Critical
Publication of CN112331348B publication Critical patent/CN112331348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明提出了一种集数据收集‑数据标注‑特征提取‑数据分析和模型搭建‑模型评估预测为一体的医学影像科研平台系统,该系统具有灵活配置、降低标注错误、提高标注效率等优势,同时适于缺乏工程经验人员利用临床数据实现实验分析。

Description

集标注、数据、项目管理和无编程化建模的分析方法和系统
技术领域
本发明涉及信息处理装置和方法,具体涉及一种集标注、数据、项目管理和无编程化建模的分析方法和系统。
背景技术
医学研究的方式正在改变,一方面医疗数据极速增长,为研究提供了大量素材;另一方面医生为工作和研究付出巨大的时间精力。于是,人工智能走入医学研究,医生发现临床需求,通过与人工智能公司合作,共同进行数据处理分析建立模型,快速产出科研成果。但是这种合作方式因需求的爆炸式增长以及沟通成本高、效率低下等因素有一定的局限性。医生若能自主应用人工智能进行临床研究,是最高效的解决方式。
医学影像智能分析包括:数据采集、数据标注、特征提取、数据分析等一系列复杂的流程,但目前主流的科研平台难以提供一系列完整、灵活的工具帮助研究人员完成整个医学影像分析的全过程。研究人员需要在不同软件中切换以完成研究项目中的各个步骤,导致数据管理困难、操作步骤繁杂等问题。尤其是数据分析步骤,通过传统的统计和机器学习工具建模过程繁杂,比如通过Python、R语言、SAS等工具编写代码,不仅对研究人员的工程素养的要求很高,而且繁杂的编码工作占用了研究人员大量的时间,降低了研究效率。部分图形化的工具,只能提供有限的几套预设的实验流程,虽然解决了医学研究者的部分需求,但是灵活性不足,研究者难以对实验进行调整。
有鉴于此,提出本发明。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的集标注、数据、项目管理和无编程化建模的分析方法和系统。
本发明的第一目的是提供一种用于医学影像数据分析的无编程化建模方法、系统、装置或平台。
本发明的第二目的是提供一种适于缺乏工程经验的科研人员利用临床数据实现实验分析的系统、系统、装置或平台。
为实现上述目的,本发明提出如下技术方案:
本发明提供一种用于医学影像数据分析的无编程化建模方法,所述方法包括:
模型组件化步骤、
实验流程图编辑步骤、
模型训练步骤、
模型评估步骤、
模型预测步骤;
在一些实施方式中,所述模型组件化为实验流程图编辑提供组件定义和超参数配置接口,用以显示在界面上供用户配置,为模型训练、评估和预测提供组件的具体实现以供调用;
在一些实施方式中,所述模型组件化步骤包括数据源组件化和算法组件化;
在一些优选的实施方式中,所述数据源组件提供对接不同数据源的接口,包括用户上传的特征文件和在标注系统中已经标注的标签,并转换为算法组件可以接收的数据结构;所述算法组件接收多组超参数的配置,并通过交叉验证的方法选出最优参数作为模型参数,相应的输出结果作为下一组件的输入;所述算法组件封装了大量的常用医学影像分析算法和医学统计算法,包括但不限于多中心临床数据集成算法、生存分析算法、决策曲线分析算法、病灶分类算法、病灶检测算法、病灶分割算法和病灶配准算法;。
在一些实施方式中,所述实验流程图编辑步骤,为用户提供可视化实验流程图编辑方式,用户通过将所需算法组件拖拽入实验画布中,通过点击组件弹出超参数配置页面,在页面为组件配置多组超参数,依次连接算法组件,完成对实验流程的有向无环图的定义;
在一些优选的实施方式中,在用户连接组件的同时,实验流程图编辑模块对连接的合法性进行检查,所述合法性包括先导节点输出能否作为后续节点的输入、组件是否有足够的数据输入;
在一些实施方式中,所述模型训练步骤根据流程图所指定的数据源组件,用用户上传的数据或者向标注系统请求已标注的图像或者用户录入的“键-值”对特征或者已经提取好的影像组学特征作为算法输入,创建模型训练环境,对流程图中的算法组件进行拓扑排序并依次运行;
在一些优选的实施方式中,每个组件运行完成后,都会将该组件运行结果以及运行过程中的信息发送到前端,由前端展示;若模型的所有组件均成功执行完成,则模型训练成功,用户可以选择是否在系统中保存该模型。
在一些实施方式中,所述模型评估步骤是对已保存的模型进行评估,所述模型评估步骤如下:用户选择所要评估的模型,配置评估的方法和用于评估的数据,载入运行环境,根据用户提供的数据和配置运行评估程序,最终将结果发送至前端展示。
在一些实施方式中,所述模型预测步骤是对已保存的模型进行评估,所述模型预测步骤如下:用户选择所要预测的模型,配置预测的方法和用于预测的数据,载入运行环境,根据用户提供的数据和配置运行预测程序,最终将结果发送至前端展示。
本发明还提供一种无编程化建模的医学影像数据分析系统或装置,所述分析系统或装置包括:
模型组件化模块、
实验流程图编辑模块、
模型训练模块、
模型评估模块、
模型预测模块。
所述模块根据上述任一项所述医学影像数据分析的无编程化建模方法进行数据分析。
本发明还提供一种计算机可读介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一所述医学影像数据分析的无编程化建模方法。
本发明还提供一种电子设备,包括处理器以及存储器,所述存储器上存储一条或多条可读指令,所述一条或多条可读指令被所述处理器执行时,实现上述任一项所述医学影像数据分析的无编程化建模方法。
本发明还提供一种集标注、特征提取、项目管理和无编程化建模的医学影像数据处理方法,所述方法包括如下步骤:
1)数据标注步骤,
2)影像组学特征提取步骤,
3)上述任一项无编程化建模方法的步骤;
4)项目管理步骤。
在一些实施方式中,所述1)数据标注步骤,是用于组织和管理用户的影像数据集,包括:数据导入、标注标签配置、数据标注、半自动标注和数据信息展示步骤。
在一些优选的实施方式中,所述数据导入步骤对接不同数据源,将来自不同数据源的数据转化为结构化数据归档并将其具体信息写入标注数据库;
在一些实施方式中,所述标注标签配置步骤为用户提供定义标签数据的数据结构的接口,包括:1)勾画标签的数据结构和2)“键-值”对标签的数据结构,并将相应信息保存到标签配置数据库中;当用户查询和修改标签数据结构时,标注标签配置的模块从数据库中读取已配置的信息;当用户打开标注页面进行标注时,标注标签配置的模块从数据库中读取配置信息供数据标注生成具体的标注页面;
在一些实施方式中,所述数据标注步骤的数据源来自标注数据库和标签配置模块,当用户进行标注时,首先请求标注标签配置模块获取当前数据集的标签配置,生成相应的标注页面,然后从标注数据库中读取已导入的数据供用户进行标注;
在一些实施方式中,所述半自动标注步骤为,数据标注模块发送影像及用户标注信息到半自动标注模块,半自动标注模块收到请求后,调用半自动标注算法,计算算法标注的结果,并将该信息通过请求发送给数据标注模块,数据标注模块收到该请求后,显示算法标注的结果,供用户查看和编辑;重复以上过程直至用户结束半自动标注;标注的过程中,数据标注模块实时检查标注数据的合法性,若存在问题则给出相应的提示和警告。
在一些实施方式中,所述2)影像组学特征提取步骤,根据用户配置的特征提取参数和已标注的病灶区域进行影像组学特征提取;
在一些优选的实施方式中,影像组学特征提取步骤为接收数据标注系统发出的请求,从中读取影像文件信息、影像勾画标签和特征提取配置,根据特征提取配置初始化特征提取算法运行环境,提取影像的组学特征,发送给特征标注系统,并由特征标注系统归档保存;
在一些实施方式中,所述4)项目管理步骤以项目的方式组织多个实验。
本发明还提供一种集标注、特征提取、项目管理和无编程化建模的医学影像数据处理系统或装置,所述数据处理系统或装置包括:
1)数据标注系统,
2)影像组学特征提取系统,
3)上述任一所述无编程化建模分析系统;
4)项目管理系统。
本发明还提供一种计算机可读介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一所述集标注、特征提取、项目管理和无编程化建模的医学影像数据分析方法。
本发明还提供一种电子设备,包括处理器以及存储器,所述存储器上存储一条或多条可读指令,所述一条或多条可读指令被所述处理器执行时,实现上述任一项所述集标注、特征提取、项目管理和无编程化建模的医学影像数据分析方法。
本发明的显著技术效果:
1)本发明集项目管理、数据管理、在线标注、模型搭建、模型训练、超参数调优以及模型评估等操作于一体,方便缺乏工程经验的科研人员利用临床数据做实验分析;
2)本发明可配置的标注系统,使科研人员可以根据自己的标注需求灵活地配置软件功能,系统还能根据用户的配置对用户标注的信息进行合法性检查,降低了标注错误的可能;
3)本发明集成半自动标注系统,提高标注效率;
4)本发明数据分析系统与影像组学特征提取系统分离,在用户完成一个样本的标注后即可以在后台根据用户提供的特征提取参数进行繁重的影像组学特征提取运算,避免了用户在进行影像数据分析时长时间的等待。
5)采用本发明的平台,实验者根据研究的目的和假设设计工作流后,即可按照基本的实验流程来进行实验设计和模型搭建。在本平台中通过添加并依次连接算法组件,就能快速定义一个影像组学或者深度学习实验流程,大大提高实验效率;
6)本发明内置丰富的影像组学及深度学习模型:将医学影像分析的两大主流方法集成在科研平台内,实验者可根据临床数据的数量以及实验目的等确定采用何种分析方式,每种分析方式均对应完整的图表类输出结果,方便实验者理解并展示实验结果。
附图说明
图1本发明系统流程图;
图2数据标注系统流程图;
图3影像组学特征提取流程图;
图4数据分析系统流程图;
图5模型组件和实验流程图编辑可视化界面。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
定义
除非在下文中另有定义,本文中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。提及本文中使用的技术意图指在本领域中通常所理解的技术,包括那些对本领域技术人员显而易见的技术的变化或等效技术的替换。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本发明。
如本文中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”及其在本文中的其它变体形式为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。
本申请所述集标注、数据、项目管理和无编程化建模的系统是一种集“数据收集-数据标注-特征提取-数据分析和模型搭建-模型评估-预测”为一体的医学影像科研平台(见图1),不作限制,可以包括:(1)数据标注系统,用于上传和管理影像数据,或直接接入PACS系统快速导入用户所需影像,根据用户配置生成标注页面,方便用户对影像数据进行标注,根据用户的标注内容生成标注数据摘要;(2)影像组学特征提取系统,根据用户配置的特征提取参数和已标注的病灶区域进行影像组学特征提取;(3)数据分析系统,为用户提供图形化的实验流程图编辑系统,用户可以通过添加算法组件、配置组件参数和依次连接实验步骤中的各个组件来快速构建模型,并在平台上方便地训练以及评估模型,已经训练好模型后可以应用于新数据的预测;(4)用户、项目以及权限管理系统:管理和组织用户以及项目,对用户的权限进行管理,保证数据安全的同时支持多中心研究需求。
在一些实施方式中,所述系统中数据标注系统用于组织和管理用户的数据集,可包括:数据导入模块、标注标签配置模块、数据标注模块、半自动标注模块和数据信息展示模块。其中,数据导入模块对接不同数据源,将来自不同数据源的数据转化为结构化数据归档并将其具体信息写入标注数据库。标注标签配置模块,为用户提供定义标签数据的数据结构的接口,包括:(1)勾画标签的数据结构和(2)“键-值”对标签的数据结构,并将相应信息保存到标签配置数据库中。用户查询和修改标签数据结构时,该模块从数据库中读取已配置的信息。当用户打开标注页面进行标注时,该模块从数据库中读取配置信息供数据标注模块生成具体的标注页面。数据标注模块的数据源来自标注数据库和标签配置模块。当用户进行标注时,数据标注模块首先请求标注标签配置模块获取当前数据集的标签配置,然后生成相应的标注页面,然后从标注数据库中读取已导入的数据供用户进行标注。用户标注过程中,使用半自动标注服务,数据标注模块发送影像及用户标注信息到半自动标注模块。半自动标注模块收到请求后,调用半自动标注算法,如:区域增长算法,计算算法标注的结果,并将该信息通过请求发送给数据标注模块。数据标注模块收到该请求后,显示算法标注的结果,供用户查看和编辑,重复以上过程直至用户结束半自动标注。标注的过程中,数据标注模块实时检查标注数据的合法性,若存在问题则给出相应的提示和警告。用户标注结束提交结果后,数据标注模块将标注数据保存至标注数据库。
在一些实施方式中,所述影像组学特征提取系统为,当用户完成一个样本的标注后,标注系统检查未发现错误即向影像组学特征提取系统发送请求。影像组学特征提取系统接收数据标注系统发出的请求,从中读取影像文件信息和影像勾画标签和特征提取配置,根据特征提取配置初始化特征提取算法运行环境,提取影像的组学特征,发送给特征标注系统,并由特征标注系统归档保存。
在一些实施方式中,所述项目管理系统以项目的方式组织多个实验,当用户创建新项目时,录入项目信息,并为项目分配唯一的识别号。当用户创建新实验时,录入实验信息,并选择实验的类型,如:影像组学实验或深度学习实验,项目管理系统为实验分配唯一的识别号,并保存相关信息。项目管理系统根据已有的项目和实验的信息,以列表的方式向用户展示相关信息。
数据分析系统包括:模型组件模块、实验流程图编辑模块、模型训练模块、模型评估模块、模型预测模块。模型组件模块将一系列算法封装为接收和输出确定数据结构数据的组件,模型组件模块为实验流程图编辑模块提供组件定义和超参数配置接口,用以显示在界面上供用户配置。模型组件模块为模型训练、评估、预测模型提供组件的具体实现,以供调用。模型组件分为数据源组件和算法组件。数据源组件提供对接不同数据源的接口,例如:用户上传的特征文件和在标注系统中已经标注的标签,并转换为算法组件可以接收的数据结构。算法组件接收多组超参数的配置,并通过交叉验证的方法选出最优参数作为模型参数,相应的输出结果作为下一组件的输入;具体的,所述算法组件化封装了大量的常用医学影像分析算法和医学统计算法,包括但不限于多中心临床数据集成算法、生存分析算法、决策曲线分析算法、病灶分类算法、病灶检测算法、病灶分割算法和病灶配准算法。实验流程图编辑模块,为用户提供一种可视化的实验流程图编辑方式,用户通过将所需算法组件拖拽入实验画布中,再点击组件弹出超参数配置页面,在页面可为组件配置多组超参数,依次连接算法组件,即可完成对实验流程的有向无环图的定义。用户连接组件的同时,实验流程图编辑模块对连接的合法性进行检查,例如:先导节点输出能否作为后续节点的输入、组件是否有足够的数据输入等。若用户编辑的实验流程图的完整性通过了检查,实验流程图编辑模块将用户编辑好的流程图,转换为结构化语言描述的有向无环图,发送给模型训练模块。模型训练模块根据流程图,创建模型训练环境,对流程图中的算法组件进行拓扑排序并依次运行。根据流程图所指定的数据源组件,模型训练模块用用户上传的数据或者向标注系统请求已标注的图像或者用户录入的“键-值”对特征或者已经提取好的影像组学特征作为算法输入。每个组件运行完成后,都会将该组件运行结果以及运行过程中的信息发送到前端,由前端展示。若模型的所有组件均成功执行完成,则模型训练成功,用户可以选择是否在系统中保存该模型。在模型评估模块中,可以对已保存的模型进行评估,其流程如下:用户选择所要评估的模型,配置评估的方法和用于评估的数据,模型评估模块根据所选模型的识别码在数据库中查询相应的模型,载入运行环境,根据用户提供的数据和配置运行评估程序,最终将结果发送至前端展示。模型预测模块流程同上。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,示出了本发明的一种科研平台系统,包括:数据标注系统、影像组学特征提取系统、数据分析系统、项目管理系统、用户权限管理系统。
用户权限管理系统将用户按照项目组进行组织,用户在系统中具有不同的角色,具有编辑角色权限的用户可以为不同角色分配不同的权限。用户可以查看同一项目组中其他成员创建的数据集和科研项目。用户权限管理系统保存用户的账号、密码、项目组、角色等信息,并根据用户账号以及密码发送用户相应的数据集和科研项目信息。系统预设一个管理员账号,具有账号系统全部权限。账号系统的权限包括:(1)角色管理:创建角色、编辑角色、查看角色;(2)组管理:创建组,编辑组,包括名称、备注、成员等信息、查看组;(3)用户管理:添加用户、编辑用户,包括:账号、密码、角色、组、账号状态等信息。
实施例2
由图2展示了本发明数据标注系统流程图。数据标注系统组织和管理用户的数据集,包括:数据导入模块、标注标签配置模块、数据标注模块、半自动标注模块和数据信息展示模块。
图2可知数据导入模块可对接不同数据源,将来自不同数据源的数据转化为结构化数据归档并将其具体信息写入标注数据库;比如可接入医院PACS系统,列出此时用户有权限访问的影像数据,用户选择数据导入后,该模块记录用户导入的影像信息,该模块还支持用户上传本地影像,并对用户上传的影像归档。
用户创建新数据集时,首先需要配置所需要标注的标签的信息。标注标签可分为两种类型:(1)“键-值”对组成的数据和(2)需要在用户影像上进行勾画,经过标注系统处理后转为结构化数据再存储下来的数据。标注标签配置模块,为用户提供了方便快捷地定义所要标注的标签的页面:对于“键-值”对类型的数据,用户根据页面提示给定一个标签的名称、数据类型、值域即可完成一项标注标签的定义;对于需要进行勾画的的标签,用户可以选择标注系统支持的勾画类型,例如:轮廓标注、矩形框标注等。标注标签配置模块,保存这些标签信息。
数据标注模块读取标注标签配置模块的标签信息,生成相应的影像标注页面使用户可以对照影像进行全部数据的录入,同时标注完成后,标注模块根据标签的数据类型和值域进行合法性检查,及时发现标注的错误。对于“键-值”类型标签,该模块还支持从表格文件中批量导入,并根据标签数据类型进行类型自动转换以及合法性检查,最后进行保存。
用户在对影像进行勾画标注时,可以选择半自动标注服务以提高标注效率,此时,数据标注模块将用户已给出的标注信息和用户选定的半自动标注算法以及相应参数发送给半自动标注模块,半自动模块根据算法参数创建算法运行环境并将用户已标注的信息作为算法输入,并将半自动标注算法的输出发送回数据标注模块,由数据标注模块在影像上显示,供用户编辑修改,如此反复直至标注完成。
数据标注系统还包括数据信息展示模块,该模块抽取系统中已标注完成的样本信息,并计算各个标签的统计数据摘要,将计算结果在患者、影像、病灶等不同维度上对数据进行可视化展示。
实施例3
图3展示了本发明医学影像组学特征提取系统的流程。影像组学特征提取系统与数据分析系统分离,用户在标注系统进行标注标签配置时,可以配置是否对某个模态的数据是否需要进行影像组学特征提取以及相应的影像组学特征提取参数。
当用户完成一个样本的标注提交结果时,数据标注模块在保存新标注的同时,请求影像组学特征提取系统,发送相关的影像信息和标注信息。影像组学特征提取系统接收到请求后,在后台运行影像组学特征提取程序,进行繁重的特征提取计算。待运算结束后,影像组学特征提取系统请求数据标注模块,发送特征提取结果。数据标注模块收到请求,将特征提取程序运行状态以及相应的结果转换为结构化数据存入标注数据库中。若特征提取成功,则记录该样本特征提取成功,并保存相应的影像组学特征,若失败,则记录该样本特征提取失败,并记录影像组学特征提取系统反馈的错误信息。当用户在标注页面查看该病灶时,标注系统显示该样本特征提取是否成功的状态,若失败同时向用户展示错误信息。
本发明还包括项目管理系统,以项目的方式组织多个实验,当用户创建新项目时,录入项目信息,并为项目分配唯一的识别号。当用户创建新实验时,录入实验信息,并选择实验的类型,如:影像组学实验或深度学习实验,项目管理系统为实验分配唯一的识别号,并保存相关信息。项目管理系统根据已有的项目和实验的信息,以列表的方式向用户展示相关信息。
实施例四
图4展示了本发明数据分析系统流程图。数据分析系统是本科研平台的核心部分,包括:模型组件化模块、实验流程图编辑模块、模型训练模块、模型评估模块、模型预测模块。
其中,模型组件化模块将一系列算法封装为接收和输出确定数据结构数据的组件,模型组件模块为实验流程图编辑模块提供组件定义和超参数配置接口,用以显示在界面上供用户配置。模型组件模块为模型训练、评估、预测模型提供组件的具体实现,以供调用。
模型组件分为数据源组件和算法组件。比如,组件接收多组超参数的配置,并通过交叉验证的方法选出最优参数作为模型参数,相应的输出结果作为下一组件的输入。实验流程图编辑模块,为用户提供一种可视化的实验流程图编辑方式,用户通过将所需算法组件拖拽入实验画布中,再点击组件弹出超参数配置页面,在页面可为组件配置多组超参数,依次连接算法组件,即可完成对实验流程的有向无环图的定义。用户连接组件的同时,实验流程图编辑模块对连接的合法性进行检查,例如:先导节点输出能否作为后续节点的输入、组件是否有足够的数据输入等。若用户编辑的实验流程图的完整性通过了检查,实验流程图编辑模块将用户编辑好的流程图,转换为结构化语言描述的有向无环图,发送给模型训练模块。示例性的,图5展示了一种基于本发明的模型组件和实验流程图编辑的可视化界面图。
根据流程图可知,模型训练模块创建模型训练环境,对流程图中的算法组件进行拓扑排序并依次运行。根据流程图所指定的数据源组件,模型训练模块用用户上传的数据或者向标注系统请求已标注的图像或者用户录入的“键-值”对特征或者已经提取好的影像组学特征作为算法输入。每个组件运行完成后,都会将该组件运行结果以及运行过程中的信息发送到前端,由前端展示。若模型的所有组件均成功执行完成,则模型训练成功,用户可以选择是否在系统中保存该模型。
在模型评估模块中,可以对已保存的模型进行评估,其流程如下:用户选择所要评估的模型,配置评估的方法和用于评估的数据,模型评估模块根据所选模型的识别码在数据库中查询相应的模型,载入运行环境,根据用户提供的数据和配置运行评估程序,最终将结果发送至前端展示。
在模型预测模块中,可以对已保存的模型进行预测,流程如下:用户选择所要预测的模型,配置预测的方法和用于预测的数据,模型预测模块根据所选模型的识别码在数据库中查询相应的模型,载入运行环境,根据用户提供的数据和配置运行预测程序,最终将结果发送至前端展示。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。附图中仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
还应当理解的是,以上结合附详细说明了本发明的技术方案,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于医学影像数据分析的无编程化建模方法,其特征在于,所述方法包括:
模型组件化步骤、
实验流程图编辑步骤、
模型训练步骤、
模型评估步骤、
模型预测步骤;
所述模型组件化步骤包括数据源组件化和算法组件化;
所述数据源组件提供对接不同数据源的接口,包括用户上传的特征文件、在标注系统中已经标注的标签,并转换为算法组件可以接收的数据结构;所述算法组件接收多组超参数的配置,并通过交叉验证的方法选出最优参数作为模型参数,相应的输出结果作为下一组件的输入;所述算法组件封装常用医学影像分析算法和医学统计算法,包括多中心临床数据集成算法、生存分析算法、决策曲线分析算法、病灶分类算法、病灶检测算法、病灶分割算法和病灶配准算法;
所述实验流程图编辑步骤,为用户提供可视化实验流程图编辑方式,用户通过将所需算法组件拖拽入实验画布,通过点击组件弹出超参数配置页面,在页面为组件配置多组超参数,依次连接算法组件,完成对实验流程的有向无环图的定义;
优选的,在用户连接组件的同时,实验流程图编辑模块对连接的合法性进行检查,所述合法性包括先导节点输出能否作为后续节点的输入、组件是否有足够的数据输入;
所述模型训练步骤根据流程图所指定的数据源组件,用用户上传的数据或者向标注系统请求已标注的图像或者用户录入的“键-值”对特征或者已经提取好的影像组学特征作为算法输入,创建模型训练环境,对流程图中的算法组件进行拓扑排序并依次运行;
优选的,每个组件运行完成后,都会将该组件运行结果以及运行过程中的信息发送到前端,由前端展示;若模型的所有组件均成功执行完成,则模型训练成功,用户可以选择是否在系统中保存该模型。
所述模型评估步骤是对已保存的模型进行评估,
所述模型预测步骤是对已保存的模型进行评估。
2.权利要求1所述的用于医学影像数据分析的无编程化建模方法,其特征在于:
所述模型评估步骤如下:用户选择所要评估的模型,配置评估的方法和用于评估的数据,载入运行环境,根据用户提供的数据和配置运行评估程序,最终将结果发送至前端展示;
所述模型预测步骤如下:用户选择所要预测的模型,配置预测的方法和用于预测的数据,载入运行环境,根据用户提供的数据和配置运行预测程序,最终将结果发送至前端展示。
3.一种医学影像数据处理方法,其特征在于,所述方法包括如下步骤:
1)数据标注步骤,
2)医学影像组学特征提取步骤,
3)权利要求1-2任一所述无编程化建模方法的步骤;
4)项目管理步骤。
4.权利要求3所述的数据处理方法,其特征在于:
所述2)医学影像组学特征提取步骤,根据用户配置的特征提取参数和已标注的病灶区域进行影像组学特征提取;优选的,所述影像组学特征提取步骤为接收数据标注系统发出的请求,从中读取影像文件信息、影像勾画标签和特征提取配置,根据特征提取配置初始化特征提取算法运行环境,提取影像的组学特征,发送给特征标注系统,并由特征标注系统归档保存。
5.权利要求3-4的集标注、特征提取、项目管理和无编程化建模的医学影像数据分析方法,其特征在于:
所述1)数据标注步骤,是用于组织和管理用户的影像数据集,包括:数据导入、标注标签配置、数据标注、半自动标注和数据信息展示步骤。
优选的:
所述数据导入步骤对接不同数据源,将来自不同数据源的数据转化为结构化数据归档并将其具体信息写入标注数据库;
所述标注标签配置步骤为用户提供定义标签数据的数据结构的接口,包括:1)勾画标签的数据结构和2)“键-值”对标签的数据结构,并将相应信息保存到标签配置数据库中;当用户查询和修改标签数据结构时,标注标签配置的模块从数据库中读取已配置的信息;当用户打开标注页面进行标注时,标注标签配置的模块从数据库中读取配置信息供数据标注生成具体的标注页面;
所述数据标注步骤的数据源来自标注数据库和标签配置模块,当用户进行标注时,首先请求标注标签配置模块获取当前数据集的标签配置,生成相应的标注页面,然后从标注数据库中读取已导入的数据供用户进行标注;
所述半自动标注步骤为,数据标注模块发送影像及用户标注信息到半自动标注模块,半自动标注模块收到请求后,调用半自动标注算法,计算算法标注的结果,并将该信息通过请求发送给数据标注模块,数据标注模块收到该请求后,显示算法标注的结果,供用户查看和编辑;重复以上过程直至用户结束半自动标注;标注的过程中,数据标注模块实时检查标注数据的合法性,若存在问题则给出相应的提示和警告;
所述4)项目管理步骤以项目的方式组织多个实验。
6.一种无编程化建模的医学影像数据分析系统或装置,其特征在于,所述分析系统或装置包括:
模型组件化模块、
实验流程图编辑模块、
模型训练模块、
模型评估模块、
模型预测模块;
所述模型组件化模块包括数据源组件和算法组件;优选的,所述数据源组件提供对接不同数据源的接口,包括用户上传的特征文件和在标注系统中已经标注的标签,并转换为算法组件可以接收的数据结构;所述算法组件接收多组超参数的配置,并通过交叉验证的方法选出最优参数作为模型参数,相应的输出结果作为下一组件的输入;更优选的,所述算法组件化封装了大量的常用医学影像分析算法和医学统计算法,包括但不限于多中心临床数据集成算法、生存分析算法、决策曲线分析算法、病灶分类算法、病灶检测算法、病灶分割算法和病灶配准算法;
所述实验流程图编辑模块,为用户提供可视化实验流程图编辑方式,用户通过将所需算法组件拖拽入实验画布中,通过点击组件弹出超参数配置页面,在页面为组件配置多组超参数,依次连接算法组件,完成对实验流程的有向无环图的定义;优选的,在用户连接组件的同时,实验流程图编辑模块对连接的合法性进行检查,所述合法性包括先导节点输出能否作为后续节点的输入、组件是否有足够的数据输入;
所述模型训练模块根据流程图所指定的数据源组件,用用户上传的数据或者向标注系统请求已标注的图像或者用户录入的“键-值”对特征或者已经提取好的影像组学特征作为算法输入,创建模型训练环境,对流程图中的算法组件进行拓扑排序并依次运行;优选的,每个组件运行完成后,都会将该组件运行结果以及运行过程中的信息发送到前端,由前端展示;若模型的所有组件均成功执行完成,则模型训练成功,用户可以选择是否在系统中保存该模型。
所述模型评估模块可对已保存的模型进行评估,
所述模型预测模块可对已保存的模型进行评估。
7.一种数据处理系统或装置,其特征在于,所述系统或装置包括如下系统:
1)数据标注系统,
2)影像组学特征提取系统,
3)权利要求6-7任一所述的分析系统;
4)项目管理系统;
所述2)医学影像组学特征提取系统,是根据用户配置的特征提取参数和已标注的病灶区域进行影像组学特征提取;优选的,所述影像组学特征提取为接收数据标注系统发出的请求,从中读取影像文件信息、影像勾画标签和特征提取配置,根据特征提取配置初始化特征提取算法运行环境,提取影像的组学特征,发送给特征标注系统,并由特征标注系统归档保存。
8.权利要求7所述的数据处理系统或装置,其特征在于:
所述1)数据标注系统,用于组织和管理用户的影像数据集,包括:数据导入、标注标签配置、数据标注、半自动标注和数据信息展示步骤。
优选的:
所述数据导入系统对接不同数据源,将来自不同数据源的数据转化为结构化数据归档并将其具体信息写入标注数据库;
所述标注标签配置为用户提供定义标签数据的数据结构的接口,包括:1)勾画标签的数据结构和2)“键-值”对标签的数据结构,并将相应信息保存到标签配置数据库中;当用户查询和修改标签数据结构时,标注标签配置的模块从数据库中读取已配置的信息;当用户打开标注页面进行标注时,标注标签配置的模块从数据库中读取配置信息供数据标注生成具体的标注页面;
所述数据标注的数据源来自标注数据库和标签配置模块,当用户进行标注时,首先请求标注标签配置模块获取当前数据集的标签配置,生成相应的标注页面,然后从标注数据库中读取已导入的数据供用户进行标注;
所述半自动标注为,数据标注模块发送影像及用户标注信息到半自动标注模块,半自动标注模块收到请求后,调用半自动标注算法,计算算法标注的结果,并将该信息通过请求发送给数据标注模块,数据标注模块收到该请求后,显示算法标注的结果,供用户查看和编辑;重复以上过程直至用户结束半自动标注;标注的过程中,数据标注模块实时检查标注数据的合法性,若存在问题则给出相应的提示和警告;
所述4)项目管理系统以项目的方式组织多个实验。
9.一种计算机可读介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-5任一所述方法。
10.一种电子设备,包括处理器以及存储器,所述存储器上存储一条或多条可读指令,所述一条或多条可读指令被所述处理器执行时,实现权利要求1-5任一所述方法。
CN202011135088.XA 2020-10-21 2020-10-21 集标注、数据、项目管理和无编程化建模的分析方法和系统 Active CN112331348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135088.XA CN112331348B (zh) 2020-10-21 2020-10-21 集标注、数据、项目管理和无编程化建模的分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135088.XA CN112331348B (zh) 2020-10-21 2020-10-21 集标注、数据、项目管理和无编程化建模的分析方法和系统

Publications (2)

Publication Number Publication Date
CN112331348A true CN112331348A (zh) 2021-02-05
CN112331348B CN112331348B (zh) 2021-06-25

Family

ID=74311337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135088.XA Active CN112331348B (zh) 2020-10-21 2020-10-21 集标注、数据、项目管理和无编程化建模的分析方法和系统

Country Status (1)

Country Link
CN (1) CN112331348B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380378A (zh) * 2021-05-25 2021-09-10 复旦大学附属中山医院 在线协同的医学影像标注方法、装置及存储介质
CN113707289A (zh) * 2021-07-16 2021-11-26 联影智能医疗科技(北京)有限公司 医学人工智能平台及其搭建方法
CN113947377A (zh) * 2021-10-22 2022-01-18 浙江正泰仪器仪表有限责任公司 一种实验室管理系统
CN115810137A (zh) * 2023-02-09 2023-03-17 数据堂(北京)科技股份有限公司 一种交互式人工智能技术评测方案的构建方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146081A (zh) * 2017-06-27 2019-01-04 阿里巴巴集团控股有限公司 一种用于机器学习平台中快速创建模型项目的方法及装置
CN110400633A (zh) * 2019-03-05 2019-11-01 徐永强 基于临床数据的人工智能学习处理系统
US20200073560A1 (en) * 2018-09-04 2020-03-05 Genetic Intelligence, Inc. Methods for decentralized genome storage, distribution, marketing and analysis
CN111178449A (zh) * 2019-12-31 2020-05-19 浙江大学 结合计算机视觉特征和影像组学特征的肝癌图像分类方法和装置
CN111240662A (zh) * 2020-01-16 2020-06-05 同方知网(北京)技术有限公司 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
US20200185063A1 (en) * 2016-06-05 2020-06-11 Berg Llc Systems and methods for patient stratification and identification of potential biomarkers
CN111415728A (zh) * 2019-11-25 2020-07-14 刘雷 基于cnn和gan的ct图像数据自动分类方法及设备
CN111553478A (zh) * 2020-05-06 2020-08-18 西安电子科技大学 基于大数据的社区老年人心血管疾病预测系统与方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200185063A1 (en) * 2016-06-05 2020-06-11 Berg Llc Systems and methods for patient stratification and identification of potential biomarkers
CN109146081A (zh) * 2017-06-27 2019-01-04 阿里巴巴集团控股有限公司 一种用于机器学习平台中快速创建模型项目的方法及装置
US20200073560A1 (en) * 2018-09-04 2020-03-05 Genetic Intelligence, Inc. Methods for decentralized genome storage, distribution, marketing and analysis
CN110400633A (zh) * 2019-03-05 2019-11-01 徐永强 基于临床数据的人工智能学习处理系统
CN111415728A (zh) * 2019-11-25 2020-07-14 刘雷 基于cnn和gan的ct图像数据自动分类方法及设备
CN111178449A (zh) * 2019-12-31 2020-05-19 浙江大学 结合计算机视觉特征和影像组学特征的肝癌图像分类方法和装置
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN111240662A (zh) * 2020-01-16 2020-06-05 同方知网(北京)技术有限公司 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN111553478A (zh) * 2020-05-06 2020-08-18 西安电子科技大学 基于大数据的社区老年人心血管疾病预测系统与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王锡禹: ""基于Docker的医学数据可视化及分析平台"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380378A (zh) * 2021-05-25 2021-09-10 复旦大学附属中山医院 在线协同的医学影像标注方法、装置及存储介质
CN113707289A (zh) * 2021-07-16 2021-11-26 联影智能医疗科技(北京)有限公司 医学人工智能平台及其搭建方法
CN113707289B (zh) * 2021-07-16 2023-11-10 联影智能医疗科技(北京)有限公司 医学人工智能平台及其搭建方法
CN113947377A (zh) * 2021-10-22 2022-01-18 浙江正泰仪器仪表有限责任公司 一种实验室管理系统
CN115810137A (zh) * 2023-02-09 2023-03-17 数据堂(北京)科技股份有限公司 一种交互式人工智能技术评测方案的构建方法

Also Published As

Publication number Publication date
CN112331348B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN112331348B (zh) 集标注、数据、项目管理和无编程化建模的分析方法和系统
CN109584975B (zh) 医疗数据标准化处理方法及装置
Nelson et al. Five task clusters that enable efficient and effective digitization of biological collections
CN109062780B (zh) 自动化测试用例的开发方法及终端设备
US20070244921A1 (en) Method, apparatus and computer-readable medium to provide customized classification of documents in a file management system
US20020178184A1 (en) Software system for biological storytelling
CN110554995A (zh) 一种深度学习模型的管理方法及系统
Chen et al. Vis30k: A collection of figures and tables from ieee visualization conference publications
CN109101519B (zh) 信息采集系统和异构信息融合系统
CN110956029B (zh) 一种技术文档处理方法和系统
CN113868507A (zh) 结合rpa和ai的招投标信息获取方法、装置及电子设备
CN110851630A (zh) 一种深度学习标注样本的管理系统及方法
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN110059967B (zh) 一种应用于城市辅助决策分析的数据处理方法及装置
Oh et al. Mining protein data from two‐dimensional gels: Tools for systematic post‐planned analyses
CN108205564B (zh) 知识体系构建方法及系统
JP6811468B2 (ja) 情報処理装置、データ検索方法、プログラム、データ構造及びデータ処理システム
Greeff et al. Sharing taxonomic expertise between natural history collections using image recognition
CN112286879B (zh) 基于元数据的数据资产构建方法及装置
CN114581177A (zh) 产品推荐方法、装置、设备及存储介质
Alebrahim et al. Towards systematic selection of architectural patterns with respect to quality requirements
CN112363850A (zh) 一种dcwi无接口快速获取文档的系统
von Mering et al. DiSSCo Prepare Deliverable D1. 2-Report on Earth sciences use cases and user stories
Schmidt-Lebuhn et al. Efficient generation of training libraries for image classification models from photos of herbarium specimens
CN117555428B (zh) 一种人工智能交互方法、系统、计算机设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 3011, 2nd Floor, Building A, No. 1092 Jiangnan Road, Nanmingshan Street, Liandu District, Lishui City, Zhejiang Province, 323000

Patentee after: Zhejiang Yizhun Intelligent Technology Co.,Ltd.

Address before: 1106, 11 / F, Weishi building, No.39 Xueyuan Road, Haidian District, Beijing

Patentee before: Beijing Yizhun Intelligent Technology Co.,Ltd.