CN116188953A

CN116188953A - 实现数据安全的医学影像数据处理方法、系统和电子设备

Info

Publication number: CN116188953A
Application number: CN202211642024.8A
Authority: CN
Inventors: 杨风雷; 赵胜钢; 张秀梅
Original assignee: Beijing Wanfang Medical Information Technology Co ltd
Current assignee: Beijing Wanfang Medical Information Technology Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-30

Abstract

本发明提供了一种实现数据安全的医学影像数据处理方法、系统和电子设备，涉及医学影像的技术领域，该方法包括：对原始数据进行数据检查和匿名化处理，生成待处理数据；根据用户数据处理要求，利用决策模型进行预测，生成数据分析执行流和交互频率参数；数据分析执行流包括数据处理环节和建模环节；由执行服务器对待处理数据进行处理，完成数据处理环节的数据分析；基于数据分析执行流进行相应的模型构建，生成服务器综合模型，用于对输入数据进行预测并结合数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理，缓解了现有技术中数据安全性低、处理效率低的技术问题，达到了提高数据处理安全性和处理效率的技术效果。

Description

实现数据安全的医学影像数据处理方法、系统和电子设备

技术领域

本发明涉及医学影像技术领域，尤其是涉及一种实现数据安全的医学影像数据处理方法、系统和电子设备。

背景技术

医学影像数据(如：神经影像数据以及其他医学数据)通常来源于医院，在利用某一个医院的医学影像数据对AI模型进行训练时，由于每个医院覆盖人口的区域分布特点，所训练的模型通常会存在泛化能力不够的问题，从而无法更好的应用于医学实践中。对此，解决方法一般是通过聚合不同医院的医学影像数据，共同训练一个高性能的综合模型。但是，由于伦理和相关规则(安全等考虑)的要求，各医院无法把相关医学影像数据共享出来；同时，由于每个医院的设备、工作习惯等的差异，各医院的医学影像数据也面临不同特征的问题。

另外，在医学影像(尤其是神经影像)的数据处理过程中，通常需要结合不同的研究目标，进行不同环节的处理计算，比如预处理、特征抽取、统计分析、建模等，而这些处理环节将涉及到众多的软件包。为了正确、高效地利用这些软件，数据处理人员需要深度理解这些软件背后的算法、参数、结果格式和含义、设计方法等。对于神经科学的研究人员而言，使用门槛较高，学习难度大、耗时长。也就是说，现有结合各医院的医学影像数据进行数据处理的方案，存在数据安全性低、处理难度大、处理效率低的问题。

发明内容

本发明的目的在于提供一种实现数据安全的医学影像数据处理方法、系统和电子设备，以缓解现有技术中存在的数据安全性低、处理难度大、处理效率低的技术问题。

第一方面，本发明实施例提供了一种实现数据安全的医学影像数据处理方法，应用于服务器，上述服务器包括：执行服务器和核心服务器；上述方法包括：对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据；

根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数；其中，上述决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；上述交互频率参数用于表示上述执行服务器与上述核心服务器之间的交互频率；上述数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；上述医学影像数据分析环节包括：数据处理环节和建模环节；

基于上述数据分析执行流，由上述执行服务器对上述待处理数据进行处理，以完成上述数据处理环节的数据分析；

基于上述数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成上述建模环节的模型构建；上述服务器综合模型用于对输入数据进行预测，并结合上述数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。

在一些可能的实施方式中，对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据的步骤，包括：按照预定义的数据格式对预先获取的原始数据进行检查；如果上述原始数据不符合上述预定义的数据格式，则按照上述预定义的数据格式对上述原始数据进行格式转换；对上述原始数据的数据属性进行检查，确定上述原始数据满足分析条件；对不同采集参数下的上述原始数据进行处理，将上述原始数据转换为标准数据；对上述标准数据的头信息和面部特征信息进行去隐私化处理，生成待处理数据。

在一些可能的实施方式中，上述用户数据处理要求包括：数据处理目的、原始数据、数据处理期望、参与计算的存储和服务器；根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数的步骤之前，上述方法还包括：基于预先构建的医学影像数据处理知识库，生成训练数据库；上述医学影像数据处理知识库的框架包括多个一级类目；上述一级类目包括：处理目标、对象数据、分析环节、文件、任务；利用上述训练数据库对数据分析决策模型进行训练，生成训练好的数据分析决策模型。

在一些可能的实施方式中，根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数的步骤之前，上述方法还包括：获取上述交互频率参数和用户数据处理要求、参与计算的服务器个数以及上述数据分析执行流之间的预定义规则；上述预定义规则用于作为相关决策的依据推荐交互频率参数；基于服务器运行过程中的相关数据，采用机器学习方法构建决策推荐模型；上述决策推荐模型的输入为编码后的上述用户数据处理要求、服务器个数以及上述数据分析执行流；上述决策推荐模型的输出为交互频率参数；基于上述预定义规则和上述决策推荐模型，确定交互频率参数自动推荐决策模型。

在一些可能的实施方式中，根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数的步骤，包括：根据用户数据处理要求，利用训练好的数据分析决策模型进行预测，生成数据分析执行流；利用上述交互频率参数自动推荐决策模型进行预测，生成交互频率参数。

在一些可能的实施方式中，基于上述数据分析执行流进行相应的模型构建，生成服务器综合模型的步骤，包括：各上述执行服务器针对上述建模环节进行相应的模型训练，如果训练过程满足上述交互频率参数要求，则向上述核心服务器发送当前模型参数；上述核心服务器基于收到的上述当前模型参数生成综合模型参数，并将上述综合模型参数发送至每个上述执行服务器；每个上述执行服务器基于上述综合模型参数进行训练，重复执行参数交互的过程，直至当前模型达到相应标准，确定上述当前模型为服务器综合模型。

在一些可能的实施方式中，上述方法还包括：针对上述数据分析执行流中各环节的处理结果，分别计算数据质控指数；上述数据质控指数用于评估数据的可用性；针对上述最终处理结果生成结果评价参数。

第二方面，本发明实施例提供了一种实现数据安全的医学影像数据处理系统，应用于服务器，上述服务器包括：执行服务器和核心服务器；上述系统包括：数据生成模块，用于对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据；

模型预测模块，用于根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数；其中，上述决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；上述交互频率参数用于表示上述执行服务器与上述核心服务器之间的交互频率；上述数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；上述医学影像数据分析环节包括：数据处理环节和建模环节；

数据处理模块，用于基于上述数据分析执行流，由上述执行服务器对上述待处理数据进行处理，以完成上述数据处理环节的数据分析；

结果生成模块，用于基于上述数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成上述建模环节的模型构建；上述服务器综合模型用于对输入数据进行预测，并结合上述数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述第一方面任一项所述的方法。

本发明提供了一种实现数据安全的医学影像数据处理方法、系统和电子设备，该方法包括：首先对原始数据进行数据检查和匿名化处理，生成待处理数据；根据用户数据处理要求，利用决策模型进行预测，分别生成数据分析执行流和交互频率参数；其中，决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；医学影像数据分析环节包括：数据处理环节和建模环节；基于数据分析执行流，由执行服务器对待处理数据进行处理，完成数据处理环节的数据分析；基于数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成建模环节的模型构建；服务器综合模型用于对输入数据进行预测，并结合数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。通过该方法可以缓解现有技术中存在的数据安全性低、处理难度大、处理效率低的技术问题，实现了提高数据处理安全性和处理效率的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实现数据安全的医学影像数据处理方法的流程示意图；

图2为本发明实施例提供的一种实现数据安全的神经影像数据处理方法的流程示意图；

图3为本发明实施例提供的一种实现数据安全的医学影像数据处理系统的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

另外，在医学影像(尤其是神经影像)的数据处理过程中，通常需要结合不同的研究目标，进行不同环节的处理计算，比如预处理、特征抽取、统计分析、建模等，而这些处理环节将涉及到众多的软件包，据不完全统计，神经影像相关软件至少有几百种。为了正确、高效地利用这些软件，数据处理人员需要深度理解这些软件背后的算法、参数、结果格式和含义、设计方法等。对于神经科学的研究人员而言，由于他们往往具备较少的软件编程能力，这应该是一个非常困难的问题，尤其是在需要整合不同软件形成处理流时，更需要对软件之间的匹配性等进行深入理解，这些都是比较困难和耗时的问题。也就是说，现有结合各医院的医学影像数据进行数据处理的方案，存在数据安全性低、处理难度大、处理效率低的问题。

基于此，本发明实施例提供了一种实现数据安全的医学影像数据处理方法、系统和电子设备，以缓解上述问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种实现数据安全的医学影像数据处理方法进行详细介绍，参见图1所示的一种实现数据安全的医学影像数据处理方法的流程示意图，该方法应用于服务器，该服务器包括：执行服务器(client服务器)和核心服务器(server服务器)。该方法可以由电子设备执行，主要包括以下步骤S110至步骤S140：

S110：对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据；

为有效进行实现数据安全的医学影像数据处理，考虑到各个数据拥有方的数据可能存在差异情况，需要首先对数据进行相关检查处理。主要包括数据格式转换、数据选择、数据转换、数据匿名化等。

在本实施例中，该步骤S110具体包括：

(1)首先按照预定义的数据格式对预先获取的原始数据进行检查；如果原始数据不符合预定义的数据格式，则按照预定义的数据格式对原始数据进行格式转换；即，进行数据格式转换：对于存储中的数据对象，按照事先定义的数据组织方式(比如bids)进行检查，如果符合约定格式，则通过格式检查；如果数据不符合约定格式，则按照约定格式对数据对象进行格式转换；

(2)对原始数据的数据属性进行检查，确定原始数据满足分析条件；即，进行数据选择：主要对参与计算的神经影像数据是否符合要求的模态、质量要求等进行检查；

(3)对不同采集参数下的原始数据进行处理，将原始数据转换为标准数据；即，数据转换：对于参与计算的神经影像数据中存在的不同情况，比如不同的场强、不同的分辨率等，采用对抗生成网络、变分自编码器和流模型等将数据转换为相对统一的状况(同时保留原数据)；

(4)对标准数据的头信息和面部特征信息进行去隐私化处理，生成待处理数据。即，数据匿名化处理：一方面对数据的头信息进行处理，避免姓名和其他隐私信息存在，另一方面通过基于面部遮罩的面部特征去除方法等保证面部特征的匿名化；由此，数据检查工作完成。

此处数据检查后统一的数据格式、数据质量等，为后续灵活选择、自动执行数据处理流、高效率的数据处理建模奠定了数据基础。以上数据检查工作，均由位于各执行服务器上的统一脚本自动执行。

S120：根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数；

在本实施例中，用户数据处理要求包括：数据处理目的、原始数据、数据处理期望、参与计算的存储和服务器。

为最大限度的方便用户进行医学影像的相关数据处理，本方法提供一图形界面用于用户表达医学影像数据处理的相关要求。图形界面中供用户表达数据处理相关的要求内容可分为四类：分别是数据处理目的、数据本身(即原始数据)、数据处理期望、参与计算的存储和服务器等，(出于安全的考虑，可进行计算的服务器和存储等均为事先指定，且数据已保存在服务器和存储中)；参照下述的知识库框架，此处的数据处理目的内容主要包括：针对的疾病(可为空)、关注点等，数据本身相关内容包括：数据大小、格式、模态、目前位置(以及目录层次关系-比如受试、组别等)、属性(训练、测试、验证)等，数据处理期望相关内容包括：期望数据处理时间、拟占用空间、期望性能指标等；参与计算的存储和服务器内容包括存储名称、类型、位置、容量、ip以及执行服务器的名称、类型、位置、ip等(整体上，执行安全计算的服务器分为核心服务器(server)、执行服务器(client)两类，前者唯一，后者多个，建模中需要的训练、验证、测试数据集也在此处指定)。

在本实施例中，决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；交互频率参数用于表示执行服务器与核心服务器之间的交互频率；数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；医学影像数据分析环节包括：数据处理环节和建模环节。

在一种实施例中，上述方法还包括：基于预先构建的医学影像数据处理知识库，生成训练数据库；医学影像数据处理知识库的框架包括多个一级类目；一级类目包括：处理目标、对象数据、分析环节、文件、任务；利用训练数据库对数据分析决策模型进行训练，生成训练好的数据分析决策模型。

为实现数据安全的医学影像数据处理计算以及训练数据库的构建，首先构建医学影像数据处理知识库，其框架采用多层次多链接方法构建。作为一个具体的实例，知识库框架的类目关系如下所述：一级类目包括：处理目标、对象数据、计算过程(即：分析环节)、文件、任务等。

二级类目由一级类目细分得到，比如：处理目标下的类目包括：疾病、关注点、效率、性能等，对象数据下的类目包括：原始、转换、中间结果、最终结果等，计算过程下的类目包括：预处理、特征提取、统计分析、机器学习(浅层)建模、深度学习建模、可视化、数据质控、结果注释、辅助工具、处理策略等，文件下的类目包括：配置文件、数据文件、日志文件等，任务下的类目包括：文件传输任务、数据处理任务等。

三级类目由二级类目细分得到，比如：疾病下的类目可包括：痴呆、自闭等，关注点下的类目可包括：认知、社会认知、情绪、生活质量、躯体功能等，效率下的类目可包括运算时间、占用空间等，性能下的类目可包括准确率、召回率、显著性水平等，原始数据下的类目包括：人口学特征、组别、模态、场强、序列、附加特征、相关数据等，转换/中间结果下的类目包括：步骤、输入、算法、结果等，最终结果下的类目包括：统计分析结果(包括被试/组别、算法、结果)、模型建模结果(包括被试/组别、算法、模型)等；预处理下的类目包括格式转换、去除时间点、时间层校正、头动校正、标准化、回归协变量、去线性漂移、平滑、滤波、删除时间点、生成等，特征提取下的类目包括：统计指标、图论指标、结构网络、功能网络、特征选择及降维等，统计分析下的类目可包括：差异、相关、回归等，机器学习建模下的类目可包括：分类、聚类、集成等，深度学习下的类目可包括：基于cnn模型、基于rnn模型、基于注意力模型、集成模型等，数据质控下的类目可包括质控指标、质控方法等，结果注释下的类目可包括注释方法、注释算法等，辅助工具下的类目可包括格式转换、匿名化等，处理策略下的类目可包括分析策略、计算策略等；数据文件下的类目可包括原始文件、转换文件、中间过程文件、计算结果文件等；数据处理任务下的类目可包括：数据转换任务、预处理任务、特征提取任务、统计分析任务、机器学习任务、深度学习任务、可视化任务等。依次向下分解得到第四级、五级等类目，比如，认知类目可进一步细分为：计算、推理、解决问题、决策、感知、记忆、注意力、视空间、执行、学习、语言，社会认知类目可进一步细分为：人际关系、社会适应等，情绪类目可进一步细分为：焦虑、抑郁、敌意、迟钝、混乱等；图论指标类目可进一步细分为节点度、最短路径、聚类系数、全局效率、rich hub等，结构网络类目可进一步细分为：白质纤维、结构协变、结构因果等，功能网络类目可进一步细分为动态、静息态以及无向、有向等，质控指标类目可进一步细分为：信噪比、结构像和模板的差异、脑组织对称性、模板外的灰质、工具结果之间差异等，质控方法类目可进一步细分为监督方法、无监督聚类等，分析策略类目可进一步细分为单独分析、投票分析、多维分析等；以此类推，直至不可分。

另外，计算过程类目下的各细分类目均包含输入、输出、参数、算法、工具、步骤、模板(如有)等明细参数；对象数据类目下的各细分类目均包括数据总容量、格式、位置、小文件占比等细分类目。

知识库框架中的关系类别主要包括is-a和属性关系等。根据上述知识库框架，采用循证文献思路，对于已有明确高质量证据支持的处理目标、对象数据、计算过程等内容记录，建立知识库(实体和关系等知识内容可采用信息抽取方法或人工整理方法整体获得，所构建知识库本质上是一个知识图谱)。

在本实施例中，为得到数据分析决策模型，首先构建训练数据库，训练数据来自于上述医学影像数据处理知识库中内容并经过专家标注确认，具体的数据主要包括分析要求(主要包括疾病、关注点-标准化后构成一个编码文字序列，以及计算效率和性能要求-按照事先确定规则将效率和性能要求对应到极高、较高、高、中等等选项中-并构成编码文字序列)和数据分析执行流；数据分析执行流由一个或多个组件组成，组件主要指预处理、特征提取、统计分析、机器学习建模、深度学习建模、可视化、结果注释、处理策略等；组件由一个或多个模块组成，模块指应用于特定计算的特定算法，比如预处理中的头动校正算法(可有多个)；从这个角度看，数据分析执行流是一个有向图，节点是模块，边是顺序关系；数据分析要求的文字序列和

数据分析执行流的文字序列(均经过标准化处理)用下述方式进行表示；并5将训练数据按照7：1.5：1.5的比例分为训练、验证、测试集合。

分析要求的编码文字序列表达式构成为：其中的疾病、关注点等标准化后构成一个编码文字序列，计算效率、性能要求等按照事先确定规则将效率和性能要求对应到极高、较高、高、中等等选项并构成编码文字序列，之后

将文字序列联合在一起构成统一的文字序列(连接符号为逗号,)，比如：(阿0尔茨海默病,记忆,效率高,性能较高)。数据分析执行流文字序列表达式构成

为：其中的主要部分是组件，组件中包括模块，具体的算法和相关的参数设置推荐(用逗号连接)，采用分层的方法表示，组件之间采用”->”表示顺序关系，模块之间采用”＝>”表示顺序关系，并列关系用逗号”,”表示，比如：

(

5(预处理

(

(去除时间点,算法＝,first＝10,…)＝>(…)

)

0->(特征提取(…)＝>…)

->(…)

)

相应的，数据分析决策模型的输入为数据分析的相关要求，即疾病、关注点、计算效率和性能要求等(标准化后)组成的文字序列表达式。数据分析决策模型的输出为组件(即预处理、特征提取、统计分析、机器学习建模、深度学习建模、可视化、结果注释、处理策略等以及构成组件的具体模块等)5构成的文字序列表达式。模型采用序列-序列的生成模型，比如结合注意力的rnn，或T5等。

由数据分析决策模型，根据用户的数据分析要求，即可得到数据分析执行流。数据分析执行流中的软件相关预设参数根据循证文献预设，并标明来

源；数据对象相关的预设参数，由软件预先探测得到(包括用户预设部分)。0另外，参与计算的各执行服务器和核心服务器server之间的交互频率是一个非常重要的参数，它会影响到数据分析建模的效果和耗费时长等，因此，也对此参数进行自动推荐决策。

在一种实施例中，上述方法还包括：获取交互频率参数和用户数据处理要求、参与计算的服务器个数以及数据分析执行流之间的预定义规则；预定5义规则用于作为相关决策的依据推荐交互频率参数；基于服务器运行过程

中的相关数据，采用机器学习方法构建决策推荐模型；决策推荐模型的输入为编码后的用户数据处理要求、服务器个数以及数据分析执行流；决策推荐模型的输出为交互频率参数；基于预定义规则和决策推荐模型，确定交互频率参数自动推荐决策模型。

0也就是说，上述交互频率参数自动推荐决策模型包括两个部分：规则部分、机器学习模型部分。首先根据相关专家知识建立交互频率参数和用户处理数据的相关要求、服务器个数、上述推荐确定的数据分析执行流之间的规则，并根据规则进行相关决策；基于服务器运行过程中的相关数据，采用机器学习方法构建交互频率参数和用户处理数据的相关要求、服务器个数、上述推荐确定的数据分析执行流之间的相关模型(训练数据来自于经过专家标注确认的运行数据)，模型效果达到相关要求后按照模型执行决策推荐；其中，采用的算法包括基于神经网络的集成；模型的输入为用户处理数据的相关要求、服务器个数、上述推荐确定的数据分析执行流等(对相关参数进行编码)，模型输出为交互频率；模型的损失函数同时考虑最小执行时间、最优模型效果等目标。确定后的结果采用图形方式表达，并提供自定制选择。

在本实施例中，上述S120的步骤具体包括：根据用户数据处理要求，利用训练好的数据分析决策模型进行预测，生成数据分析执行流；利用交互频率参数自动推荐决策模型进行预测，生成交互频率参数。

也就是说，根据信息配置中用户对处理数据的相关要求，包括疾病、关注点和数据情况等，基于建立的数据分析决策模型，得到数据分析流的具体执行过程序列，包括预处理、特征提取、统计分析、机器学习建模、深度学习建模、结果注释、处理策略等，以及基于交互频率参数自动推荐决策模型生成的执行服务器(client)和核心服务器(server)之间交互频率等参数。

用户定制确认数据分析执行流后，在各执行服务器上即开始执行数据分析执行流(不包含机器学习建模、深度学习建模)，自动完成数据分析过程。之后各执行服务器开始执行系统建模过程(机器学习建模、深度学习建模)，并定期和核心服务器进行模型参数交互，直至模型达到相应标准后，停止建模过程。

S130：基于数据分析执行流，由执行服务器对待处理数据进行处理，以完成数据处理环节的数据分析；

即：本地执行过程，用户定制确认数据分析执行流后，在各执行服务器上即开始执行数据分析执行流(不包含机器学习建模、深度学习建模)，自动完成数据分析过程(比如一般包括的数据预处理、特征抽取、统计分析)。

数据分析过程中的中间结果文件以及结果文件均按照事先约定格式(比如参照bids)进行存放(按照日期、软件名称等进行结果标注，以作区分)。

S140：基于数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成建模环节的模型构建；服务器综合模型用于对输入数据进行预测，并结合数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。

在一种实施例中，上述S140中基于数据分析执行流进行相应的模型构建，生成服务器综合模型的步骤，包括：各执行服务器针对建模环节进行相应的模型训练，如果训练过程满足交互频率参数要求，则向核心服务器发送当前模型参数；核心服务器基于收到的当前模型参数生成综合模型参数，并将综合模型参数发送至每个执行服务器；每个执行服务器基于综合模型参数进行训练，重复执行参数交互的过程，直至当前模型达到相应标准，确定当前模型为服务器综合模型。

即：协同建模过程，按照用户定制确认的数据分析执行流，各执行服务器开始执行系统建模过程(机器学习建模、深度学习建模)：按照信息配置中指定的训练、验证、测试数据集的划分，采用数据分析执行流中确定的机器学习(或深度学习)算法进行模型训练；过程中得到训练模型的中间结果(完成一个或几个epoch)后，如果满足上述推荐确定的交互频率要求，则执行服务器向核心服务器发送当前模型参数(可通过对称、非对称、同态加密等方法进行加密)；核心服务器对收到的执行服务器模型参数进行综合得到总体模型参数，之后核心服务器向各执行服务器发送新的总体模型参数(可通过对称、非对称、同态加密等方法进行加密)；各执行服务器以新的总体模型参数为基线，重新开始上述建模流程，直至模型达到相应标准后，停止建模过程。

上述的模型参数综合方法过程为：确定执行服务器权重，首先得到各执行服务器上的训练样本数目X(向量)，之后求各执行服务器训练样本数(SUM)占总训练样本数的比例(0-1之间，Y-向量)，按照各执行服务器训练样本数占总训练样本数的比例的区间位置(比如0-0.2设为0.1，0.2-0.4设为0.3等)，分别设定各执行服务器权重比例为Z(向量)；计算综合模型各个参数，对各执行服务器的模型中的对应参数，分别乘以各自权重后求和平均后得到。

对于上述的高性能模型，将执行服务器上输入内容输入模型中(含之前的数据处理计算)，得到模型输出结果(含执行其他计算)。

在一种实施例中，上述方法还包括：针对数据分析执行流中各环节的处理结果，分别计算数据质控指数；数据质控指数用于评估数据的可用性；针对最终处理结果生成结果评价参数。

数据质控主要从数据分析的整个过程(伴随数据分析过程进行)进行评价，从而为合理的看待结果提供过程依据。此外，该方法还可以包括模型评价部分，模型评价主要是从数据分析执行本身对结果进行客观的评价。

也就是说，此步骤主要包括数据质控、模型评价等部分。其中，模型评价主要是从数据分析执行本身对结果进行客观的评价；而数据质控主要从数据分析的整个过程(伴随数据分析过程进行)进行评价，从而为合理的看待结果提供过程质量依据。

这里的模型评价，主要通过提供不同的评价参数，使得针对结果本身进行客观的认识。评价参数包括统计分析中的显著性水平、相关系数大小、回归系数大小、机器学习模型的准确率、召回率、F1、ROC、AUC等。

数据质控的结果是无量纲数字(针对每一个数据对象等)，称为数据质控指数(0-100)，根据指数的大小分为几个范围：小于60则数据不可用(此状态下的数据不会参与数据分析过程)，60-80则数据可用，大于80则数据较好。

数据质控指数的计算过程，比如对于结构像，首先提取影像数据的特征数据-包括参数差异(比如重复时间)、信噪比、结构像和模板的差异、脑组织对称性、模板外的灰质、不同工具计算结果之间差异等，对这些数据进行标准化和归一化后(根据事先确定的金标准结构像及其数值进行标准化、归一化)，对各数据进行加权计算(权数事先通过德尔菲方法确定)并归一化到0-100之间。

数据分析的计算结果、结果评价、数据质控指数等参照事先确定的格式(比如bids)模式保存到用户指定的位置。

本实施例提供的上述方法结合医学影像和安全计算特点，通过知识库构建、信息配置、数据检查、数据分析流确定、数据分析、结果评价和获取结果等步骤实现保证数据安全的医学影像数据处理过程，在数据安全的前提下，提高了数据处理的效率和系统建模的效果。

数据分析、建模评价和数据质控等数据分析计算过程完成后，可通过本方法提供的图形界面查看建模模型和结果、下载模型和结果(根据需要)，以及利用模型进行进一步应用。

与现有技术相比，本发明实施例提供的一种实现数据安全的医学影像数据处理方法，通过界面配置医学影像数据处理的目标、数据相关情况等，可一站式选择、自动完成从预处理、特征提取、统计分析、机器学习建模、深度学习建模等的全过程。

作为一个具体的示例，结合图2，本实施例提供的一种实现数据安全的神经影像数据处理方法具体包括以下步骤：

S210知识库构建；为实现数据安全的神经影像数据处理计算，首先构建神经影像数据处理知识库，其框架采用多层次多链接方法构建。知识库框架的顶层类目包括：处理目标、对象数据、计算过程、文件、任务等。

S220信息配置；为最大限度的方便用户进行神经影像的相关数据处理，本方法提供一图形界面用于用户表达神经影像数据处理的相关要求。图形界面中供用户表达数据处理相关的要求内容可分为四类：分别是数据处理目的、数据本身(即原始数据)、数据处理期望、参与计算的存储和服务器等。

S230数据检查；为有效进行实现数据安全的神经影像数据处理，考虑到各个数据拥有方的数据可能存在差异情况，需要首先对数据进行相关检查处理。主要包括数据格式转换、数据选择、数据转换、数据匿名化等。

S240数据分析执行流确定；根据信息配置中用户对处理数据的相关要求，包括疾病、关注点和数据情况等，基于建立的数据分析决策模型，得到数据分析流的具体执行过程序列，包括预处理、特征提取、统计分析、机器学习建模、深度学习建模、结果注释、处理策略等，以及基于交互频率参数自动推荐决策模型生成的执行服务器和核心服务器之间交互频率等参数。

S250数据分析；用户定制确认数据分析执行流后，在各执行服务器上即开始执行数据分析执行流(不包含机器学习建模、深度学习建模)，自动完成数据分析过程。之后各执行服务器开始执行系统建模过程(机器学习建模、深度学习建模)，并定期和核心服务器进行模型参数交互，直至模型达到相应标准后，停止建模过程。

S260建模评价；此步骤主要包括数据质控、模型评价等部分。其中，模型评价主要是从数据分析执行本身对结果进行客观的评价；而数据质控主要从数据分析的整个过程(伴随数据分析过程进行)进行评价，从而为合理的看待结果提供过程依据。

S270模型应用；数据分析、模型评价和数据质控等计算分析过程完成后，可通过本方法提供的图形界面进行查看模型和结果、下载模型和结果(根据需要)，以及利用模型进行进一步的应用。

本方法基于循证的医学知识库和标准化后的文字序列表达式方法，可支持医学影像(如：神经影像)数据分析过程的自动推荐，和分析过程的参数设置自动推荐；在安全计算的基础上实现医学影像(如：神经影像)数据的高效计算，在完成系统建模的同时保证了数据安全(数据对非数据拥有方而言可用不可见)；采用分布式计算的方式进行系统建模，充分利用了多执行服务器的计算能力；本方法基于安全计算思路，综合了分布在各个不同区域的数据特征，提高了医学影像数据建模的效果，增强了模型的泛化能力；基于区间的思路进行系统模型参数的综合，避免了各分布数据之间可能存在的重复数据带来的影响，提高了系统建模的效果。

另外，本发明实施例还提供了一种实现数据安全的医学影像数据处理系统，应用于服务器，服务器包括：执行服务器和核心服务器；参见图3所示，该系统包括：数据生成模块310，用于对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据；

模型预测模块320，用于根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数；其中，决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；交互频率参数用于表示执行服务器与核心服务器之间的交互频率；数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；医学影像数据分析环节包括：数据处理环节和建模环节；

数据处理模块330，用于基于数据分析执行流，由执行服务器对待处理数据进行处理，以完成数据处理环节的数据分析；

结果生成模块340，用于基于数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成建模环节的模型构建；服务器综合模型用于对输入数据进行预测，并结合数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。

本申请实施例所提供的实现数据安全的医学影像数据处理系统可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描

述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属5领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。本申请实施例提供的实现数据安全的医学影像数据处理系统与上述实施例提供的实现数据安全的医学影像数据处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

0本申请实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图4为本申请实施例提供的一种电子设备的结构示意图，该电子设备400包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、5通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41

中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至

少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实0现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域

网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，5作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地

方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单

元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在0一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部

分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介5质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

0应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对5其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通

技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种实现数据安全的医学影像数据处理方法，其特征在于，应用于服务器，所述服务器包括：执行服务器和核心服务器；所述方法包括：

对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据；

根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数；其中，所述决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；所述交互频率参数用于表示所述执行服务器与所述核心服务器之间的交互频率；所述数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；所述医学影像数据分析环节包括：数据处理环节和建模环节；

基于所述数据分析执行流，由所述执行服务器对所述待处理数据进行处理，以完成所述数据处理环节的数据分析；

基于所述数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成所述建模环节的模型构建；所述服务器综合模型用于对输入数据进行预测，并结合所述数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。

2.根据权利要求1所述的实现数据安全的医学影像数据处理方法，其特征在于，对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据的步骤，包括：

按照预定义的数据格式对预先获取的原始数据进行检查；如果所述原始数据不符合所述预定义的数据格式，则按照所述预定义的数据格式对所述原始数据进行格式转换；

对所述原始数据的数据属性进行检查，确定所述原始数据满足分析条件；

对不同采集参数下的所述原始数据进行处理，将所述原始数据转换为标准数据；

对所述标准数据的头信息和面部特征信息进行去隐私化处理，生成待处理数据。

3.根据权利要求1所述的实现数据安全的医学影像数据处理方法，其特征在于，所述用户数据处理要求包括：数据处理目的、原始数据、数据处理期望、参与计算的存储和服务器；

根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数的步骤之前，所述方法还包括：

基于预先构建的医学影像数据处理知识库，生成训练数据库；所述医学影像数据处理知识库的框架包括多个一级类目；所述一级类目包括：处理目标、对象数据、分析环节、文件、任务；

利用所述训练数据库对数据分析决策模型进行训练，生成训练好的数据分析决策模型。

4.根据权利要求3所述的实现数据安全的医学影像数据处理方法，其特征在于，根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数的步骤之前，所述方法还包括：

获取所述交互频率参数和用户数据处理要求、参与计算的服务器个数以及所述数据分析执行流之间的预定义规则；所述预定义规则用于作为相关决策的依据推荐交互频率参数；

基于服务器运行过程中的相关数据，采用机器学习方法构建决策推荐模型；所述决策推荐模型的输入为编码后的所述用户数据处理要求、服务器个数以及所述数据分析执行流；所述决策推荐模型的输出为交互频率参数；

基于所述预定义规则和所述决策推荐模型，确定交互频率参数自动推荐决策模型。

5.根据权利要求4所述的实现数据安全的医学影像数据处理方法，其特征在于，根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数的步骤，包括：

根据用户数据处理要求，利用训练好的数据分析决策模型进行预测，生成数据分析执行流；

利用所述交互频率参数自动推荐决策模型进行预测，生成交互频率参数。

6.根据权利要求1所述的实现数据安全的医学影像数据处理方法，其特征在于，基于所述数据分析执行流进行相应的模型构建，生成服务器综合模型的步骤，包括：

各所述执行服务器针对所述建模环节进行相应的模型训练，如果训练过程满足所述交互频率参数要求，则向所述核心服务器发送当前模型参数；

所述核心服务器基于收到的所述当前模型参数生成综合模型参数，并将所述综合模型参数发送至每个所述执行服务器；

每个所述执行服务器基于所述综合模型参数进行训练，重复执行参数交互的过程，直至当前模型达到相应标准，确定所述当前模型为服务器综合模型。

7.根据权利要求1至6任意一项所述的实现数据安全的医学影像数据处理方法，其特征在于，所述方法还包括：

针对所述数据分析执行流中各环节的处理结果，分别计算数据质控指数；所述数据质控指数用于评估数据的可用性；

针对所述最终处理结果生成结果评价参数。

8.一种实现数据安全的医学影像数据处理系统，其特征在于，应用于服务器，所述服务器包括：执行服务器和核心服务器；所述系统包括：

数据生成模块，用于对预先获取的原始数据进行数据检查和匿名化处理，生成待处理数据；

模型预测模块，用于根据用户数据处理要求，利用预先生成的决策模型进行预测，分别生成数据分析执行流和交互频率参数；

其中，所述决策模型包括：数据分析决策模型和交互频率参数自动推荐决策模型；所述交互频率参数用于表示所述执行服务器与所述核心服务器之间的交互频率；所述数据分析执行流包括若干个医学影像数据分析环节以及相应顺序；所述医学影像数据分析环节包括：数据处理环节和建模环节；

数据处理模块，用于基于所述数据分析执行流，由所述执行服务器对所述待处理数据进行处理，以完成所述数据处理环节的数据分析；

结果生成模块，用于基于所述数据分析执行流进行相应的模型构建，生成服务器综合模型，以完成所述建模环节的模型构建；所述服务器综合模型用于对输入数据进行预测，并结合所述数据处理环节生成最终处理结果，以实现医学影像数据的自动安全分析处理。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。