CN116825326B

CN116825326B - 基于多源异构数据的疾病分析方法及系统

Info

Publication number: CN116825326B
Application number: CN202310600096.4A
Authority: CN
Inventors: 宋晓琴; 王重建; 李玉倩; 高景宏; 侯建; 刘晓田; 张利莹
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-12-12
Anticipated expiration: 2043-05-25
Also published as: CN116825326A

Abstract

本发明提供了一种基于多源异构数据的疾病分析方法及系统，包括构建用户画像；获取与每个医院的用户画像对应的分析程序，基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数；在Pod的容器中运行与Pod对应的子程序以处理与Pod对应的用户画像的数据并得到分析结果；将每个Pod的所述分析结果写入数据库中，利用Spark对数据库中的所述分析结果进行数据分析，得到与所述待分析疾病相关的统计信息。本发明不仅能对来自不同医院的异构数据分别进行处理，而且采用集群的方式处理，提高了疾病分析的效率。

Description

基于多源异构数据的疾病分析方法及系统

技术领域

本发明涉及疾病分析领域，尤其涉及基于多源异构数据的疾病分析方法及系统。

背景技术

随着信息化的不断深入，电子病例已经替代了纸质病例，众多的医院经年累月产生了海量的电子病例，而且这些临床数据每天都在不断增加。疾病是人体的一种状态，由于人体结构复杂，疾病或者患病也是一个复杂的过程，疾病这一人体状态是受到多方面的影响的，例如环境、遗传、人体免疫系统等，对于疾病的分析也需要从多个方面着手。医院中海量的临床数据是真实的人体患病数据，由于不同的人生活习惯、生活环境以及遗传和自身免疫不同，甚至疾病之间也会相互影响，需要通过多个方面对医院临床数据的分析，找到引起疾病的主要原因，并且可以获得药物对于疾病的影响，通过对医院临床数据的分析可以得到患者画像、疾病、药物等这些相关内容的关联关系。

但是不同的医院采用的信息系统不同，相同格式的文件的内容、数据单位等不同，而且还会涉及到不同的格式文件，例如电子病例为文档文件，CT图像、B超图像为图像文件等，根据这些数据对疾病进行分析是一项困难的任务，如果仅仅对某一个医院的电子病例进行分析，则对疾病的分析不够充分，如何快速的对不同医院、不同格式的临床数据进行分析是疾病分析中要重点解决的问题。

发明内容

针对不同医院的临床数据格式以及处理方式不同的问题，本发明提供了一种多源异构数据的疾病分析方法，所述方法包括以下步骤：

设置与待分析疾病对应的关键词，根据所述关键词对医院的数据库进行检索，得到特定字段含有所述关键词的用户临床数据，对所述临床数据进行数据脱敏，构建用户画像；

获取与每个医院的用户画像对应的分析程序，建立医院与分析程序的对应关系，基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数；所述分析程序包括至少一个分析子程序；

在Pod的容器中运行与Pod对应的子程序以处理与Pod对应的用户画像的数据并得到分析结果；

将每个Pod的所述分析结果写入数据库中，利用Spark对数据库中的所述分析结果进行数据分析，得到与所述待分析疾病相关的统计信息。

优选地，所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数，具体为：

若所述分析程序包括M个文本分析子程序和N个图像分析子程序，则要创建的Pod的种类为M+N，每个所述文本分析子程序对应Pod的个数为K；

图像分析子程序对应的Pod的个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定；

其中，M、K为正整数，N为自然数。

优选地，所述K的计算方式为：

设置文本分析子程序基本Pod个数L，具有最少用户画像个数的医院对应的文本分析子程序的Pod个数K＝L，其他医院对应的文本分析子程序的Pod个数其中β为其他医院用户画像个数与所述最少用户画像个数的比值；其中L为正整数。

优选地，所述图像分析子程序对应的Pod个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定，具体为：

获取K个文本分析子程序处理完一个用户画像对应数据的平均用时t1和图像分析子程序处理完一个用户画像对应数据的用时t2，则图像分析子程序对应的Pod个数为

优选地，所述将每个Pod的所述分析结果写入数据库中，具体为：

在Pod所在的节点的内存中存储Pod对应的分析结果，当一个用户画像对应的Pod中的分析子程序都处理完毕后，从Pod所在节点的内存中获取结果，并组合成一条记录插入到数据库中。

此外，本发明还提供了一种多源异构数据的疾病分析系统，所述系统包括以下模块：

检索模块，用于设置与待分析疾病对应的关键词，根据所述关键词对医院的数据库进行检索，得到特定字段含有所述关键词的用户临床数据，对所述临床数据进行数据脱敏，构建用户画像；

环境构建模块，用于获取与每个医院的用户画像对应的分析程序，建立医院与分析程序的对应关系，基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数；所述分析程序包括至少一个分析子程序；

处理模块，用于在Pod的容器中运行与Pod对应的子程序以处理与Pod对应的用户画像的数据并得到分析结果；

分析模块，用于将每个Pod的所述分析结果写入数据库中，利用Spark对数据库中的所述分析结果进行数据分析，得到与所述待分析疾病相关的统计信息。

其中，M、K为正整数，N为自然数。

优选地，所述K的计算方式为：

最后，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上所述的方法。

医院的接诊人数较多，产生的数据也较多，不同的医院采用的信息系统不同，电子病历、影像系统等也不同，数据量大、格式不同等多源异构数据是对疾病分析的难点。本发明针对上述问题，首先针对不同的医院的数据构建用户画像，由于不同医院的数据不同，构建的用户画像不同，则采用的分析程序也不同，而且有些医院的数据量较大，进一步设置不同数量的Pod运行分析程序的子程序，得到结果后进一步利用Spark进行数据的统计分析，分析出疾病的相关信息。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的流程图；

图2为医院、分析程序、分析子程序、Pod对应关系的示意图；

图3为本发明实施例二的结构图。

具体实施方式

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一个实施例

本发明提供了一种多源异构数据的疾病分析方法，所述方法包括以下步骤：

S101，设置与待分析疾病对应的关键词，根据所述关键词对医院的数据库进行检索，得到特定字段含有所述关键词的用户临床数据，对所述临床数据进行数据脱敏，构建用户画像；

不同疾病的名称不同，而且即使相同疾病也有不同的称呼或者简称，也受到医生的个人喜好的影响，电子病历中对于相同疾病的称呼不同，为了适应不同的医院以及医生的习惯，根据待分析疾病设置一个或多个关键词，根据这些关键词在不同医院的信息系统的数据库中进行检索。

数据库中不同字段的作用不同，有些字段包含有关键信息，而有些字段中的信息不是那么重要，例如待分析疾病为流感，关键词设为流感，如果“主要诊断”字段中包含“流感”，显然，这个字段中的信息显然要比“其他诊断”中包括的“流感”重要。

在一个优选地实施例中，所述根据所述关键词对医院的数据库进行检索，这里的数据库指电子病历数据库，在得到用户的电子病历数据库特定字段中包含有所述关键词后，从该医院的其他数据库获取以该用户为中心的其他临床数据，所述其他临床数据为与所述用户对应的化验单和/或影像科图像和/或护理单；也即用户临床数据为电子病历和/或化验单和/或影像科图像和/或护理单，当然用户临床数据还可以包括其他内容，例如治疗相关的信息。

在得到以用户为中心的临床数据后，为了保护个人隐私，对临床数据进行数据脱敏，构建用户画像，在一个具体实施例中，用户画像或者说用户画像对应的数据为用户临床数据。用户画像的唯一标识为用户在医院或者身份证的编号的哈希值。在一个具体实施例中，用户画像包括所述哈希值以及所述用户临床数据。

由于同一个用户可能会到两个甚至更多的医院看相同的病，在另外一个具体实施例中，在每个医院的用户画像构建完毕，还包括去重的步骤，所谓去重是在所述哈希值为用户身份证哈希值的情况下，比较不同医院的用户画像的唯一标识，如果不同医院的用户画像具有相同的唯一标识，则将数据量少的用户画像从对应医院的用户画像集合中删除，或者将数据量少的医院的用户画像合并到数据量大的医院的用户画像中，并从数据量少的医院的用户画像集合中删除对应用户的用户画像。

S102，获取与每个医院的用户画像对应的分析程序，建立医院与分析程序的对应关系，基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数；所述分析程序包括至少一个分析子程序。

不同医院的电子病历格式和内容项不同，这就需要对每个医院的用户画像分别进行分析，也即获取与每个医院的用户画像对应的分析程序，分析程序是和医院的临床数据密切相关的，而且对于不同的待分析疾病，构建的用户画像中包括了不同内容，这就需要不同的分析程序，有些疾病的用户画像包括了影像科图像例如CT，有些疾病的用户画像只有电子病历，对于包含图像的用户画像需要构建单独的分析子程序，这是由于图像的处理比较复杂。

在分析程序中至少包括了一个文本信息分析子程序，不同医院的分析程序中包括的分析子程序个数不同，其对应的Pod种类也不同。例如医院A电子病例和化验单为一个表单，则只需要一个文本分析子程序即可，医院B电子病例和化验单为两个表，则需要两个文本分析子程序。对于含有图像的用户画像数据，需要进一步设置图像分析子程序，而且不同种类的影像科图像有不同种类的分析子程序，例如CT图像对应一个分析子程序，MRI图像对应一个分析子程序。有些医院的电子病例直接包括了医学影像分析结果，这不必再设置与医学影像例如CT的图像分析子程序。分析程序具体划分为哪些分析子程序，本发明对此不作具体限定，在一个实施例中，可以只包含文本分析子程序这一种子程序，另外一个实施例中分析子程序包含文本分析子程序和图像分析子程序。表1示出了医院—分析程序—分析子程序的一个具体示例。

表1

在得到与医院对应的分析程序后，根据分析子程序个数和用户画像得到针对每个医院要创建的Pod的种类以及每个种类的个数，进一步建立子程序与Pod的对应关系，用户画像与Pod的对应关系。在一个具体实施例中，不同种类的Pod是指Pod的规格或者给Pod分配的资源不同，对于文本分析子程序对应的Pod，其分配的资源要比图像分析子程序较少；而且不同的图像分析子程序分配的资源也不同，对于图像分辨率大或者通过图像分析要得到结果多的图像分析子程序，其分配的资源也多。而且对于图像分析子程序分配GPU资源，而对于文本分析子程序不再分配GPU资源。

在一个具体实施例中，预设有多个不同规格的Pod，用户根据分析子程序要处理的数据选择不同规格或者分配有不同资源的Pod。这样分析程序开发人员或者数据分析人员无需关系Pod的创建以及设置，只需要通过页面配置分析子程序对应的Pod即可。沿用表1的内容，表2示出了医院—分析程序—分析子程序—Pod种类—Pod个数的示例。

表2

其中K1是医院A对应的文本分析子程序的Pod个数，K2是医院B对应的文本分析子程序的Pod个数，t1、t2在下文会进一步介绍。

图2示出了医院-分析程序-分析子程序-Pod的关系，其中Pod(J,K_J)的J表示Pod的种类，K_J表示该类Pod的数量。

在每个Pod中运行一个与Pod对应子程序对应的容器，在容器中运行有对应的分析子程序。在一个医院的用户画像处理完毕后，销毁与这个医院对应的所有Pod，然后根据下一个医院对应的Pod种类和每个种类对应Pod个数新建Pod。

S103，在Pod的容器中运行与Pod对应的子程序以处理与Pod对应的用户画像的数据并得到分析结果；

S104，将每个Pod的所述分析结果写入数据库中，利用Spark对数据库中的所述分析结果进行数据分析，得到与所述待分析疾病相关的统计信息。

Spark是一种大数据分析框架，利用Spark编写的代码很容易得到各种角度的分析结果，而且运行速度很快。

不同医院的用户画像个数不同，大型医院就诊人数多，用户画像也就多，反之亦然，对大型医院对应的分析程序分配的资源要多，这样才能更快的处理完所有数据。此外，不同的分析子程序处理速度也不同，文本类的分析子程序处理速度显然要比图像类的分析子程序快。所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数，具体为：

其中，M、K为正整数，N为自然数。

要创建的Pod的种类和分析子程序的个数或者说种类相同。在一个具体实施了中，根据分析对象进行分析子程序的划分，文本分析子程序为电子病历分析子程序、化验单分析子程序，图像分析子程序为B超图像分析子程序、CT图像分析子程序、X光图像分析子程序、核磁共振图像分析子程序。在另外一个实施例中，电子病历和化验单都是文本信息，将二者都划分为文本分析子程序进行分析。对于分析程序中包括的分析子程序划分方式不做具体限定，分析子程序划分的粒度是可调的。

由于文本的分析速度较快，对于文本分析子程序设置为K个容器，需要注意的是，不同医院的用户图像个数不同，则K值也不同。而图像分析子程序需要进行的运算速度慢，为了能够将文本分析子程序和图像分析子程序总的处理时间相同或相近，进一步的设置图像分析子程序对应的Pod个数是根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应的数据的用时确定。

在一个具体实施例中，用户画像对应的数据包括了文本分析子程序要处理的文本，如果有图像分析子程序，则用户画像对应的数据也包括了图像分析子程序要处理的图像。即，用户画像为用户在该医院所有的信息，包括但不限于电子病历、化验单、各种医学影像、治疗信息，还可以包括用户的住院、护理信息。

不同医院的用户画像个数不同，其数据量不同，所述K的计算方式为：

由于文本分析的速度较快，在一个具体实施例中，如果分析程序有多个文本分析子程序，则该分析程序中所有的文本分析子程序对应的Pod个数相同。L的大小和集群能够提供的计算资源有关，分析人员可以根据计算资源设置L的大小。

文本信息处理较快，图像信息处理较慢，对于同一个医院，二者要想在相同或相近的时间内完成，所述图像分析子程序对应的Pod个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定，具体为：

在一个具体实施例中，所述将每个Pod的所述分析结果写入数据库中，具体为：

在一个具体实施例中，为了节省资源，将Pod的分析结果发送给Pod所在节点的内存中是由Pod中的Pause容器执行，Pod中的执行分析子程序的容器将分析结果发送给Pause容器或者将结果写入到Pause容器和执行分析子程序的容器共享存储空间中，然后由执行分析子程序唤醒Pause容器，并通知Pause容器将结果写入节点的内存中。当一个用户画像对应的所有Pod分析子程序执行完毕后，节点的一个线程将结果写入数据库。

在另外一个实施例中，为了判断一个用户画像是否被对应的所有子程序处理完毕，在节点的内存中，设置一个标志串，标志串的第一个字段为用户唯一标识，后续字段分别表示用户画像对应的分析子程序是否处理完毕，如果处理完毕，分析子程序对应的字段设置为1，否则为0。如果后续字段都为1，则该用户画像被分析完毕，促使所述线程将结果写入所述数据库。若标志串的后续字段超过一定时间仍然都不为1，则由Pause容器通知与Pause容器同在一个Pod的容器中的分析子程序停止运行，当分析程序对应的分析子程序都停止运行，则获取下一个用户画像，重新启动Pod的分析子程序，对下一个用户画像进行处理。在一个具体实施例中，除了Pause进程外，一个Pod运行有至少一个分析子程序，优选地，运行一个Pod运行有一个分析子程序。

第二个实施例

本发明还提供了一种多源异构数据的疾病分析系统，所述系统包括以下模块：

检索模块201，用于设置与待分析疾病对应的关键词，根据所述关键词对医院的数据库进行检索，得到特定字段含有所述关键词的用户临床数据，对所述临床数据进行数据脱敏，构建用户画像；

环境构建模块202，用于获取与每个医院的用户画像对应的分析程序，建立医院与分析程序的对应关系，基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数；所述分析程序包括至少一个分析子程序；

处理模块203，用于在Pod的容器中运行与Pod对应的子程序以处理与Pod对应的用户画像的数据并得到分析结果；

分析模块204，用于将每个Pod的所述分析结果写入数据库中，利用Spark对数据库中的所述分析结果进行数据分析，得到与所述待分析疾病相关的统计信息。

在一个具体实施例中，所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数，具体为：

其中，M、K为正整数，N为自然数。

在一个具体实施例中，所述K的计算方式为：

在一个具体实施例中，所述图像分析子程序对应的Pod个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定，具体为：

第三个实施例

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如实施例一所述的方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多源异构数据的疾病分析方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数，具体为：

其中，M、K为正整数，N为自然数。

3.如权利要求2所述的方法，其特征在于，所述K的计算方式为：

设置文本分析子程序基本Pod个数L，具有最少用户画像个数的医院对应的文本分析子程序的Pod个数K=L，其他医院对应的文本分析子程序的Pod个数K=，其中/>为其他医院用户画像个数与所述最少用户画像个数的比值；其中L为正整数。

4.如权利要求2所述的方法，其特征在于，所述图像分析子程序对应的Pod的个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定，具体为：

获取K个文本分析子程序处理完一个用户画像对应数据的平均用时t1和图像分析子程序处理完一个用户画像对应数据的用时t2，则图像分析子程序对应的Pod个数为。

5.如权利要求1-4任一项所述的方法，其特征在于，所述将每个Pod的所述分析结果写入数据库中，具体为：

6.一种多源异构数据的疾病分析系统，其特征在于，所述系统包括以下模块：

7.如权利要求6所述的系统，其特征在于，所述基于所述分析程序中包括的分析子程序个数确定要为分析程序对应医院创建的Pod种类，并基于医院对应的用户画像数量确定每种Pod的个数，具体为：

其中，M、K为正整数，N为自然数。

8.如权利要求7所述的系统，其特征在于，所述K的计算方式为：

9.如权利要求7所述的系统，其特征在于，所述图像分析子程序对应的Pod的个数根据文本分析子程序和每个图像分析子程序处理完一个用户画像对应数据的用时确定，具体为：

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行如权利要求1-5任一项所述的方法。