CN112530535A

CN112530535A - 基于健康医疗大数据建立疾病专病队列的方法及装置

Info

Publication number: CN112530535A
Application number: CN202011472624.5A
Authority: CN
Inventors: 孔峰峰; 崔毅
Original assignee: Shandong Health Medical Big Data Co ltd
Current assignee: Shandong Langchao Intelligent Medical Technology Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-19
Anticipated expiration: 2040-12-15
Also published as: CN112530535B

Abstract

本发明公开了一种基于健康医疗大数据建立疾病专病队列的方法及装置，属于医疗大数据的信息处理技术领域，本发明要解决的技术问题为如何基于医疗大数据建立某疾病的专病队列，实现提升专病队列的准确性及信息转化的处理效率，技术方案为：该方法具体如下：基于专病队列的相关疾病的知识体系，生成专病队列疾病相关的查询信息；在医疗大数据系统中输入疾病查询信息，获取专病队列的患者人群，建立专病队列数据提取的主键信息；根据筛选到的患者的主键信息查询患者的电子病历和his系统中数据；将提取到的电子病历中的文本信息进行语义识别及标准化处理，得到专病队列的标准化信息。该装置包括生成单元、建立单元、提取单元、处理单元及组装单元。

Description

基于健康医疗大数据建立疾病专病队列的方法及装置

技术领域

本发明涉及医疗大数据的信息处理技术领域，具体地说是一种基于健康医疗大数据建立疾病专病队列的方法及装置。

背景技术

精准医学是医学科技发展的前沿方向，长周期、大规模队列研究是精准医学研究的重要基础。系统整合临床和人群资源，收集疾病谱生物样本库，构建与之匹配的包括流行病学、临床诊治以及结局随访等综合信息的大数据库体系，进而建立专病风险评估和预测、个体化预防、精准化诊疗及疗效监测等多层次共享平台，可为精准医学技术及健康产业发展奠定基础，具有广阔应用前景，将产生巨大社会经济效益。如何充分利用丰富的临床医疗资源,将其转化为临床研究资源,通过临床研究提高医疗服务能力,是下一步卫生健康领域科技创新的重点。

目前针对专病队列的识别及数据组装尚缺乏系统性的研究方法，尤其是基于电子病历进行队列识别时，一般通过人工分析的方法，缺乏对非结构化的电子病历数据的智能化处理和应用，使得通过人工分析方法不仅要有专业背景的人员进行耗时且高强度的劳动，而且该方法缺乏普遍适用性，处理效率低。

故如何基于医疗大数据建立某疾病的专病队列，实现提升专病队列的准确性及信息转化的处理效率是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种基于健康医疗大数据建立疾病专病队列的方法及装置，来解决如何基于医疗大数据建立某疾病的专病队列，实现提升专病队列的准确性及信息转化的处理效率的问题。

本发明的技术任务是按以下方式实现的，一种基于健康医疗大数据建立疾病专病队列的方法，该方法具体如下：

基于专病队列的相关疾病的知识体系，生成专病队列疾病相关的查询信息；

在医疗大数据系统中输入疾病查询信息，获取专病队列的患者人群，建立专病队列数据提取的主键信息；

根据筛选到的患者的主键信息查询患者的电子病历和his系统中数据；

将提取到的电子病历中的文本信息通过语义识别及标准化处理后，进行提取及结构化处理，形成结构化的信息列表，进而得到专病队列的标准化信息。

作为优选，基于所述专病队列的标准化信息进行数据组装，生成队列中单个患者的全生命周期的、以时间为主线串联的所有医疗健康数据，具体如下：

将提取到的信息以患者个人为数据组装的基本单元，以人口学信息为基本信息，将就诊及诊断记录、病史、体格检查、检查检验及治疗方案分别按照时间轴展现，即以时间为主线进行串联组装，获得患者全生命周期的诊疗数据，进而全面展现患者的全周期诊疗过程。

作为优选，所述主键信息包括患者ID、就诊医疗结构及历次就诊号；

所述患者的电子病历和his系统中数据具体包括：

①、人口学信息：性别、年龄、婚姻状况、学历、职业、民族及国籍；

②、病史信息：主诉、现病史、既往史、家族史、个人史及生育史；

③、体格检查及专科检查情况；

④、就诊及诊断信息：就诊机构、患者类型(门诊或住院)、入院日期、出院日期、入院科室、出院科室、就诊日期、就诊科室、诊断疾病名称、诊断类型及诊断日期；

⑤、患者的辅助检查信息：影像检查、实验室检验及病理及免疫组化；

⑥、患者的相关治疗信息：手术治疗、介入治疗、放射治疗及药物治疗。

作为优选，所述语义识别及标准化处理是基于医学标准词表和命名实体识别技术，从医疗数据中自动抽取出医疗术语，并对医疗术语进行概念上的归一和规范，形成医疗概念语义网。

更优地，将提取到的电子病历中的文本信息通过语义识别及标准化处理后，进行提取及结构化处理，得到专病队列的标准化信息具体如下：

诊断名称标准化：将电子病历中提取的诊断名称根据ICD-10及国家临床2.0的基础上，扩建等同关系和属分关系的概念后得到的体现语义关系的标准诊断表，以达到精确筛选和相同疾病的聚类；

治疗方案的提取：将his系统中专病队列患者群的药物表中的药物名称根据国家药品监督管理局(NMPA)、国家药典及WHO国际通用名命名规则提供的标准名称进行药物名称标准化，根据NCCN及ASCO官方机构公布的诊疗指南，筛选该疾病的治疗药物，并对药物按照治疗方案不同进行分类，再与该专病治疗方案字典进行匹配，得到患者治疗方案列表；

病理及免疫组化数据结构化：参考NCCN及ASCO官方机构公布的诊疗指南、WHO的病理学分析和AJCC分期第八版、ICD-O-3Topography、RECIST 1.1及HL7 China CDA等标准，对电子病历提取到的的文本进行提取及结构化，得到病史、病理、免疫组化及检查报告等结构化样例。

一种基于健康医疗大数据建立疾病专病队列的装置，该装置包括，

生成单元，用于基于专病队列的相关疾病的知识体系，生成专病队列疾病相关的查询信息；

建立单元，用于在医疗大数据系统中输入疾病查询信息，识别专病队列的患者人群，建立专病队列数据提取的主键信息；

提取单元，用于根据筛选到的患者的主键信息提取患者的电子病历和his系统中数据；

处理单元，用于将提取到的电子病历中的文本信息进行语义识别及标准化处理，得到专病表型分析数据；

组装单元，用于基于专病的表型分析信息进行数据组装，生成队列中单个患者的全生命周期的、以时间为主线串联的所有医疗健康数据。

所述患者的电子病历和his系统中数据具体包括：

③、体格检查及专科检查情况；

更优地，所述处理单元包括，

标准化模块，用于将电子病历中提取的诊断名称根据ICD-10及国家临床2.0的基础上，扩建等同关系和属分关系的概念后得到的体现语义关系的标准诊断表，以达到精确筛选和相同疾病的聚类；

提取模块，用于将his系统中专病队列患者群的药物表中的药物名称根据国家药品监督管理局(NMPA)、国家药典及WHO国际通用名命名规则提供的标准名称进行药物名称标准化，根据NCCN及ASCO官方机构公布的诊疗指南，筛选该疾病的治疗药物，并对药物按照治疗方案不同进行分类，再与该专病治疗方案字典进行匹配，得到患者治疗方案列表；

结构化模块，用于参考NCCN及ASCO官方机构公布的诊疗指南、WHO的病理学分析和AJCC分期第八版、ICD-O-3Topography、RECIST 1.1及HL7 China CDA等标准，对电子病历提取到的的文本进行提取及结构化，得到病史、病理、免疫组化及检查报告等结构化样例。

一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如上述的基于健康医疗大数据建立疾病专病队列的方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的基于健康医疗大数据建立疾病专病队列的方法。

本发明的基于健康医疗大数据建立疾病专病队列的方法及装置具有以下优点：

(一)本发明基于真实世界研究数据进行的专病队列识别，并通过语义标准化处理得到患者队列的表型数据信息，一方面对患者的精准医疗、临床试验的患者入排以及基于真实世界研究的药械批准提供精准筛选，另一方面可以对基于真实世界研究的药械批准提供可靠依据；

(二)本发明基于真实世界研究的专病队列的识别、信息提取、语义标准化及患者全生命周期、多维度医疗信息的表型数据信息获取及组装方法，从而构建多中心、多平台的重大疾病专病队列，形成重大疾病的精准防诊治方案和临床决策系统，应用于专病队列建立的队列识别、值域提取的语义处理与语义分析技术及数据资源的整合，实现了提升专病队列的准确性及信息转化的处理效率；

(三)本发明通过输入疾病相关诊断信息及诊断信息查找医疗健康大数据中关于该疾病的患者人口信息，将患者的人口学信息、就诊信息、诊断信息、治疗信息、检查检验信息以时间为主线进行串联，从而建立某疾病的专病队列。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于健康医疗大数据建立疾病专病队列的方法的流程框图；

附图2为病理及免疫组化结构化样例的示意图；

附图3为肿瘤专病队列的数据组装结构的示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于健康医疗大数据建立疾病专病队列的方法及装置作以下详细地说明。

实施例1：

如附图1所示，本发明的基于健康医疗大数据建立疾病专病队列的方法，该方法具体如下：

S1、基于专病队列的相关疾病的知识体系，参考ICD-10/国家临床2.0等相关疾病的名称，生成专病队列疾病相关的查询信息；

S2、在医疗大数据系统中输入疾病查询信息，获取专病队列的患者人群，建立专病队列数据提取的主键信息；其中，主键信息包括患者ID、就诊医疗结构及历次就诊号；

S3、根据筛选到的患者的主键信息查询患者的电子病历和his系统中数据；

S4、将提取到的电子病历中的文本信息通过语义识别及标准化处理后，进行提取及结构化处理，形成结构化的信息列表，进而得到专病队列的标准化信息。

S5、基于所述专病队列的标准化信息进行数据组装，生成队列中单个患者的全生命周期的、以时间为主线串联的所有医疗健康数据，具体如下：

本实施例步骤S3中患者的电子病历和his系统中数据具体包括：

③、体格检查及专科检查情况；

本实施例中步骤S4中语义识别及标准化处理是基于医学标准词表和命名实体识别技术，从医疗数据中自动抽取出医疗术语，并对医疗术语进行概念上的归一和规范，形成医疗概念语义网。

本实施例中步骤S4中将提取到的电子病历中的文本信息通过语义识别及标准化处理后，进行提取及结构化处理，得到专病队列的标准化信息具体如下：

S401、诊断名称标准化：将电子病历中提取的诊断名称根据ICD-10及国家临床2.0的基础上，扩建等同关系和属分关系的概念后得到的体现语义关系的标准诊断表，以达到精确筛选和相同疾病的聚类；其中，诊断标准化示例如下表所示：

S402、治疗方案的提取：将His系统中专病队列患者群的药物表中的药物名称根据国家药品监督管理局(NMPA)、国家药典、WHO国际通用名命名规则等提供的标准名称进行药物名称标准化，根据NCCN、ASCO等官方机构公布的诊疗指南，筛选该疾病的治疗药物，以肺癌专病为例，按照规则筛选出的单次就诊的肺癌相关治疗药物，并对药物按照治疗方案不同进行分类，然后与肺癌专病治疗方案字典进行匹配，得到患者治疗方案列表，如附图3所示；其中，某肺癌患者单次就诊的肺癌相关用药如下表所示：

肺癌化疗方案字典如下表所示：

患者治疗方案表如下：

S403、病理及免疫组化数据结构化：参考NCCN及ASCO官方机构公布的诊疗指南、WHO的病理学分析和AJCC分期第八版、ICD-O-3Topography、RECIST1.1及HL7 China CDA等标准，对电子病历提取到的的文本进行提取及结构化，得到病史、病理、免疫组化及检查报告等结构化样例，如附图2所示。

实施例2：

本发明的基于健康医疗大数据建立疾病专病队列的装置，该装置包括，

建立单元，用于在医疗大数据系统中输入疾病查询信息，识别专病队列的患者人群，建立专病队列数据提取的主键信息；其中，主键信息包括患者ID、就诊医疗结构及历次就诊号；

本实施例中患者的电子病历和his系统中数据具体包括：

③、体格检查及专科检查情况；

本实施例中的处理单元包括，

实施例3：

本发明实施例还提供了一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行本发明任一实施例中的基于健康医疗大数据建立疾病专病队列的方法。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于健康医疗大数据建立疾病专病队列的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于健康医疗大数据建立疾病专病队列的方法，其特征在于，该方法具体如下：

将提取到的电子病历中的文本信息通过语义识别及标准化处理后，进行提取及结构化处理，得到专病队列的标准化信息。

2.根据权利要求1所述的基于健康医疗大数据建立疾病专病队列的方法，其特征在于，基于所述专病队列的标准化信息进行数据组装，生成队列中单个患者的全生命周期的、以时间为主线串联的所有医疗健康数据，具体如下：

3.根据权利要求1所述的基于健康医疗大数据建立疾病专病队列的方法，其特征在于，所述主键信息包括患者ID、就诊医疗结构及历次就诊号；

所述患者的电子病历和his系统中数据具体包括：

③、体格检查及专科检查情况；

④、就诊及诊断信息：就诊机构、患者类型、入院日期、出院日期、入院科室、出院科室、就诊日期、就诊科室、诊断疾病名称、诊断类型及诊断日期；

4.根据权利要求1所述的基于健康医疗大数据建立疾病专病队列的方法，其特征在于，所述语义识别及标准化处理是基于医学标准词表和命名实体识别技术，从医疗数据中自动抽取出医疗术语，并对医疗术语进行概念上的归一和规范，形成医疗概念语义网。

5.根据权利要求1-4中任一所述的基于健康医疗大数据建立疾病专病队列的方法，其特征在于，将提取到的电子病历中的文本信息通过语义识别及标准化处理后，进行提取及结构化处理，得到专病队列的标准化信息具体如下：

治疗方案的提取：将his系统中专病队列患者群的药物表中的药物名称根据国家药品监督管理局、国家药典及WHO国际通用名命名规则提供的标准名称进行药物名称标准化，根据NCCN及ASCO官方机构公布的诊疗指南，筛选该疾病的治疗药物，并对药物按照治疗方案不同进行分类，再与该专病治疗方案字典进行匹配，得到患者治疗方案列表；

病理及免疫组化数据结构化：参考NCCN及ASCO官方机构公布的诊疗指南、WHO的病理学分析和AJCC分期第八版、ICD-O-3Topography、RECIST 1.1及HL7 China CDA的标准，对电子病历提取到的的文本进行提取及结构化，得到病史、病理、免疫组化及检查报告的结构化样例。

6.一种基于健康医疗大数据建立疾病专病队列的装置，其特征在于，该装置包括，

7.根据权利要求6所述的基于健康医疗大数据建立疾病专病队列的装置，其特征在于，所述主键信息包括患者ID、就诊医疗结构及历次就诊号；

所述患者的电子病历和his系统中数据具体包括：

③、体格检查及专科检查情况；

8.根据权利要求6或7所述的基于健康医疗大数据建立疾病专病队列的方法，其特征在于，所述处理单元包括，

提取模块，用于将his系统中专病队列患者群的药物表中的药物名称根据国家药品监督管理局、国家药典及WHO国际通用名命名规则提供的标准名称进行药物名称标准化，根据NCCN及ASCO官方机构公布的诊疗指南，筛选该疾病的治疗药物，并对药物按照治疗方案不同进行分类，再与该专病治疗方案字典进行匹配，得到患者治疗方案列表；

结构化模块，用于参考NCCN及ASCO官方机构公布的诊疗指南、WHO的病理学分析和AJCC分期第八版、ICD-O-3Topography、RECIST 1.1及HL7 China CDA的标准，对电子病历提取到的的文本进行提取及结构化，得到病史、病理、免疫组化及检查报告的结构化样例。

9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如权利要求1至5任一项所述的基于健康医疗大数据建立疾病专病队列的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1至5中所述的基于健康医疗大数据建立疾病专病队列的方法。