CN115995281A

CN115995281A - 一种基于数据治理的专病数据库的数据检索方法及装置

Info

Publication number: CN115995281A
Application number: CN202211447488.3A
Authority: CN
Inventors: 连万民; 刘翔; 杨栋; 王博涵
Original assignee: Guangzhou Zhihuiyun Technology Co ltd; Guangdong No 2 Peoples Hospital
Current assignee: Guangzhou Zhihuiyun Technology Co ltd; Guangdong No 2 Peoples Hospital
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-04-21

Abstract

本发明公开了一种基于数据治理的专病数据库的数据检索方法，涉及智能医疗领域，特别涉及一种基于数据治理的专病数据库的数据检索方法及装置；通过对病历文本进行数据抽取，生成结构化的电子病历数据，并采集医疗数据，同时根据个人信息对医疗数据与对应的电子病历数据进行数据整合，形成科研病例库，可实现多维数据关联；通过数据分析引擎对电子病历数据和医疗数据进行封装，并形成检索索引；为用户提供挖掘、全文检索、复杂统计、质量管理等各种应用输出。

Description

一种基于数据治理的专病数据库的数据检索方法及装置

技术领域

本发明涉及智能医疗领域，特别涉及一种基于数据治理的专病数据库的数据检索方法及装置。

背景技术

随着近几年大力推动以电子病历为核心的医疗机构信息化建设以及“互联网+医疗健康”理念的推广和应用，使得包括医院诊疗数据、检查检验数据、健康人群体检数据、队列随访数据、药物使用数据、病理和影像数据、基因组学等在内的健康大数据正在以惊人的速度增长，推动医疗健康领域逐步进入“大数据”时代。正因如此，基于真实世界的大数据研究分析也成为了当下研究的热点。然而，不少医院院内虽然有着良好的信息基础，但是各系统上线时主要考虑业务实现为主，造成了医疗数据质量普遍不高，数据开发难度大，主要体现在完整性、规范性、整合性、没有统一的数据开发平台。这也导致了医务人员在疾病诊断、治疗、预后的研究和发展一直缺乏相应的数据及技术支持，医院积累的宝贵经验没有得到高效的积累和分享，医疗证据没有得到合理的应用。

发明内容

本发明的目的在于避免现有技术中的不足之处而提供一种能够实现医疗数据数据多维度整合的技术。

本发明的目的通过以下技术方案实现：

因此，根据本发明公开的一个方面，提供了一种基于数据治理的专病数据库的数据检索方法，包括以下步骤：对病历文本进行数据抽取，生成结构化的电子病历数据；提取医疗数据，并根据个人信息对医疗数据以及对应的电子病历数据进行数据整合，形成科研病例库；通过数据分析引擎对电子病历数据和医疗数据进行封装，并形成检索索引；根据用户的检索请求生成查询语句；根据查询语句从检索索引中进行检索，匹配出目标数据。

具体的，包括以下步骤：根据专病模型，对科研病例库中的数据进行数据抽取与归集，形成对应的专病数据库。

以上的，自然语言处理引擎根据内部医疗知识库，并通过命名实体识别及关系抽取算法，生成结构化提取规则；根据结构化提取规则自动提取医疗数据和/或电子病历数据。

更具体的，自然语言处理引擎包括预训练的语言模型；

对病历文本进行数据抽取，生成结构化的电子病历数据，具体包括：

对病历文本进行数据抽取，获取文本数据；文本数据包括若干个目标字段，以及对应的业务域；把文本数据导入预训练的语言模型，生成结构化的电子病历数据。

更具体的，预训练的语言模型采用分词关联度计算模型，用于计算出病历文本各个目标字段与各个分词的关联度，并生成对应的标注任务；其中，关联度计算模型包括若干个分词及各个分词对应的词向量。

更具体的，自然语言处理引擎根据标注任务的标注结果更新结构化提取规则。

更具体的，生成对应的标注任务具体包括：根据关联度筛选出各个目标字段对应的关联分词；分别根据各个目标字段及对应的关联分词生成对应的标注任务。

根据本发明公开的另一个方面，提供了一种基于数据治理的专病数据库的数据检索装置，包括：提取模块、数据整合模块、存储模块、数据分析模块和检索模块；提取模块用于提取电子病历数据和医疗数据；数据整合模块用于对电子病历数据和医疗数据进行数据整合，并存储于存储模块中，形成科研病例库；数据分析模块用于对电子病历数据和医疗数据进行封装，并形成检索索引；检索模块用于根据用户的检索请求生成查询语句，并根据查询语句从检索索引中进行检索，匹配出目标数据。

根据本发明公开的再一方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，处理器执行指令时实现如上一种基于数据治理的专病数据库的数据检索方法的步骤。

根据本发明公开的另一方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上一种基于数据治理的专病数据库的数据检索方法的步骤。

本发明的有益效果：一种基于数据治理的专病数据库的数据检索方法，通过对病历文本进行数据抽取，生成结构化的电子病历数据，并采集医疗数据，同时根据个人信息对医疗数据与对应的电子病历数据进行数据整合，形成科研病例库，可实现多维数据关联；通过数据分析引擎对电子病历数据和医疗数据进行封装，并形成检索索引；为用户提供挖掘、全文检索、复杂统计、质量管理等各种应用输出。

附图说明

通过结合附图对于本发明公开的示例性实施例进行描述，可以更好地理解本发明，在附图中：

图1所示的是根据本发明公开实施例一的一种基于数据治理的专病数据库的数据检索方法示意性流程图；

图2所示的是根据本发明公开实施例一的一种基于数据治理的专病数据库的数据检索装置的程序模块示意图；

图3所示的是根据本发明公开实施例一的计算设备的硬件结构示意图。

具体实施方式

以下将描述本发明的具体实施方式，需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本发明公开的内容相关的本领域的普通技术人员而言，在本发明揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本发明的内容不充分。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

实施例一

请参阅图1，本实施例提出一种基于数据治理的专病数据库的数据检索方法，包括以下步骤：

S1：通过自然语言处理引擎对病历文本进行数据抽取，生成结构化的电子病历数据；其具体包括以下步骤：

1、首先根据国际标准、专家知识以及历史专病库项目构建公司内部医疗知识库；

2、然后基于知识库对原始数据中的实体及关系进行自动标注；

3、利用深度学习模型BiLSTM-CRF对标注数据进行训练，从而构建命名实体识别模型；

4、利用正则表达式的方法对模型识别出的实体进行排列组合，进而自动生成结构化提取规则；

5、最终根据结构化提取规则自动提取并生成结构化的电子病历数据。

具体的，在本实施例中，采用自然语言处理引擎实现自动生成结构化提取规则；其具体包括以下步骤：

1、利用历史结构化提取规则对标注结果进行匹配。

2、基于命名实体识别模型对没有匹配到的结果进行实体识别。

3、利用正则表达式的方法对模型识别出的实体进行排列组合，进而自动生成结构化提取规则，最终更新结构化提取规则。

更具体的，自然语言处理引擎还包括预训练的语言模型；预训练的语言模型采用分词关联度计算模型，对病历文本进行数据抽取，获取文本数据后，导入关联度计算模型；关联度计算模型用于计算出病历文本各个目标字段与各个分词的关联度，并生成对应的标注任务；其中，文本数据包括若干个目标字段，以及对应的业务域，关联度计算模型包括若干个分词及各个分词对应的词向量。

在本实施例中，对病历文本进行数据抽取，具体还包括以下步骤：

1、从数据库中抽取确定病历文本；

2、对病历文本进行数据清洗，去除冲无效字符，形成目标字段；无效字符包括重复的内容、空值、accent字符等；

3、对目标字段进行切句，生成各个短句；具体为，通过目标字段中的标点符号和分隔符对该目标字段进行切句；

4、根据确定的词汇表对目标字段中的各个字符进行ID转换，生成对应的文本数据，并按照该文本数据所述节点对各个短句进行分类存储。

进一步的，关联度计算模型对关联度的计算具体包括以下步骤：

1、提取目标字段中各个短句的向量表达，以及，提取各个分词的向量表达；

2、根据各个分词的向量表达和各个短句的向量表达的计算出对应的各个向量点积，以及，计算各个短句的向量的第二范数；

3、通过分别计算各个向量点积与对应的各个短句的向量的第二范数的比值，计算各个目标字段与各个分词的关联度。

利用该套病历后结构化流程，所有的枚举型指标都会跳过人工标注，先直接通过预训练模型自动后结构化，并且模型在自动学习过程中可以不断完善知识库，从而持续性地提高模型的效率和精度。此外，结合临床医学的特点进行语义化分词，将分词后的结构以临床医学熟悉的专科词汇进行存储，便于在科研、临床辅助过程中快速获取关键病历信息，如症状，特征值，阳性特征等，为科研最大化，最快速化的提供临床参考资料。

S2：通过上述自然语言处理引擎生成的结构化提取规则提取医疗数据，并根据个人信息对医疗数据以及对应的电子病历数据进行数据整合，形成科研病例库；以实现对多来源的数据项的数据关联。其中，医疗数据包括心电检测数据、LIS(LaboratoryInformation Management System，实验室信息管理系统)数据、CDR(Clinical DataRepository，临床数据仓库)、PACS(picture archiving and communication system，影像归档和通信系统)数据和HIS(Hospital Information System，医院管理信息系统)数据；通过ELT(Extract-Transform-Load，数据仓库技术)建立了统一的数据接口，从各个数据源(业务系统及临床数据中心)中抽取数据，经清洗、转换、加载等初步加工处理形成原始病例库数据，然后通过数据映射、NLP、正则规则等深度加工后与结构化数据按照主题域构建出科研病例库。

S3：根据专病模型，对科研病例库中的数据进行数据抽取与归集，形成对应的专病数据库。

在本实施例中，专病模型以OMOP通用数据模型为基础进行设计与搭建。鉴于不同国情与目标的临床科研与临床医疗对数据的需求不同，在专病模型设计时，临床研究人员与工程技术人员可对既往科研CRF表单与对研究课题所需数据项进行深度沟通，最终却确认专病模型的构成。

S4：通过数据分析引擎对电子病历数据和医疗数据进行封装，并形成检索索引；

在本实施例中，数据分析引擎采用Elasticsearch数据分析引擎，通过对底层开源库Apache Lucene的封装，实现对每一个数据项的索引和搜索。

具体的，在本实施例中，通过患者姓名和身份证进行精确匹配，通过姓名、性别，出生日期，联系方式等几个属性按照预设的权重进行模糊匹配，合并患者标识，生成患者主索引。专病数据库在数据抽取时使用了患者主索引，以就诊时间串联患者历次就诊记录形成纵向时间轴，横向以每次就诊的流水号关联各类型就诊数据，最终实现患者多维数据的关联。并可通过时间轴上的链接调阅病历、影像等数据。

S5：根据用户的检索请求生成查询语句；根据查询语句从检索索引中进行检索，匹配出目标数据。

完成索引后，当系统接受到用户检索条件的请求，自动匹配定义的数据元，并利用系统自身的逻辑程序封装成Elasticsearch的DSL语句；而后基于Elasticsearch的底层能力，根据DSL语句从Elasticsearch Index(索引)中检索，如检索到数据，且则对检索出的数据做相关的处理(如脱敏等操作)后，再返回给用户；用户可以针对数据进行预览和CRF下载。具体步骤如下：

1、系统用户输入检索条件，生成检索请求，发起检索；

2、校验参数合法性，若校验合格，根据检索请求的检索条件自动生成DSL语句；

3、判断DSL语句是否成功，若是，执行DSL语句进行检索，匹配出目标数据。

请继续参阅图2，示出了一种基于数据治理的专病数据库的数据检索装置，在本实施例中，一种基于数据治理的专病数据库的数据检索装置可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述一种基于数据治理的专病数据库的数据检索方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述一种基于数据治理的专病数据库的数据检索装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：提取模块、数据整合模块、存储模块、数据分析模块和检索模块；提取模块用于提取电子病历数据和医疗数据；数据整合模块用于对电子病历数据和医疗数据进行数据整合，并存储于存储模块中，形成科研病例库；数据分析模块用于对电子病历数据和医疗数据进行封装，并形成检索索引；检索模块用于根据用户的检索请求生成查询语句，并根据查询语句从检索索引中进行检索，匹配出目标数据。

本实施例还提供一种计算设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图3所示。需要指出的是，图3仅示出了具有组件21-22的计算设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算设备20的内部存储单元，例如该计算设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算设备20的外部存储设备，例如该计算设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算设备20的操作系统和各类应用软件，例如实施例一的一种基于数据治理的专病数据库的数据检索装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行一种基于数据治理的专病数据库的数据检索装置，以实现实施例一的一种基于数据治理的专病数据库的数据检索方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储一种基于数据治理的专病数据库的数据检索装置，被处理器执行时实现实施例一的一种基于数据治理的专病数据库的数据检索方法。

综上所述，根据示例性实施例，本发明的一种基于数据治理的专病数据库的数据检索方法，通过对病历文本进行数据抽取，生成结构化的电子病历数据，并采集医疗数据，同时根据个人信息对医疗数据与对应的电子病历数据进行数据整合，形成科研病例库，可实现多维数据关联；通过数据分析引擎对电子病历数据和医疗数据进行封装，并形成检索索引；为用户提供挖掘、全文检索、复杂统计、质量管理等各种应用输出。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解，实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于数据治理的专病数据库的数据检索方法，其特征在于，包括以下步骤：

对病历文本进行数据抽取，生成结构化的电子病历数据；

提取医疗数据，并根据个人信息对所述医疗数据以及对应的所述电子病历数据进行数据整合，形成科研病例库；

通过数据分析引擎对所述电子病历数据和医疗数据进行封装，并形成检索索引；

根据用户的检索请求生成查询语句；

根据所述查询语句从检索索引中进行检索，匹配出目标数据。

2.根据权利要求1所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于，包括以下步骤：

根据专病模型，对所述科研病例库中的数据进行数据抽取与归集，形成对应的专病数据库。

3.根据权利要求1或2所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于：

自然语言处理引擎根据内部医疗知识库，并通过命名实体识别及关系抽取算法，生成结构化提取规则；

根据所述结构化提取规则自动提取所述医疗数据和/或电子病历数据。

4.根据权利要求3所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于：

所述自然语言处理引擎包括预训练的语言模型；

所述对病历文本进行数据抽取，生成结构化的电子病历数据，具体包括：

对病历文本进行数据抽取，获取文本数据；所述文本数据包括若干个目标字段，以及对应的业务域；把所述文本数据导入预训练的语言模型，生成结构化的电子病历数据。

5.根据权利要求4所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于：

所述预训练的语言模型采用分词关联度计算模型，用于计算出病历文本各个所述目标字段与各个分词的关联度，并生成对应的标注任务；其中，所述关联度计算模型包括若干个分词及各个分词对应的词向量。

6.根据权利要求5所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于：

所述自然语言处理引擎根据所述标注任务的标注结果更新所述结构化提取规则。

7.根据权利要求6所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于：所述生成对应的标注任务具体包括：

根据所述关联度筛选出各个目标字段对应的关联分词；分别根据所述各个目标字段及对应的关联分词生成对应的标注任务。

8.一种基于数据治理的专病数据库的数据检索装置，采用权利要求1至7任一项所述的一种基于数据治理的专病数据库的数据检索方法，其特征在于，包括：提取模块、数据整合模块、存储模块、数据分析模块和检索模块；

所述提取模块用于提取电子病历数据和医疗数据；

所述数据整合模块用于对所述电子病历数据和医疗数据进行数据整合，并存储于所述存储模块中，形成科研病例库；

所述数据分析模块用于对所述电子病历数据和医疗数据进行封装，并形成检索索引；

所述检索模块用于根据用户的检索请求生成查询语句，并根据所述查询语句从检索索引中进行检索，匹配出目标数据。

9.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1至7任意一项所述方法的步骤。

10.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至7任意一项所述方法的步骤。