CN116166698B

CN116166698B - 一种基于通用医疗术语的快速构建队列方法及系统

Info

Publication number: CN116166698B
Application number: CN202310092736.5A
Authority: CN
Inventors: 李劲松; 倪鸿仪; 姚廷格; 王昱; 童丹阳
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-09-01
Anticipated expiration: 2043-01-12
Also published as: CN116166698A

Abstract

本发明公开了一种基于通用医疗术语的快速构建队列方法，该方法包括：步骤1、获取患者的原始医疗数据，对所述原始医疗数据进行过滤并采用OMOP标准化模型对过滤后的原始医疗数据进行整理归类；步骤2、根据步骤1中完成归类的原始医疗数据与通用医疗术语库进行匹配，获得原始医疗数据中医疗概念术语对应的概念编号，并将所述概念编号与原始医疗数据组合存入源数据库；步骤3、根据用户输入的筛选逻辑，对步骤2中源数据库的数据进行聚合筛选，生成对应筛选结果的医疗数据队列。本发明还提供了一种快速构建队列系统。本发明提供的方法可以提高规范化医疗数据，同时缩短医疗数据的检索耗时，还能保证最终筛选结果的精确度。

Description

一种基于通用医疗术语的快速构建队列方法及系统

技术领域

本发明属于医疗数据处理技术领域，尤其涉及一种基于通用医疗术语的快速构建队列方法及系统。

背景技术

随着医疗信息化技术的高速发展，医疗数据规模和类型快速增长，使用基于通用医疗术语的大数据进行数据分析挖掘，进而用于医疗研究将成为必然趋势。但目前国内医疗概念相关标准并不完善，体系也不够健全，加上医院、诊所、医学院、研究所等医疗机构的数据中心的概念名称、描述以及编码异构化严重，结构得不到统一，导致很难获得能用于医疗研究的数据，医疗研究工具的开发与研究停滞不前。

OMOP标准化术语集是一种通用数据模型，是一个面向观察性医学研究的全球标准，可用于医学词汇的公共存储、对医学数据进行标准化和映射。如果能获取到足够标准一定数量的级的数据，医疗研究工具也可以结合OMOP标准化模型数据进行开发。难点在于如何处理原始数据，使之能作为OMOP数据模型进行标准化存储，并在当需要进行医疗研究时，在海量数据集中精准筛选出能够提供研究的数据，快速构建研究队列，缩短整体研究时间，为之后的数据分析提供便利。

专利文献CN105574103A公开了一种基于分词编码自动构建医学术语映射关系的方法及系统，该方法包括：将每条样本术语划分为主字段和属性字段表；将上一步得到的主字段和编码建立主字段表；将常用汉字以及属性字段建立分词字典；对所述主字段以及属性字段建立分词字典；对所述主字段表中的词汇进行中文分词；对字典A术语进行中文分词；计算样本术语主字段和字典A术语主字段的两两相关度；按照相关度的高低对样本术语主字段和字典A术语主字段进行匹配以及编码；进行字典B术语主字段的编码；针对具有相同主字段编码的字典A和字典B术语构建映射关系。该类方法只是着力解决中文医疗术语的匹配问题，而非解决整个医疗信息系统之间的术语标准化问题，且只针对中文医疗术语之间的映射，未实现与国外标准医疗术语集之间的标准化。

专利文献CN110349639A公开了一种基于通用医疗术语库的多中心医疗术语标准化系统，该系统包括源数据库、数据库连接管理模块、预分析模块、术语映射单元、增量更新模块、异常处理模块和多中心交互模块，通过该系保持各医疗数据中心医疗术语表达的一致性。该方法仅提供出如何实现数据的统一化，文中也未提及如何实现数据的检索过程。

发明内容

为了解决上述问题，本发明提供了一种基于通用医疗术语的快速构建队列方法，该方法可以提高规范化医疗数据，同时缩短医疗数据的检索耗时，还能保证最终筛选结果的精确度。

一种基于通用医疗术语的快速构建队列方法，其特征在于，包括：

步骤1、获取患者的原始医疗数据，对所述原始医疗数据进行过滤并采用OMOP标准化模型对过滤后的原始医疗数据进行整理归类；

步骤2、根据步骤1中完成归类的原始医疗数据与通用医疗术语库进行匹配，获得原始医疗数据中医疗概念术语对应的概念编号，并将所述概念编号与原始医疗数据组合存入源数据库；

步骤3、根据用户输入的筛选逻辑，对步骤2中源数据库的数据进行聚合筛选，生成对应筛选结果的医疗数据队列，所述筛选逻辑包括患者基础信息筛选，手术信息筛选，用药信息筛选，诊断信息筛选以及测量信息筛选。

本发明通过将原始数据过滤、OMOP标准化处理并存储，当需要用于研究时，进行聚合解构、队列筛选与模型分析，从而规范化了海量数据集用于医疗研究的方式过程，为研究人员提供了方便。

具体的，在步骤1中，所述整理归类的种类包括患者的基础信息，手术信息、用药信息、诊断信息以及测量信息。

具体的，在步骤1中，所述过滤包括剔除重复数据，矛盾值检测，范围检查，空值检查以及缺失值填充，从而减少数据冗余，满足数据的唯一性、完整性、合法性和一致性。

优选的，在步骤1中，所述匹配通过对已归类原始医疗数据中的医疗概念术语进行分词拆解，并对所述分词与通用医疗术语的概念进行相似度匹配，生成对应的概念编号。

具体的，所述相似度匹配根据每个分词在当前通用医疗术语的相似度进行排序，选择相似度最高的分词与阈值进行比较，若相似度大于阈值则直接输出当前通用医疗术语作为概念编号，若相似度小于阈值则采用人工审核输出最符合分词类型的通用医疗术语作为概念编号。

具体的，所述相似度的具体公式如下：

式中，Y(n)表示原医疗概念术语中第n个分词是否在于当前术语中，当赋值为1时表示存在，当赋值为0时表示不存在，p1,p2,pn表示系统预设的加权参数。

优选的，所述人工审核包括确定唯一匹配对象，新增概念对象以及剔除错误数据。

具体的，所述确定唯一匹配对象的具体过程为：人工判断是否因错字漏字或其他原因导致匹配值过低，并对发现问题的医疗概念术语进行字段补齐后重新进行相似度匹配。

具体的，所述新增概念对象的具体过程为：当分词描述与某术语相近，但当前通用医疗术语库中没有对应分词的术语，则手动为当前通用医疗术语库添加分词对应概念的新术语，添加的新术语需要与其他相关医疗术语生成的编号相近。

具体的，所述剔除错误数据的具体过程为：当人工判断分词的概念确实不符合通用医疗术语库的内容，则舍弃当前分词对应的数据条目。

具体的，在步骤3中，所述聚合筛选的过程如下：

步骤3-1、根据输入的手术信息筛选，用药信息筛选，诊断信息筛选以及测量信息筛选进行语句转换和筛选条件分类，获得对应的概念描述编号；

步骤3-2、以步骤3-1转换获得的概念描述编号，采用KMP匹配算法对源数据库进行筛选，获得符合各个筛选条件的数据队列集；

步骤3-3、基于患者基础信息筛选的信息，采用bitmap算法对步骤3-2获得的数据队列集进行聚合，获得患者对应的医疗数据队列。

优选的，在步骤3-2中，在采用KMP匹配算法时，将检索条件语句中的where in替换为between，从而使得匹配过程中只需要考虑上下界线即可，即对于每返回的一行数据仅需要验证两次，如此操作可以降低计算机的I/O代价，其时间复杂度为O(2)，从而提高了搜索效率。

本发明还提供了一种快速构建队列系统，通过上述基于通用医疗术语的快速构建队列方法实现，包括：

数据采集模块，用于获取患者的原始医疗数据；

标准化模块，根据所述数据采集模块获取的原始医疗数据进行过滤和标准化处理，生成对应包含概念编号的源数据库；

医疗研究筛选逻辑交互模块，用于输入用户的筛选逻辑，以及输出可视化结果；

队列构建模块，根据用户输入的筛选逻辑，在所述数据库中进行数据匹配，以输出符合筛选条件的医疗数据队列。

与现有技术相比，本发明的有益效果：

(1)本发明通过原始数据过滤、OMOP标准化处理并存储，当需要用于研究时，进行聚合解构、队列筛选与模型分析，从而规范化了海量数据集用于医疗研究的方式过程，为研究人员提供了方便。

(2)本发明基于OMOP标准化数据本身特征，通过KMP匹配算法、bitmap算法实现了海量数据的快速且精确的筛选，缩短医疗研究整体计算时间，为之后的数据分析提供便利。

附图说明

图1为本实施例提供的一种基于通用医疗术语的快速构建队列方法的流程图；

图2为本实施例提供的一种快速构建队列系统的框架示意图；

图3为本实施例提供的对数据分词拆解并进行相似度匹配的实例流程图；

图4为本实施例提供的结合KMP匹配算法进行医疗研究的逻辑筛选示意图；

图5为本实施例提供的通过bitmap对数据队列集进行聚合的示意图。

具体实施方式

以下结合附图对本发明具体实施例方式，作进一步详细说明。

如图1所示，为本实例提供的一种基于通用医疗术语的快速构建队列方法，包括：

步骤1、获取患者的原始医疗数据，对所述原始医疗数据进行过滤并采用OMOP标准化模型对过滤后的原始医疗数据进行整理归类。

步骤1-1、对采集的原始医疗数据进行剔除重复数据、不匹配值检查、范围检查、空值检查、缺失值填充的操作。

步骤1-2、提取数据中的医疗概念术语，并根据目前存在的国际通用医疗概念库OMOP标准编码之间的映射关系对过滤后的数据进行概念的自动化映射，从而对数据进行归类。

步骤2、根据步骤1中完成归类的原始医疗数据与通用医疗术语库进行匹配，获得原始医疗数据中医疗概念术语对应的概念编号，并将所述概念编号与原始医疗数据组合存入源数据库。

步骤2-1、对医疗概念术语进行分词拆解以及分词的相似匹配，在通用医疗术语库内进行遍历查询并计算相似度阈值，找到相似度高的标准医疗术语，生成概念编号作为该数据的目标概念映射，其中医疗概念术语的相似度计算方式如下：

步骤2-2、对未达到阈值的医疗概念术语，采用人工审核判断是否需要生成新的概念编号，作为该数据的目标概念映射，其中人工审核包含确定唯一匹配对象，新增概念对象以及剔除错误数据。

a、确定唯一匹配对象的具体过程为：人工判断是否因错字漏字或其他原因导致匹配值过低，并对发现问题的医疗概念术语进行字段补齐后重新进行相似度匹配。

b、新增概念对象的具体过程为：当分词描述与某术语相近，但当前通用医疗术语库中没有对应分词的其他术语，则手动为当前通用医疗术语库添加分词对应概念的新术语，添加的新术语需要与其他相关医疗术语生成的编号相近。

c、剔除错误数据的具体过程为：当人工判断分词的概念确实不符合通用医疗术语库的内容，则舍弃当前分词对应的数据条目。

步骤3、根据用户输入的筛选逻辑，对步骤2中源数据库的数据进行聚合筛选，生成对应筛选结果的医疗数据队列，所述筛选逻辑包括患者基础信息筛选，手术信息筛选，用药信息筛选，诊断信息筛选以及测量信息筛选，其聚合筛选过程如下：

如图2所示，为本实施例提供的一种快速构建队列系统，该系统通过上述实施例中提出的快速构建队列方法实现，包括：

数据采集模块，用于获取患者的原始医疗数据；

标准化模块，根据所述数据采集模块获取的原始医疗数据进行过滤和标准化处理，生成对应包含概念编号，并存入源数据库；

为了更好说明本发明的方法，本实施例还提供如下具体的数据进行流程展示：

表1

如表1所示，为原始医疗数据部分数据的过滤过程结果。

当原始医疗数据完成数据过滤操作后，提取每条数据中的医疗概念术语，并根据目前存在的国际通用医疗概念库OMOP标准编码之间的映射关系对过滤后的数据进行概念的自动化映射，整理出患者基础信息、手术信息、用药信息、诊断信息、测量信息以及概念术语统计这6份数据，部分数据整理结果如表2所示。

表2

如图3所示，对于整理归类的数据进行医疗概念术语进行分词拆解，并对拆解后的分词进行相似匹配，在通用医疗术语库中进行遍历查询，并计算相似度阈值，比较并找到相似度较高的标准医疗术语，生成概念编号，作为该数据的目标概念映射，相似度高的相关标准医疗术语生成的编号往往编号相近，具体过程如下所示：

实例1、原术语为“心功能三级病”，拆分分词为“心功能”“三级”，匹配分词得到“心功能一级”、“心功能二级”、“心功能三级”、“甲状腺结节三级”、“烧伤三级”、“高血压三级”等现有术语。其中“心功能三级”与原术语相似度最高，且大于阈值d，故选择“心功能三级”为当前数据的概念映射，获得已有的医疗概念编号。

实例2、原概念为“心功能3级”，拆分分词为“心功能”“3级”，匹配分词得到“心功能一级”、“心功能二级”、“心功能三级”等现有术语。其中“心功能一级”、“心功能二级”、“心功能三级”与原术语相似度最高，且相似度相等，但小于阈值d，故可能为数据残缺或者医疗术语库中未录入当前术语，则进行人工审核。

实例3、原概念为“心功能四级病”，拆分分词为“心功能”“四级”，匹配分词得到“心功能一级”、“心功能二级”、“心功能三级”、“甲状腺结节四级”、“高血压四级”等现有术语。其中“心功能一级”、“心功能二级”、“心功能三级”与原术语相似度最高，且相似度相等，但小于阈值d，故可能为数据残缺或者医疗术语库中未录入当前术，则进行人工审核。

对于未达到阈值的医疗概念术语，采用人工审核的方式，判断其是否需要符合医疗术语范畴：

人工审核判断是否因为错字漏字或其他原因造成匹配值过低，如果能人为补齐缺失字段则补齐，并重新以上述分词相似度查询处理；

如果当前医疗概念术语较为准确，说明系统内标准术语集合中并未有当前医疗术语，需要人工手动添加术语，添加的术语需要与其他相关医疗术语生成的编号相近；

如果人工审核判断当前术语不够准确，则舍弃当前数据条目。

实例4、原概念术语为“心功能3级”，经审核并比较相关数据确定，该属于术语错字，故选择“心功能三级”为当前数据的概念映射，获得已有的医疗概念术语编号。

实例5、原概念术语为“心功能四级病”，经审查发现，该概念术语实际想描述“心功能四级”，属于标准医疗术语，但医疗术语库中未录入当前术语，故由具有医学知识背景的专业人员录入系统，且“心功能四级”的概念术语编号需与“心功能三级”的概念术语编号相邻，一并录入系统。

实例6、原概念术语为“心功能五级病”，经审查发现，“心功能”一共分为四级，未有五级，因此该概念术语不属于标准医疗术语则舍弃当前数据条目。

通过上述处理获得的概念编号和对应的原始医疗数据，构建获得源数据库，用于后续检索数据队列。

针对复杂的医疗研究场景，提供了几个实例进行说明：

首先根据不同的筛选逻辑，结合标准化数据结构对筛选条件进行分类，一共分为，基础信息筛选、手术信息筛选、用药信息筛选、诊断信息筛选、测量信息筛选。

实例7、所选人群符合性别为男；符合手术操作集合为人工晶体植入术，且该条件开始时间在研究用药开始时间之前100天到研究用药开始时间之后50天之间；符合用药集合为二甲双胍，且符合两次用药间隔符合≤90天，且符合用药方式为口服，且符合用药频率为二次/日。则可拆分成：基础信息筛选：所选人群符合性别为男；手术信息筛选：符合手术操作集合为人工晶体植入术，且该条件开始时间在研究用药开始时间之前100天到研究用药开始时间之后50天之间；用药信息筛选：符合用药集合为二甲双胍，且符合两次用药间隔符合≤90天，且符合用药方式为口服，且符合用药频率为二次/日。

实例8、所选人群符合年龄在0到40岁之间；符合诊断记录集合包含糖尿病概念集，且该条件开始时间在研究用药开始时间之前200天到研究用药开始时间之后100天之间；符合医学检验集合为支气管炎，且该条件开始时间在研究用药开始时间之前100天到研究用药开始时间之后50天之间。则可拆分成：基础信息筛选：所选人群符合年龄在0到40岁之间；诊断信息筛选：符合诊断记录集合包含糖尿病概念集，且该条件开始时间在研究用药开始时间之前200天到研究用药开始时间之后100天之间；测量信息筛选：符合医学检验集合为支气管炎，且该条件开始时间在研究用药开始时间之前100天到研究用药开始时间之后50天之间。

将上述内容转换为标准表，如表3所示。

表3

对上述表格中的内容进行搜索语句的转换，结合KMP匹配算法获取符合筛选条件的数据队列结果。

在匹配过程中，由于检索海量数据的源数据库时选用where in条件搜索语句包含的概念术语过多，导致检索效率极低、耗时长。

一条搜索语句的代价体现在硬件上就是I/O+CPU，I/O就是将所需的物理页载入内存的时间，CPU则是数据计算所消耗的时间，有些语句是I/O密集的，有些语句是CPU运算密集的。

例如select*from OMOP.CONDITION_OCCURRENCE where CONDITION_SOURCE_VALUE in('心功能III-IV级','心功能II级','心功能III级','心功能Ⅱ-Ⅲ级','心功能Ⅰ级')；

这句用于搜索相关病症的语句，会因为where in的列表集合中有5个元素，在数据库底层存储数据的索引b+树中查询五次，对于计算机的I/O的代价较大，时间复杂度为O(n)。

实际情况下，由于医疗术语集合普遍都包括数条概念术语，远大于5条，导致搜索效率过低，甚至失败的问题。

因此，此处通过配合上述提出的相似度高的医疗概念生成的编号相近的特点，对举例语句进行优化：

select*from OMOP.CONDITION_OCCURRENCE where CONDITION_SOURCE_CONCEPT_ID between 101010166058and101010166079；

这句搜索语句，会因为where替换为between的方式，实现匹配上下界限即可，即对于每返回的一行数据仅需要两次验证，对于计算机的I/O的代价较小，时间复杂度为O(2)，极大提高了搜索效率。

然而大多数情况下，概念集并不是一直连续的，概念编码之间可能存在空值，抑或是不需要的概念。如何保留需要的概念，剔除不需要的概念，生成合适的概念搜索区间，成为了将原本where in的写法替换为between用法的关键，在这里引入KMP匹配算法。

KMP算法是一种改进的字符串匹配算法，核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。

如图4所示，KMP算法的时间复杂度O(m+n)，结合KMP匹配算法的搜索方法，其具体过程如下：

首先在这里将医疗概念术语的ID集合，按顺序排序后，看作ID串。按顺序读取ID串，将前一个读取的ID看做匹配模板，利用已经匹配的数据，制定分割区间，将ID串进行分割。

将长ID串分割成段后，还需要对各子串的空洞做进一步剔除，只保留需要的ID所在的区间，然后做数据库查询，这一步为各子串搜索多线程同步进行，从而提高工程效率。

最后将各子串的运行结果汇总，作为本次搜索语句的输出。

通过上述方法依次对每一格中信息数据进行匹配，获得对应的数据队列集合。

如图5所示，再根据患者身份id，采用bitmap算法对各个筛选条件的数据队列集进行聚合，其具体过程如下：

先构建一个Bit数组，数组的每个元素，都能表示0或者1，数组的长度为2^31，由于一个整数占4字节，所以一个无符号整数，取值范围是0～(2^31-1)。因此，对于14亿(参考我国人口)整数中的任何一个数，都可以对应放进这个数组里面。Bit数组每个元素的初始值为1。

然后，对于患者身份id集合，由于患者身份id也是这14亿中的某个整数，我们将这个整数作为下标，把Bit数组中对应的位置保留为1，其他位置置为0。

遍历每个患者身份id集合，将患者身份id集合作为下标，Bit数组中对应的位置如果为1则保留为1，如果为0则保留为0，其他位置置为0，遍历完所有患者身份id集合后，最后得到的Bit数组中仍为1的即是我们所求的患者身份id交集。

这个算法的时间复杂度为O(N)，而这个数组占用的空间大小为：

2^31Bit＝2^31(Bit)/8(Byte)/1024(KB)/1024(M)＝256M

患者身份id的交集即为医疗研究所需队列，研究人员后续可以根据该队列结果做特征提取、匹配以及分析统计，从而获得患者对应的医疗数据队列，该医疗数据队列包含上述存储在源数据库中患者的患者基础信息、手术信息、用药信息、诊断信息、测量信息以及对应的医疗概念术语。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于通用医疗术语的快速构建队列方法，其特征在于，包括：

步骤2、根据步骤1中完成归类的原始医疗数据与通用医疗术语库进行匹配，通过对已归类原始医疗数据中的医疗概念术语进行分词拆解，并对所述分词与通用医疗术语的概念进行相似度匹配，生成对应的概念编号，并将所述概念编号与原始医疗数据组合存入源数据库；

步骤3、根据用户输入的筛选逻辑，对步骤2中源数据库的数据进行聚合筛选，生成对应筛选结果的医疗数据队列，所述筛选逻辑包括患者基础信息筛选，手术信息筛选，用药信息筛选，诊断信息筛选以及测量信息筛选，所述聚合筛选的过程如下：

步骤3-2、以步骤3-1转换获得的概念描述编号，采用KMP匹配算法对源数据库进行筛选，获得符合各个筛选条件的数据队列集，同时在采用KMP匹配算法时，将检索条件语句中的where in替换为between；

2.根据权利要求1所述的基于通用医疗术语的快速构建队列方法，其特征在于，在步骤1中，所述整理归类的种类包括患者的基础信息，手术信息、用药信息、诊断信息以及测量信息。

3.根据权利要求1所述的基于通用医疗术语的快速构建队列方法，其特征在于，在步骤1中，所述过滤包括剔除重复数据，矛盾值检测，范围检查，空值检查以及缺失值填充。

4.根据权利要求1所述的基于通用医疗术语的快速构建队列方法，其特征在于，所述相似度匹配根据每个分词在当前通用医疗术语的相似度进行排序，选择相似度最高的分词与阈值进行比较，若相似度大于阈值则直接输出当前通用医疗术语作为概念编号，若相似度小于阈值则采用人工审核输出最符合分词类型的通用医疗术语作为概念编号。

5.根据权利要求4所述的基于通用医疗术语的快速构建队列方法，其特征在于，所述相似度的具体公式如下：

6.根据权利要求4所述的基于通用医疗术语的快速构建队列方法，其特征在于，所述人工审核包括确定唯一匹配对象，新增概念对象以及剔除错误数据。

7.一种快速构建队列系统，通过如权利要求1～6任一项所述的基于通用医疗术语的快速构建队列方法实现，其特征在于，包括：

数据采集模块，用于获取患者的原始医疗数据；