CN113934895A

CN113934895A - 一种辅助建立患者主索引的方法

Info

Publication number: CN113934895A
Application number: CN202111147964.5A
Authority: CN
Inventors: 周庆勇; 荣广胜; 刘芳
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-14

Abstract

本发明公开了一种辅助建立患者主索引的方法，属于数据索引技术领域，要解决的技术问题为如何辅助建立患者主索引，减少面对庞杂数据时人力资源的消耗，以加速患者主索引的建立。包括如下步骤：将定义患者信息的数据模型和数据标准统一化，建立用于原始库表；将患者基本信息存量数据或患者基本信息存量数据从生产库或医院前置库迁移到原始库表中；对原始库表中的患者信息进行预处理；建立患者主索引表；通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配，将通过筛选匹配的数据存储至审核表；对审核表中的数据进行审核，将审核通过的数据加入主索引表中，将不通过的数据存储至再处理表。

Description

一种辅助建立患者主索引的方法

技术领域

本发明涉及数据索引技术领域，具体地说是一种辅助建立患者主索引的方法。

背景技术

目前健康医疗大数据已经确定为国家重要的基础战略资源，国内各省地市加快建设健康医疗大数据中心，需要把各医院的医疗数据统一采集、治理、分析以及业务创新。鉴于各医院信息化水平层次不一，缺乏标准等现状，实现各医疗机构之间、各医疗信息系统之间的信息交换共享就变得很困难。以患者为例，由于在不同医院办理的就诊卡流程规范不一样，就诊卡卡号不同，有的必须关联身份证号，有的非必须，就诊卡关联的家庭住址、联系方式等信息也因时间变化而不同，这样就无法统一形成以患者为主体的健康档案。

患者主索引是患者基本信息检索目录，其主要用途是在一个复杂的医疗体系内，通过唯一的患者标识将多个医疗信息系统有效地关联在一起，实现各个系统之间的互联互通，也保证了同一个患者在不同地域、不同医院中医疗信息的完整性和准确性。因此在构建患者为主体的健康档案前，需要将人员所有的就诊信息进行关联，进而实现人员身份的关联，与传统的患者主索引的概念不谋而合。

一般在建立患者主索引的过程中，需要通过多个能够标识患者身份的数据字段来计算多条数据记录间的相似性，而这依赖于人工对数据字段进行权重的分配。在人工分配数据字段权重的过程中，需要全面地了解数据字段分布情况，且不同数据字段间可能存在关联，导致需要联合考虑多个数据字段的权重。而随着数据的不断产生，数据的分布会随之产生变化，初始设置的权重便不能很好适应变化后的数据集，从而难以获得良好的效果。

基于上述分析，如何辅助建立患者主索引，减少面对庞杂数据时人力资源的消耗，以加速患者主索引的建立，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种辅助建立患者主索引的方法，来解决如何辅助建立患者主索引，减少面对庞杂数据时人力资源的消耗，以加速患者主索引的建立的技术问题。

本发明的一种辅助建立患者主索引的方法，用于对没有关联身份证件号或者身份证件号错误的患者信息与有合规证件号的患者数据进行融合、标识、匹配和分组，实现同一个患者相关的患者信息在各个医院医疗系统之间的关联，所述患者信息包括患者姓名、证件类型、证件号码、地址和联系电话，所述方法包括如下步骤：

将定义患者信息的数据模型和数据标准统一化，基于数据量选择数据库作为原始库，并在原始库中建立用于存储患者基本信息的原始库表；

将患者基本信息存量数据或患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中；

构建标准库表和异常库表，对原始库表中的患者信息进行预处理，将有身份证的数据以及无身份证或者无规范身份证的有效数据存储至标准库表中，将有问题数据或无效数据存储至异常库表中；

建立患者主索引表，所述患者主索引表的表模型与所述标准库表的模型一致，并将标准库表中带有身份证号的患者信息迁移至患者主索引表中；

构建审核表，通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配，将通过筛选匹配的数据存储至审核表；

构建再处理表，并对审核表中的数据进行审核，将审核通过的数据加入主索引表中，将不通过的数据存储至再处理表。

作为优选，所述患者信息还包括性别、出生日期、主要联系人、就诊医疗机构、以及就诊人所在医疗机构的ID；

所述地址包括家庭住址和工作地址；

所述证件类型包括身份证，所述证件号码包括身份证号码。

作为优选，所述数据库为hive数据库。

作为优选，通过开源工具Kettle或者Apache Nifi将患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中；

通过开源工具Kettle或者Apache Nifi将标准库表中带有身份证号的患者信息迁移至患者主索引表中。

作为优选，根据对原始库所有字段列按照缺失、空值进行统计数据分布，选择缺失率比较小的列为特征列，选择证件号码、患者姓名、住址、联系电话为主要特征类进行分析处理，并通过Spark对原始库表中的患者信息进行预处理。

作为优选，对原始库表中的患者信息进行预处理，包括：

对于患者姓名，去除姓名字段的特殊字符和空格；

在标准库中添加一列名称为姓名拼音的列，将中文姓名进行拼音化处理，以应对同音不同字的情形；

选择证件号码为身份证号的数据，按照规则对不合格身份证号进行过滤，所述规则包括位数；

结合身份证号对出生日期和性别字段进行校验；

验证联系电话的有效性，无效的置为空值，有效的保留；

删除地址中的特殊字符，并对其进行TF-IDF向量化；

预处理后，无效或异常数据包括一个证件号对应多个姓名的数据、无身份证号且地址、性别、出生日期、电话四个字段列缺失大于3个的数据。

作为优选，通过规则匹配和模型预测相结合的方式，通过pySpark对无规范身份的有效数据进行筛选匹配，包括如下步骤：

将标准库表中无规范身份证号的有效数据与患者主索引表中的数据进行规则匹配，匹配规则为：选取患者信息包括姓名、性别、出生日期、联系方式及住址，通过姓名、联系方式及性别进行匹配，姓名拼音一致且汉字姓氏一致、性别一致、且电话一致，则记录对得两条记录为同一患者；通过姓名、出生日期、及性别进行匹配，姓名拼音一致且汉字姓氏一致、且出生日期一致，则记录对得两条记录为同一患者，将匹配结果加入审核表；

对于姓名或拼音相同但未能通过规则匹配的记录对，基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址 TF-IDF向量相似度，并基于权重计算方法计算每个字段的权重，基于相似度和权重选择满足相似条件的记录对，和/或，通过随机森林二分类模型筛选匹配概率大预定值的记录对，并将所述记录对加入审核表中；

基于图计算中最大连通图算法，将匹配的记录对中的记录作为图中的节点，匹配关系作为图的边，计算最大连通图，得到匹配记录群。

作为优选，基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度，包括：

对于性别，相同值similarity为1，不同为0，有缺失值为0.5；

对于住址，进行向量化后计算余弦相似度；

基于权重计算方法计算每个字段的权重，包括：

对于证件类型和民族，对于每一个字段，通过tf-idf权重方法中的idf 值作为所述字段中不同值的权重；

对于字段列姓名、联系方式、以及地址，由于字段内部可能出现值的情况很多，如果不便于对每一个值单独设置一个权重，对所述字段统一设置一个相同的权重；

基于相似度和权重选择满足相似条件的记录对，包括：

以每个字段两条数据值之间相似度乘以对应的权重再求和的方式，计算最终打分，最终打分计算公式为∑权重*相似度；

所述最终打分代表了两条数据的相似情况，大于临界值threshold的判断为可以融合，所述Threshold值的定义可以获取已融合两条数据的打分的最小值。

作为优选，通过随机森林二分类模型筛选匹配概率大预定值的记录对，包括：

对记录对进行采样，得到样本记录对；

人工标注样本记录对的两条记录是否匹配的标签；

基于采样的记录对以及标签构建训练集，基于训练集通过交叉验证、参数网格搜索方法训练随机森林二分类模型，得到训练后随机森林二分类模型；

基于姓名或拼音相同但未能通过规则匹配的记录对构建数据集，通过训练后随机森林二分类模型对所述数据集筛选匹配，将筛选匹配概率大于预定值的记录对加入审核表。

本发明的一种辅助建立患者主索引的方法具有以下优点：

1、可以利用流水线的方式减少在面对庞大患者基本信息数据时人工处理的复杂度，加速患者主索引的建立，从而尽可能保证对同一个患者信息采集的完整性和准确性，提高工作效率；

2、实现了患者信息的融合和链接；

3、利用规则判断、权重*相似度以及机器学习中的分类模型对患者基本信息是否匹配做出预测，提高了预测的准确率；

4、建立流水线流程，对存量患者基本信息数据和增量患者基本信息数据辅助建立患者主索引。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种辅助建立患者主索引的方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供一种辅助建立患者主索引的方法，用于解决如何辅助建立患者主索引，减少面对庞杂数据时人力资源的消耗，以加速患者主索引的建立的技术问题。

实施例：

本发明的一种辅助建立患者主索引的方法，用于对没有关联身份证件号或者身份证件号错误的患者信息与有合规证件号的患者数据进行融合、标识、匹配和分组，实现同一个患者相关的患者信息在各个医院医疗系统之间的关联，患者信息包括患者姓名、证件类型、证件号码、地址和联系电话等。

该方法包括如下步骤：

S100、将定义患者信息的数据模型和数据标准统一化，基于数据量选择数据库作为原始库，并在原始库中建立用于存储患者基本信息的原始库表；

S200、将患者基本信息存量数据或患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中；

S300、构建标准库表和异常库表，对原始库表中的患者信息进行预处理，将有身份证的数据以及无身份证或者无规范身份证的有效数据存储至标准库表中，将有问题数据或无效数据存储至异常库表中；

S400、建立患者主索引表，患者主索引表的表模型与所述标准库表的模型一致，并将标准库表中带有身份证号的患者信息迁移至患者主索引表中；

S500、构建审核表，通过规则匹配和模型预测相结合的方式对无规范身份的有效数据进行筛选匹配，将通过筛选匹配的数据存储至审核表；

S600、构建再处理表，并对审核表中的数据进行审核，将审核通过的数据加入主索引表中，将不通过的数据存储至再处理表。

步骤S100统一定义患者信息的数据模型和标准，如患者姓名、性别、出生日期、家庭住址、工作地址、主要联系人、就诊医疗机构、就诊人所在医疗结构的ID、证件类型、证件号码、联系电话等，根据实际数据量大小选择合适的数据存储库，如果场景是面向全省的三级甲等医院，数据量比较大，方案可选择hive，建立患者基本信息的原始库表。

步骤S200对于患者基本信息存量数据，通过使用开源工具Kettle或者 ApacheNifi从生产库或者医院前置库进行迁移/采集到第一步的原始库中，期间不进行任何的清洗转换，保证全量数据入库。

步骤S300考虑到当初患者首次就诊时手动填写信息不清晰或者医院数据录入过程中可能出现的手误、异常等人为因素，为保证高质量的两院患者数据关联，需要对原始库中的患者数据进行预处理。预处理前，分别建立标准库表和异常库表，标准库和异常库包含原始库的所有列，其中标准库用于存放预处理后的数据，异常库存储问题或无效数据。根据对原始库所有字段列按照缺失、空值进行统计数据分布，选择缺失率比较小的列为特征列，本实施例选择身份证号、患者姓名、住址(含家庭、工作地址)、联系电话为主要特征类进行分析处理，本实施例采用Spark进行预处理计算。以下为采用的预处理规则和方法：

(1)姓名：去除姓名字段的特殊字符、空格；

(2)在标准库中添加一列‘姓名拼音’，把中文姓名进行拼音化处理，方便应对同音不同字的情形；

(3)选择证件号为身份证号的数据，按照位数等规则对不合规身份证号进行过滤；

(4)结合身份证号对出生日期及性别字段列进行校验；

(5)验证联系电话的有效性：无效的置为空值，有效保留；

(6)删除地址中的特殊字符，并对其通过TF-IDF向量化。

无效或异常数据主要包括：一个证件号对应多个姓名(两条以上)的数据以及无身份证号且地址、性别、出生日期、电话四个字段列缺失大于3个的数据。

通过该步骤数据处理完整后，标准库表中存放的数据为有身份证的数据和无身份证或者无规范身份证的有效数据。

步骤S400建立患者主索引表，患者主索引表的表模型同标准库表。通过使用Kettle或者Apache Nifi等数据迁移工具将标准库表中带有身份证号的患者信息迁移到索引表。

步骤S500采取规则+模型预测的方式寻找同一患者数据。首先建立人工审核表，目的是方便人工去对按规则或模型预测的匹配数据对进行核对，毕竟无论是后续采用的向量相似度还是最大连通图方法，都是概率问题。该环节为保证编码及计算性能，采用pySpark来实现匹配、相似度等计算逻辑。

以下分三种情况对无规范身份的有效数据进行处理：

(1)使用标准库表中的无规范身份证号的有效数据与患者主索引表中数据进行规则匹配，匹配规则为：选取姓名、性别、出生日期、联系方式及住址等特征，通过姓名、联系方式、性别进行匹配，姓名拼音一致且汉字姓氏一致，性别一致，电话一致，则记录对得两条记录为同一人；通过姓名、出生日期、性别进行匹配，姓名拼音一致且汉字姓氏一致，出生日期一致，则记录对得两条记录为同一人，将匹配结果加入人工审核表；

(2)对姓名或拼音相同但未能通过规则匹配的记录对，计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度，具体思路为如下：

(2-1)基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度，并基于权重计算方法计算每个字段的权重，基于相似度和权重选择满足相似条件的记录对，具体操作为：

(A)相似度算法选择

对于性别，相同值similarity为1，不同为0，有缺失值为0.5；

对于住址，在向量化后，再计算余弦相似度；

(B)权重计算

对于每一个字段，可以用tf-idf权重方法中的idf值作为该字段中不同值的权重，比如证件类型、民族等；

对于字段列姓名、联系方式、地址，由于字段内部可能出现值的情况很多，如果不便于对每一个值单独设置一个权重，可以该字段统一设置一个相同的权重；

(C)最终打分

最终打分计算公式为：∑权重*相似度，即每个字段两条数据值之间相似度乘以对应的权重再求和，这个最终打分代表了两条数据的相似情况，即是不是同一人的数据；

根据最终打分，大于临界值threshold的判断为可以融合，Threshold值的定义可以获取已融合两条数据的打分的最小值。

(2-2)通过随机森林二分类模型筛选匹配概率大预定值的记录对，并将所述记录对加入审核表中，具体为：

对记录对进行采样，人工标注两条记录是否匹配的标签，依照此训练集使用交叉验证、参数网格搜索等技术训练随机森林二分类模型，随机森林模型有着较高的性能，同时可以有效地防止过拟合的出现，并且方便跨语言跨平台部署；

通过训练后随机森林二分类模型对记录对数据集进行匹配分析，并筛选匹配概率大于90％的记录对，加入人工审核表；

(3)由于上述处理结果均为记录对，而现实中存在大量多条记录指向同一患者的情况，因此引入图计算中的最大连通图算法，将匹配的记录对中的记录作为图中的节点，匹配关系作为图的边，计算最大连通图，从而获得匹配记录群。

步骤S600对人工审核表里的数据进行人工审核，审核通过的记录加入主索引表，不通过的加入再处理表。

上述步骤主要针对全量数据展开，对于增量数据可以按照上述处理过程依次进行，最终更新主索引表。

本实施例的方法可以利用流水线的方式减少在面对庞大患者基本信息数据时人工处理的复杂度，加速患者主索引的建立，从而尽可能保证对同一个患者信息采集的完整性和准确性，提高工作效率。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.辅助建立患者主索引的方法，其特征在于用于对没有关联身份证件号或者身份证件号错误的患者信息与有合规证件号的患者数据进行融合、标识、匹配和分组，实现同一个患者相关的患者信息在各个医院医疗系统之间的关联，所述患者信息包括患者姓名、证件类型、证件号码、地址和联系电话，所述方法包括如下步骤：

2.根据权利要求1所述的辅助建立患者主索引的方法，其特征在于所述患者信息还包括性别、出生日期、主要联系人、就诊医疗机构、以及就诊人所在医疗机构的ID；

所述地址包括家庭住址和工作地址；

所述证件类型包括身份证，所述证件号码包括身份证号码。

3.根据权利要求1所述的辅助建立患者主索引的方法，其特征在于所述数据库为hive数据库。

4.根据权利要求1所述的辅助建立患者主索引的方法，其特征在于通过开源工具Kettle或者Apache Nifi将患者基本信息存量数据以全量数据入库的方式从生产库或医院前置库迁移到原始库表中；

5.根据权利要求1所述的辅助建立患者主索引的方法，其特征在于根据对原始库所有字段列按照缺失、空值进行统计数据分布，选择缺失率比较小的列为特征列，选择证件号码、患者姓名、住址、联系电话为主要特征类进行分析处理，并通过Spark对原始库表中的患者信息进行预处理。

6.根据权利要求5所述的辅助建立患者主索引的方法，其特征在于对原始库表中的患者信息进行预处理，包括：

对于患者姓名，去除姓名字段的特殊字符和空格；

结合身份证号对出生日期和性别字段进行校验；

验证联系电话的有效性，无效的置为空值，有效的保留；

删除地址中的特殊字符，并对其进行TF-IDF向量化；

7.根据权利要求1所述的辅助建立患者主索引的方法，其特征在于通过规则匹配和模型预测相结合的方式，通过pySpark对无规范身份的有效数据进行筛选匹配，包括如下步骤：

对于姓名或拼音相同但未能通过规则匹配的记录对，基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度，并基于权重计算方法计算每个字段的权重，基于相似度和权重选择满足相似条件的记录对，和/或，通过随机森林二分类模型筛选匹配概率大预定值的记录对，并将所述记录对加入审核表中；

8.根据权利要求7所述的辅助建立患者主索引的方法，其特征在于基于相似度算法计算记录对中两个患者信息的性别相似度、出生日期相似度以及住址TF-IDF向量相似度，包括：

对于性别，相同值similarity为1，不同为0，有缺失值为0.5；

对于住址，进行向量化后计算余弦相似度；

基于权重计算方法计算每个字段的权重，包括：

对于证件类型和民族，对于每一个字段，通过tf-idf权重方法中的idf值作为所述字段中不同值的权重；

基于相似度和权重选择满足相似条件的记录对，包括：

9.根据权利要求7所述的辅助建立患者主索引的方法，其特征在于通过随机森林二分类模型筛选匹配概率大预定值的记录对，包括：

对记录对进行采样，得到样本记录对；

人工标注样本记录对的两条记录是否匹配的标签；