CN111785341A

CN111785341A - 基于相似性的患者主索引数据合并方法及装置

Info

Publication number: CN111785341A
Application number: CN202010622781.3A
Authority: CN
Inventors: 郭国斌; 曾书勤
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16

Abstract

本发明公开了基于相似性的患者主索引数据合并方法、装置、计算机设备及存储介质，涉及大数据的数据处理和智慧医疗，包括根据第一字段值提取策略获取用户信息数据对应的当前第一字段值，以其为检索条件获取对应的初次筛选后数据集合；将用户信息数据进行数据调整后获取与各条初次筛选后数据的相似度，以获取对应的相似度集合；获取相似度集合中的最大相似度以作为目标相似度，获取目标相似度对应的目标筛选数据；判断目标相似度是否大于第一相似度阈值；若大于则将用户信息数据对应的交叉索引与目标筛选数据对应的主索引进行关联。该方法实现了对用户信息数据的自动矫正后与历史相似数据合并索引，提高了数据处理效率，而且降低了人工成本。

Description

基于相似性的患者主索引数据合并方法及装置

技术领域

本发明涉及大数据的数据处理技术领域，尤其涉及一种基于相似性的患者主索引数据合并方法、装置、计算机设备及存储介质。

背景技术

基于目前国内医疗信息化的发展不平衡，信息化建设基本是厂商标准，没有一个统一的信息化建设标准；同时各业务系统数据共享差，各业务系统不能实现完全的数据共享；同时医疗行业的业务管理不规范，从而导致了一个患者在一个医院有多张就诊卡，多个主索引，在区域内的各医院也有多张就诊卡，导致了一个患者要管理很多就诊卡，同时医院要为一个患者管理多张就诊卡。

基于以上医疗信息化的大环境下，国内的医疗信息化厂商为了管理这些就诊卡，开发了患者主索引系统，来解决医院与患者难管理就诊卡的信息系统，同时也解决了一个患者一辈子、一个主索引、一个健康档案，基于这三个一实现了对患者的健康全生命周期的管理。

目前行业内已有支持在院内与区域跨域使用的患者主索引系统，该系统能够支持对患者主索引的患者主索引管理、交叉主索引管理、院内主索引验证、区域跨域主索引验证、患者合并和患者拆分等功能，实现一个患者只有一个主索引，一个主索引可以实现对院内与区域跨域的验证，从而解决了一个患者、一个主索引、一次验证使用的便民服务，提高患者的就诊体验。

但是，传统患者主索引系统存在着数据合并不准确，大部分的人工介入合并工作。传统患者主索引系统对于数据的纠正能力差，比如姓名的多音字、错别字、电话号码的差错等都没有办法做到有效的纠正，只能通过人力来进行判断，然后人为的对多条主索引数据进行处理，确认多条主索引是同一个患者的信息，人力操作多条索引合并成一条主索引，从而提高了人力成本、降低效率、提高系统使用成本和使用成本。

发明内容

本发明实施例提供了一种基于相似性的患者主索引数据合并方法、装置、计算机设备及存储介质，旨在解决现有技术中患者主索引系统对于数据的纠正能力差，只能通过人工来进行判断，然后人为的对多条主索引数据进行合并处理，实现方式人工成本高，而且效率低下的问题。

第一方面，本发明实施例提供了一种基于相似性的患者主索引数据合并方法，其包括：

获取医院信息系统服务器上传的用户信息数据；其中，所述用户信息数据至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址；

根据预先设置的第一字段值提取策略获取所述用户信息数据中对应的当前第一字段值，以当前第一字段值为检索条件获取对应的初次筛选后数据集合；其中，所述初次筛选后数据集合中包括若干条初次筛选后数据，每一初次筛选后数据中至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址；

将所述用户信息数据按照预设的数据调整策略进行数据调整得到调整用户信息数据，获取所述调整用户信息数据与所述初次筛选后数据集合中各条初次筛选后数据的相似度，以获取对应的相似度集合；其中，所述数据调整策略用于对用户信息数据中的姓名、性别、出生日期、证件类型、证件号码、联系电话进行字符调整和矫正；

获取所述相似度集合中的最大相似度以作为目标相似度，获取所述目标相似度对应的目标筛选数据；

判断所述目标相似度是否大于预先设置的第一相似度阈值；以及

若所述目标相似度大于所述第一相似度阈值，将所述用户信息数据对应的交叉索引与所述目标筛选数据对应的主索引进行关联。

第二方面，本发明实施例提供了一种基于相似性的患者主索引数据合并装置，其包括：

用户信息数据获取单元，用于获取医院信息系统服务器上传的用户信息数据；其中，所述用户信息数据至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址；

初次筛选单元，用于根据预先设置的第一字段值提取策略获取所述用户信息数据中对应的当前第一字段值，以当前第一字段值为检索条件获取对应的初次筛选后数据集合；其中，所述初次筛选后数据集合中包括若干条初次筛选后数据，每一初次筛选后数据中至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址；

相似度集合获取单元，用于将所述用户信息数据按照预设的数据调整策略进行数据调整得到调整用户信息数据，获取所述调整用户信息数据与所述初次筛选后数据集合中各条初次筛选后数据的相似度，以获取对应的相似度集合；其中，所述数据调整策略用于对用户信息数据中的姓名、性别、出生日期、证件类型、证件号码、联系电话进行字符调整和矫正；

目标筛选数据获取单元，用于获取所述相似度集合中的最大相似度以作为目标相似度，获取所述目标相似度对应的目标筛选数据；

第一相似度阈值判断单元，用于判断所述目标相似度是否大于预先设置的第一相似度阈值；以及

主索引关联单元，用于若所述目标相似度大于所述第一相似度阈值，将所述用户信息数据对应的交叉索引与所述目标筛选数据对应的主索引进行关联。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于相似性的患者主索引数据合并方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于相似性的患者主索引数据合并方法。

本发明实施例提供了一种基于相似性的患者主索引数据合并方法、装置、计算机设备及存储介质，包括根据第一字段值提取策略获取用户信息数据对应的当前第一字段值，以其为检索条件获取对应的初次筛选后数据集合；将用户信息数据进行数据矫正后获取与各条初次筛选后数据的相似度，以获取对应的相似度集合；获取相似度集合中的最大相似度以作为目标相似度，获取目标相似度对应的目标筛选数据；判断目标相似度是否大于第一相似度阈值；若大于则将用户信息数据对应的交叉索引与目标筛选数据对应的主索引进行关联。该方法实现了对用户信息数据的自动矫正后与历史相似数据合并索引，提高了数据处理效率，而且降低了人工成本。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于相似性的患者主索引数据合并方法的应用场景示意图；

图2为本发明实施例提供的基于相似性的患者主索引数据合并方法的流程示意图；

图3为本发明实施例提供的基于相似性的患者主索引数据合并方法的子流程示意图；

图4为本发明实施例提供的基于相似性的患者主索引数据合并装置的示意性框图；

图5为本发明实施例提供的基于相似性的患者主索引数据合并装置的子单元示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本申请中，为了更清楚的了解本申请的技术方案，下面对所涉及的终端进行详细介绍。如图1所示，其为本发明实施例提供的基于相似性的患者主索引数据合并方法的应用场景示意图。本申请是在患者主索引系统服务器的角度描述技术方案。

一是患者主索引系统服务器，患者主索引(Enterprise MasterPatient Index，EMPI)是二十世纪末出现的医疗信息化专业用语，简单来说，它是患者基本信息检索目录。其主要用途是在一个复杂的医疗体系内，通过唯一的患者标识将多个医疗信息系统有效地关联在一起。以实现各个系统之间的互联互通，保证对同一个患者，分布在不同系统中的个人信息采集的完整性和准确性。EMPI本质上是一个数据整合系统，它把来自多个不同的系统中的病人标识统一成一个，实现对同一病人仅仅有一个标识对应，同一病人的信息也归并在同一个标识之下。这样就有效地解决了多系统中识别病人身份的问题。EMPI系统会为每个注册的医院信息系统分配一个Domain ID，用以标识每个外部的医院信息系统。当增加病人信息(或医生的基本信息)的非主数据部分后，外部的医院信息系统则会产生一个Internal ID，与此同时，外部的医院信息系统将发出请求，在EMPI系统中添加相应的病人(或医生)信息的主数据部分。在添加完主数据后，EMPI系统会为其生成一个Global ID，并且建立起Global ID与Domain Id、Internal ID的映射关系，从而实现了PIX(patientidentifier cross-reference，即患者标识交叉索引)功能。

二是医院信息系统服务器，用于将病人信息或医生的基本信息发送至患者主索引系统服务器进行数据整合。其中，可以是多家医院均设置有一个医院信息系统服务器，各医院信息系统服务器均可以上传病人信息或医生的基本信息至患者主索引系统服务器。

请参阅图2，图2为本发明实施例提供的基于相似性的患者主索引数据合并方法的流程示意图，该基于相似性的患者主索引数据合并方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S160。

S110、获取医院信息系统服务器上传的用户信息数据；其中，所述用户信息数据至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址。

在本实施例中，当某一家医院A部署的医院信息系统服务器A上传了一条用户信息数据后，此时为了在患者主索引系统服务器中判断是否有与该用户对应的其他数据以使其相关联时，此时可以进行后续数据预处理。

S120、根据预先设置的第一字段值提取策略获取所述用户信息数据中对应的当前第一字段值，以当前第一字段值为检索条件获取对应的初次筛选后数据集合；其中，所述初次筛选后数据集合中包括若干条初次筛选后数据，每一初次筛选后数据中至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址。

在本实施例中，例如此次医院信息系统服务器A上传的用户信息数据中包括了姓名、性别、出生日期、证件类型、证件号码、联系电话与地址这些字段的信息时，此时为了在患者主索引系统服务器中快速检索出该用户信息数据对应可以归集为同一患者的目标数据，可以先以根据预先设置的第一字段值提取策略获取所述用户信息数据中对应的当前第一字段值，例如可以设置第一字段值提取策略为获取用户信息数据中姓名对应的具体取值。在获取所述用户信息数据中对应的当前第一字段值后，此时以当前第一字段值为检索条件在患者主索引系统服务器中检索到初次筛选后数据集合。

例如，当前第一字段值为张三，故在患者主索引系统服务器中检索到初次筛选后数据集合是所有名字中包括张三或与张三汉语拼音近似的数据，例如张三、张桑、张三丰、张三峰等。

在本实施例中，患者主索引系统服务器可以作为一个区块链节点设备，以将所述第一字段值提取策略上传至区块链网络，充分利用区块链数据不可篡改的特性，实现数据固化存储。而且，服务器可以从区块链中下载得到第一字段值提取策略。

其中，基于第一字段值提取策略得到对应的摘要信息，具体来说，摘要信息由第一字段值提取策略进行散列处理得到，比如利用sha256算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。服务器可以从区块链中下载得该摘要信息，以便查证所述第一字段值提取策略是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

S130、将所述用户信息数据按照预设的数据调整策略进行数据调整得到调整用户信息数据，获取所述调整用户信息数据与所述初次筛选后数据集合中各条初次筛选后数据的相似度，以获取对应的相似度集合；其中，所述数据调整策略用于对用户信息数据中的姓名、性别、出生日期、证件类型、证件号码、联系电话进行字符调整和矫正。

在本实施例中，在计算所述用户信息数据与各条初次筛选后数据的相似度时，以两个数据之间多个维度字段值的相似度来综合计算综合相似度，也即所述用户信息数据与所述初次筛选后数据集合中每一条初次筛选后数据均计算一个综合相似度，这些综合相似度组成了相似度集合。

在一实施例中，如图3所示，步骤S130包括：

S131、获取所述用户信息数据根据数据调整策略调整后的姓名与所述初次筛选后数据中的姓名之间对应的第一相似度结果；其中，所述初次筛选后数据为所述初次筛选后数据集合其中一条数据；

S132、获取所述用户信息数据根据数据调整策略调整后的性别与所述初次筛选后数据中的性别之间对应的第二相似度结果；

S133、获取所述用户信息数据根据数据调整策略调整后的出生日期与所述初次筛选后数据中的出生日期之间对应的第三相似度结果；

S134、获取所述用户信息数据根据数据调整策略调整后的证件类型与所述初次筛选后数据中的证件类型之间对应的第四相似度结果；

S135、获取所述用户信息数据根据数据调整策略调整后的证件号码与所述初次筛选后数据中的证件号码之间对应的第五相似度结果；

S136、获取所述用户信息数据根据数据调整策略调整后的联系号码与所述初次筛选后数据中的联系号码之间对应的第六相似度结果；

S137、获取所述用户信息数据根据数据调整策略调整后的地址与所述初次筛选后数据中的地址之间对应的第七相似度结果；

S138、获取第一相似度结果对应的第一权重值、获取第二相似度结果对应的第二权重值、获取第三相似度结果对应的第三权重值、获取第四相似度结果对应的第四权重值、获取第五相似度结果对应的第五权重值、获取第六相似度结果对应的第六权重值、获取第七相似度结果对应的第七权重值，根据综合相似度＝第一相似度结果中取值*第一权重值+第二相似度结果中取值*第二权重值+第三相似度结果中取值*第三权重值+第四相似度结果中取值*第四权重值+第五相似度结果中取值*第五权重值+第六相似度结果中取值*第六权重值+第七相似度结果中取值*第七权重值，获取所述用户信息数据与所述初次筛选后数据对应的综合相似度。

在本实施例中，上述步骤是以计算所述用户信息数据与初次筛选后数据集合中某一条初次筛选后数据为例，来说明综合相似度的计算过程。在分别计算了第一相似度结果-第七相似度结果时，可以再次获取第一权重值-第七权重值，最终以综合相似度＝第一相似度结果中取值*第一权重值+第二相似度结果中取值*第二权重值+第三相似度结果中取值*第三权重值+第四相似度结果中取值*第四权重值+第五相似度结果中取值*第五权重值+第六相似度结果中取值*第六权重值+第七相似度结果中取值*第七权重值，获取所述用户信息数据与所述初次筛选后数据对应的综合相似度。

通过计算综合相似度，能以此参数作为判断用户信息数据与某一条初次筛选后数据是否为同一用户的数据，进而判断是否进行主索引合并。

在一实施例中，步骤S131包括：

判断所述用户信息数据中的姓名是否为中文字符串；

若所述用户信息数据中的姓名为中文字符串，将所述用户信息数据中的姓名转化为第一大写中文拼音字符串，将所述初次筛选后数据中的姓名转化为第二大写中文拼音字符串；

通过字符串编辑距离获取所述第一大写中文拼音字符串与所述第二大写中文拼音字符串之间的相似度，以作为第一相似度结果。

在本实施例中，获取所述用户信息数据中的姓名与所述初次筛选后数据中的姓名之间的相似度时，由于所述用户信息数据中的姓名可能是中文姓名也有可能是英文姓名，在计算两个姓名之间的相似度时，可以先判断所述用户信息数据中的姓名是中文姓名还是英文姓名，之后可以统一转化为英文字符串之后计算两者的相似度。

此时判断用户信息数据中的姓名是否有中文字符串，可以判断其中是否有字符对应的Unicode值是中文对应的Unicode值，如果有则表示姓名是中文字符串，如果没有则表示姓名是英文字符串。

例如，所述用户信息数据中的姓名是张三，其对应的姓名是中文字符串，其对应转化为拼音且全由大写字母组成的字符串是“ZHANG SAN”；若所述初次筛选后数据中的姓名是张桑，其对应转化为拼音且全由大写字母组成的字符串是“ZHANG SANG”。

在通过字符串编辑距离获取所述第一大写中文拼音字符串与所述第二大写中文拼音字符串之间的相似度中，Levenshtein Distance是一个度量两个字符序列之间差异的字符串度量标准，两个单词之间的Levenshtein Distance是将一个单词转换为另一个单词所需的单字符编辑(插入、删除或替换)的最小数量。Levenshtein Distance是1965年由苏联数学家Vladimir Levenshtein发明的。Levenshtein Distance也被称为编辑距离(EditDistance)。

例如由“ZHANG SAN”转换为“ZHANG SANG”所需的最小数量是1，即在ZHANG SAN后面加上一个G即可变换成ZHANG SANG，此时两个中文拼音字符串之间的相似度计算公式如下：

其中，lev_a,b(|a|,|b|)是字符串a与字符串b之间的编辑距离，max(|a|,|b|)是字符串a与字符串b之中字符总数较大者。

此时，若将“ZHANG SAN”视为一个完整的字符串，其字符总数为9(即8个英文字符和一个空格字符)；同样的将“ZHANG SANG”视为一个完整的字符串，其字符总数为10，此时两者之间的相似度为1-1/10＝0.9＝90％，此时若针对了姓名相似度设置了一个姓名相似度阈值60％，由于90％＞60％，此时可以先认为“ZHANG SAN”与“ZHANG SANG”是相同(“相同”用“是”简记)且相似度为90％，即第一相似度结果为：是、相似度为90％。通过这一方式，能准确的判断所述用户信息数据中的姓名与所述初次筛选后数据中的姓名是否是相似的。

在一实施例中，所述判断所述用户信息数据中的姓名是否为中文字符串之后的步骤，还包括：

若所述用户信息数据中的姓名为英文字符串，将所述用户信息数据中的姓名转化为第一大写英文字符串，将所述初次筛选后数据中的姓名转化为第二大写英文字符串；

通过字符串编辑距离获取第一大写英文字符串与所述第二大写英文字符串之间的相似度，以作为第一相似度结果。

在本实施例中，例如，所述用户信息数据中的姓名是Jack，其对应的姓名是英文字符串，其对应转化为全由大写字母组成的字符串是“JACK”；若所述初次筛选后数据中的姓名是Jack，其对应转化为全由大写字母组成的字符串是“JACK”。

由于第一大写英文字符串与所述第二大写英文字符串均是对应“JACK”，故两者之间完全相同，对应的第一相似度结果为：是、相似度为100％。通过这一方式，也能准确的判断所述用户信息数据中的姓名与所述初次筛选后数据中的姓名是否是相似的。

同样的，由于性别可能是英文(Male或Female)或者中文(男或女)表示，此时计算所述用户信息数据中的性别与所述初次筛选后数据中的性别之间对应的第二相似度结果，可以参考步骤S131的具体步骤中计算姓名的相似度来进行。此处需要注意的是，由于性别的取值只有两种，完全相同时才能输出第二相似度结果为：是、相似度为100％；否则其他情况输出的第二相似度结果为：否、相似度为0％。

一般录入的出生日期格式为XXXX-YY-ZZ(其中，XXXX表示年份，YY表示月份，ZZ表示日期)，即出生日期格是数字字符串，此时在计算数字字符串之间的相似度时，先是对出生日期里面夹杂的字母、输入错位、输入少位、输错数字进行纠正后再比较相似度。

在一实施例中，所述步骤S133包括：

调用预先存储的标准出生日期格式，将所述用户信息数据中的出生日期调整为第一调整后出生日期；

判断所述第一调整后出生日期中是否有预设的敏感英文字符；其中，所述预设的英文字符包括I、l、O、o、B；

若所述第一调整后出生日期中有所述敏感英文字符，将所述第一调整后出生日期中的敏感英文字符调整为对应的矫正数字，得到第二调整后出生日期；

将所述第二调整后出生日期中的间隔符移除，以得到对应的第三调整后出生日期；

将所述初次筛选后数据中的出生日期中的间隔符移除，以得到对应的目标调整后出生日期；

获取所述第三调整后出生日期与所述目标调整后出生日期之间的相似度，以作为第三相似度结果。

在本实施例中，例如，标准出生日期格式为XXXX-YY-ZZ，若所述用户信息数据中的出生日期为2000-l-1，此时第一调整后出生日期为2000-0l-01。

其中，上述英文字符易与数字混淆，例如I是i的大写易与数字1混淆，l是L的小写易与数字1混淆，O和o易与数字0混淆，B易与数字8混淆，此时若在所述第一调整后出生日期中存在上述英文字符，则自动调整为对应的数字，即将I或l调整为1，将O、o调整为0，将B调整为8。

例如第一调整后出生日期为2000-0l-01，其中月份中存在敏感英文字符“l”，此时将其对应调整为数字字符“1”，得到第二调整后出生日期为2000-01-01。

其中，第二调整后出生日期为2000-01-01，其中年份和月份之间有第一间隔符“-”，月份和日期之间有第二间隔符“-”，将第二调整后出生日期中第一间隔符和第二间隔符移除后，得到的第三调整后出生日期为20000101。

例如，所述初次筛选后数据中的出生日期为2000-01-01，其中年份和月份之间有第三间隔符“-”，月份和日期之间有第四间隔符“-”，将所述初次筛选后数据中的出生日期中第三间隔符和第四间隔符移除后，得到的目标调整后出生日期为20000101。

在计算所述第三调整后出生日期与所述目标调整后出生日期之间的相似度时，也是统计两者之间相同数字的总个数后除以所述第三调整后出生日期的数字总个数，得到第三相似度结果为：是、相似度为100％。

同样的，由于证件类型可能是英文(Citizen Identity Card、Passport等)或者中文(公民身份证、护照等)表示，此时所述用户信息数据中的证件类型与所述初次筛选后数据中的证件类型之间对应的第四相似度结果，可以参考步骤S131的具体步骤中计算姓名的相似度来进行。此处需要注意的是，所述用户信息数据中的证件类型与所述初次筛选后数据中的证件类型完全相同时才能输出第四相似度结果为：是、相似度为100％；否则其他情况输出的第四相似度结果为：否、相似度为0％。

由于证件号码可能是由数字字符和字母字符混合组成，此时以此种情况为例说明如何计算得到第五相似度结果。

此时，可以先对字母字符所在的位置进行校验，例如以中国居民身份证的18位公民身份证号码为例，一种情况是字母字符在第18为的校验位且前17位都是数字字符，另一种情况是18位都是数字字符。

在一实施例中，步骤S135包括：

判断所述用户信息数据中的证件号码中是否包括英文字符；

若所述用户信息数据中的证件号码中包括英文字符，判断所述用户信息数据中的证件号码中所包括的英文字符是否在末位；

若所述用户信息数据中的证件号码中所包括的英文字符未在末位，将该英文字符移动至证件号码的末位，得到矫正后证件号码；

获取所述矫正后证件号码与所述初次筛选后数据中的证件号码之间的相似度，以作为第五相似度结果。

在本实施例中，所述用户信息数据中的证件号码一般在录入过程中最有可能是将最末位的英文字符与倒数第二位的数字进行了位置互换，从而导致了错误，此时直接将该英文字符移动至证件号码的末位，之前位于该英文字符之后的字母全部向前移动一位，即可得到矫正后证件号码。

例如，所述矫正后证件号码与所述初次筛选后数据中的证件号码都是包括18个字符，前17个字符都相同，仅有第18位字符不同，此时两者之间的相似度为1-1/18＝17/18，得到第五相似度结果为：是、相似度为17/18。

由于所述用户信息数据中的联系号码一般是数字字符串，在计算其与所述初次筛选后数据中的联系号码之间对应的第六相似度结果实，也是参考出生日期之间的相似度计算过程，先矫正所述用户信息数据中的联系号码可能出现的敏感字母为数字，之后再计算矫正后的数字字符串与所述初次筛选后数据中的联系号码之间对应的第六相似度结果。

在计算矫正后的数字字符串与所述初次筛选后数据中的联系号码之间对应的相似度时，也是统计两者之间相同数字的总个数后除以所述算矫正后的数字字符串的数字总个数，得到第六相似度结果。例如第六相似度结果为：是、相似度为100％。

一般地址可能是由汉字字符和数字字符混合组成，也有可能是英文字符和数字字符混合组成，此时以地址由汉字字符和数字字符混合组成的情况为例说明如何计算得到第七相似度结果。

同样的，也是将所述用户信息数据中的地址中的汉字字符转化为大写字母拼音，将数字字符进行保留。例如所述用户信息数据中的地址为广东省深圳市南山区深南大道1000000号，其中的汉字字符转化为大写拼音后则为：

“GUANGDONGSHENGSHENZHENSHINANSHANQUSHENNANDADAO1001000000HAO”；

同样的，所述初次筛选后数据中的地址中的汉字字符转化为大写字母拼音，将数字字符进行保留。

此时也是可以比较两者之间字符串相同字符的总个数后除以所述用户信息数据中的地址转化后字符串对应字符总个数与所述初次筛选后数据中的地址转化后字符串对应字符总个数中较大者，得到最终的相似度，例如两者完全相同则得到的第七相似度结果为：是、相似度为100％。

最后在计算获取所述用户信息数据与所述初次筛选后数据对应的综合相似度时，例如将姓名这一字段对应的第一权重值以及身份证号码对应的第五权值值均设置为35％，剩余的第二权重值、第三权重值、第四权重值、第六权重值及第七权重值均设置为6％，此时可以根据每一相似度结果中取值乘以对应的权重值后求和，得到综合相似度(如60％)。通过上述方式得到的综合相似度，以此参数作为判断用户信息数据与某一条初次筛选后数据是否为同一用户的数据更加准确。

S140、获取所述相似度集合中的最大相似度以作为目标相似度，获取所述目标相似度对应的目标筛选数据。

在本实施例中，在计算了所述用户信息数据与所述初次筛选后数据集合中各条初次筛选后数据的相似度后，以其中最大相似度对应的目标筛选数据，是因为两条数据大概率对应的同一用户，此时为了进一步判断这两个数据是否能直接合并，还需进行后续步骤。

S150、判断所述目标相似度是否大于预先设置的第一相似度阈值。

在本实施例中，设置一个第一相似度阈值，是为了判断了所述用户信息数据与所述目标筛选数据是不是非常近似，若目标相似度大于所述第一相似度阈值则表示所述用户信息数据与所述目标筛选数据近似，可以直接进行S160中的数据处理。

S160、若所述目标相似度大于所述第一相似度阈值，将所述用户信息数据对应的交叉索引与所述目标筛选数据对应的主索引进行关联。

在本实施例中，当判定了所述用户信息数据与所述目标筛选数据近似，此时两条数据对应的是同一个用户的数据，例如所述目标筛选数据是医院信息系统服务器B上传的用户信息数据，其在患者主索引系统服务器中对应有一个主索引S，而且所述目标筛选数据本身也对应一个交叉索引B，此时所述用户信息数据对应的交叉索引记为交叉索引A，则将A与主索引S进行关联。由于交叉索引B之前已与主索引S进行关联，这样将相同用户在不同医院信息系统服务上传的数据进行有效关联，便于后续查询该用户的所有历史数据。通过这一自动矫正数据和自动合并索引的方式，提高了数据处理效率，而且降低了人工成本。该方法也可应用于智慧医疗场景中，从而推动智慧城市的建设。

在一实施例中，如图2所示，步骤S160之后还包括：

S170、若所述目标相似度小于或等于所述第一相似度阈值，判断所述目标相似度是否大于预先设置的第二相似度阈值；其中，所述第二相似度阈值小于所述第一相似度阈值；

S180、若所述目标相似度小于或等于所述第一相似度阈值且所述目标相似度大于所述第二相似度阈值，将所述用户信息数据发送至人工处理数据存储区域；

S190、若所述目标相似度小于或等于所述第二相似度阈值，将所述用户信息数据存储至对应新建存储区域。

在本实施例中，当判定了所述用户信息数据与所述目标筛选数据不是十分近似，此时需要进一步判断其是否大于预先设置的第二相似度阈值。若目标相似度大于所述第二相似度阈值则表示所述用户信息数据与所述目标筛选数据较近似，可以直接进行步骤S180中的数据处理；若目标相似度小于或等于所述第二相似度阈值则表示两者不近似，需要执行步骤S190。

当判定了所述用户信息数据与所述目标筛选数据较近似，此时为了进一步核实练个数据是否对应同一用户，此时可以将这一类数据同一发送至人工处理数据存储区域，之后由人工检索判断该用户信息数据在患者主索引系统服务器中是否有同一用户对应的数据。

当判定了所述用户信息数据与所述目标筛选数据不近似，也就表示所述用户信息数据与所述目标筛选数据不是对应同一用户，两者之间的索引不能关联，此时将所述用户信息数据作为新用户数据存储至对应新建存储区域。

该方法实现了对用户信息数据的自动矫正后与历史数据中的相似数据自动合并索引，无需人工比对数据的相似性后进行合并，提高了数据处理效率，而且降低了人工成本。

本发明实施例还提供一种基于相似性的患者主索引数据合并装置，该基于相似性的患者主索引数据合并装置用于执行前述基于相似性的患者主索引数据合并方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的基于相似性的患者主索引数据合并装置的示意性框图。该基于相似性的患者主索引数据合并装置100可以配置于服务器中。

如图4所示，基于相似性的患者主索引数据合并装置100包括：用户信息数据获取单元110、初次筛选单元120、相似度集合获取单元130、目标筛选数据获取单元140、第一相似度阈值判断单元150、主索引关联单元160。

用户信息数据获取单元110，用于获取医院信息系统服务器上传的用户信息数据；其中，所述用户信息数据至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址。

初次筛选单元120，用于根据预先设置的第一字段值提取策略获取所述用户信息数据中对应的当前第一字段值，以当前第一字段值为检索条件获取对应的初次筛选后数据集合；其中，所述初次筛选后数据集合中包括若干条初次筛选后数据，每一初次筛选后数据中至少包括姓名、性别、出生日期、证件类型、证件号码、联系电话、地址。

相似度集合获取单元130，用于将所述用户信息数据按照预设的数据调整策略进行数据调整得到调整用户信息数据，获取所述调整用户信息数据与所述初次筛选后数据集合中各条初次筛选后数据的相似度，以获取对应的相似度集合；其中，所述数据调整策略用于对用户信息数据中的姓名、性别、出生日期、证件类型、证件号码、联系电话进行字符调整和矫正。

目标筛选数据获取单元140，用于获取所述相似度集合中的最大相似度以作为目标相似度，获取所述目标相似度对应的目标筛选数据。

第一相似度阈值判断单元150，用于判断所述目标相似度是否大于预先设置的第一相似度阈值。

主索引关联单元160，用于若所述目标相似度大于所述第一相似度阈值，将所述用户信息数据对应的交叉索引与所述目标筛选数据对应的主索引进行关联。

在一实施例中，如图4所示，所述基于相似性的患者主索引数据合并装置100还包括：

第二相似度阈值判断单元170，用于若所述目标相似度小于或等于所述第一相似度阈值，判断所述目标相似度是否大于预先设置的第二相似度阈值；其中，所述第二相似度阈值小于所述第一相似度阈值；

第一存储单元180，用于若所述目标相似度小于或等于所述第一相似度阈值且所述目标相似度大于所述第二相似度阈值，将所述用户信息数据发送至人工处理数据存储区域；

第二存储单元190，用于若所述目标相似度小于或等于所述第二相似度阈值，将所述用户信息数据存储至对应新建存储区域。

在一实施例中，如图5所示，所述相似度集合获取单元130，包括：

第一相似度计算单元131，用于获取所述用户信息数据根据数据调整策略调整后的姓名与所述初次筛选后数据中的姓名之间对应的第一相似度结果；其中，所述初次筛选后数据为所述初次筛选后数据集合其中一条数据；

第二相似度计算单元132，用于获取所述用户信息数据根据数据调整策略调整后的性别与所述初次筛选后数据中的性别之间对应的第二相似度结果；

第三相似度计算单元133，用于获取所述用户信息数据根据数据调整策略调整后的出生日期与所述初次筛选后数据中的出生日期之间对应的第三相似度结果；

第四相似度计算单元134，用于获取所述用户信息数据根据数据调整策略调整后的证件类型与所述初次筛选后数据中的证件类型之间对应的第四相似度结果；

第五相似度计算单元135，用于获取所述用户信息数据根据数据调整策略调整后的证件号码与所述初次筛选后数据中的证件号码之间对应的第五相似度结果；

第六相似度计算单元136，用于获取所述用户信息数据根据数据调整策略调整后的联系号码与所述初次筛选后数据中的联系号码之间对应的第六相似度结果；

第七相似度计算单元137，用于获取所述用户信息数据根据数据调整策略调整后的地址与所述初次筛选后数据中的地址之间对应的第七相似度结果；

综合相似度计算单元138，用于获取第一相似度结果对应的第一权重值、获取第二相似度结果对应的第二权重值、获取第三相似度结果对应的第三权重值、获取第四相似度结果对应的第四权重值、获取第五相似度结果对应的第五权重值、获取第六相似度结果对应的第六权重值、获取第七相似度结果对应的第七权重值，根据综合相似度＝第一相似度结果中取值*第一权重值+第二相似度结果中取值*第二权重值+第三相似度结果中取值*第三权重值+第四相似度结果中取值*第四权重值+第五相似度结果中取值*第五权重值+第六相似度结果中取值*第六权重值+第七相似度结果中取值*第七权重值，获取所述用户信息数据与所述初次筛选后数据对应的综合相似度。

在一实施例中，所述第一相似度计算单元131包括：

姓名字符判断单元，用于判断所述用户信息数据中的姓名是否为中文字符串；

大写拼音转换单元，用于若所述用户信息数据中的姓名为中文字符串，将所述用户信息数据中的姓名转化为第一大写中文拼音字符串，将所述初次筛选后数据中的姓名转化为第二大写中文拼音字符串；

第一计算单元，用于通过字符串编辑距离获取所述第一大写中文拼音字符串与所述第二大写中文拼音字符串之间的相似度，以作为第一相似度结果。

在一实施例中，所述第一相似度计算单元131还包括：

大写英文转换单元，用于若所述用户信息数据中的姓名为英文字符串，将所述用户信息数据中的姓名转化为第一大写英文字符串，将所述初次筛选后数据中的姓名转化为第二大写英文字符串；

第二计算单元，用于通过字符串编辑距离获取第一大写英文字符串与所述第二大写英文字符串之间的相似度，以作为第一相似度结果。

在一实施例中，所述第三相似度计算单元133，包括：

日期调整单元，用于调用预先存储的标准出生日期格式，将所述用户信息数据中的出生日期调整为第一调整后出生日期；

日期字符判断单元，用于判断所述第一调整后出生日期中是否有预设的敏感英文字符；其中，所述预设的英文字符包括I、l、O、o、B；

日期字符矫正单元，用于若所述第一调整后出生日期中有所述敏感英文字符，将所述第一调整后出生日期中的敏感英文字符调整为对应的矫正数字，得到第二调整后出生日期；

第一字符移除单元，用于将所述第二调整后出生日期中的间隔符移除，以得到对应的第三调整后出生日期；

第二字符移除单元，用于将所述初次筛选后数据中的出生日期中的间隔符移除，以得到对应的目标调整后出生日期；

第三计算单元，用于获取所述第三调整后出生日期与所述目标调整后出生日期之间的相似度，以作为第三相似度结果。

在一实施例中，所述第五相似度计算单元135，包括：

证件字符判断单元，用于判断所述用户信息数据中的证件号码中是否包括英文字符；

英文字符定位单元，用于若所述用户信息数据中的证件号码中包括英文字符，判断所述用户信息数据中的证件号码中所包括的英文字符是否在末位；

证件号码矫正单元，用于若所述用户信息数据中的证件号码中所包括的英文字符未在末位，将该英文字符移动至证件号码的末位，得到矫正后证件号码；

第四计算单元，用于获取所述矫正后证件号码与所述初次筛选后数据中的证件号码之间的相似度，以作为第五相似度结果。

该装置实现了对用户信息数据的自动矫正后与历史数据中的相似数据自动合并索引，无需人工比对数据的相似性后进行合并，提高了数据处理效率，而且降低了人工成本。

上述基于相似性的患者主索引数据合并装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于相似性的患者主索引数据合并方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于相似性的患者主索引数据合并方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于相似性的患者主索引数据合并方法。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于相似性的患者主索引数据合并方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于相似性的患者主索引数据合并方法，其特征在于，包括：

2.根据权利要求1所述的基于相似性的患者主索引数据合并方法，其特征在于，所述判断所述目标相似度是否大于预先设置的第一相似度阈值之后，还包括：

若所述目标相似度小于或等于所述第一相似度阈值，判断所述目标相似度是否大于预先设置的第二相似度阈值；其中，所述第二相似度阈值小于所述第一相似度阈值；

若所述目标相似度小于或等于所述第一相似度阈值且所述目标相似度大于所述第二相似度阈值，将所述用户信息数据发送至人工处理数据存储区域；

若所述目标相似度小于或等于所述第二相似度阈值，将所述用户信息数据存储至对应新建存储区域。

3.根据权利要求1所述的基于相似性的患者主索引数据合并方法，其特征在于，所述将所述用户信息数据按照预设的数据调整策略进行数据调整得到调整用户信息数据，获取所述调整用户信息数据与所述初次筛选后数据集合中各条初次筛选后数据的相似度，以获取对应的相似度集合，包括：

获取所述用户信息数据根据数据调整策略调整后的姓名与所述初次筛选后数据中的姓名之间对应的第一相似度结果；其中，所述初次筛选后数据为所述初次筛选后数据集合其中一条数据；

获取所述用户信息数据根据数据调整策略调整后的性别与所述初次筛选后数据中的性别之间对应的第二相似度结果；

获取所述用户信息数据根据数据调整策略调整后的出生日期与所述初次筛选后数据中的出生日期之间对应的第三相似度结果；

获取所述用户信息数据根据数据调整策略调整后的证件类型与所述初次筛选后数据中的证件类型之间对应的第四相似度结果；

获取所述用户信息数据根据数据调整策略调整后的证件号码与所述初次筛选后数据中的证件号码之间对应的第五相似度结果；

获取所述用户信息数据根据数据调整策略调整后的联系号码与所述初次筛选后数据中的联系号码之间对应的第六相似度结果；

获取所述用户信息数据根据数据调整策略调整后的地址与所述初次筛选后数据中的地址之间对应的第七相似度结果；

获取第一相似度结果对应的第一权重值、获取第二相似度结果对应的第二权重值、获取第三相似度结果对应的第三权重值、获取第四相似度结果对应的第四权重值、获取第五相似度结果对应的第五权重值、获取第六相似度结果对应的第六权重值、获取第七相似度结果对应的第七权重值，根据综合相似度＝第一相似度结果中取值*第一权重值+第二相似度结果中取值*第二权重值+第三相似度结果中取值*第三权重值+第四相似度结果中取值*第四权重值+第五相似度结果中取值*第五权重值+第六相似度结果中取值*第六权重值+第七相似度结果中取值*第七权重值，获取所述用户信息数据与所述初次筛选后数据对应的综合相似度。

4.根据权利要求3所述的基于相似性的患者主索引数据合并方法，其特征在于，所述获取所述用户信息数据根据数据调整策略调整后的姓名与所述初次筛选后数据中的姓名之间对应的第一相似度结果，包括：

判断所述用户信息数据中的姓名是否为中文字符串；

5.根据权利要求4所述的基于相似性的患者主索引数据合并方法，其特征在于，所述判断所述用户信息数据中的姓名是否为中文字符串之后，还包括：

6.根据权利要求3所述的基于相似性的患者主索引数据合并方法，其特征在于，所述获取所述用户信息数据根据数据调整策略调整后的出生日期与所述初次筛选后数据中的出生日期之间对应的第三相似度结果，包括：

7.根据权利要求3所述的基于相似性的患者主索引数据合并方法，其特征在于，所述获取所述用户信息数据根据数据调整策略调整后的证件号码与所述初次筛选后数据中的证件号码之间对应的第五相似度结果，包括：

判断所述用户信息数据中的证件号码中是否包括英文字符；

8.一种基于相似性的患者主索引数据合并装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于相似性的患者主索引数据合并方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于相似性的患者主索引数据合并方法。