CN117352187B

CN117352187B - 一种患者身份证号码匹配方法

Info

Publication number: CN117352187B
Application number: CN202311641829.5A
Authority: CN
Inventors: 余泓棹; 罗彬�
Original assignee: Sichuan Huhui Software Co ltd
Current assignee: Sichuan Huhui Software Co ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-01-30
Anticipated expiration: 2043-12-04
Also published as: CN117352187A

Abstract

本发明涉及医疗信息处理技术领域，具体涉及一种患者身份证号码匹配方法，对获取的任意两个身份证号码进行差异位计算；若差异位为2个，则采用第一相似度计算方法计算所述任意两个身份证号码的相似度，包括：分别进行分段处理得到各自对应的地址码段、出生日期码段和顺序校验码段；判断2个差异位所在码段；分别计算地址码段相似度、出生日期码段相似度和顺序校验码段相似度；基于差异位所在的码段分配地址码段相似度、出生日期码段相似度和顺序校验码段相似度的权重，基于各个码段的相似度及对应权重计算所述任意两个身份证号码的相似度以进行匹配。解决了潜在的输入型错误，完成身份证号码的匹配过程，从而提升了整体患者信息匹配的精确度。

Description

一种患者身份证号码匹配方法

技术领域

本发明涉及医疗信息处理技术，具体涉及一种患者身份证号码匹配方法。

背景技术

医疗信息系统内部的重复患者信息急需整合处理。由于医院内部多种临床信息系统的引入，患者在不同科室进行诊疗时会在各临床信息系统中产生不同类型的患者信息；同一位患者在同家医院进行门诊、住院、急诊等不同类别的诊疗过程中分别会产生以门诊号、住院号、急诊号为主要标识的患者信息；由于就诊卡类型的多样性，同一位患者持不同类别的就诊卡就诊时会产生以门诊号、住院号、急诊号为主要标识的患者信息。这三种情况都会导致医疗信息系统内部产生重复患者信息。据统计，电子病历系统中重复记录的比例在所有患者记录占比达5%到20%之间，这影响了患者记录的后续利用。

确保患者信息精确无误地匹配，需要对每个患者属性都做到精确对比，而患者属性中最重要的就是身份证号码。身份证号码的长度一般为18位（或15位），属于较长的数字序列。早期医院对患者信息进行录入的方式均为手工录入，在录入患者身份证号码信息的过程中存在多种输入型错误：数字错误、多输入、漏输入、输入错位等。这些错误都会导致属于同一个患者的身份证号信息无法匹配，而身份证号在患者匹配的过程中所占权重较高，严重影响患者匹配，导致历史数据中存在大量无法合并的患者数据。而当前使用的相似度算法对于存在差异的两个身份证号码只能计算其相似度的值，通过编辑距离或汉明距离相似度算法计算得到，差异为1位的两个身份证号相似度为94.4%，差异为2位的两个身份证号相似度为88.9%，相似度都是一个很高的值。而高相似度无法带来匹配过程中的高精确度。如果仅仅通过相似度的值来对患者进行匹配，显然无法得到精确的结果，就算与其他患者属性进行加权求和得到总相似度，由于长序列短差异导致的高相似度无法对信息是否属于同一患者进行判断，同样无法判断是由于输入型错误导致的差异还是原本就是属于两个患者信息之间的差异。此时需要研究身份证号中不同位置的数字特征，根据特征进行分段处理，再根据具体情况动态地给予权重，解决潜在的输入型错误，完成身份证号码的匹配过程，最终提升整体患者信息匹配的精确度。

发明内容

本申请要解决的技术问题是提供一种患者身份证号码匹配方法，具有可以解决潜在的输入型错误，完成身份证号码的匹配过程，提升整体患者信息匹配的精确度的特点。

第一方面，一种实施例中提供一种患者身份证号码匹配方法，包括：

获取任意两个身份证号码；

若所述任意两个身份证号码均为18位，则进行所述任意两个身份证号码的差异位计算；

若身份证号码的差异位达到3个，则匹配失败；

若身份证号码的差异位为2个，则采用第一相似度计算方法计算所述任意两个身份证号码的相似度，包括：

对于所述任意两个身份证号码分别进行分段处理得到各自对应的由第1到6位组成的地址码段、第7到14位组成的出生日期码段和第15到18位组成的顺序校验码段；

判断2个差异位所在码段；

对于所述任意两个身份证号码，分别计算地址码段相似度、出生日期码段相似度和顺序校验码段相似度；

基于差异位所在的码段分配地址码段相似度、出生日期码段相似度和顺序校验码段相似度的权重，基于各个码段的相似度及对应权重计算所述任意两个身份证号码的相似度以进行匹配。

本发明的有益效果是：

由于是在研究身份证号中不同位置的数字特征的基础上，根据特征进行分段处理，再基于不同情况计算相似度，使得解决了潜在的输入型错误，完成身份证号码的匹配过程，从而提升了整体患者信息匹配的精确度。

附图说明

图1是本申请一种实施例的患者身份证号码匹配方法流程示意图；

图2是本申请一种实施例的身份证号码缺失1位即获取到的身份证号码为17位补齐为18位的方法流程示意图；

图3是本申请一种实施例的身份证号码多余1位即获取到的身份证号码为19位删除为18位的方法方法流程示意图；

图4是本申请图1所示实施例的步骤S40的方法流程示意图；

图5是本申请图1所示实施例的步骤S50的方法流程示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为便于对本申请的发明构思进行说明，以下对患者身份证号码相似度匹配技术进行简要说明。

当前使用的相似度算法对于存在差异的两个身份证号码只能计算其相似度的值，通过编辑距离或汉明距离相似度算法计算得到，差异为1位的两个身份证号相似度为94.4%，差异为2位的两个身份证号相似度为88.9%，相似度都是一个很高的值，而高相似度无法带来匹配过程中的高精确度。

如果仅仅通过相似度的值来对患者进行匹配，显然无法得到精确的结果，发明人在研究中发现，就算与其他患者属性进行加权求和得到总相似度，由于长序列短差异导致的高相似度无法对信息是否属于同一患者进行判断，同样无法判断是由于输入型错误导致的差异还是原本就是属于两个患者信息之间的差异。

鉴于此，本申请实施例中提供了一种患者身份证号码匹配方法，该方法中研究身份证号中不同位置的数字特征，根据特征进行分段处理，再根据具体情况动态地给予权重，解决潜在的输入型错误，完成身份证号码的匹配过程，最终提升整体患者信息匹配的精确度。请参考图1，该方法包括：

步骤S10，获取任意两个身份证号码。

一种实施例中，若获取的两个身份证号码需要进行预处理，则包括预处理步骤，包括：获取任意两个身份证号码信息，并将该任意两个身份证号码信息中的除数字、x和X以外的字符去除，对于包含的x字符和/或X字符，统一为x字符或X字符。

由于拼写、识别或其他问题，身份证号码信息中可能存在其他信息，如不必要的标点符合或其他符号，对于字符“x”，可能存在小写的情况，也可能存在大写的情况，均为身份号码的识别匹配带来一定的困难，鉴于此，通过上述方法，一方面去除不必要的信息，另一方面，统一字符“x”的格式，可以统一为大写，也可以将统一为小写，便于后续处理。

步骤S20，若该任意两个身份证号码均为18位，则进行该任意两个身份证号码的差异位计算。

一种实施例中，若该任意两个身份证号码均为18位，则基于汉明距离算法判断所述任意两个身份证号码的差异位个数。

由于拼写、识别或其他问题，获取到的身份证号码并不一定都是18位的，有可能存在缺失位或多余位的情况，这种情况下，难以进行两个身份证号码的匹配，对此，本申请给出了将缺失位补齐为18位的方法还将多余位更正为18位的方法。以下先对缺失位补齐为18位的方法进行说明。

一种实施例中，本申请提供了一种身份证号码缺失1位即获取到的身份证号码为17位补齐为18位的方法，请参考图2，包括：

步骤S2010，缺失位码段判断。我们将身份证号码分为包括第1到6位的地址码段、包括第7到14位的出生日期码段和包括第15到18位的顺序校验码段，对于缺失位所位于的码段进行判断。

对于缺失位码段判断，可以采用现有技术的其他方法，本申请的一种实施例中，缺失位码段判断的方法包括：对于该任意两个身份证号码，均取第1到6位，进行汉明距离计算，若汉明距离不为0，则缺失位存在于地址码段；若汉明距离为0，则说明缺失位不在地址码段，则均取第7到14位，进行汉明距离计算，若汉明距离不为0，则缺失位位于出生日期码段；若汉明距离为0，则说明缺失位不在出生日期码段，则缺失位位于顺序校验码段。

步骤S20111，若缺失位位于地址码段，则取第1到5位数字，并在由5位数字形成的6个间隔处分别用通配符或占位符替代，形成6个带有通配符或占位符的地址码段。

步骤S20112，选取存在于地址编码库中的地址码段。

对于身份证号码，前6位地址码，然后是8位出生日期码，然后是3位顺序码，最后是1位校验码。对于地址码段，第1位和第2位是所在省、自治区或直辖市的编码，第3位和第4位是所在地级市的编码，第5位和第6位是所在区县的编码。对于正确的身份证号码，前6位编码应在地址编码库中，也就是中国行政划分代码库中，若不在，则地址码段存在非法错误。因此，我们可以基于形成的6个带有通配符或占位符的地址码段，按照缺失位去选取存在于地址编码库中的地址码段。

步骤S20113，基于选取的地址码段与其他码段进行校验码验证，验证通过则将验证通过的6位地址码段代替原5位的地址码段形成新的身份证号码用于任意两个身份证号码的匹配。

基于选取的存在于地址编码库中的地址码段，与不存在缺失位的出生日期码段和顺序校验码段形成新的身份证号码。一种实施例中，选取的存在于地址编码库中地址码段可能有两个以上，同时，正确性也需要进一步验证，因此，需要对新的身份证号码进行进一步的校验码验证，具体校验码验证方法包括：

将身份证号码分为前17位的主体码段和最后1位的校验码段。将主体码段的17位分别乘以不同的系数，依次分别为：7、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2；将主体码段的17位分别与对应的系数相乘后，再将结果相加，将相加后的值除以11，得到余数，余数0、1、2、3、4、5、6、7、8、9、10分别对应的校验码为1、0、X、9、8、7、6、5、4、3、2。

将得出的校验码与该身份证号中的校验码进行对比，对比一致则校验码验证通过，对比不一致则校验码验证不通过。

如果所有选取的地址码段校验码验证均为不通过，则不再具备身份证号码匹配的价值，匹配失败。

步骤S20121，若缺失位位于出生日期码段，则取第7到13位数字，并在由7位数字形成的8个间隔处分别用通配符或占位符替代，形成8个带有通配符或占位符的出生日期码段。

步骤S20122，选取符合出生日期码段格式的出生日期码段。

出生日期码段包括了出生年、月、日的信息。一种实施例中，出生日期码段的第1到4位是出生日期的年份，可以根据需要进行设置，例如选取设置年份为1900-2023（年份上限为使用该方法的当年年份）之间。第5到6位为月份，月份在01-12之间。第7到8位为日期，日期在01-31之间。则有，身份证号码出生日期码段的第1到4位需满足在1900-2023之间，第5到6位需满足在01-12之间，第7到8位需满足在01-31之间。若不在，则出生日期码段存在非法错误。因此，我们可以基于形成的8个带有通配符或占位符的出生日期码段，按照缺失位去选取存在于出生日期编码规则中的出生日期码段。

步骤S20123，基于选取的出生日期码段与其他码段进行校验码验证，验证通过则将验证通过的8位出生日期码段代替原7位的出生日期码段形成新的身份证号码用于该任意两个身份证号码的匹配。

基于选取的符合出生日期码段格式的出生日期码段，与不存在缺失位的地址码段和顺序校验码段形成新的身份证号码。一种实施例中，选取的符合出生日期码段格式的出生日期码段可能有两个以上，同时，正确性也需要进一步验证，因此，需要对新的身份证号码进行进一步的校验码验证。将得出的校验码与该身份证号中的校验码进行对比，对比一致则校验码验证通过，对比不一致则校验码验证不通过。

如果所有选取的出生日期码段校验码验证均为不通过，则不再具备身份证号码匹配的价值，匹配失败。

步骤S20131，若缺失位位于顺序校验码段，则取第15到17位数字，并在由3位数字形成的4个间隔处分别用通配符或占位符替代，形成4个带有通配符或占位符的顺序校验码段。

步骤S20132，选取符合顺序校验码段格式的顺序校验码段。

顺序校验码段中，第1到2位是所在管理部门编码，为00-99。第3位代表性别，为0-9。第4位是校验码，为0-9或字母“x”。其中，前3位为顺序码，表示在同一地址码所标识的区域范围内，对同年、同月、同日出生的人编定的顺序号，每个管理部门分配10个连续号码，例如“000-009”或“060-069”，顺序码的奇数分配给男性，偶数分配给女性。如遇同年同月同日有两人以上时顺延第二、第三、第四、第五个分配码。最后1位为校验码，这1位数字通过前面的17位数字计算得出，用于检验身份证号码的有效性，防止伪造。因此，我们可以基于形成的4个带有通配符或占位符的顺序校验码段，选取符合顺序校验码段格式的顺序校验码段。

步骤S20133，基于选取的顺序校验码段与其他码段进行校验码验证，验证通过则将验证通过的4位顺序校验码段代替原3位的顺序校验期码段形成新的身份证号码用于该任意两个身份证号码的匹配。

基于选取的符合顺序校验码段格式的顺序校验码段，与不存在缺失位的地址码段和出生日期码段形成新的身份证号码。一种实施例中，选取的符合顺序校验码段格式的顺序校验码段可能有两个以上，同时，正确性也需要进一步验证，因此，需要对新的身份证号码进行进一步的校验码验证。将得出的校验码与该身份证号中的校验码进行对比，对比一致则校验码验证通过，对比不一致则校验码验证不通过。

如果所有选取的顺序校验码段校验码验证均为不通过，则不再具备身份证号码匹配的价值，匹配失败。

一种实施例中，本申请提供了一种身份证号码多余1位即获取到的身份证号码为19位删除1位为18位的方法，请参考图3，包括：

步骤S2020，多余位码段判断。我们将身份证号码分为包括第1到6位的地址码段、包括第7到14位的出生日期码段和包括第15到18位的顺序校验码段，对于多余位所位于的码段进行判断。

对于多余位码段判断，可以采用现有技术的其他方法，本申请的一种实施例中，提供了一种新的多余位码段判断方法，包括：

对于该任意两个身份证号码，均取第1到6位，进行汉明距离计算，若汉明距离不为0，则多余位存在于地址码段；若汉明距离为0，则均取第7到14位，进行汉明距离计算，若汉明距离不为0，则多余位位于出生日期码段；若汉明距离为0，则多余位位于顺序校验码段。

步骤S20211，若多余位位于地址码段，则取第1到7位数字，分别删去第1到7位数字形成7个新的地址码段。

步骤S20212，选取存在于地址编码库中的地址码段。

基于形成的7个地址码段，选取存在于地址编码库中的地址码段。

步骤S20213，基于选取的地址码段与其他码段进行校验码验证，验证通过则将验证通过的6位地址码段代替原7位的地址码段形成新的身份证号码用于该任意两个身份证号码的匹配。

基于选取的存在于地址编码库中的地址码段，与不存在多余位的出生日期码段和顺序校验码段形成新的身份证号码。一种实施例中，选取的存在于地址编码库中地址码段可能有两个以上，同时，正确性也需要进一步验证，因此，需要对新的身份证号码进行进一步的校验码验证。

步骤S20221，若多余位位于出生日期码段，则取第7到15位数字，分别删去第7到15位数字形成9个出生日期码段。

步骤S20222，选取符合出生日期码段格式的出生日期码段。

对于形成的9个出生日期码段，应该符合出生日期码段格式，若不符合，则出生日期码段存在非法错误。因此，我们可以基于形成的9个出生日期码段，去选取符合出生日期编码规则的出生日期码段。

步骤S20223，基于选取的出生日期码段与其他码段进行校验码验证，验证通过则将验证通过的8位出生日期码段代替原9位的出生日期码段形成新的身份证号码用于该任意两个身份证号码的匹配。

基于选取的符合出生日期码段格式的出生日期码段，与不存在多余位的地址码段和顺序校验码段形成新的身份证号码。一种实施例中，选取的符合出生日期码段格式的出生日期码段可能有两个以上，同时，正确性也需要进一步验证，因此，需要对新的身份证号码进行进一步的校验码验证。将得出的校验码与该身份证号中的校验码进行对比，对比一致则校验码验证通过，对比不一致则校验码验证不通过。

步骤S20231，若多余位位于顺序校验码段，则取第15到19位数字，分别删去第15到19位数字形成5个顺序校验码段。

步骤S20232，选取符合顺序校验码段格式的顺序校验码段。

我们可以基于形成的5个顺序校验码段，选取符合顺序校验码段格式的顺序校验码段。

步骤S20233，基于选取的出生日期码段与其他码段进行校验码验证，验证通过则将验证通过的4位顺序校验码段代替原5位的顺序校验期码段形成新的身份证号码用于该任意两个身份证号码的匹配。

基于选取的符合顺序校验码段格式的顺序校验码段，与不存在多余位的地址码段和出生日期码段形成新的身份证号码。一种实施例中，选取的符合顺序校验码段格式的顺序校验码段可能有两个以上，同时，正确性也需要进一步验证，因此，需要对新的身份证号码进行进一步的校验码验证。将得出的校验码与该身份证号中的校验码进行对比，对比一致则校验码验证通过，对比不一致则校验码验证不通过。

步骤S30，判断身份证号码的差异位是否达到3位，如果是，则匹配失败。

步骤S40，若身份证号码的差异位为2个，则采用第一相似度计算方法计算该任意两个身份证号码的相似度。

一种实施例中，请参考图4，采用第一相似度计算方法计算该任意两个身份证号码的相似度的方法，包括：

步骤S401，对于该任意两个身份证号码分别进行分段处理得到各自对应的由第1到6位组成的地址码段、第7到14位组成的出生日期码段和第15到18位组成的顺序校验码段。

步骤S402，判断2个差异位所在码段。

一种实施例中，可以基于汉明距离算法判断2个差异位所在的码段。具体包括：通过汉明距离算法分别计算地址码段、出生日期码段和顺序校验码段计算汉明距离，确定差异位所在段落。

将两个身份证号码中的地址码段进行汉明距离计算，若地址码段汉明距离为2，则地址码段中存在2位差异，并得到差异位所在位置。

若地址码段汉明距离为1，则地址码段存在1位差异，并得到差异位所在位置。将两个身份证号码的出生日期码进行汉明距离计算，若出生日期码段汉明距离为0，则顺序校验码段存在1位差异，对两个身份证号码的顺序校验码段进行汉明距离计算得到差异位所在位置。若出生日期码段汉明距离为1，则出生日期码段存在1位差异，并得到差异位所在位置。

若地址码段汉明距离为0，则地址码段不存在差异。将两个身份证号码的出生日期码段进行汉明距离计算，若出生日期码段汉明距离为0，则顺序校验码段存在2位差异，对两个身份证号码的顺序校验码段进行汉明距离计算得到差异位所在位置。若出生日期码段汉明距离为1，则出生日期码段存在1位差异，顺序校验码段也存在1位差异，得到出生日期码段中差异位所在位置，对两个身份证号码的顺序校验码段进行汉明距离计算得到差异位所在位置。若出生日期码段汉明距离为2，则出生日期码段存在2位差异，并得到差异位所在位置。

步骤S403，对于该任意两个身份证号码，分别计算地址码段相似度、出生日期码段相似度和顺序校验码段相似度。

一种实施例中，对于任意一个身份证号码的地址码段，判断是否存在非法错误。

该非法错误包括不符合码段组成规律的错误，具体地，对于地址码段，非法错误包括地址码段不存在于地址编码库中。若存在非法错误，则采用第一地址码段相似度计算方法计算地址码段的相似度，包括：

，

其中，表示地址码段的相似度，/>表示地址码段存在差异位的个数，/>表示地址码段的长度。

若不存在非法错误，则采用第二地址码段相似度计算方法计算地址码段的相似度，包括：

将地址码段按照顺序分为包括第1位和第2位的省码段，包括第3位和第4位的市码段，以及包括第5位和第6位的县码段。根据地址中省市县的重要程度，省份级别的差异通常更广泛，因此在匹配中更为重要，可以给予省码段较高的权重，省码段权重系数为0.4。市和县相对于省份而言，在一些情况下，差异可能并不是那么显著。相比省份，对于匹配影响相对较小，市码段和县码段的权重系数均为0.3。

分别计算省码段的相似度、市码段的相似度/>和县码段的相似度/>，并基于省码段的相似度、市码段的相似度和县码段的相似度计算地址码段的相似度，包括：，

其中，，/>，/>，/>表示省码段存在差异位的个数，/>表示市码段存在差异位的个数，/>表示市码段存在差异位的个数，/>表示省码段的长度，/>表示市码段的长度，/>表示县码段的长度。

一种实施例中，对于任意一个身份证号码的出生日期码段，判断是否存在非法错误，对于出生日期码段，非法错误包括不符合出生日期的日期规律。若存在非法错误，则采用第一出生日期码段相似度计算方法计算出生日期码段的相似度，包括：

，

其中，表示出生日期码段的相似度，/>表示出生日期码段存在差异位的个数，/>表示出生日期码段的长度。

若不存在非法错误，则采用第二出生日期码段相似度计算方法计算出生日期码段的相似度，包括：

将出生日期码段按照顺序分为包括第1到4位的年份码段，包括第5位和第6位的月份码段，以及包括第7位和第8位的日期码段。根据出生日期中年月日的重要程度，年份的影响力更大，年份是确定年龄和生命周期阶段的关键因素，且年份通常比月份和日期更能提供重要的信息，因此在匹配中更为重要，可以给予年份码段较高的权重，年份码段权重系数为0.4。月份和日期不如年份那么重要，只是精确性或过滤数据的辅助信息，而非主要决定因素，影响更为局限。相比年份，对于匹配影响相对较小，月份码段和日期码段的权重系数均为0.3。

分别计算年份码段的相似度、月份码段的相似度/>和日期码段的相似度，并基于年份码段的相似度、月份码段的相似度和日期码段的相似度计算出生日期码段的相似度，包括：/>，

其中，，/>，/>，/>表示年份码段存在差异位的个数，/>表示月份码段存在差异位的个数，/>表示日期码段存在差异位的个数，表示年份码段的长度，/>表示月份码段的长度，/>表示日期码段的长度。

一种实施例中，对于任意一个身份证号码的顺序校验码段，采用顺序校验码段相似度计算方法计算顺序校验码段的相似度，包括：

将顺序校验码段按照顺序分为包括第1到2位的管理部门码段，包括第3位的性别码段，以及包括第4位的校验码段。在身份证号码中，校验码的作用是验证前面身份证号码部分的准确性和合法性。它通常通过特定算法计算得出，以确保身份证号码的正确性。因此在匹配中更为重要，可以给予校验码段较高的权重，校验码段权重系数为0.5。管理部门码段指示了个人户口所在地的管理部门，在某些场景下比较重要，能够提供一定程度上的地域信息。可以赋予较性别码段更高的权重，管理部门码段的权重系数为0.3，性别码段对于一些场景，不如其他属性重要，性别码段的权重系数均为0.2。

分别计算管理部门码段的相似度、性别码段的相似度/>和校验码段的相似度/>，并基于管理部门码段的相似度、性别码段的相似度和校验码段的相似度计算顺序校验码段的相似度，包括：/>，

其中，，/>，/>，/>表示管理部门码段存在差异位的个数，/>表示性别码段存在差异位的个数，/>表示校验码段存在差异位的个数，/>表示管理部门码段的长度，/>表示性别码段的长度，/>表示校验码段的长度。

步骤S404，基于差异位所在的码段分配地址码段相似度、出生日期码段相似度和顺序校验码段相似度的权重，基于各个码段的相似度及对应权重计算该任意两个身份证号码的相似度以进行匹配。

权重分配原则为：若该码段存在非法错误，即存在输入型错误，为了降低输入型错误对相似度计算结果的影响，给予该码段较小的权重，若该码段不存在非法错误，即存在输入型错误的可能性较小，即存在差异由于身份证号码分别属于两个患者的可能性较大，给予该码段较大的权重以区分差异程度。而由于顺序校验码段不存在非法错误，若顺序校验码段存在1位差异，由于身份证号码的校验性质，其差异来源于地址码段或出生日期码段存在差异的连带作用，若来源中的地址码段或出生日期码段存在非法错误，由于是连带错误，为了降低输入型错误对相似度计算结果的影响，则给予顺序校验码段较小权重；若来源中的地址码段或出生日期码段不存在非法错误，而前者存在差异由于身份证号码分别属于两个患者的可能性较大，由于是连带错误，给予顺序校验码段较大的权重以区分差异程度；若顺序校验码段存在2位差异，存在输入型错误和属于两个患者信息之间的差异两种情况，给予相对于地址码段和出生日期码段较高的权重以区分。

若不考虑码段的差异类型，静态的进行权重分配，则无法区分不同差异类型的影响程度，无法提升精确度，权重分配方法是通过G1赋权法分配权重。

一种实施例中，若2个差异位均在地址码段，且地址码段存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.2，出生日期码段相似度的权重为0.4，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：，

其中，表示所述任意两个身份证号码的相似度。

一种实施例中，若2个差异位均在地址码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.6，出生日期码段相似度的权重为0.2，顺序校验码段相似度的权重为0.2，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.1，顺序校验码段相似度的权重为0.8，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.6，顺序校验码段相似度的权重为0.3，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段不存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.5，出生日期码段相似度的权重为0.1，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.4，出生日期码段相似度的权重为0.4，顺序校验码段相似度的权重为0.2，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在地址码段，另一个在顺序校验码段，且地址码段存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.8，顺序校验码段相似度的权重为0.1，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在地址码段，另一个在顺序校验码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.6，出生日期码段相似度的权重为0，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位均在出生日期码段，且地址码段不存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.4，出生日期码段相似度的权重为0.2，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位均在出生日期码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.8，顺序校验码段相似度的权重为0.1，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在出生日期码段，另一个在顺序校验码段，且地址码段不存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.8，出生日期码段相似度的权重为0.1，顺序校验码段相似度的权重为0.1，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位一个在出生日期码段，另一个在顺序校验码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.2，顺序校验码段相似度的权重为0.7，则所述任意两个身份证号码的相似度，包括：。

一种实施例中，若2个差异位均在顺序校验码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.3，出生日期码段相似度的权重为0.3，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：。

上述方案中，研究身份证号中不同位置的数字特征，根据特征进行分段处理，再基于不同情况，动态分配权重，使得非法错误下的差异相似度高于普通情况下的相似度，合法状态下的差异相似度低于普通情况下的相似度，解决潜在的输入型错误，完成身份证号码的匹配过程，从而提升整体患者信息匹配的精确度。

一种实施例中，在步骤S401之前，还包括：判断2个差异位是否相邻，如果是，则对该任意两个身份证号码中的其中一个身份证号码的2个差异位进行调换，将调换后的身份证号码与另一个身份证号码进行相似度计算，如果相似度结果为1，则该任意两个身份证号码的相似度为1，如果相似度结果不为1，则继续执行步骤S401。

发明人在研究中发现，由于书写或录入问题，经常会出现相邻两个号码写反的情况，因此，一种实施例中，首先对两个身份证号码通过汉明距离算法确定差异位所在的位置，则可以判断两个差异位是否相邻，如果相邻，则任意取一个身份证号码中的两个差异位进行调换。对于相似度计算的结果，如果结果不为1，则不考虑存在调换型错误，调换型错误验证过程完成后再进行接下来的第一相似度计算方法的步骤。通过上述方法，同样解决了潜在的输入型错误，完成身份证号码的匹配过程，从而提升整体患者信息匹配的精确度。

步骤S50，若身份证号码的差异位为1个，则采用第二相似度计算方法计算该任意两个身份证号码的相似度。

一种实施例中，请参考图5，采用第二相似度计算方法计算该任意两个身份证号码的相似度，包括：

步骤S501，对于该任意两个身份证号码分别进行分段处理得到各自对应的由第1到17位组成的主体码段和第18位组成的校验码段。

步骤S502，判断1个的差异位所在的码段。

一种实施例中，采用汉明距离算法判断差异位所在的码段。

步骤S503，若1个的差异位在主体码段，则分别对两个身份证号码进行校验码验证，对于校验码验证不通过的身份证号码，判断差异位所在的位置，基于校验码算法的逆推方法，计算得到差异位的新值，并将该差异位的新值代替差异位的原值，得到新的身份证号码，基于新的身份证号码计算所述任意两个身份证号码的相似度。

将对比结果不一致的主体码差异位所在位置的数值设为a，通过校验码计算方法，得到a的值。以身份证号128456789012345677为例，最后一位7为校验码，即余数应为5。若差异位所在位置为第3位，设第3位的数值为a，即12a456789012345679。将新身份证号进行校验计算，设商为b，得到：，且a为0-9的整数，b为正整数。通过逆推计算可得a为3，b为33。即正确的身份证号码序列应为123456789012345677。

步骤S504，若1个的差异位在校验码段，则分别对两个身份证号码进行校验码验证，对于校验码验证不通过的身份证号码，基于主体码段，计算得到校验码的新值，并将该校验码的新值代替校验码的原值，得到新的身份证号码，基于新的身份证号码计算所述任意两个身份证号码的相似度。

以身份证号123456789012345678为例。进行校验计算，得到：，余数为5，校验码应为7，即正确的身份证号码序列应为123456789012345677。

本申请的一种实施例中提供了一种计算机可读存储介质，存储介质上存储有程序，存储的程序包括能够被处理器加载并处理上述任意一实施例中的方法。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种患者身份证号码匹配方法，其特征在于，包括：

获取任意两个身份证号码；

若身份证号码的差异位达到3个，则匹配失败；

判断2个差异位所在码段；

基于差异位所在的码段分配地址码段相似度、出生日期码段相似度和顺序校验码段相似度的权重，基于各个码段的相似度及对应权重计算所述任意两个身份证号码的相似度以进行匹配；

所述的对于所述任意两个身份证号码，分别计算地址码段相似度、出生日期码段相似度和顺序校验码段相似度，包括：

对于任意一个身份证号码的地址码段，判断是否存在非法错误，所述非法错误包括不符合码段组成规律的错误；

若存在非法错误，则采用第一地址码段相似度计算方法计算地址码段的相似度，包括：

，

其中，表示地址码段的相似度，/>表示地址码段存在差异位的个数，/>表示地址码段的长度；

将地址码段按照顺序分为包括第1位和第2位的省码段，包括第3位和第4位的市码段，以及包括第5位和第6位的县码段；

分别计算省码段的相似度、市码段的相似度/>和县码段的相似度/>，并基于省码段的相似度、市码段的相似度和县码段的相似度计算地址码段的相似度，包括：

，

其中，，/>，/>，/>表示省码段存在差异位的个数，/>表示市码段存在差异位的个数，/>表示市码段存在差异位的个数，/>表示省码段的长度，/>表示市码段的长度，/>表示县码段的长度；

对于任意一个身份证号码的出生日期码段，判断是否存在非法错误；

若存在非法错误，则采用第一出生日期码段相似度计算方法计算出生日期码段的相似度，包括：

，

其中，表示出生日期码段的相似度，/>表示出生日期码段存在差异位的个数，表示出生日期码段的长度；

将出生日期码段按照顺序分为包括第1到4位的年份码段，包括第5位和第6位的月份码段，以及包括第7位和第8位的日期码段；

分别计算年份码段的相似度、月份码段的相似度/>和日期码段的相似度/>，并基于年份码段的相似度、月份码段的相似度和日期码段的相似度计算出生日期码段的相似度，包括：

，

其中，，/>，/>，/>表示年份码段存在差异位的个数，/>表示月份码段存在差异位的个数，/>表示日期码段存在差异位的个数，/>表示年份码段的长度，/>表示月份码段的长度，/>表示日期码段的长度；

对于任意一个身份证号码的顺序校验码段，采用顺序校验码段相似度计算方法计算顺序校验码段的相似度，包括：

将顺序校验码段按照顺序分为包括第1到2位的派出所码段，包括第3位的性别码段，以及包括第4位的校验码段；

分别计算派出所码段的相似度、性别码段的相似度/>和校验码段的相似度/>，并基于派出所码段的相似度、性别码段的相似度和校验码段的相似度计算顺序校验码段的相似度，包括：

，

其中，，/>，/>，/>表示派出所码段存在差异位的个数，/>表示性别码段存在差异位的个数，/>表示校验码段存在差异位的个数，/>表示派出所码段的长度，/>表示性别码段的长度，/>表示校验码段的长度。

2.如权利要求1所述的患者身份证号码匹配方法，其特征在于，所述的基于差异位所在的码段分配地址码段相似度、出生日期码段相似度和顺序校验码段相似度的权重，基于各个码段的相似度及对应权重计算所述任意两个身份证号码的相似度以进行匹配，包括：

若2个差异位均在地址码段，且地址码段存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.2，出生日期码段相似度的权重为0.4，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：

，

其中，表示所述任意两个身份证号码的相似度；

若2个差异位均在地址码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.6，出生日期码段相似度的权重为0.2，顺序校验码段相似度的权重为0.2，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.1，顺序校验码段相似度的权重为0.8，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.6，顺序校验码段相似度的权重为0.3，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段不存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.5，出生日期码段相似度的权重为0.1，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在地址码段，另一个在出生日期码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.4，出生日期码段相似度的权重为0.4，顺序校验码段相似度的权重为0.2，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在地址码段，另一个在顺序校验码段，且地址码段存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.8，顺序校验码段相似度的权重为0.1，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在地址码段，另一个在顺序校验码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.6，出生日期码段相似度的权重为0，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位均在出生日期码段，且地址码段不存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.4，出生日期码段相似度的权重为0.2，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位均在出生日期码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.8，顺序校验码段相似度的权重为0.1，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在出生日期码段，另一个在顺序校验码段，且地址码段不存在非法错误，出生日期码段存在非法错误，则分配地址码段相似度的权重为0.8，出生日期码段相似度的权重为0.1，顺序校验码段相似度的权重为0.1，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位一个在出生日期码段，另一个在顺序校验码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.1，出生日期码段相似度的权重为0.2，顺序校验码段相似度的权重为0.7，则所述任意两个身份证号码的相似度，包括：

；

若2个差异位均在顺序校验码段，且地址码段不存在非法错误，出生日期码段不存在非法错误，则分配地址码段相似度的权重为0.3，出生日期码段相似度的权重为0.3，顺序校验码段相似度的权重为0.4，则所述任意两个身份证号码的相似度，包括：

。

3.如权利要求1所述的患者身份证号码匹配方法，其特征在于，在所述的对于所述任意两个身份证号码分别进行分段处理得到各自对应的由第1到6位组成的地址码段、第7到14位组成的出生日期码段和第15到18位组成的顺序校验码段之前，还包括：

判断2个差异位是否相邻，如果是，则对所述任意两个身份证号码中的其中一个身份证号码的2个差异位进行调换，将调换后的身份证号码与另一个身份证号码进行相似度计算，如果相似度结果为1，则所述任意两个身份证号码的相似度为1，如果相似度结果不为1，则继续执行后续方法步骤。

4.如权利要求1所述的患者身份证号码匹配方法，其特征在于，所述的进行所述任意两个身份证号码的差异位计算，包括：

基于汉明距离算法判断所述任意两个身份证号码的差异位个数。

5.如权利要求1所述的患者身份证号码匹配方法，其特征在于，若身份证号码的差异位为1个，则采用第二相似度计算方法计算所述任意两个身份证号码的相似度，包括：

对于所述任意两个身份证号码分别进行分段处理得到各自对应的由第1到17位组成的主体码段和第18位组成的校验码段；

判断所述1个的差异位所在的码段；

若所述1个的差异位在主体码段，则分别对两个身份证号码进行校验码验证，对于校验码验证不通过的身份证号码，判断差异位所在的位置，基于校验码算法的逆推方法，计算得到差异位的新值，并将该差异位的新值代替差异位的原值，得到新的身份证号码，基于新的身份证号码计算所述任意两个身份证号码的相似度；

若所述1个的差异位在校验码段，则分别对两个身份证号码进行校验码验证，对于校验码验证不通过的身份证号码，基于主体码段，计算得到校验码的新值，并将该校验码的新值代替校验码的原值，得到新的身份证号码，基于新的身份证号码计算所述任意两个身份证号码的相似度。

6.如权利要求1所述的患者身份证号码匹配方法，其特征在于，若所述任意两个身份证号码任意一个为17位，则进行缺失位码段判断；

若缺失位位于地址码段，则取第1到5位数字，并在由5位数字形成的6个间隔处分别用通配符或占位符替代，形成6个带有通配符或占位符的地址码段；

选取存在于地址编码库中的地址码段；

基于选取的地址码段与其他码段进行校验码验证，验证通过则将验证通过的6位地址码段代替原5位的地址码段形成新的身份证号码用于所述任意两个身份证号码的匹配；

若缺失位位于出生日期码段，则取第7到13位数字，并在由7位数字形成的8个间隔处分别用通配符或占位符替代，形成8个带有通配符或占位符的出生日期码段；

选取符合出生日期码段格式的出生日期码段；

基于选取的出生日期码段与其他码段进行校验码验证，验证通过则将验证通过的8位出生日期码段代替原7位的出生日期码段形成新的身份证号码用于所述任意两个身份证号码的匹配；

若缺失位位于顺序校验码段，则取第15到17位数字，并在由3位数字形成的4个间隔处分别用通配符或占位符替代，形成4个带有通配符或占位符的顺序校验码段；

选取符合顺序校验码段格式的顺序校验码段；

基于选取的顺序校验码段与其他码段进行校验码验证，验证通过则将验证通过的4位顺序校验码段代替原3位的顺序校验期码段形成新的身份证号码用于所述任意两个身份证号码的匹配。

7.如权利要求1所述的患者身份证号码匹配方法，其特征在于，若所述任意两个身份证号码任意一个为19位，则进行多余位码段判断；

若多余位位于地址码段，则取第1到7位数字，分别删去第1到7位数字形成7个新的地址码段；

选取存在于地址编码库中的地址码段；

基于选取的地址码段与其他码段进行校验码验证，验证通过则将验证通过的6位地址码段代替原7位的地址码段形成新的身份证号码用于所述任意两个身份证号码的匹配；

若多余位位于出生日期码段，则取第7到15位数字，分别删去第7到15位数字形成9个出生日期码段；

选取符合出生日期码段格式的出生日期码段；

基于选取的出生日期码段与其他码段进行校验码验证，验证通过则将验证通过的8位出生日期码段代替原9位的出生日期码段形成新的身份证号码用于所述任意两个身份证号码的匹配；

若多余位位于顺序校验码段，则取第15到19位数字，分别删去第15到19位数字形成5个顺序校验码段；

选取符合顺序校验码段格式的顺序校验码段；

基于选取的出生日期码段与其他码段进行校验码验证，验证通过则将验证通过的4位顺序校验码段代替原5位的顺序校验期码段形成新的身份证号码用于所述任意两个身份证号码的匹配。

8.如权利要求6或7所述的患者身份证号码匹配方法，其特征在于，若进行缺失位码段判断，则包括：

对于所述任意两个身份证号码，均取第1到6位，进行汉明距离计算，若汉明距离不为0，则缺失位存在于地址码段；若汉明距离为0，则均取第7到14位，若汉明距离不为0，则缺失位位于出生日期码段；若汉明距离为0，则缺失位位于顺序校验码段；

若进行多余位码段判断，则包括：

对于所述任意两个身份证号码，均取第1到6位，进行汉明距离计算，若汉明距离不为0，则多余位存在于地址码段；若汉明距离为0，则均取第7到14位，若汉明距离不为0，则多余位位于出生日期码段；若汉明距离为0，则多余位位于顺序校验码段。

9.如权利要求1所述的患者身份证号码匹配方法，其特征在于，所述的获取任意两个身份证号码，包括：获取任意两个身份证号码信息，并将所述任意两个身份证号码信息中的除数字、x和X以外的字符去除，对于包含的x字符和/或X字符，统一为x字符或X字符。