CN102314478A

CN102314478A - 一种患者身份识别与匹配的方法

Info

Publication number: CN102314478A
Application number: CN201110186618A
Authority: CN
Inventors: 陈诚; 浮光纪; 肖筱华
Original assignee: WANDA INFORMATION CO Ltd
Current assignee: WANDA INFORMATION CO Ltd
Priority date: 2011-07-05
Filing date: 2011-07-05
Publication date: 2012-01-11

Abstract

本发明提供了一种患者身份识别与匹配的方法，其特征在于，步骤为：首先定义用来作为患者身份识别和匹配的信息项，根据信息项的重要程度为每个信息项分配一个权重；随后计算两个待匹配的身份信息与基准信息之间的相似度，通过得到的值判断是否将两条信息进行匹配。本发明提供的一种方法不用完全取代原系统中患者身份库，因此对原有系统冲击较小，不易造成单点故障。

Description

一种患者身份识别与匹配的方法

技术领域

本发明涉及一种医疗数据库中患者身份信息的识别和匹配的方法。

背景技术

随着互联网技术的不断发展、信息技术的逐渐成熟以及病患就医记录的不断增加，使得各家医疗机构需要对原有的患者信息进行整合，在整合过程中需要将同一患者的不同医疗信息进行合并。目前，医疗健康领域开展患者身份信息整合时，一般都是采用ETL手段建立一个集中的患者身份库，然后取代原系统中患者身份库。ELT是Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载，ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中。这样做的弊端是：对原有系统冲击较大，也容易造成单点故障。

发明内容

本发明的目的是提供一种对原有系统冲击较小的整合患者数据的方法。

为了达到上述目的，本发明的技术方案是提供了一种患者身份识别与匹配的方法，其特征在于，步骤为：

步骤1、定义用来作为患者身份识别和匹配的信息项，根据信息项的重要程度为每个信息项分配一个权重，所有信息项的权重的和必须等于1；

步骤2、从待匹配的身份信息库中取出第

条待匹配的身份信息

Figure 2011101866188100002DEST_PATH_IMAGE004

，并从基准库中取出第

条基准信息

Figure 2011101866188100002DEST_PATH_IMAGE008

，若身份信息

或基准信息

中的某些信息项缺失，则判断缺失的信息项的权重是否较重，若较重则直接判定为不相似，否则将该信息项的权重按比例分配到其他未缺失的信息项上后进入步骤3；

步骤3、计算待匹配的身份信息库中的第

条待匹配的身份信息与基准库中的第

条基准信息

之间的相似度

Figure 2011101866188100002DEST_PATH_IMAGE010

，

Figure 2011101866188100002DEST_PATH_IMAGE012

，其中，

Figure 2011101866188100002DEST_PATH_IMAGE014

为信息项的总数，

Figure 2011101866188100002DEST_PATH_IMAGE016

为第

个信息项所对应的权重，

指第条待匹配的身份信息

与基准库中的第

条基准信息

的第个信息项之间的相似度，该相似度事先通过人工设定；

步骤4、若相似度

等于1，则直接将第条待匹配的身份信息

与基准库中的第

条基准信息

合并，若相似度小于0.5，则两条信息具备相关性，不进行匹配，在其他情况下，在人工干预下将两条信息进行匹配。

本发明提供的一种方法不用完全取代原系统中患者身份库，因此对原有系统冲击较小，不易造成单点故障。

具体实施方式

以下结合实施例来具体说明本发明。

实施例

本发明提供了一种患者身份识别与匹配的方法，步骤为：

步骤1、定义用来作为患者身份识别和匹配的信息项，根据信息项的重要程度为每个信息项分配一个权重，所有信息项的权重的和必须等于1，其中，所述的信息项包括姓名、姓名拼音、性别、出生日期、身份证号、居住地址、电话号码及手机号码，居住地址采用多级停用词进行划分，其步骤为：

步骤1.1、定义地址信息框架，地址信息框架由地址信息项组成，地址信息项包括：省、市、区/县、镇/乡/街道、村/路/街/巷、弄/队、户/号/幢及室；

步骤1.2、将医院采集的患者地址信息通过至少一级停用词划分为不同的地址信息段，停用词是指在需要分割的文本中经常出现，可作为词语之间的间隔标识的词；

步骤1.3、根据地址信息段的停用词和地址信息框架各个地址信息项的对应关系，将地址信息段中的非停用词部分填入相应的地址信息项中；

步骤2、对待匹配的身份信息库及基准库中的身份信息采用关键信息项排序的方法进行分组，其步骤为：若相似的身份信息所包含的某个信息项ItemA一定是相等的，则按信息项ItemA对身份信息进行排序，排序完成后具有相同信息项ItemA的身份信息聚集成若干个组，然后在各个组内再进行身份信息的两两比对即可；

步骤3、从待匹配的身份信息库中取出第

条待匹配的身份信息

，并从基准库中取出第

条基准信息

，若身份信息

或基准信息

中的某些信息项缺失，则判断缺失的信息项的权重是否较重，若较重（例如权重超过0.5）则直接判定为不相似，否则将该信息项的权重按比例分配到其他未缺失的信息项上后进入步骤4；

步骤4、计算待匹配的身份信息库中的第

条待匹配的身份信息

与基准库中的第

条基准信息

之间的相似度

，

，其中，

为信息项的总数，

为第

个信息项所对应的权重，

指第

条待匹配的身份信息

与基准库中的第

条基准信息

的第

个信息项之间的相似度，该相似度事先通过人工设定；

步骤5、若相似度等于1，则直接将第

条待匹配的身份信息

与基准库中的第

条基准信息合并，若相似度小于0.5，则两条信息具备相关性，不进行匹配，在其他情况下，在人工干预下将两条信息进行匹配。

以下对上述步骤做出进一步的详细说明。

患者身份唯一识别的方法是待识别的患者身份信息与基准患者身份库中的信息进行匹配，计算它们之间的相似度（Similarity），这里的相似度是不小于0且不大于1的标量，也就是说它的值域是[0,1]。当Similarity=0时，表明待识别的患者信息和基准信息之间没有任何关联。当Similarity=1，表明二者完全匹配，可以直接进行合并。

一、定义身份信息项及其优先级：

首先，需要明确赖以进行身份识别的身份信息项，实际可以用来进行身份识别和匹配的身份信息项有姓名、性别、出生日期、年龄、婚姻状况、职业等。但其中有些信息项可能不够稳定，容易发生变化，例如职业等。经分析，相对稳定且可以用来作为患者身份识别和匹配的信息项有：身份信息包括：姓名、姓名拼音、性别、出生日期、身份证号、居住地址、电话号码、手机号码等。

各个信息项的相似程度定义如下，对于性别：相同为1，否则为0；对于姓名：完全相同为1，读音不同为0，读音相同时为（0，1）之间的实数；对于除地址外的其他信息：完全相同为1，有两位数字不同为0，由一位数字不同时为（0，1）之间的实数。

地址信息往往比较复杂，而各种来源的地址信息大多没有对地址进行切分，一般来说都是一个较长的字符串，里面包含了各级行政区直至最小单位的门牌号等全部地址信息。但这样的信息很难充分利用，尤其是不便于进行比较、检索等操作。为此，需要定义一个专门的地址信息框架。地址信息框架的关键字包括：省、市、区/县、镇/乡/街道、村/路/街/巷、弄/队、户/号/幢、室等。我们可以根据这些地址关键字将地址进一步划分为多个更小单位的地址信息项，参与匹配的两条信息的各项对应地址信息项的相似度的加权和即为地址信息的相似度。

如果某些信息项缺失，则该信息项的权值按比例分配到其它信息项上；如果权重较重的信息项缺失较多，则无需进行计算相似度，直接判定为不相似。

二、采用多级停用词划分地址信息项：

由于医院采集的患者地址信息一般是连写的，必须先经过地址项划分才可填入上文所描述的地址信息框架。通过“多级停用词划分”的方式来处理连写中文地址记录的规格化问题。停用词是指在需要分割的文本中经常出现，可作为词语之间的间隔标识的词。根据经验，归纳了常用的地址信息分割停用词。共分二级停用词，第一级停用词包括：空格、“／”、“一”、“省”、“市”、“区”、“县”、“镇”、“乡”、“街道”、“村”、“路”、“街”、“巷”、“弄”、“队”、“户”、“号”、“幢”、“室”等；第二级停用词由三部分组成：国内各省、自治区、直辖市的名称；一些大城市及上海周边城市的名称；上海各区县的名称。分割地址信息时，先按第一级停用词进行分割，如果仍存在具有一定长度的地址信息段，则需要按第二级停用词再次进行分割。其意义在于，既可以通过第一级停用词分割来处理占总数80％左右的某一地区本地患者的地址信息；又可以通过第二级停用词分割来兼顾非该地区患者的地址信息分割的要求。分割完成后，按地址信息段的停用词和地址信息框架各个地址信息项的对应关系，将地址信息段中的非停用词部分填入相应的地址信息项中。在分割过程中要遵循一个顺序的原则，包括：根据第一级停用词的分割必须按上述排列的顺序进行，只有当排列靠前的停用词未出现时，才能考虑采用靠后的停用词分割；当不能确定地址信息段应对应哪个地址信息项时，需利用一些经验性的规则，例如地址信息为： “XX路011 8／3／301”，则后面三个数字分别对应“弄”、“号”、“室”。

同时，采用“关键信息项排序”的方法来进行匹配，其主要思路是，如果有一个身份信息项ItemA满足：相似的身份信息所包含的ItemA一定是相等的，则可以先按ItemA对身份信息进行排序，排序完成后具有相同ItemA的身份信息聚集成若干个组，然后在各个组内再进行身份信息的两两比对即可。根据上述条件的逆否命题可知，当ItemA不相等时，包含它们的身份信息一定不相似，因此不必再到组外去搜索相似的记录。我们将这样的ItemA称为“关键身份信息项”。根据经验，只要将现有的“姓名”信息项稍作调整，就可以生成这样的关键身份信息项。在忽略平翘舌音和一些前后鼻音的条件下，姓名的汉语拼音就可以作为“关键信息项”，其直观地解释是，如果若干条身份信息同属于一个患者，那它们包含的“姓名”信息至少应该读起来是大致相同的。忽略平翘舌音和一些前后鼻音的方式是，将所有姓名拼音中的ch、sh、zh转换成C、S、Z：将eng、ing转换为en、in即可。

三、计算整体相似度

计算待匹配的身份信息库中的第

条待匹配的身份信息与基准库中的第

条基准信息之间的相似度

，

，其中，

为信息项的总数，

为第个信息项所对应的权重，

指第

条待匹配的身份信息

与基准库中的第

条基准信息

的第

个信息项之间的相似度，地址信息需要根据多级停用词进行划分，分割成更小单位的信息项，然后为子信息项分配权重，各子信息项的加权和即为地址信息项的相似度。

四、身份信息合并

根据上一步骤中计算得到整体相似度，对相似度达到标准的身份信息进行合并。一般的原则是，对于相似度等于1的信息，直接进行合并，相似度大于0.5而小于1的信息进行人工参与下的合并。

Claims

1.一种患者身份识别与匹配的方法，其特征在于，步骤为：

步骤2、从待匹配的身份信息库中取出第

条待匹配的身份信息

Figure 2011101866188100001DEST_PATH_IMAGE004

，并从基准库中取出第

条基准信息

，若身份信息或基准信息

步骤3、计算待匹配的身份信息库中的第

条待匹配的身份信息

与基准库中的第

条基准信息

之间的相似度，，其中，

为信息项的总数，

为第

个信息项所对应的权重，

指第

条待匹配的身份信息

与基准库中的第条基准信息

的第

个信息项之间的相似度，该相似度事先通过人工设定；

步骤4、若相似度

等于1，则直接将第条待匹配的身份信息

与基准库中的第

条基准信息

2.如权利要求1所述的一种患者身份识别与匹配的方法，其特征在于：步骤1中所述的信息项包括姓名、姓名拼音、性别、出生日期、身份证号、居住地址、电话号码及手机号码。

3.如权利要求2所述的一种患者身份识别与匹配的方法，其特征在于：所述居住地址采用多级停用词进行划分，其步骤为：

步骤1.3、根据地址信息段的停用词和地址信息框架各个地址信息项的对应关系，将地址信息段中的非停用词部分填入相应的地址信息项中。

4.如权利要求1所述的一种患者身份识别与匹配的方法，其特征在于：在步骤2之前，还需要对待匹配的身份信息库及基准库中的身份信息采用关键信息项排序的方法进行分组，其步骤为：若相似的身份信息所包含的某个信息项ItemA一定是相等的，则按信息项ItemA对身份信息进行排序，排序完成后具有相同信息项ItemA的身份信息聚集成若干个组，然后在各个组内再进行身份信息的两两比对即可。