CN103646110B

CN103646110B - 自然人基本身份信息匹配方法

Info

Publication number: CN103646110B
Application number: CN201310728741.7A
Authority: CN
Inventors: 刘宇; 李朝东; 缪成
Original assignee: CREDIT REFERENCE CENTER PEOPLE'S BANK OF CHINA
Current assignee: CREDIT REFERENCE CENTER PEOPLE'S BANK OF CHINA
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2017-01-11
Anticipated expiration: 2033-12-26
Also published as: CN103646110A

Abstract

本发明提供了一种能够将个人信用数据从以账户为主题转变到以自然人为主题的自然人基本身份信息匹配方法，包括如下步骤：（1）在征信系统中找出姓名相同，证件号码不同的人员，将这些人员的其他信息字段进行比对，有任意一个字段值完全相同，就对该人员标识匹配；（2）在征信系统中找出证件号码相同，姓名不同的人员，将这些人员的配偶姓名相同，就对该人员标识匹配；（3）在征信系统中找出姓名和证件号码都相同的人员标识对；对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识匹配。

Description

自然人基本身份信息匹配方法

技术领域

本发明涉及一种个人征信方法，尤其是一种自然人基本身份信息匹配方法。

背景技术

征信系统的主要功能是面向全国所有金融机构和政府有关部门采集具有主体性与财产性特点企业和个人的信用信息，并将信用信息以企业或个人为主题进行整合、加工形成征信产品，并向金融机构、政府部门、企业和个人提供征信产品服务，以帮助他们对信用实体未来是否能够按照契约规定履行信用经济活动的义务做出合理的判断。

个人征信系统作为一个信息发布系统，其产品信用报告以信息主体为主题。而征信数据是从不同数据源以账户为主题进行报送的，这就需要将征信数据中与身份标识相关的信息抽取出来，在多个数据源之间进行信息主体匹配及同一自然人名下的信用信息整合，使征信数据完成从以账户为主题到以信用主体为主题的转变。在这个过程中，如何实现信息主体的匹配是要解决的重要问题。

由于自然人办理业务时采用了不同证件、人员标识信息表达方式不同等多方面原因，造成个人征信系统中存在大量同一自然人有多个不同人员标识进而拥有多份信用报告的情况。此外，由于信息的表达方式多样，再加上各机构上报的数据可能存在输入错误、格式或拼写差异等人为原因，个人征信系统中还存在多条并不完全相同的身份信息项(如姓名、地址)实际代表同一实体的情况。

发明内容

本发明提供了一种能够将个人信用数据从以账户为主题转变到以自然人为主题的自然人基本身份信息匹配方法。

实现本发明目的的自然人基本身份信息匹配方法，包括如下步骤：

(1)在征信系统中找出姓名相同，证件号码不同的人员，将这些人员的其他信息字段进行比对，有任意一个字段值完全相同，就对该人员标识匹配；

(2)在征信系统中找出证件号码相同，姓名不同的人员，将这些人员的配偶姓名相同，就对该人员标识匹配；

(3)在征信系统中找出姓名和证件号码都相同的人员标识对；对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识匹配；

(4)对于征信系统中姓名和证件号码都不同的人员，分别进行姓名相似度计算、证件号码相似度计算、地址相似度计算、机构名称相似度计算和电话号码相似度计算；将上述相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性，赋予权重，然后计算平均值，即加权平均法获得平均值；该平均值大于设定的阈值，就对该人员标识匹配。

所述步骤(1)的匹配过程包括以下四种匹配方法中的一种或几种：

第一种匹配方法，包括如下步骤：

①对姓名和配偶证件号码两个字段进行清洗；

②找出姓名和配偶证件号码两个字段值完全相同的人员标识对；

③对上述的人员标识对，对手机号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、出生日期、配偶姓名九个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识对进行人员匹配；

第二种匹配方法，包括如下步骤：

①对姓名、手机号码、出生日期三个字段进行清洗；

②找出姓名、手机号码和出生日期三个字段值完全相同的人员标识对；

③对上述的人员标识对，对配偶证件号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识对进行人员匹配；

第三种匹配方法，包括如下步骤：

①对姓名、住宅电话、出生日期三个字段进行清洗；

②找出姓名、住宅电话和出生日期三个字段值完全相同的人员标识对；

③对上述的人员标识对，对配偶证件号码、通讯地址、居住地址、手机号码、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识对进行人员匹配；

第四种匹配方法，包括如下步骤：

①对姓名、单位电话、出生日期三个字段进行清洗；

②找出姓名、单位电话和出生日期三个字段值完全相同的人员标识对；

③对上述的人员标识对，对配偶证件号码、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名八个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识对进行人员匹配。

所述第一中匹配方法、第二中匹配方法、第三种匹配方法和第四种匹配方法中，步骤②找出的人员标识对，如果有10条以上相同的人员标识的情况，将这些人员标识对转入存疑区，留待人工处理，剔除重复数据后，进入下一步骤。

所述步骤(2)的匹配过程包括以下两种匹配方法中的一种或两种：

第五种匹配方法，包括如不步骤：

①对证件号码和配偶证件号码两个字段进行清洗；

②找出证件号码和配偶证件号码两个字段值完全相同的人员标识对；

③对上述的人员标识对，如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同，就对该人员标识对进行人员匹配；如果两条人员标识的姓名都为全中文字符且没有公共的中文字符，不进行匹配；

第六种匹配方法，包括如下步骤：

①对证件号码、手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名九个字段进行清洗；

②找出对于满足证件号码相同，并且手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名中任意两项相同的人员标识对；

其中，对于两个人员标识下的通讯地址、户籍地址、居住地址、单位名称四个字段，如果有两个或两个以上字段相同但实际填写的都是同一内容，则相同项数仍记为1；

③对上述的人员标识对，如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同，就对该人员标识对进行人员匹配；如果两条人员标识的姓名都为全中文字符且没有公共的中文字符，不进行匹配。

所述第五种匹配方法和第六种匹配方法中，步骤②找出的人员标识对，如果有10条以上相同的人员标识的情况，将这些人员标识对转入存疑区，留待人工处理，剔除重复数据后，进入下一步骤。

所述步骤(3)中如果找出10条以上相同的人员标识的情况，将这些人员标识对转入存疑区，留待人工处理，剔除重复数据后，进入下一步骤。

所述步骤(4)中的相似度计算，包括如下步骤：

对于号码证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串的比例进行计算；

对于姓名、地址和机构名称的相似度计算采用如下步骤：

①进行分词，将地址信息按照“行政区划+详细地址”的规则构成，详细地址进一步又可分为“街道+门牌号+房间号”；机构名称信息按照“行政区划+字号+行业+组织形式”的规则构成；姓名信息按照“姓氏+名字”的规则构成；建立一个包含全部中文词条的机器字典，将字符串与机器词典中的词条进行比对，若词典中存在与之匹配的某个字符串，则将其分离出原有字符串；

②进行标准化，将上述分离出来的字符串采用相同的格式进行编辑；

③进行相似度计算：对上述编辑后的字符串进行比对，计算相同的字符串与总字符串长度的比例得出相似度。

本发明的自然人基本身份信息匹配方法的有益效果如下：

本发明的自然人基本身份信息匹配方法，通过精确匹配和模糊匹配两部分技术来实现自然人基本身份信息的匹配，解决了在个人征信系统中同一自然人不同身份标识间的匹配问题，使个人征信系统具备了将数据从以账户(身份标识)为主题转变到以信用实体(自然人)为主题的能力；实现对个人征信系统中的同一自然人来自不同报送机构的身份信息的清洗、整合，匹配；减少了数据的冗余，提高了数据质量。

附图说明

图1为本发明的自然人基本身份信息匹配方法中对于姓名、地址和机构名称的相似度计算的流程图。

具体实施方式

实施例1

本发明的自然人基本身份信息匹配方法，包括如下步骤：

实施例2

本发明的自然人基本身份信息匹配方法，包括如下步骤：

匹配过程包括以下四种匹配方法中的一种或几种：

第一种匹配方法，包括如下步骤：

①对姓名和配偶证件号码两个字段进行清洗；

②找出姓名和配偶证件号码两个字段值完全相同的人员标识对，将有10条以上人员标识具有相同姓名和配偶证件号码的情况转入存疑区，留待人工处理；

第二种匹配方法，包括如下步骤：

①对姓名、手机号码、出生日期三个字段进行清洗；

②找出姓名、手机号码和出生日期三个字段值完全相同的人员标识对，将有10条以上人员标识具有相同姓名、手机号码和出生日期的情况转入存疑区，留待人工处理；

第三种匹配方法，包括如下步骤：

①对姓名、住宅电话、出生日期三个字段进行清洗；

②找出姓名、住宅电话和出生日期三个字段值完全相同的人员标识对，将有10条以上人员标识具有相同姓名、住宅电话和出生日期的情况转入存疑区，留待人工处理；

第四种匹配方法，包括如下步骤：

①对姓名、单位电话、出生日期三个字段进行清洗；

②找出姓名、单位电话和出生日期三个字段值完全相同的人员标识对，将有10条以上人员标识具有相同姓名、单位电话和出生日期的情况转入存疑区，留待人工处理；

匹配过程包括以下两种匹配方法中的一种或两种：

第五种匹配方法，包括如不步骤：

①对证件号码和配偶证件号码两个字段进行清洗；

②找出证件号码和配偶证件号码两个字段值完全相同的人员标识对，将有10条以上人员标识具有相同证件号码、配偶证件号码的情况转入存疑区，留待人工处理；

第六种匹配方法，包括如下步骤：

②对于满足证件号码相同，并且手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名中任意两项相同的人员标识对，将有10条以上人员标识具有相同证件号码和身份信息的情况转入存疑区，留待人工处理；

(3)在征信系统中找出姓名和证件号码都相同的人员，具体匹配方法如下：

①对证件号码和姓名两个字段进行清洗；

②找出证件号码和姓名两个字段值完全相同的人员标识对，将有10条以上人员标识具有相同证件号码、姓名的情况转入存疑区，留待人工处理；

③对上述的人员标识对，对单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识对进行人员匹配。

上述的相似度计算，包括如下步骤：

如图1所示，对于姓名、地址和机构名称的相似度计算采用如下步骤：

①进行分词，中文信息构成复杂，命名方法各式各样，因此在模糊匹配前，需要进行分词处理。将地址信息按照“行政区划+详细地址”的规则构成，详细地址进一步又可分为“街道+门牌号+房间号”；机构名称信息按照“行政区划+字号+行业+组织形式”的规则构成；姓名信息按照“姓氏+名字”的规则构成；建立一个包含全部中文词条的机器字典，将字符串与机器词典中的词条进行比对，若词典中存在与之匹配的某个字符串，则将其分离出原有字符串；

不规范中文信息的种类繁多，难以完全穷举和定义，因此在进行标准化时，需要对个人征信系统的数据集做大量调研工作，根据数据集内的不规范中文信息类型有针对性地制定标准化规则。在个人征信系统中发现的不规范中文信息主要有全/半角字符输入、专有名词缩写、错别系等类型。

本发明的自然人基本身份信息匹配方法的优点如下：

根据同一自然人三项标识的差异特征，可以将问题划分为以下三个大类：1.同一自然人姓名相同但证件号码不同而导致出现不同三项标识人员记录的匹配问题；2.同一自然人证件号码相同但姓名不同而导致出现不同三项标识人员记录的匹配问题；3.同一自然人姓名、证件类型和证件号码都不相同。前两类问题通过精确匹配方法解决，第三类问题通过模糊匹配方法解决。

名词解释：

三项标识是指姓名、证件类型和证件号码三个字段的组合，在个人征信系统中用于不同自然人的标识与定位。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神前提下，本领域普通工程技术人员对本发明技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种自然人基本身份信息匹配方法，包括如下步骤：

（1）在征信系统中找出姓名相同，证件号码不同的人员，将这些人员的其他信息字段进行比对，有任意一个字段值完全相同，就对该人员标识匹配；

（2）在征信系统中找出证件号码相同，姓名不同的人员，将这些人员的配偶姓名相同，就对该人员标识匹配；

（3）在征信系统中找出姓名和证件号码都相同的人员标识对；对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗，清洗后有任意一个字段值完全相同，就对该人员标识匹配；

（4）对于征信系统中姓名和证件号码都不同的人员，分别进行姓名相似度计算、证件号码相似度计算、地址相似度计算、机构名称相似度计算和电话号码相似度计算；将上述相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性，赋予权重，然后计算平均值，即加权平均法获得平均值；该平均值大于设定的阈值，就对该人员标识匹配；

所述步骤（1）的匹配过程包括以下四种匹配方法中的一种或几种：

第一种匹配方法，包括如下步骤：

①对姓名和配偶证件号码两个字段进行清洗；

第二种匹配方法，包括如下步骤：

①对姓名、手机号码、出生日期三个字段进行清洗；

第三种匹配方法，包括如下步骤：

①对姓名、住宅电话、出生日期三个字段进行清洗；

第四种匹配方法，包括如下步骤：

①对姓名、单位电话、出生日期三个字段进行清洗；

2.根据权利要求1所述的自然人基本身份信息匹配方法，其特征在于：所述第一种匹配方法、第二种匹配方法、第三种匹配方法和第四种匹配方法中，步骤②找出的人员标识对，如果有10条以上相同的人员标识的情况，将这些人员标识对转入存疑区，留待人工处理，剔除重复数据后，进入下一步骤。

3.根据权利要求1所述的自然人基本身份信息匹配方法，其特征在于：所述步骤（2）的匹配过程包括以下两种匹配方法中的一种或两种：

第五种匹配方法，包括如下步骤：

①对证件号码和配偶证件号码两个字段进行清洗；

第六种匹配方法，包括如下步骤：

4.根据权利要求3所述的自然人基本身份信息匹配方法，其特征在于：所述第五种匹配方法和第六种匹配方法中，步骤②找出的人员标识对，如果有10条以上相同的人员标识的情况，将这些人员标识对转入存疑区，留待人工处理，剔除重复数据后，进入下一步骤。

5.根据权利要求1～4任一所述的自然人基本身份信息匹配方法，其特征在于：所述步骤（3）中如果找出10条以上相同的人员标识的情况，将这些人员标识对转入存疑区，留待人工处理，剔除重复数据后，进入下一步骤。

6.根据权利要求1～4任一所述的自然人基本身份信息匹配方法，其特征在于：所述步骤（4）中的相似度计算，包括如下步骤：

对于证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串的比例进行计算；

对于姓名、地址和机构名称的相似度计算采用如下步骤：