CN103646110B - 自然人基本身份信息匹配方法 - Google Patents

自然人基本身份信息匹配方法 Download PDF

Info

Publication number
CN103646110B
CN103646110B CN201310728741.7A CN201310728741A CN103646110B CN 103646110 B CN103646110 B CN 103646110B CN 201310728741 A CN201310728741 A CN 201310728741A CN 103646110 B CN103646110 B CN 103646110B
Authority
CN
China
Prior art keywords
name
giver identification
address
spouse
passport
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310728741.7A
Other languages
English (en)
Other versions
CN103646110A (zh
Inventor
刘宇
李朝东
缪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CREDIT REFERENCE CENTER PEOPLE'S BANK OF CHINA
Original Assignee
CREDIT REFERENCE CENTER PEOPLE'S BANK OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CREDIT REFERENCE CENTER PEOPLE'S BANK OF CHINA filed Critical CREDIT REFERENCE CENTER PEOPLE'S BANK OF CHINA
Priority to CN201310728741.7A priority Critical patent/CN103646110B/zh
Publication of CN103646110A publication Critical patent/CN103646110A/zh
Application granted granted Critical
Publication of CN103646110B publication Critical patent/CN103646110B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种能够将个人信用数据从以账户为主题转变到以自然人为主题的自然人基本身份信息匹配方法,包括如下步骤:(1)在征信系统中找出姓名相同,证件号码不同的人员,将这些人员的其他信息字段进行比对,有任意一个字段值完全相同,就对该人员标识匹配;(2)在征信系统中找出证件号码相同,姓名不同的人员,将这些人员的配偶姓名相同,就对该人员标识匹配;(3)在征信系统中找出姓名和证件号码都相同的人员标识对;对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识匹配。

Description

自然人基本身份信息匹配方法
技术领域
本发明涉及一种个人征信方法,尤其是一种自然人基本身份信息匹配方法。
背景技术
征信系统的主要功能是面向全国所有金融机构和政府有关部门采集具有主体性与财产性特点企业和个人的信用信息,并将信用信息以企业或个人为主题进行整合、加工形成征信产品,并向金融机构、政府部门、企业和个人提供征信产品服务,以帮助他们对信用实体未来是否能够按照契约规定履行信用经济活动的义务做出合理的判断。
个人征信系统作为一个信息发布系统,其产品信用报告以信息主体为主题。而征信数据是从不同数据源以账户为主题进行报送的,这就需要将征信数据中与身份标识相关的信息抽取出来,在多个数据源之间进行信息主体匹配及同一自然人名下的信用信息整合,使征信数据完成从以账户为主题到以信用主体为主题的转变。在这个过程中,如何实现信息主体的匹配是要解决的重要问题。
由于自然人办理业务时采用了不同证件、人员标识信息表达方式不同等多方面原因,造成个人征信系统中存在大量同一自然人有多个不同人员标识进而拥有多份信用报告的情况。此外,由于信息的表达方式多样,再加上各机构上报的数据可能存在输入错误、格式或拼写差异等人为原因,个人征信系统中还存在多条并不完全相同的身份信息项(如姓名、地址)实际代表同一实体的情况。
发明内容
本发明提供了一种能够将个人信用数据从以账户为主题转变到以自然人为主题的自然人基本身份信息匹配方法。
实现本发明目的的自然人基本身份信息匹配方法,包括如下步骤:
(1)在征信系统中找出姓名相同,证件号码不同的人员,将这些人员的其他信息字段进行比对,有任意一个字段值完全相同,就对该人员标识匹配;
(2)在征信系统中找出证件号码相同,姓名不同的人员,将这些人员的配偶姓名相同,就对该人员标识匹配;
(3)在征信系统中找出姓名和证件号码都相同的人员标识对;对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识匹配;
(4)对于征信系统中姓名和证件号码都不同的人员,分别进行姓名相似度计算、证件号码相似度计算、地址相似度计算、机构名称相似度计算和电话号码相似度计算;将上述相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性,赋予权重,然后计算平均值,即加权平均法获得平均值;该平均值大于设定的阈值,就对该人员标识匹配。
所述步骤(1)的匹配过程包括以下四种匹配方法中的一种或几种:
第一种匹配方法,包括如下步骤:
①对姓名和配偶证件号码两个字段进行清洗;
②找出姓名和配偶证件号码两个字段值完全相同的人员标识对;
③对上述的人员标识对,对手机号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、出生日期、配偶姓名九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第二种匹配方法,包括如下步骤:
①对姓名、手机号码、出生日期三个字段进行清洗;
②找出姓名、手机号码和出生日期三个字段值完全相同的人员标识对;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第三种匹配方法,包括如下步骤:
①对姓名、住宅电话、出生日期三个字段进行清洗;
②找出姓名、住宅电话和出生日期三个字段值完全相同的人员标识对;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、手机号码、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第四种匹配方法,包括如下步骤:
①对姓名、单位电话、出生日期三个字段进行清洗;
②找出姓名、单位电话和出生日期三个字段值完全相同的人员标识对;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配。
所述第一中匹配方法、第二中匹配方法、第三种匹配方法和第四种匹配方法中,步骤②找出的人员标识对,如果有10条以上相同的人员标识的情况,将这些人员标识对转入存疑区,留待人工处理,剔除重复数据后,进入下一步骤。
所述步骤(2)的匹配过程包括以下两种匹配方法中的一种或两种:
第五种匹配方法,包括如不步骤:
①对证件号码和配偶证件号码两个字段进行清洗;
②找出证件号码和配偶证件号码两个字段值完全相同的人员标识对;
③对上述的人员标识对,如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同,就对该人员标识对进行人员匹配;如果两条人员标识的姓名都为全中文字符且没有公共的中文字符,不进行匹配;
第六种匹配方法,包括如下步骤:
①对证件号码、手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名九个字段进行清洗;
②找出对于满足证件号码相同,并且手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名中任意两项相同的人员标识对;
其中,对于两个人员标识下的通讯地址、户籍地址、居住地址、单位名称四个字段,如果有两个或两个以上字段相同但实际填写的都是同一内容,则相同项数仍记为1;
③对上述的人员标识对,如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同,就对该人员标识对进行人员匹配;如果两条人员标识的姓名都为全中文字符且没有公共的中文字符,不进行匹配。
所述第五种匹配方法和第六种匹配方法中,步骤②找出的人员标识对,如果有10条以上相同的人员标识的情况,将这些人员标识对转入存疑区,留待人工处理,剔除重复数据后,进入下一步骤。
所述步骤(3)中如果找出10条以上相同的人员标识的情况,将这些人员标识对转入存疑区,留待人工处理,剔除重复数据后,进入下一步骤。
所述步骤(4)中的相似度计算,包括如下步骤:
对于号码证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串的比例进行计算;
对于姓名、地址和机构名称的相似度计算采用如下步骤:
①进行分词,将地址信息按照“行政区划+详细地址”的规则构成,详细地址进一步又可分为“街道+门牌号+房间号”;机构名称信息按照“行政区划+字号+行业+组织形式”的规则构成;姓名信息按照“姓氏+名字”的规则构成;建立一个包含全部中文词条的机器字典,将字符串与机器词典中的词条进行比对,若词典中存在与之匹配的某个字符串,则将其分离出原有字符串;
②进行标准化,将上述分离出来的字符串采用相同的格式进行编辑;
③进行相似度计算:对上述编辑后的字符串进行比对,计算相同的字符串与总字符串长度的比例得出相似度。
本发明的自然人基本身份信息匹配方法的有益效果如下:
本发明的自然人基本身份信息匹配方法,通过精确匹配和模糊匹配两部分技术来实现自然人基本身份信息的匹配,解决了在个人征信系统中同一自然人不同身份标识间的匹配问题,使个人征信系统具备了将数据从以账户(身份标识)为主题转变到以信用实体(自然人)为主题的能力;实现对个人征信系统中的同一自然人来自不同报送机构的身份信息的清洗、整合,匹配;减少了数据的冗余,提高了数据质量。
附图说明
图1为本发明的自然人基本身份信息匹配方法中对于姓名、地址和机构名称的相似度计算的流程图。
具体实施方式
实施例1
本发明的自然人基本身份信息匹配方法,包括如下步骤:
(1)在征信系统中找出姓名相同,证件号码不同的人员,将这些人员的其他信息字段进行比对,有任意一个字段值完全相同,就对该人员标识匹配;
(2)在征信系统中找出证件号码相同,姓名不同的人员,将这些人员的配偶姓名相同,就对该人员标识匹配;
(3)在征信系统中找出姓名和证件号码都相同的人员标识对;对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识匹配;
(4)对于征信系统中姓名和证件号码都不同的人员,分别进行姓名相似度计算、证件号码相似度计算、地址相似度计算、机构名称相似度计算和电话号码相似度计算;将上述相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性,赋予权重,然后计算平均值,即加权平均法获得平均值;该平均值大于设定的阈值,就对该人员标识匹配。
实施例2
本发明的自然人基本身份信息匹配方法,包括如下步骤:
(1)在征信系统中找出姓名相同,证件号码不同的人员,将这些人员的其他信息字段进行比对,有任意一个字段值完全相同,就对该人员标识匹配;
匹配过程包括以下四种匹配方法中的一种或几种:
第一种匹配方法,包括如下步骤:
①对姓名和配偶证件号码两个字段进行清洗;
②找出姓名和配偶证件号码两个字段值完全相同的人员标识对,将有10条以上人员标识具有相同姓名和配偶证件号码的情况转入存疑区,留待人工处理;
③对上述的人员标识对,对手机号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、出生日期、配偶姓名九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第二种匹配方法,包括如下步骤:
①对姓名、手机号码、出生日期三个字段进行清洗;
②找出姓名、手机号码和出生日期三个字段值完全相同的人员标识对,将有10条以上人员标识具有相同姓名、手机号码和出生日期的情况转入存疑区,留待人工处理;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第三种匹配方法,包括如下步骤:
①对姓名、住宅电话、出生日期三个字段进行清洗;
②找出姓名、住宅电话和出生日期三个字段值完全相同的人员标识对,将有10条以上人员标识具有相同姓名、住宅电话和出生日期的情况转入存疑区,留待人工处理;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、手机号码、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第四种匹配方法,包括如下步骤:
①对姓名、单位电话、出生日期三个字段进行清洗;
②找出姓名、单位电话和出生日期三个字段值完全相同的人员标识对,将有10条以上人员标识具有相同姓名、单位电话和出生日期的情况转入存疑区,留待人工处理;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配。
(2)在征信系统中找出证件号码相同,姓名不同的人员,将这些人员的配偶姓名相同,就对该人员标识匹配;
匹配过程包括以下两种匹配方法中的一种或两种:
第五种匹配方法,包括如不步骤:
①对证件号码和配偶证件号码两个字段进行清洗;
②找出证件号码和配偶证件号码两个字段值完全相同的人员标识对,将有10条以上人员标识具有相同证件号码、配偶证件号码的情况转入存疑区,留待人工处理;
③对上述的人员标识对,如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同,就对该人员标识对进行人员匹配;如果两条人员标识的姓名都为全中文字符且没有公共的中文字符,不进行匹配;
第六种匹配方法,包括如下步骤:
①对证件号码、手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名九个字段进行清洗;
②对于满足证件号码相同,并且手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名中任意两项相同的人员标识对,将有10条以上人员标识具有相同证件号码和身份信息的情况转入存疑区,留待人工处理;
其中,对于两个人员标识下的通讯地址、户籍地址、居住地址、单位名称四个字段,如果有两个或两个以上字段相同但实际填写的都是同一内容,则相同项数仍记为1;
③对上述的人员标识对,如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同,就对该人员标识对进行人员匹配;如果两条人员标识的姓名都为全中文字符且没有公共的中文字符,不进行匹配。
(3)在征信系统中找出姓名和证件号码都相同的人员,具体匹配方法如下:
①对证件号码和姓名两个字段进行清洗;
②找出证件号码和姓名两个字段值完全相同的人员标识对,将有10条以上人员标识具有相同证件号码、姓名的情况转入存疑区,留待人工处理;
③对上述的人员标识对,对单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配。
(4)对于征信系统中姓名和证件号码都不同的人员,分别进行姓名相似度计算、证件号码相似度计算、地址相似度计算、机构名称相似度计算和电话号码相似度计算;将上述相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性,赋予权重,然后计算平均值,即加权平均法获得平均值;该平均值大于设定的阈值,就对该人员标识匹配。
上述的相似度计算,包括如下步骤:
对于号码证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串的比例进行计算;
如图1所示,对于姓名、地址和机构名称的相似度计算采用如下步骤:
①进行分词,中文信息构成复杂,命名方法各式各样,因此在模糊匹配前,需要进行分词处理。将地址信息按照“行政区划+详细地址”的规则构成,详细地址进一步又可分为“街道+门牌号+房间号”;机构名称信息按照“行政区划+字号+行业+组织形式”的规则构成;姓名信息按照“姓氏+名字”的规则构成;建立一个包含全部中文词条的机器字典,将字符串与机器词典中的词条进行比对,若词典中存在与之匹配的某个字符串,则将其分离出原有字符串;
②进行标准化,将上述分离出来的字符串采用相同的格式进行编辑;
不规范中文信息的种类繁多,难以完全穷举和定义,因此在进行标准化时,需要对个人征信系统的数据集做大量调研工作,根据数据集内的不规范中文信息类型有针对性地制定标准化规则。在个人征信系统中发现的不规范中文信息主要有全/半角字符输入、专有名词缩写、错别系等类型。
③进行相似度计算:对上述编辑后的字符串进行比对,计算相同的字符串与总字符串长度的比例得出相似度。
本发明的自然人基本身份信息匹配方法的优点如下:
根据同一自然人三项标识的差异特征,可以将问题划分为以下三个大类:1.同一自然人姓名相同但证件号码不同而导致出现不同三项标识人员记录的匹配问题;2.同一自然人证件号码相同但姓名不同而导致出现不同三项标识人员记录的匹配问题;3.同一自然人姓名、证件类型和证件号码都不相同。前两类问题通过精确匹配方法解决,第三类问题通过模糊匹配方法解决。
名词解释:
三项标识是指姓名、证件类型和证件号码三个字段的组合,在个人征信系统中用于不同自然人的标识与定位。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神前提下,本领域普通工程技术人员对本发明技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (6)

1.一种自然人基本身份信息匹配方法,包括如下步骤:
(1)在征信系统中找出姓名相同,证件号码不同的人员,将这些人员的其他信息字段进行比对,有任意一个字段值完全相同,就对该人员标识匹配;
(2)在征信系统中找出证件号码相同,姓名不同的人员,将这些人员的配偶姓名相同,就对该人员标识匹配;
(3)在征信系统中找出姓名和证件号码都相同的人员标识对;对上述的人员标识的单位电话、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名、配偶证件号码九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识匹配;
(4)对于征信系统中姓名和证件号码都不同的人员,分别进行姓名相似度计算、证件号码相似度计算、地址相似度计算、机构名称相似度计算和电话号码相似度计算;将上述相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性,赋予权重,然后计算平均值,即加权平均法获得平均值;该平均值大于设定的阈值,就对该人员标识匹配;
所述步骤(1)的匹配过程包括以下四种匹配方法中的一种或几种:
第一种匹配方法,包括如下步骤:
①对姓名和配偶证件号码两个字段进行清洗;
②找出姓名和配偶证件号码两个字段值完全相同的人员标识对;
③对上述的人员标识对,对手机号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、出生日期、配偶姓名九个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第二种匹配方法,包括如下步骤:
①对姓名、手机号码、出生日期三个字段进行清洗;
②找出姓名、手机号码和出生日期三个字段值完全相同的人员标识对;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、住宅电话、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第三种匹配方法,包括如下步骤:
①对姓名、住宅电话、出生日期三个字段进行清洗;
②找出姓名、住宅电话和出生日期三个字段值完全相同的人员标识对;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、手机号码、单位电话、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配;
第四种匹配方法,包括如下步骤:
①对姓名、单位电话、出生日期三个字段进行清洗;
②找出姓名、单位电话和出生日期三个字段值完全相同的人员标识对;
③对上述的人员标识对,对配偶证件号码、通讯地址、居住地址、住宅电话、手机号码、单位名称、户籍地址、配偶姓名八个字段进行清洗,清洗后有任意一个字段值完全相同,就对该人员标识对进行人员匹配。
2.根据权利要求1所述的自然人基本身份信息匹配方法,其特征在于:所述第一种匹配方法、第二种匹配方法、第三种匹配方法和第四种匹配方法中,步骤②找出的人员标识对,如果有10条以上相同的人员标识的情况,将这些人员标识对转入存疑区,留待人工处理,剔除重复数据后,进入下一步骤。
3.根据权利要求1所述的自然人基本身份信息匹配方法,其特征在于:所述步骤(2)的匹配过程包括以下两种匹配方法中的一种或两种:
第五种匹配方法,包括如下步骤:
①对证件号码和配偶证件号码两个字段进行清洗;
②找出证件号码和配偶证件号码两个字段值完全相同的人员标识对;
③对上述的人员标识对,如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同,就对该人员标识对进行人员匹配;如果两条人员标识的姓名都为全中文字符且没有公共的中文字符,不进行匹配;
第六种匹配方法,包括如下步骤:
①对证件号码、手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名九个字段进行清洗;
②找出对于满足证件号码相同,并且手机号码、单位电话、住宅电话、居住地址、通讯地址、单位名称、户籍地址、配偶姓名中任意两项相同的人员标识对;
其中,对于两个人员标识下的通讯地址、户籍地址、居住地址、单位名称四个字段,如果有两个或两个以上字段相同但实际填写的都是同一内容,则相同项数仍记为1;
③对上述的人员标识对,如果其中一条人员标识下的配偶姓名字段有有效值且与另一条人员标识中的姓名相同,就对该人员标识对进行人员匹配;如果两条人员标识的姓名都为全中文字符且没有公共的中文字符,不进行匹配。
4.根据权利要求3所述的自然人基本身份信息匹配方法,其特征在于:所述第五种匹配方法和第六种匹配方法中,步骤②找出的人员标识对,如果有10条以上相同的人员标识的情况,将这些人员标识对转入存疑区,留待人工处理,剔除重复数据后,进入下一步骤。
5.根据权利要求1~4任一所述的自然人基本身份信息匹配方法,其特征在于:所述步骤(3)中如果找出10条以上相同的人员标识的情况,将这些人员标识对转入存疑区,留待人工处理,剔除重复数据后,进入下一步骤。
6.根据权利要求1~4任一所述的自然人基本身份信息匹配方法,其特征在于:所述步骤(4)中的相似度计算,包括如下步骤:
对于证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串的比例进行计算;
对于姓名、地址和机构名称的相似度计算采用如下步骤:
①进行分词,将地址信息按照“行政区划+详细地址”的规则构成,详细地址进一步又可分为“街道+门牌号+房间号”;机构名称信息按照“行政区划+字号+行业+组织形式”的规则构成;姓名信息按照“姓氏+名字”的规则构成;建立一个包含全部中文词条的机器字典,将字符串与机器词典中的词条进行比对,若词典中存在与之匹配的某个字符串,则将其分离出原有字符串;
②进行标准化,将上述分离出来的字符串采用相同的格式进行编辑;
③进行相似度计算:对上述编辑后的字符串进行比对,计算相同的字符串与总字符串长度的比例得出相似度。
CN201310728741.7A 2013-12-26 2013-12-26 自然人基本身份信息匹配方法 Expired - Fee Related CN103646110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310728741.7A CN103646110B (zh) 2013-12-26 2013-12-26 自然人基本身份信息匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310728741.7A CN103646110B (zh) 2013-12-26 2013-12-26 自然人基本身份信息匹配方法

Publications (2)

Publication Number Publication Date
CN103646110A CN103646110A (zh) 2014-03-19
CN103646110B true CN103646110B (zh) 2017-01-11

Family

ID=50251323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310728741.7A Expired - Fee Related CN103646110B (zh) 2013-12-26 2013-12-26 自然人基本身份信息匹配方法

Country Status (1)

Country Link
CN (1) CN103646110B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2975297A1 (en) * 2015-01-28 2016-08-04 Trans Union Llc Systems and methods for retrieving and processing credit data for centralized review
CN105184713A (zh) * 2015-07-17 2015-12-23 四川久远银海软件股份有限公司 一种利于医保药品对照的智能匹配排序系统及方法
CN107526735B (zh) * 2016-06-20 2020-12-11 杭州海康威视数字技术股份有限公司 一种关联关系的识别方法及装置
CN107545332A (zh) * 2016-06-23 2018-01-05 平安科技(深圳)有限公司 准客户信息合并分析方法及服务器
CN107544979A (zh) * 2016-06-24 2018-01-05 上海壹账通金融科技有限公司 用户数据的可信性分析方法及系统
CN107741932B (zh) * 2016-06-24 2021-02-26 深圳壹账通智能科技有限公司 用户数据融合方法及系统
CN106372668A (zh) * 2016-08-31 2017-02-01 新浪网技术(中国)有限公司 一种数据匹配方法及装置
CN106528651B (zh) * 2016-10-08 2019-04-30 温州大学 一种面向家庭数据库的模糊查询方法
CN108073591B (zh) * 2016-11-10 2021-10-12 北京宸信征信有限公司 一种具有身份属性的多源数据的整合存储系统及方法
CN108664494A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 数据匹配的方法、装置、电子设备和储存介质
CN107704529B (zh) * 2017-09-20 2020-04-10 平安科技(深圳)有限公司 信息唯一性识别方法、应用服务器、系统及存储介质
CN108415989A (zh) * 2018-02-12 2018-08-17 苏州朗动网络科技有限公司 身份信息识别方法、装置、计算机设备和存储介质
CN108960058B (zh) * 2018-05-31 2019-12-03 平安科技(深圳)有限公司 发票校验方法、装置、计算机设备及存储介质
CN110751568B (zh) * 2018-07-20 2024-04-30 武汉烽火众智智慧之星科技有限公司 一种人员关系亲密度分析方法及装置
CN109165849A (zh) * 2018-08-27 2019-01-08 众安信息技术服务有限公司 风险评估方法和装置
CN109472310B (zh) * 2018-11-12 2022-08-09 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置
CN110245146B (zh) * 2019-05-20 2022-11-25 中国平安人寿保险股份有限公司 一种用户识别的方法及相关装置
CN110390024B (zh) * 2019-07-16 2022-05-17 合肥工业大学 家谱数据的处理方法及装置、处理器
CN110825717B (zh) * 2019-10-10 2022-05-20 厦门市美亚柏科信息股份有限公司 一种身份识别的数据归一方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727535A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种跨系统患者交叉索引方法及其系统
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
US8572711B1 (en) * 2010-10-21 2013-10-29 Google Inc. Real identity verification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727535A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种跨系统患者交叉索引方法及其系统
US8572711B1 (en) * 2010-10-21 2013-10-29 Google Inc. Real identity verification
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备

Also Published As

Publication number Publication date
CN103646110A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103646110B (zh) 自然人基本身份信息匹配方法
CN105244029B (zh) 语音识别后处理方法及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN104572625A (zh) 命名实体的识别方法
CN108596638A (zh) 基于大数据的反欺诈识别方法及系统、终端及存储介质
CN107885883A (zh) 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN106095745A (zh) 基于通讯记录的交易记录提取方法及其系统
CN109408806A (zh) 一种基于英文语法规则的事件提取方法
CN107341157B (zh) 一种客服对话聚类方法和装置
Bansal et al. Code-switching patterns can be an effective route to improve performance of downstream NLP applications: A case study of humour, sarcasm and hate speech detection
CN109472626A (zh) 一种面向手机租赁业务的智能金融风险控制方法及系统
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN105912644A (zh) 一种网络评论产生式摘要方法
CN111680131A (zh) 基于语义的文档聚类方法、系统及计算机设备
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN108170691A (zh) 关联文书的确定方法和装置
Casan-Pitarch Case study on banks' webpages: The use of personal pronouns.
CN105869058A (zh) 一种多层潜变量模型用户画像提取的方法
Ramanathan Considering social implications of biometric registration: A database intended for every citizen in India [Commentary]
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170111

Termination date: 20171226

CF01 Termination of patent right due to non-payment of annual fee