CN110609928A

CN110609928A - 基于政务数据的姓名特征识别系统

Info

Publication number: CN110609928A
Application number: CN201910801931.4A
Authority: CN
Inventors: 华岗; 王华飞; 徐振
Original assignee: Ningbo Zhongshu Yunchuang Information Technology Co Ltd; Ningbo Smart City Planning Standard Development Research Institute
Current assignee: Ningbo Zhongshu Yunchuang Information Technology Co Ltd; Ningbo Smart City Planning Standard Development Research Institute
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-24

Abstract

基于政务数据的姓名特征识别系统，包括以下几个步骤实现：A：判定和识别每列数据是否包含有属性描述；B：提取所述属性描述作为该列数据的标签，进行聚类测试，得出属性权值；提取该列数据中若干数据形成新的数据集，所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配，得出匹配率；C：得出属性预测率。与现有技术相比，本发明的有益效果是：本发明所述系统可获取政务数据集中的姓名属性描述，通过对姓名属性描述与自定义姓名模型的聚类测试和对随机提取政务数据集的部分数据与现有姓氏表的匹配，计算出属性预测率，本发明所述系统能够在海量且杂乱的政务数据中识别政务数据中的姓名特征，并将姓名提炼归纳，提高政务数据的处理效率。

Description

基于政务数据的姓名特征识别系统

技术领域

本发明涉及姓名特征识别系统，尤其涉及基于政务数据的姓名特征识别系统。

背景技术

政务数据包含了信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重点领域的数据；政府手中的数据资源更像是一座沉睡的“钻石矿”，应用前景不可估量。政府利用大数据实现治理现代化，要将满足人民利益的根本需求作为立足点、出发点。

但在海量的政务数据中，存在着很多命名不一致而属性一致的杂乱数据，在政务数据的提取、归类过程中带来了巨大的不便，极大地降低了政务数据处理的效率。

发明内容

本发明所要解决的技术问题是提供了基于政务数据的姓名特征识别系统，本发明所述系统能够在海量且杂乱的政务数据中识别政务数据中的姓名特征，提高政务数据的处理效率。

基于政务数据的姓名特征识别系统，包括以下几个步骤实现：

步骤A：收集政务数据形成政务数据集，判定和识别所述政务数据集的每列数据是否包含有属性描述；

步骤B：若所述政务数据集每列数据均包含属性描述，随机提取所述属性描述作为该列数据的标签，所述标签拆分成字符元组并与自定义姓名模型进行聚类测试，得出属性权值；提取该列数据中若干数据形成新的数据集，所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配，得出匹配率；

若所述政务数据集每列数据集均未包含属性描述，则直接随机提取所述政务数据集各列数据中若干数据形成新的数据集，所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配，得出匹配率；

步骤C：根据所述匹配率与所述属性权值以一定计算公式得出属性预测率。

上述技术方案中，更进一步的是，在步骤A中，所述属性描述是指由数据库导出的数据集中每列首行元素；所述由数据库导出的数据集的每列首行元素，所述每列首行元素含有可识别的特征，提高了识别率和准确率，使得本发明所述姓名特征识别系统更加精准。

上述技术方案中，更进一步的是，在步骤B中，所述新的数据集是指所述20%--30%的所述政务数据集；从所述政务数据集中随机选择合适的部分比例数据进行测试，使得随机提取的所述数据集是为了进行数据测试的，而随机提取的所述数据具有代表性，大大的提升所述系统的准确率；还节省了运算器的资源，防止系统不必要的运算和内存消耗，提高本发明所述系统运行效率。

上述技术方案中，更进一步的是，在步骤B中，若所述匹配率小于默认匹配率，则所述属性预测率置为0；若所述匹配率大于或等于默认匹配率，则输出所述匹配率；所述默认匹配率在60%--65%之间。

上述技术方案中，更进一步的是，若所述字符元组与所述自定义姓名模型在一簇，则所述属性权值置为默认属性权值；若所述字符元组与所述自定义姓名模型未在一簇，则所述属性权值置0。

上述技术方案中，更进一步的是，所述默认属性权值在0.75—0.85之间。

上述技术方案中，更进一步的是，所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。

上述技术方案中，更进一步的是，所述若干个梯队的姓氏数量差在100—200个之间。

上述技术方案中，更进一步的是，需要匹配的所述字段与所述现有姓氏表匹配顺序为，

先与所述第一梯队匹配，若需要匹配的所述字段与所述第一梯队存在匹配项，则结束，若需要匹配的所述字段与所述第一梯队不存在匹配项，则再与所述第二梯队匹配；

若需要匹配的所述字段与所述第二梯队存在匹配项，则结束，若需要匹配的所述字段与所述第二梯队不存在匹配项，再与所述第三梯队匹配；

直至需要匹配的所述字段与所述第n梯队存在匹配项，则结束，若需要匹配的所述字段与所述第n梯队不存在匹配项，则需要匹配的所述字段与现有姓氏表不存在匹配项。

将所述现有姓氏表按照姓氏占中国人口比例排列，减少不必要的匹配项，提高匹配速率。

上述技术方案中，更进一步的是，在步骤C中，所述一定计算公式是指，属性预测率=属性权值×100%+匹配率×100%。利用所述属性权值和所述匹配率的联合计算得到所述属性预测率，进一步提高了本发明所属系统的准确率。

与现有技术相比，本发明的有益效果是：由于本发明所述系统可获取政务数据集中的姓名属性描述，再随机提取政务数据集的部分数据，通过对所述姓名属性描述与自定义姓名模型的聚类测试和对随机提取政务数据集的部分数据与现有姓氏表的匹配，计算出属性预测率，本发明所述系统能够在海量且杂乱的政务数据中识别政务数据中的姓名特征，并将姓名提炼归纳，提高政务数据的处理效率。

附图说明

图1为本发明所述系统识别姓名特征的流程图。

图2为本发明所述系统中含属性描述的政务数据集和不含属性描述的政务数据集示例表图。

图3为本发明所述系统中提取20%的政务数据形成新的数据集示例表图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1--3所述，基于政务数据的姓名特征识别系统，包括以下几个步骤实现：

在步骤A中，所述属性描述是指由数据库导出的数据集中每列首行元素。

若数据集有数据库导出，属性表头含有可识别的特征；所述可是别的特征即为所述属性描述，所述属性描述包括，例如：“姓名”、“name”、“Name”、“用户”、“user”、“User”、“username”、“Username”；若数据集来自其他数据的收集与截取，默认该数据集不带属性描述，如图2。

在步骤B中，所述新的数据集是指所述20%--30%的所述政务数据集；为了防止系统不必要的运算和内存消耗，科学地，从所述政务数据集中随机选择部分比例数据进行测试即可；优选的，数据集的随机选择比例为20%--30%，本发明默认为20%。

若数据集来自其他数据的收集与截取，默认该数据集不带属性描述，所述政务数据不含有属性描述的情况下，则直接随机提取所述政务数据集中各列数据的20%形成新的数据集，考虑到复姓的可能，提取所述新数据集字段中的第一字段和第二字段，如图3中提取“张”、提取“李”、“李家”、提取“欧”、“欧阳”与所述现有姓氏表进行匹配；得出匹配率。

在步骤B中，若所述匹配率小于默认匹配率，则所述属性预测率置为0；若所述匹配率大于或等于默认匹配率，则输出所述匹配率；所述默认匹配率在60%--65%之间。

由于匹配率会存在一定的误差，所述匹配率达到系统设置的“合格线”即可，优选的匹配率达到60%即可。

若数据集有数据库导出，属性表头含有可识别的特征即存在属性描述，则提取所述属性描述作为该列数据的标签；将所述标签拆分成字符元组，例如：若所述属性描述为“姓名”，则拆分成“姓”、“名”字符元组；若所述属性描述为“user”，则拆分成“u”、“s”、“e”、“r”字符元组；再将所述拆分后的字符元组与所述自定义姓名模型进行聚类测试。

所述自定义姓名模型包括：“姓名”、“姓”、“名”、“name”、“Name”、“N”、“n”、“a”、“m”、“e”、“用户”、“用”、“户”、“user”、“User”、“username”、“Username”、“U”、“u”、“s”、“r”。

聚类模型测试下，自动分散成的各个簇。

若所述字符元组与所述自定义姓名模型在一簇，则所述属性权值置为默认属性权值；若所述字符元组与所述自定义姓名模型未在一簇，则所述属性权值置0。

所述默认属性权值在0.75—0.85之间。所述属性权值在0.75-0.85之间，本发明默认为0.8。

所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。本发明选取的所述梯队数量为3个，第一梯队、第二梯队和第三梯队；当然也可选取其他数量作为所述梯队数量。

所述现有姓氏表进行姓氏排列的依据为“新百家姓”（2019年1月，公安部户政管理研究中心依托全世界最大、覆盖全国近14亿人口的人口信息系统，采用大数据技术，对2018年公安机关登记的全国姓氏情况进行了统计分析，发布了2018年“百家姓”）；

所述第一梯队包括所述“新百家姓”前三分之一姓氏，所述第三梯队包括所述“新百家姓”后三分之一姓氏，所述第二梯队包括所述“新百家姓”剩余姓氏。

所述若干个梯队的姓氏数量差在100—200个之间；所述第一梯队中姓氏数量在2150—2200个之间，所述第二梯队中姓氏数量在2050—2100个之间，所述第三梯队中姓氏数量在1950—2000个之间。

需要匹配的所述字段与所述现有姓氏表匹配顺序为，先与所述第一梯队匹配，若需要匹配的所述字段与所述第一梯队存在匹配项，则结束，若需要匹配的所述字段与所述第一梯队不存在匹配项，则再与所述第二梯队匹配；

在步骤C中，所述一定计算公式是指，属性预测率=属性权值×100%+匹配率×100%。

以下为本发明所述系统识姓名特征的流程说明，具体为，

政务数据包括若干列数据，例如，包括：name、sex、tel、add（命名不限于本实施例中的命名，也可以为姓名、性别、电话、地址）

若所述政务数据集每列数据均包含属性描述；若此处政务数据的属性描述为“姓名”，则所述属性描述“姓名”作为该列数据的标签，将标签拆分为“姓”、“名”的字符元组，再将所述“姓”、“名”的字符元组与所自定义姓名模型（所述自定义姓名模型包括：“姓名”、“姓”、“名”、“name”、“Name”、“N”、“n”、“a”、“m”、“e”、“用户”、“用”、“户”、“user”、“User”、“username”、“Username”、“U”、“u”、“s”、“r”）进行聚类测试，显而易见，当前拆分的字符元组与所述自定义姓名模型在一簇（说明该列数据的属性为姓名的可能性大），则将所述属性权值置为0.8；再从提取该列数据中20%的数据形成新的数据集；提取字段中第一字符和第二字符与所述现有姓氏表匹配，即如图3中“张”、提取“李”、“李家”、提取“欧”、“欧阳”与所述现有姓氏表进行匹配；所述“张”姓、“李”姓为中国大姓，在所述第一梯队中匹配到匹配项即停止继续匹配，所述“欧阳”姓则在所述第二梯队中匹配到匹配项即停止匹配；得出匹配率，若为80%；则根据公式属性预测率=属性权值×100%+匹配率×100%计算出属性预测率；

若此处政务数据的属性描述为“性别”，则所述属性描述“性别”作为该列数据的标签，将所述标签拆分为“性”、“别”的字符元组，再将所述“性”、“别”的字符元组与所自定义姓名模型（所述自定义姓名模型包括：“姓名”、“姓”、“名”、“name”、“Name”、“N”、“n”、“a”、“m”、“e”、“用户”、“用”、“户”、“user”、“User”、“username”、“Username”、“U”、“u”、“s”、“r”）进行聚类测试，显而易见，当前拆分的字符元组与所述自定义姓名模型不在一簇（说明该列数据的属性为姓名的可能性小），则将所述属性权值置为0；再从提取该列数据中20%的数据形成新的数据集；提取字段中第一字符和第二字符与所述现有姓氏表匹配，即如图3中“张”、提取“李”、“李家”、提取“欧”、“欧阳”与所述现有姓氏表进行匹配；所述“张”姓、“李”姓为中国大姓，在所述第一梯队中匹配到匹配项即停止继续匹配，所述“欧阳”姓则在所述第二梯队中匹配到匹配项即停止匹配；得出匹配率低于60%；则属性预测率置0；

若所述政务数据集每列数据均不包含属性描述，则直接从提取所述政务数据集各列数据中20%数据形成新的数据集；提取字段中第一字符和第二字符与所述现有姓氏表匹配，得出匹配率（若匹配率不足60%，则所述属性预测率置0），根据公式属性预测率=属性权值×100%+匹配率×100%计算出属性预测率。

在本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于政务数据的姓名特征识别系统，其特征在于，包括以下几个步骤实现：

2.根据权利要求1中所述的基于政务数据的姓名特征识别系统，其特征在于，在步骤A中，所述属性描述是指由数据库导出的数据集中每列首行元素。

3.根据权利要求1中所述的基于政务数据的姓名特征识别系统，其特征在于，在步骤B中，所述新的数据集是指所述20%--30%的所述政务数据集。

4.根据权利要求1中所述的基于政务数据的姓名特征识别系统，其特征在于，在步骤B中，若所述匹配率小于默认匹配率，则所述属性预测率置为0；若所述匹配率大于或等于默认匹配率，则输出所述匹配率；所述默认匹配率在60%--65%之间。

5.根据权利要求1中所述的基于政务数据的姓名特征识别系统，其特征在于，若所述字符元组与所述自定义姓名模型在一簇，则所述属性权值置为默认属性权值；若所述字符元组与所述自定义姓名模型未在一簇，则所述属性权值置0。

6.根据权利要求5中所述的基于政务数据的姓名特征识别系统，其特征在于，所述默认属性权值在0.75—0.85之间。

7.根据权利要求1中所述的基于政务数据的姓名特征识别系统，其特征在于，所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。

8.根据权利要求7中所述的基于政务数据的姓名特征识别系统，其特征在于，所述若干个梯队的姓氏数量差在100—200个之间。

9.根据权利要求1或8中所述的基于政务数据的姓名特征识别系统，其特征在于，需要匹配的所述字段与所述现有姓氏表匹配顺序为，

10.根据权利要求1中所述的基于政务数据的姓名特征识别系统，其特征在于，在步骤C中，所述一定计算公式是指，属性预测率=属性权值×100%+匹配率×100%。