CN110609928A - 基于政务数据的姓名特征识别系统 - Google Patents

基于政务数据的姓名特征识别系统 Download PDF

Info

Publication number
CN110609928A
CN110609928A CN201910801931.4A CN201910801931A CN110609928A CN 110609928 A CN110609928 A CN 110609928A CN 201910801931 A CN201910801931 A CN 201910801931A CN 110609928 A CN110609928 A CN 110609928A
Authority
CN
China
Prior art keywords
data
matching
data set
attribute
government
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910801931.4A
Other languages
English (en)
Inventor
华岗
王华飞
徐振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Zhongshu Yunchuang Information Technology Co Ltd
Ningbo Smart City Planning Standard Development Research Institute
Original Assignee
Ningbo Zhongshu Yunchuang Information Technology Co Ltd
Ningbo Smart City Planning Standard Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Zhongshu Yunchuang Information Technology Co Ltd, Ningbo Smart City Planning Standard Development Research Institute filed Critical Ningbo Zhongshu Yunchuang Information Technology Co Ltd
Priority to CN201910801931.4A priority Critical patent/CN110609928A/zh
Publication of CN110609928A publication Critical patent/CN110609928A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

基于政务数据的姓名特征识别系统,包括以下几个步骤实现:A:判定和识别每列数据是否包含有属性描述;B:提取所述属性描述作为该列数据的标签,进行聚类测试,得出属性权值;提取该列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;C:得出属性预测率。与现有技术相比,本发明的有益效果是:本发明所述系统可获取政务数据集中的姓名属性描述,通过对姓名属性描述与自定义姓名模型的聚类测试和对随机提取政务数据集的部分数据与现有姓氏表的匹配,计算出属性预测率,本发明所述系统能够在海量且杂乱的政务数据中识别政务数据中的姓名特征,并将姓名提炼归纳,提高政务数据的处理效率。

Description

基于政务数据的姓名特征识别系统
技术领域
本发明涉及姓名特征识别系统,尤其涉及基于政务数据的姓名特征识别系统。
背景技术
政务数据包含了信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重点领域的数据;政府手中的数据资源更像是一座沉睡的“钻石矿”,应用前景不可估量。政府利用大数据实现治理现代化,要将满足人民利益的根本需求作为立足点、出发点。
但在海量的政务数据中,存在着很多命名不一致而属性一致的杂乱数据,在政务数据的提取、归类过程中带来了巨大的不便,极大地降低了政务数据处理的效率。
发明内容
本发明所要解决的技术问题是提供了基于政务数据的姓名特征识别系统,本发明所述系统能够在海量且杂乱的政务数据中识别政务数据中的姓名特征,提高政务数据的处理效率。
基于政务数据的姓名特征识别系统,包括以下几个步骤实现:
步骤A:收集政务数据形成政务数据集,判定和识别所述政务数据集的每列数据是否包含有属性描述;
步骤B:若所述政务数据集每列数据均包含属性描述,随机提取所述属性描述作为该列数据的标签,所述标签拆分成字符元组并与自定义姓名模型进行聚类测试,得出属性权值;提取该列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
若所述政务数据集每列数据集均未包含属性描述,则直接随机提取所述政务数据集各列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
步骤C:根据所述匹配率与所述属性权值以一定计算公式得出属性预测率。
上述技术方案中,更进一步的是,在步骤A中,所述属性描述是指由数据库导出的数据集中每列首行元素;所述由数据库导出的数据集的每列首行元素,所述每列首行元素含有可识别的特征,提高了识别率和准确率,使得本发明所述姓名特征识别系统更加精准。
上述技术方案中,更进一步的是,在步骤B中,所述新的数据集是指所述20%--30%的所述政务数据集;从所述政务数据集中随机选择合适的部分比例数据进行测试,使得随机提取的所述数据集是为了进行数据测试的,而随机提取的所述数据具有代表性,大大的提升所述系统的准确率;还节省了运算器的资源,防止系统不必要的运算和内存消耗,提高本发明所述系统运行效率。
上述技术方案中,更进一步的是,在步骤B中,若所述匹配率小于默认匹配率,则所述属性预测率置为0;若所述匹配率大于或等于默认匹配率,则输出所述匹配率;所述默认匹配率在60%--65%之间。
上述技术方案中,更进一步的是,若所述字符元组与所述自定义姓名模型在一簇,则所述属性权值置为默认属性权值;若所述字符元组与所述自定义姓名模型未在一簇,则所述属性权值置0。
上述技术方案中,更进一步的是,所述默认属性权值在0.75—0.85之间。
上述技术方案中,更进一步的是,所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。
上述技术方案中,更进一步的是,所述若干个梯队的姓氏数量差在100—200个之间。
上述技术方案中,更进一步的是,需要匹配的所述字段与所述现有姓氏表匹配顺序为,
先与所述第一梯队匹配,若需要匹配的所述字段与所述第一梯队存在匹配项,则结束,若需要匹配的所述字段与所述第一梯队不存在匹配项,则再与所述第二梯队匹配;
若需要匹配的所述字段与所述第二梯队存在匹配项,则结束,若需要匹配的所述字段与所述第二梯队不存在匹配项,再与所述第三梯队匹配;
直至需要匹配的所述字段与所述第n梯队存在匹配项,则结束,若需要匹配的所述字段与所述第n梯队不存在匹配项,则需要匹配的所述字段与现有姓氏表不存在匹配项。
将所述现有姓氏表按照姓氏占中国人口比例排列,减少不必要的匹配项,提高匹配速率。
上述技术方案中,更进一步的是,在步骤C中,所述一定计算公式是指,属性预测率=属性权值×100%+匹配率×100%。利用所述属性权值和所述匹配率的联合计算得到所述属性预测率,进一步提高了本发明所属系统的准确率。
与现有技术相比,本发明的有益效果是:由于本发明所述系统可获取政务数据集中的姓名属性描述,再随机提取政务数据集的部分数据,通过对所述姓名属性描述与自定义姓名模型的聚类测试和对随机提取政务数据集的部分数据与现有姓氏表的匹配,计算出属性预测率,本发明所述系统能够在海量且杂乱的政务数据中识别政务数据中的姓名特征,并将姓名提炼归纳,提高政务数据的处理效率。
附图说明
图1为本发明所述系统识别姓名特征的流程图。
图2为本发明所述系统中含属性描述的政务数据集和不含属性描述的政务数据集示例表图。
图3为本发明所述系统中提取20%的政务数据形成新的数据集示例表图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
如图1--3所述,基于政务数据的姓名特征识别系统,包括以下几个步骤实现:
步骤A:收集政务数据形成政务数据集,判定和识别所述政务数据集的每列数据是否包含有属性描述;
步骤B:若所述政务数据集每列数据均包含属性描述,随机提取所述属性描述作为该列数据的标签,所述标签拆分成字符元组并与自定义姓名模型进行聚类测试,得出属性权值;提取该列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
若所述政务数据集每列数据集均未包含属性描述,则直接随机提取所述政务数据集各列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
步骤C:根据所述匹配率与所述属性权值以一定计算公式得出属性预测率。
在步骤A中,所述属性描述是指由数据库导出的数据集中每列首行元素。
若数据集有数据库导出,属性表头含有可识别的特征;所述可是别的特征即为所述属性描述,所述属性描述包括,例如:“姓名”、“name”、“Name”、“用户”、“user”、“User”、“username”、“Username”;若数据集来自其他数据的收集与截取,默认该数据集不带属性描述,如图2。
在步骤B中,所述新的数据集是指所述20%--30%的所述政务数据集;为了防止系统不必要的运算和内存消耗,科学地,从所述政务数据集中随机选择部分比例数据进行测试即可;优选的,数据集的随机选择比例为20%--30%,本发明默认为20%。
若数据集来自其他数据的收集与截取,默认该数据集不带属性描述,所述政务数据不含有属性描述的情况下,则直接随机提取所述政务数据集中各列数据的20%形成新的数据集,考虑到复姓的可能,提取所述新数据集字段中的第一字段和第二字段,如图3中提取“张”、提取“李”、“李家”、提取“欧”、“欧阳”与所述现有姓氏表进行匹配;得出匹配率。
在步骤B中,若所述匹配率小于默认匹配率,则所述属性预测率置为0;若所述匹配率大于或等于默认匹配率,则输出所述匹配率;所述默认匹配率在60%--65%之间。
由于匹配率会存在一定的误差,所述匹配率达到系统设置的“合格线”即可,优选的匹配率达到60%即可。
若数据集有数据库导出,属性表头含有可识别的特征即存在属性描述,则提取所述属性描述作为该列数据的标签;将所述标签拆分成字符元组,例如:若所述属性描述为“姓名”,则拆分成“姓”、“名”字符元组;若所述属性描述为“user”,则拆分成“u”、“s”、“e”、“r”字符元组;再将所述拆分后的字符元组与所述自定义姓名模型进行聚类测试。
所述自定义姓名模型包括:“姓名”、“姓”、“名”、“name”、“Name”、“N”、“n”、“a”、“m”、“e”、“用户”、“用”、“户”、“user”、“User”、“username”、“Username”、“U”、“u”、“s”、“r”。
聚类模型测试下,自动分散成的各个簇。
若所述字符元组与所述自定义姓名模型在一簇,则所述属性权值置为默认属性权值;若所述字符元组与所述自定义姓名模型未在一簇,则所述属性权值置0。
所述默认属性权值在0.75—0.85之间。所述属性权值在0.75-0.85之间,本发明默认为0.8。
所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。本发明选取的所述梯队数量为3个,第一梯队、第二梯队和第三梯队;当然也可选取其他数量作为所述梯队数量。
所述现有姓氏表进行姓氏排列的依据为“新百家姓”(2019年1月,公安部户政管理研究中心依托全世界最大、覆盖全国近14亿人口的人口信息系统,采用大数据技术,对2018年公安机关登记的全国姓氏情况进行了统计分析,发布了2018年“百家姓”);
所述第一梯队包括所述“新百家姓”前三分之一姓氏,所述第三梯队包括所述“新百家姓”后三分之一姓氏,所述第二梯队包括所述“新百家姓”剩余姓氏。
所述若干个梯队的姓氏数量差在100—200个之间;所述第一梯队中姓氏数量在2150—2200个之间,所述第二梯队中姓氏数量在2050—2100个之间,所述第三梯队中姓氏数量在1950—2000个之间。
需要匹配的所述字段与所述现有姓氏表匹配顺序为,先与所述第一梯队匹配,若需要匹配的所述字段与所述第一梯队存在匹配项,则结束,若需要匹配的所述字段与所述第一梯队不存在匹配项,则再与所述第二梯队匹配;
若需要匹配的所述字段与所述第二梯队存在匹配项,则结束,若需要匹配的所述字段与所述第二梯队不存在匹配项,再与所述第三梯队匹配;
直至需要匹配的所述字段与所述第n梯队存在匹配项,则结束,若需要匹配的所述字段与所述第n梯队不存在匹配项,则需要匹配的所述字段与现有姓氏表不存在匹配项。
在步骤C中,所述一定计算公式是指,属性预测率=属性权值×100%+匹配率×100%。
以下为本发明所述系统识姓名特征的流程说明,具体为,
政务数据包括若干列数据,例如,包括:name、sex、tel、add(命名不限于本实施例中的命名,也可以为姓名、性别、电话、地址)
若所述政务数据集每列数据均包含属性描述;若此处政务数据的属性描述为“姓名”,则所述属性描述“姓名”作为该列数据的标签,将标签拆分为“姓”、“名”的字符元组,再将所述“姓”、“名”的字符元组与所自定义姓名模型(所述自定义姓名模型包括:“姓名”、“姓”、“名”、“name”、“Name”、“N”、“n”、“a”、“m”、“e”、“用户”、“用”、“户”、“user”、“User”、“username”、“Username”、“U”、“u”、“s”、“r”)进行聚类测试,显而易见,当前拆分的字符元组与所述自定义姓名模型在一簇(说明该列数据的属性为姓名的可能性大),则将所述属性权值置为0.8;再从提取该列数据中20%的数据形成新的数据集;提取字段中第一字符和第二字符与所述现有姓氏表匹配,即如图3中“张”、提取“李”、“李家”、提取“欧”、“欧阳”与所述现有姓氏表进行匹配;所述“张”姓、“李”姓为中国大姓,在所述第一梯队中匹配到匹配项即停止继续匹配,所述“欧阳”姓则在所述第二梯队中匹配到匹配项即停止匹配;得出匹配率,若为80%;则根据公式属性预测率=属性权值×100%+匹配率×100%计算出属性预测率;
若此处政务数据的属性描述为“性别”,则所述属性描述“性别”作为该列数据的标签,将所述标签拆分为“性”、“别”的字符元组,再将所述“性”、“别”的字符元组与所自定义姓名模型(所述自定义姓名模型包括:“姓名”、“姓”、“名”、“name”、“Name”、“N”、“n”、“a”、“m”、“e”、“用户”、“用”、“户”、“user”、“User”、“username”、“Username”、“U”、“u”、“s”、“r”)进行聚类测试,显而易见,当前拆分的字符元组与所述自定义姓名模型不在一簇(说明该列数据的属性为姓名的可能性小),则将所述属性权值置为0;再从提取该列数据中20%的数据形成新的数据集;提取字段中第一字符和第二字符与所述现有姓氏表匹配,即如图3中“张”、提取“李”、“李家”、提取“欧”、“欧阳”与所述现有姓氏表进行匹配;所述“张”姓、“李”姓为中国大姓,在所述第一梯队中匹配到匹配项即停止继续匹配,所述“欧阳”姓则在所述第二梯队中匹配到匹配项即停止匹配;得出匹配率低于60%;则属性预测率置0;
若所述政务数据集每列数据均不包含属性描述,则直接从提取所述政务数据集各列数据中20%数据形成新的数据集;提取字段中第一字符和第二字符与所述现有姓氏表匹配,得出匹配率(若匹配率不足60%,则所述属性预测率置0),根据公式属性预测率=属性权值×100%+匹配率×100%计算出属性预测率。
在本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.基于政务数据的姓名特征识别系统,其特征在于,包括以下几个步骤实现:
步骤A:收集政务数据形成政务数据集,判定和识别所述政务数据集的每列数据是否包含有属性描述;
步骤B:若所述政务数据集每列数据均包含属性描述,随机提取所述属性描述作为该列数据的标签,所述标签拆分成字符元组并与自定义姓名模型进行聚类测试,得出属性权值;提取该列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
若所述政务数据集每列数据集均未包含属性描述,则直接随机提取所述政务数据集各列数据中若干数据形成新的数据集,所述新的数据集中的字段进行字符提取并与现有姓氏表进行匹配,得出匹配率;
步骤C:根据所述匹配率与所述属性权值以一定计算公式得出属性预测率。
2.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤A中,所述属性描述是指由数据库导出的数据集中每列首行元素。
3.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤B中,所述新的数据集是指所述20%--30%的所述政务数据集。
4.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤B中,若所述匹配率小于默认匹配率,则所述属性预测率置为0;若所述匹配率大于或等于默认匹配率,则输出所述匹配率;所述默认匹配率在60%--65%之间。
5.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,若所述字符元组与所述自定义姓名模型在一簇,则所述属性权值置为默认属性权值;若所述字符元组与所述自定义姓名模型未在一簇,则所述属性权值置0。
6.根据权利要求5中所述的基于政务数据的姓名特征识别系统,其特征在于,所述默认属性权值在0.75—0.85之间。
7.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,所述现有姓氏表按照姓氏占中国人口比例从大到小分为若干个梯队。
8.根据权利要求7中所述的基于政务数据的姓名特征识别系统,其特征在于,所述若干个梯队的姓氏数量差在100—200个之间。
9.根据权利要求1或8中所述的基于政务数据的姓名特征识别系统,其特征在于,需要匹配的所述字段与所述现有姓氏表匹配顺序为,
先与所述第一梯队匹配,若需要匹配的所述字段与所述第一梯队存在匹配项,则结束,若需要匹配的所述字段与所述第一梯队不存在匹配项,则再与所述第二梯队匹配;
若需要匹配的所述字段与所述第二梯队存在匹配项,则结束,若需要匹配的所述字段与所述第二梯队不存在匹配项,再与所述第三梯队匹配;
直至需要匹配的所述字段与所述第n梯队存在匹配项,则结束,若需要匹配的所述字段与所述第n梯队不存在匹配项,则需要匹配的所述字段与现有姓氏表不存在匹配项。
10.根据权利要求1中所述的基于政务数据的姓名特征识别系统,其特征在于,在步骤C中,所述一定计算公式是指,属性预测率=属性权值×100%+匹配率×100%。
CN201910801931.4A 2019-08-28 2019-08-28 基于政务数据的姓名特征识别系统 Pending CN110609928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910801931.4A CN110609928A (zh) 2019-08-28 2019-08-28 基于政务数据的姓名特征识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910801931.4A CN110609928A (zh) 2019-08-28 2019-08-28 基于政务数据的姓名特征识别系统

Publications (1)

Publication Number Publication Date
CN110609928A true CN110609928A (zh) 2019-12-24

Family

ID=68890424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910801931.4A Pending CN110609928A (zh) 2019-08-28 2019-08-28 基于政务数据的姓名特征识别系统

Country Status (1)

Country Link
CN (1) CN110609928A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761665A (en) * 1995-10-31 1998-06-02 Pitney Bowes Inc. Method of automatic database field identification for postal coding
US20140223284A1 (en) * 2013-02-01 2014-08-07 Brokersavant, Inc. Machine learning data annotation apparatuses, methods and systems
CN104731978A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 中文姓名数据的发现与分类方法
CN105573971A (zh) * 2014-10-10 2016-05-11 富士通株式会社 表格重构装置和方法
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761665A (en) * 1995-10-31 1998-06-02 Pitney Bowes Inc. Method of automatic database field identification for postal coding
US20140223284A1 (en) * 2013-02-01 2014-08-07 Brokersavant, Inc. Machine learning data annotation apparatuses, methods and systems
CN105573971A (zh) * 2014-10-10 2016-05-11 富士通株式会社 表格重构装置和方法
CN104731978A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 中文姓名数据的发现与分类方法
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置

Similar Documents

Publication Publication Date Title
CN106503558B (zh) 一种基于社团结构分析的Android恶意代码检测方法
CN108776671A (zh) 一种网络舆情监控系统及方法
CN106897285B (zh) 数据要素抽取分析系统及数据要素抽取分析方法
CN107633084A (zh) 基于自媒体的舆情管控系统及其方法
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN105426762A (zh) 一种android应用程序恶意性的静态检测方法
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN108268886A (zh) 用于识别外挂操作的方法及系统
CN110377605A (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN116662282B (zh) 一种基于多维数据的服务数据处理共享系统
CN105095436A (zh) 数据源数据自动建模方法
WO2023082406A1 (zh) 基于联邦学习的脑电信号分类模型训练方法及装置
CN113989859B (zh) 一种防刷机设备指纹相似度识别方法和装置
Huang et al. On the understanding of interdependency of mobile app usage
CN110609928A (zh) 基于政务数据的姓名特征识别系统
Zhou et al. Gab: The alt-right social media platform
US20160292258A1 (en) Method and apparatus for filtering out low-frequency click, computer program, and computer readable medium
CN110580301A (zh) 一种高效商标检索方法、系统及平台
CN110162712B (zh) 事件获取方法、装置、设备及存储介质
US10838973B2 (en) Processing datasets of varying schemas from tenants
CN103970727B (zh) 基于话题的反作弊方法、装置和服务器
CN113505863B (zh) 基于级联均值向量综合评分的图片多级分类方法及系统
Saraee et al. Easyminer: Data mining in medical databases
CN115048379A (zh) 统计方法、终端设备及计算机可读存储介质
CN112650925A (zh) 一种用于一卡通的app信息推送系统、方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191224

RJ01 Rejection of invention patent application after publication