CN114863430A - 一种人口信息自动纠错方法、设备及其存储介质 - Google Patents

一种人口信息自动纠错方法、设备及其存储介质 Download PDF

Info

Publication number
CN114863430A
CN114863430A CN202210495042.1A CN202210495042A CN114863430A CN 114863430 A CN114863430 A CN 114863430A CN 202210495042 A CN202210495042 A CN 202210495042A CN 114863430 A CN114863430 A CN 114863430A
Authority
CN
China
Prior art keywords
information
population
error
probability
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210495042.1A
Other languages
English (en)
Inventor
罗林涛
邹斌
张建国
陈剑延
王翔龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Herocheer Electronic Technology Co ltd
Original Assignee
Xiamen Herocheer Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Herocheer Electronic Technology Co ltd filed Critical Xiamen Herocheer Electronic Technology Co ltd
Priority to CN202210495042.1A priority Critical patent/CN114863430A/zh
Publication of CN114863430A publication Critical patent/CN114863430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及计算机技术领域,特别涉及人口信息自动纠错方法、设备及其存储介质,通过OCR识别技术,对居民身份证进行扫码或对居民身份证照片进行识别。获取居民身份信息。减少录入人手动录入信息项。同时通过OCR获取到的居民身份证号,去部级人口系统查询回居民全量的信息项。用于数据采集项的补充。其中,部级接口查询采用了国密SM2加密算法,确保数据传输的安全性。采用人工智能算法,根据对错误类型进行训练并最终得到AI人口信息自动纠错模型,过本发明建立的训练模型,可以高效且高命中率的筛查出录入人录入信息中错误部分,加以修改纠正。提高录入人采集实有人口数据的质量。

Description

一种人口信息自动纠错方法、设备及其存储介质
技术领域
本发明涉及新一代信息技术领域,特别涉及一种人口信息自动纠错方法、设备及其存储介质。
背景技术
专利申请号CN201510626896.9的发明专利中,公开了一种基于电子法定身份证件网络映射证件的网络法定身份管理系统,包括交互进行信息传送和验证的网络映射证件签发机构、网络映射证件验证机构、网络业务系统和网络映射证件持有人。该方案中,通过所述网络映射证件验证机构对网络映射证件要素进行认证,包括证件实体认证、人证同一性认证和基本信息核验。所述基本信息核验包括通过基本信息核验要素,核实业务系统中包括通过手工输入获得的个人信息是否属于网络映射证件合法持有人。可见该方法中对于人口信息与证件信息是否匹配还是需要辅助手工输入来核验。手工输入增加采集时间,人口信息采集效率低,而手工输入容易存在错误,在没有纠错机制的前提下,会造成数据污染。
专利申请号201611256167.X公开了一种用于人脸比对的多特征融合识别算法,包括模板数据库和学习民警录入信息集合,所述模板数据库对不同业务模块配置一种或多种算法进行建模、比对、识别应用的能力;分别设定算法权重、分值和结果合并规则,得到最终识别分值,同时储存到学习民警录入信息集合;所述学习民警录入信息集合针对训练民警录入信息集合和实际应用比对结果的命中进行统计学习,动态调整各算法权重。发挥各种算法的长处,提高人脸识别的准确度和实战效果。该申请同时连接现有各种业务人像库,可无缝链接如公安机关的现有人口综合信息系统、全国在逃人员库、公安机关布控人员库等各部门人员库,以快速查询详细资料鉴别身份。虽然该方法能够解决人口信息甄别和匹配,但是其人脸算法较为复杂,且人脸识别的采集样本中重要因素是人脸图像或视频,数据处理量大,数据处理效率低,该方法并不适合本发明的应用场景。
专利申请号201810844065.2公开了基于区块链的居住证信息处理方法及平台,根据多个接入者生成居住证区块链,多个接入者包括公安机构、居住证申请者、社保机构、房产交易机构和税务申请机构;接收公安机构录入的居住证信息、接收社保机构录入的社保信息、房产交易机构录入的购房信息和税务申请机构录入的纳税信息,居住证信息包括居住证申请者标识,社保信息、购房信息和纳税信息与所述居住证申请者标识对应;根据居住证信息、社保信息、购房信息和纳税信息生成区块信息。其通过多个接入者生成居住证区块链,提升居住证信息的处理效率和共享效率,但其接入者录入的信息可能存在误差,造成后续数据污染。
发明内容
为了解决上述技术问题,需要提供一种人口信息自动纠错方法、设备及其存储介质,解决上述人口信息采集误差大、无纠错机制、人口信息采集和处理效率较低的技术问题。
为实现上述目的,本发明提供了一种人口信息自动纠错方法,包括:
通过手机端应用程序集成OCR组件,通过拍照或者扫码的形式识别技术采集人口身份证信息,通过国密SM2加密部级人口查询接口回传基于人口身份证信息的其他人口信息,通过手机地图定位采集并标记居住地址信息,构建第一人工信息录入信息集合;
对第一人工信息录入信息集合进行过滤筛选,构建错误类型数据集 F1,F2,...Fn,并对该错误类型数据集进行特征提取、特征预处理和特征降维处理,
将错误类型数据集F1,F2,...Fn中特征进行溯源,得到特征在录入信息集合中出现的概率P(F1),P(F2),...P(Fn);
根据特征在录入信息集合中出现的概率、错误类型数据集构成样本集,并将样本集划分为训练集和测试集,
通过贝叶斯模型对训练集进行模型训练,生成朴素贝叶斯分类器模型
Figure RE-GDA0003715131910000031
并引入拉普拉斯平滑系数
Figure RE-GDA0003715131910000032
对朴素贝叶斯分类器模型进行参数调整,生成最终人口信息自动纠错模型:
Figure RE-GDA0003715131910000033
其中,P(C/F1,F2,...)为已知错误类型F1,F2,...Fn情况下C错误类型的概率;P(F1,F2,.../C)P(C)为已知C错误类型概率,F1,F2,...Fn概率P(F1),P(F2),...P(Fn)与C错误类型概率的乘积;P(F1,F2,...)为数据中已知录入错误类型F1,F2,...Fn的概率, n∈(10,+∞);
使用训练好的人口信息自动纠错模型输入测试集进行预测。
进一步的,构建第一人工信息录入信息集合,还包括采集拥有车辆的群众的车辆信息以及同住人员的关系。
进一步的,对错误类型数据集进行特征提取、特征预处理和特征降维处理, 具体包括:
第一步:
建立数据集,将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”等情况错误类型收集,归纳数据集,用于训练算法模型,并在模型检验时使用数据集数据测试,用于评估模型是否有效;
第二步:特征提取:
采用字典提取(特征离散化)和文本特征提取想结合的方式,将各类错误类型如:“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”进行特征具象化,将文字转换为可用于机器学习的数字特征值。将“错别字”设置为“10”,“空格”设置为“20”,“特殊字符”设置为“30”,“字典选取错误”设置为“40”,“前后信息不一致”设置为“50”。
第三步:特征预处理:
将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”特征对应的特征值“10”、“20”、“30”、“40”、“50”进行特征预处理。采用线性函数归一化进行特征提取,对原始数据进行线性变换,映射到[0,1]的范围内,实现对原始错误数据概率等比缩放,根据现有历史样本分别将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”概率映射为“0.1490”、“0.0734”、“0.0690”、“0.5232”和“0.1851”。
第四步:特征降维:
通过将错误类型比如:错别字对应“10”中的同音错别字“10-1”、五笔错别字“10-2”、9宫格相连错别字“10-3”、26键相连错别字“10-4”二维降低到单数字的一维,统一为错别字类别“10”以及概率映射为“0.1490”,方便模型建立。
进一步的,所述归一方程如下:
Figure RE-GDA0003715131910000041
其中Xmin和Xmax是错误概率最小和最大值,Xnorm为当前需要特征预处理的错误类型数值。
进一步的,所述OCR识别技术具体为:手机端应用程序集成OCR组件,通过拍照或者扫码的形式识别技术采集人口身份证信息。
进一步的,所述人口身份证信息包括身份证照片或其他文字信息。
进一步的,国密SM2加密部级人口查询接口是基于国家密码管理局于2010 年12月17日发布的椭圆曲线公钥密码算法实现的。随着密码技术和计算机技术的发展,目前常用的1024位RSA算法面临严重的安全威胁,我们国家密码管理部门经过研究,决定采用SM2椭圆曲线算法替换RSA算法。对比RSA算法, SM2性能更优更安全:密码复杂度高、处理速度快、机器性能消耗更小等优点。
进一步的,所述居住地址信息是通过移动终端、GPS、北斗得到的人员当前所处坐标的经度和纬度信息。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的人口信息自动纠错方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上述任一项所述的人口信息自动纠错方法。
上述技术方案具有以下有益效果:
1、本发明采用人工智能算法,根据对错误类型进行训练并最终得到AI人口信息自动纠错模型,过本发明建立的训练模型,可以高效且高命中率的筛查出录入人录入信息中错误部分,加以修改纠正。提高录入人采集实有人口数据的质量。
2、本发明通过OCR识别技术,对居民身份证进行扫码或对居民身份证照片进行识别。获取居民身份信息。减少录入人手动录入信息项。同时通过OCR获取到的居民身份证号,去部级人口系统查询回居民全量的信息项。用于数据采集项的补充。其中,部级接口查询采用了国密SM2加密算法,确保数据传输的安全性。
附图说明
图1为具体实施方式人口信息自动纠错模型示意图。
图2为未采用人口信息自动纠错模型的错误率
图3为采用人口信息自动纠错模型后的错误率。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
实施例1
参考图1-3所示,本发明提供了一种人口信息自动纠错方法,包括:
通过OCR识别技术采集人口身份证信息,所述人口身份证信息包括身份证照片或其他文字信息。通过国密SM2加密部级人口查询接口回传基于人口身份证信息的其他人口信息,通过手机地图定位采集并标记居住地址信息,所述居住地址信息是通过移动终端、GPS、北斗得到的人员当前所处坐标的经度和纬度信息,还包括采集拥有车辆的群众的车辆信息以及同住人员的关系,构建第一人工信息录入信息集合。
所述OCR识别技术具体为:手机端应用程序集成OCR组件,通过拍照或者扫码的形式识别技术采集人口身份证信息。SM2是国家密码管理局于2010年12 月17日发布的椭圆曲线公钥密码算法。随着密码技术和计算机技术的发展,目前常用的1024位RSA算法面临严重的安全威胁,我们国家密码管理部门经过研究,决定采用SM2椭圆曲线算法替换RSA算法。对比RSA算法,SM2性能更优更安全:密码复杂度高、处理速度快、机器性能消耗更小等优点。
国密SM2加密部级人口查询接口是基于是国家密码管理局于2010年12月 17日发布的椭圆曲线公钥密码算法实现的。随着密码技术和计算机技术的发展,目前常用的1024位RSA算法面临严重的安全威胁,我们国家密码管理部门经过研究,决定采用SM2椭圆曲线算法替换RSA算法。对比RSA算法,SM2性能更优更安全:密码复杂度高、处理速度快、机器性能消耗更小等优点。
对第一人工信息录入信息集合进行过滤筛选,构建错误类型数据集F1,F2,...Fn,例如在本实施例中,定义错误数据类型有,“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”等情况。定义“错别字”、“空格”、“特殊字符”、“字典选取错误”、以及“前后信息不一致”错误类型分别设为F1,F2,F3,F4,F5,对应事件发生的概率为 P(F1),P(F2),P(F3),P(F4),P(F5),并对该错误类型数据集F1,F2,...Fn进行特征提取、特征预处理和特征降维处理,具体包括:
第一步:
建立数据集,将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”等情况错误类型收集,归纳数据集,用于训练算法模型,并在模型检验时使用数据集数据测试,用于评估模型是否有效;
第二步:特征提取:
采用字典提取(特征离散化)和文本特征提取想结合的方式,将各类错误类型如:“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”进行特征具象化,将文字转换为可用于机器学习的数字特征值。将“错别字”设置为“10”,“空格”设置为“20”,“特殊字符”设置为“30”,“字典选取错误”设置为“40”,“前后信息不一致”设置为“50”。
第三步:特征预处理:
将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”特征对应的特征值“10”、“20”、“30”、“40”、“50”进行特征预处理。采用线性函数归一化方程进行特征提取,对原始数据进行线性变换,映射到[0,1]的范围内,实现对原始错误数据概率等比缩放,根据现有历史样本分别将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”概率映射为“0.1490”、“0.0734”、“0.0690”、“0.5232”和“0.1851”。
第四步:特征降维:
通过将错误类型比如:错别字对应“10”中的同音错别字“10-1”、五笔错别字“10-2”、9宫格相连错别字“10-3”、26键相连错别字“10-4”二维降低到单数字的一维,统一为错别字类别“10”以及概率映射为“0.1490”,方便模型建立。
所述线性函数归一方程如下:
Figure RE-GDA0003715131910000081
其中Xmin和Xmax是错误概率最小和最大值,Xnorm为当前需要特征预处理的错误类型数值。
确立算法模型后,需要建立特征工程。特征工程顾名思义是指从原始数据创建特征的过程。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。由此可见特征工程同样重要。
将错误类型数据集F1,F2,...Fn中特征进行溯源,得到特征在录入信息集合中出现的概率P(F1),P(F2),...P(Fn);定义一新的错误类型为C,对应出错概率则因为 P(C),在已知“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”情况的概率为P(F1),P(F2),P(F3),P(F4),P(F5)情况下,则发生C错误的概率修正为P(C/F1,F2,F3,F4,F5)。
根据特征在录入信息集合中出现的概率、错误类型数据集构成样本集,并将样本集划分为训练集和测试集。
由此将贝叶斯公式:
Figure RE-GDA0003715131910000082
进行转换,
通过贝叶斯模型对训练集进行模型训练,生成朴素贝叶斯分类器模型
Figure RE-GDA0003715131910000083
各种错误类型理论都有存在可能性,不可能为 0。因此为了防止计算出来的错误类型概率为0,为此并引入拉普拉斯平滑系数
Figure RE-GDA0003715131910000091
对朴素贝叶斯分类器模型进行参数调整,生成最人口信息自动纠错模型为:
Figure RE-GDA0003715131910000092
该模型分为三个部分,P(C/F1,F2,...)为已知错误类型F1,F2,...Fn情况下C错误类型的概率;P(F1,F2,.../C)P(C)为已知C错误类型概率,F1,F2,...Fn概率 P(F1),P(F2),...P(Fn)与C错误类型概率的乘积;P(F1,F2,...)为数据中已知录入错误类型F1,F2,...Fn的概率,n∈(10,+∞);
人口信息自动纠错模型输出转存储(DUMP),使用训练好的人口信息自动纠错模型输入测试集进行预测。
本实施例还公开了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的人口信息自动纠错方法。
本实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上述任一项所述的人口信息自动纠错方法。
参考图2和图3所示,分别示意了没有采用本实施例1的人口信息自动纠错模型以及采用了人口信息自动纠错模型对错误类型进行处理的对比。通过图2 和图3的可以看出,采用本实施的模型算法处理后,录入人录入数据的错误率总体从降低了2个数量级。错别字、空格和特殊字符问题直接杜绝,不再出现错误,通过本实施例建立的训练模型,可以高效且高命中率的筛查出录入人录入信息中错误部分,加以修改纠正。有效提高录入人采集实有人口数据的质量。
本实施例通过机器学习中朴素贝叶斯公式建立训练模型,对录入人录入错误数据进行建模,达到对录入错误数据进行纠错的效果。
本实施例通过OCR技术识别身份证扫描件或照片获取身份证信息,通过国密SM2加密的部级人口查询接口补充信息项。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (10)

1.一种人口信息自动纠错方法,其特征在于,包括:
通过OCR识别技术采集人口身份证信息,通过国密SM2加密部级人口查询接口回传基于人口身份证信息的其他人口信息,通过地图定位采集并标记居住地址信息,构建第一人工信息录入信息集合;
对第一人工信息录入信息集合进行过滤筛选,构建错误类型数据集F1,F2,...Fn,并对该错误类型数据集F1,F2,...Fn进行特征提取、特征预处理和特征降维处理,
将错误类型数据集F1,F2,...Fn中特征进行溯源,得到特征在录入信息集合中出现的概率P(F1),P(F2),...P(Fn);
根据特征在录入信息集合中出现的概率、错误类型数据集构成样本集,并将样本集划分为训练集和测试集,
通过贝叶斯模型对训练集进行模型训练,生成朴素贝叶斯分类器模型
Figure RE-FDA0003715131900000011
并引入拉普拉斯平滑系数
Figure RE-FDA0003715131900000012
对朴素贝叶斯分类器模型进行参数调整,得到人口信息自动纠错模型:
Figure RE-FDA0003715131900000013
其中,P(C/F1,F2,...)为已知错误类型F1,F2,...Fn情况下C错误类型的概率;P(F1,F2,.../C)P(C)为已知C错误类型概率,F1,F2,...Fn概率P(F1),P(F2),...P(Fn)与C错误类型概率的乘积;P(F1,F2,...)为数据中已知录入错误类型F1,F2,...Fn的概率,n∈(10,+∞);
使用训练好的人口信息自动纠错模型输入测试集进行预测。
2.如权利要求1所述的人口信息自动纠错方法,其特征在于,构建第一人工信息录入信息集合,还包括采集拥有车辆的群众的车辆信息以及同住人员的关系。
3.如权利要求2所述的人口信息自动纠错方法,其特征在于,对错误类型数据集进行特征提取、特征预处理和特征降维处理,具体包括:
第一步:
建立数据集,将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”等情况错误类型收集,归纳数据集,用于训练算法模型,并在模型检验时使用数据集数据测试,用于评估模型是否有效;
第二步:特征提取:
采用字典提取和文本特征提取想结合的方式,将各类错误类型如:“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”进行特征具象化,将文字转换为可用于机器学习的数字特征值;
第三步:特征预处理:
将“错别字”、“空格”、“特殊字符”、“字典选取错误”、“前后信息不一致”特征对应的特征值进行特征预处理,采用线性函数归一化方程进行特征提取,对原始数据进行线性变换,映射到[0,1]的范围内,实现对原始错误数据概率等比缩放;
第四步:特征降维:
通过将错误类型从二维降低到单数字的一维,方便模型建立。
4.如权利要求3所述的人口信息自动纠错方法,其特征在于,所述线性函数归一方程如下:
Figure RE-FDA0003715131900000021
其中Xmin和Xmax是错误概率最小和最大值,Xnorm为当前需要特征预处理的错误类型数值。
5.如权利要求1所述的人口信息自动纠错方法,其特征在于,所述OCR识别技术具体为:手机端应用程序集成OCR组件,通过拍照或者扫码的形式识别技术采集人口身份证信息。
6.如权利要求1所述的人口信息自动纠错方法,其特征在于,所述人口身份证信息包括身份证照片或其他文字信息。
7.如权利要求1所述的人口信息自动纠错方法,其特征在于,国密SM2加密部级人口查询接口,是基于椭圆曲线公钥密码算法实现的。
8.如权利要求1所述的人口信息自动纠错方法,其特征在于,所述居住地址信息是通过移动终端、GPS、北斗得到的人员当前所处坐标的经度和纬度信息。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的人口信息自动纠错方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的人口信息自动纠错方法。
CN202210495042.1A 2022-05-07 2022-05-07 一种人口信息自动纠错方法、设备及其存储介质 Pending CN114863430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210495042.1A CN114863430A (zh) 2022-05-07 2022-05-07 一种人口信息自动纠错方法、设备及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210495042.1A CN114863430A (zh) 2022-05-07 2022-05-07 一种人口信息自动纠错方法、设备及其存储介质

Publications (1)

Publication Number Publication Date
CN114863430A true CN114863430A (zh) 2022-08-05

Family

ID=82636339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210495042.1A Pending CN114863430A (zh) 2022-05-07 2022-05-07 一种人口信息自动纠错方法、设备及其存储介质

Country Status (1)

Country Link
CN (1) CN114863430A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665909A (zh) * 2023-04-11 2023-08-29 北京宝通利达科技有限公司 一种基于大数据的保健信息处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665909A (zh) * 2023-04-11 2023-08-29 北京宝通利达科技有限公司 一种基于大数据的保健信息处理系统
CN116665909B (zh) * 2023-04-11 2024-05-24 柏瑞康(深圳)健康管理有限公司 一种基于大数据的保健信息处理系统

Similar Documents

Publication Publication Date Title
CN110009475B (zh) 风险稽核监察方法、装置、计算机设备及存储介质
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
DE112019000334T5 (de) Validieren der identität eines fernen benutzers durch vergleichen auf der grundlage von schwellenwerten
CN111625809B (zh) 数据授权方法及装置、电子设备、存储介质
US20220398573A1 (en) Machine learning classifier based on category modeling
CN111784498A (zh) 身份认证方法、装置、电子设备及存储介质
CN110502694A (zh) 基于大数据分析的律师推荐方法及相关设备
CN112949468A (zh) 人脸识别方法、装置、计算机设备和存储介质
CN106104572A (zh) 用于识别文档处理和业务工作流整合的系统和方法
CN114090985A (zh) 区块链中用户操作权限的设置方法、装置和电子设备
EP4150510A1 (en) System, method and computer program product for mitigating customer onboarding risk
CN111445058A (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111898548A (zh) 基于机器学习的访客身份认证方法、装置及计算机设备
CN108804672A (zh) 一种不动产信息管理方法及装置
CN114863430A (zh) 一种人口信息自动纠错方法、设备及其存储介质
CN113269179B (zh) 数据处理方法、装置、设备及存储介质
CN114492827A (zh) 基于区块链技术的联邦学习模型水印加固方法和应用
CN116205726B (zh) 一种贷款风险预测方法、装置、电子设备及存储介质
CN117150555B (zh) 一种结合人工智能的共享数据隐私处理方法
Krysovatyy et al. Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes
CN111091354A (zh) 基于大数据的不动产信息处理系统
CN113190858B (zh) 一种基于隐私保护的图像处理方法、系统、介质和设备
US11935331B2 (en) Methods and systems for real-time electronic verification of content with varying features in data-sparse computer environments
Diaz et al. Explainable offline automatic signature verifier to support forensic handwriting examiners
CN112132693A (zh) 交易验证方法、装置、计算机设备与计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination