CN110321350A - 一种基于数据修复和主动学习验证的生存认证方法及系统 - Google Patents

一种基于数据修复和主动学习验证的生存认证方法及系统 Download PDF

Info

Publication number
CN110321350A
CN110321350A CN201910543707.XA CN201910543707A CN110321350A CN 110321350 A CN110321350 A CN 110321350A CN 201910543707 A CN201910543707 A CN 201910543707A CN 110321350 A CN110321350 A CN 110321350A
Authority
CN
China
Prior art keywords
information
existence
sample
label
information database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910543707.XA
Other languages
English (en)
Other versions
CN110321350B (zh
Inventor
史玉良
任永健
郑永清
张坤
陈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910543707.XA priority Critical patent/CN110321350B/zh
Publication of CN110321350A publication Critical patent/CN110321350A/zh
Application granted granted Critical
Publication of CN110321350B publication Critical patent/CN110321350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/0008General problems related to the reading of electronic memory record carriers, independent of its reading method, e.g. power transfer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本公开公开了一种基于数据修复和主动学习验证的生存认证方法及系统;读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。

Description

一种基于数据修复和主动学习验证的生存认证方法及系统
技术领域
本公开涉及医保信息处理领域,特别是涉及一种基于数据修复和主动学习验证的生存认证方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
生存认证,全称退休人员生存认证,是伴随社会保险政策的实施而产生的一种需求。当前,国家规定退休人员每年需到当地的社保机构进行一次生存认证,即,退休人员需证明自己还健在、符合继续领取养老金的条件。生存认证的目的是防止或减轻由于养老金冒领行为而产生的养老金流失问题。
养老金冒领是指,一个领取养老金的退休人员死亡后,其家属由于故意或无意等原因未能及时向社保机构报告其死亡、并且继续领取养老金的行为。目前生存认证工作主要依靠人工服务完成,这导致了两个问题:
一、退休人员数量庞大,生存认证工作往往会耗费经办机构大量的人力资源和时间。进而导致了退休人员生存信息更新周期长(当前,国家规定退休人员每年只需进行一次生存认证)和养老金流失发现不及时的问题。
二、现阶段,生存认证需要全体退休人员配合社保机构的工作,这导致了社会成本的上升和社会资源的浪费。
发明人发现在实现生存认证的同时,存在以下技术问题需要解决:
第一,目前生存认证数据终端采集的数据不够全面,存在数据缺失的问题;
第二,目前生存认证数据终端采集的数据存在篡改或伪造的嫌疑,数据的真伪性缺乏有效的验证。
发明内容
为了解决现有技术的不足,本公开提供了一种基于数据修复和主动学习验证的生存认证方法及系统;
第一方面,本公开还提供了基于数据修复和主动学习验证的生存认证方法;
基于数据修复和主动学习验证的生存认证方法,包括:
读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
第二方面,本公开还提供了基于数据修复和主动学习验证的生存认证系统;
基于数据修复和主动学习验证的生存认证系统,包括:
读取模块,其被配置为读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
识别模块,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
数据补全模块,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
生存认证模块,其被配置为:利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
第三方面,本公开还提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述第一方面所述方法的步骤。
第五方面,本公开还提供了基于数据修复和主动学习验证的生存认证系统;
基于数据修复和主动学习验证的生存认证系统,包括:
医保卡读卡器,其被配置为:读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
人脸识别器,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
处理器,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
与现有技术相比,本公开的有益效果是:
可以实现缺失数据的修复;
可以实现数据真实性校验,保证数据的准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开实施例一提供的利用修复补全和验证更新后的生存认证信息数据库中的数据,实现生存认证方法流程图;
图2为本公开实施例一提供的基于主动学习的生存认证方法使用的特征;
图3为本公开实施例二提供的利用修复补全和验证更新后的生存认证信息数据库中的数据,实现生存认证系统功能框图;
图4(a)和图4(b)为本公开实施例一提供的基于不同样本选择函数进行样本选择的执行样例;
图5为本公开实施例一提供的生存认证模型的预测结果。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于数据修复和主动学习验证的生存认证方法;
基于数据修复和主动学习验证的生存认证方法,包括:
读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
作为一个或多个实施例,通过医保卡读卡器读取每张退休人员医保卡的信息;通过人脸识别器识别每个退休人员的人脸信息。
作为一个或多个实施例,所述对生存认证信息数据库的个人基本信息进行修复补全;具体步骤包括:
通过二代身份证读卡器读取二代身份证信息,所述二代身份证信息,包括个人身份证号和个人基本信息;利用获取的二代身份证信息,对生存认证信息数据库的个人基本信息进行修复补全。
作为一个或多个实施例,所述对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;具体步骤包括:
根据二代身份证信息从税务局服务器中获取职业信息和个人经济信息;利用获取的职业信息和个人经济信息,对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证。
作为一个或多个实施例,所述对生存认证信息数据库中的人脸信息进行真实性验证;具体步骤包括:
根据二代身份证信息从公安局服务器中获取人脸信息;利用获取的人脸信息对生存认证信息数据库中的人脸信息进行真实性验证。
作为一个或多个实施例,所述对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;具体步骤包括:
根据二代身份证信息从云服务器中获取患病历史信息和近期健康状况信息;利用获取的患病历史信息和近期健康状况信息,对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;所述云服务器定期从指定的各医院服务器中获取每个身份证号对应的患病历史信息和近期健康状况信息。
作为一个或多个实施例,如图1所示,所述利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证;具体步骤包括:训练阶段和应用阶段,其中训练阶段包括:步骤S1至步骤S4;应用阶段包括步骤S5;
S1:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;
S2:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;
S3:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;
如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;
如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;
如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;
S4:对于嫌疑样本集S,通过人工进行逐一认证。
S5:根据分类器M对数据集T中的样本进行分类。
作为一个或多个实施例,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;
样本选择函数:
其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′。
根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。
作为一个或多个实施例,从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,使用卡方检验筛选出卡方检验P值小于等于设定阈值的特征;对于卡方检验筛选出的特征使用斯皮尔曼相关系数进行分析,筛选出斯皮尔曼相关系数的值大于设定阈值的特征作为与生存认证关联度高的生存认证特征。
把退休人员的生存认证问题看做2分类问题。我们应用主动学习模型,根据样本选择函数选择嫌疑样本,并通过人工验证判断其真实的生存状态(即,是生存还是死亡),最终将真实生存状态为“死亡”的样本的标签修正为“死亡”,从而实现对死亡样本集的有效扩展。
作为一个或多个实施例,S1的具体案例包括:
基于某地级市的社保系统获取就医历史数据为应用实例,提取特征并构造了数据集。我们构造的特征集包含25个特征,如图1。该特征集的特征分为5种,分别刻画退休人员的基本信息、职业信息、经济状况、历史患病信息和近期(在本实施例中,为最近3个月)健康状况。从时间线的角度考虑,我们不仅描述了退休人员历史上最严重一次患病(特征名后面由字母“H”标记,例如,医院级别H),而且描述了最近一次患病(特征名后面由字母“L”标记,例如,医院级别L)。由于我们的医疗保险数据中包含的疾病ID多达数万,首先,我们根据ICD-10标准将所有疾病分为21个大类,进而又将所有疾病分为251个小类。
所构造特征包含连续型、有序分类和无序分类3类。为了度量每个特征与目标之间的相关性,首先,我们应用卡方检验对特征进行了分析。一般认为,如果卡方检验的P值小于或等于0.05,则认为该特征与目标显著相关。卡方检验的结果表明,我们所构造的25个特征均与目标显著相关,如表1所示。
表1.特征的卡方检验结果
为了分析每个特征的重要性,我们进一步使用斯皮尔曼相关系数分析连续型/有序型特征与目标之间的相关性。注意,由于表示性别的特征和3个职业相关的特征属于无序型特征,因此这4个特征未使用斯皮尔曼相关系数进行分析。图2中,图底部的刻度值即为斯皮尔曼相关系数值。斯皮尔曼相关系数的值越大,说明该特征越重要。
在本实施例中,分类目标的语义为“这个人是否会死亡”。由黑色纯色填充的矩形条表示该特征的值与目标成正相关,由斜线图案填充的矩形条表示该特征的值与目标成负相关。例如,对于特征“年龄”,其对应的黑色矩形条代表的语义为“人越年长,死亡概率越高”。对于特征“职工”,其斜线矩形条代表的语义为“职工类型的退休人员比居民类型的退休人员死亡概率低”。
作为一个或多个实施例,S2的具体案例包括:
训练集T′包含T中的全部死亡样本,并按照生存样本:死亡样本=2:1的原则对T中的生存样本进行欠采样。
作为一个或多个实施例,使用训练集T′训练分类器M,得到训练好的分类器M的具体案例包括:
在生存认证模型中,分类器M的任务是根据选好的特征,有效地对数据集进行分类。因此,分类器M与本公开的生存认证模型并不是紧密耦合的。我们可以在生存认证模型中应用不同的分类器。例如,逻辑回归、贝叶斯分类器、神经网络和随机森林等。除了选择单一的分类器,还可以使用委员会(QBC)机制。该机制由“委员会”给出分类结果,即,多个分类器各自对同一个样本给出分类结果,然后像“委员会”成员一样对该样本的类别进行投票。可以使用不同的投票机制。例如,一种方案是,“委员会”各个成员给出的结果拥有相同的权重;另一种方案是,“委员会”各个成员的权重与该成员以往的分类准确率相关。
作为一个或多个实施例,S4的具体案例包括:
样本选择函数F(·)依据样本的“不确定性”和“多样性”来选择样本。样本的“不确定性”,是指分类器M对某个样本分为某个类别的“信心”,具体表现形式为M将该样本分类为某个类别的概率。样本的“多样性”是指该样本与某个指定的样本集合中的样本相比是否具有差异性,从而避免这个样本集里的样本过于相似。若样本集里的样本过于相似,将导致分类器无法学习到足够的分类信息。
要衡量样本的“不确定性”,一种方法是最小信心(Least Confidence,LC)方法。另一种方法是边缘抽样(Margin approach)方法,其选出的样本是该样本最可能的两个类的概率之差最小的样本。由于生存认证属于2分类问题,边缘抽样方法与LC方法具有相同的效果,因此,本实施例中,用LC方法衡量样本的“不确定性”。分类器M将样本分为该类的概率越小,表示分类器对该样本属于该类拥有越小的信心。如下面公式所示:
其中,x表示某个样本,y(x)表示该样本的标签,表示分类器的分类结果。表示根据分类器M将样本x分类为y的概率,代表依据LC方法选出的样本。
然而在生存认证问题中,工作人员最需要验证的样本,并不是使分类器信心最小的样本。人们关心的样本是分类器强烈认为属于死亡但现有标签为“默认的生存”的样本,即x∈S的样本。本实施例中,我们把这种描述样本“不确定性”的方法称为“最大嫌疑”方法(记为MS)。因此,对以上公式进行调整以适应本公开的场景:
将样本的“多样性”纳入考虑可以使样本选择函数选出的样本更具代表性,从而使分类器学习到更多信息。样本“多样性”的度量通常转化为样本间“相似性”的度量。典型的“相似性”度量指标包括“余弦相似度”、“高斯相似度”等。为了减少样本“相似性”的计算量,一种经典的方法是首先计算候选样本集的“中心点”进而以候选样本x与的相似性近似代表样本x与最终选出的样本集合S′中其他样本的相似性。
最终,我们得到综合考虑样本“不确定性”和样本“多样性”的样本选择函数:
其中,λ是调整式中两项权重的参数,本实施例中,设λ=0.5。
本实施例所述的基于主动学习的生存认证方法在使用时分2个阶段:
(1)训练阶段。根据训练集T获得分类器M。
2016年有8109人死亡。假设这8109人中有3178人(约40%)主动前来备案死亡信息,即剩余的8109-3178=4931人未主动通知社保机构,其标签是“默认的生存”。现在,我们可以基于真实的数据模拟死亡样本的扩充过程。如前所述,有多种样本选择函数可供我们使用。本实施例考察了4种样本选择函数F(·)。如下表所示:
表2.样本选择函数F(·)
在综合考虑样本“不确定性”和样本“多样性”的策略中,权重λ=0.5。应用每一种样本选择函数的完整训练过程都进行了5次迭代。每次迭代构造的S′集合包含2000个被选中的样本(S集合大于2000)。
以应用QBC分类器为例,图4(a)和图4(b)展示了在不同样本选择函数下,对“伪生存”样本的发现情况。图4(a)展示了4中样本选择函数下,经每次迭代后死亡样本的累计数量(即,死亡样本集的大小)。从图4(a)中我们可以看到,F(MS&Cos)具有最好的效果。F(MS&Gau)与F(MS)的差别不大,但都优于F(Random)。总体来讲,应用了“不确定性”和“多样性”原则的样本选择函数略优于只应用“不确定性”的样本选择函数;2种策略均优于随机选择策略。
图4(b)比较了不同分类器对生存认证模型训练阶段的影响。由图可知,在样本选择函数确定的情况下(该实验中样本选择函数为F(GS&Cos)),各种分类器对样本选择过程的影响并不大。其中,应用QBC方法比单一分类器略有优势。这是因为在整个训练过程中,每轮迭代(包括对分类器最初一次的训练)所使用的样本集都只包含较少的干扰数据。“委员会”的每个投票人都能给出“理性”的投票,从而保证QBC方法的有效性。此外,我们发现随机森林分类器和逻辑回归分类器略优于其他分类器。
图4(a)和图4(b)的实验结果表明,在生存认证训练阶段,样本选择函数的作用略大于分类器的作用。综合考虑到样本选择“不确定性”和“多样性”的样本选择函数会提高样本选择的效率。同时,QBC机制也会对提高样本选择效率提高进一步的帮助。
(2)测试或应用阶段。根据分类器M对测试集T中的样本进行分类。
图5展示了应用F(GS&Cos)样本选择函数和QBC分类器的生存认证模型的分类效果。我们以2017年前三个月的数据作为测试集。实验结果证明,生存认证模型在生存和死亡分类任务中的总体准确率在80%以上。因此,该模型可以有效减少社保机构工作人员的关注范围,并帮助工作人员识别出大部分的死亡人员。与此同时,我们观察到,生存认证模型会受到月份的影响。
实施例二,本实施例提供了基于数据修复和主动学习验证的生存认证系统;
基于数据修复和主动学习验证的生存认证系统,包括:
读取模块,其被配置为读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
识别模块,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
数据补全模块,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
生存认证模块,其被配置为:利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
作为一个或多个实施例,如图3所示,所述生存认证模块,包括:
训练单元:
特征提取子单元:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;
不均衡数据处理子单元:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;
分类器训练子单元:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;
如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;
如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;
如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;
人工验证子单元:对于嫌疑样本集S,通过人工进行逐一认证,并获得分类器M;
应用单元:
根据分类器M对数据集T中的样本进行分类。
作为一个或多个实施例,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;
样本选择函数:
其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′。
根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。
实施例三,本实施例还提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述实施例一所述方法的步骤。
实施例四,本实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述实施例一所述方法的步骤。
实施例五,本实施例提供了基于数据修复和主动学习验证的生存认证系统;
基于数据修复和主动学习验证的生存认证系统,包括:
医保卡读卡器,其被配置为:读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
人脸识别器,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
处理器,其被配置为对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
作为一个或多个实施例,所述利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证;具体步骤包括:
训练阶段:
S1:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;
S2:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;
S3:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;
如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;
如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;
如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;
S4:对于嫌疑样本集S,通过人工进行逐一认证,并获得分类器M;
应用阶段:
根据分类器M对数据集T中的样本进行分类。
作为一个或多个实施例,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;
样本选择函数:
其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′。
根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.基于数据修复和主动学习验证的生存认证方法,其特征是,包括:
读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
2.如权利要求1所述的方法,其特征是,所述对生存认证信息数据库的个人基本信息进行修复补全;具体步骤包括:
通过二代身份证读卡器读取二代身份证信息,所述二代身份证信息,包括个人身份证号和个人基本信息;利用获取的二代身份证信息,对生存认证信息数据库的个人基本信息进行修复补全;
所述对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;具体步骤包括:
根据二代身份证信息从税务局服务器中获取职业信息和个人经济信息;利用获取的职业信息和个人经济信息,对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证。
3.如权利要求1所述的方法,其特征是,所述对生存认证信息数据库中的人脸信息进行真实性验证;具体步骤包括:
根据二代身份证信息从公安局服务器中获取人脸信息;利用获取的人脸信息对生存认证信息数据库中的人脸信息进行真实性验证;
所述对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;具体步骤包括:
根据二代身份证信息从云服务器中获取患病历史信息和近期健康状况信息;利用获取的患病历史信息和近期健康状况信息,对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;所述云服务器定期从指定的各医院服务器中获取每个身份证号对应的患病历史信息和近期健康状况信息。
4.如权利要求1所述的方法,其特征是,所述利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证;具体步骤包括:训练阶段和应用阶段,其中训练阶段包括:步骤S1至步骤S4;应用阶段包括步骤S5;
S1:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;
S2:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;
S3:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;
如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;
如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;
如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;
S4:对于嫌疑样本集S,通过人工进行逐一认证;
S5:根据分类器M对数据集T中的样本进行分类。
5.如权利要求4所述的方法,其特征是,所述对于嫌疑样本集S,通过人工进行逐一认证的具体步骤包括:使用样本选择函数F(·)选择具有代表性的嫌疑样本构成S′;S′是S的子集;对S′中的样本进行考察以确定其真实状态;
样本选择函数:
其中,表示分类器M对样本x的分类结果,表示将样本x分类为“死亡”的概率,由于样本x的当前标签是“生存”,因此,此概率值越大,则样本x的嫌疑越大;表示嫌疑样本集S的中心点,表示样本x与的相似性,参数λ表示权重,表示根据样本选择函数选出的样本,被选择出的样本即为具有代表性的嫌疑样本,构成S′;
根据对S′的考察结果判断是否继续主动学习过程;若S′的死亡样本大于等于设定阈值,则更新数据集T并转至步骤S2;若为S′的死亡样本小于设定阈值,则主动学习过程结束并获得分类器M。
6.如权利要求4所述的方法,其特征是,从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,使用卡方检验筛选出卡方检验P值小于等于设定阈值的特征;对于卡方检验筛选出的特征使用斯皮尔曼相关系数进行分析,筛选出斯皮尔曼相关系数的值大于设定阈值的特征作为与生存认证关联度高的生存认证特征。
7.基于数据修复和主动学习验证的生存认证系统,其特征是,包括:
读取模块,其被配置为读取每张退休人员医保卡的信息,将退休人员医保卡信息存储到生存认证信息数据库中;所述退休人员医保卡信息,包括:个人身份证号、个人基本信息、职业信息、个人经济信息、患病历史信息和近期健康状况信息;
识别模块,其被配置为:识别每个退休人员的人脸信息,并将退休人员的人脸信息存储到生存认证信息数据库中;
数据补全模块,其被配置为:对生存认证信息数据库的个人基本信息进行修复补全;对生存认证信息数据库中的职业信息和个人经济信息进行真实性验证;对生存认证信息数据库中的人脸信息进行真实性验证;对生存认证信息数据库中的患病历史信息和近期健康状况信息进行修复补全;
生存认证模块,其被配置为:利用修复补全和验证更新后的生存认证信息数据库中的数据,通过主动学习验证实现生存认证。
8.如权利要求7所述的系统,其特征是,所述生存认证模块,包括:
训练单元:
特征提取子单元:从生存认证信息数据库中提取与生存认证关联度高于设定阈值的特征,将所有退休人员的特征构成数据集T;每个退休人员样本均设有对应的样本标签,所述样本标签为“生存”或“死亡”;
不均衡数据处理子单元:对数据集T进行欠采样以处理不平衡数据,获得实际用于分类器的训练集T′,使用训练集T′训练分类器M,得到训练好的分类器M;
分类器训练子单元:用训练好的分类器M对数据集T进行分类,得到分类结果:生存标签、死亡标签或嫌疑标签;
如果样本标签为“生存”,而实际分类结果为“生存”;则最终的分类结果是生存标签;
如果样本标签为“死亡”,而无论实际分类结果是“生存”还是“死亡”;最终的分类结果是死亡标签;
如果样本标签为“生存”,而实际的分类结果为“死亡”;则最终的分类结果是嫌疑标签;带有嫌疑标签的样本构成嫌疑样本集S;
人工验证子单元:对于嫌疑样本集S,通过人工进行逐一认证,并获得分类器M;
应用单元:
根据分类器M对数据集T中的样本进行分类。
9.一种电子设备,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项方法所述的步骤。
CN201910543707.XA 2019-06-21 2019-06-21 一种基于数据修复和主动学习验证的生存认证方法及系统 Active CN110321350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910543707.XA CN110321350B (zh) 2019-06-21 2019-06-21 一种基于数据修复和主动学习验证的生存认证方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910543707.XA CN110321350B (zh) 2019-06-21 2019-06-21 一种基于数据修复和主动学习验证的生存认证方法及系统

Publications (2)

Publication Number Publication Date
CN110321350A true CN110321350A (zh) 2019-10-11
CN110321350B CN110321350B (zh) 2020-03-03

Family

ID=68119982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910543707.XA Active CN110321350B (zh) 2019-06-21 2019-06-21 一种基于数据修复和主动学习验证的生存认证方法及系统

Country Status (1)

Country Link
CN (1) CN110321350B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312393A (zh) * 2020-01-14 2020-06-19 之江实验室 一种结合主动学习的时序深度生存分析系统
CN112651721A (zh) * 2021-01-08 2021-04-13 泰康保险集团股份有限公司 保险业务处理方法、装置、存储介质与电子设备
CN113434562A (zh) * 2021-06-30 2021-09-24 平安养老保险股份有限公司 生存调查筛选方法、装置、计算机设备和存储介质
CN114579674A (zh) * 2022-03-04 2022-06-03 山东汉图软件有限公司 一种基于用户行为判断用户生存状态的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778625A (zh) * 2016-12-20 2017-05-31 郭凯 一种社保卡信息采集系统及其采集方法
US20180129673A1 (en) * 2016-11-08 2018-05-10 Wipro Limited Method and system for dynamic recommendation of experts for resolving queries
CN109816541A (zh) * 2019-01-24 2019-05-28 易保互联医疗信息科技(北京)有限公司 基于区块链的多维数据生存认证方法、存储介质及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129673A1 (en) * 2016-11-08 2018-05-10 Wipro Limited Method and system for dynamic recommendation of experts for resolving queries
CN106778625A (zh) * 2016-12-20 2017-05-31 郭凯 一种社保卡信息采集系统及其采集方法
CN109816541A (zh) * 2019-01-24 2019-05-28 易保互联医疗信息科技(北京)有限公司 基于区块链的多维数据生存认证方法、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312393A (zh) * 2020-01-14 2020-06-19 之江实验室 一种结合主动学习的时序深度生存分析系统
CN112651721A (zh) * 2021-01-08 2021-04-13 泰康保险集团股份有限公司 保险业务处理方法、装置、存储介质与电子设备
CN113434562A (zh) * 2021-06-30 2021-09-24 平安养老保险股份有限公司 生存调查筛选方法、装置、计算机设备和存储介质
CN114579674A (zh) * 2022-03-04 2022-06-03 山东汉图软件有限公司 一种基于用户行为判断用户生存状态的方法和系统

Also Published As

Publication number Publication date
CN110321350B (zh) 2020-03-03

Similar Documents

Publication Publication Date Title
CN110321350A (zh) 一种基于数据修复和主动学习验证的生存认证方法及系统
Li et al. A literature review of nursing turnover costs
Sun et al. Predicting public procurement irregularity: An application of neural networks
CN109767322A (zh) 基于大数据的可疑交易分析方法、装置和计算机设备
Wozniak et al. Reexamining the effect of Christian denominational affiliation on death penalty support
Parsons et al. Conceptualising international high-skilled migration
CN110929797A (zh) 一种人员能力量化评估方法
Krug Executive turnover in acquired firms: An analysis of resource-based theory and the upper echelons perspective
CN110502999B (zh) 校园管理系统及方法
Rodríguez-Rosa et al. Are social, economic and environmental well-being equally important in all countries around the world? A study by income levels
CN109472310A (zh) 确定两份简历为相同人才的识别方法及装置
Sun et al. Financial distress prediction based on similarity weighted voting CBR
Chelmis et al. Smart homelessness service provision with machine learning
Alhusban et al. Measuring and enhancing the performance of undergraduate student using machine learning tools
CN109003259B (zh) 基于纹线质量专家视觉认知机器学习的指纹质量评价方法
Guberek et al. To count the uncounted: An estimation of lethal violence in Casanare
Khandale et al. Campus placement analyzer: using supervised machine learning algorithms
Johns Data mining as global governance
CN115952216A (zh) 一种养老保险数据挖掘方法、装置、存储介质及电子设备
Zubchyk Administrative efficiency as a subject of research of science of state administration and factor of improving competitiveness of countries
McLeod Where we come from, where we go-describing population change in New Zealand
Silva et al. RETRACTED CHAPTER: Data Mining to Identify Risk Factors Associated with University Students Dropout
Hamilton et al. Legal status and health disparities
Zhu et al. Identification of Impoverished College Students Based on LR-RF Dual Indicators
CN112669137B (zh) 基于存量客户的风险分析方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant