CN109063116B - 数据识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109063116B
CN109063116B CN201810853152.4A CN201810853152A CN109063116B CN 109063116 B CN109063116 B CN 109063116B CN 201810853152 A CN201810853152 A CN 201810853152A CN 109063116 B CN109063116 B CN 109063116B
Authority
CN
China
Prior art keywords
data
sample data
training sample
recognition model
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810853152.4A
Other languages
English (en)
Other versions
CN109063116A (zh
Inventor
邹铁山
葛伟平
王敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaola Credit Service Co ltd
Original Assignee
Kaola Credit Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaola Credit Service Co ltd filed Critical Kaola Credit Service Co ltd
Priority to CN201810853152.4A priority Critical patent/CN109063116B/zh
Publication of CN109063116A publication Critical patent/CN109063116A/zh
Application granted granted Critical
Publication of CN109063116B publication Critical patent/CN109063116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例公开了一种数据识别方法、装置、电子设备及计算机可读存储介质。其中,该方法包括:获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;根据所述训练样本数据集训练得到数据预识别模型;根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别。

Description

数据识别方法、装置、电子设备及计算机可读存储介质
技术领域
本公开涉及数据处理领域,具体涉及一种数据识别方法、装置、电子设备及计算机可读存储介质。
背景技术
简历是个人对自己的学历、工作经历、特长、爱好及其它有关情况作出的简明扼要的书面介绍,简历不仅在招聘活动中是必需的,其在办理银行卡、进行贷款等经济活动中也是必不可少的。正因为简历的重要性,目前出现很多虚假简历的情况,如果对于每一份简历的每一条信息都进行人工验证和核查,不仅需要花费较高的人工、时间成本,效率还非常低下。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种数据识别方法、装置、电子设备及计算机可读存储介质,以对于虚假数据进行识别。
本公开实施例的第一方面提供了一种数据识别方法,包括:
获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;
根据所述训练样本数据集训练得到数据预识别模型;
根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别。
在一些实施例中,所述获取训练样本数据集,包括:
获取原始训练样本数据;
基于所述原始训练样本数据生成对应的数据类别标签和数据属性标签,得到训练样本数据;
基于所述训练样本数据生成所述训练样本数据集。
在一些实施例中,所述根据所述训练样本数据集训练得到数据预识别模型,包括:
将所述训练样本数据集划分为训练样本数据子集和验证样本数据子集;
根据所述训练样本数据子集生成初始数据预识别模型,其中,所述初始数据预识别模型包括多个属性结点;
基于所述验证样本数据子集计算所述初始数据预识别模型的正确率;
根据所述正确率对于所述初始数据预识别模型进行修正,得到所述数据预识别模型。
在一些实施例中,所述根据所述训练样本数据子集生成初始数据预识别模型,包括:
获取候选属性结点;
计算当所述候选属性结点被选择时,所述初始数据预识别模型的信息增益;
将所述信息增益最大的候选属性结点确定为目标属性结点;
根据所述目标属性结点生成所述初始数据预识别模型。
在一些实施例中,还包括:
将再识别信息作为训练样本数据补充至所述训练样本数据集。
本公开实施例的第二方面提供了一种数据识别装置,包括:
获取模块,被配置为获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;
训练模块,被配置为根据所述训练样本数据集训练得到数据预识别模型;
识别模块,被配置为根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别。
在一些实施例中,所述获取模块包括:
第一获取子模块,被配置为获取原始训练样本数据;
第一生成子模块,被配置为基于所述原始训练样本数据生成对应的数据类别标签和数据属性标签,得到训练样本数据;
第二生成子模块,被配置为基于所述训练样本数据生成所述训练样本数据集。
在一些实施例中,所述训练模块包括:
划分子模块,被配置为将所述训练样本数据集划分为训练样本数据子集和验证样本数据子集;
第三生成子模块,被配置为根据所述训练样本数据子集生成初始数据预识别模型,其中,所述初始数据预识别模型包括多个属性结点;
第一计算子模块,被配置为基于所述验证样本数据子集计算所述初始数据预识别模型的正确率;
修正子模块,被配置为根据所述正确率对于所述初始数据预识别模型进行修正,得到所述数据预识别模型。
在一些实施例中,所述第三生成子模块包括:
第二获取子模块,被配置为获取候选属性结点;
第二计算子模块,被配置为计算当所述候选属性结点被选择时,所述初始数据预识别模型的信息增益;
确定子模块,被配置为将所述信息增益最大的候选属性结点确定为目标属性结点;
第四生成子模块,被配置为根据所述目标属性结点生成所述初始数据预识别模型。
在一些实施例中,还包括:
补充模块,被配置为将再识别信息作为训练样本数据补充至所述训练样本数据集。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本公开实施例,基于训练得到的数据预识别模型对于待识别数据进行预识别,并当数据预识别结果符合预设条件时,对待识别数据进行再次识别。本公开技术方案能够借助机器学习对于待识别数据进行初步判断,并在初步判断结果符合再识别条件时,再对待识别数据进行再识别,从而解决了传统数据识别导致的人工、时间成本较高,效率低下的问题,能够在节省数据识别时间、提高数据识别的效率的前提下,保证数据识别的准确率。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种数据识别方法的流程示意图;
图2是根据本公开的一些实施例所示的获取训练样本数据集步骤的流程示意图;
图3是根据本公开的一些实施例所示的训练数据预识别模型步骤的流程示意图;
图4是根据本公开的一些实施例所示的生成初始数据预识别模型步骤的流程示意图;
图5是根据本公开的另外一些实施例所示的一种数据识别方法的流程示意图;
图6是根据本公开的一些实施例所示的一种数据识别装置的结构框图;
图7是根据本公开的一些实施例所示的获取模块的结构框图;
图8是根据本公开的一些实施例所示的训练模块的结构框图;
图9是根据本公开的一些实施例所示的第三生成子模块的结构框图;
图10是根据本公开的另外一些实施例所示的一种数据识别装置的结构框图;
图11是根据本公开的一些实施例所示的电子设备的示意图;
图12是适于用来实现根据本公开实施例的数据识别方法的通用型计算机节点的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
图1是根据本公开的一些实施例所示的一种数据识别方法的流程示意图。在本公开实施例中,所述数据识别是一个泛义的概念,所述数据识别可包括根据某一预设规则对于数据进行的识别、判断、分类等处理。如图1所示,所述数据识别方法包括以下步骤:
S102,获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签。
可选地,所述训练样本数据不仅包括上文提及的简历,还可包括企业信息、员工信息等其他需要进行识别的数据。为了便于说明,下文以简历数据为例对于本公开进行详细说明,本领域技术人员应当理解的是,下文描述仅为示例性说明,而不应作为对于本公开的具体限制。
可选地,所述数据类别标签和数据属性标签相对应。其中,所述数据类别标签和数据属性标签可根据数据识别的目的、数据的特点等实际应用的需要进行设置。对于以判断简历的虚假性为目的的数据识别而言,所述数据类别标签可以为1和0,其中,1表示某一简历可能为虚假简历,0表示某一简历可能为真实简历;所述数据属性标签可包括用户属性标签、用户数据标签等标签,进一步地,所述用户属性标签可包括用户姓名、性别、年龄、户口所在地、婚姻情况、居住地、居住地与户口地是否一致、手机号码、邮箱等标签,所述用户数据标签可包括手机号码是否经过验证、邮箱是否经过验证、学历、专业、外语语种、外语水平、脱离教育时间、工作年限、当前工作单位、当前工作类别、当前职位、当前薪资薪酬、当前工作是否全日制、历史工作数量、更换工作次数、平均每份工作持续时间、不同工作的职业重复性、最后一次更换工作距今时间、期望工作单位、期望工作类别、期望职位、期望薪资薪酬、期望工作是否全日制、简历更新时间等标签。
S104,根据所述训练样本数据集训练得到数据预识别模型。
可选地,所述数据预识别模型可选为任意能够根据数据识别目的对于数据进行有效识别的模型,本公开对于所述数据预识别模型的具体形式不作具体限定。
可选地,所述训练样本数据集包括正样本数据和负样本数据。对于以判断简历的虚假性为目的的数据识别而言,所述正样本数据为虚假简历数据,或者说是异常简历数据,所述负样本数据为真实简历数据,或者说是非异常简历数据。
S106,根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别。
可选地,所述预设条件可根据数据识别的目的等实际应用的需要进行设置,比如对于以判断简历的虚假性为目的的数据识别而言,所述预设条件可设置为待识别简历初步识别为虚假简历,即当所述数据预识别结果为虚假简历时,为了提高数据识别的准确率,对于所述待识别数据进行再次的识别和验证。
其中,对于所述待识别数据的再识别也可以理解为对于所述待识别数据的验证,具体地,所述再识别可以基于通过公开途径获得的公开数据的人工再识别来实现,其中,所述公开途径比如可以是公开数据平台或其他公开途径。
综上,本公开实施例,基于训练得到的数据预识别模型对于待识别数据进行预识别,并当数据预识别结果符合预设条件时,对待识别数据进行再次识别。本公开技术方案能够借助机器学习对于待识别数据进行初步判断,并在初步判断结果符合再识别条件时,再对待识别数据进行再识别,从而解决了传统数据识别导致的人工、时间成本较高,效率低下的问题,能够在节省数据识别时间、提高数据识别的效率的前提下,保证数据识别的准确率。
在一些可选的实施例中,如图2所示,步骤S102,即所述获取训练样本数据集的步骤,可以包括:
S202,获取原始训练样本数据;
S204,基于所述原始训练样本数据生成对应的数据类别标签和数据属性标签,得到训练样本数据;
S206,基于所述训练样本数据生成所述训练样本数据集。
在该实施例中,可先获取一些原始训练样本数据,然后对于这些原始训练样本数据进行预设标准化数据处理得到训练样本数据,比如,提取原始训练样本数据的数据类别标签、根据预设数据属性标签生成与所述原始训练样本数据相应的数据属性标签等等,然后再将经过标准化数据处理后的训练样本数据组成后续用于模型训练的训练样本数据集。上述经过预设标准化数据处理的训练样本数据能够在一定程度上降低数据预识别模型的训练难度,并提高数据预识别模型的准确性。
在一些可选的实施例中,如图3所示,步骤S104,即所述根据所述训练样本数据集训练得到数据预识别模型的步骤,可以包括:
S302,将所述训练样本数据集划分为训练样本数据子集和验证样本数据子集;
S304,根据所述训练样本数据子集生成初始数据预识别模型,其中,所述初始数据预识别模型包括多个属性结点;
S306,基于所述验证样本数据子集计算所述初始数据预识别模型的正确率;
S308,根据所述正确率对于所述初始数据预识别模型进行修正,得到所述数据预识别模型。
为了进一步提高所述数据预识别模型的准确性,在该实施例中,还包括对于数据预识别模型进行修正的步骤,即,首先将训练样本数据集划分为训练样本数据子集和验证样本数据子集,然后根据训练样本数据子集生成一个初始的数据预识别模型,然后基于验证样本数据子集验证所述初始数据预识别模型的正确率,最后根据验证结果对于所述初始数据预识别模型进行修正,得到最终的数据预识别模型。
可选地,所述数据预识别模型为决策树模型,所述决策树模型是基于树结构执行决策的,具体地,所述决策树模型包括一个根结点、多个内部结点和多个叶结点,叶结点对应于决策结果,其他结点则对应于属性测试,因此,除了叶结点外的其他结点也可称为属性结点。在该实施例中,根据验证结果对于所述初始数据预识别模型进行修正比如可以为对于属性结点的筛选,即当所述数据预识别模型为决策树模型时,根据所述正确率对于所述初始数据预识别模型进行修正,得到所述数据预识别模型的步骤,可以包括:
基于所述验证样本数据子集计算当删除某一属性结点后,所述初始数据预识别模型的正确率;
当新计算的正确率高于步骤S306计算得到的正确率时,删除所述属性结点,当新计算的正确率低于或等于步骤S306计算得到的正确率时,保留所述属性结点。
在一些可选的实施例中,如图4所示,步骤S304,即所述根据所述训练样本数据子集生成初始数据预识别模型的步骤,可以包括:
S402,获取候选属性结点;
S404,计算当所述候选属性结点被选择时,所述初始数据预识别模型的信息增益;
S406,将所述信息增益最大的候选属性结点确定为目标属性结点;
S408,根据所述目标属性结点生成所述初始数据预识别模型。
上文提及,在利用决策树模型执行决策判断时,属性结点的选择非常重要,可以说,属性结点的选择对于决策树模型的决策性能起到了至关重要的作用。在该实施例中,基于信息增益最大准则选择所述决策树模型的属性结点。
具体地,首先获取一些候选属性结点,其中,所述候选属性结点基于某一数据属性标签生成,然后分别计算当某一候选属性结点被选择时,所述初始数据预识别模型的信息增益,经过比较,将信息增益最大的候选属性结点选择为目标属性结点,最后根据选中的目标属性结点生成所述初始数据预识别模型。
其中,所述信息增益可按照下式来计算:
Figure GDA0002370645750000101
Figure GDA0002370645750000102
Figure GDA0002370645750000103
其中,D表示训练样本数据子集,Gain表示某一候选属性结点被选择时的初始信息增益,|D|表示训练样本数据子集D中的样本个数,N表示训练样本数据子集D中连续变量的个数,N≤|D|,E(D)表示训练样本数据子集D的信息熵,M表示某一数据属性标签中数据属性的取值个数,Di表示具有与所述数据属性标签中第i个数据属性相同数据属性的训练样本数据子集,E(Di)表示训练样本数据子集Di的信息熵,K表示训练样本数据子集中样本的类别总数,pk表示训练样本数据子集中第k类样本在全部样本中所占的比例。
在另外一些可选的实施例中,所述方法还包括将再识别信息作为训练样本数据补充至所述训练样本数据集的步骤,如图5所示,所述方法可以包括:
S502,获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;
S504,根据所述训练样本数据集训练得到数据预识别模型;
S506,根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别;
其中,步骤S502、S504和S506的具体内容可参考上文对于步骤S102、S104和S106的描述,在此不作赘述。
S508,将再识别信息作为训练样本数据补充至所述训练样本数据集。
为了扩充训练样本数据集,增加训练样本数据集中的有效数据,提高训练样本数据集的训练能力和数据预识别模型的准确性,在该实施例中,还将对于待识别数据的再识别信息作为训练样本数据补充至训练样本数据集中,用于后续数据预识别模型的训练。
以上是本公开提供的数据识别方法的具体实施方式。
图6是根据本公开的一些实施例所示的数据识别装置示意图。如图6所示,所述数据识别装置600包括获取模块610、训练模块620和识别模块630。其中:
获取模块610,被配置为获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签。
可选地,所述训练样本数据不仅包括上文提及的简历,还可包括企业信息、员工信息等其他需要进行识别的数据。为了便于说明,下文以简历数据为例对于本公开进行详细说明,本领域技术人员应当理解的是,下文描述仅为示例性说明,而不应作为对于本公开的具体限制。
可选地,所述数据类别标签和数据属性标签相对应。其中,所述数据类别标签和数据属性标签可根据数据识别的目的、数据的特点等实际应用的需要进行设置。对于以判断简历的虚假性为目的的数据识别而言,所述数据类别标签可以为1和0,其中,1表示某一简历可能为虚假简历,0表示某一简历可能为真实简历;所述数据属性标签可包括用户属性标签、用户数据标签等标签,进一步地,所述用户属性标签可包括用户姓名、性别、年龄、户口所在地、婚姻情况、居住地、居住地与户口地是否一致、手机号码、邮箱等标签,所述用户数据标签可包括手机号码是否经过验证、邮箱是否经过验证、学历、专业、外语语种、外语水平、脱离教育时间、工作年限、当前工作单位、当前工作类别、当前职位、当前薪资薪酬、当前工作是否全日制、历史工作数量、更换工作次数、平均每份工作持续时间、不同工作的职业重复性、最后一次更换工作距今时间、期望工作单位、期望工作类别、期望职位、期望薪资薪酬、期望工作是否全日制、简历更新时间等标签。
训练模块620,被配置为根据所述训练样本数据集训练得到数据预识别模型。
可选地,所述数据预识别模型可选为任意能够根据数据识别目的对于数据进行有效识别的模型,本公开对于所述数据预识别模型的具体形式不作具体限定。
可选地,所述训练样本数据集包括正样本数据和负样本数据。对于以判断简历的虚假性为目的的数据识别而言,所述正样本数据为虚假简历数据,或者说是异常简历数据,所述负样本数据为真实简历数据,或者说是非异常简历数据。
识别模块630,被配置为根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别。
可选地,所述预设条件可根据数据识别的目的等实际应用的需要进行设置,比如对于以判断简历的虚假性为目的的数据识别而言,所述预设条件可设置为待识别简历初步识别为虚假简历,即当所述数据预识别结果为虚假简历时,为了提高数据识别的准确率,对于所述待识别数据进行再次的识别和验证。
其中,识别模块630对于所述待识别数据的再识别也可以实现为对于所述待识别数据的验证,具体地,所述再识别可以基于通过公开途径获得的公开数据的人工再识别来实现,其中,所述公开途径比如可以是公开数据平台或其他公开途径。
综上,本公开实施例,基于训练得到的数据预识别模型对于待识别数据进行预识别,并当数据预识别结果符合预设条件时,对待识别数据进行再次识别。本公开技术方案能够借助机器学习对于待识别数据进行初步判断,并在初步判断结果符合再识别条件时,再对待识别数据进行再识别,从而解决了传统数据识别导致的人工、时间成本较高,效率低下的问题,能够在节省数据识别时间、提高数据识别的效率的前提下,保证数据识别的准确率。
在一些可选的实施例中,如图7所示,所述获取模块610可以包括:
第一获取子模块710,被配置为获取原始训练样本数据;
第一生成子模块720,被配置为基于所述原始训练样本数据生成对应的数据类别标签和数据属性标签,得到训练样本数据;
第二生成子模块730,被配置为基于所述训练样本数据生成所述训练样本数据集。
在该实施例中,第一获取子模块710获取一些原始训练样本数据,第一生成子模块720对于这些原始训练样本数据进行预设标准化数据处理得到训练样本数据,比如,提取原始训练样本数据的数据类别标签、根据预设数据属性标签生成与所述原始训练样本数据相应的数据属性标签等等,第二生成子模块730再将经过标准化数据处理后的训练样本数据组成后续用于模型训练的训练样本数据集。上述经过预设标准化数据处理的训练样本数据能够在一定程度上降低数据预识别模型的训练难度,并提高数据预识别模型的准确性。
在一些可选的实施例中,如图8所示,所述训练模块620可以包括:
划分子模块810,被配置为将所述训练样本数据集划分为训练样本数据子集和验证样本数据子集;
第三生成子模块820,被配置为根据所述训练样本数据子集生成初始数据预识别模型,其中,所述初始数据预识别模型包括多个属性结点;
第一计算子模块830,被配置为基于所述验证样本数据子集计算所述初始数据预识别模型的正确率;
修正子模块840,被配置为根据所述正确率对于所述初始数据预识别模型进行修正,得到所述数据预识别模型。
为了进一步提高所述数据预识别模型的准确性,在该实施例中,还包括对于数据预识别模型进行修正的部分,即,划分子模块810将训练样本数据集划分为训练样本数据子集和验证样本数据子集,第三生成子模块820根据训练样本数据子集生成一个初始的数据预识别模型,第一计算子模块830基于验证样本数据子集验证所述初始数据预识别模型的正确率,修正子模块840根据验证结果对于所述初始数据预识别模型进行修正,得到最终的数据预识别模型。
可选地,所述数据预识别模型为决策树模型,所述决策树模型是基于树结构执行决策的,具体地,所述决策树模型包括一个根结点、多个内部结点和多个叶结点,叶结点对应于决策结果,其他结点则对应于属性测试,因此,除了叶结点外的其他结点也可称为属性结点。在该实施例中,根据验证结果对于所述初始数据预识别模型进行修正比如可以为对于属性结点的筛选,即所述修正子模块840可以被配置为:
基于所述验证样本数据子集计算当删除某一属性结点后,所述初始数据预识别模型的正确率;
当新计算的正确率高于第一计算子模块830计算得到的正确率时,删除所述属性结点,当新计算的正确率低于或等于第一计算子模块830计算得到的正确率时,保留所述属性结点。
在一些可选的实施例中,如图9所示,所述第三生成子模块820可以包括:
第二获取子模块910,被配置为获取候选属性结点;
第二计算子模块920,被配置为计算当所述候选属性结点被选择时,所述初始数据预识别模型的信息增益;
确定子模块930,被配置为将所述信息增益最大的候选属性结点确定为目标属性结点;
第四生成子模块940,被配置为根据所述目标属性结点生成所述初始数据预识别模型。
上文提及,在利用决策树模型执行决策判断时,属性结点的选择非常重要,可以说,属性结点的选择对于决策树模型的决策性能起到了至关重要的作用。在该实施例中,基于信息增益最大准则选择所述决策树模型的属性结点。
具体地,第二获取子模块910获取一些候选属性结点,其中,所述候选属性结点基于某一数据属性标签生成,第二计算子模块920分别计算当某一候选属性结点被选择时,所述初始数据预识别模型的信息增益,经过比较,确定子模块930将信息增益最大的候选属性结点选择为目标属性结点,第四生成子模块940根据选中的目标属性结点生成所述初始数据预识别模型。
其中,所述信息增益可按照下式来计算:
Figure GDA0002370645750000151
Figure GDA0002370645750000161
Figure GDA0002370645750000162
其中,D表示训练样本数据子集,Gain表示某一候选属性结点被选择时的初始信息增益,|D|表示训练样本数据子集D中的样本个数,N表示训练样本数据子集D中连续变量的个数,N≤|D|,E(D)表示训练样本数据子集D的信息熵,M表示某一数据属性标签中数据属性的取值个数,Di表示具有与所述数据属性标签中第i个数据属性相同数据属性的训练样本数据子集,E(Di)表示训练样本数据子集Di的信息熵,K表示训练样本数据子集中样本的类别总数,pk表示训练样本数据子集中第k类样本在全部样本中所占的比例。
在另外一些可选的实施例中,所述数据识别装置还包括将再识别信息作为训练样本数据补充至所述训练样本数据集的部分,如图10所示,所述数据识别装置600可以包括:
获取模块1010,被配置为获取训练样本数据集,其中,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;
训练模块1020,被配置为根据所述训练样本数据集训练得到数据预识别模型;
识别模块1030,被配置为根据所述数据预识别模型对于待识别数据进行预识别,得到数据预识别结果,并当所述数据预识别结果符合预设条件时,对于所述待识别数据进行再识别;
其中,获取模块1010、训练模块1020和识别模块1030的具体内容可参考上文对于获取模块610、训练模块620和识别模块630的描述,在此不作赘述。
补充模块1040,被配置为将再识别信息作为训练样本数据补充至所述训练样本数据集。
为了扩充训练样本数据集,增加训练样本数据集中的有效数据,提高训练样本数据集的训练能力和数据预识别模型的准确性,在该实施例中,还设置有补充模块1040,被配置为将对于待识别数据的再识别信息作为训练样本数据补充至训练样本数据集中,用于后续数据预识别模型的训练。
参考附图11,为本公开一个实施例提供的电子设备示意图。如图11所示,该电子设备1100包括:
存储器1130以及一个或多个处理器1110;
其中,所述存储器1130与所述一个或多个处理器1110通信连接,所述存储器1130中存储有可被所述一个或多个处理器执行的指令1132,所述指令1132被所述一个或多个处理器1110执行,以使所述一个或多个处理器1110执行上述数据识别步骤。
本公开的一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行上述数据识别步骤。
综上所述,本公开提出了一种数据识别方法、装置、电子设备及其计算机可读存储介质。本公开实施例基于训练得到的数据预识别模型对于待识别数据进行预识别,并当数据预识别结果符合预设条件时,对待识别数据进行再次识别。本公开技术方案能够借助机器学习对于待识别数据进行初步判断,并在初步判断结果符合再识别条件时,再对待识别数据进行再识别,从而解决了传统数据识别导致的人工、时间成本较高,效率低下的问题,能够在节省数据识别时间、提高数据识别的效率的前提下,保证数据识别的准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述装置实施例中的对应描述,在此不再赘述。
尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。比如,典型地,本公开的技术方案可通过至少一个如图12所示的通用型计算机节点1210来实现和/或传播。在图12中,通用型计算机节点1210包括:计算机系统/服务器1212、外设1214和显示设备1216;其中,所述计算机系统/服务器1212包括处理单元1220、输入/输出接口1222、网络适配器1224和存储器1230,内部通常通过总线实现数据传输;进一步地,存储器1230通常由多种存储设备组成,比如,RAM(Random Access Memory,随机存储器)1232、缓存1234和存储系统(一般由一个或多个大容量非易失性存储介质组成)1236等;实现本公开技术方案的部分或全部功能的程序1240保存在存储器1230中,通常以多个程序模块1242的形式存在。
而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种虚假简历数据识别方法,其特征在于,包括:
获取训练样本数据集,其中,所述训练样本数据集包括正样本数据和负样本数据,所述正样本数据为虚假简历数据,所述负样本数据为真实简历数据,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;
将所述训练样本数据集划分为训练样本数据子集和验证样本数据子集;
根据所述训练样本数据子集生成初始数据预识别模型,其中,所述初始数据预识别模型为决策树模型,包括多个属性结点;
所述根据所述训练样本数据子集生成初始数据预识别模型包括:获取候选属性结点;计算当所述候选属性结点被选择时,所述初始数据预识别模型的信息增益;将所述信息增益最大的候选属性结点确定为目标属性结点;根据所述目标属性结点生成所述初始数据预识别模型;所述信息增益有:
Figure FDA0002370645740000011
其中,D表示训练样本数据子集,Gain表示某一候选属性结点被选择时的初始信息增益,|D|表示训练样本数据子集D中的样本个数,N表示训练样本数据子集D中连续变量的个数,N≤|D|;
基于所述验证样本数据子集计算所述初始数据预识别模型的正确率;
根据所述正确率对所述初始数据预识别模型进行修正,得到数据预识别模型;
根据所述数据预识别模型对待识别简历数据进行预识别,得到简历数据预识别结果,并当所述简历数据预识别结果为虚假简历时,对所述待识别简历数据进行再识别。
2.根据权利要求1所述的方法,其特征在于,所述获取训练样本数据集,包括:
获取原始训练样本数据;
基于所述原始训练样本数据生成对应的数据类别标签和数据属性标签,得到训练样本数据;
基于所述训练样本数据生成所述训练样本数据集。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述正确率对所述初始数据预识别模型进行修正包括:
基于所述验证样本数据子集计算当删除某一属性结点后,所述初始数据预识别模型的正确率;
当新计算的正确率高于未删除该属性结点时计算得到的正确率时,删除该属性结点,当新计算的正确率低于或等于未删除该属性结点时计算得到的正确率时,保留该属性结点。
4.根据权利要求1所述的方法,其特征在于,还包括:
将再识别信息作为训练样本数据补充至所述训练样本数据集。
5.一种虚假简历数据识别装置,其特征在于,包括:
获取模块,被配置为获取训练样本数据集,其中,所述训练样本数据集包括正样本数据和负样本数据,所述正样本数据为虚假简历数据,所述负样本数据为真实简历数据,所述训练样本数据集中的训练样本数据包括数据类别标签以及多个数据属性标签;
训练模块,包括:划分子模块,被配置为将所述训练样本数据集划分为训练样本数据子集和验证样本数据子集;第三生成子模块,被配置为根据所述训练样本数据子集生成初始数据预识别模型,其中,所述初始数据预识别模型为决策树模型,包括多个属性结点;第一计算子模块,被配置为基于所述验证样本数据子集计算所述初始数据预识别模型的正确率;修正子模块,被配置为根据所述正确率对所述初始数据预识别模型进行修正,得到所述数据预识别模型;
其中,所述第三生成子模块包括:第二获取子模块,被配置为获取候选属性结点;第二计算子模块,被配置为计算当所述候选属性结点被选择时,所述初始数据预识别模型的信息增益;确定子模块,被配置为将所述信息增益最大的候选属性结点确定为目标属性结点;第四生成子模块,被配置为根据所述目标属性结点生成所述初始数据预识别模型;所述信息增益有:
Figure FDA0002370645740000031
其中,D表示训练样本数据子集,Gain表示某一候选属性结点被选择时的初始信息增益,|D|表示训练样本数据子集D中的样本个数,N表示训练样本数据子集D中连续变量的个数,N≤|D|;
识别模块,被配置为根据所述数据预识别模型对待识别简历数据进行预识别,得到简历数据预识别结果,并当所述简历数据预识别结果为虚假简历时,对所述待识别简历数据进行再识别。
6.根据权利要求5所述的装置,其特征在于,所述获取模块包括:
第一获取子模块,被配置为获取原始训练样本数据;
第一生成子模块,被配置为基于所述原始训练样本数据生成对应的数据类别标签和数据属性标签,得到训练样本数据;
第二生成子模块,被配置为基于所述训练样本数据生成所述训练样本数据集。
7.根据权利要求5或6所述的装置,其特征在于,所述修正子模块包括:
第三计算子模块,用于基于所述验证样本数据子集计算当删除某一属性结点后,所述初始数据预识别模型的正确率;
结点处理子模块,用于在新计算的正确率高于未删除该属性结点时计算得到的正确率时,删除该属性结点,在新计算的正确率低于或等于未删除该属性结点时计算得到的正确率时,保留该属性结点。
8.根据权利要求5所述的装置,其特征在于,还包括:
补充模块,被配置为将再识别信息作为训练样本数据补充至所述训练样本数据集。
9.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-4任一项所述的方法。
CN201810853152.4A 2018-07-27 2018-07-27 数据识别方法、装置、电子设备及计算机可读存储介质 Active CN109063116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810853152.4A CN109063116B (zh) 2018-07-27 2018-07-27 数据识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810853152.4A CN109063116B (zh) 2018-07-27 2018-07-27 数据识别方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109063116A CN109063116A (zh) 2018-12-21
CN109063116B true CN109063116B (zh) 2020-04-21

Family

ID=64831865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810853152.4A Active CN109063116B (zh) 2018-07-27 2018-07-27 数据识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109063116B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111404768A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种dpi识别的实现方法及设备
CN109787970B (zh) * 2019-01-03 2020-11-17 创新先进技术有限公司 一种识别风险对象的方法、装置及设备
CN110941607A (zh) * 2019-12-10 2020-03-31 医渡云(北京)技术有限公司 脏数据的识别方法、装置、设备及存储介质
CN113127454A (zh) * 2019-12-30 2021-07-16 医渡云(北京)技术有限公司 数据验证方法及装置、电子设备、存储介质
CN112541013B (zh) * 2020-01-02 2021-12-28 北京融信数联科技有限公司 基于移动信令大数据的应届毕业生跳槽频率分析方法
CN113381977B (zh) * 2021-05-07 2022-11-22 北京锐服信科技有限公司 一种数据包的应用层压缩方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577689A (zh) * 2016-07-04 2018-01-12 松下知识产权经营株式会社 决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607071B2 (en) * 2014-03-07 2017-03-28 Adobe Systems Incorporated Managing a distributed database across a plurality of clusters
CN106779075A (zh) * 2017-02-16 2017-05-31 南京大学 一种计算机中采用剪枝方法改进的神经网络
CN107368891A (zh) * 2017-05-27 2017-11-21 深圳市深网视界科技有限公司 一种深度学习模型的压缩方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577689A (zh) * 2016-07-04 2018-01-12 松下知识产权经营株式会社 决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数据挖掘中分类技术的研究;孟凡荣等;《计算机与现代化》;20080331(第3期);第29-31页 *
聚类支持下决策树模型的借阅数据分析;翟剑锋;《信息技术》;20120331;第56-59页 *

Also Published As

Publication number Publication date
CN109063116A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063116B (zh) 数据识别方法、装置、电子设备及计算机可读存储介质
CN111814835B (zh) 计算机视觉模型的训练方法、装置、电子设备和存储介质
CN107330471B (zh) 反馈内容的问题定位方法和装置、计算机设备、存储介质
CN106919957B (zh) 处理数据的方法及装置
CN109472310B (zh) 确定两份简历为相同人才的识别方法及装置
CN113537192B (zh) 图像检测方法、装置、电子设备及存储介质
CN111145006A (zh) 基于用户画像的汽车金融反欺诈模型训练方法和装置
CN111402579A (zh) 道路拥堵程度预测方法、电子装置及可读存储介质
CN108764369B (zh) 基于数据融合的人物识别方法、装置和计算机存储介质
CN114881129A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN110782349A (zh) 一种模型训练方法和系统
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN114638501A (zh) 一种业务数据处理方法、装置、计算机设备及存储介质
CN113342799B (zh) 一种数据修正方法及系统
CN111259167A (zh) 用户请求风险识别方法及装置
CN114386013A (zh) 学籍自动认证方法、装置、计算机设备及存储介质
CN112434201B (zh) 基于大数据的数据可视化方法及大数据云服务器
CN113472860A (zh) 大数据和数字化环境下的业务资源分配方法及服务器
CN111241297A (zh) 一种基于标签传播算法的图谱数据处理方法及装置
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN113641823B (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
CN114492370A (zh) 网页识别方法、装置、电子设备和介质
US20200364591A1 (en) Method and apparatus for performing block retrieval on block to be processed of urine sediment image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant