CN113780666A - 一种缺失值的预测方法及装置、可读存储介质 - Google Patents
一种缺失值的预测方法及装置、可读存储介质 Download PDFInfo
- Publication number
- CN113780666A CN113780666A CN202111080643.8A CN202111080643A CN113780666A CN 113780666 A CN113780666 A CN 113780666A CN 202111080643 A CN202111080643 A CN 202111080643A CN 113780666 A CN113780666 A CN 113780666A
- Authority
- CN
- China
- Prior art keywords
- dimension
- resume data
- target
- determining
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 21
- 230000009467 reduction Effects 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000010219 correlation analysis Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007115 recruitment Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012896 Statistical algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种缺失值的预测方法及装置、可读存储介质。缺失值的预测方法包括:获取待处理的数据集,其中包括多维度的简历数据,每一维度的简历数据均为多个,且均包括缺失值和非缺失值;确定各维度的简历数据的缺失值预测顺序;按照缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值;针对任一维度的简历数据,确定该维度的简历数据中的缺失值的预测值,包括:确定该维度与其他维度之间的相关性;根据相关性从其他维度中确定多个目标维度;对各目标维度的简历数据中的缺失值进行填充;基于各目标维度填充后的简历数据,和该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。该预测方法用以提高缺失值的预测精度。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种缺失值的预测方法及装置、可读存储介质。
背景技术
在简历数据中,通常会存在着缺失值,缺失值即用户在填写简历时没有填写的值。在对简历数据进行处理时,需要将该部分缺失值进行填充。
现有技术中,通过中值预测算法、众数预测算法等传统算法实现缺失值的预测。这种基于统计算法的预测方式,预测精度较低。
发明内容
本申请实施例的目的在于提供一种缺失值的预测方法及装置、可读存储介质,用以提高缺失值的预测精度。
第一方面,本申请实施例提供一种缺失值的预测方法,包括:获取待处理的数据集;所述待处理的数据集中包括多维度的简历数据,每一维度的简历数据均为多个,每一维度的简历数据均包括缺失值和非缺失值;确定各维度的简历数据的缺失值预测顺序;按照所述缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值;其中,针对任一维度的简历数据,确定该维度的简历数据中的缺失值的预测值,包括:确定该维度与其他维度之间的相关性;根据所述相关性从所述其他维度中确定多个目标维度;对各目标维度的简历数据中的缺失值进行填充;基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
在本申请实施例中,与现有技术相比,将简历数据划分成多维度的简历数据,在每一维度的简历数据中,均包括缺失值和非缺失值;先确定各维度的简历数据的缺失值预测顺序,然后按照该预测顺序,分别确定各维度的简历数据中的缺失值的预测值。针对任一维度的简历数据,需要确定该维度与其他维度之间的相关性,并对其他维度的缺失值进行填充;然后基于个目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值实现该维度的简历数据中的缺失值的预测。在这种预测方式中,考虑到不同的简历维度,利用维度之间的相关性进行预测,能够提高缺失值的预测精度。
作为一种可能的实现方式,所述获取待处理的数据集,包括:获取多个待处理的简历;所述待处理的简历为需要预测缺失值的简历;从所述多个待处理的简历的简历数据中确定出所述待处理的数据集。
在本申请实施例中,通过获取多个待处理的简历,对多个待处理的简历的简历数据进行处理,实现待处理的数据集的有效获取。
作为一种可能的实现方式,所述确定各维度的简历数据的缺失值预测顺序,包括:确定各维度的简历数据各自的缺失值的数量;根据各维度的简历数据各自的缺失值的数量确定所述缺失值预测顺序。
在本申请实施例中,通过确定各维度的简历数据各自的缺失值的数量,基于缺失值的数量确定缺失值预测顺序,实现预测顺序的有效且合理的确定。
作为一种可能的实现方式,所述确定该维度与其他维度之间的相关性,包括:基于MIC(Maximal Information Coefficient,最大信息系数)相关性分析算法,确定该维度与其他维度之间的相关性。
在本申请实施例中,利用MIC相关性分析算法,实现该维度与其他维度之间的相关性的有效且准确的确定。
作为一种可能的实现方式,所述根据所述相关性从所述其他维度中确定多个目标维度,包括:将所述其他维度中相关性满足第一预设条件的维度确定为第一目标维度;将所述其他维度中相关性满足第二预设条件的维度确定为第二目标维度;所述第二目标维度与该维度之间的相关性小于所述第一目标维度与该维度之间的相关性;根据所述第一目标维度和所述第二目标维度确定所述多个目标维度。
在本申请实施例中,将相关性满足第一预设条件的维度确定为第一目标维度,满足第二预设条件的维度确定为第二目标维度,进而,基于第一目标维度和第二目标维度实现目标维度的有效确定。
作为一种可能的实现方式,所述根据所述第一目标维度和所述第二目标维度确定所述多个目标维度,包括:对所述第二目标维度进行降维处理,获得降维后的第二目标维度;所述降维后的第二目标维度的数量小于所述第二目标维度的数量;将所述第一目标维度和所述降维后的第二目标维度进行合并,获得所述多个目标维度。
在本申请实施例中,通过对第二目标维度进行降维处理,即将相关性不高的维度进行降维处理,在不影响最终结果的精度的基础上,还可以减少后续需要处理的数据量,提高缺失值的预测效率。
作为一种可能的实现方式,所述第一预设条件为相关性大于预设相关性,或者相关性按照从大至小排序,相关性的排序在预设顺序之前;所述第二预设条件为相关性小于所述预设相关性,或者相关性按照从大至小排序,相关性的排序在所述预设顺序之后。
在本申请实施例中,通过第一预设条件,筛选出与当前处理的维度的相关性较高的第一目标维度;通过第二预设条件,筛选出与当前处理的维度相关性较低的第二目标维度。
作为一种可能的实现方式,所述基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值,包括:将各目标维度的填充后的简历数据作为样本数据,将该维度的简历数据中的非缺失值作为所述样本数据对应的标签,生成训练数据集;基于所述训练数据集对初始的预测模型进行训练,获得训练好的预测模型;将各目标维度的填充后的简历数据输入所述训练好的预测模型中,获得所述训练好的预测模型输出的该维度的简历数据中的缺失值的预测值。
在本申请实施例中,通过将各目标维度的填充后的简历数据作为样本数据,将该维度的简历数据中的非缺失值作为所述样本数据对应的标签,生成训练数据集;基于训练数据集,可以实现预测模型的训练;进而,基于训练好的预测模型,和各目标维度的填充后的简历数据,实现该维度的缺失值的有效且精确的预测。
第二方面,本申请实施例提供一种缺失值的预测装置,包括:用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的缺失值的预测方法的各个功能模块。
第三方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行如第一方面以及第一方面的任意一种可能的实现方式中所述的缺失值的预测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的缺失值的预测方法的流程图;
图2为本申请实施例提供的缺失值的预测装置的结构示意图。
图标:200-缺失值的预测装置;210-获取模块;220-处理模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提供的缺失值的预测方法,可以应用于各种需要进行简历缺失值的预测的应用场景中。例如:招聘平台上搜集到的简历,需要将其进行缺失值填充之后,再推送给企业;再例如:企业所接收到的简历,需要将其进行缺失值填充之后,再基于填充之后的简历进行进一步的评测或者评估。
基于上述的应用场景,该缺失值的预测方法可以应用于招聘平台,可以是通用的招聘平台,也可以是某个企业专用的招聘平台。招聘平台可以采用应用程序、小程序、网页等形式。也可以应用于企业的管理平台,同样可以采用应用程序、小程序、网页等形式。
进而,该缺失值的预测方法对应的硬件环境可以包括但不限于:服务器、客户端、浏览器;或者服务器+客户端,以及服务器+浏览器等。
接下来请参照图1,为本申请实施例提供的缺失值的预测方法的流程图,该预测方法包括:
步骤110:获取待处理的数据集。待处理的数据集中包括多维度的简历数据,每一维度的简历数据均为多个,每一维度的简历数据均包括缺失值和非缺失值。
步骤120:确定各维度的简历数据的缺失值预测顺序。
步骤130:按照缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值。
在步骤130中,针对任一维度的简历数据,确定该维度的简历数据中的缺失值的预测值,包括:确定该维度与其他维度之间的相关性;根据相关性从所述其他维度中确定多个目标维度;对各目标维度的简历数据中的缺失值进行填充;基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
在本申请实施例中,与现有技术相比,将简历数据划分成多维度的简历数据,在每一维度的简历数据中,均包括缺失值和非缺失值;先确定各维度的简历数据的缺失值预测顺序,然后按照该预测顺序,分别确定各维度的简历数据中的缺失值的预测值。针对任一维度的简历数据,需要确定该维度与其他维度之间的相关性,并对其他维度的缺失值进行填充;然后基于个目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值实现该维度的简历数据中的缺失值的预测。在这种预测方式中,考虑到不同的简历维度,利用维度之间的相关性进行预测,能够提高缺失值的预测精度。
接下来对该预测方法的详细实施方式进行介绍。
在步骤110中,待处理的数据集中包括:多维度的简历数据,且每一维度的简历数据均为多个,每一维度的简历数据均包括缺失值和非缺失值。
其中,多维度的简历数据可以理解为:将批量的简历数据,按照维度进行划分所获得的数据。
对于简历来说,通常包括结构化数据和非结构化数据。结构化数据为能够用数字结果代替的数据,例如:性别、年龄等。非结构数据为不能用数字结果代替的数据,例如:工作经历、项目经历等。
进而,多维度可以是对应结构化数据的维度,也可以是对应非结构化数据的维度,而考虑到结构化数据之间的相关性,结构化数据和非结构化数据之间的相关性较低,以及,非结构化数据之间的相关性也较低,因此,在本申请实施例中,多维度为对应结构化数据的维度。
具体来说,一种结构化数据对应一种维度,例如:性别维度、年龄维度。举例来说,假设当前有500份简历,则在性别维度的简历数据中,包括这500份简历中的性别数据项的数据;在年龄维度的简历数据中,包括这500份简历中的年龄数据项的数据。当然,在这500份简历中,有的简历可能缺失性别数据,有的简历可能缺失年龄数据,因此,在性别维度的简历数据中,包括:缺失值和非缺失值;在年龄维度的简历数据中,也包括缺失值和非缺失值。
上述举例仅以年龄和性别维度为例,在实际应用时,所涉及的维度应当更多,在此不作一一举例。
基于上述待处理的数据集中的数据介绍,作为一种可选的实施方式,步骤110包括:获取多个待处理的简历;待处理的简历为需要预测缺失值的简历;从多个待处理的简历的简历数据中确定出待处理的数据集。
其中,待处理的简历可以是招聘平台或者企业系统本地所存储(收集)的多份简历。这多份简历可以是多个求职者主动上传的简历,也可以是多个求职者在对应的平台或者系统上填写的简历。如果是多个求职者主动上传的简历,则这多份简历的简历格式可能是不一致的,但目前的简历要求基本是统一的,因此,简历格式能够基本保持一致。如果是多个求职者填写的简历,则这多份简历的简历格式一致,为固定的简历格式。
这些待处理的简历,可能存在着不同维度的简历数据的缺失,因此,都需要预测缺失值。在一些实施例中,待处理的简历也可以包括:不需要预测缺失值的简历,这些简历可以用于对需要预测缺失值的简历进行缺失值预测。
基于多个待处理的简历,对其进行结构化数据的编码,以获得待处理的数据集。具体的,可以采用分箱处理的方式生成待处理的数据集,先确定多个待处理的简历对应的维度,假设分为维度1,维度2,以及维度N,然后再统计每个维度对应的简历数据,例如:统计各个待处理的简历中,对应维度1的数据,然后将这些数据划分到维度1下,其他维度依此类推。可以理解,在每个维度的简历数据中,如果有对应的数据值,则为非缺失值,如果没有对应的数据值,则为缺失值。
在本申请实施例中,通过获取多个待处理的简历,对多个待处理的简历的简历数据进行处理,实现待处理的数据集的有效获取。
在步骤110中获取到待处理的数据集之后,在步骤120中,确定各维度的简历数据的缺失值预测顺序。举例来说,假设有N个维度,在步骤120中,需要确定N个维度中,先对哪个维度的缺失值进行预测,再对哪个维度的缺失值进行预测,以此类推。
作为一种可选的实施方式,步骤120包括:确定各维度的简历数据各自的缺失值的数量;根据各维度的简历数据各自的缺失值的数量确定缺失值预测顺序。
在这种实施方式,根据各维度的简历数据的缺失值的数量来确定缺失值预测顺序。可以理解,如果一个维度的简历数据的缺失值的数量较少,可以先对其进行预测,在预测之后,可以先基于预测值填充对应的缺失值,进而,后续在其他维度的缺失值的预测过程中,如果需要利用该维度的简历数据,则其中便不具有缺失值,可以提高最终的预测结果的准确性。因此,作为一种可选的实施方式,缺失值预测顺序可以是缺失值的数量从小到大的顺序。
举例来说,假设维度一的缺失值的数量为20,维度二的缺失值的数量为30,则维度一的缺失值的预测顺序在维度二的缺失值的预测顺序之前。
此外,在确定各维度的简历数据的缺失值的数量时,直接对对应维度下的缺失值进行统计即可。
在本申请实施例中,通过确定各维度的简历数据各自的缺失值的数量,基于缺失值的数量确定缺失值预测顺序,实现预测顺序的有效且合理的确定。
当前,在一些实施方式中,缺失值预测顺序也可以是缺失值的数量从大到小的顺序,或者其他可行的顺序,在本申请实施例中不作限定。
在步骤120中确定缺失值预测顺序之后,在步骤130中,按照缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值。举例来说,假设缺失值预测顺序为,维度一,维度二,…,维度N,则先进行维度一的缺失值预测,再进行维度二的缺失值的预测,最后再进行维度N的缺失值的预测。此外,在整个预测过程中,同时伴随着对缺失值的填充,因此,在预测过程结束后,各个维度的缺失值也对应填充完毕。
接下来对步骤130的详细实施方式进行介绍,由于步骤130是按照顺序分别对每个维度的缺失值进行预测,为了便于介绍,以其中的任一维度的缺失值的预测的实施方式为例进行介绍,其他维度的缺失值的预测的实施方式参照该任一维度的缺失值的预测的实施方式即可。
因此,针对任一维度的简历数据,确定该维度的简历数据中的缺失值的预测值,包括:确定该维度与其他维度之间的相关性;根据相关性从其他维度中确定多个目标维度;对各目标维度的简历数据中的缺失值进行填充;基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
作为一种可选的实施方式,确定该维度与其他维度之间的相关性,包括:基于MIC(Maximal Information Coefficient,最大信息系数)相关性分析算法,确定该维度与其他维度之间的相关性。
在这种实施方式中,采用MIC相关性分析算法,进行相关性的计算。MIC相关性分析算法属于本领域成熟的技术,因此,关于如何利用该算法实现相关性的计算,在本申请实施例中不作详细介绍。
在本申请实施例中,利用MIC相关性分析算法,实现该维度与其他维度之间的相关性的有效且准确的确定。
在一些实施方式中,也可以采用其他相关性分析算法实现相关性的计算,例如:利用统计算法分析维度之间的相关性等,在本申请实施例中不作限定。
在确定各维度之间的相关性之后,根据相关性确定多个目标维度,目标维度可以理解为用于对该维度的缺失值进行预测的维度。作为一种可选的实施方式,根据相关性从其他维度中确定多个目标维度,包括:将其他维度中相关性满足第一预设条件的维度确定为第一目标维度;将其他维度中相关性满足第二预设条件的维度确定为第二目标维度;第二目标维度与该维度之间的相关性小于第一目标维度与该维度之间的相关性;根据第一目标维度和第二目标维度确定多个目标维度。
在这种实施方式中,将相关性满足第一预设条件的维度确定为第一目标维度,满足第二预设条件的维度确定为第二目标维度,进而,基于第一目标维度和第二目标维度实现目标维度的有效确定。
其中,第一预设条件可以是:相关性大于预设相关性,即将与该维度之间的相关性大于预设相关性的维度作为第一目标维度。预设相关性可以结合实际的应用场景进行设置,在本申请实施例中不作限定。
第一预设条件还可以是:将相关性按照从大至小排序,相关性的排序在预设顺序之前。作为一种可选的实施方式,假设有X个相关性值,将前X/2个相关性值对应的维度确定为第一目标维度。当然,在实际应用时,可以是前X/3,X/4个等,在本申请实施例中不作限定。
与第一预设条件对应,第二预设条件可以是:相关性小于前述的预设相关性,即将与该维度之间的相关性小于预设相关性的维度作为第二目标维度。
第二预设条件还可以是:将相关性从大至小排序,相关性排序在前述的预设顺序之后。作为一种可选的实施方式,假设有X个相关性值,将后X/2个相关性值对应的维度确定为第二目标维度。当然,在实际应用时,还可以是后2X/3,3X/4个等,在本申请实施例中不作限定。
在本申请实施例中,通过第一预设条件,筛选出与当前处理的维度的相关性较高的第一目标维度;通过第二预设条件,筛选出与当前处理的维度相关性较低的第二目标维度。
从前述的实施方式的介绍中可以看出,第一目标维度与该维度的相关性较高,而第二目标维度与该维度的相关性较低,为了提高数据的处理效率,可以对相关性不高的第二目标维度进行压缩;进而,第一目标维度作为主相关成分,降维后的第二目标维度作为次相关成分。
因此,作为一种可选的实施方式,根据第一目标维度和第二目标维度确定多个目标维度,包括:对第二目标维度进行降维处理,获得降维后的第二目标维度;降维后的第二目标维度的数量小于第二目标维度的数量;将第一目标维度和降维后的第二目标维度进行合并,获得多个目标维度。
在这种实施方式中,通过对第二目标维度进行降维处理,即将相关性不高的维度进行降维处理,在不影响最终结果的精度的基础上,还可以减少后续需要处理的数据量,提高缺失值的预测效率。
其中,降维处理可以采用PCA(Principal Component Analysis,主成分分析)实现。举例来说,可以将相关性不大的X/2个维度降维为2个维度,或者其他数量的维度,在本申请实施例中不作限定。对于PCA降维算法,为本领域成熟的技术,在此不对其具体的实施方式进行详细介绍。
基于降维后的第二目标维度,将第一目标维度与之进行合并,便获得最终的多个目标维度。举例来说,假设原来一共有X个维度,第一目标维度有X/2个,降维后的第二目标维度的数量为2个,则最终的目标维度便为:X/2+2个维度。
在确定各目标维度之后,对各目标维度的简历数据中的缺失值进行填充。在一些实施方式中,如果各目标维度的简历数据中的缺失值已经有预测值,则对应的填充值为预测值;如果各目标维度的简历数据中的缺失值没有预测值,则对应的填充值可以为0。
举例来说,如果当然处理的维度为缺失值预测顺序中的维度一(第一个维度),则各目标维度的简历数据中的缺失值均没有预测值,对应的填充值均为0。如果当前处理的维度为缺失值预测顺序中的维度二(第二个维度),如果对应的目标维度包括维度一,则维度一的缺失值的填充值便为缺失值的预测值;其他的维度的缺失值的填充值依然为0,依此类推。
在填充之后,便可以基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
作为一种可选的实施方式,基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值,包括:将各目标维度的填充后的简历数据作为样本数据,将该维度的简历数据中的非缺失值作为样本数据对应的标签,生成训练数据集;基于训练数据集对初始的预测模型进行训练,获得训练好的预测模型;将各目标维度的填充后的简历数据输入训练好的预测模型中,获得训练好的预测模型输出的该维度的简历数据中的缺失值的预测值。
在这种实施方式中,通过将各目标维度的填充后的简历数据作为样本数据,将该维度的简历数据中的非缺失值作为所述样本数据对应的标签,生成训练数据集;基于训练数据集,可以实现预测模型的训练;进而,基于训练好的预测模型,和各目标维度的填充后的简历数据,实现该维度的缺失值的有效且精确的预测。
其中,预测模型可以为随机森林模型、或者神经网络模型等,在本申请实施例中不作限定。
在训练的过程中,可以采用一些实施方式来提高模型的精度。例如:限定模型的训练次数,在模型达到对应的训练次数之后,才停止模型的训练,以保证训练好的模型的精度。再例如:对每次训练后的模型进行测试,在测试获得的精度大于预设精度之后,模型才视为训练好等。当然,也可以采取其他模型精度的提高方式,在本申请实施例中不作一一举例。
在预测模型训练完成之后,预测模型可以学习到该维度的值与其他维度的值之间的关系或者规则,因此,将各目标维度的填充后的简历数据输入到训练好的预测模型中之后,训练好的预测模型便可以输出对应的预测值,这部分预测值便可以作为该维度的简历数据中的缺失值对应的预测值。
在确定缺失值的预测值之后,可以将其直接填充到对应的缺失值处,也可以在后续对其他维度的缺失值进行预测时,再进行填充,在本申请实施例中不作限定。
采用上述的实施方式,可以对各个维度的缺失值进行预测,直至所有维度的缺失值都对应有预测值,并且在处理过程中,还可以将预测值填充到缺失值处,实现缺失值的预测及填充。
基于同一发明构思,请参照图2,本申请实施例中还提供一种缺失值的预测装置200,包括:获取模块210和处理模块220。
获取模块210,用于获取待处理的数据集;所述待处理的数据集中包括多维度的简历数据,每一维度的简历数据均为多个,每一维度的简历数据均包括缺失值和非缺失值。处理模块220,用于确定各维度的简历数据的缺失值预测顺序;按照所述缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值;针对任一维度的简历数据,处理模块220具体用于:确定该维度与其他维度之间的相关性;根据所述相关性从所述其他维度中确定多个目标维度;对各目标维度的简历数据中的缺失值进行填充;基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
在本申请实施例中,获取模块210具体用于:获取多个待处理的简历;所述待处理的简历为需要预测缺失值的简历;从所述多个待处理的简历的简历数据中确定出所述待处理的数据集。
在本申请实施例中,处理模块220具体用于:确定各维度的简历数据各自的缺失值的数量;根据各维度的简历数据各自的缺失值的数量确定所述缺失值预测顺序。
在本申请实施例中,处理模块220具体用于:基于MIC相关性分析算法,确定该维度与其他维度之间的相关性。
在本申请实施例中,处理模块220具体用于:将所述其他维度中相关性满足第一预设条件的维度确定为第一目标维度;将所述其他维度中相关性满足第二预设条件的维度确定为第二目标维度;所述第二目标维度与该维度之间的相关性小于所述第一目标维度与该维度之间的相关性;根据所述第一目标维度和所述第二目标维度确定所述多个目标维度。
在本申请实施例中,处理模块220具体用于:对所述第二目标维度进行降维处理,获得降维后的第二目标维度;所述降维后的第二目标维度的数量小于所述第二目标维度的数量;将所述第一目标维度和所述降维后的第二目标维度进行合并,获得所述多个目标维度。
在本申请实施例中,处理模块220具体用于:将各目标维度的填充后的简历数据作为样本数据,将该维度的简历数据中的非缺失值作为所述样本数据对应的标签,生成训练数据集;基于所述训练数据集对初始的预测模型进行训练,获得训练好的预测模型;将各目标维度的填充后的简历数据输入所述训练好的预测模型中,获得所述训练好的预测模型输出的该维度的简历数据中的缺失值的预测值。
缺失值的预测装置200与缺失值的预测方法对应,各个功能模块与各个步骤一一对应,因此,各个模块的实施方式参照各个步骤的实施方式,在此不再重复介绍。
基于同一发明构思,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行前述实施例中所述的缺失值的预测方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种缺失值的预测方法,其特征在于,包括:
获取待处理的数据集;所述待处理的数据集中包括多维度的简历数据,每一维度的简历数据均为多个,每一维度的简历数据均包括缺失值和非缺失值;
确定各维度的简历数据的缺失值预测顺序;
按照所述缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值;
其中,针对任一维度的简历数据,确定该维度的简历数据中的缺失值的预测值,包括:
确定该维度与其他维度之间的相关性;
根据所述相关性从所述其他维度中确定多个目标维度;
对各目标维度的简历数据中的缺失值进行填充;
基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
2.根据权利要求1所述的预测方法,其特征在于,所述获取待处理的数据集,包括:
获取多个待处理的简历;所述待处理的简历为需要预测缺失值的简历;
从所述多个待处理的简历的简历数据中确定出所述待处理的数据集。
3.根据权利要求1所述的预测方法,其特征在于,所述确定各维度的简历数据的缺失值预测顺序,包括:
确定各维度的简历数据各自的缺失值的数量;
根据各维度的简历数据各自的缺失值的数量确定所述缺失值预测顺序。
4.根据权利要求1所述的预测方法,其特征在于,所述确定该维度与其他维度之间的相关性,包括:
基于MIC相关性分析算法,确定该维度与其他维度之间的相关性。
5.根据权利要求1所述的预测方法,其特征在于,所述根据所述相关性从所述其他维度中确定多个目标维度,包括:
将所述其他维度中相关性满足第一预设条件的维度确定为第一目标维度;
将所述其他维度中相关性满足第二预设条件的维度确定为第二目标维度;所述第二目标维度与该维度之间的相关性小于所述第一目标维度与该维度之间的相关性;
根据所述第一目标维度和所述第二目标维度确定所述多个目标维度。
6.根据权利要求5所述的预测方法,其特征在于,所述根据所述第一目标维度和所述第二目标维度确定所述多个目标维度,包括:
对所述第二目标维度进行降维处理,获得降维后的第二目标维度;所述降维后的第二目标维度的数量小于所述第二目标维度的数量;
将所述第一目标维度和所述降维后的第二目标维度进行合并,获得所述多个目标维度。
7.根据权利要求5所述的预测方法,其特征在于,所述第一预设条件为相关性大于预设相关性,或者相关性按照从大至小排序,相关性的排序在预设顺序之前;所述第二预设条件为相关性小于所述预设相关性,或者相关性按照从大至小排序,相关性的排序在所述预设顺序之后。
8.根据权利要求1所述的预测方法,其特征在于,所述基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值,包括:
将各目标维度的填充后的简历数据作为样本数据,将该维度的简历数据中的非缺失值作为所述样本数据对应的标签,生成训练数据集;
基于所述训练数据集对初始的预测模型进行训练,获得训练好的预测模型;
将各目标维度的填充后的简历数据输入所述训练好的预测模型中,获得所述训练好的预测模型输出的该维度的简历数据中的缺失值的预测值。
9.一种缺失值的预测装置,其特征在于,包括:
获取模块,用于获取待处理的数据集;所述待处理的数据集中包括多维度的简历数据,每一维度的简历数据均为多个,每一维度的简历数据均包括缺失值和非缺失值;
处理模块,用于确定各维度的简历数据的缺失值预测顺序;按照所述缺失值预测顺序,分别确定各维度的简历数据中的缺失值的预测值;
针对任一维度的简历数据,处理模块具体用于:确定该维度与其他维度之间的相关性;根据所述相关性从所述其他维度中确定多个目标维度;对各目标维度的简历数据中的缺失值进行填充;基于各目标维度的填充后的简历数据,以及该维度的简历数据中的非缺失值确定该维度的简历数据中的缺失值的预测值。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行如权利要求1-8任一项所述的缺失值的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080643.8A CN113780666B (zh) | 2021-09-15 | 2021-09-15 | 一种缺失值的预测方法及装置、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080643.8A CN113780666B (zh) | 2021-09-15 | 2021-09-15 | 一种缺失值的预测方法及装置、可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780666A true CN113780666A (zh) | 2021-12-10 |
CN113780666B CN113780666B (zh) | 2024-03-22 |
Family
ID=78844063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111080643.8A Active CN113780666B (zh) | 2021-09-15 | 2021-09-15 | 一种缺失值的预测方法及装置、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780666B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI819436B (zh) * | 2021-12-15 | 2023-10-21 | 緯創資通股份有限公司 | 預測模型建構方法、狀態預測方法及其裝置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050234763A1 (en) * | 2004-04-16 | 2005-10-20 | Pinto Stephen K | Predictive model augmentation by variable transformation |
JP2012194741A (ja) * | 2011-03-16 | 2012-10-11 | Nec Corp | 行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラム |
US20130226838A1 (en) * | 2012-02-23 | 2013-08-29 | International Business Machines Corporation | Missing value imputation for predictive models |
CN104035779A (zh) * | 2014-06-25 | 2014-09-10 | 中国科学院软件研究所 | 一种数据流决策树分类中的缺失值处理方法 |
WO2014199920A1 (ja) * | 2013-06-12 | 2014-12-18 | 日本電気株式会社 | 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体 |
CN105447620A (zh) * | 2015-11-10 | 2016-03-30 | 广西电网有限责任公司电力科学研究院 | 一种电能量缺失值自动处理的方法 |
CN107273429A (zh) * | 2017-05-19 | 2017-10-20 | 哈工大大数据产业有限公司 | 一种基于深度学习的缺失值填充方法及系统 |
CN108615096A (zh) * | 2018-05-10 | 2018-10-02 | 平安科技(深圳)有限公司 | 服务器、金融时序数据的处理方法及存储介质 |
CN108776673A (zh) * | 2018-05-23 | 2018-11-09 | 哈尔滨工业大学 | 关系模式的自动转换方法、装置及存储介质 |
US10733515B1 (en) * | 2017-02-21 | 2020-08-04 | Amazon Technologies, Inc. | Imputing missing values in machine learning models |
CN112381303A (zh) * | 2020-11-19 | 2021-02-19 | 北京嘀嘀无限科技发展有限公司 | 一种任务指标数据预测方法和系统 |
-
2021
- 2021-09-15 CN CN202111080643.8A patent/CN113780666B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050234763A1 (en) * | 2004-04-16 | 2005-10-20 | Pinto Stephen K | Predictive model augmentation by variable transformation |
JP2012194741A (ja) * | 2011-03-16 | 2012-10-11 | Nec Corp | 行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラム |
US20130226838A1 (en) * | 2012-02-23 | 2013-08-29 | International Business Machines Corporation | Missing value imputation for predictive models |
WO2014199920A1 (ja) * | 2013-06-12 | 2014-12-18 | 日本電気株式会社 | 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体 |
CN104035779A (zh) * | 2014-06-25 | 2014-09-10 | 中国科学院软件研究所 | 一种数据流决策树分类中的缺失值处理方法 |
CN105447620A (zh) * | 2015-11-10 | 2016-03-30 | 广西电网有限责任公司电力科学研究院 | 一种电能量缺失值自动处理的方法 |
US10733515B1 (en) * | 2017-02-21 | 2020-08-04 | Amazon Technologies, Inc. | Imputing missing values in machine learning models |
CN107273429A (zh) * | 2017-05-19 | 2017-10-20 | 哈工大大数据产业有限公司 | 一种基于深度学习的缺失值填充方法及系统 |
CN108615096A (zh) * | 2018-05-10 | 2018-10-02 | 平安科技(深圳)有限公司 | 服务器、金融时序数据的处理方法及存储介质 |
CN108776673A (zh) * | 2018-05-23 | 2018-11-09 | 哈尔滨工业大学 | 关系模式的自动转换方法、装置及存储介质 |
CN112381303A (zh) * | 2020-11-19 | 2021-02-19 | 北京嘀嘀无限科技发展有限公司 | 一种任务指标数据预测方法和系统 |
Non-Patent Citations (3)
Title |
---|
张松兰;王鹏;徐子伟;: "基于统计相关的缺失值数据处理研究", 统计与决策, no. 12 * |
苏思凡;竹翠;朱文军;赵枫朝;: "基于时空融合的缺失值填补算法", 计算机工程与设计, no. 01 * |
马茜;谷峪;李芳芳;于戈;: "顺序敏感的多源感知数据填补技术", 软件学报, no. 09 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI819436B (zh) * | 2021-12-15 | 2023-10-21 | 緯創資通股份有限公司 | 預測模型建構方法、狀態預測方法及其裝置 |
Also Published As
Publication number | Publication date |
---|---|
CN113780666B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
CN108959279B (zh) | 数据处理方法、数据处理装置、可读介质及电子设备 | |
CN109993627B (zh) | 推荐方法、推荐模型的训练方法、装置和存储介质 | |
CN108833458A (zh) | 一种应用推荐方法、装置、介质及设备 | |
Chen et al. | Optimal variability sensitive condition-based maintenance with a Cox PH model | |
EP3142050A1 (en) | Predicting attribute values for user segmentation | |
CN112598111B (zh) | 异常数据的识别方法和装置 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN110390424B (zh) | 测试对象的寿命预估方法、装置、设备及介质 | |
CN112487283A (zh) | 训练模型的方法、装置、电子设备及可读存储介质 | |
JP2008158748A (ja) | 変数選択装置、方法およびプログラム | |
CN113743692A (zh) | 业务风险评估方法、装置、计算机设备和存储介质 | |
CN113780666B (zh) | 一种缺失值的预测方法及装置、可读存储介质 | |
CN113761193A (zh) | 日志分类方法、装置、计算机设备和存储介质 | |
CN109947728B (zh) | 一种日志文件的处理方法及装置 | |
CN116737373A (zh) | 负载均衡方法、装置、计算机设备、存储介质 | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN115269998A (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN110674165A (zh) | 采样率调整的方法、装置、存储介质和终端设备 | |
Cellini et al. | QAL-BP: an augmented Lagrangian quantum approach for bin packing | |
CN114048392B (zh) | 多媒体资源推送方法、装置、电子设备及存储介质 | |
Hashem et al. | Utilizing Bayesian inference in accelerated testing models under constant stress via ordered ranked set sampling and hybrid censoring with practical validation | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
CN118152439B (zh) | 用于缓存航班数据的方法及装置 | |
CN114637921B (zh) | 基于建模偶然不确定性的物品推荐方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |