CN107247764A

CN107247764A - 一种信息匹配度的确定方法及系统

Info

Publication number: CN107247764A
Application number: CN201710408243.2A
Authority: CN
Inventors: 路建新
Original assignee: Beijing Xinghe Hired Fast Line Technology Co Ltd
Current assignee: Beijing Xinghe Hired Fast Line Technology Co Ltd
Priority date: 2017-06-02
Filing date: 2017-06-02
Publication date: 2017-10-13

Abstract

本发明公开了一种信息匹配度的确定方法及系统，该方法包括：基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果；对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵；对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型；基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。本发明的方案，可以克服现有技术中人工劳动量大、可靠性低和精准性差等缺陷，实现人工劳动量小、可靠性高和精准性好的有益效果。

Description

一种信息匹配度的确定方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种信息匹配度的确定方法及系统，尤其涉及一种基于大数据分析的企业文化匹配度评定方法及系统。

背景技术

企业文化是企业在长期的经营活动中所形成的共同价值观念、行为准则、道德规范，以及体现这些企业精神的人际关系、规章制度、办公场所、产品与服务等事项和物质因素的集合。二十一世纪是文化管理时代，是文化致富时代。企业文化的重要性将是企业的核心竞争力所在，是企业管理最重要的内容。拥有了自己的文化，才能使企业具有生命的活力，具有真正意义上人格的象征。

企业文化的凝聚力能通过建立共同的价值观念、企业目标，把员工凝聚在企业周围，企业文化的重要性使员工具有使命感和责任感，自觉地把自己的智慧和力量汇聚到企业的整体目标上，把个人的行为统一于企业行为的共同方向上，从而凝结成推动企业发展的巨大动力。

随着现代企业管理方法的发展，越来越多的企业开始注重企业文化建设，并渐渐将企业文化认同加入到招聘环节中，甚至将企业文化作为能否入职的一项必要因素。同时，随着越来越个性的90后等新生代职场力量的涌入，更多的求职者也不再单单只是考察企业的薪资一项指标，而更多的开始关注企业氛围、地理位置、办公环境等其他一系列软性条件。无论是企业还是求职者，都开始越来越重视企业的文化和氛围。

在互联网高速发展的今天，大量的企业也处于高速发展期，企业的规模不断膨胀，而如何将原始小团队的核心价值观融入到企业文化中，使企业不会由于外部不同文化新个体的加入而稀释企业的原有文化，成为人力资源中亟待解决的问题。

招聘作为企业人才甄选的第一道关卡，如何识别候选人符合公司的文化，寻找能在公司中能够持续稳定地贡献力量的潜在候选人，成为招聘专员的一项重要工作职责。对于候选人与企业文化的匹配度，目前很大程度还是依赖面试环节中招聘专员的主观判断，而面试环节往往耗时耗力，且主观因素较重，需要招聘专员对企业文化有深度的把握，并具有甄别人选的经验和技能，不可控因素较大，且无法批量复制。

很多企业都存在各项评定很优秀的候选人，也通过了层层面试，但由于与企业价值观不符，而被迫淘汰的情况。根据历史经验，这类人员即使勉强进入公司，由于与公司的目标和价值理念有较大偏差，其离职率一般也较高，平均在岗时间不到一年就会离开，给企业带来更大的损失(如：培训成本、未选用正确的人而丧失的机会成本等)。

在几年前大数据技术尚未成熟时，通过计算机分析简历数据还极其复杂和繁琐。首先，简历中仅有部分纯结构化的字段，大量的是文字性的自然语言描述，计算机无法有效提取其中有价值的信息；其次，简历中可提取的特征项多达上百项，进行向量运算时则达到上千纬度，再加上动辄几百万的数据样本，要分析的矩阵是极其庞大的，以原有的机器速度和软件结构难于支持如何庞大的数据分析，即使能够分析，其时效性也难于保障。

随着大数据技术、机器学习算法和自然语言处理技术的发展，分析海量数据成为可能，而简历中的数据价值也在不断被挖掘，使我们可以通过大数据分析的技术手段来识别候选人是否符合企业文化。

可见，现有技术中，存在人工劳动量大、可靠性低和精准性差等缺陷。

发明内容

本发明的目的在于，针对上述缺陷，提供一种信息匹配度的确定方法及系统，以解决现有技术中大量数据需要人工处理导致处理结果可靠性低的问题，达到提升可靠性的效果。

本发明提供一种信息匹配度的确定方法，包括：基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果；对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵；对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型；基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。

可选地，基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果，包括：加载所述单元中与所述信息适配的所有子信息；基于所属单元模型的预设条件进行筛选，得到与预设条件适配的筛选结果；按预设类别，对所述所有子信息进行分类，得到包含多类信息的分类结果；提取所属单元下，符合预设标准的关键单元样本特征，得到关键单元样本特征集合；将所属单元下的每个所述单元样本与预设标准对比，得到每个所述单元样本的所述标准权重；基于评测方法，得到所述单元样本的附加特征属性的评测模型。

可选地，对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵，包括：根据所述预设条件，对所述单元模型中的所有子信息进行样本分组；计算并得到所述单元中提取的单元样本数据类中心特征；对于每类信息，通过聚类处理和密度估计处理，得到所述每类信息在所述单元中的分类情况；在将所述分类情况、以及与所述分类情况适配的所述分析结果进行建模之前，通过聚类等处理剥离所述每类情况中的噪声；其中，所述聚类处理，包括：通过K-means、CURE的至少一种聚类算法进行处理。

可选地，根据预设条件进行筛选、权重分配，包括：基于降维算法处理所述单元样本数据矩阵，得到所属单元中所述关键单元样本的关键特征信息；其中，所述降维算法处理，包括：通过主成分分析法PCA、奇异值分解法SVD等的至少一种降维算法进行处理；基于概率模型处理所述单元样本数据矩阵，得到所属单元中所述单元样本的单元数据模型；其中，所述概率模型处理，包括：通过朴素贝叶斯、AdaBoost等的至少一种概率模型进行处理；将所述分组情况、以及与所述分组情况适配的所述单元模型进行映射，构建与所述预设特征适配的所述单元模型。。

可选地，基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果，包括：基于相似度算法，得到所述单元样本与所述关键单元样本的所述关键特征信息的相似度评分；基于所述单元模型，得到单元样本与所属单元的所述信息对应的匹配概率值；基于所述相似度评分及所述评测模型，得到单元样本与所属单元的所述信息对应的匹配评定结果。

与上述方法相匹配，本发明另一方面提供一种信息匹配度的确定系统，包括：基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果；对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵；对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型；基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。

可选地，所述样本加工单元，包括：加载模块，用于加载所述单元中与所述信息适配的所有子信息；筛选模块，用于基于所属单元模型的预设条件进行筛选，得到与预设条件适配的筛选结果；信息分类模块，用于按预设类别，对所述所有子信息进行分类，得到包含多类信息的分类结果；特征提取模块，用于提取所属单元下，符合预设标准的关键单元样本特征，得到关键单元样本特征集合；权重处理模块，用于将所属单元下的每个所述单元样本与预设标准对比，得到每个所述单元样本的所述标准权重；评测模块，用于基于评测方法，得到所述单元样本的附加特征属性的评测模型。

可选地，所述数据处理单元，包括：样本分组模块，用于根据所述预设条件，对所述单元模型中的所有子信息进行样本分组；数据计算模块，用于计算并得到所述单元中提取的单元样本数据类中心特征；数据分组模块，用于对于每类信息，通过聚类处理和密度估计处理，得到所述每类信息在所述单元中的分类情况；数据降噪模块，用于在将所述分类情况、以及与所述分类情况适配的所述分析结果进行建模之前，通过聚类等处理剥离所述每类情况中的噪声；其中，所述聚类处理，包括：通过K-means、CURE的至少一种聚类算法进行处理。

可选地，所述建模单元，包括：关键特征提取模块，用于基于降维算法处理所述单元样本数据矩阵，得到所属单元中所述关键单元样本的关键特征信息；其中，所述降维算法处理，包括：通过主成分分析法PCA、奇异值分解法SVD等的至少一种降维算法进行处理；概率模型建模模块，用于基于概率模型处理所述单元样本数据矩阵，得到所属单元中所述单元样本的单元数据模型；其中，所述概率模型处理，包括：通过朴素贝叶斯、AdaBoost等的至少一种概率模型进行处理；映射模块，用于将所述分组情况、以及与所述分组情况适配的所述单元模型进行映射，构建与所述预设特征适配的所述单元模型。

可选地，所述结果分析单元，还包括：相似度计算模块，用于基于相似度算法，得到所述单元样本与所述关键单元样本的所述关键特征信息的相似度评分；概率计算模块，用于基于所述单元模型，得到单元样本与所属单元的所述信息对应的匹配概率值；结果评定模块，用于基于所述相似度评分及所述评测模型，得到单元样本与所属单元的所述信息对应的匹配评定结果。

由此，本发明的方案，通过对大数据进行分析，并对分析所得信息的匹配度进行确定，解决现有技术中大量数据需要人工处理导致处理结果可靠性低的问题，从而，克服现有技术中人工劳动量大、可靠性低和精准性差的缺陷，实现人工劳动量小、可靠性高和精准性好的有益效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的信息匹配度的确定方法的一实施例的流程示意图；

图2为本发明的信息匹配度的确定方法的一实施例的企业文化匹配度数据建模流程示意图；

图3为本发明的信息匹配度的确定系统的一实施例的结构示意图。

结合附图，本发明实施例中附图标记如下：

102-样本加工单元；1022-加载模块；1024-筛选模块；1026-信息分类模块；1028-特征提取模块；1030-权重处理模块；1032-评测模块。

104-数据处理单元；1042-样本分组模块；1044-数据计算模块；1046-数据分组模块；1048-数据降噪模块。

106-建模单元；1062-关键特征提取模块；1064-概率模型建模模块；1066-映射模块。

108-结果分析单元；1082-相似度计算模块；1084-概率计算模块；1086-结果评定模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种信息匹配度的确定方法。参见图1所示本发明的方法的一实施例的流程示意图。该信息匹配度的确定方法可以包括：

在步骤S110处，基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果。

在一个可选例子中，步骤S110中进行样本加工，可以包括：

(1)加载所述单元中与所述信息适配的所有子信息。

(2)基于所属单元模型的预设条件进行筛选，得到与预设条件适配的筛选结果。

(3)按预设类别，对所述所有子信息进行分类，得到包含多类信息的分类结果。

(4)提取所属单元下，符合预设标准的关键单元样本特征，得到关键单元样本特征集合。

(5)将所属单元下的每个所述单元样本与预设标准对比，得到每个所述单元样本的所述标准权重。

(6)基于评测方法，得到所述单元样本的附加特征属性的评测模型。

在步骤S120处，对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵。

在一个可选例子中，步骤S120中进行数据处理，可以包括：

(1)根据所述预设条件，对所述单元模型中的所有子信息进行样本分组。

(2)计算并得到所述单元中提取的单元样本数据类中心特征。

(3)对于每类信息，通过聚类处理和密度估计处理，得到所述每类信息在所述单元中的分类情况。

(4)在将所述分类情况、以及与所述分类情况适配的所述分析结果进行建模之前，通过聚类等处理剥离所述每类情况中的噪声。

可选地，所述聚类处理，可以包括：通过K-means、CURE的至少一种聚类算法进行处理。

在步骤S130处，对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型。

在一个可选例子中，步骤S130中进行数据建模，可以包括：

(1)基于降维算法处理所述单元样本数据矩阵，得到所属单元中所述关键单元样本的关键特征信息。

可选地，所述降维算法处理，可以包括：通过主成分分析法PCA、奇异值分解法SVD等的至少一种降维算法进行处理。

(2)基于概率模型处理所述单元样本数据矩阵，得到所属单元中所述单元样本的单元数据模型。

可选地，所述概率模型处理，可以包括：通过朴素贝叶斯、AdaBoost等的至少一种概率模型进行处理。

(3)将所述分组情况、以及与所述分组情况适配的所述单元模型进行映射，构建与所述预设特征适配的所述单元模型。

在步骤S140处，基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。

在一个可选例子中，步骤S140中进行结果分析，可以包括：

(1)基于相似度算法，得到所述单元样本与所述关键单元样本的所述关键特征信息的相似度评分。

(2)基于所述单元模型，得到单元样本与所属单元的所述信息对应的匹配概率值。

(3)基于所述相似度评分及所述评测模型，得到单元样本与所属单元的所述信息对应的匹配评定结果。

在一个可选具体例子中，本实施例的技术方案，可以应用于大数据技术和HR招聘领域范畴。

例如：可以作为一种企业文化匹配度评定的方法和系统，主要应用于企业招聘环节的人才筛选、基于海量数据的人才推荐等，为企业文化的匹配提供一种量化的评定方法。

例如：可以利用个人特征，推演群体特征，进而构建企业文化的数据模型；从而实现企业文化匹配度的量化评定，为招聘环节的企业文化匹配提供数据支撑，辅助决策，提高招聘效率。

例如：通过大数据分析方法为企业筛选出符合本企业文化的求职者，为人员筛选提供数据支撑，提高招聘效率。主要可应用于：企业招聘环节的人才筛选、基于海量数据的人才推荐、企业人员流失预测等。

在一个可选具体例子中，本实施例的技术方案，应用于企业文化匹配度的评价时，具体可以包括以下几个方面：

㈠基本假设

俗话说物以类聚、人以群分，企业是由人组成的，是具有共同目的的人的聚合体，而企业文化的特征，很大程度是反映了企业中职工的共同特征，尤其是其中的资深员工，对企业的认同度和契合度很高，那么与这一类人具有相似特征的求职者则更容易符合企业的文化和氛围，也更容易进入这家公司(排除岗位需求因素)。

我们通常所说的门当户对其实也是这个道理通常所说的门当户对其实也是这个道理，有相似成长经历及环境的人，人生观价值观更容易契合，否则即使一时因某种机缘能在一起，长期来看，由于价值观的差距，对事物不同的认同态度会使这种摩擦和矛盾加剧，很难长久地走下去。对于企业也是一样的道理。

这里我们所说的企业文化是包括企业价值观、氛围、愿景、理念、对待员工的态度等等一系列软性东西的统称。而精神层面的东西，一般难于量化分析，甚至可能其中的员工自己也说不清楚。

而我们要度量的企业文化，是企业真正所具有的特性，可能是隐含的企业文化，而非宣扬的企业文化(如：口号、愿景等)。如：有的企业号称是互联网企业，一切以快速高效为目标，但实际内部管理官僚，办公室政治严重。而想找互联网企业的求职者进入这家公司，1～2个月内就会流失掉，因为实际的企业氛围与号称的企业氛围差异太大，对企业和员工都造成不必要的损失。例如：企业外部吸引的都是不契合的人，企业处于长期新入员工的大量流动，根本无法实现招收新员工带来的效率提升，同时需要老员工花费额外的时间对新员工培训、交接等，降低了企业的整体工作产出。而求职者则花费了几个月的时间才发现岗位并不合适，浪费了职业生涯的宝贵时间，甚至会给求职者打上不稳定人员的标签)

那么如何去描述一个企业中所有职工的共同特征呢？对于人来说，每个个体价值观的形成有很多因素，但主要集中在出生地、所受教育、成长经历、社会阶层、周围环境、工作地点等等，而这些信息大部分是可以从个人的简历中进行提取和挖掘的，简历是个人成长的一个缩影，我们可以通过简历的特征工程来细化职场人的画像，并将人的画像向量化，便于后续进行算法计算。

㈡员工权重分配

首先，选择一家企业，对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型，即根据样本库中各个简历中描述的过往工作经历，将曾在该企业中任职过或还在留任人员的简历筛选出来，并进行权重分配，分配规则如下：

企业中，任职时间低于1年的，说明企业认同度较低，可以从正样本中去除或加入负样本。对于负样本，由于其产生的原因复杂，可以是某几个方面不匹配的组合，直接分析的价值并不是太大，所以后续分析以正样本分析为主。

在企业中任职超过1年，低于5年的，可以认为是企业的主要力量，并有足够的企业价值认同，可按照在职工龄标定权重。

在企业中任职超过5年的，企业的价值观认同度较高，可适当增大权重。如果超过5年，且职位属于中高级以上职位的(如总监等)，这类人群往往是企业文化的传播者，有着更高的权重，计算权重可翻倍。而任职超过5年，且职位还处于初中级别的，往往属于老黄牛型员工，可根据企业倡导的价值观，适当调整权重比例(如：创新型企业需要降低这类人的权重，经营类企业可能需要增加权重)。

㈢企业结构分析

中型企业一般规模在100～500人左右，是较好的分析样本，通过历史简历的分析，可较好的识别出曾在该企业中任职的人员，一般有足够的分析样本。

由于企业中可能会有部分因特殊原因而一直留任的人员，这些人员在个体上可能不符合整体的企业文化，可以通过K-means、CURE等聚类算法尽量剥离这类噪声人员，减少特殊样本所产生的噪声，降低这类人员对企业整体建模的影响。

大型企业(500人以上)平均规模大致都在上千人左右，人员构成相对复杂，各个部门内部氛围可能差异较大，仅根据整体分类，模型会产生较大偏差，一般需要根据部门不同进行分类。如，大型制造企业，其中有蓝领工人，也有白领管理人员，各人群的汇聚因素原因和所具有的特质也不同，因此可以先按部门进行人员划分，然后应用聚类、密度估计等算法，查看在公司中群体的分类情况，然后再在不同分类中对简历进行分析建模，最后将分类与部门进行映射，构建不同部门的内部文化氛围模型，供求职者应聘不同部门岗位时进行匹配度预测。

跨国企业情况更为复杂，除部门、地域因素外，还与所在国家的文化差异有很大的影响。与大型企业处理类似，只是除从部门分类外，还应引入国家、地域等分类要素，应用聚类、密度估计等算法进行分组分类后，将分类与部门、国家、地域等进行映射。

需要注意，对于具有多重属性的企业(如：一家企业涉及制造业、泛娱乐业、地产、零售业等多行业领域)，需要分块进行分析处理。

小微企业、创业企业人数一般都较少，一般少于50人，这类企业由于样本数量有限，很难直接量化分析其中职员的情况(偏差较大)。但这类企业的企业文化其实是由公司的创始人或CEO决定的，其组建团队(尤其是高管团队)时，一般选择有相同价值观而能力互补的人，所以小微企业的文化是由创始人的特质决定的，也是企业的基因。但单独个体特征的提取其实无法断定主要的决定因素是什么，需要配合评测方法(如性格评测：MBTI、DISC)等辅助手段，进行评估。

成长型企业，规模在50～100人左右，相对小微或创业企业有一定的人员数据积累，但数据量相对中型企业还是不足。可以采用与小微或创业企业类似的方法，配合评测方法等辅助手段进行评估。区别在于不是仅仅评估创始人或CEO，而是评估所有高管团队的特性，然后取均值(类中心)构建模型。

㈣技术处理流程

本发明的技术处理流程可参见图2所示的例子，具体处理流程可以包括：

S01：首先对简历库进行特征工程，构建、选择、提取简历特征。

S02：选择一家企业，提取与该企业相关的所有简历(在职及历史上曾任职的人)。

S03：根据企业性质、规模判断企业所属的类别，主要分5种情况进行处理：小于50人的小微和创业企业(P1)、50～100人的成长型企业(P2)、100～500人的中型企业(P3)、500人以上的大型企业(P4)、跨国企业(P5)。

在一个可选例子中，对于P1小微和创业企业，执行S04→S07→S13→S16→S18步骤：

S04：提取企业的创始人或CEO简历。

S07：由于样本有限，需要配合评测方法(如性格评测：MBTI、DISC)等辅助手段，增加样本的特征。

S13：应用降维算法(如：主成分分析法PCA、奇异值分解法SVD)降低特征数量，提取有效的关键特征。

S16：计算目标简历与样本相似度(如：闵氏距离等)，作为一项企业文化匹配度依据。

S18：结合评测的相关算法(如：性格互补、个性配合等)综合评定人员的企业文化匹配度。

在一个可选例子中，对于P2成长型企业，执行S05→S07→S10→S13→S16→S18步骤：

S05：提取企业的高管团队简历。

S07：同P1的S07步骤，对于小样本，需要配合评测方法等辅助手段，增加样本的特征。

S10：利用算法计算高管团队简历矩阵的类中心，降低个体差异对整体的影响。也可根据情况，在S13降维之后进行计算。

S13：应用降维算法提取有效的关键特征。

S16：计算目标简历与样本相似度，作为一项企业文化匹配度依据。

S18：结合评测的相关算法综合评定人员的企业文化匹配度。

在一个可选例子中，对于P3中型企业，执行S06→S07(可选)→S12→S14→S17步骤：

S06：根据在职工龄计算该企业中人员简历的权重，权重参考样表如下，可根据不同企业情况进行权重或权重乘积系数调整：

S07(可选)：如果企业条件许可，可以在企业内分发评测试卷，配合评测方法等辅助手段，增加样本的特征，提高结果准确度。

S12：通过聚类算法(如：K-means、CURE等)尽量剥离样本中的噪声简历，降低特殊噪声对企业整体建模的影响。

S14：对简历集应用朴素贝叶斯、AdaBoost等算法建模。

S17：相应模型，计算目标简历企业文化的匹配度(符合正样本的概率)。

在一个可选例子中，对于P4大型企业，执行S06→S07(可选)→S08→S11→S12→S14→S15→S17步骤：

S06：根据在职工龄计算该企业中人员简历的权重，具体参考P3中型企业中S06步骤的处理。

S07(可选)：可以在企业内配合评测方法等辅助手段，增加样本的特征，提高结果准确度。

S08：将简历按照最后在职的所在部门进行分组。

S11：应用聚类、密度估计等算法，对简历进行分类分组，合并相似部门。

S12：在每个分组内，通过聚类算法剥离噪声简历。

S14：对每个分组简历集应用朴素贝叶斯、AdaBoost等算法建模。

S15：将每个分组模型与部门分组进行映射。

S17：根据目标简历应聘的部门，应用相应的模型，计算目标简历与企业文化的匹配度(概率)。

在一个可选例子中，对于P5跨国企业，执行S06→S07(可选)→S09→S11→S12→S14→S15→S17步骤：

S09：将简历按照最后在职的国家、地域、部门等特性进行分组。

S11：应用聚类、密度估计等算法，对简历进行分类分组，合并相似分组。

S12：在每个分组内，通过聚类算法剥离噪声简历。

S15：将每个分组模型与国家、地域、部门等分组特性进行映射。

S17：根据目标简历应聘的国家、地域、部门等，应用相应的模型，计算目标简历与企业文化的匹配度(概率)。

㈤应用方式

建模之后，可以计算投递简历的求职者符合企业文化的概率，判断求职者与企业文化的潜在匹配度。若属于正常范围，如：60％以上，则可以按正常流程安排面试等，若求职者与企业文化不符的概率较大，如：30％以下，可将HR环节前置，先由HR通过面试判断求职者是否符合企业文化，若不符则可以直接拒绝掉，避免后续面试环节不必要的耗费，从而整体上节省企业面试开销。(具体情况可根据企业情况进行建模测算，本处不在赘述。)

除面试环节的应用外，还可在简历库中批量测算符合企业文化的潜在候选人，再结合JD筛选的其他技术，从而快速找到符合企业要求的人选，进行人才的推荐。

对于企业中的员工，也可以应用模型，计算在职人员的企业文化认可度，从而发现潜在问题，改进企业管理方式或预测人员流失。

同时，推演的企业模型还可反作用于个人简历之上，根据个人经历情况，对供职过的企业赋予不同权重，进而将企业特性标签附加于个人简历之上，增加简历特征，完善人物画像。

综述，本发明是利用个人特征，推演群体特征，进而构建企业文化数据模型的一种方法。对小微企业、创业企业、成长型企业，通过抓取核心成员的特性，计算目标简历与样本简历的相似度，来预测与企业文化匹配的概率，同时还需要结合评测方法提高准确率。对于中型以上企业，则是通过先分组，然后在相似分组内应用概率模型计算目标简历与该分组的匹配概率，预测与企业文化匹配的程度(概率)。

但对于小样本的数据处理方式还有待继续改进，由于可参考数据有限，其必须借助评测等手段才能达到基本可用的准确率，而采取评测手段的成本相对较高，量化效益并不太好。后续可以考虑将相似小微企业进行分组处理，从而增加样本数量，提供准确率。

㈥实施例子

以某A企业为例，具体实施步骤如下：

首先对简历库进行特征工程，提取简历特征23项，向量化之后约5000+维提取A企业还在职的简历及曾在A企业任职的简历提取的简历数量为458份，目前在职简历207份，A企业规模属于100～500人的中型企业A企业目前成立6年，分配权重如下：

通过聚类算法K-means进行降噪，剥离离群数据约14个，剩余有效样本133个应用朴素贝叶斯算法建模，存储企业的匹配度模型将新的简历应用匹配度模型，计算目标简历与企业的匹配概率，如：XXX，男，1991年11月，2年工作经验，北京，本科……匹配概率67％。

结果分析：根据新入简历的匹配度概率分析，匹配度70％以上都是年纪稍大且稳定的人员，所以这是一家相对保守的传统型公司，90后新入员工离职率较高，更偏重于80后且过往经历相对稳定的人员。以目前在职的207人，其中40多人的匹配概率都低于50％，且入职时间不长，新入员工的稳定性较差，长期如此必将面临人员大面积流动而无法为企业创收的困扰。

㈦比现有技术的改进

针对企业文化匹配的筛选，稍大一些的公司已经开始重视，而大部分中小企业还没有能力去做这个事情。重视企业文化的公司，目前一般处理方式都是在面试中增加一个环节，由HR或HRD对候选人进行价值观的人为判断，主观因素较重，HR的工作量也较大，无法批量复制，所以目前采用这种方式时一般也把这个步骤放在最后，以减少HR的工作量。

本发明利用个人特征，推演群体特征，构建企业文化的数据模型,实现企业文化匹配度的量化评定，为招聘环节的企业文化匹配提供数据依据。通过这种方式，可以计算候选人与企业文化的匹配度，若候选人与企业文化符合的概率较低，可将HR环节前置，先由HR通过面试判断候选人是否符合企业文化，若不符则可以直接拒绝掉，避免后续面试环节不必要的耗费，从而在整体上节省企业面试开销。

目前初步的算法准确度大致在76％左右，但已可以至少提供HR28％的效率，后续在算法的准确度上还可以进行提高，以便更好地提高招聘环节效率。

经大量的试验验证，采用本发明的技术方案，通过对大数据进行分析，并对分析所得信息的匹配度进行确定，有利于提升大数据分析的可靠性和精准性，进而提升用户体验。

根据本发明的实施例，还提供了对应于信息匹配度的确定方法的一种信息匹配度的确定系统。参见图3所示本发明的系统的一实施例的结构示意图。该信息匹配度的确定系统可以包括：样本加工单元102、数据处理单元104、建模单元106、结果分析单元108。

在一个可选实施方式中，样本加工单元102，可以用于基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果。

可选地，所述样本加工单元102，可以包括：加载模块1022、筛选模块1024、信息分类模块1026、特征提取模块1028、权重处理模块1030和评测模块1032。

在一个可选例子中，加载模块1022，可以用于加载所述单元中与所述信息适配的所有子信息。

在一个可选例子中，筛选模块1024，可以用于基于所属单元模型的预设条件进行筛选，得到与预设条件适配的筛选结果。

在一个可选例子中，信息分类模块1026，可以用于按预设类别，对所述所有子信息进行分类，得到包含多类信息的分类结果。

在一个可选例子中，特征提取模块1028，可以用于提取所属单元下，符合预设标准的关键单元样本特征，得到关键单元样本特征集合。

在一个可选例子中，权重处理模块1030，可以用于将所属单元下的每个所述单元样本与预设标准对比，得到每个所述单元样本的所述标准权重。

在一个可选例子中，评测模块1032，可以用于基于评测方法，得到所述单元样本的附加特征属性的评测模型。

在一个可选实施方式中，数据处理单元104，可以用于对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵。

可选地，所述数据处理单元104，可以包括：样本分组模块1042、数据计算模块1044、数据分组模块1046和数据降噪模块1048。

在一个可选例子中，样本分组模块1042，可以用于根据所述预设条件，对所述单元模型中的所有子信息进行样本分组。

在一个可选例子中，数据计算模块1044，可以用于计算并得到所述单元中提取的单元样本数据类中心特征。

在一个可选例子中，数据分组模块1046，可以用于对于每类信息，通过聚类处理和密度估计处理，得到所述每类信息在所述单元中的分类情况。

在一个可选例子中，数据降噪模块1048，可以用于在将所述分类情况、以及与所述分类情况适配的所述分析结果进行建模之前，通过聚类等处理剥离所述每类情况中的噪声。

更可选地，所述数据降噪模块1048的所述聚类处理，可以包括：通过K-means、CURE的至少一种聚类算法进行处理。

在一个可选实施方式中，建模单元106，可以用于对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型。

建模单元106，可以包括：关键特征提取模块1062、概率模型建模模块1064和映射模块1066。

在一个可选例子中，关键特征提取模块1062，可以用于基于降维算法处理所述单元样本数据矩阵，得到所属单元中所述关键单元样本的关键特征信息。

更可选地，所述关键特征提取模块1062的所述降维算法处理，可以包括：通过主成分分析法PCA、奇异值分解法SVD等的至少一种降维算法进行处理。

在一个可选例子中，概率模型建模模块1064，可以用于基于概率模型处理所述单元样本数据矩阵，得到所属单元中所述单元样本的单元数据模型。

更可选地，所述概率模型建模模块1064的所述概率模型处理，可以包括：通过朴素贝叶斯、AdaBoost等的至少一种概率模型进行处理。

在一个可选例子中，映射模块1066，可以用于将所述分组情况、以及与所述分组情况适配的所述单元模型进行映射，构建与所述预设特征适配的所述单元模型。

在一个可选实施方式中，结果分析单元108，可以用于基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。

可选地，所述结果分析单元108，可以包括：相似度计算模块1082、概率计算模块1084和结果评定模块1086。

在一个可选例子中，相似度计算模块1082，可以用于基于相似度算法，得到所述单元样本与所述关键单元样本的所述关键特征信息的相似度评分。

在一个可选例子中，概率计算模块1084，可以用于基于所述单元模型，得到单元样本与所属单元的所述信息对应的匹配概率值。

在一个可选例子中，结果评定模块1086，可以用于基于所述相似度评分及所述评测模型，得到单元样本与所属单元的所述信息对应的匹配评定结果。

由于本实施例的系统所实现的处理及功能基本相应于前述图1至图2所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

综上，本领域技术人员容易理解的是，在不冲突的前提下，上述各有利方式可以自由地组合、叠加。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种信息匹配度的确定方法，其特征在于，包括：

基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果；

对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵；

对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型；

基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。

2.根据权利要求1所述的方法，其特征在于，基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果，包括：

加载所述单元中与所述信息适配的所有子信息；

基于所属单元模型的预设条件进行筛选，得到与预设条件适配的筛选结果；

按预设类别，对所述所有子信息进行分类，得到包含多类信息的分类结果；

提取所属单元下，符合预设标准的关键单元样本特征，得到关键单元样本特征集合；

将所属单元下的每个所述单元样本与预设标准对比，得到每个所述单元样本的所述标准权重；

基于评测方法，得到所述单元样本的附加特征属性的评测模型。

3.根据权利要求1或2所述的方法，其特征在于，对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵，包括：

根据所述预设条件，对所述单元模型中的所有子信息进行样本分组；

计算并得到所述单元中提取的单元样本数据类中心特征；

对于每类信息，通过聚类处理和密度估计处理，得到所述每类信息在所述单元中的分类情况；

在将所述分类情况、以及与所述分类情况适配的所述分析结果进行建模之前，通过聚类等处理剥离所述每类情况中的噪声；其中，所述聚类处理，包括：通过K-means、CURE的至少一种聚类算法进行处理。

4.根据权利要求1-3之一所述的方法，其特征在于，根据预设条件进行筛选、权重分配，包括：

基于降维算法处理所述单元样本数据矩阵，得到所属单元中所述关键单元样本的关键特征信息；其中，所述降维算法处理，包括：通过主成分分析法PCA、奇异值分解法SVD等的至少一种降维算法进行处理；

基于概率模型处理所述单元样本数据矩阵，得到所属单元中所述单元样本的单元数据模型；其中，所述概率模型处理，包括：通过朴素贝叶斯、AdaBoost等的至少一种概率模型进行处理；

将所述分组情况、以及与所述分组情况适配的所述单元模型进行映射，构建与所述预设特征适配的所述单元模型。

5.根据权利要求1-4之一所述的方法，其特征在于，基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果，包括：

基于相似度算法，得到所述单元样本与所述关键单元样本的所述关键特征信息的相似度评分；

基于所述单元模型，得到单元样本与所属单元的所述信息对应的匹配概率值；

基于所述相似度评分及所述评测模型，得到单元样本与所属单元的所述信息对应的匹配评定结果。

6.一种信息匹配度的确定系统，其特征在于，包括：

样本加工单元，用于基于所述信息所属单元，提取所属单元下的单元样本，根据预设条件进行筛选、权重分配，得到与预设条件适配的所述单元样本的筛选结果；

数据处理单元，用于数据处理单元，用于对所述筛选结果进行数据加工、数据降噪，得到所述单元样本的数据矩阵；

建模单元，用于对所述数据矩阵运用相应建模算法，得到与所属单元适配的单元模型；

结果分析单元，基于所述单元模型，对所述单元样本进行计算，得到单元样本与所属单元的所述信息对应的匹配结果。

7.根据权利要求6所述的系统，其特征在于，所述样本加工单元，包括：

加载模块，用于加载所述单元中与所述信息适配的所有子信息；

筛选模块，用于基于所属单元模型的预设条件进行筛选，得到与预设条件适配的筛选结果；

信息分类模块，用于按预设类别，对所述所有子信息进行分类，得到包含多类信息的分类结果；

特征提取模块，用于提取所属单元下，符合预设标准的关键单元样本特征，得到关键单元样本特征集合；

权重处理模块，用于将所属单元下的每个所述单元样本与预设标准对比，得到每个所述单元样本的所述标准权重；

评测模块，用于基于评测方法，得到所述单元样本的附加特征属性的评测模型。

8.根据权利要求6或7所述的系统，其特征在于，所述数据处理单元，包括：

样本分组模块，用于根据所述预设条件，对所述单元模型中的所有子信息进行样本分组；

数据计算模块，用于计算并得到所述单元中提取的单元样本数据类中心特征；

数据分组模块，用于对于每类信息，通过聚类处理和密度估计处理，得到所述每类信息在所述单元中的分类情况；

数据降噪模块，用于在将所述分类情况、以及与所述分类情况适配的所述分析结果进行建模之前，通过聚类等处理剥离所述每类情况中的噪声；其中，所述聚类处理，包括：通过K-means、CURE的至少一种聚类算法进行处理。

9.根据权利要求6-8之一所述的系统，其特征在于，所述建模单元，包括：

关键特征提取模块，用于基于降维算法处理所述单元样本数据矩阵，得到所属单元中所述关键单元样本的关键特征信息；其中，所述降维算法处理，包括：通过主成分分析法PCA、奇异值分解法SVD等的至少一种降维算法进行处理；

概率模型建模模块，用于基于概率模型处理所述单元样本数据矩阵，得到所属单元中所述单元样本的单元数据模型；其中，所述概率模型处理，包括：通过朴素贝叶斯、AdaBoost等的至少一种概率模型进行处理；

映射模块，用于将所述分组情况、以及与所述分组情况适配的所述单元模型进行映射，构建与所述预设特征适配的所述单元模型。

10.根据权利要求6-9之一所述的系统，其特征在于，所述结果分析单元，还包括：

相似度计算模块，用于基于相似度算法，得到所述单元样本与所述关键单元样本的所述关键特征信息的相似度评分；

概率计算模块，用于基于所述单元模型，得到单元样本与所属单元的所述信息对应的匹配概率值；

结果评定模块，用于基于所述相似度评分及所述评测模型，得到单元样本与所属单元的所述信息对应的匹配评定结果。