CN111798217A

CN111798217A - 数据分析系统及方法

Info

Publication number: CN111798217A
Application number: CN202010660768.7A
Authority: CN
Inventors: 吴晓军
Original assignee: Hebei Jilian Human Resources Service Group Co ltd
Current assignee: Hebei Jilian Human Resources Service Group Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-20
Anticipated expiration: 2040-07-10

Abstract

本公开提供了一种数据分析系统，用于分析判断求职者与目标岗位匹配程度，其特征在于，包括：基础资料获取单元，获取求职者在公司登记的基础数据，得到基础资料；公开资料获取单元，爬取在公开网络上的与求职者有关的数据，得到公开资料；面试记录单元，用于记录面试时求职者与面试官的对话文本，得到面试资料；数据预处理单元，分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征；数据分析单元，处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数。本公开还提供了一种数据分析方法。

Description

数据分析系统及方法

技术领域

本公开涉及互联网信息处理技术领域，更具体地，涉及一种自动分析判断求职者与目标岗位匹配程度的系统、方法、电子设备及计算机可读介质。

背景技术

在现有的提供互联网招聘服务的网站中，常规模式是，招聘方发布职位，职位都较详细的描述了职位的行业背景、技能需求、地点、薪资等。感兴趣的求职者投递自己的简历，招聘方筛选简历，组织面试等。这样的模式比较合适白领工作，岗位对职业技能要求较高，同时对于招聘方和求职者来说，都希望是一个较长期的工作。

由此可见，这对于蓝领工作、短期工作、临时工作、兼职工作来说，显得非常不合适，也很麻烦。对于这类工作，主要看职位名称，就基本可以确定工作是干什么的，自己是否能否做，感兴趣做。比如，水工、电工、泥瓦工、保姆等。同时这些求职者的个人简历也无需与传统的求职网站中设置的标准简历格式一样的繁琐，只列出个人基本信息和与求职职位相关的工作经验，基本就可以了。

传统求职网站针对详细的职位描述和求职者详细的简历而设计的推荐算法，遇到这些简要的职位描述和简要的个人简历，由于可分析的数据很少，推荐效果并不好。而且，蓝领短期工可能更看重的是工作的薪资、工作时间、地点等与自己的期望是否符合，对其他要求并不高，传统推荐算法所考虑的维度，并不合适。

由此可见，急需一种适合蓝领短期工的数据分析系统和方法，自动分析判断求职者与目标岗位匹配程度，减少面试工作量，提高招聘效率。

发明内容

有鉴于此，本公开实施例的目的在于提供数据分析系统及方法，通过求职者简历、公开资料以及面试记录文本，分析判断得到求职者与目标岗位匹配程度，从而有利于招聘方在众多求职者中遴选出更合适的求职者，提高招聘的效率。

根据本公开的第一方面，提供了一种数据分析系统，用于分析判断求职者与目标岗位匹配程度，其特征在于，包括：

基础资料获取单元，获取求职者在公司登记的基础数据，得到基础资料；

公开资料获取单元，爬取在公开网络上的与求职者有关的数据，得到公开资料；

面试记录单元，用于记录面试时求职者与面试官的对话文本，得到面试资料；

数据预处理单元，分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征；

数据分析单元，处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数。

在一个可能的实施例中，所述的数据分析系统，所述数据预处理单元包括：

文本分类单元，用于将所述基础资料、公开资料以及面试资料按照语义分类，得到与判断岗位匹配程度有关的文本的属性；

数值匹配单元，用于将所述文本的属性与其对应的数值匹配，得到待匹配特征。

置信度计算单元，用于分析所述待匹配特征的可信度，生成置信度分数。

在一个可能的实施例中，所述数据分析单元还包括面试培训分析单元，用于：

获取多个申请同一职位的求职者的匹配程度分数；

将各个求职者的匹配程度分数按照降序排序；

对排在前面的第一阈值范围内的求职者，进行面试培训分析，得到面试培训分数；

对面试培训分数超过第二阈值的求职者，做出需要进行再一次面试的提示。

在一个可能的实施例中，所述数据分析单元还用于，根据求职者第二次面试的记录，更新该求职者的匹配程度分数。

在一个可能的实施例中，所述数据分析单元是利用神经网络算法实现的，包括依次连接的输入层、特征层、卷积层、池化层、非线性变换层和分类层。

根据本公开的第二方面，提供了一种用于训练所述数据分析系统的训练方法，所述方法包括：基于以下损失函数调整所述数据分析系统的参数：

y_i是词向量的目标序列(y_i1，y_i2，y_i3，…y_ic)

P_ij.i元素在j分类的概率，τ是超参数。

根据本公开的第三方面，提供了一种数据分析方法，用于分析判断求职者与目标岗位匹配程度，其特征在于，包括：

获取求职者在公司登记的基础数据，得到基础资料；

爬取在公开网络上的与求职者有关的数据，得到公开资料；

记录面试时求职者与面试官的对话文本，得到面试资料；

分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征；

处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数。

在一个可能的实施例中，所述分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征包括：

将所述基础资料、公开资料以及面试资料按照语义分类，得到与判断岗位匹配程度有关的文本的属性；

将所述文本的属性与其对应的数值匹配，得到待匹配特征。

分析所述待匹配特征的可信度，生成置信度分数。

在一个可能的实施例中，还包括：

获取多个申请同一职位的求职者的匹配程度分数；

将各个求职者的匹配程度分数按照降序排序；

在一个可能的实施例中，所述的数据分析方法，还包括，根据求职者第二次面试的记录，更新该求职者的匹配程度分数。

在一个可能的实施例中，所述处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数是利用神经网络算法实现的，包括依次连接的输入层、特征层、卷积层、池化层、非线性变换层和分类层。

根据本公开的第四方面，提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第二方面所述的方法。

根据本公开的第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行如第二方面所述的方法。

本公开实施例提供的数据分析系统和方法，将求职者的简历、从公开资料中获取的数据、以及面试记录文本，通过数据预处理，提取出这些数据蕴含的与职位有关的属性以及属性的值，再通过置信度的计算，判断这些信息的可信度，再通过数据分析，计算出求职者与目标岗位的匹配程度。特别的，本公开描述的系统和方法还可以通过面试培训分析单元，计算求职者是否参加过面试培训，所以才会在面试中表现的更出色。对于疑似参加过面试培训的求职者，提示招聘方注意。

本公开的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本公开实施例的典型的招聘网站的职位的示意图。

图2示出了根据本公开实施例的数据分析系统的示意图。

图3示出了根据本公开实施例的属性和属性的值的示意图。

图4示出了根据本公开实施例的神经网络的示意图。

图5示出了根据本公开实施例的损失函数正样本的示意图。

图6示出了根据本公开实施例的损失函数负样本的示意图。

图7示出了根据本公开实施例的数据分析方法的示意图。

图8示出了用于实现本公开实施例的电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

随着技术的发展，人们在手机端、电脑端通过互联网找工作，招聘方在互联网上发布职位需求，变得越来越普遍。一些短期工作、临时工作、兼职工作，由于与日常生活非常贴近，其职位介绍、技能无需再进行描述。

图1示出了根据本公开实施例的典型的招聘网站的职位的示意图。常规的招聘方发布的职位，一般包含职位名称、职位描述、公司、行业等。其中职位描述会具体说明岗位职责、岗位要求等内容。

但针对蓝领的短期工作，职位描述并不重要，所以在最醒目的地方是职位名称和每天或每次的薪资。

由于没有对职位的描述，职位名称必须精确且简洁。同时，应聘这些工作的求职者的简历，也相对很简单，基本都是个人基础信息，没有对工作技能、工作经验的详细描述。这些都对自动判断求职者与目标岗位的匹配程度带来了一定的难度。

有鉴于此，本公开提供了一种数据分析系统和方法，自动计算出求职者与目标岗位的匹配程度，提高了招聘方的招聘效率。

图2示出了根据本公开实施例的数据分析系统200的示意图。系统200包括基础资料获取单元201、公开资料获取单元202、面试记录单元203、数据预处理单元204、数据分析单元205。

基础资料获取单元201用于获取求职者电子简历，录入终端设备的纸质简历，或者求职者口述的简历，转化为文本。本文不做过多限制。

基础资料信息已经经过了加工整理，其数据格式规范，可以包括：个人基本信息(性别、年龄、婚育情况等)、家庭住址、工作经验、如何得知该职位，常用求职网站等。

图3示出了根据本公开实施例的属性和属性的值的示意图。属性为反应事物特征的抽象名称，属性的值为其对应的数值或描述。例如，工资为属性，属性的值为10000。上班方式为属性，属性的值为地铁。

公开资料获取单元202利用爬虫网络技术抓取求职者在网上留下的信息，例如，获取求职者的聊天记录、社交媒体(微博、微信等)、短视频网站、体育、娱乐、BBS等。

爬虫技术是基于SCRAPY的爬虫框架的现有技术，实现对网络中求职者的职位数据、简历数据、聊天记录的爬取。可以想到的是，爬取的数据格式不规范，聊天记录中也可能包含大量有用的信息。数据的属性，与属性的值，可能出现在一句话中，也可能出现在多句问答之中。

例如，在爬取的信息是在一段聊天中：

A：你不如转行做电工吧，电工工资高？

B：我可以吗，以前没做过。

A:当学徒半年，家庭装修走电很容易的。

B:好吧，我试试。

假设这段话的时间标签是2017年1月，现在是2020年，对招聘方来说，就出现了很重要的信息，就是B的电工经验是否可信。如果此时B的简历填写电工经验5年，那可信度很低。

面试记录单元203通过记录求职者与面试官的语音记录，生成对应的文本数据。

数据预处理单元204接收来自基础资料获取单元201的基础资料、公开资料获取单元202的公开资料和面试记录单元203的面试资料，识别出与待分析的求职者相关的数据。识别爬取的公开资料与待分析求职者员工是否相关的方法可以是检测用户ID、个人资料是否匹配等。例如有招聘社区的求职者个人页面的资料与基础资料特征中的信息完全匹配，可以认为是一个人，则其在招聘社区的用户ID会被锁定，其用户ID在该网络社区，以及其他网站发表的信息，都会被认为是同一个人。现在很多网站是授权微信、微博等账号登录，这些账户在不同网站发表的信息，都被认为是同一个人。识别爬取的数据与分析求职者是否相关的方法，本公开不做限制。

数据预处理单元204包括文本分类单元2041，对接收到的基础资料获取单元201的基础资料、公开资料获取单元202的公开资料和面试记录单元203的面试资料，进行语义分类，将数据打上不同的标签。

例如，对于一段爬取到的待分析求职者B的聊天记录：

A：你不如转行做电工吧，电工工资高？

B：我可以吗，以前没做过。

A:当学徒半年，家庭装修走电很容易的。

B:好吧，我试试。

【时间标签：2017年1月1日】

文本分类单元2041将其分类成工作经验，即属性为工作经验，对应的值是3.5年(假设现在是2020年6月)。

数据预处理单元204还包括数值匹配单元2042，将文本分类单元2041得到的多个属性与属性的值匹配，其方法可以是从原始文本中匹配和标签语义相近的词语，然后再定位的词语的附近查询相关联的数值，某些数值也可以由文本分类单元2041直接分析得出。关于匹配的方法，本公开不做限制。

数据预处理单元204还包括置信度计算单元2043。置信度计算单元2043交叉验证基础资料、公开资料、面试记录的信息中有无重复项，例如有多个家庭住址，目标薪资，工作年限等，以时间标签最新的为准，剔除时间标签在前的重复项。例如：2018年登记的地址是A小区，2020年登记的地址是B小区，则删除A小区，在数据对中保留B小区。

如果对于可以由文本分类单元2041直接分析出的属性的值，置信度计算单元2043会直接替换求职者自己填写的数据。例如上述例子中，求职者填写的电工的工作经验是5年，而分析出的求职者的该经验不可能超过3.5年，则属性的值会更改为3.5年，同时置信度会降低为0.5，这带有了惩罚性。

对于同类特征中，例如电工工作经验中，多个语料中出现了3年，只有一个语料出现了5年，则可以判断出员工更多的是3年的工作经验。对于上述最大3.5年的工作经验，可以进一步降低其置信度。关于判断置信度的方法，可以是统计学中的任何方法，也可以是其他方法，本公开不做限制。

最终，数据预处理单元204将属性、属性的值，置信度组合起来，形成数据向量的形式。例如：(工作经验，3年，0.4)，该数据向量称为待匹配特征。

在一个可能的实施例中，文本分类单元2041可以是利用神经网络算法实现的，包括依次连接的卷积层、池化层、基于变体ReLU函数的非线性变换层和权值非线性层。

计算每一个分类类别时，取目标词的一个特定的窗口尺寸范围内的上下文词被作为输入；对于邻近句子开头或句子结束的词，填充0以保证所有词的输入向量为固定长度；在输入窗口中的每个词可被映射到N维向量，N是词向量维数；然后，卷积层产生对应于隐藏节点的全局化特征；这些特征会被输送到池化层，然后通过一个非线性变化层和一个权值非线性层。最后，这些包括局部特征和全局特征的特征会一并送入一个标准的放射网络，将最后一层经过特征提取的隐函数值乘以一定的权重w_i，反向输出至线性神经单元，即池化层，以实现对有价值的信息进行重复利用，增加在整体信息中的权重。使用反向传播算法进行训练至整个网络合适稳定的水平。

卷积层的卷积核，对判断离职密切相关的语言会特别注意，并提取出来，作为局部特征。

局部特征：与判断离职密切相关的属性，例如，工资，公司，职位等等。

非线性神经元的激活函数为变体的Relu函数，激活函数的公式如下

实际的训练中发现，数据出现负值的情况非常多，常用的激活函数容易出现饱和，导致训练效果不佳，得不到合适的神经网络参数。

变体的ReLu函数，其负半轴较其他Relu函数更为陡峭，误差梯度下降更快，训练速度更快，调参效果更好。

其他在x＜0时，另斜率更陡峭的函数也适合，例如

或者，

数据分析单元205利用深度学习神经网格模型，对多个待匹配特征进行分析，得到关于求职者与目标岗位的匹配程度分数。

图4示出了根据本公开实施例的深度学习神经网络的示意图，应用于数据分析单元205。

本公开通过对神经网络的训练，调整参数其达到最佳效果。其中特征层利用高效的特征函数，从句子中抽取高级语义信息。将输入的文本分成k个特征矩阵。卷积层利用不同的卷积核，在k个特征矩阵上滑动，每一个卷积核提取到n-gram的词向量。池化层将不同长度的词向量映射到同一长度，同时降低了维度。非线性层通过激活函数将词向量压缩至0-1的区间。特别的，在训练过程中，为了提高难以区别的求职者作为的学徒经验和求职者作为独立工作者的经验的分类准确度，特别添加了带有惩罚项的损失函数。

y_i是词向量的目标序列(y_i1，y_i2，y_i3，…y_ic)

P_ij是i元素在j分类的概率。τ是超参数，(1-P_ij)^τ的作用是，对分类结果的错误进行惩罚。对于一些较难区分，易错的分类结果，例如求职者作为的学徒经验与求职者作为独立工作者的经验在分类时，如果分错，会调整超参数加大，造成损失增大，模型会训练出更精细的分类学徒经验与独立经验的标签。

图5示出了根据本公开实施例的损失函数正样本的示意图。显然，越接近真实样本标签1，损失函数L越小；越接近-1，L越大。

图6示出了根据本公开实施例的损失函数负样本的示意图。越接近真实样本标签-1，损失函数L越小；越接近+1，L越大。

在一个可能的实施例中，数据分析单元205还包括面试培训分析单元2052，用于对求职者是否参加过面试培训进行分析。面试培训分析单元2052获取多个申请同一职位的求职者的匹配程度分数。比如一共有10个求职者，对这10个求职者的匹配程度分数进行降序排列。假设设定的阈值为70，则筛选出求职者的匹配程度分数大于或等于70的求职者。将这些求职者的面试记录文本再次进行分析，与收集到的市面上的常规面试培训的话术进行相似度计算，得到的相似度如果大于预先设置的阈值，则发出提示，有可能该求职者参加过面试培训，需要改变面试策略再次进行面试。相似度计算的方法可以是常见文本相似度的计算方法，本公开不做限制。

如果求职者进行了第二次面试，则将第二次面试的记录输入面试记录单元203，删除第一次的面试记录文本，通过数据预处理单元204和数据分析单元205进行处理，重新生成求职者与目标岗位的匹配程度分数。

本公开描述的系统可以批量处理大量的求职者数据，得到的求职者与目标岗位的匹配程度分数可以供招聘方参考，可以为招聘方节省大量的时间，提高招聘效率。本公开的神经网络模型是针对蓝领工作、短期工作的特点，对模型进行特别训练和优化的，对于常见的蓝领工作、与蓝领、短期工有关的需要鉴别的文本的语义有着高效的特征提取和处理的功能。

图7示出了根据本公开实施例的数据分析方法的示意图。

一种数据分析方法，用于分析判断求职者与目标岗位匹配程度，其特征在于，包括：

步骤701获取求职者在公司登记的基础数据，得到基础资料；

步骤702爬取在公开网络上的与求职者有关的数据，得到公开资料；

步骤703记录面试时求职者与面试官的对话文本，得到面试资料；

步骤704分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征；

步骤705处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数。

在一个可能的实施例中，步骤704中，所述分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征包括：

将所述文本的属性与其对应的数值匹配，得到待匹配特征。

分析所述待匹配特征的可信度，生成置信度分数。

在一个可能的实施例中，步骤705之后，还可以包括如下步骤：

获取多个申请同一职位的求职者的匹配程度分数；

将各个求职者的匹配程度分数按照降序排序；

在一个可能的实施例中，步骤705还包括，根据求职者第二次面试的记录，更新该求职者的匹配程度分数。

在一个可能的实施例中，在步骤705中，所述处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数是利用神经网络算法实现的，包括依次连接的输入层、特征层、卷积层、池化层、非线性变换层和分类层。

图8示出了用于实现本公开的实施例的电子设备的结构示意图。如图8所示，电子设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该指令被中央处理单元(CPU)801执行时，执行本公开中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本公开构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种数据分析系统，用于分析判断求职者与目标岗位匹配程度，其特征在于，包括：

2.如权利要求1所述的数据分析系统，所述数据预处理单元包括：

3.如权利要求2所述的数据分析系统，所述数据分析单元还包括面试培训分析单元，用于：

获取多个申请同一职位的求职者的匹配程度分数；

将各个求职者的匹配程度分数按照降序排序；

4.如权利要求3所述的数据分析系统，所述数据分析单元还用于，根据求职者第二次面试的记录，更新该求职者的匹配程度分数。

5.一种用于训练如权利要求1所述的数据分析系统的训练方法，所述方法包括：基于以下损失函数调整所述数据分析系统的参数：

y_i是词向量的目标序列(y_i1，y_i2，y_i3，…y_ic)

P_ij是i元素在j分类的概率，τ是超参数。

6.一种数据分析方法，用于分析判断求职者与目标岗位匹配程度，其特征在于，包括：

获取求职者在公司登记的基础数据，得到基础资料；

爬取在公开网络上的与求职者有关的数据，得到公开资料；

记录面试时求职者与面试官的对话文本，得到面试资料；

7.如权利要求6所述的数据分析方法，所述分类并匹配所述基础资料、公开资料以及面试资料中数据的属性和属性的值，得到多个待匹配特征包括：

将所述文本的属性与其对应的数值匹配，得到待匹配特征。

分析所述待匹配特征的可信度，生成置信度分数。

8.如权利要求7所述的数据分析方法，还包括：

获取多个申请同一职位的求职者的匹配程度分数；

将各个求职者的匹配程度分数按照降序排序；

9.如权利要求8所述的数据分析方法，还包括，根据求职者第二次面试的记录，更新该求职者的匹配程度分数。

10.如权利要求6所述的数据分析方法，所述处理所述多个待匹配特征，输出求职者与目标岗位的匹配程度分数是利用神经网络算法实现的，包括依次连接的输入层、特征层、卷积层、池化层、非线性变换层和分类层。