CN105868183A - 一种预测员工离职的方法及装置 - Google Patents
一种预测员工离职的方法及装置 Download PDFInfo
- Publication number
- CN105868183A CN105868183A CN201610300968.5A CN201610300968A CN105868183A CN 105868183 A CN105868183 A CN 105868183A CN 201610300968 A CN201610300968 A CN 201610300968A CN 105868183 A CN105868183 A CN 105868183A
- Authority
- CN
- China
- Prior art keywords
- text
- communication
- predicted
- employee
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004891 communication Methods 0.000 claims abstract description 149
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 4
- 230000007306 turnover Effects 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 59
- 239000000284 extract Substances 0.000 claims description 13
- 238000003064 k means clustering Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 6
- 230000013011 mating Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种预测员工离职的方法及装置,通过获取待预测员工的历史通讯记录,并将历史通讯记录转换为文本格式的通讯文本记录,对通讯文本记录进行分词,获得分词文本,将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本,提取匹配文本的特征向量,获得通讯文本记录的文本特征向量,根据文本特征向量,以及预先训练的分类模型,确定待预测员工是否有离职意向,解决了如何预测员工离职的技术问题,实现了根据待预测员工的历史通讯记录就能对其是否有离职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离职率。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种预测员工离职的方法及装置。
背景技术
尽管员工离职现象在企业中可谓是司空见惯,但或多或少企业会因为出现员工离职现象而措手不及。例如,当重要岗位的员工突然离职,且企业没有针对该重要岗位设置相应的人才储备或刚好碰上人才招聘低迷期时,便很难即时招聘到任职该重要岗位的新员工,从而影响企业的正常运作或工作进展。
此外,较大的离职率对企业本身的发展也不利,因为企业往往需要花费较多的时间成本或甚至更大的工资成本去招聘新的员工。但倘若在员工离职之前就能预测员工是否有离职意向,这样就能针对一些优秀的管理或技术人员采取相应的安抚或挽留手段,从而保证企业的正常运作或工作进展,以及减少重新招聘新员工的时间和人力成本。所以,亟需提供一种能预测员工离职的方法及装置。
发明内容
本发明提供了一种预测员工离职的方法,以解决如何预测员工离职的技术问题。
根据本发明的一方面,提供了一种预测员工离职的方法,包括:
获取待预测员工的历史通讯记录,并将历史通讯记录转换为文本格式的通讯文本记录;
对通讯文本记录进行分词,获得分词文本;
将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本;
提取匹配文本的特征向量,获得通讯文本记录的文本特征向量;
根据文本特征向量,以及预先训练的分类模型,确定待预测员工是否有离职意向。
进一步地,提取匹配文本的特征向量,获得通讯文本记录的文本特征向量包括:
采用词频-逆文本算法获得匹配文本的特征值;
根据匹配文本的特征值,获得通讯文本记录的文本特征向量。
进一步地,根据匹配文本的特征值,获得通讯文本记录的文本特征向量包括:
计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度;
根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量。
进一步地,计算通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度包括:
利用K均值聚类算法对通讯文本记录进行文本聚类,获得文本聚类中心;
提取文本聚类中心的关键词作为通讯文本记录的通讯主题;
根据与待预测员工进行通讯的联系人的通讯录备注信息获得待预测员工的工作岗位;
计算通讯主题与工作岗位之间的相似度,并将相似度作为通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度。
进一步地,预先训练的分类模型包括:
SVM分类模型、贝叶斯分类模型、最大熵分类模型中的任意一种。
进一步地,历史通讯记录包括:
历史通话记录和历史短信记录,其中历史短信记录包括历史手机短信记录和历史即时通讯消息记录。
根据本发明的另一方面,提供了一种预测员工离职的装置,包括:
获取装置,用于获取待预测员工的历史通讯记录,并将历史通讯记录转换为文本格式的通讯文本记录;
分词装置,用于对通讯文本记录进行分词,获得分词文本;
匹配装置,用于将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本;
特征向量提取装置,用于提取匹配文本的特征向量,获得通讯文本记录的文本特征向量;
确定装置,用于根据文本特征向量,以及预先训练的分类模型,确定待预测员工是否有离职意向。
进一步地,特征向量提取装置包括:
特征值获取装置,用于采用词频-逆文本算法获得匹配文本的特征值;
特征向量获取装置,用于根据匹配文本的特征值,获得通讯文本记录的文本特征向量。
进一步地,特征向量获取装置包括:
匹配度计算装置,用于计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度;
文本特征向量获取装置,根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量。
本发明具有以下有益效果:
本发明提供了一种预测员工离职的方法及装置,该方法通过获取待预测员工的历史通讯记录,以及提取该历史通讯记录的文本特征向量,并根据提取的文本特征向量以及预先训练的分类模型确定待预测员工是否有离职意向,解决了如何预测员工离职的技术问题,实现了根据待预测员工的历史通讯记录就能对其是否有离职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离职率,从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的预测员工离职的方法流程图;
图2是本发明优选实施例针对一个精简实施例预测员工离职的的方法流程图;
图3是本发明优选实施例预先建立分类模型的方法流程图;
图4是本发明优选实施例的预测员工离职的装置的结构框图。
附图说明:
10、获取装置;20、分词装置;30、匹配装置;40、特征向量提取装置;50、确定装置。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种预测员工离职的方法,包括:
步骤S101,获取待预测员工的历史通讯记录,并将历史通讯记录转换为文本格式的通讯文本记录;
步骤S102,对通讯文本记录进行分词,获得分词文本;
步骤S103,将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本;
步骤S104,提取匹配文本的特征向量,获得通讯文本记录的文本特征向量;
步骤S105,根据文本特征向量,以及预先训练的分类模型,确定待预测员工是否有离职意向。
本发明提供的预测员工离职的方法,通过获取待预测员工的历史通讯记录,以及提取该历史通讯记录的文本特征向量,并根据提取的文本特征向量以及预先训练的分类模型确定待预测员工是否有离职意向,解决了如何预测员工离职的技术问题,实现了根据待预测员工的历史通讯记录就能对其是否有离职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离职率,从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。
现有人力资源预测员工是否有离职意向,通常是通过与员工进行面谈的结果并结合员工平常的工作表现,进行主观预测。采用这种主观预测员工是否有离职意向的准确度不高,并且主观预测的方法没有很好的推广适用性,也即预测员工是否有离职意向没有统一及客观的方法,从而导致针对每一个员工都需要由人力资源单独进行主观预测,工作量较大,效率较低。
针对该问题,本实施例将预测员工是否有离职意向的问题转换为模式识别中的分类问题。具体地,本实施例预先训练的分类模型的输出结果分为两种,分别是有离职意向和没有离职意向,并且对分类模型进行训练选取的训练样本也包括两种,分别是有离职意向的员工的历史通讯记录以及没有离职意向的员工的历史通讯记录。在具体的实施过程中,本实施例可以选取已经离职的员工的历史通讯记录样本作为有离职意向的员工的历史通讯记录样本,而选取在职的员工的历史通讯记录样本作为没有离职意向的员工的历史通讯记录样本。
本实施例较新颖地提出根据员工的历史通讯记录建立用于预测员工是否有离职意向的分类模型,并采用该分类模型预测待预测员工是否有离职意向,相对现有采用主观预测员工是否有离职意向的方法的准确度更高,而且通过分类模型预测员工是否有离职意向的预测效率高,具有较大的推广适用性。
此外,本实施例在对通讯文本记录分词后,通过将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本,不仅大大降低了通讯文本记录的特征向量的维度,而且根据匹配文本获取的特征向量更具代表性,为后续提高预测员工离职的准确率奠定了良好基础。
可选地,提取匹配文本的特征向量,获得通讯文本记录的文本特征向量包括:
采用词频-逆文本算法获得匹配文本的特征值;
根据匹配文本的特征值,获得通讯文本记录的文本特征向量。
具体地,本实施例获取到与离职关键词匹配的匹配文本后,通过词频-逆文本算法获得匹配文本的特征值,并根据计算出的特征值生成通讯文本记录的文本特征向量。其中,词频-逆文本算法采用TF-IDF函数计算各个匹配文本的特征值的计算公式为:
w(tk,Tj)=tf(tk,Tj)×idf(tk),
其中w(tk,Tj)为通讯文本记录Tj中匹配文本tk的特征值,tf(tk,Tj)为匹配文本tk在通讯文本记录Tj中的词频数;表示匹配文本tk在训练集中的逆文本频率,N为训练集中通讯文本记录总数,NK为训练集中包含匹配文本tk的通讯文本记录数目。
为了保证根据不同的通讯文本记录获取的文本特征向量的维度相同,本实施例在根据匹配文本的特征值构造通讯文本记录的文本特征向量时,将文本特征向量的维度数构造成与预先建立的离职关键词列表中的离职关键词的总数目相同。例如离职关键词列表表示为L(l1,l2,…ln),其中ln代表第n个离职关键词,n为离职关键词的总数目。假设本实施例将分词文本与预先建立的离职关键词列表进行匹配后,获得分词文本与离职关键词列表中的第i个和第j个离职关键词匹配,且通过TF-IDF函数分别计算出与第i个和第j个离职关键词匹配的匹配文本的特征值分别为wi和wj,则构造通讯文本记录的文本特征向量为T=(0,0,,..wi,.wj,..0),也即先设置一个与离职关键词列表中离职关键词总数目相同维度的零向量,当在离职关键词列表中匹配出与分词文本对应的匹配文本时,则将上述零向量中与离职关键词列表中与匹配关键词匹配的离职关键词序号对应位置的向量值设置为根据TF-IDF函数计算出的特征值,而其他位置均保持为零。这样与每个通讯文本记录对应的文本特征向量的维度数目都相同,且都为离职关键词列表中离职关键词的总数目。
可选地,根据匹配文本的特征值,获得通讯文本记录的文本特征向量包括:
计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度;
根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量。
由于针对有离职意向的员工,其通讯记录的通讯主题可能与其工作岗位的相关度有较大偏差,例如针对有离职意向的员工,由于花费较大的精力在求职新的工作机会,故其在产生离职想法后进行通讯的通讯主题可能主要与面试、入职、离职、人力等话题相关。本实施例在获得通讯文本记录的文本特征向量时,通过先计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度,然后根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量,从而使得获取的文本特征向量具有更好的代表性,也为后续获得较准确的预测效果奠定了基础。
可选地,计算通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度包括:
利用K均值聚类算法对通讯文本记录进行文本聚类,获得文本聚类中心;
提取文本聚类中心的关键词作为通讯文本记录的通讯主题;
根据与待预测员工进行通讯的联系人的通讯录备注信息获得待预测员工的工作岗位;
计算通讯主题与工作岗位之间的相似度,并将相似度作为通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度。
为了更准确的获取通讯文本记录的通讯主题,本实施例先利用K均值聚类算法对通讯文本记录进行文本聚类,获得文本聚类中心,然后提取文本聚类中心的关键词作为通讯文本记录的通讯主题,并通过计算通讯主题与待预测员工的工作岗位之间的相似度,获得通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度。在实际的实施过程中,通过K均值聚类算法获得的文本聚类中心可能不止一个,也即通讯主题也可能不止一个,针对这种情况,本实施例分别计算每一个通讯主题与工作岗位之间的相似度,然后再将各个通讯主题与工作岗位之间的相似度的平均值作为通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度。
具体地,本实施例基于K-means聚类算法对通讯文本记录进行文本聚类,获得文本聚类中心,具体包括以下步骤:
a、随机选取K个数据作为中心点,本实施例中的中心点既可以是一个词也可以是一句话。
b、然后计算每一个样本与中心点的距离,选取最小的距离对应的中心点即为所属的类。具体地,本实施例通过计算每一个样本对应的词向量与中心点对应的词向量之间的距离获取每一个样本与中心点的距离。
c、对应每一个类,重新计算中心点(该类别中所有样本的均值)。
d、重复迭代b、c步骤直至收敛,即聚类中心不再变化。
此外,本实施例在获取待预测员工的工作岗位时,可以通过与待预测员工进行通讯的联系人的通讯录备注信息获得待预测员工的工作岗位。需要说明的是,在实际的实施过程中,可能出现不同的与待预测员工进行通讯的联系人的通讯录备注信息中对待预测员工的工作岗位的备注可能不一样。针对这种情况,本实施例选取备注数量最多的工作岗位作为与待预测员工对应的工作岗位,此外,本实施例也可能出现与待预测员工进行通讯的联系人可能都没有对待预测员工的工作岗位进行备注,针对这种情况,本实施例可以设置提示用于用户手动输入待预测员工的工作岗位的输入接口。本实施例计算通讯主题与工作岗位之间的相似度的具体过程包括:首先自定义与工作岗位关联的关联词,然后计算通讯主题的词向量与关联词的词向量之间的相似度,当通讯主题有多个时,则分别计算每一个通讯主题与关联词之间的相似度,然后再取平均值作为最终的通讯主题与工作岗位之间的相似度。
本实施例通过K均值聚类算法提取待预测员工的历史通讯记录的通讯主题,以及将通过聚类算法获得的所有通讯主题分别与待预测员工的工作岗位之间的相似度的平均值作为通讯文本记录的通讯主题以及待预测员工的工作岗位之间的匹配度,使得获取的通讯主题以及待预测员工的工作岗位之间的匹配度更准确、更智能化。
可选地,预先训练的分类模型包括:
SVM分类模型、贝叶斯分类模型、最大熵分类模型中的任意一种。
需要说明的是,本实施例预先训练的分类模型不限于包括SVM分类模型、贝叶斯分类模型、最大熵分类模型,也即本实施例也可以采用其他预先训练好的分类模型作为预测员工是否有离职意向的预测模型。
可选地,历史通讯记录包括:
历史通话记录和历史短信记录,其中历史短信记录包括历史手机短信记录和历史即时通讯消息记录。
在实际的实施过程中,本实施例所指的历史通讯记录不仅仅包括历史聊天记录,还包括历史通话记录,且历史通话记录包括手机历史通话记录以及即时通讯历史通话记录,历史聊天记录包括手机历史聊天记录以及即时通讯历史聊天记录。具体地,当本实施例获取的历史通讯记录为历史通话记录时,则首先将语音格式的历史通话记录转换为文本格式的历史通讯记录,然后再对其进行分析,此外本实施例中的手机历史聊天记录和即时通讯历史聊天记录的格式可以是文本格式的,也可以是语音、图片、视频等格式。
参照图2,本实施例以一个精简的实施例对预测员工离职的方法进行更进一步具体的说明,该方法包括以下步骤:
步骤S201,获取待预测员工的历史通讯记录,并将历史通讯记录转换为文本格式的通讯文本记录。
具体地,本实施例可以获取待预测员工某一时间段内的历史通讯记录,例如最近一个月时间内的历史通讯记录,或最近半年内的历史通讯记录等等,具有由用户自定义。
步骤S202,对通讯文本记录进行分词,获得分词文本。
具体地,本实施例对通讯文本记录进行分词,语义消歧,去除停用词等操作后,获得分词文本。假设本实施例获得的分词文本数目为m个,且分词文本列表表示为F(f1,f2,…fm),其中fm代表第m个分词文本。
步骤S203,将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本。
具体地,本实施例假设预先建立的离职关键词列表为L(l1,l2,…ln),其中ln代表第n个离职关键词,n为离职关键词的总数目。通过将分词文本与预先建立的离职关键词列表进行匹配,假设获得匹配文本为两个,且该两个匹配文本分别与离职关键词列表中第i个和第j个离职关键词对应。
步骤S204,采用词频-逆文本算法获得匹配文本的特征值。
具体地,本实施例假设根据TF-IDF函数分别计算出与第i个和第j个离职关键词匹配的匹配文本的特征值分别为wi和wj。
步骤S205,计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度。
具体地,假设本实施例获取的通讯主题为一个,且计算出该通讯主题与待测试员工的工作岗位之间的匹配度为p。
步骤S206,根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量。
根据步骤S203可知,离职关键词的总数目为n,故本实施例构造通讯文本记录的文本特征向量的维数为n+1,具体为T=(0,0,,..wi,.wj,..0,p),
步骤S207,根据文本特征向量,以及预先训练的分类模型,确定待预测员工是否有离职意向。
具体地,本实施例预先训练的分类模型包括两个输出结果,分别是有离职意向和无离职意向,假设有离职意向输出为“1”,无离职意向输出为“0”。故本实施例将文本特征向量输入预先训练好的分类模型后,根据分类模型的输出结果获得待预测员工是否有离职意向,当输出结果为“1”时,则说明待预测员工有离职意向,否则没有离职意向。具体地,本实施例采用SVM算法建立SVM分类模型。
本实施例通过获取待预测员工的历史通讯记录,以及提取该历史通讯记录的文本特征向量,并根据提取的文本特征向量以及预先训练的分类模型确定待预测员工是否有离职意向,解决了如何预测员工离职的技术问题,实现了根据待预测员工的历史通讯记录就能对其是否有离职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离职率,从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。
此外,本实施例通过根据计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度,然后根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量,从而使得获取的文本特征向量具有更好的代表性,也为后续获得较准确的预测效果奠定了基础。
参照图3,本实施例预先建立分类模型的步骤具体包括:
步骤S2071,获取离职员工的历史通讯记录作为有离职意向的训练样本,获取在职员工的历史通讯记录作为无离职意向的训练样本,并将训练样本转换为文本格式的训练样本。
为了保证预先训练的分类模型具有较准确的分类结果,本实施例获取的训练样本的数量应当尽可能大,且针对有离职意向和无离职意向的训练样本的数量应当相当。具体地,本实施例假设训练样本集(包括有离职意向的训练样本和无离职意向的训练样本)的总数为N,且训练样本集列表表示为{T1,Tj,..TN},其中Tj表示训练样本集中的第j个文本格式的历史通讯记录。
步骤S2072,对训练样本进行分词,获得分词文本。
具体地,本实施例对训练样本集中每一个文本格式的历史通讯记录进行分词,去除停用词,语义消歧等操作,获得与每一个训练样本对应的分词文本。
步骤S2073,将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本。
具体地,本实施例预先建立的离职关键词列表为L(l1,l2,…ln),其中ln代表第n个离职关键词,n为离职关键词的总数目。通过将与每一个训练样本对应的分词文本与预先建立的离职关键词列表进行匹配,可以分别获得与离职关键词匹配的匹配文本以及与匹配文本匹配的离职关键词在离职关键词列表中所在的位置。例如,针对训练集中第j个训练样本Tj,假设可以获得与离职关键词列表中的第i个和第j个离职关键词匹配,则获得的匹配文本就是与第i个和第j个离职关键词匹配的分词文本。在具体的实施例中,本实施例可以假设当分词文本与离职关键词相同或相近时,认为分词文本与离职关键词匹配。
步骤S2074,采用词频-逆文本算法获得匹配文本的特征值。
具体地,本实施例针对每一个训练样本获得与其对应的匹配文本后,可以采用TF-IDF函数获得匹配文本的特征值。根据步骤S2073可知,本实施例假设针对训练样本Tj,获得其与离职关键词列表中的第i个和第j个离职关键词匹配,则分别计算与离职关键词列表中的第i个和第j个离职关键词匹配的分词文本(即匹配文本)的特征值。其中,本实施例采用TF-IDF函数计算匹配文本的特征值的计算公式为:
w(tk,Tj)=tf(tk,Tj)×idf(tk),
其中w(tk,Tj)为训练样本Tj中匹配文本tk的特征值,tf(tk,Tj)为匹配文本tk在训练样本Tj中的词频数;表示匹配文本tk在训练集中的逆文本频率,N为训练集中训练样本总数,NK为训练集中包含匹配文本tk的训练样本数目。
步骤S2075,计算训练样本的通讯主题与待预测员工的工作岗位之间的匹配度。
具体地,本实施例首先利用K均值聚类算法对训练样本进行文本聚类,获得文本聚类中心,然后提取文本聚类中心的关键词作为训练样本的通讯主题,并通过计算通讯主题与待预测员工的工作岗位之间的相似度,获得训练样本的通讯主题以及待预测员工的工作岗位之间的匹配度。本实施例在获取待预测员工的工作岗位时,可以通过与待预测员工进行通讯的联系人的通讯录备注信息获得待预测员工的工作岗位。且本实施例计算训练样本的通讯主题与待预测员工的工作岗位之间的匹配度的具体过程包括:首先自定义与工作岗位关联的关联词,然后计算通讯主题的词向量与关联词的词向量之间的相似度,当通讯主题有多个时,则分别计算每一个通讯主题与关联词之间的相似度,然后再取平均值作为最终的通讯主题与工作岗位之间的相似度。
步骤S2076,根据匹配文本的特征值以及匹配度,获得训练样本的文本特征向量。
具体地,本实施例针对每一个训练样本,均可以根据与其对应的匹配文本的特征值以及根据其计算出的匹配度,构造与之对应的文本特征向量。
步骤S2077,根据训练集中各训练样本的文本特征向量训练出分类模型。
具体地,本实施例针对每一个训练样本,将步骤S2076获得的文本特征向量作为分类模型的输入量,将已知的该训练样本的类型(有离职意向为“1”和无离职意向为“0”)作为输出,对分类模型进行训练,从而最终获得用于预测员工是否有离职意向的分类模型。
参照图4,本发明的优选实施例提供的预测员工离职的装置,包括:
获取装置10,用于获取待预测员工的历史通讯记录,并将历史通讯记录转换为文本格式的通讯文本记录;
分词装置20,用于对通讯文本记录进行分词,获得分词文本;
匹配装置30,用于将分词文本与预先建立的离职关键词列表进行匹配,获得与离职关键词匹配的匹配文本;
特征向量提取装置40,用于提取匹配文本的特征向量,获得通讯文本记录的文本特征向量;
确定装置50,用于根据文本特征向量,以及预先训练的分类模型,确定待预测员工是否有离职意向。
可选地,特征向量提取装置40包括:
特征值获取装置,用于采用词频-逆文本算法获得匹配文本的特征值;
特征向量获取装置,用于根据匹配文本的特征值,获得通讯文本记录的文本特征向量。
可选地,特征向量获取装置包括:
匹配度计算装置,用于计算通讯文本记录的通讯主题与待预测员工的工作岗位之间的匹配度;
文本特征向量获取装置,根据匹配文本的特征值以及匹配度,获得通讯文本记录的文本特征向量。
本实施例预测员工离职的装置的具体工作过程和工作原理可参照本实施例的预测员工离职的方法的工作过程和工作原理。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种预测员工离职的方法,其特征在于,包括:
获取待预测员工的历史通讯记录,并将所述历史通讯记录转换为文本格式的通讯文本记录;
对所述通讯文本记录进行分词,获得分词文本;
将所述分词文本与预先建立的离职关键词列表进行匹配,获得与所述离职关键词匹配的匹配文本;
提取所述匹配文本的特征向量,获得所述通讯文本记录的文本特征向量;
根据所述文本特征向量,以及预先训练的分类模型,确定所述待预测员工是否有离职意向。
2.根据权利要求1所述的预测员工离职的方法,其特征在于,提取所述匹配文本的特征向量,获得所述通讯文本记录的文本特征向量包括:
采用词频-逆文本算法获得所述匹配文本的特征值;
根据所述匹配文本的特征值,获得所述通讯文本记录的文本特征向量。
3.根据权利要求2所述的预测员工离职的方法,其特征在于,根据所述匹配文本的特征值,获得所述通讯文本记录的文本特征向量包括:
计算所述通讯文本记录的通讯主题与所述待预测员工的工作岗位之间的匹配度;
根据所述匹配文本的特征值以及所述匹配度,获得所述通讯文本记录的文本特征向量。
4.根据权利要求3所述的预测员工离职的方法,其特征在于,计算所述通讯文本记录的通讯主题以及所述待预测员工的工作岗位之间的匹配度包括:
利用K均值聚类算法对所述通讯文本记录进行文本聚类,获得文本聚类中心;
提取所述文本聚类中心的关键词作为所述通讯文本记录的通讯主题;
根据与所述待预测员工进行通讯的联系人的通讯录备注信息获得所述待预测员工的工作岗位;
计算所述通讯主题与所述工作岗位之间的相似度,并将所述相似度作为所述通讯文本记录的通讯主题以及所述待预测员工的工作岗位之间的匹配度。
5.根据权利要求4所述的预测员工离职的方法,其特征在于,所述预先训练的分类模型包括:
SVM分类模型、贝叶斯分类模型、最大熵分类模型中的任意一种。
6.根据权利要求5所述的预测员工离职的方法,其特征在于,所述历史通讯记录包括:
历史通话记录和历史短信记录,其中所述历史短信记录包括历史手机短信记录和历史即时通讯消息记录。
7.一种预测员工离职的装置,其特征在于,包括:
获取装置,用于获取待预测员工的历史通讯记录,并将所述历史通讯记录转换为文本格式的通讯文本记录;
分词装置,用于对所述通讯文本记录进行分词,获得分词文本;
匹配装置,用于将所述分词文本与预先建立的离职关键词列表进行匹配,获得与所述离职关键词匹配的匹配文本;
特征向量提取装置,用于提取所述匹配文本的特征向量,获得所述通讯文本记录的文本特征向量;
确定装置,用于根据所述文本特征向量,以及预先训练的分类模型,确定所述待预测员工是否有离职意向。
8.根据权利要求7所述的预测员工离职的装置,其特征在于,所述特征向量提取装置包括:
特征值获取装置,用于采用词频-逆文本算法获得所述匹配文本的特征值;
特征向量获取装置,用于根据所述匹配文本的特征值,获得所述通讯文本记录的文本特征向量。
9.根据权利要求8所述的预测员工离职的装置,其特征在于,所述特征向量获取装置包括:
匹配度计算装置,用于计算所述通讯文本记录的通讯主题与所述待预测员工的工作岗位之间的匹配度;
文本特征向量获取装置,根据所述匹配文本的特征值以及所述匹配度,获得所述通讯文本记录的文本特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610300968.5A CN105868183B (zh) | 2016-05-09 | 2016-05-09 | 一种预测员工离职的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610300968.5A CN105868183B (zh) | 2016-05-09 | 2016-05-09 | 一种预测员工离职的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105868183A true CN105868183A (zh) | 2016-08-17 |
CN105868183B CN105868183B (zh) | 2019-04-02 |
Family
ID=56631449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610300968.5A Active CN105868183B (zh) | 2016-05-09 | 2016-05-09 | 一种预测员工离职的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105868183B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506348A (zh) * | 2017-07-22 | 2017-12-22 | 长沙兔子代跑网络科技有限公司 | 一种基于聊天内容挖掘代跑客户的方法及装置 |
CN107506347A (zh) * | 2017-07-22 | 2017-12-22 | 长沙兔子代跑网络科技有限公司 | 一种智能获取代跑聊天记录的方法及装置 |
CN107526779A (zh) * | 2017-07-22 | 2017-12-29 | 长沙兔子代跑网络科技有限公司 | 一种挖掘代跑客户的方法及装置 |
CN111091253A (zh) * | 2018-10-23 | 2020-05-01 | 北京嘀嘀无限科技发展有限公司 | 网约车组队方法、装置、设备及存储介质 |
CN111460139A (zh) * | 2020-03-02 | 2020-07-28 | 广州高新工程顾问有限公司 | 一种基于智慧管理的工程监理知识服务系统及方法 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN111639814A (zh) * | 2020-06-02 | 2020-09-08 | 贝壳技术有限公司 | 预测变动行为发生概率的方法、装置、介质和电子设备 |
CN111798059A (zh) * | 2020-07-10 | 2020-10-20 | 河北冀联人力资源服务集团有限公司 | 离职预测系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN103425777A (zh) * | 2013-08-15 | 2013-12-04 | 北京大学 | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 |
CN105160464A (zh) * | 2015-08-24 | 2015-12-16 | 安徽味唯网络科技有限公司 | 一种预测员工工作效率与何时离职的方法 |
-
2016
- 2016-05-09 CN CN201610300968.5A patent/CN105868183B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN103425777A (zh) * | 2013-08-15 | 2013-12-04 | 北京大学 | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 |
CN105160464A (zh) * | 2015-08-24 | 2015-12-16 | 安徽味唯网络科技有限公司 | 一种预测员工工作效率与何时离职的方法 |
Non-Patent Citations (1)
Title |
---|
CAROLYN HOLTON: "Identifying disgruntled employee systems fraud risk through text mining: A simple solution for a multi-billion dollar problem", 《 DECISION SUPPORT SYSTEMS》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506348A (zh) * | 2017-07-22 | 2017-12-22 | 长沙兔子代跑网络科技有限公司 | 一种基于聊天内容挖掘代跑客户的方法及装置 |
CN107506347A (zh) * | 2017-07-22 | 2017-12-22 | 长沙兔子代跑网络科技有限公司 | 一种智能获取代跑聊天记录的方法及装置 |
CN107526779A (zh) * | 2017-07-22 | 2017-12-29 | 长沙兔子代跑网络科技有限公司 | 一种挖掘代跑客户的方法及装置 |
CN111091253A (zh) * | 2018-10-23 | 2020-05-01 | 北京嘀嘀无限科技发展有限公司 | 网约车组队方法、装置、设备及存储介质 |
CN111460139A (zh) * | 2020-03-02 | 2020-07-28 | 广州高新工程顾问有限公司 | 一种基于智慧管理的工程监理知识服务系统及方法 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN111489030B (zh) * | 2020-04-09 | 2021-10-15 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
CN111639814A (zh) * | 2020-06-02 | 2020-09-08 | 贝壳技术有限公司 | 预测变动行为发生概率的方法、装置、介质和电子设备 |
CN111798059A (zh) * | 2020-07-10 | 2020-10-20 | 河北冀联人力资源服务集团有限公司 | 离职预测系统及方法 |
CN111798059B (zh) * | 2020-07-10 | 2023-11-24 | 河北冀联人力资源服务集团有限公司 | 离职预测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105868183B (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868183A (zh) | 一种预测员工离职的方法及装置 | |
CN106570708B (zh) | 一种智能客服知识库的管理方法及系统 | |
CN106022708A (zh) | 一种预测员工离职的方法 | |
CN110472017A (zh) | 一种话术分析和话题点识别匹配的方法及系统 | |
CN109978020B (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
CN111177322A (zh) | 一种领域知识图谱的本体模型构建方法 | |
CN106294854A (zh) | 一种用于智能机器人的人机交互方法及装置 | |
CN106572001B (zh) | 一种智能客服的对话方法及系统 | |
CN104991955A (zh) | 一种自动构建模板库的方法及系统 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN104281615A (zh) | 一种投诉处理的方法和系统 | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN102637433A (zh) | 识别语音信号中所承载的情感状态的方法和系统 | |
CN109783637A (zh) | 基于深度神经网络的电力检修文本挖掘方法 | |
CN106997379B (zh) | 一种基于图片文本点击量的相近文本的合并方法 | |
CN106445915A (zh) | 一种新词发现方法及装置 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及系统 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN111859936A (zh) | 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法 | |
CN108959577B (zh) | 基于非主属性离群点检测的实体匹配方法和计算机程序 | |
Chen et al. | Data analysis and knowledge discovery in web recruitment—based on big data related jobs | |
TWI752367B (zh) | 基於自然語言處理的智能對話管理方法及系統 | |
CN109460506B (zh) | 一种用户需求驱动的资源匹配推送方法 | |
CN116701658A (zh) | 业务意向的确定方法、装置及计算机设备 | |
CN110633468A (zh) | 一种关于对象特征提取的信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200409 Address after: 410000 room a1380, headquarters building, Changsha Zhongdian Software Park Co., Ltd., No.39, Jianshan Road, high tech Development Zone, Changsha City, Hunan Province Patentee after: Changsha ge'ermen Intelligent Technology Co., Ltd Address before: 410000 Hunan province Changsha High-tech Development Zone Lugu industrial base Lu Tin Road No. 8 Building 1036 unit 4 Oaks Patentee before: Chen Baorong |