CN110880075A

CN110880075A - 一种员工离职倾向检测方法

Info

Publication number: CN110880075A
Application number: CN201911148989.XA
Authority: CN
Inventors: 汲丽; 魏国富; 葛胜利; 钱沁莹
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-13

Abstract

本发明公开了一种员工离职倾向检测方法，要解决的是现有离职倾向判断中存在的问题。本发明具体步骤如下：步骤一，采集员工的原始数据；步骤二，对原始数据进行整合并且采用UEBA方法（用户及实体行为分析方法）构建内部特征，建立威胁模型；步骤三，根据威胁模型和原始数据建立用户画像体系和团体群体分析体系，即可判断出是否存在威胁或者正常，如果判断结果为存在威胁或者异常，则输出警告信息给人力资源管理，如果判断结果为不存在威胁或者异常，则不工作。本发明运用OA系统数据等各种内网数据，搭建内部员工行为分析方法，及时发现员工的工作情绪和态度的变化，从而分析判断员工的离职倾向性，能做到人才和资产的及时止损，应用前景广阔。

Description

一种员工离职倾向检测方法

技术领域

本发明涉及员工离职倾向检测领域，具体是一种员工离职倾向检测方法。

背景技术

员工的正常流动无疑会给社会经济带来增加企业活力、激励人才竞争、促进人力资源合理配置等方面的积极影响，但同时，就企业来说，人才的流失、员工忠诚的下降，又会给经营发展战略、企业形象造成重大的损失，有时甚至会产生灾难性的后果。员工的流失对于企业来说是不可避免的，对于已经要发生的员工离职，企业所能做的工作就是尽可能的减少员工离职给工作带来的负面影响。

人力资源管理在萌芽阶段，企业已经开始构建人力资源平台，这一平台在早期可能由企业内部IT人员负责搭建，也可能是在外部市场购买的人力资源管理软件。这一阶段数据化构建已经初具规模，对于人事流程也已经开始固化，能够利用软件进行一些诸如离职率，入职率，员工流动率等的数据分析。

在发展阶段，企业更加重视数据的完整性，及时性和有效性。有完整的人力资源信息化平台，包含了组织、人事、薪酬、考勤、绩效、招聘、培训等人力资源模块。并且能够依托于企业的信息化平台，进行复杂数据的分析和流程优化。但还不能有完整的业务数据分析模型，还不能够基于数据预测企业隐藏的风险。员工的离职在人力资源部也往往后知后觉，他们仅靠员工之间的相处、请假频率、领导捕风捉影来判断员工的工作状态，根据入职时间及员工年龄、家庭等因素判断员工是否有离职倾向，更甚的是当企业之间竞争激烈，公司往往不能及时发现被“挖墙脚”流失掉的批量人才，如某公司销售总监跳槽带走一批销售骨干，不仅影响本公司业务销售能力，也往往流失了大批潜在的客户资源，得不偿失。

这时数据化人力资源已经是近年来的大热话题，在传统的人力资源策略中，HR更多依赖直觉或过往管理实践；而在当今这个商业形态、科学技术与劳动力概况都发生巨大变化的情况下，过往的经验或个人直觉的作用日益弱化，这种方法使得人力资源管理往往需要花费掉大量的人力物力来做一些捕风捉影的事情，这种做法不能及时地为公司止住损失，也不能及时挽留人才，同时若作出误判，还会导致公司氛围差、同事关系紧张，更有甚者在离职期间利用职务之便做出有损集体利益的事情还能逍遥法外，令经营者头痛。

发明内容

本发明实施例的目的在于提供一种员工离职倾向检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种员工离职倾向检测方法，具体步骤如下：

步骤一，采集员工的原始数据；

步骤二，对原始数据进行整合并且采用UEBA方法(用户及实体行为分析方法)构建内部特征，建立威胁模型；

步骤三，根据威胁模型和原始数据建立用户画像体系和团体群体分析体系，即可判断出是否存在威胁或者异常，如果判断结果为存在威胁或者异常，则输出警告信息给人力资源管理，如果判断结果为不存在威胁或者正常，则不工作。

作为本发明实施例进一步的方案：原始数据包括OA系统数据、流量日志和数据库日志。

作为本发明实施例进一步的方案：OA系统数据包括设备ID、服务器ID、签到信息、签退信息、年假时长、年假剩余时长、事假时长、病假时长、婚假时长、(陪)产假时长、调休时长、丧假时长、外出申请时长、OA在线时长、待办事件发起时间、协同工作开始时间、协同工作结束时间、待办事件结束时间、个人博客数、个人知识社区更新时间、公司公告发起时间、公司公告阅读时间、公司共享空间活跃次数、公司首页新闻阅读次数、公司内部调查问卷响应次数、报工更新时间、报工更新次数、员工信息完整程度、员工信息等。

作为本发明实施例进一步的方案：流量日志包括远程的VPN(虚拟专用网络)日志和堡垒机日志。

作为本发明实施例进一步的方案：威胁模型包括触发事件、攻击者特征、攻击特征以及组织特征。

作为本发明实施例进一步的方案：用户画像体系包括用户自然特征、用户兴趣特征、用户社会特征、用户消费特征、用户工作特征和用户访问时间段特征。

作为本发明实施例进一步的方案：采用无监督式的BIRCH分类算法建立团体群体分析体系，此算法无需标签的导入学习，是利用层次关系来聚类和规约数据的，该算法聚类速度极快并且可以识别噪音点，还可以对数据进行初步分类的预处理。

与现有技术相比，本发明实施例的有益效果是：

本发明能在员工的日常行为中，运用大数据等信息挖掘出员工的所思所想，不仅能提升人力资源人员的工作效率，还能提升员工的工作幸福感及企业文化认同感；

本发明运用OA系统数据等各种内网数据，如在职员工的工作任期、员工调查、沟通模式甚至性格测试等一系列数据，搭建内部员工行为分析方法，及时发现员工的工作情绪和态度的变化，从而分析判断员工的离职倾向性，能做到人才和资产的及时止损，应用前景广阔。

附图说明

图1为员工离职倾向检测方法的流程图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

实施例1

一种员工离职倾向检测方法，具体步骤如下：

步骤一，采集员工的原始数据，原始数据包括OA系统数据、流量日志和数据库日志，OA系统数据包括设备ID、服务器ID、签到信息、签退信息、年假时长、年假剩余时长、事假时长、病假时长、婚假时长、(陪)产假时长、调休时长、丧假时长、外出申请时长、OA在线时长、待办事件发起时间、协同工作开始时间、协同工作结束时间、待办事件结束时间、个人博客数、个人知识社区更新时间、公司公告发起时间、公司公告阅读时间、公司共享空间活跃次数、公司首页新闻阅读次数、公司内部调查问卷响应次数、报工更新时间、报工更新次数、员工信息完整程度、员工信息等，流量日志包括远程的VPN(虚拟专用网络)日志和堡垒机日志；

步骤二，对原始数据进行整合并且采用UEBA方法(用户及实体行为分析方法)构建内部特征，建立威胁模型，威胁模型包括触发事件、攻击者特征、攻击特征以及组织特征；

步骤三，根据威胁模型和原始数据建立用户画像体系和团体群体分析体系，即可判断出是否存在威胁或者异常，如果判断结果为存在威胁或者异常，则输出警告信息给人力资源管理，如果判断结果为不存在威胁或者正常，则不工作。本发明利用UEBA的思路提出威胁模型的雏形，以威胁出现来判断员工的离职倾向，不仅能及时发现资产的损失，还能预判员工的动向；以员工个人行为和同组行为相结合来做双重判断，对结果的准确性和可解释性有裨益。

实施例2

一种员工离职倾向检测方法，具体步骤如下：

第一，采集员工的原始数据，原始数据包括OA系统数据、流量日志和数据库日志，OA系统数据包括设备ID、服务器ID、操作系统、sdk版本(sdkversion)、签到信息、签退信息、年假时长、年假剩余时长、事假时长、病假时长、婚假时长、(陪)产假时长、调休时长、丧假时长、外出申请时长、OA在线时长、待办事件发起时间、协同工作开始时间、协同工作结束时间、待办事件结束时间、个人博客数、个人知识社区更新时间、公司公告发起时间、公司公告阅读时间、公司共享空间活跃次数、公司首页新闻阅读次数、公司内部调查问卷响应次数、报工更新时间、报工更新次数、员工信息完整程度、员工信息(包括家庭住址、手机号、家庭情况、是否未婚和是否具备犯罪前科等个人信息)、印章使用申请次数、名片印制申请次数、办公用品申请次数、浏览器信息、员工报工内容、员工报工时间、oa登入信息、oa登出信息、职位、在职信息、是否违纪，OA系统数据经过提炼加工后，不可直接作为模型训练数据，需要经过特征工程化，并且其中不乏可再次深入挖掘的特征，所以，在原始数据的基础上，再做进一步的整理，作为“个性化特征值”加入到特征工程中，首先获取到各个所需事件的时长：员工每天工作时长(以打卡时间计算)、员工每月平均工作时长(以打卡时间计算)、员工休假频次，次处以月作为事件窗口，计算每月的请假总天数、员工休假频率，此处以周为计算窗口，以月为时间维度，每月有四个时间窗口，当员工一周内分两次请假两天时记为2/5，当员工两周内分两次请假两天时记为2/10、协同工作消耗时长(以发起和结束时间为准)、待办事件消耗时长(以发起和结束时间为准)、公司公告审阅消耗时长(以公告发起至审阅时间为准)、公司公告阅读时长(以阅读和退出页面时间为准)、以月为时间窗口计算报工更新频次、月平均报工更新时间、月平均报工时长、OA日在线时长、OA月平均在线时长、OA系统数据还可提取到员工的报工信息，在报工信息中蕴含大量工作内容，我们针对这部分内容进行提取，对文字进行提取，当每日报工出现大量重复或无意义内容后，便可及时发现，此字段为报工内容重复度，计算流程如下：首先，以ueser_name为主键与报工内容进行配对结合；

但考虑到常用词的出现，还需要计算该词条在语料库中的权重才能更全面的反映其重要程度，

计算TF-IDF值＝TF*IDF，TF-IDF值与该词的出现频率成正比，与在整个语料库中的出现次数成反比，计算出文章中每个词的TF-IDF值之后，进行排序，选取其中值最高的几个作为关键字；计算出每段文字的关键词，从中各选取相同个数的关键词，合并成一个集合，计算每段文字对于这个集合中的词的词频，生成各段文字各自的词频向量，进而通过余弦距离求出两个向量的余弦相似度，值越大就表示越相似。流量日志是为了对员工的实际工作内容和路线进行清晰的了解和还原，流量日志包括远程的VPN(虚拟专用网络)日志和堡垒机日志，流量日志的字段如下：action_result、collect_ip、collect_time、create_time、event_category_behavior、dst_asset_name、dst_city、dst_country、dst_ip、dst_owner、dst_port、dst_province、event_category_object、eqpt_device_type、eqpt_ip、eqpt_asset_name、eqpt_owner、id、priority、severity、event_category_technique、src_asset_name、src_ip、src_port、src_owner、summary、raw_log、src_asset_dept、dst_asset_dept、dst_asset_dept、x_forwarded_for、application_type、cookie、domain、http_method、http_referer、protocol、query_parameter、request_size、response_size、security_uuid、status、url、url_type、user_agent、req_content_type、rsp_content_type、username、dns_log_type、dns_record_type、dns_query_type、opcode、response_time、session_end_reason、sent_byte_flow、received_byte_flow、sent_package_flow、received_package_flow、total_package_flow、file_id、flags、ip_type、syn、syn_ack、sent_content_packets、sent_content_bytes、sent_app_bytes、received_content_packets、received_content_bytes、received_app_bytes、urg_packets、abnormal_state、pcap_size、request_head、response_head、request_authorization、response_set_cookie、src_username、dst_username、cc_username、bcc_username、mail_title、mail_head、mail_type、mail_content、file_list、response_body、request_body、connect_state、total_byte_flow。远程的VPN(虚拟专用网络)日志的代码如下：dst_ip、user_id、mac、msg、proto(序列化框架)、src_ip、log_time、vpn、src_is_expected、src_pci_domain、src_requires_av、src_should_timesync、type、user_name、user_watch_list、sport、host。堡垒机日志的字段如下：level(登陆状态等级)、src_ip、src_asset_id、account、action(状态)、changepwd、command、department、dest_ip、dest_is_expected、dest_pci_domain、dest_requires_av、src_should_update、src_should_timesync、src_user、src_user_watchlist、tag、user_name、user_id、user_watchlist。流量日志所对应的流量信息可由检测系统内进行关联规则，进而从源头可关联到员工个人及IP信息，从末尾可关联到员工所访问的目的服务器及数据库等信息，提供溯源功能，提高系统运作效率及结果有效性。数据库日志是资产画像的重要数据来源，对监控员工异常行为和保护公司内部数据安全具有重大意义，用户每次触发数据库请求的动作信息作为一组数据，每组数据包含多条动作信息、操作时间和操作语句等，字段间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。数据库日志的字段包含有：user_name、main_acct_status_id、main_acct_status、sub_acct_id、sub_acct_name、is_login_byfoura、round_type、is_work_time、is_work_day、operation_action、login_time、src_ip、dst_ip、dst_server、table_name、log_id、operator_id、operator_account、operator_identity、organization_name、organization_id、optime、restime(响应时间)、terminaltype、terminalid(终端标识)、terminalnum(移动终端号码)、terminalmac、optype、operatecondition、operateresult、errcode、clientip、clientport、url、objectparams、sessionid、funcmodulename、objectip、objectport、querysql、action_result、collect_ip、collect_time、event_category_behavior、dst_asset_name、dst_asset_type、dst_asset_value、dst_business_system、dst_city、dst_country、dst_network_domain、dst_owner、dst_province、event_category_object、eqpt_asset_type、eqpt_asset_value、eqpt_business_system、eqpt_device_type、eqpt_ip、eqpt_asset_name、eqpt_network_domain、eqpt_owner、id、priority、severity、event_category_technique、src_asset_name、src_asset_type、src_asset_value、src_business_system、src_city、src_country、src_network_domain、src_owner、src_province、summary、raw_log、src_asset_dept、dst_asset_dept、eqpt_asset_dept。

第二，在采集到原始数据后，采用UEBA的方式对内部员工的离职倾向进行监督，此时需要对离职所可能产生的攻击威胁进行分类，当这几种威胁存在时，大概率认为员工存在离职倾向，也为模型刻画出了原始雏形,首先针对所要分析的场景将威胁进行刻画，以便建立威胁模型从而逐个击破，此处我们将威胁模型分为四个方面，从内部威胁的动机开始建立攻击链，抽象出攻击链后为进一步研究提供分析基础：第一，触发事件：主要用于刻画内部威胁的导火索，前提是内部攻击者的特征决定了触发事件成为了攻击实施的“最后一根稻草”，此类触发事件通常是对内部人的较大负面事件，如降职、解雇、家庭剧变或与上司激烈争吵等；第二，攻击者特征：主要用于刻画攻击者的心理状态，从而刻画出内部威胁动机；动机可以从人格特征、行为特征及职能角色三个角度分析。人格特征主要可以用大五人格来分析，即OCEAN-开放性、尽责性、外倾性、宜人性及神经质性五类具体的人格度量；行为特征主要分为当前行为与历史行为两类，当前行为需分析其工作绩效表现、出勤率等，而历史行为则是犯罪历史、精神病史等档案信息；职能角色分主要决定了内部人具有的技能等级、访问权限以及工作区的门禁权限等，这些共同构成了内部威胁实施的“机会”条件；第三，攻击特征：主要刻画不同的攻击类型，如系统破坏攻击则主要是在系统中埋设逻辑炸弹，还原系统等；而产权窃取与欺诈则需要进一步入侵服务器与数据库，访问关键信息；第四，组织特征：主要刻画组织的安全程度，其脆弱性给了内部攻击者以可乘之机，内部审计机制与访问控制机制决定了内部威胁的技术门槛。

第三，建立用户画像：针对所需场景和所拥有的原始数据，从两方面来对内部员工的行为进行分析，首先从个人分析，如某位员工在一定时间段内的访问行为突然发生变化，如过频或过少，当访问频率突增时，要防止员工产生离职心理从而导致内部材料外泄，当访问频率突低时，要防止员工产生离职心理后产生消极怠工，此时以时间序列为时间轴建立的用户画像模型，与用户自己的历史进行比较，发现异常行为；其次是从群体进行分析，某部门或某组织必然有相似的访问行为和大量交织在一起的工作需要共同处理，当群体内发现异于常人的内部员工时要做出相应的响应，防止员工突然离职造成的工作进度受限或内部核心资料的外传，通过同组对比发现异常。首先针对员工个人信息建立用户画像，“标签体系”方法是构建用户画像的核心方法论，基于所能采集到的原始数据维度，可形成以下字段：第一，用户自然特征：性别，年龄，地域，教育水平，出生日期，职业，星座等；第二，用户兴趣特征：兴趣爱好，日常使用网站、浏览/收藏内容，互动内容，品牌偏好，产品偏好等；第三，用户社会特征:婚姻状况，家庭情况，社交/信息渠道偏好等；第四，用户消费特征：收入状况,购买力水平，已购商品，购买渠道偏好，购买频次等；第五，用户工作特征：职位等级、薪资待遇、签到时长、报工内容、报工时长、请假次数、待办事项平均处理时长、OA在线时长、内部邮件往来次数、外部邮件往来次数、公司内部敏感资产访问次数、敏感资产访问时长、与领导、同事往来频、休假时长、内部博客更新次数等；第六，用户访问时间段特征：基于时间维度对员工进行内部资产操作的次数进行基础统计，以日、周、半月、月为统计时间窗口并附带时间标签。完成数据采集，数据标签化确认完成后，需要对这些数据进行清洗、拉通、整合以及分析建模，之后即着手建立内部用户画像。首先在多数据源的情况下，要将不同数据源的同一个员工的信息打通。此处把员工身份证号信息作为用户的ID，对不同数据源进行连接，从而构建一张以员工为主键的关联图。此处画像建立的主要目的为判别员工的离职倾向，因此稍有区别普通用户画像，此处我们需要加入时间序列维度的影响。

第四，建立团体群体分析体系：在对原始数据进行处理后，因数据标签的复杂性和无法界定性，需要用到无监督式的分类算法“BIRCH”建立模型，此算法无需标签的导入学习是利用层次关系来聚类和规约数据的。该算法聚类速度极快并且可以识别噪音点，还可以对数据集进行初步分类的预处理。由于BIRCH分类算法会对样本的读入顺序异常敏感，这可能导致后期的树结构不合理，所以我们引入了‘packet’的概念对数据进行处理，我们利用风控数据的特点，将同一设备ID、同一用户ID可关联到的用户进行打包，建立一个联结表，将这个联结表作为一个整体读入到内存中，可大大降低由于单个用户单个分别读入而导致的不合理树结构的问题，同时并未影响到聚类模型的准确性。算法流程如下：第一，将“packet”后的数据读入，在内存中建立一颗CF Tree,此时先定义好CF Tree的参数：内部节点的最大CF数B，叶子节点的最大CF数L，叶节点每个CF的最大样本半径阈值T；第二，从根节点向下寻找和新样本距离最近的叶子节点和叶子节点里最近的CF节点；第三，如果新样本加入后，这个CF节点对应的超球体半径仍然满足小于阈值T，则更新路径上所有的CF三元组，插入结束，否则转入3；第四，如果当前叶子节点的CF节点个数小于阈值L，则创建一个新的CF节点，放入新样本，将新的CF节点放入这个叶子节点，更新路径上所有的CF三元组，插入结束，否则转入4；第五，如果当前叶子节点的CF节点个数大于阈值L，则将当前叶子节点划分为两个新叶子节点，选择旧叶子节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新叶子节点的第一个CF节点，将其他元组和新样本元组按照距离远近原则放入对应的叶子节点。最后再依次向上检查父节点是否也要分裂，如果需要则同样按照叶子节点的分裂方式进行；第六，将之前建立的CF Tree进行筛选，基于应用场景，此步骤我们加入了‘共享邻密度’的概念，使得叶子结点不再只观察到自己所属‘部下’的距离，而是可以延伸直别的CF节点的‘部下’，则此时发现的聚类不再仅局限于围绕一个中心点的球体，而是可以发现任意形状的群体。共享邻密度：原始的BIRCH聚类算法的数据读入是按照顺序来的，所以当选中第一个节点后，后面读入的数据都是按照上一个节点的位置来决定的，例如，开始CF-tree为空，第一个CF树的节点读入后，计算第二个样本点离此节点的位置，发现这个样本点和第一个样本点在半径为T的球体范围内时，即他们属于同一个CF，则将第二个样本点也加入这个CF，当超出时，则建立另一个CF，但由于我们应用场景的限制，所以可能存在两个球体相隔一定位置，但属于同一大类的情况，所以这里我们加入‘共享邻密度’的概念。1、开始CF-tree为空，读入第一个CF树的节点；2、继续读入第二个CF树的节点；3、一旦CF树增加1时，标记另起CF树的根节点，并计算以另起CF树根节点和原CF树根节点为焦点的椭圆范围中样本的密度，若密度大于M，则合并两个根节点算作同一类样本，同时减少一颗CF树，若密度小于M，则CF树数目不变，算作两类人群样本；4、以新的CF树为原CF树继续遍历剩余节点，并继续建立新的椭圆计算密度关系，重复步骤3，直至所有节点遍历完成，完成我们想要的分类；5、导出聚类结果与实际数据进行对比，筛选异常用户。本发明对报工内容做文本相似度处理后作为机器学习模型的特征工程，可大大提升模型判断精准度；以时间序列模型为基准建立用户画像，使得用户的行为呈现历史进阶性，从而更能清晰的掌握有序操作的动向；在对无监督模型进行源数据输入时，为避免数据顺序对模型的影响，创造性提出了“packet”思想，同时基于原始数据的场景复杂性，对模型邻密度提出了改造，使模型性能得到了大大提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种员工离职倾向检测方法，其特征在于，具体步骤如下：

步骤一，采集员工的原始数据；

步骤二，对原始数据进行整合并且采用UEBA方法（用户及实体行为分析方法）构建内部特征，建立威胁模型；

2.根据权利要求1所述的员工离职倾向检测方法，其特征在于，所述原始数据包括OA系统数据、流量日志和数据库日志。

3.根据权利要求2所述的员工离职倾向检测方法，其特征在于，所述OA系统数据包括设备ID、服务器ID、签到信息、签退信息、年假时长、年假剩余时长、事假时长和病假时长。

4.根据权利要求3或4所述的员工离职倾向检测方法，其特征在于，所述流量日志包括远程的VPN日志和堡垒机日志。

5.根据权利要求1所述的员工离职倾向检测方法，其特征在于，所述威胁模型包括触发事件、攻击者特征、攻击特征以及组织特征。

6.根据权利要求1所述的员工离职倾向检测方法，其特征在于，所述用户画像体系包括用户自然特征、用户兴趣特征、用户社会特征、用户消费特征、用户工作特征和用户访问时间段特征。

7.根据权利要求1或6所述的员工离职倾向检测方法，其特征在于，所述采用无监督式的BIRCH分类算法建立团体群体分析体系。