CN114611786A

CN114611786A - 一种用于识别虚假招聘的数据处理方法和系统

Info

Publication number: CN114611786A
Application number: CN202210222611.5A
Authority: CN
Inventors: 吴丹
Original assignee: Qianjin Network Information Technology (shanghai) Co ltd
Current assignee: Qianjin Network Information Technology (shanghai) Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-10

Abstract

本发明涉及一种用于识别虚假招聘的数据处理方法和系统，所述方法包括：从用户提供的招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息；基于提取出的目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标参考内容分别在网络中进行信息爬取；基于爬取到的各级信息处理得到对应级别的多个指标数据；以及将每个指标数据规范成为机器学习模型的特征数据，并将各级指标数据对应的特征数据组合在一起形成各级机器学习模型的预测样本，其中，所述各级机器学习模型用于评估进行虚假招聘的对应级别风险。本发明提供的方法和系统提高了对虚假招聘进行识别的准确度。

Description

一种用于识别虚假招聘的数据处理方法和系统

技术领域

本发明涉及数据处理技术领域，特别地涉及一种用于识别虚假招聘的数据处理方法和系统。

背景技术

虚假招聘通常是指发布在网络上、人才市场中的招聘信息与实际用人实情不相符的欺诈性招聘，既可以指正规公司进行的假招聘，也可以指虚假公司进行的违法招聘。有些正规公司出于收集人才信息、宣传公司知名度等原因虚设一些职位并在网络和/或人才市场中发布招聘信息。这种虚假招聘行为不但会贻误求职者求职的时机、危害个人信息安全，也占用并浪费了求职公共平台，损害招聘平台的公信力。而虚假公司进行的违法招聘既可能对求职者造成财产和人身损害等后果，如乱收费、传销、涉及黄财毒等，也可能侵害第三方利益，如冒名顶替的正规公司、为其发布招聘信息的招聘平台。

为了识别出这些虚假招聘信息，业界为此做出了大量的努力。公开号为CN113704409 A、发明名称为“一种基于级联森林的虚假招聘信息检测方法”的中国专利申请提供了一种虚假招聘信息检测方法，基于决策树的级联森林算法，以网络招聘平台发布的职位数据建立模型进行虚假招聘预测。公开号为CN 113506084 A、发明名称为“一种基于深度学习的虚假招聘职位检测方法”的中国专利申请提供了一种虚假招聘职位检测方法，从在线招聘平台或招聘APP收集虚假招聘信息，并将虚假招聘信息处理成训练模型的样本数据，通过训练得到检测模型，在所述在线招聘平台或招聘APP利用所述检测模型进行虚假招聘信息检测。

通过上述提供的技术方案可见，目前在识别虚假招聘信息时，用于训练识别模型的训练数据来自于从网络招聘平台收集的虚假职位信息和/或虚假招聘信息。数据的来源范围窄，识别维度单一。根据前述对虚假招聘的说明可知，具有欺诈性质的虚假招聘具有多面性，如果仅局限于从职位方面来识别，势必会遗漏大量的虚假招聘。因而亟需一种从多方面、多维度来识别虚假招聘的方案。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种用于识别虚假招聘的数据处理方法和系统，从多方面、多维度获取用于识别虚假招聘的信息，从而提高虚假招聘识别的准确度。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种用于识别虚假招聘的数据处理方法，其包括以下步骤：

从用户提供的招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息；

基于提取出的目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标参考内容分别在网络中进行信息爬取；

基于爬取到的各级信息处理得到对应级别的多个指标数据；以及

将指标数据规范成为机器学习模型的特征数据，并将各级指标数据对应的特征数据组合在一起形成各级机器学习模型的预测样本，其中，所述各级机器学习模型用于评估进行虚假招聘的对应级别风险。

根据本发明的一个方面，本发明提供了一种用于识别虚假招聘的数据处理系统，其中所述系统包括用户信息获取模块、数据收集模块、指标数据生成模块和预测样本生成模块，其中，所述用户信息获取模块经配置以接收用户提供的招聘面试信息，并从所述用户招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息；所述数据收集模块连接互联网，并与所述用户信息获取模块相连接，经配置以基于提取出目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标参考内容分别在网络中进行信息爬取；所述指标数据生成模块与所述数据收集模块相连接，基于爬取到的各级信息处理得到对应级别的多个指标数据；所述预测样本生成模块与所述指标数据生成模块相连接，经配置以将指标数据规范化为机器学习模型的特征数据，并将各级指标数据对应的特征数据组合在一起形成各级机器学习模型的预测样本，其中，所述各级机器学习模型用于评估进行虚假招聘的对应级别风险。

通过以上本发明提供的方法和系统可见，本发明弥补了前人未能主动搜索信息与风险判别的缺失：传统的算法仅仅采用职位描述相关信息判断是否为虚假招聘，而本发明主动搜索其他相关信息，如企业信息、相关企业信息、目标职位信息、相关职位信息等，增加了算法判断的准确性。本发明弥补了前人未能在面试通知环节预测风险的缺失：现有的虚假招聘检测方案早于面试通知环节，对于在面试通知阶段才显露出风险的虚假招聘未能有效检测，而本发明在求职者获得了目标企业的面试通知后，依据求职者所给出的面试信息进行分析、评估，这一时机既是求职者前往面试之前的最后一道防线，也是能够获取最充分的数据来预测风险的最佳时机，从而能够最大程度地帮助求职者定向规避风险。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例的虚假招聘识别方法流程图；

图2是根据本发明的一个实施例进行风险评估的流程图；

图3是根据本发明另一个实施例进行风险评估的流程图；

图4是根据本发明又一个实施例进行风险评估的流程图；

图5是根据本发明另一个实施例进行评估风险的流程图；

图6是根据本发明的一个实施例的对测试样本数据的处理方法流程图；

图7是根据本发明的一个实施例的虚假招聘预警方法流程图；

图8是根据本发明的一个实施例提供的虚假招聘识别系统原理框图；

图9是根据本发明的一个实施例提供的虚假招聘识别系统的部分原理框图；

图10是根据本发明的一个实施例提供的虚假招聘识别系统部分原理框图；

图11是根据本发明的一个实施例的用户信息获取模块原理框图；

图12是根据本发明的一个实施例的数据处理系统的原理框图；

图13是根据本发明的一个实施例的数据收集模块的原理框图；

图14是根据本发明的一个实施例的指标数据生成模块的原理框图；

图15是根据本发明的一个实施例的模型训练模块的原理框图；

图16是根据本发明的一个实施例的虚假招聘预警系统原理框图；

图17是根据本发明的一个实施例的预警模块原理框图；

图18是根据本发明另一个实施例的预警模块原理框图；以及

图19是根据本发明又一个实施例的预警模块原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

图1是根据本发明一个实施例的虚假招聘识别方法流程图。在本实施例中，所述方法包括以下步骤：

步骤S1a，判断是否接收到用户提供的招聘面试信息，如果接收到用户提供的招聘面试信息则执行步骤S2a，如果没有，则重复本步骤。在一个实施例中，当所述方法应用于在线招聘平台时，如招聘网站、招聘APP等，所述在线招聘平台向用户开放接口，用于方便用户通过该接口输入招聘面试信息。所述接口例如可实施为一个用户界面，用户通过用户界面输入招聘面试信息。在一些实施例中，所述的用户界面还设置有多个信息段，分别用于输入目标招聘企业信息、目标职位信息和面试信息。其中的目标招聘企业信息例如包括企业名称、地址等信息。目标职位信息包括例如职位名称、工作地点等信息。面试信息包括例如面试地点、面试时间、面试通知方式、面试形式，如口试、笔试等信息。

步骤S2a，从用户提供的招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息。在一个实施例中，用户通过用户界面中的信息段中输入各种信息时，从信息段中读取该字段中的信息，对该信息进行处理以得到一个或多个关键词。所述的处理例如去停用词、分词等处理。

步骤S3a，基于提取出的目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标分别在网络中进行信息爬取。

其中，在一个实施例中，企业级别指标包括静态指标和动态指标，静态指标包括但不限于目标招聘企业的企业人数、分公司数、注册资金、融资信息、企业年限、年营业额、营业范围和企业类型中的一种或多种。动态指标包括但不限于目标招聘企业的企业法律诉讼事件、接受的重大投资、发生的社会新闻事件和社交媒体企业评价中的一种或多种。所述的职位级别指标包括但不限于职位名称、工作地点、工作部门、月薪范围、职位描述、福利待遇、工作类型、经验要求、学历要求、学校类型、工作行业风险、相同岗位重复招聘次数中的一种或多种指标。所述的面试级别指标包括但不限于面试地点、面试时间、面试通知方式、面试进行次数、是否有笔试和面试形式中的一种或多种。根据这些指标从网络中获取相应的信息，例如，根据用户提供的目标招聘企业名称、地址等信息，以其名称和/或地址为关键词在网络中搜索可以得到目标招聘企业的官网、社交媒体公众号、公开的新闻报道等等。

在一个实施例中，在目标招聘企业官网中搜索并获取到企业人数信息、包括“xx分公司”的信息、营业范围描述的信息、包含企业类别的信息、有关融资的信息、有关企业年限的描述信息、有关年营业额的描述信息、有关注册资金的信息等，如果从目标招聘企业的官网没有获取到上述某种信息，继续从网络中搜索。例如，如果在目标招聘企业的官网没有获取到注册资金、企业类型等信息时，可从工商信息网中获取到目标招聘企业的注册信息，并从中得到注册资金、企业类型。又例如，如果在目标招聘企业的官网没有获取到融资信息时，可通过查询目标招聘企业的社交媒体公众号或公开的新闻报道中获得融资相关信息。在网页上识别最近五年目标招聘企业的评论信息、诉讼信息、有关接收投资的新闻信息等。其中，为了得到有关职位级别指标数据，在多个招聘平台中搜索有关目标招聘企业发布的相同职位和其他职位的职位信息，同时还搜索与目标招聘企业同类型企业发布的相同职位和其他职位的职位信息。从目标招聘企业官网中获取与所述职位相关的信息。从网络中获取目标招聘企业在一定时间段内发布的工作岗位信息。

步骤S4a，将爬取到信息处理为对应的级别的指标数据。根据具体指标的处理策略处理爬取到的相应信息，按照各种指标，将相应信息规范成为具体的指标数据，所述指标数据可以为浮点数、字符串向量或者为某种编码。

例如，对于企业级别的静态指标的处理包括：关于企业人数，将爬取得到的目标招聘企业人数数据处理成浮点数值。关于分公司数量，根据从官网公司介绍中识别到的包含“**分公司”的词，计算其数量，并处理成浮点数值；关于注册资金，根据从公司注册信息介绍中识别到的包含“注册资金**”的词，将其中的数值处理成浮点数值。关于营业范围，识别营业范围描述中的关键词并处理成字符串向量。关于企业类型，将从官网上的企业类别信息处理为字符串向量，并在“国企”、“外资”、“合资”、“民营”里进行匹配，上述选项分别处理为3，2，1，0，并进行记录。关于融资信息，将获取到的企业最近财报中的净值处理为浮点数值。关于企业年限，将获取的企业成立时间和现在的年份相减获得成立年数数值并处理成浮点数值。关于年营业额，根据从企业最近财报中获得的年营业额处理为浮点数值。

对于企业级别的动态指标的处理包括：关于企业法律诉讼事件，首先从获取到的信息中提取出目标招聘企业最近一段时间(如五年)的诉讼信息；然后使用“劳务”“被告**(目标招聘企业名)”等关键词对每条信息进行正则匹配，如果匹配成功则记为1，匹配失败则记为0；当匹配成功时，从诉讼信息中获取诉讼时间信息并进行编码，例如，当诉讼时间小于1年时编码为1；当诉讼时间小于2年且大于1年时编码为0.8；当诉讼时间小于3年且大于2年时编码为0.6；当诉讼时间小于4年且大于3年时编码为0.5；当诉讼时间小于5年且大于4年时编码为0.3；而后将所有匹配成功的编码与诉讼时间的编码相乘得到诉讼编码；最后再将所有诉讼编码相加得到企业的诉讼事件评分。

关于企业接受的重大投资，首先从抓取的信息中提取出最近一段时间(如五年)和接收投资有关的新闻信息；而后将接收的投资数额处理成浮点数值；再将所有浮点数值相加，得到最近一段时间(如五年)目标招聘企业接受的重大投资总额；如果没有，则默认值为0。

关于社交媒体企业评价，首先从抓取的信息中提取最近一段时间(如五年)的多条评论信息；然后按照以下处理过程对每一条评论信息进行处理：通过解析方法去除评论中的HTML符号；通过正则表达式去除标点符号；使用停用词词库筛选并去除所有的停用词；将经过上述清洗后的数据文本标签化；使用情感分析模型对文本进行分析，将每条评论输出为-1(负性)或1(正性)的评论文本情感编码；再获取评论时间信息，当评论时间距当前小于1年时编码为1，当评论时间距当前小于2年且大于1年时编码为0.8，当评论时间距当前小于3年且大于2年时编码为0.6；当评论时间距当前小于4年且大于3年时编码为0.5；当评论时间距当前小于5年且大于4年时编码为0.3；而后将所有评论文本情感编码与时间的编码相乘得到每条评论的情感分数，例如，某企业收到过一条负性评论，且出现的时间距离当前小于4年且大于3年，则该条评论的情感分数为-1*0.5＝-0.5；该企业同时也收到过一条正性评论，出现的时间距离当前小于3年且大于2年，则该条评论的情感分数为1*0.6＝0.6；再将该企业所有评论的情感分数相加得到企业的社交媒体评价评分，如上例子中的企业的社交媒体评价评分为-0.5+0.6＝0.1。

职位级别的指标数据的处理包括：对于职位名称，将其处理为字符串向量；对于工作地点，首先将提取到的工作地点信息处理为字符串向量；通过地图搜索引擎找到相应地理位置信息；然后获取位置建筑物的所有者/租户名称，并将其与企业名进行匹配；如果可以匹配到目标招聘企业名称则编码为0，否则编码为1。对于工作部门，首先将提取到的工作部门信息处理为字符串向量；然后将其与公司官网上的信息进行匹配，如果在官网上能匹配相应字符串即编码为0，否则编码为1。对于月薪范围，将其处理为浮点数值；对于职位描述，首先通过解析方法和正则表达式去除HTML符号、空格和标点符号；而后通过停用词词库识别出停用词并删除；最后将剩余文本处理成字符串向量。关于福利待遇，首先通过解析方法和正则表达式去除HTML符号、空格和标点符号；再通过停用词词库识别出停用词并删除；最后将剩余文本处理成字符串向量。关于工作类型，从爬取到的相关信息中查找其中是否有“全职”、“兼职”、“劳务派遣”、“时薪”等字符，如果有“全职”则记为3，有“兼职”则记为2，有“劳务派遣”则记为1，有“时薪”则记为0，四者都没有则记为空值。关于经验要求，首先从爬取到的职位相关信息中识别出是否含有“经验”字符串，如果含有，则对“年”字符串之前的数值进行识别以获得要求工作年数的数值并处理为浮点数值，对其中的数值取最小值进行记录；如果没有，识别其中是否有“应届生”字符串，如果有则记录为0，没有则记为空值。关于学历要求，首先从爬取到的职位相关信息中识别对学历要求的描述，并在“硕士或以上”、“大学本科”、“大学专科”、“中专或以下”、“无要求”字符串里进行匹配，上述选项分别处理为4，3，2，1，0进行记录。对于学校类型，从爬取到的职位相关信息中识别出有关毕业学校的描述，并在“985”、“211”等字符串中里进行匹配，如果识别到“985”则记为2，如果识别到“211”则记为1，如果同时识别到“985”、“211”也记为1，未识别到任何匹配字段则记为0。对于工作行业风险，首先将爬取到的职位描述信息在《中华人民共和国行业分类大典》中进行匹配，得到所属行业；然后以所属行业为关键字搜索相关新闻，如果搜索到“裁员”、“转型”、“市值蒸发”、“门店关闭”等关键字，则定义为高风险，记为1，否则定义为低风险，记为0。关于相同岗位重复招聘次数，首先对从爬取的目标招聘企业最近一段时间(如三年)中抓取所有发布的工作岗位；然后识别同一岗位发布在网上的持续时长并按年转化成浮点数值；如果有岗位下线后重新上线，则分别将上线时长相加并转化为浮点数值。

前述的目标职位的职位名称、工作地点、工作部门、月薪范围、职位描述、福利待遇、工作类型、经验要求、学历要求、学校类型、工作行业风险、相同岗位重复招聘次数等为对一个目标职位的深度指标，对其规范处理后的合集可以作为目标职位的预测样本集。在另一个实施例中，在得到目标职位深度指标数据的同时，还包括按照职位级信息建立企业网络招聘信息矩阵的步骤，并从所述企业网络招聘信息矩阵中获得招聘平台和目标职位在广度上的相关指标，以下称为广度指标。

其中，所述企业网络招聘信息矩阵包括一个或多个由目标企业发布的职位信息及发布这些职位信息的招聘平台资质信息；与目标企业同类的一个或多个同类企业发布的职位信息及发布这些职位信息的招聘平台资质信息。其中，所述目标企业发布的职位包括目标职位及不同于目标职位的第二职位；所述招聘平台包括发布目标企业提供的目标职位的一个或多个目标招聘平台和用于发布不同于目标职位的第二职位信息的一个或多个第二招聘平台。

基于企业网络招聘信息矩阵处理得到对应广度指标数据的步骤包括：

基于招聘平台资质信息计算每一招聘平台的资质等级向量；

从企业网络招聘信息矩阵中统计每个招聘平台发布的职位数量；

基于所述职位数量确定每个招聘平台的投入度；例如，以职位数量作为投入度，或者将所述职位数量进行归一化处理，将归一化处理后的值作为投入度。

以每个招聘平台的投入度作为所述招聘平台的资质等级向量权重，计算每一招聘平台的资质等级加权向量值。其中，所述招聘平台的资质等级加权向量值为一种广度指标。

基于企业网络招聘信息矩阵处理得到对应广度指标数据的步骤还包括：

基于目标职位查询与其相同的、由同类企业提供的多个第二目标职位；

基于职位信息计算目标职位和每一个第二目标职位的职位向量；

对所述多个第二目标职位进行聚类运算以得到聚类结果最大的第二目标职位；

计算目标职位的职位向量与聚类结果最大的第二目标职位的职位向量的第一向量差值，以所述第一向量差值作为目标职位的外部一致性系数。其中，所述目标职位的外部一致性系数为另一种广度指标。

计算目标职位的职位向量与由目标企业提供的每一个第二职位的职位向量的第二向量差值，并计算所述第二向量差值平均值，以所述第二向量差值平均值作为目标职位的内部一致性系数。其中，所述目标职位的内部一致性系数为另一种广度指标。

基于第一向量差值和第二向量差值平均值按照其各自与所述目标职位向量的亲疏关系确定各自的权重，并计算二者的加权平均值作为目标职位的一致性系数。其中所述目标职位的一致性系数为另一种广度指标。

在一个实施例中，将上述得到的深度指标数据和广度指标数据合并在一起作为目标职位的预测样本集。

面试级别的指标数据的处理包括：关于面试地点，首先将面试地点信息处理为字符串向量；然后通过地图搜索引擎找到相应地理位置信息；再获取位置建筑物的所有者/租户名称，并与目标招聘企业名称进行匹配；如果匹配到目标招聘企业名称则编码为0，否则为1。对于面试时间，如果面试时间信息位于8:00到18:00之间记为0，否则记为1。对于面试通知方式，如果是电话联系则编码为1，如果是短信方式则编码为2，如果是邮件方式则编码为3，如果是招聘应用(招聘App)方式，则编码为4，如果是普通社交软件方式则编码为5，并允许填入多个联系方式。关于是否有笔试，如果有笔试则编码为0，否编码为1。

步骤S5a，根据各个级别的多个指标数据进行评估得到所述目标企业进行虚假招聘的企业级风险、职位级风险以及面试级风险。在本实施例中，在评估各级风险时采用训练好的模型分别进行评估。所述的模型可以采用决策树、朴素贝叶斯、multi-layer、k-nearest neighbor、随机森林、神经网络等算法。

在本实施例中，所述的各个级别的机器学习模型为分别采用已标注的各级样本训练得到。其中，以企业级别机器学习模型的训练为例，说明训练机器学习模型的过程。

企业级别机器学习模型的训练数据包括一定数量的企业样本数据，每条企业样本数据包括标注为虚假招聘企业或真实招聘企业的多个指标数据，每一个指标数据作为所述企业样本的一个特征数据。例如，将“企业人数”、“分公司数量”、“注册资金”、“营业范围”、“企业类型”、“融资信息”、“企业年限”、“年营业额”、“企业法律诉讼事件”、“接受的重大投资”、“社交媒体企业评价”等因素作为一条样本的自变量(即一条样本的一维特征)，并对每一条样本是否存在企业级风险进行人工标记，如将有风险的样本标记为“负”/“正”，将无风险的样本标记为“正”/“负”，从而得到一个样本集。所述样本集应符合训练模型的一些要求，例如正负样本的数量均衡、每条样本的特征维度相同等等。将所述样本集的80％样本作为训练样本，而将其中的20％样本作为验证样本，从而分别构成训练集和验证集。

然后按照前述的决策树、朴素贝叶斯、multi-layer、k-nearest neighbor、随机森林、神经网络等算法中的任意一种算法建模。所述模型基于训练集的样本按照模型算法进行有监督的学习，得到每条样本存在企业级风险的概率。

由于本实施例只设定了“有风险”和“无风险”两种结果类型，因此模型采用二分类输出。假设样本自变量的数量(即样本特征的维度)为n，模型的数学表示为：

X＝{x₁,x₂,…,x_n}

Y＝{y₀,y₁}

其中所述的X为输入给模型的一条样本的特征集合，每一个x_i为一维特征。例如：x₁为企业人数，x₂为分公司数量，x₃为注册资金，……，x_n为年营业额。Y为模型的分类集合，y_i∈0,1，在本实施例中，y₀代表“无风险”、y₁代表“有风险”。模型基于给定的一条样本X_i，计算其为标签c_j(各分类y对应的标签，例如y₀取值0，对应的标签c₀为“无企业级风险”)的概率p(c_j|X_i)，则模型的输出为：

其中

代表分类预测值，p(c_j|X_i)代表给定样本下的每种分类的概率，在一个实施例中设定一个对比阈值，如设定为0.6-0.9。在本实施例中以阈值0.8进行说明，在判断是否有企业级风险时，如果算法模型输出的y₁的预测概率超过0.8，即可确认所述样本对应的企业存在企业级风险。其中，所述的阈值可以根据实践数据反复运算模型得到的经验值，或者随着模型的迭代进一步调整。将训练完的模型采用验证集样本进行验证，当模型符合评估标准时即可用于在线风险评估。

所述职位级别机器学习模型和面试级别机器学习模型的训练过程与前述过程相似，则不再赘述。

其中，在步骤S4a中，为了使规范化后的数据符合模型的输入要求，即一条样本由多维特征组成，且特征的数量相同。在将各级指标数据具体规范成为浮点数、字符串向量或者编码后，根据各级模型的输入要求，将这些数据组合成模型的预测样本，而后在步骤S5a中将各级的预测样本输入给对应的模型，从而得到对应于各个级别的风险。

在前述实施例中，每个级别的机器学习模型的输出为“有风险”或“无风险”，在一个实施例中，如图2所示，分别在步骤S510a、511a和512a将各样预测样本输入给对应级别的机器学习模型，然后在步骤S513a将各级机器学习模型输出的结果，即企业级风险、职位级风险和面试级风险组合在起作为评估结果，将所述评估结果在步骤S6a提供给用户，使用户可以从企业、职位和面试三个方面得知是否有风险。

在另一个实施例中，如图3所示，将模型输出的“有风险”或“无风险”作为两种等级，分别以1和0为代表，从而可以对企业级、职位级和面试级的风险等级进行编码以得到风险编码。在步骤S510a、511a和512a将各样预测样本输入给对应级别的机器学习模型得到对应级别的风险后，在步骤S523a对企业级风险、职位级风险和面试级风险进行编码。例如，风险编码001代表只有在面试时有风险，而风险编码111则代表在企业、职位和面试时都有风险。为了使用户能够感受到风险的大小，在本实施例中设置有不同的风险等级，风险编码与风险等级相对应，例如下表1所示：

表1：

在步骤S524a，根据当前得到的风险编码查询风险编码与风险等级的对应表，如表1所示，则可以得到与当得风险编码对应的风险等级，并将其确定为最终风险等级，而后在步骤S6a，将所述最终风险等级作为评估结果提供给用户。

在另一个实施例中，如图4所示，在步骤S533a中对获得的企业级、职位级和面试级的风险等级进行编码后，还进一步包括：

步骤S534a，获取企业级、职位级和面试级各自的权重。

步骤S535a，根据风险编码中各位上的数值及各自的权重进行加权计算得到风险编码加权和。

步骤S536a，根据当前的风险编码加权和查询风险编码加权和与风险等级的对应表，如表2所示，从而得到与当前风险编码加权和匹配的风险等级。

其中，在一个实施例中，按照企业级、职位级和面试级的权重分别为5、4、1，分别计算风险编码000-111的加权和，得到0、1、4、5、5、6、9、10，从而根据相邻数值的差距将以下8个数值分成3组，分别为(0，1)、(4，5、6)、(9、10)即得到对应表2：

表2：

风险编码加权和	风险等级
		9、10	高风险
4，5、6	中风险
		0、1	低风险

例如，在一个实施例中，当根据各级别模型得到的如下风险时：企业级：“有风险”；职位级：“无风险”；面试级：“无风险”时，得到风险编码为100，对应的风险编码加权和为5，查询表2，从而匹配到与其对应的风险等级为“中风险”。

最后在步骤S6a中，将从表2查询到的风险等级作为评估结果提供给用户。

在以上实施例中，各个级别的模型采用二分类输出，即“有风险”和“无风险”两个风险等级，当然也可以训练每个级别的模型采用多分类输出，例如，当采用“高风险”、“较高风险”、“中风险”、“较低风险”和“低风险”5个等级时，假设样本自变量(即样本特征的维度)的数量为n，模型的数学表示为：

X＝{x₁,x₂,…,x_n}

Y＝{y₀,y₁,y₂,y₃,y₄}

其中所述的X为输入给模型的一条样本的特征集合，每一个x_i为一维特征。例如x₁为企业人数，x₂为分公司数量，x₃为注册资金，…，x_n为年营业额。Y为模型的分类集合，y_i∈{0,1,2,3,4}，在本实施例中，y₀代表“低风险”、y₁代表“较低风险”、y₂代表“中风险”、y₃代表“较高风险”、y₄代表“高风险”。模型基于给定的一条样本X_i，计算其为标签c_j(各分类y对应的标签，例如y₀取值0，对应的标签c₀为“无风险”)的概率p(c_j|X_i)，则模型的输出为：

其中

代表分类预测值，p(c_j|x_i)代表给定样本下的每种分类的概率，在一个实施例中设定一个对比阈值，一般设定为0.6-0.9。在本实施例中以阈值0.8进行说明，例如判断企业级风险类别时，如果算法模型输出的y₁的预测概率超过0.8，即可确认所述样本对应的企业存在较低企业级风险。其中，所述的阈值可以根据实践数据反复运算模型得到的经验值，或者随着模型的迭代进一步调整。将训练完的模型采用验证集样本进行验证，当模型符合评估标准时即可用于在线风险评估。

在得到每一级别的风险等级后，采用前述实施例进行编码或计算编码的加权和来确定最终的风险等级，在此不再赘述。

图5是根据本发明另一个实施例中评估风险的流程图。在本实施例中，企业级别机器学习模型为一个，职位级别机器学习模型和面试级别机器学习模型为多个，企业级别机器学习模型、职位级别机器学习模型和面试级别机器学习模型的输出类别为两个以上，这三个模型的输出类别数量可以相同，也可以不同。按照从企业级、职位级到面试级的顺序，设定级别依次为从上到下。下一级机器学习模型的数量与上一级机器学习模型的输出类别数量相同，并且分别由具有上一级机器学习模型的输出类别的风险的数据训练得到。例如，多个职位级别机器学习模型分别由具有相应企业级风险等级的数据训练得到，分别与对应企业级别机器学习模型输出的风险等级相对应；多个面试级别机器学习模型分别由具有相应企业级风险等级和相应职位级风险等级的数据训练得到，分别与对应职位级别机器学习模型输出的风险等级相对应。

例如，在一个实施例中，企业级别机器学习模型和职位级别机器学习模型的输出分别为二分类输出，分别定义为“有风险”和“无风险”两个风险等级。面试级别机器学习模型为多分类输出，例如，分别定义“高风险”、“较高风险”、“中风险”、“低风险”和“无风险”5个等级。所述企业级别机器学习模型记为M1，所述职位级别机器学习模型为两个，分别记为模型M2.1和模型M2.2，其中，模型M2.1的训练集的职位样本均是对应企业级无风险的样本，而模型M2.2的训练集的职位样本均是对应企业级有风险的样本。所述面试级别机器学习模型为4个，分别记为模型M3.1、M3.2、M3.3和模型M3.4，模型M3.1的训练集的职位样本均是对应企业级无风险、职位级无风险的样本，模型M3.2的训练集的职位样本均是对应企业级无风险、职位级有风险的样本，模型M3.3的训练集的职位样本均是对应企业级有风险、职位级无风险的样本，模型M3.4的训练集的职位样本均是对应企业级有风险、职位级有风险的样本。

通过机器学习模型训练样本可知，企业级别机器学习模型为第一级，职位级别机器学习模型为其下级模型，面试级别机器学习模型为职位级别机器学习模型的下级模型。下级模型的选择应与上级模型的风险等输出相对应。

按照企业级别、职位级别和面试级别从上到下的顺序，根据上一级机器学习模型输出的风险等级选择下一级机器学习模型，其中所述面试级别机器学习模型输出的风险及等级为最终风险及其等级。具体风险评估的流程如图5所示，包括以下步骤：

步骤S51a，将企业级预测样本输入给企业级机器学习模型M1进行预测。在一个实施例中，所述企业级别机器学习模型记为M1，将企业级预测样本输入给该模型M1。

步骤S52a，判断企业级机器学习模型M1的输出是否为“有风险”，如果为“有风险”则执行步骤S53a，如果为“无风险”则执行步骤S57a。

步骤S53a，选择职位级机器学习模型M2.2，并将职位级预测样本输入给职位级机器学习模型M2.2进行预测。

步骤S54a，判断职位级机器学习模型M2.2的输了出是否为“有风险”，如果为“有风险”则执行步骤S55a，如果为“无风险”则执行步骤S56a。

步骤S55a，选择面试级机器学习模型M3.4，并将面试级预测样本输入给面试级机器学习模型M3.4进行预测，将面试级预测样本输入模型M3.4的输出作为风险评估结果，然后结束风险评估的流程。

步骤S56a，选择面试级机器学习模型M3.3，并将面试级预测样本输入给面试级机器学习模型M3.3进行预测，将面试级机器学习模型M3.3的输出作为风险评估结果，然后结束风险评估的流程。

步骤S57a，选择职位级机器学习模型M2.1，将职位级预测样本输入给职位级机器学习模型M2.1进行预测。

步骤S58a，判断职位级机器学习模型M2.1的输出是否为“有风险”，如果职位级机器学习模型M2.1的输出为“有风险”，则执行步骤S59a，如果职位级机器学习模型M2.1的输出为“无风险”，则执行步骤S510a，

步骤S59a，选择面试级机器学习模型M3.2，将面试级预测样本输入给面试级机器学习模型M3.2进行预测，将面试级机器学习模型M3.2的输出作为风险评估结果，然后结束风险评估的流程。

步骤S510a，选择面试级机器学习模型M3.1，将面试级预测样本输入给面试级机器学习模型M3.1进行预测，将面试级机器学习模型M3.1的输出作为风险评估结果，然后结束风险评估的流程。

本实施例将所有信息按照整体企业层级、职位层级、面试层级划分，由企业层级评估结果统摄职位层级评估结果，由职位层级评估结果统摄面试层级评估结果，从而做出全面、准确的风险判别。

在本实施例中，面试级别机器学习模型为多分类输出，在一个实施例中，所述面试级机器学习模型通过对输入的预测样本的计算得到各个分类概率，例如分别得到“高风险”、“较高风险”、“中风险”、“低风险”和“无风险”的概率；再将每个分类概率与对应的第二分类阈值进行比较；如果其中的一个分类概率大于或等于对应的第二分类阈值，则确定模型输出为所述分类定义的风险等级。

在另一个实施例中，面试级别机器学习模型的输出为二分类；分别定义为“有风险”和“无风险”两个风险等级；在对预测样本进行计算时，所述面试级机器学习模型计算“有风险”概率；并将所述“有风险”概率与多个第三分类阈值进行比较，其中所述多个第三分类阈值构成多个从低到高的风险概率区间，分别对应多个从低到高的风险等级；根据面试级别机器学习模型输出的“有风险”概率所在的风险概率区间确定对应的风险等级。

在另一个实施例中，企业级别机器学习模型和职位级别机器学习模型的输出也可以如面试级别机器学习模型的输出，即为多分类输出。每一个职位级别机器学习模型均与企业级别机器学习模型的一类输出相对应，因而职位级别机器学习模型的数量与企业级别机器学习模型的风险输出类别数量相同。对应地，面试级别机器学习模型的数量为职位级别机器学习模型的数量与职位级别机器学习模型的风险输出类别的乘积。

在步骤S6a中，在将确定的风险作为识别结果提供给所述用户，所述提供方式包括显示在终端界面中、发送邮件、通过移动通信网络发送短消息或向用户社交媒体帐户发送社交消息。

图6是根据本发明一个实施例的对预测样本数据的处理方法流程图。在本实施例中，包括以下步骤：

步骤S1b，监测用户对每一次识别结果的反馈信息。当根据用户提供的招聘面试信息进行评估以识别当前用户面对的招聘是否为虚假招聘、并将识别结果提供给用户后，监测用户对识别结果的反馈信息。在一个实施例中所述反馈信息中可以包括对识别结果中的“有风险”或者“无风险”的确认信息，或者对识别结果的“正确”/“错误”的评价信息等。

步骤S2b，提取用户对识别结果的确认信息。根据步骤S1b反馈的信息，从中提取出“有风险”或“无风险”的确认信息，或“正确”/“错误”的评价信息。

步骤S3b，根据用户的确认信息为对应的预测样本设置对应的标签。例如，当用户确认其输入的招聘面试为真实的招聘时，为评估其招聘而得进行评估的各级预测样本设置真实招聘的标签，如果用户确认其输入的招聘面试为虚假的招聘时，为评估其招聘而得进行评估的各级预测样本设置虚假招聘的标签。在一个更好的实施例中，在用户的反馈信息中还包括更多的信息字段，例如，当用户确认为虚假招聘时，需要用户填写的理由。本发明对用户填写的理由进行分析，以从“企业”和“职位”两个方面评估虚假的根源，并为当前的各级预测样本设置标签。

步骤S4b，将设置了标签的预测样本存储到训练集中，即系统将设置了标签的预测样本存储到用于训练模型的数据集中，从而丰富了训练数据。

步骤S5b，判断是否达到模型更新条件，所述的更新条件例如为预置的更新周期，如每周/月更新一次模型，或者统计模型训练数据集中的新增训练样本的数量，并判断新增训练样本的数量是否达到阈值。如果达到更新周期或新增训练样本的数量达到了阈值，则确定符合模型更新条件，则执行步骤S6b，否则返回执行步骤S1b。

步骤S6b，采用训练数据集对当前使用的机器学习模型进行优化和更新。

本发明可以不断地积累训练数据，不需要人为设置训练数据的标签，模型的优化可以自动进行，不需要人工干预，因而节省了大量的人力与时间；并且，随着模型的优化，也逐渐提高了模型评估的准确性，能够更加精准地识别出虚假招聘，从而更好地维护用户利益。

在一个实施例中，本发明还提供了一种虚假招聘预警方法，参见图7，图7是根据本发明一个实施例的虚假招聘预警方法流程图，包括：

步骤S1c，判断是否接收到用户提供的招聘面试信息，如果接收到用户提供的招聘面试信息则执行步骤S2c，如果没有，则重复本步骤。

步骤S2c，从用户提供的招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息。

步骤S3c，在网络中进行信息爬取。基于提取出的目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标分别在网络中进行信息爬取。

步骤S4c，将爬取到信息处理为对应的级别的指标数据。

步骤S5c，根据各个级别的多个指标数据进行风险评估。例如按照图2-5任一所示的流程进行风险评估。

步骤S6c，基于评估到的风险，回溯并分析对应所述风险的指标数据以得到预警信息并提供给所述用户。其中，所述预警信息包括引起风险的问题指标数据和风险内容。

回溯并分析对应所述风险的指标数据的步骤包括：

首先，根据监测到的风险类型，遍历评估所述风险时使用的指标数据以计算每一个指标数据对评估到的风险的贡献度。

然后，按照对风险的贡献度对所述多个指标进行排序，将排序最高的多个指标或者贡献度大于阈值的指标确定为异常指标。

最后，基于所述异常指标的内容和/或多个异常指标的内容的关联关系生成风险内容。

其中，可以采用特征工程学中的特征重要性确定方法来确定指标数据对评估到的风险的贡献度。所述的特征重要性确定方法例如采用专家会议法，由本领域专家对本发明中采用的各个指标的重要性进行指定并标识，又例如采用粗糙集理论、信息熵等方法为本发明中采用的各个指标的重要性进行标识，或者是通过数据挖掘技术挖掘指标与输出之间的关联关系来确定指标的重要性。基于上述这些方法确定的指标重要性，在回溯指标时，通过查询每个指标对应的重要性标识来确定贡献度。

另有一些不同于上述的确定特征重要性的方法。例如，当采用神经网络的机器学习模型时，由于神经网络中隐层节点的权重代表了对应输入层节点的特征的重要性，因而，当机器学习模型采用的是神经网络模型时，读取隐层节点的权重，根据隐层节点的权重即可以确定指标的贡献度。

又例如，对于采用决策树或者随机森林算法的机器学习模型，根据决策树生成原理可知，在划分决策树过程中所选择的特征的先后顺序可用作为特征的重要性排序，并且该排序可以通过sklearn中的feature_importances_属性得知，因而在本发明回溯指标时，通过调用feature_importances_属性可得到评估风险时使用的各个指标的重要性，即贡献度。

在确定了指标的贡献度后，可以将贡献度排序最高的若干个指标(如前三个指标)作为异常指标，确定了异常指标后，读取异常指标的内容，从而定位了可能产生风险的点以及具体的风险内容。分析三个异常指标的内容是否具有关联关系，如果有，则将关联后的内容也作为风险内容。

本发明预置有对应各种风险内容可能产生的风险事件及其应对方案。因而，在确定了风险内容后，根据风险内容查询数据库，从而确定与之匹配的应对方案。

以评估到企业风险为例，如果回溯后发现“企业法律诉讼事件”是引起企业风险的主要原因，则系统提供的对应方案包括：(1)在面试时可以适当就企业劳务纠纷诉讼情况向HR询问核实；(2)面试或入职前，请多在网上收集相关的信息，以了解相关诉讼的详细情况，加强对此问题的全面了解等等。

将所述的风险内容及对应的对应方案增加到所述预警信息中一起呈现给用户。另外，为了使用户更加了解本次识别的内容，或者是方便用户日后查询，本发明还可以将预警信息中的内容生成风险报告存储或提供给所述用户。例如将评估到的风险等级、风险内容及对应的方案生成风险报告发送给用户，或存储在用户帐户中。

图8是根据本发明一个实施例提供的虚假招聘识别系统原理框图。在本实施例中，所述虚假招聘识别系统包括用户信息获取模块1、数据收集模块2、指标数据生成模块3和风险评估模块4。其中，所述用户信息获取模块1与所述数据收集模块2相连接，所述用户信息获取模块1接收用户提供的招聘面试信息，并从所述用户招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息。所述数据收集模块2连接到互联网上，并与所述用户信息获取模块1相连接，其基于提取出的目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标分别在网络中进行信息爬取以得到招聘企业、目标职位等相关信息。所述指标数据生成模块3与所述数据收集模块相2连接，将爬取到的企业级别、职位级别和面试级别信息处理得到对应级别的多个指标数据，其中，经过所述指标数据生成模块3的处理，基于得到的各级信息将其规范为一个个具体的指标数据，如为浮点数、字符串向量或者为某种编码。所述风险评估模块4与所述指标数据生成模块3相连接，经配置以根据各个级别的多个指标数据进行评估而得到所述目标企业进行虚假招聘的企业级风险、职位级风险以及面试级风险。

图9是根据本发明另一实施例提供的虚假招聘识别系统部分原理框图。本实施例采用机器学习模型评估风险。因而，本实施例中除了包括图8中的模块外，还包括预测样本生成模块5，其与指标数据生成模块3相连接，基于各级机器学习模型所需要的样本，将每一指标数据规范化为特征数据，并将各级指标数据对应的特征数据组合在一起形成各级机器学习模型的预测样本。。本实施例中的风险评估模块4包括企业级风险评估单元41、职位级风险评估单元42、面试级风险评估单元43、编码单元44和风险等级查询单元45。预测样本生成模块5将各级预测样本分别输入给企业级风险评估单元41、职位级风险评估单元42和面试级风险评估单元43，企业级风险评估单元41通过将企业级预测样本输入给训练好的企业级机器学习模型得到企业级风险概率。所述职位级风险评估单元42通过将职位级预测样本输入给训练好的职位级机器学习模型得到职位级风险概率。所述面试级风险评估单元43通过将面试级预测样本输入给训练好的面试级机器学习模型得到面试级风险概率。在一个实施例中，这三个单元将得到的风险概率可以直接作为识别结果提供给用户，在本实施例中，这三个单元将得到的风险概率输出给所述编码单元44，由编码单元44对获得的企业级、职位级和面试级的风险等级进行编码以得到风险编码，并将所述风险编码输出给风险等级查询单元45，风险等级查询单元45根据所述风险编码查询编码与风险等级的对应表，如前述对方法进行说明时涉及到的表1，并将与所述风险编码对应的风险等级确定为最终风险等级。当然，所述编码单元44在得到风险编码后，也可以根据各级风险的权重计算风险编码加权和，风险等级查询单元45根据风险编码加权和查询编码加权和与风险等级的对应表，如前述对方法进行说明时涉及到的表2，并将与所述风险编码加权和对应的风险等级确定为最终风险等级。

图10是根据本发明又一实施例提供的虚假招聘识别系统原理框图。本实施例与图9所示的实施例相比，本实施例中的风险评估模块4除了包括企业级风险评估单元41、职位级风险评估单元42和面试级风险评估单元43外，还包括选择单元46。在本实施例中，三个评估单元使用的机器学习模型相互之间具有关联。其中，按照企业级别、职位级别和面试级别从上到下的顺序，下一级机器学习模型按照与其上一级机器学习模型输出的风险等级相对应的训练数据进行训练而得到，因而，下一级机器学习模型的数量与上一级机器学习模型的风险等级数量相同，风险的评估也从上到下逐级进行评估，并且需要根据上一级机器学习模型的风险等级选择下一级机器学习模型。

具体地，企业级风险评估单元41接收预测样本生成模块5得到的企业级预测样本，并通知所述选择单元46，所述选择单元46从模型库中选择企业级机器学习模型并发送给企业级风险评估单元41。所述企业级风险评估单元41将企业级预测样本输入给企业级机器学习模型，经所述企业级机器学习模型评估得到企业级风险等级，并将所述企业级风险等级发送给选择单元46的同时，通知所述职位级风险评估单元42。所述选择单元46根据企业级风险等级选择合适的职位级机器学习模型，并发送给职位级风险评估单元42。所述职位级风险评估单元42接收到企业级风险评估单元41的通知及所述选择单元46发送的职位级机器学习模型后，将从预测样本生成模块5接收到的职位级预测样本输入给所述职位级机器学习模型，经所述职位级机器学习模型评估得到职位级风险等级，并将职位级风险等级输出给选择单元46，同时输出通知给所述面试级风险评估单元43。选择单元46根据职位级风险等级选择对应的面试级机器学习模型并发送给面试级风险评估单元43。面试级风险评估单元43接收到职位级风险评估单元42的通知和选择单元46发送来的面试级机器学习模型后，将从预测样本生成模块5接收到的面试级预测样本输入给所述面试级机器学习模型，经所述面试级机器学习模型评估得到最终的级风险等级。

前述实施例中的所述企业级机器学习模型和所述职位级机器学习模型输出分别为二分类，分别定义为“有风险”和“无风险”两个风险等级。所述面试级机器学习模型的输出为二分类或多分类，当为二分类时，分别定义为“有风险”和“无风险”两个风险等级，当为多分类分别定义为从无到有多个不同程度的风险等级。

图11是根据本发明一个实施例的用户信息获取模块原理框图。在本实施例中，所述用户信息获取模块包括消息收发单元11和信息提取单元12。所述消息收发单元11作为系统与用户的交互接口，一方面，其与风险评估模块4相连接，将最终的识别结果发送给用户，另一方面，接收用户提供的招聘面试信息，并将其输出给信息提取单元12。所信息提取单元12从用户提供的招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息。

其中消息收发单元11包括以下单元中的一种或多种：应用终端用户交互单元110、邮件处理单元111、移动短消息处理单元112和社交媒体消息处理单元113。所述应用终端用户交互单元110至少包括输入界面，通过输入界面可以获取用户经应用终端提供的招聘面试信息，另外，应用终端用户交互单元110也可以包括显示界面，用于显示消息，如识别出的风险等级、风险内容或对应方案等信息。邮件处理单元111可以根据邮件地址，或者主题识别用户经邮件方式提供的招聘面试信息，也可以通过邮件方式向用户发送消息。移动短消息处理单元112基于移动通信网络接收的短消息中，根据消息发送号码及主题识别用户经短消息方式提供的招聘面试信息，也可以向用户发送消息。社交媒体消息处理单元113从社交媒体消息中，根据消息发送方识别用户经社交媒体方式提供的招聘面试信息或者向用户发送消息。

图12是根据本发明一个实施例的数据处理系统的原理框图。在本实施例中的数据处理系统包括用户信息获取模块1、数据收集模块2、指标数据生成模块3和预测样本生成模块5，即图9或图10中的虚假招聘识别系统中的部分模块构成了一个数据处理系统，基于用户提供的招聘面试信息进行信息提取、信息爬取、数据规范围等处理，从而得到用于机器学习模型进行评估风险的预测样本。具体地，图13是根据本发明一个实施例的是数据收集模块的原理框图。在本实施例中，所述数据收集模块包括指标获取单元21、指标分析单元22、信息爬取单元23和信息矩阵构建单元24。

所述指标获取单元21用于读取分别应用于企业级别、职位级别和面试级别的多个指标。在本实施例中，系统中存储有用于评估各级风险的指标，所述指标获取单元21从系统数据库中读取这些指标，并发送给所述指标分析单元22。所述指标分析单元22分析每一个指标，确定为得到指标数据所需要的指标参考内容，并将所述指标参考内容发送给信息爬取单元23。所述信息爬取单元23与所述指标分析单元22相连接，根据确定的指标参考内容从互联网中爬取相应的信息。在一个实施例中，系统中存储有与指标对应的一个或多个检索关键词，例如，所述指标获取单元21读取到“企业人数”这一指标时，所述指标分析单元22查询其检索关键词得到指标参考内容“企业人数/数量”，所述信息爬取单元23根据指标参考内容“企业人数/数量”在目标招聘企业官网中搜索并获取到企业人数信息从而得到符合“企业人数”这一指标的信息。又例如，所述指标获取单元21读取到企业级别指标“企业法律诉讼事件”时，所述指标分析单元22查询其检索关键词得到指标参考内容“劳务/被告”等，所述信息爬取单元23根据这些内容查询目标招聘企业最近一段时间(如五年)的相关诉讼信息。

在本实施例中，信息矩阵构建单元24与所述信息爬取单元23相连接，根据爬取到的信息之间的关联建立信息矩阵。所述信息矩阵包括一个或多个由目标企业发布的职位信息及发布这些职位信息的招聘平台资质信息；与目标企业同类的一个或多个同类企业发布的职位信息及发布这些职位信息的招聘平台资质信息。其中，所述目标企业发布的职位包括目标职位及不同于目标职位的第二职位；所述招聘平台包括发布目标企业提供的目标职位的一个或多个目标招聘平台和用于发布不同于目标职位的第二职位信息的一个或多个第二招聘平台。

图14根据本发明一个实施例所述指标数据生成模块的原理框图。在本实施例中，所述指标数据生成模块包括数据清洗单元31、单指标提取单元32和复合指标计算单元33。其中，所述数据清洗单元31对爬取到的原始信息进行数据清洗，包括去除一些网络符号、标点符号，查询停用词表以去除停用词等处理。所述单指标提取单元32与所述数据清洗单元31相连接，从清洗后的数据中提取并规范化的单指标数据。所述单指标例如一些不需要复杂计算、处理的指标，例如“企业人数”、“分公司数”、“注册资金”、“职位名称”、“学历要求”等指标。对于这些指标，可以通过识别关键词的方式提取指标数据，并根据具体的指标，将其处理成字符串向量、浮点数值或编码。所述复合指标计算单元33与所述单指标提取单元32相连接，经配置以按照复合指标计算规则计算一种以上的单指标数据以得到复合指标数据。所述的复合指标例如为“招聘平台的投入度”、“招聘平台的资质等级”、“目标职位的外部一致性系数”等指标。其计算方法如前述对方法部分的说明，在此不再赘述。

图15是根据本发明另一实施例提供的数据处理系统中模型训练模块的原理框图。在本实施例中所述模型训练模块6包括训练数据集单元61、模型训练单元62、用户反馈监测单元63、样本标注单元64和模型更新单元65。所述训练数据集单元61用于提供训练模型用的数据集，根据训练的模型类型分别包括企业级训练数据子集、职位级训练数据子集和面试级训练数据子集。进一步地，每个训练数据子集还包括训练子集和验证子集。所述模型训练单元62根据训练的模型类型，以相应类型的训练数据子集中的数据进行模型训练，分别得到企业级机器学习模型、职位级机器学习模型和面试级机器学习模型。在一个实施例中，所述模型训练单元62分别以相互独立的训练集进行模型训练，从而得到三个独立的机器学习模型，在另一个实施例中，根据企业级机器学习模型的风险等级，职位级训练数据子集分别包括由具有对应企业风险的训练数据构成的不同子集，根据不同的训练子集得到不同的职位级机器学习模型。同理，对应于面试级训练数据子集，其中包括由具体对应企业风险等级和职位级风险等级的训练数据构成的多个训练子集，因而根据不同的训练子集得到不同的面试级机器学习模型。如前述对本发明所述方法进行说明时涉及的例子，经过不同的训练子集得到企业级机器学习模型M1，职位级机器学习模型M2.1、M2.2、面试级机器学习模型M3.1、M3.2、M3.3和M3.4。为了扩充训练集，用户反馈监测单元63监测用户对虚假招聘识别结果的反馈信息，所述反馈信息中至少包括有风险或无风险的确认信息。所述样本标注单元64与所述用户反馈监测单元63相连接，基于用户的反馈信息对获取所述识别结果的数据进行风险标注，并增加到相应的训练数据子集中，从而达到丰富训练数据的目的。所述模型更新单元65与所述训练数据集单元61相连接，其用于监测更新条件，在符合模型更新条件时，发送更新通知给所述模型训练单元62。所述模型训练单元62以训练数据进行模型训练、优化、更新。其中，所述的更新条件例如为达到预置的更新周期，如每周/月更新一次模型，或者新增训练样本达到阈值。因而，模型更新单元65在每次更新完模型后计时，在达到计时周期时发送更新通知给模型训练单元62。或者模型更新单元65统计训练数据集中的新增训练数据，在新增训练数据的数量达到阈值时，通知模型训练单元以当前训练数据对原有机器学习模型进行优化和更新。

图16是根据本发明一个实施例的虚假招聘预警系统原理框图。在本实施例中，所述预警系统包括用户信息获取模块1、数据收集模块2、指标数据生成模块3、风险评估模块4和预警模块7。其中用户信息获取模块1、数据收集模块2、指标数据生成模块3、风险评估模块4与前述实施例中的虚假招聘识别系统中的模块相同，在此不再赘述。

所述预警模块7与所述风险评估模块4相连接，其响应于评估到的风险，回溯并分析对应所述风险的指标数据以得到预警信息并提供给所述用户。

图17是根据本发明一个实施例所述的预警模块原理框图。在本实施例中，所述的预警模块包括风险监测单元71、风险内容确定单元72、预警信息生成单元73和预警信息发送单元74。

所述风险监测单元71与所述风险评估模块4相连接，监测风险评估模块4是否评估到风险，当检测到风险评估模块4评估到风险时，发送通知给所述风险内容确定单元72。所述风险内容确定单元72以基于评估到风险类型遍历用于评估所述风险的指标数据以得到异常指标数据，基于所述一个或多个异常指标数据的内容或其关联关系确定风险内容。其中，在确定异常指标数据时可以采用前述方法中的任意一种方法，在此不再赘述。所述预警信息生成单元73和所述风险内容确定单元72相连接，基于风险类型及风险内容生成预警信息。所述预警信息发送单元74与所述预警信息生成单元73相连接，用于将所述预警信息提供给所述用户。其中，所述预警信息发送单元74可以采用交互信息发送单元、邮件处理单元、移动短消息处理单元、移动短消息处理单元和社交媒体消息处理单元中的一种或多种，也就是说，所述预警信息发送单元74可以与用户信息获取模块合并为一个模块，使其模块实施为一个兼具消息接收与发送的双向功能，具体参考前述实施例，在此不再赘述。

图18是根据本发明另一个实施例所述的预警模块原理框图。在本实施例中，与图17的实施例相比，除了增加了预测单元75，其他模块功能相同，在此不再赘述。预测单元75与所述风险内容确定单元72相连接，经配置以根据风险内容预测风险事件及风险应对方案，并将所述风险事件及其应对方案增加到预警信息中。例如，预测单元75根据风险内容查询系统数据库中预置的各种建议、对应方案，从而得到与之匹配的建议，并将多个建议或对应方案组合在一起增加到预警信息中。又例如，系统数据库中预置有与风险内容对应的各种可能出现的风险事件及对应的应对方案，可以将这些信息增加到预警信息中，一并发送给用户。

图19是根据本发明又一个实施例所述的预警模块原理框图。在本实施例中，与图18的实施例相比，除了增加了风险报告生成单元76，其他模块功能相同，在此不再赘述。所述风险报告生成单元76与所述预警信息生成单元73相连接，经配置以根据预警信息中的内容生成风险报告。对应地，所述预警信息发送单元将所述风险报告存储在预定位置或发送给所述用户。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种用于识别虚假招聘的数据处理方法，包括：

2.根据权利要求1所述的方法，其中从爬取到的企业级信息中得到的企业级别指标数据包括目标招聘企业的企业人数、分公司数、注册资金、融资信息、企业年限、年营业额、营业范围和企业类型中的一种或多种静态指标数据。

3.根据权利要求2所述的方法，其中从爬取到的企业级信息中得到的企业级别指标数据还包括目标招聘企业的企业法律诉讼事件、接受的重大投资、发生的社会新闻事件和社交媒体企业评价中的一种或多种动态指标数据。

4.根据权利要求3所述的方法，其中在得到的动态指标数据时进一步包括：计算每种动态信息与招聘的相关度，根据所述相关度设置所述动态指标数据的权重。

5.根据权利要求1所述的方法，其中从爬取到的职位级别信息中得到的以下深度指标数据：目标职位的职位名称、工作地点、工作部门、月薪范围、职位描述、福利待遇、工作类型、经验要求、学历要求、学校类型、工作行业风险、相同岗位重复招聘次数中的一种或多种。

6.根据权利要求5所述的方法，其中进行一步包括：基于爬取到的职位级信息建立企业网络招聘信息矩阵，所述企业网络招聘信息矩阵包括：一个或多个由目标企业发布的职位信息及发布所述职位信息的招聘平台的资质信息，所述职位包括目标职位及不同于目标职位的第二职位；与目标企业同类的一个或多个同类企业发布的职位信息及发布所述职位信息的招聘平台的资质信息，所述招聘平台包括发布目标企业提供的目标职位的目标招聘平台和第二招聘平台。

7.根据权利要求6所述的方法，其中进一步包括基于企业网络招聘信息矩阵获得职位级别的广度指标数据的步骤。

8.根据权利要求7所述的方法，其中所述广度指标包括招聘平台的资质等级加权向量值，基于企业网络招聘信息矩阵获得所述招聘平台的资质等级加权向量值的步骤包括：

基于所述招聘平台资质信息计算每一招聘平台的资质等级向量；

基于所述职位数量确定每个招聘平台的投入度；以及

以每个招聘平台的投入度作为所述招聘平台的资质等级向量权重，计算每一招聘平台的资质等级加权向量值。

9.根据权利要求7所述的方法，其中所述广度指标包括目标职位的外部一致性系数，基于企业网络招聘信息矩阵获得所述目标职位的外部一致性系数的步骤包括：

对所述多个第二目标职位进行聚类运算以得到聚类结果最大的第二目标职位；以及

计算目标职位的职位向量与聚类结果最大的第二目标职位的职位向量的第一向量差值，以所述第一向量差值作为目标职位的外部一致性系数。

10.根据权利要求9所述的方法，其中所述广度指标包括目标职位的内部一致性系数，基于企业网络招聘信息矩阵获得所述目标职位的内部一致性系数的步骤包括：

计算目标职位的职位向量与由目标企业提供的每一个第二职位的职位向量的第二向量差值，并计算所述第二向量差值平均值，以所述第二向量差值平均值作为目标职位的内部一致性系数。

11.根据权利要求10所述的方法，其中所述广度指标包括目标职位的一致性系数，基于企业网络招聘信息矩阵获得目标职位的一致性系数的步骤包括：

基于第一向量差值和第二向量差值平均值按照其各自与所述目标职位向量的亲疏关系确定各自的权重，并计算二者的加权平均值作为目标职位的一致性系数。

12.根据权利要求1所述的方法，其中，基于爬取到的面试级信息得到面试级别指标的步骤包括：

依据面试地点获取面试地点所在建筑物的地理位置信息及所有者/租户信息；

将所述建筑物的所有者/租户信息与目标企业名称进行匹配；以及

基于匹配结果确定面试地点指标。

13.根据权利要求12所述的方法，其中，所述面试级别指标还包括面试时间、面试通知方式、面试进行次数和面试形式中的一种或多种。

14.根据权利要求1所述的方法，其中进一步包括：根据指标数据类型，将每个指标数据规范成为对应的字符串向量、浮点数值或编码。

15.根据权利要求1所述的方法，其中进一步包括：

监测用户对虚假招聘识别结果的反馈信息，所述反馈信息中至少包括有风险或无风险的确认信息；以及

根据所述反馈信息中的有风险或无风险的确认信息，为提供给各级机器学习模型的预测样本设置对应的标签，并存储到模型训练数据集中。

16.根据权利要求15所述的方法，其中进一步包括：

监测新增训练数据的数量是否达到阈值；以及

响应于新增训练数据的数量达到阈值，对当前使用的机器学习模型进行优化和更新。

17.一种用于识别虚假招聘的数据处理系统，包括：

用户信息获取模块，经配置以接收用户提供的招聘面试信息，并从所述用户招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息；

数据收集模块，其连接互联网，并与所述用户信息获取模块相连接，经配置以基于提取出目标招聘企业信息、目标职位信息和面试信息，按照企业级别、职位级别和面试级别中的多个指标参考内容分别在网络中进行信息爬取；

指标数据生成模块，其与所述数据收集模块相连接，基于爬取到的各级信息处理得到对应级别的多个指标数据；以及

预测样本生成模块，其与所述指标数据生成模块相连接，经配置以将指标数据规范化为机器学习模型的特征数据，并将各级指标数据对应的特征数据组合在一起形成各级机器学习模型的预测样本，其中，所述各级机器学习模型用于评估进行虚假招聘的对应级别风险。

18.根据权利要求17所述的系统，其中，所述用户信息获取模块包括：

消息接收单元；经配置以接收用户提供的招聘面试信息；以及

信息提取单元，其与所述消息接收单元相连接，经配置以从用户提供的招聘面试信息中提取出目标招聘企业信息、目标职位信息和面试信息。

19.根据权利要求18所述的系统，其中，所述消息接收单元为以下单元中的一种或多种：

应用终端用户交互单元，其至少包括输入界面，经配置以通过输入界面获取用户经应用终端提供的招聘面试信息；

邮件处理单元，经配置以根据邮件地址和/或主题识别用户经邮件方式提供的招聘面试信息；

移动短消息处理单元，经配置以从基于移动通信网络接收的短消息中根据消息发送号码及主题识别用户经短消息方式提供的招聘面试信息；以及

社交媒体消息处理单元，经配置以从社交媒体消息中根据消息发送方识别用户经社交媒体方式提供的招聘面试信息。

20.根据权利要求17所述的系统，其中，所述数据收集模块包括：

指标获取单元，经配置以读取分别应用于企业级别、职位级别和面试级别的多个指标；

指标分析单元，其与所述指标获取单元相连接，经配置分析每一个指标，确定为得到指标数据所需要的指标参考内容；以及

信息爬取单元，其与所述指标分析单元相连接，经配置以根据确定的指标参考内容从互联网中爬取相应的信息。

21.根据权利要求20所述的系统，其中所述数据收集模块进一步包括：信息矩阵构建单元，其与所述信息爬取单元相连接，经配置以根据爬取到的信息之间的关联建立信息矩阵。

22.根据权利要求17所述的系统，其中，所述指标数据生成模块包括：

数据清洗单元，经配置以对爬取到的原始信息进行数据清洗；

单指标提取单元，其与所述数据清洗单元相连接，经配置从清洗后的数据中提取并规范化出单指标数据；以及

复合指标计算单元，其与所述单指标提取单元相连接，经配置以按照复合指标计算规则计算一种以上的单指标数据以得到复合指标数据。

23.根据权利要求17所述的系统，其中进一步包括模型训练模块，经配置包括：

训练数据集单元，经配置以提供训练模型用的数据集，根据训练的模型类型分别包括企业级训练数据子集、职位级训练数据子集和面试级训练数据子集；以及

模型训练单元，经配置以根据训练的模型类型，以相应类型的训练数据子集中的数据进行模型训练，分别得到企业级机器学习模型、职位级机器学习模型和面试级机器学习模型。

24.根据权利要求23所述的系统，其中，在所述训练数据集单元中，以企业级、职位级、面试级为从上到下的顺序，每个下一级子集的数量与上一级机器学习模型的风险等级数量相同，每个下一级子集由具有上一级对应风险等级风险的训练数据构成；或者，企业级训练数据子集、职位级训练数据子集和面试级训练数据子集为独立的数据集。

25.根据权利要求24所述的系统，其中所述模型训练模块进一步包括：

用户反馈监测单元，经配置监测用户对虚假招聘识别结果的反馈信息，所述反馈信息中至少包括有风险或无风险的确认信息；以及

样本标注单元，其与所述用户反馈监测单元相连接，经配置以基于用户的反馈信息对获取所述识别结果的预测样本进行风险标注，并将标注后的预测样本增加到相应的训练数据集中。

26.根据权利要求25所述的系统，其中所述模型训练模块进一步包括：

模型更新单元，其与所述训练数据集单元相连接，经配置以统计训练数据集中的新增训练数据，在新增训练数据的数量达到阈值时，通知模型训练单元以当前训练数据对原有机器学习模型进行优化和更新。