CN113704409B - 一种基于级联森林的虚假招聘信息检测方法 - Google Patents

一种基于级联森林的虚假招聘信息检测方法 Download PDF

Info

Publication number
CN113704409B
CN113704409B CN202111010334.3A CN202111010334A CN113704409B CN 113704409 B CN113704409 B CN 113704409B CN 202111010334 A CN202111010334 A CN 202111010334A CN 113704409 B CN113704409 B CN 113704409B
Authority
CN
China
Prior art keywords
recruitment
text
features
forest
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111010334.3A
Other languages
English (en)
Other versions
CN113704409A (zh
Inventor
杨新凯
谢宁宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202111010334.3A priority Critical patent/CN113704409B/zh
Publication of CN113704409A publication Critical patent/CN113704409A/zh
Application granted granted Critical
Publication of CN113704409B publication Critical patent/CN113704409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于级联森林的虚假招聘信息检测方法,包括下列步骤:1)获取招聘数据,提取文本特征和非文本特征;2)根据文本特征和非文本特征构建多维度特征样本,将多维度特征样本划分为训练集和测试集;3)基于级联森林算法,构建虚假招聘信息检测模型;4)对虚假招聘信息检测模型进行模型训练;5)输入测试集至训练后的虚假招聘信息检测模型中,获取检测结果。与现有技术相比,本发明具有准确率高、无需大规模训练数据等优点。

Description

一种基于级联森林的虚假招聘信息检测方法
技术领域
本发明涉及互联网技术领域,尤其是涉及一种基于级联森林的虚假招聘信息检测方法。
背景技术
虚假招聘预测,即招聘欺诈检测,是欺诈检测的一个分支。目前常用的欺诈检测研究方法有基于规则的方法和基于学习的方法。
基于规则的方法将不符合明确规则的结果归类为欺诈。例如:如果发布招聘职位的企业有公司简介,则认为这个招聘职位是真实职位,否则为虚假职位。这种基于规则的方法简单且在逻辑上很容易解释。但它们的缺点在于,如果检测的规则已知,则很容易被避免,并且研究人员难以制定明确的规则定义虚假职位预测的逻辑。
基于学习的方法克服了上述缺点,能够通过算法自动学习欺诈行为。机器学习算法应用在虚假招聘预测领域已经取得显著成果。Vidros.等从文本中提取多种特征训练机器学习分类器,其中随机森林的预测效果最好,准确率达89.5%。这篇文章同时公开了爱琴海就业诈骗数据集(Employment Scam Aegean Dataset,EMSCAD)。Mahbub.等为EMSCAD数据集添加了语义特征,使预测准确率、精确率、召回率均有显著提升。lal.等将决策树、随机森林、逻辑回归作为基分类器,采用投票技术构建集成模型,将预测准确率提升至95.4%。Alghamdi.等使用支持向量机进行特征选择,以提升随机森林的预测效果。Mehboob.等使用极端梯度提升(Extreme Gradient Boosting,XGBoost)的方法构建虚假招聘预测模型。王辛使用DBSCAN方法(Density-Based Spatial Clustering of Applications with Noise)和LOF方法(Local Outlier factor)识别虚假招聘职位,但查准率和查全率较低。上述文献多基于传统的机器学习方法识别虚假招聘职位,依赖人工提取特征,存在特征提取不充分,模型性能不佳等问题。近年来,随着深度神经网络在计算机视觉和自然语言处理领域展现出杰出的性能,研究人员尝试将神经网络算法用于虚假招聘预测领域。Jeongrae.等基于分层聚类的深度神经网络(hierarchical clusters-based deep neural networks,HC-DNN)构建虚假招聘检测模型,实验结果显示所提出的模型优于传统的机器学习模型。深度神经网络虽然在解决检测问题时取得了卓越的成果,但其解决问题的过程却难以解释,且需要大规模样本数据进行训练,训练周期长、超参数调整复杂。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于级联森林的虚假招聘信息检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于级联森林的虚假招聘信息检测方法,该方法包括如下步骤:
S1:获取招聘数据,提取文本特征和非文本特征。所述招聘数据包括发布招聘职位的企业相关特征,招聘职位的相关特征以及招聘职位的类别标签。
采用以下目标函数提取文本特征:
LCBoW=∑(w,c)∈Tlog P(w∣c(w))
式中:w为目标词,c(w)为目标词的上下文,T为给定的招聘文本数据,LCBOW为招聘文本分词后所有词向量;通过计算招聘文本分词后所有词向量LCBOW的平均值,获取相同维度的招聘职位的文本语义特征FT
S2:根据文本特征和非文本特征构建多维度特征样本,将多维度特征样本划分为训练集和测试集。具体地,对提取的非文本特征进行数据预处理,将取值为类别文本的特征进行独热编码,取值为数值的特征归一化,获取非文本特征集FS,将非文本特征集FS与提取的文本特征集FT结合并进行标注,获取包含多维度特征向量的招聘样本数据S={F,L},其中多维度特征向量F={FT,FS},L为招聘职位的类别标签。
S3:基于级联森林算法,构建虚假招聘信息检测模型。具体内容为:
31)将训练集数据输入级联森林;
32)自动增加级联森林层数;
33)判断级联森林三层内检测准确率没有提升,若是,则进行下一步,否则,再次执行步骤32);
34)停止增加级联森林,输出虚假招聘信息检测模型。
所述级联森林的每层结构包括完全随机森林和随机森林,所述完全随机森林中的每棵决策树随机选择一个信息增益最大的特征做节点分裂,直至每一个叶节点包含的实例属于同一个类;所述随机森林中的每棵决策树随机选择个特征子集,m表示输入特征的维度,随后选择信息增益最大的特征做节点分裂;每个随机森林的输出为一个类概率向量。
对于招聘样本数据S中任一特征k,假定其有v个可取的取值{k1,k2,...,kv},第v个分支节点包含了S所有在k上取值为kv的样本,记为SV,则k的信息增益计算公式如下:
其中,Ent(.)表示信息熵,具体计算公式如下:
其中,L为招聘数据类标签,pi为第i类招聘样本所占的比例,利用同样的方式可计算Ent(SV)的信息增益。
S4:对虚假招聘信息检测模型进行模型训练。具体训练步骤包括:
41)从原始数据集中提取文本特征集FT和非文本特征集FS,构建包含多维度特征向量的招聘样本数据S;
42)将招聘样本数据S划分为训练集和测试集;
43)初始化每种随机森林的个数n_estimators和森林中决策树的个数n_trees;
44)计算特征的信息增益,并将特征排序,训练n_estimators个随机森林分类器,做K折交叉验证,计算准确率;
45)对森林中n_trees个决策树输出的类概率求均值,生成类概率向量,所述类概率向量为二位类概率向量;二位类概率向量xi的计算表达式为:
式中,i为招聘职位的类别,xij为类别为i招聘职位在j个决策树的类概率,n_trees为森林中决策树的数量。
46)将步骤45)生成的类概率向量与输入的多维度特征向量拼接,输入下一层进行训练;
47)重复步骤45)~步骤46),直至检测的准确率不再上升,停止训练。
S5:输入测试集数据至训练后的虚假招聘信息检测模型中,获取预测结果。
本发明提供的基于级联森林的虚假招聘信息检测方法,相较于现有技术至少包括如下有益效果:
本发明首次尝试利用级联森林的方法,结合企业在国内网络招聘平台发布的职位数据建立模型,进行虚假招聘预测,级联森林是一种基于决策树的集成算法,采用逐层训练的方式,将每一层级联森林输出的类概率向量,拼接原始特征向量的方式,作为下一层级的输入,增强特征的学习能力,从而提高检测的准确率。对比之前用到的逻辑回归、支持向量机、随机森林、XGBoost机器学习模型,检测准确率显著提高,且无需大规模样本数据的训练,可大幅度减小训练周期,无需复杂的超参数调整步骤。
附图说明
图1为实施例中基于级联森林的虚假招聘信息检测方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
级联森林是基于决策树的深度集成算法,与深度神经网络相比,其可解释性较强,支持小规模训练数据,且超参数较少。深度森林拥有与深度神经网络相媲美的表征学习能力,并且在与深度学习竞争的多个领域,都取得了出色的成果。目前被广泛应用于信用卡欺诈检测、高光谱图像分类等领域。本实施例提供一种基于级联森林的虚假招聘职位预测方法,该方法首次尝试利用级联森林的方法,结合企业在国内网络招聘平台发布的职位数据建立模型,进行虚假招聘预测,并通过实验验证了该方法的可行性。
一种基于级联森林的虚假招聘信息检测方法,如图1所示,该方法包括如下步骤:
步骤一、在网络在线招聘网站获取招聘数据,提取文本特征和非文本特征。
步骤二、构建多维度特征样本,并划分训练集和测试集。
步骤三、基于深度森林算法,构建虚假招聘信息检测模型。具体内容包括:
31)将训练集数据输入级联森林。
32)自动增加级联森林层数。
33)判断级联森林3层内检测准确率是否没有提升,若是,则进行下一步,否则,再次执行步骤32)。
34)停止增加级联森林,输出虚假招聘信息检测模型。
步骤四、对虚假招聘信息检测模型进行模型训练。
步骤五、输入测试集到训练后的虚假招聘信息检测模型中,得到预测结果。
上述步骤的具体内容如下:
预测模型
一)问题描述
假设定义J为招聘职位的集合,J=j1,j2,j3……,jn,其中jt(t=1,…,n)表示一个招聘职位,n表示招聘职位的个数。假设从数据集J中提取的特征个数为m,使用F表示m*n维的招聘特征矩阵,则有F=f1,f2,f3……,fn,其中ft表示招聘职位jt的特征列表。定义学习函数为:
Learn=LT(jt/ft) (1)
其中,LT表示学习函数,其具体表达式为:
本发明研究的内容是从招聘职位数据集J中提取多维度特征向量F,并训练一个误差最小的机器学习模型,用于检测虚假招聘职位。
二)特征工程
针对本发明研究的问题,爬取了企业在58同城招聘网站发布的招聘职位信息,人工标注了一份8640条带标签的样本数据,作为本次实施例中实验建模的数据集J。本实施例采集到的jt由16个属性构成,jt=[企业名称,企业性质,企业规模,企业介绍,企业经营状态,企业注册资本,简历的反馈率,职位需求的人数,招聘职位数,工作城市,职位标题,职位副标题,职位要求,职位描述,薪资,福利],对原始招聘数据集进行分析,可以发现jt是否为虚假招聘,不仅与职位标题、职位描述等招聘文本的语义有关,而且与发布该职位的企业有关。因此本实施例从原始数据集中抽取招聘文本语义特征、企业相关特征以及其他多个维度的相关特征,建立检测模型。
企业发布的职位标题、职位子标题以及职位描述是招聘文本数据,表示了招聘职位描述的语义,本实施例采用Word2Vec词向量特征提取方法,使用CBOW(Bag-of-wordsmodel)模型将招聘文本数据进行向量转化。CBOW模型使用目标词的上下文来预测目标词。网络结构包含3层,分别为输入层、映射层和输出层。输入层输入经过独热编码的上下文向量,映射层对输入的上下文向量加权求和,输出层计算所有词的概率,输出概率最大的词,其目标函数表达式为:
LCBOW=∑(w,c)∈Tlog P(w∣c(w)) (3)
式中,w表示目标词,c(w)表示目标词的上下文,T表示给定的招聘文本数据。经过上述计算,得到招聘文本分词后所有词向量LCBOW,然后计算出招聘文本分词后所有词向量的平均值,得到相同维度的招聘职位的文本语义特征FT
招聘信息是企业发布的招聘广告,所以除了描述招聘职位信息的文本语义特征之外,每个企业也会展示自己的特性以吸引求职者,且招聘职位本身也包含一些非文本特征。真实职位和虚假职位的非文本特征往往有所区别,根据发布招聘职位含有虚假招聘词的个数、企业的经营状态、企业对投递简历的反馈率等多维度的特征也可以判断出招聘信息是否为虚假招聘。对原始数据集中的非文本数据进行数据预处理,将取值为类别文本的特征进行独热编码(One-Hot Encoding),取值为数值的特征归一化,即获得非文本特征集FS。将上述两组特征集相结合并进行标注,即获得包含多维度特征向量的招聘样本数据S={F,L},其中多维度特征向量F={FT,FS}。
本发明从招聘信息原始数据集中,提取出来相关的非文本特征如表1所示。
表1非文本特征属性简介
三)级联森林算法
结合二)获取的特征数据集S,构建虚假招聘信息检测模型。级联森林采用类似深度神经网络逐层训练的方式,提升算法的表征学习能力。第1层森林的输入为小节二)中提取的多维度特征向量F,输出的训练结果为类向量。将第1层森林输出的类向量与多维度特征向量F拼接,输入第2层森林进行训练。随后每层森林都对拼接后的特征向量进行训练,每层训练结束后,都会对分类器的性能进行评价,若3层内的准确率没有显著的性能提升,则终止级联过程,自动确定级联森林的层数。然后对最后一层产生的类概率向量求平均值,选择最大概率值对应的类別作为最终分类结果输出。
级联森林每层结构由两种森林(完全随机森林和随机森林)组成。其中,完全随机森林中的每棵决策树随机选择一个信息增益最大的特征做节点分裂,直至每一个叶节点包含的实例属于同一个类。而随机森林中的每棵决策树随机选择个特征子集(m表示输入特征的维度),然后再选择信息增益最大的特征做节点分裂。对于招聘样本S中任一特征k,假定其有v个可能的取值{k1,k2,...,kv},第v个分支节点包含了S所有在k上取值为kv的样本,记为SV。则k的信息增益计算公式如下:
其中,Ent(.)表示计算其信息熵,具体计算公式如下:
其中,L表示可能的招聘数据类标签,pi表示第i类招聘样本所占的比例。用同样的方式可以计算出Ent(SV)的信息增益。
每个随机森林的输出是一个类概率向量。由于本发明方法是对网络招聘职位是否虚假进行预测,预测结果可能出现真实或虚假两种情况(虚假职位标记为1,真实职位标记为0),因此可以将该任务视为二元分类问题,则森林中的每棵决策树输出一个2维类概率向量。
对于给定的实例x,每个森林会计算相关实例落入的决策树叶节点处不同类的训练样本的百分比,然后通过式(6)对同一个森林中的所有决策树输出的类概率计算平均值,生成招聘职位类别概率向量X={x1,x2}。
上式中,i表示招聘职位的类别,xij为类别为i招聘职位在j个决策树的类概率,n_trees表示森林中决策树的数量。为了降低级联森林过拟合的风险,每个森林的训练都采用K折交叉验证。虚假招聘信息检测模型具体训练步骤如下:
S1:数据预处理,从原始数据集中提取文本特征FT和非文本特征FS,构建包含多维度特征向量的招聘样本数据S。
S2:将招聘样本数据S划分为训练集和测试集。
S3:初始化每种随机森林的个数n_estimators和森林中决策树的个数n_trees。
S4:通过公式(4)-公式(5)计算特征的信息增益,并将特征排序,训练n_estimators个随机森林分类器,做K折交叉验证,计算准确率。
S5:通过公式(6)对森林中n_trees个决策树输出的类概率求均值,生成类概率向量。
S6:将S5生成的类概率向量与输入的多维度特征向量拼接,输入下一层进行训练。
S7:重复S5-S6,直至检测的准确率不再上升,停止训练。
S8:输入测试数据集,对模型进行测试。
经过上述步骤,即得到虚假招聘信息检测模型。
得到虚假招聘信息检测模型后,输入测试集进行检测,得到预测结果。
四)实验结果与分析
本实施例采用Anaconda 4.9和Jupyter Notebook 6.0作为实验平台。实验环境为:windows10操作系统、Core i7处理器(2.6GHz)、8GB内存。
实验数据集为小节二)中从原始数据集中提取的招聘样本数据S。该数据集共计8640条招聘职位数据。将数据集按照4:1划分为训练集和测试集。其中训练集6912条,用于模型的训练,测试集1728条用于评估模型的性能。
实验采用检测模型中常用的准确率、查准率和F1值作为评估指标。其定义如下:准确率(Accuracy)指招聘样本数据集中,预测正确的招聘数据集合。查准率(Precision)是指预测结果为虚假的招聘数据集合中,实际也为虚假职位的招聘数据集合的占比。查全率(Recall)是指所有实际为虚假的招聘数据集合中,预测结果为虚假的招聘样本数据集合占比。其中查准率和查全率是一对相互矛盾的指标,一个指标增加会导致另一个指标的降低。使用F1值衡量模型的综合性能。评估指标计算公式如下:
上式中,PreFakeSet表示预测结果为虚假的招聘数据集合,TrueFakeSet表示实际为虚假的招聘数据集合,PreAccSet表示预测正确的招聘数据集合。
按照上述实验评估指标,基于深度森林的虚假招聘预测模型的准确率显著优于逻辑回归、支持向量机、随机森林、XGBoost四种常用的机器学习模型。
本发明结合招聘职位的文本语义特征和非文本特征,提出了一种基于级联森林的虚假招聘职位检测模型,并进行了多组对比实验,结果表明决策树和随机森林个数的增加可以一定程度上提高模型的预测效果,但达到一定数量后,影响趋于平稳。基于级联森林的虚假招聘信息检测模型预测效果优于其他四种常用的机器学习检测,且不需要大规模训练数据。实验证实了将级联森林模型用于虚假招聘信息检测的可行性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (3)

1.一种基于级联森林的虚假招聘信息检测方法,其特征在于,包括下列步骤:
1)获取招聘数据,提取文本特征和非文本特征;
2)根据文本特征和非文本特征构建多维度特征样本,将多维度特征样本划分为训练集和测试集;
3)基于级联森林算法,构建虚假招聘信息检测模型;
4)对虚假招聘信息检测模型进行模型训练;
5)输入测试集数据至训练后的虚假招聘信息检测模型中,获取预测结果;
步骤1)中,所述招聘数据包括发布招聘职位的企业相关特征,招聘职位的相关特征以及招聘职位的类别标签;
步骤1)中,采用以下目标函数提取文本特征:
式中:w为目标词,c(w)为目标词的上下文,T为给定的招聘文本数据,LCBOW为招聘文本分词后所有词向量;通过计算招聘文本分词后所有词向量LCBOW的平均值,获取相同维度的招聘职位的文本语义特征FT
步骤2)中,对提取的非文本特征进行数据预处理,将取值为类别文本的特征进行独热编码,取值为数值的特征归一化,获取非文本特征集FS,将非文本特征集FS与提取的文本特征集FT结合并进行标注,获取包含多维度特征向量的招聘样本数据S={F,L},其中多维度特征向量F={FT,FS},L为招聘职位的类别标签;
步骤3)中,构建虚假招聘信息检测模型的具体内容为:
31)将训练集数据输入级联森林;
32)自动增加级联森林层数;
33)判断级联森林三层内检测准确率没有提升,若是,则进行下一步,否则,再次执行步骤32);
34)停止增加级联森林,输出虚假招聘信息检测模型;
所述级联森林的每层结构包括完全随机森林和随机森林,所述完全随机森林中的每棵决策树随机选择一个信息增益最大的特征做节点分裂,直至每一个叶节点包含的实例属于同一个类;所述随机森林中的每棵决策树随机选择个特征子集,m表示输入特征的维度,随后选择信息增益最大的特征做节点分裂;每个随机森林的输出为一个类概率向量;
所述虚假招聘信息检测模型的具体训练步骤包括下列步骤:
41)从原始数据集中提取文本特征集FT和非文本特征集FS,构建包含多维度特征向量的招聘样本数据S;
42)将招聘样本数据S划分为训练集和测试集;
43)初始化每种随机森林的个数n_estimators和森林中决策树的个数n_trees;
44)计算特征的信息增益,并将特征排序,训练n_estimators个随机森林分类器,做K折交叉验证,计算准确率;
45)对森林中n_trees个决策树输出的类概率求均值,生成类概率向量;
46)将步骤45)生成的类概率向量与输入的多维度特征向量拼接,输入下一层进行训练;
47)重复步骤45)~步骤46),直至检测的准确率不再上升,停止训练;
对于招聘样本数据S中任一特征k,假定其有v个可取的取值{k1,k2,...,kv},第v个分支节点包含了S所有在k上取值为kv的样本,记为SV,则k的信息增益计算公式如下:
其中,Ent(.)表示信息熵,具体计算公式如下:
其中,L为招聘数据类标签,pi为第i类招聘样本所占的比例,利用同样的方式可计算Ent(SV)的信息增益。
2.根据权利要求1所述的基于级联森林的虚假招聘信息检测方法,其特征在于,所述类概率向量为二位类概率向量。
3.根据权利要求2所述的基于级联森林的虚假招聘信息检测方法,其特征在于,所述二位类概率向量xi的计算表达式为:
式中,i为招聘职位的类别,xij为类别为i招聘职位在j个决策树的类概率,n_trees为森林中决策树的数量。
CN202111010334.3A 2021-08-31 2021-08-31 一种基于级联森林的虚假招聘信息检测方法 Active CN113704409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111010334.3A CN113704409B (zh) 2021-08-31 2021-08-31 一种基于级联森林的虚假招聘信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111010334.3A CN113704409B (zh) 2021-08-31 2021-08-31 一种基于级联森林的虚假招聘信息检测方法

Publications (2)

Publication Number Publication Date
CN113704409A CN113704409A (zh) 2021-11-26
CN113704409B true CN113704409B (zh) 2023-08-04

Family

ID=78657682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111010334.3A Active CN113704409B (zh) 2021-08-31 2021-08-31 一种基于级联森林的虚假招聘信息检测方法

Country Status (1)

Country Link
CN (1) CN113704409B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CA2954089A1 (en) * 2016-01-08 2017-07-08 Confirm, Inc. Systems and methods for authentication of physical features on identification documents
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN108509561A (zh) * 2018-03-23 2018-09-07 山东合天智汇信息技术有限公司 基于机器学习的岗位招聘数据筛选方法、系统及存储介质
CN108806718A (zh) * 2018-06-06 2018-11-13 华中师范大学 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN109241418A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 基于随机森林的异常用户识别方法及装置、设备、介质
CN110569333A (zh) * 2019-09-11 2019-12-13 南京岳智信息技术有限公司 一种利用药品文本广告鉴定虚假药品的方法
CN111382783A (zh) * 2020-02-28 2020-07-07 广州大学 恶意软件识别方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CA2954089A1 (en) * 2016-01-08 2017-07-08 Confirm, Inc. Systems and methods for authentication of physical features on identification documents
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN108509561A (zh) * 2018-03-23 2018-09-07 山东合天智汇信息技术有限公司 基于机器学习的岗位招聘数据筛选方法、系统及存储介质
CN108806718A (zh) * 2018-06-06 2018-11-13 华中师范大学 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN109241418A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 基于随机森林的异常用户识别方法及装置、设备、介质
CN110569333A (zh) * 2019-09-11 2019-12-13 南京岳智信息技术有限公司 一种利用药品文本广告鉴定虚假药品的方法
CN111382783A (zh) * 2020-02-28 2020-07-07 广州大学 恶意软件识别方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于集成特征选择的点击欺诈检测方法;郭汉 等;《计算机工程与应用》;246-251 *

Also Published As

Publication number Publication date
CN113704409A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
Jabreel et al. Target-dependent sentiment analysis of tweets using bidirectional gated recurrent neural networks
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN110046943B (zh) 一种网络消费者细分的优化方法及优化系统
Kim et al. SAO2Vec: Development of an algorithm for embedding the subject–action–object (SAO) structure using Doc2Vec
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
Ma Automated coding using machine learning and remapping the US nonprofit sector: A guide and benchmark
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Liu et al. Automatic document metadata extraction based on deep networks
CN116150367A (zh) 一种基于方面的情感分析方法及系统
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Başarslan et al. Sentiment analysis with ensemble and machine learning methods in multi-domain datasets
Tran et al. Triple-sigmoid activation function for deep open-set recognition
CN113704409B (zh) 一种基于级联森林的虚假招聘信息检测方法
Keerthana et al. Accurate prediction of fake job offers using machine learning
CN114358813B (zh) 一种基于场矩阵因子分解机改进的广告投放方法及系统
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN115345248A (zh) 一种面向深度学习的数据去偏方法及装置
Gadri et al. An efficient system to predict customers’ satisfaction on touristic services using ML and DL approaches
Omidvar et al. A novel approach to determining the quality of news headlines
Liu The alexnet-resnet-inception network for classifying fruit images
CN113946680B (zh) 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
Urkude et al. Comparative analysis on machine learning techniques: a case study on Amazon product
CN114896987B (zh) 基于半监督预训练模型的细粒度情感分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant