CN112418260A - 模型训练方法、信息提示方法、装置、设备及介质 - Google Patents
模型训练方法、信息提示方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112418260A CN112418260A CN201910786631.3A CN201910786631A CN112418260A CN 112418260 A CN112418260 A CN 112418260A CN 201910786631 A CN201910786631 A CN 201910786631A CN 112418260 A CN112418260 A CN 112418260A
- Authority
- CN
- China
- Prior art keywords
- recruitment
- information
- target
- training
- industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 233
- 238000000034 method Methods 0.000 title claims abstract description 99
- 230000007115 recruitment Effects 0.000 claims abstract description 291
- 238000013210 evaluation model Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 230000010365 information processing Effects 0.000 claims abstract description 8
- 238000003672 processing method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 230000001960 triggered effect Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种模型训练方法,包括:获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。如此,可以通过简单操作即可获取行业整体景气程度。本申请还公开了信息提示方法及对应装置、设备、介质。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种模型训练方法、信息提示方法、装置、设备及计算机可读存储介质。
背景技术
景气程度是衡量国民经济或者具体的行业、企业的发展情况的关键指标,该指标对投资指导(如是否新设立类似公司)、行业补贴、识别夕阳产业、政府进行产业布局和调控等有重要意义。
目前,用户可以针对单个企业搜索能够反应景气程度的相关信息,从而确定该企业对应的景气程度。但针对某一地区的整体情况,或者某一行业领域的整体情况,则难以通过简单的搜索操作获得。用户需要耗费大量的时间和精力进行搜索,并人工对搜索结果进行处理,才有可能得到地区或行业的整体情况,而且由于缺乏统一的处理规范,导致基于上述方法确定地区行业整体景气程度可靠性较低。
如此,导致在进行投资指导、产业布局和调控等场景中难以给出有效的提示信息。
发明内容
本申请提供了一种模型训练方法,该方法通过获取包含招聘信息的训练样本,基于该训练样本利用机器学习算法训练景气程度评估模型使得能够快速获知行业整体景气程度,基于上述景气程度评估模型还提供一种信息提示方法,其能够基于景气程度评估模型输出的景气程度预估结果给出有效提示信息,给投资指导、产业布局或调控等提供帮助。本申请还提供了对应的装置、设备、介质、处理器以及计算机程序产品等。
本申请第一方面提供了一种模型训练方法,所述方法包括:
获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;
根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。
本申请第二方面提供了一种信息提示方法,所述方法包括:
获取目标关键词,所述目标关键词至少包括目标行业;
根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值;
向应用服务器发送提示信息生成请求,所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息;
接收所述应用服务器返回的提示信息,所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息输出的预估结果;
显示所述提示信息。
本申请第三方面提供了一种模型训练装置,所述装置包括:
获取单元,用于获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;
训练单元,用于根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。
本申请第四方面提供了一种信息提示装置,所述装置包括:
获取单元,用于获取目标关键词,所述目标关键词至少包括目标行业;
生成单元,用于根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值;
发送单元,用于向应用服务器发送提示信息生成请求,所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息;
接收单元,用于接收所述应用服务器返回的提示信息,所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内的招聘信息输出的预估结果,且所述景气程度评估模型是根据训练样本集通过机器学习算法训练得到;
显示单元,用于显示所述提示信息。
本申请第五方面提供了一种设备,所述设备包括处理器和存储器:
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的所述程序指令,以执行如第一方面所述的模型训练方法或第二方面所述的信息提示方法。
本申请第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现如第一方面所述的模型训练方法或第二方面所述的信息提示方法。
本申请第七方面提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行第一方面所述的模型训练方法或第二方面所述的信息提示方法。
本申请第八方面提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有第一方面所述的模型训练方法或第二方面所述的信息提示方法的程序。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种模型训练方法,首先获取训练样本集,该训练样本集覆盖了行业内多个企业的招聘信息形成的训练样本以及同一企业在多个统计周期内的招聘信息所形成的训练样本,每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,其中,招聘信息包括企业在统计周期内针对目标岗位的招聘数量均值,然后根据训练样本利用机器学习算法训练景气程度评估模型,直至满足训练结束条件为止,该景气程度评估模型通过对大量训练样本进行学习建立了招聘信息与行业景气程度的映射关系,基于此,通过该景气程度模型能够快速获知行业景气程度,无需复杂搜索操作,节省用户时间和精力,并且具有较高可靠性。进一步地,基于该模型预测的行业景气程度生成提示信息,可以为投资指导、产业布局和调控等提供帮助。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种模型训练方法的场景架构图;
图2为本申请实施例中一种模型训练方法的流程图;
图3为本申请实施例中一种训练样本集生成方法的流程图;
图4为本申请实施例中一种信息提示方法的场景架构图;
图5为本申请实施例中一种信息提示方法的流程图;
图6为本申请实施例中一种投资系统的信息提示效果图;
图7为本申请实施例中一种模型训练装置的结构示意图;
图8为本申请实施例中一种信息提示装置的结构示意图;
图9为本申请实施例中一种设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
针对行业整体景气程度需要用户耗费大量时间和精力搜索,人工对搜索结果进行处理,才有可能得到整体情况,以及缺乏统一处理规范导致确定出整体行业景气程度可靠性较低的问题,本申请提出通过机器学习训练景气程度评估模型,利用该景气程度评估模型预测行业整体景气程度,一方面,可以简化操作,节省用户时间和精力,另一方面,通过上述景气程度评估模型可以实现对数据的规范化处理,避免人为疏漏,提高了输出结果可靠性。
进一步地,本申请还可以利用景气程度评估模型输出的针对行业景气程度的预估结果生成提示信息,该提示信息可以在企业或机构投资、政府进行产业规划或者学生进行志愿填报等场景中进行提示,从而为用户提供帮助。
下面分别对本申请提供的模型训练方法和信息提示方法进行介绍。
本申请提供的模型训练方法可以应用于任意具有数据处理功能的处理设备,该处理设备可以是终端,包括个人计算机(Personal Computer,PC)、小型机、大型机或者工作站等,当然,该处理设备也可以是服务器。需要说明的是,处理设备在训练模型时,可以是独立地训练模型,也可以是以集群的方式训练。为了方便描述,后文以独立的服务器训练模型进行示例性说明。
上述模型训练方法可以采用计算机程序的形式存储于处理设备,处理设备通过执行上述计算机程序实现模型训练方法。其中,计算机程序可以是独立的,也可以是集成于其他计算机程序之上的功能模块、插件或者小程序等,本实施例对此不作限定。
在实际应用时,本申请实施例提供的模型训练方法包括但不限于应用于如图1所示的环境中。
如图1所示,服务器101和样本数据库102通过网络进行连接,样本数据库102中存储有预先生成的训练样本集,该训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,其中,该训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本,服务器101从样本数据库102中获取训练样本集,然后根据该训练样本集利用机器学习算法训练景气程度评估模型,该景气程度评估模型以招聘信息为输入,以行业景气程度为输出,当满足训练结束条件时,服务器101停止训练,满足该训练结束条件的景气程度评估模型可以应用于行业景气程度预测。
接下来,从服务器角度,结合具体实施例对本申请的模型训练方法进行详细介绍。
参见图2所示的模型训练方法的流程图,该方法包括:
S201:获取训练样本集。
训练样本集是指训练样本的集合。在本实施例中,训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,其中,统计周期可以根据实际需要而设置,例如设置为一季度、半年或者一年。
招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,目标招聘岗位可以理解为企业的核心招聘岗位,针对研发导向型企业,其核心招聘岗位可以是研发工程师,针对销售导向型企业,其核心招聘岗位可以是销售工程师,其中,招聘数量均值是指在所述统计周期中的单位时间招聘数量,如此,可以方便对最新统计周期的相应指标进行换算,以保障数据准确性。
为了便于理解,下面结合具体示例进行说明。在一个示例中,某企业在上一季度(4至6月)针对某岗位共招聘12人,当前季度(当前为8月)共招聘8人,则通过换算可知,该企业在上一季度针对上述岗位的招聘数量均值为4人/月,其在当前季度针对上述岗位的招聘数量均值也为4人/月,故该企业针对上述岗位的招聘数量均值在本季度与上一季度持平。
景气程度标签是针对企业经营状况的标签化表示。在具体实现时,可以将景气程度标签分为两种,即景气和不景气,如此,基于上述景气程度标签生成的训练样本训练所得模型可以实现二分类。在有些情况下,还可以对景气程度标签进一步细分,如对景气细分为一般景气、特别景气,不景气细分为一般不景气、特别不景气,如此,基于该景气程度标签生成的训练样本所得模型可以实现多分类。
考虑到待训练的模型是对行业整体景气程度进行预测,因此,训练样本集中包括行业内多个企业的招聘信息形成的训练样本,尽可能地采集较多的企业的招聘信息形成训练样本,可以提高训练样本的丰富程度,有助于提高模型的泛化能力。
当然,在实际应用时,从时间维度考虑,通过提供同一企业在多个所述统计周期内的招聘信息形成的所述训练样本,如此可以提高训练样本在时间维度上的丰富程度,为景气程度评估模型的训练提供帮助。
S202:根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件。
其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。在具体实现时,服务器可以将训练样本集中的训练样本分批输入景气程度评估模型,该景气程度评估模型能够针对训练样本中的招聘信息进行预测得到针对行业景气程度的预测结果,然后服务器通过行业景气程度的预测结果以及训练样本中的景气程度标签更新景气程度评估模型的参数,从而实现模型训练。
在对参数进行迭代更新过程中,可以基于景气程度评估模型的损失函数确定该景气程度评估模型的当前训练状况。其中,损失函数表征预测值与真实值的差距程度,因此,可以通过损失函数衡量模型好坏。
当损失函数小于预设值时,则表明景气程度评估模型的预测值比较接近真实值,其满足训练结束条件,可以停止训练,并将此时的景气程度评估模型用于行业景气程度预测。
当损失函数处于收敛状态时,则表明景气程度评估模型的优化空间较小,再进行训练也不会带来较大的改进,可以视为满足训练结束条件,服务器可以停止训练,并将此时的景气程度评估模型用于行业景气程度预测。
需要说明的是,服务器在利用机器学习算法训练景气程度评估模型时,可以根据需要选择对应的算法。当然,服务器也可以采用多个算法训练景气程度评估模型,并从中选择性能较好的景气程度评估模型作为最终的景气程度评估模型。
在一些可能的实现方式中,服务器可以利用回归预测算法、随机森林分类算法和K均值分类算法分别训练景气程度评估模型,然后基于测试数据集对所述景气程度评估模型进行性能评估得到性能指标项,根据所述性能指标项确定最终景气程度评估模型。其中,性能指标项可以是平均绝对误差(mean_absolute_error)、均方差(mean_squared_error)或中值绝对误差(median_absolute_error)中的任意一项和多项。
上述测试数据集具体是指测试数据的集合。可以理解,在生成训练样本后,可以将训练样本按比例分配,一部分用于模型训练形成训练样本集,一部分用于模型测试形成测试数据集。基于测试数据集中的样本输入模型后输出的预测结果与真实值的差距可以确定评价绝对误差、均方差或者中值绝对误差等性能指标项。
由上可知,本申请实施例提供了一种模型训练方法,其通过获取训练样本集,该训练样本集覆盖了行业内多个企业的招聘信息形成的训练样本以及同一企业在多个统计周期内的招聘信息所形成的训练样本,每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,其中,招聘信息包括企业在统计周期内针对目标岗位的招聘数量均值,然后根据训练样本利用机器学习算法训练景气程度评估模型,直至满足训练结束条件为止,该景气程度评估模型通过对大量训练样本进行学习建立了招聘信息与行业景气程度的映射关系,基于此,通过该景气程度模型能够快速获知行业景气程度,无需复杂搜索操作,节省用户时间和精力,并且具有较高可靠性。
图2所示实施例中训练景气程度评估模型的一个关键即在于训练样本集,基于此,本申请还提供了一种训练样本集的生成方法,下面进行详细说明。
参见图3所示的训练样本集生成方法的流程图,该方法包括:
S301:获取原始信息。
所述原始信息包括行业标识、企业标识、招聘岗位、与所述招聘岗位对应的招聘人员数量以及发布时间,其具体表现形式可以是发布的与招聘相关的帖子。在具体实现时,服务器可以从第一信息源和第二信息源分别获取原始信息,其中,第一信息源包括搜索引擎,该搜索引擎可以是中文搜索引擎,也可以是外文搜索引擎,第二信息源包括招聘网站,与搜索引擎类似,招聘网站可以是中文招聘网站,也可以是外文招聘网站,服务器可以从多个搜索引擎以及多个招聘网站获取原始信息,如此可以保证尽可能地获得较为全面的信息。
考虑到企业可能会在多个平台发布与招聘相关帖子,服务器还可以在获取原始信息后,根据原始信息中的发布时间对该原始信息进行去重处理,避免影响数据准确性。当然,在进行去重处理时,还可以参考如招聘岗位、招聘人员数量等其他信息,以便精准去重。
S302:根据所述发布时间划分统计周期,针对各个统计周期,根据所述行业标识、所述企业标识、所述招聘岗位以及所述与所述招聘岗位对应的招聘人员数量分别统计各企业在每个所述统计周期针对所述目标招聘岗位的招聘数量均值。
具体地,服务器可以根据原始信息的发布时间对上述原始信息进行分类,将其划分到对应的统计周期,进而基于每个周期,通过行业标识和企业标识,统计对应行业的相应企业,在统计周期内针对目标招聘岗位的招聘人员数量,进而确定统计周期内针对目标招聘岗位的招聘数量均值。
进一步地,服务器还可以采集招聘岗位对应的薪酬范围,即原始信息还可以包括招聘岗位对应的薪酬范围,如此,服务器在进行统计时还可以统计企业在每个统计周期,针对目标招聘岗位的平均薪酬。
S303:采集所述各企业在每个所述统计周期的评价信息,根据所述评价信息确定所述各企业在每个所述统计周期内的景气程度标签。
其中,评价信息可以是针对企业财报的评价信息,也可以是针对企业股票的评价信息,还评价可以反映企业的运营状况,基于此,服务器可以基于评价信息确定企业在对应统计周期内的景气程度标签。
例如,评价信息表征运营良好或者股票看涨时,可以将景气程度标签确定为景气,当评价信息表征坏账、主营业务收入下降、增速放缓或者股票看跌时,可以将景气程度标签确定为不景气。
当然,服务器也可以依据企业的业绩优中低,行业的整体优、劣、差,将各企业的营收作为权重,为优、劣、差设定标准分进行加权平均,从而确定景气程度标签。
S304:根据每个企业在一个所述统计周期内针对所述目标岗位的招聘数量均值以及对应的景气程度标签生成训练样本,根据多个所述训练样本生成训练样本集。
具体地,服务器可以将企业在一个所述统计周期内针对所述目标岗位的招聘数量均值作为招聘信息,根据招聘信息以及对应的景气程度标签生成训练样本,通过多个企业以及多个统计周期的训练样本生成训练样本集。
当然,考虑到模型可靠性,服务器也可以将企业在一个所述统计周期内针对所述目标岗位的招聘数量均值和平均薪酬作为招聘信息,继而基于该招聘信息和景气程度标签生成训练样本,并进一步生成训练样本集。如此,可以基于招聘数量均值、平均薪酬以及景气程度进行建模,增强景气程度评估模型的健壮性、可靠性。
可以理解,在有些情况下,用户还有查看行业在特定地区的景气程度的需求,基于此,服务器还可以在生成训练样本时,一并采集招聘地区信息,统计企业在在所述统计周期内在所述招聘地区针对目标招聘岗位的招聘数量均值,将所述企业在所述统计周期内在所述招聘地区针对目标招聘岗位的招聘数量均值以及所述招聘地区作为招聘信息,根据该招聘信息以及对应的景气程度标签生成训练样本。
如此,通过该训练样本训练的景气程度评估模型可以对行业在特定地区的整体景气程度进行预测,满足了用户需求。
以上为本申请实施例提供的模型训练方法,基于该方法训练得到的景气程度评估模型,本申请还提供了一种信息提示方法。
可以理解,本申请提供的信息提示方法可以应用于任意具有显示功能的终端设备(以下简称终端),该终端设备具体可以是台式机等桌面终端,也可以是平板电脑、笔记本电脑、手机等便携式终端,或者是车载终端设备,增强现实终端以及虚拟现实终端等。
上述信息提示方法能够以计算机程序的形式存储于终端,终端通过运行计算机程序实现本申请的信息提示方法。上述计算机程序可以是独立的计算机程序,也可以是集成于其他计算机程序之上的功能模块、插件或者小程序等。
在实际应用时,本申请的信息提示方法可以包括但不限于应用于如图4所示的应用环境中。
如图4所示,终端401和应用服务器402通过网络进行连接,用户可以通过终端输入目标关键词,终端401响应于用户的输入操作,获取目标关键词,该目标关键词至少包括目标行业,然后终端401根据针对目标关键词的搜索结果生成目标行业在最近统计周期内的招聘信息,根据目标行业在最近统计周期内的招聘信息生成提示信息生成请求消息,向应用服务器402发送提示信息生成请求,应用服务器402上部署有景气程度评估模型,该景气程度评估模型是根据训练样本集通过机器学习算法训练得到的,其能够根据目标行业在最近统计周期内的招聘信息输出景气程度预估结果,根据所述景气程度预估结果生成提示信息,然后向终端401返回该提示信息,并由终端401显示该提示信息,以提示用户目标行业的景气程度,为用户决策提供帮助。
接下来,从终端的角度,对本申请实施例提供的信息提示方法进行详细介绍。
参见图5所示的信息提示方法的流程图,该方法包括:
S501:获取目标关键词。
所述目标关键词至少包括目标行业。需要说明的是,目标行业可以是行业大类也可以是行业大类下的细分行业。在一个示例中,目标行业可以是能源这个大类行业,也可以是能源这个大类下的细分行业如石油、电力等等。在另一个示例中,目标行业可以是互联网这个大类行业,也可以是该大类行业下的人工智能或者云计算等。
在一些场景中,目标关键词具体可以是系统预设的关键词,该系统包括但不限于投资系统、产业规划系统或志愿填报系统。其中,投资系统是一种提供投资服务的系统,该系统一般应用于金融机构或企业的投资部门等等,在该投资系统中,用户可以查看行业发展信息以及进行投资决策;产业规划系统是一种用于对产业进行规划、调控的系统,该系统一般应用于政府机构或相关部门,在该系统中,用户可以查看各行业发展信息,尤其是关乎国民经济命脉的行业,以及制定行业政策,从而实现产业规划和调控;志愿填报系统是一种提供志愿填报服务的系统,该系统一般应用于教育机构,用户可以基于该系统查看各行业发展信息,并基于此填报志愿学校及专业。
在实际应用时,上述投资系统、产业规划系统或志愿填报系统可以是基于客户端/服务器(Client/Server,C/S)架构开发的客户端,也可以是基于浏览器/服务器(Browser/Server,B/S)架构开发的网页,本实施例对此不作限定。
在一些场景中,例如在金融机构,投资经理需要关注各个行业的宏观发展状况,因此,终端可以安装投资系统,该投资系统预先设置有关键词,该关键词具体为该金融机构重点关注的行业,基于此,终端可以获取该预设的关键词作为目标关键词,如此,当投资经理打开该投资系统时,可以直接查看投资系统针对上述目标关键词推送的提示信息。
在另一些场景中,目标关键词可以是用户输入的关键词,具体地,用户可以在投资页面、产业规划页面或志愿填报页面触发输入操作,输入意图查询景气程度的行业,终端响应于用户触发的上述输入操作,从用户输入数据中提取目标关键词。
需要说明的是,投资系统的投资页面、产业规划系统的产业规划页面和志愿填报系统的志愿填报页面可以展示各个行业,并针对每个行业提供对应的选择控件,用户可以通过触发选择控件以指定意图查询的行业,终端响应于用户在上述页面触发的指定操作,获取用户指定的关键词作为目标关键词。
S502:根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息。
在确定目标关键词后,终端可以根据该目标关键词执行搜索操作得到搜索结果。具体地,终端可以在第一信息源如搜索引擎中根据目标关键词执行搜索操作,也可以在第二信息源如招聘网站中根据目标关键词执行搜索操作,得到搜索结果,该搜索结果即为上文所述的原始信息。需要说明,当终端同时在第一信息源和第二信息源执行搜索操作时,还可以根据发布时间等进行去重。
终端可以根据搜索结果的发布时间筛选最近统计周期的搜索结果,分别统计目标行业的各企业在所述最近统计周期内针对目标招聘岗位的招聘人员数量,进而确定目标行业的各企业在最近统计周期内针对目标招聘岗位的招聘数量均值,将该招聘数量均值作为招聘信息。
为了便于理解,结合具体示例进行说明。在该示例中,目标关键词为石油,终端在搜索引擎以及招聘网站搜索该关目标关键词得到搜索结果,并对搜索结果进行去重处理,然后获取搜索结果的发布时间,根据该发布时间筛选在最近统计周期即7至9月(当前时间为8月)的搜索结果,并基于此统计石油行业的各企业在最近统计周期内针对目标招聘岗位的招聘人员数量,如A企业为12,B企业为21,则A企业和B企业在7至9月这一统计周期内针对目标招聘岗位的招聘数量均值为6和10.5。
S503:向应用服务器发送提示信息生成请求。
所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息。在具体实现时,终端将目标行业在最近统计周期内的招聘信息进行打包生成提示信息生成请求,并向应用服务器发送该提示信息生成请求,以请求应用服务器为该终端生成提示信息,从而提示用户。
其中,应用服务器具体是为用户提供应用服务的服务器。例如可以是提供投资指导、政务规划或者填报志愿等服务的服务器,本实施例对此不作限定。
S504:接收所述应用服务器返回的提示信息。
所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内的招聘信息输出的预估结果。
所述景气程度评估模型根据训练样本集通过机器学习算法训练得到。应用服务器首先获取训练样本集,训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,上述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本,然后应用服务器根据训练样本集利用机器学习算法训练景气程度评估模型,直至满足训练结束条件。
应用服务器训练景气程度模型的具体实现可以参见图2所示实施例,在此不再赘述。
S505:显示所述提示信息。
终端显示该提示信息,以便用户查看提示信息,并基于提示信息提示的内容进行决策,如投资决策,即是否开设公司、是否新建产线、是否购买设备等,或者是产业规划决策,如将当前不是很景气的特定产业纳入发展计划以促进其发展等等,又或者是填报志愿,通过提示信息提示的行业景气度进行填报大学及专业等。
图6示出了一种投资系统中显示提示信息的效果示意图,在投资系统的主界面600显示有该投资系统从应用服务器获取的提示信息601,每条提示信息包括行业名称602以及针对该行业的建议603,此外,主界面600上还针对每条提示信息提供对应的历史趋势查看控件604,用户可以该触发该历史趋势查看控件604查看景气程度变化趋势。如图6所示,当前页面显示有3条提示信息601,用户可以通过翻页控件605查看更多行业的提示信息。
考虑到显示效果,终端可以将提示信息融合在当前页面进行显示,也可以通过弹窗等方式进行显示,可以根据实际需要配置显示方式,在此不再赘述。
需要说明的是,在有些情况下,用户还需要查看行业在某地区的整体景气度,因此,还可以默认设置地区,或者获取用户输入或指定的地区,将该地区与统计的行业内的企业在当前统计周期在所述地区对目标招聘岗位的招聘数量均值作为招聘信息,换言之,所述目标关键词还包括目标招聘地区,如此,应用服务器在根据针对目标关键词的搜索结果生成目标行业在最近统计周期内的招聘信息时,可以统计目标行业在最近统计周期内在所述目标招聘地区针对目标招聘岗位的数量,确定最近统计周期内在所述目标招聘地区针对目标招聘岗位的招聘数量均值,根据所述招聘数量均值和所述目标招聘地区生成目标行业在最近统计周期内在所述目标招聘地区的招聘信息。如此终端可以根据该招聘信息生成提示信息生成请求。
应用服务器接收到上述提示信息生成请求,可以采用包含招聘地区的招聘信息生成的训练样本所训练的景气程度评估模型基于当前统计周期的招聘信息对当前统计周期的行业景气程度进行预估,根据该景气程度评估模型输出的目标行业在所述最近统计周期内在所述目标招聘地区的景气程度预估结果生成提示信息。终端显示该提示信息,如此,用户即可快速获知目标行业在最近统计周期内在所述目标招聘地区的整体景气程度。
由上可知,本申请提供了一种信息提示方法,终端可以获取至少包括目标行业的目标关键词,根据针对目标关键词的搜索结果生成目标行业在最近统计周期内的招聘信息,该招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值,然后向应用服务器发送携带所述招聘信息的提示信息生成请求,如此应用服务器可以根据预先训练的景气程度评估模型对目标行业在最近统计周期内的景气程度预估结果,根据该预估结果生成提示信息,然后应用服务器向终端返回该提示信息,由终端对其进行显示,如此可以快速获知行业整体情况,进行全面地分析,通过机器学习给出基于大量数据的推导结果,能够批量进行多个企业、多个行业的分析,为用户进行投资决策、产业规划、志愿填报等提供帮助。
以上为本申请实施例提供的模型训练方法以及信息提示方法的一些具体实现方式,基于此,本申请实施例还提供了对应的装置,接下来,从功能单元化的角度对上述装置进行介绍。
参见图7所示的模型训练装置的结构示意图,该装置700包括:
获取单元710,用于获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;
训练单元720,用于根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。
可选的,所述装置700还包括:
生成单元,用于获取原始信息,所述原始信息包括行业标识、企业标识、招聘岗位、与所述招聘岗位对应的招聘人员数量以及发布时间;根据所述发布时间划分统计周期,针对各个统计周期,根据所述行业标识、所述企业标识、所述招聘岗位以及所述与所述招聘岗位对应的招聘人员数量分别统计各企业在每个所述统计周期针对所述目标招聘岗位的招聘数量均值;采集所述各企业在每个所述统计周期的评价信息,根据所述评价信息确定所述各企业在每个所述统计周期内的景气程度标签;根据每个企业在一个所述统计周期内针对所述目标岗位的招聘数量均值以及对应的景气程度标签生成训练样本,根据多个所述训练样本生成训练样本集。
可选的,所述生成单元在获取原始信息时,具体用于:
从第一信息源和第二信息源分别获取原始信息,所述第一信息源包括搜索引擎,所述第二信息源包括招聘网站;
所述生成单元还用于:
根据所述原始信息中的所述发布时间对所述原始信息进行去重处理。
可选的,所述原始信息还包括招聘地区;对应地,所述招聘信息包括所述企业在所述统计周期内在所述招聘地区针对目标招聘岗位的招聘数量均值以及所述招聘地区;
所述生成单元在根据每个企业在一个所述统计周期内针对所述目标招聘岗位的招聘数量均值以及对应的景气程度标签生成训练样本时,具体用于:
根据每个企业在一个所述统计周期内在所述招聘地区针对所述目标招聘岗位的招聘数量均值、所述招聘地区以及对应的景气程度标签生成训练样本。
可选的,所述训练单元720具体用于:
利用回归预测算法、随机森林分类算法和K均值分类算法分别训练景气程度评估模型;
基于测试数据集对所述景气程度评估模型进行性能评估得到性能指标项,根据所述性能指标项确定最终景气程度评估模型。
可选的,所述性能指标项包括平均绝对误差、均方差和/或中值绝对误差。
参见图8所示的信息提示装置的结构示意图,该装置800包括:
获取单元810,用于获取目标关键词,所述目标关键词至少包括目标行业;
生成单元820,用于根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值;
发送单元830,用于向应用服务器发送提示信息生成请求,所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息;
接收单元840,用于接收所述应用服务器返回的提示信息,所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内的招聘信息输出的预估结果,且所述景气程度评估模型是根据训练样本集通过机器学习算法训练得到;
显示单元850,用于显示所述提示信息。
可选的,所述获取单元810具体用于:
获取投资系统、产业规划系统或志愿填报系统的预设关键词作为目标关键词;或者,
响应于用户在投资页面、产业规划页面或志愿填报页面触发的输入操作,提取目标关键词;或者,
响应于用户在所述投资页面、所述产业规划页面或所述志愿填报页面触发的指定操作,获取所述用户指定的关键词作为目标关键词。
可选的,所述目标关键词还包括目标招聘地区;
所述生成单元820具体用于:
根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内在所述目标招聘地区针对目标招聘岗位的招聘数量均值和所述目标招聘地址;
对应地,所述提示信息生成请求包括所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息;
所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息输出的预估结果。
所述模型训练装置包括处理器和存储器,上述模型训练装置的获取单元和训练单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
所述信息提示装置包括处理器和存储器,上述信息提示装置的获取单元、生成单元、发送单元、接收单元以及显示单元等作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来训练景气程度评估模型或者基于所述景气程度评估模型输出的景气程度预估结果所生成的提示信息对用户进行提示,以为用户决策提供有效信息。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述模型训练方法或所述信息提示方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述模型训练方法或所述信息提示方法。
本发明实施例提供了一种设备,参见图9,设备90包括至少一个处理器901、以及与处理器连接的至少一个存储器902、总线903;其中,处理器901、存储器902通过总线903完成相互间的通信;处理器901用于调用存储器中的程序指令,以执行上述的模型训练方法或信息提示方法方法。具体地,用于实现模型训练方法的设备可以是服务器或终端,终端包括PC、PAD或手机等等,用于实现信息提示的设备可以是具有显示器的设备,包括任意具有显示器的终端,如上述PC、PAD或手机。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;
根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。
可选的,还用于执行初始化有如下方法步骤的程序:
获取原始信息,所述原始信息包括行业标识、企业标识、招聘岗位、与所述招聘岗位对应的招聘人员数量以及发布时间;
根据所述发布时间划分统计周期,针对各个统计周期,根据所述行业标识、所述企业标识、所述招聘岗位以及所述与所述招聘岗位对应的招聘人员数量分别统计各企业在每个所述统计周期针对所述目标招聘岗位的招聘数量均值;
采集所述各企业在每个所述统计周期的评价信息,根据所述评价信息确定所述各企业在每个所述统计周期内的景气程度标签;
根据每个企业在一个所述统计周期内针对所述目标岗位的招聘数量均值以及对应的景气程度标签生成训练样本,根据多个所述训练样本生成训练样本集。
可选的,在执行所述获取原始信息的步骤时,具体用于:
从第一信息源和第二信息源分别获取原始信息,所述第一信息源包括搜索引擎,所述第二信息源包括招聘网站;
还用于执行初始化有如下步骤的程序:
根据所述原始信息中的所述发布时间对所述原始信息进行去重处理。
可选的,所述原始信息还包括招聘地区;对应地,所述招聘信息包括所述企业在所述统计周期内在所述招聘地区针对目标招聘岗位的招聘数量均值以及所述招聘地区;
所述在执行所述根据每个企业在一个所述统计周期内针对所述目标招聘岗的招聘数量均值以及对应的景气程度标签生成训练样本的步骤时,具体用于括:
根据每个企业在一个所述统计周期内在所述招聘地区针对所述目标招聘岗位的招聘数量均值、所述招聘地区以及对应的景气程度标签生成训练样本。
可选的,在执行所述利用机器学习算法训练景气程度评估模型的步骤时具体用于:
利用回归预测算法、随机森林分类算法和K均值分类算法分别训练景气程度评估模型;
基于测试数据集对所述景气程度评估模型进行性能评估得到性能指标项,根据所述性能指标项确定最终景气程度评估模型。
可选的,所述性能指标项包括平均绝对误差、均方差和/或中值绝对误差。
本申请还提供了另一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取目标关键词,所述目标关键词至少包括目标行业;
根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值;
向应用服务器发送提示信息生成请求,所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息;
接收所述应用服务器返回的提示信息,所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内的招聘信息输出的预估结果,且所述景气程度评估模型是根据训练样本集通过机器学习算法训练得到;
显示所述提示信息。
可选的,所述获取目标关键词包括:
获取投资系统、产业规划系统或志愿填报系统的预设关键词作为目标关键词;或者,
响应于用户在投资页面、产业规划页面或志愿填报页面触发的输入操作,提取目标关键词;或者,
响应于用户在所述投资页面、所述产业规划页面或所述志愿填报页面触发的指定操作,获取所述用户指定的关键词作为目标关键词。
可选的,所述目标关键词还包括目标招聘地区;
所述根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息包括:
根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内在所述目标招聘地区针对目标招聘岗位的招聘数量均值和所述目标招聘地址;
对应地,所述提示信息生成请求包括所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息;
所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息输出的预估结果。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (13)
1.一种模型训练方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;
根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取原始信息,所述原始信息包括行业标识、企业标识、招聘岗位、与所述招聘岗位对应的招聘人员数量以及发布时间;
根据所述发布时间划分统计周期,针对各个统计周期,根据所述行业标识、所述企业标识、所述招聘岗位以及所述与所述招聘岗位对应的招聘人员数量分别统计各企业在每个所述统计周期针对所述目标招聘岗位的招聘数量均值;
采集所述各企业在每个所述统计周期的评价信息,根据所述评价信息确定所述各企业在每个所述统计周期内的景气程度标签;
根据每个企业在一个所述统计周期内针对所述目标岗位的招聘数量均值以及对应的景气程度标签生成训练样本,根据多个所述训练样本生成训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述获取原始信息包括:
从第一信息源和第二信息源分别获取原始信息,所述第一信息源包括搜索引擎,所述第二信息源包括招聘网站;
所述方法还包括:
根据所述原始信息中的所述发布时间对所述原始信息进行去重处理。
4.根据权利要求2所述的方法,其特征在于,所述原始信息还包括招聘地区;对应地,所述招聘信息包括所述企业在所述统计周期内在所述招聘地区针对目标招聘岗位的招聘数量均值以及所述招聘地区;
所述根据每个企业在一个所述统计周期内针对所述目标招聘岗位的招聘数量均值以及对应的景气程度标签生成训练样本包括:
根据每个企业在一个所述统计周期内在所述招聘地区针对所述目标招聘岗位的招聘数量均值、所述招聘地区以及对应的景气程度标签生成训练样本。
5.根据权利1至4任一项所述的方法,其特征在于,所述利用机器学习算法训练景气程度评估模型包括:
利用回归预测算法、随机森林分类算法和K均值分类算法分别训练景气程度评估模型;
基于测试数据集对所述景气程度评估模型进行性能评估得到性能指标项,根据所述性能指标项确定最终景气程度评估模型。
6.根据权利要求5所述的方法,其特征在于,所述性能指标项包括平均绝对误差、均方差和/或中值绝对误差。
7.一种信息提示方法,其特征在于,所述方法包括:
获取目标关键词,所述目标关键词至少包括目标行业;
根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值;
向应用服务器发送提示信息生成请求,所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息;
接收所述应用服务器返回的提示信息,所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内的招聘信息输出的预估结果,且所述景气程度评估模型是根据训练样本集通过机器学习算法训练得到;
显示所述提示信息。
8.根据权利要求7所述的方法,其特征在于,所述获取目标关键词包括:
获取投资系统、产业规划系统或志愿填报系统的预设关键词作为目标关键词;或者,
响应于用户在投资页面、产业规划页面或志愿填报页面触发的输入操作,提取目标关键词;或者,
响应于用户在所述投资页面、所述产业规划页面或所述志愿填报页面触发的指定操作,获取所述用户指定的关键词作为目标关键词。
9.根据权利要求7所述的方法,其特征在于,所述目标关键词还包括目标招聘地区;
所述根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息包括:
根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内在所述目标招聘地区针对目标招聘岗位的招聘数量均值和所述目标招聘地址;
对应地,所述提示信息生成请求包括所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息;
所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内在所述目标招聘地区的招聘信息输出的预估结果。
10.一种模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取训练样本集,所述训练样本集中的每个训练样本包括企业在一个统计周期内的招聘信息以及对应的景气程度标签,所述招聘信息包括所述企业在所述统计周期内针对目标招聘岗位的招聘数量均值,所述训练样本集包括行业内多个企业的招聘信息形成的所述训练样本以及同一企业在多个所述统计周期内的招聘信息形成的所述训练样本;
训练单元,用于根据所述训练样本集,利用机器学习算法训练景气程度评估模型,直至满足训练结束条件;其中,所述景气程度评估模型以招聘信息为输入,以行业景气程度为输出。
11.一种信息提示装置,其特征在于,所述装置包括:
获取单元,用于获取目标关键词,所述目标关键词至少包括目标行业;
生成单元,用于根据针对所述目标关键词的搜索结果生成所述目标行业在最近统计周期内的招聘信息,所述招聘信息包括所述目标行业的企业在所述最近统计周期内针对目标招聘岗位的招聘数量均值;
发送单元,用于向应用服务器发送提示信息生成请求,所述提示信息生成请求包括所述目标行业在最近统计周期内的招聘信息;
接收单元,用于接收所述应用服务器返回的提示信息,所述提示信息是所述应用服务器根据景气程度预估结果生成的,其中,所述景气程度预估结果是所述应用服务器接收的景气程度评估模型根据所述目标行业在最近统计周期内的招聘信息输出的预估结果,且所述景气程度评估模型是根据训练样本集通过机器学习算法训练得到;
显示单元,用于显示所述提示信息。
12.一种设备,其特征在于,所述设备包括处理器和存储器:
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的所述程序指令,以执行如权利要求1至6任一项所述的模型训练方法或权利要求7至9任一项所述的信息提示方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现如权利要求1至6任一项所述的模型训练方法或权利要求7至9任一项所述的信息提示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786631.3A CN112418260A (zh) | 2019-08-23 | 2019-08-23 | 模型训练方法、信息提示方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786631.3A CN112418260A (zh) | 2019-08-23 | 2019-08-23 | 模型训练方法、信息提示方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418260A true CN112418260A (zh) | 2021-02-26 |
Family
ID=74780170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910786631.3A Pending CN112418260A (zh) | 2019-08-23 | 2019-08-23 | 模型训练方法、信息提示方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418260A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140723A (zh) * | 2021-12-01 | 2022-03-04 | 北京有竹居网络技术有限公司 | 多媒体数据的识别方法、装置、可读介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799668A (zh) * | 2012-07-12 | 2012-11-28 | 杜继俊 | 招聘职位信息处理方法及系统 |
KR20160137135A (ko) * | 2015-05-22 | 2016-11-30 | 주식회사 마이다스아이티 | 맞춤형 채용 사이트 생성을 통한 온라인 채용 방법 및 이를 기록한 컴퓨터로 판독가능한 기록매체 |
CN108415748A (zh) * | 2018-03-01 | 2018-08-17 | 广州南方人才资讯科技有限公司 | 信息显示方法和系统、计算机存储介质及设备 |
CN109213795A (zh) * | 2018-08-31 | 2019-01-15 | 北京唐冠天朗科技开发有限公司 | 一种岗位和人员的匹配方法 |
CN109299842A (zh) * | 2017-07-25 | 2019-02-01 | 杭州金智塔科技有限公司 | 众筹行业景气度分析方法、系统、存储介质及计算机系统 |
CN109426902A (zh) * | 2017-08-25 | 2019-03-05 | 北京国双科技有限公司 | 企业综合评比方法和装置 |
-
2019
- 2019-08-23 CN CN201910786631.3A patent/CN112418260A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799668A (zh) * | 2012-07-12 | 2012-11-28 | 杜继俊 | 招聘职位信息处理方法及系统 |
KR20160137135A (ko) * | 2015-05-22 | 2016-11-30 | 주식회사 마이다스아이티 | 맞춤형 채용 사이트 생성을 통한 온라인 채용 방법 및 이를 기록한 컴퓨터로 판독가능한 기록매체 |
CN109299842A (zh) * | 2017-07-25 | 2019-02-01 | 杭州金智塔科技有限公司 | 众筹行业景气度分析方法、系统、存储介质及计算机系统 |
CN109426902A (zh) * | 2017-08-25 | 2019-03-05 | 北京国双科技有限公司 | 企业综合评比方法和装置 |
CN108415748A (zh) * | 2018-03-01 | 2018-08-17 | 广州南方人才资讯科技有限公司 | 信息显示方法和系统、计算机存储介质及设备 |
CN109213795A (zh) * | 2018-08-31 | 2019-01-15 | 北京唐冠天朗科技开发有限公司 | 一种岗位和人员的匹配方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140723A (zh) * | 2021-12-01 | 2022-03-04 | 北京有竹居网络技术有限公司 | 多媒体数据的识别方法、装置、可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
Wang et al. | Industrial big data analytics: challenges, methodologies, and applications | |
US10467541B2 (en) | Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model | |
US11074250B2 (en) | Technologies for implementing ontological models for natural language queries | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
KR101983538B1 (ko) | 카테고리 비율들을 계산하기 위한 시스템들 및 방법들 | |
US10956469B2 (en) | System and method for metadata correlation using natural language processing | |
US9177554B2 (en) | Time-based sentiment analysis for product and service features | |
US10706359B2 (en) | Method and system for generating predictive models for scoring and prioritizing leads | |
US11373101B2 (en) | Document analyzer | |
CN113157947A (zh) | 知识图谱的构建方法、工具、装置和服务器 | |
KR20200039852A (ko) | 기업 경영 현황 분석 예측 모델링을 위한 기계학습 알고리즘 제공 방법 | |
US10762089B2 (en) | Open ended question identification for investigations | |
CN109871393A (zh) | 一种基于标签体系的取数方法 | |
US20200160359A1 (en) | User-experience development system | |
CN117076770A (zh) | 基于图计算的数据推荐方法、装置、存储价值及电子设备 | |
CN112418260A (zh) | 模型训练方法、信息提示方法、装置、设备及介质 | |
Mathes | Big data has unique needs for information governance and data quality | |
CN114722789B (zh) | 数据报表集成方法、装置、电子设备及存储介质 | |
CN114860737B (zh) | 教研数据的处理方法、装置、设备及介质 | |
JP2022168859A (ja) | コンピュータ実装方法、コンピュータプログラム、及びシステム(予測クエリ処理) | |
CN114707510A (zh) | 资源推荐信息推送方法、装置、计算机设备及存储介质 | |
CN105556514B (zh) | 一种基于用户搜索行为进行数据挖掘的方法和装置 | |
CN109992614B (zh) | 数据获取方法、装置和服务器 | |
US12019995B2 (en) | Ontology-driven conversational interface for data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |