CN116611914A

CN116611914A - 一种基于分组统计的薪资预测方法及设备

Info

Publication number: CN116611914A
Application number: CN202310706146.7A
Authority: CN
Inventors: 向桥梁; 张俊龙
Original assignee: Liantong Hangzhou Technology Service Co ltd
Current assignee: Liantong Hangzhou Technology Service Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-18

Abstract

本申请的目的是提供一种基于分组统计的薪资预测方法及设备，根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集；对第一数据集进行异常职位信息的数据清洗后，得到第二数据集；根据行业分类和职位类型，对第二数据集中各职位信息的字段进行实际业务与招聘网站之间的取值映射，得到与实际业务对应的第三数据集；对第三数据集中各职位信息依序分别进行字段分组和薪资分布的统计，以建立薪资统计表；根据输入的目标字段的取值和薪资统计表，进行薪资预测，得到与目标字段对应的预测薪资，实现对数据进行采用组合策略获取，并基于外部标准和统计特点的映射，提供数据兼容性和质量，提升预测精准度。

Description

一种基于分组统计的薪资预测方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于分组统计的薪资预测方法及设备。

背景技术

在信贷领域，申请人的薪资是很重要的信息。它会影响是否通过授信，评级，初始额度，以及未来的额度提升等。因此需要找一个合理的方法来确定申请人的薪资范围。

自填法、社保公积金法以及招聘数据统计法是常用的薪资预估方法，但，自填法会高估薪资，申请人有一定的动机去填写一个比较高的数字以提高通过率，导致高估的薪资增加金融机构的信用风险；社保公积金法覆盖范围有限，不是所有申请人都能提供社保和公积金信息，且容易低估，同时缴纳的费用存在上限，低估的薪资使得金融机构拒绝掉优质客户，从而增加营销成本，也减少利润；招聘数据统计法的数据获取成本高，简单的数据抓取效率低，数据存在质量问题，处理不合理会导致数据偏差，同时数据兼容性差，招聘数据和业务数据不一定匹配，简单映射的效果不好，数据字段的取值太多导致组合很多，从而导致统计不稳定。

发明内容

本申请的一个目的是提供一种基于分组统计的薪资预测方法及设备，采用有策略、合理的获取数据集，减少数据获取成本，再结合行业分类和职位类型对数据集中数据进行数据映射，提高数据集内数据兼容性和稳定性，以使薪资预测更加精准。

根据本申请的一个方面，提供了一种基于分组统计的薪资预测方法，其中，所述方法包括：

根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，其中，所述职位信息包括六个字段和加权薪资，所述六个字段分别为所在城市、工作年限、教育程序、行业分类职位类型和薪资区间；

对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集；

根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集；

对所述第三数据集中各所述职位信息依序分别进行字段分组和薪资分布的统计，以建立薪资统计表；

根据输入的目标字段的取值和所述薪资统计表，进行薪资预测，得到与所述目标字段对应的预测薪资。

进一步地，所述方法中，所述预设获取策略包括基础数据策略、补充数据策略及薪资计算策略，其中，所述根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，包括：

基于所述基础数据策略从招聘网站获取与职位相关的信息，得到初始数据集，所述初始数据集包括至少两个职位信息；

基于所述补充数据策略对所述初始数据集进行与职位相关的信息的缺失补全，得到补充数据集，并将所述补充数据集与所述初始数据集进行合并后去重，得到补充后的数据集；

基于所述薪资计算策略对所述补充后的数据集中各所述职位信息中的所述薪资区间进行加权取值得到对应的加权薪资，并增加至所述补充后的数据集中的各所述职位信息中，得到第一数据集。

进一步地，所述方法中，所述基于所述基础数据策略从招聘网站获取与职位相关的信息，得到初始数据集，所述初始数据集包括至少两个职位信息，包括：

根据所述实际业务，确定城市名单，所述城市名单包括至少一个待选城市；

生成所述城市名单中各所述待选城市与所述行业分类之间构成的行业组合；

生成所述城市名单中各所述待选城市与所述职位类型之间构成的职位组合；

分别基于所述行业组合和所述职位组合，从招聘网站获取与所述实际业务对应的初选职位信息并进行合并后去重，得到初始数据集，所述初始数据集包括至少两个职位信息。

进一步地，所述方法中，所述对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集，包括：

按照所述所在城市对所述第一数据集中各所述职位信息进行分组，得到每个所述所在城市对应的职位信息集，所述职位信息集包括至少一个职位信息；

对所述职位信息集中各所述职位信息中增加的加权薪资进行取对数，得到所述加权薪资对应的对数薪资，并计算所述对数薪资的平均值和标准差；

在所述第一数据集中，若所述加权薪资对应的对数薪资大于预设倍数标准差，则将所述加权信息对应的职位信息从所述第一数据集删除，以得到第二数据集。

进一步地，所述方法中，所述根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集，包括：

根据所述第二数据集中各所述职位信息的行业分类/职位类型的名称进行实际业务与所述招聘网站之间的名称取值映射，得到要所述实际业务对应的初始映射数据集；

基于所述初始映射数据集对所述第二数据集中未映射的各所述职位信息进行实际业务与所述招聘网站之间的统计映射，得到最近映射数据集；

以所述初始映射数据集和所述最近映射数据集，形成与所述实际业务对应的第三数据集。

进一步地，所述方法中，所述根据所述第二数据集中各所述职位信息的行业分类/职位类型的名称进行实际业务与所述招聘网站之间的名称取值映射，得到要所述实际业务对应的初始映射数据集，包括：

若所述招聘网站的一级行业名称/一级职位名称与所述实际业务的行业名称/职位名称对应，则将从所述招聘网站获取的所述第二数据集中各所述职位信息的行业分类/职位类型的名称中的一级行业名称取值/一级职位名称取值映射为对应的所述实际业务的行业名称取值/职位名称取值，得到第一初始映射数据集；

否则，遍历所述招聘网站的一级行业名称/一级职位名称下的二级行业名称/二级职位名称，若所述招聘网站的二级行业名称/二级职位名称与所述实际业务的行业名称/职位名称对应，则将从所述招聘网站获取的所述第二数据集中各所述职位信息的行业分类/职位类型的名称中的二级行业名称取值/二级职位名称取值映射为对应的所述实际业务的行业名称取值/职位名称取值，得到第二初始映射数据集；

合并所述第一初始映射数据集和所述第二初始映射数据集，得到初始映射数据集。

进一步地，所述方法中，所述基于所述初始映射数据集对所述第二数据集中未映射的各所述职位信息进行实际业务与所述招聘网站之间的统计映射，得到最近映射数据集，包括：

统计所述初始映射数据集中各所述职位信息中的行业分类/职位类型的薪资分布，得到每个行业分类对应的薪资分布；

对所述第二数据集中未映射的各所述职位信息中的行业分类/职位类型进行薪资分布的统计，得到未映射的各所述职位信息中的行业分类/职位类型对应的薪资分布；

将所述未映射的各职位信息中的行业分类/职位类型对应的薪资分布，与映射后的各所述职位信息中的行业分类/职位类型，得到最近映射数据集对应的薪资分布进行比较，得到薪资差异；

若所述薪资差异在预设的薪资差异阈值内，则将所述未映射的各职位信息中的行业分类/职位类型，映射为薪资差异最接近的、映射后的各所述职位信息中的行业分类/职位类型，得到最近映射数据集。

根据本申请的另一方面，还提供了一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述一种基于分组统计的薪资预测方法。

根据本申请的另一方面，还提供了一种基于分组统计的薪资预测设备，其中，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述一种基于分组统计的薪资预测方法。

与现有技术相比，本申请通过根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，其中，所述职位信息包括六个字段和加权薪资，所述六个字段分别为所在城市、工作年限、教育程序、行业分类、职位类型和薪资区间；对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集；根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集；对所述第三数据集中各所述职位信息依序分别进行字段分组和薪资分布的统计，以建立薪资统计表；根据输入的目标字段的取值和所述薪资统计表，进行薪资预测，得到与所述目标字段对应的预测薪资，实现根据预设获取策略进行有目标、有规则的与职位相关信息的获取，并对数据做清洗提高数据质量，采用含有统计特点的映射方法提高数据的兼容性，依序对映射后的数据集完成字段分组、薪资分布的统计，建立薪资统计表，完成数据信息整合与统计，生成精准描述薪资情况的薪资统计表，从而在薪资统计表中查询预测目标字段的预测薪资，增强预测薪资的准确性和稳定性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种基于分组统计的薪资预测方法的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本申请一个方面的一种基于分组统计的薪资预测方法的流程示意图，其中，所述方法包括步骤S11、步骤S12、步骤S13、步骤S14及步骤S15，具体包括如下步骤：

步骤S11，根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，其中，所述职位信息包括五个字段和薪资区间，所述六个字段分别为所在城市、工作年限、教育程序、行业分类、职位类型和薪资区间。

在此，预设获取策略是指根据用户需求制定的获取职位相关信息的规则策略，或是在特殊需求场景下制定的获取职位相关信息的规则策略。

职位信息的字段是指招聘网站中职位信息的相关属性，并且在每条职位信息中还包括各字段对应的字段取值，具体的，所在城市字段为关于职位所在的城市属性的字段及其字段取值(例如，北京市、上海市)；工作年限字段为关于工作年限要求的属性字段，在实际应用场景中，字段取值可使用具体数值或数值范围等进行表示(例如，2年、3-5年、5-10年)；教育程度字段为每条职位信息中对教育程度的要求及其字段取值(例如中学、高中、大学、本科、硕士、博士等)；行业分类字段为招聘公司所属行业及其字段取值(例如，教育行业、金融行业等)；职位类型的字段为职位的具体类别及其字段取值(例如，销售员、销售专员、产品销售等)；薪资区间是每条职位信息对应的薪资情况及其字段取值(例如，最低薪资-最高薪资)，通过六个字段和加权薪资全面并清晰的体现、概括每条职位信息，再结合预设获取策略对招聘网站的职位信息进行获取，不但实现有规则、有目的获取信息得到高质量的第一数据集，而且有效避免任意获取信息带来信息质量低、浪费获取资源的问题。

步骤S12，对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集。

需要说明的是，对异常职位信息的清洗不仅限于对第一数据集中存在表示异常、错误或无效等情况的信息的删除，还包括结合各字段取值对应的薪资情况对薪资异常的职位信息进行删除(例如，在所在城市字段中不同城市对应不同的薪资情况，在各城市中按照该城市薪资进行薪资异常的职位信息的删除)，在本申请的一优选实施例中，优选使用按照各城市薪资进行薪资异常的职位信息的信息清洗方式，实现对第一数据集中异常职位信息的删除，确保得到的第二数据集中职位信息更加清晰、完整且有参考价值，直线提高第二数据集中数据质量。

步骤S13，根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集。

在此，进行取值映射时，可利用预先制定的行业分类细则和职位类型细则进行实际业务中各字段取值的确定，也可以参照《国民经济行业分类》和《中华人民共和国职业分类大典》等分类规则进行实际业务中字段取值的确定。在本申请的一优选实施例中，优选参照《国民经济行业分类》和《中华人民共和国职业分类大典》进行实际业务中字段取值的确定，解决因招聘网站的字段取值与实际业务的字段取值不同而带来数据集杂乱、难统计等问题，实现对第二数据集中各字段的统一标准化处理，促使得到的第三数据集整齐有规律，从而加快后续对第三数据集的数据处理操作。

步骤S14，对所述第三数据集中各所述职位信息依序分别进行字段分组和薪资分布的统计，以建立薪资统计表。

在此，字段分组的方法包括但不限于通过各字段取值进行各字段的段内分组；薪资统计表的构建方法包括但不限于，基于字段分组，统计不同字段组合(即，所在城市、工作年限、教育程度、行业分类、职位类型和薪资区间六个字段的不同组合)的薪资分布后，合并整理得到薪资统计表，其中薪资分布包括但不限于对薪资的均值、中位数、最小值、25％分位值、50％分位值、75％分位值、最大值等数据的分布情况，具体可根据实际应用场景选择适用的字段分组方式和建立薪资统计表的方式，实现先字段分组后建立薪资统计表的薪资统计方式，使得薪资统计表中数据更具代表性，并且提高薪资统计表的稳定性。

同时，关于字段分组方法中，利用字段取值进行字段的分组时，有些字段的取值很多(例如行业分类和职位类型都超过20种的行业/职位)，导致某些字段的取值组合对应的数据数量过低或者没有对应数据，使后续建立薪资统计表时效果不稳定，所以，在一个字段根据字段取值进行分组之后，分组的字段取值数量应控制在3到5之间，这可以提高后续建立薪资统计表的稳定性。

并且在进行字段分组时，优先参考使用公开的信息和常规字段分组方法，再结合统计特点来进行分组。例如，不同字段根据字段取值的分组方法如下：

所在城市字段：根据公开的城市等级划分进行分组，得到一线、新一线、二线、三线等；工作年限字段：由于招聘网站已经分组，得到3-5年、5-10年；教育程度字段：根据该字段常规分组方法，直接分成高中及以下、大专、本科、硕士级以上；职位类型字段：计算每个职业的薪资的平均值或者中位数，进行排序，从而根据统计值的特点分组；行业分类字段：可以参考统计局发布的各行业的薪资情况进行分组，也可以采取和职位类型类似的方法进行分组。

步骤S15，根据输入的目标字段的取值和所述薪资统计表，进行薪资预测，得到与所述目标字段对应的预测薪资。

通过上述步骤S11至步骤S15，实现根据预设获取策略在招聘网站定向提取与职位相关的信息得到第一数据集，并对第一数据集进行异常职位信息的数据清洗、实际业务与招聘网站之间的取值映射，提高数据集中职位信息的质量和兼容性，再进行字段分组和薪资分布的统计，生成精准、稳定的薪资统计表，提高目标字段的薪资预测准确性。

在本申请一优选实施例中，根据预设获取策略A，从招聘网站内获取与职位相关的信息，构建第一数据集D3，其中，第一数据集D3中包括{职位信息1、职位信息2、……、职位信息(n-1)、职位信息n}，并且，职位信息1中{所在城市＝城市1、工作年限＝年限1、教育程序＝教育1、行业分类＝行业1、职位类型＝职位1、薪资区间1}和加权薪资1；职位信息2中{所在城市＝城市2、工作年限＝年限2、教育程序＝教育2、行业分类＝行业2、职位类型＝职位2、薪资区间2}和加权薪资2；……；职位信息(n-1)中{所在城市＝城市(n-1)、工作年限＝年限(n-1)、教育程序＝教育(n-1)、行业分类＝行业(n-1)、职位类型＝职位(n-1)、薪资区间(n-1)}和加权薪资(n-1)以及职位信息n中{所在城市＝城市n、工作年限＝年限n、教育程序＝教育n、行业分类＝行业n、职位类型＝职位n、薪资区间n}和加权薪资n。

分析第一数据集D3，根据第一数据集D3各城市之间的薪资差异，将薪资异常的职位信息删除，完成对职位信息1至职位信息n的数据清洗，得到第二数据集D4{职位信息1、职位信息2、……、职位信息(m-1)、职位信息m}；参照《国民经济行业分类》和《中华人民共和国职业分类大典》进行实际业务中行业/职位名称取值的确定，将招聘网站的行业分类/职位类型的名称取值与实际业务中的行业/职位名称取值进行对应映射，得到统一后的与实际业务对应的第三数据集D5{职位信息1’、职位信息2’、……、职位信息(m-1)’、职位信息m’}。

依序对第三数据集D5中职位信息1’至职位信息m’进行字段分组和薪资分布的统计，建立薪资统计表T1；输入目标字段{所在城市＝目标城市、工作年限＝目标年限、教育程序＝目标教育、行业分类＝目标行业、职位类型＝目标职位、薪资区间＝目标薪资区间}，在薪资统计表T1中进行薪资预测，得到目标字段对应的预测薪资。

接着本申请上述实施例，其中，所述步骤S11中预设获取策略包括基础数据策略、补充数据策略及薪资计算策略，其中，所述步骤S11根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，包括：

基于所述基础数据策略从招聘网站获取与职位相关的信息，得到初始数据集，所述初始数据集包括至少两个职位信息；在此，所述基础获取策略为根据用户或特殊场景下设定的基础需求，具体的，可将某个特定字段、某个特定字段的字段取值、某个特定信息或者某些特定信息的组合确定为职位信息获取时的基础项以构成基础数据策略，在本申请一优选实施例中，优选基础数据策略为所在城市字段+行业分类字段以及所在城市字段+职位类型字段构成的数据获取的基础。

基于所述补充数据策略对所述初始数据集进行与职位相关的信息的缺失补全，得到补充数据集，并将所述补充数据集与所述初始数据集进行合并后去重，得到补充后的数据集；在此，与基础数据策略设定同理，补充数据策略为根据用户或特殊场景下设定的补充需求，具体的，可将某个特定字段或某个特定字段的字段取值或某个特定信息或者某些特定信息的组合确定为职位信息获取时的补充项，在本申请一优选实施例中，优选补充数据策略为所在城市字段+工作年限字段以及所在城市字段+教育程度字段作为数据获取的补给。

在此，薪资计算策略中对薪资区间进行加权取值时具体的权重可通过计算机算法根据职位信息进行计算得到，也可提前设定具体权重，在本申请一优选实施例中，优选权重为0.5，采用基础数据策略、补充数据策略及薪资计算策略三大策略结合的数据获取策略，达成在职位信息获取过程中将所在城市字段作为必选字段，行业分类字段和职位类型字段作为基础字段以及工作年限字段和教育程度字段作为补充字段的，实现最少次数的从招聘网站中获取覆盖最全面、最符合需求的职位信息，实现职位信息有效获取的同时，更好的平衡成本和效果。

在本申请一优选实施例中，基于设定所在城市字段+行业分类字段以及所在城市字段+职位类型字段为获取策略的基础数据策略a1，从招聘网站中获取到初始数据集D1；基于设定所在城市字段+工作年限字段以及所在城市字段+教育程度字段为获取策略的补充数据策略a2，对初始数据集D1进行缺失补全，得到补充数据集D2；将初始数据集D1和补充数据集D2中与职位相关的信息进行合并、去重得到补充后的数据集，其中，在补充后的数据集中包括至少两条职位信息。

根据薪资计算策略a3，对补充后的数据集中每条职位信息对应的薪资区间字段的字段取值进行权重为0.5的加权计算(即，加权薪资S1＝最低薪资*0.5+最高薪资*0.5)，得到每条职位信息对应的加权薪资S1，并将各个加权薪资S1添加至对应的每条职位信息中，得到第一数据集D3，完成基于基础数据策略a1、补充数据策略a2及薪资计算策略a3的职位信息获取。

接着本申请上述实施例，其中，所述步骤S11中的基于所述基础数据策略从招聘网站获取与职位相关的信息，得到初始数据集，所述初始数据集包括至少两个职位信息，具体包括：

根据所述实际业务，确定城市名单，所述城市名单包括至少一个待选城市，即，确定所在城市字段的字段取值(即为必选字段)，为数据获取提供大方向。

生成所述城市名单中各所述待选城市与所述行业分类之间构成的行业组合。

生成所述城市名单中各所述待选城市与所述职位类型之间构成的职位组合，实现所在城市字段的字段取值分别与行业分类字段和职位类型字段结合，确定基础字段，进一步确定数据获取的范围和要求，已得到符合设定的数据集。

分别基于所述行业组合和所述职位组合，从招聘网站获取与所述实际业务对应的初选职位信息并进行合并后去重，得到初始数据集，所述初始数据集包括至少两个职位信息，实现通过设定必选字段和基础字段制定可控制的职位信息获取策略，使得第一数据集极高贴合基础数据策略需求，并且在设定基础数据策略时可充分结合招聘网站中每个字段的字段特点，更好的把握在招聘网站中职位信息获取的方向和次数，减轻招聘网站的访问压力，还保障了第一数据集的中职位信息的高质量。

在本申请一优选实施例中，根据实际业务，确定城市名单，其中，优选在城市名单中仅包括北京市一个待选城市；结合行业分类和职位类型，生成北京+金融业行业组合1和北京+制造业行业组合2，以及北京+销售职位组合1和北京+行政职位组合2；对每个行业组合(北京+金融业、北京+制造业)和每个职业组合(北京+销售、北京+行政)，从招聘网站获取得到行业组合1的初始职位信息1、行业组合2的初始职位信息2、职位组合1的初始职位信息3和职位组合2的初始职位信息4，分别将初始职位信息1至初始职位信息4合并、去重，得到初始数据集D1，并在初始数据集D1中包括至少两个职位信息，完成根据基础数据策略a1得到初始数据集D1。

接着本申请上述实施例，所述步骤S12对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集，包括：

按照所述所在城市对所述第一数据集中各所述职位信息进行分组，得到每个所述所在城市对应的职位信息集，所述职位信息集包括至少一个职位信息。

对所述职位信息集中各所述职位信息中增加的加权薪资进行取对数，得到所述加权薪资对应的对数薪资，并计算所述对数薪资的平均值和标准差；需要说明的是，在得到各职位信息的加权薪资对应的对数薪资后，将根据所在城市中所有职位信息的对数薪资而进行平均值和标准差的计算。

在所述第一数据集中，若所述加权薪资对应的对数薪资大于预设倍数标准差，则将所述加权信息对应的职位信息从所述第一数据集删除，以得到第二数据集；在实际应用场景中，对数薪资大于预设倍数标准差的判断方式有多种，可根据实际需求进行具体公式/方式的确定，在本申请一优选实施例中，优选对数薪资大于3倍数的标准差，且具体判断公式为|对数薪资-平均值|>3标准差，实现在特定城市下，将薪资不符的职位信息删除，使得数据清洗更加精准化，将第二数据集中数据质量提升至最大。

例如，按照所在城市将第一数据集分为北京市职位信息集和上海市职位信息集；对北京市职位信息集中每条职位信息的加权薪资s11取对数，得到对数薪资s12，同时，对上海市职位信息集中每条职位信息的加权薪资s21取对数，得到对数薪资s22；根据北京市职位信息集中每条职位信息的对数信息s12，计算得到对数薪资的平局值μ1和标准差σ1；根据上海市职位信息集中每条职位信息的对数信息s22，计算得到对数薪资的平局值μ2和标准差σ2。

在第一数据集中关于北京市的职位信息集，若职位信息的对数薪资s12满足|s12-μ1|>3σ1时，将该条职位信息从第一数据集中删除；关于上海市的职位薪资集，若职位信息的对数薪资s22满足|s22-μ2|>3σ2时，将该条职位信息从第一数据集中删除，得到每条职位信息均符合对应城市的薪资的第二数据集。

接着本申请上述实施例，在实际应用场景中，由于招聘情况众多且杂乱，导致招聘网站每个字段的名称取值有多各级别(常见二级名称或三级名称)，而在实际业务中采用的每个行业仅一个级别，为了规避这种名称差异，在本申请中，所述步骤S13根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集，包括：

根据所述第二数据集中各所述职位信息的行业分类/职位类型的名称进行实际业务与所述招聘网站之间的名称取值映射，得到与所述实际业务对应的初始映射数据集。

基于所述初始映射数据集对所述第二数据集中未映射的各所述职位信息进行实际业务与所述招聘网站之间的统计映射，得到最近映射数据集。

在此，所述统计映射是指，分别统计初始映射数据集中职位信息(已映射的职位信息)的字段相关数据，以及未映射的职位信息的字段相关数据进行对比，找到与未映射的职位信息的字段相关数据最接近的已映射的职位信息从而进行名称取值映射，其中，字段相关数据包括但不限于职位信息对应的薪资分布等。

以所述初始映射数据集和所述最近映射数据集，形成与所述实际业务对应的第三数据集，有效解决招聘网站中行业名称/职位名称多级、且名称模糊的问题，解除招聘网站与实际业务之间名称差异，实现对第三数据集的信息进行统一标准化处理，有效提高数据集的稳定性和兼容性。

在本申请一优选实施例中，根据第二数据集D4中职位信息1-职位信息m的行业分类/职位类型的名称，参照《国民经济行业分类》和《中华人民共和国职业分类大典》确定实际业务中行业/职位名称取值，将招聘网站中各行业分类字段/职位类型字段的名称取值与实际业务中行业/职位名称取值进行对比、映射，得到与实际业务对应的初始映射数据集，其中，在初始映射集中每条职位信息均为已映射的名称取值的职位信息。

优选在第二数据集D4中仅有职位信息i为未映射的职位信息，分别统计初始映射数据集中职位信息(已映射的职位信息)的字段相关数据，以及第二数据集D4中职位信息i的字段相关数据，找到与职位信息i的字段相关数据最接近的已映射的职位信息，对职位信息i进行映射，得到最近映射数据集，其中，最近映射数据集包括职位信息i’；将初始映射数据集和最近映射数据集合并去重，得到与实际业务对应的第三数据集D5。

接着本申请上述实施例，所述步骤S13中的根据所述第二数据集中各所述职位信息的行业分类/职位类型的名称进行实际业务与所述招聘网站之间的名称取值映射，得到要所述实际业务对应的初始映射数据集，具体包括：

若所述招聘网站的一级行业名称/一级职位名称与所述实际业务的行业名称/职位名称对应，则将从所述招聘网站获取的所述第二数据集中各所述职位信息的行业分类/职位类型的名称中的一级行业名称取值/一级职位名称取值映射为对应的所述实际业务的行业名称取值/职位名称取值，得到第一初始映射数据集；需要说明的是，在进行招聘网站与实际业务之间的名称取值映射前，需先从招聘网站中获取各行业分类字段/职位类型字段的名称取值的分级情况，以进行全面的名称取值映射，从而实现第二数据集中全部行业分类/职位类型的名称的全覆盖式映射，提高映射精准性。

否则，遍历所述招聘网站的一级行业名称/一级职位名称下的二级行业名称/二级职位名称，若所述招聘网站的二级行业名称/二级职位名称与所述实际业务的行业名称/职位名称对应，则将从所述招聘网站获取的所述第二数据集中各所述职位信息的行业分类/职位类型的名称中的二级行业名称取值/二级职位名称取值映射为对应的所述实际业务的行业名称取值/职位名称取值，得到第二初始映射数据集。

合并所述第一初始映射数据集和所述第二初始映射数据集，得到初始映射数据集，实现通过名称取值方式完成字段映射，并将实际业务作为参照，合理融入外部数据，达到基于外部标准的映射方法，提供数据的兼容性。

在本申请一优选实施例中，优选获取招聘网站中一级行业名称1/一级职位名称2，以及一级行业名称1对应的二级行业名称11/一级职位名称2对应二级职位名称21，参照《国民经济行业分类》和《中华人民共和国职业分类大典》确定实际业务中行业/职位名称取值，若一级行业名称1/一级职位名称2与实际业务中行业1/职位1名称明确对应，将从招聘网站获取的第二数据集D4中行业分类/职位类型的名称为一级行业名称1/一级职位名称2的职位信息对应字段映射为行业1/职位1，得到第一初始映射数据集。

否则，遍历得到一级行业名称1下的二级行业名称11/一级职位名称2下的二级职位名称21；若二级行业名称11/二级职位名称21与实际业务中行业2/职位2名称明确对应，将从招聘网站获取的第二数据集D4中行业分类/职位类型的名称为二级行业名称11/二级职位名称21的职位信息对应字段映射为行业2/职位2，得到第二初始映射数据集。

合并第一初始映射数据集和第二初始映射数据集，得到初始映射数据集，完成名称取值映射。

接着本申请上述实施例，所述步骤S13中的基于所述初始映射数据集对所述第二数据集中未映射的各所述职位信息进行实际业务与所述招聘网站之间的统计映射，得到最近映射数据集，具体包括：

统计所述初始映射数据集中各所述职位信息中的行业分类/职位类型的薪资分布，得到每个行业分类对应的薪资分布，即，统计第二数据集中已映射的职位信息中每个行业分类对应的薪资分布。

对所述第二数据集中未映射的各所述职位信息中的行业分类/职位类型进行薪资分布的统计，得到未映射的各所述职位信息中的行业分类/职位类型对应的薪资分布。

将所述未映射的各职位信息中的行业分类/职位类型对应的薪资分布，与映射后的各所述职位信息中的行业分类/职位类型，得到最近映射数据集对应的薪资分布进行比较，得到薪资差异。

若所述薪资差异在预设的薪资差异阈值内，则将所述未映射的各职位信息中的行业分类/职位类型，映射为薪资差异最接近的、映射后的各所述职位信息中的行业分类/职位类型，得到最近映射数据集；在此，具体薪资差异阈值可根据实际需求进行设定，利用统计映射完成未映射职位信息的名称取值映射，解决招聘网站中行业/职位名称多级、模糊、不清晰的情况，合理训练数据集，得到最近映射数据集。

在本申请一优选实施例中，统计初始映射数据集中行业1/职位1、行业2/职位2的薪资分布，得到行业1/职位1的薪资分布和行业2/职位2的薪资分布；对职位信息i(优选未映射的职位信息)的行业分类i/职位类型i进行薪资分布统计，得到职位信息i的薪资分布；将职位信息i的薪资分布分别与行业1/职位1的薪资分布和行业2/职位2的薪资分布做比较，得到关于行业1/职位1的薪资差异1和关于行业2/职位2的薪资差异2；根据预设的薪资差异阈值，得到薪资差异2为最接近的薪资分布，将职位信息i中行业分类i/职位类型i映射为行业2/职位2，生成职位信息i’，得到最近映射数据集，完成对未映射的职位信息的统计映射。

同时，在申请实际应用时，可设为：数据获取模块、数据清洗模块、字段映射模块、字段分组模块、薪资统计模块和薪资预测模块，实现基于预设获取策略来提高获取数据的效率，采用基于城市的异常数据清洗方法以提高数据质量，并且基于外部标准和统计特点进行映射以提高数据一致性，以及基于外部数据和统计特点进行分组以提高统计的稳定性。

具体的，在数据获取模块中，设计合理的预设获取策略，用最少的访问次数来覆盖更多的组合，更好地平衡成本和效果，充分考虑每个字段的特点，从而从招聘网站获取与职位相关的信息。

在数据清洗模块中，根据不同城市的薪资差异，按照城市进行异常处理，从而去掉第一数据集里的异常数据得到第二数据集，提高数据质量。

在字段映射模块中，由于所在城市、教育程度和职位等级基本能可以对应清晰，故一般不用特殊处理，主要对行业分类和职位类型进行名称映射，但是有些行业/职位的名字比较模糊，需要采用基于统计映射的方法来映射，达到基于外部标准和统计特点的映射方法，提高数据的兼容性。

在字段分组模块中，用于对第三数据集的字段根据值进行分组。

在薪资统计模块中，基于字段分组模块中数据的处理，对字段分组后的数据集建立薪资统计表，用于后续薪资预测。

在薪资预测模块中，主要根据输入的目标字段的取值，在薪资统计表里查询，即可完成薪资预测。

并且，本申请任何硬件或者软件或者编程语言都可以实现，可以在传统的服务器上实现，也可以在笔记本电脑上，还可以在手机、嵌入式、芯片等具备运行程序功能的设备上。

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

在此，所述一种基于分组统计的薪资预测设备中的各实施例的详细内容，具体可参见上述一种基于分组统计的薪资预测方法的实施例的对应部分，在此，不再赘述。

综上所述，本申请通过根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，其中，所述职位信息包括六个字段和加权薪资，所述六个字段分别为所在城市、工作年限、教育程序、行业分类、职位类型和薪资区间；对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集；根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集；对所述第三数据集中各所述职位信息依序分别进行字段分组和薪资分布的统计，以建立薪资统计表；根据输入的目标字段的取值和所述薪资统计表，进行薪资预测，得到与所述目标字段对应的预测薪资，实现根据预设获取策略进行有目标、有规则的进行职位相关信息的获取，并对数据做清洗提高数据质量，采用含有统计特点的映射方法提高数据的兼容性，依序对映射后的数据集完成字段分组、薪资分布的统计，建立薪资统计表，完成数据信息整合与统计，生成精准描述薪资情况的薪资统计表，从而在薪资统计表中查询预测目标字段的预测薪资，增强预测薪资的准确性和稳定性。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于分组统计的薪资预测方法，其中，所述方法包括：

根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，其中，所述职位信息包括六个字段和加权薪资，所述六个字段分别为所在城市、工作年限、教育程序、行业分类、职位类型和薪资区间；

2.根据权利要求1所述的方法，其中，所述预设获取策略包括基础数据策略、补充数据策略及薪资计算策略，其中，所述根据预设获取策略从招聘网站获取与职位相关的信息，以构建第一数据集，所述第一数据集包括至少两个职位信息，包括：

3.根据权利要求2所述的方法，其中，所述基于所述基础数据策略从招聘网站获取与职位相关的信息，得到初始数据集，所述初始数据集包括至少两个职位信息，包括：

4.根据权利要求3所述的方法，其中，所述对所述第一数据集进行异常职位信息的数据清洗后，得到第二数据集，包括：

5.根据权利要求1所述的方法，其中，所述根据所述行业分类和所述职位类型，对所述第二数据集中各所述职位信息的字段进行实际业务与所述招聘网站之间的取值映射，得到与所述实际业务对应的第三数据集，包括：

6.根据权利要求5所述的方法，其中，所述根据所述第二数据集中各所述职位信息的行业分类/职位类型的名称进行实际业务与所述招聘网站之间的名称取值映射，得到要所述实际业务对应的初始映射数据集，包括：

7.根据权利要求6所述的方法，其中，所述基于所述初始映射数据集对所述第二数据集中未映射的各所述职位信息进行实际业务与所述招聘网站之间的统计映射，得到最近映射数据集，包括：

8.一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至7中任一项所述的方法。

9.一种基于分组统计的薪资预测设备，其中，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7所述的方法。