CN117560016B

CN117560016B - 基于大数据的高校招聘信息管理方法

Info

Publication number: CN117560016B
Application number: CN202410028103.2A
Authority: CN
Inventors: 何兴祥
Original assignee: Academic Bridge Beijing Education Technology Co ltd
Current assignee: Academic Bridge Beijing Education Technology Co ltd
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-03-19
Anticipated expiration: 2044-01-09
Also published as: CN117560016A

Abstract

本发明涉及数据处理技术领域，具体涉及基于大数据的高校招聘信息管理方法，包括：采集高校的招聘信息数据，将招聘信息数据转化为待编码序列，对待编码序列进行重排得到第一待编码序列，得到若干字符类别和第二待编码序列，根据每种字符类别的字符组合和每个字符组合在第二待编码序列中出现的频率，得到每个字符组合的压缩程度，根据每种字符类别中每个字符组合和单项数字符组合的压缩次数，得到每个字符组合的综合压缩效果，进而得到最终待编码序列并完成编码存储。本发明通过对待编码序列中不同字符类别的字符组合进行分析，分析每个字符组合的压缩程度和综合压缩效果，提高了对高校招聘信息数据对应的待编码序列的压缩效率。

Description

基于大数据的高校招聘信息管理方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于大数据的高校招聘信息管理方法。

背景技术

高校招聘行业正经历数字化转型，从传统的纸质招聘向数字招聘、在线招聘转变，这为高校提供了更多的招聘机会。利用社交媒体平台，高校能够更广泛地发布招聘信息，吸引更多的求职者；同时，一些平台也提供了直接在社交媒体上进行初步筛选的功能，高校使用人才管理系统来集中存储和管理招聘相关数据，包括求职者个人信息、面试进展等，针对这些招聘信息的存储，为保证信息的准确性，现有方法常利用无损压缩的方式进行压缩存储。

在通过霍夫曼编码对高校招聘信息进行编码压缩时，由于霍夫曼编码的特性是为了最大限度减小整体数据量，但是高校招聘信息中各种数据的字符种类过多，会提升数据的复杂程度，加深霍夫曼树的深度，使霍夫曼编码树对应部分数据的编码字长过于冗长，进而使得霍夫曼编码的压缩效率不高。

发明内容

为解决上述问题，本发明提供基于大数据的高校招聘信息管理方法。

本发明的基于大数据的高校招聘信息管理方法采用如下技术方案：

本发明一个实施例提供了基于大数据的高校招聘信息管理方法，该方法包括以下步骤：

采集高校的招聘信息数据，将招聘信息数据转化为待编码序列；

对待编码序列进行重排得到第一待编码序列；根据第一待编码序列中的字符，得到若干不同的字符类别和第二待编码序列，根据第二待编码序列，获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，得到每种字符类别中每个字符组合的压缩程度；

根据每种字符类别在第二待编码序列中字符组合的项数，得到每种字符类别中每个字符组合和单项数字符组合的压缩次数，根据第一待编码序列和每种字符类别的每个字符组合，得到第三待编码序列，根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列，得到每种字符类别中每个字符组合的综合压缩效果；

根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果，得到每种字符类别的最优字符组合，根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储。

进一步地，所述根据第一待编码序列中的字符，得到若干不同的字符类别和第二待编码序列，包括的具体步骤如下：

将第一待编码序列中每一位不同的字符作为一个字符类别，得到若干不同的字符类别，将第一待编码序列中同一种字符类别连续出现的若干字符作为一个字符组合，得到第二待编码序列。

进一步地，所述根据第二待编码序列，获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，包括的具体步骤如下：

在第二待编码序列中获取每种字符类别的若干字符组合，其中字符组合具体获取方法如下：将第二待编码序列中同一个字符连续出现的若干字符作为该同一个字符对应字符类别的一个字符组合；在第二待编码序列中获取每个字符组合出现的频率。

进一步地，所述根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，得到每种字符类别中每个字符组合的压缩程度，包括的具体步骤如下：

，

式中，为第i种字符类别的第j个字符组合的项数，其中第j个字符组合的项数具体为：第j个字符组合中单个字符的数量，第j个字符组合的项数大于1，/>为第i种字符类别的第j个字符组合在第二待编码序列中出现的频率，/>为第i种字符类别中第j个字符组合的压缩程度。

进一步地，所述根据每种字符类别在第二待编码序列中字符组合的项数，得到每种字符类别中每个字符组合和单项数字符组合的压缩次数，包括的具体步骤如下：

，

式中，为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率，/>为第i种字符类别中项数为g的字符组合的项数，/>为第i种字符类别中第j个字符组合的项数，其中第j个字符组合的项数大于1，/>为向下取整函数，/>为取余函数，/>为第i种字符类别在第二待编码序列中字符组合的最大项数，/>为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数，其中单项数字符组合为项数为1的字符组合。

进一步地，所述根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列，得到每种字符类别中每个字符组合的综合压缩效果，包括的具体步骤如下：

，

式中，为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数，其中第j个字符组合的项数大于1，/>为第i种字符类别中单项数字符组合在第三待编码序列中出现的频率，/>为第i种字符类别中单项数字符组合在第一待编码序列中出现的频率，/>为第i种字符类别中第j个字符组合在第三待编码序列中出现的频率，/>为取绝对值，/>为第i种字符类别中第j个字符组合的综合压缩效果。

进一步地，所述根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果，得到每种字符类别的最优字符组合，包括的具体步骤如下：

，

式中，为第i种字符类别中第j个字符组合的压缩程度，其中第j个字符组合的项数大于1，/>为第i种字符类别中第j个字符组合的综合压缩效果，/>为以自然常数为底的指数函数，/>为第i种字符类别中第j个字符组合的最终压缩效果；

获取第i种字符类别中每个字符组合的最终压缩效果，将最终压缩效果最大值对应的字符组合作为第i种字符类别的最优字符组合。

进一步地，所述根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储，包括的具体步骤如下：

对于第i种字符类别的最优字符组合，在第一待编码序列中每出现一个第i种字符类别的最优字符组合时，将每次出现的第i种字符类别的最优字符组合分别作为一个数据，得到最终待编码序列，将最终待编码序列利用霍夫曼编码进行压缩并存储。

进一步地，所述根据第一待编码序列和每种字符类别的每个字符组合，得到第三待编码序列，包括的具体步骤如下：

对于第i种字符类别的第j个字符组合，其中第j个字符组合的项数大于1，在第一待编码序列中每出现一个第j个字符组合时，将每次出现的第j个字符组合分别作为一个数据，得到第三待编码序列。

进一步地，所述对待编码序列进行重排得到第一待编码序列，包括的具体步骤如下：

利用BWT算法对待编码序列进行重排，得到第一待编码序列。

本发明的技术方案的有益效果是：本发明在采集到高校的招聘信息数据对应的待编码序列后，通过分析待编码序列中不同字符组合下字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度，得到每种字符类别中每个字符组合的压缩程度，由于不同字符组合对应不同的压缩程度，为获取每种字符类别中最优的字符组合，通过获取每种字符类别中每个字符组合和单项数字符组合的压缩次数和每种字符类别中每个字符组合的综合压缩效果，进而得到每种字符类别的最优字符组合，通过最优字符组合得到高校招聘信息数据的最终待编码序列，最后利用霍夫曼编码对最终待编码序列进行压缩并存储，提高了对高校招聘信息数据对应的待编码序列的压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于大数据的高校招聘信息管理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于大数据的高校招聘信息管理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于大数据的高校招聘信息管理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于大数据的高校招聘信息管理方法的步骤流程图，该方法包括以下步骤：

步骤S001、采集高校的招聘信息数据，将招聘信息数据转化为待编码序列。

需要说明的是，本实施例是基于大数据的高校招聘信息管理方法，在开始分析处理之前，首先需要采集数据并进行预处理。

具体的，通过招聘网站和社交媒体获取高校的招聘信息数据，招聘信息数据中包含但不仅限于以下信息：求职者的履历、技能、兴趣爱好以及岗位要求，利用GB2312编码将招聘信息数据编码为二进制数据，并将每k位二进制转化为十进制，得到一个十进制序列，记为待编码序列，其中k为预设的一个第一数值，本实施例以k=5进行叙述。

至此，得到待编码序列。

步骤S002、对待编码序列进行重排得到第一待编码序列。

需要说明的是，对待编码序列进行排列上的优化，可以提高数据重复程度。针对由十进制的字符组成的不同字符组合，通过分析不同字符组合下字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度，分析各类别的各字符组合作为基础组合对整个类别进行压缩的次数，结合两者，筛选出综合压缩效果最优的字符组合，最终提高对招聘信息数据的压缩效率。

需要说明的是，对待编码序列进行排列方式的优化，提高字符排列的连续重复性，进而更好地在后续过程中分析字符的连续重复组合对压缩效果的影响。

具体的，对待编码序列进行重排得到第一待编码序列，具体如下：

利用BWT算法对待编码序列进行重排，得到第一待编码序列。

需要说明的是，利用BWT算法对待编码序列进行重排，得到第一待编码序列，为该算法的现有方法，本实施例不再赘述；BWT算法的特点是，在对数据进行压缩时可以将其中相同的字符尽可能的排列在一起，提升相同字符的连续重复性，且对于数据中包含大量重复字符时效果显著，因此通过BWT算法去处理待编码序列，使得待编码序列中的字符连续重复性更高，便于后续操作处理。

至此，得到第一待编码序列。

步骤S003、根据第一待编码序列中的字符，得到若干不同的字符类别和第二待编码序列，根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，得到每种字符类别中每个字符组合的压缩程度，根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列，得到每种字符类别中每个字符组合的综合压缩效果。

需要说明的是，上述获得了第一待编码序列，由于步骤一中将每k位二进制转换为十进制数，则第一待编码序列中包含10种不同类别的字符，即0~9这10种类别的字符。在各个字符类别下的各种不同字符组合，针对每个字符类别中的每个字符组合，分析其字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度，以此分析每个字符类别中各字符组合与单项组合作为基础组合对该类别中所有组合进行压缩的次数，综合上述两者筛选出各类别中用于压缩该类别所有组合时，对应压缩次数少且频率高的最优组合，进而提高后续利用霍夫曼编码的整体压缩效果。

具体的，根据第一待编码序列中的字符，得到若干不同的字符类别和第二待编码序列，具体如下：

将第一待编码序列中每一位不同的字符作为一个字符类别，得到若干不同的字符类别，即0字符类别、1字符类别…，9字符类别，将第一待编码序列中同一种字符类别连续出现的若干字符作为一个字符组合，得到第二待编码序列。

需要说明的是，为便于理解，举例进行说明，例如{0,1,0,0,1,0,0,0}序列中，第3、4个0连续出现，第6，7，8个0连续出现，则将第2、3个0看作一个字符组合，得到00，将第6、7、8个0看作一个字符组合，得到000，则{0,1,0,0,1,0,0,0}在第二待编码序列中为{0,1,00,1,000}，其中0,00,000同属于0字符类别，且对应0字符类别的三种字符组合。

需要说明的是，针对第二待编码序列中每种字符类别的不同字符组合，统计第二待编码序列中每种字符类别的每个字符组合的项数、频率、种类，这三者影响着各字符类别对应数据的压缩率。例如0字符类别中{0，00，000}，字符组合的项数是指字符组合中由相同单个字符的数量，“0”的项数为1、“00”的项数为2，以此类推，所以在各个字符组合中当字符组合的项数越多，数据连续重复程度越高，若把连续相同的数据作为一项，那么会减少待压缩的数据量，压缩率自然也就越高；当字符组合的频率越高，说明该字符组合在第二待编码序列中的重复度越高，若将该字符组合作为一个编码对象，利用霍夫曼编码时，由于该字符组合的频率较大，使得该字符组合在霍夫曼树中对应的节点的编码长度就越短，压缩率也就越高；综合来看，分析各个字符类别下的最优字符组合，可以根据上述确定字符类别下各个字符组合对应的压缩程度，压缩率程越高，说明其为当前最优字符组合的可能越大。

具体的，根据第二待编码序列，获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，具体如下：

进一步地，根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，得到每种字符类别中每个字符组合的压缩程度，具体如下：

，

需要说明的是，公式整体通过对第二待编码序列中各个字符类别的各个连续重复的字符组合进行分析，确定各字符类别对应各字符组合的压缩程度，压缩程度越高说明当前字符类别的字符组合在进行霍夫曼编码时该字符组合的压缩效率越高，有助于提升压缩效率。

需要说明的是，上述得到了每种字符类别的每个字符组合的压缩程度，但对于整体数据而言并非是压缩程度越高就越好，由于不同字符组合对应不同的压缩程度，低项数的字符组合可以表示高项数的字符组合，例如四项数的字符组合可以通过一个单项数的字符组合和一个三项数的字符组合来表示；而高项数的字符组合却无法拆开去表示低项数的字符组合，剩余低项数的字符组合只能通过多个单项数的字符组合去表示，导致尽管高项数的字符组合的部分压缩效率高，而低项数的字符组合的部分压缩效率低，进而导致对整个数据的压缩效率低，因此，需要在各字符类别中筛选出最优的字符组合，以此来决定各类中整体压缩效率最优的字符组合。

具体的，根据每种字符类别在第二待编码序列中字符组合的项数，得到每种字符类别中每个字符组合和单项数字符组合的压缩次数，具体如下：

，

式中，为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率，/>为第i种字符类别中项数为g的字符组合的项数，当/>时，即为后续的单项数字符组合；/>为第i种字符类别中第j个字符组合的项数，其中第j个字符组合的项数大于1，/>为向下取整函数，/>为取余函数，/>为第i种字符类别在第二待编码序列中字符组合的最大项数，/>为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数，其中单项数字符组合为项数为1的字符组合。

需要说明的是，公式整体通过第i种字符类别中第j个字符组合与单项组合，两者共同作为基础组合来对第i种字符类别中各个字符组合进行压缩的次数；统计任意一种字符类别中项数为g的字符组合在第二待编码序列中出现的频率，而后获取该字符类别中任意一个字符组合对项数为g的字符组合进行压缩时需要的次数，即，又获取单项数字符组合对项数为g的字符组合进行压缩时需要的次数，即/>，最终得到该字符类别中该字符组合和单项数字符组合的压缩总次数，压缩次数越少，说明该字符类别中该字符组合与单项数字符组合的压缩效率越好。

进一步需要说明的是，之所以选择任意一个字符组合与单项数字符组合共同作为基础组合的原因是，即使待编码序列经过BWT算法进行重排，但是各种排列组合中仍然会出现单项数的字符组合，而且通过单项数字符组合和另外任何一个字符组合都可以表示当前字符类别中的其他字符组合。

具体的，根据第一待编码序列和每种字符类别的每个字符组合，得到第三待编码序列，具体如下：

需要说明的是，为便于理解，举例进行说明，例如第i种字符类别的第j个字符组合为00，第一待编码序列为{0,1,0,0,1,0,0,0}，第j个字符组合在第一待编码序列中出现了两次，则第三待编码序列为{0,1,00,1,00,0}。

需要说明的是，压缩次数少，意味着其对应频率低，因此根据其压缩次数与待编码序列前后频率的变化程度来确定综合压缩效果。

进一步地，根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列，得到每种字符类别中每个字符组合的综合压缩效果，具体如下：

，

需要说明的是，表示单项数字符组合在第三待编码序列和第一待编码序列中出现的频率差异，/>表示该频率差异在单项数字符组合在第一待编码序列中出现的频率的占比程度，占比程度越小，/>越大，说明在改进后通过第i种字符类别的第j个字符组合压缩后剩下的单项数字符组合的对应频率越小，那么在第三待编码序列中的单项数字符组合进行的就越少，也就是其他字符组合被完整压缩处理的程度大；/>是指两者频率差异在单项数字符组合在第一待编码序列中出现的频率的占比程度，该占比程度越小，说明第i种字符类别的第j个字符组合对应的编码长度与原始频率对应的编码长度差异越小，说明若以第j个字符组合作为一个编码对象进行霍夫曼编码，确保了该编码对象的编码程度较小的同时，减少了编码对象的个数，从而可提升整体压缩效率。

至此，得到每种字符类别中每个字符组合的综合压缩效果。

步骤S004、根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果，得到每种字符类别的最优字符组合，根据每种字符类别的最优字符组合得到最终待编码序列并将最终待编码序列进行压缩存储。

需要说明的是，上述获得各个字符类别中各个字符组合与单项数字符组合，两者共同作为基础组合来对字符类别中各个字符组合进行压缩的次数与综合压缩效果。同时，利用各字符类别中各字符组合对应的压缩程度，该压缩程度越大，压缩效果越好，两者共同结合，筛选各字符类别中对应的最优字符组合。

具体的，根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果，得到每种字符类别的最优字符组合，具体如下：

，

式中，为第i种字符类别中第j个字符组合的压缩程度，其中第j个字符组合的项数大于1，/>为第i种字符类别中第j个字符组合的综合压缩效果，/>为以自然常数为底的指数函数，本实施例采用/>模型来呈现反比例关系及归一化处理，U为模型的输入，实施者可根据具体实施情况设置反比例函数及归一化函数；/>为第i种字符类别中第j个字符组合的最终压缩效果。

进一步地，根据每种字符类别的最优字符组合得到最终待编码序列并将最终待编码序列进行压缩存储，具体如下：

对于第i种字符类别的最优字符组合，在第一待编码序列中每出现一个第i种字符类别的最优字符组合时，将每次出现的第i种字符类别的最优字符组合作为一个数据，得到最终待编码序列，将最终待编码序列利用霍夫曼编码进行压缩并存储；通过对高校招聘信息数据进行压缩并存储，完成大数据的高校招聘信息管理。

需要说明的是，为便于理解，举例进行说明，例如第i种字符类别的最优字符组合为000，第一待编码序列为{0,1,0,0,1,0,0,0}，最优字符组合在第一待编码序列中出现了一次，则最终待编码序列为{0,1,0,0,1,000}。

通过以上步骤，完成基于大数据的高校招聘信息管理方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的高校招聘信息管理方法，其特征在于，该方法包括以下步骤：

根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果，得到每种字符类别的最优字符组合，根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储；

所述根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列，得到每种字符类别中每个字符组合的综合压缩效果，包括的具体步骤如下：

，

式中，为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数，其中第j个字符组合的项数大于1，/>为第i种字符类别中单项数字符组合在第三待编码序列中出现的频率，/>为第i种字符类别中单项数字符组合在第一待编码序列中出现的频率，为第i种字符类别中第j个字符组合在第三待编码序列中出现的频率，/>为取绝对值，为第i种字符类别中第j个字符组合的综合压缩效果。

2.根据权利要求1所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据第一待编码序列中的字符，得到若干不同的字符类别和第二待编码序列，包括的具体步骤如下：

3.根据权利要求2所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据第二待编码序列，获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，包括的具体步骤如下：

4.根据权利要求1所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率，得到每种字符类别中每个字符组合的压缩程度，包括的具体步骤如下：

，

5.根据权利要求4所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据每种字符类别在第二待编码序列中字符组合的项数，得到每种字符类别中每个字符组合和单项数字符组合的压缩次数，包括的具体步骤如下：

，

式中，为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率，为第i种字符类别中项数为g的字符组合的项数，/>为第i种字符类别中第j个字符组合的项数，其中第j个字符组合的项数大于1，/>为向下取整函数，/>为取余函数，/>为第i种字符类别在第二待编码序列中字符组合的最大项数，/>为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数，其中单项数字符组合为项数为1的字符组合。

6.根据权利要求1所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果，得到每种字符类别的最优字符组合，包括的具体步骤如下：

，

7.根据权利要求1所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储，包括的具体步骤如下：

8.根据权利要求1所述基于大数据的高校招聘信息管理方法，其特征在于，所述根据第一待编码序列和每种字符类别的每个字符组合，得到第三待编码序列，包括的具体步骤如下：

9.根据权利要求1所述基于大数据的高校招聘信息管理方法，其特征在于，所述对待编码序列进行重排得到第一待编码序列，包括的具体步骤如下：

利用BWT算法对待编码序列进行重排，得到第一待编码序列。