CN117560016B - 基于大数据的高校招聘信息管理方法 - Google Patents
基于大数据的高校招聘信息管理方法 Download PDFInfo
- Publication number
- CN117560016B CN117560016B CN202410028103.2A CN202410028103A CN117560016B CN 117560016 B CN117560016 B CN 117560016B CN 202410028103 A CN202410028103 A CN 202410028103A CN 117560016 B CN117560016 B CN 117560016B
- Authority
- CN
- China
- Prior art keywords
- character
- sequence
- combination
- encoded
- character combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007115 recruitment Effects 0.000 title claims abstract description 49
- 238000007726 management method Methods 0.000 title claims abstract description 23
- 230000006835 compression Effects 0.000 claims abstract description 109
- 238000007906 compression Methods 0.000 claims abstract description 109
- 230000000694 effects Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 13
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及基于大数据的高校招聘信息管理方法,包括:采集高校的招聘信息数据,将招聘信息数据转化为待编码序列,对待编码序列进行重排得到第一待编码序列,得到若干字符类别和第二待编码序列,根据每种字符类别的字符组合和每个字符组合在第二待编码序列中出现的频率,得到每个字符组合的压缩程度,根据每种字符类别中每个字符组合和单项数字符组合的压缩次数,得到每个字符组合的综合压缩效果,进而得到最终待编码序列并完成编码存储。本发明通过对待编码序列中不同字符类别的字符组合进行分析,分析每个字符组合的压缩程度和综合压缩效果,提高了对高校招聘信息数据对应的待编码序列的压缩效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于大数据的高校招聘信息管理方法。
背景技术
高校招聘行业正经历数字化转型,从传统的纸质招聘向数字招聘、在线招聘转变,这为高校提供了更多的招聘机会。利用社交媒体平台,高校能够更广泛地发布招聘信息,吸引更多的求职者;同时,一些平台也提供了直接在社交媒体上进行初步筛选的功能,高校使用人才管理系统来集中存储和管理招聘相关数据,包括求职者个人信息、面试进展等,针对这些招聘信息的存储,为保证信息的准确性,现有方法常利用无损压缩的方式进行压缩存储。
在通过霍夫曼编码对高校招聘信息进行编码压缩时,由于霍夫曼编码的特性是为了最大限度减小整体数据量,但是高校招聘信息中各种数据的字符种类过多,会提升数据的复杂程度,加深霍夫曼树的深度,使霍夫曼编码树对应部分数据的编码字长过于冗长,进而使得霍夫曼编码的压缩效率不高。
发明内容
为解决上述问题,本发明提供基于大数据的高校招聘信息管理方法。
本发明的基于大数据的高校招聘信息管理方法采用如下技术方案:
本发明一个实施例提供了基于大数据的高校招聘信息管理方法,该方法包括以下步骤:
采集高校的招聘信息数据,将招聘信息数据转化为待编码序列;
对待编码序列进行重排得到第一待编码序列;根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度;
根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果;
根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储。
进一步地,所述根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,包括的具体步骤如下:
将第一待编码序列中每一位不同的字符作为一个字符类别,得到若干不同的字符类别,将第一待编码序列中同一种字符类别连续出现的若干字符作为一个字符组合,得到第二待编码序列。
进一步地,所述根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,包括的具体步骤如下:
在第二待编码序列中获取每种字符类别的若干字符组合,其中字符组合具体获取方法如下:将第二待编码序列中同一个字符连续出现的若干字符作为该同一个字符对应字符类别的一个字符组合;在第二待编码序列中获取每个字符组合出现的频率。
进一步地,所述根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度,包括的具体步骤如下:
,
式中,为第i种字符类别的第j个字符组合的项数,其中第j个字符组合的项数具体为:第j个字符组合中单个字符的数量,第j个字符组合的项数大于1,/>为第i种字符类别的第j个字符组合在第二待编码序列中出现的频率,/>为第i种字符类别中第j个字符组合的压缩程度。
进一步地,所述根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,包括的具体步骤如下:
,
式中,为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率,/>为第i种字符类别中项数为g的字符组合的项数,/>为第i种字符类别中第j个字符组合的项数,其中第j个字符组合的项数大于1,/>为向下取整函数,/>为取余函数,/>为第i种字符类别在第二待编码序列中字符组合的最大项数,/>为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中单项数字符组合为项数为1的字符组合。
进一步地,所述根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果,包括的具体步骤如下:
,
式中,为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中第j个字符组合的项数大于1,/>为第i种字符类别中单项数字符组合在第三待编码序列中出现的频率,/>为第i种字符类别中单项数字符组合在第一待编码序列中出现的频率,/>为第i种字符类别中第j个字符组合在第三待编码序列中出现的频率,/>为取绝对值,/>为第i种字符类别中第j个字符组合的综合压缩效果。
进一步地,所述根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,包括的具体步骤如下:
,
式中,为第i种字符类别中第j个字符组合的压缩程度,其中第j个字符组合的项数大于1,/>为第i种字符类别中第j个字符组合的综合压缩效果,/>为以自然常数为底的指数函数,/>为第i种字符类别中第j个字符组合的最终压缩效果;
获取第i种字符类别中每个字符组合的最终压缩效果,将最终压缩效果最大值对应的字符组合作为第i种字符类别的最优字符组合。
进一步地,所述根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储,包括的具体步骤如下:
对于第i种字符类别的最优字符组合,在第一待编码序列中每出现一个第i种字符类别的最优字符组合时,将每次出现的第i种字符类别的最优字符组合分别作为一个数据,得到最终待编码序列,将最终待编码序列利用霍夫曼编码进行压缩并存储。
进一步地,所述根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,包括的具体步骤如下:
对于第i种字符类别的第j个字符组合,其中第j个字符组合的项数大于1,在第一待编码序列中每出现一个第j个字符组合时,将每次出现的第j个字符组合分别作为一个数据,得到第三待编码序列。
进一步地,所述对待编码序列进行重排得到第一待编码序列,包括的具体步骤如下:
利用BWT算法对待编码序列进行重排,得到第一待编码序列。
本发明的技术方案的有益效果是:本发明在采集到高校的招聘信息数据对应的待编码序列后,通过分析待编码序列中不同字符组合下字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度,得到每种字符类别中每个字符组合的压缩程度,由于不同字符组合对应不同的压缩程度,为获取每种字符类别中最优的字符组合,通过获取每种字符类别中每个字符组合和单项数字符组合的压缩次数和每种字符类别中每个字符组合的综合压缩效果,进而得到每种字符类别的最优字符组合,通过最优字符组合得到高校招聘信息数据的最终待编码序列,最后利用霍夫曼编码对最终待编码序列进行压缩并存储,提高了对高校招聘信息数据对应的待编码序列的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于大数据的高校招聘信息管理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的高校招聘信息管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的高校招聘信息管理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据的高校招聘信息管理方法的步骤流程图,该方法包括以下步骤:
步骤S001、采集高校的招聘信息数据,将招聘信息数据转化为待编码序列。
需要说明的是,本实施例是基于大数据的高校招聘信息管理方法,在开始分析处理之前,首先需要采集数据并进行预处理。
具体的,通过招聘网站和社交媒体获取高校的招聘信息数据,招聘信息数据中包含但不仅限于以下信息:求职者的履历、技能、兴趣爱好以及岗位要求,利用GB2312编码将招聘信息数据编码为二进制数据,并将每k位二进制转化为十进制,得到一个十进制序列,记为待编码序列,其中k为预设的一个第一数值,本实施例以k=5进行叙述。
至此,得到待编码序列。
步骤S002、对待编码序列进行重排得到第一待编码序列。
需要说明的是,对待编码序列进行排列上的优化,可以提高数据重复程度。针对由十进制的字符组成的不同字符组合,通过分析不同字符组合下字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度,分析各类别的各字符组合作为基础组合对整个类别进行压缩的次数,结合两者,筛选出综合压缩效果最优的字符组合,最终提高对招聘信息数据的压缩效率。
需要说明的是,对待编码序列进行排列方式的优化,提高字符排列的连续重复性,进而更好地在后续过程中分析字符的连续重复组合对压缩效果的影响。
具体的,对待编码序列进行重排得到第一待编码序列,具体如下:
利用BWT算法对待编码序列进行重排,得到第一待编码序列。
需要说明的是,利用BWT算法对待编码序列进行重排,得到第一待编码序列,为该算法的现有方法,本实施例不再赘述;BWT算法的特点是,在对数据进行压缩时可以将其中相同的字符尽可能的排列在一起,提升相同字符的连续重复性,且对于数据中包含大量重复字符时效果显著,因此通过BWT算法去处理待编码序列,使得待编码序列中的字符连续重复性更高,便于后续操作处理。
至此,得到第一待编码序列。
步骤S003、根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度,根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果。
需要说明的是,上述获得了第一待编码序列,由于步骤一中将每k位二进制转换为十进制数,则第一待编码序列中包含10种不同类别的字符,即0~9这10种类别的字符。在各个字符类别下的各种不同字符组合,针对每个字符类别中的每个字符组合,分析其字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度,以此分析每个字符类别中各字符组合与单项组合作为基础组合对该类别中所有组合进行压缩的次数,综合上述两者筛选出各类别中用于压缩该类别所有组合时,对应压缩次数少且频率高的最优组合,进而提高后续利用霍夫曼编码的整体压缩效果。
具体的,根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,具体如下:
将第一待编码序列中每一位不同的字符作为一个字符类别,得到若干不同的字符类别,即0字符类别、1字符类别…,9字符类别,将第一待编码序列中同一种字符类别连续出现的若干字符作为一个字符组合,得到第二待编码序列。
需要说明的是,为便于理解,举例进行说明,例如{0,1,0,0,1,0,0,0}序列中,第3、4个0连续出现,第6,7,8个0连续出现,则将第2、3个0看作一个字符组合,得到00,将第6、7、8个0看作一个字符组合,得到000,则{0,1,0,0,1,0,0,0}在第二待编码序列中为{0,1,00,1,000},其中0,00,000同属于0字符类别,且对应0字符类别的三种字符组合。
需要说明的是,针对第二待编码序列中每种字符类别的不同字符组合,统计第二待编码序列中每种字符类别的每个字符组合的项数、频率、种类,这三者影响着各字符类别对应数据的压缩率。例如0字符类别中{0,00,000},字符组合的项数是指字符组合中由相同单个字符的数量,“0”的项数为1、“00”的项数为2,以此类推,所以在各个字符组合中当字符组合的项数越多,数据连续重复程度越高,若把连续相同的数据作为一项,那么会减少待压缩的数据量,压缩率自然也就越高;当字符组合的频率越高,说明该字符组合在第二待编码序列中的重复度越高,若将该字符组合作为一个编码对象,利用霍夫曼编码时,由于该字符组合的频率较大,使得该字符组合在霍夫曼树中对应的节点的编码长度就越短,压缩率也就越高;综合来看,分析各个字符类别下的最优字符组合,可以根据上述确定字符类别下各个字符组合对应的压缩程度,压缩率程越高,说明其为当前最优字符组合的可能越大。
具体的,根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,具体如下:
在第二待编码序列中获取每种字符类别的若干字符组合,其中字符组合具体获取方法如下:将第二待编码序列中同一个字符连续出现的若干字符作为该同一个字符对应字符类别的一个字符组合;在第二待编码序列中获取每个字符组合出现的频率。
进一步地,根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度,具体如下:
,
式中,为第i种字符类别的第j个字符组合的项数,其中第j个字符组合的项数具体为:第j个字符组合中单个字符的数量,第j个字符组合的项数大于1,/>为第i种字符类别的第j个字符组合在第二待编码序列中出现的频率,/>为第i种字符类别中第j个字符组合的压缩程度。
需要说明的是,公式整体通过对第二待编码序列中各个字符类别的各个连续重复的字符组合进行分析,确定各字符类别对应各字符组合的压缩程度,压缩程度越高说明当前字符类别的字符组合在进行霍夫曼编码时该字符组合的压缩效率越高,有助于提升压缩效率。
需要说明的是,上述得到了每种字符类别的每个字符组合的压缩程度,但对于整体数据而言并非是压缩程度越高就越好,由于不同字符组合对应不同的压缩程度,低项数的字符组合可以表示高项数的字符组合,例如四项数的字符组合可以通过一个单项数的字符组合和一个三项数的字符组合来表示;而高项数的字符组合却无法拆开去表示低项数的字符组合,剩余低项数的字符组合只能通过多个单项数的字符组合去表示,导致尽管高项数的字符组合的部分压缩效率高,而低项数的字符组合的部分压缩效率低,进而导致对整个数据的压缩效率低,因此,需要在各字符类别中筛选出最优的字符组合,以此来决定各类中整体压缩效率最优的字符组合。
具体的,根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,具体如下:
,
式中,为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率,/>为第i种字符类别中项数为g的字符组合的项数,当/>时,即为后续的单项数字符组合;/>为第i种字符类别中第j个字符组合的项数,其中第j个字符组合的项数大于1,/>为向下取整函数,/>为取余函数,/>为第i种字符类别在第二待编码序列中字符组合的最大项数,/>为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中单项数字符组合为项数为1的字符组合。
需要说明的是,公式整体通过第i种字符类别中第j个字符组合与单项组合,两者共同作为基础组合来对第i种字符类别中各个字符组合进行压缩的次数;统计任意一种字符类别中项数为g的字符组合在第二待编码序列中出现的频率,而后获取该字符类别中任意一个字符组合对项数为g的字符组合进行压缩时需要的次数,即,又获取单项数字符组合对项数为g的字符组合进行压缩时需要的次数,即/>,最终得到该字符类别中该字符组合和单项数字符组合的压缩总次数,压缩次数越少,说明该字符类别中该字符组合与单项数字符组合的压缩效率越好。
进一步需要说明的是,之所以选择任意一个字符组合与单项数字符组合共同作为基础组合的原因是,即使待编码序列经过BWT算法进行重排,但是各种排列组合中仍然会出现单项数的字符组合,而且通过单项数字符组合和另外任何一个字符组合都可以表示当前字符类别中的其他字符组合。
具体的,根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,具体如下:
对于第i种字符类别的第j个字符组合,其中第j个字符组合的项数大于1,在第一待编码序列中每出现一个第j个字符组合时,将每次出现的第j个字符组合分别作为一个数据,得到第三待编码序列。
需要说明的是,为便于理解,举例进行说明,例如第i种字符类别的第j个字符组合为00,第一待编码序列为{0,1,0,0,1,0,0,0},第j个字符组合在第一待编码序列中出现了两次,则第三待编码序列为{0,1,00,1,00,0}。
需要说明的是,压缩次数少,意味着其对应频率低,因此根据其压缩次数与待编码序列前后频率的变化程度来确定综合压缩效果。
进一步地,根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果,具体如下:
,
式中,为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中第j个字符组合的项数大于1,/>为第i种字符类别中单项数字符组合在第三待编码序列中出现的频率,/>为第i种字符类别中单项数字符组合在第一待编码序列中出现的频率,/>为第i种字符类别中第j个字符组合在第三待编码序列中出现的频率,/>为取绝对值,/>为第i种字符类别中第j个字符组合的综合压缩效果。
需要说明的是,表示单项数字符组合在第三待编码序列和第一待编码序列中出现的频率差异,/>表示该频率差异在单项数字符组合在第一待编码序列中出现的频率的占比程度,占比程度越小,/>越大,说明在改进后通过第i种字符类别的第j个字符组合压缩后剩下的单项数字符组合的对应频率越小,那么在第三待编码序列中的单项数字符组合进行的就越少,也就是其他字符组合被完整压缩处理的程度大;/>是指两者频率差异在单项数字符组合在第一待编码序列中出现的频率的占比程度,该占比程度越小,说明第i种字符类别的第j个字符组合对应的编码长度与原始频率对应的编码长度差异越小,说明若以第j个字符组合作为一个编码对象进行霍夫曼编码,确保了该编码对象的编码程度较小的同时,减少了编码对象的个数,从而可提升整体压缩效率。
至此,得到每种字符类别中每个字符组合的综合压缩效果。
步骤S004、根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,根据每种字符类别的最优字符组合得到最终待编码序列并将最终待编码序列进行压缩存储。
需要说明的是,上述获得各个字符类别中各个字符组合与单项数字符组合,两者共同作为基础组合来对字符类别中各个字符组合进行压缩的次数与综合压缩效果。同时,利用各字符类别中各字符组合对应的压缩程度,该压缩程度越大,压缩效果越好,两者共同结合,筛选各字符类别中对应的最优字符组合。
具体的,根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,具体如下:
,
式中,为第i种字符类别中第j个字符组合的压缩程度,其中第j个字符组合的项数大于1,/>为第i种字符类别中第j个字符组合的综合压缩效果,/>为以自然常数为底的指数函数,本实施例采用/>模型来呈现反比例关系及归一化处理,U为模型的输入,实施者可根据具体实施情况设置反比例函数及归一化函数;/>为第i种字符类别中第j个字符组合的最终压缩效果。
获取第i种字符类别中每个字符组合的最终压缩效果,将最终压缩效果最大值对应的字符组合作为第i种字符类别的最优字符组合。
进一步地,根据每种字符类别的最优字符组合得到最终待编码序列并将最终待编码序列进行压缩存储,具体如下:
对于第i种字符类别的最优字符组合,在第一待编码序列中每出现一个第i种字符类别的最优字符组合时,将每次出现的第i种字符类别的最优字符组合作为一个数据,得到最终待编码序列,将最终待编码序列利用霍夫曼编码进行压缩并存储;通过对高校招聘信息数据进行压缩并存储,完成大数据的高校招聘信息管理。
需要说明的是,为便于理解,举例进行说明,例如第i种字符类别的最优字符组合为000,第一待编码序列为{0,1,0,0,1,0,0,0},最优字符组合在第一待编码序列中出现了一次,则最终待编码序列为{0,1,0,0,1,000}。
通过以上步骤,完成基于大数据的高校招聘信息管理方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于大数据的高校招聘信息管理方法,其特征在于,该方法包括以下步骤:
采集高校的招聘信息数据,将招聘信息数据转化为待编码序列;
对待编码序列进行重排得到第一待编码序列;根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度;
根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果;
根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储;
所述根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果,包括的具体步骤如下:
,
式中,为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中第j个字符组合的项数大于1,/>为第i种字符类别中单项数字符组合在第三待编码序列中出现的频率,/>为第i种字符类别中单项数字符组合在第一待编码序列中出现的频率,为第i种字符类别中第j个字符组合在第三待编码序列中出现的频率,/>为取绝对值,为第i种字符类别中第j个字符组合的综合压缩效果。
2.根据权利要求1所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,包括的具体步骤如下:
将第一待编码序列中每一位不同的字符作为一个字符类别,得到若干不同的字符类别,将第一待编码序列中同一种字符类别连续出现的若干字符作为一个字符组合,得到第二待编码序列。
3.根据权利要求2所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,包括的具体步骤如下:
在第二待编码序列中获取每种字符类别的若干字符组合,其中字符组合具体获取方法如下:将第二待编码序列中同一个字符连续出现的若干字符作为该同一个字符对应字符类别的一个字符组合;在第二待编码序列中获取每个字符组合出现的频率。
4.根据权利要求1所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度,包括的具体步骤如下:
,
式中,为第i种字符类别的第j个字符组合的项数,其中第j个字符组合的项数具体为:第j个字符组合中单个字符的数量,第j个字符组合的项数大于1,/>为第i种字符类别的第j个字符组合在第二待编码序列中出现的频率,/>为第i种字符类别中第j个字符组合的压缩程度。
5.根据权利要求4所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,包括的具体步骤如下:
,
式中,为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率,为第i种字符类别中项数为g的字符组合的项数,/>为第i种字符类别中第j个字符组合的项数,其中第j个字符组合的项数大于1,/>为向下取整函数,/>为取余函数,/>为第i种字符类别在第二待编码序列中字符组合的最大项数,/>为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中单项数字符组合为项数为1的字符组合。
6.根据权利要求1所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,包括的具体步骤如下:
,
式中,为第i种字符类别中第j个字符组合的压缩程度,其中第j个字符组合的项数大于1,/>为第i种字符类别中第j个字符组合的综合压缩效果,/>为以自然常数为底的指数函数,/>为第i种字符类别中第j个字符组合的最终压缩效果;
获取第i种字符类别中每个字符组合的最终压缩效果,将最终压缩效果最大值对应的字符组合作为第i种字符类别的最优字符组合。
7.根据权利要求1所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储,包括的具体步骤如下:
对于第i种字符类别的最优字符组合,在第一待编码序列中每出现一个第i种字符类别的最优字符组合时,将每次出现的第i种字符类别的最优字符组合分别作为一个数据,得到最终待编码序列,将最终待编码序列利用霍夫曼编码进行压缩并存储。
8.根据权利要求1所述基于大数据的高校招聘信息管理方法,其特征在于,所述根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,包括的具体步骤如下:
对于第i种字符类别的第j个字符组合,其中第j个字符组合的项数大于1,在第一待编码序列中每出现一个第j个字符组合时,将每次出现的第j个字符组合分别作为一个数据,得到第三待编码序列。
9.根据权利要求1所述基于大数据的高校招聘信息管理方法,其特征在于,所述对待编码序列进行重排得到第一待编码序列,包括的具体步骤如下:
利用BWT算法对待编码序列进行重排,得到第一待编码序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028103.2A CN117560016B (zh) | 2024-01-09 | 2024-01-09 | 基于大数据的高校招聘信息管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028103.2A CN117560016B (zh) | 2024-01-09 | 2024-01-09 | 基于大数据的高校招聘信息管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117560016A CN117560016A (zh) | 2024-02-13 |
CN117560016B true CN117560016B (zh) | 2024-03-19 |
Family
ID=89820794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410028103.2A Active CN117560016B (zh) | 2024-01-09 | 2024-01-09 | 基于大数据的高校招聘信息管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117560016B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6075470A (en) * | 1998-02-26 | 2000-06-13 | Research In Motion Limited | Block-wise adaptive statistical data compressor |
US6128412A (en) * | 1996-09-02 | 2000-10-03 | Fujitsu Limited | Statistical data compression/decompression method |
CN116934487A (zh) * | 2023-09-18 | 2023-10-24 | 青岛场外市场清算中心有限公司 | 一种金融清算数据优化存储方法及系统 |
CN117254820A (zh) * | 2023-09-27 | 2023-12-19 | 杭州菲数科技有限公司 | 数据压缩方法、装置、设备及存储介质 |
-
2024
- 2024-01-09 CN CN202410028103.2A patent/CN117560016B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128412A (en) * | 1996-09-02 | 2000-10-03 | Fujitsu Limited | Statistical data compression/decompression method |
US6075470A (en) * | 1998-02-26 | 2000-06-13 | Research In Motion Limited | Block-wise adaptive statistical data compressor |
CN116934487A (zh) * | 2023-09-18 | 2023-10-24 | 青岛场外市场清算中心有限公司 | 一种金融清算数据优化存储方法及系统 |
CN117254820A (zh) * | 2023-09-27 | 2023-12-19 | 杭州菲数科技有限公司 | 数据压缩方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
多重压缩DNA序列数据;张丽霞 等;计算机应用;20100501;第30卷(第5期);第1379-1382页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117560016A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116192971B (zh) | 智能云能源运维服务平台数据管理方法 | |
CN116303374B (zh) | 基于sql数据库的多维度报表数据优化压缩方法 | |
CN116681036B (zh) | 基于数字孪生的工业数据存储方法 | |
CN103067022A (zh) | 一种整型数据无损压缩方法、解压缩方法及装置 | |
CN116016606B (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
CN103995887A (zh) | 位图索引压缩方法和位图索引解压方法 | |
CN116610265B (zh) | 一种商务信息咨询系统的数据存储方法 | |
CN115361027A (zh) | 一种污水处理效果识别方法 | |
CN116541828B (zh) | 一种服务信息数据的智能管理方法 | |
CN116521093A (zh) | 一种智慧社区人脸数据存储方法及系统 | |
CN115543946A (zh) | 一种金融大数据优化存储方法 | |
CN113343640B (zh) | 一种海关报关商品hs编码分类方法及装置 | |
CN116318174A (zh) | 一种污水处理厂的垃圾运输管理系统的数据管理方法 | |
CN116861271B (zh) | 基于大数据的数据分析处理方法 | |
CN102904580A (zh) | X-bit压缩编码算法 | |
CN117560016B (zh) | 基于大数据的高校招聘信息管理方法 | |
CN100568284C (zh) | 计算机图形数据编码装置、解码装置、编码和解码方法 | |
CN116743182B (zh) | 一种数据无损压缩方法 | |
CN116318172A (zh) | 一种设计仿真软件数据自适应压缩方法 | |
CN116109714A (zh) | 基于神经网络的数据编码存储方法及系统 | |
CN109698703B (zh) | 基因测序数据解压方法、系统及计算机可读介质 | |
CN116208772A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
Yang et al. | Word Data Research and Prediction Based on Wordle Game [J] | |
CN115567058A (zh) | 一种结合预测与编码的时序数据有损压缩方法 | |
CN115695564A (zh) | 一种物联网数据的高效传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |