CN107885725A - 一种处理招聘数据的方法及装置 - Google Patents
一种处理招聘数据的方法及装置 Download PDFInfo
- Publication number
- CN107885725A CN107885725A CN201711078984.5A CN201711078984A CN107885725A CN 107885725 A CN107885725 A CN 107885725A CN 201711078984 A CN201711078984 A CN 201711078984A CN 107885725 A CN107885725 A CN 107885725A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- recruitment data
- mrow
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种处理招聘数据的方法及装置,该方法包括:基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;针对该至少一个第一关键词进行词库训练,以获得至少一个第二关键词;针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;根据确定出的每一个第三关键词,计算各第二关键词的权重。首先基于部分招聘数据以训练出若干关键词,然后基于海量招聘数据以计算训练出的各关键词的权重,这一计算结果可以反映企业技术需求。可以看出,本方案可以处理海量的招聘数据,故能够提高数据处理效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种处理招聘数据的方法及装置。
背景技术
随着现代社会的不断发展,就业人群的规模逐渐壮大,网络招聘已成为职员求职的首选方式。比如,可以通过公司专用网站、第三方招聘网站等机构,发布各公司的网络招聘信息。通常情况下,各公司的招聘信息可以反映其企业技术需求。
目前,为了解企业技术需求,专业工作人员可以人为查看该公司发布的网络招聘信息,以进行分析处理。
但是,当公司数量、网络招聘信息数量较多时,现有实现方式的数据处理效率较低。
发明内容
本发明提供了一种处理招聘数据的方法及装置,能够提高数据处理效率。
为了达到上述目的,本发明是通过如下技术方案实现的:
一方面,本发明提供了一种处理招聘数据的方法,基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;针对所述至少一个第一关键词进行词库训练,以获得至少一个第二关键词;还包括:
针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;
根据确定出的每一个所述第三关键词,计算每一个所述第二关键词的权重。
进一步地,所述计算每一个所述第二关键词的权重,包括:利用公式一,计算每一个所述第二关键词的权重;
所述公式一包括:
其中,Wi为所述至少一个第二关键词中的第i个第二关键词的权重,n为所述至少一个第二招聘数据的个数,Pij为所述第i个第二关键词在所述至少一个第二招聘数据中的第j个第二招聘数据中的出现概率。
进一步地,在所述确定当前第二招聘数据包括的至少一个第三关键词之后,进一步包括:利用公式二,计算所述至少一个第三关键词中的每一个第三关键词在所述当前第二招聘数据中的出现概率;
所述公式二包括:
其中,Pi为所述至少一个第三关键词中的第i个第三关键词在所述当前第二招聘数据中的出现概率,fi为所述第i个第三关键词在所述当前第二招聘数据中的出现次数,m为所述至少一个第三关键词的个数。
进一步地,在所述确定当前第二招聘数据包括的至少一个第三关键词之后,进一步包括:判断所述至少一个第三关键词中是否存在目标第三关键词,若是,将所述目标第三关键词加入预设的备用关键词列表中;
其中,所述至少一个第二关键词不包括所述目标第三关键词,所述至少一个第二关键词中存在一目标第二关键词,所述至少一个第三关键词包括所述目标第二关键词,且所述目标第二关键词在所述当前第二招聘数据中的出现次数不大于所述目标第三关键词在所述当前第二招聘数据中的出现次数。
进一步地,该方法还包括:创建必需关键词列表,其中,所述必需关键词列表中包括所述至少一个第二关键词,所述必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列;
在所述将所述目标第三关键词加入预设的备用关键词列表中之后,进一步包括:计算所述目标第三关键词的权重;判断所述目标第三关键词的权重是否不小于所述必需关键词列表中末位排序的关键词的权重,若是,将所述目标第三关键词从所述备用关键词列表转移至所述必需关键词列表中。
另一方面,本发明提供了一种处理招聘数据的装置,包括:
第一获取单元,用于基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;
第二获取单元,用于针对所述至少一个第一关键词进行词库训练,以获得至少一个第二关键词;
处理单元,用于针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;
计算单元,用于根据确定出的每一个所述第三关键词,计算每一个所述第二关键词的权重。
进一步地,所述计算单元,具体用于利用公式一,计算每一个所述第二关键词的权重;
所述公式一包括:
其中,Wi为所述至少一个第二关键词中的第i个第二关键词的权重,n为所述至少一个第二招聘数据的个数,Pij为所述第i个第二关键词在所述至少一个第二招聘数据中的第j个第二招聘数据中的出现概率。
进一步地,所述处理单元,还用于利用公式二,计算所述至少一个第三关键词中的每一个第三关键词在所述当前第二招聘数据中的出现概率;
所述公式二包括:
其中,Pi为所述至少一个第三关键词中的第i个第三关键词在所述当前第二招聘数据中的出现概率,fi为所述第i个第三关键词在所述当前第二招聘数据中的出现次数,m为所述至少一个第三关键词的个数。
进一步地,所述处理单元,还用于判断所述至少一个第三关键词中是否存在目标第三关键词,若是,将所述目标第三关键词加入预设的备用关键词列表中;
其中,所述至少一个第二关键词不包括所述目标第三关键词,所述至少一个第二关键词中存在一目标第二关键词,所述至少一个第三关键词包括所述目标第二关键词,且所述目标第二关键词在所述当前第二招聘数据中的出现次数不大于所述目标第三关键词在所述当前第二招聘数据中的出现次数。
进一步地,该处理招聘数据的装置还包括:维护单元,用于创建必需关键词列表,其中,所述必需关键词列表中包括所述至少一个第二关键词,所述必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列;计算所述目标第三关键词的权重;判断所述目标第三关键词的权重是否不小于所述必需关键词列表中末位排序的关键词的权重,若是,将所述目标第三关键词从所述备用关键词列表转移至所述必需关键词列表中。
本发明提供了一种处理招聘数据的方法及装置,该方法包括:基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;针对该至少一个第一关键词进行词库训练,以获得至少一个第二关键词;针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;根据确定出的每一个第三关键词,计算各第二关键词的权重。首先基于部分招聘数据以训练出若干关键词,然后基于海量招聘数据以计算训练出的各关键词的权重,这一计算结果可以反映企业技术需求。可以看出,本发明可以处理海量的招聘数据,故能够提高数据处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种处理招聘数据的方法的流程图;
图2是本发明一实施例提供的另一种处理招聘数据的方法的流程图;
图3是本发明一实施例提供的一种处理招聘数据的装置的示意图;
图4是本发明一实施例提供的另一种处理招聘数据的装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种处理招聘数据的方法,可以包括以下步骤:
步骤101:基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词。
步骤102:针对所述至少一个第一关键词进行词库训练,以获得至少一个第二关键词。
步骤103:针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词。
步骤104:根据确定出的每一个所述第三关键词,计算每一个所述第二关键词的权重。
本发明实施例提供了一种处理招聘数据的方法,基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;针对该至少一个第一关键词进行词库训练,以获得至少一个第二关键词;针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;根据确定出的每一个第三关键词,计算各第二关键词的权重。首先基于部分招聘数据以训练出若干关键词,然后基于海量招聘数据以计算训练出的各关键词的权重,这一计算结果可以反映企业技术需求。可以看出,本发明实施例可以处理海量的招聘数据,故能够提高数据处理效率。
详细地,对于网络上各公司发布的网络招聘信息,可以利用部分网络招聘信息来训练关键词词库,基于该关键词词库对其他海量网络招聘信息进行处理。
通常情况下,各公司发布的网络招聘信息可以为至少一条招聘数据,且每一条招聘数据均包括公司信息、岗位信息、岗位要求信息这三类信息。
比如,对于任一条招聘信息,其公司信息可以包括:发布该条招聘数据的公司的公司名称、所属技术领域、所属上级信息等;其岗位信息可以包括:该条招聘数据对应的岗位名称、岗位组织构架等;其岗位要求信息可以包括:工作介绍、学历专业、技术技能、经验要求、个人素质等。
基于上述内容,为方便招聘数据的区分,用于词库训练的招聘数据可以为上述第一招聘数据,被处理的招聘数据可以为上述第二招聘数据。
在本发明的一个实施例中,可以利用网络爬虫,从公司网站、第三方招聘网站等网页上抓取所需的所有招聘数据。
详细地,对于抓取到的所有招聘数据,其中通常包含较多的无效数据。比如,岗位要求信息里可以包括“积极乐观”、“具有团队合作精神”等个人素质要求,而对于反映企业技术需求来说,这些关键词通常无用。
因此,在本发明的一个实施例中,工作人员可以预设若干无效关键词,并基于此对抓取到的所有招聘数据进行数据清洗预处理,以筛除掉各招聘数据中包括的所有无效关键词。通过数据预处理,可以降低数据分析任务量,提高数据处理效率。
因此,在本发明的一个实施例中,上述第一招聘数据即可以为经数据预处理后的招聘数据。
详细地,对于用于训练的招聘数据,为提高数据处理的准确性,用于训练的全部招聘数据通常涉及各行各业,并且可以由工作人员人工执行分词标注。比如,工作人员可以依次查看各条第一招聘数据,通过输入分词标注信息以进行人工标注关键词。经人工标注,可以获得上述至少一个第二关键词。
举例来说,对于一条第一招聘数据,其包括“能够熟练使用Java语言”这一信息,故工作人员可以对“Java语言”这一关键词高亮标黄,如此,系统即可确定“Java语言”这一关键词为第一关键词。
通常情况下,对于词库训练用的上述至少一个第一招聘数据,同一关键词的出现次数各有不同。其中,出现次数越高,其重要性和代表性越突出。如此,可以对获得的全部第一关键词进行词库训练,以获得上述至少一个第二关键词。显然,获得的至少一个第二关键词可以为获得的至少一个第一关键的部分或全部。
在本发明的一个实施例中,可以使用snownlp词库训练功能进行词库训练,这一词库训练方式可以提升后续分词及关键词的提取准确性。
在本发明的一个实施例中,可以统计各第一关键词在上述至少一个第一招聘数据的累计出现次数,累计出现次数较高的第一关键词可以确定为第二关键词。
基于上述内容可知,对于用于训练的招聘数据,经人工标注,可以保证训练出的关键词词库的准确性和代表性,故在本发明的一个实施例中,对于待处理的海量招聘数据,可以利用分词标注工具以自动分词,从而可以保证数据处理速度,提高数据处理效率。经自动分词,可以确定各第二招聘数据包括的关键词,即上述第三关键词。
然后,基于确定出的各第三关键词,可以计算各第二关键词的权重。
在本发明的一个实施例中,所述计算每一个所述第二关键词的权重,包括:利用下述公式(1),计算每一个所述第二关键词的权重;
其中,Wi为所述至少一个第二关键词中的第i个第二关键词的权重,n为所述至少一个第二招聘数据的个数,Pij为所述第i个第二关键词在所述至少一个第二招聘数据中的第j个第二招聘数据中的出现概率。
详细地,对于任一关键词,其在某一招聘数据中的出现次数越多,相应的出现概率越大。
基于此,在本发明的一个实施例中,在所述确定当前第二招聘数据包括的至少一个第三关键词之后,进一步包括:利用下述公式(2),计算所述至少一个第三关键词中的每一个第三关键词在所述当前第二招聘数据中的出现概率;
其中,Pi为所述至少一个第三关键词中的第i个第三关键词在所述当前第二招聘数据中的出现概率,fi为所述第i个第三关键词在所述当前第二招聘数据中的出现次数,m为所述至少一个第三关键词的个数。
举例来说,当前第二招聘数据为招聘数据X,经自动分词,可以确定招聘数据X包括3个关键词,分别为“Java语言”、“机器学习技术”、“Linux”,且各关键词的在招聘数据X中的出现次数分别为5次、3次、2次。
如此,经计算,关键词“Java语言”在招聘数据X中的出现概率为0.5,关键词“机器学习技术”在招聘数据X中的出现概率为0.3,关键词“Linux”在招聘数据X中的出现概率为0.2。
假设关键词词库中包括第二关键词分别为:“Java语言”、“机器学习技术”、“电路板”等。在计算各第二关键词的权重时,需要用到其在各第二招聘数据中的出现概率。
由上可知,对于上述招聘数据X来说,经自动分词,招聘数据X包括3个关键词中存在“Java语言”这一第二关键词,故“Java语言”在招聘数据X中的出现概率为0.5;招聘数据X包括3个关键词中存在“机器学习技术”这一第二关键词,故“机器学习技术”在招聘数据X中的出现概率为0.3;招聘数据X包括3个关键词中存在“电路板”这一第二关键词,故“电路板”在招聘数据X中的出现概率为0。
假设经计算,“Java语言”、“机器学习技术”、“电路板”三者的权重依次降低,故可以认为当前社会对“Java语言”的企业技术需求呼声最高,“机器学习技术”次之,“电路板”相对略低。
在本发明的一个实施例中,经人工分词标注或自动分词标注,对于任一公司,该公司发布的各招聘数据包括的关键词已知,如此,可以根据计算出来的各第二关键词的权重,以了解该公司的企业技术需求。
对应地,由于各公司发布的各招聘数据包括的关键词已知,故对于任一第二关键词,可以确定对该第二关键词存在需求的所有公司。以及根据各公司所属的技术领域等,还可以进一步确定对该第二关键词存在需求的所有技术领域。
随着科技的不断进步,为保证训练出的关键词词库的准确性,除了词库中关键词可以反映企业技术需求外,新产生的、不存在于词库中的关键词,也可以用于反映企业技术需求。
在本发明的一个实施例中,为了说明一种获取新关键词的可能实现方式,所以,在所述确定当前第二招聘数据包括的至少一个第三关键词之后,进一步包括:判断所述至少一个第三关键词中是否存在目标第三关键词,若是,将所述目标第三关键词加入预设的备用关键词列表中;
其中,所述至少一个第二关键词不包括所述目标第三关键词,所述至少一个第二关键词中存在一目标第二关键词,所述至少一个第三关键词包括所述目标第二关键词,且所述目标第二关键词在所述当前第二招聘数据中的出现次数不大于所述目标第三关键词在所述当前第二招聘数据中的出现次数。
距离来说,关键词词库中包括第二关键词分别为:“Java语言”、“机器学习技术”、“电路板”等。招聘数据Y包括3个关键词,分别为“Java语言”、“机器学习技术”、“Linux”,且各关键词的在招聘数据X中的出现概率分别为0.1、0.5、0.4。
由于“Linux”不存在于关键词词库中,但这一关键词在招聘数据X中的出现概率0.4大于关键词词库中关键词“Java语言”在招聘数据X中的出现概率0.1,故可以认为“Linux”这一第三关键词为新关键词,可以用于反映企业技术需求。
如此,在分析企业技术需求时,不仅可以参照关键词词库中各关键词的权重,还可以以备用关键词列表中各关键词的权重以依据。
基于上述内容,在本发明的一个实施例中,该方法可以进一步包括:创建必需关键词列表,其中,所述必需关键词列表中包括所述至少一个第二关键词,所述必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列;
在所述将所述目标第三关键词加入预设的备用关键词列表中之后,进一步包括:计算所述目标第三关键词的权重;判断所述目标第三关键词的权重是否不小于所述必需关键词列表中末位排序的关键词的权重,若是,将所述目标第三关键词从所述备用关键词列表转移至所述必需关键词列表中。
详细地,对于备用关键词列表中各关键词,可以计算其各自权重。
在本发明一个实施例中,备用关键词列表中的各关键词,同样可以按照权重从大至小的排列顺序依次排列。如此,可以首先针对备用关键词列表中排在首位的关键词进行判断,若其权重不小于必需关键词列表中排在末位的关键词的权重,则可以将该关键词从备用关键词列表中移除,并添加至必需关键词列表中。如此,可以实现必需关键词列表的不断更新,以提高企业技术需求的判断准确性。
在本发明一个实施例中,将该关键词转移至必需关键词列表中后,必需关键词列表中各关键词的排序,可以根据各关键词的权重大小而发生变动。
然后,可以再次对备用关键词列表中排在首位的关键词进行判断,如此循环,直至无需执行关键词在各列表间的转移。
当然,在本发明另一实施例中,也可以将该关键词从备用关键词列表中移除,并添加至另一关键词列表中。
此外,在本发明另一实施例中,在判断备用关键词列表中各关键词是否需要转移时,也可以不与必需关键词列表中的末位关键词进行对比,比如,可以判断备用关键词列表中各关键词的权重是否不小于一预设阈值,若是,则执行转移。
综上所述,可以利用文本挖掘技术以针对网络招聘文本数据,进行文本分类及处理,并建立模型算法以预测判断企业技术需求,从而可以在时效性和覆盖范围等多个维度实现企业技术需求的了解和掌握,为政府决策和企业情报研究提供研究便利。
如图2所示,本发明一个实施例提供了另一种处理招聘数据的方法,具体包括以下步骤:
步骤201:基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词。
步骤202:针对至少一个第一关键词进行词库训练,以获得至少一个第二关键词。
步骤203:创建必需关键词列表,其中,必需关键词列表中包括获得的至少一个第二关键词,必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列。
步骤204:针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词。
步骤205:判断至少一个第三关键词中是否存在目标第三关键词,若是,将目标第三关键词加入预设的备用关键词列表中,并执行步骤206,否则,执行步骤206。
详细地,该目标第三关键词的判断标准可以为:至少一个第二关键词不包括目标第三关键词,至少一个第二关键词中存在一目标第二关键词,至少一个第三关键词包括目标第二关键词,且目标第二关键词在当前第二招聘数据中的出现次数不大于目标第三关键词在当前第二招聘数据中的出现次数。
步骤206:计算每一个第三关键词在当前第二招聘数据中的出现概率。
详细地,可以利用上述公式(2),计算每一个第三关键词在当前第二招聘数据中的出现概率。
如此,各第二招聘数据均可以确定出若干第三关键词,故对于确定出的各第三关键词,可以计算出各第三关键词在其所属的第二招聘数据中的出现概率。
步骤207:根据确定出的每一个第三关键词及其出现概率,计算必需关键词列表中每一个第二关键词的权重。
详细地,可以利用上述公式(1),计算每一个第二关键词的权重。
步骤208:针对备用关键词列表中的每一个目标第三关键词均执行:计算该目标第三关键词的权重。
步骤209:判断该目标第三关键词的权重是否不小于必需关键词列表中末位排序的关键词的权重,若是,将目标第三关键词从备用关键词列表转移至必需关键词列表中,否则,结束当前流程。
如图3所示,本发明一个实施例提供了一种处理招聘数据的装置,包括:
第一获取单元301,用于基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;
第二获取单元302,用于针对所述至少一个第一关键词进行词库训练,以获得至少一个第二关键词;
处理单元303,用于针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;
计算单元304,用于根据确定出的每一个所述第三关键词,计算每一个所述第二关键词的权重。
在本发明一个实施例中,所述计算单元304,具体用于利用上述公式(1),计算每一个所述第二关键词的权重。
在本发明一个实施例中,所述处理单元303,还用于利用上述公式(2),计算所述至少一个第三关键词中的每一个第三关键词在所述当前第二招聘数据中的出现概率。
在本发明一个实施例中,所述处理单元303,还用于判断所述至少一个第三关键词中是否存在目标第三关键词,若是,将所述目标第三关键词加入预设的备用关键词列表中;
其中,所述至少一个第二关键词不包括所述目标第三关键词,所述至少一个第二关键词中存在一目标第二关键词,所述至少一个第三关键词包括所述目标第二关键词,且所述目标第二关键词在所述当前第二招聘数据中的出现次数不大于所述目标第三关键词在所述当前第二招聘数据中的出现次数。
在本发明一个实施例中,请参考图4,该处理招聘数据的装置还可以包括:维护单元401,用于创建必需关键词列表,其中,所述必需关键词列表中包括所述至少一个第二关键词,所述必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列;计算所述目标第三关键词的权重;判断所述目标第三关键词的权重是否不小于所述必需关键词列表中末位排序的关键词的权重,若是,将所述目标第三关键词从所述备用关键词列表转移至所述必需关键词列表中。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明的各个实施例至少具有如下有益效果:
1、本发明实施例中,基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;针对该至少一个第一关键词进行词库训练,以获得至少一个第二关键词;针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;根据确定出的每一个第三关键词,计算各第二关键词的权重。首先基于部分招聘数据以训练出若干关键词,然后基于海量招聘数据以计算训练出的各关键词的权重,这一计算结果可以反映企业技术需求。可以看出,本发明实施例可以处理海量的招聘数据,故能够提高数据处理效率。
2、本发明实施例中,可以利用文本挖掘技术以针对网络招聘文本数据,进行文本分类及处理,并建立模型算法以预测判断企业技术需求,从而可以在时效性和覆盖范围等多个维度实现企业技术需求的了解和掌握,为政府决策和企业情报研究提供研究便利。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种处理招聘数据的方法,其特征在于,基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;针对所述至少一个第一关键词进行词库训练,以获得至少一个第二关键词;还包括:
针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;
根据确定出的每一个所述第三关键词,计算每一个所述第二关键词的权重。
2.根据权利要求1所述的方法,其特征在于,
所述计算每一个所述第二关键词的权重,包括:利用公式一,计算每一个所述第二关键词的权重;
所述公式一包括:
<mrow>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>P</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<mi>n</mi>
</mfrac>
</mrow>
其中,Wi为所述至少一个第二关键词中的第i个第二关键词的权重,n为所述至少一个第二招聘数据的个数,Pij为所述第i个第二关键词在所述至少一个第二招聘数据中的第j个第二招聘数据中的出现概率。
3.根据权利要求2所述的方法,其特征在于,
在所述确定当前第二招聘数据包括的至少一个第三关键词之后,进一步包括:利用公式二,计算所述至少一个第三关键词中的每一个第三关键词在所述当前第二招聘数据中的出现概率;
所述公式二包括:
<mrow>
<msub>
<mi>P</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
</mrow>
其中,Pi为所述至少一个第三关键词中的第i个第三关键词在所述当前第二招聘数据中的出现概率,fi为所述第i个第三关键词在所述当前第二招聘数据中的出现次数,m为所述至少一个第三关键词的个数。
4.根据权利要求1至3中任一所述的方法,其特征在于,
在所述确定当前第二招聘数据包括的至少一个第三关键词之后,进一步包括:判断所述至少一个第三关键词中是否存在目标第三关键词,若是,将所述目标第三关键词加入预设的备用关键词列表中;
其中,所述至少一个第二关键词不包括所述目标第三关键词,所述至少一个第二关键词中存在一目标第二关键词,所述至少一个第三关键词包括所述目标第二关键词,且所述目标第二关键词在所述当前第二招聘数据中的出现次数不大于所述目标第三关键词在所述当前第二招聘数据中的出现次数。
5.根据权利要求4所述的方法,其特征在于,
进一步包括:创建必需关键词列表,其中,所述必需关键词列表中包括所述至少一个第二关键词,所述必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列;
在所述将所述目标第三关键词加入预设的备用关键词列表中之后,进一步包括:计算所述目标第三关键词的权重;判断所述目标第三关键词的权重是否不小于所述必需关键词列表中末位排序的关键词的权重,若是,将所述目标第三关键词从所述备用关键词列表转移至所述必需关键词列表中。
6.一种处理招聘数据的装置,其特征在于,包括:
第一获取单元,用于基于预先确定好的至少一个第一招聘数据,根据外部输入的分词标注信息,获得至少一个第一关键词;
第二获取单元,用于针对所述至少一个第一关键词进行词库训练,以获得至少一个第二关键词;
处理单元,用于针对预先确定好的至少一个第二招聘数据中的每一个第二招聘数据均执行:利用分词标注工具,确定当前第二招聘数据包括的至少一个第三关键词;
计算单元,用于根据确定出的每一个所述第三关键词,计算每一个所述第二关键词的权重。
7.根据权利要求6所述的处理招聘数据的装置,其特征在于,
所述计算单元,具体用于利用公式一,计算每一个所述第二关键词的权重;
所述公式一包括:
<mrow>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>P</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<mi>n</mi>
</mfrac>
</mrow>
其中,Wi为所述至少一个第二关键词中的第i个第二关键词的权重,n为所述至少一个第二招聘数据的个数,Pij为所述第i个第二关键词在所述至少一个第二招聘数据中的第j个第二招聘数据中的出现概率。
8.根据权利要求7所述的处理招聘数据的装置,其特征在于,
所述处理单元,还用于利用公式二,计算所述至少一个第三关键词中的每一个第三关键词在所述当前第二招聘数据中的出现概率;
所述公式二包括:
<mrow>
<msub>
<mi>P</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
</mrow>
其中,Pi为所述至少一个第三关键词中的第i个第三关键词在所述当前第二招聘数据中的出现概率,fi为所述第i个第三关键词在所述当前第二招聘数据中的出现次数,m为所述至少一个第三关键词的个数。
9.根据权利要求6至8中任一所述的处理招聘数据的装置,其特征在于,
所述处理单元,还用于判断所述至少一个第三关键词中是否存在目标第三关键词,若是,将所述目标第三关键词加入预设的备用关键词列表中;
其中,所述至少一个第二关键词不包括所述目标第三关键词,所述至少一个第二关键词中存在一目标第二关键词,所述至少一个第三关键词包括所述目标第二关键词,且所述目标第二关键词在所述当前第二招聘数据中的出现次数不大于所述目标第三关键词在所述当前第二招聘数据中的出现次数。
10.根据权利要求9所述的处理招聘数据的装置,其特征在于,
还包括:维护单元,用于创建必需关键词列表,其中,所述必需关键词列表中包括所述至少一个第二关键词,所述必需关键词列表中包括的各关键词按照权重从大至小的排列顺序依次排列;计算所述目标第三关键词的权重;判断所述目标第三关键词的权重是否不小于所述必需关键词列表中末位排序的关键词的权重,若是,将所述目标第三关键词从所述备用关键词列表转移至所述必需关键词列表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711078984.5A CN107885725A (zh) | 2017-11-06 | 2017-11-06 | 一种处理招聘数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711078984.5A CN107885725A (zh) | 2017-11-06 | 2017-11-06 | 一种处理招聘数据的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107885725A true CN107885725A (zh) | 2018-04-06 |
Family
ID=61778879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711078984.5A Pending CN107885725A (zh) | 2017-11-06 | 2017-11-06 | 一种处理招聘数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885725A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442862A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 基于招聘信息的数据处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226618A (zh) * | 2013-05-21 | 2013-07-31 | 焦点科技股份有限公司 | 基于数据集市挖掘的相关词提取方法及系统 |
CN103577404A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 一种面向微博的全新突发事件发现方法 |
CN105512864A (zh) * | 2016-01-28 | 2016-04-20 | 丁沂 | 一种基于互联网的岗位职业能力需求的自动获取方法 |
US20160132485A1 (en) * | 2014-11-12 | 2016-05-12 | Electronics And Telecommunications Research Institute | System and method for constructing morpheme dictionary based on automatic extraction of non-registered word |
CN106202056A (zh) * | 2016-07-26 | 2016-12-07 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和系统 |
-
2017
- 2017-11-06 CN CN201711078984.5A patent/CN107885725A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577404A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 一种面向微博的全新突发事件发现方法 |
CN103226618A (zh) * | 2013-05-21 | 2013-07-31 | 焦点科技股份有限公司 | 基于数据集市挖掘的相关词提取方法及系统 |
US20160132485A1 (en) * | 2014-11-12 | 2016-05-12 | Electronics And Telecommunications Research Institute | System and method for constructing morpheme dictionary based on automatic extraction of non-registered word |
CN105512864A (zh) * | 2016-01-28 | 2016-04-20 | 丁沂 | 一种基于互联网的岗位职业能力需求的自动获取方法 |
CN106202056A (zh) * | 2016-07-26 | 2016-12-07 | 北京智能管家科技有限公司 | 中文分词场景库更新方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442862A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 基于招聘信息的数据处理方法及装置 |
CN110442862B (zh) * | 2019-07-11 | 2022-08-09 | 新华三大数据技术有限公司 | 基于招聘信息的数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294532A (zh) | 基于微博情感分析的形象评价算法 | |
Zhezhnych et al. | A linguistic method of web-site content comparison with tourism documentation objects | |
CN108090223B (zh) | 一种基于互联网信息的开放学者画像方法 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
CN105608075A (zh) | 一种相关知识点的获取方法及系统 | |
Hu et al. | A survey of state-of-the-art short text matching algorithms | |
CN110119880A (zh) | 一种自动评级方法、装置、存储介质及终端设备 | |
Liu et al. | Occupational health and safety risk assessment based on combination weighting and uncertain linguistic information: method development and application to a construction project | |
CN115994688A (zh) | 基于知识图谱的船舶事故风险评估方法、装置和电子设备 | |
CN113807827A (zh) | 一种基于大数据的人力资源匹配算法 | |
CN107885725A (zh) | 一种处理招聘数据的方法及装置 | |
CN115310869B (zh) | 一种督查事项的联合督查方法、系统、设备以及存储介质 | |
Cuc et al. | Classifying the business model from a strategic and innovation perspective | |
CN110262906A (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
CN112215260B (zh) | 一种电网培训资源分类更新方法及系统 | |
CN103870758A (zh) | 基于词归类组合判定与概率统计的涉密信息密级归属方法 | |
Gabdrakhmanova et al. | Neural network technologies and topological analysis of social media data | |
Wang | Improved NN‐GM (1, 1) for Postgraduates’ Employment Confidence Index Forecasting | |
Feng et al. | Exploring characteristic of visual management as lean toolbox in construction worksite of apartment house | |
Chen | Construction of educational information system model based on BP algorithm | |
Xu et al. | [Retracted] The Dissemination and Evaluation of Campus Ideological and Political Public Opinion Based on Internet of Things Monitoring | |
Xia et al. | BP Neural Network Algorithm for Computer Network Security Evaluation | |
Wen et al. | Detection of Research Front Topic Based on Data of NSF Artificial Intelligence Project | |
Takkar et al. | A Deep Insight of Automatic Resume Classifiers For Skill Mapping By Recruiters | |
Kolodyazhnaya et al. | Development Model of the Intellectual Property Management System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200811 Address after: 250100 Room 3110, S01 Building, Tidal Building, 1036 Tidal Road, Jinan High-tech Zone, Shandong Province Applicant after: Shandong Aicheng Network Information Technology Co.,Ltd. Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06 Applicant before: SHANDONG INSPUR CLOUD SERVICE INFORMATION TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180406 |
|
RJ01 | Rejection of invention patent application after publication |