CN103177060A

CN103177060A - 一种海量高端人才信息数据搜索抓取方法

Info

Publication number: CN103177060A
Application number: CN201210444935XA
Authority: CN
Inventors: 付俊生; 钟延光; 苏小鲁; 陈化北; 夏兵; 王勇
Original assignee: INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Current assignee: INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Priority date: 2012-11-09
Filing date: 2012-11-09
Publication date: 2013-06-26
Anticipated expiration: 2032-11-09
Also published as: CN103177060B

Abstract

本申请涉及一种海量高端人才信息数据搜索抓取方法，其结合网络爬虫技术以及数据分析技术为企业构建所需要的人才信息数据库，是一种快速高效并且准确可靠的简历数据库构建方法。

Description

一种海量高端人才信息数据搜索抓取方法

技术领域

本发明涉及一种海量高端人才信息数据搜索抓取的方法。

背景技术

现在的企业越来越倾向于从互联网上寻找自己需要的高层次人才。目前的简历获取手段一般分为两种。一种是门户招聘网站提供简历注册系统，应聘者在该网站注册自己的简历，然后企业从网站的简历数据库中寻找自己需要的人才，这种方式提供给企业的人才资源仅限于一个或者几个网站。另一种方式是企业在普通的互联网搜索引擎中根据主题词、网站名称、时间等少数几个条件进行简单的搜索请求，搜索出的结果很少，搜索结果的准确率也不高。

发明内容

本发明所要解决的技术问题是，提供一种快速高效并且准确可靠的简历抓取方法，构建企业所需要的人才信息数据库。

本发明的搜索抓取方法是结合网络爬虫的技术以及数据分析方法，把用户搜索的需求精细化，进行高级搜索以满足用户的要求。它能够避免人工搜索那种费时费力的情况，又能够达到人工搜索同样的准确结果。系统服务器可以24小时连续不断的抓取，得到的数据量较大。

本发明采用预先学习和网络爬虫的方法，加上数据分析的方式对搜索的内容进行准确定位，完成高层次人才简历的抓取工作。网络爬虫是用来搜索一个域名下的所有网页；预先学习和数据分析是运用技术手段预先对一定量的简历进行分析得出数据，然后利用这些数据对每一个新的网页进行分析，判断是否是用户需要的网页。

利用本发明中的技术，无需人工处理或者仅需很少的人工介入，通过服务器运行，就可以构建出各个专业的简历人才数据库。并且通过实际的运行，正确率在90％以上，收获了很好的效果。

附图说明：

图1为：简历url列表图

图2为：简历词汇图

图3为：简历散点图

图4为：简历散点+平均圆心图

图5为：优化的简历散点+平均圆心图

图6为：最小最大相切圆图

图7为：平均最小最大相切圆图

具体实施方式

本申请的简历搜索方法可根据企业的不同需求构建出不同领域的简历数据库。

作为一个具体的实施方式，以下给出一个构建外籍人才信息库的例子。

实施例1

步骤一、准备真实简历网页。

提供5000份简历网页，分为十组，每组500份简历网页。这些简历全部为英文简历，可以是用现有的网络爬虫技术用电脑从互联网上抓取的，也可以是人工从互联网上检索筛选的。

预先准备的简历url列表如图1所示。

步骤二、获取第一组简历中每一份简历的正文内容。

由人工获取每一份简历网页上的正文内容部分，即，去除每一份简历网页上的广告，网页头，网页尾等非正文的信息；最后由程序去除<html>标签代码。

步骤三、统计每一份简历的单词总数量T。

使用分词技术(或者人工处理)，对步骤二中得到的正文内容进行进一步处理，即，去除虚词，保留实词。把每一份简历的所有单词保存下来，并统计每一份简历的单词总数量T和每个单词出现的次数，此时的单词总数量T指的是采用分词技术处理后的实词的数量。如图2所示。

步骤四、为每一份简历的词汇逐一打分。

具体步骤为，计算每一份简历中的每一个单词在该简历中的分值。

该分值＝该单词在该简历中出现的次数/该简历中单词总数量T。

其中，单词总数量T是步骤三得到的。

步骤五、计算单词分值并排序。

为了体现500份简历中最常出现的单词是哪些，需要对500份简历中相同的单词的分值求和，得到500份简历中每一个不重复的单词的得分。例如：professor在第一份简历中的得分为0.0105分，professor在第二份简历中的得分为0.0053分，……在第500份简历中的得分为0.0094分，则professor这个词在500份简历中的得分为0.0105+0.0053+……+0.0094分。按照得分高低，取前100个单词，利用步骤五的所述分值求和后的得分前100个单词的分值命名为S₁、S₂、……S₉₉、S₁₀₀，该分值S₁、S₂、……S₉₉、S₁₀₀对应的单词分别为Word₁、Word₂……Word₉₉、Word₁₀₀。当然按照不同准确度的需要，还可以取前50～1000个单词。

步骤六、计算每一份简历的“评价分值”。

利用步骤五中的S₁、S₂、……S₉₉、S₁₀₀，对这500份简历进行打分。即，对于每一份前历，当该简历中每出现一次Word₁、Word₂……Word₉₉、Word₁₀₀中的一个，就将该单词对应的分值相加。得到这500份简历中每一份简历的评价分值Y_i，i＝1，2，……，499，500。Y₁为第一份简历的评价分值，依此类推，Y₅₀₀为第500份简历的评价分值。例如：第1份简历中出现了排名第5，8，45，72的单词各一次，还出现了排名第33的单词3次，则Y₁＝S₅*1+S₈*1+S₄₅*1+S₇₂*1+S₃₃*3。

步骤七、计算500份简历的平均评价分值

\overset{&OverBar;}{Y} = Σ_{i = 1}^{500} Y_{i} / 500

步骤八、由计算机程序自动计算每一份简历的url长度。

计算机计算每一份简历的url长度L_i，i＝1，2，……，499，500，此处的i与前面出现的i一致，即，第一份简历对应的url长度为L₁，依此类推，第500份简历对应的url长度为L₅₀₀。

步骤九，计算500份简历的url长度L_i的平均值

经过人工比较发现，500份简历中大多数简历的url长度都集中在url长度

均值附近，因而判断某个网页是否为简历，其url长度也是一个考量参数。

url长度平均值

\overset{&OverBar;}{L} = Σ_{i = 1}^{500} L_{i} / 500

其中L_i是第i份简历的url的长度。

步骤十、建立二维坐标系。

将简历的url长度作为X轴，简历的评价分值作为Y轴，每一份简历对应到该二维坐标系中的坐标为(L_i，Y_i)，其中i＝1，2，……499，500的自然数，X坐标L_i是步骤八中的结果，Y坐标Y_i是步骤六的结果，得到500个点对应的散点图，如图3所示。

步骤十一、绘制圆心。

将步骤九中的

作为圆心的X坐标，步骤七中得到的

作为圆心的Y坐标，绘制到图3中，如图4所示。

步骤十二、人工或者电脑去除图3中离圆心最远的100个点。当然根据精度的不同，也可以去除离圆心最远的10～200个点等等，如图5所示。

步骤十三、计算最小相切圆半径和最大相切圆半径：

最小相切圆半径为离圆心最近的点和圆心之间的距离；最大相切圆半径为步骤十二中去掉离圆心最远的100个点后，离圆心最远的点和圆心之间的距离。从圆心开始，做出这个散点图的最小相切圆和最大相切圆，其中最小相切圆指的是以所述最小相切圆半径为半径，做出的圆。最大相切圆指的是以所述最大相切圆半径为半径做出的圆，如图6所示。

步骤十四、对剩下九组简历，重复步骤二到步骤十三。

得到10组圆心和10组圆半径。

圆心为C_i，i＝1，2，……，9，10，

最小相切圆半径为r_i，i＝1，2，……，9，10，

最大相切圆半径为R_i，i＝1，2，……，9，10，

步骤十五、求圆心和半径的平均值

圆心的平均值为10组圆心X，Y轴坐标的平均值，

最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值。

在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆，其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心，以所述最小/最大相切圆半径的平均值作为半径所得到的圆，如图7所示。

步骤十六、计算抓取新网页的最终评价分值V。

为了构建简历信息库，用网络爬虫技术从互联网上抓取一新网页，利用第一组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分，得到该新网页的第一评价分值V₁；依此类推，利用第二组至第十组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分，得到该新网页的第二至第十评价分值V₂至V₁₀，则该新网页的最终评价分值

V = Σ_{i = 1}^{10} V_{i} / 10 .

步骤十七、计算抓取新网页的url长度。

由计算机程序自动计算新网页的url长度L。

步骤十八、判断抓取的新网页是否为一份简历。

步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V。将L作为X坐标，V作为Y坐标，标记在图7中。如果落在最小相切圆中就将其判断为一份简历，称之为散点面最小相切圆简历，落在最小相切圆和最大相切圆之间的也判断为一份简历，称之为散点面最大相切圆简历，没有落在这两个圆中的判断为非简历。最后将判断为简历的网页数据保存至人才信息数据库中。

步骤十九、不断重复步骤十六至步骤十八，抓取更多的新网页，每抓取一份新网页，就判断其是否为一份简历，是简历就保存到人才信息数据库中，直到该人才信息数据库的简历达到预定数量为止。该预定数量例如是5000份，10000份，100000份或者更多。

抓取新网页判断为简历的正确率与步骤一准备的真实简历数量有关，真实简历数量越多，由真实简历总结的这些真实简历中常见词汇的分值越准确，计算出的圆心、最小/最大相切圆半径、抓取的新网页的评价分值都更加准确，从而抓取新网页判断为简历的正确率也越高。

实施例2

实施例2的步骤一至步骤十六与实施例1完全相同。步骤十六后还包括如下步骤十七’至二十一’。

步骤十七’、计算新网页的最终负向评价分值A。

基于相同的原理，取10组每组500份不是简历的网页，按照步骤二至步骤五分别计算出这10组不是简历的网页中各组出现次数最多的前100个单词，将所述10组不是简历的网页中出现次数最多的前100个单词的分值规定为负分值，利用第一组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分，得到该新网页的第一负向评价分值A₁，依此类推，利用第二组至第十组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分，得到该新网页的第二至第十组负向评价分值A₂至A₁₀，则该新网页的最终负向评价分值

步骤十八’、计算抓取的新网页的最终评价分值W。

该新网页的最终评价分值W是：W＝(V)+(A)

其中V是该新网页利用步骤十六计算出的新网页评价分值；A是该新网页利用步骤十七’计算出的该新网页的最终负向评价分值。

步骤十九’、计算抓取新网页的url长度。

由计算机程序自动计算新网页的url长度L。

步骤二十’、判断抓取的新网页是否为一份简历。

在步骤十九’中计算出的网页的url长度L和步骤十八’中计算出该新网页的最终评价分值W。L作为X坐标，W作为Y坐标，标记在图6中。落在最小相切圆中或落在最小相切圆上就将其判断为一份简历，称之为散点面最小相切圆简历，落在最小相切圆和最大相切圆之间的或落在最大相切圆上的也判断为一份简历，称之为散点面最大相切圆简历，落在最大相切圆外的判断为非简历。最后将判断为简历的网页数据保存至人才信息数据库中。

步骤二十一’、不断重复步骤十六、步骤十七’至步骤二十’，抓取更多的新网页，每抓取一新网页，就判断其是否为一份简历，是简历则保存到人才信息数据库中，直到该人才信息数据库达到预定数量的简历为止。

实施例3

步骤一、准备真实简历。

提供5000份简历，分为十组，每组500份简历。这些简历全部为中文简历，或日文简历，或韩文简历，或任一种语言的简历，可以是用现有的网络爬虫技术用电脑抓取的，也可以是人工从互联网上检索筛选的。其余步骤和实施例1的步骤二至步骤十九相同。

Claims

1.一种海量高端人才信息数据搜索抓取方法，用于抓取互联网上简历以构建简历人才库，其特征在于，包括如下步骤：

步骤一，准备5000份真实的简历网页，分为10组，每组500份简历网页，所述简历网页是利用现有的网络爬出技术或人工从互联网上抓取的；

步骤二、获取第一组简历中每一份简历的正文内容：

由人工获取每一份简历网页上的正文内容部分，即，去除每一份简历网页上的广告，网页头，网页尾；最后由程序去除<html>标签代码；

步骤三、统计每一份简历的单词总数量T：

使用分词技术或者人工处理，对步骤二中得到的正文内容进行进一步处理，即，去除虚词，保留实词；把每一份简历的所有单词保存下来，并统计每一份简历的单词总数量T和每个单词出现的次数，此时的单词总数量T指的是采用分词技术处理后的实词的数量；

步骤四、为每一份简历的词汇逐一打分：

具体步骤为，计算每一份简历中的每一个单词在该简历中的分值；

该分值＝该单词在该简历中出现的次数/该简历中单词总数量T；

其中，单词总数量T是步骤三得到的；

步骤五、计算单词分值并排序：

为了体现500份简历中最常出现的单词是哪些，需要对500份简历中相同的单词的分值求和，得到500份简历中每一个不重复的单词的得分；按照得分高低，取前100个单词，将所述分值求和后的得分前100个单词的分值命名为S₁、S₂、……S₉₉、S₁₀₀，该分值S₁、S₂、……S₉₉、S₁₀₀对应的单词分别为Word₁、Word₂……Word₉₉、Word₁₀₀；

步骤六、计算每一份简历的“评价分值”：

利用步骤五中的S₁、S₂、……S₉₉、S₁₀₀，对这500份简历进行打分；

即，对于每一份简历，当该简历中每出现一次Word₁、Word₂……Word₉₉、Word₁₀₀中的个，就将该单词对应的分值相加，得到这500份简历中每一份简历的评价分值Y₁，i-1，2……，499，500，其中Y₁为第一份简历的评价分值，依此类推，Y₅₀₀为第500份简历的评价分值；

步骤七、计算500份简历的平均评价分值

\overset{&OverBar;}{Y} = Σ_{i = 1}^{500} Y_{i} / 500

步骤八、由计算机程序自动计算每一份简历的url长度L_l，i＝1，2，……，499，500；步骤九，计算500份简历的url长度L_i的平均值

url长度平均值

\overset{&OverBar;}{L} = Σ_{i = 1}^{500} L_{i} / 500,

其中L_i是第i份简历的url的长度；

步骤十、建立二维坐标系：

将简历的url长度作为X轴，简历的评价分值作为Y轴，每一份简历对应到该二维坐标系中的坐标为(L_i，Y_i)，其中i＝1，2，……499，500的自然数，X坐标L_i是步骤八中的结果，Y坐标Y_i是步骤六的结果，得到500个点对应的散点图；

步骤十一、绘制圆心：

将步骤九中的作为圆心的X坐标，步骤七中得到的

作为圆心的Y坐标；

步骤十二、人工或者电脑去除步骤十中离圆心最远的100个点；

步骤十三、计算最小相切圆半径和最大相切圆半径：

最小相切圆半径为离圆心最近的点和圆心之间的距离；最大相切圆半径为步骤十二中去掉离圆心最远的100个点后，离圆心最远的点和圆心之间的距离；

步骤十四、对剩下的九组简历，重复步骤二到步骤十三；

得到10组圆心和10组圆半径，

圆心为C_i，i＝1，2，……，9，10，

最小相切圆半径为r_i，i＝1，2，……，9，10，

最大相切圆半径为R_i，i＝1，2，……，9，10，

步骤十五、求圆心和半径的平均值：

圆心的平均值为10组圆心X，Y轴坐标的平均值，

最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值，在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆，其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心，以所述最小/最大相切圆半径的平均值作为半径所得到的圆；

步骤十六、计算抓取新网页的最终评价分值V：

V = Σ_{i = 1}^{10} V_{i} / 10;

步骤十七、计算抓取新网页的url长度：

由计算机程序自动计算该新网页的url长度L；

步骤十八、判断抓取的新网页是否为一份简历：

步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V；以L作为X坐标，V作为Y坐标，将(L，V)标记在步骤十五所述的二维坐标系中；如果落在最小相切圆中或落在最小相切圆上就将其判断为一份简历，称之为散点面最小相切圆简历，落在最小相切圆和最大相切圆之间的或者落在最大相切圆上的也判断为一份简历，称之为散点面最大相切圆简历，落在最大相切圆外的判断为非简历；最后将判断为简历的网页数据保存至人才信息数据库中；

步骤十九、不断重复步骤十六至步骤十八，抓取更多的新网页，每抓取一新网页，就判断其是否为一份简历，是简历则保存到人才信息数据库中，直到该人才信息数据库的简历达到预定数量为止。

2.如权利要求1所述所述的方法，步骤一中所有简历均为英文、或中文、或日文、或韩文或其他任何一种语言的简历。

3.如权利要求1所述的方法，将步骤一中每组500份简历替换为每组501～1000份简历。

4.如权利要求1所述的方法，将步骤五中前100个单词替换为前101～1000个单词。

5.如权利要求1所述的方法，将步骤十二和步骤十三中所述100个点替换为101～200个点。

6.如权利要求1所述的方法，将步骤十七至步骤十九替换为如下步骤：

步骤十七’、计算新网页的最终负向评价分值A：

步骤十八’、计算抓取的新网页的最终评价分值W：

该新网页的最终评价分值W是：W＝(V)+(A)，

其中V是该新网页利用步骤十六计算出的该新网页最终评价分值；A是该新网页利用步骤十七’计算出的该新网页的最终负向评价分值；

步骤十九’、由计算机程序自动计算新网页的url长度L；

步骤二十’、判断抓取的新网页是否为一份简历：

在步骤十九’中计算出的网页的url长度L和步骤十八’中计算出该网页的最终评价分值W；以L作为X坐标，W作为Y坐标，将(L，W)标记在步骤十五所述的所述二维坐标系中；落在最小相切圆中或落在最小相切圆上的就将其判断为一份简历，称之为散点面最小相切圆简历，落在最小相切圆和最大相切圆之间的或落在最大相切圆上的也判断为一份简历，称之为散点面最大相切圆简历，落在最大相切圆外的判断为非简历；最后将判断为简历的网页数据保存至人才信息数据库中；