CN103177060A - 一种海量高端人才信息数据搜索抓取方法 - Google Patents

一种海量高端人才信息数据搜索抓取方法 Download PDF

Info

Publication number
CN103177060A
CN103177060A CN201210444935XA CN201210444935A CN103177060A CN 103177060 A CN103177060 A CN 103177060A CN 201210444935X A CN201210444935X A CN 201210444935XA CN 201210444935 A CN201210444935 A CN 201210444935A CN 103177060 A CN103177060 A CN 103177060A
Authority
CN
China
Prior art keywords
resume
circle
web page
score value
new web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210444935XA
Other languages
English (en)
Other versions
CN103177060B (zh
Inventor
付俊生
钟延光
苏小鲁
陈化北
夏兵
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Original Assignee
INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA filed Critical INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Priority to CN201210444935.XA priority Critical patent/CN103177060B/zh
Publication of CN103177060A publication Critical patent/CN103177060A/zh
Application granted granted Critical
Publication of CN103177060B publication Critical patent/CN103177060B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种海量高端人才信息数据搜索抓取方法,其结合网络爬虫技术以及数据分析技术为企业构建所需要的人才信息数据库,是一种快速高效并且准确可靠的简历数据库构建方法。

Description

一种海量高端人才信息数据搜索抓取方法
技术领域
本发明涉及一种海量高端人才信息数据搜索抓取的方法。
背景技术
现在的企业越来越倾向于从互联网上寻找自己需要的高层次人才。目前的简历获取手段一般分为两种。一种是门户招聘网站提供简历注册系统,应聘者在该网站注册自己的简历,然后企业从网站的简历数据库中寻找自己需要的人才,这种方式提供给企业的人才资源仅限于一个或者几个网站。另一种方式是企业在普通的互联网搜索引擎中根据主题词、网站名称、时间等少数几个条件进行简单的搜索请求,搜索出的结果很少,搜索结果的准确率也不高。
发明内容
本发明所要解决的技术问题是,提供一种快速高效并且准确可靠的简历抓取方法,构建企业所需要的人才信息数据库。
本发明的搜索抓取方法是结合网络爬虫的技术以及数据分析方法,把用户搜索的需求精细化,进行高级搜索以满足用户的要求。它能够避免人工搜索那种费时费力的情况,又能够达到人工搜索同样的准确结果。系统服务器可以24小时连续不断的抓取,得到的数据量较大。
本发明采用预先学习和网络爬虫的方法,加上数据分析的方式对搜索的内容进行准确定位,完成高层次人才简历的抓取工作。网络爬虫是用来搜索一个域名下的所有网页;预先学习和数据分析是运用技术手段预先对一定量的简历进行分析得出数据,然后利用这些数据对每一个新的网页进行分析,判断是否是用户需要的网页。
利用本发明中的技术,无需人工处理或者仅需很少的人工介入,通过服务器运行,就可以构建出各个专业的简历人才数据库。并且通过实际的运行,正确率在90%以上,收获了很好的效果。
附图说明:
图1为:简历url列表图
图2为:简历词汇图
图3为:简历散点图
图4为:简历散点+平均圆心图
图5为:优化的简历散点+平均圆心图
图6为:最小最大相切圆图
图7为:平均最小最大相切圆图
具体实施方式
本申请的简历搜索方法可根据企业的不同需求构建出不同领域的简历数据库。
作为一个具体的实施方式,以下给出一个构建外籍人才信息库的例子。
实施例1
步骤一、准备真实简历网页。
提供5000份简历网页,分为十组,每组500份简历网页。这些简历全部为英文简历,可以是用现有的网络爬虫技术用电脑从互联网上抓取的,也可以是人工从互联网上检索筛选的。
预先准备的简历url列表如图1所示。
步骤二、获取第一组简历中每一份简历的正文内容。
由人工获取每一份简历网页上的正文内容部分,即,去除每一份简历网页上的广告,网页头,网页尾等非正文的信息;最后由程序去除<html>标签代码。
步骤三、统计每一份简历的单词总数量T。
使用分词技术(或者人工处理),对步骤二中得到的正文内容进行进一步处理,即,去除虚词,保留实词。把每一份简历的所有单词保存下来,并统计每一份简历的单词总数量T和每个单词出现的次数,此时的单词总数量T指的是采用分词技术处理后的实词的数量。如图2所示。
步骤四、为每一份简历的词汇逐一打分。
具体步骤为,计算每一份简历中的每一个单词在该简历中的分值。
该分值=该单词在该简历中出现的次数/该简历中单词总数量T。
其中,单词总数量T是步骤三得到的。
步骤五、计算单词分值并排序。
为了体现500份简历中最常出现的单词是哪些,需要对500份简历中相同的单词的分值求和,得到500份简历中每一个不重复的单词的得分。例如:professor在第一份简历中的得分为0.0105分,professor在第二份简历中的得分为0.0053分,……在第500份简历中的得分为0.0094分,则professor这个词在500份简历中的得分为0.0105+0.0053+……+0.0094分。按照得分高低,取前100个单词,利用步骤五的所述分值求和后的得分前100个单词的分值命名为S1、S2、……S99、S100,该分值S1、S2、……S99、S100对应的单词分别为Word1、Word2……Word99、Word100。当然按照不同准确度的需要,还可以取前50~1000个单词。
步骤六、计算每一份简历的“评价分值”。
利用步骤五中的S1、S2、……S99、S100,对这500份简历进行打分。即,对于每一份前历,当该简历中每出现一次Word1、Word2……Word99、Word100中的一个,就将该单词对应的分值相加。得到这500份简历中每一份简历的评价分值Yi,i=1,2,……,499,500。Y1为第一份简历的评价分值,依此类推,Y500为第500份简历的评价分值。例如:第1份简历中出现了排名第5,8,45,72的单词各一次,还出现了排名第33的单词3次,则Y1=S5*1+S8*1+S45*1+S72*1+S33*3。
步骤七、计算500份简历的平均评价分值
Figure BSA00000802824600031
Y &OverBar; = &Sigma; i = 1 500 Y i / 500
步骤八、由计算机程序自动计算每一份简历的url长度。
计算机计算每一份简历的url长度Li,i=1,2,……,499,500,此处的i与前面出现的i一致,即,第一份简历对应的url长度为L1,依此类推,第500份简历对应的url长度为L500
步骤九,计算500份简历的url长度Li的平均值
经过人工比较发现,500份简历中大多数简历的url长度都集中在url长度
Figure BSA00000802824600034
均值附近,因而判断某个网页是否为简历,其url长度也是一个考量参数。
url长度平均值 L &OverBar; = &Sigma; i = 1 500 L i / 500
其中Li是第i份简历的url的长度。
步骤十、建立二维坐标系。
将简历的url长度作为X轴,简历的评价分值作为Y轴,每一份简历对应到该二维坐标系中的坐标为(Li,Yi),其中i=1,2,……499,500的自然数,X坐标Li是步骤八中的结果,Y坐标Yi是步骤六的结果,得到500个点对应的散点图,如图3所示。
步骤十一、绘制圆心。
将步骤九中的
Figure BSA00000802824600041
作为圆心的X坐标,步骤七中得到的
Figure BSA00000802824600042
作为圆心的Y坐标,绘制到图3中,如图4所示。
步骤十二、人工或者电脑去除图3中离圆心最远的100个点。当然根据精度的不同,也可以去除离圆心最远的10~200个点等等,如图5所示。
步骤十三、计算最小相切圆半径和最大相切圆半径:
最小相切圆半径为离圆心最近的点和圆心之间的距离;最大相切圆半径为步骤十二中去掉离圆心最远的100个点后,离圆心最远的点和圆心之间的距离。从圆心开始,做出这个散点图的最小相切圆和最大相切圆,其中最小相切圆指的是以所述最小相切圆半径为半径,做出的圆。最大相切圆指的是以所述最大相切圆半径为半径做出的圆,如图6所示。
步骤十四、对剩下九组简历,重复步骤二到步骤十三。
得到10组圆心和10组圆半径。
圆心为Ci,i=1,2,……,9,10,
最小相切圆半径为ri,i=1,2,……,9,10,
最大相切圆半径为Ri,i=1,2,……,9,10,
步骤十五、求圆心和半径的平均值
圆心的平均值为10组圆心X,Y轴坐标的平均值,
最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值。
在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆,其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心,以所述最小/最大相切圆半径的平均值作为半径所得到的圆,如图7所示。
步骤十六、计算抓取新网页的最终评价分值V。
为了构建简历信息库,用网络爬虫技术从互联网上抓取一新网页,利用第一组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第一评价分值V1;依此类推,利用第二组至第十组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第二至第十评价分值V2至V10,则该新网页的最终评价分值
V = &Sigma; i = 1 10 V i / 10 .
步骤十七、计算抓取新网页的url长度。
由计算机程序自动计算新网页的url长度L。
步骤十八、判断抓取的新网页是否为一份简历。
步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V。将L作为X坐标,V作为Y坐标,标记在图7中。如果落在最小相切圆中就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的也判断为一份简历,称之为散点面最大相切圆简历,没有落在这两个圆中的判断为非简历。最后将判断为简历的网页数据保存至人才信息数据库中。
步骤十九、不断重复步骤十六至步骤十八,抓取更多的新网页,每抓取一份新网页,就判断其是否为一份简历,是简历就保存到人才信息数据库中,直到该人才信息数据库的简历达到预定数量为止。该预定数量例如是5000份,10000份,100000份或者更多。
抓取新网页判断为简历的正确率与步骤一准备的真实简历数量有关,真实简历数量越多,由真实简历总结的这些真实简历中常见词汇的分值越准确,计算出的圆心、最小/最大相切圆半径、抓取的新网页的评价分值都更加准确,从而抓取新网页判断为简历的正确率也越高。
实施例2
实施例2的步骤一至步骤十六与实施例1完全相同。步骤十六后还包括如下步骤十七’至二十一’。
步骤十七’、计算新网页的最终负向评价分值A。
基于相同的原理,取10组每组500份不是简历的网页,按照步骤二至步骤五分别计算出这10组不是简历的网页中各组出现次数最多的前100个单词,将所述10组不是简历的网页中出现次数最多的前100个单词的分值规定为负分值,利用第一组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第一负向评价分值A1,依此类推,利用第二组至第十组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第二至第十组负向评价分值A2至A10,则该新网页的最终负向评价分值
Figure BSA00000802824600052
步骤十八’、计算抓取的新网页的最终评价分值W。
该新网页的最终评价分值W是:W=(V)+(A)
其中V是该新网页利用步骤十六计算出的新网页评价分值;A是该新网页利用步骤十七’计算出的该新网页的最终负向评价分值。
步骤十九’、计算抓取新网页的url长度。
由计算机程序自动计算新网页的url长度L。
步骤二十’、判断抓取的新网页是否为一份简历。
在步骤十九’中计算出的网页的url长度L和步骤十八’中计算出该新网页的最终评价分值W。L作为X坐标,W作为Y坐标,标记在图6中。落在最小相切圆中或落在最小相切圆上就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历。最后将判断为简历的网页数据保存至人才信息数据库中。
步骤二十一’、不断重复步骤十六、步骤十七’至步骤二十’,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库达到预定数量的简历为止。
实施例3
步骤一、准备真实简历。
提供5000份简历,分为十组,每组500份简历。这些简历全部为中文简历,或日文简历,或韩文简历,或任一种语言的简历,可以是用现有的网络爬虫技术用电脑抓取的,也可以是人工从互联网上检索筛选的。其余步骤和实施例1的步骤二至步骤十九相同。

Claims (6)

1.一种海量高端人才信息数据搜索抓取方法,用于抓取互联网上简历以构建简历人才库,其特征在于,包括如下步骤:
步骤一,准备5000份真实的简历网页,分为10组,每组500份简历网页,所述简历网页是利用现有的网络爬出技术或人工从互联网上抓取的;
步骤二、获取第一组简历中每一份简历的正文内容:
由人工获取每一份简历网页上的正文内容部分,即,去除每一份简历网页上的广告,网页头,网页尾;最后由程序去除<html>标签代码;
步骤三、统计每一份简历的单词总数量T:
使用分词技术或者人工处理,对步骤二中得到的正文内容进行进一步处理,即,去除虚词,保留实词;把每一份简历的所有单词保存下来,并统计每一份简历的单词总数量T和每个单词出现的次数,此时的单词总数量T指的是采用分词技术处理后的实词的数量;
步骤四、为每一份简历的词汇逐一打分:
具体步骤为,计算每一份简历中的每一个单词在该简历中的分值;
该分值=该单词在该简历中出现的次数/该简历中单词总数量T;
其中,单词总数量T是步骤三得到的;
步骤五、计算单词分值并排序:
为了体现500份简历中最常出现的单词是哪些,需要对500份简历中相同的单词的分值求和,得到500份简历中每一个不重复的单词的得分;按照得分高低,取前100个单词,将所述分值求和后的得分前100个单词的分值命名为S1、S2、……S99、S100,该分值S1、S2、……S99、S100对应的单词分别为Word1、Word2……Word99、Word100
步骤六、计算每一份简历的“评价分值”:
利用步骤五中的S1、S2、……S99、S100,对这500份简历进行打分;
即,对于每一份简历,当该简历中每出现一次Word1、Word2……Word99、Word100中的个,就将该单词对应的分值相加,得到这500份简历中每一份简历的评价分值Y1,i-1,2……,499,500,其中Y1为第一份简历的评价分值,依此类推,Y500为第500份简历的评价分值;
步骤七、计算500份简历的平均评价分值
Figure FSA00000802824500011
Y &OverBar; = &Sigma; i = 1 500 Y i / 500
步骤八、由计算机程序自动计算每一份简历的url长度Ll,i=1,2,……,499,500;步骤九,计算500份简历的url长度Li的平均值
url长度平均值 L &OverBar; = &Sigma; i = 1 500 L i / 500 ,
其中Li是第i份简历的url的长度;
步骤十、建立二维坐标系:
将简历的url长度作为X轴,简历的评价分值作为Y轴,每一份简历对应到该二维坐标系中的坐标为(Li,Yi),其中i=1,2,……499,500的自然数,X坐标Li是步骤八中的结果,Y坐标Yi是步骤六的结果,得到500个点对应的散点图;
步骤十一、绘制圆心:
将步骤九中的作为圆心的X坐标,步骤七中得到的
Figure FSA00000802824500024
作为圆心的Y坐标;
步骤十二、人工或者电脑去除步骤十中离圆心最远的100个点;
步骤十三、计算最小相切圆半径和最大相切圆半径:
最小相切圆半径为离圆心最近的点和圆心之间的距离;最大相切圆半径为步骤十二中去掉离圆心最远的100个点后,离圆心最远的点和圆心之间的距离;
步骤十四、对剩下的九组简历,重复步骤二到步骤十三;
得到10组圆心和10组圆半径,
圆心为Ci,i=1,2,……,9,10,
最小相切圆半径为ri,i=1,2,……,9,10,
最大相切圆半径为Ri,i=1,2,……,9,10,
步骤十五、求圆心和半径的平均值:
圆心的平均值为10组圆心X,Y轴坐标的平均值,
最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值,在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆,其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心,以所述最小/最大相切圆半径的平均值作为半径所得到的圆;
步骤十六、计算抓取新网页的最终评价分值V:
为了构建简历信息库,用网络爬虫技术从互联网上抓取一新网页,利用第一组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第一评价分值V1;依此类推,利用第二组至第十组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第二至第十评价分值V2至V10,则该新网页的最终评价分值 V = &Sigma; i = 1 10 V i / 10 ;
步骤十七、计算抓取新网页的url长度:
由计算机程序自动计算该新网页的url长度L;
步骤十八、判断抓取的新网页是否为一份简历:
步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V;以L作为X坐标,V作为Y坐标,将(L,V)标记在步骤十五所述的二维坐标系中;如果落在最小相切圆中或落在最小相切圆上就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或者落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历;最后将判断为简历的网页数据保存至人才信息数据库中;
步骤十九、不断重复步骤十六至步骤十八,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库的简历达到预定数量为止。
2.如权利要求1所述所述的方法,步骤一中所有简历均为英文、或中文、或日文、或韩文或其他任何一种语言的简历。
3.如权利要求1所述的方法,将步骤一中每组500份简历替换为每组501~1000份简历。
4.如权利要求1所述的方法,将步骤五中前100个单词替换为前101~1000个单词。
5.如权利要求1所述的方法,将步骤十二和步骤十三中所述100个点替换为101~200个点。
6.如权利要求1所述的方法,将步骤十七至步骤十九替换为如下步骤:
步骤十七’、计算新网页的最终负向评价分值A:
基于相同的原理,取10组每组500份不是简历的网页,按照步骤二至步骤五分别计算出这10组不是简历的网页中各组出现次数最多的前100个单词,将所述10组不是简历的网页中出现次数最多的前100个单词的分值规定为负分值,利用第一组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第一负向评价分值A1,依此类推,利用第二组至第十组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第二至第十组负向评价分值A2至A10,则该新网页的最终负向评价分值
Figure FSA00000802824500032
步骤十八’、计算抓取的新网页的最终评价分值W:
该新网页的最终评价分值W是:W=(V)+(A),
其中V是该新网页利用步骤十六计算出的该新网页最终评价分值;A是该新网页利用步骤十七’计算出的该新网页的最终负向评价分值;
步骤十九’、由计算机程序自动计算新网页的url长度L;
步骤二十’、判断抓取的新网页是否为一份简历:
在步骤十九’中计算出的网页的url长度L和步骤十八’中计算出该网页的最终评价分值W;以L作为X坐标,W作为Y坐标,将(L,W)标记在步骤十五所述的所述二维坐标系中;落在最小相切圆中或落在最小相切圆上的就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历;最后将判断为简历的网页数据保存至人才信息数据库中;
步骤二十一’、不断重复步骤十六、步骤十七’至步骤二十’,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库达到预定数量的简历为止。
CN201210444935.XA 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法 Expired - Fee Related CN103177060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210444935.XA CN103177060B (zh) 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210444935.XA CN103177060B (zh) 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法

Publications (2)

Publication Number Publication Date
CN103177060A true CN103177060A (zh) 2013-06-26
CN103177060B CN103177060B (zh) 2016-08-03

Family

ID=48636934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210444935.XA Expired - Fee Related CN103177060B (zh) 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法

Country Status (1)

Country Link
CN (1) CN103177060B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413742A (zh) * 2019-08-08 2019-11-05 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN111950992A (zh) * 2020-08-27 2020-11-17 深圳前海立方信息技术有限公司 一种高端人才信息综合服务管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752396A (ja) * 1993-08-11 1995-02-28 Canon Inc 記録ヘッド吐出回復方法、その装置およびそれを搭載したインクジェット記録装置
DE102004009688A1 (de) * 2004-02-27 2005-09-08 Kugelmann, Siegfried Verfahren zur Steuerung eines Streufahrzeugs
CN1725975A (zh) * 2002-12-12 2006-01-25 奥林巴斯株式会社 信息处理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752396A (ja) * 1993-08-11 1995-02-28 Canon Inc 記録ヘッド吐出回復方法、その装置およびそれを搭載したインクジェット記録装置
CN1725975A (zh) * 2002-12-12 2006-01-25 奥林巴斯株式会社 信息处理装置
DE102004009688A1 (de) * 2004-02-27 2005-09-08 Kugelmann, Siegfried Verfahren zur Steuerung eines Streufahrzeugs

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413742A (zh) * 2019-08-08 2019-11-05 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN110413742B (zh) * 2019-08-08 2022-03-29 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN111950992A (zh) * 2020-08-27 2020-11-17 深圳前海立方信息技术有限公司 一种高端人才信息综合服务管理系统

Also Published As

Publication number Publication date
CN103177060B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN104361102B (zh) 一种基于群组匹配的专家推荐方法及系统
CN105389349B (zh) 词典更新方法及装置
CN109325165A (zh) 网络舆情分析方法、装置及存储介质
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
CN104899273A (zh) 一种基于话题和相对熵的网页个性化推荐方法
Squazzoni et al. Is Social Simulation a Social Science Outstation?: A Bibliometric Analysis of the Impact of JASSS
WO2008106668A1 (en) User query mining for advertising matching
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN102682046A (zh) 社交网络的节点搜索和分析方法及搜索系统
CN104484380A (zh) 个性化搜索方法及装置
CN103646070A (zh) 搜索引擎的数据处理方法及装置
CN107844595B (zh) 一种求职网站职位智能推荐方法
CN107861974B (zh) 一种自适应网络爬虫系统及其数据获取方法
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
CN105069103A (zh) App搜索引擎利用用户评论的方法及系统
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN104615680A (zh) 网页质量模型的建立方法及装置
KR20150103509A (ko) Lda를 이용한 특허 문헌 분석 방법
CN102306185A (zh) 一种用于识别wap网页的方法、装置和设备
US9524511B2 (en) Method and a system for analysing traffic on a website by means of path analysis
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN103177060B (zh) 一种海量高端人才信息数据搜索抓取方法
CN106649732A (zh) 一种信息推送方法及装置
CN110119880A (zh) 一种自动评级方法、装置、存储介质及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160803

Termination date: 20161109

CF01 Termination of patent right due to non-payment of annual fee
DD01 Delivery of document by public notice

Addressee: Wang Yong

Document name: Notification of Termination of Patent Right

DD01 Delivery of document by public notice