CN103177060B - 一种海量高端人才信息数据搜索抓取方法 - Google Patents

一种海量高端人才信息数据搜索抓取方法 Download PDF

Info

Publication number
CN103177060B
CN103177060B CN201210444935.XA CN201210444935A CN103177060B CN 103177060 B CN103177060 B CN 103177060B CN 201210444935 A CN201210444935 A CN 201210444935A CN 103177060 B CN103177060 B CN 103177060B
Authority
CN
China
Prior art keywords
resume
circle
web page
score value
new web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210444935.XA
Other languages
English (en)
Other versions
CN103177060A (zh
Inventor
付俊生
钟延光
苏小鲁
陈化北
夏兵
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Original Assignee
INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA filed Critical INFORMATION RESEARCH CENTER OF INTERNATIONAL TALENT SAFEA
Priority to CN201210444935.XA priority Critical patent/CN103177060B/zh
Publication of CN103177060A publication Critical patent/CN103177060A/zh
Application granted granted Critical
Publication of CN103177060B publication Critical patent/CN103177060B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种海量高端人才信息数据搜索抓取方法,其结合网络爬虫技术以及数据分析技术为企业构建所需要的人才信息数据库,是一种快速高效并且准确可靠的简历数据库构建方法。

Description

一种海量高端人才信息数据搜索抓取方法
技术领域
本发明涉及一种海量高端人才信息数据搜索抓取的方法。
背景技术
现在的企业越来越倾向于从互联网上寻找自己需要的高层次人才。目前的简历获取手段一般分为两种。一种是门户招聘网站提供简历注册系统,应聘者在该网站注册自己的简历,然后企业从网站的简历数据库中寻找自己需要的人才,这种方式提供给企业的人才资源仅限于一个或者几个网站。另一种方式是企业在普通的互联网搜索引擎中根据主题词、网站名称、时间等少数几个条件进行简单的搜索请求,搜索出的结果很少,搜索结果的准确率也不高。
发明内容
本发明所要解决的技术问题是,提供一种快速高效并且准确可靠的简历抓取方法,构建企业所需要的人才信息数据库。
本发明的搜索抓取方法是结合网络爬虫的技术以及数据分析方法,把用户搜索的需求精细化,进行高级搜索以满足用户的要求。它能够避免人工搜索那种费时费力的情况,又能够达到人工搜索同样的准确结果。系统服务器可以24小时连续不断的抓取,得到的数据量较大。
本发明采用预先学习和网络爬虫的方法,加上数据分析的方式对搜索的内容进行准确定位,完成高层次人才简历的抓取工作。网络爬虫是用来搜索一个域名下的所有网页;预先学习和数据分析是运用技术手段预先对一定量的简历进行分析得出数据,然后利用这些数据对每一个新的网页进行分析,判断是否是用户需要的网页。
利用本发明中的技术,无需人工处理或者仅需很少的人工介入,通过服务器运行,就可以构建出各个专业的简历人才数据库。并且通过实际的运行,正确率在90%以上,收获了很好的效果。
附图说明:
图1为:简历url列表图
图2为:简历词汇图
图3为:简历散点图
图4为:简历散点+平均圆心图
图5为:优化的简历散点+平均圆心图
图6为:最小最大相切圆图
图7为:平均最小最大相切圆图
具体实施方式
本申请的简历搜索方法可根据企业的不同需求构建出不同领域的简历数据库。
作为一个具体的实施方式,以下给出一个构建外籍人才信息库的例子。
实施例1
步骤一、准备真实简历网页。
提供5000份简历网页,分为十组,每组500份简历网页。这些简历全部为英文简历,可以是用现有的网络爬虫技术用电脑从互联网上抓取的,也可以是人工从互联网上检索筛选的。
预先准备的简历url列表如图1所示。
步骤二、获取第一组简历中每一份简历的正文内容。
由人工获取每一份简历网页上的正文内容部分,即,去除每一份简历网页上的广告,网页头,网页尾等非正文的信息;最后由程序去除<html>标签代码。
步骤三、统计每一份简历的单词总数量T。
使用分词技术(或者人工处理),对步骤二中得到的正文内容进行进一步处理,即,去除虚词,保留实词。把每一份简历的所有单词保存下来,并统计每一份简历的单词总数量T和每个单词出现的次数,此时的单词总数量T指的是采用分词技术处理后的实词的数量。如图2所示。
步骤四、为每一份简历的词汇逐一打分。
具体步骤为,计算每一份简历中的每一个单词在该简历中的分值。
该分值=该单词在该简历中出现的次数/该简历中单词总数量T。
其中,单词总数量T是步骤三得到的。
步骤五、计算单词分值并排序。
为了体现500份简历中最常出现的单词是哪些,需要对500份简历中相同的单词的分值求和,得到500份简历中每一个不重复的单词的得分。例如:professor在第一份简历中的得分为0.0105分,professor在第二份简历中的得分为0.0053分,……在第500份简历中的得分为0.0094分,则professor这个词在500份简历中的得分为0.0105+0.0053+……+0.0094分。按照得分高低,取前100个单词,利用步骤五的所述分值求和后的得分前100个单词的分值命名为S1、S2、……S99、S100,该分值S1、S2、……S99、S100对应的单词分别为Word1、Word2……Word99、Word100。当然按照不同准确度的需要,还可以取前50~1000个单词。
步骤六、计算每一份简历的“评价分值”。
利用步骤五中的S1、S2、……S99、S100,对这500份简历进行打分。即,对于每一份前历,当该简历中每出现一次Word1、Word2……Word99、Word100中的一个,就将该单词对应的分值相加。得到这500份简历中每一份简历的评价分值Yi,i=1,2,……,499,500。Y1为第一份简历的评价分值,依此类推,Y500为第500份简历的评价分值。例如:第1份简历中出现了排名第5,8,45,72的单词各一次,还出现了排名第33的单词3次,则Y1=S5*1+S8*1+S45*1+S72*1+S33*3。
步骤七、计算500份简历的平均评价分值
Y &OverBar; = &Sigma; i = 1 500 Y i / 500
步骤八、由计算机程序自动计算每一份简历的url长度。
计算机计算每一份简历的url长度Li,i=1,2,……,499,500,此处的i与前面出现的i一致,即,第一份简历对应的url长度为L1,依此类推,第500份简历对应的url长度为L500
步骤九,计算500份简历的url长度Li的平均值
经过人工比较发现,500份简历中大多数简历的url长度都集中在url长度均值附近,因而判断某个网页是否为简历,其url长度也是一个考量参数。
url长度平均值 L &OverBar; = &Sigma; i = 1 500 L i / 500
其中Li是第i份简历的url的长度。
步骤十、建立二维坐标系。
将简历的url长度作为X轴,简历的评价分值作为Y轴,每一份简历对应到该二维坐标系中的坐标为(Li,Yi),其中i=1,2,……499,500的自然数,X坐标Li是步骤八中的结果,Y坐标Yi是步骤六的结果,得到500个点对应的散点图,如图3所示。
步骤十一、绘制圆心。
将步骤九中的作为圆心的X坐标,步骤七中得到的作为圆心的Y坐标,绘制到图3中,如图4所示。
步骤十二、人工或者电脑去除图3中离圆心最远的100个点。当然根据精度的不同,也可以去除离圆心最远的10~200个点等等,如图5所示。
步骤十三、计算最小相切圆半径和最大相切圆半径:
最小相切圆半径为离圆心最近的点和圆心之间的距离;最大相切圆半径为步骤十二中去掉离圆心最远的100个点后,离圆心最远的点和圆心之间的距离。从圆心开始,做出这个散点图的最小相切圆和最大相切圆,其中最小相切圆指的是以所述最小相切圆半径为半径,做出的圆。最大相切圆指的是以所述最大相切圆半径为半径做出的圆,如图6所示。
步骤十四、对剩下九组简历,重复步骤二到步骤十三。
得到10组圆心和10组圆半径。
圆心为Ci,i=1,2,……,9,10,
最小相切圆半径为ri,i=1,2,……,9,10,
最大相切圆半径为Ri,i=1,2,……,9,10,
步骤十五、求圆心和半径的平均值
圆心的平均值为10组圆心X,Y轴坐标的平均值,
最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值。
在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆,其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心,以所述最小/最大相切圆半径的平均值作为半径所得到的圆,如图7所示。
步骤十六、计算抓取新网页的最终评价分值V。
为了构建简历信息库,用网络爬虫技术从互联网上抓取一新网页,利用第一组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第一评价分值V1;依此类推,利用第二组至第十组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第二至第十评价分值V2至V10,则该新网页的最终评价分值
V = &Sigma; i = 1 10 V i / 10 .
步骤十七、计算抓取新网页的url长度。
由计算机程序自动计算新网页的url长度L。
步骤十八、判断抓取的新网页是否为一份简历。
步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V。将L作为X坐标,V作为Y坐标,标记在图7中。如果落在最小相切圆中就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的也判断为一份简历,称之为散点面最大相切圆简历,没有落在这两个圆中的判断为非简历。最后将判断为简历的网页数据保存至人才信息数据库中。
步骤十九、不断重复步骤十六至步骤十八,抓取更多的新网页,每抓取一份新网页,就判断其是否为一份简历,是简历就保存到人才信息数据库中,直到该人才信息数据库的简历达到预定数量为止。该预定数量例如是5000份,10000份,100000份或者更多。
抓取新网页判断为简历的正确率与步骤一准备的真实简历数量有关,真实简历数量越多,由真实简历总结的这些真实简历中常见词汇的分值越准确,计算出的圆心、最小/最大相切圆半径、抓取的新网页的评价分值都更加准确,从而抓取新网页判断为简历的正确率也越高。
实施例2
实施例2的步骤一至步骤十六与实施例1完全相同。步骤十六后还包括如下步骤十七’至二十一’。
步骤十七’、计算新网页的最终负向评价分值A。
基于相同的原理,取10组每组500份不是简历的网页,按照步骤二至步骤五分别计算出这10组不是简历的网页中各组出现次数最多的前100个单词,将所述10组不是简历的网页中出现次数最多的前100个单词的分值规定为负分值,利用第一组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第一负向评价分值A1,依此类推,利用第二组至第十组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第二至第十组负向评价分值A2至A10,则该新网页的最终负向评价分值
步骤十八’、计算抓取的新网页的最终评价分值W。
该新网页的最终评价分值W是:W=(V)+(A)
其中V是该新网页利用步骤十六计算出的新网页评价分值;A是该新网页利用步骤十七’计算出的该新网页的最终负向评价分值。
步骤十九’、计算抓取新网页的url长度。
由计算机程序自动计算新网页的url长度L。
步骤二十’、判断抓取的新网页是否为一份简历。
在步骤十九’中计算出的网页的url长度L和步骤十八’中计算出该新网页的最终评价分值W。L作为X坐标,W作为Y坐标,标记在图6中。落在最小相切圆中或落在最小相切圆上就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历。最后将判断为简历的网页数据保存至人才信息数据库中。
步骤二十一’、不断重复步骤十六、步骤十七’至步骤二十’,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库达到预定数量的简历为止。
实施例3
步骤一、准备真实简历。
提供5000份简历,分为十组,每组500份简历。这些简历全部为中文简历,或日文简历,或韩文简历,或任一种语言的简历,可以是用现有的网络爬虫技术用电脑抓取的,也可以是人工从互联网上检索筛选的。其余步骤和实施例1的步骤二至步骤十九相同。

Claims (6)

1.一种海量高端人才信息数据搜索抓取方法,用于抓取互联网上简历以构建简历人才库,其特征在于,包括如下步骤:
步骤一,准备5000份真实的简历网页,分为10组,每组500份简历网页,所述简历网页是利用现有的网络爬虫技术或人工从互联网上抓取的;
步骤二、获取第一组简历中每一份简历的正文内容:
由人工获取每一份简历网页上的正文内容部分,即,去除每一份简历网页上的广告,网页头,网页尾;最后由程序去除<html>标签代码;
步骤三、统计每一份简历的单词总数量T:
使用分词技术或者人工处理,对步骤二中得到的正文内容进行进一步处理,即,去除虚词,保留实词;把每一份简历的所有单词保存下来,并统计每一份简历的单词总数量T和每个单词出现的次数,此时的单词总数量T指的是采用分词技术或者人工处理后的实词的数量;步骤四、为每一份简历的词汇逐一打分:
具体步骤为,计算每一份简历中的每一个单词在该简历中的分值;
该分值=该单词在该简历中出现的次数/该简历中单词总数量T;
其中,单词总数量T是步骤三得到的;
步骤五、计算单词分值并排序:
为了体现500份简历中最常出现的单词是哪些,需要对500份简历中相同的单词的分值求和,得到500份简历中每一个不重复的单词的得分;按照得分高低,取前100个单词,将所述分值求和后的得分前100个单词的分值命名为S1、S2、……S99、S100,该分值S1、S2、……S99、S100对应的单词分别为Word1、Word2……Word99、Word100
步骤六、计算每一份简历的“评价分值”:
利用步骤五中的S1、S2、……S99、S100,对这500份简历进行打分;
即,对于每一份简历,当该简历中每出现一次Word1、Word2……Word99、Word100中的一个,就将该单词对应的分值相加,得到这500份简历中每一份简历的评价分值Yi,i=1,2……,499,500,其中Y1为第一份简历的评价分值,依此类推,Y500为第500份简历的评价分值;步骤七、计算500份简历的平均评价分值
Y &OverBar; = &Sigma; i = 1 500 Y i / 500 ;
步骤八、由计算机程序自动计算每一份简历的url长度Li,i=1,2,……,499,500;
步骤九,计算500份简历的url长度Li的平均值
url长度平均值 L &OverBar; = &Sigma; i = 1 500 L i / 500 ,
其中Li是第i份简历的url的长度;
步骤十、建立二维坐标系:
将简历的url长度作为X轴,简历的评价分值作为Y轴,每一份简历对应到该二维坐标系中的坐标为(Li,Yi),其中i=1,2,……499,500的自然数,X坐标Li是步骤八中的结果,Y坐标Yi是步骤六的结果,得到500个点对应的散点图;
步骤十一、绘制圆心:
将步骤九中的作为圆心的X坐标,步骤七中得到的作为圆心的Y坐标;
步骤十二、人工或者电脑去除步骤十中离圆心最远的100个点;
步骤十三、计算最小相切圆半径和最大相切圆半径:
最小相切圆半径为离圆心最近的点和圆心之间的距离;最大相切圆半径为步骤十二中去掉离圆心最远的100个点后,离圆心最远的点和圆心之间的距离;
步骤十四、对剩下的九组简历,重复步骤二到步骤十三;
得到10组圆心和10组圆半径,
圆心为Ci,i=1,2,……,9,10,
最小相切圆半径为ri,i=1,2,……,9,10,
最大相切圆半径为Ri,i=1,2,……,9,10,
步骤十五、求圆心和半径的平均值:
圆心的平均值为10组圆心X,Y轴坐标的平均值,
最小/最大相切圆半径的平均值为这10组最小/最大相切圆半径的长度平均值,在二维坐标系中绘制出圆心的平均值所在的点、平均最小相切圆和平均最大相切圆,其中平均最小/最大相切圆指的是以该圆心的平均值所在的点为圆心,以所述最小/最大相切圆半径的平均值作为半径所得到的圆;
步骤十六、计算抓取新网页的最终评价分值V:
为了构建简历信息库,用网络爬虫技术从互联网上抓取一新网页,利用第一组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第一评价分值V1;依此类推,利用第二组至第十组简历在步骤五中得到的前100个单词对该新网页按照步骤六打分,得到该新网页的第二至第十评价分值V2至V10,则该新网页的最终评价分值 V = &Sigma; i = 1 10 V i / 10 ;
步骤十七、计算抓取新网页的url长度:
由计算机程序自动计算该新网页的url长度L;
步骤十八、判断抓取的新网页是否为一份简历:
步骤十七中计算出了网页的url长度L以及步骤十六中计算出了该网页的最终评价分值V;以L作为X坐标,V作为Y坐标,将(L,V)标记在步骤十五所述的二维坐标系中;如果落在最小相切圆中或落在最小相切圆上就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或者落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历;最后将判断为简历的网页数据保存至人才信息数据库中;
步骤十九、不断重复步骤十六至步骤十八,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库的简历达到预定数量为止。
2.如权利要求1所述的方法,步骤一中所有简历均为英文、或中文、或日文、或韩文或其他任何一种语言的简历。
3.如权利要求1所述的方法,将步骤一中每组500份简历替换为每组501~1000份简历。
4.如权利要求1所述的方法,将步骤五中前100个单词替换为前101~1000个单词。
5.如权利要求1所述的方法,将步骤十二和步骤十三中所述100个点替换为101~200个点。
6.如权利要求1所述的方法,将步骤十七至步骤十九替换为如下步骤:
步骤十七’、计算新网页的最终负向评价分值A:
基于相同的原理,取10组每组500份不是简历的网页,按照步骤二至步骤五分别计算出这10组不是简历的网页中各组出现次数最多的前100个单词,将所述10组不是简历的网页中出现次数最多的前100个单词的分值规定为负分值,利用第一组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第一负向评价分值A1,依此类推,利用第二组至第十组不是简历的网页在步骤五中得到的前100个单词对步骤十六抓取的所述新网页按照步骤六的方法打分,得到该新网页的第二至第十组负向评价分值A2至A10,则该新网页的最终负向评价分值
步骤十八’、计算抓取的新网页的最终评价分值W:
该新网页的最终评价分值W是:W=V+A,
其中V是该新网页利用步骤十六计算出的该新网页最终评价分值;A是该新网页利用步骤十七’计算出的该新网页的最终负向评价分值;
步骤十九’、由计算机程序自动计算新网页的url长度L;
步骤二十’、判断抓取的新网页是否为一份简历:
在步骤十九’中计算出的网页的url长度L和步骤十八’中计算出该网页的最终评价分值W;以L作为X坐标,W作为Y坐标,将(L,W)标记在步骤十五所述的所述二维坐标系中;落在最小相切圆中或落在最小相切圆上的就将其判断为一份简历,称之为散点面最小相切圆简历,落在最小相切圆和最大相切圆之间的或落在最大相切圆上的也判断为一份简历,称之为散点面最大相切圆简历,落在最大相切圆外的判断为非简历;最后将判断为简历的网页数据保存至人才信息数据库中;
步骤二十一’、不断重复步骤十六、步骤十七’至步骤二十’,抓取更多的新网页,每抓取一新网页,就判断其是否为一份简历,是简历则保存到人才信息数据库中,直到该人才信息数据库达到预定数量的简历为止。
CN201210444935.XA 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法 Expired - Fee Related CN103177060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210444935.XA CN103177060B (zh) 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210444935.XA CN103177060B (zh) 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法

Publications (2)

Publication Number Publication Date
CN103177060A CN103177060A (zh) 2013-06-26
CN103177060B true CN103177060B (zh) 2016-08-03

Family

ID=48636934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210444935.XA Expired - Fee Related CN103177060B (zh) 2012-11-09 2012-11-09 一种海量高端人才信息数据搜索抓取方法

Country Status (1)

Country Link
CN (1) CN103177060B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413742B (zh) * 2019-08-08 2022-03-29 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN111950992A (zh) * 2020-08-27 2020-11-17 深圳前海立方信息技术有限公司 一种高端人才信息综合服务管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752396A (ja) * 1993-08-11 1995-02-28 Canon Inc 記録ヘッド吐出回復方法、その装置およびそれを搭載したインクジェット記録装置
DE102004009688A1 (de) * 2004-02-27 2005-09-08 Kugelmann, Siegfried Verfahren zur Steuerung eines Streufahrzeugs
CN1725975A (zh) * 2002-12-12 2006-01-25 奥林巴斯株式会社 信息处理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752396A (ja) * 1993-08-11 1995-02-28 Canon Inc 記録ヘッド吐出回復方法、その装置およびそれを搭載したインクジェット記録装置
CN1725975A (zh) * 2002-12-12 2006-01-25 奥林巴斯株式会社 信息处理装置
DE102004009688A1 (de) * 2004-02-27 2005-09-08 Kugelmann, Siegfried Verfahren zur Steuerung eines Streufahrzeugs

Also Published As

Publication number Publication date
CN103177060A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
WO2019227710A1 (zh) 网络舆情的分析方法、装置及计算机可读存储介质
AU2017408801B2 (en) User keyword extraction device and method, and computer-readable storage medium
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
CN107506389B (zh) 一种提取职位技能需求的方法和装置
US9245035B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
CN107844595B (zh) 一种求职网站职位智能推荐方法
CN111737485A (zh) 基于知识图谱、深度学习的人岗匹配方法、人岗匹配系统
CN103577462A (zh) 一种文档分类方法及装置
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
CN106815265B (zh) 裁判文书的搜索方法及装置
CN105654201A (zh) 一种广告流量预测方法及装置
CN107688563B (zh) 一种同义词的识别方法及识别装置
CN105653547A (zh) 一种提取文本关键词的方法和装置
CN112100999A (zh) 一种简历文本相似度匹配方法和系统
CN113592036A (zh) 流量作弊行为识别方法、装置及存储介质和电子设备
CN102855276A (zh) 一种判定评论文本极性的方法及其应用
CN103177060B (zh) 一种海量高端人才信息数据搜索抓取方法
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
CN110442729A (zh) 一种基于粗燥集的语料库系统构建方法
EP2469463A1 (en) A method and a system for analysing traffic on a website by means of path analysis
CN109460895A (zh) 构建社会单位画像的方法及系统
CN106919603B (zh) 计算查询词模式中分词权重的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160803

Termination date: 20161109

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Wang Yong

Document name: Notification of Termination of Patent Right