CN112307290A - 基于互联网的人才信息定向抓取方法 - Google Patents

基于互联网的人才信息定向抓取方法 Download PDF

Info

Publication number
CN112307290A
CN112307290A CN202010984080.4A CN202010984080A CN112307290A CN 112307290 A CN112307290 A CN 112307290A CN 202010984080 A CN202010984080 A CN 202010984080A CN 112307290 A CN112307290 A CN 112307290A
Authority
CN
China
Prior art keywords
text data
talent
information
screening
capturing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010984080.4A
Other languages
English (en)
Inventor
张书华
张雪丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qidi Career Technology Co ltd
Original Assignee
Shenzhen Qidi Career Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qidi Career Technology Co ltd filed Critical Shenzhen Qidi Career Technology Co ltd
Priority to CN202010984080.4A priority Critical patent/CN112307290A/zh
Publication of CN112307290A publication Critical patent/CN112307290A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Abstract

本发明公开了基于互联网的人才信息定向抓取方法,包括以下步骤:抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;在抓取简历后便进行了多次筛选,删除了大量的问题简历,确保简历数据的整体质量,而且还对不同格式的简历进行了转换,让简历的格式统一,方便使用者进行人才筛选。

Description

基于互联网的人才信息定向抓取方法
技术领域
本发明涉及信息处理技术领域,具体为基于互联网的人才信息定向抓取方法。
背景技术
网络招聘即基于Web的招聘,是利用包含各种特性和资源的超媒体求职招聘程序来创造一种有意义的求职招聘环境,在这种求职招聘环境中求职招聘得到促进和支持。
申请号为CN201810097482.5的专利公开了基于大数据的人才招聘系统及方法,发明公开了基于大数据的人才招聘系统及方法,涉及企业招聘领域。本发明包括如下步骤:S001、采集海量简历信息,创建人才大数据信息库;S002、通过人才大数据信息库训练样本;S003、深度学习训练人才评分模型;S004、通过人才评分模型进行简历评分;S005、协同过滤算法互推人才和企业;S006、将人才能力信息可视化处理。本发明通过网络爬虫技术海量采集网站简历信息形成人才大数据库,利用深度学习算法构建人才数据评分模型,采用协同推荐算法快速精准推荐企业招聘人才并建立可视化人才能力评分图表,能够准确的进行人才能力评估,提升了企业在线求职灵活度,帮助企业和个人实现快速匹配。
但是,该基于大数据的人才招聘系统及方法也存在很多的问题,影响使用,例如,其人才简历多是直接从各个招聘网站爬取,由于各个招聘网站的经营策略不同,其获取的个人简历格式也不同,这给简历的筛选识别带来麻烦,而且简历没有经过检测筛选便进入人才信息库,简历质量参差不齐,简历重复缺项严重,给最后的人才筛选带来麻烦,为此提出基于互联网的人才信息定向抓取方法,来解决此问题。
发明内容
本发明的目的在于提供基于互联网的人才信息定向抓取方法,解决了人才简历多是直接从各个招聘网站爬取,由于各个招聘网站的经营策略不同,其获取的个人简历格式也不同,这给简历的筛选识别带来麻烦,而且简历没有经过检测筛选便进入人才信息库,简历质量参差不齐,简历重复缺项严重,给最后人才筛选带来麻烦的问题。
为实现上述目的,本发明提供如下技术方案:基于互联网的人才信息定向抓取方法,包括以下步骤:
步骤1:抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;
步骤2:抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;
步骤3:初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;
步骤4:编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;
步骤5:人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
优选的,所述在步骤1中,抓取的对象设置为应聘者发布的个人简历,且要求是近一年内更新或刷新过的个人简历。
优选的,所述在步骤2中,初步筛选以学历、技能筛选为主,年龄和工作时间筛选为辅。
优选的,所述在步骤2中,抓取下载的文本数据以word文本数据和PDF文本数据最优,网页文本数据次之。
优选的,所述在步骤3中,原始文本数据储存进入原始数据库前需要进行冗余判断,删除数据信息重复的文本数据。
优选的,所述在步骤4中,先对储存进入索引数据库的通用文本数据按照学历进行初步分类,形成初步分类集,然后再对初步分类集内部的通用文本数据按照技能进行再次分类,最后将分类好的信息进行储存。
优选的,所述在步骤4中,通用文本数据便是个人简历,内部信息按照统一的模板进行分布,个人简历编译转换时应将全部的图片、表格和文字等信息全部转换。
优选的,所述在步骤4中,编译转换后的通用文本数据存储进入索引数据库后,对储存进入索引数据库的通用文本数据进行冗余判断,删除数据信息重复的文本数据。
优选的,所述在步骤4中,索引数据库内部的通用文本数据与原始数据库内部对应的原始文本数据进行超链接,并将超链接储存进入通用文本数据。
优选的,所述在步骤5中,还可以将索引数据库内部的信息整合成Excel文本,使用者只需启动Excel文本阅读软件的筛选功能,便能按照需要进行检索。
与现有技术相比,本发明的有益效果是:本发明在抓取人才简历后便对简历进行了多次筛选,删除了大量的问题简历,确保简历数据的整体质量,而且还对不同格式的简历进行了转换,让简历的格式统一,方便使用者进行人才筛选。
具体实施方式
下面将通过实施例的方式对本发明作更详细的描述,这些实施例仅是举例说明性的而没有任何对本发明范围的限制。
本发明提供一种技术方案:基于互联网的人才信息定向抓取方法,包括以下步骤:
步骤1:抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;
步骤2:抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;
步骤3:初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;
步骤4:编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;
步骤5:人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
实施例一:
抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
实施例二:
在实施例一中,再加上下述工序:
在步骤1中,抓取的对象设置为应聘者发布的个人简历,且要求是近一年内更新或刷新过的个人简历,方便进行准确抓取,确保抓取的精准性。
抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
实施例三:
在实施例二中,再加上下述工序:
在步骤2中,初步筛选以学历、技能筛选为主,年龄和工作时间筛选为辅,抓取下载的文本数据以word文本数据和PDF文本数据最优,网页文本数据次之,提升抓取简历的质量,方便进行筛选。
抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
实施例四:
在实施例三中,再加上下述工序:
在步骤3中,原始文本数据储存进入原始数据库前需要进行冗余判断,删除数据信息重复的文本数据,减少冗余,避免简历重复。
抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
实施例五:
在实施例四中,再加上下述工序:
在步骤4中,先对储存进入索引数据库的通用文本数据按照学历进行初步分类,形成初步分类集,然后再对初步分类集内部的通用文本数据按照技能进行再次分类,最后将分类好的信息进行储存,通用文本数据便是个人简历,内部信息按照统一的模板进行分布,个人简历编译转换时应将全部的图片、表格和文字等信息全部转换,编译转换后的通用文本数据存储进入索引数据库后,对储存进入索引数据库的通用文本数据进行冗余判断,删除数据信息重复的文本数据,索引数据库内部的通用文本数据与原始数据库内部对应的原始文本数据进行超链接,并将超链接储存进入通用文本数据,方便使用者筛选简历,提升筛选的质量。
抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
实施例六:
在实施例五中,再加上下述工序:
在步骤5中,还可以将索引数据库内部的信息整合成Excel文本,使用者只需启动Excel文本阅读软件的筛选功能,便能按照需要进行检索,提供另一种筛选方法。
抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.基于互联网的人才信息定向抓取方法,其特征在于:包括以下步骤:
步骤1:抓取配置:将爬虫分布在实行抓取操作的主机上,通过主机控制爬虫,设置单个或多个人才网站的抓取配置信息,然后通过主机控制抓取信息的爬虫进入目标人才网站;
步骤2:抓取文本:先根据抓取配置信息利用各个人才网站自带的筛选功能进行初步的个人简历筛选,减少抓取的工作量,然后根据抓取配置信息从人才网站内抓取下载筛选后的文本数据,下载的文本数据包括网页文本数据、word文本数据和PDF文本数据;
步骤3:初步筛选:对抓取下载的文本数据进行整理和筛选,首先删除无效的或空白的文本数据,接着删除存在大量信息残缺的文本数据,文本数据整理和筛选完成后,保留剩余的文本数据,然后将保留下的文本数据作为原始文本数据储存至原始数据库;
步骤4:编译转换:对原始文本数据中的信息进行编译转换,主要是对原始文本数据中的图片、表格和文字信息等进行编译转换,各种格式的原始文本数据需要编译转换成统一的相关程序可以识别的通用文本数据,然后将编译转换后的通用文本数据存储进入索引数据库;
步骤5:人才筛选:将专用的筛选器载入索引数据库,使用者可以按照学历专业、职称、工作经历、掌握技能、年龄等标准在筛选器中进行筛选,从而得到相应的人才信息。
2.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤1中,抓取的对象设置为应聘者发布的个人简历,且要求是近一年内更新或刷新过的个人简历。
3.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤2中,初步筛选以学历、技能筛选为主,年龄和工作时间筛选为辅。
4.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤2中,抓取下载的文本数据以word文本数据和PDF文本数据最优,网页文本数据次之。
5.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤3中,原始文本数据储存进入原始数据库前需要进行冗余判断,删除数据信息重复的文本数据。
6.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤4中,先对储存进入索引数据库的通用文本数据按照学历进行初步分类,形成初步分类集,然后再对初步分类集内部的通用文本数据按照技能进行再次分类,最后将分类好的信息进行储存。
7.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤4中,通用文本数据便是个人简历,内部信息按照统一的模板进行分布,个人简历编译转换时应将全部的图片、表格和文字等信息全部转换。
8.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤4中,编译转换后的通用文本数据存储进入索引数据库后,对储存进入索引数据库的通用文本数据进行冗余判断,删除数据信息重复的文本数据。
9.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤4中,索引数据库内部的通用文本数据与原始数据库内部对应的原始文本数据进行超链接,并将超链接储存进入通用文本数据。
10.根据权利要求1所述的基于互联网的人才信息定向抓取方法,其特征在于:所述在步骤5中,还可以将索引数据库内部的信息整合成Excel文本,使用者只需启动Excel文本阅读软件的筛选功能,便能按照需要进行检索。
CN202010984080.4A 2020-09-18 2020-09-18 基于互联网的人才信息定向抓取方法 Withdrawn CN112307290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010984080.4A CN112307290A (zh) 2020-09-18 2020-09-18 基于互联网的人才信息定向抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010984080.4A CN112307290A (zh) 2020-09-18 2020-09-18 基于互联网的人才信息定向抓取方法

Publications (1)

Publication Number Publication Date
CN112307290A true CN112307290A (zh) 2021-02-02

Family

ID=74483917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010984080.4A Withdrawn CN112307290A (zh) 2020-09-18 2020-09-18 基于互联网的人才信息定向抓取方法

Country Status (1)

Country Link
CN (1) CN112307290A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590584A (zh) * 2021-07-23 2021-11-02 无锡海创智慧谷科技有限公司 一种基于大数据的人才库构建方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590584A (zh) * 2021-07-23 2021-11-02 无锡海创智慧谷科技有限公司 一种基于大数据的人才库构建方法

Similar Documents

Publication Publication Date Title
Thelwall Introduction to webometrics: Quantitative web research for the social sciences
Nicholson The Digital Turn: Exploring the methodological possibilities of digital newspaper archives
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
CN100440224C (zh) 一种搜索引擎性能评价的自动化处理方法
US20190286676A1 (en) Contextual content collection, filtering, enrichment, curation and distribution
US11762920B2 (en) Composite index on hierarchical nodes in the hierarchical data model within a case model
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
Ferri et al. KRC: KnowInG crowdsourcing platform supporting creativity and innovation
US11409814B2 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
US8918403B2 (en) Semantically ranking content in a website
CN103699370A (zh) 一种基于xml的问卷脚本语言设计和开发方法
CN112307290A (zh) 基于互联网的人才信息定向抓取方法
CN104517166A (zh) 应聘者技能评估方法、装置及系统
Klohs et al. Digitalization of Small and Medium-Sized Enterprises: An Analysis of the State of Research
Bosire Onyancha SELF-ARCHIVING BY LIS SCHOOLS IN SOUTH AFRICA: PRACTICES, CHALLENGES AND OPPORTUNITIES.
US20170032036A1 (en) System and Method for Model Creation in an Organizational Environment
CN110134866A (zh) 信息推荐方法及装置
CN110472125B (zh) 一种基于网络爬虫的多级页面的级联爬取方法和设备
CN110851612B (zh) 基于百科知识的移动应用知识图谱复合型补全方法及装置
Palaneeswaran et al. Knowledge mining of information sources for research in construction management
Oraee Identifying the information behavior in competitive intelligence process: a paradigm model for medical sciences universities
JP7003481B2 (ja) ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング
JP6510452B2 (ja) 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
Chen et al. The best answers? Think twice: identifying commercial campagins in the CQA forums

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210202