CN102043796A - 基于互联网的信息收集方法及装置 - Google Patents

基于互联网的信息收集方法及装置 Download PDF

Info

Publication number
CN102043796A
CN102043796A CN2009101971558A CN200910197155A CN102043796A CN 102043796 A CN102043796 A CN 102043796A CN 2009101971558 A CN2009101971558 A CN 2009101971558A CN 200910197155 A CN200910197155 A CN 200910197155A CN 102043796 A CN102043796 A CN 102043796A
Authority
CN
China
Prior art keywords
information
file
network information
files
information files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101971558A
Other languages
English (en)
Inventor
金峰
周健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi CSMC Semiconductor Co Ltd
Original Assignee
CSMC Technologies Corp
Wuxi CSMC Semiconductor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSMC Technologies Corp, Wuxi CSMC Semiconductor Co Ltd filed Critical CSMC Technologies Corp
Priority to CN2009101971558A priority Critical patent/CN102043796A/zh
Publication of CN102043796A publication Critical patent/CN102043796A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于互联网的信息收集方法及装置,其方法包含如下步骤:(a)接收多个网络信息文件;(b)根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置;(c)将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置;(d)分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;(e)生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件;其中,步骤(d)中的所述关键字段通过预先设置确定。本发明方便了网络信息文件的统一管理与归类,提高了筛选网络信息文件的效率。

Description

基于互联网的信息收集方法及装置
【技术领域】
本发明涉及数据库管理技术领域,特别是涉及一种基于互联网的信息收集方法及装置。
【背景技术】
互联网上具有庞大的信息资源,如果善于利用,并对所需要的资源进行有效的管理,可以极大提高工作效率。例如,作为人才招聘时一种重要的信息资源,简历资料的收集和管理对于用人单位而言十分重要。随着互联网技术的发展,利用网络来发现和招聘人才已经是许多企事业单位的一个重要途径。从网络上获取人才信息不仅可以使企事业单位的相关部门减小工作量,同时也提高了准确性和办事效率。
然而,在基于互联网收集简历信息的过程中,还存在很多问题。当前,大部分的企业进行员工招聘时是由招聘人员在不同的招聘网站上发布招聘信息以吸引人才,这样虽然获得的收获比较大,但也会带来一些管理上的麻烦,招聘专员每天要打开不同的招聘网站去挑选人才,花费很多时间,此外,从各网站得到的简历无法进行统一归类,也不方便进行对比。目前,市场上也有一些利用搜索引擎技术的简历抓取程序,用于进行简历信息的搜索和收集,但这些程序又常常得不到各招聘网站的支持,使用起来不够方便。
【发明内容】
本发明的目的在于解决现有技术中存在的上述问题,提供一种基于互联网的信息收集方法,该方法能够实现对网络信息的统一归类,将各种来源的网络信息统一入库,且不需要网站特殊的技术支持。
根据上述目的,本发明提出一种基于互联网的信息收集方法,至少包含如下步骤:
(a)接收多个网络信息文件;
(b)根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置;
(c)将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置;
(d)分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;
(e)生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件;
其中,步骤(d)中的所述关键字段通过预先设置确定。
在本发明的一个实施例中,所述网络信息文件为简历文件。
所述步骤(a)中的简历文件由用户直接提供或通过电子邮箱接收到的邮件提供。
所述电子邮箱利用招聘网站提供的接口接收邮件。
所述步骤(b)中的分类规则为按照职位类别分类。
所述步骤(d)中分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。
所述步骤(e)中进一步包括将所生成的具有统一格式的文件与原始网络信息文件设置为关联的步骤。
所述关键字段包含姓名、性别、学历、工作经验和联系方式中的一项或多项。
本发明还提供一种基于互联网的信息收集装置,该装置包含:
信息接收单元,用于接收网络信息文件;
存储分配单元,用于根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置;
信息分类单元,用于将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置;
信息分析单元,用于分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;
数据生成单元,生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件并纳入本地数据库中;以及
本地数据库,用于存储所述具有统一格式的文件。
在本发明的一个实施例中,所述网络信息文件为简历文件。
所述简历文件由用户直接提供或通过电子邮箱接收到的邮件提供。
所述电子邮箱利用招聘网站提供的接口接收简历文件。
所述分类规则为按照职位类别分类。
所述信息分析单元分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。
所述数据生成单元进一步将所生成的具有统一格式的文件与原始网络信息文件设置为关联。
所述关键字段包含姓名、性别、学历、工作经验和联系方式中的一项或多项。
本发明的有益效果在于,解决了现有技术中搜索出来的网络信息无法分类,过于凌乱的缺点,实现了将多种途径收集到的网络信息统一归类。此外,本发明对网络信息的相关信息内容根据需要进行整理后统一归入本地的数据库中,方便用户日后的调取、查阅和进行对比。
【附图说明】
图1为本发明基于互联网的信息收集方法的流程图。
图2为本发明基于互联网的信息收集装置的框图。
【具体实施方式】
为了让本发明的目的、特征和优点能更明显易懂,下文特举一较佳实施例,并配合所附图示,做详细说明如下。
图1为本发明流程图,一种基于互联网的信息收集方法,该方法至少包含如下步骤:
步骤S10,接收多个网络信息文件。在一种实施方式中,所述网络信息可以是简历文件。
步骤S20,根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置。
步骤S30,将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置。
步骤S40,分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;其中,所述关键字段通过预先设置确定。
步骤S50,生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件。
在本具体实施方式中,所述网络信息文件为简历文件,其来源于用户直接提供或通过电子邮箱接收到的邮件获得,作为较佳的具体实施方式,所述电子邮箱利用招聘网站提供的接口接收简历文件,可以提高成功接收简历文件的几率。
参见图1并结合图2所示,一种基于互联网的信息收集装置,该装置包含:信息接收单元10,用于接收网络信息文件;存储分配单元20,用于根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置;信息分类单元30,用于将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置;信息分析单元40,用于分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;数据生成单元50,生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件并纳入本地数据库中;以及本地数据库60,用于存储所述具有统一格式的文件。
具体而言:
在步骤S10中,接收多个简历文件,这些简历文件可以是本地邮箱通过多个不同招聘网站的电子邮件接口接收到以后,导入信息接收单元10中的文档,也可以是由用户直接添加到信息接收单元10的文档。由于接收邮件的电子邮箱是通过招聘网站提供的接口接收邮件,因此不用担心被招聘网站屏蔽的问题。
在步骤S20中,存储分配单元20按照职位类别为每一职位分配相应的存储位置,职位类别是由招聘企业根据其需要的招聘岗位预设的。例如,企业拟招聘“工艺工程师”和“软件工程师”这两个职位,则分别创建“工艺工程师”和“软件工程师”两个文件夹,并为其分配存储位置。
在步骤S30中,信息分类单元30将接收到的多个简历文件根据不同职位分别保存到各自的存储位置。例如,在本具体实施方式中,将应聘“工艺工程师”的简历全部保存到“工艺工程师”文件夹中,“软件工程师”的简历全部保存到“软件工程师”的文件夹中。
在步骤S40中,信息分析单元40对各相关职位文件夹中的简历文件进行信息分析并抓取简历中的关键字段的信息。其中,关键字段依据需要可以自由设定,例如包含姓名、性别、学历、有几年工作经验以及联系方式等。在本具体实施方式中,对这些指定字段信息的解析方式采用正则表达式以及KMP算法,正则表达式通常用来设定一个规范的表达式,也就是判断一个表达式是否符合特定要求,例如判断一串表达式是不是符合电子邮件地址格式等,它能够检查给定的字符串是否符合规则的属性。将正则表达式与KMP算法相结合,可以从简历中抓取到关键字段信息,把它们提取出来,使得应聘人员的基本信息一目了然。
在步骤S50中,数据生成单元50利用抓取到的关键字段的信息生成具有统一格式的文件,并保存所述具有统一格式的文件。例如“工艺工程师”文件夹中共有两份简历,分别为应聘者张三及李四,而“软件工程师”文件夹中有三份简历,分别为应聘者王五、赵六和刘七,则通过抓取到的关键字段信息会按照职位类别生成两份统一格式的文件,一份为“工艺工程师”的两位应聘者资料,另一份为“软件工程师”的三位应聘者资料。以生成“工艺工程师”的应聘者资料为例,数据生成单元50将张三和李四的姓名、性别、学历、有无工作经验以及联系方式等关键字段信息提取出来填入一份包含上述内容的统一格式文件,并将该统一格式文件纳入本地数据库60中,作为较佳的具体实施方式,张三与李四的关键字段信息还与他们的原始简历设置为关联。此时,招聘人员通过浏览本地数据库60中的统一格式文件时就取得了类似于电子目录的效果,例如,浏览应聘“工艺工程师”这个职位的人选时,两位应聘者张三和李四的姓名、性别、学历、工作经验和联系方式等基本信息一目了然,便于对比。此外,由于个人关键字段信息与简历相关联,若需要进一步调取某人详细简历的时候也十分方便。
由此,即可实现将不同简历接收途径接收到的简历统一归类到不同岗位,从而提高筛选简历的效率。此外,将各种来源的简历统一纳入本地数据库中,也方便了用户的查找、对比与管理。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围内。

Claims (10)

1.一种基于互联网的信息收集方法,其特征在于,包含如下步骤:
(a)接收多个网络信息文件;
(b)根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置;
(c)将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置;
(d)分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;
(e)生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件;
其中,步骤(d)中的所述关键字段通过预先设置确定。
2.根据权利要求1所述的基于互联网的信息收集方法,其特征在于,所述网络信息文件为简历文件。
3.根据权利要求1所述的基于互联网的信息收集方法,其特征在于,所述步骤(d)中分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。
4.根据权利要求1所述的基于互联网的信息收集方法,其特征在于,所述步骤(e)中进一步包括将所生成的具有统一格式的文件与原始网络信息文件设置为关联的步骤。
5.一种基于互联网的信息收集装置,其特征在于,该装置包含:
信息接收单元,用于接收网络信息文件;
存储分配单元,用于根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置;
信息分类单元,用于将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置;
信息分析单元,用于分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息;
数据生成单元,生成具有统一格式的文件,并将所述关键字段的信息填充至所述统一格式的文件并纳入本地数据库中;以及
本地数据库,用于存储所述具有统一格式的文件。
6.根据权利要求5所述的基于互联网的信息收集装置,其特征在于,所述网络信息文件为简历文件。
7.根据权利要求6所述的基于互联网的信息收集装置,其特征在于,所述简历文件由用户直接提供或通过电子邮箱接收到的邮件提供。
8.根据权利要求6所述的基于互联网的信息收集装置,其特征在于,所述关键字段包含姓名、性别、学历、工作经验和联系方式中的一项或多项。
9.根据权利要求5所述的基于互联网的信息收集装置,其特征在于,所述信息分析单元分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。
10.根据权利要求5所述的基于互联网的信息收集装置,其特征在于,所述数据生成单元进一步将所生成的具有统一格式的文件与原始网络信息文件设置为关联。
CN2009101971558A 2009-10-14 2009-10-14 基于互联网的信息收集方法及装置 Pending CN102043796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101971558A CN102043796A (zh) 2009-10-14 2009-10-14 基于互联网的信息收集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101971558A CN102043796A (zh) 2009-10-14 2009-10-14 基于互联网的信息收集方法及装置

Publications (1)

Publication Number Publication Date
CN102043796A true CN102043796A (zh) 2011-05-04

Family

ID=43909938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101971558A Pending CN102043796A (zh) 2009-10-14 2009-10-14 基于互联网的信息收集方法及装置

Country Status (1)

Country Link
CN (1) CN102043796A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523172A (zh) * 2011-11-30 2012-06-27 深圳市五巨科技有限公司 一种批量处理邮件信息的方法和装置
CN104361441A (zh) * 2014-11-04 2015-02-18 青岛瑞信八方网络技术有限公司 智能简历投放方法
CN105183742A (zh) * 2015-06-12 2015-12-23 南京富士通南大软件技术有限公司 一种简历识别方法
CN106230890A (zh) * 2016-07-15 2016-12-14 中电长城网际系统应用有限公司 一种消息归一化处理方法及系统
CN106920070A (zh) * 2017-02-13 2017-07-04 济南浪潮高新科技投资发展有限公司 一种简历收集方法、装置及系统
CN107133779A (zh) * 2017-05-02 2017-09-05 山东浪潮通软信息科技有限公司 一种多域通信主动式收集简历的方法、系统及浏览器插件
CN107563725A (zh) * 2017-08-25 2018-01-09 浙江网新恒天软件有限公司 一种优化繁琐人才招聘过程的招聘系统
WO2018006255A1 (zh) * 2016-07-05 2018-01-11 马岩 网络邮件数据的搜集方法及系统
WO2018068660A1 (zh) * 2016-10-12 2018-04-19 阿里巴巴集团控股有限公司 一种数据处理方法、装置和设备
CN108959618A (zh) * 2018-07-18 2018-12-07 北京欣欣苹果网络科技有限公司 互联网信息收集及处理方法和装置
CN109472553A (zh) * 2018-11-12 2019-03-15 用友网络科技股份有限公司 一种基于浏览器插件的多域通信推拉式双向收集简历的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046808A (zh) * 2006-03-31 2007-10-03 株式会社理光 一种文档处理系统和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046808A (zh) * 2006-03-31 2007-10-03 株式会社理光 一种文档处理系统和方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523172A (zh) * 2011-11-30 2012-06-27 深圳市五巨科技有限公司 一种批量处理邮件信息的方法和装置
CN104361441A (zh) * 2014-11-04 2015-02-18 青岛瑞信八方网络技术有限公司 智能简历投放方法
CN105183742A (zh) * 2015-06-12 2015-12-23 南京富士通南大软件技术有限公司 一种简历识别方法
WO2018006255A1 (zh) * 2016-07-05 2018-01-11 马岩 网络邮件数据的搜集方法及系统
CN106230890A (zh) * 2016-07-15 2016-12-14 中电长城网际系统应用有限公司 一种消息归一化处理方法及系统
WO2018068660A1 (zh) * 2016-10-12 2018-04-19 阿里巴巴集团控股有限公司 一种数据处理方法、装置和设备
CN106920070A (zh) * 2017-02-13 2017-07-04 济南浪潮高新科技投资发展有限公司 一种简历收集方法、装置及系统
CN107133779A (zh) * 2017-05-02 2017-09-05 山东浪潮通软信息科技有限公司 一种多域通信主动式收集简历的方法、系统及浏览器插件
CN107563725A (zh) * 2017-08-25 2018-01-09 浙江网新恒天软件有限公司 一种优化繁琐人才招聘过程的招聘系统
CN108959618A (zh) * 2018-07-18 2018-12-07 北京欣欣苹果网络科技有限公司 互联网信息收集及处理方法和装置
CN109472553A (zh) * 2018-11-12 2019-03-15 用友网络科技股份有限公司 一种基于浏览器插件的多域通信推拉式双向收集简历的方法和装置

Similar Documents

Publication Publication Date Title
CN102043796A (zh) 基于互联网的信息收集方法及装置
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US20210004530A1 (en) Systems and methods for annotating and linking electronic documents
CN100535896C (zh) 用于计算机系统体系结构的上下文关联图表
CN112364223B (zh) 一种数字档案馆系统
CN105765559A (zh) 交互式案件管理系统
CN110852699A (zh) 一种档案电子化智能管理系统及方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN106095966B (zh) 一种用户可扩展的标签标注方法及系统
CN102566945A (zh) 一种实现图书自动组稿按需印刷的方法和系统
CN104616134B (zh) 一种报表分析报告推送方法及装置
CN112100181B (zh) 一种基于沙盘的数据资源管理方法
CN103473289A (zh) 一种通信地址补全的装置及方法
CN109559093A (zh) 一种便于猎头整合多平台招聘信息的一键发布系统
CN102253939A (zh) 一种基于云计算技术的搜索方法及系统
CN106920070A (zh) 一种简历收集方法、装置及系统
CN108415948A (zh) 一种信访信息自动化管理方法、电子设备及存储介质
CN105389482A (zh) 一种基于云平台的大数据分析方法
US12086538B2 (en) Method for generating online report using form structure definition DB, and computer program for same
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质
CN104462588A (zh) 一种基于云数据库的知识产权检索系统
CN112380264A (zh) 一种基于个人全生命周期的政策解析和匹配的方法及装置
CN109242416B (zh) 一种检查管理系统
CN108132940A (zh) 一种应用程序数据提取方法及装置
CN112000870A (zh) 一种基于用户信息的申报方案生成方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: WUXI HUARUN SHANGHUA TECHNOLOGY CO., LTD.

Effective date: 20120312

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 214061 WUXI, JIANGSU PROVINCE TO: 214028 WUXI, JIANGSU PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20120312

Address after: 214028 Wuxi provincial high tech Industrial Development Zone, Hanjiang Road, No. 5, Jiangsu, China

Applicant after: Wuxi CSMC Semiconductor Co., Ltd.

Address before: 214061 No. 5 Hanjiang Road, national hi tech Industrial Development Zone, Wuxi, Jiangsu, China

Applicant before: Wuxi CSMC Semiconductor Co., Ltd.

Co-applicant before: Wuxi Huarun Shanghua Technology Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110504