CN102043796A

CN102043796A - 基于互联网的信息收集方法及装置

Info

Publication number: CN102043796A
Application number: CN2009101971558A
Authority: CN
Inventors: 金峰; 周健
Original assignee: CSMC Technologies Corp; Wuxi CSMC Semiconductor Co Ltd
Current assignee: Wuxi CSMC Semiconductor Co Ltd
Priority date: 2009-10-14
Filing date: 2009-10-14
Publication date: 2011-05-04

Abstract

本发明提供了一种基于互联网的信息收集方法及装置，其方法包含如下步骤：(a)接收多个网络信息文件；(b)根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置；(c)将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置；(d)分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息；(e)生成具有统一格式的文件，并将所述关键字段的信息填充至所述统一格式的文件；其中，步骤(d)中的所述关键字段通过预先设置确定。本发明方便了网络信息文件的统一管理与归类，提高了筛选网络信息文件的效率。

Description

基于互联网的信息收集方法及装置

【技术领域】

本发明涉及数据库管理技术领域，特别是涉及一种基于互联网的信息收集方法及装置。

【背景技术】

互联网上具有庞大的信息资源，如果善于利用，并对所需要的资源进行有效的管理，可以极大提高工作效率。例如，作为人才招聘时一种重要的信息资源，简历资料的收集和管理对于用人单位而言十分重要。随着互联网技术的发展，利用网络来发现和招聘人才已经是许多企事业单位的一个重要途径。从网络上获取人才信息不仅可以使企事业单位的相关部门减小工作量，同时也提高了准确性和办事效率。

然而，在基于互联网收集简历信息的过程中，还存在很多问题。当前，大部分的企业进行员工招聘时是由招聘人员在不同的招聘网站上发布招聘信息以吸引人才，这样虽然获得的收获比较大，但也会带来一些管理上的麻烦，招聘专员每天要打开不同的招聘网站去挑选人才，花费很多时间，此外，从各网站得到的简历无法进行统一归类，也不方便进行对比。目前，市场上也有一些利用搜索引擎技术的简历抓取程序，用于进行简历信息的搜索和收集，但这些程序又常常得不到各招聘网站的支持，使用起来不够方便。

【发明内容】

本发明的目的在于解决现有技术中存在的上述问题，提供一种基于互联网的信息收集方法，该方法能够实现对网络信息的统一归类，将各种来源的网络信息统一入库，且不需要网站特殊的技术支持。

根据上述目的，本发明提出一种基于互联网的信息收集方法，至少包含如下步骤：

(a)接收多个网络信息文件；

(b)根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置；

(c)将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置；

(d)分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息；

(e)生成具有统一格式的文件，并将所述关键字段的信息填充至所述统一格式的文件；

其中，步骤(d)中的所述关键字段通过预先设置确定。

在本发明的一个实施例中，所述网络信息文件为简历文件。

所述步骤(a)中的简历文件由用户直接提供或通过电子邮箱接收到的邮件提供。

所述电子邮箱利用招聘网站提供的接口接收邮件。

所述步骤(b)中的分类规则为按照职位类别分类。

所述步骤(d)中分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。

所述步骤(e)中进一步包括将所生成的具有统一格式的文件与原始网络信息文件设置为关联的步骤。

所述关键字段包含姓名、性别、学历、工作经验和联系方式中的一项或多项。

本发明还提供一种基于互联网的信息收集装置，该装置包含：

信息接收单元，用于接收网络信息文件；

存储分配单元，用于根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置；

信息分类单元，用于将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置；

信息分析单元，用于分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息；

数据生成单元，生成具有统一格式的文件，并将所述关键字段的信息填充至所述统一格式的文件并纳入本地数据库中；以及

本地数据库，用于存储所述具有统一格式的文件。

在本发明的一个实施例中，所述网络信息文件为简历文件。

所述简历文件由用户直接提供或通过电子邮箱接收到的邮件提供。

所述电子邮箱利用招聘网站提供的接口接收简历文件。

所述分类规则为按照职位类别分类。

所述信息分析单元分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。

所述数据生成单元进一步将所生成的具有统一格式的文件与原始网络信息文件设置为关联。

本发明的有益效果在于，解决了现有技术中搜索出来的网络信息无法分类，过于凌乱的缺点，实现了将多种途径收集到的网络信息统一归类。此外，本发明对网络信息的相关信息内容根据需要进行整理后统一归入本地的数据库中，方便用户日后的调取、查阅和进行对比。

【附图说明】

图1为本发明基于互联网的信息收集方法的流程图。

图2为本发明基于互联网的信息收集装置的框图。

【具体实施方式】

为了让本发明的目的、特征和优点能更明显易懂，下文特举一较佳实施例，并配合所附图示，做详细说明如下。

图1为本发明流程图，一种基于互联网的信息收集方法，该方法至少包含如下步骤：

步骤S10，接收多个网络信息文件。在一种实施方式中，所述网络信息可以是简历文件。

步骤S20，根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置。

步骤S30，将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置。

步骤S40，分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息；其中，所述关键字段通过预先设置确定。

步骤S50，生成具有统一格式的文件，并将所述关键字段的信息填充至所述统一格式的文件。

在本具体实施方式中，所述网络信息文件为简历文件，其来源于用户直接提供或通过电子邮箱接收到的邮件获得，作为较佳的具体实施方式，所述电子邮箱利用招聘网站提供的接口接收简历文件，可以提高成功接收简历文件的几率。

参见图1并结合图2所示，一种基于互联网的信息收集装置，该装置包含：信息接收单元10，用于接收网络信息文件；存储分配单元20，用于根据预设的分类规则为不同类别的网络信息文件分配相应的存储位置；信息分类单元30，用于将接收到的所述多个网络信息文件按照所述分类规则分别保存到对应的存储位置；信息分析单元40，用于分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息；数据生成单元50，生成具有统一格式的文件，并将所述关键字段的信息填充至所述统一格式的文件并纳入本地数据库中；以及本地数据库60，用于存储所述具有统一格式的文件。

具体而言：

在步骤S10中，接收多个简历文件，这些简历文件可以是本地邮箱通过多个不同招聘网站的电子邮件接口接收到以后，导入信息接收单元10中的文档，也可以是由用户直接添加到信息接收单元10的文档。由于接收邮件的电子邮箱是通过招聘网站提供的接口接收邮件，因此不用担心被招聘网站屏蔽的问题。

在步骤S20中，存储分配单元20按照职位类别为每一职位分配相应的存储位置，职位类别是由招聘企业根据其需要的招聘岗位预设的。例如，企业拟招聘“工艺工程师”和“软件工程师”这两个职位，则分别创建“工艺工程师”和“软件工程师”两个文件夹，并为其分配存储位置。

在步骤S30中，信息分类单元30将接收到的多个简历文件根据不同职位分别保存到各自的存储位置。例如，在本具体实施方式中，将应聘“工艺工程师”的简历全部保存到“工艺工程师”文件夹中，“软件工程师”的简历全部保存到“软件工程师”的文件夹中。

在步骤S40中，信息分析单元40对各相关职位文件夹中的简历文件进行信息分析并抓取简历中的关键字段的信息。其中，关键字段依据需要可以自由设定，例如包含姓名、性别、学历、有几年工作经验以及联系方式等。在本具体实施方式中，对这些指定字段信息的解析方式采用正则表达式以及KMP算法，正则表达式通常用来设定一个规范的表达式，也就是判断一个表达式是否符合特定要求，例如判断一串表达式是不是符合电子邮件地址格式等，它能够检查给定的字符串是否符合规则的属性。将正则表达式与KMP算法相结合，可以从简历中抓取到关键字段信息，把它们提取出来，使得应聘人员的基本信息一目了然。

在步骤S50中，数据生成单元50利用抓取到的关键字段的信息生成具有统一格式的文件，并保存所述具有统一格式的文件。例如“工艺工程师”文件夹中共有两份简历，分别为应聘者张三及李四，而“软件工程师”文件夹中有三份简历，分别为应聘者王五、赵六和刘七，则通过抓取到的关键字段信息会按照职位类别生成两份统一格式的文件，一份为“工艺工程师”的两位应聘者资料，另一份为“软件工程师”的三位应聘者资料。以生成“工艺工程师”的应聘者资料为例，数据生成单元50将张三和李四的姓名、性别、学历、有无工作经验以及联系方式等关键字段信息提取出来填入一份包含上述内容的统一格式文件，并将该统一格式文件纳入本地数据库60中，作为较佳的具体实施方式，张三与李四的关键字段信息还与他们的原始简历设置为关联。此时，招聘人员通过浏览本地数据库60中的统一格式文件时就取得了类似于电子目录的效果，例如，浏览应聘“工艺工程师”这个职位的人选时，两位应聘者张三和李四的姓名、性别、学历、工作经验和联系方式等基本信息一目了然，便于对比。此外，由于个人关键字段信息与简历相关联，若需要进一步调取某人详细简历的时候也十分方便。

由此，即可实现将不同简历接收途径接收到的简历统一归类到不同岗位，从而提高筛选简历的效率。此外，将各种来源的简历统一纳入本地数据库中，也方便了用户的查找、对比与管理。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围内。

Claims

1.一种基于互联网的信息收集方法，其特征在于，包含如下步骤：

(a)接收多个网络信息文件；

其中，步骤(d)中的所述关键字段通过预先设置确定。

2.根据权利要求1所述的基于互联网的信息收集方法，其特征在于，所述网络信息文件为简历文件。

3.根据权利要求1所述的基于互联网的信息收集方法，其特征在于，所述步骤(d)中分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。

4.根据权利要求1所述的基于互联网的信息收集方法，其特征在于，所述步骤(e)中进一步包括将所生成的具有统一格式的文件与原始网络信息文件设置为关联的步骤。

5.一种基于互联网的信息收集装置，其特征在于，该装置包含：

信息接收单元，用于接收网络信息文件；

本地数据库，用于存储所述具有统一格式的文件。

6.根据权利要求5所述的基于互联网的信息收集装置，其特征在于，所述网络信息文件为简历文件。

7.根据权利要求6所述的基于互联网的信息收集装置，其特征在于，所述简历文件由用户直接提供或通过电子邮箱接收到的邮件提供。

8.根据权利要求6所述的基于互联网的信息收集装置，其特征在于，所述关键字段包含姓名、性别、学历、工作经验和联系方式中的一项或多项。

9.根据权利要求5所述的基于互联网的信息收集装置，其特征在于，所述信息分析单元分析并抓取各存储位置存储的所述网络信息文件中关键字段的信息采用正则表达式以及KMP算法。

10.根据权利要求5所述的基于互联网的信息收集装置，其特征在于，所述数据生成单元进一步将所生成的具有统一格式的文件与原始网络信息文件设置为关联。