CN104881501A

CN104881501A - 互联网信息的自动获取与推送方法

Info

Publication number: CN104881501A
Application number: CN201510347642.3A
Authority: CN
Inventors: 彭德中; 章毅; 吕建成; 张蕾; 张海仙; 桑永胜; 郭际香; 毛华; 陈杰; 陈盈科
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2015-09-02

Abstract

本发明公开了一种互联网信息的自动获取与推送方法，属于网络搜索引擎领域，其包括如下步骤:一、创建业务逻辑层，业务逻辑层以request对象作为参数，根据request对象获取用户的请求并返回通知信息给调用层；二、创建数据爬取层，数据爬取层以页面URL作为参数获取通知信息，并将获取到的通知信息返回给调用层；三、创建一个静态的HTML页面和两个动态的JSP页面。本发明能够分别从教务处网页和各个学院网页爬取相关通知信息，通知信息包括通知主页链接、通知标题、通知发布日期、通知具体内容，可以在同一个页面中同时显示教务处通知、学院通知和毕业生就业网通知，用户点击页面超链接便能查看通知的具体内容。

Description

互联网信息的自动获取与推送方法

技术领域

本发明涉及搜索引擎领域，具体涉及一种可为用户爬取各个学院网站和教务处网站的通知，并将这些数据同步呈现给用户的互联网信息的自动获取与推送方法。

背景技术

面对庞大的网络资源，搜索引擎提供了一个门户网站，毫不夸张的说，浏览这个门户网站的所有用户在任何地点上网都可以搜索到任何自己想搜索的地方。因此它已成为除了电子邮件以外最多人使用的网上服务。什么是搜索引擎？它是如何工作的？这个词被广泛的使用在互联网领域，但在不同的地域它的意义是不同的。在美国，搜索引擎通常是指基于互联网的搜索引擎，他们通过收集网络的数千万到数亿网络机器人程序，每一个字被搜索引擎收录，也就是我们所说的全文搜索。著名的因特网搜索引擎有Google等。在中国，搜索引擎通常指基于Web的目录搜索服务或特定网站的搜索服务，该系统是基于一个特定网站搜索技术的特定标记研究。广义的搜索引擎泛指互联网上提供信息检索服务的工具或系统,即在互联网上或通过互联网响应用户的搜索请求,返回相应的搜索结果的系统。狭义上的搜索引擎主要指自动或手动搜索万维网上的资源组织成一个数据库，以网站的形式提供搜索服务的收集，分析和索引服务，利用网络为用户提供信息服务的体系。简单地说：WWW搜索引擎是一组网络环境的信息检索系统。它通常有两种不同的模式：一个是分类目录型搜索，互联网资源进行搜集整理，提供不同的资源投入到不同的目录类型，然后分类图层，用户可以找到他们希望的分类信息层，然后到达目的地，找到自己想要的信息；另一种是基于关键字检索，用户可以输入各种逻辑组合类型的关键字，搜索引擎按照一定的规则找到解决这些关键词所需要的资源，然后再反馈给用户包含有关键字的信息，并链接到这些网站。事实上，搜索引擎就是一个网站，它是专门提供搜索服务的网站，它采用了独特的方案搜集互联网上的所有信息，帮助人们在信息海洋中搜索到自己需要的信息的网站。

快毕业大学生需要时刻关注学校的通知和学院的通知，很多时候并不能保证每天都能浏览教务处主页或学院主页，这样极有可能会漏掉一些重要的通知，并且要查看这些通知需要点开多个网页，在这些网页中来回穿梭。如果这些通知和就业信息能在一个网页上浏览，并且及时的邮件通知或短信通知，那么对于我们来说会方便很多，也不会错过一些重要信息。

发明内容

针对上述问题，本发明的目的在于如何提供一种可为用户爬取各个学院网站和教务处网站的通知，并将这些数据同步呈现给用户的大学通知查询系统。

为达到上述目的，本发明采用如下技术方案：

一种大学通知查询系统，其特征在于，包括客户端浏览器和服务器，服务器主要由业务逻辑层、数据爬取层、视图层构成；

业务逻辑层将浏览器提交的参数进行处理，生成教务处网站的URL或学院的URL或毕业生就业网站的URL，并将URL作为参数提交给数据爬取层；数据爬取层以业务逻辑层提交的URL为参数，对该URL对应的页面进行解析，获取页面的所有通知列表，针对列表中的每一条通知逐个解析，最后把爬取到的通知信息封装在一个对象数组中，返回给业务逻辑层；视图层主要有一个静态的HTML页面和二个动态的JSP页面组成，静态的HTML页面负责提交用户输入的关键字，动态JSP页面显示搜索结果；

用户利用客户端浏览器点击教务处或某学院或就业信息时，服务器会获取点击的关键字，并且提交给教务处网站或学院网站或毕业生就业网站，然后将这三个网站的搜索结果页的通知信息爬取出，将爬取出的数据经过处理后再动态生成网页呈现给用户。

一种互联网信息的自动获取与推送方法，其特征在于，包括如下步骤:

一、创建业务逻辑层，业务逻辑层以request对象作为参数，根据request对象获取用户的请求并返回通知信息给调用层；

二、创建数据爬取层，数据爬取层以页面URL作为参数获取通知信息，并将获取到的通知信息返回给调用层；

三、创建一个静态的HTML页面和两个动态的JSP页面，静态的HTML页面为系统的主页，动态的JSP页面显示最新通知列表和具体的通知内容；

业务逻辑层将客户端浏览器提交的参数进行处理，生成教务处网站的URL或学院的URL或毕业生就业网站的URL，并将URL作为参数提交给数据爬取层；数据爬取层以业务逻辑层提交的URL为参数，对该URL对应的页面进行解析，获取页面的所有通知列表，针对列表中的每一条通知逐个解析，最后把爬取到的通知信息封装在一个对象数组中，返回给业务逻辑层；视图层主要有一个静态的HTML页面和二个动态的JSP页面组成，静态的HTML页面负责提交用户输入的关键字，动态JSP页面显示搜索结果；

点击教务处或某学院或就业信息时，服务器会获取点击的关键字，并且提交给教务处网站或学院网站或毕业生就业网站，然后将这三个网站的搜索结果页的通知信息爬取出，将爬取出的数据经过处理后再动态生成网页呈现给用户。

所述步骤一的具体实现如下：①类：GetNotice，该类为业务逻辑层的功能实现类；②方法：GetNotice(HttpServlet Request request)，该方法为构造方法，创建对象时以request对象作为参数，根据request对象获取用户的请求；③采用方法public NoticeInfoData[]GetInfo()来获取用户请求的通知信息，并将其作为返回值返回。

所述步骤二的具体实现过程如下：①类：NoticeInfoGet，该类为数据爬取层的功能实现类；②方法：NoticeInfoGet(String url)，此方法为构造方法，创建对象时以页面的URL作为参数；③方法：public NoticeInfoData[]GetInfo()，该方法爬取URL对应页面的通知信息，并将其作为返回值返回。

与现有技术相比，本发明的有益效果体现在：

一、本发明能够分别从教务处网页和各个学院网页爬取相关通知信息，通知信息包括通知主页链接、通知标题、通知发布日期、通知具体内容，可以在同一个页面中同时显示教务处通知、学院通知和毕业生就业网通知，用户可点击页面超链接查看通知的具体内容。

二、本发可实时爬取，保证了系统爬取到的通知信息的准确度，能够很好应对教务处、学院和毕业生就业网的更新。

附图说明

图1为本发明的流程图；

图2为本发明的数据流向图。

具体实施方式

下面结合实施例对本发明作进一步的描述，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例，都属于本发明的保护范围。

实施例一业务逻辑层

业务逻辑层的核心是将用户提交的信息处理并生成相应网站的URL，将URL提交给数据爬取层进行数据爬取。业务逻辑层的类叫做GetNot ice，它的成员及成员函数见下表一

表一

函数GetInfo()是类GetNotice的核心方法，该方法是响应用户请求的，它需要判断用户的请求时搜索通知还是查看邻页通知的，具体实现如下：用户访问系统的URL格式为：

http://121.48.204.6:8080/NotificationsQuery/search.jsp？key＝网站名或者

http://121.48.204.6:8080/NotificationsQuery/search.jsp？key＝网站名&page＝当前页码&total＝通知总页码

对于第一种格式是下拉表单提交给系统的搜索请求。第二种格式是用户点击“上一页”或“下一页”的邻页请求。在格式二中，一定有page参数大于1。在这种情况下，业务逻辑层会实例化一个PageInfoData类型的对象pageData，将参数page的值赋给对象的成员page，将total赋给对象的成员total。业务逻辑层在生成URL的过程中会判断对象pageData的成员page与total的大小关系，然后生成URL，如果对象pageData的成员page大于total，不生成URL。如果用户提交的是搜索请求，那么系统会调用Search方法，否则调用Neighbor方法。这两个方法会分别以搜索和邻页的特定的URL结构生成URL，然后提交给数据爬取层。

实施例二业务逻辑层

数据爬取层的功能是根据上一层提交的URL获取该页面的通知信息，并且将通知信息封装在对象数组中返回给上一层。如教务处通知列表的爬取算法。

进入到教务处通知页面后，可以直接看到通知列表，但是再这个页面里还有很多其他的东西，因此数据爬取层要将通知列表从整个页面中分离出来，然后对列表中的每一个通知逐一解析。将页面中所有这个标签里的对应的超链接过滤出来，得到一个列表List。类RegistryInfoGet的GetNList方法是实现获取搜索页面通知列表的，类RegistryInfoGet的成员及简介见表二。

表二

爬取录用通知列表和爬取实习兼职通知列表的方法为：使用Jsoup选择器选择出所有的超链接，然后再根据正则表达式去匹配筛选出我们需要的通知列表，这里只是正则表达式匹配的模式不同。通过对它们HTML文本的分析发现筛选录用通知列表的匹配模式和筛选实习兼职通知列表的匹配模式和校园招聘会通知列表的模式一样，是"<a\\sclass＝\"news\"\\shref＝\"shownews.*>.*</a>"。

实施例系统视图层

系统视图层主要由三个web页面构成，一个静态的主页，两个由JSP动态技术生成的通知结果页。主页主要是采用静态的HTML生成，它里面包括系统logo，系统介绍和一些图片。

Claims

1.一种互联网信息的自动获取与推送方法，其特征在于，包括如下步骤:

2.根据权利要求1所述的互联网信息的自动获取与推送方法，其特征在于，所述步骤一的具体实现如下：①类：GetNotice，该类为业务逻辑层的功能实现类；②方法：GetNotice(HttpServlet Request request)，该方法为构造方法，创建对象时以request对象作为参数，根据request对象获取用户的请求；③采用方法public NoticeInfoData[]GetInfo()来获取用户请求的通知信息，并将其作为返回值返回。

3.根据权利要求1所述的互联网信息的自动获取与推送方法，其特征在于，所述步骤二的具体实现过程如下：①类：NoticeInfoGet，该类为数据爬取层的功能实现类；②方法：NoticeInfoGet(String url)，此方法为构造方法，创建对象时以页面的URL作为参数；③方法：public NoticeInfoData[]GetInfo()，该方法爬取URL对应页面的通知信息，并将其作为返回值返回。