CN103488675A

CN103488675A - 一种多网页新闻评论内容自动精确提取装置

Info

Publication number: CN103488675A
Application number: CN201310289400.4A
Authority: CN
Inventors: 王巍; 杨武; 苘大鹏; 玄世昌; 谈亚洲; 申国伟
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2014-01-01

Abstract

本发明属于多网页动态文字内容自动精确提取领域，特别涉及一种提取各大门户网站或者论坛动态生成的评论，为分析网络舆情提供资源库的自动精确提取出所需信息内容的装置。多网页新闻评论内容自动精确提取装置，包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置。本发明的多网页新闻评论内容自动精确提取装置，该装置既可以通过静态网页模板有效地提取网页中的文字内容，同时还可以针对以动态URL形式提供的网页数据标识，从服务器端准确地获取相应的文字内容。本发明可解决网页中动态数据内容的准确获取和提取，提高了网页数据自动获取和提取的能力，为网络数据分析和挖掘提供更好地技术支撑。

Description

一种多网页新闻评论内容自动精确提取装置

技术领域

本发明属于多网页动态文字内容自动精确提取领域，特别涉及一种提取各大门户网站或者论坛动态生成的评论，为分析网络舆情提供资源库的自动精确提取出所需信息内容的装置。

背景技术

Ajax是Asynchronous Javascript+XML的缩写。Ajax技术的基本思想是允许一个互联网浏览器向一个远程页面发出异步的HTTP调用，并且用返回的结果更新当前显示数据的部分Web页面而不必刷新整个页面。Ajax的核心是Javascript对象XmlHttpRequest。它是一种支持异步请求的技术，使用XmlHttpRequest可以向服务器提出请求并处理响应，而不阻塞用户对网页其它内容的访问请求，页面无需整体刷新，在页面内与服务器通信。该技术能够改善客户端的体验，使得HTTP页面外观与使用感觉很类似于Windows桌面应用程序。同时使用异步方式与服务器通信，不需要打断用户的操作，具有更加迅速的响应能力，可以把以前一些服务器负担的工作转到客户端，利用客户端闲置的处理能力，该技术已经被标准化并得到广泛支持，不需要下载额外的插件或者支持程序。

鉴于Ajax的多种优点，包括新浪、搜狐、网易、腾讯在内的各大门户网站不约而同地使用这项技术来支持各自的查看评论的功能。门户网站的新闻每天都会收到数量庞大的网民的评论，这些评论涵盖了时事、经济、电子产品等各个领域，如果能够自动收集来自于这些网站的新闻评论，便可以为从不同角度对网民的舆情进行分析提供资源。对于商家来说，获得民众对于其产品的全面回馈无疑是一件非常有利的事情。对于掌握民众对时事的舆论趋势，网络评论也是非常重要的资料来源。因为门户网站的各个新闻版块相互独立，比如：经济、文化、体育等，评论也是各自独立成块的，所以只需要把各个版块的链接中对应的评论提取出来，不需要其他的分类，就可以得到该版块网民的评论。

在动态内容提取方面已经申请的专利有申请号为200910133630.5的专利《一种Ajax网页内容的抓取方法及系统》。该专利中的方法可以提取到部分动态网页的内容。对于内容不是通过用户的点击、选择来获取的动态网页，该方法就不能获得网页内容了。此外，该方法及系统需要分析繁琐的Javascript代码来确定哪个函数是调用Ajax来进行通信的。同时，对于浏览器模拟工具来说，并不是点击后获得网页的内容就可以得到网页动态生成的内容，需要设置等待网页执行完所有的Javascript代码，内容才能完全被浏览器模拟工具获得到，该方法中没有涉及相关技术。

发明内容

本发明的目的在于提供一种多网页新闻评论内容自动精确提取装置。

本发明的目的是这样实现的：

多网页新闻评论内容自动精确提取装置，包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置，观察需要提取评论的网页的HTML标签结构，设计提取静态网页内容的模板，动态内容URL收集装置从新闻评论网页URL队列中获取URL，根据URL的来源进行分类并存储；网页预处理装置将已经对应描述模板的网页直接交给数据获取装置，将还没有对应描述模板的网页，提取网页的完整标签、寻找包含有价值信息的标签，运用模拟工具提供的接口精确提取模板并保存，将新闻评论的第一页URL交给数据获取装置；数据获取装置实例化浏览器对象，设置浏览器对象等待网页中所有Javascript的时间阈值，设置Ajax的通信方式，使异步的Ajax通信同步化，使浏览器对象直接接收Ajax的响应，与服务器进行同步通信，使用设置完的浏览器对象对URL进行内容提取；数据自动提取装置根据URL的来源选择信息提取时使用的模板，根据模板进行信息的精确提取，将提取出来的信息传递给信息存储装置，判断当前页码是否为最后一页，若不是则进行翻页操作，继续提取信息；信息存储装置接收数据提取装置传送的信息，对信息进行分类存储。

设计提取静态网页内容的模板时对于可以查看源码的网页，直接使用浏览器模拟工具的接口制作模板；对于不能查看源码的网页，使用浏览器模拟工具获得网页的HTML标签结构，然后利用浏览器工具的接口制作模板。

内容提取的过程中，对于不引用他人评论的评论，可以直接进行提取；对于引用他人评论的评论，根据引用他人评论的评论中的特殊标签进行判断，提取该条评论的实际内容，剔除引用的评论内容。

时间阈值大于浏览器工具执行完URL对应的Javascript所需的时间。

本发明的有益效果在于：本发明的多网页新闻评论内容自动精确提取装置，该装置既可以通过静态网页模板有效地提取网页中的文字内容，同时还可以针对以动态URL形式提供的网页数据标识，从服务器端准确地获取相应的文字内容。本发明的应用，可解决网页中动态数据内容的准确获取和提取，提高了网页数据自动获取和提取的能力，为网络数据分析和挖掘提供更好地技术支撑。

附图说明

图1多网页新闻评论内容自动精确提取装置结构图；

图2基于Ajax技术生成的新闻评论的网页样例示意图；

图3多网页新闻评论内容自动精确提取装置工作流程图；

图4新闻评论内容精确提取示意图；

图5处理过程健壮性维护方案流程图。

具体实施方式

下面结合附图对本发明做进一步描述：

本发明的多网页新闻评论内容自动精确提取装置包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和信息存储装置。

动态内容URL收集装置：用于实时地在网络上采集需要关注领域的URL并存储；根据URL的来源进行分类，以便选择不同的模板进行信息提取。

网页预处理装置：分为两种情况，对于已经形成对应描述模板的网页，直接将其交给数据获取装置；对于还没有对应描述模板的网页，则先提取网页的完整标签、并寻找包含有价值信息的标签，利用浏览器模拟工具提供的接口完成内容精确提取模板并保存，然后将网页地址交给数据获取装置。

数据获取装置：利用浏览器模拟工具实例化浏览器对象，设置浏览器等待背景Javascript的时间阈值，该阈值应大于该网页的所有Javascript执行完所需的时间。设置Ajax的通信方式，使异步的Ajax通信同步化，使浏览器对象直接接收Ajax的响应，与服务器进行同步通信。使用设置完的浏览器对象对URL进行内容提取。

数据自动提取装置：根据URL的来源，通常使用URL的前缀部分选择应该信息提取时使用的模板并根据该模板进行信息的精确提取。将提取出来的信息传递给信息存储装置。判断当前页码是否为最后一页，若不是则进行翻页操作。

信息存储装置：接收数据提取装置传送过来的信息，对信息进行分类存储。

本发明装置的运行包括如下步骤：

1．观察需要提取评论的网页的HTML标签结构，使用浏览器模拟工具提供的接口设计提取静态网页内容的模板。

2．从新闻评论URL队列中获取一个URL，把该URL的处理放入处理线程，同时主线程对该线程的状态进行检测，以加强处理过程的健壮性。

3．设定浏览器模拟客户端在获取网页内容时等待网页的Javascript代码执行的时间阈值，此阈值应该大于该网页中所有的Javascript执行完所需的时间，可根据经验设定。

4．通过设定Ajax控制器，使Ajax的异步调用直接响应用户的操作，做到异步的Ajax通信同步化。

5．使用浏览器模拟工具实例化一个浏览器客户端，使用该客户端获取步骤2中获得的URL的内容，得到一个网页对象。在获取网页内容之前，步骤3和4需要先完成。

6．使用步骤1中制作的提取评论内容的模板提取步骤5中获得的网页对象的评论内容以及评论的相关信息。对于有引用别人评论的评论，需要进行相应处理，以做到精确提取。存储提取到的内容。

7．判断当前评论页是否为最后一页，如果是则转步骤2，否则转步骤8。

8．如果能找到当前网页对应的页码，加1后找到对应页码网页的HTML标签，获取该标签后，运用模拟工具提供的点击接口点击，并获得返回的网页对象。如果找不到页码，找到包含下一页字样对应的标签，然后进行点击并获得内容。然后转到步骤6。

步骤（1）观察需要提取评论的网页的HTML标签结构，使用浏览器模拟工具提供的接口设计提取静态网页内容的模板。包括如下步骤：

（1）对于可以查看源码的网页，直接使用浏览器模拟工具的接口制作模板。

（2）对于不能查看源码的网页，使用浏览器模拟工具获得网页的HTML标签结构，然后利用浏览器工具的接口制作模板。

（3）在提取内容的过程中，对于不引用他人评论的评论，可以直接进行提取；对于引用他人评论的评论，需根据它的特殊标签进行判断，提取评论的有用信息，剔除引用的评论内容。

步骤（2）中的健壮性处理部分，从待处理URL队列首部取出一个URL，把获取URL对应信息的过程放入处理线程，主线程对它的活性进行检测同时记录它的运行时间，如果由于网络或者服务器出现问题而导致处理线程无法执行或者执行时间过长，主线程重启处理线程，记录处理线程的启动次数，对于启动次数超过三次的URL，暂不处理，将其放入队列尾部，从待处理URL队列首部取出一个URL，执行上述处理过程。

步骤（3）和步骤（4）中对浏览器模拟工具进行了两个设置，步骤（3）设置浏览器工具等待Javascript代码执行的时间阈值，该阈值应大于浏览器工具执行完URL对应的Javascript所需的时间，使浏览器模拟工具在获取URL的内容之前先执行完背景Javascript；步骤（4）设置浏览器工具直接处理Ajax的XmlhttpRequest对象产生的响应，使浏览器直接接收Ajax请求带来的服务器响应，达到异步的Ajax通信同步化的目的。

步骤（7）和步骤（8）中对翻页进行了处理，如果当前页不是该URL对应的评论的最后一页，可以用两种方法进行翻页：（1）根据当前页的页码得到下一页的页码，在当前网页标签中找到包含下一页页码的标签，模拟点击后获取网页对象；（2）找到当前网页标签中包含下一页字样的标签，模拟点击后获取网页对象。

图2为基于Ajax技术生成的新闻评论的网页样例图示，本装置的作用为使用浏览器模拟工具提取由Ajax技术动态生成的评论内容，对于评论内容是动态生成的网络论坛，本装置也可以用于提取其中的内容信息。

图3为装置工作流程图，具体的操作步骤包括：

1．根据评论网页HTML制作提取评论信息的模板。具体操作方法为使用浏览器访问评论网页，查看网页源码。

如果网页中有评论内容，使用浏览器模拟工具提供的元素访问接口访问所有与评论内容及其信息相关的标签，提取标签内容；对于引用其他评论内容的评论，使用精确提取方法得到评论及其相关信息。整理形成提取评论信息的模板。

对于网页源码中无法看到评论内容的情况，可以使用浏览器模拟工具获取该URL对应的网页中包含评论内容的所有HTML标签，分析这些HTML标签的结构，然后通过访问包含评论及其相关信息的标签，获得有用的信息。整理形成提取评论信息的模板。

对于不引用他人评论的评论内容，可用模板可以直接提取；对于引用他人评论的评论，需进行特殊处理：先获取其标签内容；总结它的特征，比如：拥有独有的HTML标签或者某标签数量要多余其他的评论的标签内容；然后对引用他人的评论的标签进行辨别，提取它自己的评论信息（不包含引用的评论）即为该条评论的信息。

下列代码为图2对应的模板的主体部分，它的功能是提取页面中留言的内容：

2．从准备好的URL队列中获取一个URL。这些队列对应的均为评论网页对应的URL。若URL队列为空，则监听队列，等到有URL加入的时候继续执行。

3．运用浏览器模拟工具实例化一个浏览器客户端：WebClient webClient=newWebClient();

4．设定浏览器客户端需等待该URL对应网页的Javascript代码的时间，因为需要获取完整的内容，需要等待所有的Javascript代码执行完。该时间值应该大于运行完一个网页的所有Javascript的时间，例如：

webClient.waitForBackgroundJavascriptStartingBefore(40000)。

5．使用该浏览器客户端的接口，使异步的Ajax通信同步化，从而Ajax的异步调用直接响应用户的操作：

webClient.setAjaxController(new NicelyResynchronizingAjaxController())。

6．通过浏览器客户端获取URL中的内容：pageContent=webClient.getPage(url);

7．使用（1）中完成的模板提取网页内容；提取评论以及评论相关信息，相关信息包括发表时间、发表人、IP、引用评论以及引用评论等相关信息。以下为一个使用模板提取评论内容的简单例子：

8．判断当前页是否为最后一页，若是则转至步骤2，继续从URL队列中取URL，若不是则转到步骤9。

9．找到包含“下一页”文本内容的标签，或者根据当前页的页码得到下一页的页码，然后找到包含下一页页码的标签，点击标签，得到下一页内容：

/*找到能够得到下一页内容的标签*/

nextPage=(HtmlElement)resultContent.item(j);

/*通过点击获取返回的内容*/

contentPage=nextPage.click().getWebResponse();

因为步骤5和6对浏览器客户端进行了设置，而nextPage为浏览器客户端对应的元素，在nextPage执行点击并且取得回应的过程中，客户端仍然会等待网页的背景Javascript执行结束，并且Ajax的异步通信同样是被同步化了的，contentPage中包含了返回的下一页评论网页的内容。

对获得的网页进行内容提取，返回步骤7。

因为实际网络环境复杂，经常有网页存在错误或者Javascript执行不正常，爬虫获得的URL队列中很可能存在不能获取到内容的URL，因此本方法进行了健壮性处理。

把步骤1至步骤6描述的过程放在一个线程中执行：

步骤2处理过程中如果遇到错误的网页或者Javascript代码，则直接让线程退出，以加强程序的健壮性。

步骤3除了处理步骤2中的情况监听获取评论的线程是否运行外，还记录线程的运行时间和运行次数，对于死掉或者运行时间超过阈值的线程则进行第二次或者第三次运行，对于三次重新启动的URL，则把该URL放到队列的尾部，等待网络情况好转或者服务器恢复。图5表示了该过程的流程图。

Claims

1.一种多网页新闻评论内容自动精确提取装置，包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置，其特征在于：观察需要提取评论的网页的HTML标签结构，设计提取静态网页内容的模板，动态内容URL收集装置从新闻评论网页URL队列中获取URL，根据URL的来源进行分类并存储；网页预处理装置将已经对应描述模板的网页直接交给数据获取装置，将还没有对应描述模板的网页，提取网页的完整标签、寻找包含有价值信息的标签，运用模拟工具提供的接口精确提取模板并保存，将新闻评论的第一页URL交给数据获取装置；数据获取装置实例化浏览器对象，设置浏览器对象等待网页中所有Javascript的时间阈值，设置Ajax的通信方式，使异步的Ajax通信同步化，使浏览器对象直接接收Ajax的响应，与服务器进行同步通信，使用设置完的浏览器对象对URL进行内容提取；数据自动提取装置根据URL的来源选择信息提取时使用的模板，根据模板进行信息的精确提取，将提取出来的信息传递给信息存储装置，判断当前页码是否为最后一页，若不是则进行翻页操作，继续提取信息；信息存储装置接收数据提取装置传送的信息，对信息进行分类存储。

2.根据权利要求1所述的一种多网页新闻评论内容自动精确提取装置，其特征在于：所述设计提取静态网页内容的模板时对于可以查看源码的网页，直接使用浏览器模拟工具的接口制作模板；对于不能查看源码的网页，使用浏览器模拟工具获得网页的HTML标签结构，然后利用浏览器工具的接口制作模板。

3.根据权利要求1或2所述的一种多网页新闻评论内容自动精确提取装置，其特征在于：所述内容提取的过程中，对于不引用他人评论的评论，可以直接进行提取；对于引用他人评论的评论，根据引用他人评论的评论中的特殊标签进行判断，提取该条评论的实际内容，剔除引用的评论内容。

4.根据权利要求3所述的一种多网页新闻评论内容自动精确提取装置，其特征在于：所述的时间阈值大于浏览器工具执行完URL对应的Javascript所需的时间。