CN104182429B

CN104182429B - 网页处理方法和终端

Info

Publication number: CN104182429B
Application number: CN201310204185.3A
Authority: CN
Inventors: 宋飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-05-28
Filing date: 2013-05-28
Publication date: 2017-08-25
Anticipated expiration: 2033-05-28
Also published as: CN104182429A; WO2014190785A1

Abstract

本发明提供了一种网页处理方法，所述方法包括：获取与加载的网页的URL地址匹配的抽取语句，所述匹配的抽取语句中包含所述加载的网页的标题内容块和正文内容块的路径描述；根据所述标题内容块和正文内容块的路径描述对所述加载的网页进行标题和正文内容的抽取；显示所述抽取的标题和正文内容。采用该方法，使得页面只显示标题和正文内容，节省了屏幕空间。此外，还提供了一种用于执行网页处理方法的终端。

Description

网页处理方法和终端

技术领域

本发明涉及计算机技术领域，特别是涉及一种网页处理方法和终端。

背景技术

用户通常在浏览网页时，只会关注页面上的标题和正文内容，而往往页面上除了显示标题和正文内容外，还包含很多与正文不相关的内容。以新闻网页为例，除了显示新闻标题和正文内容外，往往还包含诸如新闻发表时间、精华推荐、热门推荐、评论信息和广告信息等其他用户可能并不会去关注的内容。如果加载页面时，将所有的内容都显示，会使得浏览不便，特别是使用屏幕大小有限的移动终端浏览网页时，这些与正文不相关的内容还会额外占用屏幕空间，从而影响对标题和正文内容的正常浏览。

发明内容

基于此，有必要针对上述问题，提供一种能使页面只显示标题和正文内容，节省屏幕空间的网页处理方法和终端。

一种网页处理方法，所述方法包括：

获取与加载的网页的URL地址匹配的抽取语句，所述匹配的抽取语句中包含所述加载的网页的标题内容块和正文内容块的路径描述；

根据所述标题内容块和正文内容块的路径描述对所述加载的网页进行标题和正文内容的抽取；

显示所述抽取的标题和正文内容。

一种终端，所述终端包括：

抽取语句匹配模块，用于获取与加载的网页的URL地址匹配的抽取语句，所述匹配的抽取语句中包含所述加载的网页的标题内容块和正文内容块的路径描述；

标题正文抽取模块，用于根据所述标题内容块和正文内容块的路径描述对所述加载的网页进行标题和正文内容的抽取；

显示模块，用于显示所述抽取的标题和正文内容。

上述网页处理方法和终端，通过获取与加载的网页的URL地址匹配的抽取语句，由于该匹配的抽取语句中包含有加载的网页的标题内容块和正文内容块的路径描述，根据该路径描述即可获取到加载的网页中的标题内容块和正文内容块，从而能实现对加载的网页进行标题和正文内容的抽取，使页面上只显示抽取的标题和正文内容。而其他用户可能并不会关注的内容不会显示，能够节省屏幕空间，从而便于浏览。

附图说明

图1为一个实施例中网页处理方法的流程示意图；

图2为一个实施例中获取与加载的网页的URL地址匹配的抽取语句的流程示意图；

图3为一个实施例中抽取标题和正文内容的流程示意图；

图4A为图3所示实施例提供的原始网页的示意图；

图4B为对图4A所示原始网页实现抽取后的效果图；

图5为一个实施例中去除加载的网页中的杂质的流程示意图；

图6A为图5所示实施例中提供的原始网页的示意图；

图6B为对图4A所示原始网页实现抽取后的效果图；

图7为一个实施例中抽取加载的网页中的续页链接的流程示意图；

图8为图7所示实施例提供的续页块的示意图；

图9为一个实施例中用于执行网页处理方法的终端的结构框图；

图10为图9中抽取语句获取模块的结构框图；

图11为图9中抽取语句匹配模块的结构框图；

图12为图9中标题正文抽取模块的结构框图；

图13为另一个实施例中用于执行网页处理方法的终端的结构框图；

图14为又一个实施例中用于执行网页处理方法的终端的结构框图；

图15为图14中续页链接抽取模块的结构框图；

图16为图14中第二续页链接确定模块的结构框图；

图17为另一个实施例中第二续页链接确定模块的结构框图；

图18为一个实施例中网页处理终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供了一种网页处理方法，该方法以应用在可运行浏览器的终端中进行举例说明，这些终端包括但不限于个人计算机、个人数字助理、膝上型便携计算机、智能手机、平板电脑、MP3播放器和MP4播放器等，包括：

步骤102，获取与加载的网页的URL地址匹配的抽取语句。

在一个实施例中，在步骤102之前，可获取与加载的网页的域名对应的多条抽取语句。终端可运行浏览器，通过浏览器请求访问各种网页，在加载好网页后，终端可获取与加载的网页的域名对应的多条抽取语句。具体的，终端可直接从服务器获取与加载的网页的域名对应的多条抽取语句，也可以直接从本地缓存中获取与加载的网页的域名对应的多条抽取语句。

所谓抽取语句，是指能应用于终端，使得终端能够实现对加载的网页的各种内容块进行抽取的语句。具体的，抽取语句可为XPath语句（也可称为XPath规则），XPath是一门在XML（Extensible Markup Language，可扩展标记语言）文档中查找信息的语言，其用于在XML文档中通过元素和属性进行导航。由于不同域名下可能会有多种网站，例如域名为qq.com下可能会有小说网站、新闻网站、图片网站、游戏网站等等，不同的网站可使用不同的XPath语句来实现抽取，因此对应于同一域名，有多条XPath语句。

每个XPath语句包含网站域名、正则表达式以及各种网页内容块的路径描述（或称为网页内容块的XPath）。具体的，在步骤102中，可获取与加载的网页的域名对应的多条XPath语句，其中，每条XPath语句可使用第一分隔符分割，而每个XPath语句中的不同网页内容块的路径描述则可用第二分隔符分割。其中，第一分隔符可为：/t；第二分隔符可为：$$。例如，所下发的与加载的网页域名对应的多条抽取语句形如：qq.com正则表达式\ttitle:xpath$$content:xpath$$content:xpah$$page:xpath…..，其中，title:xpath为标题内容块的路径描述，content:xpath为正文内容块的路径描述，page:xpath为续页块的路径描述。又如，某一条content:xpath为：content：//*[@id="shop738279205"]/div/div/div[2]/div/p[1]/span/span/strong，终端根据该正文内容块的路径描述，即可抽取对应的正文内容。

由于与加载的网页的域名对应有多条抽取语句，而加载的网页只是该域名下的某一具体网站的网页，因此需根据加载的网页的URL地址匹配得到该网页对应的抽取语句。具体的，可将加载的网页的URL地址与每条抽取语句中的正则表达式进行匹配，匹配成功，则包含该正则表达式的抽取语句为与加载的网页的URL地址匹配的抽取语句。

步骤104，根据标题内容块和正文内容块的路径描述对加载的网页进行标题和正文内容的抽取。

由于匹配的抽取语句中包含标题内容块和正文内容块的路径描述，终端根据这些路径描述即可抽取得到对应的标题和正文内容。

步骤106，显示抽取的标题和正文内容。

本实施例中，能实现对加载的网页进行标题和正文内容的抽取，使得在页面上只显示抽取的标题和正文内容，而其他用户可能并不会关注的内容不会显示，节省了屏幕空间，从而便于浏览。

在一个实施例中，获取与加载的网页的域名对应的多条抽取语句，包括：检测缓存中是否有与加载的网页的域名对应的多条抽取语句，如果有，则从缓存中获取与加载的网页的域名对应的多条抽取语句，如果没有，则从服务器获取与加载的网页的域名对应的多条抽取语句并缓存。

本实施例中，抽取语句可保存在服务器上，可包含服务器对不同域名下的大量网站进行处理后得到的网页内容块的路径描述所组成的抽取语句，也可包含预先存储在服务器中人工设置的抽取语句。在服务器上存储了域名与多条抽取语句的对应关系。

本实施例中，从服务器获取到的与加载的网页的域名对应的多条抽取语句可在终端本地进行缓存，这样，终端先检测缓存中是否有与加载的网页的域名对应的多条抽取语句，如果有，则无需再从服务器获取，节省了网络流量，如果没有，则再从服务器获取并缓存，以便下次获取同一域名对应的多条抽取语句时可直接从缓存中获取。

进一步的，可预先设置缓存中可存储的抽取语句对应的域名个数，例如可设置可存储50个域名所对应的多条抽取语句。当缓存已满，则对之前缓存的抽取语句进行淘汰。具体的，可在终端上运行浏览器，并在浏览器切入前台后延迟5秒执行淘汰，例如，可淘汰掉7天前未访问的域名对应的抽取语句。

本实施例中，通过缓存获取的与加载的网页的域名对应的多条抽取语句，在缓存中存在有与域名对应才抽取语句时，则无需再联网，并从服务器获取，从而节省了网络流量，提高了抽取的速度。

图2示出了一个实施例中获取与加载的网页的URL地址匹配的抽取语句的流程，具体包括：

步骤202，将加载的网页的URL地址与多条抽取语句对应的正则表达式逐一进行匹配。

步骤204，判断是否匹配成功，若是，则进入步骤206，否则返回步骤202。

步骤206，匹配的正则表达式对应的抽取语句为匹配的抽取语句。

步骤208，根据匹配的抽取语句中的标题内容块和正文内容块的路径描述，尝试抽取加载的网页的标题和正文内容。

步骤210，判断是否有其中一个路径描述尝试抽取失败，若是，则返回步骤202，否则进入步骤212。

步骤212，对加载的网页进行标题和正文内容的抽取。

本实施例中，当抽取语句中的正则表达式与加载的网页的URL地址匹配成功，则表明该抽取语句可能实现对该加载的网页进行抽取。在尝试根据匹配的抽取语句中的标题内容块和正文内容块的路径描述进行标题和正文内容的抽取时，如果有其中一个路径描述尝试抽取失败，则表明匹配的抽取语句实际上并不能实现对加载的网页进行抽取，则继续进行匹配，直到匹配的抽取语句中的路径描述都能尝试抽取成功。进一步的，所有路径描述都能尝试抽取成功后，可显示阅读器按钮，点击该阅读器按钮即可触发对加载的网页的抽取，在抽取后，还可由终端来编写CSS（层叠样式表），进行重新排版。

可以理解的是，在一个实施例中，可省略上述步骤208～212，也就是当根据正则表达式匹配到对应的抽取语句，则直接可根据该抽取语句对加载的网页进行抽取。

图3示出了一个实施例中抽取标题和正文内容的流程，包括：

步骤302，从抽取语句中的第一个标题内容块的路径描述进行检测，当检测到非空字符串时，则停止检测，根据检测到的非空字符串对加载的网页进行标题的抽取。

具体的，根据抽取语句中的第一个标题内容块的路径描述进行抽取，当抽取到标题内容时，也就是能够检测到非空字符串时，由于标题仅有一个即可，如果检测到非空字符串，则能够得到一个标题，即可根据检测到的非空字符串对加载的网页进行标题的抽取。

步骤304，根据抽取语句中的正文内容块的路径描述抽取加载的网页中的正文内容，并将抽取到的正文内容按顺序拼接。

由于正文内容块之间可能还包含其他用户不会关注的内容，例如广告信息，因此各个正文内容块并非是紧密排列在一起的。步骤304中，抽取到所有的正文内容，并按照顺序拼接，从而得到当前的网页中的所有正文内容。

一种对加载的网页（如图4A所示）显示抽取的标题和正文内容的效果如图4B所示，对加载的网页进行标题和正文内容的抽取后，在页面上只显示标题和正文内容，而用户可能并不关注的大量内容都不会再显示，节省了屏幕空间，特别是使用在屏幕大小有限的移动终端时，能够便于浏览。

在一个实施例中，匹配的抽取语句中还包括加载的网页的杂质块的路径描述，网页处理方法还能够去除网页上的杂质，具体的，如图5所示，该方法还包括：

步骤502，根据杂质块的路径描述将加载的网页中的杂质去除。

步骤504，将加载的网页中带杂质标签的DOM节点去除。

本实施例中，采用重建DOM树的方式去除网页上的杂质。DOM（Document ObjectModel，文档对象模型），是以层次结构组织的节点或信息片断的集合，其中，每个节点都拥有包含着关于节点某些信息的属性，这些属性包括节点名称、节点值和节点类型等。

进一步的，在重建DOM树的过程中去除掉网页中的杂质。由于匹配的抽取语句中包含杂质块的路径描述，根据杂质块的路径描述即可获知哪些DOM节点是杂质节点。另一方面，DOM节点中包括一些标签可认为是杂质节点，则将带这些标签的DOM节点也去除，这些标签包括但不限于<script>、<link>、<iframe>、<style>、<form>、<input>、<embed>和<object>等。

本实施例中，终端在重建DOM树的过程中，可删除每个DOM节点的属性，但可保留图片标签（img标签）的图片路径属性（src属性）、链接标签（a标签）的链接地址属性（href属性）和视频标签（video标签）的视频路径属性（src属性）等，然后由终端编写CSS（层叠样式表），进行重新排版。从而能实现去除网页中的杂质，并能够保留网页中的超链接、图片和视频等。可以理解的是，在其他实施例中，去除杂质的流程可包括步骤502和步骤504中的至少一个步骤。

一种对加载的网页（如图6A所示）显示抽取的标题和正文内容的效果如图6B所示，本实施例中，除了可对加载的网页抽取标题和正文内容外，还能去除掉网页中的杂质，而保留图片和超链接，使得页面上除了显示标题和正文内容外，还能显示正文中的图片，进一步便于浏览。

可以理解，上述各实施例中的步骤都可由终端来执行，当缓存中存储有与加载的网页中的域名对应的抽取语句时，则终端不需要再与服务器联网即可实现对加载的网页的抽取，并在页面上只显示标题和正文内容（可包含正文中的图片），抽取速度快，且节省了网络流量。若缓存中不存在有与加的网页中的域名对应的抽取语句，则终端仅从服务器获取抽取语句，而抽取语句相对于网页中的标题和正文内容来说，数据量很小，不会占用过多的网络流量。

在一个实施例中，匹配的抽取语句中还包括加载的网页的续页块的路径描述，本实施例中，还可进行续页处理，即对加载的网页的下一页网页实现自动抽取。具体的，网页处理方法还包括：根据续页块的路径描述抽取加载的网页中的续页链接；对续页链接对应的网页执行上述各实施例中的网页处理方法。

本实施例中，根据续页块的路径描述即可抽取得到加载的网页中的续页链接，该续页链接对应了一个网页的URL地址，根据该URL地址即可得到加载的网页的下一页网页。进一步的，根据该URL地址即可匹配到对应的抽取语句，进而根据匹配的抽取语句实现标题和正文内容的抽取、杂质去除等。

在一个实施例中，可由服务器获取续页链接，根据续页链接对下一页网页进行抽取，然后将抽取得到的内容发送至终端，则服务器无需向终端发送下一页网页的全部内容，节省了网络流量。在另一个实施例中，可由终端获取续页链接，获取服务器下发的下一页网页内容，并进一步根据续页链接对下一页网页进行抽取，则下一页网页的抽取交由终端来处理，减轻了服务器的负担。

本实施例中，由于能够自动实现对下一页网页进行抽取，但用户浏览完当前加载的网页的标题和正文内容后，触发下一页的浏览，则终端自动显示下一页网页的标题和正文内容。例如，在使用带触摸屏的移动终端时，当用户浏览完当前页面的内容，使用手指在触摸屏上向上滑动，则自动显示下一页网页抽取的内容，无需用户点击链接，提高了便利性。

图7示出了一个实施例中抽取加载的网页中的续页链接的流程，包括：

步骤702，判断抽取到的是否是链接标签，若是，则进入步骤704，否则进入步骤706。

步骤704，使用抽取到的标签中的第一个所对应的链接为加载的网页中的续页链接。

本实施例中，当根据续页块的路径描述抽取到的是链接标签，则可直接使用该链接。

步骤706，查找抽取到的续页块中的链接标签，对链接标签进行打分，获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

本实施例中，当根据续页块的路径描述抽取到的不是链接标签，则抽取到的是续页块，如图8所示，续页块802中可能包含有多个链接标签，例如“上一章”、“下一章”、“回目录”等，需要在这多个链接标签中确定续页链接。

具体的，在一个实施例中，步骤706包括：检测链接标签的属性中是否包含预设链接内容，若是，则根据属性中包含的预设链接内容对链接标签进行加分；判断是否含有大于零分的链接标签，如果有，则获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

链接标签的属性包含文本、title、alt、id、class等，检测这些属性中是否包含预设链接内容，其中预设链接内容可以是但不限于“下一页”、“下一章”、“下一张”、“下一节”、“next”、“>”等，根据属性中包含的预设链接内容对链接标签进行加分，从而可区分预设链接内容的优先级。例如，如果包含预设链接内容为“下一页”，则对该链接标签加200分；如果包含预设链接内容为“下一张”，则对该链接标签加180；依次类推。在抽取得到的所有续页块中的链接标签都打分完成后，判断是否含有大于零分的链接标签，如果有，表示存在续页链接，获取分数值最高的链接标签为续页链接。

在一个实施例中，步骤706还包括：如果没有大于零分的链接标签，则获取链接标签的兄弟节点，根据兄弟节点中包含的文字内容对链接标签进行加分，以及检测链接标签中是否包含图片，若是，则根据图片中包含的预设文件内容对链接标签进行加分；获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

本实施例中，如果没有大于零分的链接标签，则进一步获取链接标签的兄弟节点，即位于链接标签前面或后面的文字，优选为链接标签前面的文字，根据这些文字对链接标签进行加分，例如，如果包含“下一页”则加100分；如果包含“下一张”则加80分；依次类推。进一步的，由于有些链接标签呈现的形式是图片，因此还可进一步检测链接标签中是否包含图片，若是，则根据图片中是否包含“下一页”、“下一张”、“下一章”等对链接标签进行加分，例如，如果包含“下”或者“next”则加10分；在对所有续页块中的链接标签都打分完成后，获取其中分数值最高的链接标签所对应的连接为加载的网页中的续页链接。

如图9所示，在一个实施例中，提供了一种终端，该终端可用于执行网页处理方法，该终端包括：

抽取语句匹配模块904，用于获取与加载的网页的URL地址匹配的抽取语句，该匹配的抽取语句中包含加载的网页的标题内容块和正文内容块的路径描述。

标题正文抽取模块906，用于根据标题内容块和正文内容块的路径描述对加载的网页进行标题和正文内容块的抽取。

显示模块908，用于显示抽取的标题和正文内容。

在一个实施例中，终端还包括抽取语句获取模块902，用于获取与加载的网页的域名对应的抽取语句。

在一个实施例中，如图10所示，抽取语句获取模块902包括：

缓存获取模块902a，用于检测缓存中是否有与加载的网页的域名对应的多条抽取语句，如果有，则从缓存中获取与加载的网页的域名对应的多条抽取语句

缓存模块902b，用于如果缓存中没有与加载的网页的域名对应的多条抽取语句，则从服务器获取与加载的网页的域名对应的多条抽取语句并缓存。

在一个实施例中，如图11所示，抽取语句匹配模块904包括：

正则表达式匹配模块904a，用于将加载的网页的URL地址与多条抽取语句对应的正则表达式进行匹配；若匹配成功，则匹配的正则表达式对应的抽取语句为匹配的抽取语句。

尝试抽取模块904b，用于若正则表达式匹配模块904a匹配成功，则根据匹配的抽取语句中的标题内容块和正文内容块的路径描述，尝试抽取加载的网页的标题和正文内容。

本实施例中，正则表达式匹配模块904a，还用于如果有其中一个路径描述尝试抽取失败，则继续将加载的网页的URL地址与多条抽取语句对应的正则表达式逐一进行匹配，直至匹配的抽取语句中的路径描述都能尝试抽取成功。

在其他实施例中，抽取语句匹配模块904可包含正则表达式匹配模块904a和尝试抽取模块904b中的至少一个。

在一个实施例中，如图12所示，标题正文抽取模块906包括：

标题抽取模块906a，用于从抽取语句中的第一个标题内容块的路径描述进行检测，当检测到非空字符串时，则停止检测，根据检测到的非空字符串对加载的网页进行标题的抽取。

正文内容抽取模块906b，用于根据抽取语句中的正文内容块的路径描述抽取加载的网页中的正文内容，并将抽取到的正文内容按顺序进行拼接。

在一个实施例中，匹配的抽取语句中包含加载的网页的杂质块的路径描述，如图13所示，终端还包括：

第一杂质去除模块905，用于根据杂质块的路径描述将加载的网页中的杂质去除。

第二杂质去除模块907，用于将加载的网页中带杂质标签的DOM节点去除。

在其他实施例中，终端可包含第一杂质去除模块905和第二杂质去除模块907中的至少一个。

在一个实施例中，匹配的抽取语句中还包含加载的网页的续页块的路径描述，如图14所示，终端还包括：

续页链接抽取模块909，用于根据续页块的路径描述抽取所述加载的网页中的续页链接。

本实施例中，抽取语句匹配模块904还用于根据续页链接对应的URL地址，获取与续页链接对应的URL地址匹配的抽取语句；标题正文抽取模块906还用于根据匹配的抽取语句中的标题内容块和正文内容块的路径描述对续页链接对应的网页进行标题和正文内容的抽取。

在一个实施例中，如图15所示，续页链接抽取模块909包括：

第一续页链接确定模块919，用于如果抽取到的是链接标签，则使用抽取到的链接标签中的第一个所对应的链接为加载的网页中的续页链接。

第二续页链接确定模块929，用于如果抽取到的不是链接标签，则查找抽取到的续页块中的链接标签，对链接标签进行打分，获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

在一个实施例中，如图16所示，第二续页链接确定模块929包括：

第一加分模块929a，用于检测链接标签的属性中是否包含预设链接内容，若是，则根据所属性中包含的预设链接内容对链接标签进行加分。

续页链接获取模块929b，用于判断是否含有大于零分的链接标签，如果有，则获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

在另一个实施例中，如图17所示，第二续页链接确定模块929还包括：

第二加分模块929c，用于如果没有大于零分的链接标签，则获取链接标签的兄弟节点，根据兄弟节点中包含的文字内容对链接标签进行加分，以及检测链接标签中是否包含图片，若是，则根据图片中包含的预设文本内容对链接标签进行加分。

本实施例中，续页链接获取模块929b还用于获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

本发明实施例还提供了另一种网页处理终端，如图18所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA（Personal Digital Assistant，个人数字助理）、POS（Point of Sales，销售终端）、车载电脑等任意终端设备，以终端为手机为例：

图18示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图18，手机包括：射频（Radio Frequency，RF）电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真（wireless fidelity，WiFi）模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图18中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图18对手机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，LNA）、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（GlobalSystem of Mobile communication，GSM）、通用分组无线服务（General Packet RadioService，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access,WCDMA）、长期演进（Long Term Evolution,LTE）)、电子邮件、短消息服务（Short Messaging Service，SMS）等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机1100的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器（LiquidCrystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode,OLED）等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图18中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机1100还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图18示出了WiFi模块1170，但是可以理解的是，其并不属于手机1100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机1100还包括给各个部件供电的电源1190（比如电池），优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机1100还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1180还具有以下功能：获取与加载的网页的URL地址匹配的抽取语句，匹配的抽取语句中包含加载的网页的标题内容块和正文内容块的路径描述；根据标题内容块和正文内容块的路径描述对加载的网页进行标题和正文内容的抽取；显示抽取的标题和正文内容。

在一个实施例中，处理器1180还具有以下功能：获取与加载的网页的域名对应的多条抽取语句。

在一个实施例中，处理器1180还具有以下功能：将加载的网页的URL地址与多条抽取语句对应的正则表达式逐一进行匹配；若匹配成功，则匹配的正则表达式对应的抽取语句为匹配的抽取语句。

在一个实施例中，处理器1180还具有以下功能：若匹配成功，则根据匹配的抽取语句中的标题内容块和正文内容块的路径描述，尝试抽取加载的网页的标题和正文内容；如果有其中一个路径描述尝试抽取失败，则继续将加载的网页的URL地址与多条抽取语句对应的正则表达式逐一进行匹配，直至匹配的抽取语句中的路径描述都能尝试抽取成功。

在一个实施例中，处理器1180还具有以下功能：从抽取语句中的第一个标题内容块的路径描述进行检测，当检测到非空字符串时，则停止检测，根据检测到的非空字符串对加载的网页进行标题的抽取；根据抽取语句中的正文内容块的路径描述抽取加载的网页中的正文内容，并将抽取到的正文内容按顺序进行拼接。

在一个实施例中，匹配的抽取语句中还包含加载的网页的杂质块的路径描述，处理器1180还具有以下功能：根据杂质块的路径描述将加载的网页中的杂质去除。

在另一个实施例中，处理器1180还具有以下功能：将加载的网页中带杂质标签的DOM节点去除。

在一个实施例中，匹配的抽取语句中还包含加载的网页的续页块的路径描述，处理器1180还具有以下功能：根据所续页块的路径描述抽取加载的网页中的续页链接；对续页链接对应的网页执行网页处理方法。

在一个实施例中，处理器1180还具有以下功能：如果抽取到的是链接标签，使用抽取到的链接标签中的第一个所对应的链接为加载的网页中的续页链接；如果抽取到的不是链接标签，则查找抽取到的续页块中的链接标签，对链接标签进行打分，获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

在一个实施例中，处理器1180还具有以下功能：检测所链接标签的属性中是否包含预设链接内容，若是，则根据属性中包含的预设链接内容对链接标签进行加分；判断是否含有大于零分的链接标签，如果有，则获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

在一个实施例中，处理器1180还具有以下功能：如果没有大于零分的链接标签，则获取链接标签的兄弟节点，根据兄弟节点中包含的文字内容对链接标签进行加分，以及检测链接标签中是否包含图片，若是，则根据图片中包含的预设文本内容对链接标签进行加分；获取分数值最高的链接标签所对应的链接为加载的网页中的续页链接。

在一个实施例中，处理器1180还具有以下功能：检测缓存中是否有与加载的网页的域名对应的多条抽取语句，如果有，则从缓存中获取与加载的网页的域名对应的多条抽取语句，如果没有，则从服务器获取与加载的网页的域名对应的多条抽取语句并缓存。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网页处理方法，所述方法包括：

获取与加载的网页的URL地址匹配的抽取语句，所述匹配的抽取语句为能够对所述加载的网页的各种内容块进行抽取的语句，所述匹配的抽取语句中包含所述加载的网页的标题内容块和正文内容块的路径描述；

显示所述抽取的标题和正文内容。

2.根据权利要求1所述的方法，其特征在于，所述获取与加载的网页的URL地址匹配的抽取语句，包括：

将所述加载的网页的URL地址与多条抽取语句对应的正则表达式逐一进行匹配；

若匹配成功，则匹配的正则表达式对应的抽取语句为所述匹配的抽取语句。

3.根据权利要求2所述的方法，其特征在于，所述获取与加载的网页的URL地址匹配的抽取语句，还包括：

若匹配成功，则根据所述匹配的抽取语句中的标题内容块和正文内容块的路径描述，尝试抽取所述加载的网页的标题和正文内容；

如果有其中一个路径描述尝试抽取失败，则继续将所述加载的网页的URL地址与所述多条抽取语句对应的正则表达式逐一进行匹配，直至匹配的抽取语句中的路径描述都能尝试抽取成功。

4.根据权利要求1所述的方法，其特征在于，所述根据标题内容块和正文内容块的路径描述对所述加载的网页进行标题和正文内容的抽取，包括：

从所述抽取语句中的第一个标题内容块的路径描述进行检测，当检测到非空字符串时，则停止检测，根据所述检测到的非空字符串对所述加载的网页进行标题的抽取；

根据所述抽取语句中的正文内容块的路径描述抽取加载的网页中的正文内容，并将抽取到的正文内容按顺序进行拼接。

5.根据权利要求1所述的方法，其特征在于，所述匹配的抽取语句中还包含所述加载的网页的杂质块的路径描述；所述方法还包括：

根据所述杂质块的路径描述将所述加载的网页中的杂质去除。

6.根据权利要求1或5所述的方法，其特征在于，所述方法还包括：

将所述加载的网页中带杂质标签的DOM节点去除。

7.根据权利要求1所述的方法，其特征在于，所述匹配的抽取语句中还包含所述加载的网页的续页块的路径描述；所述方法还包括：

根据所述续页块的路径描述抽取所述加载的网页中的续页链接；

对所述续页链接对应的网页执行所述网页处理方法。

8.根据权利要求7所述的方法，其特征在于，所述根据续页块的路径描述抽取所述加载的网页中的续页链接，包括：

如果抽取到的是链接标签，则使用所述抽取到的链接标签中的第一个所对应的链接为所述加载的网页中的续页链接；

如果抽取到的不是链接标签，则查找抽取到的续页块中的链接标签，对所述链接标签进行打分，获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接。

9.根据权利要求8所述的方法，其特征在于，所述查找抽取到的续页块中的链接标签，对所述链接标签进行打分，获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接，包括：

检测所述链接标签的属性中是否包含预设链接内容，若是，则根据所述属性中包含的预设链接内容对所述链接标签进行加分；

判断是否含有大于零分的链接标签，如果有，则获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接。

10.根据权利要求9所述的方法，其特征在于，所述查找抽取到的续页块中的链接标签，对所述链接标签进行打分，获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接，还包括：

如果没有大于零分的链接标签，则获取所述链接标签的兄弟节点，根据所述兄弟节点中包含的文字内容对所述链接标签进行加分，以及检测所述链接标签中是否包含图片，若是，则根据所述图片中包含的预设文本内容对所述链接标签进行加分；

获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接。

11.根据权利要求1所述的方法，其特征在于，在所述获取与加载的网页的URL地址匹配的抽取语句之前，还包括：

获取与所述加载的网页的域名对应的多条抽取语句。

12.根据权利要求11所述的方法，其特征在于，所述获取与加载的网页的域名对应的多条抽取语句，包括：

检测缓存中是否有与加载的网页的域名对应的多条抽取语句，如果有，则从缓存中获取与加载的网页的域名对应的多条抽取语句，如果没有，则从服务器获取与加载的网页的域名对应的多条抽取语句并缓存。

13.一种用于执行网页处理方法的终端，其特征在于，所述终端包括：

抽取语句匹配模块，用于获取与加载的网页的URL地址匹配的抽取语句，所述匹配的抽取语句为能够对所述加载的网页的各种内容块进行抽取的语句，所述匹配的抽取语句中包含所述加载的网页的标题内容块和正文内容块的路径描述；

显示模块，用于显示所述抽取的标题和正文内容。

14.根据权利要求13所述的终端，其特征在于，所述抽取语句匹配模块包括：

正则表达式匹配模块，用于将所述加载的网页的URL地址与多条抽取语句对应的正则表达式进行匹配；若匹配成功，则匹配的正则表达式对应的抽取语句为所述匹配的抽取语句。

15.根据权利要求14所述的终端，其特征在于，所述抽取语句匹配模块还包括：

尝试抽取模块，用于若所述正则表达式匹配模块匹配成功，则根据所述匹配的抽取语句中的标题内容块和正文内容块的路径描述，尝试抽取所述加载的网页的标题和正文内容；

所述正则表达式匹配模块还用于如果有其中一个路径描述尝试抽取失败，则继续将所述加载的网页的URL地址与所述多条抽取语句对应的正则表达式逐一进行匹配，直至匹配的抽取语句中的路径描述都能尝试抽取成功。

16.根据权利要求13所述的终端，其特征在于，所述标题正文抽取模块包括：

标题抽取模块，用于从所述抽取语句中的第一个标题内容块的路径描述进行检测，当检测到非空字符串时，则停止检测，根据所述检测到的非空字符串对所述加载的网页进行标题的抽取；

正文内容抽取模块，用于根据所述抽取语句中的正文内容块的路径描述抽取加载的网页中的正文内容，并将抽取到的正文内容按顺序进行拼接。

17.根据权利要求13所述的终端，其特征在于，所述匹配的抽取语句中还包含所述加载的网页的杂质块的路径描述；所述终端还包括：

第一杂质去除模块，用于根据所述杂质块的路径描述将所述加载的网页中的杂质去除。

18.根据权利要求13或17所述的终端，其特征在于，所述终端还包括：

第二杂质去除模块，用于将所述加载的网页中带杂质标签的DOM节点去除。

19.根据权利要求13所述的终端，其特征在于，所述匹配的抽取语句中还包含所述加载的网页的续页块的路径描述；所述终端还包括：

续页链接抽取模块，用于根据所述续页块的路径描述抽取所述加载的网页中的续页链接；

所述抽取语句匹配模块还用于根据所述续页链接对应的URL地址，获取与所述续页链接对应的URL地址匹配的抽取语句；

所述标题正文抽取模块还用于根据所述匹配的抽取语句中的标题内容块和正文内容块的路径描述对所述续页链接对应的网页进行标题和正文内容的抽取。

20.根据权利要求19所述的终端，其特征在于，所述续页链接抽取模块包括：

第一续页链接确定模块，用于如果抽取到的是链接标签，则使用所述抽取到的链接标签中的第一个所对应的链接为所述加载的网页中的续页链接；

第二续页链接确定模块，用于如果抽取到的不是链接标签，则查找抽取到的续页块中的链接标签，对所述链接标签进行打分，获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接。

21.根据权利要求20所述的终端，其特征在于，所述第二续页链接确定模块包括：

第一加分模块，用于检测所述链接标签的属性中是否包含预设链接内容，若是，则根据所述属性中包含的预设链接内容对所述链接标签进行加分；

续页链接获取模块，用于判断是否含有大于零分的链接标签，如果有，则获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接。

22.根据权利要求21所述的终端，其特征在于，所述第二续页链接确定模块还包括：

第二加分模块，用于如果没有大于零分的链接标签，则获取所述链接标签的兄弟节点，根据所述兄弟节点中包含的文字内容对所述链接标签进行加分，以及检测所述链接标签中是否包含图片，若是，则根据所述图片中包含的预设文本内容对所述链接标签进行加分；

所述续页链接获取模块还用于获取分数值最高的链接标签所对应的链接为所述加载的网页中的续页链接。

23.根据权利要求13所述的终端，其特征在于，所述终端还包括：

抽取语句获取模块，用于获取与所述加载的网页的域名对应的多条抽取语句。

24.根据权利要求23所述的终端，其特征在于，所述抽取语句获取模块包括：

缓存获取模块，用于检测缓存中是否有与加载的网页的域名对应的多条抽取语句，如果有，则从缓存中获取与加载的网页的域名对应的多条抽取语句；

缓存模块，用于如果缓存中没有与加载的网页的域名对应的多条抽取语句，则从服务器获取与加载的网页的域名对应的多条抽取语句并缓存。