CN103150389B - 对网页文本内容匹配设置进行处理的方法和装置 - Google Patents

对网页文本内容匹配设置进行处理的方法和装置 Download PDF

Info

Publication number
CN103150389B
CN103150389B CN201310092522.4A CN201310092522A CN103150389B CN 103150389 B CN103150389 B CN 103150389B CN 201310092522 A CN201310092522 A CN 201310092522A CN 103150389 B CN103150389 B CN 103150389B
Authority
CN
China
Prior art keywords
matching
webpage
network address
content
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310092522.4A
Other languages
English (en)
Other versions
CN103150389A (zh
Inventor
糜裕峰
谢洲为
任寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310092522.4A priority Critical patent/CN103150389B/zh
Publication of CN103150389A publication Critical patent/CN103150389A/zh
Application granted granted Critical
Publication of CN103150389B publication Critical patent/CN103150389B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及计算机网络领域,公开了一种对网页文本内容匹配设置进行处理的方法和装置,方法包括:在浏览器侧预设至少一网页文本内容匹配设置;在浏览器侧进行当前网页内容的下载;将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述当前网页内容中的网页文本内容并显示在浏览器侧;将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。本发明能够解决匹配过程需要将网页文本内容与网页文本内容匹配设置进行全部比对,耗费大量时间和资源,导致了网页提取效率低下,以及网页显示的等待时延过长的问题。

Description

对网页文本内容匹配设置进行处理的方法和装置
技术领域
本发明涉及计算机网络领域,具体涉及一种对网页文本内容匹配设置进行处理的方法和装置。
背景技术
在现有网络中,大多数网页中的内容,除文字信息之外的部分多为广告图片、非文章内容等无用信息。因此,现有技术中采用网页提取方案,将网页的标题、文章内容等的文字提取出来,然后在设置过的阅读网页里展示提取的内容给用户,以提供没有无用信息干扰的洁净的网页内容。
例如,在现有技术中当用户加载完网页之后,将网址与设置的规则匹配,如果网址命中规则,则按照规则将网页中的内容进行拆分。具体地,可以按照代码中的标签确定定位,并抽取出所需要的字段文字。字段文字可以包括标题、正文内容等。然后,将提取的字段文字交由阅读模式网页进行展示。由此,用户便可以看到经过筛选的网页,更加方便和专注的阅读。
采用现有技术中提取网页文本内容的方案,需要在每次提取时,针对待提取的网页,匹配出该网页对应的网页文本内容匹配设置,根据该网页文本内容匹配设置进行网页内容提取。该匹配过程需要将网页文本内容与网页文本内容匹配设置进行全部比对,耗费大量时间和资源,导致了网页提取效率低下,以及网页显示的等待时延过长的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的对网页文本内容匹配设置进行处理的方法和装置。
依据本发明的一个方面,提供了一种对网页文本内容匹配设置进行处理的方法,包括:
在浏览器侧预设至少一网页文本内容匹配设置;
在浏览器侧进行当前网页内容的下载;
将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;
利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述当前网页内容中的网页文本内容并显示在浏览器侧;
将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
可选的,所述将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存具体包括:
在浏览器侧接收到在当前页面中用户输入的保存网页文本内容匹配设置指令后,提取当前网址,将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。
可选的,所述配置文件为单独保存所述当前网址和其匹配成功的网页文本内容匹配设置的配置文件;或者
所述配置文件为存储所述网页文本内容匹配设置的文件的一部分。
可选的,所述将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中之后还包括:
提取当前网址的上一级网址或同一级网址,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到所述本地配置文件中。
可选的,所述将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存之后还包括:
在浏览器侧进行网页内容的下载时,判断所述下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,利用与匹配的网址对应的网页文本内容匹配设置,提取所述下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
可选的,所述将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到所述本地配置文件中之后还包括:
在浏览器侧进行网页内容的下载时,匹配下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,如果匹配成功,则自动进入阅读模式,利用匹配出的所述下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取所述下载网页内容中的网页文本内容,并显示在浏览器侧。
可选的,所述自动进入阅读模式后还包括:
提示是否使所述下载网页所在书籍自动进入阅读模式,
接收到确定的指令后,从网站获得该书籍的各个网页的网址,将获得的网址对应于所述下载网页的网址匹配出的网页文本内容匹配设置保存到配置文件中。
可选的,所述在浏览器侧预设至少一网页文本内容匹配设置包括:
建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中;
其中,所述匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分所述网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个所述网页文本内容的匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
可选的,所述在浏览器侧进行网页内容的下载时包括:
接收到浏览器NavigateComplete事件时。
可选的,所述建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中包括:
为每种类型的网站建立一个网站节点;
在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点;
根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项,其中在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项;以及
对于网页中相同类型的文本内容,在所述第一匹配设置描述节点中建立的匹配设置项和在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。
可选的,所述在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项包括:
在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项;
所述为HTML元素建立的匹配设置项包括一次定位匹配设置项,所述一次定位匹配设置项至少包括:
基点查找设置项:指示基点查找的方式,所述方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,
标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,
名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,
类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,
内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,
表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;
和/或,
标签设置项:指示利用所述标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。
可选的,所述为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,所述元素删除匹配设置项至少包括:
删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或
改变由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容。
根据本发明的另一个方面,公开了一种对网页文本内容匹配设置进行处理的装置,该装置包括:
设置模块,适于在浏览器侧预设至少一网页文本内容匹配设置;
下载模块,适于在浏览器侧进行当前网页内容的下载;
匹配模块,适于将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;
提取模块,适于利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述当前网页内容中的网页文本内容并显示在浏览器侧;
保存模块,适于将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
可选的,所述保存模块,具体适于在浏览器侧接收到在当前页面中用户输入的保存网页文本内容匹配设置指令后,提取当前网址,将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。
可选的,所述配置文件为单独保存所述当前网址和其匹配成功的网页文本内容匹配设置的配置文件;或者
所述配置文件为存储所述网页文本内容匹配设置的文件的一部分。
可选的,所述保存模块,还适于提取当前网址的上一级网址或同一级网址,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到所述本地配置文件中。
可选的,所述匹配模块,还适于当所述下载模块在浏览器侧进行网页内容的下载时,判断所述下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,指示所述提取模块利用与匹配的网址对应的网页文本内容匹配设置,提取所述下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
可选的,所述匹配模块,还适于当所述下载模块在浏览器侧进行网页内容的下载时,匹配下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,如果匹配成功,则自动进入阅读模式,指示所述提取模块利用匹配出的所述下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取所述下载网页内容中的网页文本内容,并显示在浏览器侧。
可选的,所述装置还包括提示模块和指令接收模块,
所述提示模块,适于在自动进入阅读模式后,提示是否使所述下载网页所在书籍自动进入阅读模式,
所述指令接收模块,适于在接收到确定的指令后,从网站获得该书籍的各个网页的网址,指示所述保存模块将获得的网址对应于所述下载网页的网址匹配出的网页文本内容匹配设置保存到配置文件中。
可选的,所述设置模块,具体适于建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中;
其中,所述匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分所述网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个所述网页文本内容的匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
可选的,所述下载模块,具体适于接收到浏览器NavigateComplete事件。
可选的,所述设置模块,具体适于为每种类型的网站建立一个网站节点;在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点;根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项,其中在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项;以及,对于网页中相同类型的文本内容,在所述第一匹配设置描述节点中建立的匹配设置项和在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。
可选的,所述设置模块,具体适于在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项;
所述为HTML元素建立的匹配设置项包括一次定位匹配设置项,所述一次定位匹配设置项至少包括:
基点查找设置项:指示基点查找的方式,所述方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,
标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,
名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,
类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,
内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,
表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;
和/或,
标签设置项:指示利用所述标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。
可选的,所述设置模块为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,所述元素删除匹配设置项至少包括:
删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或
改变由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容。
根据本发明的技术方案,在浏览器侧预设至少一网页文本内容匹配设置;在浏览器侧进行当前网页内容的下载;将下载的网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功;利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧;将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
通过将下载的网页内容与网页文本内容匹配设置进行匹配,并将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存,能够在下次访问该网址时,提供该网址对应的网页文本内容匹配设置,进而在下次访问该网址时,无需再将该网址的网页内容与网页文本内容匹配设置进行匹配,可以直接使用保存的该网址匹配成功的网页文本内容匹配设置进行提取。可见,本发明解决了需要将网页文本内容与网页文本内容匹配设置进行全部比对,耗费大量时间和资源,导致网页提取效率低下,以及网页显示的等待时延过长的问题;取得了在网页内容提取时节约处理时间和资源,提高网页提取效率,加快网页显示的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的对网页文本内容匹配设置进行处理的装置的结构图;
图2示出了根据本发明另一个实施例的对网页文本内容匹配设置进行处理的装置的结构图;
图3示出了根据本发明一个实施例的对网页文本内容匹配设置进行处理的方法的流程图;
图4示出了根据本发明另一个实施例的对网页文本内容匹配设置进行处理的方法的流程图;以及
图5示出了根据本发明又一个实施例的对网页文本内容匹配设置进行处理的方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1,示出了根据本发明一个实施例的对网页文本内容匹配设置进行处理的装置的结构图。该装置包括:设置模块100、下载模块200、匹配模块300、提取模块400和保存模块500。
设置模块100,适于在浏览器侧预设至少一网页文本内容匹配设置。
具体的,设置模块100适于建立一匹配设置文件并将至少一网页文本内容匹配设置保存在匹配设置文件中;其中,该匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置。匹配设置描述节点中可以包括一个或多个匹配设置项,至少两个网页文本内容匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
设置模块100为每种类型的网站建立一个网站节点,即一个网站节点对应一种类型的网站;在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点,即一个网页节点对应一种类型的网页。
设置模块100根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项。不同的网页,其中包含的内容不同,则相应的匹配设置描述节点中的匹配设置项也不同。
在一个网页节点下包括多个匹配设置描述节点,由于通常网页中会存在一些不会经常变化的固定信息和一些易于发生变化的可变信息,设置模块100在网页节点下的匹配设置描述节点中确定一个匹配设置描述节点作为第一匹配设置描述节点,该第一匹配设置描述节点中包括的匹配设置项最全面,包括了为网页中每种类型的文本内容建立的至少一条匹配设置项。而在除第一匹配设置描述节点之外的匹配设置描述节点中,可以仅针对网页中的可变信息建立匹配设置项,并且在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。
这种处理方式,一方面简化了网页文本内容匹配设置的结构,避免不同匹配设置中有重复的部分,减少了所需存储的匹配设置的数据量,从而提高了资源利用率;另一方面也避免了对相同的网页内容进行重复匹配操作,提高了匹配效率。
下面结合一段代码的示例对匹配设置文件进行具体说明。
下面结合上述代码中的各节点对匹配设置文件具体说明如下:
1.<websites>总网站节点:该节点是最大的父节点,该节点对应于一个匹配设置文件,该节点由数个网站(website)节点构成。
2.<website>节点:每个网站节点代表一种支持的网站,一个网站节点中设置一个或多个网页节点,如在网站节点www.feiku.com下设置有书籍(book)网页节点、目录(catalog)网页节点和章节(chapter)网页节点。在网页节点中还设置有下载模式(downloadmode)属性和元素过滤(elementfilter)属性。
3.<book>网页节点:描述小说主页信息,该网页节点下设置两个匹配设置描述节点<profile>。在作为第一匹配设置描述节点的<profile>中配置多个匹配设置项,如URL(Uniform/Universal Resource Locator,统一资源定位符)匹配设置项描述相关URL匹配和获取bookid(网页标识)信息;title(标题)匹配设置项,描述如何取得小说首页title的信息;catalogurl(目录URL)匹配设置项描述该小说的目录URL;lasterchapter(最新章节)匹配设置项描述最新章节的描述;lasterchapterurl(最新章节URL)匹配设置项描述最新章节的URL。
4.<catalog>网页节点:描述小说目录页信息,该网页节点下仅设置一个匹配设置描述节点,在匹配设置描述节点下包括:URL匹配设置项描述相关URL匹配和获取bookid信息;chapterlist匹配设置项,描述目录页的相关内容;returnbook描述小说首页的URL地址。
5.<chapter>网页节点:描述小说章节页信息,该网页节点下设置两个<profile>。在作为第一匹配设置描述节点的<profile>中配置有:URL匹配设置项,描述相关URL匹配和获取bookid信息;title匹配设置项,描述如何取得小说首页title的信息;text(文本)匹配设置项,描述小说的正文内容;next匹配设置项,描述下一章节小说页URL;prev匹配设置项,描述小说上一章节URL;returncatalog(返回目录)匹配设置项,描述章节页保存的小说目录页URL;returnbook(返回书籍)匹配设置项,描述小说章节页保存的小说首页。
6.<profile>匹配设置描述节点:当一个网页节点下设置多个网页文本内容匹配设置时,会配置匹配设置描述节点<profile>,每个<profile>对应一个网页文本内容匹配设置。<profile>位于具体的网页节点之下,例如,位于上述book网页节点和chapter网页节点下面,将匹配设置项设置在<profile>中。
此外,设置模块100在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项。
所述为HTML元素建立的匹配设置项包括一次定位匹配设置项,所述一次定位匹配设置项至少包括:
基点查找设置项:指示基点查找的方式,所述方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,
标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,
名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,
类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,
内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,
表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;
和/或,
标签设置项:指示利用所述标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。
设置模块100为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,所述元素删除匹配设置项至少包括:
删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或
改变由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容。
下载模块200,适于在浏览器侧进行当前网页内容的下载。
匹配模块300,适于将下载的网页内容分别与网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功。
举例而言,下载模块200下载完网页内容后,接收到DocumentComplete(文档完成)事件,指示匹配模块300将下载的网页内容与网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功。
提取模块400,适于利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧。
保存模块500,适于将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
具体的,保存模块500在浏览器侧接收到在当前页面中用户输入的保存网页文本内容匹配设置指令后,提取当前网址,将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。其中,该配置文件可以为单独保存当前网址和其匹配成功的网页文本内容匹配设置的配置文件;也可以为存储网页文本内容匹配设置的文件的一部分。
举例而言,在浏览器侧显示的网页文本内容中添加按钮,该按钮被点击后,接收到保存网页文本内容匹配设置指令,提取当前网址,将当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。
进一步地,匹配模块300,还适于当下载模块200在浏览器侧进行网页内容的下载时,判断下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,指示提取模块400利用与匹配的网址对应的网页文本内容匹配设置,提取下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
举例而言,上述配置文件保存到内存的向量vector中。用户浏览网站时,下载模块200进行下载,接收到浏览器NavigateComplete(导航完成)事件,指示匹配模块300进行匹配。匹配模块300利用NavigateComplete事件,获取下载网页的网址URL,提取出该URL,遍历内存vector,查看该URL是否与vector的配置文件中网址匹配,如果匹配,则自动进入阅读模式,指示提取模块400利用与该URL匹配的网址所对应的网页文本内容匹配设置,提取下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
在本实施例中,通过将下载的网页内容与网页文本内容匹配设置进行匹配,并将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存,能够在下次访问该网址时,提供该网址对应的网页文本内容匹配设置,进而在下次访问该网址时,无需再将该网址的网页内容与网页文本内容匹配设置进行匹配,可以直接使用保存的该网址匹配成功的网页文本内容匹配设置进行提取。可见,本实施例解决了需要将网页文本内容与网页文本内容匹配设置进行全部比对,耗费大量时间和资源,导致网页提取效率低下,以及网页显示的等待时延过长的问题;取得了在网页内容提取时节约处理时间和资源,提高网页提取效率,加快网页显示的有益效果。
根据本发明一个实施例的对网页文本内容匹配设置进行处理的装置,该装置包括:设置模块100、下载模块200、匹配模块300、提取模块400和保存模块500。
设置模块100,适于在浏览器侧预设至少一网页文本内容匹配设置。
下载模块200,适于在浏览器侧进行当前网页内容的下载。
匹配模块300,适于将网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功。
提取模块400,适于利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧。
保存模块500,适于提取当前网址的上一级网址或同一级网址,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到本地配置文件中。
匹配模块300,还适于当下载模块200在浏览器侧进行网页内容的下载时,匹配下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,如果匹配成功,则自动进入阅读模式,指示提取模块400利用匹配出的下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取该下载网页内容中的网页文本内容,并显示在浏览器侧。
举例而言,当前网址为http://www.qidian.com/BookReader/2466955,42049743.aspx,匹配出当前网址对应的网页文本内容匹配设置后,保存模块500提取出该网址的上一级网址http://www.qidian.com或同一级网址http://www.qidian.com/BookReader,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到本地配置文件中。
匹配模块300当下载模块200在浏览器侧进行网页内容的下载时,将下载网页的网址的上一级网址或同一级网址与配置文件中上一级网址或同一级网址进行匹配比较,如果匹配成功,则自动进入阅读模式,指示提取模块400利用匹配到的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取该下载网页内容中的网页文本内容,并显示在浏览器侧。
例如,当访问网址http://www.qidian.com/BookReader/42049743.aspx时,在配置文件中,匹配到网址http://www.qidian.com/BookReader或网址http://www.qidian.com,得到匹配到的网址对应的网页文本内容匹配设置,指示提取模块400利用该网页文本内容匹配设置提取该下载网页内容中的网页文本内容,并显示在浏览器侧。
由上可见,在本实施例中,可以将配置文件中的当前网址所对应的网页文本内容匹配设置扩展应用到当前网址所在网站的同一级或上一级目录下的各个网页,在访问当前网址所在网站的同一级或上一级目录下网页时,能够避免进行耗费时间和资源的网页内容与网页文本内容匹配设置的匹配操作,从而进一步提高了网页提取效率。
参见图2,示出了根据本发明一个实施例的对网页文本内容匹配设置进行处理的装置的结构图。该装置包括:设置模块100、下载模块200、匹配模块300、提取模块400、保存模块500、提示模块600和指令接收模块700。
设置模块100,适于在浏览器侧预设至少一网页文本内容匹配设置。
下载模块200,适于在浏览器侧进行当前网页内容的下载。
匹配模块300,适于将网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功。
提取模块400,适于利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧。
保存模块500,适于将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
匹配模块300,还适于当下载模块200在浏览器侧进行网页内容的下载时,判断下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,指示提取模块400利用与匹配的网址对应的网页文本内容匹配设置,提取下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
提示模块600,适于在自动进入阅读模式后,提示是否使该下载网页所在书籍自动进入阅读模式。
指令接收模块700,适于在接收到确定的指令后,从网站获得该书籍的各个网页的网址,指示所述保存模块500将获得的网址对应于下载网页的网址匹配出的网页文本内容匹配设置保存到配置文件中。
由上可见,在本实施例中,可以将配置文件中下载网页所对应的网页文本内容匹配设置扩展应用到当前网页所在书籍下的各个网页,在访问该书籍下的各个网页时,能够避免进行耗费时间和资源的网页内容与网页文本内容匹配设置的匹配操作,从而进一步提高了网页提取效率。
参见图3,示出了根据本发明一个实施例的对网页文本内容匹配设置进行处理的方法的流程图。该流程图包括如下步骤。
步骤S310,在浏览器侧预设至少一网页文本内容匹配设置。
具体的,在步骤S310中,建立一匹配设置文件并将至少一网页文本内容匹配设置保存在匹配设置文件中;其中,该匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置。匹配设置描述节点中可以包括一个或多个匹配设置项,至少两个网页文本内容匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
其中,为每种类型的网站建立一个网站节点,即一个网站节点对应一种类型的网站;在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点,即一个网页节点对应一种类型的网页。
其中,根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项。不同的网页,其中包含的内容不同,则相应的匹配设置描述节点中的匹配设置项也不同。
在一个网页节点下包括多个匹配设置描述节点,由于通常网页中会存在一些不会经常变化的固定信息和一些易于发生变化的可变信息,在网页节点下的匹配设置描述节点中确定一个匹配设置描述节点作为第一匹配设置描述节点,该第一匹配设置描述节点中包括的匹配设置项最全面,包括了为网页中每种类型的文本内容建立的至少一条匹配设置项。而在除第一匹配设置描述节点之外的匹配设置描述节点中,可以仅针对网页中的可变信息建立匹配设置项,并且在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。
这种处理方式,一方面简化了网页文本内容匹配设置的结构,避免不同匹配设置中有重复的部分,减少了所需存储的匹配设置的数据量,从而提高了资源利用率;另一方面也避免了对相同的网页内容进行重复匹配操作,提高了匹配效率。
此外,在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项。
所述为HTML元素建立的匹配设置项包括一次定位匹配设置项,所述一次定位匹配设置项至少包括:
基点查找设置项:指示基点查找的方式,所述方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,
标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,
名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,
类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,
内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,
表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;
和/或,
标签设置项:指示利用所述标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。
所述为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,所述元素删除匹配设置项至少包括:
删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或
改变由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容。
步骤S320,在浏览器侧进行当前网页内容的下载。
步骤S330,将下载的网页内容分别与网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功。
举例而言,在下载完网页内容后,接收到DocumentComplete事件,将下载的网页内容与网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功。
步骤S340,利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧。
步骤S350,将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
具体的,在步骤S350中,在浏览器侧接收到在当前页面中用户输入的保存网页文本内容匹配设置指令后,提取当前网址,将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。其中,该配置文件可以为单独保存所述当前网址和其匹配成功的网页文本内容匹配设置的配置文件;也可以为存储网页文本内容匹配设置的文件的一部分。
举例而言,在浏览器侧显示的网页文本内容中添加按钮,该按钮被点击后,接收到保存网页文本内容匹配设置指令,提取当前网址,将当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。
进一步地,所述步骤S350后还包括:在浏览器侧进行网页内容的下载时,判断所述下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,利用与匹配的网址对应的网页文本内容匹配设置,提取所述下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
举例而言,上述配置文件保存到内存的向量vector中。用户浏览网站时,在下载完成后,接收到浏览器NavigateComplete事件,利用NavigateComplete事件,获取下载网页的网址URL,提取出该URL,遍历内存vector,查看该URL是否与vector的配置文件中网址匹配,如果匹配,则自动进入阅读模式,利用与该URL匹配的网址所对应的网页文本内容匹配设置,提取下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
在本实施例中,通过将下载的网页内容与网页文本内容匹配设置进行匹配,并将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存,能够在下次访问该网址时,提供该网址对应的网页文本内容匹配设置,进而在下次访问该网址时,无需再将该网址的网页内容与网页文本内容匹配设置进行匹配,可以直接使用保存的该网址匹配成功的网页文本内容匹配设置进行提取。可见,本实施例解决了需要将网页文本内容与网页文本内容匹配设置进行全部比对,耗费大量时间和资源,导致网页提取效率低下,以及网页显示的等待时延过长的问题;取得了在网页内容提取时节约处理时间和资源,提高网页提取效率,加快网页显示的有益效果。
参见图4,示出了根据本发明另一个实施例的对网页文本内容匹配设置进行处理的方法的流程图。该流程图包括如下步骤。
步骤S410,在浏览器侧预设至少一网页文本内容匹配设置。
步骤S420,在浏览器侧进行当前网页内容的下载。
步骤S430,将网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功。
步骤S440,利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧。
步骤S450,提取当前网址的上一级网址或同一级网址,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到本地配置文件中。
步骤S460,接收到网页下载指示,在浏览器侧进行网页内容的下载。
步骤S470,匹配下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,如果匹配成功,则自动进入阅读模式,执行步骤S480,否则,执行步骤S430。
步骤S480,利用匹配出的网页文本内容匹配设置,提取该下载网页内容中的网页文本内容,并显示在浏览器侧。
举例而言,在步骤S450中,匹配得到当前网址http://www.qidian.com/BookReader/2466955,42049743.aspx对应的网页文本内容匹配设置后,提取出该网址的上一级网址http://www.qidian.com或同一级网址http://www.qidian.com/BookReader,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到本地配置文件中。
在步骤S470中,将下载网页的网址的上一级网址或同一级网址与配置文件中上一级网址或同一级网址进行匹配比较,如果匹配成功,则自动进入阅读模式,执行步骤S480。在步骤S480中,利用匹配到的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取该下载网页内容中的网页文本内容,并显示在浏览器侧。
例如,当访问网址http://www.qidian.com/BookReader/42049743.aspx时,在配置文件中,匹配到网址http://www.qidian.com/BookReader或网址http://www.qidian.com,得到匹配到的网页文本内容匹配设置,利用该网页文本内容匹配设置提取该下载网页内容中的网页文本内容,并显示在浏览器侧。
由上可见,在本实施例中,可以将配置文件中的当前网页所对应的网页文本内容匹配设置扩展应用到当前网址所在网站的同一级或上一级目录下的各个网页,在访问当前网址所在网站的同一级或上一级目录下网页时,能够避免进行耗费时间和资源的网页内容与网页文本内容匹配设置的匹配操作,从而进一步提高了网页提取效率。
参见图5,示出了根据本发明又一个实施例的对网页文本内容匹配设置进行处理的方法的流程图。该流程图包括如下步骤。
步骤S5010,在浏览器侧预设至少一网页文本内容匹配设置。
步骤S5020,在浏览器侧进行当前网页内容的下载。
步骤S5030,将网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功。
步骤S5040,利用与网页内容匹配成功的网页文本内容匹配设置,提取当前网页内容中的网页文本内容并显示在浏览器侧。
步骤S5050,将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存。
步骤S5060,接收到网页下载指示,在浏览器侧进行网页内容的下载。
步骤S5070,判断下载网页的网址与配置文件中网址是否匹配,如果匹配,则执行步骤S5080,否则,执行步骤S5030。
步骤S5080,自动进入阅读模式,利用与匹配的网址对应的网页文本内容匹配设置,提取下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
步骤S5090,在自动进入阅读模式后,提示是否使该下载网页所在书籍自动进入阅读模式。
步骤S5100,在接收到确定的指令后,从网站获得该书籍的各个网页的网址,将获得的网址对应于下载网页的网址匹配出的网页文本内容匹配设置保存到配置文件中。
由上可见,在本实施例中,可以将配置文件中的网页文本内容匹配设置扩展应用到当前网页所在书籍下的各个网页,在访问该书籍下的各个网页时,能够避免进行耗费时间和资源的全匹配操作,从而进一步提高了网页提取效率。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对网页文本内容匹配设置进行处理的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (24)

1.一种对网页文本内容匹配设置进行处理的方法,包括:
在浏览器侧预设至少一网页文本内容匹配设置,包括:为每种类型的网站建立一个网站节点,为每个网站节点对应的网站下每种类型的网页建立一个网页节点,网页节点中包括网页文本内容匹配设置,每个网页文本内容匹配设置中包括根据网页的文本内容建立的一个或多个匹配设置项;对于包含固定信息和可变信息的网页,网页节点中包括第一网页文本内容匹配设置和其他网页文本内容匹配设置,第一网页文本内容匹配设置中包括为网页中每种类型的文本内容建立的至少一条匹配设置项,其他网页文本内容匹配设置中包括针对网页中的可变信息建立的匹配设置项;
在浏览器侧进行当前网页内容的下载;
将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;
利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述当前网页内容中的网页文本内容并显示在浏览器侧;
将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存;所述当前网址为当前网页的网址。
2.根据权利要求1所述的方法,其特征在于,
所述将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存具体包括:
在浏览器侧接收到在当前页面中用户输入的保存网页文本内容匹配设置指令后,提取当前网址,将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。
3.根据权利要求2所述的方法,其特征在于,
所述配置文件为单独保存所述当前网址和其匹配成功的网页文本内容匹配设置的配置文件;或者
所述配置文件为存储所述网页文本内容匹配设置的文件的一部分。
4.根据权利要求2或3所述的方法,其特征在于,
所述将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中之后还包括:
提取当前网址的上一级网址或同一级网址,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到所述本地配置文件中。
5.根据权利要求3所述的方法,其特征在于,
所述将所述当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存之后还包括:
在浏览器侧进行网页内容的下载时,判断所述下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,利用与匹配的网址对应的网页文本内容匹配设置,提取所述下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
6.根据权利要求4所述的方法,其特征在于,
所述将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到所述本地配置文件中之后还包括:
在浏览器侧进行网页内容的下载时,匹配下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,如果匹配成功,则自动进入阅读模式,利用匹配出的所述下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取所述下载网页内容中的网页文本内容,并显示在浏览器侧。
7.根据权利要求5或6所述的方法,其特征在于,
所述自动进入阅读模式后还包括:
提示是否使所述下载网页所在书籍自动进入阅读模式,
接收到确定的指令后,从网站获得该书籍的各个网页的网址,将获得的网址对应于所述下载网页的网址匹配出的网页文本内容匹配设置保存到配置文件中。
8.根据权利要求1所述的方法,其特征在于,
所述在浏览器侧预设至少一网页文本内容匹配设置包括:
建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中;
其中,所述匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分所述网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个所述网页文本内容的匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
9.根据权利要求5或6所述的方法,其特征在于,
所述在浏览器侧进行网页内容的下载时包括:
接收到浏览器NavigateComplete事件时。
10.根据权利要求8所述的方法,其特征在于,
所述建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中包括:
为每种类型的网站建立一个网站节点;
在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点;
根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项,其中在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项;以及
对于网页中相同类型的文本内容,在所述第一匹配设置描述节点中建立的匹配设置项和在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。
11.根据权利要求10所述的方法,其特征在于,
所述在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项包括:
在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项;
所述为HTML元素建立的匹配设置项包括一次定位匹配设置项,所述一次定位匹配设置项至少包括:
基点查找设置项:指示基点查找的方式,所述方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,
标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,
名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,
类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,
内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,
表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;
和/或,
标签设置项:指示利用所述标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。
12.根据权利要求11所述的方法,其特征在于,
所述为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,所述元素删除匹配设置项至少包括:
删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或
改变由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容。
13.一种对网页文本内容匹配设置进行处理的装置,该装置包括:
设置模块,适于在浏览器侧预设至少一网页文本内容匹配设置;具体地,为每种类型的网站建立一个网站节点,为每个网站节点对应的网站下每种类型的网页建立一个网页节点,网页节点中包括网页文本内容匹配设置,每个网页文本内容匹配设置中包括根据网页的文本内容建立的一个或多个匹配设置项;对于包含固定信息和可变信息的网页,网页节点中包括第一网页文本内容匹配设置和其他网页文本内容匹配设置,第一网页文本内容匹配设置中包括为网页中每种类型的文本内容建立的至少一条匹配设置项,其他网页文本内容匹配设置中包括针对网页中的可变信息建立的匹配设置项;
下载模块,适于在浏览器侧进行当前网页内容的下载;
匹配模块,适于将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;
提取模块,适于利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述当前网页内容中的网页文本内容并显示在浏览器侧;
保存模块,适于将当前网址和其匹配成功的网页文本内容匹配设置进行对应的保存;所述当前网址为当前网页的网址。
14.根据权利要求13所述的装置,其特征在于,
所述保存模块,具体适于在浏览器侧接收到在当前页面中用户输入的保存网页文本内容匹配设置指令后,提取当前网址,将所述当前网址和其匹配成功的网页文本内容匹配设置相对应地保存到本地配置文件中。
15.根据权利要求14所述的装置,其特征在于,
所述配置文件为单独保存所述当前网址和其匹配成功的网页文本内容匹配设置的配置文件;或者
所述配置文件为存储所述网页文本内容匹配设置的文件的一部分。
16.根据权利要求14或15所述的装置,其特征在于,
所述保存模块,还适于提取当前网址的上一级网址或同一级网址,将当前网址的上一级网址或同一级网址对应于当前网址匹配成功的网页文本内容匹配设置保存到所述本地配置文件中。
17.根据权利要求15所述的装置,其特征在于,
所述匹配模块,还适于当所述下载模块在浏览器侧进行网页内容的下载时,判断所述下载网页的网址与配置文件中网址是否匹配,如果匹配,则自动进入阅读模式,指示所述提取模块利用与匹配的网址对应的网页文本内容匹配设置,提取所述下载网页的网页内容中的网页文本内容,并显示在浏览器侧。
18.根据权利要求16所述的装置,其特征在于,
所述匹配模块,还适于当所述下载模块在浏览器侧进行网页内容的下载时,匹配下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,如果匹配成功,则自动进入阅读模式,指示所述提取模块利用匹配出的所述下载网页的网址的上一级网址或同一级网址所对应的网页文本内容匹配设置,提取所述下载网页内容中的网页文本内容,并显示在浏览器侧。
19.根据权利要求17或18所述的装置,其特征在于,
所述装置还包括提示模块和指令接收模块,
所述提示模块,适于在自动进入阅读模式后,提示是否使所述下载网页所在书籍自动进入阅读模式,
所述指令接收模块,适于在接收到确定的指令后,从网站获得该书籍的各个网页的网址,指示所述保存模块将获得的网址对应于所述下载网页的网址匹配出的网页文本内容匹配设置保存到配置文件中。
20.根据权利要求13所述的装置,其特征在于,
所述设置模块,具体适于建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中;
其中,所述匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分所述网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个所述网页文本内容的匹配设置中分别包括对相同类型文本内容的不同匹配设置项。
21.根据权利要求17或18所述的装置,其特征在于,
所述下载模块,具体适于接收到浏览器NavigateComplete事件。
22.根据权利要求20所述的装置,其特征在于,
所述设置模块,具体适于为每种类型的网站建立一个网站节点;在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点;根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项,其中在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项;以及,对于网页中相同类型的文本内容,在所述第一匹配设置描述节点中建立的匹配设置项和在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。
23.根据权利要求22所述的装置,其特征在于,
所述设置模块,具体适于在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项;
所述为HTML元素建立的匹配设置项包括一次定位匹配设置项,所述一次定位匹配设置项至少包括:
基点查找设置项:指示基点查找的方式,所述方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,
标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,
名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,
类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,
内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,
表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;
和/或,
标签设置项:指示利用所述标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。
24.根据权利要求23所述的装置,其特征在于,
所述设置模块为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,所述元素删除匹配设置项至少包括:
删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或
改变由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容。
CN201310092522.4A 2013-03-21 2013-03-21 对网页文本内容匹配设置进行处理的方法和装置 Expired - Fee Related CN103150389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310092522.4A CN103150389B (zh) 2013-03-21 2013-03-21 对网页文本内容匹配设置进行处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310092522.4A CN103150389B (zh) 2013-03-21 2013-03-21 对网页文本内容匹配设置进行处理的方法和装置

Publications (2)

Publication Number Publication Date
CN103150389A CN103150389A (zh) 2013-06-12
CN103150389B true CN103150389B (zh) 2017-05-10

Family

ID=48548466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310092522.4A Expired - Fee Related CN103150389B (zh) 2013-03-21 2013-03-21 对网页文本内容匹配设置进行处理的方法和装置

Country Status (1)

Country Link
CN (1) CN103150389B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948095B (zh) * 2017-11-27 2022-09-30 腾讯科技(深圳)有限公司 显示网页内容的方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102681994A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种网页信息抽取方法及系统
CN102708174A (zh) * 2012-05-04 2012-10-03 奇智软件(北京)有限公司 一种浏览器中的富媒体信息的展示方法和装置
CN102789484A (zh) * 2012-06-28 2012-11-21 奇智软件(北京)有限公司 一种网页信息处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100512181C (zh) * 2006-06-23 2009-07-08 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102681994A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种网页信息抽取方法及系统
CN102708174A (zh) * 2012-05-04 2012-10-03 奇智软件(北京)有限公司 一种浏览器中的富媒体信息的展示方法和装置
CN102789484A (zh) * 2012-06-28 2012-11-21 奇智软件(北京)有限公司 一种网页信息处理方法和装置

Also Published As

Publication number Publication date
CN103150389A (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
EP2521050A2 (en) Handheld electronic device and method for accessing bookmark
CN103744853B (zh) 提供搜索引擎网页快照信息的方法及装置
CN103020266B (zh) 对网页文本内容进行提取的方法和装置
CN100476830C (zh) 一种网络资源检索方法及系统
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN103207874B (zh) 一种网页更新内容的提示方法及系统
CN102982117B (zh) 信息搜索方法和装置
CN102982174A (zh) 一种浏览器中进行网页搜索的方法及装置
CN102982118B (zh) 一种基于收藏夹的搜索方法和装置
CN104182429B (zh) 网页处理方法和终端
CN102982134A (zh) 在浏览器地址栏中显示推荐网址信息的系统
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN106709073A (zh) 一种浏览器中进行消息推送的方法和一种浏览器终端
CN102663064A (zh) 一种收藏夹数据的处理方法及装置
CN106547749B (zh) 网页数据采集的方法和装置
WO2015003664A1 (zh) 一种下载处理方法、装置、服务器及客户端设备
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN108763500A (zh) 基于语音的网页浏览方法、装置、设备及存储介质
CN102902784A (zh) 网页分类存储系统及方法
CN105930385A (zh) 一种数据爬取方法及系统
CN103064943B (zh) 一种客户端设备
CN102982143A (zh) 一种网络小说的搜索方法和浏览装置
CN104765811A (zh) 实现搜索提示的装置、系统及方法
CN103150389B (zh) 对网页文本内容匹配设置进行处理的方法和装置
CN106951429B (zh) 增强网页评论显示的方法、浏览器及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170510