CN103577476B

CN103577476B - 网页浏览记录的处理方法及网页浏览装置

Info

Publication number: CN103577476B
Application number: CN201210277041.6A
Authority: CN
Inventors: 童洋; 张艺弘
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-08-06
Filing date: 2012-08-06
Publication date: 2016-06-08
Anticipated expiration: 2032-08-06
Also published as: US20150149515A1; CN103577476A; WO2014023151A1

Abstract

本发明涉及一种网页浏览记录的处理方法，包括：生成网页的浏览记录；在该浏览记录中保存该网页的打开时间；根据该网页的正文内容生成并保存关键内容摘要；以及在该浏览记录中保存该关键内容摘要。上述的网页浏览记录的处理方法中，除了保存最基本的打开时间外，还根据网页正文的内容生成并保存关键内容摘要，后续浏览历史记录时可直接显示网页的关键内容摘要，而无须重新加载，使用过程更加直观方便。此外，本发明还提供一种基于上述方法的网页浏览装置。

Description

网页浏览记录的处理方法及网页浏览装置

技术领域

本发明涉及网页浏览技术，尤其涉及一种网页浏览记录的处理方法及网页浏览装置。

背景技术

浏览器作为众多网络服务的入口对于用户的上网体验具有举足轻重的影响，因此各厂商也都积极部署各平台下的浏览器。

在浏览器中一般都会提供历史浏览记录的存储功能，方便用户追溯自己访问过的网络服务。然而在现有的浏览器中，一般只会保存网页的网址、标题。在浏览器的历史记录页面中会按时间以列表的方式列出访问过的网址及标题。如果用户需要再次了解具体的网页内容，需要在浏览网页时保存离线备份，或者重新加载网页。

发明内容

有鉴于此，有必要提供一种网页浏览记录的处理方法及网页浏览装置，其可以采用一种更加方便直观的方式处理网页浏览记录。

一种网页浏览记录的处理方法，包括：生成网页的浏览记录；在该浏览记录中保存该网页的打开时间；根据该网页的正文内容生成并保存关键内容摘要；以及在该浏览记录中保存该关键内容摘要。

一种网页浏览装置，包括：记录生成模块，用于生成网页的浏览记录；打开时间保存模块，用于在该浏览记录中保存该网页的打开时间；关键内容摘要生成模块，用于根据该网页的正文内容生成并保存关键内容摘要；以及关键内容摘要保存模块，用于在该浏览记录中保存该关键内容摘要。

上述的网页浏览记录的处理方法网页浏览装置中，除了保存最基本的打开时间外，还根据网页正文的内容生成并保存关键内容摘要，后续浏览历史记录时可直接显示网页的关键内容摘要，而无须重新加载，使用过程更加直观方便。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1为第一实施例提供的网页浏览记录的处理方法流程示意图。

图2为第二实施例提供的网页浏览记录的处理方法流程示意图。

图3为第三实施例提供的网页浏览记录的处理方法流程示意图。

图4为第四实施例提供的网页浏览记录的处理方法流程示意图。

图5为第四实施例提供的网页浏览记录的处理方法显示的时间轴的示意图。

图6为第五实施例提供的网页浏览装置的结构框图。

图7为第六实施例提供的网页浏览装置的结构框图。

图8为第七实施例提供的网页浏览装置的结构框图。

图9为第八实施例提供的网页浏览装置的结构框图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的网页浏览记录的处理方法及网页浏览装置的具体实施方式、结构、特征及其功效，详细说明如后。

图1为第一实施例提供的网页浏览记录的处理方法流程示意图。如图1所示，该方法包括：

步骤S110，生成网页的浏览记录。

例如，在用户点击链接后或者在地址栏直接输入网址后浏览器开始加载网页，同时会生成一条网页浏览记录，用于存储访问的网页的信息。可以理解，此处的一条网页浏览记录是逻辑上的概念，即多个与该网页相关的数据共同构成一条网页浏览记录，但是并不限制其具体的存储方式，可以是一个字符串，也可以是一个对象。

步骤S120，在该浏览记录中保存该网页的打开时间。

打开时间例如是指用户点击链接的时间或者在地址栏直接输入网址后确定的时间。

步骤S130，根据该网页的正文内容生成并保存关键内容摘要；以及

步骤S140，在该浏览记录中保存该关键内容摘要。

根据不同的网页，其关键内容会有不同。例如，新闻网页，其关键内容就是该新闻正文或者新闻片，图片浏览网页，其关键内容就是图片，音视频网页，其关键内容就是音视频内容，对于图片、音视频等，与之匹配的说明性文字同样属于关键内容。

因此步骤S130具体可以包括：识别该网页的关键内容；以及提取该网页中与该关键内容相关的至少部分文字或至少部分多媒体内容。识别该网页的关键内容可以按以下步骤进行：在网页加载完成后获取该网页的文件对象模型(DocumentObjectModel，DOM)，并遍历DOM，从中提取正文部分所包含多媒体内容的标签，多媒体内容的标签例如是指<object>、<embed>或<img>等标签。判断标签属性，判断其是否属于关键内容。上述的正文部分的识别，以及根据标签属性判断其是否属于关键内容，在现有的网页智能识别技术中已经属于习知内容，在此不再赘述。

对于多媒体格式的关键内容，可以将其整体存储作为关键内容摘要。然而可以理解，多媒体内容可能需要较多的存储空间，因此在存储之前还可进行压缩或者剪辑处理。例如，对图片进行压缩或者裁减，对音视频文件进行剪辑处理。

当不存在多媒体内容时，可以确定网页为文字型网页，将其正文内容全部或者部分作为该网页的关键内容摘要即可。

获取关键内容摘要后，即可将其保存于浏览记录中。可以理解，此处的保存于浏览记录中，是指在逻辑上与该浏览记录相互关联，并不限定一定处于同一物理存储区域中。例如，可以将多媒体内容另行存储，而将其索引存储于该浏览记录中。

此外，除了上述的打开时间及关键内容摘要，还可在浏览记录中保存其他字段，从而形成以下的浏览记录的存储结构：Struct{stringtitle，stringlink，stringshow_txt，boolbflag，stringhtml_media，TimeOpentime，TimeCloseTime}。其中，title表示网页的标题，link表示网址、show_txt表示关键内容摘要的文字，bflag表示是否具有多媒体内容，html_media表示多媒体内容，OpenTime表示打开时间，而CloseTime表示关闭时间。

可以理解，经过步骤S140后，如果浏览记录是存储于易失性存储器中时，还需要将其转存至非易失性存储器例如闪存、硬碟中才能重复利用。上述的转存过程例如是指写入文件或者数据库系统。

本实施例提供的网页浏览记录的处理方法中，除了保存最基本的打开时间外，还根据网页正文的内容生成并保存关键内容摘要，后续浏览历史记录时可直接显示网页的关键内容摘要，而无须重新加载，使用过程更加直观方便。

图2为第二实施例提供的网页浏览记录的处理方法流程示意图。如图2所示，其与第一实施例的网页浏览记录的处理方法相似，其不同之处在于，还包括：

步骤S210，在该网页所对应的标签页被激活时在该浏览记录中保存该网页的激活时间。

在浏览器中一般都可以同时显示多个标签页，每个标签页对应一个网址，但同一个浏览器实例，同一时刻只能有一个标签页处于活动状态，通过监测标签页的激活事件，可以记录标签页的激活时间。

可以理解，从回溯历史浏览记录的角度而言，标签页的激活时间可以视为该网址被再次打开的时间，因此本实施例提供的网页浏览记录的处理方法中，后续显示历史记录时可以完全重现浏览器的浏览过程。

图3为第三实施例提供的网页浏览记录的处理方法流程示意图。如图3所示，其与第一实施例的网页浏览记录的处理方法相似，其不同之处在于，还包括：

步骤S310，对该网页进行分类；以及

步骤S320，在该浏览记录中保存该网页的类别。

网页的类别例如是根据网页的属性做出的分类，例如，新闻、科技、娱乐、体育、明星等等。网页的分类可以是基于网址匹配，即先建立网址分类规则库，然后根据库内的规则对网页进行分类，而当没有匹配的规则时必须进行人工分类，或者采用基于自然语言识别的网页分类器进行分类。

本实施例提供的网页浏览记录的处理方法中，还进一步对网页进行分类，如此，后续在浏览历史记录时可以根据类别进行过滤，方便仅对某一类型的网页进行追踪。

图4为第四实施例提供的网页浏览记录的处理方法流程示意图。如图4所示，其与第一实施例的网页浏览记录的处理方法相似，其不同之处在于，还包括：

步骤S410，显示一个时间轴；

步骤S420，加载打开时间在该时间轴的当前时间范围内的浏览记录。

步骤S430，根据打开时间将加载的浏览记录中的关键内容摘要显示于该时间轴中相应的位置。

参阅图5，时间轴的两个端点分别代表起始时间与结束时间。起始时间与结束时间之间的时间段即为当前时间轴的当前时间范围。此时间范围可由用户进行调整，从而查看更早或者更近的浏览记录。

时间范围确定后，即可加载打开时间在该时间轴的当前时间范围内的浏览记录，并按照一定的格式对浏览记录中的关键内容摘要进行格式化，例如，将关键内容摘要转化为适于浏览器显示的HTML代码。完成格式化操作后，即可如图5所示，按打开时间将其显示于时间轴中相应的位置。如前述实施例中所述，此处的打开时间可以是网址的首次打开时间，亦即对于标签页的激活过程予以忽略，还可以将标签页的激活时间一同视为打开时间，如此，可在时间轴中完全重现浏览器中当前活动页面的浏览记录。

在图5所示的例子中，时间轴为纵向，然而可以理解，时间轴还可以是横向时间轴。

此外，步骤S420中还可根据浏览记录中网页的类别进行过滤，例如只加载新闻或者视频网页。需要加载的类别可由用户指定，例如，显示不同类别的链接或都按钮，在用户点击后相应加载显示该链接或按钮对应类别的浏览记录。

进一步地，步骤S420中除了加载打开时间在该时间轴的当前时间范围内的浏览记录，还可加载激活时间在该时间轴的当前时间范围内的浏览记录。

进一步地，还可以自动动态调整时间轴的当前时间范围，从而实现历史浏览记录的自动切换。

本实施例提供的网页浏览记录的处理方法中，通过时间轴的方式将历史浏览记录组织起来，方便用户以直观的方式浏览历史记录，而且对于见网页的关键内容无须重新加载，浏览过程更加流畅。

图6是第五实施例提供的网页浏览装置的结构框图。如图6所示，网页浏览装置500包括记录生成模块510、打开时间保存模块520、关键内容摘要生成模块530、以及关键内容摘要保存模块540。

记录生成模块510生成网页的浏览记录。例如，在用户点击链接后或者在地址栏直接输入网址后浏览器开始加载网页，生成一条网页浏览记录，用于存储访问的网页的信息。可以理解，此处的一条网页浏览记录是逻辑上的概念，即多个与该网页相关的数据共同构成一条网页浏览记录，但是并不限制其具体的存储方式，可以是一个字符串，也可以是一个对象。

打开时间保存模块520用于在该浏览记录中保存该网页的打开时间。打开时间例如是指用户点击链接的时间或者在地址栏直接输入网址后确定的时间。

关键内容摘要生成模块530用于根据该网页的正文内容生成并保存关键内容摘要。

关键内容摘要生成模块530具体可以包括：关键内容识别单元531，用于识别该网页的关键内容；以及关键内容提取单元532，用于提取该网页中与该关键内容相关的至少部分文字或至少部分多媒体内容。

识别该网页的关键内容可以按以下步骤进行：在网页加载完成后获取该网页的文件对象模型(DocumentObjectModel，DOM)，并遍历DOM，从中提取正文部分所包含多媒体内容的标签，多媒体内容的标签例如是指<object>、<embed>或<img>等标签。判断标签属性，判断其是否属于关键内容。上述的正文部分的识别，以及根据标签属性判断其是否属于关键内容，在现有的网页智能识别技术中已经属于习知内容，在此不再赘述。

对于多媒体格式的关键内容，可以将其整体存储作为关键内容摘要。然而可以理解，多媒体内容可能需要较多的存储空间，因此在存储之前还可进行压缩或者剪辑处理。例如，对图片进行压缩或者裁减，对音视频文件进行剪辑处理。即，关键内容摘要生成模块530还可包括压缩剪辑单元533，用于进行上述操作。

关键内容摘要保存模块540用于在该浏览记录中保存该关键内容摘要。可以理解，此处的保存于浏览记录中，是指在逻辑上与该浏览记录相互关联，并不限定一定处于同一物理存储区域中。例如，可以将多媒体内容另行存储，而将其索引存储于该浏览记录中。

本实施例提供的网页浏览装置中，除了保存最基本的打开时间外，还根据网页正文的内容生成并保存关键内容摘要，后续浏览历史记录时可直接显示网页的关键内容摘要，而无须重新加载，使用过程更加直观方便。

图7为第六实施例提供的网页浏览装置的结构框图。如图7所示，其与第五实施例的网页浏览装置，其不同之处在于，还包括激活时间保存模块610，用于在该网页所对应的标签页被激活时在该浏览记录中保存该网页的激活时间。

在浏览器中一般都可以同时显示多个标签页，每个标签页对应一个网址，但同一个浏览器实例，同一时刻只能有一个标签页处于活动状态，通过监测标签页的激活事件，可以记录并保存标签页的激活时间。

本实施例提供的网页浏览装置中，还进一步记录标签页的激活时间，从而后续可以完全重现浏览器的浏览过程。

图8为第七实施例提供的网页浏览装置的结构框图。如图8所示，其与第五实施例的网页浏览装置相似，其不同之处在于，还包括：分类模块710。分类模块包括：

分类单元711，用于对该网页进行分类；以及

分类保存单元712，用于在该浏览记录中保存该网页的类别。

本实施例提供的网页浏览装置中，还进一步对网页进行分类，如此，后续在浏览历史记录时可以根据类别进行过滤，方便仅对某一类型的网页进行追踪。

图9为第八实施例提供的网页浏览装置的结构框图。如图9所示，其与第五实施例的网页浏览装置相似，其不同之处在于，还包括显示模块810。

显示模块810包括：

时间轴显示单元811，用于显示一个时间轴；

浏览记录加载单元812，用于加载打开时间在该时间轴的当前时间范围内的浏览记录。

浏览记录显示单元813，用于根据打开时间将加载的浏览记录中的关键内容摘要显示于该时间轴中相应的位置。

时间范围确定后，即可加载打开时间在该时间轴的当前时间范围内的浏览记录，并按照一定的格式对浏览记录中的关键内容摘要进行格式化，例如，将关键内容摘要转化为适于浏览器显示的HTML代码。完成格式化操作后，即可如图5所示，按打开时间将其显示于时间轴中相应的位置。

此外，浏览记录加载单元812还可根据浏览记录中网页的类别进行过滤，例如只加载新闻或者视频网页。需要加载的类别可由用户指定，例如，显示不同类别的链接或都按钮，在用户点击后相应加载显示该链接或按钮对应类别的浏览记录。

进一步地，还可以按照一定速度自动动态调整时间轴的当前时间范围，从而实现历史浏览记录的自动切换。即，显示模块810还可包括时间轴调整单元，用于按一定速率移动时间轴的当前时间范围。

进一步地，浏览记录加载单元812除了加载打开时间在该时间轴的当前时间范围内的浏览记录，还可加载激活时间在该时间轴的当前时间范围内的浏览记录。

此外，本发明实施例还提供一种计算机可读存储介质，其内存储有计算机可执行指令，上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让运行于计算机或者类似运算装置实现上述的网页浏览记录的处理方法中的各种操作。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种网页浏览记录的处理方法，包括：

生成网页的浏览记录；

在该浏览记录中保存该网页的打开时间；

根据该网页的正文内容生成并保存关键内容摘要；

在该浏览记录中保存该关键内容摘要；

对该网页进行分类；

在该浏览记录中保存该网页的类别；

显示一个时间轴；

加载打开时间在该时间轴的当前时间范围内的浏览记录，其中，根据浏览记录中网页的类别进行过滤，并根据用户选择的类别加载显示对应类别的浏览记录，该当前时间范围由用户进行调整，该时间轴的两个端点分别代表起始时间与结束时间，该起始时间与该结束时间之间的时段即为该当前时间范围；以及

根据打开时间将加载的浏览记录中的关键内容摘要显示于该时间轴中相应的位置。

2.如权利要求1所述的网页浏览记录的处理方法，其特征在于，根据网页的正文内容生成并保存关键内容摘要包括：

识别该网页的关键内容；

提取该网页中与该关键内容相关的至少部分文字和/或至少部分多媒体内容。

3.如权利要求2所述的网页浏览记录的处理方法，其特征在于，所述多媒体内容在被保存之前还经过压缩和/或剪辑处理。

4.一种网页浏览装置，包括：

记录生成模块，用于生成网页的浏览记录；

打开时间保存模块，用于在该浏览记录中保存该网页的打开时间；

关键内容摘要生成模块，用于根据该网页的正文内容生成并保存关键内容摘要；

关键内容摘要保存模块，用于在该浏览记录中保存该关键内容摘要；

分类模块，该分类模块包括：

分类单元，用于对该网页进行分类；以及

分类保存单元，用于在该浏览记录中保存该网页的类别；以及

显示模块，该显示模块包括：

时间轴显示单元，用于显示一个时间轴；

浏览记录加载单元，用于加载打开时间在该时间轴的当前时间范围内的浏览记录，其中，根据浏览记录中网页的类别进行过滤，并根据用户选择的类别加载显示对应类别的浏览记录，该当前时间范围由用户进行调整，该时间轴的两个端点分别代表起始时间与结束时间，该起始时间与该结束时间之间的时段即为该当前时间范围；以及

浏览记录显示单元，用于根据打开时间将加载的浏览记录中的关键内容摘要显示于该时间轴中相应的位置。

5.如权利要求4所述的网页浏览装置，其特征在于，该关键内容摘要生成模块包括：

关键内容识别单元，用于识别该网页的关键内容；以及

关键内容提取单元，用于提取该网页中与该关键内容相关的至少部分文字或至少部分多媒体内容。

6.如权利要求5所述的网页浏览装置，其特征在于，该关键内容摘要生成模块包括：压缩剪辑单元，用于在所述多媒体内容在被保存之前对其进行压缩或剪辑处理。