CN101788991B - 一种更新提醒的方法及系统 - Google Patents

一种更新提醒的方法及系统 Download PDF

Info

Publication number
CN101788991B
CN101788991B CN2009100875055A CN200910087505A CN101788991B CN 101788991 B CN101788991 B CN 101788991B CN 2009100875055 A CN2009100875055 A CN 2009100875055A CN 200910087505 A CN200910087505 A CN 200910087505A CN 101788991 B CN101788991 B CN 101788991B
Authority
CN
China
Prior art keywords
internet resources
specific region
described internet
user
certain content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009100875055A
Other languages
English (en)
Other versions
CN101788991A (zh
Inventor
高志
王小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2009100875055A priority Critical patent/CN101788991B/zh
Priority to RU2011152609/08A priority patent/RU2530340C2/ru
Priority to JP2012514339A priority patent/JP2012529688A/ja
Priority to PCT/CN2010/074242 priority patent/WO2010149026A1/zh
Priority to EP10791532.4A priority patent/EP2447864A4/en
Publication of CN101788991A publication Critical patent/CN101788991A/zh
Priority to US13/300,654 priority patent/US8601120B2/en
Application granted granted Critical
Publication of CN101788991B publication Critical patent/CN101788991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/822Collecting or measuring resource availability data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种更新提醒的方法及系统。所述方法包括抓取网络资源;提取所述网络资源的特定内容;将先后两次提取的所述网络资源的特定内容进行比对;若所述特定内容有变化,则提醒用户所述网络资源的内容有更新。本发明可以对不支持RSS输出的网络资源在内的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。

Description

一种更新提醒的方法及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种更新提醒的方法及系统。
背景技术
随着网络的普及,人们已经越来越习惯于通过网络来获取信息、查询资料。虽然各种各样的门户网站纷纷兴起,但在各个网站之间来回穿梭也的确十分耗时,搜索引擎虽可以帮助我们搜索到任何想要找的东西,但查找起来也比较麻烦。现在网络上出现了一种全新的资讯方式,即丰富站点摘要或者简单聚合(RSS,Rich Site Summary or Really Simple Syndication)。RSS是一种用户共享新闻标题和其他Web内容的XML格式标准,同时也是在互联网上被广泛采用的内容包装和投递协议。网络用户可以在客户端借助于支持RSS的聚合工具软件,阅读支持RSS输出的网站内容。
图1为现有RSS技术的实现架构,图1中RSS服务器根据用户数据和内容数据生成RSS文件(一般称为RSS Feed,即Feed文件或提要文件)并发送到客户端;客户端的RSS阅读器将获取的RSS文件内容展示给用户。利用RSS技术,人们可以订阅新闻,也可以订阅Blog(一般称为博客,即Web Log的简称)等。人们只要把需要的内容订阅在一个RSS阅读器中,这些内容就会自动出现在阅读器里,人们也不必为了一个急切想知道的消息而不断地刷新网页,因为一旦有了更新,RSS阅读器就会作出相应的提醒。
图2是RSS阅读器系统架构图,图2中对于任何一个支持RSS输出的页面,通过该页面提供的RSS订阅功能,将该页面存入RSS数据库中,通过定期或不定期的数据获取,得到其RSS文件。
下面,以RSS2.0格式为例,对RSS文件的语法格式简要说明如下:
Figure GDA00001940261600011
Figure GDA00001940261600021
其中,每一个RSS文件都包含在channel标签中。每部分信息(item)都有一个title标签,一个link标签和description(属性)标签。RSS的随时更新由两种时间戳决定,一个是channel中的lastBuildDate标签,它反映的是最后一次RSS中内容改变的时间,另一个是channel中的pubDate标签,它反映的是内容被发布的时间。RSS阅读器利用这两种时间戳来鉴定什么时候有新的内容。
然而,发明人经过研究发现上述现有技术仅能针对于支持RSS输出的网页(如博客、新闻等),向互联网用户提供收藏(或订阅)的功能,并当用户已收藏(或订阅)的网页有了更新后,提醒用户以便用户及时的浏览更新内容;而对于不支持RSS输出的网页(如贴吧),现有技术就束手无策了。
发明内容
本发明提供一种更新提醒的方法及系统,可以对不支持RSS输出的网络资源在内的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。
为解决上述技术问题,本发明提供以下技术方案:
一种更新提醒的方法,包括:
抓取网络资源;
通过获得所述网络资源的特定区域或特定区域和特定元素提取所述网络资源的特定内容;所述特定区域根据所述网络资源的文档对象模型中子节点的面积及所述子节点的相似节点的数量确定,其中,所述子节点的面积不大于第一阈值,所述相似节点与所述子节点按照标签被分在同一组,且该组内的所述子节点和所述相似节点的面积的和大于第二阈值;所述第一阈值和所述第二阈值均不小于0.5;
将先后两次提取的所述网络资源的特定内容进行比对;
若所述特定内容有变化,则提醒用户所述网络资源的内容有更新。
优选的,所述将先后两次提取的所述网络资源的特定内容进行比对包括:
基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。
进一步的,所述基于网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对包括:
基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
进一步的,所述获得所述网络资源的特定区域的方式包括以下任意一种:
通过特定区域确定方法获得所述网络资源的特定区域;或
通过用户自定义方式获得所述网络资源的特定区域;或
确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域,若不存在则通过特定区域确定方法获得所述网络资源的特定区域;或
确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域;若不存在则从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则通过特定区域确定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域后,还包括将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。
优选的,所述根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域,包括:
步骤1、按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值的子节点选出并执行步骤2;将面积大于等于预设阈值的子节点设置为当前节点,继续执行步骤1;
步骤2、按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点;否则按照子节点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点的总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0.5;
步骤3、将步骤2中所有已标记的节点输出,构成与所述网络资源的URL匹配的特定区域。
优选的,所述用户自定义方式包括:
获取用户指定区域的坐标;
将所述坐标标记在所述页面的文档对象模型中;
所有已标记节点构成与所述页面的URL匹配的特定区域。
优选的,所述通过获得所述网络资源的特定区域得到特定内容还包括:获得所述网络资源的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容。
优选的,所述获得所述网络资源的特定元素包括:
获取用户指定的所述网络资源的元素的坐标;
将所述坐标标记在所述网络资源的文档对象模型中;
通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。
优选的,所述提醒用户所述网络资源的内容有更新包括:满足用户自定义的提示规则时才提醒用户所述网络资源的内容有更新,其中,所述用户自定义的提示规则包括下述中的一种或几种:
所述特定内容中的变化字数超过一定阈值,和/或
所述特定内容中的变化部分包含图片变化,和/或
所述特定内容中的变化部分包含链接变化,和/或
所述特定内容中的变化部分包含关键字,和/或
所述特定内容中的变化部分包含多媒体文件。
优选的,所述方法还包括:
接收用户阅读所述网络资源的指令;
根据所述比对分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;
将所述经过处理的网络资源展现给用户。
优选的,所述方法还包括:
接收用户添加收藏网络资源的指令;
查找与所述网络资源的URL匹配的URL权重;
根据查找结果向所述用户提供相应的动态收藏提示;
根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述被抓取的网络资源的链接。
以及,一种更新提醒的系统,所述系统包括检测更新模块和用户接口模块,其中:
所述检测更新模块包括:
抓取单元,用于抓取网络资源;
提取单元,用于提取所述网络资源的特定内容;所述提取单元包括:第一获得子单元,用于通过特定区域确定方法获得所述网络资源的特定区域;所述第一获得子单元包括:系统自动特定区域确定子单元,用于根据所述网络资源的文档对象模型中子节点的面积及所述子节点的相似节点的数量确定所述特定区域,其中,所述子节点的面积不大于第一阈值,所述相似节点与所述子节点按照标签被分在同一组,且该组内的所述子节点和所述相似节点的面积的和大于第二阈值;所述第一阈值和所述第二阈值均不小于0.5;
比对分析单元,用于将先后两次提取的所述网络资源的特定内容进行比对;
所述用户接口模块包括:
提醒单元,用于若所述检测更新模块检测出所述网络资源的特定内容有变化,则提醒用户所述网络资源的内容有更新。
优选的,所述比对分析单元基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。
进一步的,所述比对分析单元具体是基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
优选的,所述提取单元用于通过获得所述网络资源的特定区域和/或特定元素得到特定内容。
进一步的,所述第一获得子单元包括:
特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域,若不存在则指示所述第一获得子单元通过特定区域确定方法获得所述网络资源的特定区域。
优选的,所述第一获得子单元包括:
特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域;若不存在则指示所述第一获得子单元从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则指示所述第一获得子单元通过特定区域确定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域后,所述第一获得子单元还用于将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。
进一步的,所述系统自动特定区域确定子单元包括:
选出子单元,用于按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值的子节点选出,将面积大于等于预设阈值的子节点设置为当前节点继续选出符合要求的子节点;
第一标记子单元,用于按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点;
第二标记子单元,用于在所述第一标记子单元没有标记的情况下启动,按照子节点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0.5;
第一输出子单元,用于将所有已标记节点作为与所述网络资源的URL匹配的特定区域输出。
优选的,所述第一获得子单元包括:
用户自定义特定区域确定子单元,用于获取用户指定区域的坐标,将所述坐标标记在所述网络资源的文档对象模型中,所有已标记节点构成与所述网络资源的URL匹配的特定区域。
优选的,所述提取单元还用于获得所述网络资源的分页区域,所述提取单元还包括第二获得子单元,用于获得所述网络资源的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容。
优选的,所述提取单元还包括:
第三获得子单元,用于获取用户指定的所述网络资源的元素的坐标,将所述坐标标记在所述网络资源的文档对象模型中,通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。
优选的,所述提醒单元包括:
判断子单元,用于判断特定内容的变化程度是否满足用户自定义的提示规则;其中,所述用户自定义的提示规则包括下述中的一种或几种:所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容中的变化部分包含多媒体文件;
提醒子单元,用于当所述判断子单元提供肯定的判断结果时,提醒用户所述网络资源的内容有更新。
优选的,所述系统还包括:网络资源处理模块,
所述用户接口模块还包括:第一接收单元,用于接收用户阅读所述网络资源的指令,并触发所述网络资源处理模块;
所述网络资源处理模块,用于根据所述对比分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;
所述用户接口模块还包括:展示单元,用于将所述经过处理的网络资源展现给用户。
优选的,所述系统还包括:动态收藏提示模块,
所述用户接口模块还包括:第二接收单元,用于接收用户添加收藏网络资源的指令,并触发所述动态收藏提示模块;
所述动态收藏提示模块包括:
查找单元,用于查找与所述网络资源的URL匹配的URL权重;
提示单元,用于若所述查找单元查找到与所述网络资源的URL匹配的URL权重,则根据查找结果向所述用户提供相应的动态收藏提示;
处理单元,用于根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述被抓取的网络资源的链接。
优选的,所述系统为浏览器。
本发明提供了一种全新的更新提醒的方法及系统。与现有技术相比,本发明具有以下优点:
首先,本发明通过对网络资源进行动态监控,提取网络资源的特定内容进行比对分析,以获知哪些网络资源的特定内容有变化,并及时提醒用户查阅,突破了现有技术中只能针对支持RSS输出的网页进行订阅的限制,扩大了应用范围。
其次,本发明提供了获得特定区域及特定元素的多种方式,能够快速的实现特定内容的提取。本发明通过比对分析网络资源的特定内容,对更新内容突出显示,能够区分具体内容变化的细节,即有效区分此次更新为信息增加、信息减少或信息修改等,为用户阅读提供便利条件。
此外,本发明还提供了一些辅助功能,可以更好的满足用户的多种需求。例如,本发明提供了多页面最新变化的自动检测功能,可以有效的将用户上次阅读后的所有更新保留下来,在用户打开浏览器时给予提醒和展示。对于网络资源的特定内容发生变化时,用户除了可以采用默认的方式,即只要网络资源的特定内容发生变化就提醒,还可以采用自定义的方式,即用户自定义提示规则,当满足该规则时才提醒。对于用户添加收藏时,本发明可以自动分析用户添加收藏的网络资源的重要程度,并提供用户对应的提示信息,以便协助用户确定是否将该网络资源纳入动态监控并更新提醒的范畴。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术RSS技术的实现架构图;
图2是现有技术RSS阅读器系统架构图;
图3是本发明更新提醒的方法概括性流程图;
图4是本发明更新提醒的方法中特定区域及分页区域和属性的获得流程图;
图5是本发明更新提醒的方法中特定区域确定方法的一个优选的流程图;
图6是本发明更新提醒的方法中分页区域和属性的确定方法流程图;
图7是本发明更新提醒的方法中用户自定义的方法流程图;
图8是本发明更新提醒的方法中用户添加收藏流程图;
图9是本发明更新提醒的系统概括性结构示意图;
图10是本发明更新提醒的系统中提取单元的结构示意图;
图11是本发明更新提醒的系统中第一获得子单元的结构示意图;
图12是本发明更新提醒的系统中系统自动特定区域确定子单元的结构示意图;
图13是本发明更新提醒的系统中第二获得子单元的结构示意图;
图14是本发明更新提醒的系统中提醒单元的结构示意图。
具体实施方式
本发明提供一种更新提醒的方法及系统,可以对不支持RSS输出的网络资源在内的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。本发明实施例所示的方法,可以通过浏览器来实现。为使本发明的目的、技术方案及优点更加清楚明白,下面参照附图并举实施例,对本发明进一步详细说明。
为了便于理解,对于文中用到的名词做如下介绍:
超文本标记语言(HTML,HyperText Markup Language)是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。
文档对象模型(DOM,Document Object Mode)是一种与浏览器、平台语言无关的接口,可以访问页面其他的标准组件。
网络资源是各类可被浏览器及其所包含的插件等软件进行识别解析的资源,例如网页、视频、音频、图片等。
特定内容是网络资源中用户所关心的信息,可以是网络资源的部分或全部信息。需要说明的是,由于网络资源的形式千变万化,特定内容的标准并不固定,只要是用户感兴趣的内容都可以看作是网络资源的特定内容,例如,某些用户对某个网络资源的某个位置的广告感兴趣,则这样的广告也可以看作该网络资源的特定内容。通常情况下,网络资源中包括的HTML标记集、大量广告和导航信息为网络资源的非特定内容。
特定区域和特定元素都是提取特定内容的方式之一,即通过获得网络资源的特定区域,进而得到该特定区域的内容即为该网络资源的特定内容,或通过获得网络资源的特定元素进而得到该特定元素对应的内容即为该网络资源的特定内容。特定元素可以是一个网络资源上的任意一个元素,或多个元素的集合,该多个元素在网络资源上的体现形式有多种,可能是分散的、可能是汇聚成片的。而特定区域可以是一个网络资源上的任意一个区域,或多个区域。当特定区域是一个网络资源上的一个区域并且该区域小到仅为一个元素时,则可以等同于该网络资源上的一个特定元素。当特定元素是一个网络资源上的多个元素的集合并且该多个元素汇集成片时,则可以等同于该网络资源上的一个特定区域。
如图3所示,为本发明更新提醒的方法概括性流程图,包括以下过程:
301、抓取网络资源;
具体而言,按照更新周期定时的抓取指定网络资源,或按照用户触发即时的抓取指定网络资源。其中,更新周期可以是系统内针对所有指定网络资源统一设置的,也可以是系统内针对指定网络资源各自的特点分别设置的,进一步还可以将设置的所述网络资源的URL与该网络资源的更新周期的匹配关系预先存储供后续查询。
302、提取所述网络资源的特定内容;
在实现中可以基于所述网络资源的HTML源代码上的文档对象模型或与之功能类似的其他模型,或直接基于所述网络资源的HTML源代码,提取所述网络资源的特定内容。其中,提取所述网络资源的特定内容的方式有很多种,例如可以通过所述网络资源的特定区域得到特定内容;也可以通过所述网络资源的特定元素得到特定内容。
具体而言,通过所述文档对象模型获得所述网络资源的特定区域的方式包括很多种,可以通过特定区域确定方法获得所述网络资源的特定区域;或通过用户自定义方式获得所述网络资源的特定区域;也可以先确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域,若不存在则通过特定区域确定方法获得所述网络资源的特定区域;还可以先确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域;若不存在则从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则通过特定区域确定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域后,可以进一步将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中,例如(以网页为例),通过用户自定义方式获得的所述网页的特定区域后,将所述网页的URL与该网页的特定区域的匹配关系存储到用户自定义数据库中;通过特定区域确定方法获得的所述网页的特定区域后,将所述网页的URL与该网页的特定区域的匹配关系存储到网页特征数据库中;当从数据库中查找与所述网页的URL匹配的特定区域时,从所述用户自定义数据库中查找与所述网页的URL匹配的特定区域,若没有查找到则从所述网页特征数据库中继续查找。进一步的,还可以将网页特征数据库分为客户端的网页特征数据库和服务器的网页特征数据库,在查找时,优先查找客户端的网页特征数据库,在没有查找到的情况下,可以查找服务器的网页特征数据库。
此外,由于目前大量有价值的信息在论坛提供,例如百度贴吧,百度知道,各大专业摄影论坛,育儿论坛等,如果用户对承载这类信息的网络资源进行收藏,则可以在获得网络资源特定区域的同时进一步提供最新网络资源的自动检测功能,即将用户上次阅读后的所有更新的网络资源保留下来,当用户再次打开浏览器时给予提示和展示。仍以网页为例,如图4所示,为本发明提供的网页特定区域及分页区域和属性的获得流程图。需要说明的是,所述的分页区域是描述当前页面的分页信息的区域,该分页信息包括当前所在页、总页数、跳转到其他页面的链接或按钮等;所述的分页属性是分页信息中的部分信息,也是动态改变的信息,包括当前所在页、上次访问页、总页数等。该流程以网页的URL作为输入,具体过程如下:
S401、通过网页的URL获得对应的文档对象模型;
S402、在用户自定义数据库中查找与该网页的URL匹配的特定区域,如果没有找到则继续S403;否则转至S407;
S403、在客户端的网页特征数据库中查找与该网页的URL匹配的特定区域,优选的可以同时查找与该网页的URL匹配的分页区域,如果没有找到则继续S404;否则转至S407;
优选的,S404、在服务器的网页特征数据库中查找与该网页的URL匹配的特定区域,优选的可以同时查找与该网页的URL匹配的分页区域,如果没有查找到则继续S405;否则转至S407;
S405、通过特定区域确定方法计算得到与该网页的URL对应的特定区域;
S406、将所述计算得到的特定区域与该网页的URL的匹配关系存储到所述客户端的网页特征数据库中;
优选的,S407、根据查找到的分页区域判断是否存在分页,如果存在则转至S411;否则继续S408;
S408、通过分页属性算法计算所述网页的URL的分页区域及分页属性;
S409、根据计算得到的分页属性判断是否存在分页,若存在分页,则继续S410,否则转至S412;
S410、将所述网页的URL与分页区域的匹配关系存储到所述客户端的网页特征数据库中,将所述网页的URL与分页属性的匹配关系存储到动态收藏数据库中;
S411、抓取动态收藏数据库中用户上次阅读后的所有分页,提取所述所有分页对应的特定内容;
S412、提取所述网页的URL对应的特定内容。
其中,对于上述流程中涉及的特定区域确定方法,其是根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域。仍以网页为例,如图5所示,为本发明特定区域确定方法的一个优选的流程图,其是以网页的URL对应的文档对象模型作为输入,具体过程如下:
S501、设置文档对象模型的根节点为当前节点;
S502、输入当前节点;
对于通常情况下认为导航广告信息是非特定内容,则可以包括S503、去掉当前节点上的导航广告信息;
S504、按照面积的大小对于当前节点的所有子节点进行排序;
S505、判断面积最大的子节点的面积是否大于一定阈值,所述阈值不低于0.5,如果是则继续S506,否则转至S507;
S506、设置当前节点为该子节点,转至S502;
S507、按照标签对当前节点的所有子节点进行分组;
S508、判断是否存在组内子节点数目大于2且组内各个子节点的面积之和大于一定阈值,所述阈值不低于0.5,如果是则继续S509,否则转至S510;
S509、标记分组内所有子节点;
S510、标记总面积大于一定阈值的前K个子节点;
S511、将所有已标记节点输出,作为与该网页的URL匹配的特定区域。
需要说明的是,上述过程中的阈值不低于0.5,优选的可以设为0.75或0.6。
除了前述通过获得所述网络资源的特定区域得到特定内容之外,还可以通过获得所述网络资源的特定元素得到特定内容。其中,获得所述网络资源的特定元素的方式有很多种,例如,可以通过文档对象模型获得所述网络资源的特定元素,具体而言,所述通过所述文档对象模型获得所述网络资源的特定元素的过程可以包括:获取用户指定的所述网络资源的元素的坐标;将所述坐标标记在所述网络资源的文档对象模型中;通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。也可以根据用户指定的所述网络资源的元素的ID或名称或样式查找所述网络资源的特定元素,具体而言,通过系统提供的函数获取到该指定元素的ID或名称或样式(style,包括粗体、颜色等),进而可以根据该指定元素的ID或名称或样式获取到该特定元素及其他属性信息,例如文本、大小、宽度、高度等(并不是所有的特定元素都具有这样的属性信息,当某个特定元素具有多个属性信息时,也只需要获取用户关注的属性信息),可以将特定元素的ID及属性信息进行保存。当然系统还可以自动分析出所述网络资源的特定元素。
对于上述涉及的分页属性确定方法,其是遍历所述网络资源的文档对象模型查找分页属性节点,标记所有查找到的分页属性节点,得到与所述网络资源的URL匹配的分页区域;获得所述分页属性节点的最后一个链接子节点所指向的URL,得到与所述网络资源的URL匹配的分页属性。仍以网页为例,如图6所示,为本发明分页区域和属性的确定方法流程图。具体过程如下:
S601、遍历文档对象模型查找包含分页信息的节点;
其中,所述包含分页信息的节点例子有很多,例如,包括‘上一页’‘下一页’‘首页’‘末页’‘尾页’以及内容小于10000的整数的链接;
S602、判断是否找到包含分页信息的节点,如果找到,则继续S603,否则转至S605;
S603、寻找其父节点,如果其父节点的所有子节点都具有分页属性,则该父节点为分页属性节点;
S604、返回所述分页属性节点的最后一个链接子节点所指向的URL;
S605、返回空。
如图7所示,为本发明用户自定义的方法流程图,其获取用户指定区域的坐标;将所述坐标标记在所述页面的文档对象模型中;所有已标记节点构成与所述页面的URL匹配的特定区域。其中,用户指定区域的方式有很多,例如,用户可以用鼠标圈点感兴趣的区域,系统循环响应用户的输入,直到用户输入确认或退出。所述圈点的区域的形状不作过多的限制,例如矩形、方形、圆形、椭圆形等。例如,当用户圈点矩形框的时候,系统读入矩形框坐标,并在文档对象模型上遍历所有节点,高亮显示在矩形框内部的节点,供用户确认,如果用户确认,则标记这些节点的集合为特定区域,输出并存储到用户自定义数据库。具体过程如下:
S701、读取用户指定区域的输入信息;
S702、判断该输入是否为“退出”,如果是则转至S706,否则继续S703;
S703、判断该输入是否为矩形框,如果是则继续S704,否则转至S705;
S704、在文档对象模型上高亮所有包含在矩形框内的节点,转至S701;
S705、判断该输入是否为确认,如果是则继续S706,否则转至S707;
S706、标记所有包含在当前矩形框内的节点,并输入到用户自定义数据库中;
S707、结束流程。
此外,为了便于后续比对分析的速度,优选的可以将所述网页的特定内容经过数字签名处理后也存储到所述动态收藏数据库中。
303、将先后两次提取的所述网络资源的特定内容进行比对;
具体而言,可以基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。或是基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
304、若所述网络资源的特定内容有变化,则提醒用户所述网络资源的内容有更新。
优选的,可以当所述网络资源的特定内容有变化时做进一步判断,即满足用户自定义的提示规则才提醒用户所述网络资源的内容有更新,其中,所述用户自定义的提示规则可以包括下述中的一种或几种:
所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容中的变换部分包含多媒体文字。
需要说明的是,如果需要满足用户自定义的提示规则才提醒用户所述网页内容有更新,则在步骤303中比对分析所述网络资源的特定内容时,是将最近两次提取的所述网络资源的特定内容直接进行比对,判断是否发生变化;如果不需要满足用户自定义的提示规则而直接提醒用户所述网络资源的内容有更新,则可以应用加快的比对方式,即将最近两次提取的所述网络资源的特定内容的数字签名进行比对,判断是否发生变化。
进一步的,所述更新提醒的方法的步骤304之后还可以包括以下步骤,包括:
步骤305、接收用户阅读所述网络资源的指令;
步骤306、根据所述比对分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理,例如高亮等;
步骤307、将所述经过处理的网络资源展现给用户。
具体而言,所述步骤306包括:对于增加内容的情况,在变化后的网络资源对增加的内容进行突出显示处理;对全部或部分内容修改的情况,在变化后的网络资源对修改的内容进行突出显示处理;对于减少内容的情况,在变化前的网络资源对减少的内容进行突出显示处理。
此外,所述更新提醒的方法还可以进一步包括添加收藏的步骤,如图8所示,为本发明用户添加收藏流程图,其通过接收用户添加收藏网络资源的指令,获得所述网络资源对应的URL;查找与所述网络资源的URL匹配的URL权重;根据查找结果向所述用户提供相应的动态收藏提示;根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述指定网络资源的链接。仍以网页为例,具体过程包括:
S801、接收用户添加收藏网页的指令,获得所述网页对应的URL;
S802、在客户端网页特征数据库中查找与该网页的URL匹配的URL权重,如果找到则转至S805,否则继续S803;
S803、在服务器网页特征数据库中查找与该网页的URL匹配的URL权重,如果找到则转至S805,否则继续S804;
S804、不提示动态收藏选项;
S805、判断该网页的URL的权重是否大于阈值1,如果是则转至S808,否则继续S806;
S806、判断该网页的URL的权重是否大于阈值2,如果是则继续S807,否则转至S804;
S807、提示动态收藏选项,默认为不选;
S808、提示动态收藏选项,默认为选中。
如图9所示,为本发明更新提醒的系统概括性结构示意图。所述系统可以是浏览器。所述系统包括检测更新模块910和用户接口模块920,其中:
所述检测更新模块910包括:抓取单元911、提取单元912、比对分析单元913;具体而言,所述抓取单元911抓取网络资源;所述提取单元912提取所述网络资源的特定内容;所述比对分析单元913将先后两次提取的所述网络资源的特定内容进行比对。
所述用户接口模块920包括提醒单元921,若所述检测更新模块910检测出所述网络资源的特定内容有变化,则所述提醒单元921提醒用户所述网络资源的内容有更新。
优选的,所述抓取单元911具体是按照更新周期定时的抓取所述指定网络资源;或按照用户触发即时的抓取所述指定网络资源。此外,所述比对分析单元913具体是基于所述网络资源的HTML源代码或所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
如图10所示,为本发明更新提醒的系统中提取单元912的结构示意图。所述提取单元912通过获得所述网络资源的特定区域得到特定内容,所述提取单元912包括:第一获得子单元1001,用于通过所述网络资源的文档对象模型获得所述网络资源的特定区域,通过所述文档对象模型查找所述特定区域的内容,得到特定内容并存储。进一步的,所述提取单元912还可以用于获得所述网络资源的分页区域,相应的,所述提取单元912还包括第二获得子单元1002,用于从数据库中查找与所述网络资源的URL匹配的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容并存储。更进一步的,所述提取单元912还可以用于通过获得所述网络资源的特定元素得到特定内容,所述提取单元912还包括第三获得子单元1003,可以通过所述网络资源的文档对象模型获得所述网络资源的特定元素,即获取用户指定的所述网络资源的元素的坐标,将所述坐标标记在所述网络资源的文档对象模型中,通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。也可以通过系统自动分析出所述网络资源的特定元素,还可以根据所述用户指定的所述网络资源的元素的ID或名称或样式查找所述网络资源的特定元素,进而得到特定内容并存储。需要说明的是,所述提取单元912提取的所述网络资源的URL与该网络资源的特定内容的匹配关系存储到动态收藏数据库中。
其中,所述第一获得子单元1001通过所述网络资源的文档对象模型获得所述网络资源的特定区域的方式有多种,例如可以通过特定区域确定方法获得所述网络资源的特定区域;也可以通过用户自定义方式获得所述网络资源的特定区域;也可以将特定区域确定方法和用户自定义方式这两种方式结合;还可以将特定区域确定方法、用户自定义方式、及查找数据库这三种方式结合。具体而言,如图11所示,为本发明更新提醒的系统中第一获得子单元1001的结构示意图。所述第一获得子单元1001包括:特定区域获得方式确定子单元1101、系统自动特定区域确定子单元1102、用户自定义特定区域确定子单元1103;其中:可以通过特定区域获得方式确定子单元1101确定是否存在用户自定义方式,若存在则指示所述第一获得子单元1001通过用户自定义特定区域确定子单元1103获得所述网络资源的特定区域,若不存在则指示所述第一获得子单元1001通过系统自动特定区域确定子单元1102获得所述网络资源的特定区域。或者通过特定区域获得方式确定子单元1101确定是否存在用户自定义方式,若存在则指示所述第一获得子单元1001通过用户自定义特定区域确定子单元1103获得所述网络资源的特定区域;若不存在则指示所述第一获得子单元1001从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则指示所述第一获得子单元1001通过系统自动特定区域确定子单元获得所述网络资源的特定区域;其中,通过用户自定义特定区域确定子单元1103和系统自动特定区域确定子单元1102获得所述网络资源的特定区域后,所述第一获得子单元1001还用于将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。优选的,所述第一获得子单元1001通过用户自定义特定区域确定子单元1103获得的所述网络资源的特定区域后,可以将所述网络资源的URL与该网络资源的特定区域的匹配关系存储到用户自定义数据库中;所述第一获得子单元1001通过系统自动特定区域确定子单元1102获得的所述网络资源的特定区域后,将所述网络资源的URL与该网络资源的特定区域的匹配关系存储到网页特征数据库中;当所述第一获得子单元1001从数据库中查找与所述网络资源的URL匹配的特定区域时,从所述用户自定义数据库中查找与所述网络资源的URL匹配的特定区域,若没有查找到则从所述网页特征数据库中继续查找。更具体的,所述网页特征数据库还可以分为客户端的网页特征数据库和服务器的网页特征数据库,在查找时,优先查找客户端的网页特征数据库,在没有查找到的情况下,可以查找服务器的网页特征数据库。
优选的,如图12所示,为本发明更新提醒的系统中系统自动特定区域确定子单元1102的结构示意图。所述系统自动特定区域确定子单元1102用于根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域,具体包括:去除子单元1201、选出子单元1202、第一标记子单元1203、第二标记子单元1204、第一输出子单元1205;其中:所述去除子单元1201是可选的,用于设置所述网络资源的文档对象模型中的根节点为当前节点,去除所述当前节点的指定子节点,余下的子节点构成选定子节点;所述选出子单元1202按照当前节点的选定子节点的面积进行排序,选出面积小于设定阈值的子节点,将面积大于等于设定阈值的子节点设置为当前节点并继续选出符合要求的子节点;所述第一标记子单元1203按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2且总面积大于设定阈值的分组,则标记该分组内所有子节点;在所述第一标记子单元1203没有标记的情况下启动所述第二标记子单元1204,按照子节点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点总面积大于设定阈值时,则标记所有遍历过的子节点,所述阈值不低于0.5,优选的可以设置为0.6或0.75;所述第一输出子单元1205将所有已标记节点作为与所述网络资源的URL匹配的特定区域输出。
优选的,所述用户自定义特定区域确定子单元1103用于获取用户指定区域的坐标,将所述坐标标记在所述网络资源的文档对象模型中,所有已标记节点构成与所述网络资源的URL匹配的特定区域。
所述第二获得子单元1002通过所述网络资源的文档对象模型获得所述网络资源的分页区域和属性的方式有多种,例如可以通过查找数据库的方式获得所述网络资源的分页区域和属性;也可以通过分页区域和属性确定方法获得所述网络资源的分页区域和属性;还可以将查找数据库的方式与分页区域和属性确定方法相结合。具体而言,如图13所示,为本发明更新提醒的系统中第二获得子单元1002的结构示意图。所述第二获得子单元1002包括:分页区域获得方式确定子单元1301、分页区域和属性确定子单元1302;其中:可以通过分页区域获得方式确定子单元1301指示所述第二获得子单元1002从数据库中查找与所述网络资源的URL匹配的分页区域,若没有查找到与所述网络资源的URL匹配的分页区域,则指示所述第二获得子单元1002通过分页区域和属性确定子单元1302获得所述网络资源的分页区域和分页属性,提取所有分页对应的特定内容,其中,通过分页区域和属性确定子单元1302获得对应的分页区域和分页属性后,所述第二获得子单元1002还用于将所述网络资源的URL与该网络资源的分页区域的匹配关系、所述网络资源的URL与该网络资源的分页属性的匹配关系存储到所述数据库中。具体而言,是将所述网络资源的URL与该网络资源的分页区域的匹配关系存储到网页特征数据库,将所述网络资源的URL与该网络资源的分页属性的匹配关系存储到动态收藏数据库中。优选的,所述分页区域和属性确定子单元1302具体用于遍历所述网络资源的文档对象模型查找分页属性节点,标记所有查找到的分页属性节点,得到与所述网络资源的URL匹配的分页区域;获得所述分页属性节点的最后一个链接子节点所指向的URL,得到与所述网络资源的URL匹配的分页属性。
进一步的,如图14所示,为本发明更新提醒的系统中提醒单元921的结构示意图。所述提醒单元921具体包括:判断子单元1401,用于判断特定内容的变化程度是否满足用户自定义的提示规则;以及提醒子单元1402,用于当所述判断子单元1401提供肯定的判断结果时,提醒用户所述网络资源的内容有更新。其中,所述用户自定义的提示规则包括下述中的一种或几种:所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容中的变化部分包含多媒体文件。
再如图9所示,所述更新提醒的系统还可以进一步包括网络资源处理模块930。所述用户接口模块920还包括:第一接收单元922和展示单元923。具体而言,所述第一接收单元922接收用户阅读所述网络资源的指令,并触发所述网络资源处理模块930根据所述对比分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;所述经过处理的网络资源通过所述展示单元923展现给用户。
进一步的,所述更新提醒的系统还可以进一步包括动态收藏提示模块940,所述动态收藏提示模块940具体包括:查找单元941、提示单元942、处理单元943。所述用户接口模块920还包括第二接收单元924,用于接收用户添加收藏网络资源的指令,并触发所述动态收藏提示模块940;具体而言,所述动态收藏提示模块940中的查找单元941,用于查找与所述网络资源的URL匹配的URL权重;所述提示单元942,用于若所述查找单元941查找到与所述网络资源的URL匹配的URL权重,则根据查找结果向所述用户提供相应的动态收藏提示;所述处理单元943,用于根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述指定网络资源的链接。
本发明更新提醒系统的存在形式有多种,例如可以独立设置在客户端(比如浏览器),也可以独立设置在服务器,还可以部分设置在客户端、部分设置在服务器上。
综上所述,本文提供了一种全新的更新提醒的方法及系统,可以对不支持RSS输出的网络资源在内的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。具体而言,本发明通过对网络资源进行动态监控,提取网络资源的特定内容进行比对分析,以获知哪些网络资源的特定内容有变化,并及时提醒用户查阅,突破了现有技术中只能针对支持RSS输出的网页进行订阅的限制,扩大了应用范围。本发明提供了获得特定区域及特定元素的多种方式,能够快速的实现特定内容的提取。本发明通过比对分析网络资源的特定内容,对更新内容突出显示,能够区分具体内容变化的细节,即有效区分此次更新为信息增加、信息减少或信息修改等,为用户阅读提供便利条件。
此外,本发明还提供了一些辅助功能,可以更好的满足用户的多种需求。例如,本发明提供了多页面最新变化的自动检测功能,可以有效的将用户上次阅读后的所有更新保留下来,在用户打开浏览器时给予提醒和展示。对于网络资源的特定内容发生变化时,用户除了可以采用默认的方式,即只要网络资源的特定内容发生变化就提醒,还可以采用自定义的方式,即用户自定义提示规则,当满足该规则时才提醒。对于用户添加收藏时,本发明可以自动分析用户添加收藏的网络资源的重要程度,并提供用户对应的提示信息,以便协助用户确定是否将该网络资源纳入动态监控并更新提醒的范畴。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明中所描述的系统、装置和方法适用于各种网络或客户端环境中,其例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他电子设备中。
以上对本发明所提供的更新提醒的方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方案;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (24)

1.一种更新提醒的方法,其特征在于,包括:
抓取网络资源;
通过获得所述网络资源的特定区域或特定区域和特定元素提取所述网络资源的特定内容;所述特定区域根据所述网络资源的文档对象模型中子节点的面积及所述子节点的相似节点的数量确定,其中,所述子节点的面积不大于第一阈值,所述相似节点与所述子节点按照标签被分在同一组,且该组内的所述子节点和所述相似节点的面积的和大于第二阈值;所述第一阈值和所述第二阈值均不小于0.5;
将先后两次提取的所述网络资源的特定内容进行比对;
若所述特定内容有变化,则提醒用户所述网络资源的内容有更新。
2.根据权利要求1所述的方法,其特征在于,所述将先后两次提取的所述网络资源的特定内容进行比对包括:
基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。
3.根据权利要求2所述的方法,其特征在于,所述基于网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对包括:
基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
4.根据权利要求3所述的更新提醒的方法,其特征在于,所述获得所述网络资源的特定区域的方式包括以下任意一种:
通过特定区域确定方法获得所述网络资源的特定区域;或
通过用户自定义方式获得所述网络资源的特定区域;或
确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域,若不存在则通过特定区域确定方法获得所述网络资源的特定区域;或
确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域;若不存在则从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则通过特定区域确定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域后,还包括将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。
5.根据权利要求1所述的更新提醒的方法,其特征在于,所述根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域,包括:
步骤1、按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值的子节点选出并执行步骤2;将面积大于等于预设阈值的子节点设置为当前节点,继续执行步骤1;
步骤2、按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点;否则按照子节点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点的总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0.5;
步骤3、将步骤2中所有已标记的节点输出,构成与所述网络资源的URL匹配的特定区域。
6.根据权利要求4所述的更新提醒的方法,其特征在于,所述用户自定义方式包括:
获取用户指定区域的坐标;
将所述坐标标记在页面的文档对象模型中;
所有已标记节点构成与所述页面的URL匹配的特定区域。
7.根据权利要求1所述的更新提醒的方法,其特征在于,所述通过获得所述网络资源的特定区域得到特定内容还包括:获得所述网络资源的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容。
8.根据权利要求1所述的更新提醒的方法,其特征在于,所述获得所述网络资源的特定元素包括:
获取用户指定的所述网络资源的元素的坐标;
将所述坐标标记在所述网络资源的文档对象模型中;
通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。
9.根据权利要求1所述的更新提醒的方法,其特征在于,所述提醒用户所述网络资源的内容有更新包括:满足用户自定义的提示规则时才提醒用户所述网络资源的内容有更新,其中,所述用户自定义的提示规则包括下述中的一种或几种:
所述特定内容中的变化字数超过一定阈值,和/或
所述特定内容中的变化部分包含图片变化,和/或
所述特定内容中的变化部分包含链接变化,和/或
所述特定内容中的变化部分包含关键字,和/或
所述特定内容中的变化部分包含多媒体文件。
10.根据权利要求1所述的更新提醒的方法,其特征在于,所述方法还包括:
接收用户阅读所述网络资源的指令;
根据所述比对的分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;
将所述经过处理的网络资源展现给用户。
11.根据权利要求1所述的更新提醒的方法,其特征在于,所述方法还包括:
接收用户添加收藏网络资源的指令;
查找与所述网络资源的URL匹配的URL权重;
根据查找结果向所述用户提供相应的动态收藏提示;
根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述被抓取的网络资源的链接。
12.一种更新提醒的系统,其特征在于,所述系统包括检测更新模块和用户接口模块,其中:
所述检测更新模块包括:
抓取单元,用于抓取网络资源;
提取单元,用于通过获得所述网络资源的特定区域或特定区域和特定元素提取所述网络资源的特定内容;所述提取单元包括:第一获得子单元,用于通过特定区域确定方法获得所述网络资源的特定区域;所述第一获得子单元包括:系统自动特定区域确定子单元,用于根据所述网络资源的文档对象模型中子节点的面积及所述子节点的相似节点的数量确定所述特定区域,其中,所述子节点的面积不大于第一阈值,所述相似节点与所述子节点按照标签被分在同一组,且该组内的所述子节点和所述相似节点的面积的和大于第二阈值;所述第一阈值和所述第二阈值均不小于0.5;
比对分析单元,用于将先后两次提取的所述网络资源的特定内容进行比对;
所述用户接口模块包括:
提醒单元,用于若所述检测更新模块检测出所述网络资源的特定内容有变化,则提醒用户所述网络资源的内容有更新。
13.根据权利要求12所述的更新提醒的系统,其特征在于,所述比对分析单元基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。
14.根据权利要求13所述的更新提醒的系统,其特征在于,所述比对分析单元具体是基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
15.根据权利要求12所述的更新提醒的系统,其特征在于,所述第一获得子单元包括:
特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域,若不存在则指示所述第一获得子单元通过特定区域确定方法获得所述网络资源的特定区域。
16.根据权利要求12所述的更新提醒的系统,其特征在于,所述第一获得子单元包括:
特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域;若不存在则指示所述第一获得子单元从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则指示所述第一获得子单元通过特定区域确定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域后,所述第一获得子单元还用于将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。
17.根据权利要求12所述的更新提醒的系统,其特征在于,所述系统自动特定区域确定子单元包括:
选出子单元,用于按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值的子节点选出,将面积大于等于预设阈值的子节点设置为当前节点继续选出符合要求的子节点;
第一标记子单元,用于按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点;
第二标记子单元,用于在所述第一标记子单元没有标记的情况下启动,按照子节点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0.5;
第一输出子单元,用于将所有已标记节点作为与所述网络资源的URL匹配的特定区域输出。
18.根据权利要求12所述的更新提醒的系统,其特征在于,所述第一获得子单元包括:
用户自定义特定区域确定子单元,用于获取用户指定区域的坐标,将所述坐标标记在所述网络资源的文档对象模型中,所有已标记节点构成与所述网络资源的URL匹配的特定区域。
19.根据权利要求12所述的更新提醒的系统,其特征在于,所述提取单元还用于获得所述网络资源的分页区域,所述提取单元还包括第二获得子单元,用于获得所述网络资源的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容。
20.根据权利要求12所述的更新提醒的系统,其特征在于,所述提取单元还包括:
第三获得子单元,用于获取用户指定的所述网络资源的元素的坐标,将所述坐标标记在所述网络资源的文档对象模型中,通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。
21.根据权利要求12所述的更新提醒的系统,其特征在于,所述提醒单元包括:
判断子单元,用于判断特定内容的变化程度是否满足用户自定义的提示规则;其中,所述用户自定义的提示规则包括下述中的一种或几种:所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容中的变化部分包含多媒体文件;
提醒子单元,用于当所述判断子单元提供肯定的判断结果时,提醒用户所述网络资源的内容有更新。
22.根据权利要求12所述的更新提醒的系统,其特征在于,所述系统还包括:网络资源处理模块,
所述用户接口模块还包括:第一接收单元,用于接收用户阅读所述网络资源的指令,并触发所述网络资源处理模块;
所述网络资源处理模块,用于根据所述比对的分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;
所述用户接口模块还包括:展示单元,用于将所述经过处理的网络资源展现给用户。
23.根据权利要求12所述的更新提醒的系统,其特征在于,所述系统还包括:动态收藏提示模块,
所述用户接口模块还包括:第二接收单元,用于接收用户添加收藏网络资源的指令,并触发所述动态收藏提示模块;
所述动态收藏提示模块包括:
查找单元,用于查找与所述网络资源的URL匹配的URL权重;
提示单元,用于若所述查找单元查找到与所述网络资源的URL匹配的URL权重,则根据查找结果向所述用户提供相应的动态收藏提示;
处理单元,用于根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述被抓取的网络资源的链接。
24.根据权利要求12至23任意一项所述的更新提醒的系统,其特征在于,所述系统为浏览器。
CN2009100875055A 2009-06-23 2009-06-23 一种更新提醒的方法及系统 Active CN101788991B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2009100875055A CN101788991B (zh) 2009-06-23 2009-06-23 一种更新提醒的方法及系统
RU2011152609/08A RU2530340C2 (ru) 2009-06-23 2010-06-22 Способ и система уведомления об обновлении
JP2012514339A JP2012529688A (ja) 2009-06-23 2010-06-22 更新通知方法、およびシステム
PCT/CN2010/074242 WO2010149026A1 (zh) 2009-06-23 2010-06-22 一种更新提醒的方法及系统
EP10791532.4A EP2447864A4 (en) 2009-06-23 2010-06-22 METHOD AND SYSTEM FOR UPDATE NOTIFICATION
US13/300,654 US8601120B2 (en) 2009-06-23 2011-11-20 Update notification method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100875055A CN101788991B (zh) 2009-06-23 2009-06-23 一种更新提醒的方法及系统

Publications (2)

Publication Number Publication Date
CN101788991A CN101788991A (zh) 2010-07-28
CN101788991B true CN101788991B (zh) 2013-03-06

Family

ID=42532207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100875055A Active CN101788991B (zh) 2009-06-23 2009-06-23 一种更新提醒的方法及系统

Country Status (6)

Country Link
US (1) US8601120B2 (zh)
EP (1) EP2447864A4 (zh)
JP (1) JP2012529688A (zh)
CN (1) CN101788991B (zh)
RU (1) RU2530340C2 (zh)
WO (1) WO2010149026A1 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375830A (zh) * 2010-08-13 2012-03-14 富士通株式会社 判断网页更新的方法和装置及网站同步的方法和装置
CN102375857B (zh) * 2010-08-24 2014-08-13 腾讯科技(深圳)有限公司 一种搜索方法和装置
CN102541937B (zh) * 2010-12-22 2013-12-25 北大方正集团有限公司 一种网页信息探测方法及系统
US9401807B2 (en) * 2011-02-03 2016-07-26 Hewlett Packard Enterprise Development Lp Processing non-editable fields in web pages
WO2012117529A1 (ja) * 2011-03-01 2012-09-07 富士通株式会社 Webページ更新通知プログラム、Webページ更新通知装置、及びWebページ更新通知方法
CN102256012A (zh) * 2011-06-28 2011-11-23 中兴通讯股份有限公司 事件提醒设置的装置及方法
CN103139279B (zh) * 2011-12-05 2016-02-24 阿里巴巴集团控股有限公司 文件访问方法和系统
CN102663532A (zh) * 2012-02-27 2012-09-12 蒋永 一种互联网的商品信息动态变化关注系统及方法
WO2013134919A1 (zh) * 2012-03-13 2013-09-19 宇龙计算机通信科技(深圳)有限公司 待定事件的提醒方法、系统及通信终端
US9183314B2 (en) * 2012-04-16 2015-11-10 International Business Machines Corporation Providing browsing history on client for dynamic webpage
US9311412B2 (en) * 2012-07-16 2016-04-12 International Business Machines Corporation Automatically notifying a computer user of internet content
US8943197B1 (en) * 2012-08-16 2015-01-27 Amazon Technologies, Inc. Automated content update notification
CN102819613B (zh) * 2012-08-28 2015-11-25 北京奇虎科技有限公司 Rss信息分页抓取系统及方法
US9031918B2 (en) 2012-12-27 2015-05-12 Microsoft Licensing Technology, LLC Per-user aggregation of database content
CN104123087B (zh) * 2013-04-24 2019-01-04 深圳富泰宏精密工业有限公司 扫描优化系统及方法
US10037384B2 (en) * 2013-05-28 2018-07-31 Tencent Technology (Shenzhen) Company Limited Method and apparatus for notifying a user of updated content for a webpage
CN103544213B (zh) * 2013-09-16 2016-10-12 青岛英网资讯股份有限公司 网站内容更新检测评价方法及系统
CN103593772A (zh) * 2013-11-15 2014-02-19 北京奇虎科技有限公司 用于实现商品收藏及状态变化提醒的方法、装置和系统
CN104063415B (zh) * 2014-02-27 2018-07-10 优视科技有限公司 显示网页自定义内容的方法及系统
CN105099796B (zh) * 2014-04-22 2018-07-20 深圳市志友企业发展促进中心 一种多媒体内容更改检测方法、装置及资源传播系统
CN104156458B (zh) * 2014-08-20 2017-09-22 北京小度互娱科技有限公司 一种信息的提取方法及装置
US9785427B2 (en) 2014-09-05 2017-10-10 Oracle International Corporation Orchestration of software applications upgrade using checkpoints
US9740474B2 (en) 2014-10-29 2017-08-22 Oracle International Corporation Orchestration of software applications upgrade using automatic hang detection
US9753717B2 (en) 2014-11-06 2017-09-05 Oracle International Corporation Timing report framework for distributed software upgrades
US9880828B2 (en) 2014-11-07 2018-01-30 Oracle International Corporation Notifications framework for distributed software upgrades
US20160147738A1 (en) * 2014-11-24 2016-05-26 Jeff Geurts System and method for multi-lingual translation
CN104702673B (zh) * 2015-02-09 2018-08-07 深圳市同洲电子股份有限公司 一种服务信息的获取方法及可穿戴设备
US10296580B1 (en) 2015-09-18 2019-05-21 Amazon Technologies, Inc. Delivering parsed content items
US10127210B1 (en) 2015-09-25 2018-11-13 Amazon Technologies, Inc. Content rendering
US10601894B1 (en) 2015-09-28 2020-03-24 Amazon Technologies, Inc. Vector-based encoding for content rendering
US10691750B1 (en) 2015-09-28 2020-06-23 Amazon Technologies, Inc. Browser configured to efficiently store browsing session state
US10241983B1 (en) 2015-09-28 2019-03-26 Amazon Technologies, Inc. Vector-based encoding for content rendering
US10341345B1 (en) 2015-12-15 2019-07-02 Amazon Technologies, Inc. Network browser configuration
US10348797B1 (en) 2015-12-15 2019-07-09 Amazon Technologies, Inc. Network browser configuration
US10397064B2 (en) * 2016-04-20 2019-08-27 Servicenow, Inc. System and method for custom graph generation
CN108182202B (zh) * 2017-12-07 2021-01-05 广东智媒云图科技股份有限公司 内容更新通知方法、装置、电子设备及存储介质
US11381460B1 (en) * 2020-12-10 2022-07-05 Google Llc Network reachability impact analysis
WO2023121504A1 (ru) * 2021-12-24 2023-06-29 Общество С Ограниченной Ответственностью "Кейс Студио" Система и способ управления оповещениями

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945576A (zh) * 2006-10-31 2007-04-11 上海态格文化传播有限公司 自适应网页更新时间预测方法
CN1959679A (zh) * 2006-09-25 2007-05-09 北京爱笛星科技有限公司 网页微内容提取、聚合和自动更新系统的方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860012A (en) * 1993-09-30 1999-01-12 Intel Corporation Installation of application software through a network from a source computer system on to a target computer system
US6366933B1 (en) * 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
JP2001249874A (ja) * 2000-03-08 2001-09-14 Sky Com:Kk 情報収集装置
US20110238855A1 (en) * 2000-09-25 2011-09-29 Yevgeny Korsunsky Processing data flows with a data flow processor
US7085807B2 (en) * 2001-06-04 2006-08-01 Hewlett-Packard Development Company, L.P. System and method for providing links to available services over a local network by a thin portal service configured to access imaging data stored in a personal imaging repository
JP2003248613A (ja) * 2001-11-20 2003-09-05 Sharp Corp 情報配信システムおよびそれに用いられる配信情報生成装置
US8549114B2 (en) * 2002-06-12 2013-10-01 Bladelogic, Inc. Method and system for model-based heterogeneous server configuration management
JP2004086851A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体
CA2404191A1 (en) * 2002-09-19 2004-03-19 Alcatel Canada Inc. Methods and apparatus for configuration change management in communications networks
US8019806B2 (en) * 2002-10-17 2011-09-13 Brocade Communications Systems, Inc. Method and apparatus for displaying network fabric data
RU2254611C2 (ru) * 2003-03-13 2005-06-20 Общество с ограниченной ответственностью "Мобилити" Способ предоставления пользователям мобильных устройств электронной связи актуальной коммерческой информации на альтернативной основе (варианты) и информационная система для его осуществления (варианты)
US7353454B2 (en) * 2004-05-21 2008-04-01 International Business Machines Corporation Web based device management and monitoring interface
WO2006051870A1 (ja) * 2004-11-12 2006-05-18 Justsystems Corporation データ処理装置、文書処理装置及び文書処理方法
US9104773B2 (en) * 2005-06-21 2015-08-11 Microsoft Technology Licensing, Llc Finding and consuming web subscriptions in a web browser
JP5063877B2 (ja) * 2005-08-19 2012-10-31 沖電気工業株式会社 情報処理装置およびコンピュータプログラム
US7895512B2 (en) * 2006-09-21 2011-02-22 International Business Machines Corporation Capturing and processing change information in a web-type environment
CN101246480A (zh) * 2007-02-16 2008-08-20 易搜比控股公司 简单联合供稿的频道更新方法及其系统
KR101402081B1 (ko) * 2007-07-16 2014-06-03 삼성전자주식회사 정보 제공방법 및 이를 적용한 방송 수신장치
US8601440B2 (en) * 2009-11-10 2013-12-03 Microsoft Corporation Using web model feeds to version models which are defined in modeling languages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959679A (zh) * 2006-09-25 2007-05-09 北京爱笛星科技有限公司 网页微内容提取、聚合和自动更新系统的方法
CN1945576A (zh) * 2006-10-31 2007-04-11 上海态格文化传播有限公司 自适应网页更新时间预测方法

Also Published As

Publication number Publication date
US8601120B2 (en) 2013-12-03
JP2012529688A (ja) 2012-11-22
CN101788991A (zh) 2010-07-28
WO2010149026A1 (zh) 2010-12-29
EP2447864A4 (en) 2013-09-18
RU2011152609A (ru) 2013-07-27
EP2447864A1 (en) 2012-05-02
US20120066380A1 (en) 2012-03-15
RU2530340C2 (ru) 2014-10-10

Similar Documents

Publication Publication Date Title
CN101788991B (zh) 一种更新提醒的方法及系统
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
US8555157B1 (en) Document update generation
US8533199B2 (en) Intelligent bookmarks and information management system based on the same
US7899829B1 (en) Intelligent bookmarks and information management system based on same
US10198776B2 (en) System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels
US8874542B2 (en) Displaying browse sequence with search results
CN101246494B (zh) 一种互联网网页转换方法、系统及设备
CN101782913A (zh) 一种更新提醒的方法及浏览器
JP5133984B2 (ja) 入力候補提供装置、入力候補提供システム、入力候補提供方法、および入力候補提供プログラム
US20060271859A1 (en) Method and system for visualizing Weblog social network communities
CN101950312B (zh) 一种互联网网页内容解析方法
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN101551800A (zh) 标注信息生成装置、查询装置及共享系统
CN103455524A (zh) 展现和获取词条信息的方法和装置
CN101615178A (zh) 用于建立对象层次结构的方法和系统
WO2011088724A1 (zh) 一种实现从网页中订阅信息的方法及装置
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN102314494A (zh) 一种用于处理网页内容的方法和设备
Nakatsuji et al. Detecting innovative topics based on user-interest ontology
JP2007193697A (ja) 情報収集装置,情報収集方法およびプログラム
JP5462591B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
CN102955827A (zh) 一种无线应用协议网页的创建方法和编辑器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant