CN101551800B - 标注信息生成装置、查询装置及共享系统 - Google Patents
标注信息生成装置、查询装置及共享系统 Download PDFInfo
- Publication number
- CN101551800B CN101551800B CN2008100867995A CN200810086799A CN101551800B CN 101551800 B CN101551800 B CN 101551800B CN 2008100867995 A CN2008100867995 A CN 2008100867995A CN 200810086799 A CN200810086799 A CN 200810086799A CN 101551800 B CN101551800 B CN 101551800B
- Authority
- CN
- China
- Prior art keywords
- mark
- webpage
- unit
- marked
- markup information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明公开了标注信息生成装置、查询装置及共享系统,所述标注信息生成装置包括标注对象选择单元、标注内容输入单元、网页内元素路径确定单元、标注信息生成单元以及发送单元,标注对象选择单元选择待标注的网页中的待标注的对象,即标注网页对象中的标注对象;标注内容输入单元输入针对所述标注对象的标注,即标注内容;网页内元素路径确定单元确定所述标注对象在所述标注网页对象中的路径,即网页内元素路径;所述标注信息生成单元生成标注信息,所述标注信息包括标注网页对象路径信息、所述标注对象的网页内元素路径、所述标注内容输入单元输入的标注;以及所述发送单元将所述标注信息生成单元生成的标注信息发送到标注信息服务器。
Description
技术领域
本发明涉及在任何普通的网页上进行标注的技术,其特别涉及在浏览器中生成、存储和显示标注的技术。
背景技术
标注是一种在文档中添加信息的技术。这个概念最开始是在纸质媒体中产生的,包括对关键词进行加亮、添加旁注等。当前网络媒体已经成为人们了解信息的重要途径。在这种情况下,网页标注技术也得到了重视和发展,网页标注也成为了包括数字图书馆、计算机辅助协同工作、知识共享以及管理在内的多种领域的热门话题。
传统的web系统给内容的提供者提供了很方便的信息发布平台,比如网页的制作。但是这种信息交流的方式基本上是单向的。网页阅读者能进行的交互仅仅限于点击链接或者添加书签等。而当前流行的web 2.0理念强调了广大web用户的参与和信息共享,这样信息的流动就成为双向的、甚至是多向的方式。常用的信息共享技术包括有:
-RSS(Really Simply Syndication):通过一个服务器对要发布的内容进行集成,然后由用户选择所要获取的内容。在这种方式下用户只能被动获取RSS源所发布的内容,这样的信息流动也是不对称的。
-交互式的Web发布平台,比如Wiki和Blog:用户通过这样的平台,可以发表自己的文章和意见,以达到信息共享的目的。但是,这种信息共享的方式需要在特定结构化的网页中进行,不能对所看到的所有网页随时随地的共享意见。
网页标注系统和上述两种信息共享方式不同,它实际上提供了一种标注装置来帮助用户对所浏览到网页进行标注,该标注装置可以是包含浏览器的单独软件工具,可以是独立于浏览器的单独软件工具,也可以是集成在浏览器中的扩展模块。
Annotea作为World Wide Web(W3C)提供的标准网页标注工具,使用了RDF(Resource Description Format)和XPointer作为描述被标注网页的方法。作为W3C的推荐计划,Annotea为网页标注的表示及存储提供了一个标准的框架和实现方法。在Annotea系统中,系统使用了一个RDF数据库服务器来存储所有的网页标注信息,用户利用一个特定的软件客户端对网页进行标注。在Annotea基础上,也出现了一些各有特色的网页标注系统,比如Annoty、Crit、e-Marked、YAWAS等。
总的来说,现有系统的基本架构可如图1所示。图1是示出了现有技术的标注系统的一般架构的图。如图1所示,现有技术的标注系统包括用户命令处理单元、查询标注单元、网页获得单元、网页标注合成单元。
其中用户命令处理单元接收用户的输入信息,用户的输入信息包括网页URL、显示选项、用户信息等,并把这些信息发送到标注查询单元和网页获得单元。标注查询单元根据用户输入的网页地址信息,通过查询标注服务器,得到网页的标注信息。网页获得模块通过用户提供的网页地址,在互联网上取得网页。网页标注合成单元把取得的网页和相关的标注信息结合在一起,提供给用户,使用户在看到所需网页的同时可以看到相关的网页标注信息。
尽管这些系统都可以实现对网页的标注,但是存在着如下的问题:
-只能对网页中某段文字进行标注,标注的范围不够广泛。而现在的网页内容丰富,不仅有文字,还有图像,声音等元素;
-标注的显示形式比较不直观。比如Annotea,只能根据特殊标记在另外的窗口中打开显示信息;
-只能处理静态网页。当前互联网技术发展很快,大部分的网页都是动态变化的。而传统的系统只能兼容不变化的网页的情况。当网页发生变化时,被标注内容在网页中发生了移动或者不存在了,标注却是静止的,从而发生错误;
-不能处理被标注的内容转移到其它页面的情况。在很多网站中,一个页面内的特定元素,往往随着内容的滚动而自动列到其它页面中,传统的方法不能把这样的标注显示出来;
-不能处理多个网页地址共享同一网页的情况。在很多网站系统中,比如Blog,同一个页面往往可以通过不同的URL来访问。如果在一个URL下进行了标注,当通过其它URL访问此网页的时候,标注就不能够显示出来。
发明内容
本发明鉴于现有技术的上述问题而作出,旨在提供基于网页标注的信息共享方法和装置,用于克服现有技术的一种或更多种缺陷,至少提供一种有益的选择。
为了实现上述目的,本申请提供了以下发明。
发明1、一种标注信息生成装置,所述标注信息生成装置包括标注对象选择单元、标注内容输入单元、网页元素路径确定单元、标注信息生成单元以及发送单元,
所述标注对象选择单元选择待标注的网页中的待标注的对象,即标注网页对象中的标注对象;
所述标注内容输入单元输入针对所述标注对象的标注,即标注内容;
网页内元素路径确定单元确定所述标注对象在所述标注网页对象中的路径,即网页内元素路径;
所述标注信息生成单元生成标注信息,所述标注信息包括标注网页对象路径信息、所述标注对象的网页内元素路径、所述标注内容输入单元输入的标注;以及
所述发送单元将所述标注信息生成单元生成的标注信息发送到标注信息服务器。
发明2、根据发明1所述的标注信息生成装置,其特征在于,所述标注信息生成装置还包括标注风格确定单元,所述标注风格确定单元用于确定所述标注的表现风格,所述标注信息生成单元生成的标注信息还包括标注表现风格信息。
发明3、根据发明1所述的标注信息生成装置,其特征在于,所述标注信息生成装置还包括标注对象特征码生成单元,所述标注对象特征码生成单元用于生成针对所述标注对象的特征码,即标注对象特征码,所述标注信息生成单元生成的标注信息还包括所述标注对象特征码。
发明4、根据发明1所述的标注信息生成装置,其特征在于,所述标注信息生成装置还包括标注网页特征码生成单元,所述标注网页特征码生成单元用于生成所述标注网页对象的特征码,即标注网页特征码,所述标注信息生成单元生成的标注信息还包括所述标注网页特征码。
发明5、一种标注信息搜索装置,用于搜索和显示关注网页的标注信息,所述标注信息搜索装置包括标注查询单元和网页与标注合成单元,其特征在于,
所述标注查询单元根据所述关注网页的路径信息或网页特征码从标注信息服务器中获得标注信息,所述标注信息包括网页路径信息和/或网页特征码、标注对象的网页内元素路径以及标注内容;
所述网页与标注合成单元根据标注对象的网页内元素路径将所述标注内容与所述关注网页相合成。
发明6、根据发明5所述的标注信息搜索装置,其特征在于,所述标注信息还包括标注对象特征码,所述网页与标注合成单元根据标注对象的网页内元素路径以及所述标注对象特征码将所述标注内容与所述关注网页相合成。
发明7、根据发明6所述的标注信息搜索装置,其特征在于,所述网页与标注合成单元包括标注位置确定单元和合成单元,所述标注位置确定单元根据所述标注对象的网页内元素路径在所述网页内确定第一节点,并根据所述标注对象特征码判断所述第一节点是否是所述标注内容所对应的节点,如果判断出所述第一节点不是所述标注内容所对应的节点,则不显示所述标注内容,如果判断出所述第一节点是所述标注内容所对应的节点,则所述合成单元根据所述第一节点将所述标注内容与所述关注网页相合成。
发明8、根据发明6所述的标注信息搜索装置,其特征在于,所述网页与标注合成单元包括标注位置确定单元和合成单元,所述标注位置确定单元根据所述标注对象的网页内元素路径在所述关注网页内确定第一节点,并利用所述标注对象特征码判断所述第一节点是否是所述标注内容所对应的节点,如果判断出所述第一节点不是所述标注内容所对应的节点,则根据所述第一节点确定其它可能的候选节点,并利用所述标注对象特征码一一判断各所述可能的候选节点是否是所述标注内容所对应的节点,如果判断出所有所述可能的候选节点都不是所述标注内容所对应的节点,则不显示所述标注内容,如果判断出存在所述标注内容所对应的节点,则所述合成单元根据所述节点将所述标注内容与所述关注网页相合成。
发明9、根据发明8所述的标注信息搜索装置,其特征在于,所述可能的候选节点是指这样的节点,以该节点为根的树和所述第一节点为根的树构造相同。
发明10、根据发明5所述的标注信息搜索装置,其特征在于,
所述标注查询单元根据所述关注网页的路径信息从标注信息服务器中获得具有与所述关注网页的路径信息相似的路径信息的所有标注信息;
所述标注信息包括网页路径信息和网页特征码;
所述标注信息搜索装置还包括网页分析单元,所述网页分析单元根据所述网页特征码分析所述标注查询单元所获得的各标注信息所对应的网页是否与所述关注网页相同或近似,如果相同或近似,则针对各该标注信息由所述网页与标注合成单元进行标注内容与所述关注网页的合成。
发明11、根据发明5-10任一项所述的标注信息搜索装置,其特征在于,所述标注信息搜索装置还包括标注风格设定装置,所述标注风格设定装置用于设定所述标注内容在所述关注网页中的显示风格,所述网页与标注合成单元根据所述标注风格设定装置设定的显示风格进行所述合成。
发明12、一种标注信息共享系统,包括标注信息生成装置、标注信息搜索装置、标注信息服务器;其特征在于,
所述标注信息搜索装置包括标注对象选择单元、标注内容输入单元、网页元素路径确定单元、标注信息生成单元以及发送单元,
所述标注对象选择单元选择待标注的网页中的待标注的对象,即标注网页对象中的标注对象;所述标注内容输入单元输入针对所述标注对象的标注;网页内元素路径确定单元确定所述标注对象在所述待标注的标注对象网页中的路径,即网页内元素路径;所述标注信息生成单元生成标注信息,所述标注信息包括标注网页对象的路径信息、所述标注对象的网页内元素路径、所述标注内容输入单元输入的标注;以及所述发送单元将所述标注信息生成单元生成的标注信息发送到标注信息服务器;以及
所述标注信息搜索装置包括标注查询单元和网页与标注合成单元,所述标注查询单元根据关注网页的路径信息从标注信息服务器中获得标注信息,所述标注信息包括网页路径信息、标注对象的网页内元素路径以及标注内容;所述网页与标注合成单元根据标注对象的网页内元素路径将所述标注内容与所述关注网页相合成。
发明13、根据发明12所述的标注信息共享系统,其特征在于,
所述标注信息生成装置还包括标注对象特征码生成单元,所述标注对象特征码生成单元用于生成针对所述标注对象的特征码,即标注对象特征码,所述标注信息生成单元生成的标注信息还包括所述标注对象特征码;
所述网页与标注合成单元包括标注位置确定单元和合成单元,所述标注位置确定单元根据所述标注对象的网页内元素路径在所述网页内确定第一节点,并根据所述标注对象特征码判断所述第一节点是否是所述标注内容所对应的节点,如果判断出所述第一节点不是所述标注内容所对应的节点,则不显示所述标注内容,如果判断出所述第一节点是所述标注内容所对应的节点,则所述合成单元根据所述第一节点将所述标注内容与所述关注网页相合成。
发明14、根据发明12所述的标注信息共享系统,其特征在于,
所述标注信息生成装置还包括标注对象特征码生成单元,所述标注对象特征码生成单元用于生成针对所述标注对象的特征码,即标注对象特征码,所述标注信息生成单元生成的标注信息还包括所述标注对象特征码;
所述网页与标注合成单元包括标注位置确定单元和合成单元,所述标注位置确定单元根据所述标注对象的网页内元素路径在所述关注网页内确定第一节点,并利用所述标注对象特征码判断所述第一节点是否是所述标注内容所对应的节点,如果判断出所述第一节点不是所述标注内容所对应的节点,则根据所述第一节点确定其它可能的候选节点,并利用所述标注对象特征码一一判断各所述可能的候选节点是否是所述标注内容所对应的节点,如果判断出所有所述可能的候选节点都不是所述标注内容所对应的节点,则不显示所述标注内容,如果判断出存在所述标注内容所对应的节点,则所述合成单元根据所述节点将所述标注内容与所述关注网页相合成。
发明15、根据发明14所述的标注信息共享系统,其特征在于,所述可能的候选节点是指这样的节点,以该节点为根的树和所述第一节点为根的树构造相同。
发明16、根据发明12所述的标注信息共享系统,其特征在于,
所述标注信息生成装置还包括标注网页特征码生成单元,所述标注网页特征码生成单元用于生成所述标注网页对象的特征码,即标注网页特征码,所述标注信息生成单元生成的标注信息还包括所述标注网页特征码;
所述标注信息搜索装置还包括网页分析单元,所述网页分析单元根据所述网页特征码分析所述标注查询单元所获得的各标注信息所对应的网页是否与所述关注网页相同或近似,如果相同或近似,则针对各该标注信息由所述网页与标注合成单元进行标注内容与所述关注网页的合成。
发明17、一种标注信息生成方法,所述方法包括以下步骤:
选择待标注的网页中的待标注的对象,即标注网页对象中的标注对象;
输入针对所述标注对象的标注,即标注内容;
确定所述标注对象在所述标注网页对象中的路径,即网页内元素路径;
生成标注信息,所述标注信息包括标注网页对象路径信息、所述标注对象的网页内元素路径、所输入的标注内容;以及
将所述标注信息发送到标注信息服务器。
发明18、一种标注信息搜索方法,所述方法包括以下步骤:
根据关注网页的路径信息或网页特征码从标注信息服务器中获得标注信息,所述标注信息包括网页路径信息和/或网页特征码、标注对象的网页内元素路径以及标注内容;以及
根据标注对象的网页内元素路径将所述标注内容与所述关注网页相合成。
本发明还可以由执行实现上述步骤或单元的功能的计算机软件的CPU实现。因而,本发明还提供了一种计算机软件,所述计算机软件在被计算机或其它逻辑部件执行时,可以使计算机或其它逻辑部件实现以上各种单元。本发明还提供了一种计算机软件,该计算机软件在被计算机或其它逻辑部件执行时可以使计算机或其它逻辑部件实现本发明所要求保护的各种方法。
本发明还提供了一种计算机可读存储介质,其上存储有上述程序。所述计算机可读存储介质例如为磁带、软盘、CD、DVD、磁光盘、闪存等。
根据本发明所阐述的基于网页标注的信息共享装置,可以在浏览器中对页面的任意位置的任何元素进行标注,而不是仅限于对文本进行标注。
依据本发明的信息共享装置,即使被标注内容滚动到其它页面,当用户浏览到这些页面时,被标注的内容也可以相应的被显示出来。在多个URL共享同一个网页的时候,如果在一个网页上进行了标注,在通过其它URL访问本网页的时候,标注也会被显示出来。
通过本发明的方法和装置,用户可以在浏览中浏览任何网页时,对网页的任何元素进行丰富多彩的标注。而当此网页被任何授权用户访问时,所有做过的标注都会被按照要求显示出来。这样用户就可以通过访问这些标注达到交流,沟通和共享信息的效果。
附图说明
当结合附图阅读对本发明具体实施方式的详细说明时,可以更好地理解本发明的以上和其他特征、目的和优点。
图1是示出了现有技术的标注系统的一般架构的图;
图2示出了依据本发明一种实施方式的基于网页标注的信息共享系统的示例图;
图3示出了依据本发明一种实施方式的标注生成单元的方框图;
图4示出了依据本发明一种实施方式的标注生成部的结构框图;
图5示出了依据本发明的一种实施方式的标注浏览单元的方框图;
图6示出了依据本发明的一种实施方式的URL分析单元进行处理的流程;
图7示出了依据本发明一种实施方式的网页标注合成部进行的处理的具体流程;
图8示出了依据一种实施方式的标注位置确定单元的具体处理的流程图;以及
图9示出了依据本发明一种实施方式的寻找可能候选节点的方法。
具体实施方式
下面参照附图对本发明的具体实施方式进行详细说明。图2示出了依据本发明一种实施方式的基于网页标注的信息共享系统的示例图。如图2所示,依据本发明一种实施方式的信息共享系统包括服务器端和客户端。
其中输入单元201、标注生成单元202以及标注浏览单元203位于客户端,标注信息存取单元204和标注数据库205位于服务器端。
下面对各模块进行详细的描述。
输入单元201输入的命令主要有标注生成命令和标注浏览命令。在接收到用户的命令之后,根据用户命令的内容进行相应的处理。在接收到标注生成命令时,由标注生成单元202进行对网页进行标注,生成标注信息。在接收到标注浏览命令时,由标注浏览单元203进行标注信息的查询以及网页与查询到的标注的合成。
下面首先介绍对浏览器中的页面进行标注的标注生成单元202。图3示出了依据本发明一种实施方式的标注生成单元202的方框图。如图3所示,标注生成单元202包括标注对象选择单元31、标注输入单元32、标注风格确定单元34以及标注信息生成部33。标注对象选择单元31选择要被进行标注的对象,标注内容输入单元32输入针对各要被进行标注的对象的标注。标注风格确定单元34用于确定标注的风格。由于标注人喜好的标注风格未必是浏览标注的人所喜好的风格,因而这里也可以不设置标注风格确定单元34,在这种情况下,在浏览时,可以以缺省的模式或正在进行浏览的用户所喜好的模式进行显示。但另一方面,标注风格也是标注人的思想的一种体现,也能够体现标注人的个人风格,在张扬个性的网络时代,提供这样的装置将是有益的,并且将有助于浏览人的理解。
在浏览器获得了网页之后对浏览器中的页面进行标注时,首先由标注对象选择单元31选择要进行标注的对象。用户可以通过多种方式选择要标注的对象,即网页的元素。这里的元素的意思是网页DOM(DocumentObject Model,文档对象模型DOM树)树中的任意一个节点。DOM树中节点主要分为3类。一类是文本类型节点,在DOM树中以叶子节点存在。一类是链接节点,指的是以<A></A>形式存在的节点。由于链接节点可以通过URL链接到其它的页面,因此通常认为在链接节点上加标注,同时相当于对被链接文章本身加标注。因此链接节点是比较特殊的非文本节点。最后一类是DOM树中其它的非文本节点。由于DOM树的根节点为<BODY>,因此这类节点囊括了从BODY往下的所有非叶子节点(链接节点除外)。
可以使用各种方法来选择网页中的节点元素。例如可以提供界面,使用户可以按下左键同时拖动鼠标完成文本的选择。又例如可提供界面,使用户可以通过点击左键激活上下文菜单,来确定所选择区域的开始点位置和结束节点位置。另外还可通过监听用户鼠标移动的位置消息,当鼠标光标位于某个DOM树元素上时,在网页上加框高亮该元素,此时按下鼠标左键,就完成了非文本节点的选择。总之,用户可以通过各种手段实现对网页任意元素(包括表格,图像等)的选择。
标注输入单元32用于输入针对各要被标注的对象的标注,即用户对要标注的对象所进行的标注,如评论、注释、意见等。可以通过文本接收框、画板、摄像镜头等来接收用户的标注。
标注风格确定单元34确定标注的风格,如字体大小、颜色、是否带阴影等。在一种实施方式中,可预先为标注设定了若干类别,例如评论、注释、意见等。不同类别的标注可使用不同风格(例如不同颜色)的标注来表示。
标注生成部33依据输入的标注,针对所选择的标注对象,以标注风格确定单元34确定标注的风格,生成标注,并将所生成的标注输入到服务器端的标注数据库205中。
图4示出了标注生成部33的结构框图。如图4所示,依据本发明一种实施方式的标注生成部33包括XPath生成单元401、标注对象特征码生成单元402、网页特征码生成单元模块403、标注信息生成单元404以及发送单元405。
XPath生成单元401负责提取待标注对象在DOM树中的XPath路径,即元素在网页中的路径,也可称为网页内元素路径。XPath是W3C推荐的网页内任意一个元素的表示方式,网页中的每一个元素都对应着一个XPath路径,通过XPath路径也可以定位到网页中的任何一个元素。可以直接调用函数来获得该路径。另一方面,也可使用其它的方法来标识元素在网页中的路径,利用对XPath路径进行细微调整所获得的路径等,从而可以确定一个元素的一部分内容在网页中的路径,由此使得系统可以对一个元素的一部分内容进行确定和标注。
应该注意,XPath生成单元401的存在就已经使得可以对任一对象进行标注了。在这种情况下,已经可以解决现有技术中的不能对任意对象而只能对文本进行标注的问题。因而标注生成部33仅包括XPath生成单元401的情况本身就是本发明的一种实施方式。
标注对象特征码生成单元402能够实现动态网页中标注对移动对象的跟踪。在本实施方式中,在使用XPath对对象进行标识的同时,同时利用了对象特征码的信息。对象特征码是能够唯一代表对象的编码序列。在一种实施方式中,使用MD5散列函数对网页中标注对象(例如文本部分)的编码进行处理,将其结果作为其特征码。具体如下,设被标注对象为a,则其特征码f(a)可以表示为:
f(a)=MD5(InnerHtml(a)),其中InnerHtml为元素a内部的HTML文本。
MD5的性质决定了,在一般情况下,特征码f(a)是唯一的。
网页特征码生成单元403和标注对象特征码生成单元402类似,使用MD5散列函数对网页的内容进行编码。设当前被标注网页为p,Body(p)为网页p的BODY元素,则其特征码f(p)可以表示为:
f(p)=MD5(InnerHtml(Body(p)))。
由于网页特征码生成单元403可以保存网页的特征信息,所以依据本发明的基于网页标注的信息共享方法和装置能够实现在不同URL共享网页时的标注显示问题。
标注信息生成单元404生成标注信息,并由发送单元405将生成的标注信息发送到标注服务器。具体地,将生成的标注信息发送到标注信息存取部204,由标注信息存取部204存储到标注数据库205中。标注信息存取部204例如可以用Java Servelet的方式实现,标注数据库205例如可以用数据库管理系统实现。在标注信息存取部204用Java Servelet的方式实现的情况下,发送单元405例如可以采用XML消息的形式发送所生成的标注信息。所发送的标注信息含有网页位置信息(URL)、标注对象信息(Xpath)、标注对象特征码、网页特征码、标注风格以及标注内容(也称标注本体)。另外,所发送的标注信息还可以包括网页标题等信息。
下面说明本发明的信息共享装置的标注浏览功能。收到用户的指示进行标注浏览的指令时,由标注浏览单元203进行标注的查询以及标注与网页的合成。
图5示出了依据本发明的一种实施方式的标注浏览单元203的方框图。如图5所示,在本发明的一种实施方式中,标注浏览单元203包括标注查询单元51、URL分析单元52以及网页与标注合成单元53。其中网页与标注合成单元53包括标注位置确定单元531以及合成单元532。
当浏览器载入网页时,会把网页的URL以及DOM树结构传送给标注查询单元203。标注查询单元203的标注查询单元51利用该网页的URL,通过标注信息存取模块204从标注数据库205中获取具有相关URL的标注信息(此时可以获取具有相关URL的各标注信息的全部内容,也可以获得具有相关URL的各标注信息的内容一部分,例如仅获取URL、网页特征码、元素特征码等)。此处所说的相关URL是指和当前页面在同一网站、并在标注数据库中存在的所有URL。这些具有相关URL的各标注信息形成了备选标注信息集合。标注查询单元51将所获得的备选标注信息集合提供给URL分析单元52。
URL分析单元52分析标注查询单元51所取得的备选标注信息集合中的各备选标注信息的URL,判断出哪些URL中的标注最有可能标注了当前载入页面中的对象。图6示出了URL分析单元52进行该判断的具体处理的流程。如图6所示,针对所述备选标注信息集合中的各备选标注信息的URL(也可称为备选URL),首先在步骤601进行该URL所指向的网页是否与当前页面是相同的页面的判定。如果和当前页面相同就将该URL所对应的标注信息放入有效标注信息集合(图中简略地写为有效URL)。另一方面,如果和当前页面不相同,则在步骤602进行该URL所指向的网页是否与当前页面是类似的页面的判定。如果满足相似页面条件,就将该URL所对应的标注信息放入有效标注信息集合。然后在步骤603判断是否还有未经判断的URL。如果还有,则在步骤604取得下一URL,并对之重复进行步骤601以及之后的步骤的处理。当在步骤603判断出没有未经判断的URL时,处理结束。
具体地,在步骤601中,计算当前网页的特征码,并将其与从标注数据库205中所获得的、与待判断URL相对应的网页特征码进行比较,如果相同,就认定当前网页和备选URL网页相同。
在步骤602判断备选URL和当前URL是否相近时,可采用如下判断标准:
网页标题相同,且
存在参数传递的情况,URL中数字参数缺失,其它相同(这种情况下判断为相似);
存在参数传递的情况,URL中数字参数不同,且备选网页中数字参数较当前网页小,其它相同(这种情况下也判断为相似);
不存在参数传递,URL最后一个地址部分不同,其它相同(这种情况下仍判断为相似)。
另外,在本发明的另一种实施方式中,可以不进行相似网页的判断,即只进行网页是否相同的判断。在这种情况下,在标注信息中可以不必存储网页标题。
由于URL分析单元52的存在,本发明的信息共享装置考虑了被标注的内容转移到其它页面的情况以及多个不同URL共享同一个页面的情况。
网页标注合成部53负责把从标注服务器中提取的标注,在浏览器中正确地显示出来。所谓正确显示指的是
-网页经过了变化后,所显示的标注能够跟踪变化后的位置。对于已经消失的内容,则标注不予显示。
-网页中可能存在经由其它网页标注的对象,对于这部分对象,也要在正确的位置显示出标注来。
-本网页可能已经标注过,但是是通过不同的URL进行标注的。对这些标注,也需要全部正确的显示。
在经过URL分析单元52的URL分析后,所有在本网页上可能出现的标注都已经得到了。下面要进行的工作就是针对每一个候选标注,在DOM树中找到它的合适位置,并且制成浮签在浏览器中显示出来。
图7示出了网页标注合成部53进行的处理的具体流程。如图7所示,针对URL分析单元52所得到的具有有效URL的标注信息集合(候选标注信息集),如果标注查询单元51获取的是具有有效URL的标注信息的全部内容,则针对这些标注信息进行处理。如果标注查询单元51获取的仅是具有有效URL的标注信息的部分内容(例如没有获得具体的标注内容),则此时依据各标注信息的有效URL,从标注信息数据库207中获得各该标注信息的全部内容。
然后,针对候选标注信息集中的每一条标注信息,在步骤701,通过标注位置确定单元531得到该标注信息中的标注内容(标注本体)在当前页面中所对应的对象及其位置,然后在步骤702,通过合并单元532,将其与当前显示的网页合并起来,并在浏览器中显示出来。
标注位置确定单元532根据标注候选信息集中每一条标注信息的X-Path信息和特征码信息,在当前页面中确定所标注对象的位置。通过标注位置确定单元532,即使被标注内容在网页中的位置发生了变化,也可以正确地获得标注的信息。在这个模块中,系统以标注的X-path信息所提供的网页中的位置作为基础,依次匹配测试网页DOM树中所有可能的节点的信息,一旦找到相应的节点,则把此标注作为找到的网页DOM树中的节点的标注信息。
图8示出了依据一种实施方式的标注位置确定单元532的具体处理的流程图。
如图8所示,针对标注候选信息集中的每一条待确定的标注信息,首先在步骤801根据该标注信息中的X-path找到所对应的DOM树中的节点(DOM树节点),这可以通过系统提供的函数来实现的。然后在步骤802进行特征码的判断。即计算步骤801中所确定出来的DOM树节点的特征码,并和该标注信息中的特征码进行比较。如果相同,说明此标注信息即对应于步骤801中所找到的DOM树节点。
如果特征码不相同,则在步骤803中,获得可能的DOM树中的其它节点(可能的候选节点)。对所有这些可能的候选节点一一进行特征码的判定,直到找到符合输入标注特征码的节点为止。如果都没有找到,则在本页中不显示该条标注信息。
在寻找可能的其它节点时,当然可以对DOM进行遍历,并对树中的节点一一进行特征码判定。但这种方法在DOM树中的节点很多的情况下,会耗费大量的时间,因而并不是优选的。
一般来说,由于当前网站的网页都是根据模板生成的,被标注条目的变化一般是由于新条目的加入或者旧条目的删除引起的,被标注节点的新位置应该和旧的标注节点具有完全相同的树结构(包括节点的HTML属性,如div、a等)。
假设A为标注信息的X-path所对应的节点(第一节点),其所对应的树为TA。我们可以知道在DOM树中所有A的祖先,因为以它们为跟的树都包含TA。因此不包含TA的树结构,都不能成为节点候选,而节点候选只能在A和A的祖先的兄弟节点中产生。
图9示出了依据本发明一种实施方式的寻找可能候选节点的方法。如图9所示,首先在步骤901中获得当前节点A的所有兄弟节点。然后针对这些兄弟节点中的各兄弟节点,在步骤902中判断以该节点为根的树Bi是否与TA相同。如果相同,则加Bi为候选节点,继续处理其它节点。如果不同,则在步骤903判断Bi的子节点中是否包含有和TA相同的子树。其处理例如可以通过递归调用的方法直到其字树的所有的节点都处理完毕。
然后在步骤904判断是否还有待判断的兄弟节点,如果没有兄弟节点了就结束该处理。如果还有兄弟节点,则获取下一兄弟节点,并重复步骤902以及之后的处理。
针对候选节点计算特征码,并与该标注信息中的特征码进行比较,如果相同,说明此节点即为要寻找的DOM树节点。当然也可以每次找到一个候选节点就进行其是否是要寻找的DOM树节点的判断。
合成单元532是网页显示模块,通过动态修改网页DOM代码,首先把标注转化成html的格式,然后把转换之后的html片段插入到网页中,并在浏览器中显示出来。
应该注意,上面的说明仅仅是示例性的,并不是对本发明的限制。
例如对于解决现有技术的只能针对文本而不能针对其它对象进行标注的问题以及不能适应网页元素位置的变动而言,并不需要URL分析单元。另外,在这种情况下,标注查询单元51既可以利用待显示标注的网页的URL进行标注查询,也可以利用网页特征码进行查询。
另外,标注位置确定单元531可以只根据标注对象在网页中路径信息进行标注位置确定,而不考虑标注对象特征码。
另外,标注浏览单元203还可以包括标注风格确定单元,利用该单元,对标注进行浏览的客户可以以自己喜好的风格显示标注内容。
另外,所述URL分析单元也可在服务器端实现,例如集成在标注信息存取单元204中,此时,标注浏览单元可以将当前网页的URL和网页特征码传送给该URL分析单元。另外,在这种情况下,可以同时传送网页的标题。
总之,可以根据具体的应用对本发明的部件、步骤等进行合适的修改和变型。
本发明可以作为一个网页标注的独立装置,让用户在浏览网页的同时,更加方便随意的添加评论、意见、注释等信息。同时,还可以作为辅助模块在其它需要网络信息交互的情况下应用,比如说远程网络教学,工程项目协同等。
Claims (10)
1.一种标注信息生成装置,所述标注信息生成装置包括标注对象选择单元(31)、标注内容输入单元(32)、网页内元素路径确定单元(401)、标注信息生成单元(404)以及发送单元(405),
所述标注对象选择单元(31)选择待标注的网页中的待标注的对象,即标注网页对象中的标注对象;
所述标注内容输入单元(32)输入针对所述标注对象的标注,即标注内容;
网页内元素路径确定单元(401)确定所述标注对象在所述标注网页对象中的路径,即网页内元素路径;
所述标注信息生成单元(404)生成标注信息,所述标注信息包括标注网页对象路径信息、所述标注对象的网页内元素路径、所述标注内容输入单元输入的标注;以及
所述发送单元(405)将所述标注信息生成单元生成的标注信息发送到标注信息服务器。
2.根据权利要求1所述的标注信息生成装置,其特征在于,所述标注信息生成装置还包括标注对象特征码生成单元(402),所述标注对象特征码生成单元用于生成针对所述标注对象的特征码,即标注对象特征码,所述标注信息生成单元(404)生成的标注信息还包括所述标注对象特征码。
3.根据权利要求1所述的标注信息生成装置,其特征在于,所述标注信息生成装置还包括标注网页特征码生成单元(403),所述标注网页特征码生成单元用于生成所述标注网页对象的特征码,即标注网页特征码,所述标注信息生成单元生成的标注信息还包括所述标注网页特征码。
4.一种标注信息搜索装置,用于搜索和显示关注网页的标注信息,所述标注信息搜索装置包括标注查询单元(51)和网页与标注合成单元(53),其特征在于,
所述标注查询单元(51)根据所述关注网页的路径信息或网页特征码从标注信息服务器中获得标注信息,所述标注信息包括网页路径信息和/或网页特征码、标注对象的网页内元素路径以及标注内容,所述网页特征码为所述关注网页的特征码,所述标注对象即所述关注网页中的经标注的对象,网页内元素路径即所述标注对象在所述关注网页内的路径,所述标注内容即针对所述标注对象的标注;
所述网页与标注合成单元(53)根据标注对象的网页内元素路径将所述标注内容与所述关注网页相合成。
5.根据权利要求4所述的标注信息搜索装置,其特征在于,所述标注信息还包括标注对象特征码,所述网页与标注合成单元(53)根据标注对象的网页内元素路径以及所述标注对象特征码将所述标注内容与所述关注网页相合成。
6.根据权利要求5所述的标注信息搜索装置,其特征在于,所述网页与标注合成单元(53)包括标注位置确定单元(531)和合成单元(532),所述标注位置确定单元(531)根据所述标注对象的网页内元素路径在所述网页内确定第一节点,并根据所述标注对象特征码判断所述第一节点是否是所述标注内容所对应的节点,如果判断出所述第一节点不是所述标注内容所对应的节点,则不显示所述标注内容,如果判断出所述第一节点是所述标注内容所对应的节点,则所述合成单元根据所述第一节点将所述标注内容与所述关注网页相合成。
7.根据权利要求5所述的标注信息搜索装置,其特征在于,所述网页与标注合成单元(53)包括标注位置确定单元(531)和合成单元(532),所述标注位置确定单元(531)根据所述标注对象的网页内元素路径在所述关注网页内确定第一节点,并利用所述标注对象特征码判断所述第一节点是否是所述标注内容所对应的节点,如果判断出所述第一节点不是所述标注内容所对应的节点,则根据所述第一节点确定其它可能的候选节点,并利用所述标注对象特征码一一判断各所述可能的候选节点是否是所述标注内容所对应的节点,如果判断出所有所述可能的候选节点都不是所述标注内容所对应的节点,则不显示所述标注内容,如果判断出存在所述标注内容所对应的节点,则所述合成单元根据所述节点将所述标注内容与所述关注网页相合成。
8.根据权利要求7所述的标注信息搜索装置,其特征在于,各所述可能的候选节点是指这样的节点,以该节点为根的树和所述第一节点为根的树结构相同。
9.根据权利要求4所述的标注信息搜索装置,其特征在于,
所述标注查询单元(51)根据所述关注网页的路径信息从标注信息服务器中获得具有与所述关注网页的路径信息相似的路径信息的所有标注信息;
所述标注信息包括网页路径信息和网页特征码;
所述标注信息搜索装置还包括网页分析单元(52),所述网页分析单元根据所述网页特征码分析所述标注查询单元(51)所获得的各标注信息所对应的网页是否与所述关注网页相同或近似,如果相同或近似,则针对各该标注信息由所述网页与标注合成单元(53)进行所述标注内容与所述关注网页的合成。
10.一种标注信息共享系统,所述标注信息共享系统包括标注信息生成装置、标注信息搜索装置和标注信息服务器;其特征在于,
所述标注信息生成装置包括标注对象选择单元(31)、标注内容输入单元(32)、网页内元素路径确定单元(401)、标注信息生成单元(404)以及发送单元(405),
所述标注对象选择单元(31)选择待标注的网页中的待标注的对象,即标注网页对象中的标注对象;所述标注内容输入单元(32)输入针对所述标注对象的标注;网页内元素路径确定单元(401)确定所述标注对象在所述待标注的标注对象网页中的路径,即网页内元素路径;所述标注信息生成单元(404)生成标注信息,所述标注信息包括标注网页对象的路径信息、所述标注对象的网页内元素路径、所述标注内容输入单元输入的标注;以及所述发送单元(405)将所述标注信息生成单元生成的标注信息发送到标注信息服务器;以及
所述标注信息搜索装置包括标注查询单元(51)和网页与标注合成单元(53),所述标注查询单元(51)根据关注网页的路径信息从标注信息服务器中获得标注信息,所述标注信息包括网页路径信息、标注对象的网页内元素路径以及标注内容;所述网页与标注合成单元(53)根据标注对象的网页内元素路径将所述标注内容与所述关注网页相合成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100867995A CN101551800B (zh) | 2008-03-31 | 2008-03-31 | 标注信息生成装置、查询装置及共享系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100867995A CN101551800B (zh) | 2008-03-31 | 2008-03-31 | 标注信息生成装置、查询装置及共享系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101551800A CN101551800A (zh) | 2009-10-07 |
CN101551800B true CN101551800B (zh) | 2012-02-15 |
Family
ID=41156048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100867995A Expired - Fee Related CN101551800B (zh) | 2008-03-31 | 2008-03-31 | 标注信息生成装置、查询装置及共享系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101551800B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102446175A (zh) * | 2010-09-30 | 2012-05-09 | 宏碁股份有限公司 | 电子装置及网页加注方法 |
CN102306175A (zh) * | 2011-08-25 | 2012-01-04 | 北京商纳科技有限公司 | 一种个人知识管理方法及装置 |
CN102799573B (zh) * | 2012-06-27 | 2015-07-01 | 北京经舆典网络科技有限公司 | 网页批注的方法及系统 |
CN102880679B (zh) * | 2012-09-11 | 2016-01-13 | 北京易云剪客科技有限公司 | 一种网页信息存储方法和装置 |
CN103002054A (zh) * | 2012-12-25 | 2013-03-27 | 北京百度网讯科技有限公司 | 基于网络的笔记共享方法、系统和云端服务器 |
CN104035916B (zh) * | 2013-03-07 | 2017-05-24 | 富士通株式会社 | 标准化标注工具的方法和设备 |
CN104424232B (zh) * | 2013-08-26 | 2018-10-12 | 阿里巴巴集团控股有限公司 | 一种网页标注方法和装置 |
CN104182469B (zh) * | 2014-07-25 | 2020-04-21 | 北京搜狗科技发展有限公司 | 对文档进行注释的方法和输入法系统 |
EP3026575A1 (en) * | 2014-11-26 | 2016-06-01 | Unify GmbH & Co. KG | Method for referring to specific content on a web page and web browsing system |
CN105824925B (zh) * | 2016-03-17 | 2019-09-10 | 四川长虹电器股份有限公司 | 基于浏览器网页元素的动态标注方法 |
CN105930383A (zh) * | 2016-04-14 | 2016-09-07 | 青岛海信移动通信技术股份有限公司 | 电子书签的实现方法及装置 |
CN107577683A (zh) * | 2016-07-05 | 2018-01-12 | 富士通株式会社 | 信息处理装置、信息处理方法以及信息处理设备 |
CN107203748B (zh) * | 2017-05-18 | 2020-12-22 | 南京大学 | 一种基于内容的网页笔记存储、匹配和还原的方法和装置 |
CN109062889A (zh) * | 2018-06-27 | 2018-12-21 | 北京明略软件系统有限公司 | 一种文本标注方法和装置、计算机可读存储介质 |
CN112417829B (zh) * | 2020-11-27 | 2022-03-11 | 上海妙一生物科技有限公司 | 添加页面批注的处理方法和装置 |
CN113918729B (zh) * | 2021-10-08 | 2024-04-16 | 肇庆学院 | 一种基于知识树的任务协同方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6226642B1 (en) * | 1997-09-11 | 2001-05-01 | International Business Machines Corporation | Content modification of internet web pages for a television class display |
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN1963816A (zh) * | 2006-12-01 | 2007-05-16 | 清华大学 | 一种搜索引擎性能评价的自动化处理方法 |
CN101101601A (zh) * | 2007-07-10 | 2008-01-09 | 北京大学 | 网络搜索中的基于链接层次分类的主题爬取方法 |
-
2008
- 2008-03-31 CN CN2008100867995A patent/CN101551800B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6226642B1 (en) * | 1997-09-11 | 2001-05-01 | International Business Machines Corporation | Content modification of internet web pages for a television class display |
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN1963816A (zh) * | 2006-12-01 | 2007-05-16 | 清华大学 | 一种搜索引擎性能评价的自动化处理方法 |
CN101101601A (zh) * | 2007-07-10 | 2008-01-09 | 北京大学 | 网络搜索中的基于链接层次分类的主题爬取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101551800A (zh) | 2009-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101551800B (zh) | 标注信息生成装置、查询装置及共享系统 | |
CN101866342B (zh) | 生成或显示网页标注的方法和装置以及信息共享系统 | |
CN101452453B (zh) | 一种输入法网址导航的方法和一种输入法系统 | |
Wang et al. | Data-rich section extraction from html pages | |
CN101427229B (zh) | 用于修改向计算机系统的终端用户显示的信息表示的技术 | |
CN101771681B (zh) | 一种页面显示控制方法、服务器及系统 | |
US8874542B2 (en) | Displaying browse sequence with search results | |
CN100422997C (zh) | 网页加入可搜索的深标签及浏览器插件和脚本结合的方法 | |
CN103166981B (zh) | 一种无线网页转码方法及装置 | |
US20130326333A1 (en) | Mobile Content Management System | |
US20080016087A1 (en) | Interactively crawling data records on web pages | |
WO2011049641A1 (en) | A method and apparatus of generating internet navigation page | |
CN102065114A (zh) | 一种移动终端访问网页的方法及装置 | |
WO2008092079A2 (en) | System, method and apparatus for selecting content from web sources and posting content to web logs | |
CN103443786A (zh) | 识别网络浏览器中的并行布局的独立任务的机器学习方法 | |
CN104699782A (zh) | 分散型的web注释 | |
CN101788991A (zh) | 一种更新提醒的方法及系统 | |
CN102177515A (zh) | 用于代码转换和显示电子文档的方法、系统和设备 | |
CN102591992A (zh) | 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法 | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
CN106503211B (zh) | 面向信息发布类网站的移动版自动生成的方法 | |
US20100162095A1 (en) | Data processing apparatus and data processing method | |
US20100218083A1 (en) | Document processing apparatus and document processing method | |
Egger et al. | Web scraping: Collecting and retrieving data from the web | |
CN101324881A (zh) | 文字输入支援方法、系统及程序、文字转换方法及程序、用户终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120215 Termination date: 20180331 |