CN101154231A - 一种应用网页语义的方法和系统 - Google Patents

一种应用网页语义的方法和系统 Download PDF

Info

Publication number
CN101154231A
CN101154231A CNA2007101185236A CN200710118523A CN101154231A CN 101154231 A CN101154231 A CN 101154231A CN A2007101185236 A CNA2007101185236 A CN A2007101185236A CN 200710118523 A CN200710118523 A CN 200710118523A CN 101154231 A CN101154231 A CN 101154231A
Authority
CN
China
Prior art keywords
webpage
web page
file
supplementary
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101185236A
Other languages
English (en)
Other versions
CN101154231B (zh
Inventor
孟智平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2007101185236A priority Critical patent/CN101154231B/zh
Publication of CN101154231A publication Critical patent/CN101154231A/zh
Priority to PCT/CN2008/071587 priority patent/WO2009006844A1/zh
Application granted granted Critical
Publication of CN101154231B publication Critical patent/CN101154231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Abstract

本发明公开了一种应用网页语义的方法和系统,该方案的主要用途之一就是提取网页中的语义内容,并加以分析和利用,例如可以通过语义的提取为网页加上与网页内容相关的广告。有被动式和主动式两种方法分析网页语义。主动式是在客户端,即网页浏览端,运行一个关键字匹配模块,分析并通过指定模式寻找网页中存在的关键字,当发现匹配的关键字时,则向服务端发起辅助信息请求,通常是广告信息请求,获得广告信息,并在适当的地方播放。被动式则是把网页进行预先处理,形成网页的内容描述文件或功能描述文件,然后把功能描述文件和网页一起发送给客户端,客户端按预定义的操作逻辑执行。

Description

一种应用网页语义的方法和系统
技术领域
本发明涉及IT技术,尤其涉及一种提取并应用网页语义的方法,如加入广告的方法。
背景技术
随着网络技术的不断发展,各种各样的基于网页的应用也越来越多。网页通常是在网站的制作或维护过程中产生的,多数都是脚本(Script)形式的网页,包括HTML/XML/ASP/JSP/PHP/PERL/CGI等各种各样的脚本格式,但是其中还是以HTML的网页形式最多。随着互联网经济的不断发展,各种各样的网站应运而生,现有的网站最主要的赢利手段之一就是广告。下面以广告为例来谈谈现有的网页的应用。
现阶段,广告商制定了多个策略,以求最大限度地提高广告的价值。一种策略是,广告商使用常用的手段来提供交互媒体或服务,即通常是通过网站的形式作为提供交互式媒体服务的渠道。通过这种策略,广告商可以将广告指向一个比较集中的受众群体,从而为广告更好地寻找目标受众提供了可能性。例如,广告商可以将最新款的游戏消息通过新浪网站的游戏板块投放给喜欢游戏的受众。另一种策略是广告商对一般性广告通过广泛传播,尽可能地将广告推送给更多的受众,以期望更好的广告效果。
不管采用哪一种策略,基于网站的广告,即Web广告,通常是以横幅广告的形式呈现在网站浏览者(以下称为用户)面前。用户通过点击某一个横幅广告,就会进入所述横幅链接的指向某个广告商的网站。用户点击的次数和广告显示的次数之间的比率被称之为点击率。现在存在的问题是,虽然广告商在大量网站广泛投放广告,但是广告的点击率并不高,因此广告商对广告投资的汇报也并不满意。某些广告商试图通过跟踪用户的在线习惯来改善广告的效率,但是这种做法往往会导致侵害用户隐私的行为发生。
同样,网站的所有者(以下称为网站主),也会遇到需要提高广告收益而又不能影响用户感受的难题。某些网站主选择了一味扩大广告投放而忽视用户感受的做法,导致大量网站用户流失。
另一类是搜索引擎网站,例如google,这类网站能使广告商确定他们的广告目标,以便通过与广告相关的搜索页面与广告一起呈现给用户。虽然搜索结果页面给广告商提供了将其广告指向搜索者的机会,但是搜索结果只是万维网很小的一部分,并无法将所有需要投放的广告都针对这样的潜在客户(这里指前面提到的搜索者)进行投放。
由于大量的门户网站的出现,使得一些大型网站每天访问量突破千万,而一些小型网站则无人问津。这使得一些小型网站的广告价值几乎没有办法体现,这也使得一些小型网站很难生存。相反,大型网站则可以根据其大量的访问量,而收取高额的广告费用。但是这对于广告商来说,并没有把网站的广告能量都发挥完全,怎么样利用分散而众多的小型网站投放高质量的广告成为广告商所需要思考的问题。
这里就存在一个问题,如何更好的使用互联网资源(如何使用网页)?如何为网页添加广告?怎样在互联网上搜索信息或投放信息才是高效的?
传统的网页,只有简单的表现形式,如果需要完成一些特殊的功能,通常都是通过在原有网页源文件中加载ActiveX控件或在网页源文件中嵌入一些控制节本语言,如,JavaScript/VBScript/.net的一些代码。这样不光使网页看上去非常复杂,而且这种把内容和控制放在一起的做法,既不适合大规模处理网页,也不适合对网页规范的完全控制,很难实现网页服务的个性化。
网页的语义化才是网页发展的方向。现有的所有网页基本上都是描述网页的结构,作为网页内容的载体,并不能很好的说明网页中到底有什么。这对网页的处理和使用带来了很大的困难。专利号CN200410057064.1,提出了一种网页信息块提取装置和方法,该方法把网页分解成信息块,并进行处理,但是仍然不能很好地表现出网页内容的语义。专利号200510109288.7,提供了一种抽取网页信息的方法,但是并不能把每一个网页都结构化地进行处理。
发明内容
本发明提供了一种应用网页语义的方法和系统,以解决现有技术中不能很好地表现出网页内容的语义的缺陷。
本发明提供了一种真正使用网页语义的方法,把网页内容的语义通过关键字的形式抽象出来,可以使用该方法方便地为网页内容加入辅助信息,该方法除了可以有效地控制网页,还可以用于网络广告投放。本发明提供了对网页的主动式和被动式两种处理方法,来分析网页语义,并通过对网页语义的分析提供基于网页的服务和应用。所谓主动式,是指在不对现有网页做修改的情况下,客户端运行一些程序或插件完成一些对网页语义的分析功能,并根据语义完成某些特定的应用,例如,通过对网页语义分析,向网页提供与网页内容相关的辅助信息(广告等)。所谓被动式,是指对网页要进行预先的处理或者修改原有的网页脚本或者添加网页的内容描述文件、功能描述文件等,用户侧客户端通过程序升级或安装插件等方法可以识别对网页文件的修改或新增加的网页描述文件(包括,内容描述文件和功能描述文件)。被动式或主动式的方法都可以实现对网页语义的分析,并可以通过脚本语言或预设程序来控制网页浏览器的一些动作。也就是说浏览器的行为不完全是由用户控制的,而是部分决定于网页本身的内容或网页预先设置好的脚本或其它一些描述文件(在本专利中为内容描述文件和功能描述文件)。以主动式的分析网页语义的方法并为用户提供基于网页内容的辅助信息为例,首先客户端从网站接收到的网页的内容(例如,HTML等脚本网页),通过本发明语义分析系统(主动式)中的关键字匹配模块判断网页内容是否和一些预先定义好的关键字相匹配,如果匹配,则根据所述关键字匹配模块中匹配成功的关键字所对应的辅助信息的链接地址向服务端发起服务请求,获得需要的辅助信息。其中辅助信息可以是关于网页中具体相关内容的介绍、分析、广告等相关信息。在客户端维护的关键字匹配模块用于分析用户网页内容,并将获得的匹配信息(包含被匹配成功的关键字对应的辅助信息的地址信息)发送到服务端。例如,当用户打开一个体育网站,收看一段介绍足球比赛的网页,这时关键字匹配模块会发现“足球”这是需要搜索的匹配信息,并且通过关键字匹配模块可以得到关于“足球”两字的辅助信息的位置,比如一个具体的网络上的URL地址(HTTP://.../bootball.html)等,这个具体的URL通常都在服务端上,这时候客户端就会向服务端发起一个服务请求,要求取回这个URL地址的辅助信息。辅助信息包括视频、图像、声音、文字等所有媒体信息。
该方法可以主动地向用户推送网页内容相关的广告,既不会对用户浏览网页造成不便,也可以大大改善网络广告投放的效果。当然该方法还可以用于推送广告之外的其它辅助信息,例如,用户在网页上遇到一个数学公式,类似地可以通过该方法向用户推送所述数学公式的推导方法。对于被动式的方式来处理网页,获取网页语义信息的过程就是生成网页内容描述文件的过程或生成新网页820的过程。以内容描述文件为例,内容描述文件即是浓缩后的网页,基本上能概括网页信息内容的主体,但却可能比网页本身节省更多的存储空间。生成网页内容描述文件的方法也同样会用到关键字匹配这一个过程,在本发明中是网页源文件通过处理模块3000处理后生成的。在生成了网页描述文件后,往往可以通过网页内容描述文件生成网页的功能描述文件,当然也可以通过处理模块3000直接生成功能描述文件。本发明还可以通过在描述文件(包括内容描述文件和功能描述文件)或网页源文件中加入网页适合对象的信息的方法,来有针对性地投放网页或有限制地投放网页。
与现有技术相比,本发明具有以下优点:
本发明实施例中,把网页内容的语义通过关键字的形式抽象出来,可以使用该方法方便地为网页内容加入辅助信息,该方法除了可以有效地控制网页,还可以用于网络广告投放。
附图说明
图1是本发明中主动式的一种系统结构示意图;
图2是本发明中主动式的另一种系统结构示意图;
图3是本发明中关键字匹配模块数据结构示意图;
图4是本发明中主动式第一种网页信息处理过程的流程图;
图5是本发明中主动式第二种网页信息处理过程的流程图;
图6是本发明中主动式第三种网页信息处理过程的流程图;
图7是本发明中为被动式网页源文件添加指向辅助信息地址链接的流程图;
图8是本发明中为被动式网页源文件添加指向辅助信息的系统结构图;
图9是本发明中分析网页内容并形成一棵树的示意图;
图10是本发明中被动式的生成内容描述文件和功能描述文件示意图;
图11是本发明中被动式的生成和使用功能描述文件的系统示意图;
图12是本发明中被动式通过设定网页适合对象来投放网页的示意图。
具体实施方式
本发明是对现有的网页浏览方式以及网页的结构做了一定的改进,使网页本身具有更强的实用性和互动效果,能够在保留原有网页的基础上为网页增加大量的辅助信息,并且在本发明中还为网页增加了两种描述文件(profile)结构,大量丰富了网页的功能。本发明的核心围绕着这样一个主题:根据网页自身的内容,并结合关键字列表和网页本身的属性(网页的基本信息),提取网页的语义信息,并根据网页的语义信息执行某些预定的操作逻辑。在对网页的语义做分析时,有被动和主动两种方式。所谓主动式,是指在不对现有网页做修改或不增加新文件的情况下,客户端运行一些程序或插件完成一些对网页语义的分析功能,并根据语义完成某些特定的应用,例如,通过对网页进行语义分析,找到存在含有与辅助信息对应的关键字的网页,并向网页提供与网页内容相关的辅助信息(如,广告等)。所谓被动式,是指对网页要进行预先的处理或者修改原有的网页脚本或者添加网页的内容描述文件、功能描述文件等,用户侧客户端通过程序升级或安装插件等方法可以识别对网页文件的修改或新增加的网页描述文件(包括,内容描述文件和功能描述文件)。被动式或主动式的方法都可以实现对网页语义的分析,并可以通过脚本语言或预设程序来控制网页浏览器或浏览器外部程序的一些动作。也就是说浏览器的行为不完全是由用户控制的,而是部分决定于网页本身的内容或网页预先设置好的脚本或其它一些描述文件(在本专利中为内容描述文件和功能描述文件)。一般的相关领域的技术人员均很容易了解本发明的工作原理和思想,根据本发明设计到的原理和思想,做出简单调整和改动的技术或系统均在本发明保护范围之内。
如图1所示,为本发明的主动式的一种系统结构示意图。主要分为两个大的部分,一部分是客户端,另一部分是服务端。客户端包括5个重要的模块(次要或通用模块未在图例中画出),网页浏览模块120主要是解析网页并在客户端显示,用户可以通过网页浏览模块120浏览请求网页。内容导入模块130,主要作用是根据不同的应用提取出网页部分或全部内容,并把提取的内容导入关键字匹配模块,例如,内容导入模块包括几种常见的内容导入方式:第一种,将用户请求的网页内容(即网页源文件)全部导入到关键字匹配模块;第二种,将用户正在显示的窗口内的网页内容或某一个框架(frame)内的网页内容,即一部分网页内容导入到关键字匹配模块;第三种,将鼠标周围或用户选定的区域内的网页内容导入到关键字匹配模块。在关键字匹配模块150中,会维护一个可以被更新或编辑的关键字数据结构,如图3所示,通常包含关键字列表310和对应辅助信息位置320,关键字匹配模块会寻找从内容导入模块130导入的网页内容和关键字列表310之间的匹配关系,如果发现匹配则通过通信模块140按照关键字对应辅助信息位置320向服务端发起辅助信息请求。服务端170在通过服务端通信模块180接收到客户端110发起的带有位置信息的请求后,会在辅助信息存储模块中找到相应的辅助信息,并把辅助信息发送到客户端110,通过客户端110的辅助信息播放模块进行播放。
在图2中,即本发明中主动式的另一种系统结构示意图,和图1的区别就在于,将关键字匹配模块从客户端移到了服务端。实际上也就是内容导入模块和关键字匹配模块之间的通信,通过客户端110的通信模块140和服务端170的通信模块180来完成,而不是像图1那样在客户端内部完成。这样做的问题是可能减少由于关键字匹配模块中匹配运算给客户端带来的压力,但是可能会增加客户端和服务端通信的压力。一个比较适合图2系统的实施例为,用户在浏览网页时,用鼠标指向一些需要进一步辅助信息的内容,比如需要翻译鼠标指向的单词,内容导入模块130会将鼠标指向的单词通过客户端110的通信模块140和服务端170的通信模块180发送到关键字匹配模块150,关键字匹配模块150则会根据关键字对应的本地或网络地址取回辅助信息(对所述单词的翻译信息),最终将辅助信息传送到客户端,并通过辅助信息的播放模块进行播放。在图2中,辅助信息不一定和存储在关键字匹配模块存储在同一个服务器上,有可能辅助信息存储模块保存在另一台关联服务器上。为了说明问题,本发明只使用了比较简单的情况。
图1和图2中,辅助信息播放模块160和内容导入模块130可以作为一个插件或一段程序放在网页浏览器(如:IE等)中执行,也可以作为一个单独的程序放在网页浏览器之外运行,例如,辅助信息播放模块在播放辅助信息的时候,可以在网页内的某一个位置播放,也可以在浏览器窗口外的某一个位置播放。为了简单起见,内容导入模块通常是和网页浏览器有接口的,这样可以在用户请求或浏览网页内容时,更灵活方便的获取网页内容。
图3为本发明中关键字匹配模块数据结构示意图,在关键字匹配模块140中,通常至少会保留关键字列表310和对应辅助信息位置320这两项数据结构,这样可以通过简单的查表来确定所需要的辅助信息的位置。当然在数据结构设计过程中可能还需要一些辅助的信息,例如,辅助信息播放的位置,关键字优先级,客户端IP地址,服务端IP地址等,这些信息都是可选的,没有在图3中一一列出。关键字列表既可以和辅助信息对应,又可以和辅助信息地址对应,图3只画出了关键字列表和辅助信息地址对应的情况。关键字和辅助信息或辅助信息地址的对应关系型可以是,一个关键字对应多个辅助信息或多个辅助信息地址,多个关键字对应一个辅助信息或一个辅助信息地址,一个关键字对应一个辅助信息或一个辅助信息地址。
图4为本发明中第一种主动式网页信息处理过程的流程图,该处理过程是图1的一个实例,具体包括:410,客户端接收到网页,并由关键字匹配模块搜索用户浏览网页内容,即搜索用户浏览网页的HTML或XML(eXtensibleMarkup Language,扩展标记语言)文件;420,判断网页内容是否和关键字存在匹配;430如果存在匹配,则按照关键字对应的地址取回辅助信息;440并将取回的信息在客户端播放;如果不存在匹配,则返回到前一步继续搜索。这样所述网页内容还可以是用户正在看的网页框架(frame)内的内容,或用户浏览器窗口内显示部分的内容,这些内容采用JavaScript等本语言或操作系统的一些API程序来提取。
图5为本发明中第二种主动式网页信息处理过程的流程图,该处理过程是图2的一个实例。在用户获得网页内容以后,可以伴随简单的操作,例如,510,把鼠标或光标指向不明白的单词,这个时候,将鼠标或光标指向的网页内容传回服务端;520并在判断服务端是否存在和网页内容匹配的关键字;530如果存在,服务端则取回关键字对应的辅助信息或按找关键字对应的地址取回辅助信息,服务器将关键字对应的辅助信息传回客户端;540最终在客户端播放辅助信息。在抓取鼠标周围文字的时候,往往需要运用到JavaScript或其它脚本技术,也可以根据不同的操作系统,调用一些底层API函数来实现,例如在Windows系统中,可以调用钩子(Hook)来实现Windows屏幕取词。
图6为本发明中第三种主动式网页信息处理过程的流程图,这个过程和图4以及图5有很大不同,是伴随着用户对网页的点击而发生的。610,用户点击网页内具有超文本链接的文字条目,620,并判断文字条目是否和关键字存在匹配;630如果存在匹配,则按照关键字对应的地址取回辅助信息;640并将取回的信息在客户端播放。
图7为本发明中为被动式网页源文件添加指向辅助信息地址链接的流程图,这种方法的一个特点是必须在浏览网页之前就完成添加指向辅助信息地址链接这一过程,而不像图4、图5、图6是在浏览网页的过程中直接通过关键字匹配模块取回辅助信息。也就是说现有的网页文件在被浏览前,还要经过处理,加入指向辅助信息地址链接。具体流程为,710,用户获取网页源文件内容;720,判断网页源文件内容是否和关键字存在匹配;730,如果存在匹配,为源文件中匹配的地方加入指向辅助信息地址的链接;740,将加入了辅助信息链接的网页或形成新的辅助信息描述文件再发送给用户。在这种方式下系统结构将做细微调整,如图8所示,为被动式网页源文件添加指向辅助信息的系统结构图。这里将添加指向辅助信息链接前的网页称为旧网页,将添加了辅助信息链接后的网页称为新网页。本专利主要针对但不限于处理网页中文字信息,在旧网页中,如果不考虑网页中诸如注释、函数等辅助信息,在所有的可显示的文字信息可以分为两种,一种是带有链接信息的,一种是没有带有链接信息的。在源文件中发现例如<ahref=http://mp3.baidu.com/>mp3</a>格式的代码或类似代码,说明mp3本身是带有链接信息的,并且链接的地址是http://mp3.baidu.com/。通常比较容易的识别标志是<a href=链接地址></a>,在HTML或XML(eXtensible MarkupLanguage)语言中<a href=链接地址></a>表示链接结构。对于一些其它的结构,如<p>...</p>等,则不具有链接结构。在本发明中,将为存在链接结构的能够关键字匹配的文字信息增加新的链接结构指向辅助信息,或为不存在链接结构但是能和关键字匹配的结构增加新的链接结构以指向辅助信息。在HTML或XML(eXtensible Markup Language)这种互联网这种最基本的网页语言中,却只有这一种链接结构,而且也只有一种激活方式,即通过鼠标点击这一种激活方式。对于现有的互联网的越来越复杂的应用则必须产生一些新的链接结构以及新的激活方式。为了专利的完整性,在加入辅助链接的时候则使用了一些新的链接结构和激活方式。例如,在旧网页810中,存在这样一个链接结构:
<a href=http://A.html>2008年8月8日将在北京举办第29届奥运会开幕式</a>
如果在关键字匹配模块150中存在关键字“2008”“北京”“奥运会”等关键字信息以及关键字对应的辅助信息的地址分别为http://2008.html、http://beijing.html、http://Olympicgames.html,关键字匹配模块在这里(图8)的功能和图1到图6按照辅助信息的地址取回辅助信息不同,这里关键字匹配模块还要负责将辅助信息的地址加入到旧网页被匹配上的位置中,形成新网页820。匹配的方法有以下几种:
1、使用带优先级的链接结构,采用和原有优先级不同的标志字符,例如,原有的标志字符是<a></a>,则可以增加新的优先级标志字符<b></b>、<c></c>等,可以定义a的优先级大于b,b的优先级大于c。根据上面的例子,可以定义“北京”和“奥运会”的优先级为b,“2008”的优先级为c,则得到以下的新网页源文件内容:
<a href=http://A.html><c href=http://2008.html>2008</c>年8月8日将在<bhref=http://beijing.html>北京</b>举办第29届<bhref=http://Olympicgames.html>奥运会</b>开幕式</a>
当新网页820发送到客户端110后,可以采用不同的下划线方式或不同的彩色文字或不同字体的方式来显示不同优先级的链接结构,例如,无色代表优先级最高、红色次之、黄色的优先级比红色低等。用户可以通过以下方式激活存在的辅助信息的链接:(1)鼠标在文字上则取回并显示网页所带的辅助信息;(2)鼠标在代用辅助信息链接的文字上做规定动作,如转圈画圆等;(3)鼠标点击带有链接结构的网页条目,在打开时候,同时取回辅助信息并显示;(4)浏览器识别优先级自动或按照时间取回并显示辅助信息。用户可以通过以下方式来显示取回的辅助信息:(1)打开一个新的网页,即执行新的浏览器线程或进程,来显示取回的辅助信息;(2)在原有的网页中通过内部程序调用或执行JavaScript等脚本语言或执行ActiveX控件或调用浏览器插件来显示取回的辅助信息;(3)在浏览器外部通过调用系统API或系统设备或新的软硬件程序来显示取回的辅助信息的方法。
2、使用链接结构嵌套表达方式,在浏览器解析网页链接结构的时候,识别出链接结构内部嵌套的链接结构,采用有条件的方式打开这些链接的辅助信息。需要注意的是这也是本发明的一部分,因为在原有的链接结构中,并不支持这种嵌套的表达方式。在这种情况下,新网页的源文件内容为:
<a href=http://A.html><a href=http://2008.html>2008</a>年8月8日将在<ahref=http://beijing.html>北京</a>举办第29届<ahref=http://Olympicgames.html>奥运会</a>开幕式</a>
当新网页820发送到客户端110后,可以采用不同的下划线方式或不同的彩色文字或不同字体的方式来显示不同嵌套级别的链接结构,例如,蓝色下划线代表最外层嵌套、红色下划线表示内层嵌套等等,这需要浏览器对多层嵌套功能的支持。用户可以通过以下方式激活存在的辅助信息的链接:(1)鼠标在文字上则取回并显示网页所带的辅助信息;(2)鼠标在代用辅助信息链接的文字上做规定动作,如转圈画圆等;(3)鼠标点击带有辅助信息链接的文字;(4)浏览器识别嵌套层次自动或按照时间取回并显示辅助信息。用户可以通过以下方式来显示取回的辅助信息:(1)打开一个新的网页,即执行新的浏览器线程或进程,来显示取回的辅助信息;(2)在原有的网页中通过内部程序调用或执行JavaScript等脚本语言或执行ActiveX控件或调用浏览器插件来显示取回的辅助信息;(3)在浏览器外部通过调用系统API或系统设备或新的软硬件程序来显示取回的辅助信息的方法。
3、在原有的网页结构中增加新的逻辑控制语句,即在语义中取回辅助信息的语法,这中语法结构类似“如果条件A成立,则执行B操作”,表现在C语言中为“if(A);B;”,也可以表示为“当条件A成立时,才执行B操作”,表现在C语言中为“while(A)B”。这些带有语义的语法结构对于网页的灵活应有具有很好的作用。因为语法结构千变万化,因此在本专利中不可能穷尽所有新的语义表达方式。但是在网页中加入以上(但不限于以上)语义时,均在本专利的保护范围之内。在传统的方法中一般是通过比较复杂的JavaScript语言来看程序逻辑进行控制的。对于上面的例子可以表述为:
    <if><a href=http://A.html>2008年8月8日将在北京举办第29届奥运会
开幕式</a>
    {
    <a href=http://2008.html>
    <a href=http://beijing.html>
    <a href=http://Olympicgames.html>
    }
    </if>
    或
    <while><a href=http://A.html>2008年8月8日将在北京举办第29届奥运
会开幕式</a>
    {
     <a href=http://2008.html>
     <a href=http://beijing.html>
     <a href=http://Olympicgames.html>
     }
     </while>
这里还可以把用户的操作也规定到网页里面,例如用户有点击(click)、鼠标移动到链接上(mouse on)等,这样上述代码可以修改为:
    <while>(<a href=http://A.html>2008年8月8日将在北京举办第29届奥运
会开幕式</a>==click)
    {
    <a href=http://2008.html>
    <a href=http://beij ing.html>
    <a href=http://Olympicgames.html>
    }
    </while>
对于网页的控制当然也可以诸如程序创建(create)、框架创建等各种程序动作为发生。
这种在网页内部嵌入逻辑控制语句的方法将为网页带来更多复杂的应用。这也会对网页文件解析器(如IE、Mozilla等)提出更高的要求,并且会使网页的结构变得更加复杂。但确确实实给用户带来很多不一样的网页浏览感受。
需要注意的是在网页中加入逻辑控制语句的方法是一种区别现有网页表达的技术,可能会有多种多样的嵌入方式以及各种各样的嵌入表达,例如,可能会出现多种控制关键字(前面只列举了if、while等少量关键字),可能会有多种的语言单位的标记(例如,语言结束标记,分割语言罗的标记等),可能会在不同的位置插入控制关键字。所有以上的变化均是在本发明的所考虑的范围之内,也均在本发明的保护范围之中。本发明中的控制关键字和语义逻辑的分割都可以参考C语言或其它程序语言的控制关键字和语义划分的方法。对于加入了程序控制结构的网页,需要专门的编译器,可以采用类似C语言的编译器,整个编译文件,也可以采用Matlab的对M语言的编译器,对语言采用逐行编译的方法。
除了可以在网页文件中加入语言控制逻辑结构,也可以在网页文件对应的描述文件(例如本发明中的功能描述文件)中使用。但是使用的语法结构、关键字种类、语义逻辑划分等都和把控制逻辑直接加入网页文件的方法类似。
4、形成新的辅助信息描述文件,即采用内容和控制分离的方法来实现对网页的控制。以前由于网页内容十分简单,因此一些小的控制直接可以在网页内部完成,采用VBScript、JavaScript、Perl等脚本语言来控制网页内的对象。随着网页功能越来越复杂还将控制和内容放在一起已经不是很好的选择了。还有一些做法是利用Java等语言的远程调用来实现一些功能,但是这也给使用和程序处理带来了很大难度。随着DOM(Document Object Model,文件目标模型)技术和Ajax(Asynchronous JavaScript and XML)等新技术的出现和发展,使网页的脚本HTML变的越来越复杂。本发明为网页引入了一种新的文件格式,描述文件(profile),以辅助信息描述文件为例,如果通过对网页进行处理生成辅助信息描述文件,则可以很好地支持包括取回和播放辅助信息等功能。需要指出的是,辅助信息描述文件实际上是功能描述文件的一种。描述文件通常和网页是一一对应的,在一些特殊情况,如为不同的用户使用不同描述文件的时候,描述文件和网页的关系也可以是多个描述文件对应同一个网页。为了能很好的生成功能描述文件,生成和功能描述文件对应的内容描述文件往往也变得必不可少。这种概念和Web 3.0,即基于语义(semantic)的Web,有很大的相似之处,也是对其的补充和发展。
对于语义的描述可以生成内容描述文件,生成的方法可以如下:
构建一个带有矢量语义的关键字数据库,如,可口可乐>饮料>食物等,对于每一个关键字,都可以存在一个这样的矢量语义指向这个关键字,这种做法类似于搜索引擎对搜索关键字分类的处理方法,这搜索引擎包含google、百度等。构建好这样一个矢量语义的数据库以后,在对网页进行分析,用过现有的DOM技术或类似技术,把网页解析为一棵对象树,然后再把这棵对象树下面的节点对应到所述关键字数据库上,通过这种对应可以建立一个这样的文件,包含网页中每一个对象数据,以及所述对象数据调用句柄或对象ID,以及对应的有关关键字描述。这个文件就叫做内容描述文件,该文件还可以包含一些关于本网页的基本内容,如URL、时间信息等。
分析网页并把网页元素对象化的方法除了DOM方法之外,还有很多。在本专利中只要能够将网页中显示的文字信息抽取出来并对象化就可以了。对于其它多媒体信息(例如:视频、声音、图像等)对象化方法以及加入逻辑控制的方法和文字相同。以上1-4方法都适用于视频、声音、图像等。例如,对于3方法中的例子:
    <if><a href=http://A.html>2008年8月8日将在北京举办第29届奥运会
开幕式</a>
    {
    <a href=http://2008.html>
    <a href=http://beijng.html>
    <a href=http://Olympicgames.html>
    }
    </if>
如果A.html被替换成了A.mp3(一种语音压缩格式),或2008.html被替换成2008.jpg,方法3同样使用,该例子可重写为:
    <if><a href=http://A.mp3>2008年8月8日将在北京举办第29届奥运会开
幕式</a>
    {
    <a href=http://2008.jpg>
    <a href=http://beijing.html>
    <a href=http://Olympicgames.html>
    }
    </if>
由此可见,本发明对网页源文件中控制或编辑的对象以及辅助信息的内容,均包含所有媒体可是,例如,视频、音频、图像、文字等。
如图9所示,为分析网页内容并形成一棵树的示意图。现有技术通常通过DOM来分析网页并生成一棵树。DOM通过解析HTML或XML文档,为XML文档在逻辑上建立一个树模型,树的节点是一个个的对象。这样通过操作这棵树和这些对象就可以完成对HTML或XML文档的操作,为处理文档的所有方面提供了一个很好的概念性框架。也为后来生成内容描述文件和/或功能描述文件做了前期准备。
如下HTML文档:
<html>
<head>
<title>题目A</title>
</head>
<body>
   <a href=”http://...”>链接A</a>
   <a href=”http://...”>链接B</a>
   <tr>
     <td>
       <p>内容A</p>
    </td>
    <td>
       <p>内容B</p>
    </td>
    <td>
       <p>内容C</p>
    </td>
</tr>
    <p>内容D</p>
   </body>
</html>
DOM的结构表示如图9所示。每一个HTML文档都可以变成这样的一棵树。而且为了便于控制,每一个元素节点可以分配一个ID或一个名称,这样便于在进一步处理时调用元素本身。910为HTML文档,根元素就是<html>,这样一步一步就形成了图9的样子。
由于DOM“一切都是节点(everything-is-a-node)”,树的每个文档(Document)、元素(Element)、文本(Text)、属性(Attr)和注释(Comment)都是DOM节点(Node)。常见的基本节点类型:文档、元素、属性、文本和注释
XML中共有12种节点类型,其中最常见的节点类型有5种:
元素:元素是XML的基本组成单元,描述XML的基本信息,在图9中有根元素920、头元素930、文件体元素940、题目元素950、链接元素960、标题元素970、表格元素980、表格项元素986、正文元素987。
属性:属性节点包含关于元素节点的信息,通常包含在元素里面,描述元素的属性,图9中有962超链接属性和985表格属性。
文本:包含许多文本信息或者只是空白,图9中有951、961、962、971、981、982、983、984都是文本。并且为了方便表示,把所有的文本标记在900文本框内,这样做也可以方便关键字匹配模块整体进行处理。
文档:文档节点是整个文档中所有其它节点的父节点。
注释:注释是对相关的信息进行描述、注释。
为能方便快捷地控制各个元素(节点),为每一个元素节点都可以分配一个ID号或一个名字,这样就不用在操作的时候遍历整棵树了,也为以后生成内容描述文件或功能描述文件带来了便利。
图10为发明中被动式生成内容描述文件和功能描述文件示意图,就使用不同的ID号来表示不同的元素,如,题目元素950用ID1来表示,由于对应不同的文本961和962,链接元素960用ID2、ID3表示,标题元素970用ID4表示,同理三个正文元素987对应三个不同的文本,用ID5、ID6、ID7表示,最后一个正文元素987用ID8表示。用900表示从网页文件中抽象出来的所有文本内容,把这些文本内容输入到关键字匹配模块中150中,生成所述网页(HTML文件)的内容描述文件1000。这里的关键字匹配模块,虽然也会维护一个关键字数据库,但是不一定同时具有辅助信息的链接地址。这样生成的内容描述文件1000里面可能只包含一些关键字信息和网页基本信息。内容描述文件1000包含以下几部分中至少一部分:
1、指定网页元素的ID号或名称,方便再次处理或在用户端调用各种元素,这要求在解析网页的时候要采用统一的方法来对网页元素编号,分配统一的ID或一致的名称;
2、ID或名称对应的关键字,如,ID1对应关键字“北京”,ID2对应关键字“奥运”等;
3、网页的基本信息,比如网页的地址http://...,网页创建时间,网页适合对象,网页发布的信息类型,以及一些网页的meta date等。这些信息对用户了解网页信息非常有用,也可以方便对网页进行再次处理。基本信息中网页适合对象(该信息也可以放入功能描述文件,但是多数时候是放在内容描述文件中),为了有针对的投放用户或者限制某些用户浏览该网页。例如,并不是所有网页都适合儿童观看,在一些网页的内容描述文件中加入网页用户的信息或限制信息,可以防止一些网络不健康信息四处传播。这样也可以为网页寻找到更适合的浏览人群。这需要浏览器能够确定用户身份,如果以后每个人都有自己的浏览器,则这种身份确定将变为可能。如图12所示,内容描述文件1000中含有网页适合对象,标明了该网页适合年龄超过16周岁的用户,当个性化客户端需要主动获取该网页内容的时候,有以下几种方式进行判断该网页是否适合该用户:
1、用户获得内容描述文件,发现网页适合对象为16岁以上,个性化客户端111发现自己的用户信息不满足以上条件,则停止网页的请求过程;
2、用户获取内容描述文件的限制信息,比如大于16周岁,个性化客户端111发现自己的用户信息不满足以上条件,则停止网页请求过程;
3、个性化客户端111向网站首先发送用户信息或加密的用户信息,网站发现个性化客户端111的用户信息中年龄为10岁和用户所请求网页的内容描述文件中的网页适合对象条件不相满足,则停止网页的请求过程。
当然关键字匹配模块,也可以包含辅助信息的链接地址,并且还可以为网页(HTML或XML文件)定义一些操作逻辑,增加网页自身的功能。这样就可以生成功能描述文件2000。这一个过程也可以先生成内容描述文件1000,然后再通过其它功能模块处理内容描述文件1000,以生成功能描述文件2000。
功能描述文件通常包含以下几部分中至少一部分:
1、指定网页元素的ID号或名称,方便再次处理或在用户端调用各种元素,这要求在解析网页的时候要采用统一的方法来对网页元素编号,分配统一的ID或一致的名称;
2、网页的基本信息,比如网页的地址http://...,网页创建时间,网页适合对象,网页发布的信息类型,以及一些网页的meta date等等。这些信息对用户了解网页信息非常有用,也可以方便对网页进行再次处理。
3、操作逻辑,即用户(客户端)在使用并浏览网页时,会主动或被动的执行这些操作逻辑。所述主动执行是指,不需要用户操作,自动按照操作逻辑执行某些具体的程序动作,如,打开/播放/关闭辅助信息、打开/关闭新的网页、增加/删除网页中的对象等;所述被动执行是指,需要用户操作,并通过用户的操作采用激活并执行的操作逻辑,如,用户在移动鼠标、或点击网页时的一些操作逻辑,这些操作逻辑也包括打开/播放/关闭辅助信息、打开/关闭新的网页、增加/删除网页中的对象等。如图10中的功能描述文件2000中的记录“ID1:http://beijing.html:click:new window”,表示ID号为ID1的元素(题目元素)在被点击(click)之后,链接到“http://beijing.html”,并把获得的网页在新的窗口(new window)内打开;同样,记录“ID4:http://pingpang.jpg:create:beside”,表示ID号为ID4的元素在被创建“create”以后,就链接到“http://pingpang.jpg”,并把获得的文件在原来网页的两边空白处进行播放;同样,记录“ID5:http://bootball.swf:mouse on:new layer”,表示当鼠标运动到ID号为ID5的元素之上时,就取回“http://bootball.swf”,并在创建的新层中进行播放。操作逻辑可以多种多样,有时候可以根据实际需要采用更为复杂的操作逻辑,这也需要更好的功能描述文件解析器的支持。例如,根据一些复杂的操作逻辑,可能存在条件逻辑、并发逻辑、选择逻辑等高级语言中的逻辑,这个时候可以采用类似高级语言的方法在功能描述文件2000中加入if(then)语句、while语句、switch语句、for语句等比较复杂的逻辑控制结构,操作逻辑描述也可以使用现有的计算机编程语言,例如C、C++、Java、C#或任何一种脚本语言。。
在图10中存在的两种新的文件结构,内容描述文件1000和功能描述文件2000,都是为了更好的发挥网页功能而设计的。内容描述文件1000的主要作用在于从语义(semantic)的层面上了解网页的内容,而现有的HTML或XML文件多数是基于语法的结构来描述网页的,也就是说现有的HTML或XML文件只能告诉浏览器怎么把文件显示出来,以及文件内部的关系,而不能表示现有的HTML或XML文件里面到底都是些什么内容,或大概是些什么内容。有了这样一个基于语义的描述文件,就可以很方便的对海量的网页数据进行复杂的分类和处理了。而功能描述文件2000的主要作用则是描述网页在被用户(客户端)使用的时候的一些主动或被动的操作逻辑,即为用户定制的一些动作和功能的描述,例如,功能描述文件可以很好的完成为用户提供辅助信息的功能,但决不限于此功能。用户可以通过随意点击网页上“天气”两个字而获得今天的天气情况,用户可以通过功能描述文件将不认识的单词发送给更专业的网页进行翻译,用户可以把网页和本地的一些应用程序关联起来,一同完成一些复杂的功能,这些在以往看来非常麻烦的工作,通过功能描述文件可以很容易的进行解决和完成。
对于内容描述文件和功能描述文件的编码格式可以采用纯文本的字符方式、也可以采用二进制格式。在内容描述文件和功能描述文件传输的过程中可以采用加密或不加密的方式。
如图11所示,为被动式的生成和使用功能描述文件的系统示意图,服务端170包含网页文件4000、处理模块3000、由处理模块3000生成的内容描述文件1000以及由处理模块3000生成功能描述文件。网页文件4000包含所有的类HTML或XML的脚本文件,首先网页文件被送到处理模块3000,处理模块是一个抽象的模块感念,包含关键字匹配模块等多种模块概念,其功能就是处理网页文件,生成功能描述文件2000或内容描述文件1000。这里内容描述文件通常是不直接发给网页的最终浏览用户即客户端的,而只是作为一种对所述网页文件进行处理的一种中间文件,一般存储在网站。通常情况下,只将网页文件4000和功能描述文件2000发送到客户端,即用户。客户端的处理流程是这样的,客户端获取网页文件和网页对应的功能描述文件(可以同时获得或有顺序获得),客户端通过网页浏览模块解析并打开网页,这个时候也会通过功能描述文件解析器解析所述的功能描述文件,然后通过浏览器或外部程序来执行功能文件中的操作逻辑,也可以通过感知用户的动作来激活各种操作逻辑,例如,伴随用户点击的动作可能激活了关于点击对象的ID对应的取回某个广告信息的操作逻辑。功能描述文件可以由处理模块3000直接生成,也可以先由处理模块生成内容描述文件1000,然后处理模块在处理内容描述文件1000,最后生成功能描述文件2000。在客户端110,包含有网页浏览模块120和功能描述文件解析器2100,所述网页浏览模块120可以解析并显示网页文件4000,所述功能描述文件解析器2100可以解析功能描述文件,并配合网页浏览模块一起完成在功能描述文件中预定义的操作逻辑。这里功能描述文件解析器2100可以是一个单独的软件或是一个浏览器中的插件,功能文件解析器是一个抽象的能够解析功能描述文件的模块,可以是目前通用浏览器的软件功能升级,也可以是一个新的软件模块。
这里的功能描述文件可以采用类似脚本文件(如,JavaScript、XML)的语言和控制结构,也可以采用类似的控制关键字。语言结构可以和在网页内直接插入逻辑控制语句类似,不同的是,这里不需要再写出网页元素的内容,而是用该元素的ID表示就可以了,这样会比较简单些。如:已知
<a href=http://A.html>2008年8月8日将在北京举办第29届奥运会开幕式</a>
元素的ID是790410
这在网页中直接插入逻辑控制语句的结构:
    <while>(<a href=http://A.html>2008年8月8日将在北京举办第29届奥运
会开幕式</a>==click)
    {
    <a href=http://2008.html>
    <a href=http://beijing.html>
    <a href=http://Olympicgames.html>
    }
    </while>
可以转化成功能描述文件中的内容为:
<while>(ID(790410)==click)
{
<a href=http://2008.html>
<a href=http://beijing.html>
<a href=http://Olympicgames.html>
}
</while>
需要注意的是在功能描述文件中的语言可能会有多种多样表达,例如,可能会出现多种控制关键字(前面只列举了if、while等少量关键字),可能会有多种的语言单位的标记(例如,语言结束标记,分割语言罗的标记等)。所有以上的变化均是在本发明的所考虑的范围之内,也均在本发明的保护范围之中。本发明中的控制关键字和语义逻辑的分割都可以参考C语言或其它程序语言的控制关键字和语义划分的方法。对于功能描述文件,需要专门的编译器-功能描述文件解析器,可以采用类似C语言的编译器,整个编译文件,也可以采用Matlab的对M语言的编译器,对语言采用逐行编译的方法。
由于使用了内容描述文件1000和功能描述文件2000,使得网站←→网站之间,以及网站←→个人←→网站之间,个人←→网站←→个人之间的数据自动交换成为了可能。网站与网站间或网站与用户是按如下方式完成对网页数据的协同处理的:
首先一定有一方(网站或用户)生成网页文件,并且生成网页对应的内容描述文件和/或功能描述文件,以下简称为生成方;一定还有一方(网站或用户)处理接收到的网页文件,以及和网页文件对应的内容描述文件和/或功能描述文件,以下简称为处理方。然后,处理方根据接收到功能描述文件中描述的操作逻辑来处理接收到的网页和/或网页对应的内容描述文件,处理的方法包括:修改数据、收集数据、生成报表、运算数据、分析数据、按要求转发数据等各种操作。
通过使用内容描述文件和功能描述文件,还可以衍生出大量的复杂应用。
以下列举几个典型的应用来加以说明:
例1,网站和网站之间通过内容描述文件来进行数据交换。例如像google这样的搜索引擎,明天需要用网络爬行机器人(crawler)搜索大量的复杂的网页进行分析,但是如果有了内容描述文件以后,可能只需要获得各个网页内容描述文件来进行分析就可以了。还有些时候不得不对一些网站的内容进行检索,如果检索并分析所有网页非常困难,则可以考虑分析网站中网页对应的内容描述文件,这样会变得非常轻松。在搜索一个网站时,可以为该网站建立一个网站树型索引,该树型索引按每个网页的URL层次关系建立,例如,www.baidu.com为根节点,www.baidu.com/mp3为根节点的一级子节点,而www.baidu.com/mp3/list为根节点的二级子节点。采用这种方式遍历所有网页的内容描述文件,就可以很快的搜索整个网站的内容了。
例2,用户在使用网站时,有时候也不得不处理一些网站数据,来加深对网站的理解,这时可以采用网页的功能描述文件来实现个人和多个网站之间的数据交换。可以通过功能描述文件定义网页中内容和其它网站的接口,把某一些特点的数据导入一些功能描述文件指定的网站,简单的例子是把一些特殊词汇直接导入大型的搜索或百科全书网站,例如,在网页中看见“白垩纪”,可以通过鼠标操作(例如拖动或点击),把“白垩纪”词条发送到维基百科网站(www.Wikipedia.com),然后自动取回“白垩纪”词条的意思并显示给用户。
如图12所示,为本发明中被动式通过设定网页适合对象来投放网页的示意图。网页描述文件(包括内容描述文件1000和功能描述文件2000)中都可以包含网页的基本信息,以网页的内容描述文件为例,网页的基本信息包括网页的链接地址、创建时间、保存时间、网页的信息类型(包括,网页内容分类,如:娱乐、体育等)、网页语言(如:中文、英文等)、网页采用的字体(如:GB2312等)、网页产生的地点(如:地区名称或公司名称)、网页投放地点(如:地区等)、网页适合对象(如:对网页使用对象的年龄、性别、情趣爱好等方面的要求)。当然内容描述文件还应该包含网页内元素的名称或ID,以及名称或ID对应的关键字信息。除了有网页描述文件还不能完成对网页的个性化投放,用户还需要一个个性化的客户端111。个性化客户端是一个包含用户信息的网页接收浏览设备。所述用户信息可以通过用户自己填写或个性化客户端通过其它方式自己收集,所述用户信息包括用户的身份信息(用户的姓名、地址、性别、年龄、邮件地址、身份ID等)、用户的兴趣爱好(例如,用户喜欢汽车、音乐、股票等)。个性化客户端不光可以判断一个网页是否适合该用户浏览,还有一个重要用途就是根据用户信息中的兴趣爱好为浏览器推送个性化的广告信息,也可以包括以下步骤:网站获得个性化客户端的资料(包含用户信息中的兴趣爱好),根据网站资源和用户的兴趣爱好做匹配,为用户推送个性化的信息(包含广告信息)。
网页适合对象的信息在现有的网页结构中也是一种空缺结构,因此这部分同样可以被放入在现有的网页结构(如HTML文件)中,一般放在网页的头部<head>或meta date中,这样用户个性化浏览器在解析HTML文件时,可以很快发现该网页是否适合该用户浏览。该网页的结构也在本专利保护范围之内。
本发明实施例所描述的技术可以用硬件、软件、或组合执行。如果用软件执行,则该技术可以直接指包含程序代码的计算机可读介质,该程序代码在对视频序列进行编码的设备中执行。在该种情况下,计算机可读介质可以包括RAM(Random Access Memory,随机存储器)、SDRAM(SynchronousDynamic RAM,同步动态随机存储器)、ROM(Read Only Memory,只读存储器)、NVRAM(non-volatile RAM非易失性随机存储器)、EEPROM(Electrically-Erasable Programmable Read-Only Memory,电可擦除只读存储器)、FLASH(闪存)等。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (14)

1.一种主动式的根据网页内容加入辅助信息的方法,其特征在于,包括以下步骤:
客户端接收来自网站的网页;
判断网页内容是否和关键字相匹配;如果发现所述网页内容和关键字相匹配,则取回关键字对应的辅助信息。
2.如权利要求1所述主动式的根据网页内容加入辅助信息的方法,其特征在于,所述关键字保存在关键字列表中,并且关键字和一个或多个辅助信息或辅助信息的地址相对应。
3.如权利要求1所述主动式的根据网页内容加入辅助信息的方法,其特征在于,所述网页内容获取的方法包括:
采用获取整个网页源代码的方法;
采用获取客户端正在显示部分的网页内容的方法;
采用获取鼠标附近内容的方法;
采用获取鼠标所点击对象的方法。
4.一种主动式的根据网页内容加入辅助信息的系统,其特征在于,包括客户端和服务端,
所述服务端,根据客户端的请求把存储的辅助信息发送到客户端;
所述客户端,与所述服务端连接,具体包括关键字匹配模块,用于判断是否存在关键字和网页内容相匹配,如果发现所述网页内容和关键字相匹配,则取回所述关键字对应的辅助信息。
5.一种被动式的为网页内容加入和关键字相关的辅助信息链接的方法,其特征在于,包括以下步骤:
打开网页源文件;
判断所述网页源文件内容是否和关键字相匹配;如果发现所述源文件内容中存在和关键字相匹配的字符或字符串,则在所述字符或字符串处加入和关键字对应的辅助信息的超链接;
把被加入了和关键字相关的辅助信息地址超链接的网页源文件发送到用户,并在用户端提取出所述的辅助信息。
6.如权利要求5所述为网页内容加入新关键字链接的方法,其特征在于,所述字符或字符串如果已经具有了超链接,则采用的方法包括:
超链接递归的方法,即在所述已经具有的超链接内再使用超链接,且标识符<a>不改变;
使用带有不同优先级的方法,即在所述已经具有的超链接内使用带有不同优先级的超链接;
修改超链接属性的方法,即在所述已经具有的超链接的链接标志内增加辅助信息超链接的内容。
7.一种为网页源文件中添加逻辑控制语句的方法,其特征在于,包括以下步骤:
打开网页源文件;
设定网页的逻辑结构,在网页源文件中加入逻辑控制语句,并把带有逻辑控制语句的网页发给用户;
用户端解析网页文件,并根逻辑控制语句的触发条件,执行逻辑控制语句中定义的操作。
8.一种被动式的为网页生成网页内容描述文件的方法,其特征在于,包括以下步骤:
获取网页内容源文件;
把网页内可以显示的文本内容和关键字列表进行匹配,如果匹配成功则在所述内容描述文件内保留所述匹配成功的关键字条目和网页内容的对应关系。
9.一种为网页选择或限制投放对象的方法,其特征在于,包括以下步骤:
在网页源文件中或网页的描述文件中加入网页适合对象信息;
用户在请求网页过程中,把用户本身的用户信息和所述网页适合对象信息进行比较,如果所述用户信息满足网页适合对象信息的要求,则将网页投放给用户,其中,所述网页描述文件包括网页的内容描述文件和功能描述文件中至少一种。
10.一种实现个性化网页浏览客户端的方法,其特征在于,包括以下步骤:
网页浏览器获得用户信息;
浏览器在浏览网页时,加载所述用户信息,并根据所述用户信息的内容和所述网页的服务端进行交互。
11.如权利要求10所述实现个性化网页浏览客户端的方法,其特征在于,所述网页服务端根据所述用户信息中的兴趣爱好向所述客户端推送广告信息。
12.一种被动式的生成网页功能描述文件的方法,其特征在于,包括以下步骤:
获得网页的源文件或网页的内容描述文件;
为相关的网页元素设置操作逻辑,并形成记录保存到功能描述文件中;
所述操作逻辑是所述网页元素在某种情况下,浏览器需要执行对应的操作。
13.一种被动式使用网页描述文件的系统,其特征在于,包括服务端和客户端,
所述服务端具体包括处理模块,用于处理网页文件,并在服务端内生成网页的内容描述文件和/或功能描述文件;
所述客户端具体包括网页浏览模块和功能文件解析器,
所述网页浏览模块,用于解析并浏览网页源文件;
所述功能描述文件解析器,用来解析功能描述文件,并且通过功能描述文件和网页浏览模块一起完成功能描述文件中定义的操作逻辑;
其中,所述操作逻辑是所述网页元素在某种情况下,浏览器需要执行对应的操作。
14.一种网站与网站或网站与用户的数据协同处理方法,其特征在于,包括以下步骤:
处理方接收到来自生成方的网页文件,以及网页文件对应的功能描述文件和/或内容描述文件;
处理方根据接收到功能描述文件中描述的操作逻辑来处理接收到的网页和/或网页对应的内容描述文件;
所述生成方为:生成网页文件,并且生成网页对应的内容描述文件和/或功能描述文件的一方;所述处理方为:处理接收到的网页文件,以及和网页文件对应的内容描述文件和/或功能描述文件的一方。
CN2007101185236A 2007-07-09 2007-07-09 一种应用网页语义的方法和系统 Active CN101154231B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007101185236A CN101154231B (zh) 2007-07-09 2007-07-09 一种应用网页语义的方法和系统
PCT/CN2008/071587 WO2009006844A1 (fr) 2007-07-09 2008-07-08 Procédé et système d'application d'un sémantème de page web

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101185236A CN101154231B (zh) 2007-07-09 2007-07-09 一种应用网页语义的方法和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2010102200837A Division CN101950289A (zh) 2007-07-09 2007-07-09 一种应用网页语义的方法和系统

Publications (2)

Publication Number Publication Date
CN101154231A true CN101154231A (zh) 2008-04-02
CN101154231B CN101154231B (zh) 2011-06-29

Family

ID=39255892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101185236A Active CN101154231B (zh) 2007-07-09 2007-07-09 一种应用网页语义的方法和系统

Country Status (2)

Country Link
CN (1) CN101154231B (zh)
WO (1) WO2009006844A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009006844A1 (fr) * 2007-07-09 2009-01-15 Zhiping Meng Procédé et système d'application d'un sémantème de page web
WO2009082934A1 (fr) * 2007-12-18 2009-07-09 Zhiping Meng Procédé de traitement vidéo et système associé
WO2009137978A1 (zh) * 2008-05-14 2009-11-19 华为技术有限公司 一种呈现广告的方法、系统和装置
CN101827125A (zh) * 2010-03-31 2010-09-08 吉林大学 语义Web服务本体及其应用
CN102170469A (zh) * 2011-04-12 2011-08-31 北京黑米天成科技有限公司 一种基于web访客唯一性的电话效果监测方法
CN102460493A (zh) * 2009-04-06 2012-05-16 凯帝珂公司 媒体计划生成方法和设备
CN102598039A (zh) * 2009-11-03 2012-07-18 雅虎公司 多模式在线广告和在线广告交换
CN102663291A (zh) * 2012-03-23 2012-09-12 奇智软件(北京)有限公司 邮件的信息提示方法及装置
CN102722573A (zh) * 2012-06-04 2012-10-10 北京吉亚互联科技有限公司 识别用户来源并推送网页的方法和系统
CN102982135A (zh) * 2012-11-16 2013-03-20 北京百度网讯科技有限公司 一种用于提供呈现信息的方法和设备
CN103177610A (zh) * 2011-12-26 2013-06-26 邹仕洪 一种电子书阅读器及其系统
CN104239012A (zh) * 2013-06-17 2014-12-24 腾讯科技(深圳)有限公司 一种推送网页应用消息的方法和装置
CN104506426A (zh) * 2012-03-23 2015-04-08 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN105224316A (zh) * 2015-09-14 2016-01-06 北京蓝海讯通科技有限公司 一种Web应用程序中的脚本插入方法及装置
CN105653359A (zh) * 2014-11-28 2016-06-08 金蝶软件(中国)有限公司 生成操作说明书的方法和应用系统
CN105843910A (zh) * 2016-03-23 2016-08-10 网易(杭州)网络有限公司 一种电子书内容搜索方法和装置
CN106850572A (zh) * 2016-12-29 2017-06-13 网宿科技股份有限公司 目标资源的访问方法和装置
CN107403333A (zh) * 2009-09-08 2017-11-28 启创互联公司 使用消费者提供的上下文同步消息传送
WO2018072513A1 (zh) * 2016-10-20 2018-04-26 苏州跃盟信息科技有限公司 一种广告信息推送方法、装置以及系统、服务器、计算机可读介质
CN108664535A (zh) * 2017-04-01 2018-10-16 北京京东尚科信息技术有限公司 信息输出方法和装置
CN111428177A (zh) * 2014-05-14 2020-07-17 网页云股份有限公司 用于web内容生成的方法和系统
CN111753240A (zh) * 2020-06-30 2020-10-09 上海二三四五网络科技有限公司 一种基于h5页面自动提供匹配信息的控制方法及装置
CN112989233A (zh) * 2019-12-02 2021-06-18 北京小米移动软件有限公司 文件下载方法、装置及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271822B (zh) * 2022-08-11 2023-08-11 北京创新乐知网络技术有限公司 一种推广信息投放方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117049A (ja) * 2000-10-05 2002-04-19 Fuji Xerox Co Ltd ウェブページ生成システム及びウェブページ生成方法
KR20040026167A (ko) * 2002-09-23 2004-03-30 인터내셔널 비지네스 머신즈 코포레이션 사용자가 입력한 유알엘 및/또는 검색어에 근거하여광고를 제공하는 방법 및 장치
CN1932811A (zh) * 2005-09-13 2007-03-21 中时网路科技股份有限公司 内容网站的文字中关联于关键词的链接的建立系统
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互系统
CN101154231B (zh) * 2007-07-09 2011-06-29 孟智平 一种应用网页语义的方法和系统

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009006844A1 (fr) * 2007-07-09 2009-01-15 Zhiping Meng Procédé et système d'application d'un sémantème de page web
WO2009082934A1 (fr) * 2007-12-18 2009-07-09 Zhiping Meng Procédé de traitement vidéo et système associé
CN101207807B (zh) * 2007-12-18 2013-01-02 孟智平 一种处理视频的方法及其系统
WO2009137978A1 (zh) * 2008-05-14 2009-11-19 华为技术有限公司 一种呈现广告的方法、系统和装置
CN101582911B (zh) * 2008-05-14 2014-12-03 华为技术有限公司 一种呈现广告的方法、系统和装置
CN102460493A (zh) * 2009-04-06 2012-05-16 凯帝珂公司 媒体计划生成方法和设备
CN107403333A (zh) * 2009-09-08 2017-11-28 启创互联公司 使用消费者提供的上下文同步消息传送
CN102598039A (zh) * 2009-11-03 2012-07-18 雅虎公司 多模式在线广告和在线广告交换
CN101827125A (zh) * 2010-03-31 2010-09-08 吉林大学 语义Web服务本体及其应用
CN101827125B (zh) * 2010-03-31 2013-04-10 吉林大学 语义Web服务本体及其应用
CN102170469A (zh) * 2011-04-12 2011-08-31 北京黑米天成科技有限公司 一种基于web访客唯一性的电话效果监测方法
CN102170469B (zh) * 2011-04-12 2017-02-22 百度时代网络技术(北京)有限公司 一种基于web访客唯一性的电话效果监测方法
CN103177610A (zh) * 2011-12-26 2013-06-26 邹仕洪 一种电子书阅读器及其系统
CN102663291A (zh) * 2012-03-23 2012-09-12 奇智软件(北京)有限公司 邮件的信息提示方法及装置
CN104506426A (zh) * 2012-03-23 2015-04-08 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN104506426B (zh) * 2012-03-23 2019-03-01 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN102722573A (zh) * 2012-06-04 2012-10-10 北京吉亚互联科技有限公司 识别用户来源并推送网页的方法和系统
CN102982135A (zh) * 2012-11-16 2013-03-20 北京百度网讯科技有限公司 一种用于提供呈现信息的方法和设备
CN104239012A (zh) * 2013-06-17 2014-12-24 腾讯科技(深圳)有限公司 一种推送网页应用消息的方法和装置
CN111428177A (zh) * 2014-05-14 2020-07-17 网页云股份有限公司 用于web内容生成的方法和系统
CN105653359B (zh) * 2014-11-28 2020-06-09 金蝶软件(中国)有限公司 生成操作说明书的方法和应用系统
CN105653359A (zh) * 2014-11-28 2016-06-08 金蝶软件(中国)有限公司 生成操作说明书的方法和应用系统
CN105224316A (zh) * 2015-09-14 2016-01-06 北京蓝海讯通科技有限公司 一种Web应用程序中的脚本插入方法及装置
CN105843910A (zh) * 2016-03-23 2016-08-10 网易(杭州)网络有限公司 一种电子书内容搜索方法和装置
WO2018072513A1 (zh) * 2016-10-20 2018-04-26 苏州跃盟信息科技有限公司 一种广告信息推送方法、装置以及系统、服务器、计算机可读介质
CN106850572A (zh) * 2016-12-29 2017-06-13 网宿科技股份有限公司 目标资源的访问方法和装置
CN108664535A (zh) * 2017-04-01 2018-10-16 北京京东尚科信息技术有限公司 信息输出方法和装置
CN112989233A (zh) * 2019-12-02 2021-06-18 北京小米移动软件有限公司 文件下载方法、装置及存储介质
CN111753240A (zh) * 2020-06-30 2020-10-09 上海二三四五网络科技有限公司 一种基于h5页面自动提供匹配信息的控制方法及装置

Also Published As

Publication number Publication date
CN101154231B (zh) 2011-06-29
WO2009006844A1 (fr) 2009-01-15

Similar Documents

Publication Publication Date Title
CN101154231B (zh) 一种应用网页语义的方法和系统
CN103443786B (zh) 识别网络浏览器中的并行布局的独立任务的机器学习方法
US9626158B1 (en) Dynamic availability-based integration of external functionality
CN100476830C (zh) 一种网络资源检索方法及系统
US8862579B2 (en) Search and search optimization using a pattern of a location identifier
CN104866512B (zh) 提取网页内容的方法、装置及系统
US8108423B2 (en) System and method for ontology and rules based segmentation engine for networked content delivery
US20160170979A9 (en) Method and System to Generate and Deliver Auto-Assembled Presentations Based on Queries of Multimedia Collections
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN101950289A (zh) 一种应用网页语义的方法和系统
CN105074700A (zh) 产生含有到应用程序的状态链接的搜索结果
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN106575166A (zh) 手写输入字符的处理、数据拆分和合并及编解码处理方法
CN104412265A (zh) 更新用于促进应用搜索的搜索索引
CN102054004A (zh) 一种网页推荐方法和装置
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN101114284B (zh) 一种显示网页内容相关信息的方法及系统
KR100861599B1 (ko) Rss 뉴스를 이용한 개인 미디어 서비스 방법 및 시스템
Ermalai et al. Building a module for inserting microformats into Moodle
Han et al. An automatic web news article contents extraction system based on RSS feeds
Papy et al. Digital Libraries and Innovation
Castellano et al. A web text mining flexible architecture
Fung et al. Discover information and knowledge from websites using an integrated summarization and visualization framework
Bauer et al. Enhance teleteaching videos with semantic technologies
KR100979790B1 (ko) 동영상 알에스에스 피드 플레이어 및 그 실행 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant