CN1702654B - 计算显示页面中块的重要度的方法和系统 - Google Patents

计算显示页面中块的重要度的方法和系统 Download PDF

Info

Publication number
CN1702654B
CN1702654B CN2005100817511A CN200510081751A CN1702654B CN 1702654 B CN1702654 B CN 1702654B CN 2005100817511 A CN2005100817511 A CN 2005100817511A CN 200510081751 A CN200510081751 A CN 200510081751A CN 1702654 B CN1702654 B CN 1702654B
Authority
CN
China
Prior art keywords
piece
webpage
importance
importance degree
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005100817511A
Other languages
English (en)
Other versions
CN1702654A (zh
Inventor
H·刘
文继荣
R·宋
马维英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1702654A publication Critical patent/CN1702654A/zh
Application granted granted Critical
Publication of CN1702654B publication Critical patent/CN1702654B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J39/00Heat-insulated warming chambers; Cupboards with heating arrangements for warming kitchen utensils
    • A47J39/02Dish-warmers; Devices to keep food hot
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J36/00Parts, details or accessories of cooking-vessels
    • A47J36/24Warming devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种用于确定显示页面的信息区域的重要度的方法和系统。一种确定网页中信息区域或块的重要度的系统。网页块表示看起来涉及相似主题的网页区域。该重要度系统将块的特性或特征提供给重要度函数,该函数生成该块对于其网页的重要度的指示。该重要度系统通过生成基于块的特征和用户指定的这些块的重要度的模型“组合”该重要度函数。为获得该重要度函数,该重要度系统要求用户提供网页集合中各网页的块的重要度指示。

Description

计算显示页面中块的重要度的方法和系统
技术领域
这里描述的技术通常涉及识别显示页面中、代表显示页面的重要主题的信息块的技术。
背景技术
提供诸如Google和Overture的许多搜索引擎服务器,其用于经由网络搜索可获得的信息。这些搜索引擎服务器允许用户搜索他感兴趣的显示页面,例如,网页。用户提交一个包括搜索条目的搜索请求后,搜索引擎服务器识别可能与那些搜索条目相关的网页。为了快速识别相关网页,搜索引擎服务器可以保持将关键词映射到网页。这个映射可以通过“爬行”该网络(例如,万维网)生成,以识别每个网页的关键词。为了爬行该网络,搜索引擎服务器可以使用根网页的一个列表来识别经由那些根网页可以访问的所有网页。使用各种已知的信息检索技术可以识别任何特殊网页的关键词,例如,识别标题行的词,在网页的数据元里提供的词,突出显示的词等等。然后基于每次匹配的受欢迎的网页等的接近度、网页通俗性(例如Google的PageRank)等等,搜索引擎服务器将搜索结果的网页进行排序。搜索引擎服务器也可以生成一个相关的分数以指示网页信息与搜索要求相关程度。然后搜索引擎服务器基于它们的等级按顺序向用户显示到那些网页的链接。
搜索结果网页是否对用户有意义的很大部分取决于搜索引擎服务识别的表示网页主题的关键字的程度。因为网页可以包含许多不同的信息类型,  可能难以辨别该网页的主题。例如,许多网页包含与网页主题无关的广告。一个新网点的网页可以包含关于国际政治事件的文章,还可以包含“干扰信息”,比如大众饮食广告,有关法律告示的区域,和导航条。传统上,搜索引擎服务很难识别网页的干扰信息以及什么信息与网页的主题有关。结果,搜索引擎服务可能选择基于干扰信息的关键字,而不是该网页的主题。例如,搜索引擎服务可能将包含饮食广告的网页匹配到关键字″餐饮″,即使该网页的主题与国际政治事件有关。然后当用户提交包括搜索词″餐饮″的搜索请求时,该搜索引擎服务可能返回该包含餐饮广告的网页,  该网页对用户是没有意义的。
希望有一种技术可以计算网页的不同信息区对该该网页主题的重要度。
发明内容
重要度系统识别显示页面信息区的重要度。该重要度系统识别表示网页区域的网页信息区或块,而该网页看起来与相似的主题有关。在识别这个网页的信息块以后,该重要度系统将该块的特征或特性提供给重要度函数,该重要度函数对其网页产生重要度的指示。该重要度系统可以通过产生基于该块特征的模型和用户指定的那些块的重要度来获得该重要度函数。
附图说明
图1是说明在一个实施例中的重要度系统的组成结构图。
图2是说明在一个实施例中重要度系统的生成重要度函数组件的处理流程图。
图3是说明在一个实施例中重要度系统的生成特征向量组件的处理流程图。
图4是说明在一个实施例中重要度系统的一个计算块重要度组件的处理流程图。
图5是说明在一个实施例中一个使用获得的重要度函数的顺序搜索结果组件的处理流程图。
图6是说明在一个实施例中一个使用获得的重要度函数的扩展搜索结果组件的处理流程图。
图7是说明在一个实施例中一个使用获得的重要度函数的检索网页组件的处理流程图。
图8是说明在一个实施例中一个使用获得的重要度函数的分类网页组件的处理流程图。
具体实施方式
提供一种用于识别显示页面信息区的重要度的方法和系统。在一个实施例中,重要度系统识别网页的信息区或块。网页的块表示该网页的区域,该区域看来似乎与相似的主题有关。例如,网页的新闻可以表示一个块,而餐饮广告可以表示另一个块。在识别这个网页的块以后,该重要度系统将该块的特征或特性提供给重要度函数,该重要度函数产生一个该块对该网页的重要度的指示。该重要度系统通过产生一个基于块特性和用户指定的那些块的重要度的模型来“获得”该重要度函数。想要获得该重要度函数,该重要度系统要求用户提供该网页的块的重要度的指示,该网页是网页集合中的一个。例如,用户可以识别某一块对一个网页第一重要,而另一个用户可以识别该块对该网页第二重要。该重要度系统同时给每个块确定一个特征向量,每个特征向量可以表示该块不同的空间和内容特征。例如,空间特征可能是块的大小或位置,内容特征可能是块内部连接的数目或块内字的数目。然后该重要度系统获得一个重要度函数,基于用户指定的重要度和块特征向量。该函数输入块的特征向量并输出该块的重要度。该重要度系统可以试图获得特征函数,该特征函数最小化用户指定的该块的重要度和该重要度函数计算的重要度之间的平方差。这样,该重要度系统可以基于用户认为重要的块特征而识别与该网页的主题相关的网页块。
一旦获得该重要度函数,就可用于提高许多应用的准确度,其结果依靠对网页主题的识别。该搜索引擎服务可以使用该重要度函数计算对应搜索请求的搜索结果网页的相关性。获得搜索结果后,该搜索引擎服务可以使用该重要度函数识别各网页的最重要的块,并计算最重要的块(或一组重要块)对该搜索请求的相关性。因为这个相关性是以该网页最重要的块的信息为基础的,因此它可能是一个比基于网页全部信息的相关性更精确的相关性度量,前面的相关性可能包括干扰信息。
搜索引擎服务同时可以使用该重要度函数来识别与某一网页有关的网页。该搜索引擎服务可以使用该重要度函数以识别该网页的最重要块,然后基于该识别块标准化搜索请求。该搜索引擎服务可以使用该标准化搜索请求执行搜索以识别与某一网页有关的网页。
搜索引擎服务也可以使用该重要度函数来分类网页。例如,网页可以基于它们的主题分类。该搜索引擎服务可以使用该重要度函数以识别网页的最重要块,并基于该识别块的文本分类该网页。
当网页的内容不能全部显示在显示设备上时,浏览器也可以使用该重要度函数以识别要显示的网页部分。例如,蜂窝式便携无线电话或个人数字助理等装置可能有很小的显示器,由于信息的数量、规模和复杂性,大部分网页不能适当地在其上显示。当内容很小不能被人们容易地看到时,网页就不是适当地显示。当使用这样的装置用于浏览网页时,该重要度函数可以用来识别网页的最重要块,并只在小显示器上显示该识别块。换句话说,基于重要度函数指出的该块的重要度,浏览器可以重新整理该网页块,突出显示该网页块,移动该网页块等等。
重要度系统可以识别网页的信息区,所述网页使用不同的分割方法,比如基于文件对象模型(DOM)的分割算法,基于位置的分割算法,基于视觉的分割算法等等。基于DOM的分割算法可以使用网页的超级文本标志语言层次,以识别它的不同块。基于位置的分割算法试图识别网页的区域,该网页可被认为是基于区域物理性质的组合。2003年7月28日提交的、题为“基于视觉的文件分割”的美国专利申请第10/628,766号所描述的一种基于视觉的分割算法文本在这里引入作为参考。那些基于视觉的分割算法以每个块的信息内容相关性为基础识别块。例如,餐饮广告可以表示单个块,因为它的内容指向单个主题,并由此具有高相关性。可以将一个包括许多不同主题的显示页面的区域分成许多不同的块。
该重要度系统可以使用不同的技术从表示该块的特征向量及用户指定的块的重要度获得重要度函数。例如,象下面更详细的描述一样,该重要度系统可以使用神经网络或支持向量机获得该重要度函数。另外,该重要度系统可以在表示该块的特征向量中使用该块的不同的空间和内容特征。例如,空间特征可以包括该块的中心位置和该块的尺寸,这些被提作“绝对空间特征”。这些绝对空间特征可以基于该网页的大小被标准化,其被提作“相对空间特征”,或者基于窗口的大小被标准化,其被提作“窗口空间特征”。该内容特征可以与该块的图像(如图像的数量和大小),块的连接(如连接和各连接中字的数目),块的文本(如块中的字数),块的用户交互(如输入范围的数量和大小),和块的形式(如数量和大小)相关。不同的内容特征也可以被标准化。例如,块的连接的数目可以被该网页的连接总数标准化,或者块中文本的字数可以被该网页的全部块中文本的总字数标准化。
在一个实施例中,重要度系统可以允许用户使用不连续或连续的权指定块的重要度。对于一个网页,较大的权表示网页的信息块的较高重要度。当使用不连续的权1-4时,权1可以表示干扰信息比如广告、版权标记、装饰等等。权2可以表示不特别与网页的主题有关的有用信息,如导航信息,目录信息等等。权3可以表示与网页的主题有关但不特别重要的信息,如相关主题,主题索引等等。权4可以指出网页的最主要的部分,比如标题行,主要内容等等。
附图1是说明一个实施中的重要度系统的组成结构图。该重要度系统可以包括组件101-105和数据存储111-114。该组件可以包括:一个识别块组件101,一个收集用户指定重要度组件102,一个生成重要度函数组件103,一个应用重要度函数组件104,和一个生成特征向量组件105。该数据存储可以包括:一个网页存储111,一个块存储112,一个用户指定重要度存储113,和一个重要度函数存储114。该网页存储可以包含许多用于生成或获得重要度函数的网页。该识别块组件识别网页存储中的各网页的块,并将各个块的识别存储在块存储中。收集用户指定重要度组件为用户显示页面存储中的各网页,突出显示网页的每个块,要求用户指定每个块的重要度,并将指定的重要度存储到用户指定重要度存储中。生成重要度函数组件使用生成特征向量组件以为块存储中每个块生成一个特征向量。该生成重要度函数于是获得一个重要度函数以模拟块的特征向量和用户指定的块的重要度。重要度函数存储可以包含信息,比如定义该所获得的重要度函数的系数和参数,其中该重要度函数是由生成重要度函数组件计算的。应用重要度函数组件传递网页的块,调用生成特征向量组件以生成该块的特征向量,并将该重要度函数应用到已生成的特征向量,用于生成该块的重要度的一个指示。
实施该重要度系统的计算机装置可以包括一个中央处理器、内存、输入设备(例如键盘和指点设备)、输出设备(例如显示设备)、和存储设备(例如磁盘驱动)。内存和存储设备是计算机可读介质,它可以包含实施该重要度系统的指令。另外,数据结构和消息结构可以通过数据传输介质存储或传输,比如通信链路上的一个信号。可以使用不同的通信链路,比如:国际互联网络、局域网、广域网、或点到点拨号连接。
附图1说明一个适当的操作环境的示例,在其中可以实施该重要度系统。该操作环境是适当操作环境的唯一示例,且不打算对重要度系统的使用范围或功能设限。其它的众所周知的适合使用的计算系统、环境、和配置,其包括:个人电脑、服务器电脑、手提或膝上计算机装置、多处理器系统、基于微处理器的系统、可编程用户电子设备、网络个人计算机、小型计算机、主计算机、包括任何上述系统或设备的分布式计算环境等等。
重要度系统可以在计算机可执行指令的通用环境中描述,例如程序模块,所述计算机可执行指令由一或多个计算机或其它设备执行。通常,程序模块包括执行特定的任务或实施特别的抽象数据类型的规则、程序、对象、组件、数据结构等等。典型来说,程序模块的功能可以在不同的实施例中随意地联合或分配。
在一个实施例中,重要度系统基于用户指定的许多网页的块的重要度,通过最小化一个最小二乘方目标函数获得一个块重要度函数。每个块可由一个特征向量和一对重要度(x,y)表示,其中x是块的特征向量,y是其重要度。网页集合的类特征向量和重要度的设置参照训练集T。该重要度系统试图获得一个重要度函数f,其最小化以下目标函数:
(x,y)∈T|f(x)-y|2                       (1)
该目标函数可以用分类技术求解,比如若y权不连续,可用支持向量机求解,也可以用回归方法求解,比如若y权连续,可用神经网络求解。
当重要度由连续实数表示时,重要度系统可以应用一个神经网络以获得最优的f*,该f*由最小化以下目标函数给出:
f * = arg min f Σ i = 1 m | | f ( x i ) - y i | | 2 - - - ( 2 )
其中m是训练集中块的数量。这是一个复合无参数回归方程问题,因为没有关于被估计的真实回归方程格式的在先知识。
一个神经网络模型有三个主要组件:体系结构、价权函数和搜索算法。体系结构定义将输入联系到输出的功能形式(依据网络拓扑,单元连接和活动功能)。在权空间中对一组最小化目标函数的权的搜索是训练过程。在一个实施例中,重要度系统使用放射基础函数(”RBF”)网络和标准梯度下降作为搜索技术。
该重要度系统构造一个具有三层的、每层有不同任务的RBF网络。输入层包括源节点(如传感单元),用于将网络连接到它的环境(如低级特征空间)。隐蔽层由输入空间转向隐蔽空间使用非线性变换。通常,隐蔽空间具有高维数。该隐蔽层有RBF神经元,这些神经元通过结合权重输入和偏差计算隐蔽层的输入。输出层是线性的并提供块重要度给出应用于输入层的低级块表示。
通过RBF网络获得的功能可以由下式表示:
f i ( x ) = Σ j = 1 h ω ij G i ( x ) - - - ( 3 )
其中i是训练集中的一个块,h是隐蔽层神经元的数目,
Figure S05181751120050715D000072
是权重,Gi是定义为如下的放射函数:
G i ( x ) = exp ( | | x - c i | | 2 σ i 2 ) - - - ( 4 )
其中ci是Gi的中心,σi是基函数宽度。k维空间映射可以表示如下:
x→f(x)=(f1(x),f2(x),...fk(x))           (5)
其中f=[f1,f2,...,fk ]是映射函数。
RBF神经网络从特征空间到块重要度近似该最佳回归函数。该重要度系统能使用训练集T中的训练实例{xi,yi}(i=1,...,m)离线训练该RBF神经网路。对于一个以前未处理的新的块,给定块的特征向量,该重要度系统可以使用回归函数f计算它的重要度。
当重要度由不连续的数表示时,该重要度系统应用支持向量机获得重要度函数。该支持向量机试图最小化结构风险,而不是试验风险。该支持向量机可以使用二元分级,该训练集按如下定义:
D = { x i , y i } i = 1 t - - - ( 6 )
其中D是训练集,t是训练实例数目,且yi∈{-1,1}。该重要度系统试图在无穷多的线性分类器中选择最小的一般错误,其中线性分类器分割数据。具有该特性的超平面在两种类型之间留下最大空白。该重要度函数可以由下式表示:
f ( x ) = sign ( Σ i = 1 t α i y i ⟨ x i , x ⟩ - b ) - - - ( 7 )
其中αi关联训练实例xi,  表示强度,点通过该强度嵌入最终函数,b是截距,亦称机器学习的偏差。这个表达式的性质是常常该点只有一个子集关联非零的αi。这些点被叫做支持矢量,而且是离分离超平面最近的点。非线性支持向量机将该输入变量映射到高维(经常是无限维)空间,并且在该空间中应用线性支持向量机。在计算上,通过使用一个(复制)内核程序可以实现此目的。该相应非线性决策函数表示如下:
f ( x ) = sign ( Σ i = 1 t α i y i K ⟨ x i , x ⟩ - b ) - - - ( 8 )
其中K是核心函数。一些典型的核心函数包括多项式核心、高斯RBF核心、和反曲核心。对于一个多类分类问题,该重要度系统可以应用一全反方案。
附图2是说明在一个实施例中,重要度系统的生成重要度函数组件的处理流程图。在块201中,该组件从网页存储中取回网页集合。在块202中,该组件识别取回的网页中的块,并将该块的指示存储到块存储中。在块203中,该组件为块收集用户指定的重要度数据。该组件可以显示每个网页及一个该网页的块的表示,并要求用户评价该网页的每个块的重要度。该组件将用户指定的重要度存储到用户指定重要度存储中。在块204中,该组件为每个块生成一个特征向量,并可以将该特征向量存储到块存储中。在块205中,该组件使用上述神经网络或支持向量机技术获得该重要度函数。
附图3是说明在一个实施例中的重要度系统的生成特征向量组件的处理流程图。  该组件传递网页的指示和该网页的块的指示,其重要度将被计算。在块301中。该组件识别该块的绝对空间特征。在块302中,该组件计算该块的窗口空间特征。该组件可以计算窗口空间特征,比如按照下式的y坐标的块中心:
BlockCenterY = BlockCenterY / ( 2 * HeaderHeight ) ; if BlockCenterY < HeaderHeight 0.5 ; if HeaderHeight < BlockCenter Y < PageHeight - FooterHeight 1 - ( PageHeight - BlockCenterY ) / ( 2 * FooterHeight ) ; otherwise - - - ( 9 )
其中HeaderHeight和FooterHeight是预定义的恒定值,该值与页面的页眉和页脚的高度有关。在块303中,该组件识别该块的内容特征。在块304中,该组件酌情标准化该内容特征,然后返回该特征向量。
附图4是说明在一个实施例中生成重要度系统的计算块重要度组件的处理流程图。该组件使用获得的重要度函数,传递一个网页的指示并计算该网页的每个块的重要度。在块401中,该组件识别传递网页的块。在块402-406中,该组件循环计算传递网页的每个块的重要度。在块402中,该组件选择传递网页的下一块。在判定块403中,如果传递网页的全部块已被选中,然后该组件返回每个块的重要度,否则该组件在块404继续。在块404中,该组件调用生成特征向量组件以生成该所选块的特征向量。在块405中,该组件对生成的特征向量应用获得的重要度函数,以计算所选块的重要度。在块406中,该组件存储计算出的重要度,然后循环到402选择传递网页的下一个块。
附图5-8说明该获得重要度函数在不同的应用中的使用。附图5是说明在一个实施例中使用获得的重要度函数的顺序搜索结果组件的处理流程图。该组件传递一个网页搜索结果,并返回搜索结果,所述搜索结果基于由获得的重要度函数计算出的块重要度重排顺序。在块501中,该组件选择搜索结果的下一网页。在判定块502中,如果搜索结果的全部网页已被选中,该组件接着就在块505继续,否则该组件在块503继续。在块503中,该组件调用一个计算块重要度组件,以计算所选网页的每个块的重要度。在块504中,该组件设置基于有最高重要度的块的网页相关性。该组件可以基于最重要块(一或多个)的文本与搜索请求的匹配程度,计算该相关性,其中搜索请求识别搜索结果。该组件可以同时将该相关性与每个网页的相关性结合,这些网页由一个搜索引擎计算。然后该组件循环到块501,以选择搜索结果的下一个网页。在块505中,该组件将基于设置的相关性的网页进行分类,然后返回重新排序的搜索结果网页。
附图6是说明在一个实施例中使用获得的重要度函数的扩展搜索结果组件的处理流程图。该组件传递一个网页,并识别可能与该传递网页有关的网页。在块601中。该组件调用计算块重要度组件,以计算所传递的网页的每个块的重要度。在块602中,该组件选择传递网页的具有最高重要度的块。在块603中,该组件获得与所选块相关联的文本。在块604中,该组件基于获得的文本用公式表示一个搜索请求。在块605中,该组件向一个搜索引擎服务提交该标准化搜索请求,并反过来接收搜索结果。然后该组件返回该搜索结果。
附图7是说明在一个实施例中使用获得的重要度函数的显示网页组件的处理流程图。这个组件传递一个网页的统一资源定位,并将该网页的具有最高重要度的块的内容显示为网页本身的内容。在块701中,该组件使用该传递的统一资源定位得到该网页。在块702中,该组件调用计算块重要度函数,以计算获得的网页的每个块的重要度。在块703中,该组件选择所获得网页的具有最高重要度的块。在块704中,该组件将获得的块显示为网页的内容。
附图8是说明在一个实施例中使用获得的重要度函数的分类网页组件的处理流程图。该组件传递一个网页并降该网页分类。在块801中,该组件调用该块重要度函数,以计算传递的网页的每个块的重要度。在块802中,该组件选择被传递网页的具有最高重要度的块(或一组块)。在块803中,该组件获得具有最高重要度的所选块的文本。在块804中,该组件生成基于获得的文本的分类。该分类也可以基于所选块内部的连接。然后该组件返回该分类。
本领域技术人员可以估计到,尽管在此为了说明的目的,描述了特定的该重要度系统的实施例,但是在不背离本发明的精神和范围下,仍可以有多种变形。重要度系统的原则可以用来决定除了网页的多种信息源中信息区的重要度。这些信息源可以包括使用HTML,XML,或其它标注语言表示的文件。本领域技术人员可以估计到,一些块重要度的应用可以使用不是″获得的″重要度函数。例如,开发者可以简单地定义一个重要度函数,其反映它们的块重要度的概念,而并不依靠收集块重要度的用户额定值的经验数据。这样的重要度函数可以评价基于其大小和位置的综合的块重要度。因此,本发明不受除附加的权利要求外的限制。

Claims (36)

1.一种用于在计算机系统中对包含块的第一网页确定该第一网页中的块对该第一网页的重要主题的重要度的方法,该方法包括:
提供具有块的训练网页集合;
对于训练网页中的每个块,
生成一个表示该块的特征向量;并
从个人收集所述块对于该块对于其所在网页的重要主题的重要度的指示;
从生成的特征向量和指示的每个块的重要度获得一个函数,其表示从特征向量到重要度的映射;以及
将获得的该函数应用到所述第一网页的块的特征向量表示,以生成各个块对于网页的重要主题的重要度的指示。
2.如权利要求1所述的方法,其特征在于,特征向量包括空间特征。
3.如权利要求1所述的方法,其特征在于,特征向量包括内容特征。
4.如权利要求3所述的方法,其特征在于,内容特征包括图象特征。
5.如权利要求3所述的方法,其特征在于,内容特征包括连接特征。
6.如权利要求3所述的方法,其特征在于,内容特征包括交互特征。
7.如权利要求1所述的方法,其特征在于,特征向量包括空间特征和内容特征。
8.如权利要求1所述的方法,其特征在于,对所述函数的获得包括应用基于神经网络的回归分析。
9.如权利要求8所述的方法,其特征在于,所述神经网络是放射基神经网络。
10.如权利要求1所述的方法,其特征在于,通过选择一个旨在将对于训练网页中的各个块由函数计算出的重要度和收集的重要度的各个差的平方和最小化的函数来获得该函数。
11.如权利要求1的方法,其特征在于,所述函数的获得包括使用支持向量机算法。
12.一种在计算机系统中用来建立网页与搜索结果相关性的方法,该方法包括:
识别所述搜索结果的每个页面的块;
对于所述搜索结果的每个页面,
对于每个识别出的块,生成一个表示该块的特征向量;并
对于每个生成的特征向量,对其应用一个重要度函数以生成相应的块对于页面的重要主题的重要度的指示;
选择具有最高重要度的页面的块;和
基于所选的块设置网页的相关性。
13.如权利要求12所述的方法,其特征在于,相关性的设置包括调整在先计算出的相关性。
14.如权利要求12所述的方法,其特征在于,基于网页集的块的用户指定重要度,来获得该重要度函数。
15.如权利要求12所述的方法,其特征在于,包括基于设置的相关性对网页进行排序。
16.一种用于在计算机系统中识别与页面相关的页面的方法,该方法包括:
识别该页面的块;
对于每个识别出的块,生成一个表示该块的特征向量;
对于每个生成的特征向量,对其应用一个重要度函数以生成相应的块对于页面的重要主题的重要度的指示;
选择具有最高重要度的页面的块;
基于该选择的块生成搜索请求;和
提交生成的搜索请求,以识别与该页面相关的页面。
17.如权利要求16所述的方法,其特征在于,基于页面集的块的用户指定重要度,来获得该重要度函数。
18.如权利要求16所述的方法,其特征在于,网页是搜索结果的一部分。
19.如权利要求16所述的方法,其特征在于,基于与所选块相关的文本生成搜索请求。
20.一种用于在计算机系统中选择页面的一部分显示在一个显示设备上的方法,该方法包括:
识别该页面的块;
对于每个识别出的块,生成一个表示该块的特征向量;
对于每个生成的特征向量,对其应用一个重要度函数以生成相应的块对于页面的重要主题的重要度的指示;
选择具有最高重要度的页面的块;和
在显示设备上显示所选块。
21.如权利要求20所述的方法,其特征在于,显示设备不能显示整个网页。
22.如权利要求20所述的方法,其特征在于,显示设备与蜂窝电话相连。
23.如权利要求20所述的方法,其特征在于,显示设备与个人数字助理相连。
24.如权利要求20所述的方法,其特征在于,所选块是唯一显示在显示设备上的块。
25.如权利要求20所述的方法,其特征在于,所识别块的子集基于其重要度而被显示。
26.如权利要求20所述的方法,其特征在于,基于用户指定的页面集的块的重要度来获得该重要度函数。
27.一种用于在计算机系统中分类页面的方法,该方法包括:
识别该页面的块;
对于每个识别出的块,生成一个表示该块的特征向量;
对于每个生成的特征向量,对其应用一个重要度函数以生成相应的块对于页面的重要主题的重要度的指示;
选择具有最高重要度的页面的块;和
基于所选的块为该网页生成分类。
28.如权利要求27所述的方法,其特征在于,基于用户指定的页面集的块的重要度来获得该重要度函数。
29.如权利要求27所述的方法,其特征在于,分类的生成进一步基于与所选块相关的文本。
30.如权利要求27的方法,其特征在于,分类的生成进一步基于多个具有高重要度的块。
31.一种用于在计算机系统中对包含块的网页确定该网页中的块对该网页的重要主题的重要度的方法,该方法包括:
识别页面的块;和
对于页面的每个块,
生成表示该块的特征向量;和
将重要度函数应用到该特征向量,以确定块对于该网页的重要主题的重要度。
32.如权利要求31所述的方法,其特征在于,基于页面集合中用户指定的重要度来获得该重要度函数。
33.如权利要求32所述的方法,其特征在于,使用神经网络获得该重要度函数。
34.如权利要求32所述的方法,其特征在于,使用支持向量机获得该重要度函数。
35.如权利要求31所述的方法,其特征在于,特征向量包括空间特征。
36.如权利要求31所述的方法,其特征在于,特征向量包括内容特征。
CN2005100817511A 2004-04-29 2005-04-29 计算显示页面中块的重要度的方法和系统 Expired - Fee Related CN1702654B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/834,639 US7363279B2 (en) 2004-04-29 2004-04-29 Method and system for calculating importance of a block within a display page
US10/834,639 2004-04-29

Publications (2)

Publication Number Publication Date
CN1702654A CN1702654A (zh) 2005-11-30
CN1702654B true CN1702654B (zh) 2012-03-28

Family

ID=34939568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100817511A Expired - Fee Related CN1702654B (zh) 2004-04-29 2005-04-29 计算显示页面中块的重要度的方法和系统

Country Status (10)

Country Link
US (3) US7363279B2 (zh)
EP (1) EP1591922B1 (zh)
JP (1) JP2005317018A (zh)
KR (1) KR20060045873A (zh)
CN (1) CN1702654B (zh)
AU (1) AU2005201765A1 (zh)
BR (1) BRPI0501441A (zh)
CA (1) CA2505317A1 (zh)
MX (1) MXPA05004680A (zh)
RU (1) RU2387004C2 (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US7363279B2 (en) 2004-04-29 2008-04-22 Microsoft Corporation Method and system for calculating importance of a block within a display page
IL162411A0 (en) * 2004-06-08 2005-11-20 Picscout Ltd Method for presenting visual assets for sale, using search engines
WO2006093394A1 (en) * 2005-03-04 2006-09-08 Chutnoon Inc. Server, method and system for providing information search service by using web page segmented into several information blocks
US7672916B2 (en) * 2005-08-16 2010-03-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for music classification
US7546280B1 (en) * 2005-08-30 2009-06-09 Quintura, Inc. Use of neural networks for keyword generation
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
JP4908813B2 (ja) 2005-09-30 2012-04-04 エプソンイメージングデバイス株式会社 電気光学装置、電気光学装置の駆動方法、電子機器
US7949646B1 (en) * 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US20070156523A1 (en) * 2005-12-30 2007-07-05 Deborah Yee-Ky Liu Method and system to process an incentive
US20070220421A1 (en) * 2006-03-16 2007-09-20 Microsoft Corporation Adaptive Content Service
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
KR100832859B1 (ko) * 2006-08-30 2008-05-28 한양대학교 산학협력단 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US7895148B2 (en) * 2007-04-30 2011-02-22 Microsoft Corporation Classifying functions of web blocks based on linguistic features
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US8051083B2 (en) 2008-04-16 2011-11-01 Microsoft Corporation Forum web page clustering based on repetitive regions
US20090265611A1 (en) * 2008-04-18 2009-10-22 Yahoo ! Inc. Web page layout optimization using section importance
US8593666B2 (en) * 2009-02-11 2013-11-26 Hewlett-Packard Development Company, L.P. Method and system for printing a web page
US8429110B2 (en) * 2010-06-10 2013-04-23 Microsoft Corporation Pattern tree-based rule learning
EP2431889A1 (en) * 2010-09-01 2012-03-21 Axel Springer Digital TV Guide GmbH Content transformation for lean-back entertainment
US8650143B2 (en) * 2011-08-30 2014-02-11 Accenture Global Services Limited Determination of document credibility
CN102708244B (zh) * 2012-05-08 2016-01-20 清华大学 一种基于重要度度量的概念图自动布图方法
CN103546505B (zh) * 2012-07-12 2018-03-06 百度在线网络技术(北京)有限公司 将页面分块按优先级顺序显示的方法、系统及装置
US9773182B1 (en) 2012-09-13 2017-09-26 Amazon Technologies, Inc. Document data classification using a noise-to-content ratio
CN103970749B (zh) * 2013-01-25 2017-08-25 北京百度网讯科技有限公司 一种网页中的块重要性计算方法及系统
US10482507B2 (en) 2013-09-18 2019-11-19 Telefonaktiebolaget Lm Ericsson (Publ) Handling digital advertisements in a communication network
CN103678259B (zh) * 2013-12-18 2016-08-17 小米科技有限责任公司 一种页面的适配方法、装置和终端设备
US10152540B2 (en) * 2014-10-10 2018-12-11 Qualcomm Incorporated Linking thumbnail of image to web page
US9747382B1 (en) 2014-10-20 2017-08-29 Amazon Technologies, Inc. Measuring page value
CN104281714A (zh) * 2014-10-29 2015-01-14 南通大学 医院门户网站门诊专家信息抽取系统
CN104751148B (zh) * 2015-04-16 2018-09-07 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN106503012A (zh) * 2015-09-07 2017-03-15 阿里巴巴集团控股有限公司 页面展示方法及装置
KR102195223B1 (ko) * 2016-03-18 2020-12-24 구글 엘엘씨 전역적으로 노멀화된 신경 네트워크들
CN106681049A (zh) * 2017-03-23 2017-05-17 合肥鑫晟光电科技有限公司 显示基板的制作方法、显示面板的制作方法及显示面板
CN114037828A (zh) * 2021-11-26 2022-02-11 北京沃东天骏信息技术有限公司 组件识别方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3251662B2 (ja) * 1992-10-19 2002-01-28 富士通株式会社 データ表示処理システム
US5835905A (en) * 1997-04-09 1998-11-10 Xerox Corporation System for predicting documents relevant to focus documents by spreading activation through network representations of a linked collection of documents
US6032182A (en) * 1997-07-11 2000-02-29 International Business Machines Corporation Method, apparatus and computer program product for user selected refreshing of internet web pages
US20020004744A1 (en) 1997-09-11 2002-01-10 Muyres Matthew R. Micro-target for broadband content
US20020002488A1 (en) 1997-09-11 2002-01-03 Muyres Matthew R. Locally driven advertising system
US20010042016A1 (en) 1997-09-11 2001-11-15 Muyres Matthew R. Local portal
US6067565A (en) * 1998-01-15 2000-05-23 Microsoft Corporation Technique for prefetching a web page of potential future interest in lieu of continuing a current information download
US6182133B1 (en) * 1998-02-06 2001-01-30 Microsoft Corporation Method and apparatus for display of information prefetching and cache status having variable visual indication based on a period of time since prefetching
US6446095B1 (en) 1998-06-09 2002-09-03 Matsushita Electric Industrial Co., Ltd. Document processor for processing a document in accordance with a detected degree of importance corresponding to a data link within the document
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6985781B2 (en) * 1999-01-12 2006-01-10 Pavilion Technologies, Inc. Residual activation neural network
JP2001014326A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 構造指定による類似文書の検索装置及び検索方法
US6449636B1 (en) * 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6700590B1 (en) 1999-11-01 2004-03-02 Indx Software Corporation System and method for retrieving and presenting data using class-based component and view model
US6647410B1 (en) * 1999-11-05 2003-11-11 Reuters Limited Method, apparatus and program for delivery and display of information from dynamic and static data sources
US20020003547A1 (en) * 2000-05-19 2002-01-10 Zhi Wang System and method for transcoding information for an audio or limited display user interface
US6670968B1 (en) * 2000-07-10 2003-12-30 Fuji Xerox Co., Ltd. System and method for displaying and navigating links
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US6744447B2 (en) 2000-12-29 2004-06-01 International Business Machines Corporation Method and system for compiling and using placebot agents for automatically accessing, processing, and managing the data in a place
US6694307B2 (en) * 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US7310666B2 (en) 2001-06-29 2007-12-18 International Business Machines Corporation Method and system for restricting and enhancing topology displays for multi-customer logical networks within a network management system
US7200662B2 (en) 2001-07-06 2007-04-03 Juniper Networks, Inc. Integrated rule network management system
US6915025B2 (en) * 2001-11-27 2005-07-05 Microsoft Corporation Automatic image orientation detection based on classification of low-level image features
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
US7343365B2 (en) * 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
JP4370783B2 (ja) * 2002-06-27 2009-11-25 沖電気工業株式会社 情報処理装置および方法
US7337115B2 (en) * 2002-07-03 2008-02-26 Verizon Corporate Services Group Inc. Systems and methods for providing acoustic classification
US20040049374A1 (en) * 2002-09-05 2004-03-11 International Business Machines Corporation Translation aid for multilingual Web sites
WO2005004007A1 (en) * 2002-09-18 2005-01-13 Dmetrix, Inc. Method for referencing image data
US7363279B2 (en) 2004-04-29 2008-04-22 Microsoft Corporation Method and system for calculating importance of a block within a display page
US7580931B2 (en) * 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nicholas Kushmerick.learning to remove internet advertisements.proceedings of the third annual conference on autonomous agents.1999,175-181. *

Also Published As

Publication number Publication date
US7363279B2 (en) 2008-04-22
RU2387004C2 (ru) 2010-04-20
EP1591922B1 (en) 2013-04-17
JP2005317018A (ja) 2005-11-10
US8401977B2 (en) 2013-03-19
EP1591922A1 (en) 2005-11-02
BRPI0501441A (pt) 2006-01-10
US20050246296A1 (en) 2005-11-03
AU2005201765A1 (en) 2005-11-17
US8095478B2 (en) 2012-01-10
KR20060045873A (ko) 2006-05-17
US20120109950A1 (en) 2012-05-03
RU2005113003A (ru) 2006-11-10
CN1702654A (zh) 2005-11-30
US20080256068A1 (en) 2008-10-16
CA2505317A1 (en) 2005-10-29
MXPA05004680A (es) 2005-11-17

Similar Documents

Publication Publication Date Title
CN1702654B (zh) 计算显示页面中块的重要度的方法和系统
CN101390096B (zh) 使用传播的文档相关性来训练排名功能
US8266077B2 (en) Method of analyzing documents
US7289985B2 (en) Enhanced document retrieval
CN100485677C (zh) 搜索结果中放置内容排序的个性化
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US7305389B2 (en) Content propagation for enhanced document retrieval
US7774227B2 (en) Method and system utilizing online analytical processing (OLAP) for making predictions about business locations
CN101408897B (zh) 一种基于协作过滤的个性化查询扩展方法
US8589371B2 (en) Learning retrieval functions incorporating query differentiation for information retrieval
CN102687138B (zh) 搜索建议聚类和呈现
EP1653380A1 (en) Web page ranking with hierarchical considerations
Carvalho et al. Enhancing web searches from concept map-based knowledge models
Serrano Neural networks in big data and Web search
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法
Nicholson Bibliomining for automated collection development in a digital library setting: Using data mining to discover Web‐based scholarly research works
Faba‐Pérez et al. Comparative analysis of webometric measurements in thematic environments
Yan et al. Analysis of research papers on E-commerce (2000–2013): based on a text mining approach
JP2010282403A (ja) 文書検索方法
Zhang et al. Using Web clustering for Web communities mining and analysis
Makvana et al. Comprehensive analysis of personalized web search engines through information retrieval feedback system and user profiling
Rodrigues POI Mining and Generation
Baldassarre et al. The Bradley–Terry Regression Trunk approach for Modeling Preference Data with Small Trees
Pun et al. Ranking Search Results by Web Quality Dimensions.
Yang et al. A Clustering Method for Web Mining Based on Probabilistic Latent Semantic Indexing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120328

Termination date: 20140429