CN1728147A - 基于异类关系确定目标相似性的方法和系统 - Google Patents

基于异类关系确定目标相似性的方法和系统 Download PDF

Info

Publication number
CN1728147A
CN1728147A CNA2005100922448A CN200510092244A CN1728147A CN 1728147 A CN1728147 A CN 1728147A CN A2005100922448 A CNA2005100922448 A CN A2005100922448A CN 200510092244 A CN200510092244 A CN 200510092244A CN 1728147 A CN1728147 A CN 1728147A
Authority
CN
China
Prior art keywords
similarity
type
target
osculant
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100922448A
Other languages
English (en)
Other versions
CN1728147B (zh
Inventor
B·章
G·薛
H-J·曾
马维英
陈正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1728147A publication Critical patent/CN1728147A/zh
Application granted granted Critical
Publication of CN1728147B publication Critical patent/CN1728147B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Stored Programmes (AREA)

Abstract

提供一种用于测量目标的相似性的方法和系统,所述测量基于同种类型的目标和不同类型的目标之间的关系以及这些目标与其它目标之间的相似性。在一个实施例中,相似性系统为每一种目标定义内部型和中间型相似性函数。相似性系统可以将某种类型的内部型和中间型相似性函数组合成该类型的一个整体的相似性函数。在定义了相似性函数之后,相似性系统收集目标的属性值,其包括同种类型的目标之间的关系数据,叫作内部型关系,和不同类型的目标之间的关系,叫作中间型关系。在收集了目标的属性值之后,相似性系统通过反复计算目标的相似性来求解内部型和中间型相似性函数,直到相似性收敛于一解值。

Description

基于异类关系确定目标相似性的方法和系统
技术领域
所述技术通常涉及确定目标相似性,尤其是基于目标关系来确定所述相似性。
背景技术
许多搜索引擎服务,诸如Google和Overture,提供了对接入因特网的信息的搜索。这些搜索引擎服务允许用户搜索其感兴趣的显示页,例如网页。用户发送一个包括搜索项的搜索请求(也叫作“查询”)之后,搜索引擎服务识别出与那些搜索项相关的网页。为了快速识别出相关的网页,搜索引擎服务可以保存关键词到网页的映射。搜索引擎服务可以通过“扫描”网络(也就是万维网)提取每个网页的关键词来生成这种映射关系。为了扫描网络,搜索引擎服务可以使用根网页的列表和识别所有通过这些根网页接入的网页。任何特定网页的关键词都能用各种公知的信息检索技术提取出来,例如识别标题的关键字、网页的元数据中提供的关键字、突出显示的关键字等。搜索引擎服务可以基于每个匹配的相近度、网页普遍性(如Google的PageRank)等来计算相关性分数,所述相关性分数表示每个网页与搜索请求有多相近。然后搜索引擎服务以相关性顺序向用户显示与那些网页的链接。搜索引擎一般地还可以提供在任何文件集合中搜索信息。例如,所述文件集合可能包括所有美国专利、所有联邦法庭判决、公司所有的档案文件等。
搜索引擎服务可能需要测量各种目标之间的相似性,诸如网页或查询。例如,搜索引擎服务可以允许交互查询扩展,其需要查询项与其它项之间的相似性计算。如另一个例子中,搜索引擎服务想要将网页分成相似网页的群,以通过网页帮助用户导航。确定目标相似性的典型算法通常使用与目标相关的特征向量,然后计算特征向量之间的距离来作为相似性的表示。例如,网页可具有包括用于计算相似性的关键字、内容等特征。在确定相似性时大多数算法只依靠与目标相关的特征。例如,网页之间的相似性只基于网页的内容。但是少数算法受异类目标特征的影响。例如,一种算法使用击穿数据,其中如果它们包括相同的项或者导致用户选择相同网页,查询就是相似的。因此,这种查询的特征向量包括由用户选择的查询结果网页上的信息。
但是当计算一种类型目标之间的相似性时,这些技术就不能考虑相关的其它类型的目标之间的相似性。也就是说,一种类型目标的相似性测量可能与另一种类型目标的相似性测量有关。例如,部分地基于用户选择的或点击的网页之间的相似性,一个查询可能与另一个相似。相反,部分地基于在其结果中返回网页的查询之间的相似性,一种网页可能与另一种网页相似。所以希望能有一种用于测量受异类目标之间关系影响的目标相似性的技术。
发明内容
提供了一种基于同种类型和不同种类型的目标关系来测量目标相似性以及这些目标与其它目标的相似性的方法和系统。在一个实施例中,相似性系统为每一种类型的目标定义内部型和中间型相似性函数。相似性系统可以将某种类型的内部型和中间型相似性函数组合成那种类型的一个整体的相似性函数。在定义了相似性函数之后,相似性系统收集目标的属性值,其包括同种类型的目标之间的关系数据,叫作内部型关系,以及不同种类型的目标之间的关系,叫作中间型关系。在收集了目标的属性值后,相似性系统通过反复计算目标的相似性直到相似性收敛于一个解值来求解内部型和中间型相似性函数。
附图简要描述
图1是描述一个实施例中的相似性系统的元件的框图。
图2是描述一个实施例中定义相似性函数元件的处理流程图。
图3是描述一个实施例中建立关系元件的处理流程图。
图4是描述一个实施例中求解相似性函数元件的处理流程图。
图5是描述一个实施例中计算相似性函数元件的处理流程图。
详细描述
提供了一种基于同种类型和不同种类型的目标关系来测量目标相似性以及这些目标与其它目标的相似性的方法和系统。在一个实施例中,相似性系统为每一种类型的目标定义内部型和中间型相似性函数。内部型相似性函数测量同种类型的目标之间的相似性。例如,查询之间的内部型相似性函数可以基于查询的搜索项匹配有多相近,基于发送查询的用户的属性。目标之间的内部型相似性也可以依赖于同种类型的其它目标的相似性。例如,如果两个查询每个都与第三个查询高度相似,那么这两个查询就更相似。所述基于其它目标的相似性的目标之间的内部型相似性定义了一种递归函数。中间型相似性函数基于另一种类型的目标属性(包括相似性)来测量一种类型的两个目标之间的相似性。例如,如果用户点击的一个查询结果的网页与用户点击的其它查询结果的网页相似,那么这两个查询会更相似。其它类型的目标的相似性还可以依赖于一种类型的目标的相似性。而且,由于一种类型的目标的相似性可以依赖于其它类型的目标的相似性,并且反之亦然,所以中间型相似性函数在不同类型间是递归的。
目标的类型可以基于目标的不同属性有各种相似性定义。例如,网页可以有基于网页内容的内部型相似性和基于网页之间的链接的另一种内部型相似性。相似性系统可以将某种类型的内部型和中间型相似性函数组合成那种类型的一个整体的相似性函数。在一个实施例中,相似性系统通过基于其察觉的精确度为每个内部型和中间型相似性函数加权的线性方程来组合内部型和中间型相似性函数,以表示那种类型的目标的整体相似性。例如,可以给具有高精确度的内部型相似性函数一个高的加权值,给具有低精确度的内部型相似性函数一个低的加权值。
在定义了相似性函数后,相似性系统收集目标的属性值,其包括同种类型的目标之间的关系数据,叫作内部型关系,以及不同种类型目标之间的关系,叫作中间型关系。例如,网页可以具有与网页的关键字相对应的非基于关系的属性值。网页还可以具有基于网页之间的引入和引出链接的内部型关系。网页可以具有基于从网页查询结果中点击的带有查询的中间型关系。
在收集了目标的属性值后,相似性系统通过反复计算目标的相似性直到相似性收敛于一个解值来求解内部型和中间型相似性函数。相似性系统使用反复手段是因为相似性函数的递归特性。相似性系统用已初始化的相似性来启动,然后基于初始相似性来为每一种目标计算相似性函数,以给出新的相似性。相似性系统测量新相似性与旧相似性之间的区别来确定相似性是否收敛于一个解值。如果收敛了,新的相似性就代表所述解值。如果没有收敛,相似性系统就重复使新相似性变成旧相似性的过程。因此相似性系统基于另一种目标的相似性和不同种类型的目标之间的关系计算出一种类型的目标的相似性。
下面,提供一个在搜索引擎范围内的相似性系统的处理过程的例子。相似性系统将搜索引擎使用的目标(例如网页和查询)和关系(例如引入链接和点击)模拟成定向图G=(V,E),其中节点V表示搜索引擎的目标,边缘E表示目标之间的关系。节点V可以分成两个子集Q={q1,q2,... ,qm}和P={p1,p2,...,pn},其中Q表示查询,P表示网页。这些网页和查询之间的关系可能包括一引入链接关系(IL),一引出链接关系(OL)和点击关系(CT)。对于图中的节点v,MR(v)表示具有关系R和节点v的相邻节点的集合。例如,MIL(v)表示网页v的引入链接的源点网页的集合。MR i(v)表示集合中的第i个网页。相似性系统用相似性矩阵S来表示目标之间的相似性,S[a,b]表示目标a和b之间的相似性。
相似性系统基于一种原则:一种类型的目标是相似的,是部分地根据另一种类型的相关目标的相似性。如果一种类型的两个目标与另一种类型的相同目标有关系,那么这两个目标范围相似。同样,如果同样类型的两个目标与另一种类型的两个不同但类似的目标有关系,那么这两个目标范围相似。相似性系统用下面的方程来表示这个原则:
S O 1 [ a , b ] = C | M R ( a ) | | M R ( b ) | Σ i = 1 | M g ( a ) | Σ j = 1 | M g ( b ) S O 2 [ M R i ( a ) , M R j ( b ) ] - - - ( 1 )
其中SO表示O1类型的目标a和b之间的相似性,SO2表示另一类型的目标i和j之间的相似性,R表示相似性所依据的中间型关系,C是加权因子。如果a等于b,那么SO1[a,b]就定为1,也就是,一个目标与其本身之间的相似性定义为最大的相似性值1。如果a和b都与O2中相同的目标A有关,那么SO2[A,A]是1,其对SO1[a,b]给出了最大基值。如果a或b都没有相邻节点,也就是与O2中的目标没有关系,那么|MR(a)|或|MR(b)|将等于0。在这种情况下,相似性系统将SO1[a,b]设为0,防止从0分离。作为一个例子,假设O1包含目标a和b,O2包含目标A、B和C,并且a与A和B有关,b与B和C有关。如果SO2[A,B]是.7,SO2[B,C]是7,并且SO2[B,C]是.49,加权因子是.7,那么通过应用方程式1,SO1[a,b]是.5(例如.7/4*(.7+.49+1.0+.7))。
相似性系统基于从内部型相似性函数和中间型相似性函数中导出的相似性的合并来定义整个目标类型的相似性。在一个实施例中,相似性系统使用内部型相似性函数和中间型相似性函数的相似性的线性组合,如下面的方程式所示:
S[a,b]=αSint ra[a,b]+βSint er[a,b]             (2)
其中Sint ra和Sint er表示从内部型相似性函数和中间型相似性函数中导出的相似性,α和β是相似性的加权,并且α+β=1。通过给α和β分配不同的值,相似性系统可以将不同相似性函数的基值调整成统一的相似性值。如上所述,方程式2可以递归式地定义,因为一个目标的相似性可以基于另一个目标的相似性来定义,这可以基于一个目标的相似性而依次定义。在一个实施例中,相似性系统通过计算相似性来反复求解相似性函数,直到它们收敛(也就是‖Si-Si-1‖<ε,其中ε是误差门限值)。
在搜索引擎范围内,相似性系统可以只用查询的内容来定义内部型相似性函数。基于内容的内部型相似性函数可以通过下面的方程式来定义:
S QC [ a , b ] = | Keyword ( a ) ∩ Keyword ( b ) | | Keyword ( a ) ∪ Keyword ( b ) | - - - ( 3 )
其中a和b是查询,SQC是基于内容的查询的内容相似性矩阵。作为一个例子,当查询a和b有两个搜索项(或关键字)并且其中一个关键字是共用的时,它们的相似性值各是.33(也就是1/3)。相似性系统可以基于对网页的点击关系通过下面的方程式来为查询定义中间型相似性函数:
S QCT [ a , b ] = C CT | M CT ( a ) | | M CT ( b ) | Σ i = 1 | M CT ( a ) | Σ j = 1 | M CT ( b ) S PCT [ M CT i ( a ) , M CT j ( b ) ] - - - ( 4 )
其中SQCT表示基于点击的查询的相似性矩阵,SPCT表示基于点击的网页的相似性矩阵,MCT(a)表示从查询a到从查询标记中识别出的网页的点击,CCT是加权因子。相似性系统将方程式(3)和(4)组合成一个用于查询的整体的相似性函数,由下面的方程式表示:
SQ[a,b]=αSQC[a,b]+βSQCT[a,b]              (5)
其中SQ表示查询的整体的相似性矩阵。
相似性系统基于引入链接和引出链接的内部型关系以及引起点击网页的查询的中间型关系来表示网页的相似性。相似性系统基于引入链接关系来定义内部型相似性函数,以反映出当两个网页由相同的网页(或相似的网页)链接时它们是相似的。相似性系统还基于引出链接关系来定义中间型相似性函数,以反映出当两个网页链接到相同的网页(或相似的网页)时,它们是相似的。相似性系统基于引出和引入链接关系通过下面的方程式来为网页表示内部型相似性函数:
S OL [ A , B ] = C OL | M OL ( A ) | | M OL ( B ) | Σ i = 1 | M OL ( A ) | Σ j = 1 | M OL ( B ) S IL [ M OL i ( A ) , M OL j ( B ) ] - - - ( 6 )
S IL [ A , B ] = C IL | M IL ( A ) | | M IL ( B ) | Σ i = 1 | M IL ( A ) | Σ j = 1 | M IL ( B ) S IL [ M IL i ( A ) , M IL j ( B ) ] - - - ( 7 )
其中A和B表示网页,COL和CIL表示加权因子,SOL和SIL是基于引出和引入链接的相似性矩阵,MOL(A)表示网页A的引出链接的目的地网页,MIL(A)表示到网页A的引入链接的网页源点。相似性系统基于点击关系通过下面的方程式来为网页表示中间型相似性函数:
S PCT [ A , B ] = C CT | M CT ( A ) | | M CT ( B ) | Σ i = 1 | M CT ( A ) | Σ j = 1 | M CT ( B ) S QCT [ M CT i ( A ) , M CT j ( B ) ] - - - ( 8 )
其中MCT(A)表示用户点击的用来访问网页A的查询。由于方程式8是根据方程式4(也就是SQCT)来定义的,反之亦然,这对方程式定义一种递归功能。相似性系统将网页的整体相似性函数定义成内部型相似性函数和中间型相似性函数的线性组合,其可以由下面的方程式来表示:
SP[A,B]=α′SOL[A,B]+β′SIL[A,B]+γ′SPCT[A,B]          (9)
其中SP表示网页的相似性矩阵,α′、β′和γ′是加权值,其中α′+β′+γ′=1。
因此相似性系统使用统一的结构来整理异类目标和它们的中间型关系。由于整体相似性函数是递归的,所以相似性系统同时并且反复地求解相似性函数。相似性函数由下面的方程式来表示:
S QC [ a , b ] = Keyword ( a ) ∩ Keyword ( b ) Keyword ( a ) ∪ Keyword ( b )
S QCT [ a , b ] = C CT | M CT ( a ) | | M CT ( b ) | Σ i = 1 | M CT ( a ) | Σ j = 1 | M CT ( b ) S P [ M CT i ( a ) , M CT j ( b ) ]
SQ[a,b]=αSQC[a,b]+βSQCT[a,b]
S OL [ A , B ] = C PC | M OL ( A ) | | M OL ( B ) | Σ i = 1 | M OL ( A ) | Σ j = 1 | M OL ( B ) S P [ M OL i ( A ) , M OL j ( B ) ] - - - ( 1 )
S IL [ A , B ] = C PR | M IL ( A ) | | M IL ( B ) | Σ i = 1 | M IL ( A ) | Σ j = 1 | M IL ( B ) S P [ M IL i ( A ) , M IL j ( B ) ]
S PCT [ A , B ] = C CT | M CT ( A ) | | M CT ( B ) | Σ i = 1 | M CT ( A ) | Σ j = 1 | M CT ( B ) S Q [ M CT i ( A ) , M CT j ( B ) ]
SP[A,B]=α′SOL[A,B]+β′SIL[A,B]+γ′SPCT[A,B]
在方程式10中可以看到,任何两个查询之间的中间型相似性受网页的相似性的影响,内部型也是一样。由于网页的中间型相似性受查询的的相似性的影响,内部型也是一样,所以方程式10定义了递归的关系。因此,网页和查询的相似性相互影响并且收敛到一个稳定的状态。
图1是描述一个实施例中的相似性系统的元件的框图。网站101经由通信链路102链接到相似性系统110。相似性系统包括计算相似性元件111、定义相似性函数元件112、建立关系元件113和求解相似性函数元件114。计算相似性元件基于中间型关系其它类型的目标的相似性来计算目标之间的相似性。计算相似性元件调用定义相似性函数元件、建立关系元件和求解相似性函数元件。定义相似性函数元件可以与用户交互来定义目标的类型、目标之间的关系和每种类型的目标的各种相似性函数。建立关系元件基于收集的数据生成关系数据。例如收集的数据可以包括查询、查询结果的网页和查询标记。求解相似性函数元件反复计算定义的相似性函数以生成更新的相似性矩阵,直到相似性矩阵收敛于一解值。
能实现相似性系统的计算设备可以包括中央处理单元、存储器、输入装置(例如键盘和点击装置)、输出装置(例如显示装置)和存储装置(例如硬盘驱动器)。存储器和存储装置是计算机可读介质,其包含实现相似性系统的指令。另外,数据结构和消息结构可以经由数据传输介质来存储或发送,例如通信链路上的一个信号。可以使用各种通信链路,例如因特网、局域网、广域网或点对点呼叫连接。
相似性系统可以在各种操作环境下实现。适合使用的各种公知的计算系统、环境和配置包括个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、微处理器系统、可编程用户电子装置、网络PC、小型机、大型计算机、包括任何上述系统或装置的分布式计算环境等。
可以结合由一个或多个计算机或其它装置来执行的计算机可执行指令来描述相似性系统,例如程序模块。通常,程序模块包括执行特殊任务或实现特殊抽象数据类型的例行程序、程序、目标、分量、数据结构等。一般来说,程序模块的参数可以按需要在各种实施方式中进行组合和分布。
图2是描述一个实施例中定义相似性函数元件的处理流程图。在方框201-209中,所述元件循环选择目标的每种类型并且为那种类型的目标定义内部型和中间型相似性函数。在一个实施例中,所述元件可以与用户交互来定义目标之间的内部型和中间型关系。所述元件还可以定义不是递归地基于目标之间的相似性的相似性函数,例如基于查询的搜索项的相似性。在方框201中,所述元件选择目标的下一种类型。在决定方框202中,如果所有类型的目标都已经被选择,那么所述元件就返回,否则所述元件就继续到方框203。在方框203中,所述元件为选定的类型选择下一个内部型关系。在决定方框204中,如果所有的内部型关系都已经被选择,那么所述元件就继续到方框206,否则所述元件继续到方框205。在方框205中,所述元件为选定类型和关系定义内部型相似性函数。所述元件然后循环到方框203来选择下一个内部型关系。在方框206中,所述元件为选定的类型选择下一个中间型关系。在决定方框207中,如果所有的中间型关系都已经被选择,那么所述元件就继续到方框209,否则所述元件继续到方框208。在方框208中,所述元件为选定的类型和关系定义中间型相似性函数。所述元件然后循环到方框206来选择下一个中间型关系。在方框209中,所述元件通过组合定义的内部型相似性函数和中间型相似性函数来为选定的类型定义整体的相似性函数。所述元件可以将加权因子应用到每一个组合的相似性函数中去。所述元件然后循环到方框201来选择下一种类型的目标。
图3是描述一个实施例中建立关系元件的处理流程图。所述元件处理收集的数据并生成关系数据。在方框301-308中,所述元件循环选择每种类型的目标并为那种类型的目标生成关系数据。在方框301中,所述元件选择下一种目标。在决定方框302中,如果所有类型都已经被选择,那么所述元件就返回,否则所述元件继续到方框303。在方框303中,所述元件为选定的类型选择下一个内部型关系。在决定方框304中,如果所有的内部型关系都已经被选择,那么所述元件就继续到方框306,否则所述元件继续到方框305。在方框305中,所述元件为选定的类型和选定的内部型关系设置关系数据的元素。所述元件然后循环到方框303来选择下一个内部型关系。在方框306中,所述元件为选定的类型选择下一个中间型关系。在决定方框307中,如果所有的中间型关系都已经被选择,那么所述元件就循环到方框301来选择下一种类型的目标,否则所述元件继续到方框308。在方框308中,所述元件为选定的类型和选定的中间型关系设置关系数据的元素。所述元件然后循环到方框306为选定的类型选择下一个中间型关系。
图4是描述一个实施例中求解相似性函数元件的处理流程图。在方框401中,所述元件初始化相似性矩阵。例如,所述元件可以将对角线的相似性值设置成一个表示最大相似性的值并且将其它相似性值设置为随机数。在方框402中,所述元件将误差值设置成一个非常大的数字以便执行至少一个重复过程。在方框403-408中,所述元件循环多次重复计算整体相似性函数以更新相似性矩阵,直到相似性值收敛于一解值。在方框403中,所述元件选择下一个重复过程,在决定方框404中,如果该类型的相似性误差值的总和小于门限误差值,那么所述解值收敛,所述元件返回,否则所述元件继续到方框405。在方框405中所述元件选择下一种类型的目标。在决定方框406中,如果所有类型都已经被选择,那么所述元件就继续到方框408,否则所述元件继续到方框407。在方框407中,所述元件为选定的类型计算相似性函数来为选定的类型更新相似性矩阵,然后循环到方框405来选择下一种类型。在方框408中,所述元件为选定的类型计算这个重复过程的相似性值与前一个重复过程的相似性值之间的误差。所述元件然后循环到方框403来开始下一个重复过程。
图5是描述一个实施例中计算相似性函数元件的处理流程图。所述元件传送一种类型的目标并且为该类型更新相似性矩阵。在方框501中,所述元件为所传送的类型选择下一个内部型相似性函数。在决定方框502中,如果所有的内部型相似形功能都已经被选择,那么所述元件就继续到方框504,否则所述元件就继续到方框503。在方框503中,所述元件为所传送的类型的每一个目标计算一个新的相似性值。然后所述元件循环到方框501来选择下一个内部型相似性函数。在方框504中,所述元件为所传送的类型选择下一个中间型相似性函数。在决定方框505中,如果所有的中间型相似性函数都已经被选择,那么所述元件就继续到方框507,否则所述元件就继续到方框506。在方框506中,所述元件用选定的中间型相似性函数为所传送的类型的每一个目标计算新的相似性值。然后所述元件循环到方框504来选择下一个中间型相似性函数。在方框507中,所述元件使用加权来组合矩阵以生成当前重复过程的所传送的类型的整体相似性。然后所述元件返回。
本领域的熟练技术人员会明白,尽管这里为了说明的目的而描述了相似性系统的特定实施例,但是在不脱离本发明精神和范围的情况下可以作各种修改。因此,除了附加的权利要求之外,对本发明不作限制。

Claims (37)

1、一种在计算机系统中产生目标之间相似性测量的方法,每个目标具有多种类型中的一种,单个类型具有内部型关系,一对类型具有中间型关系,所述方法包括:
对于每种类型,
当该类型的相似性是基于内部型关系时,为每个这样的关系提供内部型相似性函数,其用来测量该类型的目标之间的相似性;
当该类型的相似性是基于中间型关系时,为每个这样的关系提供中间型相似性函数,其基于另一种类型的目标的相似性来测量该类型的目标之间的相似性;和
提供相似性函数,其基于该类型的任何内部型相似性函数和任何中间型相似性函数来测量该类型的目标之间的相似性;以及
对于每个关系,提供定义与该关系有关的目标之间的关系的数据;和
基于提供的数据定义的关系来同时求解提供的相似性函数。
2、如权利要求1所述的方法,其中基于该类型的相似性函数递归地定义该类型的内部型相似性函数。
3、如权利要求1所述的方法,其中基于另一种类型的相似性函数递归地定义该类型的中间型相似性函数。
4、如权利要求1所述的方法,其中一种类型的相似性函数是该类型的内部型和中间型相似性函数的线性组合。
5、如权利要求4所述的方法,其中给每个内部型和中间型相似性函数一个加权值。
6、如权利要求5所述的方法,其中该类型的内部型和中间型相似性函数的加权值总和为1。
7、如权利要求1所述的方法,其中通过基于相似形功能反复计算目标的相似性来求解所述相似性函数。
8、如权利要求7所述的方法,其中基于从一个重复过程到下一个重复过程的相似性,当误差测量值收敛时,求解所述相似性函数。
9、如权利要求7所述的方法,其中基于从一个重复过程到下一个重复过程的相似性,当误差测量值低于门限误差值时,求解所述相似性函数。
10、如权利要求1所述的方法,其中目标的类型包括网页和查询,并且查询和网页之间的中间型关系基于从查询到网页的点击。
11、如权利要求1所述的方法,其中目标的类型包括网页和查询,并且网页之间的内部型关系基于引入和引出链接,网页和查询之间的中间型关系基于从查询到网页的点击。
12、一种包含用于控制计算机系统产生目标之间相似性测量的指令的计算机可读介质,每个目标具有多种类型中的一种,所使用的方法包括:
为每种类型提供相似性函数,当为该类型定义了内部型相似性时,基于该类型的目标之间的内部型相似性来测量该类型的目标的相似性,当为该类型定义了中间型相似性时,基于另一种类型的目标的相似性来测量该类型的目标之间的中间型相似性;
对于每个关系,提供定义与该关系有关的目标之间的关系的数据;和
基于提供的数据定义的关系来同时提供的相似性函数。
13、如权利要求12所述的计算机可读介质,其中相似性函数定义一组线性方程式。
14、如权利要求12所述的计算机可读介质,其中基于不同类型的目标的相似性递归地定义相似性函数。
15、如权利要求12所述的计算机可读介质,其中基于不同关系的该类型目标的相似性递归地定义相似性函数。
16、如权利要求12所述的计算机可读介质,其中一种类型的相似性函数是该类型的内部型和中间型相似性的线性组合。
17、如权利要求16所述的计算机可读介质,其中给每个内部型和中间型相似性一个加权值。
18、如权利要求17所述的计算机可读介质,其中该类型的内部型和中间型相似性的加权值总和为1。
19、如权利要求12所述的计算机可读介质,其中通过基于相似形功能反复计算目标的相似性来求解所述相似性函数。
20、如权利要求19所述的计算机可读介质,其中基于从一个重复过程到下一个重复过程的相似性,当误差测量值收敛时,求解所述相似性函数。
21、如权利要求19所述的计算机可读介质,其中基于从一个重复过程到下一个重复过程的相似性,当误差测量值低于门限误差值时,求解所述相似性函数。
22、一种用于计算目标相似性分数的计算机系统,每个目标具有多种类型中的一种并且每种类型与另一种类型之间具有中间型关系,所述系统包括:
用于每种类型的元件,其实现相似性函数,所述相似性函数基于该类型目标与另一种类型目标之间的中间型相似性来为该类型的目标对提供相似性分数,基于其它类型目标对的相似性分数和目标对之间的中间型关系来递归地定义中间型相似性;和
一元件,其基于为一组目标定义的中间型关系通过反复调用实现相似性函数的元件来求解相似性函数,直到相似性分数收敛。
23、如权利要求22所述的计算机系统,其中相似性函数定义一组线性方程式。
24、如权利要求22所述的计算机系统,其中一种类型具有该类型目标之间的内部型关系,相似性函数进一步基于该类型目标之间的内部型相似性,所述类型基于目标之间的内部型关系。
25、如权利要求24所述的计算机系统,其中一种类型的内部型相似性基于该类型和另一种类型的目标之间的中间型相似性。
26、如权利要求24所述的计算机系统,其中基于不同内部型关系的目标的内部型相似性递归地定义相似性函数。
27、如权利要求24所述的计算机系统,其中一种类型的相似性函数是该类型的内部型和中间型相似性函数的线性组合。
28、如权利要求27所述的计算机系统,其中给每个内部型和中间型相似性函数一个加权值。
29、如权利要求28所述的计算机系统,其中内部型和中间型相似性函数的加权值总和为1。
30、如权利要求22所述的计算机系统,其中基于从一个重复过程到下一个重复过程的相似性,当误差测量值低于门限误差值时,相似性分数收敛。
31、如权利要求22所述的计算机系统,其中基于从一个重复过程到下一个重复过程的相似性,当误差测量值低于门限误差值时,求解所述相似性函数。
32、一种在计算机系统中计算目标之间的相似性的方法,所述方法包括:
识别不同类型的目标之间的关系;
基于另一种类型的目标之间的相似性来定义一种类型目标的相似性,所述另一种类型与该类型的目标之间具有识别出的关系;
接收指定该类型的目标其它类型的目标之间的关系的数据;和
基于相似性的定义和指定的关系来计算该类型目标的相似性。
33、如权利要求32所述的方法,其中相似性的定义宝库定义一个整体的相似性,其可以基于内部型和中间型相似性。
34、如权利要求32所述的方法,其中递归地定义该类型的目标之间的相似性和其它类型的目标之间的相似性。
35、如权利要求34所述的方法,其中所述计算包括反复计算该类型目标和其它类型目标的相似性,直到相似性收敛于一解值。
36、如权利要求32所述的方法,其中通过每种类型的线性方程式来定义目标的相似性。
37、如权利要求36所述的方法,其中所述计算同时求解线性方程式。
CN2005100922448A 2004-05-14 2005-05-16 基于异类关系确定目标相似性的方法和系统 Expired - Fee Related CN1728147B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/846,949 2004-05-14
US10/846,949 US7376643B2 (en) 2004-05-14 2004-05-14 Method and system for determining similarity of objects based on heterogeneous relationships

Publications (2)

Publication Number Publication Date
CN1728147A true CN1728147A (zh) 2006-02-01
CN1728147B CN1728147B (zh) 2010-09-08

Family

ID=34939829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100922448A Expired - Fee Related CN1728147B (zh) 2004-05-14 2005-05-16 基于异类关系确定目标相似性的方法和系统

Country Status (10)

Country Link
US (1) US7376643B2 (zh)
EP (1) EP1596314B1 (zh)
JP (1) JP5147162B2 (zh)
KR (1) KR101130533B1 (zh)
CN (1) CN1728147B (zh)
AU (1) AU2005202016A1 (zh)
BR (1) BRPI0503220A (zh)
CA (1) CA2507365A1 (zh)
MX (1) MXPA05005219A (zh)
RU (1) RU2419857C2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
CN105938607A (zh) * 2008-02-01 2016-09-14 罗纳德·H·温斯顿 相似性匹配系统和方法
CN108738036A (zh) * 2017-04-14 2018-11-02 广州杰赛科技股份有限公司 移动通信的关键用户提取方法和系统
TWI742446B (zh) * 2019-10-08 2021-10-11 東方線上股份有限公司 詞句庫擴展系統及其方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135698B2 (en) * 2004-06-25 2012-03-13 International Business Machines Corporation Techniques for representing relationships between queries
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US8762280B1 (en) * 2004-12-02 2014-06-24 Google Inc. Method and system for using a network analysis system to verify content on a website
US7509320B2 (en) * 2005-12-14 2009-03-24 Siemens Aktiengesellschaft Methods and apparatus to determine context relevant information
US8332386B2 (en) * 2006-03-29 2012-12-11 Oracle International Corporation Contextual search of a collaborative environment
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
US8321803B2 (en) * 2008-06-19 2012-11-27 International Business Machines Corporation Aggregating service components
US20100211533A1 (en) * 2009-02-18 2010-08-19 Microsoft Corporation Extracting structured data from web forums
US9443209B2 (en) * 2009-04-30 2016-09-13 Paypal, Inc. Recommendations based on branding
US9286411B2 (en) * 2009-06-25 2016-03-15 International Business Machines Corporation Retrieval of relevant objects in a similarity
CA2757461C (en) * 2009-06-30 2023-05-16 International Business Machines Corporation Graph similarity calculation system, method and program
US8266149B2 (en) * 2010-12-10 2012-09-11 Yahoo! Inc. Clustering with similarity-adjusted entropy
US9460390B1 (en) * 2011-12-21 2016-10-04 Emc Corporation Analyzing device similarity
CN103218358A (zh) * 2012-01-18 2013-07-24 百度在线网络技术(北京)有限公司 一种Diff打分方法以及系统
US9292793B1 (en) * 2012-03-31 2016-03-22 Emc Corporation Analyzing device similarity
US20140067443A1 (en) * 2012-08-28 2014-03-06 International Business Machines Corporation Business process transformation recommendation generation
CN107766498B (zh) * 2017-10-19 2022-01-07 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
US11586824B2 (en) * 2019-10-07 2023-02-21 Royal Bank Of Canada System and method for link prediction with semantic analysis
CN118018269A (zh) * 2024-01-31 2024-05-10 北京亚鸿世纪科技发展有限公司 一种数据安全分析方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JP2001160067A (ja) * 1999-09-22 2001-06-12 Ddi Corp 類似文書検索方法および該類似文書検索方法を利用した推薦記事通知サービスシステム
JP3678985B2 (ja) 2000-08-25 2005-08-03 日本電信電話株式会社 ウェブページ間の類似度自動判定方法、装置及びそのプログラムを記録した媒体
US7440943B2 (en) 2000-12-22 2008-10-21 Xerox Corporation Recommender system and method
US7251648B2 (en) * 2002-06-28 2007-07-31 Microsoft Corporation Automatically ranking answers to database queries
JP2006528383A (ja) * 2003-07-23 2006-12-14 ユニバーシティ・カレッジ・ダブリン,ナショナル・ユニバーシティ・オブ・アイルランド,ダブリン 情報検索

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938607A (zh) * 2008-02-01 2016-09-14 罗纳德·H·温斯顿 相似性匹配系统和方法
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
CN108738036A (zh) * 2017-04-14 2018-11-02 广州杰赛科技股份有限公司 移动通信的关键用户提取方法和系统
CN108738036B (zh) * 2017-04-14 2021-06-18 广州杰赛科技股份有限公司 移动通信的关键用户提取方法和系统
TWI742446B (zh) * 2019-10-08 2021-10-11 東方線上股份有限公司 詞句庫擴展系統及其方法

Also Published As

Publication number Publication date
RU2005114666A (ru) 2006-11-20
BRPI0503220A (pt) 2006-01-10
EP1596314A1 (en) 2005-11-16
US20050256833A1 (en) 2005-11-17
JP2005327299A (ja) 2005-11-24
CA2507365A1 (en) 2005-11-14
KR20060047858A (ko) 2006-05-18
CN1728147B (zh) 2010-09-08
EP1596314B1 (en) 2013-07-17
KR101130533B1 (ko) 2012-04-12
MXPA05005219A (es) 2005-12-06
US7376643B2 (en) 2008-05-20
AU2005202016A1 (en) 2005-12-22
AU2005202016A8 (en) 2005-12-22
RU2419857C2 (ru) 2011-05-27
JP5147162B2 (ja) 2013-02-20

Similar Documents

Publication Publication Date Title
CN1728147B (zh) 基于异类关系确定目标相似性的方法和系统
RU2517271C2 (ru) Длина документа в качестве статического признака релевантности для ранжирования результатов поиска
Simonini et al. Schema-agnostic progressive entity resolution
Bharat et al. Who links to whom: Mining linkage between web sites
CN1716259A (zh) 基于内部-类型和交互-类型关系来排列对象的方法和系统
US7117206B1 (en) Method for ranking hyperlinked pages using content and connectivity analysis
Hogan et al. Performing Object Consolidation on the Semantic Web Data Graph.
US20030074352A1 (en) Database query system and method
US9262495B2 (en) Dimensional reduction mechanisms for representing massive communication network graphs for structural queries
AU2011227327B2 (en) Indexing and searching employing virtual documents
US20070143282A1 (en) Anchor text summarization for corroboration
US20070094250A1 (en) Using matrix representations of search engine operations to make inferences about documents in a search engine corpus
US20090083266A1 (en) Techniques for tokenizing urls
US20060235842A1 (en) Web page ranking for page query across public and private
US20120246146A1 (en) Two phase method for processing multi-way join query over data streams
Shi et al. Realtime index-free single source simrank processing on web-scale graphs
Zhu et al. SimRank computation on uncertain graphs
Barrio et al. Sampling strategies for information extraction over the deep web
Li et al. DSM-PLW: Single-pass mining of path traversal patterns over streaming Web click-sequences
Lahiri et al. Identifying correlated heavy-hitters in a two-dimensional data stream
Kumar et al. High utility itemsets mining from transactional databases: a survey
US20030018623A1 (en) System and method of query processing of time variant objects
Ansari et al. A comparative study of mining web usage patterns using variants of k-means clustering algorithm
Sriram et al. Efficient Data Cleaning Algorithm and Swift Unique User Identification Algorithm Using Coalesced Hashing and Binary Search Techniques for Web Usage Mining
Wookey Hierarchical web structure mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100908

Termination date: 20140516