CN101268465A - 分类一组电子文档的方法 - Google Patents

分类一组电子文档的方法 Download PDF

Info

Publication number
CN101268465A
CN101268465A CNA200680034703XA CN200680034703A CN101268465A CN 101268465 A CN101268465 A CN 101268465A CN A200680034703X A CNA200680034703X A CN A200680034703XA CN 200680034703 A CN200680034703 A CN 200680034703A CN 101268465 A CN101268465 A CN 101268465A
Authority
CN
China
Prior art keywords
document
group
correlation
degree
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200680034703XA
Other languages
English (en)
Other versions
CN101268465B (zh
Inventor
杰罗姆·高尔蒂尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101268465A publication Critical patent/CN101268465A/zh
Application granted granted Critical
Publication of CN101268465B publication Critical patent/CN101268465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明关于用于分类一组电子文档的方法,包括以下存在的步骤:针对该组的每对文档{u,v}确定(S110)在文档u和v之间的相关度ω(u,v);确定在所述组文档和组Rd的球面之间的投影的函数,其中d是正整数,函数X使得对于至少一个文档u,在Rd中两点X(u)和X(v)之间的距离越小,则相关度越高,其中v是在文档u和v之间存在相关度的文档;基于函数X所取的值,关于所述组文档的至少一个部分执行分类操作(S140)。

Description

分类一组电子文档的方法
技术领域
本发明属于电信领域,并且特别地属于用于搜索电子文档的搜索引擎领域。
更精确地,本发明涉及分类一组电子文档的方法。例如,由用户通过因特网类型的网络上的搜索引擎执行搜索而产生这样的一组,在这种情况中的电子文档是Web页面(“万维网”的简称),其通过本地存储介质而本地访问,或经由网络而被远程访问。
背景技术
搜索引擎利用用于评价(rate)或分类从搜索中出现的页面的几种技术。在用于探查(explore)一组Web页面的公知技术中,一些技术依靠语义学,如果一个页面包含所搜索的词的大量出现(occurrence),则页面被评价为更加相关。这些技术敏感于名字“兜售信息(spamming)”公知的作法,其旨在使因特网用户在他们的搜索查询中通常使用的词在给定页面中展示大量次数,这具有使所述页面当作相关的而频繁出现的效果。
其他技术基于Web的拓扑结构。这些技术同时考虑在所考虑的页面之间的现存链接以及这些页面本身的性质,如在Web的网络域或子域中页面的从属关系(membership)。这些技术通常基于要处理的页面的图型表示法。它们适于满足在所述图中给出的拓扑性质的页面的分类。这些技术敏感于“兜售信息”的方法的变体,其旨在多次引用给定页面,这具有本地伪造Web的图的拓扑特性的效果。
一些利用Web的拓扑结构的技术存在于通过向各种页面分配依赖于页面和其他页面之间的关系的排名(rank)来实现Web页面的分类。
这样的过程的示例,公知为术语“PageRank”,用在GoogleTM搜索引擎的实现中并在文档中被描述:“The PageRank Citation Ranking:Bringing Order onthe Web”,by L.Page,S.Brin,R.Motwani and T.Winograd;Technical Report,Computer Science Department,Stanford University,1998。
PageRank过程基于Web上页面可见性来排序页面。在该过程中,模拟通过跟随超文本链接在Web上随机的逐页浏览。该浏览对应于当后者随机地激活位于所查看页面中的超文本链接之一时通过用户访问Web而造成的浏览,以便访问另一页面。该过程承担该模拟的浏览的概率分析,以便确定在诸如此的随机逐页浏览期间位于给定页面的用户的概率。一个页面被其他页面引用的次数越多,页面的排名就越高。
这种过程提供了对于由用户执行的搜索非必要相关的评价排名。最好评价的页面(最高排名)不必然是最好地与用户的期望对应的页面。
此外,该过程不可能在一组文档中识别主题一致(community)或兴趣一致,不能够将用户更加迅速地指引到感兴趣的页面。
最终,在用户在一组呈现的文档中识别他特别感兴趣的文档的情况下,不可能通过使用仅基于其排名而排序的一列文档来容易地确定与感兴趣的文档接近或无论如何与后者链接的其他文档是否出现在该组文档中。
发明内容
因此本发明的目标特别是通过提出用于分类电子文档(如网页)的技术来解决现有技术的上述缺点,特别使检测兜售信息的问题成为可能,其适用于一大组文档且易迅速实现,并且不是通过分配排名,而是不管基于文档的语义内容、还是在这些文档之间的超文本链接或完全为一些其他方式定义所述接近的概念,完全通过构造彼此相近的文档或文档的子组的一致使简单分类文档成为可能。
由于这个目的,本发明的主题是,根据第一方面,分类一组电子文档的方法,包括步骤:
-计数出现在所述组的每对文档{u,v}之间的超文本链接或联合引用(cocitation),
-对于所述组的每对文档{u,v},确定在文档u和v之间的相关度ω(u,v),所述相关度取决于在完成计数步骤时获得的链接数,
-对于所述组的每个文档u,确定位于组Rd的球面的关联点X(u),其中R是一组实数而d是一个正整数,对于所述组的至少一个文档u1,在Rd中关联点X(u1)和X(u2)之间的距离越小,文档u1和u2之间的相关度就越高,其中u2是在文档u1和u2之间存在相关的文档,
-将所述组文档的至少部分基于在所述球面上确定的点而分类。
使用球面来确定点的位置的事实是独创的,在于这使得对于所获得的点-因此对于相关联的文档-可以简单地定义这些点关于彼此的相对位置。具体地,在这种表示法模式中,没有点关于另一点是有利的(favor)。因此,两点之间的相对位置,并且因此这两点之间的距离,可以用于表示与这两点相关联的两个文档之间的相关度。由此获得的表示法反映了涉及的文档之间的相关或链接。
采用球面上(例如在三维空间中的球面)的一组文档的表示法的事实,进一步使得设想任意类型的分类操作成为可能:通过选择、评价(rate)、过滤、分级,并且简单地实行这些,这是由于每个文档从此以后在N维空间中由一简单的n重数(tuple)坐标来表示(例如通过三维空间中的三个坐标来表示)。
存在所述方法的多种应用:文档的簇的构建、文档的评价或选择。在空间Rd中基于文档的投影的空间位置或基于距离测量结果来执行这些操作,也就是说通过考虑它们的相关度或接近度来确定。
根据本发明的方法可以例如用于执行从搜索引擎执行的搜索中产生的WEB页面的任意种类的分类操作、评价、分级,最初的页面,也就是说距离其他页面最远的页面,被评价为例如最高。
作为选择或组合,所述页面通过群(group)来分类,每一个群与一组页面相对应,所述组页面通过函数X的投影位于空间Rd的球面的预定义空间区域中。优选地,在这个变体中,限定该球面到空间区域的分割,并且根据它们在分割的空间区域之一中的投影的从属关系而评价所述文档。
根据本发明的方法还可以用于检测“兜售信息”的出现,也就是彼此指向的页面,这是因为在球面S上的所有这些页面的投影将基本上彼此靠近。
根据本发明的方法还可以用于产生从由搜索引擎执行的搜索中产生的WEB页面的可视表示(visual representation)。
根据所述方法的第一变体(variant),其中至少文档之一呈现出到至少另一文档的至少一个超文本链接,两个文档u和v之间的相关度基于出现在文档u和v之间的超文本链接数和/或联合引用链接数而确定,相关度越高,则该数目就越大,不存在相关对应于不存在链接。
该第一变体有利地允许了考虑文档之间的超文本链接或联合引用链接的分类操作的实现。
根据所述方法的第二变体,两个文档u和v之间的相关度基于文档u和v的语义内容的接近的测量结果而确定,相关度越高,该测量结果就越低,不存在相关对应于测量结果低于预定义的阈值。
该第二变体有利地允许了考虑文档的语义内容的分类操作的实现。
根据第三变体,相关度基于由多个用户定义的喜爱页面而确定。在这种情况下,由于每个用户均与一组文档相关联(他的喜爱页面),所以两个文档u和v之间的相关度作为文档u和v所属于的这样的组的数目而确定。
该第三变体有利地使得在确定页面之间的相关度时考虑用户简档(profile)成为可能。
所述三种变体可以进一步联合在一起,以便确定同时考虑超文本链接、语义内容和/或更适宜用户的相关度。两个文档之间的任意其他类型的链接也用于定义相关度。
根据特定实施例,所述方法进一步包括步骤:
-定义用于将所述组投影到所述球面的初始函数X0
-确定用于将所述组投影到所述球面的初始函数X,所述投影函数X以至少一次迭代、基于初始函数X0而获得,每一次迭代在于基于在上一迭代中获得的函数Xi-1来对于所述组的至少一个文档u,通过以值Xi(u)值替换Xi-1(u)来确定函数Xi,从而使得对于属于所述组的任意文档v,优化取决于值Xi-1(u)和值Xi-1(v)以及文档u和v之间的相关度ω(u,v)的预定义准则成为可能。
根据本发明的方法有助于函数X的迭代确定,由此简化了其实现并且使得精确控制所述方法的收敛成为可能。
优选地,以随机方式定义函数X0。统计地从随机函数开始的事实改进了收敛到所期望的函数X的速度,实行这些无需关于要获得的函数的先验知识。
在该实施例中,预定义准则的优化存在于对于文档u将量Δ(u)的值最大化等于:
Δ ( u ) = Σ { u , v } ∈ E δ ( u , v ) | | X i - 1 ( u ) - X i - 1 ( v ) | | 2
其中δ(u,v)=1-ω(u,v),0≤ω(u,v)≤1,在文档u和v之间不存在相关时ω(u,v)=0,
值Xi(u)等于
Xi(u)=-Y(U)/||Y(U)||其中
若Y(U)≠0,则 Y ( U ) = Σ veV - { u } δ ( u , v ) X i - 1 ( v )
若Y(U)=0,则值Xi(u)等于Xi-1(u)。
本发明的主题也是由计算机系统可读的信息介质上的计算机程序,所述程序包括当该程序被载入然后由计算机系统执行时,用于实现诸如以上简要定义的根据本发明的方法的指令。
本发明的主题也是数据处理装置,包括用于根据本发明的方法的步骤的执行的数据处理部件。这样的装置设备例如是实现文档搜索引擎的计算机服务器。
本发明的主题也是由计算机系统可读的记录介质,包括程序,所述程序包括当所述程序由计算机系统执行时,用于实现根据本发明的方法的程序代码指令。
附图说明
本发明的其他目的、特性和优点将通过下面的完全以非限制示例给出的、并参照附图提供的描述而变得更加明显,其中
图1是根据本发明的方法的实施例的流程图。
具体实施方式
根据本发明的方法应用于一组电子文档,特别是一组WEB页面,对于它们中的一些,包括到一个或多个其他页面的一个或多个超文本链接。
在图解的所选择的实施例中,一组文档V的两个文档u和v之间的相关度基于存在于文档u和v之间的超文本链接和联合引用链接的数目而确定。
对于两个文档之间超文本链接数的确定,不考虑超文本链接的意义而考虑“对称的”超文本链接,也就是说将相同的处理应用到文档u包括到文档v的链接的情况和文档v包括到文档u的链接的情况。
如果存在至少一个其他文档w使得:
-存在至少一个从w指向u的超文本链接,以及
-存在至少一个从w指向v的超文本链接,
则两个文档u和v具有联合引用链接。
现在通过参照图1更详细地描述根据本发明的方法的步骤。
步骤S100存在于对于所述组V的文档的任意对{u,v}确定取决于文档u和v之间的超文本链接数的权重ω1(u,v)。优选地,函数ω1(u,v)是文档u和v之间的超文本链接数的增函数。
优选地,ω1(u,v)的值位于预定义的最小值(一般是0)和预定义的最大值(一般是1)之间。在这种情况下,最小值与在文档u和v之间不存在超文本链接相对应,而最大值例如与在文档u和v之间出现预定义的最小数目的超文本链接相对应。
根据第一示例,在不存在超文本链接时ω1(u,v)的值选为等于0,而在文档u和v之间至少出现一个超文本链接时ω1(u,v)的值选为等于1。
根据第二示例,在不存在超文本链接时ω1(u,v)的值选为等于0,在文档u和v之间出现单个超文本链接时ω1(u,v)的值选为等于0.5,而在文档u和v之间出现两个或多个超文本链接时ω1(u,v)的值选为等于1。
根据第三示例,将ω1(u,v)的值定义为在文档u和v之间的超文本链接数Nh的连续增函数,例如:
ω 1 ( u , v ) = N h N h max
其中Nhmax是超文本链接数Nh的最高阈值。
步骤S105存在于对于所述组V的文档的任意对{u,v}确定取决于文档u和v之间的联合引用链接数的权重ω2(u,v)。优选地,函数ω2(u,v)是文档u和v之间的联合引用链接数的增函数。
针对ω1(u,v)给出的函数定义示例可换位于ω2(u,v)。例如,在不存在联合引用链接时ω2(u,v)的值选为等于0,而在文档u和v之间至少存在一个联合引用链接时ω2(u,v)的值选为等于1。
步骤S110存在于对于文档的任意对(u,v)确定与对{u,v}通过以下关系相关联的相关度ω(u,v)。
ω(u,v)=k1ω1(u,v)+k2ω2(u,v),
k1和k2是实系数使得,
0≤k1≤1,
0≤k2≤1,
k1+k2=1.
由此相关度ω(u,v)取得位于0和1之间的实数值,值0与不存在链接相对应。
由于希望强调超文本链接的存在,所以赋予系数k1的值将被选择得更高。相反,由于希望强调联合引用链接的存在,所以赋予系数k2的值将被选择得更高。
用于确定文档之间的相关度的该过程使得在根据本发明的、用于分类文档的方法中,在文档之间考虑两种类型的链接:超文本链接和联合引用链接成为可能。
该过程对其他类型的链接是普遍的。例如,如果存在一个或多个超文本链接使得从u传递到v成为可能,则可以定义两个文档u和v通过间接超文本链接而互连,在这种情况下的超文本链接数大于或等于2。
根据另一示例,可以考虑文档之间的语义类型的链接。在这种情况下,基于两个文档的语义内容的分析和比较来执行两个文档之间的相关度的确定。就这个目的而言,用于比较语义内容的公知过程是适用的。然后相关度表示两个文档之间语义接近的测量。例如可以基于在每个文档中所包括的词语的统计分析和比较来确定语义相关度。作为变体,可以定义两个文档之间的距离以及将相关度作为所定义的距离的减函数而定义,以这种方式使得两个文档之间的距离越小,则这些文档之间的相关度越高。
将该过程最终概括为链接的任意值,而不管它们的类型。然后将两个文档之间的相关度确定为加权的各初等相关度之和,例如取决于两个文档之间的联合引用链接数的相关度与取决于两个文档的语义内容的相关度的和。所述过程使得同时考虑文档间的超文本链接所提供的信息以及文档的语义内容所提供的信息成为可能。
返回图1,下面的步骤S120到S135在于确定用于在文档的组V和组Rd(R的d次笛卡儿幂,其中R表示一组实数,而d是正整数)的球面S之间投影的函数X。最好将d选为等于2或3。
所确定的函数X是这样的,使得对于至少一个文档u,两点X(u)和X(v)之间在Rd中的距离越小,相关度就越高,其中v是在文档u和v之间存在相关的文档。
根据特定实施例,迭代处理用于确定函数X。该迭代处理的每一次迭代在于基于在前一步骤得到的函数Xi-1来对于所述组V的至少一个文档u,通过以Xi(u)值替换Xi-1(u)值确定函数Xi,从而使得优化预定义的准则成为可能;该准则一方面取决于对于所考虑的文档u获得的Xi-1(u)值以及对于所述组V的任意文档v获得的Xi-1(u)值,而另一方面取决于在所述组V的文档u和任意文档v之间的相关度ω(u,v)。选择所述准则,以便使一系列函数Xi收敛于呈现上述特性的函数X。
优选地,所述预定义准则的优化在于对于给定的文档u最大化数量Δ(u)的值,Δ(u)等于,
Δ ( u ) = Σ { u , v } ∈ E δ ( u , v ) | | X ( u ) - X ( v ) | | 2
其中δ(u,v)=1-ω(u,v),0≤ω(u,v)≤1,并且在文档u和v之间不存在相关时ω(u,v)=0。
在步骤S120,确定初始投影函数X0。优选地,初始函数X0取得球面S上的随机值。其后将迭代处理应用于当前函数Xi=X0
确定投影函数X的迭代处理从步骤S125开始。迭代与步骤S125、S130以及S135的执行相对应。迭代由索引i来表示。在步骤S120的结尾,索引i取得其初始值并且等于0。
在步骤S215,该索引递增:i=i+1。
在步骤S130,针对至少一个文档u执行下面的操作:
-确定 Y ( U ) = Σ v ∈ V - { u } δ ( u , v ) X i - 1 ( v ) 的值,
-若Y(U)≠0,则通过Xi(u)=-Y(U)/||Y(U)||通过Y(U)计算Xi(u),
-若Y(U)=0,则Xi(u)采取等于Xi-1(u)。
在步骤S135,确定迭代处理是否结束。优选地,该处理被迭代充分多的次数,用于函数X针对组V的每一个文档u修改至少一次。
即使使用随机开始函数,一系列函数Xi也能快速收敛,可以对于一组文档迭代有限次数。
终止迭代的判断还可以基于:
-已经执行的迭代次数,
-在每次迭代之后执行的函数收敛性的测量结果。
该收敛性的测量结果可以通过在每次迭代之后以如下方式计算和Δi
Δ i = Σ uev | | X i ( u ) - X i - 1 ( u ) | |
并且通过固定阈值来执行,所述阈值可能取决于组V的文档u的数目,低于所述阈值则迭代处理终止。
在步骤S135,如果采取终止迭代处理的判断,则在其之后执行步骤S140;否则从步骤S125开始,执行以下迭代。
在步骤S140,基于在上次迭代获得的函数X所取得的值,对于文档的组V的至少一部分执行分类操作。
依靠所确定的投影函数X,球面S上的点X(u)的位置取决于文档u和其他文档之间的链接。特别地,两点之间的距离表示与这两个点对应的文档之间的相关度。
可以想到使用其他数学准则来使得初始随机函数收敛到这样的函数。
在组V是从由搜索引擎执行的搜索中产生的一组WEB页面的情况下,该分类操作可以针对:
-通过检测具有距离其他投影最远的投影的页面来选择最初始的页面;
-通过检测其投影基本上接近于一群页面的投影的页面来过滤包含“兜售信息”的页面(指向彼此的页面);
-选择其投影满足所确定的准则的页面。
根据第一变体,分类操作包括以下操作:
-针对组V的任意对{u,v}的距离值d(u,v)=||X(u)-X(v)||的计算,
-组V的至少一个子组V1的确定,其中值d(u,v)满足预定义的准则,例如高于或低于预定义的阈值。
该第一变体使得检测球面上的点的簇成为可能,并且因此使得确定对应的文档簇成为可能。
根据第二变体,分类操作包括存在于确定子组V1的操作,对于所述子组任意点X(u)属于所确定的组,例如属于Rd中的空间中的预定义区域。
该区域可以是例如球面的、立方体的内部体积,或在Rd的球面S上限定的其它表面。通过针对几个预定义的区域重复这些处理,可以构建所述组文档的划分或分割。
根据本发明的方法由此使得基于由所确定的函数X所取的值,关于一组文档执行任意种类的分类操作成为可能。
此外,可以证明用于确定函数X的处理快速收敛。
此外,当相关度基于超文本链接数的而确定时,用于该处理的迭代的计算时间正比于该超文本链接数。本发明的所述方法因此可以用于大量页面。
最后,要是修改该组电子文档,(通过文档添加、文档删除或文档之间链接的修改),它能够从对于未修改的组而获得的函数X开始,然后对于一些所选择的文档(优选地,至少针对已经经历修改或已经被添加的文档)进行步骤130的执行,以便确定经校正的、考虑经修改的电子文档组的函数X。因此本发明特别适用于包含大量文档的组的处理,所述文档的部分被时常更新。
在根据本发明的方法的变体中,产生函数X的图解表示法,也就是说所述球面以及位于所述球面上的点X(u)的表示法。产生这样的图解表示法的事实使得可能促进由用户对于相关文档组的选择。该表示法可以例如以二维制图(cartgraphic)表示法的形式来完成,其中每个文档由与针对该文档所确定的函数X的值相对应的绘图符号来区分。
由此本发明有助于一实施例,其中在用户计算机终端上显示该图解表示法,所述用户计算机终端包括显示屏以及图形选择工具(例如与指示器结合使用的鼠标,使得在屏幕上限定图像区域成为可能),该工具适于选择图解表示法的至少一部分。
然后用户能够执行与他所选择的一个或多个组的文档对应的图解表示法的一个或多个部分。终端经由图形选择工具来获得限定所选择的部分的数据。基于这些数据,终端分类文档的组V。产生例如减少的一列文档,与其投影位于由用户所选择的部分中的文档对应。可选择地,相反,排除其投影位于所选择的部分中的文档。基于由用户保存的一列文档,可以执行附加的分类操作,这些操作或者基于文档的属性或它们的相关度而自动地执行,或者基于在初始选择的部分之内选择的新的部分而手动地执行。
查看由搜索引擎执行的搜索的结果的这种模式对于用户是特别工效的(ergonomic)。它以一组共同接近点的形式来显示文档的一致。
诸如本发明中所定义的基于投影的表示法因此使得通过图形选择工具可视地并且手动地,或者根据与在所产生的表示法中的这些文档的位置相链接的预定义的准则来自动地执行分类或分级。
根据优选实现,根据本发明的分类电子文档的方法的步骤由计算机程序的指令而确定。
这里,“计算机程序”被理解为表示一个或多个计算机程序,当其由合适的计算机系统执行时,形成其目的是实现本发明的一组(软件)。
然后当前述程序被载入到集成的计算机装置(例如载入到链接的用户终端)时,如果适于因特网类型的网络并且装配有因特网浏览器软件,则实现根据本发明的方法。
因此,本发明的主题也是这样的计算机程序,特别以存储在信息介质上的软件的形式。这样的信息介质可以包括能够存储根据本发明的程序的任意实体或装置。
例如,正被讨论的介质可以包括诸如ROM之类的硬件存储装置,例如CD-ROM或微电子电路ROM,或者磁记录装置,例如硬盘。作为变体,信息介质可以是集成了所述程序的集成电路,所述电路适于执行或用在正被讨论的方法的执行中。
此外,信息介质还可以是可传送的非硬件介质,诸如可以通过无线电或其他装置经由电或光缆传输的电或光信号。根据本发明的程序可以特别地从因特网类型的网络中下载。
从设计的角度来看,根据本发明的计算机程序可以使用任意编程语言并且可以以源代码、目标代码或在源代码和目标代码之间的中间代码(如部分经编译的代码)的形式,或者以用于实现根据本发明的方法的任意其他所期望的形式。

Claims (10)

1.一种分类一组电子文档的方法,包括步骤:
-计数在所述组的每对文档{u,v}之间出现的超文本链接或联合引用,
-针对所述组的每对文档{u,v}确定文档u和v之间的相关度ω(u,v)(S110),所述相关度取决于在计数步骤完成时所获得的链接数,
-针对所述组的每个文档u确定位于组Rd的球面上的相关联点X(u)(S120、S125、S130、S135),其中R是一组实数而d是正整数,对于所述组的至少一个文档u1,在Rd中相关联点X(u1)和X(u2)之间的距离越小,则文档u1和u2之间的相关度就越高,其中u2是在文档u1和u2之间存在相关的文档,
-将所述组文档的至少部分基于在所述球面上确定的点而分类(S140)。
2.如权利要求1所述的方法,其中至少一个所述文档包括至少一个到至少一个其他文档的超文本链接,在两个文档u和v之间的相关度基于出现在文档u和v之间的超文本链接数、和/或联合引用链接数而确定,相关度越高,则该链接数越大,不存在相关与不存在链接相对应。
3.如权利要求1或2所述的方法,其中两个文档u和v之间的相关度取决于文档u和v的语义内容的接近的测量结果,相关度越高,则所述测量结果越低,不存在相关与测量结果低于预定义的阈值相对应。
4.如权利要求1或2所述的方法,包括步骤:
-定义(S120)用于将所述组投影到所述球面的初始函数X0
-确定用于将所述组投影到所述球面的函数X,所述投影函数X以至少一次迭代、基于初始函数获得,每一次迭代在于基于在上一迭代中获得的函数Xi-1,通过对于所述组的至少一个文档u,以值Xi(u)替换值Xi-1(u)来确定函数Xi,从而使得对于属于所述组的任意文档v,可以优化取决于值Xi-1(u)和值Xi-1(v)以及在文档u和v之间的相关度ω(u,v)的预定义准则(S125、S130、S135)。
5.如权利要求3或4所述的方法,其中所述预定义的准则的优化在于针对文档u将量Δ(u)最大化为等于,
Δ ( u ) = Σ { u , v } ∈ E δ ( u , v ) | | X i - 1 ( u ) - X i - 1 ( v ) | | 2
其中δ(u,v)=1-ω(u,v),0≤ω(u,v)≤1,在文档u和v之间不存在相关时ω(u,v)=0,
值Xi(u)等于Xi(u)=-Y(U)/||Y(U)||,其中
若Y(U)≠0,则 Y ( U ) = Σ veV - { u } δ ( u , v ) δ ( u , v ) X i - 1 ( v ) ,
若Y(U)=0,则值Xi(u)等于值Xi-1(u)。
6.如前述权利要求中任意之一所述的方法,进一步包括在于产生所述球面的图解表示法以及位于所述球面上的点X(u)的图解表示法的步骤。
7.如权利要求6所述的方法,进一步包括步骤存在于:
-在终端上显示所述图解表示法,
-向终端用户提供合适的图形选择工具,用于至少部分所述图解表示法的图形选择,
-获取限定通过所述用户选择的至少一个部分的数据,
-基于所述数据对于所述组的文档执行分类。
8.一种程序,包括记录在通过计算机系统可读的介质中的程序代码指令,用于实现如权利要求1到7的任意一个所述的方法。
9.一种数据处理装置,包括数据处理部件,用于如权利要求1到7的任意一个所述的方法的步骤的执行。
10.一种由计算机系统可读的记录介质,包括程序,所述程序包括当由计算机系统执行所述程序时,用于在权利要求1到7的任意一个中所述的方法的实现的程序代码指令。
CN200680034703XA 2005-09-20 2006-09-07 分类一组电子文档的方法 Active CN101268465B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0552826 2005-09-20
FR0552826 2005-09-20
PCT/FR2006/050856 WO2007034096A1 (fr) 2005-09-20 2006-09-07 Procede de tri d'un ensemble de documents electroniques

Publications (2)

Publication Number Publication Date
CN101268465A true CN101268465A (zh) 2008-09-17
CN101268465B CN101268465B (zh) 2012-05-02

Family

ID=36481229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680034703XA Active CN101268465B (zh) 2005-09-20 2006-09-07 分类一组电子文档的方法

Country Status (5)

Country Link
US (1) US7827173B2 (zh)
EP (1) EP1938219A1 (zh)
JP (1) JP2009509259A (zh)
CN (1) CN101268465B (zh)
WO (1) WO2007034096A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937436A (zh) * 2009-06-29 2011-01-05 华为技术有限公司 一种文本分类方法及装置
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4518168B2 (ja) * 2008-03-21 2010-08-04 富士ゼロックス株式会社 関連文書提示システム及びプログラム
WO2010078859A1 (de) * 2009-01-08 2010-07-15 Beel Joeran Verfahren und system zum ermitteln einer ähnlichkeit von dokumenten
US9313284B2 (en) 2013-03-14 2016-04-12 International Business Machines Corporation Smart posting with data analytics and semantic analysis to improve a message posted to a social media service
WO2017167962A1 (en) 2016-03-31 2017-10-05 H. Schinkel Holding B.V. Apparatus comprising a pivotable arm and a configurable spring
CN113807101A (zh) * 2020-06-11 2021-12-17 阿里巴巴集团控股有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5808615A (en) * 1996-05-01 1998-09-15 Electronic Data Systems Corporation Process and system for mapping the relationship of the content of a collection of documents
US6453246B1 (en) * 1996-11-04 2002-09-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing proximity data in a multi-dimensional space
US5987470A (en) * 1997-08-21 1999-11-16 Sandia Corporation Method of data mining including determining multidimensional coordinates of each item using a predetermined scalar similarity value for each item pair
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
GB9811874D0 (en) * 1998-06-02 1998-07-29 Univ Brunel Information management system
JP2000076267A (ja) * 1998-08-31 2000-03-14 Sharp Corp 情報検索方法、情報検索装置、及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
JP3604069B2 (ja) * 1999-05-19 2004-12-22 日本電信電話株式会社 文書間関連度計算装置、その方法およびその記録媒体
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
JP4005798B2 (ja) * 2001-12-05 2007-11-14 日本電信電話株式会社 文書間関連度計算装置並びに記録媒体及びソフトウェア
US7194465B1 (en) * 2002-03-28 2007-03-20 Business Objects, S.A. Apparatus and method for identifying patterns in a multi-dimensional database
JP3904548B2 (ja) * 2003-10-30 2007-04-11 チームラボ株式会社 関連度の表示装置、表示方法、ならびに、プログラム
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937436A (zh) * 2009-06-29 2011-01-05 华为技术有限公司 一种文本分类方法及装置
CN101937436B (zh) * 2009-06-29 2013-09-25 华为技术有限公司 一种文本分类方法及装置
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN112528016B (zh) * 2020-11-19 2024-05-07 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法

Also Published As

Publication number Publication date
EP1938219A1 (fr) 2008-07-02
WO2007034096A1 (fr) 2007-03-29
US7827173B2 (en) 2010-11-02
US20080208860A1 (en) 2008-08-28
CN101268465B (zh) 2012-05-02
JP2009509259A (ja) 2009-03-05

Similar Documents

Publication Publication Date Title
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN1716259B (zh) 基于内部-类型关联和交互-类型关联来排列对象的方法和系统
CN107704467B (zh) 搜索质量评估方法及装置
CN101268465B (zh) 分类一组电子文档的方法
US20080313115A1 (en) Behavioral Profiling Using a Behavioral WEB Graph and Use of the Behavioral WEB Graph in Prediction
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
JP5543020B2 (ja) リサーチミッション識別
CN104765874A (zh) 用于检测点击作弊的方法及装置
CN105247507A (zh) 品牌的影响力得分
EP1782278A2 (en) System and method for document analysis, processing and information extraction
CN101180624A (zh) 基于链接的垃圾检测
CN101477563A (zh) 一种短文本聚类的方法、系统及其数据处理装置
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
Angelini et al. CLAIRE: A combinatorial visual analytics system for information retrieval evaluation
CN104239335B (zh) 特定用户信息获取方法及装置
CN102081601A (zh) 一种领域词识别方法和装置
CN113254810B (zh) 搜索结果输出方法、装置、计算机设备及可读存储介质
EP4272087B1 (en) Automated linear clustering recommendation for database zone maps
Chen et al. Recommending software features for mobile applications based on user interface comparison
Ferro et al. The twist measure for IR evaluation: Taking user's effort into account
CN110472659A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
Lindemann et al. Coarse-grained classification of web sites by their structural properties
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN116483337A (zh) 一种基于提示学习和数据增强的api补全方法
Labhishetty et al. A cognitive user model for e-commerce search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant