CN1767541A - 对等信息交换中语义互操作性的自组织方法 - Google Patents
对等信息交换中语义互操作性的自组织方法 Download PDFInfo
- Publication number
- CN1767541A CN1767541A CNA2005101291344A CN200510129134A CN1767541A CN 1767541 A CN1767541 A CN 1767541A CN A2005101291344 A CNA2005101291344 A CN A2005101291344A CN 200510129134 A CN200510129134 A CN 200510129134A CN 1767541 A CN1767541 A CN 1767541A
- Authority
- CN
- China
- Prior art keywords
- classification
- label
- agency
- information
- information system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
在对等信息系统网络中的信息交换中,由与每个对等体相关的代理使用的通信系统的语义互操作性的问题不是通过将通用的预定义本体强加于普遍定义的概念模式上来解决的,而是使用受自然语言启示的机制,该机制能使每个代理开发基本类别的清单和用于这些类别的标签,并且使得每个代理与其它代理协商他们的使用和语义。通信系统以及它的语义因此出现并自适应而不是预定义的。
Description
技术领域
本发明涉及对等网络中的信息交换领域。更具体地说,本发明涉及一种促进对等网络中交换信息的对等体之间的语义互操作性的方法和系统。
背景技术
信息系统包含数据集合以及可能依据某种概念模式构造的的元数据集。在本文档中,表述“元数据”用于在广义上包括不同事物中的书目属性的数据-作者、艺术家、建立日期、风格、起源国家等等-除非先前的信息可用这些通常都不能被确定,也包括描述相关内容本身的数据(这些即使在没有预先了解的情况下也能确定),例如:
-对于歌曲来说,这可包括有关歌曲的速度节奏、音调、打击乐等等的数据,
-对于电影来说,这可包括指示电影主要在室内还是室外布景的数据、是否涉及城市景观或者自然景观等等的数据,
-对于文档来说,这可包括关键词(能够由统计分析来确定)等,
-对于图像来说,这可包括色彩直方图、指示图像是否是合成图像或照片的信息、源于图像中的对象和形状检测/识别的数据等,以及诸如此类的用于不同类型的内容。
数据和元数据在某种程度上都是可扩充的,随时可以增减新数据。新的元数据可能变得能被系统从外部源访问,例如,可以通过作为环球网服务可用的信号处理算法等计算出节奏。
为了能够进行用户交互,信息系统通常允许用户依据她自己命名的类别分门别类地构造数据,以使得她能够通过这些命名来检索数据项。典型的信息系统实例是:
-用户在书签文件夹中组建的“喜爱”网页。该数据由网页的URL组成并且分类是命名的文件夹的分层结构,用户可通过所述文件夹进行浏览以检索网页。该分类由用户隐含地定义网页的归类。
-用户保存的音乐文件集,组织为一系列命名的分级播放列表。
-图片集,根据用户的特殊兴趣喜好组织,例如一系列按照病理组织的医学图片,或者按照时代、风格或者画家组织的一系列绘画作品。
-科学论文集,按照特定研究主题组织。
人类用户(进一步称为信息系统的所有者)通过添加数据、以分类的形式对数据进行构造以及对分类中的节点予以命名来控制她的信息系统。应指出,这些分类所隐含的用户的分类是基于个人认知处理的,这对于其它用户或者信息系统都是不可用的。比如,用户可能决定将所有她喜欢的歌曲都放在一个文件夹中而将她不喜欢的歌曲放在另一个文件夹中。这种归类决定是完全主观的并且不可能由机器进行自动化或者模拟。
用户创建并维护的分类在此应指示“所有者的分类”。分类中使用的名称(可以是词或是短语)是所有者的名称。分类意味着一种特别的归类方式(也许只能在所有者的直觉层面上可知),这称为用户本体(参见图1)。用户本体隐含地暗示在分类中,但是以其它方式不可知。图1也例示了信息系统使用根据某种特定概念模式组织的元数据的例子。
对等信息系统由这种信息系统的集合组成。每个信息系统由不同的用户拥有和维护,并假定为彼此独立运行。通常,每个信息系统都驻留在用户拥有的计算机系统上,用户可利用与计算机系统上运行的应用软件(例如用于浏览信息系统数据集的应用软件)相关的一些接口与信息系统进行交互。
对等信息系统的定义特征是它们允许对等体之间直接交换信息而不用通过中心服务器。对等信息系统的实例是对等音乐文件共享,诸如Napster或Gnutella,目前已有百万计的用户使用它们。类似用于电影或者游戏软件的共享网络也正在发展。在科学数据或教育资源领域也同样存在不断发展的对等共享系统网络。
在对等信息系统中,一个信息系统的所有者通常直接查询另一个信息系统以获得其它的数据。查询对等体的信息系统被称为客户机机而提供信息的系统称为服务器。例如:
-网络用户可能想要查询另一个用户的书签文件夹以查找可能感兴趣的网页。
-用户可能想要查询另一个用户的播放列表以查找她可能感兴趣的音乐。
-用户可能想要查询另一个用户的图片数据库以查找她感兴趣的图片。
-寻找与她调查研究的研究课题其中之一相关的论文的用户可能想要查询另一个用户存储的论文集。
在对等信息系统的主旨中,任一节点可以既是客户机机又是服务器。应当指出,用户通过分类与已经组织其数据的每一个所有者进行通信。
对等体间的信息交换并不限于客户机发送请求服务器中的数据的查询。用户可发送通告告知其它对等体关于她自己信息系统中的数据(例如,为它们提供数据)。再一次地,当制定定通告时,用户会采用她自己的分类。
对等信息交换中有两个关键问题。第一个是在一个对等体(客户机)的分类中使用的数据和名称通常不同于另一个对等体(服务器)使用的数据和名称,因此客户机所有者无法得知如何制定查询,而如果查询没有按照它(服务器的)的分类制定的话,服务器的所有者或者服务器本身也不知道如何进行响应制定。对目前操作对等系统的用户来说这确实是个问题。例如,在音乐共享网络中,用户必须设法猜测数据的标题以及文件夹和子文件夹的名称的含义。
第二个问题是每个信息系统中存储数据和元数据用的概念模式可能相差很大,尤其是如果元数据是自身可扩展的。即使是很小的不一致,例如使用不同的语言,也会是一个问题。例如,客户机可能具有元数据‘country(Belgium)’(比利时)”而服务器可能具有‘pays(Belgique)’。没有语义知识,信息系统不能得知如何将两个元数据互相映射,因此客户机无法简单地利用他自己的元数据制定查询。
两个问题都是所谓的“语义互操作性”问题的实例。
语义互操作性的一个解决办法是标准化。对等网络的不同用户约定一个前提:都使用相同的分类来构造他们的数据并且对他们的数据和元数据使用相同的概念模式。分类中的所有者名称则可作为同级间的共享的通信仂议。例如,所有的用户都同意使用Yahoo的分类来组织他们的数据,并采用Yahoo使用的名称(可能翻译成不同的语言)。
不幸的是,这样一种标准化方法不太可能作用于易变领域中的真正的可扩展对等网,例如音乐文件共享、医学图片或者科学论文这些领域。由于新的课题和新类型的数据总是不断出现,因此风格发生改变以及用户的兴趣出现分歧。还存在同样应该能够参与到对等网中的传统系统。在静态本体中一劳永逸地实现所有这些是非常困难的。
可选择地,每个对等体拥有它自己的本地分类和它自己的概念模式是可能的,但是这些都被转换为全局本体和用于查询和信息交换的概念模式,因此作为对等体之间的中间语言。所述转换尽可能地基于分类中名称的语义定义。例如,如果用户在他的音乐文件系统中有一个具有Beatles的歌曲的子文件夹,那么隐含类别的语义在对元数据的查询中被转换为“由(Beatles)表演的”(performed-by(TheBeatles))。该查询接着用于(可能在由中介转换之后)对对等体元数据的查询中。
这就是当前由语义网络初步关于网络信息系统(见T.Berners-Lee和J.Hendler于2001年5月在Scientific American上发表的“The Semantic Web”)开发的方法,而且更普遍的,由“通用的”本体例如那些由CYC或Wordnet(见“CYC,Wordnet and EDR-critiques and responses-discussion”D.Lenat等,Comm.of the ACM38(11),1995年11月45-48页,http://www.acm.org/pubs/articles/joumals/cacm/1995-38-11/p24-lenat/p45-lenat.pdf)。已经对发展普通本体、定义这些本体的支持系统、将本地模式映射为全局模式的方法以及在信息检索中使用本体的机制、即用于将归类映射到数据,做出了大量努力。然而关于这种方法具有若干主要缺陷的共识却在增加:
-依赖于通用本体的语义网只是将语义互操作性的问题推向了另一个层面。它仍然要求基于通用本体的标准化。很难想象在当前使用信息系统的全部人类活动的领域内可达成的和可实施世界范围内的一致。即使在有限的领域内这也是很困难的,因为全球的互连不断增加。
-人类活动和为他们建造的信息系统是开放系统。信息系统无法被一劳永逸地定义,而是必需适应新的需求。
-对等信息系统是分布式系统。不存在集中控制点因此集中控制它们是不可能的。
-许多信息系统已经存在,应当找到办法使它们能够参与到对等网中。
发明内容
本发明采用了语义互操作的可替代方法,借此利用组件扩展信息系统,使得对等体可以和数据领域和人类用户世界相互作用来发展和协商它们自己的通信协议。这样,代理自主地创建它们均可以本地翻译的中间语言。正如在人类自然语言中,一致将永远是自然发生的、自适应的和本地的。
本发明使用的方法可以被指定为SASI(语义互操作性的自组织方法);采用了由关于机器人-机器人和机器人-人通信的语言游戏的最近研究(见WO98/26368)而来的技术,并将这些技术加以扩展和改进以应用于当前任务。
根据本发明,语义互操作性被看作世界、信息系统和人类用户之间的协调问题。定义“符号学动态”的特定类型,使得作为对等信息交换的副效应,对等通信中使用的标签与代理用于解释这些标签的类别变得一致。信息交换中使用的标签以及标签的语义是新出现的(emergent),并且每个对等体中用于元数据的概念模式是本地(独立于其它对等体使用的模式)和可扩展的。
从代理的交互中产生一种中间语言。该中间语言决不会是静态的,而且在一组对等体中可以是本地专用的。定义每个代理本体论的类别纯粹是按照本地元数据来定义的,因此它们不是统一的。
本发明提供如所附权利要求中所描述的信息系统,适合与通过对等网络交换信息的其它信息系统达成语义互通性。
本发明进一步提供由这种信息系统使用的信息交换方法。
本发明还提供一种对等信息交换网络,包括在客户机模式或服务器模式下工作的信息系统,如所附权利要求中描述的,适合于发展语义互操作性。
本发明又进一步提供一种管理对等网中信息系统间的信息交换的方法,如所附权利要求所述。
附图说明
通过下面由实例和附图给出的优选实施例的描述,本发明的其它特征和优点将变得更加清楚,其中:
图1是说明传统信息系统中的数据结构和所有者定义的分类的框图;
图2是说明本发明的优选实施例中与信息系统相关联的代理的分类的框图;以及
图3是表示根据本发明优选实施例的不同信息数据项和对等交换中涉及的映射的框图;
图4是说明第一对等交换的框图;
图5是说明第二对等交换的框图;以及
图6是显示不同参数如何影响信息系统间的共用辞典的发展的图表。
具体实施方式
首先根据本发明的优选实施例,结合附图2和3说明SASI方法下的机制。
根据本发明的优选实施例,在对等信息交换中使用的信息系统具有称为信息代理(IA)的附加组件。该代理负责协调组织对等体之间的交互。通常,信息代理用软件实现。实现信息代理方法的细节与理解本发明无关,而且无论如何,鉴于以下给出的代理执行的有关功能的信息,对本领域技术人员来说都是显而易见的。因此,在此不包括涉及上述内容的进一步信息。
在这个阶段包括一些正式的定义是很有帮助的。
定义:
本发明的优选实施例利用由3元组组成的对等信息系统PI:
PI=<IS,O,IA>
其中IS=<D,MD,L,M>是一个由数据集D、元数据集MD、名称集L以及分类M组成的信息系统:L→p(D)通过枚举将名称映射到D的子集(p(D)是集合D的幂集,即D的所有子集的集合)。信息系统保持相同数据的若干个分类是可能的。名称和分类隐含地定义信息系统的用户本体。
-O(人类)所有者通过添加或删减数据以及将数据组织到分类M来管理信息系统。所有者不必访问或了解他自己信息系统可用的元数据。
-IA=<L’,M’>是定义标签集L’和另一个分类M’的代理:L’→p(D)将标签L’映射到D的子集。信息代理的分类不是通过枚举来定义的,而是基于类别集(如下面解释)。
对等信息网络N由对等信息系统集:N={PIl,...,PIn}组成。假定信息系统PIc的所有者Oc(进一步称为客户机)有兴趣通过查询获取另一个用户Os拥有的对等信息系统PIs的信息。在制定查询的时候,人类用户采用他们赋予数据的本地分类M。同级间的通信依据它们的信息代理使用的标签L’i进行。
这里考虑的对等信息网络是完全可扩展的。PI的所有者可以随时引入新的数据、新的元数据、新的标签或者M的改变。可以从整个网络中增加或删除新的对等信息系统,对于哪个对等体能与其它对等体进行通信没有任何限制。
在理想情况下,对于N中的所有PI,Li=Li’,Mi=Mi’都为真,换句话说,信息代理使用与它的所有者设置的相同的标签和相同的映射,而且网络中所有的对等信息系统(N中的所有PI)使用相同的L和M:
i,j PIi,PIj∈P→Li=Lj并且Mi=Mj
如果上述条件确实满足,那么信息的对等交换将会是微不足道的问题。客户机会通过发送标签l∈Lc发起查询,其中(l,Dl)∈Mc,而且Dl是客户机查询的某一种的数据集。服务器用由他自己的到自身数据集的映射Ms的应用产生的数据进行响应。因此用标签l进行的查询从服务器s引起一个等于D的子集的响应R,即:R={dk,...,dk+p}Ds,其中(l,R)∈Ms。因为所有者和代理分类都是相同的,所以信息代理不必发挥作用。
例如,如果客户机拥有有关“新生语义”的论文p1,...,pn的集合,即Mc(“新生语义”)={p1,...,pn},那么为了获得相同主题的更多论文,客户机发送标签“新生语义”至另一个作为服务器的对等体。假设Ms(“新生语义”)={q1,...,qm},那么每一个qj都是作为响应用于发送的候选者。
在现实世界中,网络(N)中对等信息系统(PI)的所有者相互通常使用不同的名称L和映射M(他们的信息系统通常使用依据不同模式组建的元数据)。因此客户机PIc使用的名称和映射并不一定与服务器PIs使用的相同。根据本发明的优选实施例,信息代理使用的标签和映射并不一定和它们的所有者使用的名称和映射相同。换句话说,对于给定的PI∈N,Li≠Li’,Mi≠Mi’是可能的。
本发明的优选实施例涉及由信息代理产生的用于通信的标签的协商;同时这协调了与这些标签相关联的类别的语义。换句话说,所有信息代理的标签Li’成为每个代理利用他自己的映射Mi’映射到信息系统本地数据集的“共享语言”。应指出,这意味着信息代理在使用基本类别实现分类的意义上具有了和人类用户类似的认知能力,即类别能用于元数据以便将数据过滤为子集。然而应指出信息代理决不会同人类用户完全一样,并且必须在其支配下处理元数据。
如果服务器给出的响应被认为是与客户机所有者有关,那么通信是成功的。实际上,共享经常是局部的因为系统处于不断变化中。而且,必须想到在对等子网络中会出现许多“子语言”。每个子语言反映对等子网络的兴趣(interest)。在某些应用中,这些子网络符合“可信团体”(可能是信息系统所有者选出的)。
考虑这种情况,即客户机信息系统的所有者通过识别集合Gc数据元素的Dc而发起一个查询,这些数据元素被认为是所有者从服务器请求的元素类型的好的实例。所有者可以利用仍然完全受其控制的所有者分类的标签做到这点,或者以一些其它方式通过明确识别她信息系统数据集中的实例子集来做到这点。
例如,在所有者信息系统由存有音乐浏览器软件的个人计算机组成的情况下,该计算机与对等网络相连(例如通过互联网)来交换音乐文件,所有者可通过定位装置(键盘、鼠标等)来识别所有实例,以选择所有者在音乐浏览器应用中定义的播放列表。依据具体实现应用的方式,所有者作出的列表选择会导致产生对等网上的对类似歌曲的搜索,或者要求所有者的某种明确操作以发起搜索。所有者可用来与她的信息系统交互的应用软件、接口和设备的细节与本发明并不特别相关,只要它们使所有者能够指示(如果需要,依据她的所有者分类)哪些数据是她选择用于通过对等网搜索或交换的。
假定所有者的查询在特定上下文KcDc内制定,这包括Gc要与之相区分的其它数据元素(反例)。多数情况下,Kc=Dc\Gc。
服务器由数据元素集RDs响应,客户机所有者通过指示她认为相关的数据元素FR来给予反馈,这允许计算否定实例B=R\F。如果客户机所有者愿意,所述“好的”数据F可被加入客户机数据集。如果没有相关数据元素,或者如果服务器不提供任何数据,则通信失败,而且根据本发明的优选实施例,信息代理会进行如下的修正动作。
系统的整体性能根据服务器给客户机的成功响应的次数来衡量。应指出,客户机的所有者在选择感兴趣的项目、判断从服务器接收到的项目是否满足要求、以及决定是否存储某种项目、按照她的所有者本体存储在哪里是起决定性作用的。人类用户的作用使得本发明决定性地异于早期开发地用于信息交换的新生语言方法的提案,其中所有者并没有直接的影响。
为了实现信息代理用于构建数据的分类M’,假定每个信息代理维护类别集C,类别集C对代理访问的数据或元数据进行操作。例如,科学论文可能具有作者、关键词、出版媒体和摘要作为可访问元数据;音乐文件可能具有作曲者、演唱者、录制时间等作为相关元数据。
代理的类别集在信息系统启动时,即在信息代理与其它信息系统通信前通常是空的。信息代理在与另一个信息代理通信时建立它们自己的类别集。类别是作为确定数据元素是否属于该类别的函数工作的。代理使用的类别集是可扩展的和时间相关的,而且不同代理的类别也不一定相同。
每个代理通过试图从上下文(例如反例集)中寻找不同的主题(例如用户选择的实例集)来建立类别。代理寻找以发现特征或特征集,这能将主题与上下文区分开。特征通常包括属性(诸如元数据的特定项,例如存储的音乐文件的“风格”)和值(例如“摇滚音乐”)-例如特征<风格(摇滚音乐)>。如果使主题能够与上下文区分开,那么特征或特征集就是“突出的”。
处理主题和上下文数据以确定将主题与上下文区分开的“类别”(特征或特征集)有好几种公知的技术。在本发明的优选实施例中,信息代理可利用任意方便的技术来确定它们的类别。
当信息代理寻找确定类别时,可以利用它自身的数据和它们可用的任何或所有元数据。元数据可以是先前存在的(例如在载入相关数据时载入信息系统的,存储在目录中或在信息系统可访问的服务器上等等),或者能够通过分析相关数据自动确定(在信息系统或与之通信的设备中)。
每个信息代理维护从代理标签L’到类别集C的双向映射W。该映射作为代理的字典和词典也是已知的。类别和标签间的每个关联都具有某种强度γ∈[0.0,1.0],这反映信息代理以前利用该关联(如后面将更明确定义的)获得的成功。如果对于相同的类别(编码时)存在一个以上的标签或者对于相同的标签存在一个以上的归类(解码时),代理使用具有最高强度的关联会比较好。
这些考虑反映在以下浓缩集合的定义中:
t时刻的对等信息系统a可定义为:
PIa,t=<ISa,t,O,IAa,t>,其中:
-ISa,t=<Da,t,MDa,t,La,t,Ma,t>是包括数据集D、元数据集MD、名称L和映射M集的信息系统:L→p(D)通过扩展定义将名称映射至D的子集。
-O是信息系统的(人类)所有者。
-IAa,t=<L’a,t,Ca,t,M’a,t,Wa,t>是具有标签集L’、类别集C的信息代理:P(MD)→P(D)并且W=C×L’×[0.0,1.0]。类别实现分类M’。
t时刻的对等信息网络定义为集合:Nt={PIal,t,...,PIan,t},元素可以随时添入其中或者从中删除。
设计的总体目标是使信息交换中的成功最优化。本发明的优选实施例定义了一种方法,通过这种方法,信息代理与其它代理协作生成并使用类别集Ca并将类别集Ca与标签集L’a相关联。工作结果通用解必须满足若干附加约束:(1)客户机不能访问或更改服务器的内部状态,(2)对等体间的交互是纯本地的,(3)对等体是自主的,意味着每个对等体都可能随时改变,(4)对等体是分布式的,不存在全局同步而且对等体可以并行操作,(5)人类所有者不需要检查也不能改变信息代理的内部状态。
图3概括了处理中涉及的不同实体、信息项和映射,将在本文档的剩余部分详细说明。图3中,L指示信息代理词典。
静态系统
为了简化说明,首先详述“静态”系统的信息代理所使用的协议,即假定信息代理具有必要的类别并交换能够用于进行对等信息交换的标签。然后,描述将继续进行,假设必要的扩展来使系统成为“动态的”(也就是说,其中的信息代理可自适应地定义它们的归别和标签的系统)。
静态系统中使用的仂议在图4中举例说明,图4显示了在客户机发送请求到服务器的特定对等事务处理期间发生的流程。
顺便说一下,每个用于说明同级间事务处理的图中,左手侧详述发生在客户机端的操作而右手侧指示服务器端的操作。这些图的每一个的中间显示客户机和服务器之间交换的项目。
应指出,在图4的“静态系统”事务处理中,客户机的所有者控制初始目标集Gc和上下文Kc的选择并确定响应R的哪个子集是相关的并应被存储为他自己信息系统的一部分。
图4例示的交互的实现需要四种功能的限定:归类(客户机步骤2)、过滤(服务器步骤2)、编码(客户机步骤3)以及解码(服务器步骤1)。
本发明适用于同级间不同类型的信息交换,例如,有关科学论文的查询(或提供)、推荐的网站、电影、图像、音乐等。具体查询的全局上下文可被隐含地确定-例如,基于客户机和服务器的早期交互、基于对等网本身(可能是专用于交换音乐文件的网络)的特性等。-或者能被明确地确定-例如基于查询的语法。
客户机查询的具体上下文Kc或者由之前的交互隐含地确定或者缺省地等于可能对象的全集:Kc=Dc。类似地,服务器在其中操作的上下文KS或者由先前的交互隐含地确定或者缺省为服务器数据元素的全集:KS=DS。也可能客户机发送识别上下文(坏的实例)的数据以及目标集(好的实例)。用于上下文确定的方法取决于具体应用和用户与她的信息系统的交互历史。
顺便说一下,在客户机发送实例和/或反例到服务器的情况中,实例/反例可以以任一方便的方式进行发送。例如,可以发送识别在线目录中的实例/反例的编码、对应于实例/反例的MP3文件等。
归类和过滤
对等信息交换的自组织要求每个信息代理能够区分数据集G的元素与另一个集合K的不同。由于数据集能够随时改变,所以区分用的类别集也需要改变。
让G为实例的目标集而K为G的元素需要与之区分的上下文。给定数据元素d,ci∈C被定义为一个根据d是否属于ci所定义的类别而返回1或0的函数。φ(S,ci)是集合S中ci为真的元素的百分比:φ(S,ci)=1/n ∑jci(dj),dj∈S
给定G和K的类别,ci的区别成功disc可被定义为:
disc(G,K,ci)=φ(G,ci)-φ(K,ci),并且类别ci∈Ca,t可根据区分成功按降序排列:[<c1,p1>,...,<cm,pm>]
其中ci∈C,并且pi=disc(T,G,ci),并且pi,pi+1→pi≥pi+1。
无疑,ci将G中的元素与K中的元素区分的越好,disc(G,K,ci)就越大,因此上面序列的首元素对应于最大区分类别。因此给定类别集C,归类从上下文K中选择的主题G的函数可表示为:
categorize(C,G,K)=first([<c1,p1>,...,<cm,pm>])
在多个类别ci,...cn具有最大区分能力时,即pi=...=pn并且pi,...,pn>pj时,信息代理在选择类别时可使用补充试探法以选择G。例如,它可保留在之前与其它代理交换中使用的最成功的类别。如果最好类别ci的区分能力不足(例如与阈级θdisc相比,即pi<θdisc),那么代理会优先于再用已有类别而设法创建一个新的类别。
类别可用作过滤器以选择哪些元素满足它:
filter(D,c)={di|di∈D and c(di)=1}
一个信息代理的类别可能完全不同于另一个代理的那些类别,并被假设为对该代理完全本地。信息代理的类别对信息系统的所有者并不直接可视而且事实上可能与所有者赋予数据的分类非常不同。更好的是设计系统使得不允许人类所有者干预代理使用的名称。这就避免了可能会对中间语言出现有害的人类干扰,而且更重要的是,避免了试图操纵中间语言使之不可用的黑客的恶意入侵的风险。
类别可使用任一种数据、元数据或者计算类别可用的其它资源。与返回0或1相反,类别也可以是更模糊的,而且也可在过滤函数中使用更低的阈级。本领域技术人员熟知实现分类器的许多不同的方法以及可构造新类别的多种方法。本发明并不限于实现分类器或构造新类别的某种特定方法。
同样可以直接认为,除了使用单一类别也使用类别的结合(最小化类别的数目并减少需要作为元数据的属性的数目)。
编码和解码
下个议题是代理如何编码和解码用于对等交换的标签,假设代理能够将类别和标签联系起来:W=C×L’×[0.0,1.0]。
假设需要表示类别c,那么代理能构造可能的标签列表作为基于c和标签l之间的关系强度γ的有序集合:
labels(c,W)=[<ll,γl>,...,<ln,γn>],其中<c,li,γi>∈W并且γi≥γi+1
编码的标签是这个有序集合中的第一项:
code(c,W)=first(labels(c,W))。
相反的,给定标签l,那么信息代理能够构造可能的类别列表作为基于标签l和类别c之间的关系强度γ的有序集合:
cats(l,W)=([<cl,γl>,...,<cn,γn>]),其中ci,l,γi>∈W并且γi≥γi+1
解码的类别是这个有序集合中的第一项:
decode(l,W)=first(cats(l,W))。
该过程可很容易地扩展到类别结合(即集合)的编码或解码中。
词典W可将类别集与词相关联。编码应寻找涵盖由区分产生的类别集的最小数目的词,而解码应重建与每个词关联的最小类别集。
动态系统
接下来的说明考虑一种机制,通过该机制,客户机和服务器代理改变它们的清单(L’,W,C)以处理通信中的失败并使它们的内部状态将来更好。
本发明优选实施例中实现的一个关键思想是使用数据元素的实例作为定位信息交换中的失败的方法,这与人类交流中指向目标类似。
如果服务器还不知道具体标签,则客户机可向服务器示出对应于客户机查询的实例(和反例)。对客户机和服务器交换的实例和反例数目不作特定限制。很明显,提供的实例/反例的数目越多,获得的关于预期类别的指示越精确。然而,增加实例/反例的数目会导致客户机和服务器之间的通信占用更多带宽,并且增加处理时间。在本发明的优选实施例中,如果有比想要发送的实例/反例更多的可用实例/反例,则从这些可用实例/反例中做出选择。如果选择既包括实例数据又包括反例数据的话会比较有优势。
服务器获得关于它响应查询而发送的数据是否相关的反馈,并因此也可按照客户机的标签和类别调整自身的标签和类别。
存在5种需要考虑的情况:
-成功交互:这应当触发代理使用的类别和约定(在标签/类别关联意义上)的再实施。
-客户机失败:这应当触发新类别和该类别的新标签的创建。
-服务器失败:这应当触发服务器或客户机采用新标签并潜在地创建新类别。
-部分成功:这发生在在服务器能够解码标签但是服务器返回的结果被认为与客户机所有者部分不相关。
成功交互
如果交互完全成功,则客户机识别的“相关集合”F为非空并等于R,换句话说,客户机接收到的只有好的实例并以信号告知服务器这个事实。这意味着标签l、名称catc(客户机使用的)与服务器对这个标签的解释(cats)和用户的意图相适合。在这种情况中,客户机和服务器都更新它们从标签到类别的映射,使得用于类别catc的标签l和catc的使用在以后得以加强。这通过对使用的标签和使用的类别之间的关系(绑定“强度”)增加一个量Δinc,并减少竞争关系而实现。竞争者是对同一个类别使用另一个标签的关系,在这种情况下将它们减少量Δn-inh,或者竞争者是过去与同一个标签具有关联的另一个类别的关系,这种情况下,将它们减少Δo-inh。更规范的:
1.客户机更新(Wc,t,l,catc)定义为:
Wc,t+1={ri|ri=<ci,li,γi>∈Wc,t,其中ci≠catc并且li≠l}∪
{<catc,l,γi+Δinc>对于Wc=<catc,l,γi>∈Wc,t}∪
{rj|rj=<catc,lj,γi+Δn-inh>∈Wc,t,其中li≠l}∪
{rj|rj=<cj,l,γj+Δo-inh>∈Wc,t,其中cj≠catc}∪
2.服务器更新(Ws,t,l,cats)定义为:
Ws,t+1={ri|ri=<ci,li,γi>∈Ws,t,其中ci≠cats并且li≠l}∪
{<cats,l,γi+Δinc>对于Ws=<cats,l,γi>∈Ws,t}∪
{rj|rj=<cats,lj,γi+Δn-inh>∈Ws,t,其中lj≠l}∪
{rj|rj=<cj,l,γj+Δo-inh>∈Ws,t,其中cj≠cats}∪
在Δo-inh<0并且Δn-inh<0时,称作侧抑制。
客户机失败
接下来考虑客户机不具有将KC和GC区别开的类别的情况(客户机步骤2失败)。在这种情况下,客户机执行两个步骤:
-客户机构建区别GC中的元素和KC中的元素的新类别catn
-客户机创造新标签σ(从足够大的字母表中得到随机字符串)并利用σ和catn之间的新关系扩展W,强度初始值为γinit。
随着σ作为新标签传输,客户机和服务器之间的交互现在能够像以前一样继续进行。
在随机字符串已经被另一个代理用于另一个类别的时候出现了一个重要的问题。这个问题(通称同名:一个标签具有不同的含义)由根据本发明优选实施例的系统动态予以处理,但是通过使用确保唯一符号的技术可以使即使是在分布式方式中产生的这个问题最小化,例如“通用唯一识别”(UUID),参见Leach等“A UUID URN Namespace”,The Internet Engineering Task force,Internetdrafts,
http://www.ietf.org/ internet-drafts/draft-mealling-uuid-run-03.txt。
服务器失败
下面考虑服务器不具有WS中定义的标签l以及该标签由客户机进行发送(服务器步骤1失败)的情况。图5说明了在这种情况下根据本发明优选实施例实现的过程。
在这种情况下,服务器发送失败信号到客户机。服务器接着接收Gc(可能还有Kc)作为客户机正寻找的对象的实例,并进行以下步骤:
-服务器IA用类别cats归类与上下文Kc不同的Gc。当这失败时,服务器IA创建新的类别(还称为cats)并将它添加到它的的类别清单中。
-服务器IA利用cats、标签l、和初始强度γinit之间的关系扩展Ws。
然后服务器象以前一样继续该方法。
部分成功
当服务器对客户机的查询的响应被服务器(的所有者)认为是部分不相关时,下一种情况会发生。可以计算分数(即,服务器的响应的“适当性”程度的度量),所述分数就是所述所有者认为适当的元素的百分比。如果该“适当性”分值低于某一阈值θfail则失败发生。
这个问题有两种原因:(1)与客户机发送的标签相关的类别不同于与服务器的相同标签相关的类别或(2)客户机使用的类别不够精确而不能捕捉用户预期的区别。为了区分情况(1)和情况(2),客户机代理应当检查用于制定查询的类别是否是足够的,即,catc是否是用来区分Gc∪F和Kc∪B的好的区别性描述。如果是否定的,这意味着catc不是客户机的所有者的意图的好的反映,即,情况(2)是适用的。
为了处理情况(1),客户机和服务器应当尝试协调他们的类别和标签,以使得交换在将来成为可能或富有成效的。客户机端和服务器端都必需有所行动。首先,他们在失败的通信中使用的标签的强度应当被降低:
-客户机IA通过因子Δdec降低Wc中catc和l之间的关系强度。这将降低将来用这个特定的标签编码所述关系的机会。
-服务器IA通过因子Δdec降低Ws中cats和l之间的关系强度。这将降低将来用这种关系解码l的机会。
为了处理情况(2),客户机(更具体地,客户机的信息代理)应当首先基于所有者对收到的数据的相关性的评估来提出比目前使用的类别更好的类别。这意味着IA不得不找到区别性的类别来区分Gc∪F(好的实例)和Kc∪B(坏的实例)。
然后,交互将变得与使用Gc:∪F替代Gc和Kc:∪B替代Kc的情况(2)(客户机失败)相同:客户机将创建与这个类别相关的新的类别和新的标签。将这个新的标签发送给服务器,可能的话与感兴趣的Gc∪F对象的其它实例一同发送。这时服务器应能建立这种类别的它自己的版本,从而构建标签的语义。服务器可以在答复中向客户机发送新的实例。
如果客户机不能提出比在最初事务处理中使用的类别更好的类别,则客户机IA可以发送感兴趣对象的实例和反例Gc∪F和Kc∪B,以使服务器能通过寻找区别性的类别和通过添加这个类别和标签l之间的关联来尝试获取已经发送的标签l的正确含义。这种情况与早先在情况3(服务器失败)讨论过的相同。
参数
以下是可以在代理的自适应机制中被某些主要参数采用的值的实例,列出的值已经经验性地被证明在系统的大规模测试中产生了足够好的性能。基于每个信息代理以其最大能力寻找以响应查询(即,对特定类别使用其词典中“最”可用的词)的假设,已经获得了很好的系统性能。
参数值的实例:
-γinit是初始强度,以此强度新的关系进入到代理的词典L中。γinit=0.5。
-Δinc是在存在成功的情况下使用的关系中γ的增加值。Δinc=0.1
-Δn-inh是在存在成功的情况下具有相同的名称(但不同的类别)的关系中的变化(降低)。Δn-inh=-0.2
-Δo-inh是在存在成功的情况下与相同的类别(但不同的名称)连接的关系的变化(降低)。Δo-inh=-0.1
-Δdec是在存在失败的情况下使用的关系中γ的变化(降低)。Δdec=-0.1
-θdisc是在归类中使用的阈值。θdesc=0.5
-θfail是用来发送信号指示失败的交换(服务器提供了不足的结果)的阈值。θfail=0.5
在这些参数的确切值上存在一定程度的偏差。甚至有可能使它们都=0(接受γinit),但是然后任一代理曾创造的所有标签将在所有的代理群体中传播,而且不存在收敛的驱动力。如果它们是非零值,显然地Δinc>0并且Δn-inh<0,Δo- inh<0。而且Δdec<0,因为不然的话不成功的关系将增加强度。
“同义”是指对于不同的代理(或甚至同一个代理)相同的类别具有不同的标签,由于不同的代理创造不同的标签,这在分布式系统中自然的增加。由于在使用和成功之间的反馈环,系统的动态保证了同义从系统中消失。成功命名特定类别的标签越多,连接该标签与类别的强度就越高,在将来的通信中使用的相同的标签就越多。侧抑制(通过Δn-inh≠0)保证了这种情况。
“同名”意思是相同的标签与不同的类别相关联。这可能出现,因为(1)代理偶然地构建了标签的相同新字符串,或(2)因为服务器代理猜测由客户机使用的但从未成功交换的另一个分类。发明人的实验表明,根据本发明优选实施例的协议产生的符号学动态足以很好的处理同名,特别是如果Δo-inh<0。然而,如前所述,可以通过使用实质上保证唯一标签的系统、例如UUID技术来避免情况(1)。
在本发明的优选实施例中,用于降低标签和类别之间的绑定强度的增量的大小等于或大于在增加标签和类别之间的绑定强度时使用的增量的大小。
图6是基于数字模拟的结果、说明不同参数对代理词典的收敛的影响的图。x轴表示代理之间一对一相互作用的数目,y轴表示在代理词典中标签和类别之间非零强度关联的平均数。在图6中,表述“采纳”指示所有的模式参数是零以及所有可能的标签传播(当所有的代理都知道他人使用的所有标签时到达极限);表述“实施”指示Δinc是正的(在此等于0.1);“侧抑制”指示Δn-inh和Δo-inh是负的(在此分别等于-0.2和-0.1);“衰减”指示Δdec是负的(在此等于-0.1)。衰减看起来给出了稍小于最理想的结果,但它是防止同义所必需的。
本发明的优选实施例的信息交换方法使得在对等网络中对等体的信息代理能发展相互关联的基于语义的类别和标签。可以考虑到,对等体类别/标签逐步地收敛。然而,不是在对等体之间交换的所有序列都引起收敛到最理想的解决方案,网络可能被粘滞在“本地最小”。在本发明的优选实施例中使用的侧抑制帮助避免这一状况。
现在将对本发明具体应用的三个实例进行描述;第一个实例关于音乐文件共享领域;第二个实例关于文档交换领域,第三个实例涉及共享产品信息领域。这些应用详细地显示了本发明如何实际工作,展示了这个方法是多么的普通。实际上在此提出的机制可用于任何对等信息交换系统。
实例应用1:音乐文件共享
这个实例涉及在对等体之间交换音乐(歌曲)的对等网络。考虑在第一、第二和第三信息系统之间发生的交互。第一信息系统属于第一用户、所有者0,具有信息代理、代理0。第二和第三信息系统分别属于第二用户、所有者1和第三用户、所有者2,分别具有信息代理代理1和代理2。现在将描述在这三个信息系统之间的四个查询系列。
本发明优选的实施例使得在对等体之间进行交换成为可能,即使在与对等体相关的不同信息系统使用根据各自不同的概念模式组织的元数据。然而,为了简化,在此假设所有三个信息系统存储(或可访问)音乐文件,它们都使用相同类型的元数据来描述那些音乐文件(对于所有的信息系统根据相同的概念模式组织该元数据)。在这个实例中,根据以下概念模式组织元数据:
-艺术家:艺术家的名字(甲壳虫、滚石、深紫、麦当娜、迈可尔杰克逊或猫王)。
-风格:歌曲的风格(摇滚音乐、摇滚或流行)
-节奏:歌曲的节奏(缓慢、中速或快速)
以下的表1给出了在这个实例中跨三们信息系统使用的数据和相关的元数据的概要。
表1
歌曲 | 艺术家 | 风格 | 速度节奏 |
Across The Universe | 甲壳虫 | 流行 | 中速 |
And I Love Her | 甲壳虫 | 摇滚音乐 | 缓慢 |
Blackbird | 甲壳虫 | 流行 | 缓慢 |
Eleanor Rigby | 甲壳虫 | 流行 | 缓慢 |
Helter Skelter | 甲壳虫 | 摇滚 | 快速 |
I Feel Fine | 甲壳虫 | 摇滚音乐 | 快速 |
I’m Down | 甲壳虫 | 摇滚音乐 | 快速 |
Let’s Spend the NightTogether | 滚石 | 摇滚 | 快速 |
Norwegian Wood | 甲壳虫 | 流行 | 缓慢 |
Paint It Black | 滚石 | 摇滚 | 快速 |
Ruby Tuesday | 滚石 | 摇滚 | 中速 |
Smoke on the Water | 深紫 | 摇滚 | 中速 |
Twist and Shout | 甲壳虫 | 摇滚音乐 | 快速 |
You Know My Name | 甲壳虫 | 流行 | 中速 |
Billie Jean | 迈克尔杰克逊 | 流行 | 快速 |
Borderline | 麦当娜 | 流行 | 快速 |
Love Me Tender | 猫王 | 摇滚音乐 | 缓慢 |
Don’t Be Cruel | 猫王 | 摇滚音乐 | 中速 |
Suspicious Minds | 猫王 | 摇滚音乐 | 中速 |
三个信息系统的所有者将他们自己的数据(歌曲)组织到包括歌曲标题的列表的播放列表中。音乐文件本身可被信息系统持有;作为选择,信息系统也可仅存储一些标记以允许当信息系统的所有者选择用于播放时,利用可访问的音乐文件,例如,通过下载、通过从存储介质中读取、或通过网络访问,来确定这些歌曲。
以下表2、3和4显示了所有者0、所有者1和所有者2在他们之间的发生交换前各自的播放列表。
表2
所有者0的播放列表标签 | 播放列表中的歌曲 |
甲壳虫 | Across The Universe |
Blackbird | |
Eleanor Rigby | |
Helter Skelter |
I Feel Fine | |
Norwegian Wood | |
You Know My Name | |
滚石 | Let’s Spend the Night Together |
Ruby Tuesday |
表3
所有者1的播放列表标签 | 播放列表中的歌曲 |
六十年代 | And I Love Her |
I’m Down | |
Paint It Black | |
Twist and Shout | |
七十年代 | Let’s Spend the Night Together |
Smoke on the Water | |
八十年代 | Borderline |
Billie Jean |
表4
所有者2的播放列表标签 | 播放列表中的歌曲 |
聚会音乐 | I’m Dowr |
Twist and Shout |
应注意到在表2到4中显示的所有者的播放列表没有列出不同歌曲的元数据。通常元数据不会显示给音乐浏览器应用等的用户。不过,不论元数据是否显示给用户该元数据在信息系统中是可获得的(或可访问它,例如,通过声纹识别技术、向在线服务发送歌曲的MP3版本,在线服务作为响应提供歌曲的元数据,等),并被信息代理使用。
在这些对等体开始交互时,没有一个代理具有任何定义的标签或归类。
查询1:类别创建和成功的通信的实例
考虑第一次交互,其中所有者0希望从所有者1为她的“甲壳虫”播放列表获得更多的歌曲。实际上,所有者0有可能通过与信息系统的接口、例如音乐浏览器程序的图形用户接口交互来表达希望为这个播放列表获得更多歌曲。所有者0可能明确的或者可能不明确的识别应从哪个对等体获得新的歌曲。
当所有者0表示她想为她的“甲壳虫”播放列表要更多的歌曲时,与第一信息系统关联的代理(代理0)处理搜索类似的歌曲。由于所有者0没有选择播放列表“滚石”,则这个请求的内容是“甲壳虫”而不是“滚石”。所有者0的代理因此将请求解释为“寻找更多的甲壳虫,而不是滚石”。
对于该请求用作实例的的歌曲集是:“Across The Universe”、“Blackbird”、“Eleanor Rigby”、“Helter Skelter”、“I Feel Fine”、“NorwegianWood”和“You Know My Name”。
对于该请求用作反例的歌曲集是:“Let’s Spend the Night Together”和“RubyTuesday”。
系统为满足所有者0的请求而采取的步骤如下:
步骤1:代理0-归类
代理0试图找符合所有者0已经做出的选择的类别。因为代理0没有类别,所以这个步骤失败。
步骤2:代理0-创建类别
代理0引入新的类别、类别0,来描述所有者0的选择。由特征艺术家(甲壳虫)来定义类别0,可以考虑为这个特征是由属性(艺术家)和值(甲壳虫)组成的元组。如果代理0要在这个类别中搜索其它歌曲,则在与其它信息系统通信时它需要一个指示这个类别的词或标签。代理0引入标签“fafafa”,并以默认强度0.5将这个标签绑定到类别0。换句话说:
(类别0<艺术家(甲壳虫)>,“fafafa”,0.5)。
代理0利用标签“fafafa”编码所有者0的搜索请求。
对于该特定标签“fafafa”的选择不存在特定技术原因,它仅仅是从预定集(或“字母表”)中选择的字符序列。然而,在一些应用中,从上述的通用唯一标识(UUID)中获得标签可能是有利的。如果从UUID中获得标签,则几乎保证它们是唯一的,甚至不需任何集中协调-这减小了同名发生的频率。
步骤3:代理0-查询
代理0通过对等网络联系代理1,请求符合该标签“fafafa”的歌曲。可自由地改编发送“fafafa”的通信的精确属性和语法,例如以符合P2P网络的特点。
步骤4:代理1-解码
代理1在它的词典中没有标签,因此它本身不能为接收的标签“fafafa”指定类别(它不能解码“fafafa”)。代理1向代理0发送失败信号。
步骤5:代理0-发送
现在,代理0向代理1发送与所有者0的选择对应的实例和反例的列表。这指示代理0怎样使用“fafafa”。
可采用任何便利的方式向服务器“确认”实例和反例:例如,通过通知识别一些目录(例如,在线目录)中的歌曲的歌曲-ID-代码,通过根据一些通常公认的惯例识别歌曲的标题,通过发送对应于该歌曲的MP3文件等。无论什么方法用于使服务器识别实例和反例,服务器的信息代理(在此代理1)根据它自己的概念模式检索或搜索以检索用于这些实例/反例的元数据(使用任何便利的方法,例如通过在线服务的咨询,可以检索元数据)。
步骤6:代理1-产生类别
代理1在试图发现区别特征(或特征集)中处理该实例和反例集,该区别特征描述实例并且将它们与反例区别开。在该实施例中,代理1设法发现区别特征,即艺术家(甲壳虫)。对应该区别特征,代理1产生新的类别,我们将称之为类别1,并且将标签“fafafa”绑定到类别1,默认强度为0.5:(类别1<艺术家(甲壳虫)>,“fafafa”,0.5)。
顺便提及,实际上代理1可以使用元数据,根据与代理0使用的概念模式不同的概念模式组织该元数据。因此,即使代理1发现将该实例与反例相区别开的区别特征集实例,该区别特征集通常不同于由代理0使用的将反例与相同实例区别开的特征组。换句话说,对应于代理1的类别1的区别特征集可能大大地不同于对应于代理0的类别0的区别特征集,尽管代理0和代理1设法通过这些类别描述相同的实例集。
步骤7:代理0-查询
代理0第二次向代理1要求符合标签“fafafa”的歌曲。该请求可以是明确的,或者能从代理0已经向代理1发送的实例和反例集的事实中暗示出。
步骤8:代理1-解码
代理1检查绑定该标签“fafafa”的类别列表;在该情况中(并且在这次)该列表只包含类别1。换句话说,该列表包含(类别1<艺术家(甲壳虫)>,“fafafa”,0.5)。
步骤9:代理1-过滤
代理1使类别1开始运转,作为适合在第二信息系统中选择那些歌曲的函数,歌曲由特征艺术家(甲壳虫)来描述。换句话说,代理1使用类别1过滤它相关的数据集。产生的歌曲是“And I Love Her”、“I’m Down”和“Twist andShout”。
步骤10:代理1-提供
代理1向代理0发送从步骤9产生的数据。通常,发送的数据是唯一识别检索的歌曲的一些数据:例如,歌曲标题(如果它是唯一的),在一些目录或数据库(诸如在MusicBrainz数据库中的歌曲,通过
http://www.muscibrainz.org访问)中的歌曲的ID,甚至是歌曲文件本身。
步骤11:代理0-选择
代理0将从代理1接收的响应通知给所有者0。典型的,向所有者0呈现由代理1提供的歌曲的显示列表(来自第二信息系统)。响应所有者0的查询提供的数据可能或可能不满足所有者0的要求。因此,在本发明的优选实施例中,代理0得出所有者0对查询结果的评价。代理0可以明确地请求对搜索结果的评价,或者可以暗示该请求(根据已经向所有者0提供对她的查询的响应的指示的事实)。
在本实例中,由代理1提供的所有结果符合所有者0的搜索请求,并且认为所有的都是“肯定的“结果。这些“好的”结果中没有一个存在于所有者0的数据库中,在该情况下,所有者0选择以便将它们添加到她的数据库中-所有者0的“甲壳虫”播放列表被更新。
步骤12:代理0-客户机更新
该查询是成功的,并且100%的结果被所有者0选择。作为结果,代理0将标签“fafafa”和类别0之间的绑定强度增加0.1。代理0现在保持(或访问)在类别0上的下列数据:(类别0<艺术家(甲壳虫)>,“fafafa”,0.6)。
步骤13:代理0-反馈
根据本发明的优选实施例,代理0向代理1提供关于向所有者0提供的结果的满意程度的反馈。能以任何便利的方式提供该反馈。然而,在本发明的优选实施例中,该反馈向代理1指示哪些提供的歌曲是“好的”(即,满足所有者0)和哪些提供的歌曲是“坏的”(即,所有者0认为它们不能满足她的搜索标准)。在该实实例中,代理0发送指示所有提供的歌曲是“好的”反馈。显然,如果所有者0不向第一信息系统提供任何输入以识别她发现哪个搜索结果令人满意,则不能提供该反馈。
步骤14:代理1-服务器更新
考虑到该事实,即服务器已经接收指示在第一和第二信息系统之间的交换已成功完成的反馈,代理1将标签“fafafa”和类别1之间的绑定强度增加0.1。代理1现在保持(或访问)与类别1有关的下列数据:(类别1<艺术家(甲壳虫)>,“fafafa”,0.6)。
作为查询1的结果,第一和第二信息系统已经改变。尤其是,第一信息系统的数据库和播放列表已经改变。而且,代理0和代理1的字典已经开始建立。下面,表格5显示了在查询1之后所有者0的播放列表。表格6和7分别显示了查询1之后的代理0和代理1的词典。
表格5
用于播放列表的所有者0的标签 | 播放列表中的歌曲 |
甲壳虫 | Across The Universe |
And Love Her | |
Blackbird | |
Eleanor Rigby | |
Helter Skelter | |
I’m Down |
I Feel Fine | |
Norwegian Wood | |
Twist and Shout | |
You Know My Name | |
滚石 | Le’s Spend the Night Together |
Ruby Tuesday |
表格6(代理0)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别0 | 艺术家(甲壳虫) | fafafa | 0.6 |
表格7(代理1)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别1 | 艺术家(甲壳虫) | fafafa | 0.6 |
查询2:客户机失败的实例
在第二次交互中,所有者1向所有者0要求更多“六十年代”歌曲。所有者1选择她的“六十年代”播放列表并要求她的信息代理(代理1)搜索类似的歌曲。代理1将该请求翻译为“发现更多六十年代,而不是七十年代或八十年代”。
对于该查询,用作实实例的歌曲集是“And I Love Her”、“I’m Down”、“Paint It Black”和“Twist and Shout”。
对于该查询,用作反例的歌曲集是“Let’s Spend the Night Together”、“Smoke on the Water”、“Billie Jean”和“Borderline”。
系统采用如下步骤:
步骤1:代理1-分类
代理1试图发现符合已经由所有者1进行的选择的类别。类别1<艺术家(甲壳虫)>产生0.75的匹配度分数,该分数在阈值0.5之上。因此代理1选择类别1来描述所有者1选择的歌曲。
步骤2:代理1-编码
代理1所关心的是,类别1绑定到仅一个标签“fafafa”。因此,理代1使用“fafafa”编码它认为对应于所有者1的搜索请求的类别。
步骤3:代理1-查询
代理1联系代理0要求符合标签“fafafa”的歌曲。
步骤4:代理0-解码
代理0所关心的是,标签“fafafa”绑定到仅一个类别、类别0<艺术家(甲壳虫)>。因此代理0为该查询使用类别0。
步骤5:代理0-过滤
代理0使类别0开始运转,作为适合选择第一信息系统中的那些歌曲的函数,歌曲由特征艺术家(甲壳虫)来描述。换句话说,代理0使用类别0<艺术家(甲壳虫)>来过滤所有者0的数据。产生的歌曲是“Across the Universe”、“Blackbird”、“Eleanor Rigby”、“Helter Skelter”、“I Feel Fine”、“NorwegianWood”、“You Know My Name”、“And I Love Her”、“I’m Down”和“Twist andShout”。
步骤6:代理0-提供
代理0向代理1发送从步骤5中产生的结果。
步骤7:代理1-选择
代理1向所有者1通知从代理0接收的响应,并且所有者1选择所提供的歌曲中哪些是“好的”(即,符合他的个人搜索标准)。在该实例中,所有者1选择“I Feel Fine”、“And I Love Her”、“I’m Down”和“Twist and Shout”。对于所有者1的请求(“六十年代”),不认为“Across the Universe”、“Blackbird”、“Eleanor Rigby”、“Helter Skelter”、“Norwegian Wood”、“YouKnow My Name”是合适的结果。
由服务器提供的歌曲中只有“I Feel Fine”对于客户机是新的(即,不在客户机的数据集中)。在该情况下,所有者1选择“I Feel Fine”添加到她的数据库中,将标题添加到“六十年代”播放列表。
步骤8:代理1-(客户机失败)
由所有者1确定的“好的”结果的百分比是40%。该分数低于预定的阈值(在此50%),,所以认为该分数指示在客户机和服务器之间的通信失败。代理1试图确定发生该失败是否是因为它误解了所有者1的请求或者因为代理0错误的解码代理1的查询。代理1如下进行该确定:
代理1拥有识别与所有者1的请求有关的两组“好的”实例集和两组反例集的信息。这些实例/反例集中的第一集来自所有者1的初始化请求,并且这些集中的第二集来自所有者1在从服务器接收的结果中的选择。使用对它可得的所有的实例和反例,代理1检查它是否具有现存的类别或者新类别,该类别比目前使用的类别更符合所有者1的请求。
使用实例(“And I Love Her”、“I’m Down”、“Paint It Black”和“Twist andShout”)和反例(“Across the Universe”、“Blackbird”、“Eleanor Rigby”、“HelterSkelter”、“Norwegian Wood”、“You Know My Name”、“Let’s Spend the NightTogether”、“Smoke on the Water”、“Billie Jean”和“Borderline”),代理1发现与目前已经使用的类别(类别1)有关的区别特征集不是用于区别实例与反例的最佳特征集。换句话说,代理1已经误解了所有者1的请求。
步骤9:代理1-产生类别
代理1采取正确的行动并引入新的类别、类别2,根据区别特征风格(摇滚音乐)定义类别2,并且将类别2绑定到新标签“fefafa”,默认强度为0.5。因此,对于类别2:(类别2<风格(摇滚音乐)>,“fefafa”,0.5)。
步骤10:代理1-发送
代理1向代理0发送新标签“fefafa”和两组实例和反例集的列表(即,Gc∪F和Kc∪B)。该信号向代理0暗示已经存在通信失败。可选地或附加地,代理1可以向代理0发送指示通信失败已经发生的明确信号。通过向代理0提供两组实实例和反例,代理0具有可用于随后的分类步骤(以下步骤12)的最大信息。
步骤11:代理0-分类
现在已经接收了实例和反例集,代理0试图发现与实例和反例集匹配的现存的类别。当实例现存的类别、类别0<艺术家(甲壳虫)>应用于实例和反例集时产生分数为0.2“潜在差别”。这低于预定的阈值0.5。因此,代理0应当搜索以引入新的类别,新的类别更好地区别实实例和反例。
步骤12:代理0-产生类别
通过处理实例和反例,代理0发现存在区别特征(风格(摇滚音乐)),该区别特征区别实例与反例达到令人满意的程度。代理0产生对应的新类别、类别3,并且将它与最近接收的标签“fefafa”(其指定实例和反例)绑定。该绑定的强度采用默认值0.5。因此:(类别3<风格(摇滚音乐)>,“fefafa”,0.5)。
作为查询2的结果,第一和第二信息系统再次改变。尤其是,第二信息系统的数据库和播放列表已经改变。而且,发展了代理0和代理1的词典。下面,表格8显示了在查询2之后所有者1的“六十年代”播放列表。表格9和10分别显示了在查询2之后代理0和代理1的字典。
表格8
用于播放列表的所有者1的标签 | 播放列表中的歌曲 |
六十年代 | And I Love Her |
I’m Down | |
Paint It Black | |
Twist and Shout | |
I Feel Fine |
表格9(代理0)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别0 | 艺术家(甲壳虫) | fafafa | 0.6 |
类别3 | 风格(摇滚音乐) | fefafa | 0.5 |
表格10(代理1)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别1 | 艺术家(甲壳虫) | fafafa | 0.6 |
类别2 | 风格(摇滚音乐) | fefafa | 0.5 |
查询3-类别产生和客户机失败的实例
在第三次交互中,所有者2向所有者0要求更多“聚会音乐”。所有者2选择她的播放列表“聚会音乐”并且要求她的代理(代理2)搜索类似的歌曲。由于所有者2只具有一个播放列表,不存在对于该请求的反例。用作实例的歌曲集是:“I’m Down”和“Twist and Shout”。
系统采取如下步骤实现该请求:
步骤1:代理2-分类
代理2试图发现符合所有者2的选择的类别。因为代理2还不具有任何类别,所以该步骤失败。
步骤2:代理2-产生类别
代理2引入新的类别、类别4以描述所有者2的选择。由特征艺术家(甲壳虫)定义类别4。代理2引入标签“fifafa”并且将其绑定到类别4,默认强度为0.5,产生(类别4<艺术家(甲壳虫)>,“fifafa”,0.5)。
步骤3:代理2-查询
代理2向代理0要求符合描述“fifafa”的歌曲(即,代理2向代理0发送查询“fifafa”)。
步骤4:代理0-解码
代理0在它的词典中不具有标签“fifafa”。它向代理2发信号通知失败。
顺便提及,本发明对于在代理之间发信号通知失败的方式不特别限制。值得注意地,可以使用不同类型的失败信号,以明确的指示涉及哪种类型的失败。或者可以从发送特定失败信号的上下文中推断该失败的性质。
步骤5:代理2-发送
代理2向代理0发送示范如何使用“fifafa”的实例的列表(以及在适当情况下,反例)。
步骤6:代理0-分类
代理0试图发现与实例和反例集匹配的类别(现有的或新的)。它发现现有的类别、类别0<艺术家(甲壳虫)>产生1.0的“区别”分数,该分数在阈值0.5之上。
步骤7:代理0-绑定标签
代理0将标签“fifafa”与类别0<艺术家(甲壳虫)>绑定,默认强度0.5。因此,代理0现在具有绑定到类别0的两个标签,即“fafafa”和“fifafa”。
步骤8:代理2-查询
代理2第二次向代理0要求符合描述“fifafa”的歌曲,该请求可以是明确的,或者可以从代理2向代理0发送实例/反例列表的事实中推断出。
步骤9:代理0-解码
代理0所关心的是,只有一个类别(类别0)绑定到标签“fifafa”,即类别0<艺术家(甲壳虫)>。
步骤10:代理0-过滤
代理0使用类别0过滤它的数据集。产生的歌曲是:“Across the Universe”、“Blackbird”,”Eleanor Rigby”、“Helter Skelter”、“I Feel Fine”、“NorweightWood”、“You Know My Name”、“And I Love Her”、“I’m Down”和”Twist andShout”。
步骤11:代理0-提供
代理0向代理2发送从步骤10产生的数据。
步骤12:代理2-选择
代理2要求所有者2评价从代理0接收的结果。所有者2选择下列肯定的结果:“I Feel Fine”、“Helter Skelter”、“I’m Down”和“Twist and Shout”。其他歌曲(“Across the Universe”、“Blackbird”、“Eleanor Rigby”、“NorwegianWood”、“You Know My Name”和“And I Love Her”)不被选择为好的结果。
接收的“好的”结果中,“I Feel Fine”和“Helter Skelter”仍然不在所有者2的数据集中。将这两首歌曲添加到所有者2的数据库中,并且更新所有者的“聚会音乐”播放列表以包括添加的歌曲的标题。
步骤13:代理2-客户机失败
由所有者2确定的“好的”结果的百分比是40%。该分数低于50%的阈值,并且指示通信失败。
代理2检查是否它误解了所有者2的请求或者是否代理0错误地解码该请求。与查询2的步骤8中的代理1类似,代理2拥有两组“好的”实例集和两组反例集。使用所有可用的实例和反例,代理2验证是否存在比迄今使用的类别更符合所有者2的请求的现有类别或新的类别。
使用实例(“I Feel Fine”、“I’m Down”、“Helter Skelter”、“Twist andShout”)以及反例(“Across the Universe”、“B1ackbird”、“Eleanor Rigby”、“Norwegian Wood”、“You Know My Name”、“And I Love Her”),代理2发现与迄今使用的类别(类别4)有关的区别特征集不是用于区别实例与反例的最佳特征集。换句话说,代理2已经误解了所有者2的请求。
代理2采取正确的行动并引入新的类别、类别5,根据区别特征节奏(快)定义类别5,并且将类别5绑定到新标签“fofafa”,默认强度为0.5。因此,对于类别5:(类别5<节奏(快)>,“fofafa”,0.5)。
步骤14:代理2-发送
代理2向代理0发送标签“fofafa”以及实例和反例的列表。
步骤15:代理0-分类
代理0试图发现与实例和反例集匹配的类别。该类别、类别0<艺术家(甲壳虫)>产生0.0的分数,这低于阈值0.5。类别、类别3<风格(摇滚音乐)>产生0.58的分数,这高于该阈值。
步骤16:代理0-绑定标签
代理0将标签“fofafa”绑定到类别3:(类别3<风格(摇滚音乐)>,“fofafa”,0.5)。
在该实例中,在上述步骤16执行后结束查询3。换句话说,在代理2向代理0提供新标签(“fofafa”)和实例后,代理0已将新标签绑定到它自己的一个类别上。
然而,取决于系统的详细实现,在代理0和代理2之间的交互可扩展,以便实际上执行第二搜索,但这次使用标签“fofafa”。更具体地说,取决于在最初查询-响应期间,或者在处理相同用户查询期间的更迟的交换中是否产生新标签和/或类别,通过可变的多个步骤,系统的不同实现可允许客户机和服务器之间的交互作用扩展。甚至在扩展的事物处理中,仍然使用下列基本功能:
-查询(标签):客户机利用特定的标签请求该服务器执行查询;
-结果(标签,数据集):服务器向客户机返回数据集合(“数据集”),该数据集是利用由客户机发送的标签服务器查询的结果;
-发送(标签、实例、反例):客户机向服务器发送实例集和反例集以指示如何使用标签;和
-服务器更新((标签,{失败或成功}):客户机响应对该服务器提供的结果的用户评价向服务器指示失败或成功。
本领域技术人员将容易理解如何使用上述四个基本要素产生扩展的查询,因而没有必要在此给出详细的特征。
作为查询3的结果,第一和第三信息系统改变。尤其是,第二信息系统的数据库和播放列表已经改变。而且,开发了代理0和代理2的字典。下面,表格11显示了在查询3之后所有者2的播放列表。表格12和13分别显示了在查询3之后代理0和代理2的字典。
表格11
用于播放列表的所有者2的标签 | 播放列表中的歌曲 |
聚会音乐 | I’m Down |
Twist and Shout | |
I Feel Fine | |
Helter Skelter |
表格12(用于代理0)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别0 | 艺术家(甲壳虫) | fafafa | 0.6 |
fifafa | 0.5 | ||
类别3 | 风格(摇滚音乐) | fefafa | 0.5 |
fofafa | 0.5 |
表格13(用于代理2)
类别 | 定义 | 标签 | 强度(在标签和类别之 |
间的绑定) | |||
类别4 | 艺术家(甲壳虫) | fafafa | 0.5 |
类别5 | 节奏(快) | fofafa | 0.5 |
迄今为止,因为对等交换,只出现了在三个信息系统的数据集中发生变更。然而,不同信息系统的所有者能够自由地改变他们自己的信息系统(根据存储的数据以及用于描述它的分类-例如,可以改变播放列表)。
将假设在查询3之后(但是在查询4之前),第一和第三信息系统的所有者改变他们的信息系统。尤其是:
所有者0产生称为“elvis”的新播放列表,包含下列歌曲:“Love MeTender”,“Don’t Be Cruel”和“Suspicious Minds”。
所有者2在她的播放列表“聚会音乐”中添加两首新歌“Billie Jean”和“Borderline”。
在这些变化已经发生之后,表格14和15分别显示了所有者0和所有者2的播放列表。
表格14
用于播放列表的所有者0的标签 | 播放列表中的歌曲 |
甲壳虫 | Across The Universe |
And I Love Her | |
Blackbird | |
Eleanor Rigby | |
Helter Skelter | |
I’m Down | |
I Feel Fine | |
Norwegian Wood | |
Twist and Shout | |
You Know My Name | |
滚石 | Le’s Spend the Night Together |
Ruby Tuesday | |
Elvis | Love Me Tender |
Don’t Be Cruel | |
Suspicious Minds |
表格15
用于播放列表的所有者2的标签 | 播放列表中的歌曲 |
聚会音乐 | I’m Down |
Twist and Shout | |
I Feel Fine | |
Helter Skelter | |
Borderline | |
Billie Jean |
查询4-服务器失败的实例
在第四交互中,所有者2向所有者0要求更多的“聚会音乐”。所有者2选择播放列表“聚会音乐”,并且要求她的代理(代理2)搜索类似的歌曲。因为所有者2只具有一个播放列表,所以对该请求仍不存在反例。
用作实例的歌曲集是:“I’m Down”、“Twist and Shout”、“I Feel Fine”、“Helter Skelter”、“Borderline”和“Billie Jean”。
系统采取如下步骤实现该请求:
步骤1:代理2-分类
代理2试图发现符合所有者2的选择的类别。类别、类别5<节奏(快)>涵盖所有实例,并且产生1.0的分数。
步骤2:代理2-编码
代理2所关心的是,类别5绑定到仅一个标签“fofafa”,强度为0.5。
步骤3:代理2-查询
代理2向代理0发送标签“fofafa”,作为对由“fofafa”描述的类别中的歌曲的请求。
步骤4:代理0-解码
代理0解码“fofafa”为类别3<风格(摇滚音乐)>。
步骤5:代理0-过滤
代理0使用类别3过滤它的数据集。产生的歌曲是:“I Feel Fine”、“And ILove Her”、“I’m Down”、“Twist and Shout”、“Love Me Tender”、“Don’t BeCurel”和“Suspicious Mind”。
步骤6:代理0-提供
代理0向代理0发送从步骤5获得的数据。
步骤7:代理2-选择
代理2要求所有者2评价从服务器接收的结果。所有者2选择下列肯定的结果:“I Feel Fine”、“I’m Down”和“Twist and Shout”。其他歌曲(“And I LoveHer”、“Love Me Tender”、“Don’t Be Curel”和“Suspicious Minds”)不被选择为好的结果。
所有肯定的搜索结果对应于已经存在于所有者2的数据库中的歌曲,因此不添加新的歌曲。然而,对于代理2和代理0为提高它们的类别/标签的调整的目的而继续通信,这仍旧是值得的。
步骤8:代理2-服务器失败
由所有者2确定的“好的”结果的百分比是42%。该分数低于50%的阈值,指示通信失败。代理0和代理2将在“fofafa”和类别3(类别5,各自的)之间的绑定的强度减小0.1。
代理2检查是否它误解了所有者2的请求或者是否代理0错误的解码查询。代理2组合两组好实例集和两组反例集。所有实例的列表是“I Feel Fine”、“I’m Down”、“Twist and Shout”、“Helter Skelter”、“Borderline”和“BillieJean”)。反例的列表是:“And I Love Her”、“Love Me Tender”、“Don’t BeCurel”和“Suspicious Minds”。使用所有的可用实例和反例,代理2检查是否存在比迄今使用的类别更符合所有者2的请求的现有类别或新的类别。然而,它发现已经使用的类别(即,类别5<节奏(快)>)产生1.0的分数。代理2推断出它没有误解所有者2的请求。因此,它考虑代理0产生解码错误。
步骤9:代理2-发送
代理2通过向代理0发送实例和反例的列表,向代理0指示“fofafa”的含义。
步骤10:代理0-分类
代理0试图发现与从代理2接收的实例和反例集匹配的现有的类别。类别类别0<艺术家(甲壳虫)>产生0.42的分数,并且类别类别3<风格(摇滚音乐)>产生0.0的分数,两个分数都低于阈值0.5。
步骤11:代理0-产生类别
代理0产生新的分类,该分类以足够的程度区别实例与反例。新的类别是类别6<节奏(快)>。代理0将标签“fofafa”绑定到类别6,默认强度0.5。
在第四查询结束时,第一和第三信息系统的字典再次变化。表格16和17分别显示了查询4之后的代理0和代理2的字典。
表格16(用于代理0)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别0 | 艺术家(甲壳虫) | fafafa | 0.6 |
fifafa | 0.5 | ||
类别3 | 风格(摇滚音乐) | fefafa | 0.5 |
fofafa | 0.4 | ||
类别6 | 节奏(快) | fofafa | 0.5 |
表格17(用于代理2)
类别 | 定义 | 标签 | 强度(在标签和类别之间的绑定) |
类别4 | 艺术家(甲壳虫) | fifafa | 0.5 |
类别5 | 节奏(快) | fofafa | 0.4 |
在上述四个查询系列结束时,三个信息系统开始建立它们自己的词典用于在和其他系统交换时使用。然而,在早期阶段,由存在的同名(例如,用于两个不同类别:风格(摇滚音乐)和节奏(快)的“fofafa”)和同义词(例如,用于风格(摇滚音乐)的“fefafa”和“fofafa”)阻碍了代理之间的通信。由于在这些信息系统之间交互数量的增加,标签和类别的语义将倾向于变得一致。
实例应用2:文件的交换
万维网中可用文件的数量正在增长。例如,在科学领域,现在很多作者拥有他们自己的网站,在网站上,他们以ps(附录)或pdf(Adobe Acrobat)格式张贴他们的论文。这些构成可以交换的数据。而且,专用于特定主题的网站具有各个作者的出版物。科学期刊具有它们自己的网站,通常只能通过预定(但是大学图书馆现在通常采用大学范围内预定)才能访问这些网站。而且只能通过网络得到的e期刊的数量也在增长。而且,有若干网站(诸如Citeseer,http://citeseer.ist.psu.edu/)跟踪作者的出版物。
这种应用领域对于本文档中讨论的技术是典型的。存在可扩充数据集(文档本身)并存在元数据,但是它通常以专用于网站的形式存在。例如,期刊或引证网站至少具有作者、公开日、关键词、摘要等。作者或主题网站通常展示施加于数据上的额外的结构或提供额外的关键词,但是对于不同的网站这些结构是非常的不同的(例如,不同的出版者具有用于他们的每个收集品的不同的结构和元数据)。网站通常可采用与原始资料不同的形式存储它们自己的论文的副本,特别是因为该原始资料网站可能是非永久性的,并且论文可能消失。这样,用户能变成对于他人的服务器。例如,Citesser以不同的格式保存它自己的论文版本并提供关于它获得数据的路径的信息,(通常,它不是最初保存论文的网站)。
当在这一领域应用本发明的实施例时,在对等网络中,可将每个网站视为对等体,并且在附着于每个网站的信息代理之间形成中间语言。不希望存在全球、世界的中间语言,但是在科学的特定领域中(例如,机器视觉、纳米电子学等),特殊的子中间语言将在代理中出现。这些中间语言将变的适合用户交换数据的实际需要,并适合该领域的语义结构。
注意,至关重要的是每个用户具有一些数据结构或足够的元数据以支持类别的构成。关于分类器如何访问这些元数据的特定实现对于每个对等体是本地的。利用来自信息检索的许多标准技术可以获得对等体使用的元数据。
实例应用3:共享产品信息
信息的共享不限于网络内容,而是可扩展到其他领域,例如,扩展到产品信息的普通情况。工业上采用的RFID标准(无线射频识别)将允许消费者和公司获得关于任何产品的信息。RFID是小的电子标签,其发射可由合适的阅读器读取的数字信号。电子产品代码(EPC)通过命名协定补充RFID标准,该命名协定提供给每个产品唯一标识,类似于用于解决因特网域名的域名系统。自动ID通过提供数据库对其进一步扩展,该数据库利用物理标记语言(PML)(“PML核心说明1.0”,Christian Floerkemeier,Dipan Anarkat,TedOsinski,Mark Harrison,Auto-ID Center,University of St.Gallen,Insititute ofTechnology Management,http://www.autoidlabs.org.uk/whitepapers/STG-AUTOID-WH005.pdf)将EPC翻译为产品物理特性的机器可读描述。自动ID方案将元数据限制为产品的物理特性。然而,可以希望随着时间的过去,产品上的更多的元数据将变的可用,诸如食物的成份或者电子产品的安全额定值。
人们每天处理或浏览产品列表。消费者将产品编制成购货单;杂志每周选择感趣的新对象;厨师出版带有配料表的菜谱;零售商出版其产品目录;消费者组织按照产品级别对产品进行分类。当产品和消费者均配备电子装置时,独立分布环境如大型购物中心中的人之间的产品信息交换成为本发明的主要应用,因为本发明允许这些信息系统之间的交互操作。
利用本发明,可引入新的应用。例如,购物者选择许多产品并向其他消费者索取类似项目的列表。中间语言可在具有类似兴趣和积极共享信息的用户之间逐渐普及。而且,一种全球的、世界的中间语言可以不发展,但许多本地语言可以逐渐普及,以适应特殊团体可获得的需要、兴趣和元数据。
尽管本发明已经按照其优选实施例的具体特征在上面进行了论述,但本领域技术人员容易理解,本发明不限于上述实施例的特殊性。更特别地,可对上述优选实施例进行各种修改和改编,而不偏离所附权利要求限定的本发明的范围。
例如,在上述对等体之间的查询-响应事务处理中,服务器将认为的匹配顾客请求的全部数据发送给客户机。然而,可设想仅传回一个数据项,或者更普遍地,传回少于全部数据集的服务器认为匹配客户机查询的多个数据项。
此外,上述实例应用指示,当客户机所有者接收到查询的响应时,该所有者指示哪个结果(如果有的话)是相关的并可选择是否将选定项加入其信息系统。在实际应用中,如果选定结果自动加入他的信息系统且没有对她一方的任何进一步动作,这对所有者来说常常是适宜的。
此外,应该指出,尽管按照两个信息系统(一个作为客户机另一个作为服务器)之间一对一交换论述了本发明的优选实施例,但在实际应用中客户机可向对等网以没有特定地址的方式顺畅地发送消息。也就是说,本发明涵盖了客户机向基本上所有的网络成员(或者向预定子集,如可信赖的对等团体)发送查询的情况。客户机(和/或网络中的控制单元)可应用公知算法确定将哪个(或哪些)对等点作为随后处理该查询的服务器。显然,本发明还涵盖了第一信息系统向特定服务器查询的情况。
此外,为了改善对等网络中信息系统之间信息交换的语义交互操作,上述技术涉及一个信息系统的所有者请求来自其它信息系统的数据(查询)的情况。然而,这些技术容易适用于其它情况,如一个信息系统所有者希望通知其它所有者在她自己的信息系统(如提供者)中所具有的数据的情况。
在涉及“通知”可获得的数据的信息交换中,接收通知的信息系统所有者可通过向发布通知的信息系统请求待发送的数据来进行响应。在这种情况下,接收通知的信息系统所有者可请求数据,最后,从发布通知的信息系统提供的结果中选择。这样,可将“通知者”视为服务器,将接收该通知的信息系统视为客户机。在对等体之间的“通知”事务处理中,使用了如上所述的相同类型的编码、解码、分类和滤波功能。
尽管,在上述优选实施例中,包括标签的查询最初由客户机发布给服务器,随后可发送由该标签指示的类别的实例,在初始查询传输中,还可包括具有该标签的实例和/或反例(尽管这对于客户机和服务器都能识别所使用的标签的情况效率较低)。
Claims (17)
1、一种信息系统,包括:
存取数据项第一集合的装置;
检索-请求装置,适合于使所述信息系统的用户能够识别所述用户想要从远程信息系统检索的数据项的类别,其中,通过参考一个或多个实例集,所述用户识别所述数据项的类别,所述实例为所述第一集合中的数据项;
信息代理,响应检索-请求装置并适合于准备初始查询,以便向远程信息系统发送用户的请求,所述查询包括指示想要检索的数据项类别的标签,所述信息代理包括适合自动对用户识别的所述实例集指定类别的分类器,信息代理适合于将对应于指定类别的标签包括在初始查询中;
输出装置,用于输出由信息代理准备的初始查询;
输入装置,用于响应所述输出装置输出的查询,接收识别由远程信息系统检索的数据项的信息;
表示装置,用于向第一用户提供所述信息,所述信息识别由远程信息系统检索的数据项;以及
选择装置,用于使第一用户能够从远程信息系统响应查询所检索的数据项中进行选择;
其特征在于:
信息代理维护类别清单、标签以及将标签和类别相互关联在一起的绑定,并在初始查询中适合包括具有与指定类别最强绑定的标签;以及
信息代理响应选择装置,基于用户的选择,改变标签和类别之间的绑定强度。
2、如权利要求1所述的信息系统,其特征在于,所述信息代理适合:
确定由用户从检索的数据项中选择的数据项的数量是高于还是低于预定阈值;以及
如果选择的数量高于预定阈值,则相对于其它标签和所述指定类别之间的绑定强度,增加初始查询中使用的标签和指定类别之间的绑定强度。
3、如权利要求1或2所述的信息系统,其特征在于,所述信息代理用于:
确定由用户从检索的数据项中选择的数据项数量是高于还是低于预定阈值;以及
如果选择的数量低于预定阈值,则降低初始查询中使用的标签和指定类别之间的绑定强度。
4、如权利要求1、2或3所述的信息系统,包括:
构造装置,使用户能够定义可用于所述第一集合的数据项的数据结构,所述数据结构的节点按照用户分类被标记;
其中检索-请求装置适合于使所述信息系统的用户能够参照用户分类来识别想要检索的数据项的类别。
5、如权利要求1到4中任何一项所述的信息系统,其中根据区别特征集定义由信息代理维护的列表中的每个类别,分类器适合于通过将用户识别的实例集的特征与信息代理维护的列表中的类别的区别特征集进行比较,确定应当将用户识别的数据项集指定到哪一个类别。
6、如权利要求1到5中任何一项所述的信息系统,包括响应选择装置的反馈装置,借此引起将识别用户的选择的信号输出至远程信息系统。
7、如权利要求1到6中任何一项所述的信息系统,其中信息代理适合于在以下情况中使识别用户识别的实例集的数据输出至远程信息系统:即从远程信息系统接收的信息指示所述远程信息系统响应查询没有检索到数据项的情况,或者用户操作选择装置选择低于预定阈值的检索的数据项数量的情况。
8、如权利要求1到7中任何一项所述的信息系统,其特征在于,所述信息代理适合:
确定由用户从检索的数据项中选择的数据项数量是高于还是低于预定阈值;
如果选择的数量低于阈值,则引起分类器确定可用于对于检索-请求装置被识别的实例集合的修订类别以及由用户从远程信息系统检索的数据项中选择的数据项;以及
如果修订类别不同于初始查询中标签的指定类别,则准备初始查询的补充并将其输出至远程信息系统,所述补充包括修订标签,所述修订标签具有与修订类别的最强绑定。
9、一种信息系统,包括:
用于存取数据项第二集合的装置;
输入装置,用于接收来自远程信息系统的初始查询,所述查询请求检索所述第二集合的数据项并包括标签;
信息代理,包括用于处理接收的初始查询的解码装置,借此基于所述标签确定用于从所述第二集合检索的数据项的初始类别,所述信息代理适合于准备初始响应,所述初始响应识别在所述第二集合中的属于所述确定的初始类别的数据项;
输出装置,用于向远程信息系统输出所述初始响应;
其特征在于:
信息代理适合维护类别清单、标签以及将标签和类别相互关联在一起的绑定,解码装置适合于通过选择具有与初始查询中接收的标签最强绑定的类别来确定检索的数据项的初始类别,以及
信息代理响应从远程信息系统接收的反馈,借此改变标签和类别之间的绑定强度,所述反馈指示所述远程信息系统的用户从所述初始响应识别的数据项中进行的选择。
10、如权利要求9所述的信息系统,其中所述信息代理适合:
确定从远程信息系统接收的反馈指示由远程信息系统的用户选择的数据项的数量是高于还是低于预定阈值;以及
如果选择的数量高于预定阈值,则相对于所述标签和其它类别之间的绑定强度,增加所接收的初始查询中的标签和由解码器确定的初始类别之间的绑定强度。
11、如权利要求9或10所述的信息系统,其中所述信息代理适合:
确定从远程信息系统接收的反馈指示由远程信息系统的用户选择的数据项的数量是高于或低于预定阈值;以及
如果选择的数量低于预定阈值,则降低所接收的初始查询中的标签和由解码器确定的初始类别之间的绑定强度。
12、如权利要求9、10或11所述的信息系统,其中根据区别特征集定义由信息代理维护的列表中的每个类别,并且信息代理适合通过将所述数据项的特征与确定的初始类别的区别特征集进行比较来识别所述第二集合中的数据项,以进行检索。
13、如权利要求9到12中任何一项所述的信息系统,其特征在于:
根据区别特征集定义由信息代理维护的列表中的每个类别;以及
信息代理包括分类器,适合通过对从所述远程信息系统接收的实例数据的分析,识别检索的数据项的代替类别,识别数据项集的所述实例数据构成想要检索的数据项类的实例,所述分类器适合通过将实例数据项的特征与信息代理维护的列表中的类别的区别特征集进行比较来识别所述用于检索的代替类别。
14、如权利要求13所述的信息系统,其中分类器适合于使得如果由信息代理维护的列表中的类别的特征集中没有一个就实例数据项而言是有区别的,则分类器确定所述实例数据项的区别特征集,并引起相应的新类别产生。
15、一种对等信息交换网络,包括多个工作在客户机模式或服务器模式下的对等信息系统,每个工作在客户机模式下的信息系统是根据权利要求1到8其中之一的信息系统,并且每个工作在服务器模式下的信息系统是根据权利要求9到14其中任何一项的信息系统。
16、一种信息系统,包括:
用于存取数据项第一集合的装置;
规定装置,适合于使所述信息系统的用户能够识别所述用户想要向远程信息系统确认的数据项的类,其中,通过参考一个或多个实例集,用户识别数据项的所述类,所述实例为所述第一集合中的数据项;
信息代理,响应规定装置并适合于准备用于发送到远程信息系统的初始消息,所述初始消息包括指示数据项类别的标签,所述信息代理包括适合自动对用户识别的所述实例集指定类别的分类器,信息代理适合于将对应于指定类别的标签包括在初始消息中;
输出装置,用于输出由信息代理准备的初始消息;以及
输入装置,用于接收来自远程信息系统对包括在初始消息标签中的标签所指示的类别中的数据项的识别的请求,所述数据项在所述第一数据集合中;
其中信息代理适合于向所述远程信息系统确认所述实例集;
其特征在于:
信息代理适合于维护类别清单、标签以及将标签和类别相互关联在一起的绑定,并在初始消息中适合包括具有与指定类别最强绑定的标签;以及
信息代理响应从远程信息系统接收的反馈,借此改变标签和类别之间的绑定强度,所述反馈指示由所述远程信息系统的用户从所述数据项集中进行的选择。
17、一种在对等网络中管理信息交换的方法,所述网络包括多个工作在客户机模式或服务器模式下的对等信息系统,每个对等信息系统包括:数据项的集合、用于使用户指示想要从远程对等体检索的数据项的类别的装置以及用于使用户从由远程对等体检索的数据项中进行选择的装置,所述方法包括如下步骤:
为每个对等体信息系统提供信息代理,所述信息代理维护标签清单、类别以及将标签和类别相互关联在一起的绑定,
其中,当在客户机模式下制定查询时,所述信息代理分析表示用户想要的数据项的类的实例数据,借此确定用于查询的客户机端类别,并在输出至远程对等体的查询中包括具有与所述确定的客户机端类别最强绑定的标签;
其中,当在服务器模式下响应查询时,所述信息代理对查询中接收的标签进行解码,并确定作为用于检索数据项的类别的具有与所接收的标签最强绑定的服务器端类别;
其中所述信息代理适合基于用户对从远程对等体检索的数据项的选择,改变其清单中标签和类别之间的绑定强度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04292363.1 | 2004-10-05 | ||
EP04292363.1A EP1645974B1 (en) | 2004-10-05 | 2004-10-05 | Self-organisation approach to semantic interoperability in peer-to-peer information exchange |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1767541A true CN1767541A (zh) | 2006-05-03 |
CN1767541B CN1767541B (zh) | 2012-03-21 |
Family
ID=34931433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005101291344A Expired - Fee Related CN1767541B (zh) | 2004-10-05 | 2005-09-30 | 对等信息交换中语义互操作性的自组织方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7707147B2 (zh) |
EP (1) | EP1645974B1 (zh) |
JP (1) | JP4852288B2 (zh) |
CN (1) | CN1767541B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009021446A1 (fr) * | 2007-08-11 | 2009-02-19 | Tencent Technology (Shenzhen) Company Limited | Procédé et appareil de récupération de ressources publicitaires en ligne |
CN102739804A (zh) * | 2012-07-12 | 2012-10-17 | 白玉琪 | 基于设备自定义的设备互操作方法 |
WO2014154089A1 (zh) * | 2013-03-25 | 2014-10-02 | 华为终端有限公司 | 一种设备识别方法及相关设备 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007029348A1 (ja) * | 2005-09-06 | 2007-03-15 | Community Engine Inc. | データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム |
US7822745B2 (en) * | 2006-05-31 | 2010-10-26 | Yahoo! Inc. | Keyword set and target audience profile generalization techniques |
US20080154906A1 (en) * | 2006-12-22 | 2008-06-26 | International Business Machines Corporation | Selecting information for ad hoc exchange |
US8204856B2 (en) | 2007-03-15 | 2012-06-19 | Google Inc. | Database replication |
ES2386202T3 (es) | 2007-04-17 | 2012-08-13 | Vodafone Holding Gmbh | Método y unidad central de proceso para administrar conexiones punto a punto |
US8626951B2 (en) * | 2007-04-23 | 2014-01-07 | 4Dk Technologies, Inc. | Interoperability of network applications in a communications environment |
US20100100546A1 (en) * | 2008-02-08 | 2010-04-22 | Steven Forrest Kohler | Context-aware semantic virtual community for communication, information and knowledge management |
US20100106704A1 (en) * | 2008-10-29 | 2010-04-29 | Yahoo! Inc. | Cross-lingual query classification |
US8583682B2 (en) * | 2008-12-30 | 2013-11-12 | Microsoft Corporation | Peer-to-peer web search using tagged resources |
WO2010138972A2 (en) | 2009-05-29 | 2010-12-02 | Abacast, Inc. | Selective access of multi-rate data from a server and/or peer |
US8930959B2 (en) | 2011-05-13 | 2015-01-06 | Orions Digital Systems, Inc. | Generating event definitions based on spatial and relational relationships |
CN102231151B (zh) * | 2011-05-19 | 2016-06-22 | 安徽农业大学 | 一种农业领域本体自适应学习建模方法 |
US10223637B1 (en) | 2013-05-30 | 2019-03-05 | Google Llc | Predicting accuracy of submitted data |
US10146865B2 (en) * | 2013-10-04 | 2018-12-04 | Orions Digital Systems, Inc. | Tagonomy—a system and method of semantic web tagging |
EP3602323A1 (en) * | 2017-03-28 | 2020-02-05 | Open Text SA ULC | Integration services systems, methods and computer program products for ecm-independent etl tools |
US11954605B2 (en) * | 2020-09-25 | 2024-04-09 | Sap Se | Systems and methods for intelligent labeling of instance data clusters based on knowledge graph |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852823A (en) * | 1996-10-16 | 1998-12-22 | Microsoft | Image classification and retrieval system using a query-by-example paradigm |
EP0848347A1 (en) * | 1996-12-11 | 1998-06-17 | Sony Corporation | Method of extracting features characterising objects |
US6556983B1 (en) * | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US6598042B1 (en) * | 2000-09-29 | 2003-07-22 | International Business Machines Corporation | System and method for query by category |
JP3974377B2 (ja) * | 2001-11-05 | 2007-09-12 | 日本電信電話株式会社 | 情報蓄積・検索装置及び方法、情報蓄積・検索プログラムならびにそのプログラムを記録した記録媒体 |
JP4276168B2 (ja) * | 2002-05-10 | 2009-06-10 | マイクロソフト コーポレーション | 資源についての並行、分散ネットワークの協調 |
JP4357827B2 (ja) * | 2002-11-07 | 2009-11-04 | 大日本印刷株式会社 | ピアツーピア型文書共有ネットワークシステム |
US7769881B2 (en) * | 2003-01-24 | 2010-08-03 | Hitachi, Ltd. | Method and apparatus for peer-to peer access |
-
2004
- 2004-10-05 EP EP04292363.1A patent/EP1645974B1/en not_active Expired - Fee Related
-
2005
- 2005-09-30 CN CN2005101291344A patent/CN1767541B/zh not_active Expired - Fee Related
- 2005-10-04 US US11/243,241 patent/US7707147B2/en active Active
- 2005-10-05 JP JP2005292756A patent/JP4852288B2/ja active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009021446A1 (fr) * | 2007-08-11 | 2009-02-19 | Tencent Technology (Shenzhen) Company Limited | Procédé et appareil de récupération de ressources publicitaires en ligne |
CN102739804A (zh) * | 2012-07-12 | 2012-10-17 | 白玉琪 | 基于设备自定义的设备互操作方法 |
WO2014154089A1 (zh) * | 2013-03-25 | 2014-10-02 | 华为终端有限公司 | 一种设备识别方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
EP1645974A1 (en) | 2006-04-12 |
CN1767541B (zh) | 2012-03-21 |
EP1645974B1 (en) | 2014-01-01 |
US20060074906A1 (en) | 2006-04-06 |
US7707147B2 (en) | 2010-04-27 |
JP4852288B2 (ja) | 2012-01-11 |
JP2006107515A (ja) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1767541A (zh) | 对等信息交换中语义互操作性的自组织方法 | |
CN1155906C (zh) | 数据处理方法、系统、处理程序及记录媒体 | |
CN1163837C (zh) | 网络访问管理系统和方法 | |
CN1678990A (zh) | Web服务设备和方法 | |
CN1153161C (zh) | 使用智能注释来组织、链接和操作不同数据对象的系统和方法 | |
CN1703700A (zh) | 为了经同步的内容显示使网络接入点的关联小型端口协作的方法和装置 | |
CN1578265A (zh) | 语义信息网络(sion) | |
CN1808430A (zh) | 智能、图示和自动化互联网和计算机信息的检索和挖掘方法 | |
CN1266624C (zh) | 学习支持系统 | |
CN1297935C (zh) | 进行非结构化信息管理和自动文本分析的系统和方法 | |
CN1299488A (zh) | 改进的搜索引擎 | |
CN1609795A (zh) | 用于计算机平台的编程接口 | |
CN1328668A (zh) | 用于指定网络上的位置的系统和处理 | |
CN1703701A (zh) | 用于管理门户服务器中的门户构件集合的方法和装置 | |
CN1692358A (zh) | 使用商业规则或用户角色而在环球网门户中选择小门户的方法和装置 | |
CN1703699A (zh) | 从门户服务器传递会话信息的方法和装置 | |
CN1749999A (zh) | .net数据类型和实例的持久存储 | |
CN1797399A (zh) | 用于文本挖掘和搜索的应用程序编程接口 | |
CN1535433A (zh) | 基于分类的可扩展交互式文档检索系统 | |
CN1771712A (zh) | 个性化的服务发现 | |
CN1478237A (zh) | 通过互联计算机网络的多语种电子数据源的在线智能信息比较代理器 | |
CN1882943A (zh) | 使用超单元的搜索处理的系统和方法 | |
CN1750003A (zh) | 信息处理装置,信息处理方法,和程序 | |
CN1745364A (zh) | 用于扩展应用程序首选项类的系统和方法 | |
CN101079026A (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: SONY EUROPE LIMITED Free format text: FORMER OWNER: SONY FRANCE S. A. Effective date: 20111013 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20111013 Address after: surrey Applicant after: Sony Corporation Address before: France Klich Applicant before: Sony France S. A. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120321 Termination date: 20150930 |
|
EXPY | Termination of patent right or utility model |