CN1455902A - 检索简档的比较方法 - Google Patents
检索简档的比较方法 Download PDFInfo
- Publication number
- CN1455902A CN1455902A CN01815592A CN01815592A CN1455902A CN 1455902 A CN1455902 A CN 1455902A CN 01815592 A CN01815592 A CN 01815592A CN 01815592 A CN01815592 A CN 01815592A CN 1455902 A CN1455902 A CN 1455902A
- Authority
- CN
- China
- Prior art keywords
- data
- profile
- comparison
- value
- district
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种自动比较检索简档的方法。利用本发明的方法,将一个检索简档与一个或多个存储在一个数据库中的建议简档进行比较。各个简档被划分为数据区,要比较的信息存储于其中。在每一个简档之内,设有不同类型的数据区,此时各个简档有相同的结构。在与一个建议简档比较一个检索简档时,至少要有两个不同类型的数据区用不同的比较功能去比较。从由此求得的暂时比较值计算出一个最终比较值。对于本发明的方法,为不同类型的数据区应用不同的比较功能。从而使一个主要是单独比较各个信息的方法比常规方法为人所知。
Description
本发明涉及比较两个检索简档的方法。
自动比较和评估检索简档的方法,例如可用于因特网中的搜索引擎,以将各个由搜索引擎检查过的可能结果,按照其与输入的检索概念的相关性进行评估,或许作为相关的结果显示出来。如果需要计算多个结果,则要将这些结果用递降的相关性分类并以相应的顺序显示给用户。
从D.Kuokka和L.Harada发表的文章Integrating Informationvie Matchmaking,Journal of Intelligent InformationSystems(JIIS)6(2/3)第261-279页1996公知一种自动比较和评估信息的方法,这也被称作为COINS(COmmon INteres Seeker)。用这种方法能将任意的文字进行比较,这是具有任意词序的文字段落。任意的文字在这种方法时被变成文件向量,在检索时比较和评估这些文件向量。为此,要利用一个文件频度的逆算法(term frequency-invers document frequency algorithm)。
K.Sycara,J.Lu,M.Klusch和S.Widoff发表的文章DynamicService Matchmaking among Agents in Open InformationEnviroments,Journal ACM SIGMOND Record,Special Issue onSemantic Interoperability in Global Information Systems,A.Ouksel,A.Sheth(Eds.),1999和
K.Sycara,J.Lu,M.Klusch发表的文章Interoperabillityamong Heterogenous Software Agents on the Internet,CMU-RJ-TR-98-22,The Robotics Institute Carnegie MellonUniversity,Pittsburgh,Okt.1998涉及一种计算机语言,允许用不均匀代理系统,在一个诸如因特网的开放环境中,实施自动比较和评估信息的方法。一个开放的环境意味着,不是所有的代理必须了解自己。这种语言也称作为Larks(language for Advertisement andRequest for Knowledge Sharing)。在Larks时,比较过程被划分下面五个单个的步骤:
1.在进行上下文比较时,将那些建议的一个数据库的信息单元,与在相同或类似的上下文中的询问进行比较。
2.在进行句法比较时,将该询问与通过上下文比较选出的信息单元在三个分步骤中进行比较:
2.1检索简档和所建议的信息单元要用一个专门的加权方法(termfrequency-invers document frequency weighting)进行比较。
2.2在进行相似性比较时,将输入-和输出变量以及输入-和输出功能的个数和声明进行比较。
2.3在进行签名比较时,将输入-和输出变量的变量类型进行比较
3.在一个语义比较时要检查,是否要将由一个检索询问和一个信息建议组成的一对的输入-和输出功能进行比较。
试图用这种都公知的方法去达到一个尽可能好的评估,就是说要有一个与由一个人进行的评估尽量相似的评估。为此,对各个评估步骤给予不同的重点。各个评估步骤总是按顺序进行,此时检索询问的全部信息和所建议信息单元之一的全部信息对于每个步骤都单独评估。
此外,公知所谓的多中介(Multi-Matchmaker)为众所周知,这是些能将多个单独的方法用于进行信息的自动比较和评估的方法,并将各自的结果通知到一个总结果。这类的多中介基本上像常规比较和评估信息的方法那样运行。只是当一个预先规定的检索询问不能在要求的时间范围完成时,就要调用其它相似的方法去比较和评估信息,这些方法接管一部分比较-和评估过程。由此也能使高开销的检索询问顺利完成。
本发明提出的任务基础是,创立一种自动比较和评估信息的方法,用该方法可以使得评估与人进行的评估极为相似,且花费少量的计算开销就达到目的。
该任务用根据独立权利要求的特征,通过比较检索简档的方法来解决。
对于比较一个第一检索简档与至少一个第二检索简档的方法,此时检索简档各有多个数据区,第一检索简档和第二检索简档的数据区各有至少两个类型各异的数据区,该类型对于第一和第二检索简档向量的各数据区相同,在比较第一检索简档与第二检索简档时,要将至少两个不同类型的数据区与不同的比较功能进行比较。
本发明有利的实施形式在从属权利要求中说明。
对于根据本发明的自动比较和评估信息的方法,将一个由用户预先给出的检索简档与一个存储在数据库中的建议简档进行比较。简档各划分为一定数量的数据区,要比较的信息存储在这些数据区中。每个简档至少有两个不同类型的数据区。要比较的简档各有一些相同的数据区。
在将一个检索简档与一个建议简档进行比较时,至少两个不同类型的数据区要与不同的比较功能进行比较,将各个比较用一个暂时的比较值进行评估。由暂时的比较值计算出一个最终比较值。
从而,按照本发明的方法在各个数据区中比较结构化的简档。利用本发明,针对不同类型的数据区应用不同的比较功能,利用这些功能计算暂时的比较值。借此能针对类型去比较和评估各个数据区的内容。由暂时的比较值计算出一个最终比较值。
因此,利用本发明将各个数据区以针对类型的方式去比较,并将各个比较的结果,即暂时比较值综合成一个最终比较值。
用本发明的方法,进行针对类型的各个数据区的比较,由此将基本上较现实的结果作为通过迄今公知方法达到的结果。因为总是用各个比较功能只处理一定的数据区,而且不必总将一个简档的整个数据范围进行处理,那么简单地制订各个比较功能且通过一个短的程序段可实现。因此,大大简化了针对确定应用领域实施本发明的方法,再者本发明的方法可快速进行,因为各个短程序段只是处理专门的、比较所需的任务。
按照本发明的一种优选的实施方案,设有一个或多个复合数据区,它们各自建立在多个数据区的基础上。如果这些另外的数据区又是复合数据区,则它们又是以多个数据区为基础。在这样一个链的终点安排有基本数据区,简档的信息存储于其中。数据区以不同的级来安排,此时一个与多个其它数据区有关的复合数据区,安排在当时对数据区高一级的级上,它与该级有关。
按照本发明的一个优选的实施方案,为了比较由任意文字中包含的数据区,将制订文件向量,此时向量的各个要素是说明要素关联的加权因数,并将两个文件向量之间的一个欧几里得距离作为暂时比较值计算。一个欧几里得距离的计算,满足对一个公制间距函数的要求,即两个雷同的向量距离为0,从一个第一到一个第二向量的距离等于从第二到第一向量的距离,以及一个第一与一个第三个向量之间的距离小于或等于第一与一个第二向量之间的距离,包括第二与第三个向量之间的距离。
根据本发明的方法能很有利地整合到一个代理系统去。这个代理系统包括至少三种类型代理,即一个检索代理、一个建议代理和一个比较代理,后者按照通过检索代理的请求将存储在检索代理和建议代理中的简档进行比较和评估。代理系统基本上是一个开放的代理系统,就是说能补充另外的代理,尤其是建议代理。所述代理主要是移动代理,就是说它们能在一个计算机网络中在不同位置活动,并能在计算机网络中改变地点。
本发明在下面附图所示的实施例中得到进一步说明。
图1示出的是不同基本数据区的一个表格,
图2一个以表格形式的简档说明,
图3以一个方框图形式的简档结构,
图4在一个流程框图中自动比较和评估信息的方法,
图5a两个要比较的任意文字,
图5b由在图5a出示的任意文字推导出的两个数据组,
图5c数据组各个词以表格形式的评估结果,
图6对合作股票市场的建议说明的一个例子,
图7以方框图形式的一个代理系统,和
图8与计算机相连的网络的方框图,在其上安装有图6的代理系统。
对于按照本发明的自动比较和评估信息的方法,检索简档要与一个在数据库中存储的建议简档进行比较。图2示出了一个本发明的实施例的简档说明。这个简档说明包括八个数据区,在图2的左列有各个数据区的名称,在中间列是数据区变量符号,在右列给出了数据区的一个简短说明。
原则上对一个自动比较方法,在一个建议简档与一个检索简档之间进行区分。建议简档和检索简档的简档说明在结构上是一致的。它们只是通过其数据区内容‘简档类型’来区分,其中,对是否涉及一个建议简档或是一个检索简档的说明存储在其中。数据区‘简档类型’t是一个布尔数据区,其内容不是0就是1。其它数据区是题目、关键词、准确说明、费用、日期、持续时间和用户。数据区‘题目’包括一个被建议的或被检索的性能的简短说明,是以一个所谓的动词-名词-表达方式的形式。利用这类动词-名词-表达方式,是从V.S.Subrahmanian(发行人),Piero Bonatti,Juergen Dix,Thomas Eiter,“Heterogeneous Active Agents”,Cit Press;ISBN:0262194368得知。数据区‘关键词’包括一组关键词。以前面说明的意义,一组是同类型要素的一个无序汇集,诸如词、实数、整数或类似的。一个组的变量表示在两个大括号之间。
数据区‘准确说明’包括一段任意文字,在其中以建议的或检索的性能来说明。
数据区‘费用’包括关于所期待的最低或最高费用的说明。因此数据区‘费用’表示的是一个间隔。
数据区‘持续时间’给出的是,为了实施所建议的性能需要的时间。
数据区‘用户’包括一个那些提供或要提供性能用户的名单。一个名单通过置于上角的正号表示。括号表达方式[1:2]代表每个名单要素由两个单个元素组成,即名和姓。数据区τ8[1:2]+和数据区(τ1)是下面将要详细说明的复合变量。
图3是图2简档说明的结构。简档说明划分为三个级(级0、级1和级2)。级2是最高的级,图2所示的数据区被布置在其中。复合数据区τ1和τ8[1:2]+各与其它数据区有关,这些数据区是通过相应的变量表示在下面的级中。这样,在级中布置有多个数据区τ1,其中各存储一个关键词。因此复合变量τ1与在级1上存储的关键词清单有关。用户的复合数据区τ8[1:2]+与其它数据区的一个清单有关。这个清单的要素是区布置[1:2],它们各包括名和姓。原则上一个区布置包括一个一定数量的同类型要素。因此,区布置τ8[1:2]与在级0中布置的其它数据区有关,并各有一个单字填写,即名或姓。两个这类的数据区τ8总是归纳成一个这种类型的区布置。
与在低一级的级中其它数据区有关的数据区,被称作为复合数据区。其余数据区是基本数据区。
在基本数据区中,存储有当时简档的信息。经过复合数据区,有多个基本数据区以组、清单、区布置或登记(Record)形式,反映到最高级中的唯一一个区布置上。登记类似于由一个预先确定数量的连续要素形成的区布置,又能由不同类型组成。
通过上述用从上一级的级向下一级分杈的复合数据区的树形结构,在最高级的级(这里:级2)中,为每个想象的单元只设置一个唯一的数据区。
图1是基本数据区的一个清单。在第一列中是基本数据区τ1至τ8的变量名称。在中间的列中是相应基本数据区的名称,在右列中是内容的一个简短说明。
所举的实施例是进行英语的语言要素比较,因此关键词τ1是英语的名词。动词-名词-表达方式τ2是由一个动词和至少一个名词组成的表达方式。一段任意文字τ3由一个任意字、字母和数字组合组成。数字τ4不是一个整数(Integer)就是一个实数。间隔τ5是类型V1、V2的一个区布置,此时V1和V2是以整数或实数形式的间隔边界。一个日期间隔τ6是有两个日期说明D.M.Y的一个区布置。一个时间τ7是带有说明Y:D:H:M:S:Ms的一个区布置,其中Y是年,D是日,H是小时,M是分,S是秒,Ms是1/100秒。一个名字τ8是一个人任意一个适用的名字。
图4是图3中所示简档结构的按照本发明方法的流程。
该方法以步骤S1开始。在步骤S2中,借助一个姓名比较功能比较数据区‘用户’。如果名和姓,即两个由一个名和一个姓组成的区布置符合一致,则作为暂时比较值计算一个距离的姓名比较功能得出的距离为0。如果比较的姓名不一致,则作为暂时比较值的姓名比较功能得出的距离为1。在步骤S2中比较数据区‘用户’时,将检索简档的各个区布置与所有建议简档的相应区布置进行比较。该比较在级0的区布置之间进行。如果检索简档的一个区布置与建议简档的一个区布置符合一致,则在检索简档的级1中,将数值0作为暂时比较值,填写到属于被找到的区布置的数据区τ8[1:2]中。如果不能找到这个区布置(=名和姓),则在级1的相应数据区填写数值1。步骤2结束之后,所有数据区τ8[1:2]都具有一个暂时比较值。
在步骤3中,评估分配给姓名的暂时比较值。一般这是通过形成一个加权的平均值来进行。因为要比较的要素总是有相同的类型,它们是等值的,因此都用1加权。这样,总是形成一个填写到复合数据区τ8[1:2]数值的平均值。该平均值是一个第二等级的暂时比较值,它被填写在名单τ8[1:2]+复合数据区的级2。
在下面的步骤S4中,将检索简档含有关键词内容的数据区τ1与建议简档的相应数据区进行比较。以比较关键词的比较功能这样去形成,即将检索简档的每个关键词与建议简档的每个关键词去比较,如果检索简档的一个关键词没有包含在建议简档的关键词之下,则存储数值1。在其它情况下,存储数值1。这些数值的平均值作为比较值计算,并填写到关键词{τ1}清单的数据区中。
方法步骤3和4在级1中实施。
在接着的方法步骤5中,将数据区‘题目’τ2、‘准确说明’τ3、‘费用’τ5、‘日期说明’τ6和‘持续时间’τ7的内容相互进行比较。
对‘题目’τ2进行比较的比较功能是通常的比较动词-名词-表达方式的比较功能。
对数据区‘准确的说明’τ3进行比较的比较功能是一个比较任意文字的比较功能。图5a是两个任意文字d1、d2的举例,它们各为一段用英语写成的文字。首先将这些任意文字转变成数据组DS1和DS2,将任意文字中所有的词都纳入到其中,它们不是停止词。停止词是信息内容少的词。有常用停止词清单。在所述情况中,下面的词被评为停止词:
this、is、in、a、the、and、off、can、be are、with、we、for、to、an、able、wich、our、not、shout、already、make。
在数据组DS1和DS2中,在各个词之后总还给出其在相应任意文字中出现的频率。各个词在数据组中按字母分类。
为了比较任意文字,数据组的词必须设有加权因数。为了计算加权因数,先要按照下面的公式定义所谓的逆向文件频度idfj:
其中N是所有文件的总数,dfj是包含有j字的文件个数。在下面的实施例中,每一段任意文字表示一个文件。除了在图5a中示出的两个任意文字外,总共还有其它18个建议简档的另外18个任意文字。文件N的总数为20。
利用逆向文件频度,那些极其频繁出现的词用一个趋于0的数值加权,而只很少在文件中出现的词用趋于1的数值加权。因此,在逆向文件频度idfj的情况下,罕见的词有比频繁用的词强的加权。罕见的词一般有比频繁用的词更高的信息含量。
除了逆向文件频度外,还要考虑在文件i中词j的频度tfi,j。这样,频度tfi,j与逆向文件频度idfj的乘积作为加权因数wi,j(wi,j=tfi,j.idfj)。
对于在图5b中所示出的数据组的词,其逆向频度dfj和加权因数w1,j和w2,j,列于图5c的表中。
加权因数w1,j和w2,j,各组成文件向量DV1和DV2的要素。
在比较两段任意文字时,要计算相应文件向量DV1和DV2的距离。按照本发明,两个向量之间的距离作为欧几里得距离依照下面的公式计算:
欧几里得标准在公制距离上满足所有的前提:
-两个完全相同向量之间的距离为0。
-从一个第一向量到一个第二向量的距离等于从第二向量到第一向量的距离。就是说,距离计算是对称的。
-从一个第一向量到一个第三个向量的距离小于从第一向量到一个第二向量与从第二向量到第三个向量距离之和。
只有当距离计算满足这个前提时,才确保总是求得一个有意义的距离。
代替用一个欧几里得距离计算两个文件向量之间的距离,也可以像进行通常比较方法那样,用两个向量之间的余弦去计算距离。
对包括费用的数据区进行比较的比较功能,是进行间距比较的比较功能。两个间距i1,i2之间的用实数i1=[l1,r1]和i2=[l2,r2]给出的距离,按下面公式计算:
为了计算数据区‘日期说明’和‘持续时间’,利用本来已知的比较功能。
在所举的实施例的情况下不比较数字,因此也不利用相应的比较功能去比较。这样一种比较功能,例如可以很简单地通过要比较数字之间差的绝对值来实现。
要将在比较数据区τ2、τ3、τ5、τ6和τ7时所求得的暂时比较值存储起来。就此,步骤S5结束。
在步骤6中,对级2数据区τ1至τ8的各个暂时比较值,被利用来计算一个最终比较值。在这种情况下,计算一个加权平均值,此时各个数据区根据其各自的重要性以不同强度进行加权。这个被加权的平均值形成的结果给出两个对要比较的简档的检索简档与建议简档之间距离的一个距离值。
因为一般希望采用相似值而非距离值,所以构成距离值的倒数值(步骤S7)。这个相似值表示最终比较值。这个比较值从步骤S8输出。在步骤S9中此方法结束。
最终比较值,能用于将相应的建议简档在建议简档的一个清单中,按照计算出的对检索简档的相似性进行分类。
如果用户在启动一个检索过程时确定,他希望有最相似的建议简档,则对每个建议简档实施上述本发明的方法,各个建议简档关系到检索简档以递降的相似性分类,并将最相似的建议简档作为结果输出给用户。
本发明的方法能作为计算机程序,去进行简档的自动比较。本发明方法的一个特别有利的实施,是以一个代理系统的形式进行。
代理是由代码和数据组成的自主、合作的软件单元。它们是独立起作用的软件单元,其中不需要与用户有永久性相互作用。既有固定的代理,也有移动的代理。
例如从US 5,603,031公知移动代理。移动代理是能在一个计算机网络上在不同位置运行的程序,并能在计算机网络中改变它们的地点。
图7大致示出用三个代理的根据本发明的方法的流程图。其中,采用了一个比较代理、一个检索代理和一个建议代理。比较代理包括有一个数据库,将对于它已知的建议代理与它们各自的建议简档存储在比较代理中。建议代理能用它们的建议简档填写到相应的数据库中,或者如果它们不再保持相应的建议时,再将该建议简档清除。
一个寻找一确定性能的检索代理,转向一个比较代理,并向比较代理发送一个检索询问。检索询问包含一个相应的检索简档。比较代理将这个检索简档与在比较代理数据库中存储的建议简档比较,并按照上述的方法评估它们。比较代理传输给检索代理一个相应的检索回答,该回答包含有一个相关联的建议代理名单,此时每个建议代理用一个比较值评估。
检索代理能将检索回答或者转发给它的原始任务委托人,或者向分配了最好比较值的建议代理发送一个询问以提供相应的性能。然后就能将成果从建议代理带给检索代理,检索代理再将它转发给它的任务委托人。
图1是一个在其中实施一个这类代理系统的网络简化图示。网络有多个经过数据传输线2互相连接的计算机1。在各个计算机1上,各安装一个代理系统AG。在网络中有一些移动代理AG-I至AG-IV,它们或者布置在一个计算机1上,或者从一个到另一个计算机移动。
每个代理系统有一个包括服务程序的代理平台,它需要一个代理,以便能到当时的计算机1上去实施。
代理AG-I是建议代理,代理AG-II是检索代理。代理AG-III是比较代理。在比较代理AG-III中存储建议代理AG-I的建议简档,检索代理AG-I在比较代理AG-III提出一个检索询问,这个代理用一个相应的检索回答来回答该询问。
检索代理就能将检索回答以相应的预定方式和方法继续处理,特别是要转发给操作一个网络计算机的那个用户。
根据本发明的方法,能作为在一个网络中以例如一个比较代理形式存储的软件产品来实现。根据本发明的方法,也能被存在任意一个电子可读的数据载体上,或一个计算机中的一个半导体存储器上,并在计算机中去实施。
本发明用上面的一个实施例详细说明。但它不局限于所举实施例的具体实施形式。对于本发明主要的是,各个简档是通过不同类型的数据区结构化,且对于不同类型的数据区应用不同的比较功能。因此,得到一个对被比较的简档的多维评估。这个简档的多维评估是一个很独特的评估,与由人进行的评估很相近。在本发明的范围内,例如有可能用作为在上述实施形式的情况下的其它内容占据基本区。也有可能将不同结构的简档进行比较,此时要将两个简档之一成像在另一个简档上,其结构要与被比较的简档的一致。
通过这种附加的成像,根据本发明方法的使用范围能大大地扩展。例如适宜的是,将一个相对小的设置有三至五个不同类型数据区的简档,成像到任意的信息单元上。这些信息单元就用它们所属的结构化了的简档进行比较。
Claims (20)
1.用于将一个第一检索简档与至少一个第二检索简档进行比较的方法,其中所述检索简档各有多个数据区,
其特征在于:
第一检索简档和第二检索简档的数据区,各包括至少两个具有一个不同类型的数据区,该类型对第一和第二检索简档向量各自的数据区相同;对于该方法,在比较第一检索简档与第二检索简档时,将至少两个不同类型的数据区用不同的比较功能进行比较。
2.自动比较和评估信息的方法,其中各将一个检索简档与一个存储在数据库的建议简档进行比较,并将简档各划分为一定数量的数据区,将有待比较的信息存储在所述数据区中,每个简档至少有两个不同类型的数据区,有待比较的简档各自有相同类型的数据区,其中,
在将一个检索简档与一个建议简档进行比较时,将至少两个不同类型的数据区用不同的比较功能进行比较,并将各个比较用一个暂时比较值去评估,和
由暂时比较值计算一个最终比较值。
3.如权利要求2的方法,
其特征在于:
所述简档有多个级,至少在一个级中设置有一个复合数据区,它与一个低一级的级的多个数据区有关,所述复合数据区是一个变量,在进行比较时,将一个复合比较值用于其中,该比较值从比复合数据区等级低的数据区计算出。
4.如权利要求3的方法,
其特征在于:
复合数据区与基本数据区有关,其中所述简档的信息存储在基本数据区中。
5.如权利要求4的方法,
其特征在于:
复合数据区布置在最高级中;在最高级之下布置有多个级,其中,经过其它复合数据区建立最高级的复合数据区与不是布置在最高级的直接下一级的级中的基本数据区的关系,这些复合数据区被布置在最高级与布置有基本数据区的级之间的级中。
6.如权利要求2至5之一的方法,
其特征在于:
最终比较值用一个由暂时比较值的加权平均值形成来计算。
7.如权利要求2至6之一的方法,
其特征在于:
暂时比较值表示当时的一个信息距离,相应的信息区别越强,其数值就越大。
8.如权利要求7的方法,
其特征在于:
为了由暂时比较值计算最终比较值,计算一个最终信息距离,并从这个信息距离计算构成最终通信数值的倒数值。
9.如权利要求2至8之一的方法,
其特征在于:
所述比较功能对两个各包含一个日期、一个数值、一段任意文字、一个关键字、一个间隔、一个钟点时间的数据区进行比较和评估;或者对一个各包含姓名的数据区进行比较和评估。
10.如权利要求2至9之一的方法,
其特征在于:
一个比较功能,用于比较两个各包含一段任意文字的数据区,这是通过以下方式进行的:
-将两段任意文字分解成单个的词,
-为每段任意文字各编写一个数据组,它包括各段任意文字中的所有的词,这些词不是停止词。
-数据组中的每个词根据其在任意文字内的相关性和根据其数据库中的相关性用一个加权因数(wi,j)加权,其中两个数据组的加权因数各是一个文件向量(DVi,DVj)的要素,和
-计算两个文件向量的距离,其中所述距离表示暂时比较值。
11.如权利要求10的方法,
其特征在于:
将两个文件向量(DVi,DVj)之间的欧几里得距离作为距离计算。
12.如权利要求10的方法,
其特征在于:
将两个文件向量(DVi,DVj)之间的余弦作为距离计算。
13.如权利要求2至12之一的方法‘
其特征在于:
利用一个K.O.-准则,它监控有待比较简档的一个确定区的暂时比较结果,并对暂时比较结果的一个预定的数值,以与其余比较结果无关的方式,在一个预定数值上确立最终比较结果。
14.如权利要求2至13之一的方法,
其特征在于:
至少有一个比较功能包括有一个阈值准则,当它超过或低于阈值时,在一个预定数值上确立比较结果。
15.如权利要求2至14之一的方法,
其特征在于:
一个比较功能,用来比较两个各有一个数字的数据区,其中
将两个数之间的差的绝对值作为比较值来计算。
17.如权利要求2至16之一的方法,
其特征在于:
一个比较功能,用来比较两个各有一个姓名的数据区,其中,如果有待比较的名字相符或者相似,则暂时比较值等于0,或者如果名字不同,则等于无穷大。
18.连接多个计算机的网络,其中在所示计算机中装有一个代理系统,并且网络拥有多个代理,
其特征在于:
一个比较代理,它被设计成实施如权利要求2至17之一的方法,和一个检索代理,它能对比较代理提出一个检索询问;按照所述询问,比较代理自动在一个数据库中,将存储的建议简档与一个用检索询问传输的检索简档进行比较和评估。
19.如权利要求18的网络,
其特征在于:
比较代理包括数据库与该数据库中所含的建议简档。
20.如权利要求18或19的网络,
其特征在于:
设置有多个建议代理,它们将一个对用于它们建议的建议简档传输给比较代理,以便存储在它的数据库中;或在回收一个建议时,将一个信息传输给比较代理,以便清除建议简档。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10034694.4 | 2000-07-17 | ||
DE10034694A DE10034694B4 (de) | 2000-07-17 | 2000-07-17 | Verfahren zum Vergleichen von Suchprofilen sowie dessen Verwendung |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1455902A true CN1455902A (zh) | 2003-11-12 |
CN1304991C CN1304991C (zh) | 2007-03-14 |
Family
ID=7649194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB018155928A Expired - Lifetime CN1304991C (zh) | 2000-07-17 | 2001-06-29 | 检索简档的比较方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7831602B2 (zh) |
EP (1) | EP1301872A2 (zh) |
JP (1) | JP4868484B2 (zh) |
CN (1) | CN1304991C (zh) |
DE (1) | DE10034694B4 (zh) |
WO (1) | WO2002006974A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095464A (zh) * | 2015-07-30 | 2015-11-25 | 北京奇虎科技有限公司 | 一种检索系统的检测方法和装置 |
CN113094338A (zh) * | 2021-03-15 | 2021-07-09 | 上海机电工程研究所 | 数据比对方法及系统、装置、介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8311946B1 (en) | 1999-10-15 | 2012-11-13 | Ebrary | Method and apparatus for improved information transactions |
US20040148274A1 (en) * | 1999-10-15 | 2004-07-29 | Warnock Christopher M. | Method and apparatus for improved information transactions |
US7536561B2 (en) | 1999-10-15 | 2009-05-19 | Ebrary, Inc. | Method and apparatus for improved information transactions |
DE10339466B3 (de) * | 2003-08-27 | 2005-02-17 | Siemens Ag | Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zum Austauschen von Daten |
US7840564B2 (en) | 2005-02-16 | 2010-11-23 | Ebrary | System and method for automatic anthology creation using document aspects |
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
DE102006021540A1 (de) * | 2006-05-08 | 2007-11-15 | Abb Technology Ag | System und Verfahren zum mengenbezogenem Vergleich zwischen Planungs- und Vorgabedaten eines technischen Prozesses oder eines technischen Projektes |
US20080208847A1 (en) * | 2007-02-26 | 2008-08-28 | Fabian Moerchen | Relevance ranking for document retrieval |
US8799308B2 (en) * | 2007-10-19 | 2014-08-05 | Oracle International Corporation | Enhance search experience using logical collections |
US20100131447A1 (en) * | 2008-11-26 | 2010-05-27 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing an Adaptive Word Completion Mechanism |
US8312105B2 (en) * | 2009-04-28 | 2012-11-13 | International Business Machines Corporation | Natural ordering in a graphical user interface |
US10698914B2 (en) * | 2015-03-31 | 2020-06-30 | Microsoft Technology Licensing, Llc | Query-by-example for finding similar people |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8929158D0 (en) * | 1989-12-23 | 1990-02-28 | Int Computers Ltd | Database system |
JPH06282574A (ja) * | 1993-03-24 | 1994-10-07 | Toshiba Corp | 類似検索装置 |
JPH0744570A (ja) * | 1993-06-29 | 1995-02-14 | Mitsubishi Electric Corp | データ検索装置 |
JPH07271802A (ja) * | 1994-03-24 | 1995-10-20 | At & T Global Inf Solutions Internatl Inc | 資源の複数格納部の将来ブール式探索 |
JP2697651B2 (ja) * | 1994-12-26 | 1998-01-14 | 日本電気株式会社 | データベース検索結果評価方式 |
US6366956B1 (en) * | 1997-01-29 | 2002-04-02 | Microsoft Corporation | Relevance access of Internet information services |
DE59801992D1 (de) * | 1997-08-26 | 2001-12-06 | Siemens Ag | Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil |
US20010014868A1 (en) * | 1997-12-05 | 2001-08-16 | Frederick Herz | System for the automatic determination of customized prices and promotions |
JP3657785B2 (ja) * | 1998-09-10 | 2005-06-08 | 株式会社東芝 | 情報記憶検索方法、情報記憶検索システム及び記録媒体 |
US7502748B1 (en) * | 1999-08-31 | 2009-03-10 | Careerious Inc. | Job matching system and method |
WO2001045019A1 (en) * | 1999-12-16 | 2001-06-21 | Zrep Inc. | Method and apparatus for scoring and matching attributes of a seller to project or job profiles of a buyer |
GB0009750D0 (en) * | 2000-04-19 | 2000-06-07 | Erecruitment Limited | Method and apparatus for data object and matching,computer readable storage medium,a program for performing the method, |
-
2000
- 2000-07-17 DE DE10034694A patent/DE10034694B4/de not_active Expired - Fee Related
-
2001
- 2001-06-29 EP EP01956301A patent/EP1301872A2/de not_active Ceased
- 2001-06-29 WO PCT/DE2001/002407 patent/WO2002006974A2/de active Application Filing
- 2001-06-29 US US10/333,250 patent/US7831602B2/en not_active Expired - Fee Related
- 2001-06-29 CN CNB018155928A patent/CN1304991C/zh not_active Expired - Lifetime
- 2001-06-29 JP JP2002512817A patent/JP4868484B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095464A (zh) * | 2015-07-30 | 2015-11-25 | 北京奇虎科技有限公司 | 一种检索系统的检测方法和装置 |
CN105095464B (zh) * | 2015-07-30 | 2019-03-05 | 北京奇虎科技有限公司 | 一种检索系统的检测方法和装置 |
CN113094338A (zh) * | 2021-03-15 | 2021-07-09 | 上海机电工程研究所 | 数据比对方法及系统、装置、介质 |
CN113094338B (zh) * | 2021-03-15 | 2022-12-13 | 上海机电工程研究所 | 数据比对方法及系统、装置、介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2004515837A (ja) | 2004-05-27 |
DE10034694A1 (de) | 2002-02-07 |
WO2002006974A2 (de) | 2002-01-24 |
DE10034694B4 (de) | 2005-06-09 |
US7831602B2 (en) | 2010-11-09 |
US20040030680A1 (en) | 2004-02-12 |
EP1301872A2 (de) | 2003-04-16 |
CN1304991C (zh) | 2007-03-14 |
WO2002006974A3 (de) | 2002-12-27 |
JP4868484B2 (ja) | 2012-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1304991C (zh) | 检索简档的比较方法 | |
US6321226B1 (en) | Flexible keyboard searching | |
US6560588B1 (en) | Method and apparatus for identifying items of information from a multi-user information system | |
EP1622055B1 (en) | Phrase-based indexing in an information retrieval system | |
US7523095B2 (en) | System and method for generating refinement categories for a set of search results | |
US6266658B1 (en) | Index tuner for given workload | |
AU2002229734B2 (en) | Database system and query optimiser | |
US20040249808A1 (en) | Query expansion using query logs | |
EP1615149A2 (en) | Geographical location indexing | |
US20060253423A1 (en) | Information retrieval system and method | |
US20030120644A1 (en) | Method, apparatus, and computer program product for locating data in large datasets | |
US20100057719A1 (en) | System And Method For Generating Training Data For Function Approximation Of An Unknown Process Such As A Search Engine Ranking Algorithm | |
US20060218138A1 (en) | System and method for improving search relevance | |
CN101079033A (zh) | 一种综合搜索结果的排序系统及方法 | |
CN1629844A (zh) | 动态内容聚类 | |
US20180260475A1 (en) | Systems and methods for verbatim-text mining | |
AU2008202535A1 (en) | A method for automatically indexing documents | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
CN102089805A (zh) | 用于概念映射的系统和方法 | |
Rieh et al. | Patterns and sequences of multiple query reformulations in web searching: A preliminary study | |
AU2002229734A1 (en) | Database system and query optimiser | |
CN1492367A (zh) | 询问应答系统及询问应答方法 | |
US20070136248A1 (en) | Keyword driven search for questions in search targets | |
CN113094444A (zh) | 数据处理方法、数据处理装置、计算机设备和介质 | |
US20190026370A1 (en) | System and Method for Categorizing Web Search Results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20070314 |
|
CX01 | Expiry of patent term |