CN103098052B

CN103098052B - 用于搜索多个数据记录的方法和搜索引擎

Info

Publication number: CN103098052B
Application number: CN201180040712.0A
Authority: CN
Inventors: 埃明·卡拉耶尔; 卡斯滕·海因茨; 马蒂亚斯·克林斯
Original assignee: Omikron Data Quality GmbH
Current assignee: Omikron Data Quality GmbH
Priority date: 2010-08-25
Filing date: 2011-08-17
Publication date: 2017-05-24
Anticipated expiration: 2031-08-17
Also published as: BR112013004243A2; US20130151499A1; JP5890413B2; EP2423830A1; US9087119B2; JP2013536519A; CN103098052A; WO2012025439A1; RU2013112783A

Abstract

本发明涉及计算机实施、在多个数据集中搜索的方法，接收具有至少一个搜索词语的搜索查询，根据参考量推导具有与搜索词语相似或相同的多个词语的部分量，针对部分量每个词语确定与搜索词语的相似性量度，确定词语出现概率，将取决于词语的加权分布用到部分量的词语上，具有较大相似性量度词语与具有较小相似性量度的多个词语相比更重地加权，根据部分量词语加权概率确定词语修改的概率。对数据集就其与搜索查询的相关性评估，做出关于部分量的词语是否出现在数据集的检查，如果部分量的词语出现在数据集中，词语较小修改的概率导致数据集较大相关性值，至少一个部分数据集量作为其相关性值的函数输出。本发明涉及用于执行所述方法的搜索引擎。

Description

用于搜索多个数据记录的方法和搜索引擎

技术领域

本发明涉及一种用于搜索多个数据记录的计算机实施的方法。另外，本发明涉及一种可以由一台计算机执行的适当的搜索引擎。

背景技术

例如在称作网上商店的活动中，搜索多个数据记录是非常重要的。多个产品的一位供应商使用数据记录来记录提供在一个数据库中的产品。一位用户随后可以使用他的计算机经由一个网络(如互联网)来建立到该网上商店的连接并且从该数据库中再调用这些数据记录。如果该数据库包括非常大的数据库存，并且如果单独的数据记录具有一个相对复杂的结构，则对该用户来说能够使用一个搜索引擎来搜索这些数据记录是必要的。在这种情况下，该用户将一个搜索查询传送到该网上商店。该网上商店或连接到其上的一个系统处理该搜索查询并且当符合时将以一种特殊方式排序的数据记录返回给该用户。在这种背景下，引起确定与来自该用户的搜索查询具体相关的数据记录的问题。

此外，已知的实践是不但搜索一个网上商店的数据库而且搜索可以经由互联网接收的数据。这类搜索引擎称为互联网搜索引擎。

对于所有这些搜索引擎而言，出现搜索查询频繁地模糊并且遭受不确定性的问题。在搜索查询中的搜索词语频繁地与有待搜索的数据记录中出现的词语不精确地相对应。此外，这些搜索词语可能包含打字错误或也可能旨在表示语法上不同形式的搜索词语。当处理搜索查询时，因此始终要尽力考虑到搜索查询的模糊性和不确定性的因素。

EP 1 095 326 B1描述了一种用于检索以文本格式存储的信息的搜索系统。为了检索这些信息，该搜索系统涉及将一个树形结构作为用于文本的一个数据结构使用。另外，使用一个量度来确定一个查询和检索到的信息之间的匹配程度，其中该量度确定用于文本中的词或符号与查询之间的一个近似匹配程度的一个间隔量度和用于文本中的词或符号的顺序与一个查询顺序之间的一个匹配近似程度的另一个间隔量度的一个组合。

EP 1 208 465 B1描述了一种用于搜索文件集合的搜索引擎。在这种搜索引擎的情况下，数据处理单元形成连接在一个网络中的多组节点。搜索引擎被定制，这样使得它可以相对于供搜索查询的数据体和查询速度来被按比例缩放。

EP 1 341 009 B1描述了一种用于操作互联网搜索引擎的方法。该方法涉及借助一个智能代理处理的互联网上的网站之间的链路。被访问的网站内容被过滤以便确定内容的关联性。在这种情况下确认的关联网站被编索引，并且被编索引的主题特定的信息被存储在一个数据库之中。这种过滤允许一个网站的内容通过基于字典的一个主题特定的过滤，所述过滤将该网站的内容与在该字典中查找到的术语相比较。

EP 1 459 206 B1描述了一种用于搜索项目集合的计算机实施的方法，在该集合中每一个项目均具有一个属性集合。该方法涉及从两个或更多个属性的一个第一集合中形成的一个查询的接收。距离函数随后被应用到该集合中的项目的一个或多个上，并且一个所得项目或多个所得项目基于该距离函数而被识别。在这种情况下，确切地基于集合中的具有在属性的第一集合与用于该项目的属性的集合之间的交集内的所有属性的项目的数量，距离函数确定该查询与该集合中的一个项目之间的距离。

最终，EP 1 622 054 A1、WO 2008/085637 A2以及WO 2008/137395 A1描述了用于搜索数据记录的另外搜索方法和搜索引擎。

最终，Tuan-Quang Nguyen等人的“在扩展的布尔模型中使用扩充词语的查询扩展(Query expansion using augmented terms in an extended Boolean model)”，韩国信息科学家和工程师计算科学与工程韩国研究所杂志，第2卷，第1期，2008年3月(2008-03)，第26-43页，国际标准期刊编号：1976-4677披露一种涉及首先由例如选自检索词典的词语扩展的原始搜索查询的搜索方法。这些添加的词语的选择考虑到与原始搜索词语的相似性的因素。最终，考虑到在文件中搜索词语的共同出现的因素而添加另外的词语(扩充词语)。随后为以这种方式扩展的搜索查询中的词语提供加权，为原始查询词语提供加权1并且为所添加的词语提供取决于与原始搜索词语的相似性的一个加权。然而，不利的是，这个文献中的方法没有解决尤其以下问题：在一个搜索查询中的拼写错误的词导致对于该拼写错误的词的一个非常高水平的关联性，因为不正确拼写的词在文件中根本不出现或很少出现。本发明是基于提供一种用于搜索多个数据记录的计算机实施的方法和一种适当搜索引擎的技术问题的，该搜索引擎可以由一台计算机执行并且获得该多个数据记录并且输出与一个接收到的搜索查询尽可能相关的特殊数据记录。

发明内容

本发明借助于一种用于搜索多个数据记录的计算机实施的方法和一种搜索引擎解决了这个技术问题。

根据本发明的方法涉及一种含有被接收的至少一个搜索词语的搜索查询。其次，根据一个参考集合确认含有相似于或相同于该搜索词语的词语的一个子集。如果该搜索查询含有多个搜索词语，则分别针对每一个搜索词语来确认一个参考集合。对于该子集中的每一个词语而言，随后确定与该搜索词语的一个相似性量度并且确定该词语的出现概率。取决于该词语的一个加权分布随后被应用到该子集中的词语上，其中与具有一个较低相似性量度的词语相比，具有一个较高相似性量度的词语被更强地加权。在这之后，根据该子集中的这些词语的加权的概率来确定针对该词语的一个修改的概率。

其次，根据本发明的方法涉及被评定其与搜索查询的关联性的数据记录。这个评定涉及一个检查以确定在子集中的这些词语是否在该数据记录中出现，并且如果该子集中的一个词语在该数据记录中出现，则针对该词语的一个较低的修改概率导致针对该数据记录的一个较高的关联性评定值。最终，至少一个数据记录子集基于其关联性评定值而被输出。

对于一个搜索查询中的一个搜索词语的关联性而言，重要的是在含有这类词语的集合中有多频繁地出现这个搜索词语。如果一个词语通常非常频繁地出现，则与通常非常少地出现在词语集合中的搜索查询中的一个搜索词语相比，处理该搜索查询是不太相关联的。根据本发明的方法通过确定针对该子集中的每一个词语的一个出现概率而考虑到搜索词语发生的不同频率的因素。举例来说，这些词语概率可以使用含有多个词语的特殊集合而预先确定，例如使用预先选择的其中词频率已经被确定的文本。与词语出现的概率相关的集合可以进而由出现在有待搜索的数据记录中的所有词语形成。这些数据记录可以被预先搜索并且编索引。在这种情况下，对于一个数据记录中的每一个词语而言，进而可能确定这个词语已经在数据记录中出现的频率。

然而，在这种情况下，可能首先出现有待搜索的数据记录可能含有错误并且其次在一个搜索查询中的搜索词语也可能含有错误的问题。举例来说，这些错误可能为拼写错误或打字错误。例如，一个词可能包含于一个数据记录中的一个不正确的拼写中。如果目前确定了这些词语的出现频率，则在一个搜索词语中的一个拼写错误的词将会导致这个词具有与该搜索查询的一个特别高水平的关联性，因为该词出现得非常少。当根据数据记录中出现的所有词语确定一个词语的出现概率时，相同状况发生。如果数据记录含有一个拼写错误的词，则这个词出现得非常少，这意味着这个词的出现概率是非常低的并且因此该词与一个搜索查询的关联性是非常高的。

根据本发明的方法不但通过考虑到一个搜索查询中的一个词语的发生概率或频率的因素，而且通过针对该搜索查询中的每一个搜索词语而根据一个参考集合确认含有多个词语的一个子集来解决这个问题，该参考集合在随后的相对于这个搜索词语的数据记录的关联性评定过程中被考虑到。举例来说，可以使用一个字典来确定该子集。在这种情况下，结果为含有一个拼写错误的词的一个搜索词语将不包含在子集中，而是该子集中将仅含有拼写正确的类似的词。

也为了考虑到一个搜索词语中的一个词的其他语法形式的因素，该参考集合具体地含有多个词的所有语法形式。该子集将因此不但含有一个搜索词语中的一个词而且含有这个词的其他语法形式，因为这些形式与该搜索词语相类似。

根据本发明的方法随后不考虑在针对搜索词语的数据记录的关联性评定过程中在这个如此确定的子集中的每一个词语的因素，而是本发明以一种特殊方式考虑到这个子集中的这些词语的因素：

由于该子集中的每一个词语均具有与被确定而用于其的相关搜索词语的一个相似性量度，所以该子集中的这些词语可以基于其相似性量度而排序。随后使用加权分布，以便基于该词语来确定在确定修改概率时如何考虑到该子集中的其他词语的因素。在这种情况下，与具有一个较低相似性量度的词语相比，具有一个较高相似性量度的词语被更强地加权。以这种方式，例如，甚至在含有一个打字错误的一个搜索词语的情况下，可能得到针对这个词语的一个适当的修改概率，该概率最终被作为用于确定这些数据记录的关联性的一个基础。原因为，与含有一个打字错误的一个搜索词语相关的子集具有也含有拼写正确词语和其变体的一个高概率。当确定修改概率时，随后也考虑到该子集含有的这些词语的因素，这意味着含有打字错误的搜索词语的极少出现不会导致这个词语具有用于数据记录的评定的一个非常高水平的关联性。以相同方式，也可能防止出现在有待搜索的数据记录中的打字错误导致针对这样一类数据记录的评定的不适合结果。

根据依据本发明的方法的一个优化，加权分布呈一种形式，这样使得一个词语的修改概率的确定不仅考虑到该词语本身的概率的因素而且也考虑到与这一个词语相比具有一个较高相似性量度的多个其他词语的概率因素。在这种情况下，加权分布可以因此为一个阶跃函数，例如针对子集本身中的词语并且也针与这个词语相比具有一个较高的相似性量度的其他词语输出加权1，并且针对具有一个较低相似性量度的子集中的词语输出加权0，其结果为具有一个较低相似性量度的这些词语在确定修改概率时被忽略。当确定针对一个词语的修改概率时，该词语本身的概率因此首先被考虑到并且在子集中的与这个词语相比具有一个较高概率量度的每个其他词语概率也被考虑到。

根据依据本发明方法的一个优选优化，通过一个S形函数来确定加权，通过该加权一个第二词语t_k的概率得到一个第一词语t_j的修改概率，评估中心为该第二词语t_k的相似性量度与该第一词语t_j的相似性量度的差集。与一个不连续阶跃函数相反，由于S形函数具有从值0到值1的连续转变，所以根据本发明的方法的这个优化也可以考虑到该子集中的与修改概率被确定的词语相比具有一个稍微较低相似性量度的词语的因素。这允许在数据记录的关联性方面的另一个改进，该数据记录关联性是基于修改概率而评定的。

根据依据本发明的方法的另一个优化，加权分布呈一种形式，这样使得一个词语的修改概率的确定也考虑到具有一个较低相似性量度的拥有一个较低加权的其他词语的概率因素，具有一个较低相似性量度的另一个词语的加权取决于修改概率被确定的词语的相似性量度与该另一个词语的相似性量度之间的差。具体地，具有一个较低相似性量度的另一个词语与修改概率被确定的词语的相似性量度的差的绝对值越小，该另一个词语的加权将越高。这意味着通过应用任何其他函数，可能考虑到具有一个较低相似性量度的词语的因素，以便确定该子集中的每一个词语的修改概率，并且因此以便评定这些数据记录的关联性。

一个给定词语的修改词语概率是与搜索词语的相似性(在广义意义上)大于该给定词语的相似性的所有词语的组合的概率。然而，对于评定一个数据记录而言，确认含有这样一类词语的一个数据记录的概率是有意义的。由于一个数据记录含有许多词语，所以这个概率是较大的。就这一点而言，根据依据本发明的方法的一个发展，修改概率的计算另外涉及一个中间步骤的引入，该中间步骤考虑到针对有待搜索的数据记录的每数据记录的词语数量的分布因素。具体地，这考虑了一个数据记录可能同时含有多个相似词语的事实。

举例来说，一个数据记录的评定值可以从相关词语的修改概率的对数绝对值中获得。这使得组合有待考虑因素的词语的不同概率更加轻松，以用于确定一个词语的修改概率。

子集中词语的出现概率具体地通过与从参考集合或数据记录中的词语频率中预先确认的词语相关的并且被存储在一个存储器中的概率而确定，并且针对该词语的存储概率随后从该存储器中读取。概率的这个预先确定允许该方法的执行得到加速并且简化。此外，参考集合的选择使得诉诸于例如关于集合中的词语，即文本中词的出现频率的一般分析成为可能。最终，通过考虑到这些数据记录中的词语的出现频率因素，可能确认被定制给特定数据记录的概率。如果这些数据记录为例如一个产品数据库，则具体词的出现频率可以不同于已经从另一个类型的通用文本中确定的频率。

根据依据本发明的方法的一个发展，搜索查询含有多个搜索词语。在这种情况下，针对每一个搜索词语分别确定一个部分评定值。另外，对从搜索词语中汇编的搜索查询确定另一个部分评定值。该搜索查询的评定值随后从这些部分评定值中确定。

此外，在该方法过程中，当子集中的一个词语在被更高地评定的一个数据记录中更频繁地出现时，数据记录的关联性评定值可以涉及这个数据记录。举例来说，该子集中的一个词语在一个数据记录中出现得越频繁，这个数据记录可以被评定得越高。以这种方式，可能的是，不但该子集中的一个词语和多个另外词语的出现概率，而且有待评定的数据记录中的一个词语的特定出现频率均被用于评定这些数据记录的关联性。这个量度也引起在这些数据记录的关联性的评定方面的另一个改进。

举例来说，一个数据记录每次可以含有多个字段。举例来说，特别地当这些数据记录关于一个产品数据库时尤其如此。在这种情况下，对于这些数据记录的关联性评定而言，特殊字段是比较重要的，并且相比之下其他字段较不重要。为此，在这种情况下，根据本发明的方法优选地涉及一个数据记录的关联性进而基于字段来评定，在该字段中，子集中的一个词语在该数据记录中出现。如果一个词语在特别重要的字段中出现，则与如果该词语在一个较不重要的字段中出现相比，这会导致该数据记录被更高地评定。

另外，本发明涉及一种计算机程序产品，该计算机程序产品具有程序代码，该程序代码在由一台计算机执行时用于实施上述方法。具体地，该计算机程序产品可以是用于计算机软件的任何存储介质。

可以由一台计算机执行的本发明的搜索引擎包括用于接收含有至少一个搜索词语的一个搜索查询的一个接收单元。举例来说，该搜索查询可以经由如互联网的一个网络接收。此外，该搜索引擎包括用于确认含有相似于或相同于该搜索词语的多个词语的一个子集的装置。具体地，根据一个参考集合来确认这个子集。

此外，根据本发明的搜索引擎包括用于确定针对子集中的每一个词语的一个修改概率的装置。用于确定修改概率的这些装置呈一种形式，这样使得针对该搜索词语的对应词语的一个相似性量度可以被确定，词语的出现概率可以被确定，取决于词语的一个加权分布可以被应用到该子集中的这些词语，其中与具有一个较低相似性量度的词语相比，具有与该搜索词语的一个较高相似度量度的这些词语被更强地加权，并且针对该词语的修改概率可以从该子集中的词语的加权的概率中确定。

此外，根据本发明的搜索引擎包括用于针对数据记录与搜索查询的关联性来评定数据记录的一个评定单元。具体地，这个评定单元可以用于检查该子集中的词语是否在数据记录中出现，并且如果该子集中的一个词语在该数据记录中出现，则该词语的一个较低的修改概率导致该数据记录被更高地评定。

最终，根据本发明的搜索引擎包括用于基于一个数据记录子集的关联性评定输出该数据记录子集的一个输出单元。

具体地，根据本发明的搜索引擎呈一种形式，这样使得其可以执行上述方法。因此，该搜索引擎也具有如以上所指示的方法的相同优点。

根据依据本发明的搜索引擎的一个优化，该搜索引擎包括一个存储器，该存储器存储含有多个词语的参考集合或含有出现在数据记录中的词语的一个集合，并且也存储与这些词语相关的概率。在这种情况下，这些概率具体地从参考集合或有待搜索的数据记录中的词语出现频率中获得。

附图说明

现在将参考附图使用示例性实施例来解释本发明。

图1示意性示出根据本发明的一个示例性实施例的搜索引擎的基本设计，并且

图2示出用于实施根据本发明的方法的一个示例性实施例的步骤。

具体实施方式

以下描述的示例性实施例涉及一个产品数据库D的搜索。对于每一个产品而言，这个产品数据库D存储一个数据记录d_I。每一个数据记录d_I可以进而被分成多个字段中，这些字段可能例如关于产品的价格、产品的颜色、产品的材料或产品的其他关联特征。

产品数据库D被提供给与一个网上商店连接的一个用户。如在图1中示意性地示出，该用户可以使用他的计算机3来经由互联网2访问由该网上商店的一个中央单元1提供的一个网站。该用户可以使用他的计算机3来将一个搜索请求Q经由互联网2传送到该网上商店，该搜索请求由网上商店的中央单元1中的一个接收单元4接收。接收单元4将搜索请求Q传送到一个装置5，目的为确认含有相似于或相同于搜索请求Q中的一个搜索词语q_i的词语的一个子集V。为了这个目的，中央单元1被连接到一个存储器11上。这个存储器11可以首先含有产品数据库D。其次，这个存储器11包含含有词语t的一个参考集合T。举例来说，该参考集合T是一个词数据库，该词数据库基本含有一种语言或多种语言形式的所有词，或者含有可能在一个产品数据库中出现的所有词。在这种情况下，词语t因此具体地为多个词。

另外，存储器11针对每一个词语t_j存储一个概率p_j。针对一个词语t_j的这个概率p_j指示出现在含有多个词语的一个集合中的这个词语t_j的概率是什么。具体地，这些概率p_j可以从一个特殊的词在一种特殊语言的文本中出现的频率中导出。这些出现频率本身已知并且可以预先存储在存储器11中。可替代地，将可能确定一个特殊词语t_j在数据库D中出现的频繁程度。从这个出现频率中将随后可能确定该词语t_j出现在数据库D中的概率p_j。

当装置5已经确定含有词语t_j的一个子集V时，装置6用来针对该子集V中的每一个词语t_j确定针对该对应词语t_j的一个相似性量度。该相似性量度指示词语t_j与搜索查询Q中的一个搜索词语q_i的相似程度。

装置6被连接到能够确定词语t_j的出现概率p_j的一个装置7上。举例来说，该装置7可以容易地从存储器11中读取这个概率p_j，该存储器存储如预先所确认的这些概率，如以上所解释。

装置7被连接到一个装置8上，在装置8中，取决于子集V中的一个词语t_j的一个加权分布X_j可以被应用到子集V中的所有词语t_k。通过应用该加权分布X_j，获得针对子集V中的词语t_k的加权概率。根据这些加权概率，装置8可以确定修改词语概率p”_j。此外，该装置可以考虑到每数据记录的词语数量的因素(例如通过访问存储器11)。这产生一个词语t_j或者出现在一个数据记录中的一个更相似词语的修改概率p’_j。

修改概率p’_j由装置8传送到一个评定单元9。该评定单元9针对数据记录d_I与搜索查询Q的关联性来评定这些数据记录。为了这个目的，评定单元9访问存储器11，并且针对产品数据库D中的每一个数据记录d_I检查子集V中的词语t_j是否出现在数据记录d_I中。如果子集V中的一个词语t_j出现在数据记录d_I中，则评定单元9通过考虑到出现的词语t_j的修改概率p’_j的因素来评定数据记录d_I。

评定单元9将关联性评定传送到一个输出单元10。该输出单元10基于一个数据记录子集的关联性评定来确定该数据记录子集。举例来说，该输出单元可以输出一个特定数量的数据记录d_I，这些数据记录以其关联性评定的顺序被提供有最高关联性评定。这个输出可以经由互联网2供用户的计算机3使用，例如借助于显示在用户计算机3上的一个网站上的一个显示。

下文结合根据本发明的方法的一个示例性实施例的阐释对关于以上描述的中央单元1的这些装置的细节进行描述：

随后假定产品数据库D含有多个服装货品的多个数据记录d_I。举例来说，该产品数据库D能够含有300个数据记录。该产品数据库D因此包括这些数据记录d₁、d₂……，d₃₀₀。

另外，随后假定该产品数据库D中的15个数据记录含有词“衬衫(Shirt)”并且该产品数据库中的60个数据记录含有词“蓝色(blaues)”。因此，这些数据记录的5％含有词“衬衫(Shirt)”并且这些数据记录的20％含有词“蓝色(blaues)”。此外，为了省事，最初假定这些词在每个数据记录d_I中出现不超过一次。

在这种情况下，对于多个搜索引擎考虑到文档频率倒数的实践是已知的。这涉及与含有一个更频繁出现的词的这些数据记录d_I相比被指派一个较高相关性的含有一个罕见词的多个数据记录d_I。在以上实例中，含有词“衬衫(Shirt)”的这些数据记录因此与含有词“蓝色(blaues)”的这些数据记录d_I相比被指派一个较高的相关性。此外，确认了哪些数据记录d_I含有“蓝色(blaues)”和“衬衫(Shirt)”这两个词。假定这两个词不是相关的，则能够预期的是精确地是三个数据记录。这根据出现在这些数据记录d_I中的这些词的两个概率的乘积计算出，即概率p_{衬衫(Shirt)}＝0.05乘以概率p_{蓝色(blaues)}＝0.2。这两个词包含在一个数据记录d_I中的概率因此是0.01(1％)。

当出现在一个数据记录d_I中并且一个搜索查询Q与其相关的这些词的概率的乘积很小时，这个数据记录d_I与该搜索查询的相关性是高度精确的。一个数据记录d越具体，则其相关性越高。为了能够更容易将这些单独的概率联系起来，因此优选的是形成概率的对数的绝对值。这个绝对值随相关性而增大并且另外地朝向这些单独的概率表现。在该先前实例中，含有词“蓝色(blaues)”的一个数据记录d_I的对数概率是0.7，含有词“衬衫(Shirt)”的一个数据记录d_I的对数概率是1.3，并且含有这两个词的一个数据记录d_I的对数概率是2。

现在下文将参照图2对根据本发明的方法进行详细的阐释，所述方法修改考虑到多个词语的出现频率倒数的一种已知方法：

在步骤20中，一位用户生成含有这些搜索词语q_i的一个搜索查询Q，其中i是一个自然数。如在以上所描述的实例中，搜索词语q₁可以是“衬衫(Shirt)”并且搜索词语q₂可以是“蓝色(blaues)”。

在步骤21中，然后根据参考集T来确认含有与第一搜索词语q₁相似或相同的多个词语t_j的一个子集V。如以上所阐释，该参考集T可以是含有一种语言的所有词的一个词数据库。用于两个特征串的相似性的自动评定的方法是本身已知的。在这种情况下，该子集V是通过确认一个搜索词语q_i与该参考集T中的所有这些词语t_j的相似性来确认的。在一个特定相似性范围中的这些词语t_j包括在该子集V之中。例如，其披露内容通过引用结合在此的WO 2007/144199 A1中描述了一种用于自动评定相似性的方法。

该子集V因此可以含有例如三个词语t_x、t_y以及t_z。在以上描述的实例中，可以针对该搜索词语“衬衫(Shirt)”来确认以下子集V：{衬衫(Shirt，Shirts)、T恤衫}。可以针对第二搜索词语“蓝色(blaues)”来确认以下子集V：{蓝色(blaues，blau，blaue)}。

应指出的是该子集V可以仅含有该参考集T的多个元素。因此，如果该搜索查询Q含有一个拼写错误的词，则该子集V中不包括这个词，因为该参考集T中不含有该词。这允许一个搜索查询Q中的多个拼写错误的词被消除这样使得它们不会被指派一个非常高的相关性，因为它们极少出现。然而，在评定产品数据库D的相关性时，也考虑到多个拼写错误的词的因素，因为考虑到的不是该拼写错误的词而是含有与该拼写错误的词相似的多个词语的一个子集V的因素。在这方面，根据本发明的方法是容错的。

针对用于评定该产品数据库D中的这些数据记录d_I的相关性的方法，考虑到该子集V中的这些词语t_x、t_y以及t_z的因素，但是针对这个评定而分别地确定了该子集V中的每个词语t_j的相关性，这意味着不是该子集V中的每一个词语t_j都需要具有用于评定该产品数据库D的相同的相关性。在这点上，针对该子集V中的每个词语t_j，在步骤22中确定了在这个词语t_j与潜在的搜索词语q_i之间的一个相似性量度A_ij。举例来说，使用WO 2007/144199 A1中所描述的一种方法也是可以确定这个相似性量度A_ij的。该子集V然后可以基于所含有的这些词语t_j与一个搜索词语q_i的相似性量度A_ij被存储。如果该搜索词语q_i本身被包含在该子集V中，则该子集V中的这个词语t_j将会具有最高相似性量度A_ij，因为该词语与该搜索词语q_i相同。随着相似性量度A_ij降低，一个子集V中的其他词语t_j的相似性量度跟着降低。

因此针对搜索词语“蓝色(blaues)”，例如可以获得以下所存储的子集V：1.蓝色(blaues)、2.蓝色(blaue)、3.蓝色(blau)。

在步骤23中，然后确定该子集V中的这些词语t_j的概率p_j。如果词语t_j是随机选择的，则这是该词语从该数据库D中被拉出的概率p_j。相比之下，在以上描述的相关性量度(文档频率倒数)的情况下，考虑到了这些文档的频率，即数据记录。如以上所阐释，这包括提前存储的、从存储器11中所读出的该子集T中的该词语t_j的出现(即在特定文本中或在这些数据记录d_I中)的概率p_j。在在此确切地描述的方法的情况下，举例来说，可能的是词“蓝色(blaues)”以0.02的一个概率出现，词“蓝色(blaue)”以0.01的一个概率出现并且词“蓝色(blau)”同样地以0.01的一个概率出现。此外，可以另外确定这些词“蓝色(blaues)”、“蓝色(blaue)”、“蓝色(blau)”中的一个的出现概率。这个概率是0.04。

在步骤24中，然后针对该子集V中的每个词语t_j应用一个加权分布X_j。在这种情况下，加权分布X_j的类型取决于该子集V中被考虑到的词语t_j。在最简单的情况下，该加权分布X_j是针对被考虑到的词语t_j并且还针对该子集V中的这类其他词语t_k(因为与当前被考虑到的该词语t_j相比具有一个较高相似性量度A_ik)而输出加权1的一个阶梯函数。在这种情况下，该加权分布X_j然后充当一个过滤，该过滤过滤出该子集V中与在考虑中的该词语t_j相比具有一个较低相似性量度A的所有这些词语t_k。

然后在步骤25中根据这些加权的概率确定一个修改的词语概率p”_j，即针对该词语t_j确定该修改的概率p’_j。

当词“蓝色(blaues)”在具体实例中被考虑时，其结果是这个词具有最高相似性量度A，因为该词与搜索词语“蓝色(blaues)”相同。该词“蓝色(blaues)”的修改的词语概率p”_x因此与该词“蓝色(blaues)”的概率p_x一致。

在另一方面，当词“蓝色(blaue)”被考虑时，其结果是词“蓝色(blaue)”具有一个较高相似性量度A，而词“蓝色(blau)”具有一个较低相似性量度A。因此在确定针对词“蓝色(blaue)”的修改的词语概率p”_y时，针对词“蓝色(blaue)”的修改的词语概率p”_y的确定考虑到针对词“蓝色(blaue)”用1加权的概率p_y的因素，并且还考虑到针对词“蓝色(blaues)”用1加权的概率p_x的因素。

最后，当针对词“蓝色(blau)”而确定修改的词语概率p”_z时，其结果是这些词“蓝色(blaues)”和“蓝色(blaue)”与词“蓝色(blau)”相比具有较高的相似性A，这意味着针对词“蓝色(blau)”的修改的词语概率p”_z的确定考虑到各自用1加权的这些词“蓝色(blau)”、“蓝色(blaue)”以及“蓝色(blaues)”的所有这些概率的因素。

所以，针对词“蓝色(blaues)”所获得的修改的词语概率p”_x是0.02(针对词“蓝色(blaues)”的概率)，针对词“蓝色(blaue)”所获得的修改的概率p”_y是0.03(针对词“蓝色(blaue)”或“蓝色(blaues)”的概率)并且针对词“蓝色(blau)”所获得的修改的概率p”_z是0.04(针对词“蓝色(blau)”、“蓝色(blaue)”或“蓝色(blaues)”的概率)。

步骤26：为了评定多个数据记录，计算一个数据记录含有一个词语的概率是有意义的，并且为此考虑到每数据记录中词语的数量的因素是有意义的。这具有可以提前被确认并且被存储的一个分布。举例来说，可以确认每数据记录中词语的平均数量。可替代地，一个精确的计算是可以的。对于具有300个数据记录的实例来说，这些数据记录中的150个被认为具有5个词语并且另外150个被认为具有10个词语。通过以下：1–(1–p’_x)^5能够计算出5个词语的含有一个给定词语(例如‘蓝色(blaues)’)的一个组合的概率。括号中的表达式指示明显不是‘蓝色(blaues)’的一个词语的概率。指数5然后给出5个词语的不含有词语‘蓝色(blaues)’的一个组合的概率。然后整个表达式给出长度为5的一个数据记录含有该词语的相关概率。对于长度为10的多个数据记录来说，所获得的表达式如下：1–(1–p’_x)^10。然而，在该实例中，150个数据记录各自具有的长度为5并且150个数据记录各自具有的长度为10。那么，这产生如下含有该词语‘蓝色(blaues)’的任何数据记录的一个总体概率：

这给出如下：含有该词语‘蓝色(blaues)’的一个数据记录的修改的概率是0.14。基于同一方法，所计算出的这些修改的概率变成：p”_y(＝0.20)和p”_z(＝0.26)。

然后，这些数据记录d_I与搜索查询Q的相关性r_I在步骤27中进行评定。该步骤涉及针对子集V中的每个词语t_j执行检查以确定其是否出现在一个数据记录d_I中。如果该子集V中的一个词语t_j出现在一个数据记录d_I中，则这个数据记录d_I与该子集V中的该词语t_j未出现在其中的一个数据记录d_m相比被提供有更高的相关性r_I。此外，其中出现具有一个较低修改的概率p’_j的一个词语t_j的一个数据记录d_I与其中出现具有一个较高修改的概率p’_j的一个词语t_j的一个数据记录d_m相比被提供有一个较高的相关性评定r_I。此外，当该子集V中的一个词语t_j在一个数据记录d_I中更频繁地出现时，该数据记录d_I的相关性评定r_I变得更高。最后，这些数据记录d_I的这些单独字段也可以不同地被加权。当一个词语t_j在一个数据记录d_I的一个字段中时与如果同一词语t_j出现在该数据记录d_I的另一个、较不重要的字段中相比，这可以导致该数据记录d_I的一个较高相关性评定r_I。

当搜索查询Q含有多个搜索词语q_i时，针对所有搜索词语q_i来执行以上描述的相关性评定r_I。在该具体实例中，针对词“衬衫(Shirt)”因此还确认了含有多个词语t_j的一个子集V。如以上所阐释，这个子集V可以含有例如这些词“衬衫(Shirt)”、“衬衫(Shirts)”、“T恤衫”。因此，如以上所描述，针对该搜索词语“衬衫(Shirt)”确定了针对这个子集V中的每个词语t_j的修改的概率p’_j。例如在这种情况下，针对词“衬衫(Shirt)”所获得的修改的概率是0.05(针对词“衬衫(Shirt)”的概率)，针对这个子集V中的词“衬衫(Shirts)”所获得的修改的概率是0.07(针对词“衬衫(Shirt)”或“衬衫(Shirts)”的概率)并且针对这个子集V中的词“T恤衫”所获得的修改的概率是0.14(针对词“衬衫(Shirt)”、“T恤衫”或“衬衫(Shirts)”的概率)。

然后可以执行针对原始搜索查询“蓝色衬衫(blaues Shirt)”的一个相关性评定。含有词语“蓝色衬衫(blaues Shirt)”的一个数据记录d_I的概率是0.007，并且这导致为2.14的一个相关性评定。如果一个数据记录d_I含有词语“蓝色衬衫(blaue Shirts)”，则获得为0.015的一个修改的概率。(这是针对“蓝色(blaue)”(0.20)和“衬衫(Shirts)”(0.07)的修改的概率的乘积。)这导致这个数据记录d_I的为1.84(0.015的对数的绝对值)的一个相关性评定。如果一个数据记录d_I含有词语“蓝色T恤衫(T-Shirt blau)”，则获得为0.036的一个修改的概率。这导致该数据记录d_I的为1.4的一个相关性评定。

最后，在多个搜索词语q_i的情况下，也可以考虑到一个数据记录d_I中的对应子集V中的这些词语t_j的出现的顺序和位置的因素。如果该搜索查询Q含有呈这种顺序的这些搜索词语q₁、q₂，即其第一是属于该第一搜索词语q₁的该子集V中的多个词语t_j并且然后第二是属于该第二搜索词语q₂的另一个子集V中的多个词语t_k的一个数据记录d_I，则与如果这些词语以相反的顺序出现相比，这导致一个较高相关性评定。此外，当这两个子集中的这些词语t_j出现接近在一起时，一个数据记录d_I被评定具有一个较高相关性。当针对这两个搜索词语q₁和q₂的这两个子集中的这些词语t_j连续地、尤其是以正确的顺序出现时，获得一个尤其高的相关性。这两个子集中针对这两个搜索词语的这些词语t_j出现在一个数据记录d_I中离彼此越远，它们出现在不同语境中(例如在产品说明中)的概率越大，然后这意味着这些词语t_j的出现导致一个较低相关性评定。还是在这种情况下，可以在同一位置或一个更好的位置中应用以上描述的、确认针对含有这些搜索词语或该子集V中的词语t_j的一个数据记录的概率的同一原理。在这种情况下，假定这些数据记录d_I中的这些词语t_j的这些位置是独立随机变量。

在执行针对每个数据记录d_I的一个相关性评定r_I之后，在步骤28中产生含有具有最高相关性评定r_i的数据记录d_u、d_v、d_w，……的一个列表。然后这个列表以这些相关性评定r_I的顺序被输出。

下文描述根据本发明的方法的一个第二示例性实施例：

该第二示例性实施例在加权分布X中与以上描述的第一示例性实施例不同。在该第二示例性实施例中，该概率分布X是一个S形函数。在该S形函数中，在0与1这两个值之间获得一个连续跃迁。通过这个实现的效果是：该子集V中具有一个较小相似性量度A、但是其相似性量度与该词语t_j(针对该词语确认了修改的概率p’_j)非常接近的多个词语t_k不是如第一示例性实施例中一样被忽略的，而是也通过一个较低加权被考虑到。

然而，考虑到与词语t_i相比具有一个小很多的相似性量度A的多个词语t_k在实践中被继续忽略，因此根据该S形函数确认的加权接近0。

在该第二示例性实施例的情况下，通过评估一个S形函数来确定加权，通过该加权一个第二词语t_k的概率p_j得到一个第一词语t_j的修改的词语概率p”_j，评估中心是该第一词语t_j的相似性量度A_ij与该第二词语t_k的相似性量度A_ik的差集。下文使用搜索词语(qi)“同情(Sympathie)”的实例对此进行阐释。在这点上，装置5(步骤21)已经确认一组相似词语(V)，并且装置6和装置7(步骤22、步骤23)已经确认相关联的相似性和词语概率。

词语	与搜索词语的相似性	词语概率
			同情(Sympathie)(t₁)	100(A_i1)	0.003(p₁)
同情(Symphatie)(t₂)	83.4(A_i2)	0.0005(p₂)
			同情(Synpathie)(t₃)	83.4(A_i3)	0.0005(p₃)
有同情心的(Sympathisch)(t₄)	80.9(A_i4)	0.002(p₄)
			同情(Sympathy)(t₅)	79.7(A_i5)	0.002(p₅)

装置8(步骤24)然后使用一个S形函数来确认加权分布。一个可能的这样的函数是累积高斯正态分布。如由装置8计算出的这些相似性偏差(用相关联加权)显示如下：

然后通过向这些原始词语概率应用该加权来获得这些修改的词语概率：

	(p₁＝0.003)	(p₂＝0.0005)	(p₃＝0.0005)	(p₄＝0.002)	(p₅＝0.002)
						p₁”＝	0.5*0.003	+0.0	+0.0	+0.0	+0.0
p₂”＝	1.0*0.003	+0.5*0.0005	+0.5*0.0005	+0.01*0.002	+0.0
						p₃”＝	1.0*0.003	+0.5*0.0005	+0.5*0.0005	+0.01*0.002	+0.0
p₄”＝	1.0*0.003	+0.99*0.0005	+0.99*0.0005	+0.5*0.002	+0.12*0.002
						p₅”＝	1.0*0.003	+1.0*0.0005	+1.0*0.0005	+0.88*0.002	+0.5*0.002

这根据本发明导致以下性能：具有一个较大相似性量度的多个词语与具有一个较小修改的词语概率的多个词语相比更强地得到修改的词语概率。

假定数据库具有同一个如先前示例性实施例中的每数据记录中词语的分布，即150个数据记录具有5个词语并且150个数据记录具有10个词语，通过已经确认的公式能够计算出(步骤26)这些对应修改的概率p₁’、p₂’、p₃’、p₄’、p₅’。

这些修改的概率然后被传输到如先前的根据本发明的示例性实施例中的评定单元9。

以上描述的这些方法步骤可以作为硬件元件或作为软件被实施。该软件可以被存储在一个数据存储介质上，即在一个计算机程序产品上。该软件所含有的程序代码在由一台计算机执行时，该程序代码适用于实行以上描述的方法。

Claims

1.一种用于搜索多个数据记录d_I的计算机实施的方法，其中

-接收含有至少一个搜索词语q_i的搜索查询Q，

-根据参考集T来确认含有与该搜索词语q_i相似或相同的词语t_j的子集V，

-针对该子集V中的每个词语t_j

-确定与该搜索词语q_i的相似性量度A_j，

-确定该词语t_j的出现概率p_j，

-将取决于所述词语t_j的加权分布X_j应用到所述子集V中的这些词语t_k上，其中具有较高相似性量度A_k的这些词语t_k与具有较低相似性量度A_k的词语t_k相比被更强地加权，以及

-根据所述子集V中的这些词语t_k的这些加权的概率来确定所述词语t_j的修改的概率(p’_j，p”_j)，

-对这些数据记录d_I针对它们与所述搜索查询Q的相关性进行评定，其中

-执行一个检查来确定所述子集V中的这些词语t_j是否出现在所述数据记录d_I中，以及

-如果所述子集V中的词语t_j出现在所述数据记录d_I中，那么所述词语t_j的较低修改的概率(p’_j，p”_j)导致所述数据记录d_I的较高相关性评定值，以及

-当所述子集V中的词语t_j在被更高评定的一个数据记录中较频繁地出现时，这些数据记录d_I的相关性评定值包含该被更高评定的数据记录，和

-基于至少一个数据记录子集的相关性评定值来输出所述至少一个数据记录子集。

2.如权利要求1所述的方法，

其特征在于

所述加权分布X_j处于一种形式以使得词语t_j的修改的概率(p’_j，p”_j)的确定仅考虑所述词语t_j本身的概率p_j的因素并且还考虑与这个词语t_j相比具有一个较高相似性量度A_k的其他词语t_k的概率p_k的因素。

3.如权利要求1所述的方法，

其特征在于

通过对一个S形函数的评估来确定所述加权分布X_j，第二词语t_k的概率p_k通过所述加权分布得到第一词语t_i的修改的概率(p’_i，p”_i)，评估中心是所述第一词语t_i的相似性量度A_i与所述第二词语t_k的相似性量度A_k的差集。

4.如权利要求1或2所述的方法，

其特征在于

所述加权分布X_j处于一种形式以使得词语t_j的修改的概率(p’_j，p”_j)的确定还考虑具有较低加权的其他词语t_k的概率p_k的因素，所述较低加权具有较低相似性量度A_k，具有较低相似性量度的另一个词语t_k的加权取决于其修改的概率(p’_j，p”_j)被确定的所述词语t_j的相似性量度A_j与另一个词语t_k的相似性量度A_k之间的差。

5.如权利要求1或2所述的方法，

其特征在于

所述修改的概率(p’_j，p”_j)的确定涉及一个中间步骤的插入，在所述中间步骤中考虑了每数据记录中的词语的数量的分布的因素。

6.如权利要求1或2所述的方法，

其特征在于

一个数据记录d_I的评定值是根据相关联词语t_j的修改的概率(p’_j，p”_j)的对数的绝对值获得的。

7.如权利要求1或2所述的方法，

其特征在于

凭借与所述子集V中的词语t_j相关联的概率p_j来确定所述词语t_j的概率p_j，所述相关联的概率是根据所述词语t_j出现在所述参考集T中或这些数据记录d_I中的频率而提前被确认的并且被存储在一个存储器(11)中，并且从所述存储器(11)读出所述词语t_j的所存储的概率p_j。

8.如权利要求1或2所述的方法，

其特征在于

这些数据记录d_I各自含有多个字段，并且在于一个数据记录d_I的相关性r_I进一步基于字段被评定，在所述字段中所述子集V中的词语t_j出现在所述数据记录d_I之中。

9.如权利要求1或2所述的方法，

其特征在于

所述搜索查询Q含有多个搜索词语q_i，在于针对每个搜索词语q_i分别地确定部分评定值，在于针对根据这些搜索词语q_i编译的所述搜索查询Q来确定另一个部分评定值并且在于根据这些部分评定值来确定所述搜索查询Q的评定值。

10.一种搜索引擎，其可以由计算机来执行，所述搜索引擎具有

-接收单元(4)，所述接收单元用于接收含有至少一个搜索词语q_i的搜索查询Q，

-装置(5)，所述装置用于确认含有与所述搜索词语q_i相似或相同的词t_j的一个子集V，

-装置(6至8)，这些装置用于确定所述子集V中的每个词语t_j的修改的概率(p’_j，p”_j)，这些装置能够被用于

-确定与所述搜索词语q_i的相似性量度A_j，

-确定所述词语t_j的出现概率p_j，

-将取决于所述词语t_j的加权分布X_j应用到所述子集V中的这些词语t_k上，其中具有较高相似性量度A_k的这些词语t_k与具有较低相似性量度A_k的词语t_k相比被更强地加权，并且

-根据所述子集V中的这些词语t_k的这些加权概率来确定所述词语t_j的所述修改的概率(p’_j，p”_j)，

-评定单元(9)，所述评定单元用于针对数据记录d_I与所述搜索查询Q的相关性来对它们进行评定，其中

-可以检查所述子集V中的这些词语t_j是否出现在所述数据记录d_I中，并且

-如果所述子集V中的词语t_j出现在所述数据记录d_i中，那么所述词语t_j的较低修改的概率(p’_j，p”_j)导致所述数据记录d_I的较高评定值r_I，以及

-输出单元(10)，所述输出单元用于基于至少一个数据记录子集的相关性评定值来输出所述至少一个数据记录子集。

11.如权利要求10所述的搜索引擎，

其特征在于

所述搜索引擎包括存储器(11)，所述存储器存储含有词语t_j的参考集T或含有出现在这些数据记录d_I中的这些词语t_j的集，并且还存储与这些词语t_j相关联的这些概率p_j。