JP2013536519A

JP2013536519A - 多数のデータレコードをサーチする方法及びサーチエンジン

Info

Publication number: JP2013536519A
Application number: JP2013525253A
Authority: JP
Inventors: エミンカライェル; カールシュテンハインツ; マティアスクリングス
Original assignee: Omikron Data Quality GmbH
Current assignee: Omikron Data Quality GmbH
Priority date: 2010-08-25
Filing date: 2011-08-17
Publication date: 2013-09-19
Anticipated expiration: 2031-08-17
Also published as: US20130151499A1; CN103098052B; WO2012025439A1; JP5890413B2; BR112013004243A2; RU2013112783A; CN103098052A; EP2423830A1; US9087119B2

Abstract

本発明は、複数（Ｄ）のデータセット（ｄ_ｌ）内におけるサーチのためにコンピュータによって実装される方法に関し、少なくとも１つのサーチ用語（ｑ_ｉ）を有するサーチクエリ（Ｑ）を受け取り、サーチ用語（ｑ_ｉ）に類似するか又は同一である用語（ｔ_ｊ）を有する部分量（Ｖ）を基準量（Ｔ）から導出し、サーチ用語（ｑ_ｉ）に対する類似性尺度（Ａ_ｊ）を部分量（Ｖ）のそれぞれの用語（ｔ_ｊ）について決定し、用語（ｔ_ｊ）の存在の確率（ｐ_ｊ）を決定し、用語（ｔ_ｊ）によって左右される重み付けされた分布（Ｘ_ｊ）を部分量（Ｖ）の用語（ｔ_ｋ）に対して適用し、高い類似性尺度を有する用語（ｔ_ｋ）が低い類似性尺度を有する用語（ｔ_ｋ）よりも強力に重み付けされ、且つ、変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）を、部分量（Ｖ）の用語（ｔ_ｋ）の重み付けされた確率から、用語（ｔ_ｊ）について決定する。データセット（ｄ_ｉ）は、サーチクエリ（Ｑ）に対するその関連性（Ｒ）との関係において更に評価され、部分量の用語（ｔ_ｊ）がデータセット（ｄ_ｉ）内に存在しているかどうかのチェックを行い、且つ、部分量（Ｑ）の用語（ｔ_ｊ）がデータセット（ｄ_ｌ）内に存在する場合、用語（ｔ_ｊ）の小さな変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）により、データセット（ｄ_ｌ）の大きな関連性値がもたらされ、且つ、少なくとも１つの部分データセット量をその関連性値（Ｒ）の関数として出力する。本発明は、前記方法を実行するためのサーチエンジンに更に関する。

Description

本発明は、多数のデータレコードをサーチするためのコンピュータ実装方法に関する。また、本発明は、コンピュータによって実行することができる適切なサーチエンジンに関する。

多数のデータレコードのサーチは、例えば、オンラインショップと呼ばれるものにおいては、非常に重要である。多数の製品の提供者は、提供する製品をデータレコードを使用してデータベース内に記録する。この結果、ユーザーは、自身のコンピュータを使用することにより、インターネットなどのネットワークを介してオンラインショップに対する接続をセットアップし、且つ、データベースからデータレコードを呼び出すことができる。データベースが非常に大量のデータを有しており、且つ、個々のデータレコードが相対的に複雑な構造を有する場合には、ユーザーは、サーチエンジンを使用してデータレコードをサーチできる必要がある。この場合、ユーザーは、サーチクエリをオンラインショップに送信する。オンラインショップ又はオンラインショップに接続されたシステムは、サーチクエリを処理し、且つ、特定の方式で順序付けされたデータレコードをヒットとしてユーザーに返す。この状況において、ユーザーからのサーチクエリに特に関係しているデータレコードを決定するという課題が生じる。

更には、オンラインショップのデータベースのサーチのみならず、インターネットを介して入手可能なデータのサーチも一般的になっている。この種のサーチエンジンは、インターネットサーチエンジンと呼ばれている。

サーチクエリが、しばしば、曖昧であり、且つ、不確定性を伴っているという問題がすべてのサーチエンジンに生じている。サーチクエリ内のサーチ用語は、しばしば、サーチ対象であるデータレコード内に存在する用語に対して正確に対応していない。更には、サーチ用語は、なんらかのタイプミスを含む場合もあるか、または、サーチ用語の文法的に異なる形態を意味するように意図されている場合もある。従って、サーチクエリを処理する際には、サーチクエリの曖昧さと不確定性を考慮することに常に苦心することになる。

欧州特許第１０９５３２６Ｂ１号明細書は、テキストの形態で保存された情報を検索するサーチシステムを記述する。情報を検索するために、このサーチシステムは、テキスト用のデータ構造としてツリー構造を使用することを伴う。また、尺度を用いてクエリと検索された情報の間のマッチングの程度を決定する。この尺度は、テキストの単語又はシンボルとクエリのそれらとの間の適切なマッチングの程度のための間隔の１つの尺度と、テキストの単語又はシンボルのシーケンスとクエリシーケンスのそれらとの間の適切なマッチングの程度のための間隔の別の尺度と、の組合せを決定する。

欧州特許第１２０８４６５Ｂ１号明細書は、文書の集合体をサーチするサーチエンジンを記述する。このサーチエンジンの場合、データ処理ユニットが１つのネットワーク内において接続されたノードのグループを形成する。サーチエンジンは、データボリューム及びサーチクエリのクエリレートに関連してスケール可能となるようにカスタマイズされる。

欧州特許第１３４１００９Ｂ１号明細書は、インターネットサーチエンジンを動作させる方法を記述する。この方法は、インターネット上のウェブサイト間のリンクをインテリジェントエージェントによって処理することを伴う。コンテンツの関連性を決定するために、訪問を受けたウェブサイトのコンテンツをフィルタリングする。この場合、特定された関連性のあるウェブサイトに対してインデックス付けし、且つ、インデックス付けした主題固有の情報をデータベース内に保存する。フィルタは、ウェブサイトのコンテンツが辞書に基づいて主題固有のフィルタを通過できるようにし、前記フィルタは、ウェブサイトのコンテンツを辞書内において見出された用語と比較する。

欧州特許第１４５９２０６Ｂ１号明細書は、項目の集合体をサーチするコンピュータ実装方法を記述し、集合体内のそれぞれの項目は、特性のセットを有する。この方法は、二つ以上の特性の第１のセットから形成されたクエリの受け取りを伴う。次いで、距離関数を集合体内の項目のうちの１つ又は複数の項目に対して適用し、且つ、距離関数に基づいて１つ又は複数の結果項目を識別する。この場合、距離関数は、具体的には、特性の第１のセットと項目の特性のセットの間の共通部分内のすべての特性を有する集合体内の項目の数に基づいてクエリと集合体内の項目の間の距離を決定する。

最後に、欧州特許出願公開第１６２２０５４Ａ１号明細書、国際出願第２００８／０８５６３７Ａ２号パンフレット、及び国際出願第２００８／１３７３９５Ａ１号パンフレットは、データレコードをサーチする更なるサーチ方法及びサーチエンジンを記述する。

更には、Tuan-Quang Nguyenらによる文献"Query expansion using augmented terms in an extended Boolean model", Journal of Computing Science and Engineering Korean Institute of Information Scientists and Engineers South Korea, vol. 2, No 1, March 2008 (2008-03), pages 26-43, ISSN: 1976-4677は、まず、オリジナルのサーチクエリを、例えば、類語辞典から選択された用語によって拡張することを伴うサーチ方法を開示する。これらの更なる用語の選択は、オリジナルのサーチ用語に対する類似性を考慮する。最後に、文書内におけるサーチ用語の同時存在を考慮した更なる用語（増補用語）を追加する。次いで、このようにして拡張されたサーチクエリ内の用語に重み付けを提供し、オリジナルのサーチ用語には、重み付け１が提供され、且つ、追加された用語には、オリジナルのサーチ用語に対する類似性によって左右される重み付けが提供される。但し、不利なことに、誤って綴られた単語は、文書内にまったく存在しないか又はごくまれにしか存在しないため、この文献の方法は、特に、サーチクエリ内の誤って綴られた単語が、その誤って綴られた単語に関する非常に高度な関連性を結果的にもたらすという問題点を解決していない。

本発明は、多数のデータレコードをサーチするコンピュータ実装方法と、コンピュータによって実行することができると共に、多数のデータレコードを取得し、且つ、受け取ったサーチクエリに可能な限り関連した特定のデータレコードを出力する適切なサーチエンジンと、を提供するという技術的な課題に基づいている。

本発明は、請求項１の特徴を有する方法及び請求項１２の特徴を有するサーチエンジンにより、この技術的な課題を解決する。有利な改良例及び発展例を従属請求項において見出すことができる。

本発明による方法は、少なくとも１つのサーチ用語を含むサーチクエリを受け取ることを伴う。次いで、サーチ用語に類似するか又は同一である用語を含むサブセットを基準セットから決定する。サーチクエリが複数のサーチ用語を含む場合、基準セットをそれぞれのサーチ用語ごとに別個に決定する。サブセット内のそれぞれの用語ごとに、サーチ用語に対する類似性の尺度を決定し、且つ、用語の存在の確率を決定する。次いで、用語によって左右される重み付け分布をサブセット内の用語に対して適用し、類似性についての高い尺度を有する用語は、類似性についての低い尺度を有する用語よりも、強力に重み付けされる。その後、サブセット内の用語の重み付けされた確率から、用語の変更済みの確率を決定する。

次いで、本発明による方法は、データレコードをサーチクエリに対するその関連性について等級付けすることを伴う。この等級付けは、サブセット内の用語がデータレコード内に存在するかどうかを決定するためのチェックを伴い、且つ、サブセット内の用語がデータレコード内に実際に存在する場合、用語の低い変更済みの確率によって、データレコードの高い関連性等級が結果的にもたらされる。最後に、少なくとも１つのデータレコードサブセットをその関連性等級に基づいて出力する。

サーチクエリ内のサーチ用語の関連性において、そのサーチ用語が、その用語を含むセット内においてどれだけ頻繁に存在するかが重要である。通常、非常に頻繁に存在する用語は、通常、用語のセット内において非常にまれにしか存在しないサーチクエリ内のサーチ用語ほどには、サーチクエリを処理するのに適していない。本発明による方法は、サブセット内のそれぞれの用語ごとに存在の確率を決定することにより、サーチ用語が存在する異なる頻度を考慮する。一例として、これらの用語確率は、例えば、単語の頻度を決定済みである事前に選択されたテキストを使用するなどのように、用語を含む特定のセットを使用することによって事前に決定することができる。更には、用語の存在の確率が関係しているセットを、サーチ対象のデータレコード内に存在している用語のすべてによって形成してもよい。これらのデータレコードは、事前にサーチすると共にインデックス付けすることができる。この場合には、データレコード内のそれぞれの用語ごとに、その用語がデータレコード内に存在する頻度を更に決定することができる。

但し、この場合、第１に、サーチ対象のデータレコードが誤りを含む場合があり、且つ、第２に、サーチクエリ内のサーチ用語も誤りを含む場合があるという問題が生じることになろう。一例として、誤りは、綴りの誤り又はタイプミスであってよい。例えば、ある単語が、データレコード内で、誤った綴りで含まれている場合がある。用語の存在の頻度を決定する場合、サーチ用語内の誤って綴られた単語は、サーチクエリに対する特に高度な関連性を有するという結果をもたらすことになろう。なぜなら、これは、非常に稀にしか生じ得ないからである。同一の状況は、データレコード内に存在するすべての用語から用語の存在の確率を決定する際にも生じる。誤って綴られた単語をデータレコードが含んでいる場合、その単語は、非常に稀にしか存在しない。これは、その単語の存在の確率が非常に低く、且つ、従って、サーチクエリに対するその単語の関連性が非常に高いことを意味している。

本発明による方法は、サーチクエリ内の用語の存在の確率又は頻度を考慮するのみならず、サーチクエリ内のそれぞれのサーチ用語ごとに、そのサーチ用語に関連してデータレコードの後続の関連性の等級付けにおいて考慮される基準セットから、用語を含むサブセットを特定することにより、この問題を解決する。一例として、サブセットは、辞書を使用して決定することができる。この場合の結果は、誤って綴られた単語を含むサーチ用語がサブセットに含まれることにならず、むしろ、サブセットは、正しく綴られた類似した単語のみを含む。

従って、サーチ用語内の単語のその他の文法的な形態をも考慮するために、基準セットは、具体的には、単語のすべての文法的な形態を含む。この結果、これらの形態は、サーチ用語に類似するため、サブセットは、サーチ用語内の単語のみならず、その単語のその他の文法的な形態をも含む。

本発明による方法は、サーチ用語に関するデータレコードの関連性の等級付けの際に、このように決定したこのサブセット内のそれぞれの用語のみを考慮するのではなく、むしろ、本発明は、このサブセット内の用語を、以下のような特定の方式によって考慮する。

サブセット内のそれぞれの用語は、その用語について決定した関連するサーチ用語に対する類似性の尺度を有するため、サブセット内の用語は、その類似性の尺度に基づいて順序付けることができる。従って、変更済みの確率を決定する際に、重み付け分布を使用することにより、その用語に基づいて、サブセット内のその他の用語を考慮する方法を決定する。この場合、類似性についての高い尺度を有する用語は、類似性についての低い尺度を有する用語よりも、強力に重み付けされる。この結果、例えば、タイプミスを含むサーチ用語の場合にも、データレコードの関連性を決定するための基礎として最終的に使用されるこの用語の適切な変更済みの確率に到達することができる。理由は、タイプミスを含むサーチ用語と関連するサブセットは、正しく綴られた用語及びその変形をも含む高い確率を有するからである。次いで、サブセットに含まれるこれらの用語は、変更済みの確率を決定する際にも考慮され、これは、タイプミスを含むサーチ用語が稀にしか存在していないため、この用語がデータレコードの等級付けのための非常に高度な関連性を結果的に有することにはならないことを意味する。また、同様に、サーチ対象のデータレコード内に存在するタイプミスがそのデータレコードの等級付けの不適切な結果をもたらすことを防止することもできる。

本発明による方法の一改良例によれば、重み付け分布は、用語の変更済みの確率の決定において、用語自体の確率と、その１つの用語よりも類似性についての高い尺度を有するその他の用語の確率と、を考慮するような形態を有する。従って、この場合に、重み付け分布は、例えば、サブセット自体内の用語について、且つ、この用語よりも類似性についての高い尺度を有するその他の用語についても、重み付け１を出力し、且つ、類似性についての低い尺度を有するサブセット内の用語については、重み付け０を出力するステップ関数であってよく、この結果、類似性についての低い尺度を有するこれらの用語は、変更済みの確率を決定する際に無視される。従って、用語の変更済みの確率を決定する際には、まず、用語自体の確率が、そして、更には、その用語よりも確率についての高い尺度を有するサブセット内のすべてのその他の用語の確率が、考慮される。

本発明による方法の好適な一改良例によれば、第２の用語ｔ_ｋの確率が第１の用語ｔ_ｊの変更済みの確率に納まる重み付けをシグモイド関数の評価によって決定し、評価の中心は、第２の用語ｔ_ｋの類似性の尺度からの第１用語ｔ_ｊの類似性の尺度の減算である。シグモイド関数は、不連続なステップ関数とは対照的に、値０から値１までの連続的な遷移を有するため、本発明による方法のこの改良例は、変更済みの確率が決定される用語よりも類似性についてのわずかに低い尺度を有するサブセット内の用語をも考慮することができる。この結果、変更済みの確率に基づいて等級付けされるデータレコードの関連性の更なる改善が可能となる。

本発明による方法の更なる改良例によれば、重み付け分布は、用語の変更済みの確率の決定において、類似性についての低い尺度を有する低い重み付けを有するその他の用語の確率をも考慮するような形態を有し、類似性についての低い尺度を有する別の用語の重み付けは、変更済みの確率が決定される用語の類似性の尺度とその他の用語の類似性の尺度の間の差によって左右される。具体的には、類似性についての低い尺度を有する別の用語の重み付けは、変更済みの確率が決定される用語の類似性の尺度との間の差の絶対値が小さいほど、大きくなる。これは、サブセット内のそれぞれの用語の変更済みの確率を決定するために、且つ、従って、データレコードの関連性を等級付けするために、任意のその他の関数を適用することにより、類似性についての低い尺度を有する用語を考慮できることを意味している。

ある用語の変更済みの用語確率は、（一般化された意味における）サーチ用語に対する類似性が、そのある用語の類似性を上回るすべての用語の組合せの確率である。但し、データレコードを等級付けするためには、このような用語を含むデータレコードの確率を特定することが有意義である。データレコードは、多くの用語を含むため、この確率は相対的に大きい。この観点において、本発明による方法の一発展例によれば、変更済みの確率の算出は、サーチ対象のデータレコードにおけるデータレコード当たりの用語の数の分布を考慮する中間ステップの導入を更に伴う。具体的には、これは、データレコードが複数の類似の用語を同時に含むことができるという事実を考慮している。

一例として、データレコードの等級は、関連する用語の変更済みの確率の対数の絶対値から取得してもよい。この結果、用語の変更済みの確率を決定するために考慮すべき用語の様々な確率を組み合わせることが容易になる。

サブセット内の用語の存在の確率は、具体的には、用語と関連した確率を基準セット内又はデータレコード内の用語の頻度から事前に特定すると共にメモリ内に保存し、且つ、保存した用語の確率を後からメモリから読み取ることにより、決定する。この確率の事前決定により、方法の実行を加速させると共に単純化することができる。更には、基準セットを選択することにより、セット内の用語の、即ち、例えば、テキスト内の単語の、存在の頻度に関する一般的な分析を手段として使用することが可能となる。最後に、データレコード内の用語の存在の頻度を考慮することにより、特定のデータレコードに対してカスタマイズされた確率を特定することができる。例えば、データレコードが製品データベースである場合、特定の単語の存在の頻度は、別のタイプの一般的なテキストから決定した頻度とは異なるであろう。

本発明による方法の一拡張例によれば、サーチクエリは、複数のサーチ用語を含む。この場合、それぞれのサーチ用語ごとに部分的等級を別個に決定する。更には、サーチ用語から編集されたサーチクエリについて更なる部分的等級を決定する。次いで、部分的等級からサーチクエリの等級を決定する。

更には、この方法において、データレコードの関連性の等級付けは、データレコードが、サブセット内の用語がこのデータレコード内においてより頻繁に存在する際に、高く等級付けされることを伴う。一例として、データレコードは、サブセット内の用語がこのデータレコード内において頻繁に存在しているほど、高く等級付けすることができる。この結果、データレコードの関連性を等級付けするために、サブセット内の１つの用語及び更なる用語の存在の確率のみならず、等級付け対象のデータレコード内の用語の存在の具体的な頻度をも使用することができる。また、この尺度により、データレコードの関連性の等級付けの更なる改善が結果的にもたらされる。

一例として、データレコードは、毎回、複数のフィールドを含んでもよい。一例として、これは、データレコードが製品データベースに関係している際に、特に当て嵌まる。この場合、データレコードの関連性を等級付けするために、特定のフィールドがより重要であり、対照的に、その他のフィールドは、あまり重要ではない。この理由から、この場合、本発明による方法は、好ましくは、データレコードの関連性が、サブセット内の用語がデータレコード内において存在しているフィールドに基づいて、更に等級付けされることを伴う。用語が特に重要なフィールドに存在する場合、その結果、データレコードは、用語があまり重要ではないフィールドに存在する場合よりも、高く等級付けされることになる。

また、本発明は、プログラムコードがコンピュータによって実行された際に上述の方法を実行するプログラムコードを有するコンピュータプログラムプロダクトにも関する。具体的には、コンピュータプログラムプロダクトは、コンピュータソフトウェア用の任意のストレージ媒体であってよい。

コンピュータによって実行することができる本発明のサーチエンジンは、少なくとも１つのサーチ用語を含むサーチクエリを受け取るための受け取りユニットを有する。一例として、サーチクエリは、インターネットなどのネットワークを介して受け取ることができる。更には、サーチエンジンは、サーチ用語に類似するか又は同一である用語を含むサブセットを特定するための手段を有する。このサブセットは、具体的には、基準セットから特定される。

更には、本発明によるサーチエンジンは、サブセット内のそれぞれの用語ごとに変更済みの確率を決定するための手段を有する。変更済みの確率を決定するためのこれらの手段は、サーチ用語に対する個々の用語の類似性の尺度を決定することが可能であり、用語の存在の確率を決定することが可能であり、且つ、用語によって左右される重み付け分布をサブセット内の用語に対して適用することができるような形態を有し、この場合、サーチ用語に対して、類似性についての高い尺度を有する用語は、類似性についての低い尺度を有する用語よりも、強力に重み付けされ、且つ、用語の変更済みの確率は、サブセット内の用語の重み付けされた確率から決定することができる。

更には、本発明によるサーチエンジンは、サーチクエリに対するその関連性についてデータレコードを等級付けするための等級付けユニットを有する。具体的には、この等級付けユニットを使用することにより、サブセット内の用語がデータレコード内に存在するかどうかをチェックすることが可能であり、且つ、サブセット内の用語がデータレコード内に存在する場合、用語の相対的に低い変更済みの確率は、データレコードが相対的に高く等級付けされることを結果的にもたらす。

最後に、本発明によるサーチエンジンは、データレコードサブセットをその関連性等級に基づいて出力するための出力ユニットを有する。

具体的には、本発明のサーチエンジンは、上述の方法を実行することができるような形態を有する。従って、本発明のサーチエンジンも、上述の方法と同一の利点を有する。

本発明によるサーチエンジンの一改良例によれば、本発明のサーチエンジンは、用語を含む基準セット又はデータレコード内に存在する用語を含むセットと、用語と関連する確率と、を保存するメモリを有する。この場合、確率は、具体的には、基準セット内又はサーチ対象であるデータレコード内の用語の存在の頻度から取得される。

以下、添付図面を参照し、例示用の実施形態を使用して本発明について説明する。

本発明の例示用の一実施形態によるサーチエンジンの基本設計を概略的に示す図である。本発明による方法の例示用の一実施形態を実装するためのステップを示す図である。

以下において説明する例示用の実施形態は、製品データベースＤのサーチに関する。この製品データベースＤは、それぞれの製品ごとに、データレコードｄ_ｌを保存している。そして、それぞれのデータレコードｄ_ｌは、例えば、製品の価格、製品の色、製品の材料、又は製品のその他の関連する特徴に関係してもよい複数のフィールドに分割してもよい。

製品データベースＤは、オンラインショップとの関連においてユーザーのために提供される。図１に概略的に示すように、ユーザーは、自身のコンピュータ３を使用し、インターネット２を介してウェブサイトにアクセスすることが可能であり、ウェブサイトは、オンラインショップの中央ユニット１によって提供される。ユーザーは、自身のコンピュータ３を使用し、サーチクエリＱをインターネット２を介してオンラインショップに送信することが可能であり、サーチクエリＱは、オンラインショップの中央ユニット１内の受け取りユニット４によって受け取られる。受け取りユニット４は、サーチクエリＱ内のサーチ用語ｑ_ｉに類似するか又は同一である用語を含むサブセットＶを特定するために、サーチクエリＱを装置５に送信する。この目的のために、中央ユニット１は、メモリ１１に結合される。このメモリ１１は、第１に、製品データベースＤを含んでもよい。第２に、メモリ１１は、用語ｔを含む基準セットＴを含む。一例として、基準セットＴは、単語のデータベースであり、このデータベースは、基本的に１つの言語又は複数の言語においてすべての単語を含むか、又は製品データベース内に生じてもよいすべての単語を含む。従って、この場合に、用語ｔは、具体的には、単語である。

また、メモリ１１は、それぞれの用語ｔ_ｊごとに、確率ｐ_ｊを保存する。この用語ｔ_ｊの確率ｐ_ｊは、この用語ｔ_ｊが用語を含むセット内に存在する確率を示す。具体的には、これらの確率ｐ_ｊは、特定の単語が特定の言語のテキストに存在する頻度から導出することができる。これらの存在の頻度は、それ自体が既知であり、従って、事前にメモリ１１内に保存することができる。この代わりに、特定の用語ｔ_ｊがデータベースＤ内に存在する頻度を決定することもできる。次いで、この存在の頻度から、用語ｔ_ｊがデータベースＤ内に存在している確率ｐ_ｊを決定することができる。

装置５が用語ｔ_ｊを含むサブセットＶを決定したとき、装置６を用いて、サブセットＶ内のそれぞれの用語ｔ_ｊごとに、個々の用語ｔ_ｊの類似性の尺度を決定する。類似性の尺度は、用語ｔ_ｊがサーチクエリＱ内のサーチ用語ｑ_ｉに対してどれほど類似するかを示す。

装置６は、装置７に結合され、装置７は、用語ｔ_ｊの存在の確率ｐ_ｊを決定することができる。一例として、装置７は、この確率ｐ_ｊをメモリ１１から容易に読み取ることが可能であり、メモリ１１は、上述のように事前に特定したこれらの確率を保存する。

装置７は、装置８に結合され、装置８内においては、サブセットＶ内の用語ｔ_ｊによって左右される重み付け分布Ｘ_ｊをサブセットＶ内のすべての用語ｔ_ｋに対して適用することができる。重み付け分布Ｘ_ｊを適用することにより、サブセットＶ内の用語ｔ_ｋの重み付けされた確率が得られる。これらの重み付けされた確率から、装置８は、変更済みの用語確率ｐ”_ｊを決定することができる。更には、この装置は、（例えば、メモリ１１にアクセスすることによって）データレコード当たりの用語の数を考慮することもできる。これにより、データレコード内に存在する用語ｔ_ｊ又はより類似する用語の変更済みの確率ｐ’_ｊが得られる。

変更済みの確率ｐ’_ｊは、装置８により、等級付けユニット９に送信される。等級付けユニット９は、サーチクエリＱに対するその関連性についてデータレコードｄ_ｌを等級付けする。この目的のために、等級付けユニット９は、メモリ１１にアクセスし、且つ、製品データベースＤ内のそれぞれのデータレコードｄ_ｌごとに、サブセットＶ内の用語ｔ_ｊがデータベースｄ_ｌ内に存在するかどうかをチェックする。サブセットＶ内の用語ｔ_ｊがデータレコードｄ_ｌ内に実際に存在する場合、等級付けユニット９は、存在する用語ｔ_ｊの変更済みの確率ｐ’_ｊを考慮することにより、データレコードｄ_ｌを等級付けする。

等級付けユニット９は、関連性等級を出力ユニット１０に送信する。出力ユニット１０は、データレコードサブセットをその関連性等級に基づいて決定する。一例として、出力ユニットは、その関連性等級の順番において最高の関連性等級が提供された特定の数のデータレコードｄ_ｌを出力することができる。この出力は、例えば、ユーザーのコンピュータ３上に表示されるウェブサイト上の表示により、インターネット２を介してユーザーのコンピュータ３に提供することができる。

上述の中央ユニット１の装置に関する詳細については、本発明による方法の例示用の実施形態の説明との関連において後述する。

以下においては、製品データベースＤが衣料品用のデータレコードｄ_ｌを含むものと仮定する。一例として、製品データベースＤは、３００個のデータレコードを含むことができる。従って、製品データベースＤは、データレコードｄ_１、ｄ_２、．．．、ｄ_３００を有する。

また、以下においては、製品データベースＤ内の１５個のデータレコードが、単語「Ｓｈｉｒｔ」を含み、且つ、製品データベース内の６０個のデータレコードが、単語「ｂｌａｕｅｓ」を含むものと仮定する。従って、データレコードの５％は、単語「Ｓｈｉｒｔ」を含み、且つ、データレコードの２０％が、単語「ｂｌａｕｅｓ」を含んでいる。更には、ものごとを単純化させるために、当初、これらの単語は、それぞれのデータレコードｄ_ｌ内において一度も存在しないものと仮定する。

このような場合、サーチエンジンは、逆文書頻度を考慮することが一般的である。これは、まれな単語を含むデータレコードｄ_ｌに、頻繁に存在する単語を含むデータレコードｄ_ｌよりも高い関連性を割り当てることを伴う。従って、上述の例においては、単語「Ｓｈｉｒｔ」を含むデータレコードには、単語「ｂｌａｕｅｓ」を含むデータレコードｄ_ｌよりも高い関連性が割り当てられる。更には、２つの単語「ｂｌａｕｅｓ」及び「Ｓｈｉｒｔ」を含むデータレコードｄ_ｌが特定される。これら２つの単語が相関していないと仮定すれば、それは、ちょうど３つのデータレコードであると予想することができる。これは、これらの単語がデータレコードｄ_ｌ内に存在する２つの確率の積、即ち、確率ｐ_{ｂｌａｕｅｓ}＝０．２に確率ｐ_{Ｓｈｉｒｔ}＝０．０５を乗算することにより、算出される。従って、これら２つの単語がデータレコードｄ_ｌ内に含まれる確率は、０．０１（１％）である。

サーチクエリＱに対するデータレコードｄ_ｌの関連性は、そのデータレコードｄ_ｌ内に存在すると共にサーチクエリが関係する単語の確率の積が小さい際に、高い。データレコードｄが特有のものであるほど、その関連性は高くなる。従って、個々の確率をより容易にリンクすることができるように、確率の対数の絶対値を形成することが好ましい。この絶対値は、関連性に伴って増大し、且つ、個々の確率に対して加法的に機能する。以前の例においては、データレコードｄ_ｌが単語「ｂｌａｕｅｓ」を含む対数確率は、０．７であり、データレコードｄ_ｌが単語「Ｓｈｉｒｔ」を含む対数確率は、１．３であり、且つ、データレコードｄ_ｌが両方の単語を含む対数確率は、２である。

以下、図２を参照し、本発明による方法について詳細に説明するが、該方法は、用語の存在の逆頻度を考慮した既知の方法を変更している。

ステップ２０において、ユーザーは、サーチ用語ｑ_ｉを含むサーチクエリＱを生成する。ここで、ｉは自然数である。上述の例と同様に、サーチ用語ｑ_１は「Ｓｈｉｒｔ」としてもよく、サーチ用語ｑ_２は「ｂｌａｕｅｓ」としてもよい。

次いで、ステップ２１において、第１のサーチ用語ｑ_１に類似するか又は同一である用語ｔ_ｊを含むサブセットＶを基準セットＴから特定する。上述のように、基準セットＴは、１つの言語においてすべての単語を収容する単語データベースであってよい。２つの文字列の類似性を自動的に等級付けするための方法が、それ自体、知られている。この場合、基準セットＴ内の用語ｔ_ｊのすべてに対するサーチ用語ｑ_ｉの類似性を特定することにより、サブセットＶが特定される。特定の類似性の範囲内にある用語ｔ_ｊがサブセットＶ内に含まれる。類似性を自動的に等級付けする方法は、例えば、国際公開第２００７／１４４１９９Ａ１号パンフレットに記述され、該開示内容は、参照により、本明細書に含まれる。

従って、サブセットＶは、例えば、３つの用語ｔ_ｘ、ｔ_ｙ、及びｔ_ｚを含んでもよい。上述の例においては、サーチ用語「Ｓｈｉｒｔ」について、以下のサブセットＶ｛Ｓｈｉｒｔ，Ｓｈｉｒｔｓ，Ｔ−Ｓｈｉｒｔ｝を特定することができる。第２のサーチ用語「ｂｌａｕｅｓ」について、以下のサブセットＶ｛ｂｌａｕｅｓ，ｂｌａｕ，ｂｌａｕｅ｝を特定することができる。

サブセットＶは、基準セットＴの要素のみを含むことができることを指摘しておく。従って、サーチクエリＱが誤って綴られた単語を含む場合、その単語が基準セットＴ内に含まれていないため、その単語は、サブセットＶ内に含まれない。これにより、サーチクエリＱ内の誤って綴られた単語は非常に稀にしか存在しないため、非常に高い関連性が割り当てられないように、それらの単語を除去することができる。それにも関わらず、製品データベースＤの関連性を等級付けする際には、誤って綴られた単語も考慮される。その理由は、誤って綴られた単語の代わりに、誤って綴られた単語に類似した用語を含むサブセットＶが考慮されるためである。この観点において、本発明による方法は、誤り耐性を有する。

サブセットＶ内の用語ｔ_ｘ、ｔ_ｙ、及びｔ_ｚは、製品データベースＤ内のデータレコードｄ_ｌの関連性を等級付けする方法において考慮されるが、サブセットＶ内のそれぞれの用語ｔ_ｊの関連性は、この等級付けのために別個に決定される。これは、サブセットＶ内のすべての用語ｔ_ｊが、製品データベースＤを等級付けするために、同一の関連性を有する必要はないことを意味している。この観点において、ステップ２２において、サブセットＶ内のそれぞれの用語ｔ_ｊごとに、この用語ｔ_ｊと基礎をなすサーチ用語ｑ_ｉの間の類似性の尺度Ａ_ｉｊを決定する。また、一例として、国際公開第２００７／１４４１９９Ａ１号パンフレットに記述される方法を使用し、この類似性の尺度Ａ_ｉｊを決定することもできる。従って、サーチ用語ｑ_ｉに対して含まれる用語ｔ_ｊの類似性の尺度Ａ_ｉｊに基づいて、サブセットＶをソートすることができる。サーチ用語ｑ_ｉ自体がサブセットＶ内に含まれる場合、サブセットＶ内のその用語ｔ_ｊは、サーチ用語ｑ_ｉと同一であるため、最大の類似性の尺度Ａ_ｉｊを有する。類似性の尺度Ａ_ｉｊが減少するのに伴って、サブセットＶ内の更なる用語ｔ_ｊが後続する。

従って、サーチ用語「ｂｌａｕｅｓ」の場合には、以下のソートされたサブセットＶ、例えば：１．ｂｌａｕｅｓ、２．ｂｌａｕｅ、３．ｂｌａｕを得ることができる。

次いで、ステップ２３において、サブセットＶ内の用語ｔ_ｊの確率ｐ_ｊを決定する。これは、ランダムに選択された場合に用語ｔ_ｊがデータベースＤから引き出される確率ｐ_ｊである。これとは対照的に、上述の関連性の尺度（逆文書頻度）の場合、文書、即ち、データレコードの頻度が検討される。上述のように、これは、サブセットＴ内の用語ｔ_ｊが、存在する、即ち、特定のテキスト内に又はデータレコードｄ_ｌ内に存在する事前に保存された確率ｐ_ｊがメモリ１１から読み取られることを伴う。本明細書に具体的に記述される方法の場合、一例として、単語「ｂｌａｕｅｓ」が０．０２の確率によって存在し、単語「ｂｌａｕｅ」が０．０１の確率によって存在し、且つ、単語「ｂｌａｕ」が０．０１の確率によって同様に存在することができる。更に、単語「ｂｌａｕｅｓ」、「ｂｌａｕｅ」、及び「ｂｌａｕ」のうちの１つが存在する確率を更に決定することができる。この確率は、０．０４である。

次いで、ステップ２４において、サブセットＶ内のそれぞれの用語ｔ_ｊごとに、重み付け分布Ｘ_ｊを適用する。この場合、重み付け分布Ｘ_ｊのタイプは、検討対象であるサブセットＶ内のその用語ｔ_ｊによって左右される。最も単純な場合、重み付け分布Ｘ_ｊは、検討対象である用語ｔ_ｊについて、且つ、現在検討中である用語ｔ_ｊよりも類似性についての高い尺度Ａ_ｉｋを有するサブセットＶ内のその他の用語ｔ_ｋについて、重み付け１を出力するステップ関数である。従って、この場合、重み付け分布Ｘ_ｊは、検討対象の用語ｔ_ｊよりも類似性についての低い尺度Ａを有するサブセットＶ内のすべての用語ｔ_ｋを除外するフィルタとして機能する。

次いで、ステップ２５において、重み付けされた確率から変更済みの用語確率ｐ”_ｊを決定し、即ち、用語ｔ_ｊについて変更済みの確率ｐ’_ｊを決定する。

特定の例において単語「ｂｌａｕｅｓ」を検討すれば、この単語は、サーチ用語「ｂｌａｕｅｓ」と同一であるため、結果として、この単語が、類似性についての最も高い尺度Ａを有する。従って、単語「ｂｌａｕｅｓ」の変更済みの用語確率ｐ”_ｘは、単語「ｂｌａｕｅｓ」の確率ｐ_ｘに対応する。

一方、単語「ｂｌａｕｅ」を検討すれば、結果は、単語「ｂｌａｕｅｓ」が、類似性についてのより高い尺度Ａを有し、単語「ｂｌａｕ」は、類似性についての更に低い尺度Ａを有することとなる。従って、単語「ｂｌａｕｅ」の変更済みの用語確率ｐ”_ｙの決定において、単語「ｂｌａｕｅ」の変更済みの用語角度ｐ”_ｙを決定するとき、単語「ｂｌａｕｅ」の−１によって重み付けされた−確率ｐ_ｙと、単語「ｂｌａｕｅｓ」の−１によって重み付けされた−確率ｐ_ｘと、を考慮する。

最後に、単語「ｂｌａｕ」の変更済みの用語確率ｐ”_ｚを決定するとき、結果は、単語「ｂｌａｕｅｓ」及び「ｂｌａｕｅ」が、単語「ｂｌａｕ」よりも、類似性についての高い尺度Ａを有することとなり、これは、単語「ｂｌａｕ」の変更済みの用語確率ｐ”_ｚの決定において、それぞれが１によって重み付けされた単語「ｂｌａｕ」、「ｂｌａｕｅ」、及び「ｂｌａｕｅｓ」のすべての確率を考慮することを意味する。

従って、単語「ｂｌａｕｅｓ」について得られる変更済みの用語確率ｐ”_ｘは、０．０２であり（単語「ｂｌａｕｅｓ」の確率）、単語「ｂｌａｕｅ」について得られる変更済みの確率ｐ”_ｙは、０．０３であり（単語「ｂｌａｕｅ」または「ｂｌａｕｅｓ」の確率）、且つ、単語「ｂｌａｕ」について得られる変更済みの確率ｐ”_ｚは、０．０４である（単語「ｂｌａｕ」、「ｂｕｌａｕｅ」、または「ｂｌａｕｅｓ」の確率）。

ステップ２６において、データレコードを等級付けするために、用語を含むデータレコードの確率を算出することが有意義であり、且つ、この目的のために、データレコード当たりの用語の数を考慮することが有意義である。これは、事前に特定及び保存することができる分布を有する。一例として、データレコード当たりの用語の平均数を特定することができる。この代わりに、正確な計算も可能である。３００個のデータレコードを有する例の場合、これらのうちの１５０個が５つの用語を有するものと考え、且つ、更なる１５０個が１０個の用語と有するものと考える。例えば、「ｂｌａｕｅｓ」などのある用語を含む５つの用語の組合せの確率は、１−（１−ｐ’_ｘ）＾５によって算出することができる。カッコ内の表現は、用語が明らかに「ｂｌａｕｅｓ」ではない確率を示す。次いで、５という指数は、５つの用語の組合せが用語「ｂｌａｕｅｓ」を含まない確率を付与する。そして、表現の全体は、長さ５のデータレコードが用語を含む正しい確率を付与する。長さ１０のデータレコードの場合には、表現は、１−（１−ｐ’_ｘ）＾１０として得られる。但し、この例において、１５０個のデータレコードは、それぞれ、長さ５を有し、且つ、１５０個のデータレコードは、それぞれ、長さ１０を有する。この結果、これは、用語「ｂｌａｕｅｓ」を含む任意のデータレコードの全体的な確率を次のように生成する。

これは、用語「ｂｌａｕｅｓ」を含むデータレコードの変更済みの確率０．１４を付与する。同一の方法に基づいて、変更済みの確率は、次式のようになり、ｐ’’_ｙ（＝０．２０）及びｐ”ｚ（＝０．２６）が算出される。

次いで、ステップ２７において、サーチクエリＱに対するデータレコードｄ_ｌの関連性ｒ_ｌを等級付けする。これは、サブセットＶ内のそれぞれの用語ｔ_ｊについてチェックを実行し、データレコードｄ_ｌ内に存在するかどうかを決定することを伴う。サブセットＶ内の用語ｔ_ｊがデータレコードｄ_ｌ内に実際に存在する場合、このデータレコードｄ_ｌには、サブセットＶ内の用語ｔ_ｊが存在しないデータレコードｄ_ｍよりも高い関連性ｒ_ｌが提供される。更には、低い変更済みの確率ｐ’_ｊを有する用語ｔ_ｊが存在するデータレコードｄ_ｌには、高い変更済みの確率ｐ’_ｊを有する用語ｔ_ｊが存在するデータレコードｄ_ｍよりも高い関連性の等級ｒ_ｌが提供される。更には、データレコードｄ_ｌの関連性等級ｒ_ｌは、サブセットＶ内の用語ｔ_ｊがこのデータレコード内において頻繁に存在するほど、更に大きくなる。最後に、データレコードｄ_ｌの個々のフィールドを異なる方式によって重み付けすることもできる。用語ｔ_ｊがデータレコードｄ_ｌのフィールド内に存在するとき、同一の用語ｔ_ｊがデータレコードｄ_ｌの別のあまり重要ではないフィールド内に存在する場合よりも大きなデータレコードｄ_ｌのより高い関連性等級ｒ_ｌが結果的に得られる。

サーチクエリＱが複数のサーチ用語ｑ_ｉを含むとき、上述の関連性ｒ_ｌの等級付けは、すべてのサーチ用語ｑ_ｉについて実行される。従って、特定の例において、単語「Ｓｈｉｒｔ」について用語ｔ_ｊを含むサブセットＶも特定される。上述のように、このサブセットＶは、例えば、単語「Ｓｈｉｒｔ」、「Ｓｈｉｒｔｓ」、「Ｔ−Ｓｈｉｒｔ」を含んでもよい。従って、上述のように、サーチ用語「Ｓｈｉｒｔ」について、このサブセットＶ内のそれぞれの用語ｔ_ｊの変更済みの確率ｐ’_ｊが決定される。この場合、例えば、単語「Ｓｈｉｒｔ」について得られる変更済みの確率は、０．０５であり（単語「Ｓｈｉｒｔ」の確率）、このサブセットＶ内の単語「Ｓｈｉｒｔｓ」について得られる変更済みの確率は、０．０７であり（単語「Ｓｈｉｒｔ」又は「Ｓｈｉｒｔｓ」の確率）、且つ、このサブセットＶ内の単語「Ｔ−Ｓｈｉｒｔ」について得られる変更済みの確率は、０．１４である（単語「Ｓｈｉｒｔ」、「Ｔ−Ｓｈｉｒｔ」、又は「Ｓｈｉｒｔｓ」の確率）。

次いで、オリジナルのサーチクエリ「ｂｌａｕｅｓＳｈｉｒｔ」の関連性等級付けを実行ことができる。データレコードｄ_ｌが用語「ｂｌａｕｅｓＳｈｉｒｔ」を含む確率は０．００７であり、且つ、これは、２．１４という関連性等級を結果的にもたらす。データレコードｄ_ｌが用語「ｂｌａｕｅＳｈｉｒｔｓ」を含む場合、０．０１５という変更済みの確率が得られる（これは、「ｂｌａｕｅ」（０．２０）と「Ｓｈｉｒｔｓ」（０．０７）の変更済みの確率の積である）。これは、このデータレコードｄ_ｌの１．８４（０．０１５の対数の絶対値）という関連性等級を結果的にもたらす。データレコードｄ_ｌが用語「Ｔ−Ｓｈｉｒｔｂｌａｕ」を含む場合、０．０３６という変更済みの確率が得られる。これは、データレコードｄ_ｌの１．４という関連性等級を結果的にもたらす。

最後に、複数のサーチ用語ｑ_ｉの場合には、データレコードｄ_ｌ内の個々のサブセットＶ内の用語ｔ_ｊの存在の順序及び位置を考慮することもできる。サーチクエリＱがサーチ用語ｑ_１、ｑ_２をこの順序において含み、且つ、データレコードｄ_ｌが、第１に、第１サーチ用語ｑ_１に属するサブセットＶ内の用語ｔ_ｊを、そして、第２に、第２サーチ用語ｑ_２に属するもう１つのサブセットＶ内の用語ｔ_ｋを含む場合、この結果、用語が逆の順序で存在する場合よりも高い関連性等級が得られる。更には、データレコードｄ_ｌは、２つのサブセット内の用語ｔ_ｊが近接して一緒に存在するとき、更に高い関連性によって等級付けされる。２つのサーチ用語ｑ_１及びｑ_２における２つのサブセット内の用語ｔ_ｊが、連続的に、特に、正しい順序において、存在するとき、特に高い関連性等級が得られる。２つのサーチ用語における２つのサブセット内の用語ｔ_ｊが、データレコードｄ_ｌ内において互いに離れて存在しているほど、それらが、例えば、製品説明などの異なる言語学上の文脈において存在する確率は大きくなり、これは、用語ｔ_ｊの存在が低い関連性等級を結果的にもたらすことを意味している。この場合にも、同一の又は更に良好な位置にサーチ用語又はサブセットＶ内の用語ｔ_ｊを含むデータレコードの確率を特定するという上述の同一の原理を適用することができる。この場合には、データレコードｄ_ｌ内の用語ｔ_ｊの位置が、独立したランダムな変数であるものと仮定される。

それぞれのデータレコードｄ_ｌについて関連性ｒ_ｌの等級付けを実行した後に、ステップ２８において、最高の関連性等級ｒ_ｉを有するデータレコードｄ_ｕ、ｄ_ｖ、ｄ_ｗ、．．．を含むリストを生成する。次いで、このリストを関連性等級ｒ_ｌの順序において出力する。

以下、本発明による方法の第２の例示用の実施形態について説明する。

第２の例示用の実施形態は、上述の第１の例示用の実施形態とは、重み付け分布Ｘが異なる。第２の例示用の実施形態において、確率分布Ｘは、シグモイド関数である。シグモイド関数において、２つの値０と１の間において連続した遷移が得られる。これによって実現される効果は、類似性についての小さな尺度Ａを有するが、その類似性の尺度が、変更済みの確率ｐ’_ｊが特定される用語ｔ_ｊに非常に近接しているサブセットＶ内の用語ｔ_ｋが−第１の例示用の実施形態のように−無視されることがなく、むしろ、低い重み付けによって考慮されるというものである。

但し、シグモイド関数から特定される重み付けは０に近いため、検討対象の用語ｔ_ｉよりも、類似性についての格段に低い尺度Ａを有する用語ｔ_ｋは、実際には、継続的に無視される。

第２の例示用の実施形態において、シグモイド関数を評価することにより、第２の用語ｔ_ｋの確率ｐ_ｊが第１の用語ｔ_ｊの変更済みの用語確率ｐ”_ｊ内に納まる重み付けを決定し、評価の中心は、第２の用語ｔ_ｋの類似性の尺度Ａ_ｉｋからの第１の用語ｔ_ｊの類似性の尺度Ａ_ｉｊの減算である。以下、サーチ用語（ｑｉ）「Ｓｙｍｐａｔｈｉｅ」の例を用いて説明する。この観点において、装置５（ステップ２１）は、類似した用語のセット（Ｖ）を特定し、且つ、装置６及び７（ステップ２２、２３）は、関連する類似性及び用語確率を特定する。

次いで、装置８（ステップ２４）は、シグモイド関数を使用し、重み付け分布を特定する。１つの可能性として、このような関数は累積ガウス正規分布である。装置８によって算出された類似性の差を（関連する重み付けと共に）次の表に示す。

次いで、重み付けをオリジナルの用語確率に対して適用することにより、次のように変更済みの用語確率が得られる。

これは、類似性についての大きな尺度を有する用語が、変更済みの小さな用語確率を有する用語よりも、強力に、変更済みの用語確率内に納まるという本発明による特性を結果的にもたらす。

データベースが以前の例示用の実施形態と同一のデータレコード当たりの用語の分布を有すると仮定すれば、即ち、１５０個のデータレコードが５つの用語を有し、且つ、１５０個のデータレコードが１０個の用語を有すると仮定すれば、個々の変更済みの確率ｐ_１’、ｐ_２’、ｐ_３’、ｐ_４’、ｐ_５’は、次の既に特定された公式によって算出される（ステップ２６）。

次いで、これらの変更済みの確率は、本発明による以前の例示用の実施形態と同様に、等級付けユニット９に送信される。

上述の方法ステップは、ハードウェアコンポーネントとして又はソフトウェアとして実装することができる。ソフトウェアは、データストレージ媒体上に、即ち、コンピュータプログラムプロダクト上に、保存してもよい。ソフトウェアが収容するプログラムコードは、プログラムコードがコンピュータによって実行された際に上述の方法を実行するのに適している。

Claims

多数（Ｄ）のデータレコード（ｄ_ｌ）をサーチするコンピュータ実装方法であって、
−少なくとも１つのサーチ用語（ｑ_ｉ）を含むサーチクエリ（Ｑ）を受け取り、
−前記サーチ用語（ｑ_ｉ）に類似するか又は同一である用語（ｔ_ｊ）を含むサブセット（Ｖ）を、基準セット（Ｔ）から特定し、
−前記サブセット（Ｖ）内のそれぞれの用語（ｔ_ｊ）ごとに、
−前記サーチ用語（ｑ_ｉ）に対する類似性の尺度（Ａ_ｊ）を決定し、
−前記用語（ｔ_ｊ）の存在の確率（ｐ_ｊ）を決定し、
−前記用語（ｔ_ｊ）によって左右される重み付け分布（Ｘ_ｊ）を、前記サブセット（Ｖ）内の前記用語（ｔ_ｋ）に対して適用し、この場合、類似性についての高い尺度（Ａ_ｋ）を有する用語（ｔ_ｋ）が、類似性についての低い尺度（Ａ_ｋ）を有する用語（ｔ_ｋ）よりも強力に重み付けされ、且つ、
−前記用語（ｔ_ｊ）の変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）を、前記サブセット（Ｖ）内の前記用語（ｔ_ｋ）の前記重み付けされた確率から決定し、
−前記データレコード（ｄ_ｌ）を、前記サーチクエリ（Ｑ）に対するその関連性（Ｒ）について等級付けし、この場合に、
−前記サブセット（Ｖ）内の前記用語（ｔ_ｊ）が前記データレコード（ｄ_ｌ）内に存在しているかどうかを決定するためのチェックを実行し、且つ、
−前記サブセット（Ｖ）内の用語（ｔ_ｊ）が前記データレコード（ｄ_ｌ）内に実際に存在する場合、前記用語（ｔ_ｊ）の低い変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）により、前記データレコード（ｄ_ｌ）の高い関連性等級が結果的にもたらされ、且つ、
−少なくとも１つのデータレコードサブセットがその関連性等級（Ｒ）に基づいて出力される、方法。
前記重み付け分布（Ｘ_ｊ）は、用語（ｔ_ｊ）の前記変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）の前記決定が、前記用語（ｔ_ｊ）の前記確率（ｐ_ｊ）それ自身と、前記ある用語（ｔ_ｊ）よりも類似性についての高い尺度（Ａ_ｋ）を有するその他の用語（ｔ_ｋ）の確率（ｐ_ｋ）と、を考慮するような形態を有することを特徴とする請求項１に記載の方法。
第２の用語（ｔ_ｋ）の確率（ｐ_ｋ）が第１の用語（ｔ_ｉ）の前記変更済みの確率（ｐ’_ｉ、ｐ”_ｉ）内に納まる前記重み付け（Ｘ_ｊ）がシグモイド関数の評価によって決定され、前記評価の中心は、前記第２の用語（ｔ_ｉ）の前記類似性の尺度（Ａ_ｊ）からの前記第１の用語（ｔ_ｊ）の前記類似性の尺度（Ａ_ｋ）の減算であることを特徴とする請求項１に記載の方法。
前記重み付け分布（Ｘ_ｊ）は、用語（ｔ_ｊ）の前記変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）の前記決定において、類似性についての低い尺度（Ａ_ｋ）を有する低い重み付けを有するその他の用語（ｔ_ｋ）の確率（ｐ_ｋ）をも考慮するような形態を有しており、類似性についての低い尺度を有する別の用語（ｔ_ｋ）の前記重み付けは、前記変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）が決定される前記用語（ｔ_ｊ）の前記類似性の尺度（Ａ_ｊ）と前記その他の用語（ｔ_ｋ）の前記類似性の尺度（Ａ_ｋ）の間の差によって左右されることを特徴とする請求項１又は２に記載の方法。
前記変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）の前記決定は、データレコード当たりの用語の数の分布を考慮する中間ステップの挿入を伴うことを特徴とする請求項１乃至４のいずれかに記載の方法。
データレコード（ｄ_ｌ）の前記等級は、前記関連する用語（ｔ_ｊ）の前記変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）の対数の絶対値から得られることを特徴とする請求項１乃至５のいずれかに記載の方法。
前記サブセット（Ｖ）内の用語（ｔ_ｊ）の前記確率（ｐ_ｊ）は、前記用語（ｔ_ｊ）と関連する前記確率（ｐ_ｊ）が、前記基準セット（Ｔ）内又は前記データレコード（ｄ_ｌ）内における前記用語（ｔ_ｊ）の存在の頻度から事前に特定されると共にメモリ（１１）内に保存され、且つ、前記用語（ｔ_ｊ）の前記保存された確率（ｐ_ｊ）が前記メモリ（１１）から読み取られることによって決定されることを特徴とする請求項１乃至６のいずれかに記載の方法。
前記データレコード（ｄ_ｌ）の前記関連性等級付けは、データレコードが、前記サブセット（Ｖ）内の用語（ｔ_ｊ）がこのデータレコード内に頻繁に存在する際に、高く等級付けされることを伴うことを特徴とする請求項１乃至７のいずれかに記載の方法。
前記データレコード（ｄ_ｌ）は、それぞれ、複数のフィールドを含み、且つ、データレコード（ｄ_ｌ）の前記関連性（ｒ_ｌ）は、前記サブセット（Ｖ）内の用語（ｔ_ｊ）が前記データレコード（ｄ_ｌ）内において存在しているフィールドに基づいて更に等級付けされることを特徴とする請求項１乃至８のいずれかに記載の方法。
前記サーチクエリ（Ｑ）は、複数のサーチ用語（ｑ_ｉ）を含み、且つ、
部分的等級が、それぞれのサーチ用語（ｑ_ｉ）ごとに、別個に決定され、且つ、
更なる部分的等級が、前記サーチ用語（ｑ_ｉ）から編集された前記サーチクエリ（Ｑ）について決定され、且つ、
前記サーチクエリ（Ｑ）の前記等級（Ｒ）は、前記部分的等級から決定されることを特徴とする請求項１乃至９のいずれかに記載の方法。
プログラムコードがコンピュータによって実行されるときに請求項１乃至１０のいずれかに記載の方法を実行する該プログラムコードを有するコンピュータプログラムプロダクト。
コンピュータによって実行することができるサーチエンジンであって、
−少なくとも１つのサーチ用語（ｑ_ｉ）を含むサーチクエリ（Ｑ）を受け取るための受け取りユニット（４）と、
−前記サーチ用語（ｑ_ｉ）に類似するか又は同一である用語（ｔ_ｊ）を含むサブセット（Ｖ）を特定するための手段（５）と、
−前記サブセット（Ｖ）内のそれぞれの用語（ｔ_ｊ）について変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）を決定するための手段（６〜８）であって、
−前記サーチ用語（ｑ_ｉ）に対する類似性の尺度（Ａ_ｊ）を決定し、
−前記用語（ｔ_ｊ）の存在の確率（ｐ_ｊ）を決定し、
−前記用語（ｔ_ｉ）によって左右される重み付け分布（Ｘ）を前記サブセット（Ｖ）内の前記用語（ｔ_ｋ）に対して適用し、この場合に、類似性についての高い尺度（ｔ_ｋ）を有する前記用語（ｔ_ｋ）が、類似性についての低い尺度（Ａ_ｋ）を有する用語（ｔ_ｋ）よりも強力に重み付けされ、且つ、
−前記サブセット（Ｖ）内の前記用語（ｔ_ｋ）の前記重み付けされた確率から前記用語（ｔ_ｊ）の前記変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）を決定する、のに用いることができる手段（６〜８）と、
−前記サーチクエリ（Ｑ）に対するその関連性についてデータレコード（ｄ_ｌ）を等級付けするための等級付けユニット（９）であって、
−前記サブセット（Ｖ）内の前記用語（ｔ_ｊ）が前記データレコード（ｄ_ｌ）内に存在しているかどうかをチェックすることが可能であり、且つ、
−前記サブセット（Ｖ）内の用語（ｔ_ｊ）が前記データレコード（ｄ_ｉ）内に実際に存在する場合、前記用語（ｔ_ｊ）の低い変更済みの確率（ｐ’_ｊ、ｐ”_ｊ）によって、前記データレコード（ｄ_ｌ）の高い等級付け（ｒ_ｌ）が結果的にもたらされる、等級付けユニット（９）と、
−少なくとも１つのデータレコードサブセットをその関連性等級（Ｒ）に基づいて出力するための出力ユニット（１０）と、
を有するサーチエンジン。
前記サーチエンジンは、用語（ｔ_ｊ）を含む基準セット（Ｔ）又は前記データレコード（ｄ_ｌ）内に存在する前記用語（ｔ_ｊ）を含むセットと、前記用語（ｔ_ｊ）と関連する前記確率（ｐ_ｊ）と、を保存するメモリ（１１）を有することを特徴とする請求項１２に記載のサーチエンジン。