JP2013536519A - 多数のデータレコードをサーチする方法及びサーチエンジン - Google Patents

多数のデータレコードをサーチする方法及びサーチエンジン Download PDF

Info

Publication number
JP2013536519A
JP2013536519A JP2013525253A JP2013525253A JP2013536519A JP 2013536519 A JP2013536519 A JP 2013536519A JP 2013525253 A JP2013525253 A JP 2013525253A JP 2013525253 A JP2013525253 A JP 2013525253A JP 2013536519 A JP2013536519 A JP 2013536519A
Authority
JP
Japan
Prior art keywords
term
probability
terms
subset
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013525253A
Other languages
English (en)
Other versions
JP5890413B2 (ja
Inventor
エミン カライェル
カールシュテン ハインツ
マティアス クリングス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omikron Data Quality GmbH
Original Assignee
Omikron Data Quality GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omikron Data Quality GmbH filed Critical Omikron Data Quality GmbH
Publication of JP2013536519A publication Critical patent/JP2013536519A/ja
Application granted granted Critical
Publication of JP5890413B2 publication Critical patent/JP5890413B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、複数(D)のデータセット(d)内におけるサーチのためにコンピュータによって実装される方法に関し、少なくとも1つのサーチ用語(q)を有するサーチクエリ(Q)を受け取り、サーチ用語(q)に類似するか又は同一である用語(t)を有する部分量(V)を基準量(T)から導出し、サーチ用語(q)に対する類似性尺度(A)を部分量(V)のそれぞれの用語(t)について決定し、用語(t)の存在の確率(p)を決定し、用語(t)によって左右される重み付けされた分布(X)を部分量(V)の用語(t)に対して適用し、高い類似性尺度を有する用語(t)が低い類似性尺度を有する用語(t)よりも強力に重み付けされ、且つ、変更済みの確率(p’、p”)を、部分量(V)の用語(t)の重み付けされた確率から、用語(t)について決定する。データセット(d)は、サーチクエリ(Q)に対するその関連性(R)との関係において更に評価され、部分量の用語(t)がデータセット(d)内に存在しているかどうかのチェックを行い、且つ、部分量(Q)の用語(t)がデータセット(d)内に存在する場合、用語(t)の小さな変更済みの確率(p’、p”)により、データセット(d)の大きな関連性値がもたらされ、且つ、少なくとも1つの部分データセット量をその関連性値(R)の関数として出力する。本発明は、前記方法を実行するためのサーチエンジンに更に関する。

Description

本発明は、多数のデータレコードをサーチするためのコンピュータ実装方法に関する。また、本発明は、コンピュータによって実行することができる適切なサーチエンジンに関する。
多数のデータレコードのサーチは、例えば、オンラインショップと呼ばれるものにおいては、非常に重要である。多数の製品の提供者は、提供する製品をデータレコードを使用してデータベース内に記録する。この結果、ユーザーは、自身のコンピュータを使用することにより、インターネットなどのネットワークを介してオンラインショップに対する接続をセットアップし、且つ、データベースからデータレコードを呼び出すことができる。データベースが非常に大量のデータを有しており、且つ、個々のデータレコードが相対的に複雑な構造を有する場合には、ユーザーは、サーチエンジンを使用してデータレコードをサーチできる必要がある。この場合、ユーザーは、サーチクエリをオンラインショップに送信する。オンラインショップ又はオンラインショップに接続されたシステムは、サーチクエリを処理し、且つ、特定の方式で順序付けされたデータレコードをヒットとしてユーザーに返す。この状況において、ユーザーからのサーチクエリに特に関係しているデータレコードを決定するという課題が生じる。
更には、オンラインショップのデータベースのサーチのみならず、インターネットを介して入手可能なデータのサーチも一般的になっている。この種のサーチエンジンは、インターネットサーチエンジンと呼ばれている。
サーチクエリが、しばしば、曖昧であり、且つ、不確定性を伴っているという問題がすべてのサーチエンジンに生じている。サーチクエリ内のサーチ用語は、しばしば、サーチ対象であるデータレコード内に存在する用語に対して正確に対応していない。更には、サーチ用語は、なんらかのタイプミスを含む場合もあるか、または、サーチ用語の文法的に異なる形態を意味するように意図されている場合もある。従って、サーチクエリを処理する際には、サーチクエリの曖昧さと不確定性を考慮することに常に苦心することになる。
欧州特許第1095326B1号明細書は、テキストの形態で保存された情報を検索するサーチシステムを記述する。情報を検索するために、このサーチシステムは、テキスト用のデータ構造としてツリー構造を使用することを伴う。また、尺度を用いてクエリと検索された情報の間のマッチングの程度を決定する。この尺度は、テキストの単語又はシンボルとクエリのそれらとの間の適切なマッチングの程度のための間隔の1つの尺度と、テキストの単語又はシンボルのシーケンスとクエリシーケンスのそれらとの間の適切なマッチングの程度のための間隔の別の尺度と、の組合せを決定する。
欧州特許第1208465B1号明細書は、文書の集合体をサーチするサーチエンジンを記述する。このサーチエンジンの場合、データ処理ユニットが1つのネットワーク内において接続されたノードのグループを形成する。サーチエンジンは、データボリューム及びサーチクエリのクエリレートに関連してスケール可能となるようにカスタマイズされる。
欧州特許第1341009B1号明細書は、インターネットサーチエンジンを動作させる方法を記述する。この方法は、インターネット上のウェブサイト間のリンクをインテリジェントエージェントによって処理することを伴う。コンテンツの関連性を決定するために、訪問を受けたウェブサイトのコンテンツをフィルタリングする。この場合、特定された関連性のあるウェブサイトに対してインデックス付けし、且つ、インデックス付けした主題固有の情報をデータベース内に保存する。フィルタは、ウェブサイトのコンテンツが辞書に基づいて主題固有のフィルタを通過できるようにし、前記フィルタは、ウェブサイトのコンテンツを辞書内において見出された用語と比較する。
欧州特許第1459206B1号明細書は、項目の集合体をサーチするコンピュータ実装方法を記述し、集合体内のそれぞれの項目は、特性のセットを有する。この方法は、二つ以上の特性の第1のセットから形成されたクエリの受け取りを伴う。次いで、距離関数を集合体内の項目のうちの1つ又は複数の項目に対して適用し、且つ、距離関数に基づいて1つ又は複数の結果項目を識別する。この場合、距離関数は、具体的には、特性の第1のセットと項目の特性のセットの間の共通部分内のすべての特性を有する集合体内の項目の数に基づいてクエリと集合体内の項目の間の距離を決定する。
最後に、欧州特許出願公開第1622054A1号明細書、国際出願第2008/085637A2号パンフレット、及び国際出願第2008/137395A1号パンフレットは、データレコードをサーチする更なるサーチ方法及びサーチエンジンを記述する。
更には、Tuan-Quang Nguyenらによる文献"Query expansion using augmented terms in an extended Boolean model", Journal of Computing Science and Engineering Korean Institute of Information Scientists and Engineers South Korea, vol. 2, No 1, March 2008 (2008-03), pages 26-43, ISSN: 1976-4677は、まず、オリジナルのサーチクエリを、例えば、類語辞典から選択された用語によって拡張することを伴うサーチ方法を開示する。これらの更なる用語の選択は、オリジナルのサーチ用語に対する類似性を考慮する。最後に、文書内におけるサーチ用語の同時存在を考慮した更なる用語(増補用語)を追加する。次いで、このようにして拡張されたサーチクエリ内の用語に重み付けを提供し、オリジナルのサーチ用語には、重み付け1が提供され、且つ、追加された用語には、オリジナルのサーチ用語に対する類似性によって左右される重み付けが提供される。但し、不利なことに、誤って綴られた単語は、文書内にまったく存在しないか又はごくまれにしか存在しないため、この文献の方法は、特に、サーチクエリ内の誤って綴られた単語が、その誤って綴られた単語に関する非常に高度な関連性を結果的にもたらすという問題点を解決していない。
本発明は、多数のデータレコードをサーチするコンピュータ実装方法と、コンピュータによって実行することができると共に、多数のデータレコードを取得し、且つ、受け取ったサーチクエリに可能な限り関連した特定のデータレコードを出力する適切なサーチエンジンと、を提供するという技術的な課題に基づいている。
本発明は、請求項1の特徴を有する方法及び請求項12の特徴を有するサーチエンジンにより、この技術的な課題を解決する。有利な改良例及び発展例を従属請求項において見出すことができる。
本発明による方法は、少なくとも1つのサーチ用語を含むサーチクエリを受け取ることを伴う。次いで、サーチ用語に類似するか又は同一である用語を含むサブセットを基準セットから決定する。サーチクエリが複数のサーチ用語を含む場合、基準セットをそれぞれのサーチ用語ごとに別個に決定する。サブセット内のそれぞれの用語ごとに、サーチ用語に対する類似性の尺度を決定し、且つ、用語の存在の確率を決定する。次いで、用語によって左右される重み付け分布をサブセット内の用語に対して適用し、類似性についての高い尺度を有する用語は、類似性についての低い尺度を有する用語よりも、強力に重み付けされる。その後、サブセット内の用語の重み付けされた確率から、用語の変更済みの確率を決定する。
次いで、本発明による方法は、データレコードをサーチクエリに対するその関連性について等級付けすることを伴う。この等級付けは、サブセット内の用語がデータレコード内に存在するかどうかを決定するためのチェックを伴い、且つ、サブセット内の用語がデータレコード内に実際に存在する場合、用語の低い変更済みの確率によって、データレコードの高い関連性等級が結果的にもたらされる。最後に、少なくとも1つのデータレコードサブセットをその関連性等級に基づいて出力する。
サーチクエリ内のサーチ用語の関連性において、そのサーチ用語が、その用語を含むセット内においてどれだけ頻繁に存在するかが重要である。通常、非常に頻繁に存在する用語は、通常、用語のセット内において非常にまれにしか存在しないサーチクエリ内のサーチ用語ほどには、サーチクエリを処理するのに適していない。本発明による方法は、サブセット内のそれぞれの用語ごとに存在の確率を決定することにより、サーチ用語が存在する異なる頻度を考慮する。一例として、これらの用語確率は、例えば、単語の頻度を決定済みである事前に選択されたテキストを使用するなどのように、用語を含む特定のセットを使用することによって事前に決定することができる。更には、用語の存在の確率が関係しているセットを、サーチ対象のデータレコード内に存在している用語のすべてによって形成してもよい。これらのデータレコードは、事前にサーチすると共にインデックス付けすることができる。この場合には、データレコード内のそれぞれの用語ごとに、その用語がデータレコード内に存在する頻度を更に決定することができる。
但し、この場合、第1に、サーチ対象のデータレコードが誤りを含む場合があり、且つ、第2に、サーチクエリ内のサーチ用語も誤りを含む場合があるという問題が生じることになろう。一例として、誤りは、綴りの誤り又はタイプミスであってよい。例えば、ある単語が、データレコード内で、誤った綴りで含まれている場合がある。用語の存在の頻度を決定する場合、サーチ用語内の誤って綴られた単語は、サーチクエリに対する特に高度な関連性を有するという結果をもたらすことになろう。なぜなら、これは、非常に稀にしか生じ得ないからである。同一の状況は、データレコード内に存在するすべての用語から用語の存在の確率を決定する際にも生じる。誤って綴られた単語をデータレコードが含んでいる場合、その単語は、非常に稀にしか存在しない。これは、その単語の存在の確率が非常に低く、且つ、従って、サーチクエリに対するその単語の関連性が非常に高いことを意味している。
本発明による方法は、サーチクエリ内の用語の存在の確率又は頻度を考慮するのみならず、サーチクエリ内のそれぞれのサーチ用語ごとに、そのサーチ用語に関連してデータレコードの後続の関連性の等級付けにおいて考慮される基準セットから、用語を含むサブセットを特定することにより、この問題を解決する。一例として、サブセットは、辞書を使用して決定することができる。この場合の結果は、誤って綴られた単語を含むサーチ用語がサブセットに含まれることにならず、むしろ、サブセットは、正しく綴られた類似した単語のみを含む。
従って、サーチ用語内の単語のその他の文法的な形態をも考慮するために、基準セットは、具体的には、単語のすべての文法的な形態を含む。この結果、これらの形態は、サーチ用語に類似するため、サブセットは、サーチ用語内の単語のみならず、その単語のその他の文法的な形態をも含む。
本発明による方法は、サーチ用語に関するデータレコードの関連性の等級付けの際に、このように決定したこのサブセット内のそれぞれの用語のみを考慮するのではなく、むしろ、本発明は、このサブセット内の用語を、以下のような特定の方式によって考慮する。
サブセット内のそれぞれの用語は、その用語について決定した関連するサーチ用語に対する類似性の尺度を有するため、サブセット内の用語は、その類似性の尺度に基づいて順序付けることができる。従って、変更済みの確率を決定する際に、重み付け分布を使用することにより、その用語に基づいて、サブセット内のその他の用語を考慮する方法を決定する。この場合、類似性についての高い尺度を有する用語は、類似性についての低い尺度を有する用語よりも、強力に重み付けされる。この結果、例えば、タイプミスを含むサーチ用語の場合にも、データレコードの関連性を決定するための基礎として最終的に使用されるこの用語の適切な変更済みの確率に到達することができる。理由は、タイプミスを含むサーチ用語と関連するサブセットは、正しく綴られた用語及びその変形をも含む高い確率を有するからである。次いで、サブセットに含まれるこれらの用語は、変更済みの確率を決定する際にも考慮され、これは、タイプミスを含むサーチ用語が稀にしか存在していないため、この用語がデータレコードの等級付けのための非常に高度な関連性を結果的に有することにはならないことを意味する。また、同様に、サーチ対象のデータレコード内に存在するタイプミスがそのデータレコードの等級付けの不適切な結果をもたらすことを防止することもできる。
本発明による方法の一改良例によれば、重み付け分布は、用語の変更済みの確率の決定において、用語自体の確率と、その1つの用語よりも類似性についての高い尺度を有するその他の用語の確率と、を考慮するような形態を有する。従って、この場合に、重み付け分布は、例えば、サブセット自体内の用語について、且つ、この用語よりも類似性についての高い尺度を有するその他の用語についても、重み付け1を出力し、且つ、類似性についての低い尺度を有するサブセット内の用語については、重み付け0を出力するステップ関数であってよく、この結果、類似性についての低い尺度を有するこれらの用語は、変更済みの確率を決定する際に無視される。従って、用語の変更済みの確率を決定する際には、まず、用語自体の確率が、そして、更には、その用語よりも確率についての高い尺度を有するサブセット内のすべてのその他の用語の確率が、考慮される。
本発明による方法の好適な一改良例によれば、第2の用語tの確率が第1の用語tの変更済みの確率に納まる重み付けをシグモイド関数の評価によって決定し、評価の中心は、第2の用語tの類似性の尺度からの第1用語tの類似性の尺度の減算である。シグモイド関数は、不連続なステップ関数とは対照的に、値0から値1までの連続的な遷移を有するため、本発明による方法のこの改良例は、変更済みの確率が決定される用語よりも類似性についてのわずかに低い尺度を有するサブセット内の用語をも考慮することができる。この結果、変更済みの確率に基づいて等級付けされるデータレコードの関連性の更なる改善が可能となる。
本発明による方法の更なる改良例によれば、重み付け分布は、用語の変更済みの確率の決定において、類似性についての低い尺度を有する低い重み付けを有するその他の用語の確率をも考慮するような形態を有し、類似性についての低い尺度を有する別の用語の重み付けは、変更済みの確率が決定される用語の類似性の尺度とその他の用語の類似性の尺度の間の差によって左右される。具体的には、類似性についての低い尺度を有する別の用語の重み付けは、変更済みの確率が決定される用語の類似性の尺度との間の差の絶対値が小さいほど、大きくなる。これは、サブセット内のそれぞれの用語の変更済みの確率を決定するために、且つ、従って、データレコードの関連性を等級付けするために、任意のその他の関数を適用することにより、類似性についての低い尺度を有する用語を考慮できることを意味している。
ある用語の変更済みの用語確率は、(一般化された意味における)サーチ用語に対する類似性が、そのある用語の類似性を上回るすべての用語の組合せの確率である。但し、データレコードを等級付けするためには、このような用語を含むデータレコードの確率を特定することが有意義である。データレコードは、多くの用語を含むため、この確率は相対的に大きい。この観点において、本発明による方法の一発展例によれば、変更済みの確率の算出は、サーチ対象のデータレコードにおけるデータレコード当たりの用語の数の分布を考慮する中間ステップの導入を更に伴う。具体的には、これは、データレコードが複数の類似の用語を同時に含むことができるという事実を考慮している。
一例として、データレコードの等級は、関連する用語の変更済みの確率の対数の絶対値から取得してもよい。この結果、用語の変更済みの確率を決定するために考慮すべき用語の様々な確率を組み合わせることが容易になる。
サブセット内の用語の存在の確率は、具体的には、用語と関連した確率を基準セット内又はデータレコード内の用語の頻度から事前に特定すると共にメモリ内に保存し、且つ、保存した用語の確率を後からメモリから読み取ることにより、決定する。この確率の事前決定により、方法の実行を加速させると共に単純化することができる。更には、基準セットを選択することにより、セット内の用語の、即ち、例えば、テキスト内の単語の、存在の頻度に関する一般的な分析を手段として使用することが可能となる。最後に、データレコード内の用語の存在の頻度を考慮することにより、特定のデータレコードに対してカスタマイズされた確率を特定することができる。例えば、データレコードが製品データベースである場合、特定の単語の存在の頻度は、別のタイプの一般的なテキストから決定した頻度とは異なるであろう。
本発明による方法の一拡張例によれば、サーチクエリは、複数のサーチ用語を含む。この場合、それぞれのサーチ用語ごとに部分的等級を別個に決定する。更には、サーチ用語から編集されたサーチクエリについて更なる部分的等級を決定する。次いで、部分的等級からサーチクエリの等級を決定する。
更には、この方法において、データレコードの関連性の等級付けは、データレコードが、サブセット内の用語がこのデータレコード内においてより頻繁に存在する際に、高く等級付けされることを伴う。一例として、データレコードは、サブセット内の用語がこのデータレコード内において頻繁に存在しているほど、高く等級付けすることができる。この結果、データレコードの関連性を等級付けするために、サブセット内の1つの用語及び更なる用語の存在の確率のみならず、等級付け対象のデータレコード内の用語の存在の具体的な頻度をも使用することができる。また、この尺度により、データレコードの関連性の等級付けの更なる改善が結果的にもたらされる。
一例として、データレコードは、毎回、複数のフィールドを含んでもよい。一例として、これは、データレコードが製品データベースに関係している際に、特に当て嵌まる。この場合、データレコードの関連性を等級付けするために、特定のフィールドがより重要であり、対照的に、その他のフィールドは、あまり重要ではない。この理由から、この場合、本発明による方法は、好ましくは、データレコードの関連性が、サブセット内の用語がデータレコード内において存在しているフィールドに基づいて、更に等級付けされることを伴う。用語が特に重要なフィールドに存在する場合、その結果、データレコードは、用語があまり重要ではないフィールドに存在する場合よりも、高く等級付けされることになる。
また、本発明は、プログラムコードがコンピュータによって実行された際に上述の方法を実行するプログラムコードを有するコンピュータプログラムプロダクトにも関する。具体的には、コンピュータプログラムプロダクトは、コンピュータソフトウェア用の任意のストレージ媒体であってよい。
コンピュータによって実行することができる本発明のサーチエンジンは、少なくとも1つのサーチ用語を含むサーチクエリを受け取るための受け取りユニットを有する。一例として、サーチクエリは、インターネットなどのネットワークを介して受け取ることができる。更には、サーチエンジンは、サーチ用語に類似するか又は同一である用語を含むサブセットを特定するための手段を有する。このサブセットは、具体的には、基準セットから特定される。
更には、本発明によるサーチエンジンは、サブセット内のそれぞれの用語ごとに変更済みの確率を決定するための手段を有する。変更済みの確率を決定するためのこれらの手段は、サーチ用語に対する個々の用語の類似性の尺度を決定することが可能であり、用語の存在の確率を決定することが可能であり、且つ、用語によって左右される重み付け分布をサブセット内の用語に対して適用することができるような形態を有し、この場合、サーチ用語に対して、類似性についての高い尺度を有する用語は、類似性についての低い尺度を有する用語よりも、強力に重み付けされ、且つ、用語の変更済みの確率は、サブセット内の用語の重み付けされた確率から決定することができる。
更には、本発明によるサーチエンジンは、サーチクエリに対するその関連性についてデータレコードを等級付けするための等級付けユニットを有する。具体的には、この等級付けユニットを使用することにより、サブセット内の用語がデータレコード内に存在するかどうかをチェックすることが可能であり、且つ、サブセット内の用語がデータレコード内に存在する場合、用語の相対的に低い変更済みの確率は、データレコードが相対的に高く等級付けされることを結果的にもたらす。
最後に、本発明によるサーチエンジンは、データレコードサブセットをその関連性等級に基づいて出力するための出力ユニットを有する。
具体的には、本発明のサーチエンジンは、上述の方法を実行することができるような形態を有する。従って、本発明のサーチエンジンも、上述の方法と同一の利点を有する。
本発明によるサーチエンジンの一改良例によれば、本発明のサーチエンジンは、用語を含む基準セット又はデータレコード内に存在する用語を含むセットと、用語と関連する確率と、を保存するメモリを有する。この場合、確率は、具体的には、基準セット内又はサーチ対象であるデータレコード内の用語の存在の頻度から取得される。
以下、添付図面を参照し、例示用の実施形態を使用して本発明について説明する。
本発明の例示用の一実施形態によるサーチエンジンの基本設計を概略的に示す図である。 本発明による方法の例示用の一実施形態を実装するためのステップを示す図である。
以下において説明する例示用の実施形態は、製品データベースDのサーチに関する。この製品データベースDは、それぞれの製品ごとに、データレコードdを保存している。そして、それぞれのデータレコードdは、例えば、製品の価格、製品の色、製品の材料、又は製品のその他の関連する特徴に関係してもよい複数のフィールドに分割してもよい。
製品データベースDは、オンラインショップとの関連においてユーザーのために提供される。図1に概略的に示すように、ユーザーは、自身のコンピュータ3を使用し、インターネット2を介してウェブサイトにアクセスすることが可能であり、ウェブサイトは、オンラインショップの中央ユニット1によって提供される。ユーザーは、自身のコンピュータ3を使用し、サーチクエリQをインターネット2を介してオンラインショップに送信することが可能であり、サーチクエリQは、オンラインショップの中央ユニット1内の受け取りユニット4によって受け取られる。受け取りユニット4は、サーチクエリQ内のサーチ用語qに類似するか又は同一である用語を含むサブセットVを特定するために、サーチクエリQを装置5に送信する。この目的のために、中央ユニット1は、メモリ11に結合される。このメモリ11は、第1に、製品データベースDを含んでもよい。第2に、メモリ11は、用語tを含む基準セットTを含む。一例として、基準セットTは、単語のデータベースであり、このデータベースは、基本的に1つの言語又は複数の言語においてすべての単語を含むか、又は製品データベース内に生じてもよいすべての単語を含む。従って、この場合に、用語tは、具体的には、単語である。
また、メモリ11は、それぞれの用語tごとに、確率pを保存する。この用語tの確率pは、この用語tが用語を含むセット内に存在する確率を示す。具体的には、これらの確率pは、特定の単語が特定の言語のテキストに存在する頻度から導出することができる。これらの存在の頻度は、それ自体が既知であり、従って、事前にメモリ11内に保存することができる。この代わりに、特定の用語tがデータベースD内に存在する頻度を決定することもできる。次いで、この存在の頻度から、用語tがデータベースD内に存在している確率pを決定することができる。
装置5が用語tを含むサブセットVを決定したとき、装置6を用いて、サブセットV内のそれぞれの用語tごとに、個々の用語tの類似性の尺度を決定する。類似性の尺度は、用語tがサーチクエリQ内のサーチ用語qに対してどれほど類似するかを示す。
装置6は、装置7に結合され、装置7は、用語tの存在の確率pを決定することができる。一例として、装置7は、この確率pをメモリ11から容易に読み取ることが可能であり、メモリ11は、上述のように事前に特定したこれらの確率を保存する。
装置7は、装置8に結合され、装置8内においては、サブセットV内の用語tによって左右される重み付け分布XをサブセットV内のすべての用語tに対して適用することができる。重み付け分布Xを適用することにより、サブセットV内の用語tの重み付けされた確率が得られる。これらの重み付けされた確率から、装置8は、変更済みの用語確率p”を決定することができる。更には、この装置は、(例えば、メモリ11にアクセスすることによって)データレコード当たりの用語の数を考慮することもできる。これにより、データレコード内に存在する用語t又はより類似する用語の変更済みの確率p’が得られる。
変更済みの確率p’は、装置8により、等級付けユニット9に送信される。等級付けユニット9は、サーチクエリQに対するその関連性についてデータレコードdを等級付けする。この目的のために、等級付けユニット9は、メモリ11にアクセスし、且つ、製品データベースD内のそれぞれのデータレコードdごとに、サブセットV内の用語tがデータベースd内に存在するかどうかをチェックする。サブセットV内の用語tがデータレコードd内に実際に存在する場合、等級付けユニット9は、存在する用語tの変更済みの確率p’を考慮することにより、データレコードdを等級付けする。
等級付けユニット9は、関連性等級を出力ユニット10に送信する。出力ユニット10は、データレコードサブセットをその関連性等級に基づいて決定する。一例として、出力ユニットは、その関連性等級の順番において最高の関連性等級が提供された特定の数のデータレコードdを出力することができる。この出力は、例えば、ユーザーのコンピュータ3上に表示されるウェブサイト上の表示により、インターネット2を介してユーザーのコンピュータ3に提供することができる。
上述の中央ユニット1の装置に関する詳細については、本発明による方法の例示用の実施形態の説明との関連において後述する。
以下においては、製品データベースDが衣料品用のデータレコードdを含むものと仮定する。一例として、製品データベースDは、300個のデータレコードを含むことができる。従って、製品データベースDは、データレコードd、d、...、d300を有する。
また、以下においては、製品データベースD内の15個のデータレコードが、単語「Shirt」を含み、且つ、製品データベース内の60個のデータレコードが、単語「blaues」を含むものと仮定する。従って、データレコードの5%は、単語「Shirt」を含み、且つ、データレコードの20%が、単語「blaues」を含んでいる。更には、ものごとを単純化させるために、当初、これらの単語は、それぞれのデータレコードd内において一度も存在しないものと仮定する。
このような場合、サーチエンジンは、逆文書頻度を考慮することが一般的である。これは、まれな単語を含むデータレコードdに、頻繁に存在する単語を含むデータレコードdよりも高い関連性を割り当てることを伴う。従って、上述の例においては、単語「Shirt」を含むデータレコードには、単語「blaues」を含むデータレコードdよりも高い関連性が割り当てられる。更には、2つの単語「blaues」及び「Shirt」を含むデータレコードdが特定される。これら2つの単語が相関していないと仮定すれば、それは、ちょうど3つのデータレコードであると予想することができる。これは、これらの単語がデータレコードd内に存在する2つの確率の積、即ち、確率pblaues=0.2に確率pShirt=0.05を乗算することにより、算出される。従って、これら2つの単語がデータレコードd内に含まれる確率は、0.01(1%)である。
サーチクエリQに対するデータレコードdの関連性は、そのデータレコードd内に存在すると共にサーチクエリが関係する単語の確率の積が小さい際に、高い。データレコードdが特有のものであるほど、その関連性は高くなる。従って、個々の確率をより容易にリンクすることができるように、確率の対数の絶対値を形成することが好ましい。この絶対値は、関連性に伴って増大し、且つ、個々の確率に対して加法的に機能する。以前の例においては、データレコードdが単語「blaues」を含む対数確率は、0.7であり、データレコードdが単語「Shirt」を含む対数確率は、1.3であり、且つ、データレコードdが両方の単語を含む対数確率は、2である。
以下、図2を参照し、本発明による方法について詳細に説明するが、該方法は、用語の存在の逆頻度を考慮した既知の方法を変更している。
ステップ20において、ユーザーは、サーチ用語qを含むサーチクエリQを生成する。ここで、iは自然数である。上述の例と同様に、サーチ用語qは「Shirt」としてもよく、サーチ用語qは「blaues」としてもよい。
次いで、ステップ21において、第1のサーチ用語qに類似するか又は同一である用語tを含むサブセットVを基準セットTから特定する。上述のように、基準セットTは、1つの言語においてすべての単語を収容する単語データベースであってよい。2つの文字列の類似性を自動的に等級付けするための方法が、それ自体、知られている。この場合、基準セットT内の用語tのすべてに対するサーチ用語qの類似性を特定することにより、サブセットVが特定される。特定の類似性の範囲内にある用語tがサブセットV内に含まれる。類似性を自動的に等級付けする方法は、例えば、国際公開第2007/144199A1号パンフレットに記述され、該開示内容は、参照により、本明細書に含まれる。
従って、サブセットVは、例えば、3つの用語t、t、及びtを含んでもよい。上述の例においては、サーチ用語「Shirt」について、以下のサブセットV{Shirt,Shirts,T−Shirt}を特定することができる。第2のサーチ用語「blaues」について、以下のサブセットV{blaues,blau,blaue}を特定することができる。
サブセットVは、基準セットTの要素のみを含むことができることを指摘しておく。従って、サーチクエリQが誤って綴られた単語を含む場合、その単語が基準セットT内に含まれていないため、その単語は、サブセットV内に含まれない。これにより、サーチクエリQ内の誤って綴られた単語は非常に稀にしか存在しないため、非常に高い関連性が割り当てられないように、それらの単語を除去することができる。それにも関わらず、製品データベースDの関連性を等級付けする際には、誤って綴られた単語も考慮される。その理由は、誤って綴られた単語の代わりに、誤って綴られた単語に類似した用語を含むサブセットVが考慮されるためである。この観点において、本発明による方法は、誤り耐性を有する。
サブセットV内の用語t、t、及びtは、製品データベースD内のデータレコードdの関連性を等級付けする方法において考慮されるが、サブセットV内のそれぞれの用語tの関連性は、この等級付けのために別個に決定される。これは、サブセットV内のすべての用語tが、製品データベースDを等級付けするために、同一の関連性を有する必要はないことを意味している。この観点において、ステップ22において、サブセットV内のそれぞれの用語tごとに、この用語tと基礎をなすサーチ用語qの間の類似性の尺度Aijを決定する。また、一例として、国際公開第2007/144199A1号パンフレットに記述される方法を使用し、この類似性の尺度Aijを決定することもできる。従って、サーチ用語qに対して含まれる用語tの類似性の尺度Aijに基づいて、サブセットVをソートすることができる。サーチ用語q自体がサブセットV内に含まれる場合、サブセットV内のその用語tは、サーチ用語qと同一であるため、最大の類似性の尺度Aijを有する。類似性の尺度Aijが減少するのに伴って、サブセットV内の更なる用語tが後続する。
従って、サーチ用語「blaues」の場合には、以下のソートされたサブセットV、例えば:1.blaues、2.blaue、3.blauを得ることができる。
次いで、ステップ23において、サブセットV内の用語tの確率pを決定する。これは、ランダムに選択された場合に用語tがデータベースDから引き出される確率pである。これとは対照的に、上述の関連性の尺度(逆文書頻度)の場合、文書、即ち、データレコードの頻度が検討される。上述のように、これは、サブセットT内の用語tが、存在する、即ち、特定のテキスト内に又はデータレコードd内に存在する事前に保存された確率pがメモリ11から読み取られることを伴う。本明細書に具体的に記述される方法の場合、一例として、単語「blaues」が0.02の確率によって存在し、単語「blaue」が0.01の確率によって存在し、且つ、単語「blau」が0.01の確率によって同様に存在することができる。更に、単語「blaues」、「blaue」、及び「blau」のうちの1つが存在する確率を更に決定することができる。この確率は、0.04である。
次いで、ステップ24において、サブセットV内のそれぞれの用語tごとに、重み付け分布Xを適用する。この場合、重み付け分布Xのタイプは、検討対象であるサブセットV内のその用語tによって左右される。最も単純な場合、重み付け分布Xは、検討対象である用語tについて、且つ、現在検討中である用語tよりも類似性についての高い尺度Aikを有するサブセットV内のその他の用語tについて、重み付け1を出力するステップ関数である。従って、この場合、重み付け分布Xは、検討対象の用語tよりも類似性についての低い尺度Aを有するサブセットV内のすべての用語tを除外するフィルタとして機能する。
次いで、ステップ25において、重み付けされた確率から変更済みの用語確率p”を決定し、即ち、用語tについて変更済みの確率p’を決定する。
特定の例において単語「blaues」を検討すれば、この単語は、サーチ用語「blaues」と同一であるため、結果として、この単語が、類似性についての最も高い尺度Aを有する。従って、単語「blaues」の変更済みの用語確率p”は、単語「blaues」の確率pに対応する。
一方、単語「blaue」を検討すれば、結果は、単語「blaues」が、類似性についてのより高い尺度Aを有し、単語「blau」は、類似性についての更に低い尺度Aを有することとなる。従って、単語「blaue」の変更済みの用語確率p”の決定において、単語「blaue」の変更済みの用語角度p”を決定するとき、単語「blaue」の−1によって重み付けされた−確率pと、単語「blaues」の−1によって重み付けされた−確率pと、を考慮する。
最後に、単語「blau」の変更済みの用語確率p”を決定するとき、結果は、単語「blaues」及び「blaue」が、単語「blau」よりも、類似性についての高い尺度Aを有することとなり、これは、単語「blau」の変更済みの用語確率p”の決定において、それぞれが1によって重み付けされた単語「blau」、「blaue」、及び「blaues」のすべての確率を考慮することを意味する。
従って、単語「blaues」について得られる変更済みの用語確率p”は、0.02であり(単語「blaues」の確率)、単語「blaue」について得られる変更済みの確率p”は、0.03であり(単語「blaue」または「blaues」の確率)、且つ、単語「blau」について得られる変更済みの確率p”は、0.04である(単語「blau」、「bulaue」、または「blaues」の確率)。
ステップ26において、データレコードを等級付けするために、用語を含むデータレコードの確率を算出することが有意義であり、且つ、この目的のために、データレコード当たりの用語の数を考慮することが有意義である。これは、事前に特定及び保存することができる分布を有する。一例として、データレコード当たりの用語の平均数を特定することができる。この代わりに、正確な計算も可能である。300個のデータレコードを有する例の場合、これらのうちの150個が5つの用語を有するものと考え、且つ、更なる150個が10個の用語と有するものと考える。例えば、「blaues」などのある用語を含む5つの用語の組合せの確率は、1−(1−p’)^5によって算出することができる。カッコ内の表現は、用語が明らかに「blaues」ではない確率を示す。次いで、5という指数は、5つの用語の組合せが用語「blaues」を含まない確率を付与する。そして、表現の全体は、長さ5のデータレコードが用語を含む正しい確率を付与する。長さ10のデータレコードの場合には、表現は、1−(1−p’)^10として得られる。但し、この例において、150個のデータレコードは、それぞれ、長さ5を有し、且つ、150個のデータレコードは、それぞれ、長さ10を有する。この結果、これは、用語「blaues」を含む任意のデータレコードの全体的な確率を次のように生成する。
Figure 2013536519
これは、用語「blaues」を含むデータレコードの変更済みの確率0.14を付与する。同一の方法に基づいて、変更済みの確率は、次式のようになり、p’’(=0.20)及びp”z(=0.26)が算出される。
Figure 2013536519
次いで、ステップ27において、サーチクエリQに対するデータレコードdの関連性rを等級付けする。これは、サブセットV内のそれぞれの用語tについてチェックを実行し、データレコードd内に存在するかどうかを決定することを伴う。サブセットV内の用語tがデータレコードd内に実際に存在する場合、このデータレコードdには、サブセットV内の用語tが存在しないデータレコードdよりも高い関連性rが提供される。更には、低い変更済みの確率p’を有する用語tが存在するデータレコードdには、高い変更済みの確率p’を有する用語tが存在するデータレコードdよりも高い関連性の等級rが提供される。更には、データレコードdの関連性等級rは、サブセットV内の用語tがこのデータレコード内において頻繁に存在するほど、更に大きくなる。最後に、データレコードdの個々のフィールドを異なる方式によって重み付けすることもできる。用語tがデータレコードdのフィールド内に存在するとき、同一の用語tがデータレコードdの別のあまり重要ではないフィールド内に存在する場合よりも大きなデータレコードdのより高い関連性等級rが結果的に得られる。
サーチクエリQが複数のサーチ用語qを含むとき、上述の関連性rの等級付けは、すべてのサーチ用語qについて実行される。従って、特定の例において、単語「Shirt」について用語tを含むサブセットVも特定される。上述のように、このサブセットVは、例えば、単語「Shirt」、「Shirts」、「T−Shirt」を含んでもよい。従って、上述のように、サーチ用語「Shirt」について、このサブセットV内のそれぞれの用語tの変更済みの確率p’が決定される。この場合、例えば、単語「Shirt」について得られる変更済みの確率は、0.05であり(単語「Shirt」の確率)、このサブセットV内の単語「Shirts」について得られる変更済みの確率は、0.07であり(単語「Shirt」又は「Shirts」の確率)、且つ、このサブセットV内の単語「T−Shirt」について得られる変更済みの確率は、0.14である(単語「Shirt」、「T−Shirt」、又は「Shirts」の確率)。
次いで、オリジナルのサーチクエリ「blaues Shirt」の関連性等級付けを実行ことができる。データレコードdが用語「blaues Shirt」を含む確率は0.007であり、且つ、これは、2.14という関連性等級を結果的にもたらす。データレコードdが用語「blaue Shirts」を含む場合、0.015という変更済みの確率が得られる(これは、「blaue」(0.20)と「Shirts」(0.07)の変更済みの確率の積である)。これは、このデータレコードdの1.84(0.015の対数の絶対値)という関連性等級を結果的にもたらす。データレコードdが用語「T−Shirt blau」を含む場合、0.036という変更済みの確率が得られる。これは、データレコードdの1.4という関連性等級を結果的にもたらす。
最後に、複数のサーチ用語qの場合には、データレコードd内の個々のサブセットV内の用語tの存在の順序及び位置を考慮することもできる。サーチクエリQがサーチ用語q、qをこの順序において含み、且つ、データレコードdが、第1に、第1サーチ用語qに属するサブセットV内の用語tを、そして、第2に、第2サーチ用語qに属するもう1つのサブセットV内の用語tを含む場合、この結果、用語が逆の順序で存在する場合よりも高い関連性等級が得られる。更には、データレコードdは、2つのサブセット内の用語tが近接して一緒に存在するとき、更に高い関連性によって等級付けされる。2つのサーチ用語q及びqにおける2つのサブセット内の用語tが、連続的に、特に、正しい順序において、存在するとき、特に高い関連性等級が得られる。2つのサーチ用語における2つのサブセット内の用語tが、データレコードd内において互いに離れて存在しているほど、それらが、例えば、製品説明などの異なる言語学上の文脈において存在する確率は大きくなり、これは、用語tの存在が低い関連性等級を結果的にもたらすことを意味している。この場合にも、同一の又は更に良好な位置にサーチ用語又はサブセットV内の用語tを含むデータレコードの確率を特定するという上述の同一の原理を適用することができる。この場合には、データレコードd内の用語tの位置が、独立したランダムな変数であるものと仮定される。
それぞれのデータレコードdについて関連性rの等級付けを実行した後に、ステップ28において、最高の関連性等級rを有するデータレコードd、d、d、...を含むリストを生成する。次いで、このリストを関連性等級rの順序において出力する。
以下、本発明による方法の第2の例示用の実施形態について説明する。
第2の例示用の実施形態は、上述の第1の例示用の実施形態とは、重み付け分布Xが異なる。第2の例示用の実施形態において、確率分布Xは、シグモイド関数である。シグモイド関数において、2つの値0と1の間において連続した遷移が得られる。これによって実現される効果は、類似性についての小さな尺度Aを有するが、その類似性の尺度が、変更済みの確率p’が特定される用語tに非常に近接しているサブセットV内の用語tが−第1の例示用の実施形態のように−無視されることがなく、むしろ、低い重み付けによって考慮されるというものである。
但し、シグモイド関数から特定される重み付けは0に近いため、検討対象の用語tよりも、類似性についての格段に低い尺度Aを有する用語tは、実際には、継続的に無視される。
第2の例示用の実施形態において、シグモイド関数を評価することにより、第2の用語tの確率pが第1の用語tの変更済みの用語確率p”内に納まる重み付けを決定し、評価の中心は、第2の用語tの類似性の尺度Aikからの第1の用語tの類似性の尺度Aijの減算である。以下、サーチ用語(qi)「Sympathie」の例を用いて説明する。この観点において、装置5(ステップ21)は、類似した用語のセット(V)を特定し、且つ、装置6及び7(ステップ22、23)は、関連する類似性及び用語確率を特定する。
Figure 2013536519
次いで、装置8(ステップ24)は、シグモイド関数を使用し、重み付け分布を特定する。1つの可能性として、このような関数は累積ガウス正規分布である。装置8によって算出された類似性の差を(関連する重み付けと共に)次の表に示す。
Figure 2013536519
次いで、重み付けをオリジナルの用語確率に対して適用することにより、次のように変更済みの用語確率が得られる。
Figure 2013536519
これは、類似性についての大きな尺度を有する用語が、変更済みの小さな用語確率を有する用語よりも、強力に、変更済みの用語確率内に納まるという本発明による特性を結果的にもたらす。
データベースが以前の例示用の実施形態と同一のデータレコード当たりの用語の分布を有すると仮定すれば、即ち、150個のデータレコードが5つの用語を有し、且つ、150個のデータレコードが10個の用語を有すると仮定すれば、個々の変更済みの確率p’、p’、p’、p’、p’は、次の既に特定された公式によって算出される(ステップ26)。
Figure 2013536519
次いで、これらの変更済みの確率は、本発明による以前の例示用の実施形態と同様に、等級付けユニット9に送信される。
上述の方法ステップは、ハードウェアコンポーネントとして又はソフトウェアとして実装することができる。ソフトウェアは、データストレージ媒体上に、即ち、コンピュータプログラムプロダクト上に、保存してもよい。ソフトウェアが収容するプログラムコードは、プログラムコードがコンピュータによって実行された際に上述の方法を実行するのに適している。

Claims (13)

  1. 多数(D)のデータレコード(d)をサーチするコンピュータ実装方法であって、
    −少なくとも1つのサーチ用語(q)を含むサーチクエリ(Q)を受け取り、
    −前記サーチ用語(q)に類似するか又は同一である用語(t)を含むサブセット(V)を、基準セット(T)から特定し、
    −前記サブセット(V)内のそれぞれの用語(t)ごとに、
    −前記サーチ用語(q)に対する類似性の尺度(A)を決定し、
    −前記用語(t)の存在の確率(p)を決定し、
    −前記用語(t)によって左右される重み付け分布(X)を、前記サブセット(V)内の前記用語(t)に対して適用し、この場合、類似性についての高い尺度(A)を有する用語(t)が、類似性についての低い尺度(A)を有する用語(t)よりも強力に重み付けされ、且つ、
    −前記用語(t)の変更済みの確率(p’、p”)を、前記サブセット(V)内の前記用語(t)の前記重み付けされた確率から決定し、
    −前記データレコード(d)を、前記サーチクエリ(Q)に対するその関連性(R)について等級付けし、この場合に、
    −前記サブセット(V)内の前記用語(t)が前記データレコード(d)内に存在しているかどうかを決定するためのチェックを実行し、且つ、
    −前記サブセット(V)内の用語(t)が前記データレコード(d)内に実際に存在する場合、前記用語(t)の低い変更済みの確率(p’、p”)により、前記データレコード(d)の高い関連性等級が結果的にもたらされ、且つ、
    −少なくとも1つのデータレコードサブセットがその関連性等級(R)に基づいて出力される、方法。
  2. 前記重み付け分布(X)は、用語(t)の前記変更済みの確率(p’、p”)の前記決定が、前記用語(t)の前記確率(p)それ自身と、前記ある用語(t)よりも類似性についての高い尺度(A)を有するその他の用語(t)の確率(p)と、を考慮するような形態を有することを特徴とする請求項1に記載の方法。
  3. 第2の用語(t)の確率(p)が第1の用語(t)の前記変更済みの確率(p’、p”)内に納まる前記重み付け(X)がシグモイド関数の評価によって決定され、前記評価の中心は、前記第2の用語(t)の前記類似性の尺度(A)からの前記第1の用語(t)の前記類似性の尺度(A)の減算であることを特徴とする請求項1に記載の方法。
  4. 前記重み付け分布(X)は、用語(t)の前記変更済みの確率(p’、p”)の前記決定において、類似性についての低い尺度(A)を有する低い重み付けを有するその他の用語(t)の確率(p)をも考慮するような形態を有しており、類似性についての低い尺度を有する別の用語(t)の前記重み付けは、前記変更済みの確率(p’、p”)が決定される前記用語(t)の前記類似性の尺度(A)と前記その他の用語(t)の前記類似性の尺度(A)の間の差によって左右されることを特徴とする請求項1又は2に記載の方法。
  5. 前記変更済みの確率(p’、p”)の前記決定は、データレコード当たりの用語の数の分布を考慮する中間ステップの挿入を伴うことを特徴とする請求項1乃至4のいずれかに記載の方法。
  6. データレコード(d)の前記等級は、前記関連する用語(t)の前記変更済みの確率(p’、p”)の対数の絶対値から得られることを特徴とする請求項1乃至5のいずれかに記載の方法。
  7. 前記サブセット(V)内の用語(t)の前記確率(p)は、前記用語(t)と関連する前記確率(p)が、前記基準セット(T)内又は前記データレコード(d)内における前記用語(t)の存在の頻度から事前に特定されると共にメモリ(11)内に保存され、且つ、前記用語(t)の前記保存された確率(p)が前記メモリ(11)から読み取られることによって決定されることを特徴とする請求項1乃至6のいずれかに記載の方法。
  8. 前記データレコード(d)の前記関連性等級付けは、データレコードが、前記サブセット(V)内の用語(t)がこのデータレコード内に頻繁に存在する際に、高く等級付けされることを伴うことを特徴とする請求項1乃至7のいずれかに記載の方法。
  9. 前記データレコード(d)は、それぞれ、複数のフィールドを含み、且つ、データレコード(d)の前記関連性(r)は、前記サブセット(V)内の用語(t)が前記データレコード(d)内において存在しているフィールドに基づいて更に等級付けされることを特徴とする請求項1乃至8のいずれかに記載の方法。
  10. 前記サーチクエリ(Q)は、複数のサーチ用語(q)を含み、且つ、
    部分的等級が、それぞれのサーチ用語(q)ごとに、別個に決定され、且つ、
    更なる部分的等級が、前記サーチ用語(q)から編集された前記サーチクエリ(Q)について決定され、且つ、
    前記サーチクエリ(Q)の前記等級(R)は、前記部分的等級から決定されることを特徴とする請求項1乃至9のいずれかに記載の方法。
  11. プログラムコードがコンピュータによって実行されるときに請求項1乃至10のいずれかに記載の方法を実行する該プログラムコードを有するコンピュータプログラムプロダクト。
  12. コンピュータによって実行することができるサーチエンジンであって、
    −少なくとも1つのサーチ用語(q)を含むサーチクエリ(Q)を受け取るための受け取りユニット(4)と、
    −前記サーチ用語(q)に類似するか又は同一である用語(t)を含むサブセット(V)を特定するための手段(5)と、
    −前記サブセット(V)内のそれぞれの用語(t)について変更済みの確率(p’、p”)を決定するための手段(6〜8)であって、
    −前記サーチ用語(q)に対する類似性の尺度(A)を決定し、
    −前記用語(t)の存在の確率(p)を決定し、
    −前記用語(t)によって左右される重み付け分布(X)を前記サブセット(V)内の前記用語(t)に対して適用し、この場合に、類似性についての高い尺度(t)を有する前記用語(t)が、類似性についての低い尺度(A)を有する用語(t)よりも強力に重み付けされ、且つ、
    −前記サブセット(V)内の前記用語(t)の前記重み付けされた確率から前記用語(t)の前記変更済みの確率(p’、p”)を決定する、のに用いることができる手段(6〜8)と、
    −前記サーチクエリ(Q)に対するその関連性についてデータレコード(d)を等級付けするための等級付けユニット(9)であって、
    −前記サブセット(V)内の前記用語(t)が前記データレコード(d)内に存在しているかどうかをチェックすることが可能であり、且つ、
    −前記サブセット(V)内の用語(t)が前記データレコード(d)内に実際に存在する場合、前記用語(t)の低い変更済みの確率(p’、p”)によって、前記データレコード(d)の高い等級付け(r)が結果的にもたらされる、等級付けユニット(9)と、
    −少なくとも1つのデータレコードサブセットをその関連性等級(R)に基づいて出力するための出力ユニット(10)と、
    を有するサーチエンジン。
  13. 前記サーチエンジンは、用語(t)を含む基準セット(T)又は前記データレコード(d)内に存在する前記用語(t)を含むセットと、前記用語(t)と関連する前記確率(p)と、を保存するメモリ(11)を有することを特徴とする請求項12に記載のサーチエンジン。
JP2013525253A 2010-08-25 2011-08-17 多数のデータレコードをサーチする方法及びサーチエンジン Active JP5890413B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10174043.9 2010-08-25
EP20100174043 EP2423830A1 (de) 2010-08-25 2010-08-25 Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
PCT/EP2011/064163 WO2012025439A1 (de) 2010-08-25 2011-08-17 Verfahren zum suchen in einer vielzahl von datensätzen und suchmaschine

Publications (2)

Publication Number Publication Date
JP2013536519A true JP2013536519A (ja) 2013-09-19
JP5890413B2 JP5890413B2 (ja) 2016-03-22

Family

ID=42791041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013525253A Active JP5890413B2 (ja) 2010-08-25 2011-08-17 多数のデータレコードをサーチする方法及びサーチエンジン

Country Status (7)

Country Link
US (1) US9087119B2 (ja)
EP (1) EP2423830A1 (ja)
JP (1) JP5890413B2 (ja)
CN (1) CN103098052B (ja)
BR (1) BR112013004243A2 (ja)
RU (1) RU2013112783A (ja)
WO (1) WO2012025439A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9335885B1 (en) * 2011-10-01 2016-05-10 BioFortis, Inc. Generating user interface for viewing data records
EP3089097A1 (de) 2015-04-28 2016-11-02 Omikron Data Quality GmbH Verfahren zum erzeugen von prioritätsdaten für produkte

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置
JP2005309760A (ja) * 2004-04-21 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> 検索語ランキング算出方法及び装置及びプログラム
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
US20100070506A1 (en) * 2008-03-18 2010-03-18 Korea Advanced Institute Of Science And Technology Query Expansion Method Using Augmented Terms for Improving Precision Without Degrading Recall

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
DE69735732T2 (de) 1996-09-24 2006-09-21 Seiko Epson Corp. Beleuchtungsvorrichtung und diese verwendende Anzeigevorrichtung
NO983175L (no) 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
NO992269D0 (no) 1999-05-10 1999-05-10 Fast Search & Transfer Asa S°kemotor med todimensjonalt skalerbart, parallell arkitektur
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
US20030120630A1 (en) 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
US7599914B2 (en) 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
US8032517B2 (en) 2006-06-16 2011-10-04 Omikron Data Quality Gmbh Method for the automatic evaluation of the similarity of two character strings that are stored in a computer
US20080082511A1 (en) * 2006-08-31 2008-04-03 Williams Frank J Methods for providing, displaying and suggesting results involving synonyms, similarities and others
US7739264B2 (en) * 2006-11-15 2010-06-15 Yahoo! Inc. System and method for generating substitutable queries on the basis of one or more features
US7630972B2 (en) 2007-01-05 2009-12-08 Yahoo! Inc. Clustered search processing
US7693902B2 (en) 2007-05-02 2010-04-06 Yahoo! Inc. Enabling clustered search processing via text messaging

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置
JP2005309760A (ja) * 2004-04-21 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> 検索語ランキング算出方法及び装置及びプログラム
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
US20100070506A1 (en) * 2008-03-18 2010-03-18 Korea Advanced Institute Of Science And Technology Query Expansion Method Using Augmented Terms for Improving Precision Without Degrading Recall

Also Published As

Publication number Publication date
JP5890413B2 (ja) 2016-03-22
US20130151499A1 (en) 2013-06-13
US9087119B2 (en) 2015-07-21
CN103098052B (zh) 2017-05-24
RU2013112783A (ru) 2014-09-27
CN103098052A (zh) 2013-05-08
BR112013004243A2 (pt) 2016-07-26
EP2423830A1 (de) 2012-02-29
WO2012025439A1 (de) 2012-03-01

Similar Documents

Publication Publication Date Title
CN106599278B (zh) 应用搜索意图的识别方法及装置
US8880548B2 (en) Dynamic search interaction
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
TWI557664B (zh) Product information publishing method and device
JP4850845B2 (ja) 方法、システムおよびメモリ装置
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
JP5423030B2 (ja) ワードセットに関係するワードの決定
CN110598086B (zh) 文章推荐方法、装置、计算机设备及存储介质
US20130110839A1 (en) Constructing an analysis of a document
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
US8032469B2 (en) Recommending similar content identified with a neural network
US20060184517A1 (en) Answers analytics: computing answers across discrete data
US20110040752A1 (en) Using categorical metadata to rank search results
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
CN107844533A (zh) 一种智能问答系统及分析方法
CN107038173A (zh) 应用查询方法和装置、相似应用检测方法和装置
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20100185623A1 (en) Topical ranking in information retrieval
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN105164672A (zh) 内容分类
US20150127657A1 (en) Method and Computer for Indexing and Searching Structures
CN104615723A (zh) 查询词权重值的确定方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160218

R150 Certificate of patent or registration of utility model

Ref document number: 5890413

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250