JP2012527028A - 検索方法、装置およびシステム - Google Patents

検索方法、装置およびシステム Download PDF

Info

Publication number
JP2012527028A
JP2012527028A JP2012510381A JP2012510381A JP2012527028A JP 2012527028 A JP2012527028 A JP 2012527028A JP 2012510381 A JP2012510381 A JP 2012510381A JP 2012510381 A JP2012510381 A JP 2012510381A JP 2012527028 A JP2012527028 A JP 2012527028A
Authority
JP
Japan
Prior art keywords
search
search word
main
candidates
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012510381A
Other languages
English (en)
Other versions
JP5698222B2 (ja
Inventor
フェイ シン
ジン ドン
ニン グオ
レイ ホウ
チン チャン
Original Assignee
アリババ グループ ホールディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホールディング リミテッド filed Critical アリババ グループ ホールディング リミテッド
Publication of JP2012527028A publication Critical patent/JP2012527028A/ja
Application granted granted Critical
Publication of JP5698222B2 publication Critical patent/JP5698222B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、検索方法、検索装置および検索システムについて記載する。方法は、データベースから、本検索語に関する1つ以上の検索語候補を取得するデータ書き換えシステムを含む。データ書き換えシステムは、本検索語と1つ以上の検索語候補とのプロパティを読み出し、ここで、プロパティは、本検索語と1つ以上の検索語候補とのそれぞれの一致する結果を記述する。一致する結果に基づき、データ書き換えシステムは、本検索語が書き換えられる必要があるかどうかを決定し、本検索語が書き換えられる必要があると決定される場合に、書き換えられた本検索語を提供するために、一致する結果に基づいて本検索語を書き換える。検索エンジンは、書き換えられた本検索語に基づく検索を実行する。開示された方法、装置およびシステムは、本検索語が書き換えられた後で、固定されたルールに基づいて検索を実行するアプローチを回避し、これにより、検索プロセスにおけるあいまいさの確率を低下させ、検索の正確性の度合いを高める。

Description

(関連出願の相互参照)
本出願は、参照によりその全体が本明細書に組み込まれる、2009年5月12日出願の中国特許出願番号第200910135276.X号、表題「検索方法、装置およびシステム」の優先権を主張するものである。
本開示は、ネットワークデータ処理フィールド、特に、検索方法、装置およびシステムに関する。
検索エンジンは、概して、指定されたコンピュータプログラムによって実装される一定のストラテジに基づいて、インターネット上の情報を収集、整理、および処理した後、ユーザに検索サービスを提供するシステムである。ユーザの視点から見ると、検索エンジンは、検索ボックスを含むウェブページを提供する。検索ボックスにキーワードを入力し、ブラウザ経由で検索エンジンに送信した後、検索エンジンは、ユーザによって入力されたコンテンツに関する情報のリストを返す。この意味において、ユーザによって入力されたキーワードが検索語になる。特に、ユーザは検索語を使って、目的とする関連のコンテンツを検索する。
実際の応用において、ユーザが入力した検索語に関するコンテンツは、読み出しのために、時には見過ごされることがある。例えば、ユーザの検索語が「Black Lenovo Thinkpad Laptop X60」である場合、入力検索キーワードが長すぎるため、検索エンジンは、完全に一致する検索結果を見つけられない可能性がある。従って、ブラウザは検索結果を返さない。検索語を「Thinkpad Lenovo Laptop X60」に修正する場合、入力された検索キーワードがより短いために、関連する結果を検索から読み出し得る。このことを考慮すると、既存のテクノロジでは、ルールに基づく検索方法が存在する。ある従来の方法は、まず、検索語を分割する。次に、用語の分割後に得られる各フレーズのプロパティ(例えば名詞、形容詞、または製品のタイプ、ブランドまたはモデル番号および各フレーズの情報等のタイプであるかどうか)に基づき、方法は、ニーズに従って一定のルールを決定する。例えば、あるルールは、2つの製品タイプのフレーズが互いに似ている場合に、後者がより高いウェイトを有するということにしてもよい。例えば、「携帯電話充電器」において、「充電器」は、より高いウェイトを有してもよい。上記の検索方法を使用して、ルールセットに基づいて書き換えし、元の検索語は新しい検索語に書き換えられてもよい。検索エンジンのサーバは、その後、新しい検索語を使用して検索を実行してもよい。
上記のプロセスに示されるように、検索を実行する場合、検索エンジンは、一定のルールに基づいてユーザ入力された検索語を書き換える方法を採用する。各書き換え動作は、事前にスタッフによって設定された関連するルールを必要とし、それぞれのブラウザを介してユーザによって入力された検索語は多種多様なタイプになり得るため、この単純な検索語書き換えルールに基づく方法の誤差率は、比較的高くなる傾向がある。さらに、あいまいさが存在するため、検索語の書き換え後に得られる結果は、時に不正確になり得る。不正確な書き換えられた検索語に基づく検索で得られる結果は、ユーザが欲するものではない可能性があり、このため、検索エンジンのユーザ体験を低下させている。
要するに、当業者によって解決することがどうしても必要な既存の技術的な問題は、既存の技術におけるルールに基づく検索語の書き換え後に、検索によって生じる不正確な検索結果の問題を解決する検索方法をどのように作成するかに関するものであった。
本開示において解決されるべき技術的な問題は、既存の技術におけるルールに基づく検索語の書き換え後の検索によって生じる不正確な検索結果の問題を解決し、さらに、関連性および呼び出し率を向上させるための検索方法を提供することである。
本開示は、さらに、実際に上記の方法の実装および応用を確実にするための検索装置を提供する。
一態様では、検索方法は、データベースから、本検索語に関する1つ以上の検索語候補を取得することと、本検索語と1つ以上の検索語候補とのプロパティを読み出すことであって、プロパティは本検索語と1つ以上の検索語候補とのそれぞれの一致する結果を記述する、読み出すことと、一致する結果に基づいて本検索語を書き換える必要があるかどうかを決定することと、本検索語を書き換える必要があると決定される場合に、データ書き換えシステムによって、一致する結果に基づいて、書き換えられた本検索語を提供するために本検索語を書き換えることと、検索エンジンによって、書き換えられた本検索語に基づいて、検索を実行することと、を含むアクションを実行する。
好ましくは、事前に確立されたデータベースから、本検索語に関する1つ以上の検索語候補を取得することは、さらに、データベースから少なくとも2つの検索語候補を取得することを含んでもよい。加えて、一致する結果に基づいて、本検索語を書き換える必要があるかどうかを決定することは、一致する結果に基づいて、値をプロパティに割り当てることであって、各プロパティは相当するプロパティ値を有する、割り当てることと、少なくとも2つの検索語候補に相当する少なくとも2つの一致する結果値を取得するために、1つ以上の所定のルールに基づいてプロパティ値を処理することと、少なくとも2つの一致する結果値のうちの最大の一致する結果値が、第1の閾値よりも大きいかどうかを決定することと、を含んでもよい。
好ましくは、事前に確立されたデータベースから、本検索語に関する1つ以上の検索語候補を取得することは、データベースからある検索語候補を取得することを含んでもよい。加えて、一致する結果に基づいて、本検索語を書き換える必要があるかどうかを決定することは、一致する結果に基づいて、ある検索語候補と本検索語とのプロパティに値を割り当てることと、ある検索語候補に相当するある一致する結果値を取得するために、1つ以上の所定のルールに基づいてプロパティ値を処理することと、一致する結果値が、第1の閾値よりも大きいかどうかを決定することとを含んでもよい。
好ましくは、1つ以上の所定のルールに基づいてプロパティ値を処理することは、線形の重み付けアプローチに基づいてプロパティ値を処理すること、または最大のエントロピーモデルに基づいて、一致する結果値へプロパティ値を変換することを含んでもよい。
好ましくは、データベースは、履歴的な検索語に相当する検索結果を含んでもよい。加えて、一致する結果に基づいて本検索語を書き換える必要があることを決定すると、方法は、さらに、一致する結果に相当する検索語候補が相当する検索結果を有するかどうかを決定することと、一致する結果に相当する検索語候補が相当する検索結果を有することが決定される場合に、一致する結果に基づいて本検索語を書き換えることとを含んでもよい。
好ましくは、データベースから、本検索語に関する検索語候補を取得することは、複数の子検索語を提供するために本検索語を分割することと、各子検索語についてそれぞれの識別子を確立することと、子検索語の検索語候補を取得するために、データベース内の各子検索語のそれぞれの識別子に基づいて、一致を実行することと、を含んでもよい。
好ましくは、本検索語と検索語候補とのプロパティを読み出すことは、比較結果を提供するために、子検索語と子検索語の検索語候補を比較することと、比較結果に基づいて、子検索語と子検索語の検索語候補との一致する結果を取得することと、を含んでもよい。
好ましくは、書き換えられた本検索語に基づいて、検索を実行した後で、方法はさらに、検索結果をユーザクライアントに対して表示させてもよい。
別の態様において、検索装置は、データベースから、本検索語に関する1つ以上の検索語候補を取得する取得モジュールと、本検索語と1つ以上の検索語候補とのプロパティを読み出すプロパティ読み出しモジュールであって、プロパティは、本検索語と1つ以上の検索語候補とのそれぞれの一致する結果を記述する、プロパティ読み出しモジュールと、一致する結果に基づいて、本検索語を書き換える必要があるかどうかを決定する第1の決定モジュールと、一致する結果に基づいて、本検索語を書き換える書き換えモジュールと、書き換えられた本検索語を使用して検索を実行する検索モジュールと、を含む。
好ましくは、取得モジュールがデータベースから少なくとも2つの検索語候補を取得するように構成される場合、第1の決定モジュールは、一致する結果に基づいてプロパティに値を割り当てる第1の値割り当てサブモジュールであって、各プロパティは、相当するプロパティ値を有する、第1の値割り当てサブモジュールと、少なくとも2つの検索語候補に相当する少なくとも2つの一致する結果値を取得するために、1つ以上の所定のルールに基づいてプロパティ値を処理する第1の処理サブモジュールと、少なくとも2つの一致する結果値のうちの最大の一致する結果値が、第1の閾値よりも大きいかどうかを決定する第1の決定サブモジュールと、を含んでもよい。
好ましくは、取得モジュールがデータベースから検索語候補を取得するように構成される場合、第1の決定モジュールは、一致する結果に基づいて、検索語候補と本検索語とのプロパティに値を割り当てる第2の値割り当てサブモジュールと、検索語候補に相当する一致する結果値を取得するために、1つ以上の所定のルールに基づいてプロパティ値を処理する第2の処理サブモジュールと、一致する結果値が、第1の閾値よりも大きいかどうかを決定する第2の決定サブモジュールと、を含んでもよい。
好ましくは、第1の処理サブモジュールまたは第2の処理サブモジュールは、線形の重み付けアプローチに基づいてプロパティ値を処理してもよい、または、最大のエントロピーモデルに基づいて、一致する結果値にプロパティ値を変換してもよい。
好ましくは、データベースが履歴的な検索語の検索結果を含む場合、装置はさらに、一致する結果に相当する検索語候補が相当する検索結果を有するかどうかを決定する第2の決定モジュールと、一致する結果に相当する検索語候補が相当する検索結果を有することが決定される場合に、一致する結果に基づいて、本検索語を書き換える実行モジュールとを含んでもよい。
好ましくは、取得モジュールは、本検索語を複数の子検索語に分割し、各子検索語についてそれぞれの識別子を確立するワード分割サブモジュールと、子検索語の識別子に基づいて、データベースから1つ以上の検索語候補を取得する一致するサブモジュールと、を含んでもよい。
好ましくは、取得モジュールはさらに、比較結果を提供するために、子検索語と1つ以上の検索語候補を比較する比較サブモジュールと、比較結果に基づいて、子検索語と1つ以上の検索語候補との一致する結果を取得する一致する結果取得サブモジュールと、を含んでもよい。
好ましくは、装置はさらに、検索結果をユーザクライアントに対して表示させる結果表示モジュールを含んでもよい。
さらに別の態様において、検索システムは、データ書き換えシステムおよび検索エンジンを含む。データ書き換えシステムは、データベースから、本検索語に関する1つ以上の検索語候補を取得し、本検索語と1つ以上の検索語候補とのプロパティを読み出し、プロパティは、本検索語と1つ以上の検索語候補とのそれぞれの一致する結果を記述し、一致する結果に基づいて、本検索語を書き換える必要があるかどうかを決定し、書き換えられた本検索語を提供するために、一致する結果に基づいて本検索語を書き換えてもよい。検索エンジンは、書き換えられた本検索語に基づいて、検索を実行してもよい。
既存の技術に対して、本開示は、後述するように、複数の利点を提供する。
本開示に従い、一連の検索語候補は、検索エンジンのサーバエンド上の事前に確立されたデータベースによって一致されてもよい。検索語候補は、本検索語に関する履歴的な検索語である。サーバエンドにおいて、本検索語と検索語候補との一致する結果が取得される。検索語候補の中で、最適な検索語候補が見つかり、本検索語が書き換えられる。従って、サーバは、検索のキーワードとして書き換えられた本検索語を使用でき、これにより、既存の技術に従う場合の検索の前に本検索語を書き換える場合に、固定されたルールの使用を回避する。これにより、検索プロセスにおいてあいまいさを有する確率が低くなり、検索の正確性が増す。さらに、開示された方法、装置およびシステムはさらに、本検索語の検索結果の関連性および呼び出し率を向上できる。本開示を実装するいずれの製品も、必ずしも、上記の全ての利点を同時に実現しなくてもよい。
本開示の例示的な実施形態の技術的なスキームの理解を助けるために、添付の図が提供されており、以下に簡単に説明される。以下の図は、本開示のいくつかの例示的な実施形態を表すにすぎない。これらの添付の図に基づき、当業者は、創造性または労力を加えずに、他の図を取得できる。
本開示による、第1の例示的な検索方法のフローチャートを示す。 本開示による、第2の例示的な検索方法のフローチャートを示す。 本開示による、第3の例示的な検索方法のフローチャートを示す。 本開示による、第1の例示的な検索装置の概略構造図である。 本開示による、第2の例示的な検索装置の概略構造図である。 本開示による、第3の例示的な検索装置の概略構造図である。 本開示による、例示的な検索システムの概略構造図である。 本開示による実用的な応用における、例示的な検索システムの概略構造図である。
本開示の例示的な実施形態における技術的なスキームが、例示的な実施形態において、添付の図を参照して、以下により明確および完全に記載されている。本明細書に記載される例示的な実施形態は、本開示の例示的な実施形態の一部を構成するにすぎず、全てを構成するものではない。本開示の例示的な実施形態に基づき、当業者は、革新的な努力を必要とせずに、いまだ本開示の範囲内である全ての他の例示的な実施形態を取得し得る。
開示された方法、装置およびシステムは、普遍的なまたは特化したコンピュータシステムの環境または構成において使用してもよい。例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはポータブルデバイス、タブレットデバイス、マルチプロセッサシステム、および上記のいずれかのシステムまたはデバイスを含む、分散されたコンピューティング環境を含む。
本開示は、プログラムモジュール等のコンピュータによって実行されるコンピュータで実行可能な命令の一般的な文脈において記載されてもよい。概して、プログラムモジュールは、特定のタスクの実行または特定のアブストラクト・データ・タイプの実装のためのルーチン、プログラム、オブジェクト、モジュール、およびデータ構造等を含む。開示された方法およびサーバは、さらに、分散されたコンピューティング環境において実装されてもよい。分散されたコンピューティング環境において、タスクは、通信ネットワークを介して接続されるリモート処理デバイスによって実行される。分散されたコンピューティング環境において、プログラムモジュールは、ローカルおよびリモートコンピュータのストレージメディア(ストレージデバイスを含む)に配置されてもよい。
一実施形態では、開示されたシステムは、構造的には事前に確立されたデータベース、検索ログ、データ書き換えシステム、検索エンジン、およびユーザクライアントを含んでもよい。本検索語と称される、ユーザによって入力された検索語を受信すると、検索エンジンは、本検索語をデータ書き換えシステムに伝送する。データ書き換えシステムは、本検索語に関する1つ以上の履歴的な検索語(つまり検索語候補)を取得するために、事前に確立されたデータベースにおいて本検索語と一致させ、本検索語および検索語候補のプロパティを読み出し(本検索語と検索語候補とのそれぞれの1つ以上の一致する結果を記述するためにプロパティが使用される場合)、本検索語の書き換えが必要であることを一致する結果が示すかどうかを決定する。一致する結果が示す場合には、本検索語が、一致する結果に従って書き換えられる。次に、検索エンジンは、書き換えられた検索語を使用して検索を実行する。事前に確立されたデータベースは、ユーザクライアントの履歴的な検索語を格納し、検索ログまたは他のアプローチの形態で実装されてもよい。書き換えられた検索語を使用して検索エンジンが検索を実行する場合、関連付けられた結果の正確性および呼び出し率は向上する。呼び出し率は、見つかった関連するドキュメント数とドキュメントレポジトリ内の全ての関連するドキュメント数との間の比率と称される。
本開示の中心的な概念を真のエンティティに例示化する場合、そのエンティティは、取得モジュール、プロパティ読み出しモジュール、第1の決定モジュール、書き換えモジュール、および検索モジュールを使用して実装し得る。取得モジュールは、本検索語について、事前に確立されたデータベースから本検索語に関する1つ以上の検索語候補と一致させ、これを取得する。プロパティ読み出しモジュールは、本検索語と検索語候補とのプロパティを読み出し、ここで、プロパティは、本検索語と検索語候補とのそれぞれの一致する結果を記述する。第1の決定モジュールは、一致する結果を考慮して、本検索語を書き換える必要があるかどうかを決定する。書き換えモジュールは、一致する結果に基づいて本検索語を書き換える。検索モジュールは、書き換えられた検索語を使用して検索を実行する。そのエンティティに書き換えられた本検索語を使用して検索が実行される場合に、関連付けられた結果の正確性および呼び出し率を高め得る。
図1は、本開示による第1の例示的な方法100のフローチャートを示す。方法100は、後述のようなアクションを含んでもよい。
101において、本検索語について、データ書き換えシステムは、事前に確立されたデータベースから、本検索語に関する1つ以上の検索語候補と一致させ、これを取得する。
データベースは、ユーザクライアントの履歴的な検索語を格納する。1つ以上の検索語候補は、本検索語に関する履歴的な検索語である。事前に確立されたデータベースは、検索エンジンの検索ログの形態で実装されてもよい。検索ログは、検索エンジンによって収集されたユーザクライアントの検索語および検索結果のログ情報、つまりユーザクライアントの履歴的な検索語を参照する。データベースはさらに、検索結果のクリック率および暴露率(exposure rate)等の詳細な情報を記録してもよい。代替的に、検索ログのデータコンテンツは、新しいデータベースを再確立するために使用してもよい。本実施形態では、データ書き換えシステムは、少なくとも2つの検索語候補を取得する。さらに、一致している各検索語候補のコンテンツおよび本検索語のコンテンツは、共通する少なくとも1つのフレーズまたはワードを含む。
102において、データ書き換えシステムは、本検索語および少なくとも2つの検索語候補のプロパティを読み出し、ここで、プロパティは、本検索語および少なくとも2つの検索語候補のそれぞれの、おのおの一致する結果を記述する。
少なくとも2つの検索語候補を取得すると、データ書き換えシステムは、本検索語および検索語候補のそれぞれのプロパティを読み出すために、少なくとも2つの検索語候補のそれぞれに、本検索語を一致させる。プロパティは、例えば、本検索語といずれかのある検索語候補との間の「ブランドに関連付けられた一致の数」と称されてもよい。一例に、「Nokia」に関連付けられた一致の数、つまり、ブランド「Nokia」が本検索語および検索語候補において現れるかどうかがある。そうである場合には、それぞれのプロパティ値は、以降の値割り当ての間に、1となるように割り当てられる。そうでない場合には、それぞれのプロパティ値は、0となるように割り当てられる。他の例として、「携帯電話」等に関連付けられた一致の数等の「製品に関連付けられた一致の数」を含む。従って、一致する結果のこれらの2つの記載されたフレーズが、プロパティのコンテンツである。
103において、データ書き換えシステムは、一致する結果に基づいて、プロパティに値を割り当て、各プロパティは相当するプロパティ値を有する。
一致する結果に基づいて、値をプロパティに割り当てる。例えば、本検索語および検索語候補内に1の値を有するプロパティ「ブランドに関連付けられた一致の数」は、一定のブランド名は、本検索語と検索語候補の両方に含まれ、一度現れることを意味する。従って、このプロパティのプロパティ値は、1である。値割り当てにおいて、各プロパティは、相当するプロパティ値を有する。
104において、データ書き換えシステムは、少なくとも2つの検索語候補に相当する少なくとも2つの一致する結果値を取得するために、1つ以上の所定のルールに基づいて、全てのプロパティ値を処理する。
所定のルールは、一定の線形の重み付けを満たすルールを含んでもよい、または、最大エントロピーモデルを使用して実装する、つまり、最大エントロピーモデルのような確率モデルを使用して、プロパティ値を一致する結果値に変換してもよい。実用的なニーズに従って、事前に所定のルールを指定してもよい。データ書き換えシステムは、所定のルールに従って、プロパティ値を処理する。特に、各検索語候補に関連付けられたプロパティ値は、各検索語候補について一致する結果値を取得するために計算される。実際に、一致する結果値は、いずれかの任意の値、例えば0.8または0.6等の小数点数、または2または5等の整数にしてもよい。本開示において、最大エントロピーモデルを使用して、より最適な結果を取得してもよい。
105において、データ書き換えシステムは、少なくとも2つの一致する結果値の最大の一致する結果値が、一定の閾値よりも大きいかどうかを決定する。結果値が大きい場合には、プロセスは、106へと継続する。結果値が大きくない場合には、処理はこれ以上行われない。
データ書き換えシステムは、本検索語の書き換えが必要であるかどうかを決定する。データ書き換えシステムのために、一定の閾値が事前に設定されてもよい。次に、データ書き換えシステムは、一致する結果値の最大の一致する結果値がその閾値よりも大きいかどうかを決定する。閾値よりも大きい場合には、一致する結果値に相当する検索語候補は、本検索語よりも最適であり、ここで、「本検索語より最適」は、検索語候補が本検索語との比較的高い一致度を有し、より少ない不要なワードを有すると解釈されてもよい。例えば、閾値を0.9にする。閾値が0.9である場合、特定の検索語候補と本検索語との一致する結果値が最大であり、0.9よりも大きい場合に、本検索語を書き換える必要がある。具体的には、特定の検索語候補が書き換えられた本検索語になるように、本検索語が書き換えられる。閾値は、一致する結果値に応答して、動的に設定されてもよい。
106において、一致する結果値に基づき、データ書き換えシステムは、検索語候補が書き換えられた本検索語になるように、本検索語を書き換える。次に、検索エンジンは、書き換えられた本検索語を使用して検索を実行する。
これにより、ユーザクライアントの元の本検索語が検索語候補に書き換えられ、ここで、検索語候補の一致する結果値は最大であり、閾値よりも大きい。その後、検索エンジンは、書き換えられた本検索語を使用して検索を実行する。
検索語のルールに基づく書き換え後に検索を実行する既存の方法に対して、本実施形態の技術スキームは、手動で確立されたルールや固定されたルールを使用せず、むしろ検索エンジンの検索ログを使用して、事前に確立されたデータベースを直接作成する。代替的に、または付加的に、ユーザは、自身でそのデータベースのコンテンツを設定および更新してもよい。このため、種々の検索語は、それと一致するそれぞれの検索語候補を使用して書き換えてもよい。固定されたルールだけに依存するのではない、書き換えられた検索語による検索は、開示された検索方法がより高い正確性を取得することを可能にし、ルール使用の結果としてのあいまいさの生成を回避するだけでなく、関連付けられた検索結果の呼び出し率を向上させる。
図2は、本開示による第2の例示的な検索方法200のフローチャートを示す。方法は、後述のように一定のアクションを含んでもよい。
201において、本検索語について、データ書き換えシステムは、事前に確立されたデータベースから本検索語に関するある検索語候補と一致させ、これを取得する。
本実施形態では、データ書き換えシステムは、事前に確立されたデータベースから本検索語に関する1つのみの検索語候補と一致させ、これを取得する。データ書き換えシステムは、同時に、その検索語候補に相当する検索結果を取得してもよく、検索結果は、例えばウェブページ識別等の情報を含む。
202において、データ書き換えシステムは、本検索語と検索語候補とのプロパティを読み出し、プロパティは、本検索語と検索語候補との一致する結果を記述する。
本検索語と検索語候補とのプロパティを読み出す場合、データ書き換えシステムは、本検索語とある検索語候補とのプロパティ、例えばブランドに関連付けられた一致の数、製品に関連付けられた一致の数等、を取得するために、そのある検索語候補と本検索語を一致させてもよい。
203において、データ書き換えシステムは、一致する結果に基づいて、本検索語と検索語候補とのプロパティに値を割り当てる。
データ書き換えシステムは、一致する結果に基づいてプロパティに値を割り当てる。例えば、本検索語と検索語候補において製品に関連付けられた一致数は1にしてもよい。具体的には、特定の製品名、例えば「携帯電話」は、本検索語および検索語候補の両方において含まれてもよく、また、一度現れてもよい。従って、相当するプロパティのプロパティ値は、1である。値割り当ての際に、本検索語と検索語候補との各プロパティは、相当するプロパティ値を有する。検索語候補を本検索語と一致させる際に、一まとまりの全てのプロパティ値が取得される。
204において、データ書き換えシステムは、検索語候補に相当する一致する結果値を取得するために、所定のルールに従って、プロパティ値を処理する。
データ書き換えシステムは、線形の重み付けを使用して、一まとまりのプロパティ値を処理してもよい。代替的に、最大エントロピーモデル、隠しマルコフモデル、最大エントロピー・マルコフ・モデル、または条件付き確率場モデル等の確率モデルを使用してもよい。
データ書き換えシステムは、線形の重み付けアプローチを使用してプロパティ値を処理する、または、例えば、最大エントロピーモデルを使用して、一致する結果値にプロパティ値を変換する。
205において、データ書き換えシステムは、一致する結果値が、一定の閾値よりも大きいかどうかを決定する。閾値よりも大きくない場合には、さらなる処理は実行されない。閾値よりも大きい場合には、プロセスは、206へと継続される。
一致する結果値が、一定の閾値よりも大きい場合、一致する結果値に相当する検索語候補は、本検索語よりも最適である。
206において、データ書き換えシステムは、検索語候補に相当する検索結果がデータベースに存在するかどうかを決定する。データベースに存在しない場合には、さらなる処理は実行されない。データベースに存在する場合には、プロセスは、207へと継続される。
例示的な実施形態では、データ書き換えシステムは、一致する結果値に相当する検索語候補がデータベース内の相当する検索結果を有するかどうかを決定してもよい。検索結果が見つかる場合、関連する結果は、この検索語候補について読み出され得る。従って、呼び出し比率は、サーバがその検索語候補を使用して検索を実行する場合に、向上する。
207において、データ書き換えシステムは、検索において検索エンジンによって後に使用される、検索語候補へ本検索語を書き換える。
206における決定が肯定的である場合、このある検索語候補によって、検索エンジンが関連する結果を読み出すことを可能にし得ることを示す。従って、以降の検索の際に、関連する検索結果をユーザに表示してもよい。これを考慮すると、本検索語が検索語候補に書き換えられ、書き換えられた本検索語である、検索語候補に基づいて検索が実行される。
本実施形態では、検索エンジンのサーバ内の事前に確立されたデータベースから、1つのみの検索語候補が取得され、一致される。従って、方法を適用する場合、本検索語とこの特定の検索語候補とのプロパティが読み出され、これらの間の一致する結果値が計算される。一致する結果値が、所定の閾値よりも大きいかどうかによって検索語候補が本検索語より最適であるかどうかが決定される。さらに、検索語候補について相当する検索結果が存在するかどうかも決定される。検索結果が存在する場合には、検索エンジンのサーバは、デフォルトで、検索語候補を使用して検索を実行する。さらに、検索語候補の検索結果に関する決定を行うことにより、この方法は、検索語のルールに基づく書き換え後に検索を実行する既存の方法に対して高い正確性を有するだけでなく、関連付けられた検索結果の呼び出し比率も向上させる。
図3は、本開示による、第3の例示的な検索方法300のフローチャートを示す。本実施形態は、実際に例示的な検索方法として考慮されてもよい。方法300は、後述のように一定のアクションを含んでもよい。
301において、データ書き換えシステムは、ユーザクライアントの本検索語を複数の子検索語に分割し、各子検索語について、それぞれの識別子を設定する。
本アクションにおいて、データ書き換えシステムは、本検索語を複数の子検索語に分割するためにワード分割器を使用し、次に、こうして取得される各子検索語について、それぞれの識別子を設定する。例えば、本検索語を「赤のNokia n95携帯電話」にしてもよい。ワード分割および識別子設定の際に、取得され得るものは、赤い(修飾子)/Nokia(ブランド)/n95(モデル番号)/携帯(製品タイプ)」であってもよく、ここで、例えば、「赤」は子検索語であり、「修飾子」は、その子検索語のそれぞれの識別子である。
302において、データ書き換えシステムは、2つの検索語候補を取得するために、子検索語の識別子に基づいて、事前に確立されたデータベースの一致を実行する。事前に確立されたデータベースは、ユーザクライアントの履歴的な検索語を格納するために使用される。検索語候補は、本検索語に関する履歴的な検索語である。
データ書き換えシステムは、子検索語の識別子に基づいて事前に確立されたデータベース内の一致を実行し、例えば、履歴的な検索語、「Nokia n95携帯電話」および「赤のNokia携帯電話」から検索語候補を取得する。
具体的には、データベース内に「赤のNokia n95」を格納する例示的な方法は、以下に示すものと類似していてもよい。
修飾子 ブランド モデル番号 製品タイプ …
赤 Nokia N95 携帯電話
データベースに検索語候補を格納する方法は、例示的な本実施形態の実施例に影響しない。代替の格納方法を、検索語候補を格納するために使用してもよい。
303において、データ書き換えシステムは、比較結果を提供するために、本検索語の子検索語を検索語候補と比較する。
本実施形態では、子検索語と検索語候補との比較は、「赤の」、「Nokia」および「携帯電話」等を、例えば「Nokia n95携帯電話」および「赤のNokia携帯電話」と個別に比較することを指していてもよい。
304において、比較結果に基づいて、データ書き換えシステムは、子検索語と2つの検索語候補との間のそれぞれの一致する結果を別々に取得する。
比較結果に基づいて、「修飾子に関連付けられた一致の数」、「ブランドに関連付けられた一致の数」、「モデル番号に関連付けられた一致の数」、および「製品タイプに関連付けられた一致の数」等の本検索語のプロパティ「赤のNokia n95携帯電話」および「Nokia n95携帯電話」が取得されてもよい。これらのプロパティは、本検索語と2つの検索語候補との間の一致する結果を表してもよい。
305において、データ書き換えシステムは、一致する結果に基づいてプロパティに値を割り当て、各プロパティは相当するプロパティ値を有する。
本実施形態では、検索語候補のプロパティ「Nokia n95携帯電話」は、修飾子に関連付けられた一致の数、ブランドに関連付けられた一致の数、モデル番号に関連付けられた一致の数、および製品タイプに関連付けられた一致の数を含み、プロパティ値は、それぞれ、1、2、1および1になる、本検索語とこの検索語候補が一致した後に取得される。各検索語候補について、各プロパティは、相当するプロパティ値を有する。
306において、データ書き換えシステムは、2つの検索語候補に相当する2つの一致する結果値を取得するために、1つ以上の所定のルールに基づいて、プロパティ値を処理する。
所定のルールは、簡単な線形のモデルに従って計算すること、つまり全てのプロパティ値の重み付けを行うことで、一致する結果値を計算することを指してもよい。代替的に、最大エントロピーモデル等の比較的複雑な確率モデルを使用してもよい。このアクションにおいて取得される結果は、2つの検索語候補のそれぞれの一致する結果値を表す。例えば、最大エントロピーモデルに従って計算される「Nokia n95携帯電話」の一致する結果値は、0.95であってもよく、一方で、第2の検索語候補「赤のNokia携帯電話」の一致する結果値は、0.8であってもよい。
307において、データ書き換えシステムは、より大きい一致する結果値が一定の閾値よりも大きいかどうかを決定する。一定の閾値よりも大きくない場合には、さらなる処理は実行されない。一定の閾値よりも大きい場合には、プロセスは308に進む。
データ書き換えシステムは、この例示的な実施形態において、例えば0.9に閾値を事前に設定してもよい。一致する結果値がこの閾値よりも大きい場合、相当する検索語候補は最適な検索語候補である。
なお、実際の応用において、さらに最小の閾値を設定してもよいことに注意されたい。具体的には、全ての一致する結果値がこの最小の閾値よりも小さい場合、本検索語は書き換えられない。さらに、全ての一致する結果値が一定の最大の閾値よりも小さい場合、本検索語は書き換えられない。
308において、データ書き換えシステムは、本検索語を検索語候補に書き換える。
以前の決定結果に基づいて、第1の検索語候補は、本検索語よりも最適である。この例示的な実施形態において、本検索語「赤のNokia n95携帯電話」は、「Nokia n95携帯電話」に書き換えられる。
309において、検索エンジンは、書き換えられた本検索語を使用して検索を実行し、検索結果をユーザクライアントに対して表示させる。
検索エンジンのサーバは、書き換えられた検索語、つまり第1の検索語候補「Nokia n95携帯電話」を用いて検索を直接実行してもよく、見つかる結果をユーザクライアントに対して表示させる。
本検索語と検索語候補とのプロパティが読み出される場合、または値がプロパティに割り当てられる場合に、特定の値が本実施形態に示されるが、本実施形態は、実際に1つ以上の一定の値に制限される必要はない。当業者は、プロパティに値を割り当てる、またはプロパティ値に基づいて一致する結果値を計算するためのいずれかの方法を使用してもよい。本開示は、いずれの特定の方法にも制限されない。例えば、実際の状況と十分に一致した、一致する結果値を計算することができる、単に線形の重み付けまたは最大エントロピーモデルを使用する等のいずれかの方法は、本開示の範囲内において含まれている。
説明の便宜上、一連のアクションに関し、上記の種々の例示的な方法が記載される。しかしながら、当業者は、本開示はアクションが実行される順序に制限されないことを理解されたい。本開示に従い、一定のアクションは、代替の順序で実行されてもよい、または同時に実行されてもよい。さらに、当業者は、この開示に記載される例示的な実施形態が好適な実施形態であることを理解されたい。本明細書に含まれるアクションまたはモジュールは、本開示によって必ず必要な場合がある、または必ずしも必要ではない場合がある。
本開示に記載される第1の例示的な方法に対応して、本開示は、さらに、図4に示される第1の例示的な検索装置400を提供する。この例示的な実施形態において、装置400は、取得モジュール401、プロパティ読み出しモジュール402、第1の値割り当てサブモジュール403、第1の処理サブモジュール404、第1の決定サブモジュール405、書き換えモジュール406、および検索モジュールを含んでもよい。
本検索語について、取得モジュール401は、事前に確立されたデータベースから、本検索語に関する少なくとも2つの検索語候補と一致させ、これを取得する。
検索エンジンのサーバエンドは、ユーザクライアントの履歴的な検索語を格納するために使用される、事前に確立されたデータベースを事前に設定してもよい。データベース内の履歴的な検索語は、検索ログを介して取得されてもよい。検索ログは、ユーザクライアントの検索語および検索結果を収集するために検索エンジンが使用するログ情報と称されてもよい。データベースはさらに、例えば、検索結果のクリック率および暴露比率等の詳細な情報を記録してもよい。
プロパティ読み出しモジュール402は、本検索語と検索語候補とのプロパティを読み出し、ここで、プロパティは、本検索語と検索語候補とのそれぞれの一致する結果を記述する。
プロパティ読み出しモジュール402は、本検索語と各検索語候補とのプロパティを取得するために、少なくとも2つの検索語候補を取得する際に、本検索語を、少なくとも2つの検索語候補と一致させる。プロパティは、例えば、本検索語および検索語候補内の、ブランドに関連付けられた一致の数および製品に関連付けられた一致の数にしてもよい。
第1の値割り当てサブモジュール403は、一致する結果に基づいて値をプロパティに割り当て、各プロパティは相当するプロパティ値を有する。
第1の値割り当てサブモジュール403は、一致する結果に基づいて値をプロパティに割り当てる。例えば、本検索語および検索語候補のうちの1つにおいて、ブランドに関連付けられた一致の数は1であり、これは、本検索語およびその検索語候補において一定のブランド名が含まれてもよい、および一度現れることを示す。従って、そのプロパティのプロパティ値は1である。値の割り当て後、各プロパティは相当するプロパティ値を有する。
第1の処理サブモジュール404は、少なくとも2つの検索語候補に相当する少なくとも2つの一致する結果の値を取得するために、1つ以上の所定のルールに基づいてプロパティ値を処理する。
第1の処理サブモジュール404は、例えば、最大エントロピーモデル等の一定の線形の重み付けルールまたは確率モデルにしてもよい、1つ以上の所定のルールに基づいて、プロパティ値を一致する結果値に変換する。所定のルールは、実際のニーズに従って、事前に指定してもよい。
具体的には、第1の処理サブモジュール404は、線形の重み付けアプローチを使用してプロパティ値を処理してもよい、または最大エントロピーモデルを使用して、プロパティ値を一致する結果値へ変換してもよい。
第1の決定サブモジュール405は、少なくとも2つの一致する結果値の最大の一致する結果値が、一定の閾値よりも大きいかどうかを決定する。
第1の決定サブモジュール405によって決定される結果が肯定的である場合、その一致する結果値に相当する検索語候補は、本検索語よりも最適である。
書き換えモジュール406は、一致する結果に基づいて本検索語を書き換える。
検索モジュール407は、書き換えられた本検索語に基づいて検索を実行する。
例示的な装置は、検索エンジンのサーバに統合されてもよい、または検索エンジンのサーバと通信可能に結合される個別のエンティティにしてもよい。さらに、開示された方法がソフトウェアの形態で実装される場合、方法は、検索エンジンのサーバの新しい機能として、または個別のプログラムとして、実行されてもよい。本開示は、開示された方法または装置を実装する方法についてのいずれの制限も課するものではない。
本例示的な実施形態では、装置は、検索語を書き換え、手動で確立され、固定されたルールを使用せずに、書き換えられた検索語を使用して検索を実行する。事前に確立されたデータベースは、検索エンジンの検索ログを使用して、直接作成されてもよい。代替的に、または付加的に、ユーザは、データベースのコンテンツを設定、更新してもよい。これは、検索方法がより高い正確性を得ることを可能にし、ルール使用の結果としてのあいまいさが生じることを回避するだけでなく、関連付けられた検索結果の呼び出し比率を高める。
この開示に記載される第2の例示的な方法に対応して、本開示はさらに、図5に示されるように、第2の例示的な検索装置500を提供する。この例示的な実施形態において、装置500は、取得モジュール501、プロパティ読み出しモジュール502、第2の値割り当てサブモジュール503、第2の処理サブモジュール504、第2の決定サブモジュール505、第2の決定モジュール506、実行モジュール507、および検索モジュール508を含んでもよい。
本検索語について、取得モジュール501は、事前に確立されたデータベースから、本検索語に関するある検索語候補と一致させ、これを取得する。
この例示的な実施形態において、取得モジュール501は、事前に確立されたデータベースから1つの検索語候補のみを取得する。
プロパティ読み出しモジュール502は、本検索語と検索語候補とのプロパティを読み出し、ここで、プロパティは、本検索語とある検索語候補との一致する結果を記述する。
第2の値割り当てサブモジュール503は、一致する結果に基づいてある検索語候補と本検索語とのプロパティに値を割り当てる。
第2の処理サブモジュール504は、ある検索語候補に相当する一致する結果値を取得するために、1つ以上の所定のルールに基づいてプロパティ値を処理する。
第2の決定サブモジュール505は、一致する結果値が、一定の閾値よりも大きいかどうかを決定する。
第2の決定モジュール506は、検索語候補に相当する検索結果がデータベースに存在するかどうかを決定する。
この例示的な実施形態において、第2の決定モジュール506は、一致する結果値の検索語候補に対応する検索結果がデータベースに存在するかどうかを決定してもよい。検索結果が見つかる場合、関連する結果は、この検索語候補を使用して見つけ得る。
実行モジュール507は、第2の決定モジュールの結果が肯定的である場合に、本検索語を検索語候補へ書き換えるアクションを実行する。
検索モジュール508は、実行モジュール507の結果を使用して検索を実行する。
本例示的な実施形態では、第2の決定モジュール506は、検索語候補が関連する検索結果を有する場合に、検索結果を決定し、本検索語の書き換えを可能にする。これは、検索語のルールに基づく書き換え後の検索の既存の方法と比較してより高い正確性を有するだけでなく、関連付けられた検索結果の呼び出し比率を向上させる。
この開示に記載される第3の例示的な方法に対応し、本開示はさらに、図6に示される第3の例示的な検索装置600を提供する。この例示的な実施形態において、装置600は、ワード分割モジュール601、一致するサブモジュール602、比較サブモジュール603、一致する結果取得サブモジュール604、第1の決定モジュール605、書き換えモジュール606、検索モジュール607、および結果表示モジュール608を含んでもよい。
ワード分割モジュール601は、本検索語を複数の子検索語に分割し、各子検索語についてそれぞれの識別子を設定する。
実際に、ワード分割モジュール601は、ワード分割器によって実装されてもよい。
一致するサブモジュール602は、検索語候補を取得するために、事前に確立されたデータベース内の子検索語の識別子と一致する。
比較サブモジュール603は、本検索語の子検索語を検索語候補と比較する。
一致する結果取得サブモジュール604は、比較結果に基づいて、子検索語と検索語候補との一致する結果を取得する。
第1の決定モジュール605は、一致する結果が本検索語を書き換える必要があることを示すかどうかを決定する。
書き換えモジュール606は、本検索語を検索語候補に書き換える。
検索モジュール607は、書き換えモジュールの結果を使用して検索を実行する。
結果表示モジュール608は、検索結果をユーザクライアントに表示させる。
この例示的な実施形態において、検索語候補を一致させ、取得する際に、本検索語のワード分割を採用してもよい。種々の検索語候補は、子検索語に基づいて一致および取得されてもよい。従って、種々の検索語候補は、データベースにおいてより正確に一致および取得でき、これにより、本検索語の以降の書き換えおよび検索を促進する。このため、検索結果は、改善されるその呼び出し比率により、より正確である。
上記の開示された例示的な方法および装置に相当して、本開示はさらに、図7に示されるように例示的な検索システム700を提供する。この例示的な実施形態において、システム700は、サーバエンドにおいて、データベース701、取得モジュール702、プロパティ読み出しモジュール703、第1の決定モジュール704、書き換えモジュール705、および検索モジュール706を含んでもよい。
データベース701は、ユーザクライアントの履歴的な検索語を格納する。
この事前に確立されたデータベースが個別のエンティティとして作用する場合に、サーバと通信可能に結合する必要があるか、サーバに統合されて、ユニットまたはサーバのモジュールとして作用してもよい。
本検索語について、取得モジュール702は、所定のデータベースから、本検索語に関する検索語候補と一致させ、これを取得する。
プロパティ読み出しモジュール703は、本検索語と検索語候補とのプロパティを読み出し、ここで、プロパティは、本検索語と検索語候補との一致する結果を記述する。
第1の決定モジュール704は、一致する結果に基づいて本検索語を書き換える必要があるかどうかを決定する。
書き換えモジュール705は、一致する結果に基づいて本検索語を書き換える。
検索モジュール706は、書き換えモジュール705の結果を使用して、検索を実行する。
好ましくは、システムはさらに、検索ログ(図示せず)を含んでもよい。検索ログは、事前に確立されたデータベースに通信可能に結合され、ユーザクライアントの履歴的な検索語を提供するか、サーバ等へ検索結果を提供する。
さらに、図8は、実際の応用において、検索システム700の種々のコンポーネントの構造についての参照を提供する。
なお、システムはさらに、ユーザ・クライアント・エンドにおいて、ユーザから本検索語を受信し、サーバへ本検索語を送信するブラウザ707を含んでもよいことに注意されたい。
例示的な本実施形態は、ユーザクライアントがサーバと相互作用する場合に、ユーザクライアントおよびサーバエンドの種々のデバイスの間の作業の相互作用のシナリオを記述する。ブラウザは、まず、検索のためにユーザによって入力された検索語を受信し、本検索語をサーバへ送信する。
なお、種々の例示的な実施形態は、本開示に段階的に記載されていることに注意されたい。各例示的な実施形態は、他の例示的な実施形態とは異なる焦点を有する。例示的な実施形態の同じまたは同様の部分は相互に参照され得る。特に、例示的な装置は、例示的な方法とそれぞれ基本的に対応しているため、比較的簡単に記載されている。その詳細は、それぞれの例示的な方法の関連する部分に参照され得る。
なお、さらに「を含む(include)」、「を有する(have)」またはいずれかの他の変形物等の用語は、非排他的な「を含む(comprising)」を意味することに注意されたい。従って、個別に一まとまりの特徴を含むプロセス、方法、物品またはデバイスは、これらの特徴を含むだけでなく、リストされていない他の特徴、またはこれらのプロセス、方法、物品またはデバイスのいずれかの生来の特徴を含んでもよい。さらなる制限なく、フレーズ「・・・を含む」内に定義される特徴は、その特徴を述べるプロセス、方法、物品またはデバイスが、他の同等の特徴を有してもよい確率を排除しない。
最後に、なお、このドキュメント内の「第1の」および「第2の」等のいずれかの関連する用語は、あるエンティティと別のエンティティ、またはある動作と別の動作を区別するためのものにすぎず、これらのエンティティまたは動作の間の実世界の関係または順序の存在を必ずしもリクエストまたは示唆するものではないことに注意されたい。さらに、「を含む(include)」、「を有する(have)」またはいずれかの他の変形物等の用語は、非排他的な「を含む(comprising)」を意味することが意図される。従って、一まとまりの特徴を個別に含む、プロセス、方法、物品またはデバイスは、これらの特徴を含むだけでなく、リストされていない他の特徴、またはこれらのプロセス、方法、物品またはデバイスのいずれかの生来の特徴も含んでもよい。さらなる制限なく、フレーズ「・・・を含む」内で定義される特徴は、その特徴を挙げるプロセス、方法、物品またはデバイスが、他の同等の特徴を有してもよい確率を除外しない。
本開示によって提供される検索方法、検索装置および検索システムを、上記に詳細に記載した。上記の例示的な実施形態は、本開示の概念および実施例を示すように用いられる。例示的な実施形態は、方法および本開示のそれぞれの中心的な概念の理解を促進するために提供される。この開示の概念に基づき、当業者は、実際の実施例および応用範囲を修正してもよい。つまり、本開示の内容は、この開示を制限するものとして解釈されるものではない。

Claims (17)

  1. 検索方法であって、
    本検索語に関する1つ以上の検索語候補をデータベースから取得することと、
    前記本検索語と前記1つ以上の検索語候補とのプロパティを検索することであって、前記プロパティは、前記本検索語と前記1つ以上の検索語候補とのそれぞれの一致する結果を記述する、プロパティを検索することと、
    前記本検索語が、前記一致する結果に基づいて書き換える必要があるかどうかを決定することと、
    前記本検索語を書き換える必要があることが決定される場合、データ書き換えシステムによって、前記一致する結果に基づいて書き換えられた本検索語を提供するために、前記本検索語を書き換えることと、
    検索エンジンによって、前記書き換えられた本検索語に基づいて、検索を実行することと、を含む、検索方法。
  2. データベースから、前記本検索語に関する1つ以上の検索語候補を取得することは、前記データベースから少なくとも2つの検索語候補を取得することを含み、前記一致する結果に基づいて、前記本検索語が書き換えられる必要があるかどうかを決定することは、
    前記一致する結果に基づいて、前記プロパティに値を割り当てることであり、各プロパティは相当するプロパティ値を有する、割り当てることと、
    前記少なくとも2つの検索語候補に相当する少なくとも2つの一致する結果値を取得するために、1つ以上の所定のルールに基づいて前記プロパティ値を処理することと、
    前記少なくとも2つの一致する結果値の最大の一致する結果値が、第1の閾値よりも大きいかどうかを決定することと、を含む、請求項1に記載の方法。
  3. データベースから、前記本検索語に関する1つ以上の検索語候補を取得することは、前記データベースからある検索語候補を取得することを含み、前記一致する結果に基づいて、前記本検索語が書き換えられる必要があるかどうかを決定することは、
    前記一致する結果に基づいて、前記ある検索語候補と前記本検索語との前記プロパティの値を割り当てることと、
    前記ある検索語候補に相当するある一致する結果値を取得するために、1つ以上の所定のルールに基づいて、前記プロパティ値を処理することと、
    前記一致する結果値が、第1の閾値よりも大きいかどうかを決定することと、を含む、請求項1に記載の方法。
  4. 1つ以上の所定のルールに基づいて前記プロパティ値を処理することは、線形の重み付けアプローチに基づいて前記プロパティ値を処理すること、または最大エントロピーモデルに基づいて、前記プロパティ値を前記一致する結果値に変換することを含む、請求項3に記載の方法。
  5. 前記データベースは、履歴的な検索語に相当する検索結果を含み、前記一致する結果に基づいて、前記本検索語を書き換える必要があることが決定される際に、前記方法は、さらに、
    前記一致する結果に相当する前記1つ以上の検索語候補が、相当する検索結果を有するかどうかを決定することと、
    前記一致する結果に相当する前記1つ以上の検索語候補が相当する検索結果を有すると決定される場合に、前記一致する結果に基づいて前記本検索語を書き換えることと、を含む、請求項1に記載の方法。
  6. データベースから、前記本検索語に関する1つ以上の検索語候補を取得することは、
    複数の子検索語を提供するために、前記本検索語を分割することと、
    各子検索語について、それぞれの識別子を確立することと、
    前記子検索語の検索語候補を取得するために、前記データベース内の各子検索語の前記それぞれの識別子に基づいて、一致を実行することと、を含む、請求項1に記載の方法。
  7. 前記本検索語と前記検索語候補との前記プロパティを読み出すことは、
    比較結果を提供するために、前記子検索語と前記子検索語の前記検索語候補を比較することと、
    前記比較結果に基づいて、前記子検索語の前記一致する結果と、前記子検索語の前記検索語候補とを取得することと、を含む、請求項6に記載の方法。
  8. 前記書き換えられた本検索語に基づいて検索を実行した後で、前記方法は、さらに、
    検索結果がユーザクライアントに対して表示されるようにすることを含む、請求項1に記載の方法。
  9. 検索装置であって、
    データベースから、本検索語に関する1つ以上の検索語候補を取得する取得モジュールと、
    前記本検索語と前記1つ以上の検索語候補とのプロパティを読み出すプロパティ読み出しモジュールであって、前記プロパティは、前記本検索語と前記1つ以上の検索語候補とのそれぞれの一致する結果を記述する、プロパティ読み出しモジュールと、
    前記一致する結果に基づいて、前記本検索語を書き換える必要があるかどうかを決定する第1の決定モジュールと、
    前記一致する結果に基づいて前記本検索語を書き換える書き換えモジュールと、
    前記書き換えられた本検索語を使用して検索を実行する検索モジュールと、を含む、検索装置。
  10. 前記取得モジュールが前記データベースから少なくとも2つの検索語候補を取得するように構成される場合に、前記第1の決定モジュールは、
    前記一致する結果に基づいて、値を前記プロパティに割り当てる第1の値割り当てサブモジュールあって、各プロパティは相当するプロパティ値を有する、第1の値割り当てサブモジュールと、
    前記少なくとも2つの検索語候補に相当する少なくとも2つの一致する結果値を取得するために、1つ以上の所定のルールに基づいて前記プロパティ値を処理する第1の処理サブモジュールと、
    前記少なくとも2つの一致する結果値の最大の一致する結果値が、第1の閾値よりも大きいかどうかを決定する第1の決定サブモジュールと、を含む、請求項9に記載の装置。
  11. 前記取得モジュールは、前記データベースから検索語候補を取得するように構成される場合に、前記第1の決定モジュールは、
    前記一致する結果に基づいて、前記検索語候補と前記本検索語との前記プロパティ値を割り当てる第2の値割り当てサブモジュールと、
    前記検索語候補に相当する一致する結果値を取得するために、1つ以上の所定のルールに基づいて前記プロパティ値を処理する第2の処理サブモジュールと、
    前記一致する結果値が、第1の閾値よりも大きいかどうかを決定する第2の決定サブモジュールと、を含む、請求項9に記載の装置。
  12. 前記第1の処理サブモジュールまたは前記第2の処理サブモジュールは、線形の重み付けアプローチに基づいて前記プロパティ値を処理する、または、最大エントロピーモデルに基づいて、前記プロパティ値を前記一致する結果値に変換する、請求項11に記載の装置。
  13. 前記データベースは、履歴的な検索語の検索結果を含む場合に、前記装置は、さらに、
    前記一致する結果に相当する前記検索語候補が相当する検索結果を有するかどうかを決定する第2の決定モジュールと、
    前記一致する結果に相当する前記検索語候補が相当する検索結果を有することを決定する場合に、前記一致する結果に基づいて前記本検索語を書き換える実行モジュールと、を含む、請求項9に記載の装置。
  14. 前記取得モジュールは、
    前記本検索語を複数の子検索語に分割し、各子検索語について、それぞれの識別子を確立するワード分割サブモジュールと、
    前記子検索語の前記識別子に基づいて、前記データベースから前記1つ以上の検索語候補を取得する一致サブモジュールと、を含む、請求項9に記載の装置。
  15. 前記取得モジュールはさらに、
    比較結果を提供するために、前記1つ以上の検索語候補と前記子検索語を比較する比較サブモジュールと、
    前記比較結果に基づいて、前記子検索語と前記1つ以上の検索語候補との前記一致する結果を取得する一致する結果取得サブモジュールと、を含む、請求項14に記載の装置。
  16. 検索結果がユーザクライアントに対して表示されるようにする結果表示モジュールをさらに含む、請求項9に記載の装置。
  17. 検索システムであって、
    データベースから、本検索語に関する1つ以上の検索語候補を取得し、
    前記本検索語と前記1つ以上の検索語候補とのプロパティを読み出し、前記プロパティは、前記本検索語と前記1つ以上の検索語候補とのそれぞれの一致する結果を記述する、
    前記一致する結果に基づいて、前記本検索語が書き換えられる必要があるかどうかを決定し、
    書き換えられた本検索語を提供するために、前記一致する結果に基づいて前記本検索語を書き換える、
    データ書き換えシステムと、
    前記書き換えられた本検索語に基づいて検索を実行する検索エンジンと、を備える、検索システム。
JP2012510381A 2009-05-12 2010-04-30 検索方法、装置およびシステム Expired - Fee Related JP5698222B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910135276.X 2009-05-12
CN200910135276XA CN101887436B (zh) 2009-05-12 2009-05-12 一种检索方法和装置
PCT/IB2010/001094 WO2010131101A1 (en) 2009-05-12 2010-04-30 Search method, apparatus and system

Publications (2)

Publication Number Publication Date
JP2012527028A true JP2012527028A (ja) 2012-11-01
JP5698222B2 JP5698222B2 (ja) 2015-04-08

Family

ID=43073362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012510381A Expired - Fee Related JP5698222B2 (ja) 2009-05-12 2010-04-30 検索方法、装置およびシステム

Country Status (6)

Country Link
US (2) US8880512B2 (ja)
EP (1) EP2430575A4 (ja)
JP (1) JP5698222B2 (ja)
CN (1) CN101887436B (ja)
HK (1) HK1148367A1 (ja)
WO (1) WO2010131101A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536382B2 (en) * 2004-03-31 2009-05-19 Google Inc. Query rewriting with entity detection
US8185544B2 (en) * 2009-04-08 2012-05-22 Google Inc. Generating improved document classification data using historical search results
US8468143B1 (en) 2010-04-07 2013-06-18 Google Inc. System and method for directing questions to consultants through profile matching
JP5552448B2 (ja) * 2011-01-28 2014-07-16 株式会社日立製作所 検索式生成装置、検索システム、検索式生成方法
CN102915314B (zh) * 2011-08-05 2018-07-31 深圳市世纪光速信息技术有限公司 一种纠错对自动生成方法及系统
CN104166651B (zh) * 2013-05-16 2017-10-13 阿里巴巴集团控股有限公司 基于对同类数据对象整合的数据搜索的方法和装置
CN104239301B (zh) * 2013-06-06 2018-02-13 阿里巴巴集团控股有限公司 一种数据比对方法和装置
CN103617241B (zh) * 2013-11-26 2017-06-06 北京奇虎科技有限公司 搜索信息处理方法、浏览器终端与服务器
CN104750762A (zh) * 2013-12-31 2015-07-01 华为技术有限公司 一种信息检索方法及装置
CN103886039B (zh) * 2014-03-10 2018-01-19 百度在线网络技术(北京)有限公司 应用检索的优化方法和装置
CN104063433A (zh) * 2014-06-10 2014-09-24 百度在线网络技术(北京)有限公司 推荐内容的展现方法和装置
US9547690B2 (en) * 2014-09-15 2017-01-17 Google Inc. Query rewriting using session information
CN105574019B (zh) * 2014-10-14 2020-07-31 阿里巴巴(中国)有限公司 一种查询参数处理方法及装置
CN107491447B (zh) * 2016-06-12 2021-01-22 百度在线网络技术(北京)有限公司 建立查询改写判别模型、查询改写判别的方法和对应装置
CN107784014A (zh) * 2016-08-30 2018-03-09 广州市动景计算机科技有限公司 信息搜索方法、设备及电子设备
CN108153770A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种搜索引擎加速的方法和系统
CN107958406A (zh) * 2017-11-30 2018-04-24 北京小度信息科技有限公司 查询数据的获取方法、装置及终端
WO2019228065A1 (en) * 2018-06-01 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for processing queries
CN109241243B (zh) * 2018-08-30 2020-11-24 清华大学 候选文档排序方法及装置
CN111339759B (zh) * 2020-02-21 2023-07-25 北京百度网讯科技有限公司 领域要素识别模型训练方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496176A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索装置
US20040249808A1 (en) * 2003-06-06 2004-12-09 Microsoft Corporation Query expansion using query logs
JP2007164635A (ja) * 2005-12-15 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> 同義語彙獲得方法及び装置及びプログラム
JP2009080577A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 情報検索支援装置及び方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US8396859B2 (en) * 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
US7392238B1 (en) * 2000-08-23 2008-06-24 Intel Corporation Method and apparatus for concept-based searching across a network
US20020059220A1 (en) * 2000-10-16 2002-05-16 Little Edwin Colby Intelligent computerized search engine
US7536382B2 (en) * 2004-03-31 2009-05-19 Google Inc. Query rewriting with entity detection
US7996419B2 (en) * 2004-03-31 2011-08-09 Google Inc. Query rewriting with entity detection
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
CN101601032A (zh) * 2005-01-18 2009-12-09 雅虎公司 结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US9177124B2 (en) * 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US20070214158A1 (en) * 2006-03-08 2007-09-13 Yakov Kamen Method and apparatus for conducting a robust search
US7653618B2 (en) * 2007-02-02 2010-01-26 International Business Machines Corporation Method and system for searching and retrieving reusable assets
CN101276361B (zh) * 2007-03-28 2010-09-15 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
US20080294619A1 (en) * 2007-05-23 2008-11-27 Hamilton Ii Rick Allen System and method for automatic generation of search suggestions based on recent operator behavior
US7921069B2 (en) * 2007-06-28 2011-04-05 Yahoo! Inc. Granular data for behavioral targeting using predictive models
US20090037399A1 (en) * 2007-07-31 2009-02-05 Yahoo! Inc. System and Method for Determining Semantically Related Terms
CN101601038A (zh) * 2007-08-03 2009-12-09 松下电器产业株式会社 关联词语提示装置
US7788276B2 (en) * 2007-08-22 2010-08-31 Yahoo! Inc. Predictive stemming for web search with statistical machine translation models
US20090055386A1 (en) * 2007-08-24 2009-02-26 Boss Gregory J System and Method for Enhanced In-Document Searching for Text Applications in a Data Processing System
CN101398820B (zh) * 2007-09-24 2010-11-17 北京启明星辰信息技术股份有限公司 一种大规模关键词匹配方法
US8583670B2 (en) * 2007-10-04 2013-11-12 Microsoft Corporation Query suggestions for no result web searches
CN101241512B (zh) * 2008-03-10 2012-01-11 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
US8095540B2 (en) * 2008-04-16 2012-01-10 Yahoo! Inc. Identifying superphrases of text strings
JP5355949B2 (ja) * 2008-07-16 2013-11-27 株式会社東芝 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
US20100205198A1 (en) * 2009-02-06 2010-08-12 Gilad Mishne Search query disambiguation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496176A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索装置
US20040249808A1 (en) * 2003-06-06 2004-12-09 Microsoft Corporation Query expansion using query logs
JP2007164635A (ja) * 2005-12-15 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> 同義語彙獲得方法及び装置及びプログラム
JP2009080577A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 情報検索支援装置及び方法

Also Published As

Publication number Publication date
CN101887436A (zh) 2010-11-17
US9576054B2 (en) 2017-02-21
US20150074076A1 (en) 2015-03-12
US8880512B2 (en) 2014-11-04
EP2430575A4 (en) 2013-02-20
CN101887436B (zh) 2013-08-21
HK1148367A1 (en) 2011-09-02
EP2430575A1 (en) 2012-03-21
JP5698222B2 (ja) 2015-04-08
WO2010131101A1 (en) 2010-11-18
US20110082860A1 (en) 2011-04-07

Similar Documents

Publication Publication Date Title
JP5698222B2 (ja) 検索方法、装置およびシステム
US10409880B2 (en) Techniques for presenting content to a user based on the user&#39;s preferences
US9792304B1 (en) Query by image
CA2783446C (en) Personalized tag ranking
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN107729336B (zh) 数据处理方法、设备及系统
US9836539B2 (en) Content quality filtering without use of content
EP2438539B1 (en) Co-selected image classification
US20150234927A1 (en) Application search method, apparatus, and terminal
US20160328467A1 (en) Natural language question answering method and apparatus
US20130006956A1 (en) Computer Processing Method and System for Searching
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
CN112100396B (zh) 一种数据处理方法和装置
CN111611452A (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
AU2012272479A1 (en) Preference-guided data exploration and semantic processing
KR20120097840A (ko) 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
CN111737571B (zh) 搜索方法、装置和电子设备
JP5286298B2 (ja) 評判分析装置、評判分析方法及び評判分析プログラム
JP5031416B2 (ja) 検索方法および検索装置
CN113656538A (zh) 生成正则表达式的方法、装置、计算设备及存储介质
Priyadarshini et al. Semantic clustering approach for documents in distributed system framework with multi-node setup
KR20150096848A (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
TWI484356B (zh) Retrieval methods, devices and systems
KR20100101464A (ko) 태그 정보를 이용한 검색 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141017

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20141020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20141020

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150212

R150 Certificate of patent or registration of utility model

Ref document number: 5698222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees