JP5575902B2 - クエリのセマンティックパターンに基づく情報検索 - Google Patents

クエリのセマンティックパターンに基づく情報検索 Download PDF

Info

Publication number
JP5575902B2
JP5575902B2 JP2012527862A JP2012527862A JP5575902B2 JP 5575902 B2 JP5575902 B2 JP 5575902B2 JP 2012527862 A JP2012527862 A JP 2012527862A JP 2012527862 A JP2012527862 A JP 2012527862A JP 5575902 B2 JP5575902 B2 JP 5575902B2
Authority
JP
Japan
Prior art keywords
semantic
query
queries
user
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012527862A
Other languages
English (en)
Other versions
JP2013504118A5 (ja
JP2013504118A (ja
Inventor
ペン・シェン
サン・ジアン
ホウ・レイ
チャン・チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013504118A publication Critical patent/JP2013504118A/ja
Publication of JP2013504118A5 publication Critical patent/JP2013504118A5/ja
Application granted granted Critical
Publication of JP5575902B2 publication Critical patent/JP5575902B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

[関連出願の相互参照]
本出願は、あらゆる目的のために参照によって本明細書に組み込まれる、発明の名称を「INFORMATION RETRIEVAL METHOD AND SYSTEM THEREOF(情報検索方法及びそのシステム)」とする、2009年9月4日付けで出願された中国特許出願第200910171083.X号に基づく優先権を主張する。
サーチエンジンは、情報の収集及び探索にとって不可欠なツールである。代表的なサーチエンジンは、キーワード又はキーフレーズなどの、ユーザによる入力クエリを解析し、結果を探して返す。サーチエンジンは、ユーザのニーズに合う関連の情報を探すために、インデックス付けされた情報を使用することが多い。既存のサーチエンジンの多くは、クエリをカテゴリ分けし、次いでそのカテゴリの中から関連のエントリを見つけるように設計される。例えば、「マイケル・ジョーダン」についてのクエリは、スポーツのカテゴリに分類され、「バラク・オバマ」は、ニュース及び/又は政治のカテゴリに分類されるであろう。
カテゴリに基づくクエリ分類は、既にカテゴリ分けされた特定の情報をサーチするように設計されたバーティカル(垂直)サーチエンジンにとっては有用であるが、ユーザの意図を特定するには適していないことが多い。例えば、カテゴリに基づく代表的なサーチエンジンは、クエリ「携帯バッテリ」がエレクトロニクスの分野であることは判定できるが、ユーザが携帯電話を探しているのか又はバッテリを探しているのかを容易に把握できないことが多く、結果として関連性を低下させる。
発明の様々な実施形態が、以下の詳細な説明及び添付の図面で開示される。
本発明の実施形態における又は先行技術における技術的解決策のより良い理解のために、実施形態又は先行技術の添付の図面が以下で簡単に説明される。当業者にならば、以下で説明される図面が本発明の実施形態の一部にすぎないこと、及び創作的な努力を伴うことなくこれらの図面に基づいてその他の図面が得られることが明らかである。
前処理段階の一実施形態を示すフローチャートである。
クエリを処理するためのプロセスの一実施形態を示すフローチャートである。
上記の前処理動作を実現する情報処理システムの一実施形態のブロック図である。
上記のクエリ処理動作を実現する情報処理システムの一実施形態のブロック図である。
情報検索システムの別の実施形態を示すブロック図である。
情報検索システムの別の実施形態を示すブロック図である。
本発明は、プロセス、装置、システム、合成物、コンピュータ可読ストレージメディアに実装されたコンピュータプログラム製品、並びに/又は結合先のメモリに格納された命令及び/若しくは結合先のメモリによって提供される命令を実行するように構成されたプロセッサなどのプロセッサを含む、数々の形態で実装することができる。本明細書では、これらの実装形態、又は本発明がとりえるその他のあらゆる形態が技術と称されるであろう。総じて、開示されたプロセスのステップの順序は、本発明の範囲内で可変である。別途明記されない限り、タスクを実施するように構成されているとして説明されるプロセッサ又はメモリなどのコンポーネントは、所定時にタスクを実施するように一時的に構成された汎用コンポーネントとして、又はタスクを実施するように製造された特殊コンポーネントとして実装されてよい。本明細書で使用される「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ又は2つ以上のデバイス、回路、及び/又は処理コアを言う。
本発明の原理を示した添付の図面とともに、以下で、本発明の1つ又は2つ以上の実施形態の詳細な説明が提供される。本発明は、このような実施形態との関連で説明されているが、いかなる実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、数々の代替形態、変更形態、及び均等物を内包している。以下の説明では、本発明の完全な理解を可能にするために、数々の詳細が明記されている。これらの詳細は、例示を目的として提供されており、本発明は、これらの詳細の一部又は全部を伴わずとも、特許請求の範囲にしたがって実施されるであろう。明瞭さを期するために、本発明に関係した技術分野で知られている技術的要素は、本発明が不必要に不明瞭にされないように、詳細な説明を省略されている。
ユーザの意図と、フィルタリング動作及びランキング動作とを特定するためにクエリのセマンティックパターンを使用する情報検索が開示される。一部の実施形態では、クエリのセマンティックパターンと、フィルタリング動作及びランキング動作との間の対応関係を構築するために、前処理段階が使用される。新しいクエリが、それらのセマンティックパターンを特定するために処理され、それらのセマンティックパターンに対応するフィルタリング動作及びランキング動作を使用して、クエリ結果がフィルタリング及びランキングされる。ユーザの意図は、セマンティックパターンに反映されるので、フィルタリング及びランキングを経た結果は、高い関連性を持つ傾向がある。
図1は、前処理段階の一実施形態を示すフローチャートである。プロセス100は、図3との関連において以下で説明されるシステム300などのシステムにおいて実施されてよい。
図1において、ステップ201では、クエリに対応するセマンティックタグを特定するために、履歴クエリ記録のセットに対してセマンティック解析が実施される。本明細書で使用されるセマンティックタグとは、クエリ用語の特徴付け(特性化)を意味する。クエリ用語と、それらに対応するセマンティックタグとの関連付けを確立するために、手動の指定(ウェブページ/ウェブサイトの作成者又はレビュー担当者による指定など)を使用することができる。例えば、「電話」というクエリ用語は、「製品」というセマンティックタグに関連付けられ、「携帯」という用語は、「修飾語句」というセマンティックタグに関連付けられ、「メインテナンス」という用語は、「意図」というセマンティックタグに関連付けられる。この例では、プロセス100が開始される前に、クエリ用語及びそれらに対応するセマンティックタグのデータベースが使用可能にされ、セマンティック解析は、そのデータベースのなかでクエリ用語を探すことによって実施される。
ステップ104では、セマンティックタグに基づく統計的測定によって、クエリのセマンティックパターンが決定される。セマンティックパターンは、自然言語の特性に基づくパターンであり、手動で且つ/又は機械学習によって構築されてよい。例えば、クエリが複数のクエリワードを含む場合は、自然言語の特性に基づいて、中心用語が決定される。この例では、クエリのセマンティックパターンは、クエリ用語のセマンティックタグの要約である。例えば、「携帯バッテリ」というクエリは、「バッテリ」という中心用語と、「修飾語句+製品」というセマンティックパターンとを有する。同様に、「デジタルカメラ」もやはり、「修飾語句+製品」というセマンティックパターンを有する。セマンティックパターンのその他の例には、「製品+意図」(例えば「エンジンメインテナンス」)や、「製品+価格」(例えば「バナナ価格」)などがある。クエリに対応するセマンティックパターンは、セマンティックパターン表に格納される。履歴データを集めるための時間が長いほど、そして記録されるクエリが多いほど、セマンティックパターンの適用範囲が広まり、したがって、クエリ結果を見つけ出す精度が向上される。
パターンが統計的に有意であることを保証するために、履歴クエリデータのセット用に数々のセマンティックパターンが形成されるであろうが、使用されるのは、選択されたもののみである。したがって、ステップ106では、既定の閾値に少なくとも適合する率で出現するセマンティックパターンが特定され、選択される。
一部の実施形態では、履歴記録の集合のなかの各クエリエントリが、
[Query]\t[Semantic Pattern]\t[PV]
の形で表示される。ここで、「Query」は、クエリであり、「Semantic Pattern」は、セマンティックパターンであり、「PV」は、履歴記録集合のなかでそのクエリがなされた回数である。
エントリは、以下の表に格納される。
Figure 0005575902
表中のエントリに基づいて、各セマンティックパターンがサーチクエリのなかで出現する回数が、そのセマンティックパターンに対応するPV値を加算することによって決定される。例えば、「修飾語句+製品」のパターンは、この記録セットのなかで26回出現する。こうして、所定の閾値を超える合計PVを持つセマンティックパターンが特定される。
一部の実施形態では、所定の閾値を超える率で出現するセマンティックパターンがマーク付けされる。一部の実施形態では、このようなセマンティックパターンは、個別に格納される。
ステップ108では、履歴記録に基づいて、セマンティックパターンに対応するユーザ行為が決定される。本明細書で使用されるユーザ行為とは、クエリが入力された後に返される結果のなかから特定のリンクを選択するなどのユーザ行動を言う。ユーザクエリの記録及びクエリに応答したユーザ行動に基づいて、セマンティックパターンと、ユーザ行為との間の対応関係が確立される。例えば、「ブランド+価格」というパターンの場合は、ユーザ行為は、厳密な一致を提供する結果、信頼できるウェブサイトからの結果、及び場所に基づく結果を選択することを含むであろう。
ユーザ行為は、ユーザの意図を示し、ユーザの意図は、一部の実施形態では、ユーザ意図属性を使用して特性化される。ステップ110では、セマンティックパターンに関連付けられたユーザ行為に基づいて、各セマンティックパターンの1つ又は2つ以上のユーザ意図属性が決定される。
ユーザ意図属性の例には、曖昧性の程度、信頼性要件、時間効率要件、及び場所要件などがある。一部の実施形態で使用される属性、及びそれらの属性に対応するものとして考えられる値が、以下の表2に示される。
Figure 0005575902
本明細書で使用される曖昧性の程度とは、問い合わせされた情報に対するユーザの理解の確実性の程度を言う。ユーザが問い合わせ情報に関する特定の理解を有するが、応答が固有である必要が無いときは、セマンティックパターンは、限定的セマンティックパターンであるとみなされる。クエリの限定的セマンティックパターンの例には、具体的なブランド名若しくは製品番号(例えば「ノキアN92オリジナルバッテリ」)、又は特定の定義を有するワードがある。ユーザが固有な応答を要求するクエリをなすときは、そのクエリのセマンティックパターンは、正確なセマンティックパターンであると見なされる。例えば、「アリババカスタマサービスの電話番号」又は「毛沢東の誕生日」を求めるクエリなどである。ユーザのクエリが限定的でも正確でもないときは、サーチエンジンによって複数の視点、複数のソース、及び複数の分野の結果が提供され、セマンティックパターンは、一般化されたセマンティックパターンであると見なされる。例えば、「上海の供給協同組合」を求めるクエリは、一般化されたセマンティックパターンを有する。
セマンティックパターンの曖昧性の程度の決定は、或る特定のクエリの各クエリワードにしたがって実施されてよいことを留意されるべきである。例えば、「ノキアN92」の範囲は、「携帯」の範囲よりも大幅に狭いので、「携帯バッテリ」は、一般化されたパターンを有し、「ノキアN92バッテリ」は、限定的なパターンを有する。
信頼性要件は、ユーザクエリが信頼できるソースからの結果を要求するかどうかを言う。信頼性要件は、文字通りの意味から決定されてよい。例えば、「年+政策」というセマンティックパターンは、信頼できる結果を要求するパターンであり、したがって、「年+政策」というセマンティックパターンを持つクエリ(「2008税法」など)の場合は、公式政府のウェブサイトなどの信頼できるソースからの結果が優先される。
時間効率要件は、結果が或る特定の時点又は或る特定の期間からのものであるという要件を言う。これは、間接的な時間要件であってよく、例えば、「バナナ価格」というクエリは、情報が可能な限りリアルタイムに近いことを要求する。時間効率要件は、文字通りの意味から決定されてもよい。もし、セマンティックパターンが具体的な時間ワード(例えば年、月、日)に関連している場合、そのセマンティックパターンは、時間効率要件(例えば「2008年輸出税申告制限」)を有する。ワードによっては、例えば「新しい」や「最新」のように、時間効率要件を直接的に示すものもある。したがって、「最新ノキア」というクエリは、時間効率要件を有するセマンティックパターンを伴うものとして構成される。
場所要件は、サーチ対象が場所範囲制限を有するかどうかを言う。ユーザサーチ習慣に関する予備知識に基づいて、或る種のクエリは、場所に関連していると見なされる。例えば、「石炭輸送」というクエリは、輸出される製品又は輸入される製品に関する情報を暗に意味する「製品+輸送」という対応するセマンティックパターンを有する。
一部の実施形態では、製品に関連した或る種のセマンティックパターンが、製品が小口販売されるか又は大口販売されるかを示す量的属性を有するであろう。例えば、「米販売」というクエリは、通常は卸売クエリであると見なされ、「デルD630」は、小売クエリであると見なされる。
したがって、「輸送製品」などのセマンティックパターンは、「曖昧性」、「信頼できる結果が要求されず」、「時間効率が要求される」、「場所が要求される」、及び「量的サイズが決定されず」という属性を有する。一部の実施形態では、パターンは、
[Pattern(パターン)]\t[Ambiguity(曖昧性)]\t[Authority(信頼性)]\t[Temporal(時間性)]\t[Regional(場所性)]\t[Batch(まとまり性)]
の形で格納される。
表3は、幾つかのクエリの意図解析結果の一例である。結果は、クエリのセマンティックパターンに対応するユーザサーチ意図属性を示す。
Figure 0005575902
ユーザが特定のクエリ結果を選択するとき、それらの行為は、或る特定のフィルタリング動作及びランキング動作を実施するのと同様の効果を有する。したがって、ステップ112では、ユーザ意図属性に基づいて、フィルタリング動作及びランキング動作が決定される。フィルタリング動作及びランキング動作は、検索された結果を処理するやり方である。フィルタリング動作は、場所、信頼性の程度、曖昧性などの属性に基づいて、特定の結果を選択する。ランキング動作は、時間などの或る特定の特徴に基づいて、結果を順序付ける。例えば、サーチ時間に近い作成時間を持つ結果ほど、高いランクにランキングされる。属性の設定は、どのフィルタリング方法及びどのランキング方法が選択されるかを決定する。異なる組み合わせの属性設定は、異なるフィルタリング方法及び異なるランキング方法に対応する。例えば、もし、セマンティックパターンが信頼できる結果を要求する場合は、結果情報は、信頼できるウェブサイトからの結果ページなどの信頼できる結果を選択する対応するフィルタリング方法によってフィルタリングされる。もし、セマンティックパターンが場所要件を有する場合は、結果情報は、場所要件に適合するようにフィルタリングされる。1つのサーチ結果セットに対し、複数のフィルタリング方法を適用することができる。一部の実施形態では、フィルタリングされた結果は、曖昧性の程度に基づいてランキングもされ、曖昧性の程度が低いほど、高いランクにランキングされる。
この例では、前処理中に、ユーザサーチ意図属性のセットと、或る特定のフィルタリング方法及びランキング方法との間の対応関係が事前に定義され、使用可能にされるとする。一部の実施形態では、対応関係を格納するために、「対応関係データ表」が使用される。フィルタリング方法及びランキング方法と、或る特定のセマンティックパターンとの間の対応関係のエントリ例が、表4に示される。
Figure 0005575902
前処理プロセスでは、様々なユーザ入力クエリが、結果として同じセマンティックパターンになることがある。セマンティックパターンを得ることの複雑性を軽減するために、クエリは、事前に処理されてよい。一部の実施形態では、クエリは、それらのセマンティックパターンが決定される前に、冗長な又は無意味な記号を除去するためにフィルタリングされる、追加の意味を追加しない部分を除去するためにステミング(語幹抽出)される、クエリを個々の成分に分けるためにセグメント化(分割)されるなどされる。
また、或る特定の電子商取引プラットフォームでは、ユーザは、通常は商取引活動に従事しており、尚且つそれらのクエリの多くは、このような活動を対象としているので、前処理プロセス中にセマンティックパターンを差別化する能力は、更に向上させることが可能である。具体的には、「供給する」、「買い申し込みする」、「購入する」、及び「入会(加入)する」などの、ユーザ意図を直接的に表現することができる或る特定の語(ワード)が特定され、これらは、以下で意図識別子と称される。意図識別子を含むクエリは、通常は製品も含むので、一部の実施形態では、このようなクエリは、「意図+製品」又は「製品+意図」のセマンティックパターンに自動的にマッピングされる。例えば、「車購入」は、「意図+製品」というセマンティックパターンに自動的にマッピングされ、「トロピカルフルーツ供給」は、「製品+意図」というセマンティックパターンに自動的にマッピングされる。クエリ意図に関連付けられた意図属性(例えば、曖昧性の程度、信頼性要件、時間効率要件、場所要件、及び量サイズ)が決定されたら、セマンティックパターンに対応する意図属性セットのフィルタリング方法及びランキング方法を決定することができる。したがって、後続のサーチプロセスにおいて、もし、クエリが意図識別子を含む場合は、そのセマンティックパターンは、「意図+製品」又は「製品+意図」であると決定することができる。これらの特別なセマンティックパターンの例が、表5に示される。
Figure 0005575902
意図識別子に関連した全てのセマンティックパターンを見つけて決定することができるとは限らないので、クエリの文脈を考慮することなく意図識別子を決定すると、結果として適用範囲が好ましくなくなることがある。この問題を解決するために、クエリは、クエリのPVに基づいて統計的測定がなされる前に、個々のワード及び対応するセマンティックパターンがPV総数に含まれるように拡張されてよい。例えば、「化学製品輸送」というクエリは、「製品輸送」、「製品意図識別子」、及び「化学製品意図識別子」に拡張されてよい。
拡張されたクエリ及びそのパターンは、量が大きくなる可能性があるので、分散計算プラットフォームを使用して、パターンにしたがってマージング(併合)が実施されてよく、その結果に対し、PVにしたがってランキングが実施されてよい。結果は、
[Pattern(パターン)]\t[PV]\t[Unique Count(固有総数)]\t[Examples(例)]
としてフォーマットされてよい。
一部の実施形態では、適切なパターンを決定するために、前処理プロセスで決定されたセマンティックパターンに対してパターンスクリーニングが実施される。適切なパターンは、複数のクエリに対して一様な適用範囲を有することが望ましい。一部の実施形態では、以下のように、評価が実施される。すなわち、或るセマンティックパターンを適用されるPV数の閾値を設定し、そのセマンティックパターンを適用されるクエリPV分布のエントロピーの閾値を設定し、クエリに基づいてセマンティックパターンのエントロピーを計算し、適用範囲が好ましくない又は分布における一様性が乏しいセマンティックパターンを結果から取り除くために、決定されたセマンティックパターンをPV閾値及び閾値エントロピーに基づいてフィルタリングする。一部の実施形態では、セマンティックパターンを適用されるクエリPV分布のエントロピーは、以下のように計算される。
Figure 0005575902
ここで、iは、クエリのインデックスに対応し、Piは、セマンティックパターンに対応する全てのクエリのなかでそのクエリが出現する確率に対応する。
例えば、もし、或る特定のセマンティックパターンが2つの対応するクエリを有し、尚且つ各クエリが履歴サンプルのなかで10回出現するならば、セマンティックパターンのエントロピーは、
−0.5*log0.5−0.5log0.5=log2
である。
別の例として、もし、セマンティックパターンが2つの対応するクエリを有し、尚且つ1つが履歴サンプルのなかで5回出現し、もう1つが10回出現するならば、セマンティックパターンのエントロピーは、
−1/3*log(1/3)−2/3*log(2/3)
である。
高いエントロピー値は、セマンティックパターンによる適用範囲が優れていることを示す。事前に定義された閾値に適合しない値などの低いエントロピー値は、セマンティックパターンによる適用範囲が好ましくないことを示し、したがって、結果から取り除かれる。
続いて、意図解析が実施され、セマンティックパターンと、分類された対象との間の対応関係が設定される。
更に、セマンティックパターンを差別化する能力を高めるために意図識別子を設定するに際しては、1つのクエリが複数のセマンティックパターンを有することがある。具体的な意味を有するセマンティックパターンは、優先度が高く、抽象的な意味を有するセマンティックパターンは、優先度が低い。例えば、「バナナ価格」というクエリは、2つのパターン「製品+意図」及び「製品+価格」に対応するであろう。第2のパターンは、第1のパターンよりもより具体的な意味を有するので、「バナナ価格」に対応するセマンティックパターンとして、「バナナ+価格」が選択される。
上記の前処理プロセスは、セマンティックパターンと、フィルタリング方法及びランキング方法との間に対応関係を設定する。受信されたクエリを、そのセマンティックパターン及び対応関係に基づいて処理するときは、サーチエンジンによって返されたクエリ結果は、ユーザの意図に良く適合する結果のリストを表示するために、フィルタリング及びランキングされる。図2は、クエリを処理するためのプロセスの一実施形態を示すフローチャートである。
ステップ202では、ユーザクエリが受信される。ステップ204では、クエリに応答してサーチ結果が生成される。一部の実施形態では、サーチ結果は、標準的なサーチエンジンによって生成される。
ステップ206では、クエリのセマンティックパターンを決定するために、クエリに対してセマンティック解析が実施される。一部の実施形態では、事前に設定されたクエリ用語/セマンティックタグデータベースを使用して、一致するセマンティックタグが見つけ出され、上記の例において示された表1などのクエリ/セマンティックパターンを使用して、一致するセマンティックパターンが見つけ出される。ゆえに、「デジタルカメラ」又は「携帯バッテリ」というクエリは、「修飾語句+製品」というセマンティックパターンに対応する。
ステップ208では、上記に示された対応関係データ表(表4)などの、事前に設定された基準情報に基づいて、クエリのセマンティックパターンに対応するフィルタリング方法及びランキング方法が決定される。クエリのセマンティックパターンを与えられたら、表のなかからフィルタリング方法及びランキング方法が探し出される。
ステップ210では、サーチエンジンによって返されたサーチ結果が、フィルタリング方法を使用してフィルタリングされ、フィルタリング方法によって選択された結果が、ランキング方法にしたがってランキングされる。
ステップ212では、フィルタリング及びランキングを経た結果が表示される。
具体的には、サーチは、クエリを使用して実施され、検索された結果は、フィルタリング方法を使用してフィルタリングされ、最終的に、ランキング方法にしたがってランキングされて表示される。
例えば、「修飾語句+製品」というセマンティックパターンを有する「携帯バッテリ」というクエリの場合、対応するフィルタリング方法は、修飾条件として修飾語句「携帯」を使用して結果をスクリーニングし、サーチ対象としてサーチエンジンに製品「バッテリ」を入力するものである。
図3は、上記の前処理動作を実現する情報処理システムの一実施形態のブロック図である。システム300は、パソコン、サーバコンピュータ、ハンドヘルドすなわち携帯用のデバイス、フラットパネルデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ミニコンピュータ、大型コンピュータ、特殊用途向けデバイス、上記のシステム若しくはデバイスのうちの任意を含む分散コンピューティング環境、又は1つ若しくは2つ以上のプロセッサと該プロセッサにつながれたメモリとを含みプロセッサに命令を提供するように構成されたその他のハードウェア/ソフトウェア/ファームウェアの組み合わせなどの、1つ又は2つ以上のコンピューティングデバイスを使用して実装されてよい。
この例では、システム300は、基準ストレージユニット31と、受信ユニット32と、セマンティックパターンマッチングユニット33と、処理方法決定ユニット34と、実行ユニット35とを含む。
基準ストレージユニット31は、セマンティックパターンとフィルタリング方法及びランキング方法との間の対応関係を格納するように適応され、このセマンティックパターンは、既定の閾値に少なくとも適合する率で出現するセマンティックパターンである。セマンティックパターンは、自然言語の特性に基づいて要約される。
一部の実施形態では、基準ストレージユニットは、ユーザの行為を表すユーザのサーチ意図属性はもちろん、クエリのセマンティックパターンの統計的測定のためにクエリに対応するユーザ行為のサーチログも格納する。ユーザのサーチ意図属性の設定は、フィルタリング方法及びランキング方法を決定する。したがって、セマンティックパターンと、フィルタリング方法及びランキング方法との間の対応関係を確立することができる。
受信ユニット32は、ユーザによって入力されたクエリを受信するように適応される。クエリは、複数のキーワードを含むのが普通である。
セマンティックパターンマッチングユニット33は、受信ユニット32によって受信されたクエリに対し、そのセマンティックタグを決定するために及び次いで該セマンティックタグに基づいてクエリのセマンティックパターンを決定するためにセマンティック解析を実施するように適応される。
処理方法決定ユニット34は、ストレージユニット31に格納された基準情報にしたがって、クエリのセマンティックパターンに対応するフィルタリング方法及びランキング方法を決定するように適応される。
実行ユニット35は、フィルタリング方法及びランキング方法を使用して、検索された結果を処理するように適応される。一部の実施形態では、実行ユニットは、上述のようなパターンスクリーニングも実施する。
図4は、上記のクエリ処理動作を実現する情報処理システムの一実施形態のブロック図である。システム400は、パソコン、サーバコンピュータ、ハンドヘルドすなわち携帯用のデバイス、フラットパネルデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ミニコンピュータ、大型コンピュータ、特殊用途向けデバイス、上記のシステム若しくはデバイスのうちの任意を含む分散コンピューティング環境、又は1つ若しくは2つ以上のプロセッサと該プロセッサにつながれたメモリとを含みプロセッサに命令を提供するように構成されたその他のハードウェア/ソフトウェア/ファームウェアの組み合わせなどの、1つ又は2つ以上のコンピューティングデバイスを使用して実装されてよい。
この例では、システム400は、基準ストレージユニット41と、受信ユニット42と、セマンティックパターンマッチングユニット43と、処理方法決定ユニット44と、実行ユニット45と、第1のスクリーニングユニット46とを含む。
受信ユニット42、セマンティックパターンマッチングユニット43、処理方法決定ユニット44、及び実行ユニット45は、受信ユニット32、セマンティックパターンマッチングユニット33、処理方法決定ユニット34、及び実行ユニット35と実質的に同様に機能する。
第1のスクリーニングユニット46は、既定の期間内にセマンティックパターンに一致するクエリの数を計算し、セマンティックパターンによる適用範囲をクエリの数対クエリの総数の比として決定し、既定の閾値を超える適用範囲を持つセマンティックパターンを得るように適応される。
基準ストレージユニット41は、セマンティックパターンと、フィルタリング方法及びランキング方法との間の対応関係を格納するように適応され、このセマンティックパターンは、既定の閾値を超える出現率を持つとともに履歴記録のなかのクエリのセマンティックパターンのなかで既定の閾値を超える適用範囲を持つセマンティックパターンである。
図5は、情報検索システムの別の実施形態を示したブロック図である。システム500は、基準ストレージユニット51と、受信ユニット52と、セマンティックパターンマッチングユニット53と、処理方法決定ユニット54と、実行ユニット55と、第2のスクリーニングユニット56とを含む。
受信ユニット52、セマンティックパターンマッチングユニット53、処理方法決定ユニット54、及び実行ユニット55は、受信ユニット32、セマンティックパターンマッチングユニット33、処理方法決定ユニット34、及び実行ユニット35と実質的に同様に機能する。
第2のスクリーニングユニット56は、問い合わせされた全てのキーワードに照らして同じセマンティックパターンを持つキーワードのエントロピーを計算し、該エントロピーを、セマンティックパターンを差別化する能力として決定し、既定の値を超えるエントロピーを持つセマンティックパターンを得るように適応される。
基準ストレージユニット51は、セマンティックパターンと、フィルタリング方法及びランキング方法との間の対応関係を格納するように適応され、該セマンティックパターンは、既定の閾値を超える出現率を持つとともに履歴記録のなかのクエリのセマンティックパターンのなかで既定の閾値を超えるエントロピーを持つセマンティックパターンである。
図6は、情報検索システムの別の実施形態を示すブロック図である。システム600は、基準ストレージユニット61と、受信ユニット62と、セマンティックパターンマッチングユニット63と、処理方法決定ユニット64と、実行ユニット65と、第3のスクリーニングユニット66とを含む。
受信ユニット62、セマンティックパターンマッチングユニット63、処理方法決定ユニット64、及び実行ユニット65は、受信ユニット32、セマンティックパターンマッチングユニット33、処理方法決定ユニット34、及び実行ユニット35と実質的に同様に機能する。
第3のスクリーニングユニット66は、既定の期間内にセマンティックパターンに一致するクエリの数を計算し、セマンティックパターンによる適用範囲をクエリの数対クエリの総数の比として決定し、既定の期間内に問い合わせされた全てのキーワードに照らして同じセマンティックパターンを持つキーワードのエントロピーを計算し、既定の閾値を超える出現率を持ち、既定の閾値を超える適用範囲を持ち、尚且つ既定の値を超えるエントロピーを持つセマンティックパターンを得るように適応される。
基準ストレージユニット61は、セマンティックパターンと、フィルタリング方法及びランキング方法との間の対応関係を格納するように適応され、このセマンティックパターンは、既定の閾値を超える出現率を持つとともに履歴記録のなかのクエリのセマンティックパターンのなかで既定の閾値を超えるエントロピー及び既定の閾値を超える適用範囲を持つセマンティックパターンである。
システム300、400、500、及び600は、パソコン、サーバコンピュータ、ハンドヘルドすなわち携帯用のデバイス、フラットパネルデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ミニコンピュータ、大型コンピュータ、特殊用途向けデバイス、上記のシステム若しくはデバイスのうちの任意を含む分散コンピューティング環境、又は1つ若しくは2つ以上のプロセッサと該プロセッサにつながれたメモリとを含みプロセッサに命令を提供するように構成されたその他のハードウェア/ソフトウェア/ファームウェアの組み合わせなどの、1つ又は2つ以上のコンピューティングデバイスを使用して実装されてよい。上述されたユニットは、1つ又は2つ以上の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、プログラマブルロジックデバイス及び/若しくは所定の機能を実施するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装することができる。一部の実施形態では、ユニットは、本発明の実施形態で説明されている方法をコンピュータデバイス(パソコン、サーバ、ネットワーク機器など)に実行させるための幾つかの命令を含み尚且つ不揮発性のストレージ媒体(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなど)に格納することができるソフトウェア製品の形で具現化することができる。ユニットは、1つのデバイス上に実装されてよい、又は複数のデバイスに分散されてよい。ユニットの機能は、互いに合体されてよい、又は更に複数のサブユニットに分割されてよい。
本明細書で説明される実施形態の方法のステップ又はアルゴリズムは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、又はそれらの組み合わせによって実装されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、メモリ、読み出し専用メモリ(ROM)、電気的にプログラム可能なROM、電気的に消去可能なROM、レジスタ、ハードディスク、取り外し可能なハードディスク、CD−ROM、又は当該分野で知られたその他の任意の形態のストレージ媒体に配されてよい。
前処理動作を伴う情報検索と、クエリ処理とが開示されている。前処理動作は、自然言語の特性及びユーザの習慣に基づいてセマンティックパターンを設定し、セマンティックパターンと、フィルタリング方法及びランキング方法との間の対応関係を確立する。ユーザによって入力されたクエリを受信するに際し、クエリに一致するセマンティックパターンが決定され、対応するフィルタリング方法及びランキング方法を使用して、考えられるサーチ結果がフィルタリング及びランキングされる。サーチ結果の解析及び提示において、履歴データに基づくユーザ意図が考慮されるので、ユーザ意図と、検索された結果との間の関連性が改善され、サーチの精度が向上される。
以上の実施形態は、理解を明瞭にする目的で幾らか詳細に説明されてきたが、本発明は、提供された詳細に限定されない。本発明の実現には、多くの代替的手法がある。開示された実施形態は、例示的であって、限定的ではない。
適用例1:情報検索方法であって、履歴クエリ情報のセットを前処理することと、ユーザクエリを処理すること、を備え、前記履歴クエリ情報のセットを前処理することは、前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することと、前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することと、を備え、
前記ユーザクエリを処理することは、前記ユーザクエリを受信することと、前記ユーザクエリに応答して複数の結果を検索することと、前記ユーザクエリに対応するセマンティックパターンを決定することと、前記対応関係に基づいて、前記セマンティックパターンに対応するフィルタリング動作及びランキング動作のセットを決定することと、フィルタリング及びランキングを経た結果のセットを生成するために、前記複数の結果に対して前記フィルタリング動作及びランキング動作のセットを実行することと、を備える、方法。
適用例2:適用例1に記載の方法であって、前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することは、前記複数のクエリについて、対応するクエリの中の複数のクエリ用語を特徴付ける複数のセマンティックタグを各々が含む複数のセマンティックタグセットを特定することと、前記複数のセマンティックタグセットに基づいて、前記履歴記録のセットの中の前記複数のクエリに対応する可能性のあるセマンティックパターンを決定することと、前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することと、前記複数のセマンティックパターンのそれぞれは、既定の閾値に少なくとも適合する率で出現する、ことと、を含む、方法。
適用例3:適用例2に記載の方法であって、前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、各セマンティックパターンについて、前記セマンティックパターンに対応する対応クエリの総数を決定することと、前記対応クエリの総数が閾値を超える場合に前記各セマンティックパターンを選択することと、を含む、方法。
適用例4:適用例2に記載の方法であって、前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、各セマンティックパターンについて、前記セマンティックパターンのエントロピーを計算することと、そのエントロピーが既定の閾値に適合しない場合に前記セマンティックパターンを破棄することと、を含む、方法。
適用例5:適用例1に記載の方法であって、前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することは、前記複数のセマンティックパターンに対応する複数のユーザ行為セットを決定することと、前記複数のユーザ行為セットに対応する複数のユーザ意図属性セットを決定することと、前記複数のユーザ意図属性セットに基づいて、前記複数のフィルタリング動作及びランキング動作を決定することと、を含む、方法。
適用例6:適用例1に記載の方法であって、前記複数のユーザ意図属性は、曖昧性属性の程度を含む、方法。
適用例7:適用例1に記載の方法であって、前記複数のユーザ意図属性は、信頼性要件属性を含む、方法。
適用例8:適用例1に記載の方法であって、前記複数のユーザ意図属性は、時間効率要件属性を含む、方法。
適用例9:適用例1に記載の方法であって、前記複数のユーザ意図属性は、場所要件属性を含む、方法。
適用例10:適用例1に記載の方法であって、前記複数のユーザ意図属性は、量属性を含む、方法。
適用例11:情報検索システムであって、1つ又は2つ以上のプロセッサと、前記プロセッサにつながれ、前記プロセッサに命令を提供するように構成されている1つ又は2つ以上のメモリと、を備え、前記1つ又は2つ以上のプロセッサは、履歴クエリ情報のセットを前処理し、ユーザクエリを処理するように、構成されており、前記履歴クエリ情報のセットを前処理することは、前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することと、前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することと、を備え、
前記ユーザクエリを処理することは、前記ユーザクエリを受信することと、前記ユーザクエリに応答して複数の結果を検索することと、前記ユーザクエリに対応するセマンティックパターンを決定することと、前記対応関係に基づいて、前記セマンティックパターンに対応するフィルタリング動作及びランキング動作のセットを決定することと、フィルタリング及びランキングを経た結果のセットを生成するために、前記複数の結果に対して前記フィルタリング動作及びランキング動作のセットを実行することと、を備える、システム。
適用例12:適用例11に記載のシステムであって、前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することは、前記複数のクエリについて、対応するクエリの中の複数のクエリ用語を特徴付ける複数のセマンティックタグを、各々が含む複数のセマンティックタグセットを特定することと、前記複数のセマンティックタグセットに基づいて、前記履歴記録のセットのなかの前記複数のクエリに対応する可能性のあるセマンティックパターンを決定することと、前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することと、前記複数のセマンティックパターンのそれぞれは、既定の閾値に少なくとも適合する率で出現することと、を含む、システム。
適用例13:適用例12に記載のシステムであって、前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、各セマンティックパターンについて、前記セマンティックパターンに対応する対応クエリの総数を決定することと、前記対応クエリの総数が閾値を超える場合に、前記各セマンティックパターンを選択することと、を含む、システム。
適用例14:適用例12に記載のシステムであって、前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、各セマンティックパターンについて、前記セマンティックパターンのエントロピーを計算することと、そのエントロピーが既定の閾値に適合しない場合に前記セマンティックパターンを破棄することと、を含む、システム。
適用例15:適用例11に記載のシステムであって、前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することは、前記複数のセマンティックパターンに対応する複数のユーザ行為セットを決定することと、前記複数のユーザ行為セットに対応する複数のユーザ意図属性セットを決定することと、前記複数のユーザ意図属性セットに基づいて、前記複数のフィルタリング動作及びランキング動作を決定することと、を含む、システム。
適用例16:適用例11に記載のシステムであって、前記複数のユーザ意図属性は、曖昧性属性の程度を含む、システム。
適用例17:適用例11に記載のシステムであって、前記複数のユーザ意図属性は、信頼性要件属性を含む、システム。
適用例18:適用例11に記載のシステムであって、前記複数のユーザ意図属性は、時間効率要件属性を含む、システム。
適用例19:適用例11に記載のシステムであって、前記複数のユーザ意図属性は、場所要件属性を含む、システム。
適用例20:適用例11に記載のシステムであって、前記複数のユーザ意図属性は、量属性を含む、システム。
適用例21:個々の特性を推測するためのコンピュータプログラム製品であって、コンピュータ可読ストレージ媒体に実装され、履歴クエリ情報のセットを前処理することのためのコンピュータ命令と、ユーザクエリを処理することのためのコンピュータ命令と、を備え、
前記履歴クエリ情報のセットを前処理することは、前記履歴クエリ情報のセットのなかの複数のクエリに基づいて、複数のセマンティックパターンを決定することと、前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することと、を備え、
前記ユーザクエリを処理することは、前記ユーザクエリを受信することと、前記ユーザクエリに応答して複数の結果を検索することと、前記ユーザクエリに対応するセマンティックパターンを決定することと、前記対応関係に基づいて、前記セマンティックパターンに対応するフィルタリング動作及びランキング動作のセットを決定することと、フィルタリング及びランキングを経た結果のセットを生成するために、前記複数の結果に対して前記フィルタリング動作及びランキング動作のセットを実施することと、を備える、コンピュータプログラム製品。

Claims (19)

  1. 情報検索方法であって、
    履歴クエリ情報のセットを前処理することと、
    ユーザクエリを処理すること、
    を備え、
    前記履歴クエリ情報のセットを前処理することは、
    前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することであって
    前記複数のクエリについて、対応するクエリの中の複数のクエリ用語を特徴付ける複数のセマンティックタグを各々が含む複数のセマンティックタグセットを特定することと、
    前記複数のセマンティックタグセットに基づいて、前記履歴記録のセットの中の前記複数のクエリに対応する可能性のあるセマンティックパターンを決定することと、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することと、前記複数のセマンティックパターンのそれぞれは、既定の閾値に少なくとも適合する率で出現することと、を含む前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することと、
    前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することと、
    を備え、
    前記ユーザクエリを処理することは、
    前記ユーザクエリを受信することと、
    前記ユーザクエリに応答して複数の結果を検索することと、
    前記ユーザクエリに対応するセマンティックパターンを決定することと、
    前記対応関係に基づいて、前記セマンティックパターンに対応するフィルタリング動作及びランキング動作のセットを決定することと、
    フィルタリング及びランキングを経た結果のセットを生成するために、前記複数の結果に対して前記フィルタリング動作及びランキング動作のセットを実行することと、
    を備える、方法。
  2. 請求項に記載の方法であって、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、
    各セマンティックパターンについて、前記セマンティックパターンに対応する対応クエリの総数を決定することと、
    前記対応クエリの総数が閾値を超える場合に前記各セマンティックパターンを選択することと、
    を含む、方法。
  3. 請求項に記載の方法であって、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、
    各セマンティックパターンについて、前記セマンティックパターンのエントロピーを計算することと、
    そのエントロピーが既定の閾値に適合しない場合に前記セマンティックパターンを破棄することと、
    を含む、方法。
  4. 請求項1に記載の方法であって、
    前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することは、
    前記複数のセマンティックパターンに対応する複数のユーザ行為セットを決定することと、
    前記複数のユーザ行為セットに対応する複数のユーザ意図属性を決定することと、
    前記複数のユーザ意図属性に基づいて、前記複数のフィルタリング動作及びランキング動作を決定することと、
    を含む、方法。
  5. 請求項に記載の方法であって、
    前記複数のユーザ意図属性は、曖昧性属性の程度を含む、方法。
  6. 請求項に記載の方法であって、
    前記複数のユーザ意図属性は、信頼性要件属性を含む、方法。
  7. 請求項に記載の方法であって、
    前記複数のユーザ意図属性は、時間効率要件属性を含む、方法。
  8. 請求項に記載の方法であって、
    前記複数のユーザ意図属性は、場所要件属性を含む、方法。
  9. 請求項に記載の方法であって、
    前記複数のユーザ意図属性は、量属性を含む、方法。
  10. 情報検索システムであって、
    1つ又は2つ以上のプロセッサと、
    前記プロセッサにつながれ、前記プロセッサに命令を提供するように構成されている1つ又は2つ以上のメモリと、
    を備え、
    前記1つ又は2つ以上のプロセッサは、
    履歴クエリ情報のセットを前処理し、
    ユーザクエリを処理するように、
    構成されており、
    前記履歴クエリ情報のセットを前処理することは、
    前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することであって
    前記複数のクエリについて、対応するクエリの中の複数のクエリ用語を特徴付ける複数のセマンティックタグを、各々が含む複数のセマンティックタグセットを特定することと、
    前記複数のセマンティックタグセットに基づいて、前記履歴記録のセットのなかの前記複数のクエリに対応する可能性のあるセマンティックパターンを決定することと、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することと、前記複数のセマンティックパターンのそれぞれは、既定の閾値に少なくとも適合する率で出現することと、を含む、前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定することと、
    前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することと、
    を備え、
    前記ユーザクエリを処理することは、
    前記ユーザクエリを受信することと、
    前記ユーザクエリに応答して複数の結果を検索することと、
    前記ユーザクエリに対応するセマンティックパターンを決定することと、
    前記対応関係に基づいて、前記セマンティックパターンに対応するフィルタリング動作及びランキング動作のセットを決定することと、
    フィルタリング及びランキングを経た結果のセットを生成するために、前記複数の結果に対して前記フィルタリング動作及びランキング動作のセットを実行することと、
    を備える、システム。
  11. 請求項10に記載のシステムであって、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、
    各セマンティックパターンについて、前記セマンティックパターンに対応する対応クエリの総数を決定することと、
    前記対応クエリの総数が閾値を超える場合に、前記各セマンティックパターンを選択することと、
    を含む、システム。
  12. 請求項10に記載のシステムであって、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することは、
    各セマンティックパターンについて、前記セマンティックパターンのエントロピーを計算することと、
    そのエントロピーが既定の閾値に適合しない場合に前記セマンティックパターンを破棄することと、
    を含む、システム。
  13. 請求項10に記載のシステムであって、
    前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立することは、
    前記複数のセマンティックパターンに対応する複数のユーザ行為セットを決定することと、
    前記複数のユーザ行為セットに対応する複数のユーザ意図属性を決定することと、
    前記複数のユーザ意図属性に基づいて、前記複数のフィルタリング動作及びランキング動作を決定することと、
    を含む、システム。
  14. 請求項13に記載のシステムであって、
    前記複数のユーザ意図属性は、曖昧性属性の程度を含む、システム。
  15. 請求項13に記載のシステムであって、
    前記複数のユーザ意図属性は、信頼性要件属性を含む、システム。
  16. 請求項13に記載のシステムであって、
    前記複数のユーザ意図属性は、時間効率要件属性を含む、システム。
  17. 請求項13に記載のシステムであって、
    前記複数のユーザ意図属性は、場所要件属性を含む、システム。
  18. 請求項13に記載のシステムであって、
    前記複数のユーザ意図属性は、量属性を含む、システム。
  19. 個々の特性を推測するためのコンピュータプログラムであって、
    履歴クエリ情報のセットを前処理するための機能であって、
    前記履歴クエリ情報のセットのの複数のクエリに基づいて、複数のセマンティックパターンを決定するための機能であって
    前記複数のクエリについて、対応するクエリの中の複数のクエリ用語を特徴付ける複数のセマンティックタグを、各々が含む複数のセマンティックタグセットを特定することと、
    前記複数のセマンティックタグセットに基づいて、前記履歴記録のセットのなかの前記複数のクエリに対応する可能性のあるセマンティックパターンを決定することと、
    前記履歴記録のセットの中の前記複数のクエリに対応する複数のセマンティックパターンを、可能性のあるセマンティックパターンから選択することと、前記複数のセマンティックパターンのそれぞれは、既定の閾値に少なくとも適合する率で出現することと、を含む、前記履歴クエリ情報のセットにおける複数のクエリに基づいて、複数のセマンティックパターンを決定するための機能と、
    前記複数のセマンティックパターンと、複数のフィルタリング動作及びランキング動作との間に対応関係を確立するための機能と
    を含む履歴クエリ情報のセットを前処理するための機能と、
    ユーザクエリを処理するための機能であって、
    前記ユーザクエリを受信するための機能と、
    前記ユーザクエリに応答して複数の結果を検索するための機能と、
    前記ユーザクエリに対応するセマンティックパターンを決定するための機能と、
    前記対応関係に基づいて、前記セマンティックパターンに対応するフィルタリング動作及びランキング動作のセットを決定するための機能と、
    フィルタリング及びランキングを経た結果のセットを生成するために、前記複数の結果に対して前記フィルタリング動作及びランキング動作のセットを実施するための機能とを含むユーザクエリを処理するための機能と、
    をコンピュータによって実現させる、コンピュータプログラム。
JP2012527862A 2009-09-04 2010-08-31 クエリのセマンティックパターンに基づく情報検索 Expired - Fee Related JP5575902B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN200910171083.X 2009-09-04
CN200910171083XA CN102012900B (zh) 2009-09-04 2009-09-04 信息检索方法和系统
US12/807,217 2010-08-30
US12/807,217 US8799275B2 (en) 2009-09-04 2010-08-30 Information retrieval based on semantic patterns of queries
PCT/US2010/002399 WO2011028277A1 (en) 2009-09-04 2010-08-31 Information retrieval based on semantic patterns of queries

Publications (3)

Publication Number Publication Date
JP2013504118A JP2013504118A (ja) 2013-02-04
JP2013504118A5 JP2013504118A5 (ja) 2013-08-29
JP5575902B2 true JP5575902B2 (ja) 2014-08-20

Family

ID=43648478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012527862A Expired - Fee Related JP5575902B2 (ja) 2009-09-04 2010-08-31 クエリのセマンティックパターンに基づく情報検索

Country Status (6)

Country Link
US (1) US8799275B2 (ja)
EP (1) EP2473936A4 (ja)
JP (1) JP5575902B2 (ja)
CN (1) CN102012900B (ja)
HK (1) HK1151870A1 (ja)
WO (1) WO2011028277A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185544B2 (en) * 2009-04-08 2012-05-22 Google Inc. Generating improved document classification data using historical search results
US9047464B2 (en) * 2011-04-11 2015-06-02 NSS Lab Works LLC Continuous monitoring of computer user and computer activities
CN102169503B (zh) * 2011-04-29 2013-04-24 北京百度网讯科技有限公司 一种获取与用户查询序列相对应的搜索结果的方法与设备
JP5699789B2 (ja) * 2011-05-10 2015-04-15 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
CN102880603A (zh) * 2011-07-11 2013-01-16 阿里巴巴集团控股有限公司 一种排行榜数据过滤的方法和设备
CN102968418A (zh) * 2011-09-01 2013-03-13 阿里巴巴集团控股有限公司 网站信息检索方法和系统
CN102982025B (zh) * 2011-09-02 2016-05-11 北京百度网讯科技有限公司 一种搜索需求识别方法及装置
US9405834B1 (en) * 2011-11-04 2016-08-02 Google Inc. System and method for identifying search results satisfying a search query
WO2013080406A1 (ja) * 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
CN103186573B (zh) * 2011-12-29 2016-05-18 北京百度网讯科技有限公司 一种确定搜索需求强度的方法、需求识别的方法及其装置
CN103365844B (zh) * 2012-03-26 2016-05-11 阿里巴巴集团控股有限公司 一种提供搜索路径的方法及装置
CN103389988A (zh) * 2012-05-10 2013-11-13 腾讯科技(深圳)有限公司 一种引导用户进行信息搜索的方法及装置
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN103425697B (zh) * 2012-05-24 2017-09-26 中兴通讯股份有限公司 一种搜索方法及系统
CN103488648B (zh) * 2012-06-13 2018-03-20 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统
US9009850B2 (en) * 2012-06-25 2015-04-14 Bank Of America Corporation Database management by analyzing usage of database fields
CN103577413B (zh) 2012-07-20 2017-11-17 阿里巴巴集团控股有限公司 搜索结果排序方法及系统、搜索结果排序优化方法及系统
US9336297B2 (en) 2012-08-02 2016-05-10 Paypal, Inc. Content inversion for user searches and product recommendations systems and methods
US9105068B2 (en) * 2012-11-12 2015-08-11 Facebook, Inc. Grammar model for structured search queries
CN103914494B (zh) * 2013-01-09 2017-05-17 北大方正集团有限公司 一种微博用户身份识别方法及系统
US9037568B1 (en) * 2013-03-15 2015-05-19 Google Inc. Factual query pattern learning
CN103207901B (zh) * 2013-03-21 2019-03-08 百度在线网络技术(北京)有限公司 一种基于搜索引擎获取ip地址归属地的方法和装置
CN103279504B (zh) * 2013-05-10 2019-11-05 百度在线网络技术(北京)有限公司 一种基于歧义消解的搜索方法及装置
CN103425744A (zh) * 2013-07-17 2013-12-04 百度在线网络技术(北京)有限公司 一种用于识别用户的查询序列中的寻址需求的方法与设备
JP6098413B2 (ja) * 2013-07-23 2017-03-22 富士通株式会社 分類パターン作成方法、分類パターン作成装置、および分類パターン作成プログラム
CN104424215B (zh) * 2013-08-23 2018-02-27 腾讯科技(深圳)有限公司 进行数据搜索的方法及搜索服务器
US9866446B2 (en) * 2013-08-26 2018-01-09 Akarsh Belagodu Data retrieval system
CN103593469B (zh) * 2013-11-30 2016-04-20 合一网络技术(北京)有限公司 一种采用互补信息的关联关键词计算方法及装置
US9886479B2 (en) * 2014-07-29 2018-02-06 International Business Machines Corporation Managing credibility for a question answering system
JP6478734B2 (ja) * 2014-10-31 2019-03-06 株式会社東芝 アイテム推薦装置、アイテム推薦方法およびプログラム
CN105808627A (zh) * 2014-12-31 2016-07-27 高德软件有限公司 Poi信息更新、检索、poi数据包生成方法及装置
KR101646754B1 (ko) * 2015-03-18 2016-08-12 연세대학교 산학협력단 모바일 시멘틱 검색 장치 및 그 방법
CN104915449B (zh) * 2015-06-30 2018-11-09 河海大学 一种基于水利对象分类标签的分面检索系统及方法
CN105138544B (zh) * 2015-07-09 2018-05-15 西南交通大学 一种重塑逻辑演绎链的搜索方法
US11170005B2 (en) * 2016-10-04 2021-11-09 Verizon Media Inc. Online ranking of queries for sponsored search
US10095600B2 (en) 2016-10-07 2018-10-09 International Business Machines Corporation Real-time globalization verification on development operations
CN107480162B (zh) * 2017-06-15 2021-09-21 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
CN108052659B (zh) * 2017-12-28 2022-03-11 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN109359233A (zh) * 2018-09-13 2019-02-19 广州帷策智能科技有限公司 基于自然语言处理技术的公网海量信息监测方法和系统
US20200117742A1 (en) * 2018-10-15 2020-04-16 Microsoft Technology Licensing, Llc Dynamically suppressing query answers in search
US11086991B2 (en) * 2019-08-07 2021-08-10 Advanced New Technologies Co., Ltd. Method and system for active risk control based on intelligent interaction
CN110569433B (zh) * 2019-08-20 2024-03-22 腾讯科技(深圳)有限公司 搜索结果过滤器的构建方法、装置、电子设备及存储介质
CN111078988B (zh) * 2019-12-23 2020-09-08 创意信息技术股份有限公司 一种电力服务信息热点检索方法、装置和电子设备
CN111177357B (zh) * 2019-12-31 2023-05-23 中国人民大学 一个基于记忆神经网络的对话式信息检索的方法
CN111475725B (zh) * 2020-04-01 2023-11-07 百度在线网络技术(北京)有限公司 用于搜索内容的方法、装置、设备和计算机可读存储介质

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317671A (en) * 1982-11-18 1994-05-31 Baker Bruce R System for method for producing synthetic plural word messages
US5309546A (en) * 1984-10-15 1994-05-03 Baker Bruce R System for method for producing synthetic plural word messages
JPS63137327A (ja) * 1986-11-29 1988-06-09 Toshiba Corp 意味ネツトワ−ク装置
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4914585A (en) * 1988-05-23 1990-04-03 Hewlett-Packard Company Modular complier with a class independent parser and a plurality of class dependent parsers
JPH01314373A (ja) * 1988-06-15 1989-12-19 Hitachi Ltd 機械翻訳システムにおける訳語選択方式
US5130924A (en) * 1988-06-30 1992-07-14 International Business Machines Corporation System for defining relationships among document elements including logical relationships of elements in a multi-dimensional tabular specification
US5313387A (en) * 1989-06-30 1994-05-17 Digital Equipment Corporation Re-execution of edit-compile-run cycles for changed lines of source code, with storage of associated data in buffers
US5428793A (en) * 1989-11-13 1995-06-27 Hewlett-Packard Company Method and apparatus for compiling computer programs with interproceduural register allocation
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
GB9009701D0 (en) * 1990-04-30 1990-06-20 Hewlett Packard Co Object based computer system
CA2089177C (en) * 1990-08-09 2002-10-22 Bruce R. Baker Communication system with text message retrieval based on concepts inputted via keyboard icons
CA2039365C (en) * 1991-03-28 2000-01-18 T. Dora Velissaropoulos Method and means for encoding storing and retrieving hierarchical data processing information for a computer system
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5572731A (en) * 1992-12-30 1996-11-05 Hewlett-Packard Company Sequentially navigated object oriented computer system
JP3015223B2 (ja) * 1993-05-14 2000-03-06 シャープ株式会社 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
US5504914A (en) * 1993-06-23 1996-04-02 National Science Council Multi-level instruction boosting method using plurality of ordinary registers forming plurality of conjugate register pairs that are shadow registers to each other with different only in MSB
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
WO1995003586A1 (en) * 1993-07-21 1995-02-02 Persistence Software, Inc. Method and apparatus for generation of code for mapping relational data to objects
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
JP3067966B2 (ja) * 1993-12-06 2000-07-24 松下電器産業株式会社 画像部品を検索する装置及びその方法
US5687254A (en) * 1994-06-06 1997-11-11 Xerox Corporation Searching and Matching unrecognized handwriting
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5692184A (en) * 1995-05-09 1997-11-25 Intergraph Corporation Object relationship management system
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US5664173A (en) * 1995-11-27 1997-09-02 Microsoft Corporation Method and apparatus for generating database queries from a meta-query pattern
US5676138A (en) * 1996-03-15 1997-10-14 Zawilinski; Kenneth Michael Emotional response analyzer system with multimedia display
US5909678A (en) * 1996-09-13 1999-06-01 International Business Machines Corporation Computer systems, method and program for constructing statements by dragging and dropping iconic representations of subcomponent statements onto a phrase template
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US5865862A (en) * 1997-08-12 1999-02-02 Hassan; Shawky Match design with burn preventative safety stem construction and selectively impregnable scenting composition means
US6006223A (en) * 1997-08-12 1999-12-21 International Business Machines Corporation Mapping words, phrases using sequential-pattern to find user specific trends in a text database
US6185560B1 (en) * 1998-04-15 2001-02-06 Sungard Eprocess Intelligance Inc. System for automatically organizing data in accordance with pattern hierarchies therein
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
US6523028B1 (en) * 1998-12-03 2003-02-18 Lockhead Martin Corporation Method and system for universal querying of distributed databases
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
US7630986B1 (en) * 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US6859800B1 (en) * 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US6697793B2 (en) * 2001-03-02 2004-02-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for generating phrases from a database
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7428517B2 (en) * 2002-02-27 2008-09-23 Brands Michael Rik Frans Data integration and knowledge management solution
US20050076003A1 (en) * 2003-10-06 2005-04-07 Dubose Paul A. Method and apparatus for delivering personalized search results
US7747601B2 (en) * 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
US7689411B2 (en) * 2005-07-01 2010-03-30 Xerox Corporation Concept matching
US20080214148A1 (en) * 2005-11-05 2008-09-04 Jorey Ramer Targeting mobile sponsored content within a social network
US20080215557A1 (en) * 2005-11-05 2008-09-04 Jorey Ramer Methods and systems of mobile query classification
US20110153428A1 (en) * 2005-09-14 2011-06-23 Jorey Ramer Targeted advertising to specified mobile communication facilities
JP4997743B2 (ja) 2005-11-10 2012-08-08 日本電気株式会社 文書検索装置、文書検索プログラムおよび文書検索方法
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
US7593939B2 (en) * 2006-04-07 2009-09-22 Google Inc. Generating specialized search results in response to patterned queries
WO2008005102A2 (en) * 2006-05-13 2008-01-10 Sap Ag Consistent set of interfaces derived from a business object model
CN100384134C (zh) * 2006-05-18 2008-04-23 复旦大学 播存网格环境下客户端资源检索及自动下载方法
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US8065319B2 (en) * 2007-04-01 2011-11-22 Nec Laboratories America, Inc. Runtime semantic query optimization for event stream processing
US7882485B2 (en) * 2007-04-02 2011-02-01 International Business Machines Corporation Method for modeling components of an information processing application using semantic graph transformations
WO2009029760A1 (en) * 2007-08-31 2009-03-05 Iosemantics, Llc Quality assurance tools for use with source code and a semantic model
JP2009080577A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 情報検索支援装置及び方法
CN101398810B (zh) * 2007-09-30 2013-05-01 日电(中国)有限公司 自适应服务选择设备及其方法,查询系统及其方法
US8126880B2 (en) * 2008-02-22 2012-02-28 Tigerlogic Corporation Systems and methods of adaptively screening matching chunks within documents
CN101334796B (zh) * 2008-02-29 2011-01-12 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
US8060513B2 (en) * 2008-07-01 2011-11-15 Dossierview Inc. Information processing with integrated semantic contexts
CN101853257B (zh) * 2009-03-31 2012-09-26 国际商业机器公司 Sparql查询的转换系统和方法
US8224839B2 (en) * 2009-04-07 2012-07-17 Microsoft Corporation Search query extension
US20100332493A1 (en) * 2009-06-25 2010-12-30 Yahoo! Inc. Semantic search extensions for web search engines
US8874581B2 (en) * 2010-07-29 2014-10-28 Microsoft Corporation Employing topic models for semantic class mining

Also Published As

Publication number Publication date
EP2473936A1 (en) 2012-07-11
CN102012900B (zh) 2013-01-30
JP2013504118A (ja) 2013-02-04
HK1151870A1 (en) 2012-02-10
EP2473936A4 (en) 2016-11-09
US20110060733A1 (en) 2011-03-10
CN102012900A (zh) 2011-04-13
WO2011028277A1 (en) 2011-03-10
US8799275B2 (en) 2014-08-05

Similar Documents

Publication Publication Date Title
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN105808685B (zh) 推广信息的推送方法及装置
US11580168B2 (en) Method and system for providing context based query suggestions
JP5736469B2 (ja) ユーザ意図の有無に基づく検索キーワードの推薦
US8560513B2 (en) Searching for information based on generic attributes of the query
US9471440B2 (en) Method and system for processing product properties
US9934293B2 (en) Generating search results
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
WO2018195105A1 (en) Document similarity analysis
EP2663940A1 (en) Providing search information
US8768910B1 (en) Identifying media queries
CN110766486A (zh) 确定物品类目的方法和装置
US20100049761A1 (en) Search engine method and system utilizing multiple contexts
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN107679186B (zh) 基于实体库进行实体搜索的方法及装置
CN115309954A (zh) 一种数据检索方法、装置、设备以及存储介质
US20130232139A1 (en) Electronic device and method for generating recommendation content
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN117114829A (zh) 招投标的信息关联方法和系统
WO2015143911A1 (zh) 推送包含时效性信息的网页的方法和装置
US20170091214A1 (en) System and method for populating dynamic folders for sharing content over the web
CN113032657A (zh) 一种快速选择企业推广中核心市场的方法
US20160063109A1 (en) Query-breadth selected search result sorting mechanism
CN112612817A (zh) 数据处理方法、装置、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140702

R150 Certificate of patent or registration of utility model

Ref document number: 5575902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees