JP5543020B2 - リサーチミッション識別 - Google Patents

リサーチミッション識別 Download PDF

Info

Publication number
JP5543020B2
JP5543020B2 JP2013513189A JP2013513189A JP5543020B2 JP 5543020 B2 JP5543020 B2 JP 5543020B2 JP 2013513189 A JP2013513189 A JP 2013513189A JP 2013513189 A JP2013513189 A JP 2013513189A JP 5543020 B2 JP5543020 B2 JP 5543020B2
Authority
JP
Japan
Prior art keywords
research
mission
queries
user
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013513189A
Other languages
English (en)
Other versions
JP2013528873A (ja
Inventor
デボラ ドナート
フランチェスコ ボンキ
リャン−ユ チ
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2013528873A publication Critical patent/JP2013528873A/ja
Application granted granted Critical
Publication of JP5543020B2 publication Critical patent/JP5543020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing Of Engines (AREA)

Description

本発明は、一般的に、限定ではないがウェブ検索エンジンのユーザを含む情報検索システムのユーザの情報の必要性を自動的に確かめるためのシステム及び方法に関する。
ユーザの情報の必要性に対処することは、初期からのウェブ検索エンジンの主な目標の1つであった。一部の場合に、ユーザは、単にこれらの必要性が複雑すぎて、単一のウェブ又は検索結果ページによって網羅されていない複数の態様を含むので、ユーザの必要性が検索結果によって即座に答えられるのを見ることができない。ユーザが、多くのページからの事実及び情報の収集を必要とすることが多い教育、旅行、又は健康のようなドメインにおける特定のトピックを調査する時に、これが一般的に起こる。これらの種類の活動は、「リサーチミッション」と呼ぶことができる。これらの「リサーチミッション」は、ユーザのセッションの多くて10%及び全ての問合せ量の25%よりも多くに該当することが観察されている。
このような「リサーチミッション」が実行される時に高い精度によって自動的に識別することができれば有利であろう。これらの「リサーチミッション」は、全ての問合せ量のかなりの百分率を占めることがあるので、ユーザ問合せのこのような大きな百分率に対するユーザの必要性を理解してこれに答えることは、ユーザの体験を拡張することになる。従来のシステムは、個々の問合せを調べる傾向があるが、「リサーチミッション」の識別は、関係のない問合せの背後のユーザの意図を理解するようにウェブ検索エンジンを誘導することになる。「リサーチミッション」を自動的に識別することにより、かつ従ってユーザの意図を理解することにより、ウェブ検索エンジンは、ユーザの必要性に対処するために専用検索、リサーチツール、ターゲット広告、市場イベント、及び/又は他の特徴を能動的に提供することができると考えられる。
本発明の実施形態によるシステム及び方法は、検索エンジンのユーザが特定のトピックに関連したリサーチミッションを実行していることを自動的に検出する。このような自動検出に基づいて、ユーザには、次に、リサーチ関連のツール又は専用検索のような1つ又はそれよりも多くの特徴へのアクセスを提供することができ、並びにリサーチミッションに関連するターゲット広告及び/又は市場イベントを提供することができる。リサーチミッションの検出に応答したこれらの様々なツール、広告、及びイベントの自動提供は、リサーチミッションを実行しているユーザの体験を有利に改善することができる。
特に、検索エンジンのユーザがリサーチミッションを実行しているか否かを自動的に判断する方法を本明細書で説明する。本方法によると、ユーザによって検索エンジンに提出された一連の問合せに関する複数の特徴が生成される。複数の特徴の第1の部分集合に基づいて、ユーザが第1の機械学習検出器(machine learned detector)を使用して複合リサーチを行っているか否かの検出が行われる。複数の特徴の第2の部分集合に基づいて、ユーザが第2の機械学習検出器を使用して特定の情報の必要性に関連するミッションを実行しているか否かの検出が行われる。少なくとも複合リサーチ検出及びミッション検出に応答して、ユーザがリサーチミッションを実行しているか否かの判断が行われる。
システムについても本明細書において説明する。本発明のシステムは、検索エンジン及びリサーチミッション識別システムを含む。検索エンジンは、ユーザによって提出される一連の問合せを受信するように構成され、一連の問合せにおける各問合せに応じた1つ又はそれよりも多くの文書を識別するように構成される。リサーチミッション識別システムは、セッションユニット、特徴ユニット、リサーチ検出器、ミッション検出器、及び混合器を含む。セッションユニットは、一連の問合せを受信して一連の構造化された問合せを生成するように構成される。特徴ユニットは、一連の構造化された問合せの分析に基づいて複数の特徴を生成するように構成される。リサーチ検出器は、ユーザが第1の機械学習規則を使用して複数の特徴の第1の部分集合に基づいて複合リサーチを行っているか否かを検出するように構成される。ミッション検出器は、ユーザが第2の機械学習規則を使用して複数の特徴の第2の部分集合に基づいて特定の情報の必要性に関連するミッションを実行しているか否かを判断するように構成される。混合器は、ユーザが少なくとも複合リサーチ検出及びミッション検出に基づいてリサーチミッションを実行しているか否かを判断するように構成される。
別のシステムについても本明細書において説明する。本発明のシステムは、検索エンジン及びリサーチミッション識別システムを含む。検索エンジンは、ユーザによって提出された一連の問合せを受信するように構成され、一連の問合せにおける各問合せに応答して1つ又はそれよりも多くの文書を識別するように構成される。リサーチミッション識別システムは、特徴ユニット、検出器ユニット、及び機械学習システムを含む。特徴ユニットは、一連の問合せの分析に基づいて複数の特徴を生成するように構成される。検出器ユニットは、検索へのユーザの関わりのレベルを測定することによってユーザが複数の特徴に基づいて複合リサーチを行っているか否かを検出するように構成される。検出器ユニットはまた、連続した問合せの間のトピックの一貫性を測定することによってユーザが複数の特徴に基づいて特定の情報の必要性に関連するミッションを実行しているか否かを判断するように構成される。機械学習システムは、少なくとも複合リサーチ検出及びミッション検出に基づいてユーザがリサーチミッションを実行しているか否かを判断するように構成される。
本発明の更に別の特徴及び利点、並びに本発明の様々な実施形態の構造及び作動を添付の図面に関して以下に詳しく説明する。本発明は、本明細書に説明する特定的な実施形態に制限されないことに注意されたい。このような実施形態は、例示的な目的にのみ本明細書に呈示されている。更に別の実施形態は、本明細書に含まれる教示に基づいて当業者に明らかであろう。
本明細書に組み込まれて本明細書の一部を形成する添付の図面は、本発明を例示し、説明と共に本発明の原理を解説して当業者が本発明を使用することを可能にすることを目的とする。
本発明の特徴及び利点は、同じ参照文字が全体を通して対応する要素を識別する図面と共に下記に示す詳細説明から更に明らかになるであろう。図面では、同じ参照番号は、一般的に、同一、機能的に類似、及び/又は構造的に類似の要素を示している。要素が最初に現れる図面は、対応する参照番号の最も左の桁に示している。
本発明の実施形態を実施することができる情報検索システムを示すブロック図である。 ユーザによって検索エンジンに提出することができる例示的問合せを示す図である。 本発明の実施形態によりユーザがリサーチミッションを実行しているか否かを自動的に判断する方法を示す流れ図である。 本発明の実施形態によりユーザがリサーチミッションを実行しているか否かを自動的に判断するためのシステムを示すブロック図である。 本発明の実施形態によりユーザによって検索エンジンに掲載される例示的な一連の問合せを示す図である。 本発明の実施形態により機械学習システムとして実施される検出器を示す図である。 本発明の実施形態により機械学習システムとして実施される混合器を示す図である。 本発明の実施形態によりユーザがリサーチミッションを実行しているか否かを自動的に判断するための代替のシステムを示すブロック図である。 本発明の実施形態を実施することができる例示的コンピュータシステムを示すブロック図である。
A.序文
本明細書は、本発明の特徴を組み込む1つ又はそれよりも多くの実施形態を開示している。開示する実施形態は、単に本発明を例示するものである。本発明の範囲は、開示する実施形態に制限されない。本発明は、本明細書に添付される特許請求の範囲によって定められる。
本明細書における「一実施形態」、「実施形態」、「例示的実施形態」などへの参照は、説明する実施形態が特定の特徴、構造、又は特性を含むことができるが、全ての実施形態が必ずしも特定の特徴、構造、又は特性を含まなくてもよいことを示している。更に、このような句は、必ずしも同じ実施形態を示すものではない。更に、特定の特徴、構造、又は特性が実施形態に関して説明される時に、明示的に説明されているか否かに関わらず、他の実施形態に関してこのような特徴、構造、又は特性を実施することは当業者の知識内にあると考えられる。
本発明の実施形態によるシステム及び方法は、検索エンジンのユーザが特定のトピックに関するリサーチミッションを実行している時を自動的に検出する。このような自動検出に基づいて、ユーザには、次に、リサーチ関連のツール及び専用検索のような1つ又はそれよりも多くの機能へのアクセスを提供することができ、及び/又はターゲット広告及び/又はリサーチミッションに関連する市場イベントを提供することができるが、これらの例は、制限を意図していない。リサーチミッションの検出に応答するこれらの様々なツール、広告、及びイベントの自動トリガは、リサーチミッションを実行するユーザの体験を有利に改善することができる。
図1は、本発明の実施形態を実施することができる情報検索システム100のブロック図である。システム100は、例示的な目的のみで本明細書に説明され、本発明の実施形態は、他の環境で実施することができることに注意されたい。図1に示すように、システム100は、検索エンジン106を含む。第1のコンピュータ104a、第2のコンピュータ104b、及び第3のコンピュータ104cのような1つ又はそれよりも多くのコンピュータ104が、通信ネットワーク105に接続される。ネットワーク105は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、又は通信ネットワークの組合せのようないずれかの種類の通信ネットワークとすることができる。実施形態では、ネットワーク105は、「インターネット」及び/又はイントラネットを含むことができる。コンピュータ104は、ネットワーク105を通じてエンティティから文書を検索することができる。ネットワーク105が「インターネット」を含む実施形態では、ワールドワイドウェブ102の一部を形成する文書103を含む文書の集合は、ネットワーク105を通じてコンピュータ104による検索に利用可能である。「インターネット」では、http://www.yahoo.comのようなユニフォームリソースロケータ(URL)により、及び/又は他の機構によって文書を識別/配置することができる。コンピュータ104は、文書103に対応するURLを文書サーバ(図1に示されていない)に供給することにより、ネットワーク105を通じて文書103にアクセス可能である。
図1に示すように、検索エンジン106は、ネットワーク105に結合される。検索エンジン106は、ワールドワイドウェブ102の文書のような文書に索引付けする格納された索引114にアクセスする。特定のトピックに関する1つ又はそれよりも多くの文書を検索したいと思うコンピュータ104aのユーザは、このような文書の識別子/位置を知らないが、ネットワーク105を通じて検索エンジン106に問合せ112を提出することができる。検索エンジン106は、問合せ112を受信し、問合せ112に関する文書を見出すために索引114を分析する。例えば、検索エンジン106は、問合せ112の用語を含む索引114によって索引付けされた1組の文書を識別することができる。文書の組は、数十、数百、数千、数百万、又は数十億の文書を含むあらゆる数の文書を含むことができる。検索エンジン106は、ユーザに対する関連性の順序で検索された組の文書を格付けするために、格付け又は関連性機能を使用することができる。最も関連しそうだと判断された組の文書は、文書の全組をユーザが解析しなくてもよいように、戻された文書のリストの上部に提供することができる。戻された文書のリストは、「検索結果ページ」とラベル付けされた文書のコンテクストに提供することができる。
検索エンジン106は、ハードウエア、ソフトウエア、ファームウエア、又はこのいずれかの組合せで実施することができる。例えば、検索エンジン106は、1つ又はそれよりも多くのサーバのような1つ又はそれよりも多くのコンピュータシステムの1つ又はそれよりも多くのプロセッサで実行されるソフトウエア/ファームウエアを含むことができる。ネットワーク105を通じてアクセス可能な検索エンジン106の例は、以下に限定されるものではないが、Yahoo!Search(登録商標)(http://www.yahoo.com)、Ask.com(登録商標)(http://www.ask.com)、及びGoogle(登録商標)(http://www.google.com)を含む。
図2は、図1のコンピュータ104a−104cの1つのユーザによって検索エンジン106に提出することができる例示的問合せ112を示している。図2に示すように、問合せ112は、第1の用語202a、第2の用語202b、及び第3の用語202cのような1つ又はそれよりも多くの用語202を含む。いずれの数の用語202も問合せに表示することができる。図2に示すように、問合せ112の用語202a、202b、及び202cは、それぞれ「1989」、「赤い」、及び「コルベット」である。検索エンジン106は、「1989」、「赤い」、及び「コルベット」に適合する1つ又はそれよりも多くの索引付け文書に対するURLのような文書ロケータを検索するために、これらの用語202a−202cを索引114に加えて、格付けに従って文書のリストを順序付けすることができる。
図1に示すように、検索エンジン106は、問合せログ108を生成することができる。問合せログ108は、検索エンジン106を使用して行われた検索の記録である。問合せログ108は、問合せから生じる文書のリスト、リストをレビューしたユーザによって選択/クリックされた(クリック)リストにおける文書のリスト/指示、クリックされた文書の格付け、問合せが検索エンジン106によって受信した時間を示すタイムスタンプ、問合せ用語が提出された固有のデバイス(コンピュータ、携帯電話など)を識別するIP(インターネットプロトコル)アドレス、問合せ用語を提出したユーザに関連付けられる識別子(ウェブブラウザクッキーにおけるユーザ識別子など)、及び/又は更に別の情報/属性のような各問合せに対する更に別の情報/属性と共に、問合せ用語(問合せ112の用語202など)を列挙することによる問合せのリストを含むことができる。
図1に更に示すように、システム100はまた、検索エンジン106及び問合せログ108に接続したリサーチミッション識別システム116を含む。リサーチミッション識別システム116は、検索エンジン106のユーザが特定のトピックに関するリサーチミッションを実行しているか否かを判断するように構成される。検索エンジン106のユーザが特定のトピックに関するリサーチミッションを実行していることをリサーチミッション識別システム116が判断した場合、リサーチミッション識別システム116は、アプリケーション118の実行を自動的にトリガすることができる。その実施に応じて、アプリケーション118は、Yahoo!検索パッド、専用検索アプリケーション、ターゲット広告配信アプリケーション、又は市場イベントのようなリサーチツールを含むことができるが、これらの例は制限ではない。例えば、ユーザは、メモ取りのためのリサーチツール及び/又は組織へのアクセスを取得することによってより良い検索体験を有することができる。リサーチミッション識別システム116は、ユーザのリサーチミッションの意図を反映する専用検索を提供することができる。ユーザのリサーチミッションに向けられたターゲット広告及び/又は市場イベントの自動提供は、リサーチミッションに対するユーザの意図に乗ずることを助けることができるであろう。
リサーチミッションの自動検出に応答してアプリケーション118の実行をトリガするためのトリガ信号を自動的にアサートすることにより、リサーチミッション識別システム116は、リサーチミッションを実行するユーザの体験を有利に改善することができる。例えば、特定的な実施形態により、このような特徴は、リサーチミッション及び/又はリサーチ関連のツールに向けられた専用検索へのアクセスが、適切な時間にユーザに対する便利なコンテクスト内で確実に提供されるようにする。この手法はまた、特定のトピックに関するリサーチミッションが始まっていることをユーザが前向きに認識すべきであることにおける改善を表し、次に、この理解に基づいて、いずれの専用検索及び/又はリサーチツールもトリガするための能動的な段階を取る。この後者の手法は、ユーザによる特別な計画及び努力を必要とする。リサーチミッション識別システム116によって実施される手法はまた、特に、このようなイベント及びツールがユーザによって行われる大多数の検索セッションに対して有用でない時に、実際にはユーザがこれらを無視するようにユーザに条件付けることができるので、リサーチツール、専用検索、ターゲット広告、及び/又は市場イベントがいつもユーザに提供される場合に好ましいと考えられる。
ユーザが検索エンジン106を使用してリサーチミッションを実行しているか否かをリサーチミッション識別システム116が自動的に判断する方法、及びリサーチミッション識別システム116がこのような判断に応答してトリガ信号をアサートする方法を以下に更に詳しく説明する。
検索エンジン106と同様に、リサーチミッション識別システム116は、ハードウエア、ソフトウエア、ファームウエア、又はこれらのいずれかの組合せで実施することができる。例えば、リサーチミッション識別システム116は、1つ又はそれよりも多くのサーバのような1つ又はそれよりも多くのコンピュータシステムの1つ又はそれよりも多くのプロセッサで実行されるソフトウエア/ファームウエアを含むことができる。
B.リサーチミッション識別
図3は、検索エンジン(検索エンジン106など)のユーザが本発明の実施形態による特定のトピックに関するリサーチミッションを実行していることを自動的に判断する方法の流れ図300を示している。流れ図300の方法をシステム100の要素に関して説明する。しかし、本方法は、この実施に制限されないことに注意されたい。また、流れ図300の方法は、他の実施形態を得るために当業者によって修正することができる。また、図示のものとは異なる順序で段階を実行することができ、一部の段階は、同時に実行することができ、一部の段階は、他の段階に結合することができ、及び/又は必要に応じて一部の段階を排除することができる。
図3に示すように、流れ図300の方法は、段階302で始まり、リサーチミッション識別システム116が、ユーザによって検索エンジン106に提出された一連の問合せに関する複数の特徴を生成する。ユーザは、例えば、コンピュータ104a−104cのユーザのいずれかとすることができ、上述の方法でコンピュータ104a−104cのいずれか1つからネットワーク105を通じて検索エンジン106に問合せを提出することができる。特徴は、個々の問合せ及び/又は問合せの対に基づいて問合せを特徴付ける特徴機能によって生成することができる。各特徴は、とりわけ、連続した問合せの総数、問合せに応答して検索された文書の数、問合せ間に経過した時間のような問合せの異なる態様に関連付けることができる。例示的特徴を以下に詳しく説明する。問合せは、問合せに対する複数の特徴を生成する(例えば、特徴機能を使用することにより)リサーチミッション識別システム116の前にフォーマット設定することができる(例えば、構造化された問合せに対して)ことに注意されたい。
その実施に応じて、特徴機能は、問合せログ108から及び/又は検索エンジン106から直接に一連の問合せを特徴付けることができる。更に、一連の問合せに関連付けられる情報の全て又は一部は、検索エンジン106を維持する同じエンティティによって維持することができるブラウズ履歴ログ(図1に示していない)から取得することができる。ブラウズ履歴ログは、検索エンジン106によって提供される検索結果ページのような文書にインタフェースを通じてユーザがアクセスしたか否かをに関わらず以前にユーザによってアクセスされた文書のリストを維持する。その実施に応じて、特定のユーザに対するブラウズ履歴情報の維持は、文書にアクセスするのに使用されるコンピュータに特定のブラウザソフトウエアをインストールすることを要求することができ、又は要求しなくてもよい。更に、一連の問合せに関連付けられる情報の全て又は一部は、検索エンジン106を維持する同じエンティティによって維持することができる1つ又はそれよりも多くのネットワークレベルサーバログから取得することができる。更に、一連の問合せに関連付けられる情報の全て又は一部は、コンピュータ104a−104cの1つにローカルで格納することができ、次に、コンピュータと検索エンジン106間の対話の一部としてネットワーク105を通じて伝送することができる。
ここで図3の説明に戻って、段階302でユーザによって提出された一連の問合せに関連付けられる特徴が生成された後、特徴の一部(特徴の第1の部分集合)が、第1の機械学習検出器によって受信される。第1の機械学習検出器は、一連の問合せに対して生成された複数の特徴の第1の部分集合を使用して、段階304に示すように、検索エンジン106のユーザが複合リサーチを行っているか否かを検出する。特に、第1の機械学習検出器は、検索におけるユーザの関わりのレベルを測定することによって複合リサーチ検出を実行する。
特徴の第1の部分集合は、取りわけ、問合せ間に経過した時間、同じ問合せの結果に対するリンクの連続したユーザクリックのような検索へのユーザの個人的な関わりの指示に対して一連の問合せから2つ又はそれよりも多くの連続した問合せを分析するために、第1の機械学習検出器によって使用される。第1の機械学習検出器が、検索エンジン106のユーザが複合リサーチを行っているか否かを検出するために特徴の第1の部分集合を使用する特定の方法について以下に詳しく説明する。この段階の出力は、「複合リサーチ検出」と表示され、それは、その実施に応じて1つ又はそれよりも多くの様々な方法で次の段階に渡す/伝播させることができる。
第2の機械学習検出器は、一連の問合せに対して生成された複数の特徴の第2の部分集合を受信し、次に、検索エンジン106のユーザが段階306に示すように特定の情報の必要性に関連するミッションを実行しているか否かを検出するために、複数の特徴の第2の部分集合を使用する。特に、第2の機械学習検出器は、同じトピックに関する連続した問合せの指示(及び従って同じミッションの一部である)を探すことなどにより、一連の問合せからの2つ又はそれよりも多くの連続した問合せ間のトピックの一貫性を測定することにより、ミッション検出を実行する。
第2の部分集合における特徴は、連続した問合せ間のテキストの類似性のようなテキストの特徴を含むことができる。特徴の第2の部分集合はまた、時間的な(例えば、時間関連の)特徴を使用することができる。第2の機械学習検出器が、検索エンジン106のユーザが特定の情報の必要性に関連するミッションを実行しているか否かを検出するために特徴の第2の部分集合を使用する特定の方法について以下に詳しく説明する。この段階の出力は、「ミッション検出」と表示され、それは、その実施に応じて1つ又はそれよりも多くの様々な方法で次の段階に渡す/伝播させることができる。
任意的に、トピック類似性検出器は、任意的な段階308に示すように、トピック分類ツリーなどを使用することにより、2つ又はそれよりも多くの連続した問合せの第1及び第2のトピックを判断することができる。次に、トピック類似性検出器は、階層的に編成された分類で各問合せに関連付けられるトピックカテゴリ間の距離などを判断することにより、2つ又はそれよりも多くの連続した問合せの第1及び第2の間のトピック類似性があるか否かを検出することができる。従って、トピック検出器は、連続した問合せを直接に分析することができ、必ずしも全ての特徴を受信しなくてもよい。トピック類似性検出器が第1及び第2のトピックを判断し、次に、2つの間のいずれかの類似性を検出する方法について以下に詳しく説明する。この段階の出力は、「トピック類似性検出」と表示され、それは、その実施に応じて1つ又はそれよりも多くの様々な方法で次の段階に渡す/伝播させることができる。
段階310で、ユーザが複合リサーチを行っているか否か及びユーザが特定の情報の必要性に関連するミッションを実行しているか否かの検出に応答して(及び任意的にトピック類似性検出に応答して)、リサーチミッション識別システム116は、ユーザがリサーチミッションを実行しているか否かを判断する。リサーチミッション識別システム116は、この判断を行う前に一部の連続した問合せの対に対して機械学習検出器から検出情報を受信することができる。例えば、一実施形態では、リサーチミッション識別システム116は、複数の連続した問合せの対に関連付けられる検出情報を格納し、複数の連続した問合せの対に対する検出情報に基づいて判断を行う。リサーチミッション識別システム116が、ユーザがリサーチミッションを実行しているか否かを判断する特定の方法について以下に詳しく説明する。この段階の出力は、「リサーチミッショントリガ」と表示される。
1.リサーチミッション識別システム
リサーチミッション識別システム116について、図4に関して以下に詳しく説明する。リサーチミッション識別システム116は、検索エンジン106のような検索エンジンのユーザが特定のトピックに向けられたリサーチミッションを実行していることを自動的に検出する方法300を実行することができる。図4のブロック図は単に例示的であることに注意されたい。更に、図4の様々なブロック/ユニットは、図示のものとは異なる順序で存在することができ、又は必要に応じて存在しなくてもよい。また、様々な付加的なブロック/ユニットを必要に応じて含むことができる。
例えば、方法300を実行するリサーチミッション識別システム116がハードウエアで実施される場合、物理的及び/又は論理的信号は、方法を実行する様々なブロック/ユニット間で伝播させることができる。例えば、リサーチミッション識別システム116は、とりわけ、FPGAのようなプログラマブル論理を使用して、又はASICのようなカスタムハードウエアチップを使用して実施することができる。方法300がソフトウエアで実行される場合、ソフトウエアオブジェクト、値、データ、データアドレス、ポインタ、及び/又は機能呼出しを使用することができる。リサーチミッション識別システム116はまた、ソフトウエアとハードウエアの両方で実施することができる。例えば、方法300の一部をハードウエアで実行することができ、別の部分をソフトウエアに基づく機械学習構成要素のようなソフトウエアに基づく構成要素を使用して実行することができる。
セッションユニット402は、ユーザによって検索エンジン106に提出された一連の問合せ、並びに一連の問合せに対する全ての検索結果及び/又は検索結果によってリンクされる全ての文書/ウェブページを受信することができ、かつ一連の構造化された問合せを生成することができる。上述のように、ユーザは、例えば、図1のコンピュータ104a−104cのユーザのいずれかとすることができる。例えば、ユーザは、1つ又はそれよりも多くのリサーチセッション中に検索エンジン106を使用することができる。リサーチセッションを様々な理由のために実行することができ、従って、様々な関連の及び関係のないトピックを検索する一連の問合せを含むことができる。セッションユニット402は、検索エンジン106及び/又は問合せログ108から一連の問合せ/検索結果/文書/ウェブページを受信することができる。次に、セッションユニット402は、一連の問合せから一連の構造化された問合せを生成することができる。構造化された問合せは、単に問合せに均一フォーマットを提供することができる。1つのこのような均一なフォーマットは、<q,u,t,C>フォーマットであり、ここでqは問合せであり、uはユーザであり、tは問合せが提出された時間であり、Cは、問合せログ108に格納することができるセッションに対するクリック情報である。この文書では、「一連の問合せ」という用語は、一連の問合せ又は一連の構造化された問合せのいずれかを示すことができる。
特徴ユニット404は、方法段階302に関して上述したように、セッションユニット402から一連の問合せ(例えば、一連の構造化された問合せ)、並びに一連の問合せに対する全ての検索結果及び/又は検索結果によってリンクされる全ての文書を受信して分析することができる。特に、特徴ユニット404は、問合せ対などに基づいて一連の問合せを分析する1つ又はそれよりも多くの特徴機能(特徴機能)を適用することにより、一連の問合せ/検索結果/文書を分析することができる。換言すると、特徴ユニット404は、一度に問合せの対に対して複数の特徴を出力することができる。特徴ユニット404はまた、検索結果及び/又は文書を特徴付ける複数の特徴を出力することができる。
以下の例では、1つ又はそれよりも多くの特徴機能が問合せに適用されるが、同じ原理は、検索結果/文書を分析する時に適用される。様々な特徴機能は、リサーチミッション識別システム116における特徴ユニット404によって使用することができる。これらのそれぞれの特徴機能によって生成されたこれらの特徴の1つ又はそれよりも多くは、リサーチ検出器406及び/又はミッション検出器408の1つ又はそれよりも多くによって考慮することができる。一実施形態では、検出器406及び408の各々は、各問合せ対に対する検出機能を実行するために特徴の異なる部分集合を使用することができる。以下の特徴は、例示のためのみに説明され、本発明を制限することを意図していないことに注意されたい。
特徴ユニット404の特徴機能は、一連の問合せの2つ又はそれよりも多くの連続した問合せに適用することができる。例えば、図5の一連の問合せ500では、特徴機能を第1の問合せq1 502及び第2の問合せq2 504に適用することができる。特徴機能は、とりわけ、テキスト特徴、セッション特徴、及び時間関連の特徴に向けられた機能を含むことができる。テキスト特徴に向けられた特徴機能は、2つ又はそれよりも多くの連続した問合せ間のテキストの類似性を計算することができる。セッション特徴に向けられた特徴機能は、2つ又はそれよりも多くの連続した問合せに対するセッション特性を計算することができる。時間関連の特徴に向けられた特徴機能は、2つ又はそれよりも多くの連続した問合せに対する時間特性を計算することができる。
次に、第1及び第2の機械学習検出器406及び408は、一連の問合せ/検索結果/文書に関連付けられる特徴ユニット404からの出力(すなわち、複数の特徴)を受信することができる。一実施形態では、第1の機械学習検出器406は、リサーチ検出器とすることができ、第2の機械学習検出器408は、ミッション検出器とすることができる。受信した複数の特徴に基づいて、第1及び第2の機械学習検出器406及び408の各々は、一連の問合せ/検索結果/文書に関するそれぞれの判断を行うことができる。
上述の例を続けると、リサーチ検出器406及びミッション検出器408は、2つの問合せq1 502及びq2 504を特徴付ける複数の特徴を受信することができる。リサーチ検出器406及びミッション検出器408の各々は、複数の特徴の異なる部分集合を受信及び/又は使用することができ、例えば、リサーチ検出器406は、複数の特徴の第1の部分集合(第1の特徴部分集合)を受信及び/又は使用することができ、ミッション検出器408は複数の特徴の第2の部分集合(第2の特徴部分集合)を受信及び/又は使用することができる。その実施に応じて、第1及び第2の特徴部分集合は、異なる特徴、同じ特徴を含むことができ、又は2つの特徴部分集合が重なり合った特徴を含むことができる。特徴部分集合は、各それぞれの検出器406及び408によって望ましい方法で問合せを特徴付ける機能に基づいて(例えば、システム開発者により)選択することができる。
リサーチ検出器406及びミッション検出器408の両方は、そのそれぞれの機械学習規則に基づいてそれぞれの判断を行うために第1及び第2の特徴部分集合を処理するために機械学習規則を使用することができる。リサーチ検出器406及びミッション検出器408の両方は、複数の特徴を受信する前に訓練することができる。例えば、図6Aに示すように、リサーチ検出器406及びミッション検出器408(各々が単純にするために検出器602として示されている)の両方を訓練データの組604を入力することによって訓練することができる。一実施形態では、訓練データ604は、1組の問合せ対を含み、各問合せ対に対して、1組の特徴及び予期される結果を含む。予期される結果は、人間の編集者(注釈者など)によって提供することができる。例えば、人間の編集者は、問合せ対がリサーチ検出器406に対するリサーチを表すか否か又は問合せ対がミッション検出器408に対するミッションを表すか否かを示す各問合せ対に対するラベル(すなわち、予期される結果)を提供することができる。
検出器602は、当業技術で公知の管理された学習方法のいずれかを使用することなどにより、機械学習規則を構成するために訓練データを自動的に処理するように構成される。例えば、検出器602は、ブースト判断ツリーに基づいて機械学習規則を作成することができる。従って、検出器602は、特徴に基づいて問合せ対がリサーチ(リサーチ検出器406に対する)又はミッション(ミッション検出器408に対する)を表すか否かを判断するためのモデル又はアルゴリズムを取得するためにそのそれぞれの訓練データを使用することができる。一実施形態では、検出器602は、特定の特徴がこの判断を行うために特に関連があることを学習することができる。この場合、この特徴は、アルゴリズムにおいてより目立って現れることになる。対照的に、特定の特徴が判断を行うのに関連しないことを検出器602が学習した場合、特徴は、アルゴリズムにおいて目立って又は全く現れないことになる。機械学習規則が検出器602に対して作成された状態で、機械学習規則は、当業技術で公知の技術のいずれかを使用して検証することができる。
従って、検出器602によって受信した訓練データ604は、図5の一連の問合せ500のような連続した問合せの訓練対に対応する1組の特徴(すなわち、特徴機能による分析の結果)を含むことができる。例えば、一連の問合せ500の5つの連続した問合せは、4つの問合せの対、問合せq1 502及びq2 504、問合せq2 504及びq3 506、問合せq3 506及びq4 508、及び問合せq4 508及びq5 510を含む。5つの連続した問合せq1−q5 502−510に対する4つの問合せ対が、訓練で使用される一連の問合せ500に対する移動ウィンドウ(例えば、2つの連続した問合せから構成される問合せの対の)の概念を示すために、並びに一連の問合せ500を分析及び特徴付けるために示されている。
検出器602の機械訓練中、その特徴を生成するために特徴ユニット404に問合せを入力することができる。予期される訓練結果はまた、連続した問合せの各対に関連付けられる。例えば、リサーチ検出器406に対する訓練結果は、訓練の問合せの対が複合リサーチを実行するユーザ(例えば、ユーザがリサーチに関わっていること)に対応するか否かを示すことができる。同様に、ミッション検出器408に対する訓練結果は、訓練の問合せの対が特定の情報の必要性に関連するミッションを実行するユーザに対応するか否か(例えば、問合せのそれぞれの対がトピックの一貫性を有すること)を示すことができる。各問合せ対に対する訓練結果は、人間の注釈者などによって手動で又は訓練プログラムなどによって自動的に生成することができる。
リサーチ検出器
ここで図4の説明に戻って、リサーチ検出器406は、実行される実際の検索へのユーザの関わりのレベルを試験することによって2つの連続した問合せが複合リサーチの一部であるか否かを試験することができる。例えば、ユーザは、1つ又はそれよりも多くのリサーチセッション中に検索エンジン106のような検索エンジンを使用することができる。リサーチセッションは、様々な理由のために実行することができ、従って、様々な関連の及び関係のないトピックに対する検索問合せを含むことができる。リサーチ検出器406は、1対の問合せに対して特徴の第1の部分集合を調べ、ユーザの関わりに基づいて(機械学習規則を特徴の第1の部分集合に適用することによって判断されるように)、問合せの対が複合リサーチの一部であるか否かを判断するために機械学習規則を適用することができる。リサーチ検出器406に対する機械学習規則は、実際の検索へのユーザの関わりのレベルのレベルを示すセッションに基づく特徴のような特徴を調べることができる。例えば、リサーチ検出器406に対する機械学習規則は、受信した特徴が、ユーザクリックの大きな数、検索セッションの開始からの多数の問合せ、及び/又は実際の問合せの長さが長い(例えば、長い問合せは複雑な問合せを示すことができる)を示す場合、複合リサーチを検出することができる。リサーチ検出器406は、主に、ユーザの関わりのレベル、例えば、検索処理中にユーザによって行われた努力を試験する。
従って、リサーチ検出器406は、2つ又はそれよりも多くの問合せに対する第1の特徴部分集合を受信することができ、次に、方法段階304に関して上述したように、2つ又はそれよりも多くの問合せに対して複合リサーチをユーザが実行しているか否かを検出するために、機械学習規則を使用することができる。例えば、リサーチ検出器406は、第1及び第2の問合せq1 502及びq2 504に対して第1の特徴部分集合を受信することができ、ユーザが第1及び第2の問合せq1 502及びq2 504に対する複合リサーチを行っているか否かを示すリサーチ検出結果を生成するために機械学習規則を使用することができる。リサーチ検出結果の生成に加えて、リサーチ検出器406はまた、リサーチ検出結果に対する信頼の統計尺度を示す関連付けられた信頼性レベルを生成することができる(例えば、90の信頼性レベルは、100の試験結果から90が同じ予想結果を有すると予想することができることを示すことができる)。リサーチ検出器406に対する機械学習規則は、本明細書では第1の機械学習規則と呼ぶ場合がある。
ミッション検出器
ミッション検出器408は、2つの連続した問合せ(すなわち、1対の問合せ)が、実行される検索における連続した問合せ間のトピックの一貫性を試験することによって同じミッションの一部であるか否かを試験することができる。例えば、リサーチセッションは、様々な理由のために実行することができ、従って、様々な関連の及び関係のないトピックに対する検索問合せを含むことができる。ミッション検出器408は、問合せの対に対する特徴の第1の部分集合を調べることができ、トピックの一貫性に基づいて(特徴の第2の部分集合に学習規則を適用することによって判断されたように)ユーザが特定の情報の必要性に関連したミッションを実行していることを問合せの対が示すか否かを判断するために、機械学習規則を適用することができる。ミッション検出器408に対する機械学習規則は、問合せの対における第1及び第2の問合せ間のテキストの類似性を示すテキストに基づく特徴、並びに第1及び第2の問合せが時間においてどのくらい近いかを示すことができる時間関連の特徴のような特徴を調べることができる。例えば、ミッション検出器408に対する機械学習規則は、問合せq1 502及びq2 504間のテキストの類似性がある場合にユーザが特定の情報の必要性に関連するミッションを実行していることを検出することができる。一実施形態では、ミッション検出器408はまた、2つの問合せq1 502及びq2 504が近い時間に行われたか否かを調べるために時間関連の特徴を使用することができる。
従って、ミッション検出器408は、第2の特徴部分集合を受信し、次に、方法段階306に関して上述したように特定の情報の必要性に関連するミッションをユーザが実行しているか否かを検出することができる。例えば、ミッション検出器408は、第1及び第2の問合せ502及び504に対して第2の特徴部分集合を受信することができ、ユーザが第1及び第2の問合せ502及び504に対する特定の情報の必要性に関連するミッションを実行しているか否かを示すミッション検出結果を生成するために機械学習規則を使用することができる。ミッション検出結果の生成に加えて、ミッション検出器408はまた、ミッション検出結果に対する信頼の統計的尺度を示す関連付けられた信頼性レベルを生成することができる。ミッション検出器408に対する機械学習規則は、本明細書では第2の機械学習規則と呼ぶ場合がある。
トピック分類器
任意的な方法段階308に関して上述したように、トピック分類器410はまた、セッションユニット402から一連の問合せ/検索結果/文書を受信することができ、一連の問合せ500における第1及び第2の連続した問合せ(例えば、それぞれ第1の問合せ502及び第2の問合せ504)に対する第1及び第2のトピックを判断することができる。次に、トピック分類器410は、第1及び第2のトピックの間に類似性があるか否かを判断することができ、それによって第1の問合せ502と第2の問合せ504間にトピックの類似性があるか否かを判断する。
トピック分類器410は、トピックカテゴリの階層的に編成された分類法に基づく階層ツリーを使用して第1の問合せ502及び第2の問合せ504を特徴付けることができる。このような階層的に編成された分類法の1つの例は、7の深度を有する階層ツリーに編成された1026トピックカテゴリを含むが、異なる数のトピックカテゴリ及び/又は深度を有する他の階層システムを代わりに使用することができる。他の階層的に編成された分類技術は、本明細書に説明するものに加えて又はこの代わりに使用することができる。一実施形態では、トピック分類器410によって使用されるトピック分類システムは、検索エンジン106によって以前に使用されたものとすることができる。
次に、トピック分類器410は、第1の問合せ502及び第2の問合せ504の各々に対するトピックカテゴリ(すなわち、階層ツリーのノード)を判断するためにトピック判断機能を使用することができる。トピック分類器410は、第1の問合せ502及び第2の問合せ504に対する階層ツリーのそれぞれのノード間の距離を判断することができる。例えば、第1の問合せ502に関連付けられるトピックカテゴリのノードと第2の問合せ504に関連付けられるトピックカテゴリのノード間の階層ツリーにおける距離が所定の値(2の距離など)内にある場合、トピック分類器410は、トピックの類似性が第1の問合せ502と第2の問合せ504の間に検出されたことを示す結果を出力することができる。トピック分類器410はまた、トピック類似性結果に関連付けられる信頼性レベルを出力することができる。
例えば、一実施形態では、「ローマ」の第1の問合せ502及び「パリ」の第2の問合せ504の両方は、「ヨーロッパ」の同じ直接親ノードを共有する階層ツリーの個別のノードにマップすることができる。第1の問合せ502に関連付けられるノードと第2の問合せ504に関連付けられるノードの両方が「ヨーロッパ」の同じ親ノードを共有するので、第1の問合せ502に関連付けられるノードと第2の問合せ504に関連付けられるノード間の距離は2である。2の距離は所定の値以内とすることができるので、トピック分類器410は、トピックの類似性が第1の問合せ502と第2の問合せ504の間に検出されたことを示すことができる。しかし、他のトピック分類及びトピック類似性検出方法も可能である。
混合器
次に、混合器412は、一連の問合せ500に対するリサーチ検出器406、ミッション検出器408、及び(任意的な)トピック分類器410の各々からの結果を受信することができる。混合器412はまた、特徴ユニット404からの特徴、並びに各検出器406及び408から(並びに任意的なトピック分類器410から)の結果に関連付けられた信頼性レベルを受信することができる。混合器412は、ユーザが、少なくとも複合リサーチ検出及びミッション検出に基づいてかつ任意的にトピック分類器検出に基づいて、リサーチミッションを実行しているか否かを機械学習規則の別の組を使用して判断することができる(310)。一実施形態では、混合器412は、2つの連続した問合せの対を使用して判断310を実行することができる。他の実施形態では、混合器412は、判断310を実行する時に、3つ、4つ、又はそれよりも多くの問合せの連続した対を使用することができる。代替的に、混合器412は、判断310を実行する時に連続していない問合せの対を使用することができる。
図5に関して、混合器412は、問合せq1 502及びq2 504の第1の対、及び次に問合せq2 504及びq3 506の第2の対に対して、リサーチ検出器406及びミッション検出器408から、並びに任意的にトピック分類器410からの結果を使用することができる。混合器412はまた、特徴ユニット404から直接受信したこれらの2つの問合せ対に対して1つ又はそれよりも多くの特徴を直接に調べることができる。複数の問合せの対に対する判断310を実行するために、混合器412は、以前の複合リサーチ検出、ミッション検出、及び/又はトピック分類器、同じくユーザがリサーチミッションを行ったか否かの以前の判断310の結果を格納するために状態データ414を使用する。換言すると、混合器412は、ユーザのリサーチミッションに関連する現在の判断310を実行する場合に以前の問合せ対に対する格納された検出結果を使用する。
一実施形態では、アプリケーション118(リサーチツール、専用検索、ターゲット広告、及び/又は市場イベントなど)をトリガするために混合器412の結果を使用することができるので、混合器412はまた、アプリケーション118が現在提供されているか否かをイベントデータ416において追跡することができる。アプリケーション118が既に提供されている場合、混合器412は、ユーザがリサーチミッションを実行していると判断される場合にも別のトリガ信号を生成しなくてもよい。代替的に、混合器412は、ユーザが現在のイベント状態に関わらず(アプリケーション118が提供されたことをイベントデータ416が示すか否かに関わらず)ユーザがリサーチミッションを実行していると判断する場合にトリガ信号を生成することができ、従って、トリガ信号を受信するいずれのブロック/論理/ユニットも、トリガ信号にどのように反応するかを判断する必要があると考えられる。
一実施形態では、混合器412は、ユーザがリサーチミッションを実行しているか否かの判断310を行う約混合器判断ユニット418を含むことができる。混合器判断ユニット418は、問合せの第1の対q1 502及びq2 504に対して、並びに問合せの第2の対q2 504及びq3 506に対して、リサーチ検出器406及びミッション検出器408から、並びに任意的にトピック分類器410からの格納された結果を使用することができる(例えば、状態データ414を使用して)。混合器判断ユニット418はまた、特徴ユニット404から直接に受信したこれらの2つの問合せ対に対する1つ又はそれよりも多くの特徴、並びにいずれかの他の状態データ414及び/又はイベントデータ416を調べることができる。
混合器412(及び/又は混合器判断ユニット418)は、別の機械学習システムとして実施することができる。この場合、混合器412は、論理的回帰を使用して規則を学習することができるが、機械学習の他の技術を代わりに使用することもできる。例えば、混合器412は、図6Aに関して上述したものと類似の方法で、図6Bに示すように訓練することができる。混合器612の訓練中、検出器406及び408(及び任意的にトピック分類器410)及び一部の問合せ対に対する特徴ユニット404からの訓練データ614シミュレーティング結果は、混合器612に入力することができる。訓練データ614はまた、各問合せ対に関連付けられる予想される訓練結果を含む。訓練データ614は、一部の連続した問合せの対に対するデータを含むことができる。混合器612が機械規則を学習した状態で、必要に応じてこれらを検証することができる。
従って、混合器412(及び/又は混合器判断ユニット418)の規則が学習(及び任意的に検証)された状態で、混合器412は、ユーザがリサーチミッションを実行しているか否かの確率を示す確率pを内部で生成することができる。確率pは、従って、2つの連続した問合せ対に対する検出器406及び408から(及び任意的にトピック分類器410から)の結果に適用される学習規則の結果とすることができる。一実施形態では、混合器412は、次に、とりわけ、トリガ閾値T、ブースト係数B、並びに一部の付加的な規則に基づいてトリガ信号を生成するために2つの連続した問合せ対に対する確率pを使用することができる。本明細書に説明する例示的なものの代わりに又はそれに加えて、他の閾値及び/又は係数を使用することもできることに注意されたい。付加的な規則は、現在の判断をブースト又はブラックリストに載せることができる。
特に、第1及び第2のトピックの少なくとも1つが所定の一般的なリサーチトピックを含むという信号を混合器412がトピック分類器410から受信した場合、2つ又はそれよりも多くの連続した問合せに対する重要性は、閾値Tを低減することなどによって増加させることができる。例えば、第1のトピック又は第2のトピックのいずれかが所定の一般的なリサーチトピックである(ブーストリストにある)場合、閾値Tは、閾値Tの低下をもたらすブースト係数Bによって割り算することができる。例示的な一般的なリサーチトピックは、とりわけ、旅行、健康、及び仕事の検索に向けられた検索トピックを含む。
代替的に、第1及び第2のトピックの少なくとも一方がブラックリストリサーチトピックを含むという信号を混合器412がトピック分類器410から受信した場合、2つ又はそれよりも多くの連続した問合せの重要性を少なくとも大きく制限することができ、又は判断を完全に取り消すことができる。例えば、トリガ閾値Tは、所定の係数(例えば、ブラックリスト係数)によって増すことができる。一実施形態では、混合器412は、他の検出器406及び408から(又はトピック分類器410から)の結果に関わらず、ユーザがリサーチミッションを実行していないことを単純に判断することができる。例示的なブラックリストリサーチトピックには、アダルトをテーマにした検索及び違法検索などのものが含まれる。
2.特徴
一連の問合せ500を分析して特徴付けるために適用される複数の特徴機能を使用する特徴ユニット404によって複数の特徴を生成することができる。例えば、問合せ対(第1の問合せ502及び第2の問合せ504など)に基づいて一連の問合せ500を分析するために特徴機能を適用することができる。特徴ユニット404は、各問合せ対に対する複数の特徴を生成することができる。各検出器406及び408は、そのそれぞれの検出に対して必要に応じて複数の特徴の異なる部分集合を使用することができる。
テキストの特徴
一実施形態では、テキストの特徴に向けられた特徴機能(テキスト特徴機能)が、2つ又はそれよりも多くの連続した問合せ間のテキストの類似性を計算するために適用される。例えば、第1の問合せq1 502及び第2の問合せq2 504に対してテキストの特徴を計算することができる。テキストの特徴は、とりわけ、2つの連続した問合せq1及びq2の各々における問合せ用語の長さ及び/又は数、2つの連続した問合せq1及びq2間のコサイン類似性、2つの連続した問合せq1及びq2に対するジャカール係数、2つの連続した問合せq1及びq2に対する文字の共通部分のサイズ、及び/又は2つの連続した問合せq1及びq2間のレベンシュタイン編集距離を含むことができる。一連の問合せにおける問合せ用語間のテキストの類似性の尺度は、同じく2つの問合せ502及び504に対する様々なワード又はワードのストリング間のテキストの類似性を測定するための当業技術で公知の様々な技術のいずれかを含むことができる。例えば、このような技術は、様々なワード又はワードのストリング内の共通の用語又は元になる概念を識別する段階を含むことができる。
セッションの特徴
一実施形態では、第1の問合せ502及び第2の問合せ504のような2つ又はそれよりも多くの連続した問合せに対するセッション特性を計算するために、セッション特徴に向けられた特徴機能(セッション特徴機能)が適用される。例えば、セッション特徴は、とりわけ、現在の検索セッションにおけるユーザクリック及び/又は問合せの数、及び/又は最後のユーザクリックからのユーザクリック及び/又は問合せの数を含むことができる。他のセッション特徴は、情報検索セッション中にアクセスされた文書の数を含むことができる。文書は、例えば、ユーザが検索エンジン106によって提供された検索結果ページにおける文書へのリンクを作動させた時にアクセスすることができる。アクセスされた文書の数は、単独で、文書が識別された特定の問合せに関して、又はユーザによって提出された問合せの総数に関して分析することができる。
時間の特徴
一実施形態では、時間関連の特徴に向けられた特徴機能(時間関連の特徴機能)は、第1の問合せ502及び第2の問合せ504のような2つ又はそれよりも多くの連続した問合せに対する時間特性を計算するように構成される。例えば、時間関連の特徴は、とりわけ、ユーザが掲載した第1の問合せ502及び第2の問合せ504の間に経過した時間、2つの問合せ間に経過した時間の逆数、及び2つの問合せ502及び504を含むセッション(すなわち、情報検索セッション)に対する総セッション時間を含む。
他の特徴
一実施形態では、特徴機能は、2つの連続した問合せ502及び504の各々の受信に応答して検索エンジン106によって識別された文書間の類似性を測定することができる。これらの文書関連の特徴はまた、ユーザ側のリサーチミッション意図を見分けるために使用することができる。文書の比較は、2つの連続した問合せ502及び504に応答して検索エンジン106によって識別された文書の部分集合のみを比較する段階を含むことができる。例えば、2つの連続した問合せ502及び504の各々に最も関連があるとして識別された事前に定義された数の文書だけを比較することができる。代替的に、2つの連続した問合せ502及び504を含む情報検索セッション中にユーザによってアクセスされる文書だけを比較に使用することができる。
例えば、文書の比較は、文書内のテキストを比較する段階、又は文書のタイトル、文書に関連付けられるURL、検索エンジン106によって生成される文書の抜粋又は要約、文書に関連付けられるタグ、又は文書に関連付けられる様々なメタデータのような文書の内容を表す他の情報を比較する段階を含むことができる。いくつかの文書内のテキストを比較する時に、テキストの選択された部分だけを比較することができる。例えば、一実施形態では、各文書内の最も頻繁に発生した用語の特定の数だけが比較される。比較される情報がテキストを含む場合、類似性の尺度を提供するために、様々なワード又はワードのストリング間の類似性を測定するための当業技術で公知の様々な技術のいずれかを使用することができる。上述のように、このような技術は、様々なワード又はワードのストリング内の共通の用語又は元になる概念を識別する段階を含むことができる。リサーチセッションが検出された場合にリサーチセッションのトピックの識別及びその説明を助けるために、この方法で識別された共通用語又は元になる概念を更に使用することができる。
当業者は、説明したものの代わりに又はそれに加えて、上述の特徴の他の種類を考えることができることを容易に理解するであろう。
3.リサーチミッション識別システムの調節
一実施形態では、システム管理者は、混合器412及び/又は混合器判断ユニット418などを調節することにより、リサーチミッション識別システム116のトリガ感度を調節することができる。例えば、混合器412のトリガ閾値は、例えば、イベントが直ちにトリガされるか又は直ちにはトリガされないか否かの現実世界のトリガデータに応答して高く又は低く設定することができる。現実世界トリガデータは、使用可能性スタディ、市場スタディ、ユーザの特定の必要性、並びに地理的考慮事項から収集することができる。例えば、トリガ閾値Tは、精度又はリコールに照らして修正することができる。高い精度は、リサーチミッションを実行するユーザの高い確率を示すが、高いリコールは、トリガの高い確率を示す。一部の地理的領域は、リサーチミッションが起こっているという信頼の高レベルを有するまでイベントがトリガされず、又は換言すると、偽陽性の小さな確率が存在することを意味する精度を支持することができる。反対に、他の地理的範囲は、リサーチミッション識別システム116がリサーチミッションが起こっているという信頼を抑制している場合でもイベントがトリガされ、又は換言すると、偽陽性の高い確率が存在することを意味するリコールを支持することができる。
更に、一実施形態では、システム管理者は、リサーチミッション識別システム116における混合器412及び/又は混合器判断ユニット418によって使用される検出器の各々の相対的影響を調節することができる。例えば、トピック分類器410の相対的重みは、ユーザの特定の必要性及び/又は他の考慮事項に基づいて増すか又は低減することができる。一実施形態では、混合器412は、混合器412によって使用される検出器の各々の相対的影響を調節するシステム管理者に応答して、その機械学習規則を再学習及び/又は修正するために再訓練することができる。一実施形態では、混合器412は、新しい機械学習規則を学習するために混合器412を再訓練する必要なく、混合器412によって使用される検出器の各々の相対的影響を調節するシステム管理者に応答してその機械学習規則における各検出器に対する様々な重み及び/又は係数を単純に使用することができる。
4.代替のリサーチミッション識別システム
図7に示すように、一実施形態では、リサーチミッション識別システム116は、セッションユニット702、特徴ユニット704、検出器706、及び機械学習システム708を含むことができる。セッションユニット702は、図4のセッションユニット402と実質的に類似とすることができ、類似の機能を有することができる。特徴ユニット704はまた、図4の特徴ユニット404に実質的に類似とすることができ、類似の機能を有することができる。検出器706は、リサーチ検出器406、ミッション検出器408、及び任意的にトピック分類器410の機能を実行するように構成することができる。例えば、検出器706は、特徴ユニット704から複数の特徴を受信し、関連付けられた信頼性レベルを備えた2つ又はそれよりも多くの個別の結果を作成するために機械学習規則(又は1組のハードコード規則)を適用するように構成することができる。従って、検出器706は、ユーザが複合リサーチを行っているか否かを検出し、ユーザが特定の情報の必要性に関連するミッションを実行しているか否かを判断し、かつ任意的に、生成された特徴に基づいて一連の問合せにおける2つ又はそれよりも多くの連続した問合せ間にトピックの類似性があるか否かを検出する。
従って、検出器706は、リサーチ検出器406、ミッション検出器408、及び任意的にトピック分類器410の機能を実行することができる機械学習規則の単一の組を有することができる。代替的に、検出器706は、リサーチ検出器406、ミッション検出器408、及び任意的にトピック分類器410の各々の機能に対する機械学習規則の個別の組を有することができる。いずれの場合にも、検出器706は、機械学習システム708に機械学習規則を適用した結果を伝播させることができる。代替的に、検出器706は、リサーチ検出器406、ミッション検出器408、及び任意的にトピック分類器410の各々の機能に対するハードコード規則を使用することができる。
機械学習システム708は、内部状態データ414及びイベントデータ416が状態ユニット710によって両方とも格納することができることを除いて図4の混合器412に類似の方法で作動させることができる。リサーチミッション識別システム116は、必要に応じて図4及び7に関して説明した実施形態のいずれの組合せとしても実施することができることは理解されるものとする。
5.モジュラーシステム
一実施形態では、リサーチミッション識別システム116は、モジュラーシステムとすることができる。モジュラー性により、リサーチミッション識別システム116の様々な部分をリサーチミッション識別システム116の他の部分に影響を与える必要なく追加、削除、及び/又は修正することができる。ある一定の状況では、混合器412及び/又は1つ又はそれよりも多くの検出器406及び408の機械学習規則は、再訓練する必要がある場合がある。
例えば、リサーチミッション識別システム116は、図4及び7に関して説明したものに加えて、付加的な検出器モジュールを使用することができる。例えば、新しい検出器ユニットは、2つの連続した問合せが同じ商業製品に関することを2つの連続した問合せに対する第3の特徴の部分集合が示すか否かを検出するように構成することができる。
別の例では、付加的な特徴を特徴ユニット404に追加することができる。これらの付加的な特徴は、リサーチ検出器406によって使用することができるばかりでなく、ミッション検出器408によって使用することもできる。この場合、リサーチ検出器406に対する機械学習規則だけを再学習する必要がある(例えば、新しい又は変更された第1の機械学習規則を学ぶためにリサーチ検出器406を再訓練することにより)。リサーチ検出器406による付加的な特徴の使用は、リサーチ検出器406をより正確なものにすることができる。しかし、混合器412へのリサーチ検出器406の出力は同じであり、それによって混合器412における機械学習規則は、これらの付加的な特徴によって影響を受けない。
従って、リサーチミッション識別システム116のモジュラー性は、カスタムリサーチミッション識別システム116を設計して維持する場合にシステム構築への柔軟性を与える。
6.専用検索アプリケーションのための次の問合せ識別
一実施形態では、リサーチミッションの一部であると識別された問合せに対する検索結果を改善するために、リサーチミッション識別システム116を使用することができる。例えば、一連の問合せにおける3つの連続した問合せがリサーチミッションの一部であると識別される(すなわち、識別するのに使用される)場合、リサーチミッション識別システム116は、一連の問合せにおける第4の問合せを推測することができる。ユーザが第4の問合せを実際に出すことができる前に、結果を見出し検索エンジン106のユーザに提案するために、専用検索アプリケーション(及び/又は検索エンジン106のいずれかの構成要素)のようなアプリケーション118によって第4の問合せを使用することができる。換言すると、出される前にユーザの次の問合せを推測して使用するようにリサーチミッション識別システム116を構成することができる。一実施形態では、混合器412は、一連の問合せにおける次の問合せを推測するために機械学習規則を使用することができるが、リサーチミッション識別システム116の他の構成要素を代わりに使用することもできる。
しかし、本発明は、これらの実施形態に制限されず、検索エンジンのユーザがリサーチミッションを実行しているか否かを判断するための他の手段を使用することもできる。
C.例示的コンピュータシステム実施
システム、方法/処理、及び/又は装置を含む本明細書に説明する実施形態は、図8に示されているコンピュータ800のような公知のサーバ/コンピュータを使用して実施することができる。例えば、図1の検索エンジン106及びリサーチミッション識別システム116、図3に示されている流れ図で説明した方法、及び図4及び/又は7のリサーチミッション識別システム116は、1つ又はそれよりも多くのコンピュータ800を使用して実施することができる。
コンピュータ800は、インターナショナル・ビジネス・マシン、Apple、Sun、HP、Dell、Crayなどから市販されているコンピュータのような本明細書に説明する機能を実行することができるいずれかの市販の公知のコンピュータとすることができる。コンピュータ800は、デスクトップコンピュータ、サーバなどを含むいずれかの種類のコンピュータとすることができる。
コンピュータ800は、プロセッサ804のような1つ又はそれよりも多くのプロセッサ(中央処理ユニット又はCPUとも呼ぶ)を含む。プロセッサ804は、通信バスのような通信インフラストラクチャー802に接続される。一部の実施形態では、プロセッサ804は、複数の計算スレッドを同時に演算することができる。
コンピュータ800はまた、ランダムアクセスメモリ(RAM)のような1次又は主メモリ806を含む。主メモリ806は、制御論理828A(コンピュータソフトウエア)及びデータを格納している。
コンピュータ800はまた、1つ又はそれよりも多くの2次ストレージデバイス810を含む。2次ストレージデバイス810は、例えば、ハードディスクドライブ812及び/又は取外し可能ストレージデバイス又はドライブ814、並びにメモリカード及びメモリスティックのような他の種類のストレージデバイスを含む。例えば、コンピュータ800は、メモリスティックのようなデバイスにインタフェースするためのユニバーサルシリアルバス(USB)インタフェースなどの業界標準インタフェースを含むことができる。取外し可能ストレージドライブ814は、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、コンパクトディスクドライブ、光学ストレージデバイス、テープバックアップなどを表している。
取外し可能ストレージドライブ814は、取外し可能ストレージユニット816と対話する。取外し可能ストレージユニット816は、コンピュータソフトウエア828B(制御論理)及び/又はデータを格納しているコンピュータ使用可能又は可読ストレージ媒体824を含む。取外し可能ストレージユニット816は、フロッピー(登録商標)ディスク、磁気テープ、コンパクトディスク、DVD、光学格納ディスク、又はいずれかの他のコンピュータデータストレージデバイスを表している。取外し可能ストレージドライブ814は、公知の方法で取外し可能ストレージユニット816から読み取り、及び/又は取外し可能ストレージユニット816に書き込む。
コンピュータ800はまた、モニタ、キーボード、ポインティングデバイスなどのような入力/出力/表示デバイス822を含む。
コンピュータ800は、通信又はネットワークインタフェース818を更に含む。通信インタフェース818により、コンピュータ800はリモートシステム及びデバイスと通信することができる。例えば、通信インタフェース818により、コンピュータ800は、LAN、WAN、「インターネット」のような通信ネットワーク又は媒体842を通じて通信することができる。ネットワークインタフェース818は、有線又は無線接続を通じてリモートサイト又はネッワークにインタフェースすることができる。
通信媒体842を通じてコンピュータ800にかつコンピュータ800から制御論理828Cを送信することができる。特に、コンピュータ800は、通信媒体842を通じて制御論理828Cによって変調された搬送波(電磁信号)を受信及び送信することができる。
制御論理(ソフトウエア)を格納しているコンピュータ使用可能又は読取可能媒体を含むあらゆる装置又は製造品は、本明細書ではコンピュータプログラム製品又はプログラムストレージデバイスと呼ぶ。これは、以下に限定されるものではないが、コンピュータ800、主メモリ806、2次ストレージデバイス810、及び取外し可能ストレージユニット816を含む。1つ又はそれよりも多くのデータ処理デバイスによって実行された時に、これらのデータ処理デバイスをして本明細書で説明するように作動させる制御論理を格納するこのようなコンピュータプログラム製品は、本発明の実施形態を表している。
本発明は、本明細書に説明する以外のソフトウエア、ハードウエア、及び/又はオペレーティングシステム実施と協働することができる。本明細書に説明する機能を実行するのに適するいずれのソフトウエア、ハードウエア、及びオペレーティングシステム実施も使用することができる。
D.結論
本発明の様々な実施形態を上述したが、これらは単に例示的に示されており制限ではないことを理解すべきである。形式及び詳細における様々な変更を特許請求の範囲に定められる本発明の精神及び範囲から逸脱することなく上述の実施形態に行うことができることは、当業者には明らかであろう。従って、本発明の広さ及び範囲は、上述の例示的な実施形態のいずれによっても制限すべきではなく、以下の特許請求の範囲及びその均等物に従ってのみ定められるべきである。
300 本方法の流れ図
302 一連の問合せに対する特徴を生成する段階
304 複合リサーチを行っているか否かを検出する段階
306 ミッションを実行しているか否かを検出する段階
308 連続した問合せ間のトピックの類似性を判断する段階

Claims (20)

  1. 検索エンジンのユーザがリサーチミッションを実行しているかを判断するコンピュータ実施式方法であって、
    検索エンジンにユーザによって提出された一連の問合せに関連する複数の特徴を生成する段階と、
    前記複数の特徴の第1の部分集合に基づいて、前記ユーザが第1の機械学習検出器を使用して複合リサーチを行っているかを検出する段階と、
    前記複数の特徴の第2の部分集合に基づいて、前記ユーザが第2の機械学習検出器を使用して特定の情報の必要性に関連するミッションを実行しているかを検出する段階と、
    前記ユーザが少なくとも前記複合リサーチ検出及び前記ミッション検出に基づいてリサーチミッションを実行しているかを判断する段階であって、前記複合リサーチ検出及び前記ミッション検出は、問合わせの2つの連続した対に少なくとも部分的に基づくものであり、前記2つの連続した対の第1の対の第2の問合せと前記2つの連続した対の第2の対の第1の問合せとが同じである段階と、 を含むことを特徴とする方法。
  2. 前記一連の問合せにおける第1の問合せの第1のトピックを判断する段階と、
    前記一連の問合せにおける第2の問合せの第2のトピックを判断する段階と、
    少なくとも前記第1のトピック及び前記第2のトピック間にトピック類似性があるかを検出する段階と、
    を更に含み、
    前記ユーザがリサーチミッションを実行しているかを判断する前記段階は、前記トピック類似性の検出に更に基づく、
    ことを特徴とする請求項1に記載の方法。
  3. 前記第1の問合せの前記第1のトピックを判断する段階が、トピックカテゴリの階層的に編成された分類からの第1のトピックカテゴリを該第1の問合せに割り当てる段階を含み、
    前記第2の問合せの前記第2のトピックを判断する段階が、前記トピックカテゴリの階層的に編成された分類からの第2のトピックカテゴリを該第2の問合せに割り当てる段階を含み、
    少なくとも前記第1のトピックと前記第2のトピック間にトピック類似性があるかを検出する前記段階は、前記トピックカテゴリの階層的に編成された分類における前記第1のトピックカテゴリと前記第2のトピックカテゴリ間の距離を判断する段階を含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記ユーザが少なくとも前記複合リサーチ検出及び前記ミッション検出に基づいてリサーチミッションを実行しているかを判断する前記段階は、
    前記ユーザが少なくとも前記複合リサーチ検出及び前記ミッション検出に基づいてリサーチミッションを実行している確率を計算する段階と、
    前記確率が事前定義の閾値を超えるかを判断する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記一連の問合せにおける該問合せの少なくとも1つのトピックを判断する段階と、
    前記トピックが所定の一般的なリサーチトピックを含む場合、該所定の一般的なリサーチトピックに関連付けられたブースト係数だけ前記事前定義の閾値を下げる段階と、
    を更に含むことを特徴とする請求項4に記載の方法。
  6. 前記一連の問合せにおける該問合せの少なくとも1つのトピックを判断する段階と、
    前記トピックがブラックリストリサーチトピックを含む場合、前記ユーザがリサーチミッションを実行していないと判断する段階と、
    を更に含むことを特徴とする請求項4に記載の方法。
  7. 前記ユーザが第1の機械学習検出器を使用して複合リサーチを行っているかを検出する前記段階は、
    前記第1の機械学習検出器が、前記一連の問合せの2つ又はそれよりも多くの連続した問合せに対する前記複数の特徴の前記第1の部分集合を受信する段階と、
    前記第1の機械学習検出器が、前記複数の特徴の前記第1の部分集合に1つ又はそれよりも多くの機械学習規則を適用し、検索へのユーザの関わりのレベルを示す複合リサーチ検出結果と関連の信頼性レベルとを生成する段階と、
    含み、
    前記複数の特徴の前記第1の部分集合は、セッション特徴及び時間関連の特徴を含む、 ことを特徴とする請求項1に記載の方法。
  8. 前記セッション特徴は、様々なクリック可能イベントを前記2つ又はそれよりも多くの連続した問合せが行われたセッションに関連するとして示し、
    前記時間関連の特徴は、前記様々なクリック可能イベント及び前記セッションに対する様々な時間特性を示す、
    ことを特徴とする請求項7に記載の方法。
  9. 前記ユーザが第2の機械学習検出器を使用して特定の情報の必要性に関連するミッションを行っているかを検出する前記段階は、
    前記第2の機械学習検出器が、前記一連の問合せの2つ又はそれよりも多くの連続した問合せに対する前記複数の特徴の前記第2の部分集合を受信する段階と、
    前記第2の機械学習検出器が、前記複数の特徴の前記第2の部分集合に1つ又はそれよりも多くの機械学習規則を適用し、前記2つ又はそれよりも多くの連続した問合せ間のトピックの一貫性を示すミッション検出結果と関連の信頼性レベルとを生成する段階と、
    を含み、
    前記複数の特徴の前記第2の部分集合は、前記2つ又はそれよりも多くの連続した問合せ間のテキストの類似性を示すテキストの特徴を有する、
    ことを特徴とする請求項1に記載の方法。
  10. 前記判断する段階に基づいて、
    1つ又はそれよりも多くのリサーチツール、
    1つ又はそれよりも多くの専用検索、
    1つ又はそれよりも多くのターゲット広告、及び
    1つ又はそれよりも多くの市場イベント、
    のうちの1つ又はそれよりも多くをトリガする段階、
    を更に含むことを特徴とする請求項1に記載の方法。
  11. 前記ユーザがリサーチセッションを実行しているかの以前の判断、
    前記複合リサーチ検出、
    前記ミッション検出、及び
    前記ユーザによって提出された前記一連の問合せの少なくとも一部分、
    のうちの1つ又はそれよりも多くの状態データを維持する段階、
    を更に含み、
    前記ユーザがリサーチミッションを実行しているかを判断する前記段階は、前記状態データに更に基づく、
    ことを特徴とする請求項1に記載の方法。
  12. 前記複合リサーチ検出及び前記ミッション検出のうちの1つ又はそれよりも多くが、関連の信頼性レベルを有し、
    前記ユーザがリサーチミッションを実行しているかを判断する前記段階は、前記複合リサーチ検出及び前記ミッション検出のうちの1つ又はそれよりも多くに対するそれぞれの関連の信頼性レベルを使用する、
    ことを特徴とする請求項1に記載の方法。
  13. 前記ユーザが少なくとも前記複合リサーチ検出及び前記ミッション検出に基づいてリサーチミッションを実行しているかを判断する前記段階は、機械学習システムを使用する段階を含み、
    前記機械学習システムは、前記複合リサーチ検出及び前記ミッション検出に1つ又はそれよりも多くの機械学習規則を適用し、リサーチミッション判断と関連のリサーチミッション判断信頼性とを生成する、
    ことを更に含むことを特徴とする請求項1に記載の方法。
  14. リサーチミッションを検出するためのシステムであって、
    ユーザによって提出された一連の問合せを受信し、かつ該一連の問合せにおける各問合せに応答して1つ又はそれよりも多くの文書を識別するように構成された検索エンジンと、
    前記一連の問合せを受信し、かつ一連の構造化された問合せを生成するように構成されたセッションユニット、
    前記一連の構造化された問合せの分析に基づいてそこから複数の特徴を生成するように構成された特徴ユニット、
    前記ユーザが第1の機械学習規則を使用して前記複数の特徴の第1の部分集合に基づいて複合リサーチを行っているかを検出するように構成されたリサーチ検出器、
    前記ユーザが第2の機械学習規則を使用して前記複数の特徴の第2の部分集合に基づいて特定の情報の必要性に関連するミッションを行っているかを検出するように構成されたミッション検出器、及び
    前記ユーザが少なくとも前記複合リサーチ検出及び前記ミッション検出に基づいてリサーチミッションを実行しているかを判断するように構成され、前記複合リサーチ検出及び前記ミッション検出は、問合わせの2つの連続した対に少なくとも部分的に基づくものであり、前記2つの連続した対の第1の対の第2の問合せと前記2つの連続した対の第2の対の第1の問合せとが同じである混合器、
    を含むリサーチミッション識別システムと、
    を含むことを特徴とするシステム。
  15. 前記リサーチミッション識別システムは、
    前記一連の構造化された問合せに基づいて前記一連の問合せにおける2つ又はそれよりも多くの連続した問合せ間にトピックの類似性があるかを検出するように構成されたトピック分類器、
    を更に含み、
    前記混合器は、前記ユーザが前記トピック類似性の検出に基づいてリサーチミッションを実行しているかを判断するように構成される、
    ことを特徴とする請求項14に記載のシステム。
  16. 前記リサーチ検出器は、
    前記一連の問合せのうちの2つ又はそれよりも多くの連続した問合せに対する前記複数の特徴の前記第1の部分集合を受信し、かつ
    1つ又はそれよりも多くの機械学習規則を前記複数の特徴の前記第1の部分集合に適用し、検索へのユーザの関わりのレベルを示す複合リサーチ検出結果と関連の信頼性レベルとを生成する、
    ように更に構成され、
    前記複数の特徴の前記第1の部分集合は、セッション特徴及び時間関連の特徴を有する、
    ことを特徴とする請求項14に記載のシステム。
  17. 前記ミッション検出器は、
    前記一連の問合せのうちの2つ又はそれよりも多くの連続した問合せに対する前記複数の特徴の前記第2の部分集合を受信し、かつ
    1つ又はそれよりも多くの機械学習規則を前記複数の特徴の前記第2の部分集合に適用し、前記2つ又はそれよりも多くの連続した問合せ間のトピックの一貫性を示すミッション検出結果と関連の信頼性レベルとを生成する、
    ように更に構成され、
    前記複数の特徴の前記第2の部分集合は、前記2つ又はそれよりも多くの連続した問合せ間のテキストの類似性を示すテキストの特徴を有する、
    ことを特徴とする請求項14に記載のシステム。
  18. リサーチミッションを検出するためのシステムであって、
    ユーザによって提出される一連の問合せを受信し、かつ該一連の問合せにおける各問合せに応答して1つ又はそれよりも多くの文書を識別するように構成された検索エンジンと、
    前記一連の問合せに対して複数の特徴を生成するように構成された特徴ユニット、
    検索へのユーザの関わりのレベルを測定することにより、該ユーザが前記複数の特徴に基づいて複合リサーチを行っているかを検出し、かつ
    連続した問合せの間のトピックの一貫性を測定することにより、前記ユーザが前記複数の特徴に基づいて特定の情報の必要性に関連するミッションを行っているかを判断する、 ように構成された検出器、及び
    前記ユーザが少なくとも前記複合リサーチ検出及び前記ミッション検出に基づいてリサーチミッションを実行しているかを判断するように構成され、前記複合リサーチ検出及び前記ミッション検出は、問合わせの2つの連続した対に少なくとも部分的に基づくものであり、前記2つの連続した対の第1の対の第2の問合せと前記2つの連続した対の第2の対の第1の問合せとが同じである機械学習システム、
    を含むリサーチミッション識別システムと、
    を含むことを特徴とするシステム。
  19. 前記検出器は、
    前記一連の問合せにおける2つ又はそれよりも多くの連続した問合せ間にトピックの類似性があるかを検出する、
    ように更に構成され、
    前記機械学習システムは、前記トピック類似性の検出にも基づいて前記ユーザがリサーチミッションを実行しているかを前記判断するように構成される、
    ことを特徴とする請求項18に記載のシステム。
  20. 前記判断に基づいて、1つ以上の専用検索、1つ以上のターゲット広告、1つ以上の市場イベント、の内の1つ以上をトリガする段階をさらに含む請求項1に記載の方法。
JP2013513189A 2010-05-31 2011-05-11 リサーチミッション識別 Active JP5543020B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/790,895 US8768861B2 (en) 2010-05-31 2010-05-31 Research mission identification
US12/790,895 2010-05-31
PCT/US2011/036065 WO2011152971A2 (en) 2010-05-31 2011-05-11 Research mission identification

Publications (2)

Publication Number Publication Date
JP2013528873A JP2013528873A (ja) 2013-07-11
JP5543020B2 true JP5543020B2 (ja) 2014-07-09

Family

ID=45022905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013513189A Active JP5543020B2 (ja) 2010-05-31 2011-05-11 リサーチミッション識別

Country Status (6)

Country Link
US (1) US8768861B2 (ja)
EP (1) EP2577522A4 (ja)
JP (1) JP5543020B2 (ja)
KR (1) KR101452082B1 (ja)
CN (1) CN102934110A (ja)
WO (1) WO2011152971A2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768861B2 (en) 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification
US9489457B2 (en) * 2011-07-14 2016-11-08 Nuance Communications, Inc. Methods and apparatus for initiating an action
US20150248454A1 (en) * 2012-09-28 2015-09-03 Nec Corporation Query similarity-degree evaluation system, evaluation method, and program
US9594837B2 (en) * 2013-02-26 2017-03-14 Microsoft Technology Licensing, Llc Prediction and information retrieval for intrinsically diverse sessions
US20160078087A1 (en) * 2013-03-29 2016-03-17 Hewlett-Packard Development Company, L.P. Query features and questions
CN105564670B (zh) * 2015-11-24 2017-06-30 沈阳航空航天大学 一种空间站动力学与控制实验平台设计方法
US10146815B2 (en) 2015-12-30 2018-12-04 Oath Inc. Query-goal-mission structures
US10769547B2 (en) 2015-12-30 2020-09-08 Oath Inc. Mobile searches utilizing a query-goal-mission structure
US10430451B2 (en) * 2016-02-22 2019-10-01 Arie Rota System and method for aggregating and sharing accumulated information
JP6584613B1 (ja) * 2018-09-19 2019-10-02 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6679683B2 (ja) * 2018-09-20 2020-04-15 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7258988B2 (ja) * 2019-02-08 2023-04-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6982017B2 (ja) * 2019-02-08 2021-12-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269362B1 (en) * 1997-12-19 2001-07-31 Alta Vista Company System and method for monitoring web pages by comparing generated abstracts
JP4363868B2 (ja) * 2002-08-23 2009-11-11 株式会社東芝 検索キーワード分析プログラム及びシステム並びに方法
US7231375B2 (en) 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US7480667B2 (en) 2004-12-24 2009-01-20 Microsoft Corporation System and method for using anchor text as training data for classifier-based search systems
US7565345B2 (en) * 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
JP2007156932A (ja) 2005-12-06 2007-06-21 Just Syst Corp 学習方法、学習装置、および検索方法、検索装置
CN100462969C (zh) * 2006-08-29 2009-02-18 深圳市我炫网络科技有限公司 利用互联网为公众提供和查询信息的方法
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US7603348B2 (en) 2007-01-26 2009-10-13 Yahoo! Inc. System for classifying a search query
JP2009169519A (ja) * 2008-01-11 2009-07-30 Nec Corp 情報提示装置、情報提示方法、および情報提示用プログラム
US8768861B2 (en) 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification

Also Published As

Publication number Publication date
WO2011152971A3 (en) 2012-04-12
US20110295776A1 (en) 2011-12-01
WO2011152971A2 (en) 2011-12-08
JP2013528873A (ja) 2013-07-11
CN102934110A (zh) 2013-02-13
US8768861B2 (en) 2014-07-01
EP2577522A4 (en) 2015-06-17
EP2577522A2 (en) 2013-04-10
KR20130029787A (ko) 2013-03-25
KR101452082B1 (ko) 2014-10-16

Similar Documents

Publication Publication Date Title
JP5543020B2 (ja) リサーチミッション識別
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US7590619B2 (en) Search system using user behavior data
Clough et al. Evaluating the performance of information retrieval systems using test collections
TWI471737B (zh) 具搜尋結果之蹤跡識別系統與方法
US7877389B2 (en) Segmentation of search topics in query logs
CN103064956B (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
US7580926B2 (en) Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
Calegari et al. Personal ontologies: Generation of user profiles based on the YAGO ontology
US7702671B2 (en) Systems and methods for discovery of data that needs improving or authored using user search results diagnostics
US20080313115A1 (en) Behavioral Profiling Using a Behavioral WEB Graph and Use of the Behavioral WEB Graph in Prediction
US20050125390A1 (en) Automated satisfaction measurement for web search
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US20090299964A1 (en) Presenting search queries related to navigational search queries
Ali et al. An overview of Web search evaluation methods
US20100185623A1 (en) Topical ranking in information retrieval
Huang et al. Kb-enabled query recommendation for long-tail queries
Jansen et al. The effect of specialized multimedia collections on web searching
Berendt Web usage mining, site semantics, and the support of navigation
Lindemann et al. Classification of web sites at super-genre level
Serdyukov et al. Being omnipresent to be almighty: The importance of the global web evidence for organizational expert finding
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质
Hoeber et al. Automatic topic learning for personalized re-ordering of web search results
Jolhe et al. An ontology based personalised mobile search engine
Gill et al. Natural Language Processing with Semantic Measurement

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140507

R150 Certificate of patent or registration of utility model

Ref document number: 5543020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350