JP6105599B2 - 情報の検索 - Google Patents

情報の検索 Download PDF

Info

Publication number
JP6105599B2
JP6105599B2 JP2014534715A JP2014534715A JP6105599B2 JP 6105599 B2 JP6105599 B2 JP 6105599B2 JP 2014534715 A JP2014534715 A JP 2014534715A JP 2014534715 A JP2014534715 A JP 2014534715A JP 6105599 B2 JP6105599 B2 JP 6105599B2
Authority
JP
Japan
Prior art keywords
segment
query
click rate
public information
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014534715A
Other languages
English (en)
Other versions
JP2014532240A (ja
Inventor
ハン シャオメイ
ハン シャオメイ
ソン チャオ
ソン チャオ
ヤン ソン
ヤン ソン
チェン チャオ
チェン チャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2014532240A publication Critical patent/JP2014532240A/ja
Application granted granted Critical
Publication of JP6105599B2 publication Critical patent/JP6105599B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本開示は、ネットワーク検索技術の分野に関し、より具体的には、情報を検索する方法と装置に関する。
本出願は、2011年10月10日に提出された中国特許出願第201110305264.4号、名称「情報を検索する方法と装置」の外国優先権を主張し、当該出願は、その全体が参照により本明細書に組み込まれる。
インターネットの開発によって、ますます多くの商人が、ビジネスのためにeコマースのウエブサイトを用いるようになっている。一般的には、売り手がクライアントの端末を介してeコマースのウエブサイトに製品情報を公開する。買い手は、このeコマースウエブサイトで所望の公開情報を検索するとき、このeコマースウエブサイトのバックエンドサーバが提供するインタフェースにクエリを入力する。このクエリには、1つ以上のコアワードまたはキーワードが含まれる。このバックエンドサーバは、このクエリを以前に記憶されている公開情報と一致させる。一致すれば、対応する公開情報が返送される。
具体的には、従来の技法では、バックエンドサーバは、クエリを以前に記憶されている公開情報と一致させるために、次のステップを用い得る。
第一のステップでは、クエリ中の1つ以上のキーワードを拡張させて、複数の同義語や同音異義語などの、この1つ以上のキーワードに関連する1つ以上のクエリを取得する。
第二のステップでは、これらのキーワード、同義語および同音異義語の各々を以前に記憶されている公開情報と一致させる。これらのキーワード、同義語および同音異義語のうちの少なくとも1つでも含む公開情報があれば、このような公開情報は成功した一致結果として返送される。
この従来の検索技法には、以下にリストアップするいくつかの不利な点がある。
第一に、返送率が低い。クエリを拡張すると、正確さと性能に制限があるため、拡張されるクエリの数が限られる。したがって、一致した公開情報もまた制限される。成功する一致結果はほとんどなく、返送率は低い。
第二に、従来の検索技法はクエリの特徴に完全に依存している。クエリを拡張する際、この拡張は、公開情報(または文書)の特徴を考慮することなく、クエリの特徴に全面的に基づく。したがって、拡張されるクエリの数はわずかであり、拡張の精度はほとんど保証されない。
第三に、クエリを拡張するには、オリジナルのクエリと拡張されたクエリとの間の関連性を考慮する必要があるだけではなく、オリジナルのクエリと文書との間の関連性と、拡張されたクエリと文書との間の関連性をも考慮する必要がある。このため、計算が複雑になりすぎて、計算効率が低下しすぎ、検索速度が落ちる。関連性を計算するには複数の計算ステップもある。これらのステップのうちのいずれかにおける正解率が低いと、最終関連性の計算結果が不正確となる。
本開示の実施形態を図示するために、実施形態の説明で用いられる図面の簡単な紹介を以下に記す。以下の図面は、本開示の実施形態の一部に関連するだけであることが明瞭である。当業者は、創造的な努力無しで、本開示中の図面に従って他の図面を取得することが可能である。
本開示の例示の実施形態による例示の計算システムのアーキテクチャの略図を示す。 例示の情報検索装置の略図を示す。 別の例示の情報検索装置の略図を示す。 別の例示の情報検索装置の略図を示す。 情報を検索する例示の方法のフローチャートを示す。 情報を検索する別の例示の方法のフローチャートを示す。
本概要は、以下の発明を実施するための形態でさらに説明されるコンセプトの選択されたものを簡略化された形態で紹介するために提供される。本概要は、請求される主題のすべての重要な特徴または本質的な特徴を特定することを意図するものでもなければ、請求される主題の範囲を決定する助けとして用いられることを意図するものでもない。例えば、「技法」という用語は、上記の文脈で、および本開示全体にわたって容認されるような、デバイス、システム、方法および/またはコンピュータ読み取り可能命令のことであり得る。
本開示は、情報を検索する方法を提供する。本技法は、クエリの区分クリック率および公開情報の区分クリック率を取得して、このクエリの区分クリック率とこの公開情報の区分クリック率との間の類似度を計算する。計算された類似度が第1のしきい値より高い場合、この公開情報は、成功した一致結果として用いられて返送される。
例えば、本技法は、クエリの区分クリック率を次のように取得し得る。本技法では、クエリをセグメント化して、1つ以上のワードを取得し、また、このセグメント後のこれらのワードの区分クリック率を、区分クリック率の履歴的統計情報から取得する。このセグメント後のこれらのワードの区分クリック率は、対応する区分に対する、このセグメント後のこれらのワードによって形成される文字列の区分クリック率である。本技法は、このセグメント後のこれらのワードに対して順に以下の動作を実施する。この動作が実施される、このセグメント後のこれらのワードのうちのあるワードは、当面のワードと呼ばれる。この当面のワード以外の、このセグメント後のワードによって形成される文字列の区分クリック率と、このセグメント後のワードによって形成される別の文字列の区分リンク率との間の差が第2のしきい値に到達する場合には、この当面のワードはコアワードとして決定される。そうでない場合には、当面のワードは、非コアワードとして決定される。本技法は、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率を、このクエリの区分クリック率として取得する。
例えば、本技法は、公開情報の区分クリック率を取得するために、次の動作を実施し得る。この公開情報はセグメント化されて、1つ以上のコアワードを取得する。対応する区分に対する、このセグメント後のコアワードによって形成される文字列の区分クリック率は、区分クリック率の履歴的統計情報から取得される。
例えば、本技法は、クエリの区分クリック率と公開情報の区分クリック率との間の類似度を、次のように計算し得る。本技法は、このクエリの区分クリック分布とこの公開情報の区分クリック分布との間の距離を、このクエリの区分クリック率およびこの公開情報の区分クリック率に基づいて計算する。本技法は次に、このクエリとこの公開情報との間の類似度を、この距離が位置する間隔に基づいて計算する。
例えば、本技法は、次の式を用いて、このクエリの区分クリック分布とこの公開情報の区分クリック分布との間の距離を、このクエリの区分クリック率およびこの公開情報の区分クリック率に基づいて計算することができる。
Figure 0006105599
は、クエリの区分クリック分布を表す。Dは、公開情報の区分クリック分布を表す。D(Q,D)は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。P(w)は、w個目の区分でのクエリの中のコアワードによって形成される文字列の区分クリック率を表す。P(w)は、w個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。wは、複数の区分の中のある区分の通し番号を表し、w=1,2,・・・Mであり、Mは区分クリック率の履歴的統計情報の中でのすべての区分の数である。
例えば、本技法は、成功した一致結果を次のように返送し得る。本技法は、1つ以上の成功した一致結果を、それらの類似度の降順に基づいてランク付けして、これらを返送結果として返送する。
本開示はまた、情報の検索を提供する装置を提供する。この装置は、取得ユニットと、計算ユニットと、送信ユニットとを含み得る。取得ユニットは、クエリの区分クリック率および公開情報の区分クリック率を取得する。計算ユニットは、このクエリの区分クリック率とこの公開情報の区分クリック率との間の類似度を計算する。送信ユニットは、計算された類似度が第1のしきい値より大きい場合に、公開情報を返送されるべき成功した一致の返送結果として送信する。
例えば、取得ユニットは、第1のセグメント化モジュールと、第1の取得モジュールと、訂正モジュールと、第2の取得モジュールとを含み得る。第1のセグメント化モジュールは、クエリをセグメント化して、1つ以上のワードを取得する。第1の取得モジュールは、セグメント後のワードの区分クリック率を区分クリック率の履歴的統計情報から取得する。このセグメント後のワードの区分クリック率は、対応する区分に対する、このセグメント後のワードによって形成される文字列の区分クリック率である。訂正モジュールは、セグメント後のワードに対して順に次の動作を実施する。次の動作が実施されているワードは、当面のワードと呼ばれる。この当面のワード以外のセグメント後のワードによって形成される文字列の区分クリック率と、このセグメント後のワードによって形成される別の文字列の区分クリック率との間の差が第2のしきい値に到達する場合に、この当面のワードは、コアワードとして決定される。そうでない場合には、この当面のワードは、非コアワードとして決定される。第2の取得モジュールは、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率をクエリの区分クリック率として取得する。
別の例では、取得ユニットはまた、第2のセグメント化モジュールと、第3の取得モジュールとを含み得る。第2のセグメント化モジュールは、公開情報をセグメント化して、1つ以上のコアワードを取得する。第3の取得モジュールは、対応する区分に対するセグメント後の公開情報の中のこのようなコアワードのすべてによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する。
計算ユニットは、第1の計算モジュールと、第2の計算モジュールとを含み得る。第1の計算モジュールは、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率および公開情報の区分クリック率に基づいて計算する。第2の計算モジュールは、クエリと公開情報との間の類似度を、距離が位置する間隔に基づいて計算する。
第1の計算モジュールは、例えば、次の式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率および公開情報の区分クリック率に基づいて計算する。
Figure 0006105599
は、クエリの区分クリック分布を表す。Dは、公開情報の区分クリック分布を表す。D(Q,D)は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。P(w)は、w個目の区分でのクエリの中のコアワードによって形成される文字列の区分クリック率を表す。P(w)は、w個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。wは、複数の区分の中のある区分の通し番号を表し、w=1,2,・・・Mであり、Mは区分クリック率の履歴的統計情報の中でのすべての区分の数である。
本技法は、クエリの区分クリック率および公開情報の区分クリック率を用いて、これらの二者間の類似度を計算する。したがって、本技法は、成功した一致検索結果を判定する際にクエリと公開情報(または文書)との特徴を考慮し、これによって、検索結果の正解率を保証する。加えて、本技法は、公開情報がクエリを完全に含むときだけ、公開情報を返送する代わりに類似度に基づいて返送結果を判定し、これによって、検索結果の正解率を保証すると同時にリターニング率を向上させる、すなわち、ユーザに対してより多くの結果を提供する。さらに、従来の技法では、クエリを拡張する際に、複数の相関関係(オリジナルのクエリと拡張クエリとの間の関連性、オリジナルのクエリと文書との間の関連性、拡張クエリと文書との間の関連性など)を計算する必要がある。本技法は、クエリと公開情報との間の類似度を計算し、これによって、計算の複雑性を軽減し、計算速度を増す。
本技法はまた、類似度を計算するに先立って、クエリおよび公開情報を前処理し得る。例えば、本技法は、クエリから不必要なコアワードを除去し、公開情報から必要なコアワードを抽出し得る。本技法は、必要なコアワードに基づいて類似度を計算し、不必要なコアワードの計算を回避し、これによって、検索結果を返送する速度を向上させることができる。
確かに、本技法によるあらゆる製品が上記の利点をすべて同時に達成する必要はない。
以下は、図面を参照した本技法の詳細な説明である。本明細書の中での説明される実施形態は、例示の実施形態であり、本開示の範囲を制限するために用いられるべきではない。
以下は、図面を参照した本技法の詳細な説明である。本明細書の中での説明される実施形態は、例示の実施形態であり、本開示の範囲を制限するために用いられるべきではない。
例示の実施形態の詳細を説明するに先立って、図1に本技法の原理を実現する例示の適切な計算システムを示す。以下の説明では、別様の記載がない限り、例示の実施形態は、1つ以上のコンピュータによって実施される図面中の作用および動作の1つ以上の参照番号を参照して説明される。これらのコンピュータによって実施される作用および動作は、コンピュータ中の1つ以上のプロセッサがコンピュータ実行可能命令という形態でデータに対して実施する動作を含み得る。このような動作は、1つ以上のコンピュータ記憶媒体におけるデータを当業者が理解するような様式で修正し、維持する。加えて、当業者は、例示の実施形態で説明される作用と動作もまた、ハードウエアで実施され得ることを理解されるだろう。本開示中の例示の実施形態は、例示目的であり、本開示の範囲を制限するために用いられないものとする。
図面中、同じ参照番号は、同じ部品を示す。例示の実施形態は、例示の適切な計算システム中で示される。しかしながら、本明細書中での例示の実施形態は、網羅的なものではなく、本開示を制限する、例えば、すべての代替実施形態を含む、ものと解釈されないものとする。
図1は、本開示の例示の実施形態による例示の計算システムのアーキテクチャの略図を示す。この例示の計算システムアーキテクチャは、図示目的であり、適切な環境の例に過ぎず、本技法の範囲および機能性を制限する意図はない。この計算システムは、図1に示すような何ら特定のコンポーネントまたはコンポーネントの組み合わせに依存するとは解釈されないものとする。
本技法はまた、他のいかなる汎用または特殊な計算上のまたは通信上の環境もしくは構成でも実現され得る。この適用可能な計算システム、環境および構成は、これには限られないが、パソコン、サーバ、マルチプロセッサシステム、マイクロプロセッサベースシステム、ミニコン、メインフレーム、および上記のシステムもしくはデバイスのうちのいずれか1つ以上を含む分配計算システム、を含み得る。
ある例示の実施形態では、図1の情報検索システム100は少なくとも、ウエブサイトのサーバ102と、クライアント端末104とを含み得る。サーバ102は、これには限られないが、1つ以上のプロセッサ106と、メモリー108と、送信デバイス110とを含み得る。1つ以上のプロセッサ106は、マイクロ処理ユニットやフィールドプログラマブルゲートアレイ(FPGA)などの何らかの処理デバイスでもあり得る。
メモリー108は、ランダムアクセスメモリー(RAM)などの揮発性メモリーおよび/またはリードオンリーメモリー(ROM)やフラッシュRAMなどの不揮発性メモリーという形態のコンピュータ記憶媒体を含み得る。メモリー108は、コンピュータ記憶媒体の例である。
コンピュータ記憶媒体は、コンピュータ実行可能な命令、データ構造、プログラムモジュールまたは他のデータなどの情報を記憶するための何らかの方法または技術で実現される揮発性および不揮発性の、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体の例は、これには限られないが、相変化メモリー(PRAM)、スタティックランダムアクセスメモリー(SRAM)、ダイナミックランダムアクセスメモリー(DRAM)、他のタイプのランダムアクセスメモリー(RAM)、リードオンリーメモリー(ROM)、電気的消去可能リードオンリーメモリー(EEPROM)、フラッシュメモリーもしくは他のメモリー技術、コンパクトディスクリードオンリーメモリー(CD−ROM)、デジタルバーサタイルディスク(DVD)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶デバイスもしくは他の磁気記憶デバイス、または計算デバイスがアクセスする情報を記憶するために用いることが可能な他のいずれかの非送信媒体を含む。本明細書で定義されるように、コンピュータ記憶媒体は、変調データ信号や搬送波などの一時的媒体は含まない。メモリー108は、プログラムユニットまたはモジュールと、プログラムデータとを内部に記憶し得る。送信デバイス110は、クライアントの端末と通信する。
クライアント端末104は、これに限られないが、マイクロプロセシングユニットなどの1つ以上のプロセッサ112と、コンピュータ記憶媒体という形態のメモリー114と、サーバ102と通信する送信デバイス116と、ユーザと対話する表示デバイス118とを含み得る。
図1の例では、情報検索システム100は、何らかのハードウエアまたは、機能性を実現するための何らかのソフトウエア、ファームウエアもしくはコンピュータ実行可能な命令を実行することが可能なハードウエアの組み合わせであり得る。情報検索システム100は、分配機能性を実現ための分配システムであり得る。
本開示では、モジュール、ユニットまたはコンポーネントは、情報検索システム100のところでの1つ以上のプロセッサによって実行されるように構成される何らかのコンピュータ実行可能な命令またはインスタンスであり得る。説明されるさまざまなコンポーネント、モジュール、ユニット、検索エンジン、またはサービスは、分離したインスタンスという形態などの、情報検索システム100によって実現される何らかのオブジェクトまたはスレッドであり得る。代替例では、これらのコンポーネント、モジュール、ユニット、検索エンジン、またはサービスは、計算デバイスなどのハードウエアまたはハードウエアとソフトウエアの組み合わせという形態で実現され得る。
本開示は、以下に第1の例示の実施形態を提供する。図1の例では、情報検索システム100は、サーバ102と、クライアント端末104とを含む。クライアント端末104は、ユーザのクエリをサーバ102に送出する。サーバ102は、クエリの区分クリック率および公開情報の区分クリック率を取得し、クエリと公開情報との間の類似度をクエリの区分クリック率および公開情報の区分クリック率に基づいて計算し、計算された類似度が第1のしきい値より高い場合に、公開情報を成功した一致結果として返送する。
本開示の例示の実施形態では、公開情報は、これに限られないが、サーバ102などの1つ以上のサーバを介して他のいずれかのユーザによって公開された何らかの製品情報を含み得る。公開情報はサーバに記憶され得る。公開情報はまた、ニュース情報、ソーシャルネットワーク情報などの他の何らかの情報も含んでもよい。クエリの区分クリック率は、履歴的クリック情報の統計に基づいてサーバ102によって計算されるさまざまな区分でのクエリの区分クリック率である。公開情報の区分クリック率は、履歴的クリック情報の統計に基づいてサーバ102によって計算されるさまざまな区分での公開情報の区分クリック率である。
例えば、区分は、必要性によって設定されたさまざまな等級であり得る。例えば、区分は、電子装置、衣類、化粧品、食料などを含み得る。ユーザが、クエリを検索条件として用いて、検索リクエストを検索エンジンに送出すると、検索エンジンは、クエリが所属する1つ以上の区分のクエリに関連する公開情報を検索して、この公開情報をユーザに返送する。ユーザが、返送された公開情報のうちの1つをクリックすると、公開情報が所属する区分がクリックされる。クエリが所属するすべての区分のクリックの数が計算される。すべての区分の数に対するそれぞれの区分のクリック回数の百分率もまた計算される。この百分率は、それぞれの区分に対するクエリの区分クリック率として用いられ得る。
同じ原理に基づいて、ユーザが、公開情報の中のコアワードを検索条件として用いて、検索リクエストを検索エンジンに送出すると、検索エンジンは、コアワードが所属する区分のコアワードに関連する公開情報を検索して、この公開情報をユーザに返送する。返送された公開情報のうちの1つをユーザがクリックすると、公開情報が所属する区分がクリックされる。このコアワードが所属するすべての区分のクリック回数が計算される。すべての区分のクリック回数に対する個別の区分のクリック回数の百分率もまた、計算される。この百分率は、個別の区分に対する公開情報の区分クリック率として用いられ得る。
例えば、検索ワードが「アップル」であれば、検索エンジンは、クエリは2つの区分、すなわち、「電子装置」と「食料」、に対応すると判定し得る。検索エンジンは、履歴的クリック情報の統計に基づいてそれぞれ「電子装置」区分と「食料」区分とにおいて「アップル」に関連する公開情報のユーザクリックの回数を取得する。「電子装置」区分における「アップル」に関連する公開情報がユーザによって10、000回クリックされ、「食料」区分における「アップル」に関連する公開情報がユーザによって5、000回クリックされていると仮定すると、「電子装置」区分の場合のクエリ「アップル」の区分クリック率は2/3であり、「食料」区分の場合のクエリ「アップル」の区分クリック率は1/3である。
クエリまたは公開情報が複数のコアワードを含むと、区分は、これらの複数のコアワードによって構成される文字列によって決定される。
本例示の実施形態では、クエリの区分クリック率および公開情報の区分クリック率を用いてこれらの二者間の類似度を計算し、これによって、クエリと公開情報(または文書)双方の特徴を考慮しながらも一致が成功するようにして、返送結果の正解率を保証する。加えて、本例示の実施形態は、公開情報がクエリを完全に含むときだけ、公開情報を返送する代わりに類似度に基づいて一致結果を返送し、これによって、リターニング率を向上させる、すなわち、ユーザに対してより多くの結果を提供する、と同時に返送結果の正解率を保証する。
図2は、例示の情報検索装置200の略図を示す。情報検索装置200は、サーバ102のところに常駐し得る。代替例では、情報検索装置200は、サーバ102から分離した計算デバイスであり得る。
図2の例では、情報検索装置200は、これに限られないが、1つ以上のプロセッサ202と、メモリー204とを含み得る。メモリー204は、コンピュータ記憶媒体であり、プログラムユニットまたはプログラムモジュールと、プログラムデータとを記憶し得る。メモリー204に記憶される情報検索装置200のユニットは、取得ユニット206と、計算ユニット208と、送信ユニット210とを含み得る。
取得ユニット206は、クエリの区分クリック率および公開情報の区分クリック率を取得する。計算ユニット208は、クエリの区分クリック率および公開情報の区分クリック率に基づいてクエリと公開情報との間の類似度を計算する。送信ユニット210は、計算された類似度が第1のしきい値より高い場合に、公開情報を成功した一致結果として返送する。この第1のしきい値は、事前設定された数値であったり実際の必要性に基づいて設定されたりし得る。
クエリの区分クリック率および公開情報の区分クリック率を用いて、これらの二者間の類似度を計算し、これによって、クエリと公開情報(または文書)との双方の特徴を考慮しながらも一致が成功するようにして、返送結果の正解率を保証する。加えて、本技法は、公開情報がクエリを完全に含むことを要求するのではなくて、類似度に基づいて検索結果を返送し、これによって、返送結果の正解率を保証し、リターニング率を増大させる、すなわち、ユーザに対してより多くの返送結果を提供する。
結果を返送するための処理時間を減少させるために、一部の例では、本技法は、クエリの区分クリック率を取得する前にクエリを前処理するように取得ユニット206を修正し得る。図3に別の例示の情報検索装置300の略図を示す。図3の例では、取得ユニット206は、第1のセグメント化モジュール302と、第1の取得ユニット304と、訂正モジュール306と、第2の取得モジュール308とを含み得る。第1のセグメント化モジュール302は、クエリをセグメント化して、1つ以上のワードを取得する。第1の取得モジュール304は、区分クリック率の履歴的統計情報に基づいて、セグメント後のワードの区分クリック率を取得する。セグメント後のワードの区分クリック率は、対応する区分に対するセグメント後のワードで形成される文字列の区分クリック率である。訂正モジュール306は、セグメント後のワードに対して次の動作を順に実施する。次の動作が実施されているワードは、当面のワードと呼ばれる。この当面のワード以外のセグメント後のワードによって形成される文字列の区分クリック率と、このセグメント後のワードによって形成される別の文字列の区分クリック率との間の差が第2のしきい値に到達する場合に、この当面のワードはコアワードとして決定される。そうでない場合には、この当面のワードは、非コアワードとして決定される。第2の取得モジュール308は、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率をクエリの区分クリック率として取得する。1つの例では、クエリは、類似度の計算に先立って前処理される。すなわち、不必要なコアワードがクエリから除去され、必要なコアワードだけが、類似度の計算のために用いられる。したがって、不必要なコアワードの計算が回避され、返送結果を増大させる速度が向上する。例えば、対応する区分とは、履歴統計情報中のすべての区分のことであり得る。
例えば、クエリの前処理は、次の動作を含み得る。最初に、クエリをセグメント化して、複数の被処理ワードを取得する。オプションとしては、いくつかのストップワードを取り除き、残ったワードを被処理ワードとして用いるが、これはワードテーブルを介して実施され得る。1つの例では、ストップワードは、記述的ワードを含み得る。対応する区分に対するクエリ中のすべての被処理ワード(例えば、被処理ワードは、ワードA、ワードBおよびワードCを含み得る)によって構成される短い文字列の区分クリック率は、Qであり得る。ワードAが除去された後、対応する区分に対するクエリの残りのワード(例えば、ワードBおよびワードC)によって構成される短い文字列の区分クリック率は、QAであり得る。QとQAを比較する。二者間の差が大きい場合(実際の必要性に基づいて設定され得る事前設定された第2のしきい値より大きい)、ワードAは、多量の情報をオリジナルの文字列Qに対して提供し、Aはコアワードとして決定される、ことを意味する。そうでない場合、ワードAは非コアワードとして決定されて、放棄することが可能である。クエリ中の各々のワードは、コアワードまたは非コアワードとして決定され、非コアワードは除去される。最終的には、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率が取得されて、クエリの区分クリック率として用いられる。
検索結果を返送する処理時間を減少させるために、別の例では、本技法は、公開情報の区分クリック率を取得するに先立って公開情報を前処理するように取得ユニット206を改善させる。例えば、図3に示すように、取得ユニット206は、第2のセグメント化モジュール310と、第3の取得モジュール312とをさらに含み得る。第2のセグメント化モジュール310は、公開情報をセグメント化して、1つ以上のコアワードを取得する。第3の取得モジュール312は、対応する区分に対するセグメント後のすべてのコアワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する。この例では、公開情報は、類似度の計算に先立って前処理される、すなわち、必要なコアワードが公開情報から抽出される。したがって、必要なコアワードだけが、類似度の計算のために用いられる。不必要なコアワードの計算が回避されて、返送結果を増大させる速度が改善される。
図4は、別の例示の情報検索装置400の略図を示す。図4の例では、計算ユニット208は、第1の計算モジュール402と、第2の計算モジュール404とを含み得る。第1の計算モジュール402は、クエリの区分クリック率と公開情報の区分クリック率とに基づいて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算する。第2の計算モジュール404は、この距離が位置する間隔に基づいてクエリと公開情報との間の類似度を計算する。この例では、本技法は、公開情報がクエリを完全に含むときにだけ、公開情報を返送する代わりに類似度に基づいて返送結果を判定し、これによって検索結果の正解率を保証する際にリターニング率を向上させる、すなわち、ユーザに対してより多くの返送結果を提供する。
1つの例では、本技法は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算するために、KL距離計算式を用い得る。他の一部の例では、本技法は、システム要件に基づいて他のいくつかの方法を用い得る。例えば、第1の計算モジュール402は、次の式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算する。
Figure 0006105599
は、クエリの区分クリック分布を表す。Dは、公開情報の区分クリック分布を表す。D(Q,D)は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。P(w)は、w個目の区分でのクエリ中のコアワードによって形成される文字列の区分クリック率を表す。P(w)は、w個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。wは、複数の区分の中のある区分の通し番号を表し、w=1,2,・・・Mであり、Mは区分クリック率の履歴的統計情報の中でのすべての区分の数である。
1つの例では、送信ユニット210は、公開情報を成功した一致結果として返送する。返送された複数の成功した一致結果は、それらの類似度に基づいて降順にランク付けされ得る。したがって、ユーザは、彼/彼女の所望の一致結果を迅速に見つけ得る。
本開示はまた、第2の例示の実施形態を提供する。図1〜4に示すような情報検索システムと装置とに基づいて、本開示は、情報を検索する方法を提供する。図5は、情報を検索する例示の方法のフローチャートを示す。
502で、クエリの区分クリック率および公開情報の区分クリック率が取得される。504で、クエリの区分クリック率と公開情報の区分クリック率とに基づいたクエリと公開情報との間の類似度が、計算される。506で、計算された類似度が第1のしきい値より高い場合には、公開情報は、成功した一致結果として返送される。この第1のしきい値は、事前設定された数値であったり実際の必要性に基づいて設定されたりし得る。
この例示の実施形態では、クエリの区分クリック率および公開情報の区分クリック率を用いて、これらの二者間の類似度を計算し、これによって、クエリと公開情報(または文書)との双方の特徴を考慮しながらも一致が成功するようにして、返送結果の正解率を保証する。加えて、この例示の実施形態は、公開情報がクエリを完全に含むときだけ、公開情報を返送する代わりに類似度に基づいて一致結果を返送し、これによって、リターニング率を改善しながらも返送結果の正解率を保証する、すなわち、ユーザに対してより多くの返送結果を提供する。
検索結果を返送する処理時間を減少させるために、本技法は、クエリの区分クリック率を取得する動作を改善し得る。例えば、クエリの区分クリック率が取得される前に、クエリを前処理し得る。クエリの区分クリック率を取得する動作は、次のステップを含み得る。クエリをセグメント化して、1つ以上のワードを取得する。セグメント後のワードの区分クリック率は、区分クリック率の履歴的統計情報に基づいて取得される。セグメント後のワードの区分クリック率は、対応する区分に対するセグメント後のワードによって形成された文字列の区分クリック率である。次の動作が、セグメント後のワードに対して順に実施される。次の動作が実施されているワードは、当面のワードと呼ばれる。この当面ワード以外のセグメント後のワードで形成される文字列の区分クリック率と、セグメント後のワードで形成される別の文字列の区分クリック率との間の差が、第2のしきい値に到達する場合には、当面のワードはコアワードとして決定される。そうでない場合には、当面のワードは、非コアワードとして決定される。対応する区分に対するすべてのコアワードで形成される文字列の区分クリック率は、クエリの区分クリック率として用いられる。上の例では、クエリは、類似度の計算に先立って前処理される。すなわち、不必要なコアワードがクエリから除去され、必要なコアワードだけが類似度の計算のために用いられる。したがって、不必要なコアワードの計算が回避され、返送結果を増加させる速度が改善される。例えば、上記の対応する区分とは、履歴的統計情報の中のすべての区分のことであり得る。
例えば、クエリの前処理は、次の動作を含み得る。最初に、クエリをセグメント化して、複数の被処理ワードを取得する。オプションとしては、いくつかのストップワードを取り除き、残ったワードを被処理ワードとして用いるが、これはワードテーブルを介して実施され得る。1つの例では、ストップワードは、記述的ワードを含み得る。対応する区分に対するクエリ中のすべての被処理ワード(例えば、被処理ワードは、ワードA、ワードBおよびワードCを含み得る)によって構成される短い文字列の区分クリック率は、Qであり得る。ワードAが除去された後、対応する区分に対するクエリの残りのワード(例えば、ワードBおよびワードC)によって構成される短い文字列の区分クリック率は、QAであり得る。QとQAを比較する。二者間の差が大きい場合(実際の必要性に基づいて設定され得る事前設定された第2のしきい値より大きい)、ワードAは、多量の情報をオリジナルの文字列Qに対して提供し、Aはしたがってコアワードとして決定される、ことを意味する。そうでない場合、ワードAは非コアワードとして決定されて、除去される。クエリ中の各々のワードは、コアワードまたは非コアワードとして決定され、非コアワードは除去される。最終的には、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率が取得され、クエリの区分クリック率として用いられる。
検索結果を返送する処理時間を減少させるために、本技法はまた、公開情報の区分クリック率を取得する動作を改善する。公開情報は、公開情報の区分クリック率が取得される前に前処理される。例えば、公開情報は、1つ以上のコアワードを取得するためにセグメント化され得る。対応する区分に対するセグメント後のすべてのコアワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する。この例では、公開情報は、類似度の計算に先立って前処理される、すなわち、必要なコアワードが公開情報から抽出される。したがって、必要なコアワードだけが、類似度の計算のために用いられる。不必要なコアワードの計算が回避されて、返送結果を増大させる速度が改善される。
例えば、クエリの区分クリック率と公開情報の区分クリック率との間の類似度をクエリの区分クリック率と公開情報の区分クリック率とに基づいて計算する動作は、次のステップを含み得る。クエリの区分クリック分布と公開情報の区分クリック分布との間の距離は、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算される。クエリと公開情報との間の類似度は、この距離が位置する間隔に基づいて計算される。この例では、本技法は、類似度を、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算し、クエリと公開情報(文書)の双方の特徴を考慮し、これによって、返送結果の正解率を保証する。加えて、本技法は、公開情報がクエリを完全に含むときにだけ、公開情報を返送する代わりに類似度に基づいて返送結果を判定し、これによって、検索結果の正解率を保証する際にリターニング率を改善する、すなわち、ユーザに対してより多くの返送結果を提供する。
1つの例では、本技法は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算するために、KL距離計算式を用い得る。他の一部の例では、本技法は、システム要件に基づいて他のいくつかの方法を用い得る。例えば、次の式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算し得る。
Figure 0006105599
は、クエリの区分クリック分布を表す。Dは、公開情報の区分クリック分布を表す。D(Q,D)は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。P(w)は、w個目の区分でのクエリ中のコアワードによって形成される文字列の区分クリック率を表す。P(w)は、w個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。wは、複数の区分の中のある区分の通し番号を表し、w=1,2,・・・Mであり、Mは区分クリック率の履歴的統計情報の中でのすべての区分の数である。
1つの例では、公開情報を成功した一致結果として返送する動作は、次のステップを含み得る。返送された複数の成功した一致結果は、それらの類似度に基づいて降順にランク付けされ得る。したがって、ユーザは、彼/彼女の所望の一致結果を迅速に見つけ得る。
本開示はまた、第3の例示の実施形態を提供する。図6は、情報を検索する別の例示の方法のフローチャートを示す。
602で、ユーザは、1つ以上のコアワードをクエリとしてクライアント端末を介して入力する。604で、サーバは、クエリを受け取り、クエリ中のコアワードと公開情報中のコアワードとの間の類似度を計算する。
例えば、606で、サーバは、ユーザのクリック動作の統計を取得し得る。608で、サーバは、クエリの区分クリック率および公開情報の区分クリック率を、606でのユーザのクリック動作の統計に基づいて取得し得る。例えば、サーバは探索ログを介して各々のクエリの下における一人以上のユーザによってクリックされた公開情報(または文書)の区分情報を見つけ、一人以上のユーザが各々のクエリの下でクリックする区分の比率を計算し、この比率を、対応する区分に対するクエリの区分クリック率として用い得る。クリックがほとんどない区分は計算に対して雑音を惹起し、類似度の計算の正解率に影響し得るため、1つの例では、本技法は、クリック回数が事前設定されたしきい値未満である区分を除去し得る。探索回数がほとんどないクエリもまた、計算に対して雑音を惹起し得るため、本技法はまた、探索回数が事前設定されたしきい値未満のクエリを除去し得る。類似度を計算するときには、本技法はクエリの区分クリック率の特徴を導入する。
1つの例では、公開情報とクエリとの間の類似度を計算する前に、本技法は、クエリおよび公開情報を前処理し得る。例えば、クエリ中のほとんど重要性のない一部のワードが除去され得る。例えば、クエリをセグメント化して、1つ以上のワードを取得する。セグメント後のワードの区分クリック率は、区分クリック率の履歴的統計情報に基づいて取得される。セグメント後のワードの区分クリック率は、対応する区分に対するセグメント後のワードによって形成される文字列の区分クリック率である。次の動作が、セグメント後のワードに対して順に実施される。次の動作が実施されているワードは、当面のワードと呼ばれる。当面のワード以外のセグメント後のワードによって形成される文字列の区分クリック率と、セグメント後のワードによって形成される別の文字列の区分クリック率との間の差が第2のしきい値に到達する場合、当面のワードはコアワードとして決定される。そうでない場合には、当面のワードは、非コアワードとして決定される。すべてのコアワードが決定された後では、1つの例では、対応する区分に対するすべてのワードによって形成される文字列の区分クリック率は、クエリの区分クリック率である。
1つの例では、本技法は、コアワードを公開情報から抽出することによって、公開情報を前処理し得る。前処理の後、本技法は、KL距離計算式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算し得る。他の一部の例では、本技法は、システム要件に基づいて他のいくつかの方法を用い得る。KL距離計算式が次のとおりである。
Figure 0006105599
は、クエリの区分クリック分布を表す。Dは、公開情報の区分クリック分布を表す。D(Q,D)は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。P(w)は、w個目の区分でのクエリ中のコアワードによって形成される文字列の区分クリック率を表す。P(w)は、w個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。wは、複数の区分の中のある区分の通し番号を表し、w=1,2,・・・Mであり、Mは区分クリック率の履歴的統計情報の中でのすべての区分の数である。
610で、サーバは、クエリと公開情報との間の類似度を類似点に基づいて計算する。本技法は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離が位置する間隔を決定し、この距離が位置する間隔に基づいてクエリと公開情報との間の類似度を決定し得る。例えば、本技法は、クエリと公開情報との間の類似度を距離の間隔に基づいて、等級1、等級2および等級3などの3つの等級に分類する。等級3は最適な類似等級であり、等級2はより最適ではない類似等級であり、等級1は最も最適でない類似等級である。
加えて、類似度を分類するとき、本技法はまた、次の要素を考慮し得る:クエリの中のコアワードは公開情報中のコアワードのアクセサリーであるか、クエリ中のコアワードは成功裏に一致したか、など。アクセサリーとは、クエリ中のコアワードによって表される製品と、公開情報中のコアワードによって表される製品の付随的な製品のことである。例えば、「コンピュータ」に対しては、「マウス」、「キーボード」、「ケース」および「出力」はすべて「コンピュータ」の付随的製品である。
例えば、クエリ中のコアワードが公開情報中のコアワードのアクセサリーである場合、公開情報の等級は等級3、すなわち、最適な類似等級、として設定され得る。クエリ中のコアワードが成功裏に一致しない場合、公開情報の等級は等級1、すなわち、最も最適でない類似等級、として設定され得る。加えて、クエリ中の記述的ワードが一致せず、コアワードが一致した場合、公開情報の等級は等級2、すなわち、より最適でない類似等級、として設定され得る。クエリ中の地理的領域ワードが一致しない場合、公開情報の等級は、等級1、すなわち、最も最適でない類似等級、として設定され得る。
確かに、上記の等級は、単なる例である。本技法は、実際の必要に基づいて分類する。
612で、サーバは、検索結果をクライアントの端末に出力する。例えば、サーバは、成功した一致結果をクライアントの端末に対して、降順の類似度に基づいて返送し得る。したがって、ユーザは彼/彼女の所望の結果を迅速に見つける得ることができる。
同じ要件を表現するにしても、ユーザが異なれば、用い得るクエリも異なる。本技法は、例示の実施形態において、クエリと公開情報と間の類似度を計算し、公開情報の類似度を分類し、これによって、正解率を保証して、より多くの検索結果をユーザに提供する。
当業者は、本開示中のモジュール、動作またはステップが、1つ以上の計算デバイスによって実現され得ることを理解されるであろう。これらは、1つの計算デバイスによって実施されるか、複数の計算デバイスで形成されるネットワーク中に分配され得る。オプションとして、これらは、1つ以上の計算デバイスまたはプロセッサによって実行され、1つ以上のコンピュータ記憶媒体に記憶されるコンピュータ実行可能命令という形態であり得る。本開示中で説明されるような動作またはステップのシーケンスは、単なる例示目的であり、さまざまなシーケンスまたは並列シーケンスが、他の一部の例では実施され得る。モジュール、動作またはステップは、それぞれさまざまな集積回路で実現され得る。代替例では、複数のモジュール、動作またはステップが、1つの集積回路で実現され得る。本開示は、何ら特定のハードウエアおよび/またはソフトウエアの組み合わせに限られるものではない。
本開示は、本開示の実施形態の方法、デバイス(システム)および計算プログラムのフローチャートおよび/またはブロック図を参照して説明した。フローチャートおよび/またはブロック図の各々のフローおよび/またはブロックと、フローおよび/またはブロックの組み合わせと、はコンピュータプログラムの命令によって実現可能であることを理解すべきである。これらのコンピュータプログラム命令は、機械を生成するために、汎用コンピュータ、特定のコンピュータ、埋込みプロセッサまたは他のプログラム可能データプロセッサに提供することが可能であり、したがって、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックを実現するデバイスを、コンピュータまたは他のプログラム可能データプロセッサによって動作させられる命令によって生成することが可能である。
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データプロセッサに対してある方法で動作することを命令することが可能な他のコンピュータ読み取り可能記憶装置に記憶することが可能であり、したがって、コンピュータ読み取り可能記憶装置に記憶された命令は、命令デバイスを含む製品を生成するが、ここで、命令デバイスは、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックの中で指定される機能を実現する。
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データプロセッサにロードすることが可能であり、したがって、このコンピュータまたは他のプログラム可能データプロセッサは、一連の動作ステップを動作させて、コンピュータによって実現されるプロセスを生成せることが可能である。したがって、コンピュータまたは他のプログラム可能データプロセッサ中で動作させられる命令は、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックの中で指定されている機能を実現するためのステップを提供することが可能である。
実施形態は、単に本開示を例示するためであり、本開示の範囲を制限する意図はない。この技術分野の人は、本開示の原理から逸脱することなく、ある修正および改良が可能であり、また、本開示の保護下で考慮すべきであることを理解すべきである。

Claims (15)

  1. コンピュータで実行可能な命令で構成された1つ以上のプロセッサで実施される方法であって、
    クエリの区分クリック率および公開情報の区分クリック率を取得することと、
    前記クエリと前記公開情報との間の類似度を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することと、
    前記計算された類似度が第1のしきい値より高い場合に、前記公開情報を成功した一致結果として返送することと、
    を含
    前記クエリの前記区分クリック率を取得することが、
    前記クエリをセグメント化して、1つ以上のワードを取得することと、
    前記クエリからの前記1つ以上のワードの中から1つ以上のコアワードを見つけることと、
    対応する区分に対する、前記1つ以上のコアワードによって形成される文字列の区分クリック率を、前記クエリの前記区分クリック率として取得することと、
    を含み、
    前記クエリからの前記1つ以上のワードの中から前記1つ以上のコアワードを見つけることが、
    前記セグメント後の前記1つ以上のワードの中のワードを当面のワードとして決定することと、
    前記当面のワード以外の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記1つ以上のワードによって形成される別の文字列の区分クリック率との間の差が第2のしきい値に到達する場合に、前記当面のワードをコアワードとして決定することと、
    前記当面のワード以外の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記1つ以上のワードによって形成される別の文字列の区分クリック率との間の差が前記第2のしきい値に到達しない場合に、前記当面のワードを非コアワードとして決定することと、
    を含む、方法。
  2. 前記公開情報の前記区分クリック率を取得することが、
    前記公開情報をセグメント化して、1つ以上のワードを取得することと、
    前記公開情報の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得することと、
    を含む、請求項1に記載の方法。
  3. 前記クエリと前記公開情報との間の前記類似度を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することが、
    前記クエリの区分クリック分布と前記公開情報の区分クリック分布との間の距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することと、
    前記クエリと前記公開情報との間の前記類似度を、前記距離が位置する間隔に基づいて計算することと、
    を含む、請求項1に記載の方法。
  4. 前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の前記距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することが、次の式を用いて前記距離を計算することを含み、
    Figure 0006105599
    式中、
    pは、前記クエリの前記区分クリック分布を表し、
    pは、前記公開情報の前記区分クリック分布を表し、
    D(Qp,Dp)は、前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の前記距離を表し、
    Q(w)は、w個目の区分での前記クエリの中のコアワードによって形成される文字列の区分クリック率を表し、
    D(w)は、前記w個目の区分での前記公開情報の中のコアワードによって形成される文字列の区分クリック率を表し、
    wは、複数の区分の中の対応する区分の通し番号を表し、w=1,2,・・・Mであり、Mは前記区分クリック率の履歴的統計情報の中でのすべての区分の数である、請求項に記載の方法。
  5. 前記公開情報を前記成功した一致結果として返送することが、複数の成功した一致結果を、それらの類似度の降順に基づいてランク付けすることを含む、請求項1に記載の方法。
  6. 前記公開情報が製品情報を含む、請求項1に記載の方法。
  7. 前記公開情報が、ニュース情報および/またはソーシャルネットワーク情報を含む、請求項1に記載の方法。
  8. 1つ以上のプロセッサと、
    前記1つ以上のプロセッサによって実行可能なコンピュータ実行可能コンポーネントを中に記憶しているコンピュータ記憶媒体であって、前記1つ以上のコンピュータ実行可能コンポーネントが、
    クエリの区分クリック率および公開情報の区分クリック率を取得する取得ユニットと、
    前記クエリの前記区分クリック率と前記公開情報の前記区分クリック率との間の類似度を計算する計算ユニットと、
    前記計算された類似度が第1のしきい値より大きい場合に、前記公開情報を成功した一致結果として送信する送信ユニットと、を備える、コンピュータ記憶媒体と、
    を備える装置であって、
    前記取得ユニットが、
    前記クエリをセグメント化して、1つ以上のワードを取得する第1のセグメント化モジュールと、
    前記セグメント後の前記1つ以上のワードの区分クリック率を、区分クリック率の履歴的統計情報から取得する第1の取得モジュールであって、前記セグメント後の前記1つ以上のワードの前記区分クリック率が、対応する区分に対する、前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率である、第1の取得モジュールと、
    訂正モジュールであって、
    前記セグメント後の前記1つ以上のワードの中のワードを当面のワードとして決定し、
    前記当面のワード以外の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記1つ以上のワードによって形成される別の文字列の区分クリック率との間の差が第2のしきい値に到達する場合に、前記当面のワードをコアワードとして決定し、
    前記当面のワード以外の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記1つ以上のワードによって形成される別の文字列の区分クリック率との間の差が前記第2のしきい値に到達しない場合に、前記当面のワードを非コアワードとして決定する、訂正モジュールと、
    対応する区分に対する、前記1つ以上のコアワードによって形成される文字列の区分クリック率を、前記クエリの前記区分クリック率として取得する第2の取得モジュールと、
    を備える、装置
  9. 前記取得ユニットが、
    前記公開情報をセグメント化して1つ以上のワードを取得する第2のセグメント化モジュールと、
    前記公開情報の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する第3の取得モジュールと、
    を備える、請求項に記載の装置。
  10. 前記計算ユニットが、
    前記クエリの区分クリック分布と前記公開情報の区分クリック分布との間の距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算する第1の計算モジュールと、
    前記クエリと前記公開情報との間の前記類似度を、前記距離が存在する間隔に基づいて計算する第2の計算モジュールと、
    を備える、請求項に記載の装置。
  11. 前記第1の計算モジュールが、次の式を用いて、前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の前記距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算し、
    Figure 0006105599
    式中、
    pは、前記クエリの前記区分クリック分布を表し、
    pは、前記公開情報の前記区分クリック分布を表し、
    D(Qp,Dp)は、前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の距離を表し、
    Q(w)は、w個目の区分での前記クエリの中のコアワードで形成される文字列の区分クリック率を表し、
    D(w)は、前記w個目の区分での前記公開情報の中のコアワードによって形成される文字列の区分クリック率を表し、
    wは、複数の区分の中の対応する区分の通し番号を表し、w=1,2,・・・Mであり、Mは前記区分クリック率の前記履歴的統計情報の中でのすべての区分の数である、
    請求項10に記載の装置。
  12. 前記送信ユニットが、複数の成功した一致結果を、その類似度の降順に基づいてさらにランク付けする、請求項に記載の装置。
  13. 前記公開情報が製品情報を含む、請求項に記載の装置。
  14. 前記公開情報が、ニュース情報および/またはソーシャルネットワーク情報を含む、請求項に記載の装置
  15. 1つ以上のプロセッサと、
    動作を実施するために、前記1つ以上のプロセッサによって実行可能なコンピュータ実行可能コンポーネントをその中に記憶している、コンピュータ記憶媒体と、
    を備える計算デバイスであって、前記動作は
    クエリの区分クリック率および公開情報の区分クリック率を取得することと、
    前記クエリと前記公開情報との間の類似度を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することと、
    前記計算された類似度が第1のしきい値より大きい場合に、前記公開情報を成功した一致結果として返送することと、を含み、
    前記クエリの前記区分クリック率を取得することが、
    前記クエリをセグメント化して、1つ以上のワードを取得することと、
    前記クエリからの前記1つ以上のワードの中から1つ以上のコアワードを見つけることと、
    対応する区分に対する、前記1つ以上のコアワードによって形成される文字列の区分クリック率を、前記クエリの前記区分クリック率として取得することと、
    を含み、
    前記クエリからの前記1つ以上のワードの中から前記1つ以上のコアワードを見つけることが、
    前記セグメント後の前記1つ以上のワードを当面のワードとして決定することと、
    前記当面のワード以外の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記1つ以上のワードによって形成される別の文字列の区分クリック率との間の差が第2のしきい値に到達する場合に、前記当面のワードをコアワードとして決定することと、
    前記当面のワード以外の前記セグメント後の前記1つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記1つ以上のワードによって形成される別の文字列の区分クリック率との間の差が前記第2のしきい値に到達しない場合に、前記当面のワードを非コアワードとして決定することと、
    を含む、計算デバイス
JP2014534715A 2011-10-10 2012-10-04 情報の検索 Active JP6105599B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110305264.4A CN103034665B (zh) 2011-10-10 2011-10-10 信息查询方法和装置
CN201110305264.4 2011-10-10
PCT/US2012/058727 WO2013055575A1 (en) 2011-10-10 2012-10-04 Searching information

Publications (2)

Publication Number Publication Date
JP2014532240A JP2014532240A (ja) 2014-12-04
JP6105599B2 true JP6105599B2 (ja) 2017-03-29

Family

ID=47089155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014534715A Active JP6105599B2 (ja) 2011-10-10 2012-10-04 情報の検索

Country Status (7)

Country Link
US (1) US9116977B2 (ja)
EP (1) EP2766826B1 (ja)
JP (1) JP6105599B2 (ja)
CN (1) CN103034665B (ja)
HK (1) HK1178650A1 (ja)
TW (1) TW201316191A (ja)
WO (1) WO2013055575A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868565B1 (en) * 2012-10-30 2014-10-21 Google Inc. Calibrating click duration according to context
US10073882B1 (en) * 2013-07-15 2018-09-11 Google Llc Semantically equivalent query templates
CN105468680A (zh) * 2015-11-16 2016-04-06 中国建设银行股份有限公司 一种数据检索方法和装置
JP6521931B2 (ja) * 2016-11-29 2019-05-29 日本電信電話株式会社 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
US10706048B2 (en) * 2017-02-13 2020-07-07 International Business Machines Corporation Weighting and expanding query terms based on language model favoring surprising words
CN107577707B (zh) * 2017-07-31 2021-06-18 北京奇艺世纪科技有限公司 一种目标数据集生成方法、装置及电子设备
CN109409117B (zh) * 2017-08-15 2021-10-22 创新先进技术有限公司 敏感数据的差分隐私保护方法和装置
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
US7401072B2 (en) 2003-06-10 2008-07-15 Google Inc. Named URL entry
KR100666201B1 (ko) * 2004-11-29 2007-01-09 엔에이치엔(주) 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템
US7620628B2 (en) 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
KR100544514B1 (ko) * 2005-06-27 2006-01-24 엔에이치엔(주) 검색 쿼리 연관성 판단 방법 및 시스템
US20070061303A1 (en) 2005-09-14 2007-03-15 Jorey Ramer Mobile search result clustering
US9396269B2 (en) 2006-06-28 2016-07-19 Microsoft Technology Licensing, Llc Search engine that identifies and uses social networks in communications, retrieval, and electronic commerce
JP2008033613A (ja) * 2006-07-28 2008-02-14 Matsushita Electric Ind Co Ltd コンテンツ検索システムおよびコンテンツ提供システム
US7747600B2 (en) * 2007-06-13 2010-06-29 Microsoft Corporation Multi-level search
US7921069B2 (en) * 2007-06-28 2011-04-05 Yahoo! Inc. Granular data for behavioral targeting using predictive models
US7877404B2 (en) * 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
US20100036832A1 (en) 2008-08-08 2010-02-11 Yahoo!, Inc. Searching by object category for online collaboration platform
US8108406B2 (en) * 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
US8214363B2 (en) * 2009-07-06 2012-07-03 Abhilasha Chaudhary Recognizing domain specific entities in search queries
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
CN102053983B (zh) * 2009-11-02 2013-09-25 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置
US8589228B2 (en) 2010-06-07 2013-11-19 Microsoft Corporation Click modeling for URL placements in query response pages
US9436764B2 (en) 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US20120005021A1 (en) 2010-07-02 2012-01-05 Yahoo! Inc. Selecting advertisements using user search history segmentation
US8825641B2 (en) * 2010-11-09 2014-09-02 Microsoft Corporation Measuring duplication in search results
US10275782B2 (en) 2010-12-28 2019-04-30 Excalibur Ip, Llc Variation of minimum advertisement relevance quality threshold based on search query attributes
US20120191745A1 (en) * 2011-01-24 2012-07-26 Yahoo!, Inc. Synthesized Suggestions for Web-Search Queries
US8458213B2 (en) 2011-02-28 2013-06-04 Ebay Inc. Method and system for classifying queries to improve relevance of search results

Also Published As

Publication number Publication date
JP2014532240A (ja) 2014-12-04
CN103034665A (zh) 2013-04-10
EP2766826A1 (en) 2014-08-20
US20130091165A1 (en) 2013-04-11
WO2013055575A1 (en) 2013-04-18
EP2766826B1 (en) 2019-03-20
CN103034665B (zh) 2016-01-06
US9116977B2 (en) 2015-08-25
HK1178650A1 (zh) 2013-09-13
TW201316191A (zh) 2013-04-16

Similar Documents

Publication Publication Date Title
JP6105599B2 (ja) 情報の検索
US10452691B2 (en) Method and apparatus for generating search results using inverted index
JP6247292B2 (ja) クエリ拡張
US9251292B2 (en) Search result ranking using query clustering
US8761512B1 (en) Query by image
US9836539B2 (en) Content quality filtering without use of content
US7519588B2 (en) Keyword characterization and application
US8805755B2 (en) Decomposable ranking for efficient precomputing
CN105045781B (zh) 查询词相似度计算方法及装置、查询词搜索方法及装置
US8782037B1 (en) System and method for mark-up language document rank analysis
WO2013066929A1 (en) Method and apparatus of ranking search results, and search method and apparatus
JP6124917B2 (ja) 情報検索のための方法および装置
US20110125791A1 (en) Query classification using search result tag ratios
US9183312B2 (en) Image display within web search results
US10346496B2 (en) Information category obtaining method and apparatus
US20110179013A1 (en) Search Log Online Analytic Processing
US9268861B2 (en) Method and system for recommending relevant web content to second screen application users
US20170308519A1 (en) Learning semantic parsing
US9965766B2 (en) Method to expand seed keywords into a relevant social query
Ma et al. Web API discovery using semantic similarity and hungarian algorithm
US9183251B1 (en) Showing prominent users for information retrieval requests
US11544317B1 (en) Identifying content items in response to a text-based request
JP5410359B2 (ja) クエリ選択装置及びプログラム
US8266141B2 (en) Efficient use of computational resources for interleaving
CN113139056A (zh) 网络数据的聚类方法、聚类装置、电子设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170302

R150 Certificate of patent or registration of utility model

Ref document number: 6105599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250