JP6105599B2

JP6105599B2 - 情報の検索

Info

Publication number: JP6105599B2
Application number: JP2014534715A
Authority: JP
Inventors: ハンシャオメイ; ソンチャオ; ヤンソン; チェンチャオ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-10-10
Filing date: 2012-10-04
Publication date: 2017-03-29
Anticipated expiration: 2032-10-04
Also published as: JP2014532240A; CN103034665A; EP2766826A1; US20130091165A1; WO2013055575A1; EP2766826B1; CN103034665B; US9116977B2; HK1178650A1; TW201316191A

Description

本開示は、ネットワーク検索技術の分野に関し、より具体的には、情報を検索する方法と装置に関する。

本出願は、２０１１年１０月１０日に提出された中国特許出願第２０１１１０３０５２６４．４号、名称「情報を検索する方法と装置」の外国優先権を主張し、当該出願は、その全体が参照により本明細書に組み込まれる。

インターネットの開発によって、ますます多くの商人が、ビジネスのためにｅコマースのウエブサイトを用いるようになっている。一般的には、売り手がクライアントの端末を介してｅコマースのウエブサイトに製品情報を公開する。買い手は、このｅコマースウエブサイトで所望の公開情報を検索するとき、このｅコマースウエブサイトのバックエンドサーバが提供するインタフェースにクエリを入力する。このクエリには、１つ以上のコアワードまたはキーワードが含まれる。このバックエンドサーバは、このクエリを以前に記憶されている公開情報と一致させる。一致すれば、対応する公開情報が返送される。

具体的には、従来の技法では、バックエンドサーバは、クエリを以前に記憶されている公開情報と一致させるために、次のステップを用い得る。

第一のステップでは、クエリ中の１つ以上のキーワードを拡張させて、複数の同義語や同音異義語などの、この１つ以上のキーワードに関連する１つ以上のクエリを取得する。

第二のステップでは、これらのキーワード、同義語および同音異義語の各々を以前に記憶されている公開情報と一致させる。これらのキーワード、同義語および同音異義語のうちの少なくとも１つでも含む公開情報があれば、このような公開情報は成功した一致結果として返送される。

この従来の検索技法には、以下にリストアップするいくつかの不利な点がある。

第一に、返送率が低い。クエリを拡張すると、正確さと性能に制限があるため、拡張されるクエリの数が限られる。したがって、一致した公開情報もまた制限される。成功する一致結果はほとんどなく、返送率は低い。

第二に、従来の検索技法はクエリの特徴に完全に依存している。クエリを拡張する際、この拡張は、公開情報（または文書）の特徴を考慮することなく、クエリの特徴に全面的に基づく。したがって、拡張されるクエリの数はわずかであり、拡張の精度はほとんど保証されない。

第三に、クエリを拡張するには、オリジナルのクエリと拡張されたクエリとの間の関連性を考慮する必要があるだけではなく、オリジナルのクエリと文書との間の関連性と、拡張されたクエリと文書との間の関連性をも考慮する必要がある。このため、計算が複雑になりすぎて、計算効率が低下しすぎ、検索速度が落ちる。関連性を計算するには複数の計算ステップもある。これらのステップのうちのいずれかにおける正解率が低いと、最終関連性の計算結果が不正確となる。

本開示の実施形態を図示するために、実施形態の説明で用いられる図面の簡単な紹介を以下に記す。以下の図面は、本開示の実施形態の一部に関連するだけであることが明瞭である。当業者は、創造的な努力無しで、本開示中の図面に従って他の図面を取得することが可能である。
本開示の例示の実施形態による例示の計算システムのアーキテクチャの略図を示す。例示の情報検索装置の略図を示す。別の例示の情報検索装置の略図を示す。別の例示の情報検索装置の略図を示す。情報を検索する例示の方法のフローチャートを示す。情報を検索する別の例示の方法のフローチャートを示す。

本概要は、以下の発明を実施するための形態でさらに説明されるコンセプトの選択されたものを簡略化された形態で紹介するために提供される。本概要は、請求される主題のすべての重要な特徴または本質的な特徴を特定することを意図するものでもなければ、請求される主題の範囲を決定する助けとして用いられることを意図するものでもない。例えば、「技法」という用語は、上記の文脈で、および本開示全体にわたって容認されるような、デバイス、システム、方法および／またはコンピュータ読み取り可能命令のことであり得る。

本開示は、情報を検索する方法を提供する。本技法は、クエリの区分クリック率および公開情報の区分クリック率を取得して、このクエリの区分クリック率とこの公開情報の区分クリック率との間の類似度を計算する。計算された類似度が第１のしきい値より高い場合、この公開情報は、成功した一致結果として用いられて返送される。

例えば、本技法は、クエリの区分クリック率を次のように取得し得る。本技法では、クエリをセグメント化して、１つ以上のワードを取得し、また、このセグメント後のこれらのワードの区分クリック率を、区分クリック率の履歴的統計情報から取得する。このセグメント後のこれらのワードの区分クリック率は、対応する区分に対する、このセグメント後のこれらのワードによって形成される文字列の区分クリック率である。本技法は、このセグメント後のこれらのワードに対して順に以下の動作を実施する。この動作が実施される、このセグメント後のこれらのワードのうちのあるワードは、当面のワードと呼ばれる。この当面のワード以外の、このセグメント後のワードによって形成される文字列の区分クリック率と、このセグメント後のワードによって形成される別の文字列の区分リンク率との間の差が第２のしきい値に到達する場合には、この当面のワードはコアワードとして決定される。そうでない場合には、当面のワードは、非コアワードとして決定される。本技法は、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率を、このクエリの区分クリック率として取得する。

例えば、本技法は、公開情報の区分クリック率を取得するために、次の動作を実施し得る。この公開情報はセグメント化されて、１つ以上のコアワードを取得する。対応する区分に対する、このセグメント後のコアワードによって形成される文字列の区分クリック率は、区分クリック率の履歴的統計情報から取得される。

例えば、本技法は、クエリの区分クリック率と公開情報の区分クリック率との間の類似度を、次のように計算し得る。本技法は、このクエリの区分クリック分布とこの公開情報の区分クリック分布との間の距離を、このクエリの区分クリック率およびこの公開情報の区分クリック率に基づいて計算する。本技法は次に、このクエリとこの公開情報との間の類似度を、この距離が位置する間隔に基づいて計算する。

例えば、本技法は、次の式を用いて、このクエリの区分クリック分布とこの公開情報の区分クリック分布との間の距離を、このクエリの区分クリック率およびこの公開情報の区分クリック率に基づいて計算することができる。

Ｑ_ｐは、クエリの区分クリック分布を表す。Ｄ_ｐは、公開情報の区分クリック分布を表す。Ｄ（Ｑ_ｐ，Ｄ_ｐ）は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。Ｐ_Ｑ（ｗ）は、ｗ個目の区分でのクエリの中のコアワードによって形成される文字列の区分クリック率を表す。Ｐ_Ｄ（ｗ）は、ｗ個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。ｗは、複数の区分の中のある区分の通し番号を表し、ｗ＝１，２，・・・Ｍであり、Ｍは区分クリック率の履歴的統計情報の中でのすべての区分の数である。

例えば、本技法は、成功した一致結果を次のように返送し得る。本技法は、１つ以上の成功した一致結果を、それらの類似度の降順に基づいてランク付けして、これらを返送結果として返送する。

本開示はまた、情報の検索を提供する装置を提供する。この装置は、取得ユニットと、計算ユニットと、送信ユニットとを含み得る。取得ユニットは、クエリの区分クリック率および公開情報の区分クリック率を取得する。計算ユニットは、このクエリの区分クリック率とこの公開情報の区分クリック率との間の類似度を計算する。送信ユニットは、計算された類似度が第１のしきい値より大きい場合に、公開情報を返送されるべき成功した一致の返送結果として送信する。

例えば、取得ユニットは、第１のセグメント化モジュールと、第１の取得モジュールと、訂正モジュールと、第２の取得モジュールとを含み得る。第１のセグメント化モジュールは、クエリをセグメント化して、１つ以上のワードを取得する。第１の取得モジュールは、セグメント後のワードの区分クリック率を区分クリック率の履歴的統計情報から取得する。このセグメント後のワードの区分クリック率は、対応する区分に対する、このセグメント後のワードによって形成される文字列の区分クリック率である。訂正モジュールは、セグメント後のワードに対して順に次の動作を実施する。次の動作が実施されているワードは、当面のワードと呼ばれる。この当面のワード以外のセグメント後のワードによって形成される文字列の区分クリック率と、このセグメント後のワードによって形成される別の文字列の区分クリック率との間の差が第２のしきい値に到達する場合に、この当面のワードは、コアワードとして決定される。そうでない場合には、この当面のワードは、非コアワードとして決定される。第２の取得モジュールは、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率をクエリの区分クリック率として取得する。

別の例では、取得ユニットはまた、第２のセグメント化モジュールと、第３の取得モジュールとを含み得る。第２のセグメント化モジュールは、公開情報をセグメント化して、１つ以上のコアワードを取得する。第３の取得モジュールは、対応する区分に対するセグメント後の公開情報の中のこのようなコアワードのすべてによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する。

計算ユニットは、第１の計算モジュールと、第２の計算モジュールとを含み得る。第１の計算モジュールは、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率および公開情報の区分クリック率に基づいて計算する。第２の計算モジュールは、クエリと公開情報との間の類似度を、距離が位置する間隔に基づいて計算する。

第１の計算モジュールは、例えば、次の式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率および公開情報の区分クリック率に基づいて計算する。

本技法は、クエリの区分クリック率および公開情報の区分クリック率を用いて、これらの二者間の類似度を計算する。したがって、本技法は、成功した一致検索結果を判定する際にクエリと公開情報（または文書）との特徴を考慮し、これによって、検索結果の正解率を保証する。加えて、本技法は、公開情報がクエリを完全に含むときだけ、公開情報を返送する代わりに類似度に基づいて返送結果を判定し、これによって、検索結果の正解率を保証すると同時にリターニング率を向上させる、すなわち、ユーザに対してより多くの結果を提供する。さらに、従来の技法では、クエリを拡張する際に、複数の相関関係（オリジナルのクエリと拡張クエリとの間の関連性、オリジナルのクエリと文書との間の関連性、拡張クエリと文書との間の関連性など）を計算する必要がある。本技法は、クエリと公開情報との間の類似度を計算し、これによって、計算の複雑性を軽減し、計算速度を増す。

本技法はまた、類似度を計算するに先立って、クエリおよび公開情報を前処理し得る。例えば、本技法は、クエリから不必要なコアワードを除去し、公開情報から必要なコアワードを抽出し得る。本技法は、必要なコアワードに基づいて類似度を計算し、不必要なコアワードの計算を回避し、これによって、検索結果を返送する速度を向上させることができる。

確かに、本技法によるあらゆる製品が上記の利点をすべて同時に達成する必要はない。

以下は、図面を参照した本技法の詳細な説明である。本明細書の中での説明される実施形態は、例示の実施形態であり、本開示の範囲を制限するために用いられるべきではない。

例示の実施形態の詳細を説明するに先立って、図１に本技法の原理を実現する例示の適切な計算システムを示す。以下の説明では、別様の記載がない限り、例示の実施形態は、１つ以上のコンピュータによって実施される図面中の作用および動作の１つ以上の参照番号を参照して説明される。これらのコンピュータによって実施される作用および動作は、コンピュータ中の１つ以上のプロセッサがコンピュータ実行可能命令という形態でデータに対して実施する動作を含み得る。このような動作は、１つ以上のコンピュータ記憶媒体におけるデータを当業者が理解するような様式で修正し、維持する。加えて、当業者は、例示の実施形態で説明される作用と動作もまた、ハードウエアで実施され得ることを理解されるだろう。本開示中の例示の実施形態は、例示目的であり、本開示の範囲を制限するために用いられないものとする。

図面中、同じ参照番号は、同じ部品を示す。例示の実施形態は、例示の適切な計算システム中で示される。しかしながら、本明細書中での例示の実施形態は、網羅的なものではなく、本開示を制限する、例えば、すべての代替実施形態を含む、ものと解釈されないものとする。

図１は、本開示の例示の実施形態による例示の計算システムのアーキテクチャの略図を示す。この例示の計算システムアーキテクチャは、図示目的であり、適切な環境の例に過ぎず、本技法の範囲および機能性を制限する意図はない。この計算システムは、図１に示すような何ら特定のコンポーネントまたはコンポーネントの組み合わせに依存するとは解釈されないものとする。

本技法はまた、他のいかなる汎用または特殊な計算上のまたは通信上の環境もしくは構成でも実現され得る。この適用可能な計算システム、環境および構成は、これには限られないが、パソコン、サーバ、マルチプロセッサシステム、マイクロプロセッサベースシステム、ミニコン、メインフレーム、および上記のシステムもしくはデバイスのうちのいずれか１つ以上を含む分配計算システム、を含み得る。

ある例示の実施形態では、図１の情報検索システム１００は少なくとも、ウエブサイトのサーバ１０２と、クライアント端末１０４とを含み得る。サーバ１０２は、これには限られないが、１つ以上のプロセッサ１０６と、メモリー１０８と、送信デバイス１１０とを含み得る。１つ以上のプロセッサ１０６は、マイクロ処理ユニットやフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの何らかの処理デバイスでもあり得る。

メモリー１０８は、ランダムアクセスメモリー（ＲＡＭ）などの揮発性メモリーおよび／またはリードオンリーメモリー（ＲＯＭ）やフラッシュＲＡＭなどの不揮発性メモリーという形態のコンピュータ記憶媒体を含み得る。メモリー１０８は、コンピュータ記憶媒体の例である。

コンピュータ記憶媒体は、コンピュータ実行可能な命令、データ構造、プログラムモジュールまたは他のデータなどの情報を記憶するための何らかの方法または技術で実現される揮発性および不揮発性の、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体の例は、これには限られないが、相変化メモリー（ＰＲＡＭ）、スタティックランダムアクセスメモリー（ＳＲＡＭ）、ダイナミックランダムアクセスメモリー（ＤＲＡＭ）、他のタイプのランダムアクセスメモリー（ＲＡＭ）、リードオンリーメモリー（ＲＯＭ）、電気的消去可能リードオンリーメモリー（ＥＥＰＲＯＭ）、フラッシュメモリーもしくは他のメモリー技術、コンパクトディスクリードオンリーメモリー（ＣＤ−ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶デバイスもしくは他の磁気記憶デバイス、または計算デバイスがアクセスする情報を記憶するために用いることが可能な他のいずれかの非送信媒体を含む。本明細書で定義されるように、コンピュータ記憶媒体は、変調データ信号や搬送波などの一時的媒体は含まない。メモリー１０８は、プログラムユニットまたはモジュールと、プログラムデータとを内部に記憶し得る。送信デバイス１１０は、クライアントの端末と通信する。

クライアント端末１０４は、これに限られないが、マイクロプロセシングユニットなどの１つ以上のプロセッサ１１２と、コンピュータ記憶媒体という形態のメモリー１１４と、サーバ１０２と通信する送信デバイス１１６と、ユーザと対話する表示デバイス１１８とを含み得る。

図１の例では、情報検索システム１００は、何らかのハードウエアまたは、機能性を実現するための何らかのソフトウエア、ファームウエアもしくはコンピュータ実行可能な命令を実行することが可能なハードウエアの組み合わせであり得る。情報検索システム１００は、分配機能性を実現ための分配システムであり得る。

本開示では、モジュール、ユニットまたはコンポーネントは、情報検索システム１００のところでの１つ以上のプロセッサによって実行されるように構成される何らかのコンピュータ実行可能な命令またはインスタンスであり得る。説明されるさまざまなコンポーネント、モジュール、ユニット、検索エンジン、またはサービスは、分離したインスタンスという形態などの、情報検索システム１００によって実現される何らかのオブジェクトまたはスレッドであり得る。代替例では、これらのコンポーネント、モジュール、ユニット、検索エンジン、またはサービスは、計算デバイスなどのハードウエアまたはハードウエアとソフトウエアの組み合わせという形態で実現され得る。

本開示は、以下に第１の例示の実施形態を提供する。図１の例では、情報検索システム１００は、サーバ１０２と、クライアント端末１０４とを含む。クライアント端末１０４は、ユーザのクエリをサーバ１０２に送出する。サーバ１０２は、クエリの区分クリック率および公開情報の区分クリック率を取得し、クエリと公開情報との間の類似度をクエリの区分クリック率および公開情報の区分クリック率に基づいて計算し、計算された類似度が第１のしきい値より高い場合に、公開情報を成功した一致結果として返送する。

本開示の例示の実施形態では、公開情報は、これに限られないが、サーバ１０２などの１つ以上のサーバを介して他のいずれかのユーザによって公開された何らかの製品情報を含み得る。公開情報はサーバに記憶され得る。公開情報はまた、ニュース情報、ソーシャルネットワーク情報などの他の何らかの情報も含んでもよい。クエリの区分クリック率は、履歴的クリック情報の統計に基づいてサーバ１０２によって計算されるさまざまな区分でのクエリの区分クリック率である。公開情報の区分クリック率は、履歴的クリック情報の統計に基づいてサーバ１０２によって計算されるさまざまな区分での公開情報の区分クリック率である。

例えば、区分は、必要性によって設定されたさまざまな等級であり得る。例えば、区分は、電子装置、衣類、化粧品、食料などを含み得る。ユーザが、クエリを検索条件として用いて、検索リクエストを検索エンジンに送出すると、検索エンジンは、クエリが所属する１つ以上の区分のクエリに関連する公開情報を検索して、この公開情報をユーザに返送する。ユーザが、返送された公開情報のうちの１つをクリックすると、公開情報が所属する区分がクリックされる。クエリが所属するすべての区分のクリックの数が計算される。すべての区分の数に対するそれぞれの区分のクリック回数の百分率もまた計算される。この百分率は、それぞれの区分に対するクエリの区分クリック率として用いられ得る。

同じ原理に基づいて、ユーザが、公開情報の中のコアワードを検索条件として用いて、検索リクエストを検索エンジンに送出すると、検索エンジンは、コアワードが所属する区分のコアワードに関連する公開情報を検索して、この公開情報をユーザに返送する。返送された公開情報のうちの１つをユーザがクリックすると、公開情報が所属する区分がクリックされる。このコアワードが所属するすべての区分のクリック回数が計算される。すべての区分のクリック回数に対する個別の区分のクリック回数の百分率もまた、計算される。この百分率は、個別の区分に対する公開情報の区分クリック率として用いられ得る。

例えば、検索ワードが「アップル」であれば、検索エンジンは、クエリは２つの区分、すなわち、「電子装置」と「食料」、に対応すると判定し得る。検索エンジンは、履歴的クリック情報の統計に基づいてそれぞれ「電子装置」区分と「食料」区分とにおいて「アップル」に関連する公開情報のユーザクリックの回数を取得する。「電子装置」区分における「アップル」に関連する公開情報がユーザによって１０、０００回クリックされ、「食料」区分における「アップル」に関連する公開情報がユーザによって５、０００回クリックされていると仮定すると、「電子装置」区分の場合のクエリ「アップル」の区分クリック率は２／３であり、「食料」区分の場合のクエリ「アップル」の区分クリック率は１／３である。

クエリまたは公開情報が複数のコアワードを含むと、区分は、これらの複数のコアワードによって構成される文字列によって決定される。

本例示の実施形態では、クエリの区分クリック率および公開情報の区分クリック率を用いてこれらの二者間の類似度を計算し、これによって、クエリと公開情報（または文書）双方の特徴を考慮しながらも一致が成功するようにして、返送結果の正解率を保証する。加えて、本例示の実施形態は、公開情報がクエリを完全に含むときだけ、公開情報を返送する代わりに類似度に基づいて一致結果を返送し、これによって、リターニング率を向上させる、すなわち、ユーザに対してより多くの結果を提供する、と同時に返送結果の正解率を保証する。

図２は、例示の情報検索装置２００の略図を示す。情報検索装置２００は、サーバ１０２のところに常駐し得る。代替例では、情報検索装置２００は、サーバ１０２から分離した計算デバイスであり得る。

図２の例では、情報検索装置２００は、これに限られないが、１つ以上のプロセッサ２０２と、メモリー２０４とを含み得る。メモリー２０４は、コンピュータ記憶媒体であり、プログラムユニットまたはプログラムモジュールと、プログラムデータとを記憶し得る。メモリー２０４に記憶される情報検索装置２００のユニットは、取得ユニット２０６と、計算ユニット２０８と、送信ユニット２１０とを含み得る。

取得ユニット２０６は、クエリの区分クリック率および公開情報の区分クリック率を取得する。計算ユニット２０８は、クエリの区分クリック率および公開情報の区分クリック率に基づいてクエリと公開情報との間の類似度を計算する。送信ユニット２１０は、計算された類似度が第１のしきい値より高い場合に、公開情報を成功した一致結果として返送する。この第１のしきい値は、事前設定された数値であったり実際の必要性に基づいて設定されたりし得る。

クエリの区分クリック率および公開情報の区分クリック率を用いて、これらの二者間の類似度を計算し、これによって、クエリと公開情報（または文書）との双方の特徴を考慮しながらも一致が成功するようにして、返送結果の正解率を保証する。加えて、本技法は、公開情報がクエリを完全に含むことを要求するのではなくて、類似度に基づいて検索結果を返送し、これによって、返送結果の正解率を保証し、リターニング率を増大させる、すなわち、ユーザに対してより多くの返送結果を提供する。

結果を返送するための処理時間を減少させるために、一部の例では、本技法は、クエリの区分クリック率を取得する前にクエリを前処理するように取得ユニット２０６を修正し得る。図３に別の例示の情報検索装置３００の略図を示す。図３の例では、取得ユニット２０６は、第１のセグメント化モジュール３０２と、第１の取得ユニット３０４と、訂正モジュール３０６と、第２の取得モジュール３０８とを含み得る。第１のセグメント化モジュール３０２は、クエリをセグメント化して、１つ以上のワードを取得する。第１の取得モジュール３０４は、区分クリック率の履歴的統計情報に基づいて、セグメント後のワードの区分クリック率を取得する。セグメント後のワードの区分クリック率は、対応する区分に対するセグメント後のワードで形成される文字列の区分クリック率である。訂正モジュール３０６は、セグメント後のワードに対して次の動作を順に実施する。次の動作が実施されているワードは、当面のワードと呼ばれる。この当面のワード以外のセグメント後のワードによって形成される文字列の区分クリック率と、このセグメント後のワードによって形成される別の文字列の区分クリック率との間の差が第２のしきい値に到達する場合に、この当面のワードはコアワードとして決定される。そうでない場合には、この当面のワードは、非コアワードとして決定される。第２の取得モジュール３０８は、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率をクエリの区分クリック率として取得する。１つの例では、クエリは、類似度の計算に先立って前処理される。すなわち、不必要なコアワードがクエリから除去され、必要なコアワードだけが、類似度の計算のために用いられる。したがって、不必要なコアワードの計算が回避され、返送結果を増大させる速度が向上する。例えば、対応する区分とは、履歴統計情報中のすべての区分のことであり得る。

例えば、クエリの前処理は、次の動作を含み得る。最初に、クエリをセグメント化して、複数の被処理ワードを取得する。オプションとしては、いくつかのストップワードを取り除き、残ったワードを被処理ワードとして用いるが、これはワードテーブルを介して実施され得る。１つの例では、ストップワードは、記述的ワードを含み得る。対応する区分に対するクエリ中のすべての被処理ワード（例えば、被処理ワードは、ワードＡ、ワードＢおよびワードＣを含み得る）によって構成される短い文字列の区分クリック率は、Ｑであり得る。ワードＡが除去された後、対応する区分に対するクエリの残りのワード（例えば、ワードＢおよびワードＣ）によって構成される短い文字列の区分クリック率は、ＱＡであり得る。ＱとＱＡを比較する。二者間の差が大きい場合（実際の必要性に基づいて設定され得る事前設定された第２のしきい値より大きい）、ワードＡは、多量の情報をオリジナルの文字列Ｑに対して提供し、Ａはコアワードとして決定される、ことを意味する。そうでない場合、ワードＡは非コアワードとして決定されて、放棄することが可能である。クエリ中の各々のワードは、コアワードまたは非コアワードとして決定され、非コアワードは除去される。最終的には、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率が取得されて、クエリの区分クリック率として用いられる。

検索結果を返送する処理時間を減少させるために、別の例では、本技法は、公開情報の区分クリック率を取得するに先立って公開情報を前処理するように取得ユニット２０６を改善させる。例えば、図３に示すように、取得ユニット２０６は、第２のセグメント化モジュール３１０と、第３の取得モジュール３１２とをさらに含み得る。第２のセグメント化モジュール３１０は、公開情報をセグメント化して、１つ以上のコアワードを取得する。第３の取得モジュール３１２は、対応する区分に対するセグメント後のすべてのコアワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する。この例では、公開情報は、類似度の計算に先立って前処理される、すなわち、必要なコアワードが公開情報から抽出される。したがって、必要なコアワードだけが、類似度の計算のために用いられる。不必要なコアワードの計算が回避されて、返送結果を増大させる速度が改善される。

図４は、別の例示の情報検索装置４００の略図を示す。図４の例では、計算ユニット２０８は、第１の計算モジュール４０２と、第２の計算モジュール４０４とを含み得る。第１の計算モジュール４０２は、クエリの区分クリック率と公開情報の区分クリック率とに基づいて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算する。第２の計算モジュール４０４は、この距離が位置する間隔に基づいてクエリと公開情報との間の類似度を計算する。この例では、本技法は、公開情報がクエリを完全に含むときにだけ、公開情報を返送する代わりに類似度に基づいて返送結果を判定し、これによって検索結果の正解率を保証する際にリターニング率を向上させる、すなわち、ユーザに対してより多くの返送結果を提供する。

１つの例では、本技法は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算するために、ＫＬ距離計算式を用い得る。他の一部の例では、本技法は、システム要件に基づいて他のいくつかの方法を用い得る。例えば、第１の計算モジュール４０２は、次の式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算する。

Ｑ_ｐは、クエリの区分クリック分布を表す。Ｄ_ｐは、公開情報の区分クリック分布を表す。Ｄ（Ｑ_ｐ，Ｄ_ｐ）は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を表す。Ｐ_Ｑ（ｗ）は、ｗ個目の区分でのクエリ中のコアワードによって形成される文字列の区分クリック率を表す。Ｐ_Ｄ（ｗ）は、ｗ個目の区分での公開情報の中のコアワードによって形成される文字列の区分クリック率を表す。ｗは、複数の区分の中のある区分の通し番号を表し、ｗ＝１，２，・・・Ｍであり、Ｍは区分クリック率の履歴的統計情報の中でのすべての区分の数である。

１つの例では、送信ユニット２１０は、公開情報を成功した一致結果として返送する。返送された複数の成功した一致結果は、それらの類似度に基づいて降順にランク付けされ得る。したがって、ユーザは、彼／彼女の所望の一致結果を迅速に見つけ得る。

本開示はまた、第２の例示の実施形態を提供する。図１〜４に示すような情報検索システムと装置とに基づいて、本開示は、情報を検索する方法を提供する。図５は、情報を検索する例示の方法のフローチャートを示す。

５０２で、クエリの区分クリック率および公開情報の区分クリック率が取得される。５０４で、クエリの区分クリック率と公開情報の区分クリック率とに基づいたクエリと公開情報との間の類似度が、計算される。５０６で、計算された類似度が第１のしきい値より高い場合には、公開情報は、成功した一致結果として返送される。この第１のしきい値は、事前設定された数値であったり実際の必要性に基づいて設定されたりし得る。

この例示の実施形態では、クエリの区分クリック率および公開情報の区分クリック率を用いて、これらの二者間の類似度を計算し、これによって、クエリと公開情報（または文書）との双方の特徴を考慮しながらも一致が成功するようにして、返送結果の正解率を保証する。加えて、この例示の実施形態は、公開情報がクエリを完全に含むときだけ、公開情報を返送する代わりに類似度に基づいて一致結果を返送し、これによって、リターニング率を改善しながらも返送結果の正解率を保証する、すなわち、ユーザに対してより多くの返送結果を提供する。

検索結果を返送する処理時間を減少させるために、本技法は、クエリの区分クリック率を取得する動作を改善し得る。例えば、クエリの区分クリック率が取得される前に、クエリを前処理し得る。クエリの区分クリック率を取得する動作は、次のステップを含み得る。クエリをセグメント化して、１つ以上のワードを取得する。セグメント後のワードの区分クリック率は、区分クリック率の履歴的統計情報に基づいて取得される。セグメント後のワードの区分クリック率は、対応する区分に対するセグメント後のワードによって形成された文字列の区分クリック率である。次の動作が、セグメント後のワードに対して順に実施される。次の動作が実施されているワードは、当面のワードと呼ばれる。この当面ワード以外のセグメント後のワードで形成される文字列の区分クリック率と、セグメント後のワードで形成される別の文字列の区分クリック率との間の差が、第２のしきい値に到達する場合には、当面のワードはコアワードとして決定される。そうでない場合には、当面のワードは、非コアワードとして決定される。対応する区分に対するすべてのコアワードで形成される文字列の区分クリック率は、クエリの区分クリック率として用いられる。上の例では、クエリは、類似度の計算に先立って前処理される。すなわち、不必要なコアワードがクエリから除去され、必要なコアワードだけが類似度の計算のために用いられる。したがって、不必要なコアワードの計算が回避され、返送結果を増加させる速度が改善される。例えば、上記の対応する区分とは、履歴的統計情報の中のすべての区分のことであり得る。

例えば、クエリの前処理は、次の動作を含み得る。最初に、クエリをセグメント化して、複数の被処理ワードを取得する。オプションとしては、いくつかのストップワードを取り除き、残ったワードを被処理ワードとして用いるが、これはワードテーブルを介して実施され得る。１つの例では、ストップワードは、記述的ワードを含み得る。対応する区分に対するクエリ中のすべての被処理ワード（例えば、被処理ワードは、ワードＡ、ワードＢおよびワードＣを含み得る）によって構成される短い文字列の区分クリック率は、Ｑであり得る。ワードＡが除去された後、対応する区分に対するクエリの残りのワード（例えば、ワードＢおよびワードＣ）によって構成される短い文字列の区分クリック率は、ＱＡであり得る。ＱとＱＡを比較する。二者間の差が大きい場合（実際の必要性に基づいて設定され得る事前設定された第２のしきい値より大きい）、ワードＡは、多量の情報をオリジナルの文字列Ｑに対して提供し、Ａはしたがってコアワードとして決定される、ことを意味する。そうでない場合、ワードＡは非コアワードとして決定されて、除去される。クエリ中の各々のワードは、コアワードまたは非コアワードとして決定され、非コアワードは除去される。最終的には、対応する区分に対するすべてのコアワードによって形成される文字列の区分クリック率が取得され、クエリの区分クリック率として用いられる。

検索結果を返送する処理時間を減少させるために、本技法はまた、公開情報の区分クリック率を取得する動作を改善する。公開情報は、公開情報の区分クリック率が取得される前に前処理される。例えば、公開情報は、１つ以上のコアワードを取得するためにセグメント化され得る。対応する区分に対するセグメント後のすべてのコアワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する。この例では、公開情報は、類似度の計算に先立って前処理される、すなわち、必要なコアワードが公開情報から抽出される。したがって、必要なコアワードだけが、類似度の計算のために用いられる。不必要なコアワードの計算が回避されて、返送結果を増大させる速度が改善される。

例えば、クエリの区分クリック率と公開情報の区分クリック率との間の類似度をクエリの区分クリック率と公開情報の区分クリック率とに基づいて計算する動作は、次のステップを含み得る。クエリの区分クリック分布と公開情報の区分クリック分布との間の距離は、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算される。クエリと公開情報との間の類似度は、この距離が位置する間隔に基づいて計算される。この例では、本技法は、類似度を、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算し、クエリと公開情報（文書）の双方の特徴を考慮し、これによって、返送結果の正解率を保証する。加えて、本技法は、公開情報がクエリを完全に含むときにだけ、公開情報を返送する代わりに類似度に基づいて返送結果を判定し、これによって、検索結果の正解率を保証する際にリターニング率を改善する、すなわち、ユーザに対してより多くの返送結果を提供する。

１つの例では、本技法は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算するために、ＫＬ距離計算式を用い得る。他の一部の例では、本技法は、システム要件に基づいて他のいくつかの方法を用い得る。例えば、次の式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を、クエリの区分クリック率と公開情報の区分クリック率とに基づいて計算し得る。

１つの例では、公開情報を成功した一致結果として返送する動作は、次のステップを含み得る。返送された複数の成功した一致結果は、それらの類似度に基づいて降順にランク付けされ得る。したがって、ユーザは、彼／彼女の所望の一致結果を迅速に見つけ得る。

本開示はまた、第３の例示の実施形態を提供する。図６は、情報を検索する別の例示の方法のフローチャートを示す。

６０２で、ユーザは、１つ以上のコアワードをクエリとしてクライアント端末を介して入力する。６０４で、サーバは、クエリを受け取り、クエリ中のコアワードと公開情報中のコアワードとの間の類似度を計算する。

例えば、６０６で、サーバは、ユーザのクリック動作の統計を取得し得る。６０８で、サーバは、クエリの区分クリック率および公開情報の区分クリック率を、６０６でのユーザのクリック動作の統計に基づいて取得し得る。例えば、サーバは探索ログを介して各々のクエリの下における一人以上のユーザによってクリックされた公開情報（または文書）の区分情報を見つけ、一人以上のユーザが各々のクエリの下でクリックする区分の比率を計算し、この比率を、対応する区分に対するクエリの区分クリック率として用い得る。クリックがほとんどない区分は計算に対して雑音を惹起し、類似度の計算の正解率に影響し得るため、１つの例では、本技法は、クリック回数が事前設定されたしきい値未満である区分を除去し得る。探索回数がほとんどないクエリもまた、計算に対して雑音を惹起し得るため、本技法はまた、探索回数が事前設定されたしきい値未満のクエリを除去し得る。類似度を計算するときには、本技法はクエリの区分クリック率の特徴を導入する。

１つの例では、公開情報とクエリとの間の類似度を計算する前に、本技法は、クエリおよび公開情報を前処理し得る。例えば、クエリ中のほとんど重要性のない一部のワードが除去され得る。例えば、クエリをセグメント化して、１つ以上のワードを取得する。セグメント後のワードの区分クリック率は、区分クリック率の履歴的統計情報に基づいて取得される。セグメント後のワードの区分クリック率は、対応する区分に対するセグメント後のワードによって形成される文字列の区分クリック率である。次の動作が、セグメント後のワードに対して順に実施される。次の動作が実施されているワードは、当面のワードと呼ばれる。当面のワード以外のセグメント後のワードによって形成される文字列の区分クリック率と、セグメント後のワードによって形成される別の文字列の区分クリック率との間の差が第２のしきい値に到達する場合、当面のワードはコアワードとして決定される。そうでない場合には、当面のワードは、非コアワードとして決定される。すべてのコアワードが決定された後では、１つの例では、対応する区分に対するすべてのワードによって形成される文字列の区分クリック率は、クエリの区分クリック率である。

１つの例では、本技法は、コアワードを公開情報から抽出することによって、公開情報を前処理し得る。前処理の後、本技法は、ＫＬ距離計算式を用いて、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離を計算し得る。他の一部の例では、本技法は、システム要件に基づいて他のいくつかの方法を用い得る。ＫＬ距離計算式が次のとおりである。

６１０で、サーバは、クエリと公開情報との間の類似度を類似点に基づいて計算する。本技法は、クエリの区分クリック分布と公開情報の区分クリック分布との間の距離が位置する間隔を決定し、この距離が位置する間隔に基づいてクエリと公開情報との間の類似度を決定し得る。例えば、本技法は、クエリと公開情報との間の類似度を距離の間隔に基づいて、等級１、等級２および等級３などの３つの等級に分類する。等級３は最適な類似等級であり、等級２はより最適ではない類似等級であり、等級１は最も最適でない類似等級である。

加えて、類似度を分類するとき、本技法はまた、次の要素を考慮し得る：クエリの中のコアワードは公開情報中のコアワードのアクセサリーであるか、クエリ中のコアワードは成功裏に一致したか、など。アクセサリーとは、クエリ中のコアワードによって表される製品と、公開情報中のコアワードによって表される製品の付随的な製品のことである。例えば、「コンピュータ」に対しては、「マウス」、「キーボード」、「ケース」および「出力」はすべて「コンピュータ」の付随的製品である。

例えば、クエリ中のコアワードが公開情報中のコアワードのアクセサリーである場合、公開情報の等級は等級３、すなわち、最適な類似等級、として設定され得る。クエリ中のコアワードが成功裏に一致しない場合、公開情報の等級は等級１、すなわち、最も最適でない類似等級、として設定され得る。加えて、クエリ中の記述的ワードが一致せず、コアワードが一致した場合、公開情報の等級は等級２、すなわち、より最適でない類似等級、として設定され得る。クエリ中の地理的領域ワードが一致しない場合、公開情報の等級は、等級１、すなわち、最も最適でない類似等級、として設定され得る。

確かに、上記の等級は、単なる例である。本技法は、実際の必要に基づいて分類する。

６１２で、サーバは、検索結果をクライアントの端末に出力する。例えば、サーバは、成功した一致結果をクライアントの端末に対して、降順の類似度に基づいて返送し得る。したがって、ユーザは彼／彼女の所望の結果を迅速に見つける得ることができる。

同じ要件を表現するにしても、ユーザが異なれば、用い得るクエリも異なる。本技法は、例示の実施形態において、クエリと公開情報と間の類似度を計算し、公開情報の類似度を分類し、これによって、正解率を保証して、より多くの検索結果をユーザに提供する。

当業者は、本開示中のモジュール、動作またはステップが、１つ以上の計算デバイスによって実現され得ることを理解されるであろう。これらは、１つの計算デバイスによって実施されるか、複数の計算デバイスで形成されるネットワーク中に分配され得る。オプションとして、これらは、１つ以上の計算デバイスまたはプロセッサによって実行され、１つ以上のコンピュータ記憶媒体に記憶されるコンピュータ実行可能命令という形態であり得る。本開示中で説明されるような動作またはステップのシーケンスは、単なる例示目的であり、さまざまなシーケンスまたは並列シーケンスが、他の一部の例では実施され得る。モジュール、動作またはステップは、それぞれさまざまな集積回路で実現され得る。代替例では、複数のモジュール、動作またはステップが、１つの集積回路で実現され得る。本開示は、何ら特定のハードウエアおよび／またはソフトウエアの組み合わせに限られるものではない。

本開示は、本開示の実施形態の方法、デバイス（システム）および計算プログラムのフローチャートおよび／またはブロック図を参照して説明した。フローチャートおよび／またはブロック図の各々のフローおよび／またはブロックと、フローおよび／またはブロックの組み合わせと、はコンピュータプログラムの命令によって実現可能であることを理解すべきである。これらのコンピュータプログラム命令は、機械を生成するために、汎用コンピュータ、特定のコンピュータ、埋込みプロセッサまたは他のプログラム可能データプロセッサに提供することが可能であり、したがって、フローチャートの１つ以上のフローおよび／またはブロック図の１つ以上のブロックを実現するデバイスを、コンピュータまたは他のプログラム可能データプロセッサによって動作させられる命令によって生成することが可能である。

これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データプロセッサに対してある方法で動作することを命令することが可能な他のコンピュータ読み取り可能記憶装置に記憶することが可能であり、したがって、コンピュータ読み取り可能記憶装置に記憶された命令は、命令デバイスを含む製品を生成するが、ここで、命令デバイスは、フローチャートの１つ以上のフローおよび／またはブロック図の１つ以上のブロックの中で指定される機能を実現する。

これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能データプロセッサにロードすることが可能であり、したがって、このコンピュータまたは他のプログラム可能データプロセッサは、一連の動作ステップを動作させて、コンピュータによって実現されるプロセスを生成せることが可能である。したがって、コンピュータまたは他のプログラム可能データプロセッサ中で動作させられる命令は、フローチャートの１つ以上のフローおよび／またはブロック図の１つ以上のブロックの中で指定されている機能を実現するためのステップを提供することが可能である。

実施形態は、単に本開示を例示するためであり、本開示の範囲を制限する意図はない。この技術分野の人は、本開示の原理から逸脱することなく、ある修正および改良が可能であり、また、本開示の保護下で考慮すべきであることを理解すべきである。

Claims

コンピュータで実行可能な命令で構成された１つ以上のプロセッサで実施される方法であって、
クエリの区分クリック率および公開情報の区分クリック率を取得することと、
前記クエリと前記公開情報との間の類似度を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することと、
前記計算された類似度が第１のしきい値より高い場合に、前記公開情報を成功した一致結果として返送することと、
を含み、
前記クエリの前記区分クリック率を取得することが、
前記クエリをセグメント化して、１つ以上のワードを取得することと、
前記クエリからの前記１つ以上のワードの中から１つ以上のコアワードを見つけることと、
対応する区分に対する、前記１つ以上のコアワードによって形成される文字列の区分クリック率を、前記クエリの前記区分クリック率として取得することと、
を含み、
前記クエリからの前記１つ以上のワードの中から前記１つ以上のコアワードを見つけることが、
前記セグメント後の前記１つ以上のワードの中のワードを当面のワードとして決定することと、
前記当面のワード以外の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記１つ以上のワードによって形成される別の文字列の区分クリック率との間の差が第２のしきい値に到達する場合に、前記当面のワードをコアワードとして決定することと、
前記当面のワード以外の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記１つ以上のワードによって形成される別の文字列の区分クリック率との間の差が前記第２のしきい値に到達しない場合に、前記当面のワードを非コアワードとして決定することと、
を含む、方法。
前記公開情報の前記区分クリック率を取得することが、
前記公開情報をセグメント化して、１つ以上のワードを取得することと、
前記公開情報の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得することと、
を含む、請求項１に記載の方法。
前記クエリと前記公開情報との間の前記類似度を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することが、
前記クエリの区分クリック分布と前記公開情報の区分クリック分布との間の距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することと、
前記クエリと前記公開情報との間の前記類似度を、前記距離が位置する間隔に基づいて計算することと、
を含む、請求項１に記載の方法。
前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の前記距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することが、次の式を用いて前記距離を計算することを含み、

式中、
Ｑ_pは、前記クエリの前記区分クリック分布を表し、
Ｄ_pは、前記公開情報の前記区分クリック分布を表し、
Ｄ（Ｑ_p，Ｄ_p）は、前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の前記距離を表し、
Ｐ_Q（ｗ）は、ｗ個目の区分での前記クエリの中のコアワードによって形成される文字列の区分クリック率を表し、
Ｐ_D（ｗ）は、前記ｗ個目の区分での前記公開情報の中のコアワードによって形成される文字列の区分クリック率を表し、
ｗは、複数の区分の中の対応する区分の通し番号を表し、ｗ＝１，２，・・・Ｍであり、Ｍは前記区分クリック率の履歴的統計情報の中でのすべての区分の数である、請求項３に記載の方法。
前記公開情報を前記成功した一致結果として返送することが、複数の成功した一致結果を、それらの類似度の降順に基づいてランク付けすることを含む、請求項１に記載の方法。
前記公開情報が製品情報を含む、請求項１に記載の方法。
前記公開情報が、ニュース情報および／またはソーシャルネットワーク情報を含む、請求項１に記載の方法。
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行可能なコンピュータ実行可能コンポーネントを中に記憶しているコンピュータ記憶媒体であって、前記１つ以上のコンピュータ実行可能コンポーネントが、
クエリの区分クリック率および公開情報の区分クリック率を取得する取得ユニットと、
前記クエリの前記区分クリック率と前記公開情報の前記区分クリック率との間の類似度を計算する計算ユニットと、
前記計算された類似度が第１のしきい値より大きい場合に、前記公開情報を成功した一致結果として送信する送信ユニットと、を備える、コンピュータ記憶媒体と、
を備える装置であって、
前記取得ユニットが、
前記クエリをセグメント化して、１つ以上のワードを取得する第１のセグメント化モジュールと、
前記セグメント後の前記１つ以上のワードの区分クリック率を、区分クリック率の履歴的統計情報から取得する第１の取得モジュールであって、前記セグメント後の前記１つ以上のワードの前記区分クリック率が、対応する区分に対する、前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率である、第１の取得モジュールと、
訂正モジュールであって、
前記セグメント後の前記１つ以上のワードの中のワードを当面のワードとして決定し、
前記当面のワード以外の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記１つ以上のワードによって形成される別の文字列の区分クリック率との間の差が第２のしきい値に到達する場合に、前記当面のワードをコアワードとして決定し、
前記当面のワード以外の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記１つ以上のワードによって形成される別の文字列の区分クリック率との間の差が前記第２のしきい値に到達しない場合に、前記当面のワードを非コアワードとして決定する、訂正モジュールと、
対応する区分に対する、前記１つ以上のコアワードによって形成される文字列の区分クリック率を、前記クエリの前記区分クリック率として取得する第２の取得モジュールと、
を備える、装置。
前記取得ユニットが、
前記公開情報をセグメント化して１つ以上のワードを取得する第２のセグメント化モジュールと、
前記公開情報の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率を、区分クリック率の履歴的統計情報から取得する第３の取得モジュールと、
を備える、請求項８に記載の装置。
前記計算ユニットが、
前記クエリの区分クリック分布と前記公開情報の区分クリック分布との間の距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算する第１の計算モジュールと、
前記クエリと前記公開情報との間の前記類似度を、前記距離が存在する間隔に基づいて計算する第２の計算モジュールと、
を備える、請求項８に記載の装置。
前記第１の計算モジュールが、次の式を用いて、前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の前記距離を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算し、

式中、
Ｑ_pは、前記クエリの前記区分クリック分布を表し、
Ｄ_pは、前記公開情報の前記区分クリック分布を表し、
Ｄ（Ｑ_p，Ｄ_p）は、前記クエリの前記区分クリック分布と前記公開情報の前記区分クリック分布との間の距離を表し、
Ｐ_Q（ｗ）は、ｗ個目の区分での前記クエリの中のコアワードで形成される文字列の区分クリック率を表し、
Ｐ_D（ｗ）は、前記ｗ個目の区分での前記公開情報の中のコアワードによって形成される文字列の区分クリック率を表し、
ｗは、複数の区分の中の対応する区分の通し番号を表し、ｗ＝１，２，・・・Ｍであり、Ｍは前記区分クリック率の前記履歴的統計情報の中でのすべての区分の数である、
請求項１０に記載の装置。
前記送信ユニットが、複数の成功した一致結果を、その類似度の降順に基づいてさらにランク付けする、請求項８に記載の装置。
前記公開情報が製品情報を含む、請求項８に記載の装置。
前記公開情報が、ニュース情報および／またはソーシャルネットワーク情報を含む、請求項８に記載の装置。
１つ以上のプロセッサと、
動作を実施するために、前記１つ以上のプロセッサによって実行可能なコンピュータ実行可能コンポーネントをその中に記憶している、コンピュータ記憶媒体と、
を備える計算デバイスであって、前記動作は、
クエリの区分クリック率および公開情報の区分クリック率を取得することと、
前記クエリと前記公開情報との間の類似度を、前記クエリの前記区分クリック率および前記公開情報の前記区分クリック率に基づいて計算することと、
前記計算された類似度が第１のしきい値より大きい場合に、前記公開情報を成功した一致結果として返送することと、を含み、
前記クエリの前記区分クリック率を取得することが、
前記クエリをセグメント化して、１つ以上のワードを取得することと、
前記クエリからの前記１つ以上のワードの中から１つ以上のコアワードを見つけることと、
対応する区分に対する、前記１つ以上のコアワードによって形成される文字列の区分クリック率を、前記クエリの前記区分クリック率として取得することと、
を含み、
前記クエリからの前記１つ以上のワードの中から前記１つ以上のコアワードを見つけることが、
前記セグメント後の前記１つ以上のワードを当面のワードとして決定することと、
前記当面のワード以外の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記１つ以上のワードによって形成される別の文字列の区分クリック率との間の差が第２のしきい値に到達する場合に、前記当面のワードをコアワードとして決定することと、
前記当面のワード以外の前記セグメント後の前記１つ以上のワードによって形成される文字列の区分クリック率と、前記セグメント後の前記１つ以上のワードによって形成される別の文字列の区分クリック率との間の差が前記第２のしきい値に到達しない場合に、前記当面のワードを非コアワードとして決定することと、
を含む、計算デバイス。