JP6526329B2

JP6526329B2 - ウェブページトレーニング方法及び装置、検索意図識別方法及び装置

Info

Publication number: JP6526329B2
Application number: JP2018516619A
Authority: JP
Inventors: ワン，ジョンチュン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2016-01-07
Filing date: 2017-01-06
Publication date: 2019-06-05
Anticipated expiration: 2037-01-06
Also published as: EP3401802A1; CN106951422B; JP2018518788A; CN106951422A; EP3401802A4; MY188760A; KR20180011254A; WO2017118427A1; US20180107933A1; KR102092691B1

Description

［技術分野］
本開示は、インターネット技術の分野に関し、特に検索意図識別方法及び装置に関する。

インターネット技術の発展に伴い、人々は、彼らが必要なものを検索エンジンを用いてネットワークを通じて検索することができる。例えば、ユーザが「Legend of Sword and Fairy」と検索エンジンに入力すると、かなり可能性のあるユーザの意図は、テレビドラマを検索すること又はゲームを検索することであり得る。検索エンジンが先ずユーザの検索意図を決定するならば、返される検索結果は、ユーザにより必要とされる内容にもっと近くなり得る。意図識別は、任意の所与のクエリ文字列について、クエリ文字列が属するカテゴリを決定することである。

従来の検索意図識別方法では、ウェブページに対するカテゴリ注釈を実行するために手動注釈方法が一般的に用いられる。意図識別が実行されるとき、手動で注釈を付けられたウェブページカテゴリは、識別を実行するために使用される必要があり、各カテゴリのウェブページセットは手動で注釈を付けられる必要がある。その結果、コストが過度に高くなる。さらに、手動注釈の結果の数は、通常限られており、クリックスルーレートが小さいウェブページのウェブページカテゴリは、全く知られない可能性がある。したがって、意図識別正解率は高くない。

したがって、前述の技術的問題に鑑み、検索意図識別正解率を向上するために、ウェブページトレーニング方法及び装置、検索意図識別方法及び装置が提供される。
検索意図識別方法は、１又は複数のプロセッサ及びメモリを有する装置において、識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得するステップであって、前記履歴ウェブページセットは、過去に前記クエリ文字列を用いてクリックされたウェブページを有する、ステップと、所定のウェブページ分類モデルを取得し、前記ウェブページ分類モデルに従い前記履歴ウェブページセットの中の各々のウェブページのカテゴリを取得するステップと、前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い、計算を実行して、前記クエリ文字列の意図分布を取得するステップと、前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するステップと、を有する。
検索意図識別装置が提供され、当該装置は、識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得する取得モジュールであって、前記履歴ウェブページセットは、過去に前記クエリ文字列を用いてクリックされた各ウェブページを有する、取得モジュールと、前述のウェブページトレーニング装置を用いることにより生成されたウェブページ分類モデルを取得し、前記ウェブページ分類モデルに従い前記履歴ウェブページセットの中の各々のウェブページのクラスを取得するウェブページクラス取得モジュールと、前記履歴ウェブページセットの中の各クラスの中のウェブページ数について統計を収集し、各クラスの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い、計算を実行して、前記クエリ文字列の意図分布を取得し、前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するよう構成される意図識別モジュールと、を有する。
非一時的コンピュータ可読記憶媒体は、１又は複数のプロセッサにより実行されると、上述の方法を実行するコンピュータ実行可能命令を含む。
検索意図識別装置は、プログラム命令を格納するメモリと、前記メモリに結合されたプロセッサと、を有し、前記プロセッサは、前記プログラム命令を実行して、識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得し、前記履歴ウェブページセットは過去に前記クエリ文字列を使用することによりクリックされたウェブページを含み、所定のウェブページ分類モデルを取得し、前記ウェブページ分類モデルに従い、前記履歴ウェブページセットの中の各ウェブページのカテゴリを取得し、前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、前記クエリ文字列の意図分布を取得し、前記意図分布に従い、前記クエリ文字列の意図識別結果を取得する。
本開示の他の態様は、本開示の説明、請求項及び図面に照らして当業者により理解され得る。

一実施形態によるウェブページトレーニング方法及び検索意図識別方法の適用環境の図である。一実施形態による図１中のサーバの内部構造の図である。一実施形態によるウェブページトレーニング方法のフローチャートである。一実施形態による検索意図識別方法のフローチャートである。一実施形態による文字列分類モデルを生成するフローチャートである。一実施形態によるウェブページトレーニング装置の構造ブロック図である。別の実施形態によるウェブページトレーニング装置の構造ブロック図である。一実施形態による検索意図識別装置の構造ブロック図である。別の実施形態による検索意図識別装置の構造ブロック図である。更に別の実施形態による検索意図識別装置の構造ブロック図である。

図１は、一実施形態によるウェブページトレーニング方法及び検索意図識別方法を走らせる適用環境の図である。図１に示すように、適用環境は、端末１１０及びサーバ１２０を含み、端末１１０はネットワークを用いてサーバ１２０と通信する。

端末１１０は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、等であって良いが、これらに限定されない。端末１１０は、検索を実行するために、ネットワークを用いてクエリ文字列をサーバ１２０へ送信する。サーバ１２０は、端末１１０により送信される要求に応答して良い。

一実施形態では、図１中のサーバ１２０の内部構造は図２に示され、サーバ１２０は、システムバスを用いて接続される、プロセッサ、記憶媒体、メモリ、及びネットワークインタフェースを含む。サーバ１２０の記憶媒体は、オペレーティングシステム、データベース、及び検索意図識別装置を格納する。ここで、検索意図識別装置はウェブページトレーニング装置を含み、データベースはデータを格納するよう構成され、検索意図識別装置は、サーバ１２０に適用可能な検索意図識別方法を実施するよう構成され、ウェブページトレーニング装置は、サーバ１２０に適用可能なウェブページトレーニング方法を実施するよう構成される。サーバ１２０のプロセッサは、計算及び制御能力を提供し、サーバ１２０全体の運転をサポートする。サーバ１２０のメモリは、記憶媒体の中の検索意図識別装置を走らせる環境を提供する。サーバ１２０のネットワークインタフェースは、ネットワーク接続により外部端末１１０と通信し、例えば端末１１０により送信される検索要求を受信し、端末１１０にデータを返すよう構成される。

図３に示すように、一実施形態では、ウェブページトレーニング方法が提供される。方法は、前述の適用環境の中のサーバに適用されて良い。例えば、方法は以下を含む。

ステップＳ２１０：手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得し、トレーニングウェブページセットの中のウェブページのウェブページベクトルを生成する。

具体的に、トレーニングウェブページセットの中のウェブページの数は、実際の必要に従い自己定義されて良い。トレーニングされたウェブページ分類モデルをより正確にするために、トレーニングウェブページセットの中のウェブページの数は、十分に大きい必要がある。また、異なるカテゴリに属するウェブページ及びカテゴリ数も十分に大きい必要がある。トレーニングウェブページセット内のウェブページのカテゴリは、全て手動で注釈を付けられる。

例えば、ｍｐ３．ｂａｉｄｕ．ｃｏｍは、音楽カテゴリとして手動で注釈を付けられタグ付けされ、ｙｏｕｋｕ．ｃｏｍは、ビデオカテゴリとして手動でタグ付けされる。トレーニングウェブページセット内のウェブページのウェブページベクトルを生成するとき、トレーニングウェブページセット内の全てのウェブページのウェブページベクトルが生成されて良く、或いは、対応するウェブページベクトルを生成するために幾つかのウェブページが所定条件に従い選択されて良い。例えば、異なる手動で注釈付けされたカテゴリが選択され、対応するウェブページベクトルを生成するために所定数のウェブページが各カテゴリから選択される。

具体的に、トレーニングウェブページセット内のウェブページのウェブページベクトルを生成するステップは、以下を含んで良い。

ステップＳ２１１：トレーニングウェブページセットの中の第１トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行する。

具体的に、第１トレーニングウェブページが第１クエリ文字列の検索結果として使用され、ユーザによりクリックされ及び入力される場合、第１クエリ文字列は、第１トレーニングウェブページの有効履歴クエリ文字列である。あるいは、第１トレーニングウェブページが第２クエリ文字列の検索結果として使用されるが、ユーザによりクリックされ又は入力されない場合、第２クエリ文字列は、第１トレーニングウェブページの有効履歴クエリ文字列ではない。第１トレーニングウェブページの中の有効履歴クエリ文字列の数は、実際の必要に従い自己定義されて良い。しかしながら、トレーニング結果を有効にするために、有効履歴クエリ文字列の数は、十分に大きい必要がある。例えば、所定時間期間の中で第１トレーニングウェブページの全ての有効履歴クエリ文字列が取得され、所定時間期間は現在時刻に比較的近い時間期間であって良い。さらに、ワードセグメント化が、有効履歴クエリ文字列に対して実行され、このクエリ文字列は、各セグメント化ワードを用いることにより示される。例えば、ワードセグメント化が「songs from Jay Chou」に対して実行された後、「Jay Chou」及び「songs」が取得され、ワードセグメント化の目的はウェブページをより良好に示すことである。ウェブページがクエリ文字列クエリを用いて直接示される場合、データは過度にまばらになる。例えば、クエリ文字列「songs of Jay Chou」及び「songsand tunes of Jay Chou」は、２つの異なるクエリ文字列である。しかしながら、ワードセグメント化がクエリ文字列に対して実行された後、「Jay Chou」及び「songs」並びに「Jay Chou」及び「songs and tunes」が取得され、両方ともセグメント化ワード「Jay Chou」を含み、クエリ文字列間の類似性が増大する。

ステップＳ２１２：各セグメント化ワードの有効回数を取得する。有効回数は、セグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数である。

具体的に、ワードセグメント化が有効履歴クエリ文字列に対して実行された後に、３０個のセグメント化ワード「Jay Chou」が存在する場合、このセグメント化ワード「Jay Chou」の有効回数は３０である。セグメント化ワードの有効回数が大きいほど、このセグメント化ワードを含むクエリ文字列を使用することにより現在トレーニングウェブページに入る回数が大きいことを示す。

ステップＳ２１３：各セグメント化ワードの有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算する。

具体的に、セグメント化ワード重みの値は、有効回数に正比例し、セグメント化ワード重みを計算する特定の方法は、実際の必要に従い自己定義されて良い。

一実施形態では、セグメント化ワードｑ_ｉのセグメント化ワード重みＷ（ｑ_ｉ）は、式Ｗ（ｑ_ｉ）＝ｌｏｇ（ｃ_ｉ＋１）に従い計算される。ここで、ｉはセグメント化ワードのシーケンス番号であり、ｃ_ｉはセグメント化ワードｑ_ｉの有効回数である。

具体的に、ｌｏｇ関数は比較的滑らかあり、セグメント化ワード重みＷ（ｑ_ｉ）と有効回数ｃ_ｉとの間の正比例関係を満たし、各セグメント化ワードのセグメント化ワード重みは、簡単に且つ都合良く取得され得る。

ステップＳ２１４：各セグメント化ワード及び対応するセグメント化ワード重みに従い、第１トレーニングウェブページのウェブページベクトルを生成する。

具体的に、第１トレーニングウェブページについて、第１トレーニングウェブページの有効履歴クエリ文字列により生成されたセグメント化ワードの数がｍである場合、各セグメント化ワードは、ｑ_ｉを用いて示される。ここで、１≦ｉ≦ｍであり、Ｗ（ｑ_ｉ）はセグメント化ワードｑ_ｉに対応するセグメント化ワード重みであり、第１トレーニングウェブページのウェブページベクトルは、｛ｑ_１：Ｗ（ｑ_１），ｑ_２：Ｗ（ｑ_２），．．．，ｑ_ｍ：Ｗ（ｑ_ｍ）｝として示され、生成されたウェブページベクトルは、第１トレーニングウェブページのＢｏｗ（bag of words）を示す。例えば、トレーニングウェブページｍｐ３．ｂａｉｄｕ．ｃｏｍについて、トレーニングウェブページのウェブページベクトルは、｛Jay Chou：５．４，songs：３．６，Jolin Tsai：３．０，tfboys：１０｝である。異なるウェブページ間の類似性は、ウェブページベクトルに従い計算できる。第１ウェブページと第２ウェブページとの間の類似性が所定条件を満たし、第１ウェブページのウェブページカテゴリが第１カテゴリである場合、第２ウェブページのウェブページカテゴリも第１カテゴリであると推定できる。ｍｐ３．ｂａｉｄｕ．ｃｏｍのウェブページベクトルのコサイン関数とｙ．ｑｑ．ｃｏｍのウェブページベクトルとの間の類似性が所定閾より大きい場合、ｍｐ３．ｂａｉｄｕ．ｃｏｍが音楽カテゴリであることに従い、ｙ．ｑｑ．ｃｏｍも音楽カテゴリであると推定される。

ステップＳ２１５：トレーニングウェブページセットの中の他のトレーニングウェブページを取得し、目標トレーニングウェブページのウェブページベクトルの生成が完了するまで、ステップＳ２１１〜ステップＳ２１４を繰り返す。

具体的に、目標トレーニングウェブページの数は、必要に応じて自己定義されて良く、目標トレーニングウェブページは、所定ルールを用いてスクリーニングされるトレーニングウェブページセットの中のトレーニングウェブページであって良い。代替で、ウェブページセットの中の全てのトレーニングウェブページが、目標トレーニングウェブページとして直接使用されて良い。

ステップＳ２２０：トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成する。

具体的に、ウェブページ分類モデルを取得するために、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ及び対応するウェブページベクトルは、トレーニングを実行するためにロジスティック回帰（ＬＲ）モデルに代入される。本発明の一実施形態では、ウェブページ分類モデルは、ＬＲ法を用いてトレーニングされる。直線回帰に基づき、論理関数がＬＲモデルに用いられ、トレーニングされたウェブページ分類モデルの正解率は比較的高くなり得る。

具体的に、ウェブページ分類モデルは、数学的モデルであり、ウェブページを分類するために使用され、分類モデルは、異なるウェブページ分類モデルを取得するために、異なる方法を用いてトレーニングされて良い。トレーニング方法は、必要に応じて選択され得る。

ウェブページ分類モデルを取得するために、オフライントレーニングが教師あり学習方法を用いて実行された後、ウェブページに対してオンラインカテゴリ予測が実行されるとき、トレーニングされたウェブページ分類モデルを用いてカテゴリ予測が実行される。一実施形態では、ウェブページ分類モデルは、限られた数の手動で注釈を付けられたカテゴリのウェブページ及び生成されたウェブページベクトルを用いて生成され、自動ウェブページカテゴリ注釈が、ウェブページ分類モデルを用いて実施されて良い。さらに、ウェブページベクトルがトレーニングデータとして使用されるとき、ウェブページ上の全てのコンテンツがクローリングされる又はＢＯＷ（bagging of words）が実行される必要がなく、トレーニングを実行するデータコストは低く、トレーニング効率は高い。

手動で注釈を付けられたクラスのトレーニングウェブページセットを取得し、トレーニングウェブページセットの中のウェブページのウェブページベクトルを生成するステップは、具体的に、トレーニングウェブページセットの中の第１トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、各々のセグメント化ワードの有効回数を取得するステップであって、有効回数は、セグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数である、ステップと、各々のセグメント化ワードの有効回数に従い、各々のセグメント化ワードのセグメント化ワード重みを計算するステップと、各々のセグメント化ワード及び対応するセグメント化ワード重みに従い、第１トレーニングウェブページのウェブページベクトルを生成するステップと、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、を有する、ステップ、を有する。ワードセグメント化が有効履歴クエリ文字列に対して実行された後に生成されたウェブページベクトルを用いて、トレーニングが実行される。トレーニングコストは低く、効率は高い。ウェブページ分類モデルが生成された後に、カテゴリ注釈がウェブページに対して自動的に実行されて良い。したがって、即時（immediate）テール型又はロングテール型のウェブページは、自動的にカテゴリを取得できる。したがって、意図識別におけるウェブページカテゴリのカバレッジレートは高く、識別された意図の正解率は一層高い。

一実施形態では、ステップＳ２２０の前に、方法は、トレーニングウェブページセットの中のウェブページのＬＤＡ（Latent Dirichlet Allocation）特徴を取得するステップを更に含む。

具体的に、ＬＤＡ（文書トピック生成モデル）は、テキストに対してトピッククラスタリングを実行するために使用され、ウェブページのＬＤＡ特徴は、ウェブページのテキストのＬＤＡモデルを入力することにより取得されて良い。

ステップＳ２２０は、ウェブページのＬＤＡ特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップである。

具体的に、ウェブページ分類モデルを取得するために、ウェブページのＬＤＡ特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルがＬＲモデルに代入され、トレーニングが実行される。本発明の一実施形態では、ウェブページ分類モデルは、ＬＲ法を用いてトレーニングされる。直線回帰に基づき、論理関数がＬＲモデルに用いられ、トレーニングされたウェブページ分類モデルの正解率は高い。

具体的に、ウェブページのＬＤＡ特徴は、ウェブページ分類モデルをトレーニングするためのトレーニングデータに追加され、ＬＤＡ特徴は、ウェブページのトピックを反映する。したがって、トレーニングされたウェブページ分類モデルは、ウェブページに対してカテゴリ注釈を一層正確に実行できる。

表１は、異なるモデル及び方法を用いてトレーニングを実行することにより取得されたウェブページ分類モデルを用いてウェブページを分類することの正解率及び再現率を示し、新規カテゴリについて及び他のカテゴリについて分類を実行したときの正解率及び再現率、正解率及び再現率を結合することにより取得される値Ｆ１のみを示す。ここで、Ｆ１＝２×正解率／（正解率＋再現率）である。表１では、ＬＤＡは文書トピック生成モデルを示し、ＬＲ＋ＬＤＡは、ＬＲモデル及びＬＤＡ特徴の両方が使用されることを示し、ＬＲ＋ＢＯＷ＋ＬＤＡは、トレーニングを実行するためにＬＲモデル、ＬＤＡ特徴、及びウェブページベクトルＢＯＷが全て使用されることを示す。ここで、正解率は、（文書及びウェブページのような）検索されたエントリのうちどれだけ多くのエントリが正確かであり、再現率は、全ての正確なエントリのうちどれだけ多くのエントリが検索されたかである。正解率＝抽出された正しい情報ピース数／抽出された情報ピース数、再現率＝抽出された正しい情報ピース数／サンプル内の情報ピース数であり、Ｆ１は正解率及び再現率の調和平均値である。
［表１］

表１から分かることは、ウェブページが、ＬＲ方法を用いてトレーニングを実行することにより生成されたウェブページ分類モデルを使用してウェブページベクトルに基づき分類されるとき、大部分の正解率及び再現率は向上し、正解率及び再現率の結合について取得されるＦ１は、別の方法におけるよりも遙かに高く、効果は望ましい。

一実施形態では、図４に示すように、以下を含む検索意図識別方法が提供される。

ステップＳ３１０：識別されるべきクエリ文字列を取得し、クエリ文字列に対応する履歴ウェブページセットを取得する。履歴ウェブページセットは、それぞれクエリ文字列を使用してクリックされた過去のウェブページを含む。

具体的に、識別されるべきクエリ文字列は、端末により検索エンジンに入力されたクエリ文字列であり、過去の検索の中でこのクエリ文字列を使用してクリックされた各々のウェブページにより形成された履歴ウェブページセットが取得される。

ステップＳ３２０：前述の実施形態のうちのいずれか１つのウェブページトレーニング方法を用いて生成されたウェブページ分類モデルを取得し、ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリを取得する。

具体的に、履歴ウェブページセットの中のウェブページは、前述の実施形態のウェブページトレーニング方法を用いて生成されたウェブページ分類モデルを用いて自動的に分類される。例えば、履歴ウェブページセットが｛ｕｒｌ_１，ｕｒｌ_２，．．．，ｕｒｌ_ｎ｝であり、ｕｒｌ_ｉ（１≦ｉ≦ｎ）は各ウェブページを表し、各ウェブページのカテゴリが取得され、ｕｒｌ_１∈ｄ_１，ｕｒｌ_２∈ｄ_２，．．．，ｕｒｌ_ｎ∈ｄ_ｓ，ｄ_１，ｄ_２，．．．，ｄ_ｓはカテゴリを表し、ｓは合計カテゴリ数を表し、カテゴリセットは｛ｄ_１，ｄ_２，．．．，ｄ_ｓ｝である。

ステップＳ３３０：履歴ウェブページの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い、クエリ文字列の意図分布を計算する。

具体的に、統計は、履歴ウェブページセットの中の各カテゴリの中のウェブページ数について収集される。カテゴリｄ_１がｔ個のウェブページを含む場合、ｎｕｍ_ｄ１＝ｔである。履歴ウェブページセットの中の合計ウェブページを取得するために、履歴ウェブページセットの中の合計ウェブページ数について統計が収集される。例えば、履歴ウェブページセット｛ｕｒｌ_１，ｕｒｌ_２，．．．，ｕｒｌ_ｎ｝について、合計ウェブページ数がｔｏｔａｌ_ｕｒｌ＝ｎである場合、識別されるべきクエリ文字列ｐ−ｑｕｅｒｙがカテゴリｄ_１に属する確率は、ｐ（ｄ_１／ｐ−ｑｕｅｒｙ）＝ｎｕｍ_ｄ１／ｔｏｒａｌ_ｕｒｌである。ｐ−ｑｕｅｒｙが各カテゴリに属する確率ｐ（ｄ_ｉ／ｐ−ｑｕｅｒｙ）を取得するために同じ方法を用いて計算が実行され、クエリ文字列の意図分布を取得する。ここで、１≦ｉ≦ｓであり、確率ｐ（ｄ_ｉ／ｐ−ｑｕｅｒｙ）の大きさは、クエリ文字列がカテゴリｄ_ｉに属する確率を示す。

ステップＳ３４０：意図分布に従いクエリ文字列の意図識別結果を取得する。

具体的に、意図分布の中で大きな確率を有するカテゴリは、クエリ文字列の意図識別結果として使用されて良い。または、所定数のカテゴリが、確率の降順で取り入れられ、クエリ文字列の意図識別結果として使用される。または、確率が所定閾より大きい任意のカテゴリが、クエリ文字列の意図識別結果として使用される。さらに、クエリ文字列を送信している現在アプリケーションに対応するサービスも取得されて良く、クエリ文字列の意図識別結果が、サービスのサービス情報及び意図分布に従い取得される。クエリ文字列を送信している現在アプリケーションのサービス情報が音楽サービスである場合、意図分布の中で最大確率を有するカテゴリが音楽でなかったとしても、音楽カテゴリが、依然として意図分布結果として使用されて良い。

したがって、識別されるべきクエリ文字列を取得することにより、クエリ文字列に対応する履歴ウェブページセットが取得される。履歴ウェブページセットは、過去にクエリ文字列を用いてクリックされたウェブページを有する。開示のウェブページトレーニング方法を用いることにより生成されたウェブページ分類モデルが取得される。ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリが取得される。履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計が収集される。各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い、計算が実行され、クエリ文字列の意図分布が取得される。意図分布に従い、クエリ文字列の意図識別結果が取得される。後の意図識別の間に、履歴ウェブページセットの中のウェブページのカテゴリは、ウェブページ分類モデルに従い自動的に識別される。したがって、カバレッジレートは、ウェブページのカテゴリに手動で注釈を付けるより大きい。即時テール又はロングテール型のウェブページは、自動的にカテゴリを取得でき、意図識別の正解率を向上する。

さらに、一実施形態では、ステップＳ３４０の前に、方法は、文字列分類モデルを取得し、文字列分類モデルに従いクエリ文字列の予測カテゴリを取得するステップを更に含む。

具体的に、文字列分類モデルは、数学的モデルであり、クエリ文字列を分類するために使用され、分類モデルは、異なる文字列分類モデルを取得するために、異なる方法を用いてトレーニングされて良い。トレーニング方法は、必要に応じて選択される。文字列分類モデルを取得するために教師あり学習方法を用いてオフライントレ―ニングが実行された後に、続いてクエリ文字列に対して意図識別が実行されると、トレーニングされた文字列分類モデルを用いてクエリ文字列に対してカテゴリ予測が実行されて良い。クエリ文字列の意図分布が明らかでないとき、クエリ文字列の予測カテゴリは、クエリ文字列の意図識別結果を変更するために使用されて良い。例えば、クエリ文字列の意図分布の中に多くのカテゴリが存在し、カテゴリの確率が全て近く、比較的小さい。この場合、クエリ文字列の意図分布にだけ従い識別が実行されたならば、結果は正確でない可能性がある。

ステップＳ３４０は、したがって、意図分布及び予測カテゴリに従い、クエリ文字列の意図識別結果を取得するステップを含んで良い。

具体的に、クエリ文字列の意図識別結果は、意図分布の中のカテゴリ数及び各カテゴリに対応する確率に従い決定されて良い。意図分布の中に多くのカテゴリが存在し、各カテゴリに対応する確率が比較的小さい場合、予測カテゴリはクエリ文字列の意図識別結果として直接に使用されて良く、あるいは、意図分布の中で最大確率を有するカテゴリ及び予測カテゴリは、クエリ文字列の意図識別結果を形成するために結合される。意図識別結果を取得する特定のアルゴリズムは、必要に応じて自己定義されて良い。意図分布が取得されないとき（例えば、クエリ文字列が希な文字列である、クエリ文字列に対応する履歴ウェブページセットの中のウェブページ数が０である又は非常に小さい、したがって、意図分布が計算できない又は取得された意図分布が１つのカテゴリの確率だけしか有しない、確率が１００％であり、不正確な確率が非常に高い場合）、クエリ文字列の予測カテゴリは、クエリ文字列の意図識別結果として直接使用されて良い。

一実施形態では、図５に示すように、文字列分類モデルを取得するステップの前に、方法は、以下を更に含む。

ステップＳ４１０：履歴クエリ文字列の意図分布の中で最大確率を有するカテゴリに対応するクエリ文字列を取得し、該クエリ文字列をカテゴリトレーニングクエリ文字列として使用する。ここで、最大意図確率を有するカテゴリは、複数の異なるカテゴリを含み得る。

具体的に、履歴クエリ文字列の最大数は、意図分布を取得するために計算され、異なるクエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリは、異なって良い。意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列は、カテゴリトレーニングクエリ文字列として使用され、トレーニングデータの有効性を保証するために、最大意図確率を有するカテゴリは、複数の異なるカテゴリを含む。

ステップＳ４２０：異なるカテゴリに対応するカテゴリトレーニングクエリ文字列の各々について、ワードに基づく及び／又は文字に基づくｎグラム特徴を抽出する。ここで、ｎは、１より大きくＭより小さい整数であり、Ｍは現在抽出されるカテゴリトレーニングクエリ文字列のワード長又は文字長である。

具体的に、カテゴリトレーニングクエリ文字列を直接用いてモデルがトレーニングされる場合、長さが約４ワードであるクエリ文字列のような比較的短いクエリ文字列では、特徴はまばら過ぎであり、トレーニングされたモデルは非常に良好なトレーニング結果を取得できない。このような場合には、特徴長が拡張されるように、ワードに基づく及び／又は文字に基づくｎグラム特徴が抽出される。同じクエリ文字列について、抽出は複数回実行されて良く、各抽出の文字数は異なる。ここで、文字量は、ワード数を表し、全ての抽出の結果は特徴の組合せを形成する。例えば、このカテゴリトレーニングクエリ文字列「song of Jay Chou」について、ワードに基づく１グラム〜３グラム特徴が抽出され、それぞれ以下を取得する。

１グラム特徴：Jay Chou，of，song
２グラム特徴：of Jay Chou，song of
３グラム特徴：song of Jay Chou
文字に基づく１グラム〜３グラム特徴が抽出され、それぞれ以下を取得する。

１グラム特徴：Chou，Jie，Lun，of，singing，song
２グラム特徴：Jie Chou，Jay，of Lun，singing of，song
３グラム特徴：Jay Chou，of Jay，singing of Lun，song of
長さが３ワードであるクエリ文字列について、文字に基づく１グラム〜３グラム特徴が抽出された後に、特徴のまばらな問題を効果的に解決するために、クエリ文字列の特徴長は１５次元より多くまで拡張される。さらに、トレーニングデータセットが十分に大きいので、所望の拡張性が達成される。

ステップＳ４３０：ｎグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、文字列分類モデルを生成するために分類モデルを用いてトレーニングを実行する。

具体的に、ｎグラム特徴及び対応するカテゴリは、トレーニングデータとして使用され、文字列分類モデルを取得する目的でトレーニングを実行するために分類モデルに代入される。

具体的に、ｎグラム特徴及び対応するカテゴリは、トレーニングデータとして使用され、トレーニングデータは、カテゴリトレーニングクエリ文字列から拡張され、カテゴリ正解率及び取得された文字列分類モデルのカバレッジ率は両方とも向上され得る。一実施形態では、トレーニング特徴は、固定数の次元（例えば、１００万次元）のベクトルにマッピングされて良く、トレーニング効率を向上し、及び非効率なトレーニングデータを削減してトレーニングの正解率を向上する。あるいは、クエリ文字列を用いてクリックされたウェブページのカテゴリ比率特徴などは、全てのウェブページに対する各カテゴリのクリックされたウェブページの間の比であり、例えば、全てのウェブページに対するクリックされたビデオカテゴリのウェブページの比である。

表２は、異なるモデル及び方法により取得された文字列分類モデルを用いてクエリ文字列を分類し、正解率及び再現率の組合せについてＦ１が取得されるとき、正解率及び再現率を示す。ここで、Ｆ１＝２×正解率／（正解率＋再現率）である。表中、ＮＢ（Naive Bayesian）はＮＢモデルを示し、ワードセグメント化はワードに基づくｎグラム特徴を抽出することを示し、文字特徴は文字に基づくｎグラム特徴を抽出することを示し、ＳＶＭ（support vector machine）はＳＶＭモデルを示す。
［表２］

抽出された文字に基づくｎグラム特徴によりトレーニングすることにより生成された文字列分類モデルを使用してクエリ文字列が分類されるとき、正解率及び再現率が両方とも高いこと、及び文字に基づくｎグラム特徴及びワードに基づくｎグラム特徴が両方とも抽出されるとき、正解率及び再現率が更に高いことが、表から分かる。本方法が使用されない意図識別の全体の正解率と比べると、本方法が使用される意図識別の全体の正解率は、５４．６％から８５％まで向上し、及び６０％だけ向上し得る。

図６に示すように、一実施形態では、ウェブページトレーニング装置が提供される。ウェブページトレーニング装置は、ウェブページベクトル生成モジュール５１０と、ウェブページ分類モデル生成モジュール５２０と、を含む。

ウェブページベクトル生成モジュール５１０は、手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得し、トレーニングウェブページセットの中の各ウェブページのウェブページベクトルを生成するよう構成されて良い。さらに、ウェブページベクトル生成モジュール５１０は、ワードセグメント化ユニット５１１、セグメント化ワード重み計算ユニット５１２、及びウェブページベクトル生成ユニット５１３を含んで良い。

ワードセグメント化ユニット５１１は、トレーニングウェブページセットの中の第１トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行するよう構成されて良い。

セグメント化ワード重み計算ユニット５１２は、各セグメント化ワードの有効回数を取得し、有効回数はセグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数であり、並びに、各セグメント化ワードの有効回数に従い各セグメント化ワードのセグメント化ワード重みを計算するよう構成されて良い。

ウェブページベクトル生成ユニット５１３は、各セグメント化ワード及び対応するセグメント化ワード重みに従い、第１トレーニングウェブページのウェブページベクトルを生成するよう構成されて良い。

ウェブページ分類モデル生成モジュール５２０は、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するよう構成されて良い。

一実施形態では、図７に示すように、装置は、トレーニングウェブページセットの中のウェブページのＬＤＡ特徴を取得するよう構成されて良いＬＤＡ特徴取得モジュール５３０を更に含む。ウェブページ分類モデル生成モジュール５２０は、ウェブページセットのＬＤＡ特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するよう更に構成される。

一実施形態では、ウェブページ分類モデル生成モジュール５２０は、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ及び対応するウェブページベクトルを、ＬＲモデルに代入し、トレーニングを実行して、ウェブページ分類モデルを取得するよう更に構成される。

一実施形態では、セグメント化ワード重み計算ユニット５１１は、式Ｗ（ｑ_ｉ）＝ｌｏｇ（ｃ_ｉ＋１）に従いセグメント化ワードｑ_ｉのセグメント化ワード重みＷ（ｑ_ｉ）を計算するよう更に構成される。ここで、ｉはセグメント化ワードのシーケンス番号であり、ｃ_ｉはセグメント化ワードｑ_ｉの有効回数である。

一実施形態では、図８に示すように、検索意図識別装置が提供される。検索意図識別装置は、取得モジュール６１０、ウェブページカテゴリ取得モジュール６２０、及び意図識別モジュール６３０を含んで良い。

取得モジュール６１０は、識別されるべきクエリ文字列を取得し、クエリ文字列に対応する履歴ウェブページセットを取得する。履歴ウェブページセットは、過去のクエリ文字列を使用してクリックされた各ウェブページを含む。

ウェブページカテゴリ取得モジュール６２０は、上述のウェブページトレーニング装置を用いて生成されたウェブページ分類モデルを取得し、ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリを取得するよう構成されて良い。

意図識別モジュール６３０は、履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、クエリ文字列の意図分布を取得し、意図分布に従いクエリ文字列の意図識別結果を取得するよう構成されて良い。

一実施形態では、図９に示すように、装置は、予測カテゴリモジュール６４０を更に含む。予測カテゴリモジュール６４０は、文字列分類モデルを取得し、文字列分類モデルに従いクエリ文字列の予測カテゴリを取得するよう構成されて良い。意図識別モジュール６３０は、意図分布及び予測カテゴリに従い、クエリ文字列の意図識別結果を取得するよう更に構成される。

一実施形態では、図１０に示すように、装置は、文字列分類モデル生成モジュール６５０を更に含む。文字列分類モデル生成モジュール６５０は、履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、該クエリ文字列をカテゴリトレーニングクエリ文字列として使用し、最大意図確率を有するカテゴリは、複数の異なるカテゴリを有し、異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づく及び／又は文字に基づくｎグラム特徴を抽出し、ｎは１より大きく且つ現在抽出されるクエリ文字列のワード長又は文字長より小さい整数であり、ｎグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用することによりトレーニングを実行して、文字列分類モデルを生成する、よう構成されて良い。

当業者は、前述の実施形態の方法の処理のうちの全部又は一部が関連するハードウェアに指示するコンピュータプログラムにより実装されて良いことを理解できる。プログラムは、コンピュータ可読記憶媒体に格納されて良い。例えば、本発明の実施形態では、プログラムは、コンピュータシステムの記憶媒体に格納され、前述の方法の実施形態を含む処理を実施するためにコンピュータシステム内の少なくとも１つのプロセッサにより実行されて良い。記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ（ＲＯＭ）又はランダムアクセスメモリ（ＲＡＭ）、等であって良い。

したがって、本発明の実施形態は、コンピュータプログラムの格納されたコンピュータ記憶媒体を更に提供する。コンピュータプログラムは、本発明の実施形態のウェブページトレーニング方法又は検索意図識別方法を実行するために使用される。

前述の実施形態の技術的特徴は、ランダムに結合されて良い。説明を簡潔にするために、前述の実施形態の中の技術的特徴の可能な組合せの全部が記載されない。しかしながら、これらの技術的特徴の組合せが互いに矛盾しない限り、これらの組合せは全て本願明細書により記録される範囲内に包含されるべきである。

上述の実施形態は、具体的且つ詳細に記載された本開示の幾つかの実装方法のみを示すものであり、したがって本開示の特許範囲に対する限定として考えられない。留意すべきことに、当業者は、本開示の思想から逸脱することなく、幾つかの変形及び改良を行うことができる。このような変形及び改良の全部は、本開示の保護範囲に包含される。したがって、本開示の保護範囲は、添付の特許請求の範囲に従うべきである。

Claims

検索意図識別方法であって、１又は複数のプロセッサ及びメモリを有する装置において、前記プロセッサは、前記メモリに格納されたプログラム命令を実行して処理を実行し、前記処理は、
識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得するステップであって、前記履歴ウェブページセットは、過去に前記クエリ文字列を用いてクリックされたウェブページを有する、ステップと、
所定のウェブページ分類モデルを取得するステップと、
前記ウェブページ分類モデルに従い前記履歴ウェブページセットの中の各々のウェブページのカテゴリを取得するステップと、
前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い、計算を実行して、前記クエリ文字列の意図分布を取得するステップと、
前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するステップと、
を有し、
前記方法は、さらに、
履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、前記クエリ文字列をカテゴリトレーニングクエリ文字列として使用するステップであって、最大意図確率を有するカテゴリは、複数の異なるカテゴリを有する、ステップと、
前記異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づくｎグラム特徴及び文字に基づくｎグラム特徴のうちの少なくとも１つを抽出するステップであって、ｎは１より大きく且つ現在抽出されるクエリ文字列のワード長又は文字長より小さい整数である、ステップと、
前記ｎグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用することによりトレーニングを実行して、文字列分類モデルを生成する、ステップと、
前記文字列分類モデルに従い前記クエリ文字列の予測カテゴリを取得するステップ、
を更に有し、
前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するステップは、
前記意図分布及び前記クエリ文字列の前記予測カテゴリに従い、前記クエリ文字列の意図識別結果を取得するステップ、を更に含む、
方法。
前記ウェブページ分類モデルはウェブページトレーニング方法により決定され、前記ウェブページトレーニング方法は、
複数のウェブページを有し手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得するステップと、
前記トレーニングウェブページセットの中の第１トレーニングウェブページの有効履歴クエリ文字列を取得し、前記有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、
各セグメント化ワードの有効回数を取得するステップであって、前記有効回数は前記セグメント化ワードが前記有効履歴クエリ文字列の中で生じる合計回数である、ステップと、
各セグメント化ワードの前記有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算するステップと、
各セグメント化ワード及び前記対応するセグメント化ワード重みに従い、前記第１トレーニングウェブページのウェブページベクトルを生成するステップと、
前記トレーニングウェブページセットの中の残りのトレーニングウェブページのウェブページベクトルを生成するステップと、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、
を有する、請求項１に記載の方法。
前記ウェブページトレーニング方法は、
前記トレーニングウェブページセットの中の各ウェブページのＬＤＡ（Latent Dirichlet Allocation）特徴を取得するステップ、
を更に有し、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従いウェブページ分類モデルを生成するステップは、
前記ウェブページの前記ＬＤＡ特徴、前記手動で注釈を付けられたカテゴリ、及び前記対応するウェブページベクトルに従い、前記ウェブページ分類モデルを生成するステップ、
を更に有する、請求項２に記載の方法。
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従いウェブページ分類モデルを生成するステップは、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルをロジスティック回帰（ＬＲ）モデルに代入し、前記ウェブページ分類モデルを取得するためにトレーニングを実行するステップ、
を更に有する、請求項２に記載の方法。
各セグメント化ワードの前記有効回数に従い各セグメント化ワードのセグメント化ワード重みを計算するステップは、
次式に従いセグメント化ワードｑ_ｉのセグメント化ワード重みＷ（ｑ_ｉ）を計算するステップであって、
Ｗ（ｑ_ｉ）＝ｌｏｇ（ｃ_ｉ＋１）、ここで、ｉは前記セグメント化ワードのシーケンス番号であり、ｃ_ｉは前記セグメント化ワードｑ_ｉの有効回数である、ステップ、
を有する、請求項２に記載の方法。
１又は複数のプロセッサにより実行されると、請求項１乃至５のいずれか一項に記載の方法を実行するコンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体。
検索意図識別装置であって、
プログラム命令を格納するメモリと、
前記メモリに結合されたプロセッサと、
を有し、前記プロセッサは、前記プログラム命令を実行して、
識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得し、前記履歴ウェブページセットは過去に前記クエリ文字列を使用することによりクリックされたウェブページを含み、
所定のウェブページ分類モデルを取得し、
前記ウェブページ分類モデルに従い、前記履歴ウェブページセットの中の各ウェブページのカテゴリを取得し、
前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、前記クエリ文字列の意図分布を取得し、
前記意図分布に従い、前記クエリ文字列の意図識別結果を取得する、
よう構成され、
前記プロセッサは、前記プログラム命令を実行して、
履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、前記クエリ文字列をカテゴリトレーニングクエリ文字列として使用し、最大意図確率を有するカテゴリは複数の異なるカテゴリを有し、
前記異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づくｎグラム特徴及び文字に基づくｎグラム特徴のうちの少なくとも１つを抽出し、ｎは１より大きく現在抽出されるクエリ文字列のワード長又は文字長より小さい整数であり、
前記ｎグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用してトレーニングを実行して、文字列分類モデルを生成し、
前記文字列分類モデルに従い前記クエリ文字列の予測カテゴリを取得する、
よう構成され、
前記意図分布に従い前記クエリ文字列の意図識別結果を取得することは、
前記意図分布及び前記クエリ文字列の前記予測カテゴリに従い、前記クエリ文字列の前記意図識別結果を取得すること、を更に有する、
装置。
前記プロセッサは、ウェブページトレーニング方法により前記ウェブページ分類モデルを決定するよう構成され、前記ウェブページトレーニング方法は、
複数のウェブページを有し及び手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得するステップと、
前記トレーニングウェブページセットの中の第１トレーニングウェブページの有効履歴クエリ文字列を取得し、前記有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、
各セグメント化ワードの有効回数を取得するステップであって、前記有効回数は、前記セグメント化ワードが前記有効履歴クエリ文字列の中で生じる合計回数である、ステップと、
各セグメント化ワードの前記有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算するステップと、
各セグメント化ワード及び前記対応するセグメント化ワード重みに従い、前記第１トレーニングウェブページのウェブページベクトルを生成するステップと、
前記トレーニングウェブページセットの中の残りのトレーニングウェブページのウェブページベクトルを生成するステップと、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、
を有する、請求項７に記載の装置。
前記ウェブページトレーニング方法は、
前記トレーニングウェブページセットの中の各ウェブページのＬＤＡ（Latent Dirichlet Allocation）特徴を取得するステップ、
を更に有し、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップは、
前記ウェブページの前記ＬＤＡ特徴、前記手動で注釈を付けられたカテゴリ、及び前記対応するウェブページベクトルに従い、前記ウェブページ分類モデルを生成するステップ、
を更に有する、請求項８に記載の装置。
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップは、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルをロジスティック回帰（ＬＲ）モデルに代入し、前記ウェブページ分類モデルを取得するためにトレーニングを実行するステップ、
を更に有する、請求項８に記載の装置。