JP2020109689A

JP2020109689A - 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法

Info

Publication number: JP2020109689A
Application number: JP2020049266A
Authority: JP
Inventors: 直也榊原; Naoya Sakakibara; 祐樹廣部; Yuki Hirobe
Original assignee: DATASCIENTIST Inc
Current assignee: DATASCIENTIST Inc
Priority date: 2018-11-06
Filing date: 2020-03-19
Publication date: 2020-07-16
Anticipated expiration: 2038-11-06
Also published as: JP6924450B2

Abstract

【課題】検索意図を推察できる情報を示すことによって、検索意図に合致した商品の開発やＷｅｂページ制作を行える検索ニーズ評価装置及び検索ニーズ評価方法を提供する。【解決手段】評価システムにおいて、検索ニーズ評価装置は、複数の文書データを取得し、複数の文書データの内容又は構造を特徴ベクトルデータに変換し、変換した特徴ベクトルデータに所定の統計的分類のアルゴリズムに従った処理を施して、複数の文書データを複数の部分集合に分類する。検索ニーズ評価装置は、複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。【選択図】図２

Description

本発明は、検索エンジンの検索語とされるワードの検索意図（以下、適宜「検索ニーズ」という）を評価する技術に関する。

Ｇｏｏｇｌｅ（登録商標）の技術は、検索結果や検索結果に表示される様々な行動データ（具体的には、クリック率、サイト内滞在時間など）を検索順位の決定に活かすものである。この技術に基づいたサービスである検索エンジンでは、より多くクリックされたり、より長時間滞在されているサイトほど、検索順位が上昇し易くなる。この技術の詳細は、特許文献１（特に、段落００８８〜００９０）に開示されている。ＳＥＯ（Search Engine Optimization）は、検索エンジンの検索結果において特定のウェブサイトが上位に表示されるようＷｅｂサイトの構成などを調整する手法の１つである。ＳＥＯに関わる技術を開示した文献として、特許文献２がある。特許文献２のＷｅｂページ解析装置は、あるワードがターゲットキーワードとして入力された場合に、ターゲットキーワードについての検索結果内の複数のＷｅｂページデータの各々を解析対象Ｗｅｂページとし、解析対象Ｗｅｂページデータに形態素解析処理を施し、形態素解析処理により得られた形態素群における同じ種類の形態素毎の含有数を集計し、検索結果に占める解析対象Ｗｅｂページの順位に対する各形態素の寄与の度合いを示す形態素別評価値を求め、形態素別評価値を解析対象Ｗｅｂページ毎に並べたリストを解析結果として提示する。特許文献２の技術によると、ＳＥＯ効果の高い形態素を効率よく見出すことができる。

ＵＳ２０１２／０２０９８３８Ａ１特許６１６４４３６号

しかし、この技術（特許文献２）においては、１つのターゲット検索キーワードが、複数の異なる検索ニーズで用いられる場合に、それら複数の検索ニーズごとの明瞭な分析結果を得ることはできない。すなわち、複数の異なる検索ニーズの存在を考慮せずに、検索結果内の複数のＷｅｂページデータを一緒くたに分析することになるため、検索ニーズごとの適切な形態素別評価値を得ることができないという課題があった。

本発明は、このような課題に鑑みて為されたものであり、本発明は、検索のニーズの性質の解析を支援する技術的手段を提供することを目的とする。

本発明の一態様によれば、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得する類似度取得手段と、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させる表示制御手段と、を備え、前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価装置が提供される。

前記表示制御手段は、ユーザ操作に応じて特定のノードを移動させ、前記特定のノードの移動に応じて、エッジを介して前記特定のノードに結合された少なくとも１つのノードを移動させてもよい。

前記複数の検索語のそれぞれに対する検索結果に基づいて、各検索語をクラスタに分類する分類手段を備え、前記表示制御手段は、各検索語が分類されたクラスタに応じた表示態様でノードを表示させてもよい。

前記分類手段は、各検索語を２以上のクラスタのそれぞれにどの程度近いかを算出可能であり、前記表示制御手段は、各検索語がどのクラスタにどの程度近いかに応じた表示態様でノードを表示させてもよい。

前記分類手段は、複数段階の粒度で各検索語をクラスタに分類可能であり、ユーザ操作に応じて粒度が設定される都度、設定された粒度に応じて各検索語をクラスタに分類してもよい。

前記表示制御手段は、ユーザ操作に応じて粒度が変更されて各検索語が分類されるクラスタが変わると、ノードの表示態様を変更してもよい。

前記表示制御手段は、ある期間における各検索語の検索数に応じた表示態様でノードを表示させてもよい。

複数の検索語のそれぞれに対する検索結果である文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段を備え、前記類似度取得手段は、検索語毎の前記特徴ベクトルデータ間の類似度に基づいて各検索語間の類似度を取得してもよい。

本発明の別の態様によれば、類似度取得手段が、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得するステップと、表示制御手段が、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させるステップと、を備え、前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価方法が提供される。

本発明の別の態様によれば、コンピュータを、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得する類似度取得手段と、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させる表示制御手段と、として機能させ、前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価プログラムが提供される。

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得手段と、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段と、前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類手段と、前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力手段とを具備することを特徴とする検索ニーズ評価装置が提供される。

前記分類手段は、前記特徴ベクトルデータにクラスタリングのアルゴリズムあるいはクラス分類のアルゴリズムに従った処理を施し、前記複数の文書データを複数の部分集合に分類してもよい。

前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、前記定量化手段によって得られた文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する合成手段を具備してもよい。

前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、前記分類手段は、文書毎の特徴ベクトルデータに基づいて複数の文書データを複数の部分集合に分類し、前記分類手段による処理結果に所定の統計処理を施し、検索語毎の処理結果を合成する合成手段を具備してもよい。

前記特徴ベクトルデータをより低次元の特徴ベクトルデータに次元縮約する次元縮約手段を具備し、前記分類手段は、前記次元縮約手段の次元縮約を経た特徴ベクトルデータにより、前記複数の文書データを複数の部分集合に分類してもよい。

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得手段と、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段と、前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定手段と、前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出手段と、前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力手段とを具備することを特徴とする検索ニーズ評価装置が提供される。

前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、前記類似度特定手段は、検索語毎の複数の文書データの特徴ベクトルデータ間の類似度を特定し、前記コミュニティ検出手段は、検索語毎の複数の文書データの特徴ベクトルデータ間の類似度に基づいて、検索語毎の複数の文書データを複数のコミュニティに分類し、前記コミュニティ検出手段による検索語毎のコミュニティ検出の処理結果に所定の統計処理を施し、検索語毎のコミュニティ検出の処理結果を合成する合成手段を具備してもよい。

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類ステップと、前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力ステップとを具備することを特徴とする検索ニーズ評価方法が提供される。

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定ステップと、前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出ステップと、前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力ステップとを具備することを特徴とする検索ニーズ評価方法が提供される。

本発明の別の態様によれば、コンピュータに、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類ステップと、前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力ステップとを実行させることを特徴とする検索ニーズ評価方法が提供される。

コンピュータに、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定ステップと、前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出ステップと、前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力ステップとを実行させることを特徴とする検索ニーズ評価方法が提供される。

本発明によると、検索語ごとの検索ニーズの多様さを定量的に評価あるいは表示することができる。また、従来技術では、検索語ごとにしか評価できなかった検索結果Ｗｅｂページに含まれる形態素の評価を、検索ニーズごとに評価できるようになるため、より検索ニーズに合致した解説文の作成やｗｅｂページ等の制作を行いやすくなる。

本発明の第１実施形態である検索ニーズ評価装置を含む評価システムの全体構成を示す図である。本発明の第１実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第１実施形態である検索ニーズ評価装置のクラスタリング処理の手順を示す図である。本発明の第１実施形態である検索ニーズ評価装置の評価軸の設定の手順を示す図である。本発明の第１実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第２実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第２実施形態である検索ニーズ評価装置のクラス分類処理の手順を示す図である。本発明の第２実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第３実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第３実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第４実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第４実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第５実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第５実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第６実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第６実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第７実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第７実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第８実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第８実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の第９実施形態である検索ニーズ評価装置のＣＰＵが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。本発明の第９実施形態である検索ニーズ評価装置の処理の概要を示す図である。本発明の変形例である検索ニーズ評価装置の処理内容を示す図である。本発明の変形例である検索ニーズ評価装置の処理内容を示す図である。図１１のマッピング画像７をより具体的に示す図である。図２５における「ＡＢＣビジネス」に関連付けられたノードｎ３を移動させた状態を示す図である。検索語がクラスタに分類され、分類されたクラスタに応じた表示態様でノードを表示したマッピング画像７を示す図である。検索語が１つのクラスタに分類に確定されるのではなく、複数のクラスタに分類され得る場合のマッピング画像７を示す図である。ユーザが粒度を設定可能なマッピング画像７を示す図である。図２９より粒度が細かく設定された状態を示す図である。粒度調節のインターフェースの例を示す図である。粒度調節のインターフェースの例を示す図である。粒度調節のインターフェースの例を示す図である。粒度調節のインターフェースの例を示す図である。粒度調節のインターフェースの例を示す図である。各検索語の検索数に応じた態様でノードが表示されたマッピング画像７を示す図である。表形式で解析結果を表示する場合の画面例を示す図である。図３７の粒度を粗くした状態を示す図である。相関行列形式で解析結果を表示する場合の画面例を示す図である。図３９の検索語を並べ替えた状態を示す図である。デンドログラム形式で解析結果を表示する場合の画面例を示す図である。図４１の粒度設定バー３６を移動させた状態を示す図である。ツリーマップ形式で解析結果を表示する場合の画面例を示す図である。サンバースト形式で解析結果を表示する場合の画面例を示す図である。

以下、図面を参照しつつ本発明の実施形態を説明する。

＜第１実施形態＞
図１は、本発明の第１実施形態である検索ニーズ評価装置２０を含む評価システム１の全体構成を示す図である。図１示すように、評価システム１は、利用者端末１０、及び検索ニーズ評価装置２０を有する。利用者端末１０、及び検索ニーズ評価装置２０は、インターネット９０を介して接続されている。インターネット９０には、検索エンジンサーバ装置５０が接続されている。

検索エンジンサーバ装置５０は、検索エンジンサービスを提供する役割を果たす装置である。検索エンジンサーバ装置５０は、インターネット９０を巡回し、インターネット９０上に文書データ（ＨＴＭＬ（Hyper Text Markup Language）などのマークアップ言語により記述されたデータ）として散在するｗｅｂページから得た情報をインデクシングする巡回処理と、検索者のコンピュータから検索語を含むＨＴＴＰ（Hyper Text Transfer Protocol）リクエスト（検索クエリ）を受信し、検索クエリ内の検索語を用いて検索したｗｅｂページのタイトル、ＵＲＬ（Uniform Resource Locator）、スニペット（Snippet）のセットを上位（順位が高い）のものから順に配した検索結果を返信する検索処理とを行う。図１では、検索エンジンサーバ装置５０が１つだけ図示されているが、検索エンジンサーバ装置５０の数は複数であってもよい。

利用者端末１０は、パーソナルコンピュータである。利用者端末１０のユーザには、固有のＩＤとパスワードが付与されている。ユーザは、自らの利用者端末１０から検索ニーズ評価装置２０にアクセスして認証手続を行い、検索ニーズ評価装置２０のサービスを利用する。図１では、利用者端末１０が１つだけ図示されているが、評価システム１における利用者端末１０の数は複数であってもよい。

検索ニーズ評価装置２０は、検索ニーズ評価サービスを提供する役割を果たす装置である。検索ニーズ評価サービスは、ユーザから評価対象の検索語を受け取り、その検索語の検索結果内の上位ｄ（ｄは２以上の自然数）個のｗｅｂページを、所定の統計的分類処理のアルゴリズムにより分類し、この分類により得られた複数のｗｅｂページの集合を解析結果として提示するサービスである。

図１に示すように、検索ニーズ評価装置２０は、通信インターフェース２１、ＣＰＵ（Central Processing Unit）２２、ＲＡＭ（Random Access Memorｙ）２３、ＲＯＭ（Read Only Memorｙ）２４、ハードディスク２５を有する。通信インターフェース２１は、インターネット９０に接続された装置との間でデータを送受信する。ＣＰＵ２２は、ＲＡＭ２３をワークエリアとして利用しつつ、ＲＯＭ２４やハードディスク２５に記憶された各種プログラムを実行する。ＲＯＭ２４には、ＩＰＬ（Initial Program Loader）などが記憶されている。ハードディスク２５には、本実施形態に特有の機能を有する評価プログラム２６が記憶されている。

次に、本実施形態の動作について説明する。図２は、検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、次元縮約処理（Ｓ３００）を実行する次元縮約手段、クラスタリング処理（Ｓ３１０）を実行する分類手段、解析結果出力処理（Ｓ４００）を実行する解析結果出力手段、及び評価軸設定処理（Ｓ４５０）を実行する評価軸設定手段として機能する。

ステップＳ１００の取得処理では、ＣＰＵ２２は、利用者端末１０から評価対象の検索語を受け取り、評価対象の検索語に基づく検索結果内の上位ｄ個のｗｅｂページの文書データＤ_ｋ（ｋ＝１〜ｄ、ｋは順位を示すインデックス）を取得する。文書データＤ_ｋ（ｋ＝１〜ｄ）は、検索結果内の第ｋ位のｗｅｂページの内容及び構造をＨＴＭＬにより記述したものである。以下では、書データＤ_ｋ（ｋ＝１〜ｄ）を、適宜、文書データＤ_１、Ｄ_２・・・Ｄ_ｄと記す。

ステップＳ２００の定量化処理は、文書内容定量化処理（Ｓ２０１）と文書構造定量化処理（Ｓ２０２）とを有する。文書内容定量化処理は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの内容をｎ（ｎは２以上の自然数）次元の特徴ベクトルデータに変換する処理である。文書構造定量化処理は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの構造をｍ（ｍは２以上の自然数）次元の特徴ベクトルデータに変換する処理である。以下では、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの各々の内容のｎ次元の特徴ベクトルデータを、特徴ベクトルデータｘ_１＝｛ｘ_１１、ｘ_１２・・・ｘ_１ｎ｝、ｘ_２＝｛ｘ_２１、ｘ_２２・・・ｘ_２ｎ｝・・・ｘ_ｄ＝｛ｘ_ｄ１、ｘ_ｄ２・・・ｘ_ｄｎ｝と記す。また、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの各々の構造のｍ次元の特徴ベクトルデータを、特徴ベクトルデータｙ_１＝｛ｙ_１１、ｙ_１２・・・ｙ_１ｍ｝、ｙ_２＝｛ｙ_２１、ｙ_２２・・・ｙ_２ｍ｝・・・ｙ_ｄ＝｛ｙ_ｄ１、ｙ_ｄ２・・・ｙ_ｄｍ｝と記す。

より詳細に説明すると、文書内容定量化処理では、ＣＰＵ２２は、文書データＤ_１を、Bag of Words（BoW）、dmpv(Distributed Memory)、DBoW(Distributed BoW)などのアルゴリズムに従って多次元ベクトル化し、この処理結果を、特徴ベクトルデータｘ_１＝｛ｘ_１１、ｘ_１２・・・ｘ_１ｎ｝、ｘ_２＝｛ｘ_２１、ｘ_２２・・・ｘ_２ｎ｝・・・ｘ_ｄ＝｛ｘ_ｄ１、ｘ_ｄ２・・・ｘ_ｄｎ｝とする。ＣＰＵ２２は、文書データＤ_２・・Ｄ_ｄについて、同様のアルゴリズムに従って多次元ベクトル化し、この処理結果を、文書データＤ_２・・Ｄ_ｄの各々の特徴ベクトルデータｘ_２＝｛ｘ_２１、ｘ_２２・・・ｘ_２ｎ｝・・・ｘ_ｄ＝｛ｘ_ｄ１、ｘ_ｄ２・・・ｘ_ｄｎ｝とする。ここで、dmpv、及びDBoWは、Doc2Vecの一種である。

文書構造定量化処理では、ＣＰＵ２２は、文書データＤ_１を、隠れマルコフモデル（ＨＭＭ）、確率的文脈自由文法（ＰＣＦＧＰ）、Recurrent Neural Network、Recursive Neural Networkなどのアルゴリズムに従って多次元ベクトル化し、この処理結果を、文書データＤ_１の特徴ベクトルデータｙ_１＝｛ｙ_１１、ｙ_１２・・・ｙ_１ｍ｝とする。ＣＰＵ２２は、文書データＤ_２・・Ｄ_ｄについて、同様のアルゴリズムに従って多次元ベクトル化し、この処理結果を、文書データＤ_２・・Ｄ_ｄの各々の特徴ベクトルデータｙ_２＝｛ｙ_２１、ｙ_２２・・・ｙ_２ｍ｝・・・ｙ_ｄ＝｛ｙ_ｄ１、ｙ_ｄ２・・・ｙ_ｄｍ｝とする。

ステップＳ２１０の加算処理は、ステップＳ２０１の処理結果とステップＳ２０２の処理結果を加算し、ｌ（ｌ＝ｎ＋ｍ）次元の特徴ベクトルデータを出力する処理である。以下では、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの各々についての加算処理により得られるｌ次元の特徴ベクトルデータを、特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ｝と記す。

ステップＳ３００の次元縮約処理は、特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ｝を、オートエンコーダや主成分分析などのアルゴリズムに従って、より次元数の少ないｌ’次元の特徴ベクトルデータに次元縮約する処理である。以下では、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの各々についての次元縮約により得られるｌ’次元の特徴ベクトルデータを、特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝と記す。

ステップＳ３１０のクラスタリング処理は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄをクラスタと称する複数の部分集合（塊）に分類する統計的分類処理である。クラスタリング処理では、ＣＰＵ２２は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝にクラスタリングの最短距離法のアルゴリズムに従った処理を施し、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数のクラスタに分類する。

クラスタリングの最短距離法の詳細を説明する。図３（Ａ）、図３（Ｂ）、図３（Ｃ）、及び図３（Ｄ）は、文書データＤ_ｋの数ｄがｄ＝９であり、次元数ｌ’がｌ’＝２の場合の分類例を示す図である。クラスタリングでは、文書データＤ_ｋ（ｋ＝１〜ｄ）内における２つの文書データＤ_ｋの全ての組み合わせについて、当該２つの文書データＤ_ｋ間の距離を求める。２つの文書データＤ_ｋ間の距離は、ユークリッド距離であってもよいし、ミンコフスキー距離であってもよいし、マハラノビス距離であってもよい。

図３（Ａ）に示すように、互いの距離が最も近い２つの文書データＤ_ｋ（図３（Ａ）の例ではＤ_１とＤ_２）を第１のクラスタとして括る。クラスタを括った後、そのクラスタの代表点Ｒ（重心）を求め、代表点Ｒとクラスタ外の文書データＤ_ｋ（図３（Ａ）の例では、文書データＤ_３、Ｄ_４、Ｄ_５、Ｄ_６、Ｄ_７、Ｄ_８、Ｄ_９）との距離を求める。

図３（Ｂ）に示すように、クラスタ外の２つの文書データＤ_ｋであって互いの距離が代表点Ｒとの距離よりも短いもの（図３（Ｂ）の例では、文書データＤ_３、Ｄ_４）があれば、その２つの文書データＤ_ｋを新たなクラスタとして括る。また、図３（Ｃ）に示すように、２つのクラスタであって互いの代表点Ｒの距離がクラスタ外の文書データＤ_ｋとの距離よりも短いもの（図３（Ｃ）の例では、文書データＤ_１及びＤ_２のクラスタと文書データＤ_３及びＤ_４のクラスタ）があれば、その２つのクラスタを新たなクラスタとして括る。図３（Ｄ）に示すように、以上の処理を再帰的に繰り返し、階層構造をもった複数のクラスタを生成する。

図２において、ステップＳ４００の解析結果出力処理は、クラスタ間の関係に基づいて、評価対象の検索語に関わる検索のニーズの性質の解析結果を出力する処理である。図２に示すように、解析結果出力処理では、ＣＰＵ２２は、利用者端末１０に解析結果画面のＨＴＭＬデータを送信し、利用者端末１０のディスプレイに解析結果画面を表示させる。解析結果画面は、上位ページ分類とデンドログラム８とを有する。上位ページ分類は、評価対象の検索語に基づく検索結果内の上位ｄ個のｗｅｂページの要約（タイトル、スニペット）を内部に記した枠Ｆ_ｋ（ｋ＝１〜ｄ）を５つずつマトリクス状に並べたものである。図２では、第１位〜第１０位のｗｅｂページの枠Ｆ_１〜Ｆ_１０だけが表示されているが、スクロールバーの操作により、第１１位以降のｗｅｂページの枠Ｆ_ｋを出現させることもできる。上位ページ分類におけるｗｅｂページの枠Ｆ_ｋ（ｋ＝１〜ｄ）は、クラスタリングにより同じクラスタに振り分けられたものが同じ色になるように、色分け表示されている。簡便のため、図２では、第１の色の枠Ｆ_ｋ（図２の例では、１位の枠Ｆ_１、３位の枠Ｆ_３、４位の枠Ｆ_４、５位の枠Ｆ_５、７位の枠Ｆ_７、１０位の枠Ｆ_１０）を細線で、第２の色の枠Ｆ_ｋ（図２の例では、２位の枠Ｆ_２、８位の枠Ｆ_８、９位の枠Ｆ_９）を太線で、第３の色の枠Ｆ_ｋ（図２の例では、６位の枠Ｆ_６）を鎖線で示している。デンドログラム８は、クラスタリングの処理過程において得られたクラスタの階層構造を示すものである。

ステップＳ４５０の評価軸設定処理は、クラスタリング処理の評価軸を設定する処理である。図４（Ａ）に示すように、解析結果画面のデンドログラム８上には、評価軸設定バー９がある。評価軸設定バー９は、クラスタリング処理におけるクラスタの数を指定する役割を果たすものである。評価軸設定バー９は、利用者端末１０のポインティングデバイスの操作により、上下に移動できるようになっている。ユーザは、分類の粒度を粗くした解析結果を得たい場合は、評価軸設定バー９を上（上位階層）側に移動させる。また、ユーザは、分類の粒度を細かくした解析結果を得たい場合は、評価軸設定バー９を下（下位階層）側に移動させる。ユーザにより、評価軸設定バー９を移動させる操作が行われると、ＣＰＵ２２は、移動後の評価軸設定バー９とデンドログラム８の縦線との交差位置を新たな設定とし、この新たな設定に基づいてクラスタリング処理を実行し、クラスタリング処理の処理結果を含む解析結果を出力する。

以上が、本実施形態の詳細である。本実施形態によると、次の効果が得られる。
第１に、本実施形態では、図５に示すように、ＣＰＵ２２は、評価対象である１つの検索語の検索結果内の上位ｄ個の文書データＤ_１、Ｄ_２・・・Ｄ_ｄの内容及び構造を特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に変換し、特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝にクラスタリングの処理を施し、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数の部分集合（クラスタ）に分類する。ＣＰＵ２２は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄのクラスタリングの処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。よって、本実施形態によると、検索語の言葉に異なるニーズがどの程度混在していて、ニーズの性質がどのようなものであるか、ということの解析を効率よく行うことができる。

第２に、本実施形態では、上位ページ分類が解析結果として出力される。上位ページ分類におけるｗｅｂページの情報は、クラスタリングにより同じ部分集合（クラスタ）に振り分けられたものが同じ色になるように、色分け表示されている。本実施形態では、この上位ページ分類により、評価対象の検索語についてのニーズの性質のばらつき度合を可視化することができる。本実施形態によると、検索結果内の上位のｗｅｂページと下位のｗｅｂページとの相違点から上位のｗｅｂページがなぜ上位になっているのかを検証する場合において、検索のニーズの性質が同じｗｅｂページ同士を比較することができる。従って、本実施形態では、上位のｗｅｂページをより効率的に検証することができる。

第３に、本実施形態では、デンドログラム８が解析結果として出力される。このデンドログラム８における評価軸設定バー９を動かす操作がされると、評価軸設定バー９とデンドログラム８の縦線との交差位置を新たな設定とし、この新たな設定に基づいてクラスタリング処理を実行し、クラスタリング処理の処理結果を含む解析結果を出力する。従って、本実施形態によると、ユーザは、上位ページ分類における分類の粒度を自らの意向にマッチするように調整できる。

＜第２実施形態＞
本発明の第２実施形態を説明する。図６は、第２実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、次元縮約処理（Ｓ３００）を実行する次元縮約手段、クラス分類処理（Ｓ３１１）を実行する分類手段、及び解析結果出力処理（Ｓ４００）を実行する解析結果出力手段として機能する。取得処理、定量化処理、加算処理、及び次元縮約処理の内容は、第１実施形態と同様である。

図６と第１実施形態の図２とを比較すると、図６では、ステップＳ３１０のクラスタリング処理がステップＳ３１１のクラス分類処理に置き換わっている。

ステップＳ３１１のクラス分類処理は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄをクラスと称する複数の部分集合（塊）に分類する統計的分類処理である。クラス分類処理では、ＣＰＵ２２は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝にクラス分類のアルゴリズムに従った処理を施し、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数のクラスに分類する。

クラス分類の詳細を説明する。クラス分類では、次式（１）に示す線形分類器ｆ（ｚ）の重み係数ｗ_０、ｗ_１、ｗ_２・・・ｗ_ｄを既知のクラスの特徴ベクトルデータ群を用いた機械学習により設定し、線形分類器ｆ（ｚ）に文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝を代入し、この結果に基づいて、文書データＤ_１、Ｄ_２・・・Ｄ_ｄのクラスを決定する。

ｆ（ｚ）＝ｗ_０＋ｗ_１ｚ_１＋ｗ_２ｚ_２＋・・・＋ｗ_ｄｚ_ｄ・・・（１）

図７（Ａ）は、クラスの数がクラスＡとクラスＢの２つであり、次元数ｌ’がｌ’＝２の場合におけるクラス分類の例を示す図である。機械学習では、教師データとなる特徴ベクトルデータ群（図７（Ａ）の例では、クラスＡの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群、及びクラスＢの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群）を準備する。

次に、線形分類器ｆ（ｚ）（図７（Ａ）の例では、２次元の線形分類器ｆ（ｚ）＝ｗ_０＋ｗ_１ｚ_１＋ｗ_２ｚ_２）の重み係数を初期化する。その後、教師データを線形分類器ｆ（ｚ）に代入し、代入結果がラベル情報の示すクラスと違っていれば、重み係数を更新し、代入結果がラベル情報の示すクラスと合っていれば、線形分類器ｆ（ｚ）への代入が済んでいない別の教師データを選択する、という処理を繰り返し、重み係数を最適化する。

機械学習による重み係数の最適化の後、ＣＰＵ２２は、文書データＤ_１の特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２｝を線形分類器ｆ（ｚ）に代入して文書データＤ_１が属するクラスを決定し、文書データＤ_２の特徴ベクトルデータｚ_２＝｛ｚ_２１、ｚ_２２｝を線形分類器ｆ（ｚ）に代入して文書データＤ_２が属するクラスを決定し・・・文書データＤ_ｄの特徴ベクトルデータｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２｝を線形分類器ｆ（ｚ）に代入して文書データＤ_ｎが属するクラスを決定する、というようにして、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数のクラスに分類する。

図６におけるステップＳ４００の解析結果出力処理は、クラス間の関係に基づいて、評価対象の検索語に関わる検索のニーズの解析結果を出力する処理である。図６に示すように、解析結果出力処理では、ＣＰＵ２２は、利用者端末１０に解析結果画面のＨＴＭＬデータを送信し、利用者端末１０のディスプレイに解析結果画面を表示させる。解析結果画面は、上位ページ分類を有する。図６の上位ページ分類におけるｗｅｂページの枠Ｆ_ｋ（ｋ＝１〜ｄ）は、同じクラスに属するものの枠Ｆ_ｋが同じ色になるように、色分け表示されている。

ステップＳ４５０の評価軸設定処理は、クラス分類処理の評価軸を設定する処理である。図７（Ｂ）及び図７（Ｃ）に示すように、ユーザは、線形分類器ｆ（ｚ）の教師データを別のもの（図７（Ｂ）の例では、クラスＡ、クラスＢ１、及びクラスＢ２の教師データ、図７（Ｃ）の例では、クラスＣ及びクラスＤの教師データ）に置き換える。ユーザにより、教師データを置き換える操作が行われると、ＣＰＵ２２は、置き換え後の教師データを用いた機械学習により線形分類器ｆ（ｚ）の重み係数を最適化し、線形分類器ｆ（ｚ）により、文書データＤ_１、Ｄ_２・・・Ｄ_ｄが属するクラスを決定する。

以上が、本実施形態の詳細である。本実施形態では、図８に示すように、ＣＰＵ２２は、評価対象である１つの検索語の検索結果内の上位ｄ個の文書データＤ_１、Ｄ_２・・・Ｄ_ｄの内容及び構造を特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に変換し、特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝にクラス分類の処理を施し、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数の部分集合（クラス）に分類する。ＣＰＵ２２は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄのクラス分類の処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第１実施形態と同様の効果が得られる。

＜第３実施形態＞
本発明の第３実施形態を説明する。図９は、第３実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、類似度特定処理（Ｓ３２０）を実行する類似度特定手段、コミュニティ検出処理（Ｓ３３０）を実行するコミュニティ検出手段、解析結果出力処理（Ｓ４００）を実行する解析結果出力手段、及び評価軸設定処理（Ｓ４５０）を実行する評価軸設定手段として機能する。

図９と第１実施形態の図２とを比較すると、図９では、図２のステップＳ３３０の次元縮約処理が無い。本実施形態では、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝を処理対象として、ステップＳ３２０の類似度特定処理及びステップＳ３３０のコミュニティ検出処理を実行する。

ステップＳ３２０の類似度特定処理は、文書データＤ_ｋ間の類似度を求める処理である。類似度特定処理では、文書データＤ_ｋ（ｋ＝１〜ｄ）内における２つの文書データＤ_ｋの全ての組み合わせについて、文書データＤ_ｋ間の相関係数を求め、この相関係数を文書データＤ_ｋ間の類似度とする。相関係数は、ピアソンの相関係数であってもよいし、スパース性を考慮した相関係数であってもよい。また、文書データＤ_ｋ間の分散共分散行列、ユークリッド距離、ミンコフスキー距離、又は、ＣＯＳ類似度を、文書データＤ_ｋ間の類似度としてもよい。

ステップＳ３３０のコミュニティ検出処理は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄをコミュニティと称する複数の部分集合に分類する統計的分類処理である。コミュニティ検出処理では、ＣＰＵ２２は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝にコミュニティ検出のアルゴリズムに従った処理を施し、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数のコミュニティに分類する。

コミュニティ検出の詳細を説明する。コミュニティ検出は、クラスタリングの一種である。コミュニティ検出では、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの各々をノードとし、文書データＤ_ｋ間の類似度を重みとしたエッジを持つ重み付き無向グラフを生成する。その上で、重み付き無向グラフにおける各ノードの媒介中心性の算出と、媒介中心性が最大のエッジの除去とを繰り返すことにより、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを階層構造をもった複数のコミュニティに分類する。

ステップＳ４００の解析結果出力処理は、コミュニティ間の関係に基づいて、評価対象の検索語に関わる検索のニーズの解析結果を出力する処理である。図９に示すように、解析結果出力処理では、ＣＰＵ２２は、利用者端末１０に解析結果画面のＨＴＭＬデータを送信し、利用者端末１０のディスプレイに解析結果画面を表示させる。解析結果画面は、上位ページ分類とデンドログラム８とを有する。図９の上位ページ分類におけるｗｅｂページの枠Ｆ_ｋ（ｋ＝１〜ｄ）は、同じコミュニティに属するものの枠Ｆ_ｋが同じ色になるように、色分け表示されている。デンドログラム８は、コミュニティ検出処理の処理過程において得られたコミュニティの階層構造を示すものである。

ステップＳ４５０の評価軸設定処理の内容は、第１実施形態と同様である。

以上が、本実施形態の詳細である。本実施形態では、図１０に示すように、ＣＰＵ２２は、評価対象である１つの検索語の検索結果内の上位ｄ個の文書データＤ_１、Ｄ_２・・・Ｄ_ｄの内容及び構造を特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に変換し、特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に類似度特定とコミュニティ検出の処理を施し、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを複数の部分集合（コミュニティ）に分類する。ＣＰＵ２２は、文書データＤ_１、Ｄ_２・・・Ｄ_ｄのコミュニティ検出の処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第１実施形態と同様の効果が得られる。

＜第４実施形態＞
本実施形態の第４実施形態を説明する。上記第１〜第３実施形態の検索ニーズ評価サービスは、ユーザから１つの検索語を受け取り、その検索語の検索結果内の上位ｄ個のｗｅｂページを、所定の統計的分類処理のアルゴリズムにより分類し、この分類により得られた複数のｗｅｂページの集合を解析結果として提示するものであった。これに対し、本実施形態は、ユーザから、核ワードと様々なサブワードとを組み合わせた複数の検索語Ａ、Ｂ、Ｃ・・・（例えば、「ＡＩ知能」、「ＡＩ人工」、「ＡＩデータ」・・・など）受け取り、受け取った複数の検索語Ａ、Ｂ、Ｃ・・・の各々の上位ｄ個の文書データ群を、所定の統計的分類処理のアルゴリズムにより分類し、この分類により得られた複数の文書データの集合を、核ワードである検索語自体の検索のニーズの性質の解析結果として提示するものである。

図１１は、第４実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、合成処理（Ｓ２５０）を実行する合成手段、次元縮約処理（Ｓ３００）を実行する次元縮約手段、クラスタリング処理（Ｓ３１０）を実行する分類手段、解析結果出力処理（Ｓ４０１）を実行する解析結果出力手段として機能する。

図１１と第１実施形態の図２とを比較すると、図１１では、ステップＳ１００の取得処理において、ＣＰＵ２２は、利用者端末１０から、複数の検索語Ａ、Ｂ、Ｃ・・・を受け取り、複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個のｗｅｂページの文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得する。この後、ＣＰＵ２２は、検索語毎の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・について、ステップＳ２００の定量化処理、及びステップＳ２１０の加算処理を実行し、検索語Ａの上位文書についての処理結果である特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書についての処理結果である特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書についての処理結果である特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・を個別に生成する。

図１１では、ステップＳ２１０の加算処理とステップＳ３００の次元縮約処理の間にステップＳ２５０の合成処理がある。合成処理では、ＣＰＵ２２は、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・に所定の統計処理を施し、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝を合成した特徴ベクトルデータｚ_Ａ＝｛ｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝を合成した特徴ベクトルデータｚ_Ｂ＝｛ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝を合成した特徴ベクトルデータｚ_Ｃ＝｛ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｌ｝・・・を個別に生成する。

この後、ＣＰＵ２２は、検索語Ａの特徴ベクトルデータｚ_Ａ＝｛ｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｌ’｝、検索語Ｂの特徴ベクトルデータｚ_Ｂ＝｛ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｌ’｝、検索語Ｃの特徴ベクトルデータｚ_Ｃ＝｛ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｌ’｝・・・を処理対象として、ステップＳ３１０のクラスタリング処理、及びステップＳ４０１の解析結果出力処理を実行する。すなわち、本実施形態では、検索語毎にクラスタリングをするのではなく、全ての文書をまとめてクラスタリングを行う。

図１１のステップＳ４０１の解析結果出力処理では、利用者端末１０のディスプレイに解析結果画面を表示させる。解析結果画面は、マッピング画像７を有する。マッピング画像７は、２次元平面に、複数の検索語Ａ、Ｂ、Ｃ・・・の各々の位置を示すマークＭＫ_１、ＭＫ_２・・・ＭＫ_Ｌを配置したものである。マッピング画像７は、ステップＳ２５０、Ｓ３００、及びＳ３１０の処理結果に基づいて生成される。

以上が、本実施形態の詳細である。本実施形態では、図１２に示すように、ＣＰＵ２２は、評価対象である複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得し、検索語毎の検索結果内の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・の内容及び構造を多次元の特徴ベクトルデータｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｄ、ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｄ、ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｄ・・・に変換し、文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する。その上で、合成した特徴ベクトルデータｚ_Ａ、ｚ_Ｂ、ｚ_Ｃ・・・にクラスタリングの処理を施し、検索語Ａ、検索語Ｂ、検索語Ｃ・・・を複数の部分集合（クラスタ）に分類し、クラスタリングの処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果であるマッピング画像７を出力する。よって、本実施形態によると、マッピング画像７を参照することにより、共通の言葉を含む様々な検索語に関わる検索のニーズの性質がどの程度近いのかを直感的に把握することができる。よって、本実施形態によっても、検索語の言葉に異なるニーズがどの程度混在していて、ニーズの性質がどのようなものであるか、ということの解析を効率よく行うことができる。

＜第５実施形態＞
本発明の第５実施形態を説明する。図１３は、第５実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、次元縮約処理（Ｓ３００）を実行する次元縮約手段、クラスタリング処理（Ｓ３１０）を実行する分類手段、合成処理（Ｓ３５０）を実行する合成手段、解析結果出力処理（Ｓ４０１）を実行する解析結果出力手段として機能する。

図１３と第４実施形態の図１１とを比較すると、図１３では、図１１のステップＳ２５０の合成処理が無く、ステップＳ３１０とステップＳ４０１の間にステップＳ３５０の合成処理がある。本実施形態では、ＣＰＵ２２は、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・を処理対象として、ステップＳ３００の次元縮約処理及びステップＳ３１０のクラスタリング処理を実行し、文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・のクラスタリング処理の処理結果を取得する。ステップＳ３５０の合成処理では、ＣＰＵ２２は、文書毎のクラスタリングの処理結果に所定の統計処理を施し、検索語毎のクラスタリングの処理結果を合成する。

図１３のステップＳ４０１の解析結果出力処理では、利用者端末１０のディスプレイに解析結果画面を表示させる。図１９の解析結果画面のマッピング画像７は、ステップＳ３００、Ｓ３１０、及びＳ３５０の処理結果に基づいて生成される。

以上が、本実施形態の構成の詳細である。本実施形態では、図１４に示すように、ＣＰＵ２２は、評価対象である複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得し、検索語毎の検索結果内の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・の内容及び構造を多次元の特徴ベクトルデータｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｄ、ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｄ、ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｄ・・・に変換し、文書毎の特徴ベクトルデータにクラスタリングのアルゴリズムに従った処理を施し、複数の文書データを複数の部分集合に分類する。その上で、クラスタリングの処理結果に所定の統計処理を施し、検索語毎のクラスタリングの処理結果を合成し、合成した部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第４実施形態と同様の効果が得られる。

＜第６実施形態＞
本実施形態の第６実施形態を説明する。図１５は、第６実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、合成処理（Ｓ２５０）を実行する合成手段、次元縮約処理（Ｓ３００）を実行する次元縮約手段、クラス分類処理（Ｓ３１１）を実行する分類手段、解析結果出力処理（Ｓ４０１）を実行する解析結果出力手段として機能する。

図１５と第２実施形態の図６とを比較すると、図１５では、ステップＳ１００の取得処理において、ＣＰＵ２２は、利用者端末１０から、複数の検索語Ａ、Ｂ、Ｃ・・・を受け取り、複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個のｗｅｂページの文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得する。この後、ＣＰＵ２２は、検索語毎の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・について、ステップＳ２００の定量化処理、及びステップＳ２１０の加算処理を実行し、検索語Ａの上位文書についての処理結果である特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書についての処理結果である特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書についての処理結果である特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・を個別に生成する。

図１５では、ステップＳ２１０の加算処理とステップＳ３００の次元縮約処理の間にステップＳ２５０の合成処理がある。合成処理では、ＣＰＵ２２は、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・に所定の統計処理を施し、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝を合成した検索語Ａの特徴ベクトルデータｚ_Ａ＝｛ｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝を合成した検索語Ｂの特徴ベクトルデータｚ_Ｂ＝｛ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝を合成した検索語Ｃの特徴ベクトルデータｚ_Ｃ＝｛ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｌ｝・・・を個別に生成する。

この後、ＣＰＵ２２は、検索語Ａの特徴ベクトルデータｚ_Ａ＝｛ｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｌ’｝、検索語Ｂの特徴ベクトルデータｚ_Ｂ＝｛ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｌ’｝、検索語Ｃの特徴ベクトルデータｚ_Ｃ＝｛ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｌ’｝・・・を処理対象として、ステップＳ３１１のクラス分類処理、及びステップＳ４０１の解析結果出力処理を実行する。すなわち、本実施形態では、検索語毎にクラス分類をするのではなく、全ての文書をまとめてクラス分類を行う。

図１５のステップＳ４０１の解析結果出力処理では、利用者端末１０のディスプレイに解析結果画面を表示させる。図１５の解析結果画面のマッピング画像７は、ステップＳ２５０、Ｓ３００、及びＳ３１１の処理結果に基づいて生成される。

以上が、本実施形態の詳細である。本実施形態では、図１６に示すように、ＣＰＵ２２は、評価対象である複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得し、検索語毎の検索結果内の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・の内容及び構造を多次元の特徴ベクトルデータｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｄ、ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｄ、ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｄ・・・に変換し、文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する。その上で、合成した特徴ベクトルデータｚ_Ａ、ｚ_Ｂ、ｚ_Ｃ・・・にクラス分類の処理を施し、検索語Ａ、Ｂ、Ｃ・・・を複数の部分集合（クラス）に分類し、クラス分類の処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第４実施形態と同様の効果が得られる。

＜第７実施形態＞
本発明の第７実施形態を説明する。図１７は、第７実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、次元縮約処理（Ｓ３００）を実行する次元縮約手段、クラス分類処理（Ｓ３１１）を実行する分類手段、合成処理（Ｓ３５０）を実行する合成手段、解析結果出力処理（Ｓ４０１）を実行する解析結果出力手段として機能する。

図１７と第６実施形態の図１５とを比較すると、図１７では、図１５のステップＳ２５０の合成処理が無く、ステップＳ３１１とステップＳ４０１の間にステップＳ３５０の合成処理がある。本実施形態では、ＣＰＵ２２は、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・を処理対象として、ステップＳ３００の次元縮約処理及びステップＳ３１１のクラス分類処理を実行し、文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・のクラス分類処理の処理結果を取得する。ステップＳ３５０の合成処理では、ＣＰＵ２２は、文書毎のクラス分類の処理結果に所定の統計処理を施し、検索語毎のクラス分類の処理結果を合成する。

図１７のステップＳ４０１の解析結果出力処理では、利用者端末１０のディスプレイに解析結果画面を表示させる。図１７の解析結果画面のマッピング画像７は、ステップＳ３００、Ｓ３１１、及びＳ３５０の処理結果に基づいて生成される。

以上が、本実施形態の構成の詳細である。本実施形態では、図１８に示すように、ＣＰＵ２２は、評価対象である複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得し、検索語毎の検索結果内の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・の内容及び構造を多次元の特徴ベクトルデータｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｄ、ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｄ、ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｄ・・・に変換し、文書毎の特徴ベクトルデータにクラス分類のアルゴリズムに従った処理を施し、検索語毎の検索結果内の複数の文書データを複数の部分集合に分類する。その上で、クラス分類の処理結果に所定の統計処理を施し、検索語毎のクラス分類の処理結果を合成し、合成した部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第４実施形態と同様の効果が得られる。

＜第８実施形態＞
本実施形態の第８実施形態を説明する。図１９は、第８実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、合成処理（Ｓ２５０）を実行する合成手段、類似度特定処理（Ｓ３２０）を実行する類似度特定手段、コミュニティ検出処理（Ｓ３３０）を実行するコミュニティ検出手段、解析結果出力処理（Ｓ４０１）を実行する解析結果出力手段として機能する。

図１９と第３実施形態の図９とを比較すると、図１９では、図１９では、ステップＳ１００の取得処理において、ＣＰＵ２２は、利用者端末１０から、複数の検索語Ａ、Ｂ、Ｃ・・・を受け取り、複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個のｗｅｂページの文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得する。この後、ＣＰＵ２２は、検索語毎の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・について、ステップＳ２００の定量化処理、及びステップＳ２１０の加算処理を実行し、検索語Ａの上位文書についての処理結果である特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書についての処理結果である特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書についての処理結果である特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・を個別に生成する。

図１９では、ステップＳ２１０の加算処理とステップＳ３００の次元縮約処理の間にステップＳ２５０の合成処理がある。合成処理では、ＣＰＵ２２は、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・に所定の統計処理を施し、検索語Ａの上位文書特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝を合成した検索語Ａの特徴ベクトルデータｚ_Ａ＝｛ｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｌ｝、検索語Ｂの上位文書特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝を合成した検索語Ｂの特徴ベクトルデータｚ_Ｂ＝｛ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｌ｝、検索語Ｃの上位文書特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝を合成した検索語Ｃの特徴ベクトルデータｚ_Ｃ＝｛ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｌ｝・・・を個別に生成する。

この後、ＣＰＵ２２は、検索語Ａの特徴ベクトルデータｚ_Ａ＝｛ｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｌ｝、検索語Ｂの特徴ベクトルデータｚ_Ｂ＝｛ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｌ｝、検索語Ｃの特徴ベクトルデータｚ_Ｃ＝｛ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｌ｝・・・を処理対象として、ステップＳ３２０の類似度特定処理、ステップＳ３３０のコミュニティ検出処理、及びステップＳ４０１の解析結果出力処理を実行する。すなわち、本実施形態では、検索語毎に類似度特定及びコミュニティ検出をするのではなく、全ての文書をまとめて類似度特定及びコミュニティ検出を行う。

図１９のステップＳ４０１の解析結果出力処理では、利用者端末１０のディスプレイに解析結果画面を表示させる。図１９の解析結果画面のマッピング画像７は、ステップＳ２５０、Ｓ３２０、及びＳ３３０の処理結果に基づいて生成される。

以上が、本実施形態の詳細である。本実施形態では、図２０に示すように、ＣＰＵ２２は、評価対象である複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得し、検索語毎の検索結果内の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・の内容及び構造を多次元の特徴ベクトルデータｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｄ、ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｄ、ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｄ・・・に変換し、文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する。その上で、合成した特徴ベクトルデータｚ_Ａ、ｚ_Ｂ、ｚ_Ｃ・・・に類似度特定とコミュニティ検出の処理を施し、検索語Ａ、Ｂ、Ｃ・・・を複数のコミュニティに分類し、コミュニティ検出の処理結果である複数のコミュニティ間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第４実施形態と同様の効果が得られる。

＜第９実施形態＞
本発明の第９実施形態を説明する。図２１は、第９実施形態の検索ニーズ評価装置２０のＣＰＵ２２が評価プログラム２６に従って実行する評価方法の流れを示すフローチャートである。ＣＰＵ２２は、評価プログラム２６を実行することで、取得処理（Ｓ１００）を実行する取得手段、定量化処理（Ｓ２００）を実行する定量化手段、加算処理を実行する加算手段（Ｓ２１０）、類似度特定処理（Ｓ３２０）を実行する類似度特定手段、コミュニティ検出処理（Ｓ３３０）を実行するコミュニティ検出手段、合成処理（Ｓ３５０）を実行する合成手段、解析結果出力処理（Ｓ４０１）を実行する解析結果出力手段として機能する。

図２１と第８実施形態の図１９とを比較すると、図２１では、図１９のステップＳ２５０の合成処理が無く、ステップＳ３３０とステップＳ４０１の間にステップＳ３５０の合成処理がある。本実施形態では、ＣＰＵ２２は、検索語Ａの上位文書の特徴ベクトルデータｚ_Ａ１＝｛ｚ_Ａ１１、ｚ_Ａ１２・・・ｚ_Ａ１ｌ｝、ｚ_Ａ２＝｛ｚ_Ａ２１、ｚ_Ａ２２・・・ｚ_Ａ２ｌ｝・・・ｚ_Ａｄ＝｛ｚ_Ａｄ１、ｚ_Ａｄ２・・・ｚ_Ａｄｌ｝、検索語Ｂの上位文書の特徴ベクトルデータｚ_Ｂ１＝｛ｚ_Ｂ１１、ｚ_Ｂ１２・・・ｚ_Ｂ１ｌ｝、ｚ_Ｂ２＝｛ｚ_Ｂ２１、ｚ_Ｂ２２・・・ｚ_Ｂ２ｌ｝・・・ｚ_Ｂｄ＝｛ｚ_Ｂｄ１、ｚ_Ｂｄ２・・・ｚ_Ｂｄｌ｝、検索語Ｃの上位文書の特徴ベクトルデータｚ_Ｃ１＝｛ｚ_Ｃ１１、ｚ_Ｃ１２・・・ｚ_Ｃ１ｌ｝、ｚ_Ｃ２＝｛ｚ_Ｃ２１、ｚ_Ｃ２２・・・ｚ_Ｃ２ｌ｝・・・ｚ_Ｃｄ＝｛ｚ_Ｃｄ１、ｚ_Ｃｄ２・・・ｚ_Ｃｄｌ｝・・・を処理対象として、ステップＳ３２０の類似度特定処理及びステップＳ３３０のコミュニティ検出処理を実行し、文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・のコミュニティ検出処理の処理結果を取得する。ステップＳ３５０の合成処理では、ＣＰＵ２２は、文書毎のコミュニティ検出の処理結果に所定の統計処理を施し、検索語毎のコミュニティ検出の処理結果を合成する。

図２１のステップＳ４０１の解析結果出力処理では、利用者端末１０のディスプレイに解析結果画面を表示させる。図２１の解析結果画面のマッピング画像７は、ステップＳ３２０、Ｓ３３０、及びＳ３５０の処理結果に基づいて生成される。

以上が、本実施形態の構成の詳細である。本実施形態では、図１４に示すように、ＣＰＵ２２は、評価対象である複数の検索語Ａ、Ｂ、Ｃ・・・の各々について、検索語毎の検索結果内の上位ｄ個の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・を取得し、検索語毎の検索結果内の文書データＤ_Ａｋ（ｋ＝１〜ｄ）、Ｄ_Ｂｋ（ｋ＝１〜ｄ）、Ｄ_Ｃｋ（ｋ＝１〜ｄ）・・・の内容及び構造を多次元の特徴ベクトルデータｚ_Ａ１、ｚ_Ａ２・・・ｚ_Ａｄ、ｚ_Ｂ１、ｚ_Ｂ２・・・ｚ_Ｂｄ、ｚ_Ｃ１、ｚ_Ｃ２・・・ｚ_Ｃｄ・・・に変換し、文書毎の特徴ベクトルデータに類似度特定処理とコミュニティ検出の処理を施し、複数の文書データを複数のコミュニティに分類する。その上で、処理結果に所定の統計処理を施し、検索語毎の処理結果を合成し、合成したコミュニティ間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第４実施形態と同様の効果が得られる。

＜第１０実施形態＞
第１０実施形態では、重み付き無向グラフを用いた解析結果の表示例を具体的に説明する。

図２５は、図１１のマッピング画像７をより具体的に示す図である。このマッピング画像７は共通の語「ＡＢＣ」を含む検索語に関する解析結果を例示している。なお、「ＡＢＣ」なる技術用語があり、「ＡＢＣ」なる電子ファイルの拡張子があり、「ＡＢＣ」なる歌手がいるものと仮定している。

図２５のマッピング画像７は、ノード（例えば、符号ｎ１，ｎ２）と、ノード間を結合するエッジ（例えば、符号ｅ）とからなるグラフ（無向グラフ）で解析結果を示すものである。ノードには各検索語が関連づけられている。エッジの長さは、その一端のノードに関連付けられた検索語と、他端のノードに関連付けられた検索語との検索ニーズの類似度に対応する。具体的には、ある検索語と別の検索語との類似度が高いほどエッジは短い。そのため、検索ニーズの類似度が高い検索語に関連付けられたノードどうしが近くに配置される。なお、２つの検索語間の類似度が所定値より低い場合、両検索語に関連付けられたノード間のエッジを省略してもよい。

ここで、類似度は、例えば第８実施形態などで上述したものであってもよいし、検索語に対する検索結果に基づく他の手法で算出したものであってもよい。

このように表示することで、関連性が高い検索語が一目瞭然となる。図２５によれば、「ＡＢＣセミナー」、「ＡＢＣビジネス」、「ＡＢＣベンチャー」の関連性が高いこと、「ＡＢＣライブ」、「ＡＢＣアルバム」、「ＡＢＣコンサート」の関連性が高いこと、「ＡＢＣ拡張子」、「ＡＢＣデータ」、「ＡＢＣファイル」の関連性が高いことがわかる。これは、「ＡＢＣセミナー」なる検索語で訪問されるＷｅｂサイトは、「ＡＢＣビジネス」や「ＡＢＣベンチャー」なる検索語で訪問されることが多いが、その他の「ＡＢＣライブ」や「ＡＢＣデータ」なる検索語で訪問されることは少ないことを意味する。

例えば、「ＡＢＣ」という技術に関するＷｅｂページを作成しようとする場合、「ＡＢＣセミナー」、「ＡＢＣビジネス」、「ＡＢＣベンチャー」といった検索語でユーザが訪問されることを念頭に置いてＷｅｂページを作成すればよいこととなる。

また、図２５に示す無向グラフにおいて、ユーザがノードを移動させることができてもよい。ノードの移動は、例えばマウスで所望のノードをクリックしたり、タッチパネルで所望のノードをタップしたりしてノードを選択し、選択した状態で任意の別の場所にドラッグする方式が考えられる。

図２６は、図２５における「ＡＢＣビジネス」に関連付けられたノードｎ３を移動させた状態を示す図である。

ユーザ操作によるノードｎ３の移動に伴い、少なくともノードｎ３と近い（類似度が所定値以上）の他のノード（図２６ではノードｎ４，ｎ５）をノードｎ３に引き付けられるように自動的に移動させるのがよい。このとき、エッジの長さはバネやクーロン力などの力学モデルにより決定される。具体的には、ノードの移動によりエッジが引っ張られると、エッジが伸び、伸びた分だけ引き寄せる力が強くなり、時間の経過により力のバランスがとれる短さに収束する。

図２５や図２６には少数のノード（検索語）しか描いていないが、実際には多数のノード（検索語）が表示される。そのため、場合によっては１か所にノードが密集することもあり得る。この場合、着目する検索語が関連付けられたノードを任意の場所に移動させることで、類似度が高い検索語をより見やすく表示可能となる。

図２７は、検索語がクラスタに分類され、分類されたクラスタに応じた表示態様でノードを表示したマッピング画像７を示す図である。なお、クラスタ分類は、例えば第４実施形態などで上述した手法を適用してもよいし、検索語に対する検索結果に基づく他の手法を適用してもよい。なお、図２７などでは検索語そのものを省略している。

同図では、各検索語が２クラスタＡ，Ｂ，Ｃのいずれか１つに分類される例を示している。クラスタＡに分類された検索語が関連付けられたノードは黒で表示され、クラスタＢに分類された検索語が関連付けられたノードは白で、クラスタＣに分類された検索語が関連付けられたノードは斜線で表示される。その他、クラスタに応じて色分けするなどでもよい。

図２８は、検索語が１つのクラスタに分類に確定されるのではなく、複数のクラスタに分類され得る場合のマッピング画像７を示す図である。各検索語は、どのクラスタにどの程度近いか（どのクラスタの性質をどの程度有するか）が算出される。図２８の例では、ある検索語はクラスタＡが６割、クラスタＢが３割、クラスタＣが１割と判定されている。この場合、その検索語が関連付けられたノードｎ６は、円グラフ同様、６割が黒、３割が白、１割が斜線で表示される。

さらに、第１実施形態で説明したように、分類の粒度を細かくしたり粗くしたりすることができる。粒度が細かいほど、多くのクラスタに分類される。そして、この粒度をユーザが可変設定できてもよい。

図２９は、ユーザが粒度を設定可能なマッピング画像７を示す図である。水平方向に延びるスライドバー３０が表示されており、ユーザはバー３１を左に移動させることにより粒度を粗く、右に移動させることにより粒度を細かく設定できる。なお、粒度は複数段階あればよく、特に段階数に制限はない。

図２９は粒度が粗く設定された状態を示している。この例では、各検索語は２クラスタＡ，Ｂのいずれか１つに分類され、ノードの表示態様が２種類（Ａ，Ｂの順に黒および斜線）ある。

図３０は、図２９より粒度が細かく設定された状態を示す図である。この例では、各検索語は４クラスタラスタＡ１，Ａ２，Ｂ１，Ｂ２のいずれか１つに分類される。なお、クラスタＡをさらに細かく分類したのがクラスタＡ１，Ａ２であり、クラスタＢをさらに細かく分類したのがクラスタＢ１，Ｂ２である。この場合、ノードの表示態様は４種類（Ａ１，Ａ２，Ｂ１，Ｂ２の順に黒、白、斜線および波線）となる。

このように、ユーザ操作に応じて粒度が設定（変更）される都度、設定された粒度に応じて各検索語がクラスタに分類される。そして、各検索語が分類されるクラスタが変わると、ノードの表示態様も自動的に更新される。

例えば、「ＡＢＣ」という技術全般に関するＷｅｂページを作成しようとする場合、粒度を粗く設定することで関連性が比較的高い検索語を幅広く把握することができる。一方、「ＡＢＣ」という技術のうちのさらに特定の技術に特化したＷｅｂページを作成しようとする場合、粒度を細かく設定することで関連性が特に高い少数の検索語を高精度に把握できる。

粒度調整のインターフェースは図２９および図３０に示すスライドバー３０に限られない。図３１に示すように、鉛直方向に延びるスライドバー３０でもよい。図３２に示すようにユーザが粒度を示す数値を入力する欄３２を設けてもよい。図３３に示すように、粒度が示されたボタン（アイコン）３３をユーザが選択するようにしてもよい。図３４に示すようなプルダウン３４や、図３５に示すようなラジオボタン３５からユーザが選択するようにしてもよい。例示しない他のインターフェースであってもよいが、望ましくは複数段階のうちの１つをユーザが択一的に選択できるインターフェースがよい。

さらに、各検索語の検索数をマッピング画面７に示してもよい。
図３６は、各検索語の検索数に応じた態様でノードが表示されたマッピング画像７を示す図である。ノードに関連付けられた検索語の検索数が多いほど、ノードが大きく表示される。大きく表示されるノードに関連付けられた検索語を重視すべきことが容易かつ直感的ににわかる。なお、検索数は任意のある期間（例えば、直近１か月）における検索数とすればよい。もちろん、ユーザが期間を可変設定できてもよく、例えば直近１か月と、２か月前とでどのような変化があったかを比較できてもよい。

上述した各例を組み合わせ、ある検索語に対応するノードを、当該検索語が分類されたクラスタに応じた態様で、かつ、当該検索語の検索数に応じた大きさで表示するなどしてもよい。また、無向グラフに別のさらなる情報を付与してもよい。

以上述べたように、本実施形態では、検索語についての解析結果を無向グラフで表示する。そのため、ユーザは、検索語間の類似度や、どのようにクラスタリングされるかといった解析結果を直感的に理解でき、ターゲットとすべき検索語の取捨選択が容易となる。

＜第１１実施形態＞
以下は、解析結果の表示態様の変形例である。

図３７は、表形式で解析結果を表示する場合の画面例を示す図である。各検索語が４つのクラスタＡ〜Ｄのいずれかに分類されており、各クラスタに分類される検索語をクラスタと対応付けた表形式で表示する。同図では、例えばクラスタＡに検索語ａ〜ｃが分類されていることがわかる。

この場合も、粒度をユーザが調整できるのが望ましい。例えば、図３７では４つのクラスタに分類されていたが、スライドバー３０を用いてユーザが粒度を粗くすると、図３８に示すように２つのクラスタＥ，Ｆに分類されて表示される。無向グラフの場合と同様であるが、ユーザ操作に応じて粒度が設定（変更）される都度、設定された粒度に応じて各検索語がクラスタに分類される。そして、各検索語が分類されるクラスタが変わると、表も自動的に更新される。

また、図３７および図３８に示すように、各検索語に検索数を対応付けて表示してもよい。この場合、検索数が多い検索語ほど上方に配置するのが望ましい。

図３９は、相関行列形式で解析結果を表示する場合の画面例を示す図である。検索語ａ〜ｄが縦方向および横方向に並んで配置される。そして、縦方向と横方向の交点のセルに検索語間の類似度が示される。類似度として、セル内に数値を表示してもよいし、セルを類似度に応じた態様（類似度が高いほど濃くするなど。図３９ではスポットの密度で疑似的に濃度を示している）で表示してもよい。また、各検索語に検索数を対応付けて表示してもよい。

さらに、ユーザが検索語の並び順を入れ替えられてもよい。一例として、ユーザが所望の検索語を選択すると、選択された検索語を最上位に配置し、当該検索語と類似度が高い順に他の検索語を上から配置してもよい。図３９においてユーザが検索語ｃを選択したとする。その場合、図４０に示すように、検索語ｃが最上位に配置され、その下方には検索語ｃと類似度が高い順に検索語ｂ，ｄ，ａが配置される。

図４１は、デンドログラム形式で解析結果を表示する場合の画面例を示す図である。検索語が縦方向に並んでおり、類似度が高い検索語どうしが近くに配置される。そして、右（検索語から離れる方向）に向かって段階的に検索語がクラスタに分類される様子が示される。

段階的なクラスタ分類をより見やすくすべく、図４と同様、デンドログラム上に、デンドログラムと直交する方向（縦方向、検索語が並ぶ方向）に延びる粒度設定バー（評価軸設定バー）３６が表示されるのが望ましい。ユーザは粒度設定バー３６を左右に移動させることができ、粒度設定バー３６を右に移動するほど（検索語から離れるほど）粒度は粗くなる。

例えば、図４１に示す位置に粒度設定バー３６を移動されると検索語が３つのクラスタＡ，Ｂ，Ｃのいずれかに分類され、図４２に示す位置に粒度設定バー３６を移動されると検索語が２つのクラスタＤ，Ｅのいずれかに分類される。

なお、図４１および図４２に示すように、各検索語に検索数を対応付けて表示してもよい。また、デンドログラムは検索語が横方向に並ぶものであってもよい。さらに、粒度設定は粒度設定バー３６が直感的ではあるが、第１０実施形態で説明したような他のインターフェースで粒度を設定できてもよい。

図４３は、ツリーマップ形式で解析結果を表示する場合の画面例を示す図である。各検索語ａ〜ｎが４つのクラスタＡ〜Ｄのいずれかに分類されている。１つの矩形のセルが１つの検索語に対応しており、セルの表示態様（例えば、セルの色。同図ではスポット、斜線、波線で疑似的に色を示している）が分類されたクラスタを示し、セルの面積が所定期間における検索数を示す。

図４４は、サンバースト形式で解析結果を表示する場合の画面例を示す図である。最も外側における１つのバームクーヘン型のセルが検索語ａ〜ｈにそれぞれ対応している。そして、内側におけるセルは各検索語が分類されたクラスタを示しており、同層の内側が同じ粒度でのクラスタである。例えば、最も内側の層は粒度が粗い３つのクラスタＡ〜Ｃがあり、検索語ａ〜ｅがクラスタＡに分類され、検索語ｆ，ｇがクラスタＢに分類され、検索語ｈがクラスタＣに分類されている。内側から２番目の層にはクラスタＡ１，Ａ２があり、クラスタＡがより細かい２つのクラスタＡ１，Ａ２に分かれ、合計で４つのクラスタＡ１，Ａ２，Ｂ，Ｃに各検索語が分類される様子が示されている。セルの表示態様（例えば、セルの色。同図ではスポット、斜線、波線で疑似的に色を示している）が分類された（ある特定の粒度における）クラスタを示し、セルの大きさが所定期間における検索数を示すようにしてもよい。

ツリーマップ形式やサンバースト形式によれば、分類結果と検索数とを直感的に把握することができる。これらの形式においても、ユーザが粒度を可変設定できるのが望ましい。

＜変形例＞
以上本発明の第１〜第１１実施形態について説明したが、この実施形態に以下の説明を加えてもよい。

（１）上記第１〜第３実施形態の解析結果出力処理では、上位ページ分類を解析結果として出力した。しかし、以下にあげる４種類の情報のうちの１つ又は複数の組み合わせを解析結果として出力してもよい。

第１に、クラスタリング、クラス分類、コミュニティ検出などの分類処理により文書データＤ_ｋ（ｋ＝１〜ｄ）を複数の部分集合に分類した後、複数の部分集合に基づいて、評価対象の検索のニーズ純度を求め、ニーズ純度を解析結果として出力してもよい。ここで、ニーズ純度は、検索結果内におけるニーズ純度の性質のばらつきが小さいのかそれとも大きいのかを示す指標である。ある検索語の検索結果が同様の性質のｗｅｂページで占められていれば、その検索語のニーズ純度は高い値となる。ある検索語の検索語が異なる性質のｗｅｂページで占められていれば、その検索語のニーズ純度は低い値となる。分類処理がクラスタリング・クラス分類である場合、及び分類処理がコミュニティ検出である場合におけるニーズ純度の算出の手順は以下のとおりである。

ａ１．分類処理がクラスタリング・クラス分類である場合
この場合、文書データＤ_ｋ（ｋ＝１〜ｄ）の分散を算出し、この分散に基づいてニーズ純度を算出する。より具体的には、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ｝の全座標平均を求める。次に、文書データＤ_１の特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ｝の全座標平均からの距離、文書データＤ_２の特徴ベクトルデータｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ｝の全座標平均からの距離・・・文書データＤ_ｄの特徴ベクトルデータｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ｝の全座標平均からの距離を求める。次に、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの全座標平均からの距離の分散を求め、この分散をニーズ純度とする。文書データＤ_１、Ｄ_２・・・Ｄ_ｄの全座標平均からの距離の分散ではなく、クラスタ内分散・クラス内分散に基づいてニーズ純度を算出してもよい。

ｂ１．分類処理がコミュニティ検出である場合
この場合、無向グラフ内における文書データＤ_ｋのノード間の平均経路長を算出し、この平均経路長に基づいてニーズ純度を算出する。より具体的には、文書データＤ_ｋ間の類似度の閾値を設定し、閾値以下のエッジを除去した重み無し無向グラフを生成する。次に、この重み無し無向グラフ内におけるノード間の平均経路長を算出し、平均経路長の逆数をニーズ純度とする。同様に、クラスタ係数、同類選択性、中心性の分布、エッジ強度の分布を求め、クラスタ係数、同類選択性、中心性の分布、エッジ強度の分布を所定の関数に作用させて得た値をニーズ純度としてもよい。

この変形例によると、例えば、図２３に示すように、第１の検索語（図２３の例では、storage）と、第１の検索語を含む第２の検索語（図２３の例では、cube storage）がＳＥＯの候補となっており、２つの検索語の１月あたりの検索数に開きがある、という場合に、第１の検索語の検索数及びニーズ純度と、第２の検索語の検索数及びニーズ純度とを比較することにより、いずれの検索語のＳＥＯを優先するかの判断が容易になる。

第２に、図２４に示すように、第１の検索語（図２４の例では、storage）と、第１の検索語を含む複数個の第２の検索語（図２４の例では、storage near me、storage sheds、cube storage、storage bins、storage boxes、mini storage、storage solutions、san storage、data storage）を評価対象とし、複数の検索語の各々における１か月あたりの検索数と文書データＤ_ｋ（ｋ＝１〜ｄ）全体に占める各部分集合の割合との各積を纏めた一覧表を解析結果として出力してもよい。

この変形例によると、第１の検索語と、第１の検索語を含む複数の第２の検索語がＳＥＯの候補となっており、複数の検索語の１月あたりの検索数に開きがある、という場合に、いずれの検索語のＳＥＯを優先するかの判断が容易になる。この変形例は、ニーズ純度が低い検索語の評価に好適である。

また、この第２の変形例を、検索連動型広告に適用してもよい。第２の変形例を検索連動型広告に適用すると、１つの検索語に複数の検索ニーズが存在している場合における当該検索語に関わる広告の精度を良くすることができる。例えば、図２４の例に示す「storage」に関わる検索連動型広告をする場合に、facility系の広告を何割表示すべきか、furniture系の広告を何割表示すべきか、computer系の広告を何割表示すべきか、といった判断ができるようになる。

第３に、評価対象の検索語の上位ｗｅｂページがどの程度ビジネスニーズを満たすかを示す指標であるＢ度、及び評価対象の検索語の上位ｗｅｂページがどの程度コンシューマニーズを満たすかを示す指標であるＣ度を求め、Ｂ度及びＣ度を解析結果として出力してもよい。分類処理がクラス分類である場合におけるＢ度及びＣ度の算出の手順は以下の通りである。

まず、ＢｔｏＢの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群、ＢｔｏＣの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群、及びＣｔｏＣの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群を準備し、これらを用いた機械学習により線形分類器ｆ（ｚ）の重み係数をＢｔｏＢ、ＢｔｏＣ、及びＣｔｏＣの分類に好適なものに設定する。

機械学習による重み係数の最適化の後、文書データＤ_１の特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝を線形分類器ｆ（ｚ）に代入して文書データＤ_１がいずれのクラスに属するかを決定し、文書データＤ_２の特徴ベクトルデータｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝を線形分類器ｆ（ｚ）に代入して文書データＤ_２がいずれのクラスに属するかを決定し・・・文書データＤ_ｎの特徴ベクトルデータｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝を線形分類器ｆ（ｚ）に代入して文書データＤ_ｎがいずれのクラスに属するかを決定する、というようにして、文書データＤ_１、Ｄ_２・・・Ｄ_ｄを、ＢｔｏＢのクラス、ＢｔｏＣのクラス、及びＣｔｏＣのクラスに分類する。その上で、文書データＤ_ｋ（ｋ＝１〜ｄ）全体に占める、ＢｔｏＢ、ＢｔｏＣ、及びＣｔｏＣの各クラスの割合の関係に基づいて、Ｂ度及びＣ度を算出する。

同様の手順により、評価対象の検索語の上位ｗｅｂページがどの程度学術的ニーズを満たすかを示す指標である学術度や、評価対象の検索語の上位ｗｅｂページがどの程度会話的ニーズを満たすかを示す会話度を求め、これらの指標を解析結果として出力してもよい。

（２）上記第１〜第９実施形態では、検索結果内のｗｅｂページを解析対象とした。しかし、解析対象にｗｅｂサイトやｗｅｂコンテンツを解析対象に含めてもよい。

（３）上記第１〜第９実施形態の定量化処理において、文書データＤ_ｋ（ｋ＝１〜ｄ）の内容だけを定量化し、この内容を定量化した特徴ベクトルデータに分類処理を施してもよい。また、定量化処理において、文書データＤ_ｋ（ｋ＝１〜ｄ）の構造だけを定量化し、この内容を定量化した特徴ベクトルデータに分類処理を施してもよい。

（４）上記第１〜第９実施形態の文書内容定量化処理において、文書データＤ_ｋ（ｋ＝１〜ｄ）を、自動文章要約のアルゴリズムにより要約し、この要約した文書データを多次元ベクトル化し、この多次元ベクトル化した特徴ベクトルデータに対してステップＳ２１０以降の全部または一部の処理を行ってもよい。

（５）上記第１〜第９実施形態の文書構造定量化処理において、文書データＤ_ｋ（ｋ＝１〜ｄ）の構造を、品詞構成率、ＨＴＭＬタグ構造、係り受け構造、及び構造複雑度（Structure Complexity）に基づいた定量化をしてもよい。

（６）上記第１及び第３実施形態の評価軸設定処理では、評価軸設定バー９を上位階層側又は下位階層側に移動させることにより、分類数（クラスタやコミュニティの数）を設定した。これに対し、図４（Ｂ）に示すように、同じ階層の複数の部分集合のうち一部（図４（Ｂ）の例では、鎖線が指し示す部分）を分類対象から除く、といった設定により、分類数を設定するようにしてもよい。

（７）上記第１、第４、及び第５実施形態のクラスタリング処理では、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝にクラスタリングの最短距離法の処理を施した。しかし、最短距離法でない処理を施してもよい。例えば、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に、ウォード法（Ｗａｒｄ法）、群平均法、最短距離法、最長距離法、又は、Fuzzy C-meaps法のアルゴリズムに従った処理を施してもよい。

また、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に、ディープラーニングを用いたクラスタリング処理を施してもよい。

また、文書データＤ_１、Ｄ_２・・・Ｄ_ｄの特徴ベクトルデータｚ_１＝｛ｚ_１１、ｚ_１２・・・ｚ_１ｌ’｝、ｚ_２＝｛ｚ_２１、ｚ_２２・・・ｚ_２ｌ’｝・・・ｚ_ｄ＝｛ｚ_ｄ１、ｚ_ｄ２・・・ｚ_ｄｌ’｝に、ｋ−ｍｅａｎｓなどの非階層のクラスタ分類のアルゴリズムに従った処理を施してもよい。ここで、ｋ−ｍｅａｎｓは非階層のクラスタ分類であるから、解析結果としてデンドログラム８を提示することができない。ｋ−ｍｅａｎｓのクラスタリングをする場合、評価軸設定処理では、ユーザから、クラスタ数の値ｋの入力を受け付け、指定されたクラスタ数を新たな設定としてクラスタリング処理を行うようにするとよい。

（８）上記第２、第６、及び第７実施形態のクラス分類処理では、ＣＰＵ２２は、いわゆるパーセプトロンの線形分類器ｆ（ｚ）により、文書データＤ_ｋ（ｋ＝１〜ｄ）の各々をどのクラスに振り分けるかを決定した。しかし、別の手法によりによりクラスの振り分けをしてもよい。例えば、パーセプトロン、ナイーブベイズ法、テンプレートマッチング、ｋ−最近傍識別法、決定木、ランダムフォレスト、AdaBoost、Support Vector Machine(SVM)、又は、ディープラーニングにより、文書データＤ_ｋ（ｋ＝１〜ｄ）を複数のクラスに分類してもよい。また、線形分類器ではなく、非線形分類器により分類をしてもよい。

（９）上記第３、第８、及び第９実施形態のコミュニティ検出処理では、文書データＤ_ｋ（ｋ＝１〜ｄ）を重み付き無向グラフ化し、重み付き無向グラフにおける各ノードの媒介中心性の算出と、媒介中心性が最大のエッジの除去とを繰り返すことにより、文書データＤ_ｋ（ｋ＝１〜ｄ）を複数のコミュニティに分類した。しかし、媒介中心性に基づくもの以外の手法により、文書データＤ_ｋ（ｋ＝１〜ｄ）を複数のコミュニティに分類してもよい。例えば、ランダムウォークに基づくコミュニティ検出、貪欲法、固有ベクトルに基づくコミュニティ検出、多段階最適化に基づくコミュニティ検出、スピングラス法に基づくコミュニティ検出、Infomap法、又は、Overlapping Community Detectionに基づくコミュニティ検出により、文書データＤ_ｋ（ｋ＝１〜ｄ）を複数のコミュニティに分類してもよい。

（１０）上記第５〜第６実施形態のコミュニティ検出処理において、文書データＤ_ｋ（ｋ＝１〜ｄ）の各々をノードとする重み無し無向グラフを生成し、この重み無し無向グラフに基づいて、文書データＤ_ｋ（ｋ＝１〜ｄ）を複数のコミュニティに分類してもよい。

（１１）上記第４及び第５実施形態の解析結果出力処理において、クラスタリング処理の処理結果に基づく上位ページ分類とマッピング画像７とを解析結果画面として出力してもよい。また、上記第６及び第７実施形態の解析結果出力処理において、クラス分類処理の処理結果に基づく上位ページ分類とマッピング画像７とを解析結果画面として出力してもよい。また、上記第８及び第９実施形態の解析結果出力処理において、コミュニティ検出処理の処理結果に基づく上位ページ分類とマッピング画像７とを解析結果画面として出力してもよい。

（１２）上記第１、第２、第４、第５、第６、及び第７実施形態において、次元縮約処理を実行せずに、加算処理の処理結果にクラスタリングやクラス分類などの分類処理を施してもよい。また、第３、第８、及び第９実施形態において、次元縮約処理を実行し、次元縮約処理による次元縮約を経た特徴ベクトルデータに類似度特定処理及びコミュニティ検出処理を施し、次元縮約処理を経た特徴ベクトルデータにより、複数の文書データを複数の部分集合に分類してもよい。

1…評価システム、１０…利用者端末、２０…検索ニーズ評価装置、２１…通信インターフェース、２２…ＣＰＵ、２３…ＲＡＭ、２４…ＲＯＭ、２５…ハードディスク、２６…評価プログラム、５０…検索エンジンサーバ装置。

Claims

複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得する類似度取得手段と、
各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させる表示制御手段と、を備え、
前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価装置。
前記表示制御手段は、
ユーザ操作に応じて特定のノードを移動させ、
前記特定のノードの移動に応じて、エッジを介して前記特定のノードに結合された少なくとも１つのノードを移動させる、請求項１に記載の検索ニーズ評価装置。
前記複数の検索語のそれぞれに対する検索結果に基づいて、各検索語をクラスタに分類する分類手段を備え、
前記表示制御手段は、各検索語が分類されたクラスタに応じた表示態様でノードを表示させる、請求項１に記載の検索ニーズ評価装置。
前記分類手段は、各検索語を２以上のクラスタのそれぞれにどの程度近いかを算出可能であり、
前記表示制御手段は、各検索語がどのクラスタにどの程度近いかに応じた表示態様でノードを表示させる、請求項３に記載の検索ニーズ評価装置。
前記分類手段は、複数段階の粒度で各検索語をクラスタに分類可能であり、ユーザ操作に応じて粒度が設定される都度、設定された粒度に応じて各検索語をクラスタに分類する、請求項３に記載の検索ニーズ評価装置。
前記表示制御手段は、ユーザ操作に応じて粒度が変更されて各検索語が分類されるクラスタが変わると、ノードの表示態様を変更する、請求項５に記載の検索ニーズ評価装置。
前記表示制御手段は、ある期間における各検索語の検索数に応じた表示態様でノードを表示させる、請求項１に記載の検索ニーズ評価装置。
複数の検索語のそれぞれに対する検索結果である文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段を備え、
前記類似度取得手段は、検索語毎の前記特徴ベクトルデータ間の類似度に基づいて各検索語間の類似度を取得する、請求項１に記載の検索ニーズ評価装置。
類似度取得手段が、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得するステップと、
表示制御手段が、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させるステップと、を備え、
前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価方法。
コンピュータを、
複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得する類似度取得手段と、
各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させる表示制御手段と、として機能させ、
前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価プログラム。
ある検索語に基づく検索結果内の複数の文書データを取得する取得手段と、
前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段と、
前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類手段と、
前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力手段と
を具備することを特徴とする検索ニーズ評価装置。
前記分類手段は、前記特徴ベクトルデータにクラスタリングのアルゴリズムあるいはクラス分類のアルゴリズムに従った処理を施し、前記複数の文書データを複数の部分集合に分類することを特徴とする請求項１１に記載の検索ニーズ評価装置。
前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、
前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、
前記定量化手段によって得られた文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する合成手段を具備することを特徴とする請求項１１に記載の検索ニーズ評価装置。
前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、
前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、
前記分類手段は、文書毎の特徴ベクトルデータに基づいて複数の文書データを複数の部分集合に分類し、
前記分類手段による処理結果に所定の統計処理を施し、検索語毎の処理結果を合成する合成手段を具備することを特徴とする請求項１１に記載の検索ニーズ評価装置。
前記特徴ベクトルデータをより低次元の特徴ベクトルデータに次元縮約する次元縮約手段を具備し、
前記分類手段は、前記次元縮約手段の次元縮約を経た特徴ベクトルデータにより、前記複数の文書データを複数の部分集合に分類する
ことを特徴とする請求項１１に記載の検索ニーズ評価装置。
ある検索語に基づく検索結果内の複数の文書データを取得する取得手段と、
前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段と、
前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定手段と、
前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出手段と、
前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力手段と
を具備することを特徴とする検索ニーズ評価装置。
前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、
前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、
前記類似度特定手段は、検索語毎の複数の文書データの特徴ベクトルデータ間の類似度を特定し、
前記コミュニティ検出手段は、検索語毎の複数の文書データの特徴ベクトルデータ間の類似度に基づいて、検索語毎の複数の文書データを複数のコミュニティに分類し、
前記コミュニティ検出手段による検索語毎のコミュニティ検出の処理結果に所定の統計処理を施し、検索語毎のコミュニティ検出の処理結果を合成する合成手段を具備することを特徴とする請求項１６に記載の検索ニーズ評価装置。
ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、
前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、
前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類ステップと、
前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力ステップと
を具備することを特徴とする検索ニーズ評価方法。
ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、
前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、
前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定ステップと、
前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出ステップと、
前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力ステップと
を具備することを特徴とする検索ニーズ評価方法。
コンピュータに、
ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、
前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、
前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類ステップと、
前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力ステップと
を実行させることを特徴とする検索ニーズ評価方法。
コンピュータに、
ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、
前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、
前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定ステップと、
前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出ステップと、
前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力ステップと
を実行させることを特徴とする検索ニーズ評価方法。