JP2009193584A

JP2009193584A - ワードセットに関係するワードの決定

Info

Publication number: JP2009193584A
Application number: JP2009031981A
Authority: JP
Inventors: David L Marvit; エルマーヴィットデイヴィド; Yannis Labrou; ラブロウヤニス; Jawahar Jain; ジャインジャワハー; Stergios Stergiou; ステルギオウステリオス; Alex Gilman; ギルマンアレックス; Rajalakshmi Balakrishnan; バラクリシュナンラジャラクシミ; B Thomas Adler; トマスアドラービー; John J Sidorowich; ジェイシドロヴィッチジョン; Albert Reinhardt; レインハートアルバート
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-02-13
Filing date: 2009-02-13
Publication date: 2009-08-27
Anticipated expiration: 2029-02-13
Also published as: CN101566997A; US20090204609A1; JP5423030B2; CN101566997B; US8280886B2

Abstract

【課題】データのコーパス（corpus）は大量の情報を保持し、関連する情報を見つけるのは困難である。
【解決手段】一実施形態では、グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する。最初の検索を開始するためにユーザエントリーウィンドウに入力された検索タームを受け取る。検索タームに基づき、文書のコーパスから最初の１つ以上の検索結果を決定する。グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示する。グラフィカルユーザインターフェイスの検索結果ウィンドウに第１の検索結果を表示する。グラフィカルユーザインターフェイスの検索示唆ウィンドウに第１の検索示唆を表示する。
【選択図】図１

Description

本発明は辞書分析に関し、より具体的にはワードセットに関係するワードの決定に関する。

データのコーパス（corpus）は大量の情報を保持し、関連する情報を見つけるのは困難である。ユーザは、検索クエリにより情報を検索することができる。しかし、場合によっては既知の検索方法は適当ではない。
［関連出願］
本願は、ボー・アドラーらにより２００８年２月１３日に出願された米国仮出願第６１／０２８，２３３号、発明の名称「研究検索方法及びアーキテクチャ」、代理人管理番号第０７３３３８．０５７９号の米国特許法第１１９条（ｅ）項の利益を主張するものである。

一実施形態では、クエリのタームの初期セットを受け取る。候補タームのセットを初期化する。以下の段階を所定回数繰り返す：候補タームのセットの各候補タームについて、それとの差分類似性（differential affinity）が高い所定数の暫定タームを取得する段階；２つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は２つ以上の候補タームに対する差分類似性に関係する段階；暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから初期タームセットのすべてのタームへの差分類似性の平均を表す段階；平均差分類似性が所定閾値を満たさない１つ以上のタームを暫定タームセットから削除する段階；差分類似性が高い暫定タームセットの１つ以上のタームを候補タームセットに入れる段階。暫定タームセットの１つ以上のタームを選択する。選択したタームを返す。

一実施形態では、文書のタームセットの各タームに対して、ＴＦ−ＩＤＦ（term frequency-inverse document frequency）値を決定する。ＴＦ−ＩＤＦによりタームをソートして、ソート済みリストを生成する。ＴＦ−ＩＤＦ値が一番高い第１のタームがリストの一番上になり、ＴＦ−ＩＤＦ値が一番低い第２のタームがリストの一番下になる。ソート済みリストの連続するタームのそれぞれについて、そのＴＦ−ＩＤＦ値の差を計算し、複数の差を求める。差の標準偏差を計算する。標準偏差により、１つ以上のタームをソート済みリストから削除し、残ったタームを出力する。

一実施形態では、グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する。最初の検索を開始するためにユーザエントリーウィンドウに入力された検索タームを受け取る。検索タームに基づき、文書のコーパスから最初の１つ以上の検索結果を決定する。グラフィカルユーザインターフェイスの最新の（current）検索タームウィンドウに検索タームを表示する。グラフィカルユーザインターフェイスの検索結果ウィンドウに第１の検索結果を表示する。グラフィカルユーザインターフェイスの検索示唆ウィンドウに第１の検索示唆を表示する。

トピックスを記述する統計分布を用いてトピックスをモデル化するシステムの一実施形態を示す図である。図１のシステムで利用できる類似性モジュールの一実施形態を示すブロック図である。基本類似性を記録する類似性マトリックスの一例を示す図である。基本類似性を記録する類似性マトリックスの一例を示す図である。平均類似性を記録する類似性マトリックスの一例を示す図である。類似性グラフの一例を示す図である。図１のシステムで使用できるクラスタリングモジュールの一実施形態を示す図である。図１のシステムで利用できるオントロジ特性モジュールの一実施形態を示すブロック図である。図１のシステムで使用できるタギングモジュールの一実施形態を示す図である。重要語の決定方法の一例を示す図である。一組の語に関係する語のＴａｇｇｒ法の一例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。検索実行に使用できるグラフィカルユーザインターフェイス（ＧＵＩ）の例を示す図である。選択した検索結果を用いて検索を絞り込むために使用できるグラフィカルユーザインターフェイスの例を示す図である。選択した検索結果を用いて検索を絞り込むために使用できるグラフィカルユーザインターフェイスの例を示す図である。選択した検索結果を用いて検索を絞り込むために使用できるグラフィカルユーザインターフェイスの例を示す図である。選択した検索結果を用いて検索を絞り込むために使用できるグラフィカルユーザインターフェイスの例を示す図である。選択した検索結果を用いて検索を絞り込むために使用できるグラフィカルユーザインターフェイスの例を示す図である。

実施形態では、ドメイン・オントロジ（domain ontology）の生成と問い合わせには次のものを含む：
１. ドメイン内の文書の収集実施形態では、文書はタームの集まり（collection of terms）である。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりを「ドメイン・コーパス（domain corpus）」と呼ぶ。

２. ドメイン内の関心ターム（「辞書ターム」）の特定ターム（terms）の例には、ワード（「木」など）、フレーズ（「グラフ・アルゴリズム」など）、ネームド・エンティティ（named entity）（「ニューヨーク」など）が含まれる。ターム（または概念）は違った形式を取りうる。場合によっては、同じ概念を表すのに異なるワード（words）を使用する。例えば、「kidney stones」と「kidney calculi」は両方とも同じ概念、すなわち「腎臓結石」を指す。また、場合によっては、語幹から多数の派生語（inflected variants）が生じる。例えば、語幹「tree」からは「木」や「木々」などの派生語がある。実施形態によっては、同じターム（term）の複数の形態（forms）を、同じタームにマッピングしたものとして取り扱う。適切な形態の辞書タームが文書に出てくるかも知れないが、その辞書タームがどの文書にも出てこなくてもよい。

辞書タームの特定方法の例には、例えば、医学用語辞典等である人が作成した特定分野の辞書を用いる段階が含まれる。実施形態によっては、辞書タームのリストをコーパス（corpus）中のテキスト（a set of strings of text）から自動的に作成してもよい。テキストを頻度によりインデックスしてもソートしてもよいし、ある閾値より頻度が高いテキストを選択してもよい。その他の適切な統計的方法を用いてターム（terms）を決定してもよい。実施形態によっては、「ワード（word）」は「ターム（term）」、「辞書ターム（dictionary term）」、及び「ｎグラム」と読み替えてもよい。

３. 共起コンテキストにおける辞書タームの共起数を計算する。２つのタームは、各ターム語が同じ共起コンテキスト内に少なくとも１回出現するとき、共起（co-occur）したものとする。共起コンテキストの例としては文書や段落がある。

４. ドメイン・オントロジとなる有向重みつきグラフを作成する。その有向重みつきグラフは、ノードとして辞書タームを含み、エッジ（edges）の重みとして類似性（affinities）を含む。マトリックス、バイナリ・ディシジョン・ダイアグラム、またはバイナリ・ディシジョン・ダイアグラムの集合等の適切なデータ構造で表しうる情報を、実際的な表示として「有向重みつきグラフ」を用いて表すことができる。

５. 有向重みつきグラフを問い合わせる手順を適用する。辞書タームを入力すると、その入力した辞書タームに関係する辞書タームがその手順により出力される。例えば、この手順により、入力されたタームに対して、差分有向類似性（以下に説明する）（differential directional affinity）を有するタームがソートされたリストとして出力される。この場合、その出力には、オントロジが取り扱う領域に関して、より密接に入力されたタームに関係するタームが含まれている。

任意の適切な類似性の定義を用いることができる。実施形態によっては、次の定義を用いてもよい：
１. 基本類似性
ａ）タームＡとタームＢとの間の基本類似性を、そのタームＡまたはＢのいずれかを含むコンテキスト数に対する、タームＡ及びＢを両方とも含むコンテキスト数の比として定義する。

A(A,B) = |AB|/|A or B|

ｂ）タームＡとタームＢとの間の基本類似性（Ａ）を、タームＡまたはＢのいずれかを含むコンテキスト数の大きい方に対する、タームＡ及びＢを両方とも含む共起コンテキスト数の比として定義してもよい。

A(A,B) = |AB|/max(|A|,|B|)

２. 有向類似性
タームＡとタームＢとの間の有向類似性（ＤＡｆｆ）を、コンテキスト中にタームＡが出現することを条件として、タームＢが出現する条件付き確率として定義してもよい。

DAff(A, B) = |AB| / |A|

すなわち、有向類似性は、タームＡを含むコンテキストに対する、タームＡとＢを両方とも含む共起コンテキストの数である。一般的にＤＡｆｆ（Ａ，Ｂ）とＤＡｆｆ（Ｂ，Ａ）とは異なる。
３. 差分有向類似性
タームＡとタームＢとの間の差分有向類似性（ＤｉｆｆＤＡｆｆ）は、タームＡとＢとの間の有向類似性から、コーパスにおけるタームＢの一般性（common-ness）を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームＢの一般性は、そのコーパス中の他のタームに対するタームＢの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームＢの一般性（common-ness）は、タームＢの平均類似性（ＡＡ）である。その場合、差分有向類似性の定義は次のようになる：

DiffDAff(A,B) = DA(A,B) - AA(B)

タームＢの平均類似性（ＡＡ）すなわち平均有向類似性は次式で定義される：

AA(B) = AVERAGE_X DAff(x, B)

すなわち、平均類似性は共起コンテキストにおける他のタームに対するタームＢの有向類似性の平均である。

図１は、検索の実行に利用できるシステム１０の一実施形態を示す図である。実施形態では、システム１０を用いて検索を絞り込むことができる。ユーザは、前の検索の検索結果を選択することにより、または検索タームを逆選択（deselect）することにより、検索を絞り込むことができる。実施形態では、システム１０がタームを検索示唆として推奨してもよい。検索示唆を、関係性法（relatedness method）を用いて生成することもできる。ユーザは検索示唆を選択して検索を絞り込むことができる。

ある実施形態では、ワードのサブセット（subset）と辞書Ｄとが与えられた時に、その逆インデックスＩＩから有向類似性を計算することができる。ここで、インデックスＩＩは例えばワードｗｉとｗｊのエントリーＩ（ｗｉ）とＩ（ｗｊ）を含む。一般的に、逆インデックス（inverted index）は、ターム（term）からその位置へのマッピング、すなわちそのタームが現れる共起コンテキスト（co-occurrence contexts）へのマッピングを格納したインデックスデータ構造である。Ｄ中のワードｗｉとｗｊの各ペアに対して、ＩＩ中のエントリーＩ（ｗｉ）、Ｉ（ｗｊ）の結合部分中の値を、Ｉ（ｗｉ）中の値の数で割った値としてＤＡ（ｉ，ｊ）を定義する。一般的に、ＤＡ（ｉ，ｊ）はＤＡ（ｊ，ｉ）と必ずしも等しくはない。その結果は任意の適切な方法で格納する。例えば、行ごとに、すなわちＤ（１，ｉ）を格納し、次にＤ（２，ｊ）を格納し、以下同様に格納する。各行ｉに対して、｜Ｉ（ｗｉ）｜を格納し、その後にｗｊとの結合部分（conjunction）の濃度を格納する。

ある実施形態では、有向類似性を３段階で計算する。上記の実施形態では、各辞書タームには一意的な整数の識別子を付与する。逆インデックスのエントリーはその整数識別子に対応する。段階０では、Ｄに対応するＩＩのエントリーを読み出す。パラメータ（ｓ，ｏ）に対して、ｋｓ＋ｏの形である要素識別子のみを保存する。値ｋｓ＋ｏにより、逆インデックスＩＩ中の調べるべきエントリーのサブセットが決まる。このようにして、有向類似性を並行して計算できる。一例として、パラメータｓ，ｏ（１，０）から得られる結果は、パラメータ（３，０）、（３，１）、（３，２）の計算を合わせたものから得られる結果と同じである。この段階により非常に大きな逆インデックスに対してＤＡテーブルを計算することができる。

段階１では、ＤＡ（ｉ，ｊ）のみに対して行ごとに結合を計算する。段階２では、計算された上部三角領域のＵＴＤＡ配列を読み出す。下部三角領域は、上記三角領域からその転置として求められる。ある実施形態では、同じ次元の複数のＤＡ配列をひとつの配列に結合してもよい。大きな逆インデックスＩＩのＤＡ配列を、パラメータを（ｓ，ｉ）としてｉ＝０．．（ｓ−１）にわたるＤＡの和として計算できる。有向類似性（directional affinities）を算出できるように、計算した結合（conjunctions）とともに付加的な情報を格納してもよい。ある実施形態では、ＩＩエントリーの濃度を格納してもよい。

ある実施形態では、ＤＡを行ごとに格納し、ＤＡエントリーの計算と並行してＡＡエントリーの計算を進めることができる。具体的に、ＤＡの行をディスクから読み出しつつ加算し、最後に辞書エントリーの数で規格化することによってＡＡを生成する。

図示した実施形態において、システム１０はクライアント２０、サーバ２２、及びメモリ２４を含む。ユーザは、クライアント２０によりサーバ２２と通信して、言語のオントロジを生成する。クライアント２０は、ユーザ入力をサーバ２２に送信し、サーバ出力をユーザに提供（例えば、表示や印刷）する。サーバシステム２４は言語のオントロジを生成するアプリケーションを管理する。メモリ２４はサーバシステム２４が使うデータを記憶する。

図示した実施形態において、メモリ２４はページ５０とレコード５４とを記憶している。ページ５０（すなわち文書または共起コンテキスト）はワード（word）の集まりである。ページ５０の例としては、文書のページや、文書や、ブックや、ウェブページや、通信（例えば電子メールやインスタントメッセージ）その他がある。ページ５０はページ識別子により識別できる。ページ５０は有体のコンピュータ読み取り可能媒体に電子的に記憶されていてもよい。ページ５０には任意の適切なコンテンツが含まれる。例えば、テキスト（文字、ワード、数字等）、画像（グラフィックス、写真、ビデオ等）、オーディオ（録音、コンピュータ生成サウンド等）、ソフトウェアプログラムが含まれる。ある実施形態では、一組のページ５０がコーパス（corpus）に属している。コーパスは特定の主題、コミュニティ、組織、エンティティ（entity）に関連している。

レコード５４はページ５０を記述する。本実施形態では、レコード５４は、インデックス５８、逆インデックス６２、オントロジ６６、クラスタ６７を含む。インデックス５８はインデックスリストを含み、ページ５０のインデックスリストはページ５０のワードを示す。逆インデックス６２は逆インデックスリストを含み、あるワード（または一組のワード）の逆インデックスリストはそのワード（または一組のワード）を含むページ５０を示す。一実施例では、リストＷｉはワードｗｉを含むページ５０のページ識別子を含む。リストＷｉ＆Ｗｊはワードｗｉとｗｊを両方を含む連言ページ（conjunction pages）５０のページ識別子を含む。リストＷｉ＋Ｗｊはワードｗｉまたはｗｊのいずれかを含む選言ページ（disjunction pages）５０のページ識別子を含む。Ｐ（Ｗｉ）はＷｉのページ５０の数、すなわちワードｗｉを含むページ５０の数である。

一実施形態では、リスト（インデックスリスト、逆インデックスリスト等）はバイナリ・ディシジョン・ダイアグラム（ＢＤＤ）として記憶される。一実施例では、集合Ｗｉのバイナリ・ディシジョン・ダイアグラムＢＤＤ（Ｗｉ）はワードｗｉを有するページ５０を表す。ＢＤＤ（Ｗｉ）の充分割当カウント（satisfying assignment count）Ｓａｔｉｓｆ（ＢＤＤ（Ｗｉ））によりワードｗｉを有するページ５０の数Ｐ（Ｗｉ）が求まる。

P(Wi) = Satisf(BDD(Wi))

したがって、

P(Wi & Wj) = Satisf(BDD(Wi) AND BDD(Wj))
P(Wi + Wj) = Satisf(BDD(Wi) OR BDD(Wj))

オントロジ６６は言語のワードとそのワード間の関係を表すものである。一実施形態では、オントロジ６６はワード間の類似性（affinities）を表す。図示した実施例では、オントロジ６６は類似性マトリックスと類似性グラフを含む。類似性マトリックスの例を図３乃至図５を参照して説明する。類似性グラフの例を図６を参照して説明する。クラスタ６７は互いに関係するワードのクラスタを記録している。クラスタは図７を参照してより詳細に説明する。

図示した実施形態では、サーバ２２は類似性モジュール３０、クラスタリングモジュール３１、オントロジ特性モジュール３２、タギングモジュール３５、及び検索エンジン３７を含む。類似性モジュール３０はワードのペアの類似性を計算し、その類似性を類似性マトリックスに記録し、及び／または類似性マトリックスをレポートする。類似性モジュール３０は類似性グラフも生成できる。類似性モジュール３０は図２を参照してより詳細に説明する。

実施形態では、クラスタリングモジュール３１は、データセット中の関係する要素のクラスタを特定することにより、そのデータセット中のパターンを発見する。実施形態では、クラスタリングモジュール３１は一組のワード（例えば、言語や一組のページ５０等）のクラスタを特定できる。一般的に、クラスタのワードは互いに強く関係しているが、クラスタ外のワードとは関係していない。ワードのクラスタはその一組のワードのテーマ（すなわちトピック）を指定する。ある実施形態では、クラスタリングモジュール３１は、関係するワード間の類似性によりそのクラスタを特定する。その実施形態では、クラスタのワードは互いに強く類似しているが、クラスタ外のワードとは類似していない。クラスタリングモジュール３１は図７を参照してより詳細に説明する。

実施形態では、オントロジ特性モジュール３２は一組のワード（例えば、ワードやそのワードを含む文書）のオントロジ特性（ontology features）を決定し、そのオントロジ特性を様々な場合に適用する。オントロジ特性はワードセットの特徴であり、言語のオントロジ空間にそのワードセットを配置するものである。オントロジ特性の例としては深さ（depth）と具体性（specificity）がある。実施形態では、深さ（depth）はワードセットのテキストとしての精巧さ（textual sophistication）を示す。深さがより大きい（深い）ワードセットは、より技術的かつ専門的であり、深さがより小さい（浅い）ワードセットは、より一般的なものである。実施形態では、ワードセットの具体性はそのワードセットのテーマの数に関係する。具体性が高いワードセットが有するテーマはより少なく、具体性が低いワードセットが有するテーマはより多い。

オントロジ特性モジュール３２はオントロジ特性を任意の適切な場合に適用する。適切な場合とは、例えば、オントロジ特性による文書の検索、ソート、選択や、文書のオントロジ特性のレポートや、ユーザの文書のオントロジ特性の決定などである。オントロジ特性モジュール３２は図８を参照してより詳細に説明する。

ある実施形態では、タギングモジュール（tagging module）３５は、文書にタグ付けするタグを選択する。タグは任意の適切な方法で選択することができる。ある実施形態では、タギングモジュール３５はトピックスをそれに関係するワードの統計的分布としてモデル化する。タギングモジュール３５は統計的分布を用いて、文書から選択されたワードが出現する確率が最も高いトピックスを特定し、そのトピックスに応じてその文書のタグを選択する。他の実施形態では、タギングモジュール３５は文書のパラグラフのタグ候補を特定する。タギングモジュール３５はタグ候補の、その文書の他のタグ候補との関係性を決定して、その決定に応じてその文書のタグを選択する。さらに別の実施形態では、タギングモジュール３５は文書のタグを推奨する。タグは、ユーザまたはコンピュータが入力または選択した目標タグ（target tags）との類似性（例えば、有向類似性や差分類似性）に基づいて推奨する。タグ部３１４は、最終的にタグを選択すると、選択したタグを文書に付与する。タギングモジュール３５は図９を参照してより詳細に説明する。

実施形態では、検索エンジン３７は、情報を検索して検索クエリに従って検索結果を生成する。検索エンジン３７は、任意の適切な検索アルゴリズムや技術を利用して検索結果を読み出す。検索エンジン３７が利用できる方法やユーザインターフェイスを、図１０乃至図１３Ｅを参照して説明する。

システム１０の構成要素は、インターフェイス、ロジック、メモリ、その他の適切な要素を含む。インターフェイスは入力を受信し、出力を送信し、入力や出力を処理し、その他の適当な動作を行う。インターフェイスはハードウェア及び／またはソフトウェアを含む。

ロジックは、これらの構成要素の動作を行い、例えば、入力から出力を生成する命令を実行する。ロジックはハードウェア、ソフトウェア及び／またはその他のロジックを含む。ロジックは有体媒体にエンコードされ、コンピュータにより実行された時に動作するものであってもよい。プロセッサ等のある種のロジックが構成要素の動作を管理してもよい。プロセッサの例としては、例えば、コンピュータ、マイクロプロセッサ、アプリケーションその他のロジックがある。

一部の実施形態では、その動作は、コンピュータプログラム、ソフトウェア、コンピュータ実行可能命令、及び／またはコンピュータが実行できる命令がエンコードされた、１つ以上のコンピュータ読み取り可能媒体により実行される。一部の実施形態では、その動作は、コンピュータプログラムを格納し、化体し、及び／またはエンコードされた１つ以上のコンピュータ読み取り可能媒体、及び／または格納及び／またはエンコードされたコンピュータプログラムを有する１つ以上のコンピュータ読み取り可能媒体により実行できる。

メモリは情報を記憶する。メモリは有体の、コンピュータ読み取り可能な、及び／またはコンピュータ実行可能な記憶媒体である。メモリの例には、コンピュータのメモリ（ＲＡＭ、ＲＯＭ等）、大規模記憶媒体（ハードディスク等）、リムーバブル記憶媒体（ＣＤ、ＤＶＤ等）、データベースやネットワーク記憶装置（サーバ等）、その他のコンピュータ読み取り可能な媒体が含まれる。

本発明の範囲から逸脱することなく、システム１０に修正、追加、または削除をすることができる。システム１０の構成要素は一体であっても分離していてもよい。さらに、システム１０の動作を実行する構成要素は、これより多くても少なくてもよいし、他の構成要素であってもよい。例えば、生成器４２、４６の動作を１つの構成要素により行ってもよいし、類似性計算器３４の動作を２つ以上の構成要素で行ってもよい。また、システム１０の動作の実行は、ソフトウェア、ハードウェア、及び／またはその他のロジックを含む任意の適切なロジックを用いて行ってもよい。本明細書では、「各」とは、集合（set）の各要素、または集合の部分集合（subset）の各要素を指す。

本発明の範囲から逸脱することなく、マトリックスの例に修正、追加、または削除をすることができる。マトリックスに含まれる値はこれより多くても少なくてもよく、他の値が含まれてもよい。また、マトリックスの値を任意の適切な順序で構成してもよい。

図２は、図１のシステム１０で使用できる類似性モジュール３０の一実施形態を示す図である。類似性モジュール３０はワードのペアの類似性を計算し、その類似性を類似性マトリックスに記録し、及び／またはその類似性マトリックスをレポートする。類似性モジュール３０は類似性グラフも生成できる。

図示した実施形態では、類似性モジュール３０は類似性計算器３４、オントロジ生成器３８、及びワード推奨器４８を含む。類似性計算器３４は、ワードｗｉの、または第１のワードｗｉと第２のワードｗｊを含むワードペアの任意の適切なタイプの類似性を計算する。類似性の例には基本類似性、有向類似性、平均類似性、差分類似性、その他の類似性が含まれる。

一実施形態では、ワード推奨器４８は、シードワード（seed word）を受け取り、そのシードワードとの類似性が閾値より高いワードを特定する。類似性閾値は任意の適切な値であり、０．２５、０．５、０．７５、０．９５やこれらより大きな値であってもよい。類似性閾値は予めプログラムしても、ユーザが指定してもよい。

基本類似性はワードｗｉ及び／またはｗｊを含むページ５０の量（例えば数）に基づき計算できる。連言ページ量（conjunction page amount）はワードｗｉとｗｊを両方とも含むページ５０の量を表し、選言ページ量（disjunction page amount）はワードｗｉまたはｗｊのいずれか一方を含むページ５０の量を表す。基本類似性は連言ページ量を選言ページ量で割って求められる。一実施例では、連言ページ数はワードｗｉとワードｗｊを含むページ数を示し、選言ページ数はワードｗｉまたはワードｗｊのいずれかを含むページ数を示す。基本類似性は連言（conjunction）ページ数を選言（disjunction）ページ数で割って求めることができる。

Affinity (wi, wj) = P(Wi & Wj) / P(Wi + Wj)

図３は、基本類似性を記録した類似性マトリックス１１０の一例を示す図である。図示した例では、類似性マトリックス１１０はワードｗ１，．．．，ｗ５のペアごとの類似性を記録している。類似性マトリックス１１０によると、ワードｗ０とｗ１の間の類似性は０．００３であり、ワードｗ０とｗ２の間の類似性は０．００５であり、以下同様である。

図１に戻り、類似性グループは相互に類似性が高いワードのペアを含み、この類似性グループを用いてページのコンテンツに対するワードｗ１、ｗ２間の関係を捉える。類似性が類似性グループ閾値よりも高いことを、類似性が高いという。閾値は任意の適切な値であり、０．５０、０．６０、０．７５、０．９０、０．９５より大きな値であってもよい。１つのワードは２つ以上の類似性グループに属してもよい。一実施形態では、類似性グループはＢＤＤとして表すことができる。逆インデックス６２に、ＢＤＤのポインタをそのグループの各ワードとともに格納してもよい。

有向類似性を用いてワードｗｊに対するワードｗｉの重要性を測ることができる。類似性計算器３４は、ワードｗｊが与えられたときのワードｗｉの有向類似性を、ワードｗｉとｗｊを含むページ５０の量（例えば数）から計算する。ワードｗｉページ量は、ワードｗｉを含むページ５０の量を表す。ワードｗｊが与えられたときのワードｗｉの有向類似性は、連言ページ量をワードｗｊページ量で割ったものである。例えば、ワードｗｊページの数はワードｗｉを含むページ５０の数を示す。ワードｗｊが与えられたときのワードｗｉの有向類似性は、結合ページ５０の数をワードｗｉページ５０の数で割ったものである。

DAffinity(wi, wj) = P(Wi & Wj) / P(Wi)

ＤＡｆｆｉｎｉｔｙ（ｗｉ，ｗｊ）はＤＡｆｆｉｎｉｔｙ（ｗｊ，ｗｉ）と同じではない。ワードｗｉとｗｊの間の有向類似性ＤＡｆｆｉｎｉｔｙ（ｗｉ，ｗｊ）が高いということは、ページ５０がワードｗｊを含むときにそのページ５０がワードｗｉを含む確率が高いということを示す。一例では、ページ［１２３４５６］がワードｗｉを含み、ページ［４２］がワードｗｊを含む。ワードｗｊを含むページがワードｗｉも含むということは、ワードｗｊの観点からは、ワードｗｉの重要性が高いということである。ワードｗｉを含むページの１／３のみがワードｗｊを含むということは、ワードｗｉの観点からは、ワードｗｊの重要性が低いということである。

図４は、ワードｗ０，．．．ｗ５の基本類似性を記録した類似性マトリックス１２０の一例を示す図である。上記の例では、ワード１２４はＡワード、ワード１２８はＢワードである。マトリックス１２０の行はＡワードが与えられたときのＢワードの類似性を記録し、類似性マトリックス１２０の列はＢワードが与えられたときの類似性を記録する。

図１に戻り、他のワードｗｊに対するワードｗｉの平均類似性を計算する。一実施形態では、平均類似性は、ワードｗｉとその他のすべてのワードｗｊとの間の類似性の平均である。Ｎ個のワードに対するワードｗｉの平均類似性は次式で表される。

図５は、平均類似性を記録した類似性マトリックス１４０の一例を示す図である。行１４２はワード１乃至ワード５０，０００の基本類似性を記録している。行１４４はワード１乃至ワード５０，０００の平均類似性を記録している。

図１に戻り、ワードの平均類似性はそのワードの深さを示す。平均類似性が低いワードは深いワードであると考えられ、平均類似性が高いワードは浅いワードであると考えられる。深いワードは技術的であり、具体的であり、精密であるという傾向がある。深いワードの割合が高いページ５０は深いページであると考えられ、深いワードの割合が低いページ５０は浅いページであると考えられる。一実施形態では、ユーザは検索するワード及び／またはページ５０の深さを指定することができる。

ページ５０の深いワードは関係性が高いワードのクラスタを形成する。クラスタは共通のアイデアやテーマを表す。ページ５０のテーマ数はそのページ５０の具体性（specificity）を示す。テーマが少ないページ５０はより具体的であると考えられ、テーマが多いページ５０はあまり具体的でないと考えられる。

ワードｗｊに対するワードｗｉの差分類似性は、ワードｗｉとｗｊの間の有向類似性からワードｗｊのその他すべてのワードとの平均類似性を引いたものである。差分類似性は次式で表せる：

DiffAff(wi, wj) = DAffinity(wi, wj) - AveAff(wj)

差分類似性は、ページ５０にワードｗｊが出現する一般的な傾向によるバイアスを除去したものである。場合によっては、差分類似性は、ページがワードｗｊを含むときにそのページがワードｗｉを含む確率をより正確に示すものである。
差分類似性は様々な応用ができる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。

類似性計算器３４は、任意の適切な方法を用いて逆インデックスリストを検索し類似性を計算する。例えば、ワードｗｉとワードｗｊを両方とも含むページを特定するため、類似性計算器３４は、ワードｗｉのリストＷｉとワードｗｊのリストＷｊを検索して共通の要素（すなわち共通のページ識別子）を探す。

実施形態では、オントロジ生成器３８は、類似性マトリックスや類似性グラフなどの、言語のオントロジ６６を生成する。オントロジは、基本類似性、有向類似性、平均類似性、差分類似性その他の任意の適切な類似性から生成できる。オントロジ６６は、任意の適切な方法で、言語から選択されたワードから生成できる。例えば、その言語の一般的に使用されている部分のワードや、主題領域に関係するワードを選択する。

図示した実施例では、オントロジ生成器３８は類似性マトリックス生成器４２と類似性グラフ生成器４６を含む。類似性マトリックス生成器４２は、ワード間の類似性を記録する類似性マトリックスを生成する。類似性グラフ生成器４６は、ワード間の類似性を表す類似性グラフを生成する。類似性グラフでは、ノードはワードを表し、ノード間の有向エッジの重みはそのノードが表すワード間の類似性を表す。類似性グラフは任意の適切な次元数を有する。

図６は、類似性グラフ１５０の一例を示す図である。類似性グラフ１５０はノード１５４とリンク１５８を含む。ノード１５４はワードを表す。この例では、ノード１５４ａはワード「バイナリ（binary）」を表している。ノード１５４間の有向エッジの重みは、ノード１５４が表すワード間の類似性を表す。例えば、重みが大きければ類似性が大きい。ノード間のリンク１５８は、そのノード１５４が表すワード間の類似性がある類似性閾値より大きいことを示している。類似性閾値は任意の適切な値であり、例えば、０．２５、０．５、０．７５、０．９５であっても、これらより大きな値であってもよい。

図７は、図１のシステム１０で使用できるクラスタリングモジュール３１の一実施形態を示す図である。実施形態では、クラスタリングモジュール３１は、データセット中の関係のある要素のクラスタを特定することにより、そのデータセット中のパターンを発見する。実施形態では、クラスタリングモジュール３１は一組のワード（例えば、言語や一組のページ５０等）のクラスタを特定できる。一般的に、クラスタのワードは互いに強く関係しているが、クラスタ外のワードとは関係していない。ワードのクラスタはその一組のワードのテーマ（すなわちトピック）を指定する。

ある実施形態では、クラスタリングモジュール３１は、関係するワード間の類似性によりそのクラスタを特定する。その実施形態では、クラスタのワードは互いに強く類似しているが、クラスタ外のワードとは類似していない。一実施形態では、ワードは、かなり類似（sufficiently affine）していれば類似性が高い（highly affine）と考える。ワードは、類似性規準（例えば閾値）を満たせば十分類似している。以下に類似性規準の例を示す。

任意の適切な類似性を用いてクラスタを特定できる。実施形態では、クラスタリングモジュール３１は有向類似性を用いる。あるワードの他のワードに対する有向類似性はそのワードの共起性（co-occurrence）を特徴づける。クラスタは同様の共起性を有するワードを含んでいる。実施形態では、クラスタリングモジュール３１は差分類似性を用いる。差分類似性は、ページ５０にあるワードが出現する一般的な傾向によるバイアスを除去する傾向がある。

図示した実施形態では、クラスタリングモジュール３１はクラスタリングエンジン２１０とクラスタリング分析器２１４とを含む。クラスタリングエンジン２１０は類似性によりワードのクラスタを特定し、クラスタリング分析器２１４は類似性によるクラスタリングを用いて様々な分析を行う。

クラスタリングエンジン２１０は任意の適切な方法で、類似性によるワードのクラスタを特定する。クラスタの特定方法の３つの例を説明する。一組のワードからのクラスタの構成と、ワードのクラスタへのソーティングと、ワードの類似性ベクトルの比較である。一実施形態では、クラスタリングエンジン２１０は一組のワードからクラスタを構成する。一例では、クラスタリングエンジン２１０は、類似性＊Ａｆｆ（ｗｉ，ｗｊ）を有するワード｛ｗｉ｝の集合ＷからクラスタＳを構成する。類似性値＊Ａｆｆ（ｗｉ，ｗｊ）はワードｗｉのワードｗｊに対する、有向類似性ＤＡｆｆｉｎｉｔｙ（ｗｉ，ｗｊ）や差分類似性ＤｉｆｆＡｆｆ（ｗｉ，ｗｊ）等の任意の適切な類似性を表す。ここで挙げる類似性値の例は規格化した値であってもよい。上記の例では、Ａｆｆｆｏｒ（ｗｉ，ｗｊ）は前方類似性を表し、Ａｆｆｂａｃｋ（ｗｊ，ｗｉ）は後方類似性を表す。

上記の例では、クラスタＳはシードワードｗｑで始まる。カレントワード（current word）ｗｘは、カレント・アイテレーション（current iteration）において集合Ｗのワードと比較される、クラスタＳのワードを表す。カレントワードは、最初にシードワードｗｑに設定される。

１回の繰り返しにおいて、カレントワードｗｘはクラスタＳのワードに設定される。集合Ｗのワードｗｉは、カレントワードｗｘとの前方類似性Ａｆｆｆｏｒ（ｗｉ，ｗｊ）に応じてソートされる。ソートされた集合Ｗの始めから開始して、類似性規準を満たす候補ワードｗｃを特定する。類似性規準はカレントワードｗｘとの前方類似性規準（a forward affinity with the current word wx criterion）を含む：

Afffor(wc, wx) > Thcf

及び、シードワードｗｑとの後方類似性規準（a backward affinity with the seed word wq criterion）：

Affback(wq, wc) > Thcb

ここで、Ｔｈｃｆは候補ワードの前方閾値を表し、Ｔｈｃｂは後方ワードの後方閾値を表す。候補ワード｛ｗｃ｝の順序付き集合の最初のワードをクラスタＳに加える。加えたワードの数はパラメータＳｉｚｅｃで与えられる。閾値ＴｈｃｆとＴｈｃｂは、最小値と最大値の間にある任意の適切な値を有する浮動小数点パラメータである。例としては、ＴｈｃｆとＴｈｃｂの適切な値は実際の類似性の序列リスト（rank-ordered list）から決定される。例えば、リストの２００番目の値を使用する。パラメータＳｉｚｅｃは任意の適切な値を有する整数パラメータである。適切な値の例として、デフォルト値を１，２，３または４にしてもよい。実施形態では、上記のパラメータは繰り返しによって変化してもよい。

繰り返し回数は任意の適切なものであればよい。一例では、繰り返し回数をこの方法の開始前に指定できる。他の例では、回数をこの方法の実行中に計算できる。例えば、その回数をクラスタＳの大きさの増大率から計算できる。

他の実施形態では、クラスタリングエンジン２１０は、一組のワードをクラスタにソーティングすることにより、クラスタを特定する。一例では、集合Ｗのワード｛ｗｉ｝を、差分類似性や有向類似性などの類似性＊Ａｆｆ（ｗｉ，ｗｊ）に応じてソートする。他の例では、ワード｛ｗｉ｝を、別のワード集合Ｑの各メンバーに対するワードｗｉの類似性の累積関数（合計等）によりソートする。集合Ｗは任意の適切な方法で選択することができる。例えば、集合Ｗはクエリに最も関係するＸ個のワードである。Ｘは任意の適切な値である。例えば、１０乃至１００、１００乃至２００、または２００以上の値である。

上記の例ではクラスタは最初、空である。集合Ｗの最初のワードｗｉをクラスタに入れる。各繰り返しにおいて、集合Ｗからカレントワードｗｘを選択する。＊Ａｆｆ（ｗｘ，ｗｆ）が類似性閾値Ｔｈにより与えられる類似性規準を満たせば、カレントワードｗｘをクラスタに入れる。ここで、ｗｆはそのクラスタに入れられた最初のワードを表す。閾値Ｔｈの値は任意の適切なものである。例えば、最小値が０．０で最大値が１．０のとき、０．１乃至０．５の範囲にある値である。＊Ａｆｆ（ｗｘ，ｗｆ）が閾値Ｔｈを満たさないとき、カレントワードｗｘは空のクラスタに入れられる。集合Ｗの各ワードに対して繰り返す。

集合Ｗのワードを処理してから、小さいクラスタを削除してもよい。例えば、ワード数がＹに満たないクラスタを削除してもよい。Ｙは任意の適切な値であり、例えば、３乃至５、５乃至１０、１０乃至２５、２５乃至５０、または５０以上の範囲の値である。

クラスタ数が満足のいく範囲になければ、閾値Ｔｈを変えて上記プロセスを繰り返す。閾値Ｔｈを変えることによりクラスタに入れる規準が厳しくなったりゆるくなったりする。上記の満足のいく範囲は、任意の適切な値であるクラスタ数の最小値と最大値により決めてもよい。適切な値の例としては、最小値については１乃至５、５乃至１０、または１０以上の範囲の値であり、最大値については１０乃至１５、１５乃至２０、または２０以上の範囲の値である。閾値Ｔｈを大きくしてクラスタ数を大きくしてもよいし、小さくしてクラスタ数を小さくしてもよい。

他の実施形態では、クラスタリングエンジン２１０は、ワードの類似性ベクトルを比較することによりクラスタを特定する。実施形態では、類似性マトリックスの行と列により類似性ベクトル＜ｗｉ，＊Ａｆｆ（ｗｉ，ｗ１），．．．，＊Ａｆｆ（ｗｉ，ｗｊ），．．．，＊Ａｆｆ（ｗｉ，ｗｎ）＞ができる。これはワードｗｉのワードｗｊ（ｊ＝１，．．．，ｎ）に対する類似性を表す。類似性値＊Ａｆｆ（ｗｉ，ｗｊ）はワードｗｉのワードｗｊに対する、有向類似性や差分類似性等の任意の適切な類似性を表す。

実施形態では、類似性値が同様である類似性ベクトルはクラスタを示す。説明のためだけに、類似性ベクトルを類似性空間におけるワードの類似性の座標とみなしてもよい。すなわち、各類似性値＊Ａｆｆ（ｗｉ，ｗｊ）をある次元の座標とみなす。類似性値が近い（similar）類似性ベクトルは、そのベクトルが付随するワードが類似性空間において互いに近いことを示している。すなわち、そのベクトルは、そのワードが他のワードと有する類似性関係が近いことを示し、同じクラスタに含めることが適当であることを示す。

類似性ベクトルは、適切な距離関数により、１つの類似性ベクトルが他の類似性ベクトルの近傍にあるとき、類似性ベクトルは近い。距離関数は、類似性ベクトルに対して、その大きさのベクトルの標準的なユークリッド距離として、またはその大きさのベクトルの余弦として定義することができる。距離関数は、クラスタリングエンジン２１０やユーザによって指定することもできる。

実施形態では、クラスタリングエンジン２１０はクラスタリング・アルゴリズムを用いて、互いに近い値を有する類似性ベクトルを特定する。クラスタリング・アルゴリズムの例には、ダイレクト（direct）・アルゴリズム、反復二分（repeated bisection）・アルゴリズム、集積（agglomerative）・アルゴリズム、バイアス集積（biased agglomerative）・アルゴリズムその他の適切なアルゴリズムなどがある。一例では、クラスタリングエンジン２１０は「ＣＬＵＴＯ」などのクラスタリングソフトウェアを含む。

クラスタリング分析器２１４は、任意の適切なアプリケーションにおいて分析のために類似性クラスタリングを用いる。一実施形態では、クラスタリング分析器２１４は類似性クラスタリングを用いてページをカテゴリ分けする。カテゴリはクラスタ識別子またはクラスタのメンバーと関連する。一例では、ページ５０のクラスタを特定し、そのページ５０をそのクラスタに応じてカテゴリ分けする。他の例では、ページ５０の重要なワードを選択し、そのワードを含むクラスタを見つける。ページ５０を見つけたクラスタに応じてカテゴリ分けしてもよい。

一実施形態では、クラスタリング分析器２１４は類似性クラスタリングを用いてページ５０のコーパスを分析する。コーパスは特定の主題、個人のコミュニティ、組織、その他のエンティティ（entity）に関連している。一例では、クラスタリング分析器２１４はコーパスのクラスタを特定し、そのクラスタからそのコーパスのコーパスキャラクタ（corpus character）を決定する。コーパスキャラクタはそのコーパスに付随するエンティティ（entity）に関連するワードを示す。ページ５０は、コーパスキャラクタのクラスタを有するとき、そのエンティティに関連している。

一実施形態では、クラスタリング分析器２１４は類似性クラスタリングを用いて、検索クエリの曖昧性を除去し拡張する（query disambiguation and expansion）。上記の実施形態では、クラスタリング分析器２１４は、検索クエリの検索タームを含むクラスタを特定する。クラスタにより、与えられた検索クエリに関連する代替的なワードやカテゴリが提供される。一例では、クラスタからのワードを検索者にレポートして、次の検索クエリを支援する。他の例では、クラスタリング分析器２１４は、クラスタからワードを選択して、新しい検索クエリを自動的に形成する。クラスタリング分析器２１４はその新しいクエリを順番に、または並行して実行する。

一実施形態では、クラスタリング分析器２１４は類似性クラスタリングを用いてソーシャルネットワークを調査（study）する。一例では、ページ５０はソーシャルネットワークに関する情報（insight）を提供する。かかるページの例としては、通信（手紙、電子メール、インスタントメッセージなど）、メモ、記事、議事録などがある。こうしたページ５０は、ソーシャルネットワークを形成する人々のユーザ識別子（名前など）であるワードを含む。名前のクラスタを特定して、そのネットワークを形成する人々の間の関係を分析する。一例では、別の類似性クラスタリングを用いて、システム管理者の名前など、情報を提供しないがほとんどのページ５０に現れる名前をフィルタ除去する。

実施形態では、クラスタリング分析器２１４は、データセットのクラスタを結合及び／または比較することにより、そのデータセットを分析する。一実施形態では、オーバーラップするデータセットのクラスタを比較する。１つのデータセットのクラスタを他のデータセットのクラスタにマッピングすると、そのデータセット間の関係についての情報（insight）が得られる。例えば、データセットは、職場のグループの文書の分析や、そのグループのソーシャルネットワークの調査（study）によるものである。ソーシャルネットワークのクラスタを文書の主題のクラスタにマッピングして、ソーシャルネットワークと主題の間の関係を分析する。

図８はオントロジ特性モジュール３２の一実施形態を示す図である。オントロジ特性モジュール３２は、一組のワード（例えば、ワードそのものやワードを含む文書）のオントロジ特性（ontology features）を決定し、そのオントロジ特性を様々な場合に適用する。その一組のワードには文書の基本的ターム（essential terms）が含まれているかも知れない。タームｔは、それに類似したｋ個のタームの少なくとも１つも文書に現れる場合、基本的タームである。そうでなければ、そのタームｔはその文書にとっては基本的ではない。

オントロジ特性は、ある分野においてある文書を他の文書から意味的に区別する特性（feature）軸に沿って、その文書を特徴づける数量化可能な尺度である。例えば、文書の深さは理解可能性に関してその文書を区別し、文書の具体性はフォーカスに関してその文書を区別し、文書のテーマは記載されたトピックスの範囲（addressed range of topics）に関してその文書を区別する。オントロジ特性は任意の適切な方法で定義することができる。例えば、計算言語学における独立したアルゴリズムを用いて文書の可読性（readability）または深さ（depth）を特徴づけることができる。

図示した実施形態では、オントロジ特性モジュール３２は、深さエンジン２３０、テーマエンジン２４０、具体性エンジン２４４、オントロジ特性（ＯＦ）アプリケーションエンジン２５０を含む。深さエンジン２３０はワード（例えばワードそのものやワードを含む文書）の深さ（depth）を決定する。一般的に、深さはワードのテキスト的な精巧さ（textual sophistication）を示す。深さがより大きい（深い）ワードは、より技術的かつ専門的であり、深さがより小さい（浅い）ワードは、より一般的なものである。実施形態では、深さモジュール３２は文書のワードの深さを計算し、そのワードの深さに基づきその文書の深さを計算する。実施形態では、深さエンジン２３０は深さ値及び／または深さランキングを文書及び／またはワードに割り当てる。より深い文書またはワードにはより高い深さ値または深さランキングが割り当てられ、より浅い文書またはワードにはより低い深さ値または深さランキングが割り当てられる。

深さエンジン２３０はワードの深さを任意の適切な方法で計算する。実施形態では、深さエンジン２３０は平均類似性によりワードの深さを計算する。上記の実施形態では、ワードの深さはそのワードの平均類似性の関数である。より深いワードはより低い平均類似性を有し、より浅いワードはより高い平均類似性を有する。具体例では、深さエンジン２３０はワードをその平均類似性によりランキングすることによりそのワードの深さを計算する。平均類似性が低いワードには高い深さランキングが与えられ、平均類似性が高いワードには低い深さランキングが与えられる。

実施形態では、深さエンジン２３０はクラスタリング分析を用いてワードの深さを計算する。上記の実施形態では、クラスタ内のワードは互いに強く類似しているが、クラスタ外のワードとはそれほど類似していない。クラスタ空間における距離を類似性により測るが、これは深さのインジケータである。実施形態では、属するクラスタ数が少ないワード、小さいクラスタに属するワード、及び／または他のクラスタから遠いクラスタに属するワードは深いものとみなされる。一方、属するクラスタ数が多いワード、大きいクラスタに属するワード、及び／または他のクラスタに近いクラスタに属するワードは浅いものとみなされる。

他の実施形態では、深さエンジン２３０は類似性グラフ１５０のリンク分析をしてワードの深さを計算する。リンク分析は、ＰＡＧＥＲＡＮＫなどの任意の適切なリンク分析アルゴリズムで行うことができる。便宜的に、図６の類似性グラフ１５０を利用してワードの深さを計算することもできる。類似性グラフ１５０はノード１５４とリンク１５８を含む。ノード１５４はワードを表す。ノード１５４間のリンク１５８は、そのノード１５４が表すワード間の類似性が、ある類似性閾値より大きいこと、すなわちそのワードが十分類似していることを示している。

実施形態では、深さエンジン２３０はノード１５４の人気度（popularity）を計算する。人気のあるノード１５４は浅いワードを表し、人気のないノード１５４は深いワードを表す。第１のノード１５４から第２のノード１５４へのリンク１３６は、第１のノード１５４による第２のノード１５４への人気度投票であると考えられる。また、人気のあるノード１５４からの投票（vote）は人気のないノード１５４からの投票よりも重みが大きい。さらに、第１のノード１５４の第２のノード１５４に対する類似性はその投票に重みづけする。深さエンジン２３０はノード１５４への重みつき投票から、そのノード１５４の人気度を計算する。人気のないワードは深いものと考えられ、人気のあるワードは浅いものと考えられる。

深さエンジン２３０は文書の深さを任意の適切な方法で計算する。実施形態では、深さエンジン２３０は文書の少なくとも１つのワード、一部のワード、またはすべてのワードの深さにより、その文書の深さを計算する。実施形態では、ワードの深さは平均類似性で与えられ、文書の深さをその文書のワードの平均類似性から計算してもよい。例えば、文書の浅さ（shallowness）はその文書のワードの平均類似性の平均、すなわち、その文書中の各ワードの平均類似性の合計をその文書中のワードの総数で割ったものである。文書の深さは、その文書の浅さの逆数として計算できる。

実施形態では、深さは文書中の選択された一組のワードの平均的深さから計算できる。選択された一組のワードには、その文書の基本的ワードが含まれる。例えば、（深さが）トップＸ％のワードが含まれる。ここで、Ｘは１０より小さくても、１０乃至２０でも、２０乃至３０でも、３０乃至４０でも、４０乃至５０でも、５０乃至６０でも、６０乃至７０で、７０より大きくてもよい。選択された一組のワードには、Ｐ％の標準的な文法ワードや、Ｑ％のストップワードが含まれない。ここで、ＰとＱは任意の適切な値であり、１０より小さくても、１０乃至２０でも、２０乃至３０でも、３０乃至４０でも、４０乃至５０でも、５０乃至６０でも、６０乃至７０で、７０より大きくてもよい。

実施形態では、深さエンジン２３０は文書におけるワードの深さの分布により、その文書の深さを計算する。実施形態では、深い文書は、深いワードを有する割合が高い。
ある実施形態では、深さエンジン２３０は文書の類似性（affinity）によりその文書の深さを計算する。文書間の類似性はその文書間の関係を示す。実施形態では、ワードの平均類似性がそのワードの深さを示すのと同様に、文書の平均類似性はその文書の深さを示す。文書の類似性は任意の適切な方法で定義することができる。一例では、共通ワード数Ｐ（Ｄ１＆Ｄ２）は文書Ｄ１とＤ２の両方にあるワードの数を示し、個別ワード数Ｐ（Ｄ１＋Ｄ２）は文書Ｄ１またはＤ２のいずれかにあるワードの数を示す。文書Ｄ１とＤ２の間の文書類似性ＤｏｃＡｆｆは次式で定義できる：

DocAff (D１, D２) = P(D１ & D２) / P(D１ + D２)

深さエンジン２３０は、平均ワード類似性の計算と同様に平均文書類似性を計算する。平均類似性が低い文書は深いものであると考えられ、平均類似性が高い文書は浅いものであると考えられる。

実施形態では、深さエンジン２３０は、文書類似性グラフのリンク分析をして文書の深さを計算する。文書類似性グラフは類似性グラフ１５０と同様だが、文書類似性グラフのノードはワードではなく文書を表す。深さエンジン２３０は第１の文書を表す第１のノードから第２の文書を表す第２のノードへのリンクを、第１の文書が与えられたときの第２の文書の文書類似性で重み付けする。出て行くリンクの重みを規格化してもよい。

実施形態では、深さグラフをユーザインターフェイスに表示して文書の深さを表示する。深さレベルを選択できる深さスライダを併せて表示してもよい。実施形態では、文書がより大きな文書のセクションであるとき、深さグラフはそのセクションを示す。

実施形態では、深さエンジン２３０は文書深さを任意の適切な方法で計算できる。例えば、文書の類似性のヒストグラムを処理し、及び／または深さに基づき異なるワードの割合をトランケート（truncate）してからヒストグラムを処理することができる。他の方法には、Ｇｕｎｎｉｎｇ−Ｆｏｇ法、Ｆｌｅｓｃｈ法、またはＦｒｙ法がある。

実施形態では、深さエンジン２３０は深さ値をある深さレベルにマッピングして、深さを較正してもよい。実施形態では、範囲Ｒｉの深さ値をレベルＬｉにマッピングする。例えば、Ｒ０＝｛ｒ０：ｒ０＜ｃ０｝をレベルＬ０にマッピングし、Ｒ１＝｛ｒ１：ｃ０＜ｒ１＜ｃ１｝をレベルＬ１にマッピングし、．．．，Ｒｎ＝｛ｒｎ：ｃｎ＜ｒｎ｝をレベルＬｎにマッピングする。これらの範囲は任意の適切な深さ値を含み、同じ大きさである必要はない。レベルの数は任意の適切なものであればよく、５より少なくても、５から７であっても、７または８であっても、８から１０であっても、１０から２０であっても、２０から５０であっても、５０から１００であっても、１００より多くてもよい。

テーマエンジン２４０は文書のテーマ（すなわちトピックス）を決定する。実施形態では、クラスタリングモジュール３１が特定した文書中のワードのクラスタから、テーマエンジン２４０がテーマを決定する。上記の通り、ワードのクラスタはその一組のワードのテーマ（すなわちトピック）を指定する。文書のテーマはその文書の内容に関して有用な情報を提供する。例えば、クラスタ｛腎臓、肝臓、タンパク質、問題｝を含む文書は、おそらく腎臓の機能低下による肝臓からのタンパク質のもれに関するものであり、インゲン豆のタンパク質成分に関するものではない。

実施形態では、テーマエンジン２４０はテーママップからテーマを決定する。上記の実施形態では、例えば、ＴＦ−ＩＤＦ（term frequency-inverse document frequency）法など任意の適切な方法を用いて文書からキーワードを抽出する。キーワードを用いてテーママップからテーマの候補を選択する。テーマ候補を文書と比較して、そのテーマがその文書に合致するか決定する。例として、テーマ候補のヒストグラムを文書のヒストグラムと比較する。テーマ候補が文書と合致したら、そのテーマにより、その文書のテーマのタイプや数を推定する。

具体性エンジン２４４は文書の具体性（specificity）を計算する。実施形態では、具体性エンジン２４４は、具体性値及び／または具体性ランキングを文書に割り当てる。より具体的な文書にはより高い具体性値または具体性ランキングが割り当てられ、より具体的でない文書にはより低い具体性値または具体性ランキングが割り当てられる。

実施形態では、具体性エンジン２４０は文書のテーマの数から具体性を計算する。例として、具体的な文書のテーマは少なく、具体的でない文書のテーマは多い。実施形態では、具体性エンジン２４０は文書のテーマの数と、そのテーマ間の類似性から具体性を計算する。例として、具体的な文書のテーマは、テーマ間の類似性が高くて少ない。一方、具体的でない文書のテーマは、テーマ間の類似性が低くて多い。

実施形態では、テーマの数は深さ（すなわちレベル）に依存する。例えば、深さが小さい１つのテーマは深さが大きい複数のテーマを表す。実施形態では、深さはユーザが深さスライダを用いて選択するか、予め決まっている。実施形態では、レベルはユーザが選択するか、予め決まっている。例えば、任意の適切な数のレベルを決めて、そのレベルに対して深さを計算する。例えば、レベルは、ドメインベース（例えば、エンジニアリング、医療、ニュース、スポーツ、金融などのドメイン）、専門ベース（例えば、心臓科、眼科、腎臓科などの専門）、トピックベース（例えば、高血圧、コレステロール、バイパス手術、動脈硬化などのトピックス）、詳細ベース（例えば、立ちくらみ、慢性高血圧、急性高血圧などの詳細）、解決策ベース（例えば、老人性病因、医薬、遺伝子などの解決策）、人ベース（例えば、ユーザクエリレベルなど）などがある。

オントロジ特性アプリケーションエンジン２５０は、（深さ、テーマ、具体性などの）オントロジ特性を用いて、任意の適切な状況でオントロジ特性分析を行う。適切な場合とは、例えば、オントロジ特性による文書の検索、ソート、推奨、選択や、文書のオントロジ特性のレポートや、ユーザの文書（または複数組みの文書）のオントロジ特性の決定などである。実施形態では、オントロジ特性アプリケーションエンジン２５０はオントロジ特性に関する情報を含むインデックスを使用する。一例では、オントロジ特性アプリケーションエンジン２５０は、深さランキングにより生成及び／または維持された文書深さ（ＤＤ）逆インデックス６２を使用する。ＤＤ逆インデックス６２は、ＤＤ逆インデックスリストを含む。ワードのＤＤ逆インデックスリストは、そのワードを含む文書（またはページ５０）の文書識別子をリストする。文書の文書識別子はその文書の深さを示す。例えば、文書識別子のエンコードに用いるバイナリエンコーディングは、深さを示す。場合によっては、ＤＤ逆インデックスリストは十分な深さを有する文書のみをリストしたものである。他の例では、オントロジ特性アプリケーションエンジン２５０は、逆インデックス６２に加えてランキングテーブルと深さテーブルを利用する。深さテーブルは文書の深さを示すものである。

実施形態では、オントロジ特性アプリケーションエンジン２５０は、指定された文書深さや具体性の値などの指定されたオントロジ特性値を有する文書を検索する。指定地は予め決められていても、計算してもユーザが選択してもよい。実施形態では、深さスライダや具体性スライダを用いて値を選択してもよい。

実施形態では、オントロジ特性アプリケーションエンジン２５０は、文書をソートするソート規準としてオントロジ特性を利用する。例えば、オントロジ特性アプリケーションエンジン２５０は、ソート規準だけでなく、テーマに関して文書深さ及び／または具体性により文書をソートする。例として、オントロジ特性アプリケーションエンジン２５０は、ＤＤ逆インデックス６２を検索して、文書深さによりソートされた文書を求める。例として、オントロジ特性アプリケーションエンジン２５０は、非ＤＤ逆インデックス６２を用いて文書を検索して、深さにより文書をソートする。

実施形態では、オントロジ特性アプリケーションエンジン２５０は、オントロジ特性の値をクライアント２０にグラフィカルに表示する。例えば、検索結果のトップＸ％の文書など、文書の一部または全部をグラフィカルに表示してもよい。オントロジ特性値を任意の適切な方法で表示できる。例として、数字、言葉、アイコンなどのグラフィカルインジケータにより値を示すことができる。例えば、検索結果のリスト中のアイテムや、オンラインニュースペーパーのヘッドラインや、文書アイコンなどの隣にグラフィカルインジケータを配置してもよい。例として、既存の図象（iconography）を修正して値を表示できる。例えば、テキストのサイズ、フォント、スタイル、カラーやグラフィカルインジケータにより値を示すことができる。他の例では、グラフにより値を示すことができる。オントロジ特性ヒストグラムは、文書量軸とオントロジ特性軸を含み、あるオントロジ特性値を有する文書の量を示す。例えば、文書量軸と文書深さ軸とを含む文書深さヒストグラムは、文書深さごとの文書量を示している。

実施形態では、ユーザは、オントロジ特性アプリケーションエンジン２５０により、特定のオントロジ特性値を有する文書の検索をすることができる。ユーザは、クエリで用いる複数のワードのそれぞれにオントロジ特性値を指定することができる。例として、ユーザは、オントロジ特性アプリケーションエンジン２５０により深さを選択するオプションを提供され、深さを選択して入力することができる。そのオプションは任意の適切な方法で提供することができる。例えば：（ｉ）絶対的ターム（深さを表す数字や数字の範囲など）；（ｉｉ）相対的ターム（深さに関する検索結果の一部で、例えば「最も深いＸ％」など）；（ｉｉｉ）意味的ターム（「入門的」、「浅い」、「深い」、「極めて深い」、「非常に技術的」など）；（ｉｖ）グラフィカルターム（スライダ、ボタン、その他のグラフィカル要素など）；（ｖ）任意の適切なタームの組み合わせ（意味的ラベルを伴うスライダなど）である。場合によっては、スライダの端は「浅い」と「深い」である。ユーザはスライダを一端または他端に向けて動かして深さを選択できる。検索結果が求まると、スライダの横に文書深さヒストグラムが表示され、スライダを文書深さの軸として使用できる。

実施形態では、オントロジ特性アプリケーションエンジン２５０はユーザのオントロジ特性キャラクタを計算できる。オントロジ特性キャラクタには、テーマとの関連でユーザ深さとユーザ具体性が含まれる。オントロジ特性キャラクタはそのユーザの文書のオントロジ特性を記述する。例えば、科学者は、第三者である評価者（third grader）が使う文書より深い文書を使う。オントロジ特性キャラクタはテーマに対して与えられる。例えば、遺伝学者は、詩の分野で使うものよりも深い文書を遺伝学の分野では使う。オントロジ特性キャラクタを用いてユーザの専門を決定し、その人の経歴を構成しても、ソーシャルネットワークを分析してもよい。

ユーザの通信（電子メールやインスタントメッセージなど）や、ウェブページや、検索履歴（検索クエリや選択したページなど）などの任意の適切な文書を分析してオントロジ特性キャラクタを推定する。実施形態では、オントロジ特性アプリケーションエンジン２５０はオントロジ特性キャラクタ（ontology feature character）を時間的に追跡して、過去のキャラクタを使って将来のキャラクタを予測できる。例として、オントロジ特性アプリケーションエンジン２５０では、一般的にユーザ深さ及び／または具体性は時間及び／またはある分野における活動とともに増大することを仮定してもよい。

実施形態では、オントロジ特性アプリケーションエンジン２５０では複数の動作を組み合わせてもよい。例えば、オントロジ特性アプリケーションエンジン２５０はユーザの深さをモニターし、そのユーザ深さに応じた文書を検索する。一例では、ユーザ深さをモニターし、ニュースをその深さに応じて提供する。将来のユーザ深さを予測して、予測されたユーザ深さに合ったニュースを提供する。

図９は、文書に付与するタグを選択するタギングモジュール３５の一実施形態を示す図である。タグは任意の適切な方法で選択することができる。ある実施形態では、タギングモジュール３５はトピックス（またはテーマ）をそれに関係するワードの統計的分布としてモデル化する。タギングモジュール３５は統計的分布を用いて、文書のランキングが高いワードが出現する確率が最も高いトピックスを特定し、そのトピックスに応じてその文書のタグを選択する。図示した実施形態では、タギングモジュール３５はトピックモデル部３１０と文書タグ部３１４とを含む。ある実施形態では、トピックモデル部３１０はトピックスをモデル化する統計的分布を生成し、文書タグ部３１４はその統計的分布に基づきタグを選択する。トピックモデル部３１０と文書タグ部３１４は任意の適切な方法を用いてトピックのモデル化とタグの選択を行う。
他の実施形態では、タギングモジュール３５は文書のパラグラフを分析してタグを付与する。上記の実施形態では、タギングモジュール３５は文書のパラグラフのタグ候補を特定する。タギングモジュール３５はタグ候補の、その文書の他のタグ候補との関係性を決定して、その関係性に応じてその文書のタグを選択する。

さらに別の実施形態では、タギングモジュール３５はユーザまたはコンピュータが選択した推奨タグに基づきタグを付与する。上記の実施形態では、タギングモジュール３５は文書に対してタグを推奨する。推奨される複数のタグは、目標タグとの類似性（affinity）が高いが、文書のオントロジ空間を減縮するために、推奨される他のタグとの類似性は低い。タギングモジュール３５はタグの選択に応じてタグの推奨を継続できる。タギングモジュール３５は、タグを選択し終わると、選択したタグを文書に付与する。

図１０は、図１のシステム１０のタギングモジュール３５で実行できる、文書の重要タームの決定方法の一例を示す図である。実施形態では、本方法により文書をその最も重要なタームに縮小する。これらの最も重要なタームは、その文書を要約するキーワードと考えられる。本方法では、通常のｎグラム共起（normal n-gram co-occurrence）を実行し、コーパスの文書のキーワード間の関連性の強さを決定する。

図示した実施例では、コーパスの各文書に対して次の段階を実行する。本方法は、ステップ４１０で開始し、文書の出現頻度が低いｎグラムを破棄する。一部の実施例では、出現頻度が低いｎグラムは、文書中に、例えば３回未満しか出現しないｎグラムである。他の実施例では、出現頻度が高くないｎグラムを、コーパスにわたるタームの頻度分布を用いて特定する。

ステップ４１４において、各ｎグラムに対してＴＦ−ＩＤＦ値を算出する。一部の実施例では、文書コーパスのターム頻度に基づきＩＤＦ値を算出する。他の実施例では、基準コーパスに対してＩＤＦ値を算出する。基準コーパスは検討している最新の（current）文書に必ずしも含まれなくとも良い。

ステップ４１８において、ＴＦ−ＩＤＦ値の結果により文書ｎグラムをソートし、ｎグラムのソート済みリストを生成する。ソート済みリストは、ｎグラムを、ＴＦ−ＩＤＦ値が最大のものから最小のものまで順序付け、ＴＦ−ＩＤＦ値が最大のｎグラムがリストの一番上になり、ＴＦ−ＩＤＦ値が最小のｎグラムがリストの一番下になるようにする。ステップ４２２において、ソート済みリストの連続したｎグラム間のＴＦ−ＩＤＦ値の差を算出する。ステップ４２４において、差の平均と標準偏差を算出する。

ステップ４２６において、百分率閾値より低いｎグラムをリストから削除する。例えば、ｎグラムの下５０％を削除する。一部の実施例では、必要な最小数のタームが閾値を越える百分率閾値を用いる。

ステップ４２８乃至４３４では、ステップ４２２とステップ４２４で算出した値を用いて、残りのｎグラムについて次のＴＦ−ＩＤＦ閾値を動的に決定する。ステップ４２８において、ソート済みリストを、リストの下から上に（すなわち、ＴＦ−ＩＤＦ値が高くなる方向に）スキャンする。ステップ４３０において、ＴＦ−ＩＤＦ値の差が標準偏差閾値より大きい場合がある。

ステップ４３０において、そのような差があれば、ステップ４３４に進む。ステップ４３４において、より高いＴＦ−ＩＤＦを次のＴＦ−ＩＤＦ閾値として用いて、値が小さいｎグラムを削除する。そしてステップ４３６に進む。ステップ４３０において、標準偏差値より大きいＴＦ−ＩＤＦ値の差が無ければ、ステップ４３２に進む。ステップ４３２において、スキャンがリストの一番上まで来ていなければ、ステップ４２８に戻り、リストのスキャンを続ける。ステップ４３２において、スキャンがリストの一番上に来ていれば、ステップ４３６に進む。ステップ４３６において、リストに残っているｎグラムをその文書の重要キーワードとして出力する。例えばグラフィカルユーザインターフェイスに表示することによりタームを出力する（または返す）。そして、本方法は終了する。

Ｔａｇｇｒ法はいかなる重み付け有効グラフにも適用することができる。この場合、各タームはノードであり、タームＡからタームＢへの有効（または差分）類似性はノードＡからノードＢへのエッジの重みと等しい。タームＢの平均類似性をノードＢに入るすべてのエッジの重みの平均として定義する。差分類似性は、上記の通り、有効類似性（または差分類似性）及び平均類似性のコンセプトを用いて定義する。

図１１は、図１のシステム１０の検索エンジン３７で実行できる、タームセットに関するタームを決定するＴａｇｇｒ方法の一例を示す図である。実施形態では、Ｔａｇｇｒ法では、初期タームセットを受け取り、ＤＡ行列を調べて、その初期タームセットに関係するタームセットを示唆する。本実施例では、次のパラメータを用いる：
ｋ１：一ワードが示唆できる候補ワード数の上限；
ｋ２：平均差分類似性閾値；
ｋ３：繰り返しごとの結果数の上限
ｋ４：繰り返し数の上限；
ｋ５：返される結果数の上限。

上記パラメータの範囲の例としては、ｋ１が［５，２０］、ｋ２が［−０．１，０．１］、ｋ３が［５，２０］、ｋ４が［１，３］、ｋ５が［５，２０］である。

本方法はステップ５０６で始まり、１つ以上のタームのセットＳを受け取る。ステップ５１０において、Ｓから求める候補タームのセットＱを初期化する。最初、セットＱはセットＳと等しい。ステップ５１４において、差分類似性が最も高い最大ｋ１個のタームを、セットＱの各タームについて集めて、その差分類似性とともに暫定セットＲに入れる。すなわち、セットＱの各タームは、そのセットの最初のターム（originating term）に対する差分類似性が最も高い最大ｋ１個のタームを生成する。セットＱの複数のタームから同じタームが求まった場合、そのタームの差分類似性はそれぞれの差分類似性の和である。

ステップ５１６において、セットＲの各タームについて、そのタームのセットＳのすべてのタームに対する差分類似性の平均、すなわちそのタームの「平均差分類似性」を計算する。ステップ５１８において、平均差分類似性が平均差分類似性閾値ｋ２より低いタームをセットＲから削除する。ステップ５２２において、差分類似性が最も高いセットＲのｋ３個のタームをセットＱに加える。ステップ５１４ないし５２２をｋ４回繰り返す。

ｋ４回繰り返した後、ステップ５２６に進み、セットＱのタームをソートする。例えば、セットＱの他のタームに対する平均類似性または平均差分類似性に基づき、タームをソートして、平均類似性または平均差分類似性が高いタームがリストの一番上に来るようにする。ステップ５３０において、セットＱの一番上のｋ５個のタームを出力する。例えばグラフィカルユーザインターフェイスに表示することによりタームを出力する。そして、本方法は終了する。

図１２Ａないし図１２Ｈは、例えばＴａｇｇｒ法を用いる検索エンジン３７で検索を実行するのに利用できるグラフィカルユーザインターフェイスの例を示す図である。図１２Ａに示したように、ユーザエントリーウィンドウに入力された最初の検索ターム５１０を検索エンジン３７が受け取り、最初の検索５２２を開始する。この例では、ユーザが「溶岩（lava）」を入力した。図１２Bに示したように、最初の検索５２２に基づく（検索結果ウィンドウに示された）検索結果５１４と（最新の検索示唆ウィンドウに示された）検索示唆５１８が表示される。この例では、溶岩の画像と溶岩に関係する検索示唆が表示される。この例では、ユーザは、例えばアイテムをクリック、ダブルクリック、またはハイライトなど任意の適切な方法でそのアイテム（検索ターム、検索結果、検索示唆等）を選択できる。

図１２Ｃに示したように、ユーザが検索示唆を選択すると、第２の検索５２２が開始され、その第２の検索５２２に基づく検索結果５１４と検索示唆５１８が表示される。この例では、ユーザが選択した検索示唆は「ハワイ（Hawaii）」であり、検索結果と検索示唆は第２の検索「溶岩」及び「ハワイ」に基づくものである。

図１２Ｄに示したように、ユーザが検索示唆を選択すると、第３の検索５２２が開始され、その第３の検索５２２に基づく検索結果５１４と検索示唆５１８が表示される。この例では、ユーザが選択した検索示唆は「流れ（flow）」であり、検索結果と検索示唆は第３の検索「溶岩」、「ハワイ」及び「流れ」に基づくものである。

図１２Ｅに示したように、ユーザが画像を選択する。検索エンジン３７はタギングモードになり、その画像に注釈を付ける、示唆されたタグのリストを表示する。ユーザは、画像またはタグをクリックして、その画像またはタグを選択できる。図１２Ｆに示すように、ユーザがタグを選択すると、それを受けて、検索エンジン３７はその画像に選択されたタグで注釈を付ける。この例では、選択されたタグは「岩（rock）」である。検索エンジン３７は、選択されたタグを検索タームに加えることにより、選択されたタグで検索をアップデートすることもできる。検索エンジン３７は選択されたタグを検索示唆に加えても良い。

図１２Gに示したように、検索モードに戻る要求を受け付ける。図１２Ｆに示したように、ユーザは、画像をクリックして検索モードに戻る要求をできる。検索５２２からタームを削除する要求を受け取り、第４の検索５２２を開始する。ユーザは、最新の検索ウィンドウ中のタームをクリックすることにより、そのタームを削除できる。この例では、「ハワイ」を選択して削除している。図１２Ｈに示したように、第４の検索５２２の検索結果５１４と検索示唆５１８を表示する。

図１３Ａ乃至図１３Ｅは、選択した検索結果を用いて検索を絞り込むために使用できるグラフィカルユーザインターフェイスの例を示す図である。図１３Ａに示したように、ユーザが入力した第１の検索タームを受け取り、第１の検索５２２を開始する。この例ではユーザが「ｄｓｌｒ（ディジタルシングルレンズ反射カメラの略）」を入力する。図１３Ｂに示したように、第１の検索５２２に基づく検索結果５１４と検索示唆５１８を表示する。この例では、ディジタルＳＬＲカメラの画像とディジタルＳＬＲカメラに関係する検索示唆が表示される。

ユーザが画像を選択すると、第２の検索５２２を開始する。ユーザは、画像を選択して、検索５２２を開始し、その画像と類似した結果を得ることもできる。画像をクリックしてその画像を選択できる。選択された画像に基づき、検索エンジン３７は、自動的に新しい検索タームを決定し、その検索タームを既存の検索タームに加え、第２の検索５２２をする。第２の検索５２２に基づく検索結果５１４と検索示唆５１８を図１３Ｃに示した。最新の検索５２２の検索タームは検索ウィンドウに表示される。図１３Ｄに示したように、ユーザが画像を選択すると、第３の検索５２２を開始する。最新の（current）選択された画像に基づき、検索エンジン３７は、自動的に新しい検索タームを決定し、その検索タームを既存の検索タームに加え、第３の検索５２２をする。第３の検索５２２に基づく検索結果５１４と検索示唆５１８を図１３Ｅに示した。最新の検索５２２の検索タームは検索ウィンドウに表示される。

実施例では、検索エンジン３７は、次の方法により、ユーザが選択した画像に基づき新しい検索タームを自動的に決定することができる：
（１）画像に関連し、ドメイン辞書に属するタームの、平均類似性によるソーティング。上からｋ個（例えば、上から３個）までのタームを選択する。
（２）画像に関連し、最新の検索示唆に表れるタームの、平均類似性によるソーティング。上からｋ個（例えば、上から３個）までのタームを選択する。

本発明の範囲から逸脱することなく、本方法に修正、追加、または削除をすることができる。本方法に含まれるステップはこれより多くても少なくてもよく、他のステップが含まれてもよい。また、ステップを任意の適切な順序で実行してもよい。

本発明の実施形態により以下の技術的有利性がもたらされる。一実施形態の技術的利点は、検索結果、検索示唆、または検索タームをクリックして、検索結果や検索示唆を選択することにより、または検索タームを非選択することにより、検索を容易に絞り込むことができる点にある。一実施形態の技術的利点は、関係性法（relatedness method）を用いて検索示唆を生成することができる点にある。

本開示を実施形態に関して説明したが、これらの実施形態の変形や置き換えは当業者には明らかであろう。従って、上記の実施形態の説明は本開示を限定するものではない。特許請求の範囲に記載した本開示の精神と範囲から逸脱せずに、その他の変更、置き換え、改変も可能である。

以上説明した実施形態について、以下の付記を記す。
（付記１）クエリの最初のタームセットを受け取るよう構成されたインターフェイスと、
方法を実行するように構成されたプロセッサとを有する装置であって、
前記方法は、
候補タームセットを初期化する段階と、
次の段階、すなわち
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階；
２つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は２つ以上の候補タームに対する差分類似性に関係する段階；
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階；
平均差分類似性が所定閾値を満たさない１つ以上のタームを暫定タームセットから削除する段階；
差分類似性が高い暫定タームセットの１つ以上のタームを候補タームセットに入れる段階；
を所定回数繰り返す段階と、
候補タームセットの１つ以上のタームを選択する段階と、
選択した１つ以上のタームを返す段階とを含む
装置。
（付記２）前記プロセッサは、
候補タームセットの各タームの平均類似性を決定し、
平均類似性が高い１つ以上のタームを選択することにより、
候補セットの１つ以上のタームを選択するように構成された、付記１に記載の装置。
（付記３）前記プロセッサは、
１つ以上のタームの各タームの第２の平均差分類似性を決定し、前記第２の平均差分類似性は各タームから候補タームセットのすべてのタームへの差分類似性の平均を表し、
第２の平均差分類似性が高い１つ以上のタームを選択することにより、
候補セットの１つ以上のタームを選択するように構成された、付記１に記載の装置。
（付記４）前記プロセッサは、最初のタームセットを含むように候補タームセットを初期化するように構成された、付記１に記載の装置。
（付記５）前記プロセッサは、
複数のノードと、重みを有する複数の有向エッジとを含む重みつき有向グラフを受け取り、ノードはタームに対応し、有向エッジの重みは第１のタームから第２のタームへの有向類似性に対応し、ノードに入るエッジの重みの平均はそのノードの平均類似性に対応し、
前記重みつき有向グラフに前記方法を実行する、
ように構成された、付記１に記載の装置。
（付記６）前記方法を実行するように構成された検索エンジンを有する、付記１に記載の装置。
（付記７）クエリの最初のタームセットを受け取る段階と、
候補タームセットを初期化する段階と、
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階；
２つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は２つ以上の候補タームに対する差分類似性に関係する段階；
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階；
平均差分類似性が所定閾値を満たさない１つ以上のタームを暫定タームセットから削除する段階；
差分類似性が高い暫定タームセットの１つ以上のタームを候補タームセットに入れる段階；
を所定回数繰り返す段階と、
候補タームセットの１つ以上のタームを選択する段階と、
選択した１つ以上のタームを返す段階と
を含む方法。
（付記８）候補タームセットの１つ以上のタームを選択する段階は、
候補タームセットの各タームの平均類似性を決定する段階と、
平均類似性が高い１つ以上のタームを選択する段階と
をさらに含む、付記７に記載の方法。
（付記９）候補タームセットの１つ以上のタームを選択する段階は、
１つ以上のタームの各タームの第２の平均差分類似性を決定する段階であって、前記第２の平均差分類似性は各タームから候補タームセットのすべてのタームへの差分類似性の平均を表す段階と、
第２の平均差分類似性が高い１つ以上のタームを選択する段階と
をさらに含む、付記７に記載の方法。
（付記１０）前記複数の候補タームを初期化する段階は、
最初のタームセットを有するように前記候補タームセットを初期化する段階
をさらに含む、付記７に記載の方法。
（付記１１）複数のノードと、重みを有する複数の有向エッジとを含む重みつき有向グラフを受け取る段階であって、ノードはタームに対応し、有向エッジの重みは第１のタームから第２のタームへの有向類似性に対応し、ノードに入るエッジの重みの平均はそのノードの平均類似性に対応する段階と、
前記重みつき有向グラフに前記方法を実行する段階と
をさらに含む、付記７に記載の方法。
（付記１２）検索エンジンにより実行される、付記７に記載の方法。
（付記１３）タームセットを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
文書のタームセットの各タームに対して、ＴＦ−ＩＤＦ値を決定し、
ＴＦ−ＩＤＦ値によりタームをソートして、ソート済みリストを生成し、ＴＦ−ＩＤＦ値が一番高い第１のタームがソート済みリストの一番上になり、ＴＦ−ＩＤＦ値が一番低い第２のタームがソート済みリストの一番下になり、
ソート済みリストの連続するタームのそれぞれについて、そのＴＦ−ＩＤＦ値の差を計算し、複数の差を求め、
差の標準偏差を計算し、
標準偏差に基づきソート済みリストから１つ以上のタームを削除し、
残ったタームを出力するプロセッサと
を有する装置。
（付記１４）前記プロセッサは、
ソート済みリストから百分率閾値より下のタームを削除する、
付記１３に記載の装置。
（付記１５）前記プロセッサは、１回以上繰り返して、
高いＴＦ−ＩＤＦ値と低いＴＦ−ＩＤＦ値との間差であるＴＦ−ＩＤＦ値間の差が標準偏差閾値より大きくなるまで、ソート済みリストを下から上へスキャンし、
高いＴＦ−ＩＤＦ値を次のＴＦ−ＩＤＦ閾値として指定し、
ＴＦ−ＩＤＦ値が前記次のＴＦ−ＩＤＦ閾値を満たさない１つ以上のタームをソート済みリストから削除することにより、次のＴＦ−ＩＤＦ閾値を決定して、標準偏差に基づきソート済みリストから１つ以上のタームを削除するように構成された、付記１３に記載の装置。
（付記１６）前記プロセッサは、
ソート済みリスト中に必要最低数のタームを残しつつ、ＴＦ−ＩＤＦ値がＴＦ−ＩＤＦ閾値を満たさない１つ以上のタームをソート済みリストから削除する、
付記１３に記載の装置。
（付記１７）前記プロセッサは、
タームセットから出現頻度が高くない１つ以上のタームを削除するように構成された、
付記１３に記載の装置。
（付記１８）前記出現頻度が高くない１つ以上のタームは、文書中に所定回数未満しか出現しない１つ以上のタームである、付記１７に記載の装置。
（付記１９）前記出現頻度が低い１つ以上のタームは、コーパスにわたるタームの頻度分布を用いて特定される、付記１７に記載の装置。
（付記２０）前記プロセッサは、複数の文書を含むコーパスによりＴＦ−ＩＤＦ値を計算することにより、タームセットの各タームに対して、ＴＦ−ＩＤＦ値を決定するように構成された、
付記１３に記載の装置。
（付記２１）文書のタームセットの各タームに対して、ＴＦ−ＩＤＦ値を決定する段階と、
ＴＦ−ＩＤＦ値によりタームをソートして、ソート済みリストを生成する段階であって、ＴＦ−ＩＤＦ値が一番高い第１のタームがソート済みリストの一番上になり、ＴＦ−ＩＤＦ値が一番低い第２のタームがソート済みリストの一番下になる段階と、
ソート済みリストの連続するタームのそれぞれについて、そのＴＦ−ＩＤＦ値の差を計算し、複数の差を求める段階と、
差の標準偏差を計算する段階と、
標準偏差に基づきソート済みリストから１つ以上のタームを削除する段階と、
残ったタームを出力する段階と
を含む方法。
（付記２２）ソート済みリストから百分率閾値より下のタームを削除する段階をさらに含む、
付記２１に記載の方法。
（付記２３）標準偏差に基づきソート済みリストから１つ以上のタームを削除する段階は、
高いＴＦ−ＩＤＦ値と低いＴＦ−ＩＤＦ値との間差であるＴＦ−ＩＤＦ値間の差が標準偏差閾値より大きくなるまで、ソート済みリストを下から上へスキャンする段階と、
高いＴＦ−ＩＤＦ値を次のＴＦ−ＩＤＦ閾値として指定する段階と、
ＴＦ−ＩＤＦ値が前記次のＴＦ−ＩＤＦ閾値を満たさない１つ以上のタームをソート済みリストから削除する段階とを１回以上繰り返して、次のＴＦ−ＩＤＦ閾値を決定する段階をさらに含む、付記２１に記載の方法。
（付記２４）ソート済みリスト中に必要最低数のタームを残しつつ、ＴＦ−ＩＤＦ値がＴＦ−ＩＤＦ閾値を満たさない１つ以上のタームをソート済みリストから削除する段階をさらに含む、
付記２１に記載の方法。
（付記２５）タームセットから出現頻度が高くない１つ以上のタームを削除する段階をさらに含む、付記２１に記載の方法。
（付記２６）前記出現頻度が高くない１つ以上のタームは、文書中に所定回数未満しか出現しない１つ以上のタームである、付記２５に記載の方法。
（付記２７）前記出現頻度が低い１つ以上のタームは、コーパスにわたるタームの頻度分布を用いて特定される、付記２５に記載の方法。
（付記２８）複数の文書を含むコーパスによりＴＦ−ＩＤＦ値を計算することにより、タームセットの各タームに対して、ＴＦ−ＩＤＦ値を決定する段階をさらに含む、付記２１に記載の方法。
（付記２９）文書コーパスを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示し、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第１の検索を開始し、
前記検索タームに基づき前記コーパスから１つ以上の第１の検索結果を決定し、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示し、
グラフィカルユーザインターフェイスの検索結果ウィンドウに１つ以上の第１の検索結果を表示し、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに１つ以上の第１の検索示唆を表示するように構成されたプロセッサとを有する装置。
（付記３０）前記プロセッサは、
削除する検索タームのクリックによる選択を受け取り、
第２の検索のために、選択された検索タームを前記複数の検索タームから削除する、
付記２９に記載の装置。
（付記３１）前記プロセッサは、
検索示唆のクリックにより、加える検索示唆の選択を受け取り、
第３の検索のために、選択された検索示唆を前記複数の検索タームに加える、
付記２９に記載の装置。
（付記３２）前記プロセッサは、
検索結果のクリックによる選択を受け取り、
選択された検索結果に類似した１つ以上の検索結果を返し、
選択された検索結果に関係する１つ以上の追加の検索タームを特定し、
前記１つ以上の追加の検索タームを第１の検索の検索タームに加え、次の検索を開始し、
次の検索の１つ以上の検索結果であって選択された検索結果と類似した検索結果を返す、
付記２９に記載の装置。
（付記３３）前記プロセッサは、
検索結果の選択を受け取り、
選択された検索結果に関係し、関連するドメイン辞書に属する複数のタームを特定し、
平均類似性によりタームをソートし、
平均類似性が高い所定数のタームを選択し、
選択されたタームを第１の検索の検索タームに加え次の検索を開始する、
付記２９に記載の装置。
（付記３４）前記プロセッサは、
検索結果の選択を受け取り、
選択された検索結果に関係し、最新の検索示唆である複数のタームを特定し、
平均類似性によりタームをソートし、
平均類似性が高い所定数のタームを選択し、
選択されたタームを第１の検索の検索タームに加え次の検索を開始する、
付記２９に記載の装置。
（付記３５）前記プロセッサは、
タギングモードを開始する検索結果のクリックによる選択を受け取り、
タギングモードに入る、
付記２９に記載の装置。
（付記３６）前記プロセッサは、
検索結果に対して、示唆された複数のタグを生成し、
検索示唆ウィンドウに示唆されたタグを表示し、
示唆されたタグのクリックによる選択を受け取り、
示唆されたタグで検索結果をタグする、
付記２９に記載の装置。
（付記３７）前記プロセッサは、
示唆されたタグのクリックによる選択を受け取り、
示唆されたタグを検索タームに加え、次の検索を開始する、
付記２９に記載の装置。
（付記３８）前記プロセッサは、
検索結果のクリックによる選択を受け取り、
選択された検索結果を検索タームに加え、次の検索を開始する、
次の検索の１つ以上の検索結果を返す、
付記２９に記載の装置。
（付記３９）検索結果は画像またはビデオを含む、
付記２９に記載の装置。
（付記４０）グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する段階と、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第１の検索を開始する段階と、
前記検索タームに基づき文書のコーパスから１つ以上の第１の検索結果を決定する段階と、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示する段階と、
グラフィカルユーザインターフェイスの検索結果ウィンドウに１つ以上の第１の検索結果を表示する段階と、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに１つ以上の第１の検索示唆を表示する段階とを含む方法。
（付記４１）
削除する検索タームのクリックによる選択を受け取る段階と、
第２の検索のために、選択された検索タームを前記複数の検索タームから削除する段階とを含む、付記４０に記載の方法。
（付記４２）
検索示唆のクリックにより、加える検索示唆の選択を受け取る段階と、
第３の検索のために、選択された検索示唆を前記複数の検索タームに加える段階とを含む、
付記４０に記載の方法。
（付記４３）
検索結果のクリックによる選択を受け取る段階と、
選択された検索結果に類似した１つ以上の検索結果を返す段階と、
選択された検索結果に関係する１つ以上の追加の検索タームを特定する段階と、
前記１つ以上の追加の検索タームを第１の検索の検索タームに加え、次の検索を開始する段階と、
次の検索の１つ以上の検索結果であって選択された検索結果と類似した検索結果を返す段階とをさらに含む、付記４０に記載の方法。
（付記４４）
検索結果の選択を受け取る段階と、
選択された検索結果に関係し、関連するドメイン辞書に属する複数のタームを特定する段階と、
平均類似性によりタームをソートする段階と、
平均類似性が高い所定数のタームを選択する段階と、
選択されたタームを第１の検索の検索タームに加え次の検索を開始する段階と
をさらに含む、付記４０に記載の方法。
（付記４５）
検索結果の選択を受け取る段階と、
選択された検索結果に関係し、最新の検索示唆である複数のタームを特定する段階と、
平均類似性によりタームをソートする段階と、
平均類似性が高い所定数のタームを選択する段階と、
選択されたタームを第１の検索の検索タームに加え次の検索を開始する段階と
付記４０に記載の方法。
（付記４６）
タギングモードを開始する検索結果のクリックによる選択を受け取る段階と、
タギングモードに入る段階とをさらに含む、付記４０に記載の方法。
（付記４７）
検索結果に対して、示唆された複数のタグを生成する段階と、
検索示唆ウィンドウに示唆されたタグを表示する段階と、
示唆されたタグのクリックによる選択を受け取る段階と、
示唆されたタグで検索結果をタグする段階とをさらに含む、付記４０に記載の方法。
（付記４８）
示唆されたタグのクリックによる選択を受け取る段階と、
示唆されたタグを検索タームに加え、次の検索を開始する段階と
をさらに含む、付記４０に記載の方法。
（付記４９）
検索結果のクリックによる選択を受け取る段階と、
選択された検索結果を検索タームに加え、次の検索を開始する段階と、
次の検索の１つ以上の検索結果を返す段階とをさらに含む、付記４０に記載の方法。
（付記５０）検索結果は画像またはビデオを含む、付記４０に記載の方法。

Claims

クエリの最初のタームセットを受け取るよう構成されたインターフェイスと、
方法を実行するように構成されたプロセッサとを有する装置であって、
前記方法は、
候補タームセットを初期化する段階と、
次の段階、すなわち
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階；
２つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は２つ以上の候補タームに対する差分類似性に関係する段階；
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階；
平均差分類似性が所定閾値を満たさない１つ以上のタームを暫定タームセットから削除する段階；
差分類似性が高い暫定タームセットの１つ以上のタームを候補タームセットに入れる段階；
を所定回数繰り返す段階と、
候補タームセットの１つ以上のタームを選択する段階と、
選択した１つ以上のタームを返す段階とを含む
装置。
前記プロセッサは、
候補タームセットの各タームの平均類似性を決定し、
平均類似性が高い１つ以上のタームを選択することにより、
候補セットの１つ以上のタームを選択するように構成された、請求項１に記載の装置。
前記プロセッサは、
１つ以上のタームの各タームの第２の平均差分類似性を決定し、前記第２の平均差分類似性は各タームから候補タームセットのすべてのタームへの差分類似性の平均を表し、
第２の平均差分類似性が高い１つ以上のタームを選択することにより、
候補セットの１つ以上のタームを選択するように構成された、請求項１に記載の装置。
クエリの最初のタームセットを受け取る段階と、
候補タームセットを初期化する段階と、
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階；
２つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は２つ以上の候補タームに対する差分類似性に関係する段階；
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階；
平均差分類似性が所定閾値を満たさない１つ以上のタームを暫定タームセットから削除する段階；
差分類似性が高い暫定タームセットの１つ以上のタームを候補タームセットに入れる段階；
を所定回数繰り返す段階と、
候補タームセットの１つ以上のタームを選択する段階と、
選択した１つ以上のタームを返す段階と
を含む方法。
タームセットを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
文書のタームセットの各タームに対して、ＴＦ−ＩＤＦ値を決定し、
ＴＦ−ＩＤＦ値によりタームをソートして、ソート済みリストを生成し、ＴＦ−ＩＤＦ値が一番高い第１のタームがソート済みリストの一番上になり、ＴＦ−ＩＤＦ値が一番低い第２のタームがソート済みリストの一番下になり、
ソート済みリストの連続するタームのそれぞれについて、そのＴＦ−ＩＤＦ値の差を計算し、複数の差を求め、
差の標準偏差を計算し、
標準偏差に基づきソート済みリストから１つ以上のタームを削除し、
残ったタームを出力するプロセッサと
を有する装置。
文書のタームセットの各タームに対して、ＴＦ−ＩＤＦ値を決定する段階と、
ＴＦ−ＩＤＦ値によりタームをソートして、ソート済みリストを生成する段階であって、ＴＦ−ＩＤＦ値が一番高い第１のタームがソート済みリストの一番上になり、ＴＦ−ＩＤＦ値が一番低い第２のタームがソート済みリストの一番下になる段階と、
ソート済みリストの連続するタームのそれぞれについて、そのＴＦ−ＩＤＦ値の差を計算し、複数の差を求める段階と、
差の標準偏差を計算する段階と、
標準偏差に基づきソート済みリストから１つ以上のタームを削除する段階と、
残ったタームを出力する段階と
を含む方法。
文書コーパスを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示し、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第１の検索を開始し、
前記検索タームに基づき前記コーパスから１つ以上の第１の検索結果を決定し、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示し、
グラフィカルユーザインターフェイスの検索結果ウィンドウに１つ以上の第１の検索結果を表示し、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに１つ以上の第１の検索示唆を表示するように構成されたプロセッサとを有する装置。
グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する段階と、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第１の検索を開始する段階と、
前記検索タームに基づき文書のコーパスから１つ以上の第１の検索結果を決定する段階と、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示する段階と、
グラフィカルユーザインターフェイスの検索結果ウィンドウに１つ以上の第１の検索結果を表示する段階と、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに１つ以上の第１の検索示唆を表示する段階とを含む方法。