JP2009093647A

JP2009093647A - ワードと文書の深さの決定

Info

Publication number: JP2009093647A
Application number: JP2008259627A
Authority: JP
Inventors: David L Marvit; エルマーヴィットデイヴィド; Jawahar Jain; ジャインジャワハー; Stergios Stergiou; ステルギオウステリオス
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-10-05
Filing date: 2008-10-06
Publication date: 2009-04-30
Anticipated expiration: 2028-10-06
Also published as: US20090094209A1; JP5391632B2; EP2045732A3; EP2045732A2

Abstract

【課題】場合によっては、キーワード検索は情報の発見に効果的でない。
【解決手段】一実施形態では、文書の深さの決定には文書を説明する記録へのアクセスを含む。その記録はその文書の類似性を記録するものである。文書の深さはその類似性により決定する。文書の深さ分析をその文書の深さを用いて行うことができる。一実施形態では、ワードの深さの決定にはそのワードの類似性を記載した記録へのアクセスを含む。ワードの深さはその類似性により決定する。
【選択図】図１

Description

本発明は辞書分析に関し、より具体的にはワードと文書の深さの決定に関する。

データのコーパス（corpus）は大量の情報を保持しているが、関連する情報を見つけるのは困難である。キーワード検索が情報を見つける主な方法である。しかし、場合によっては、キーワード検索は情報の発見に効果的でないこともある。
［関連出願］
本願は、デイビッド・マービットらにより２００７年１０月５日に出願された米国仮出願第６０／９７７，７８２号、発明の名称「ワードの深さと文書の深さの決定及びその応用」、代理人管理第０７３３３８．０５４７号の米国特許法第１１９条（ｅ）項の利益を主張するものである。

一実施形態では、文書の深さの決定には文書を説明する記録へのアクセスを含む。その記録はその文書の類似性（affinities）を記録するものである。文書の深さはその類似性により決定する。文書の深さ分析をその文書の深さを用いて行うことができる。一実施形態では、ワードの深さの決定にはそのワードの類似性を記載した記録へのアクセスを含む。ワードの深さはその類似性により決定する。

実施形態では、ドメイン・オントロジー（domain ontology）の生成と問い合わせには次のものを含む：
１. ドメイン内の文書の収集実施形態では、文書はターム（collection of terms）の集まりである。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりは「ドメイン・コーパス（domain corpus）」と呼ぶ。

２. ドメイン内の関心ターム（「辞書ターム」）の特定ターム（terms）の例には、ワード（「木」など）、フレーズ（「グラフ・アルゴリズム」など）、ネームド・エンティティ（named entity）（「ニューヨーク」など）が含まれる。ターム（または概念）は違った形式を取りうる。場合によっては、同じ概念を表すのに異なるワード（words）を使用する。例えば、「kidney stones」と「kidney calculi」は両方とも同じ概念、すなわち「腎臓結石」を指す。また、場合によっては、語幹から多数の派生語（inflected variants）が生じる。例えば、語幹「tree」からは「木」や「木々」などの派生語がある。実施形態によっては、同じターム（term）の複数の形態（forms）を、同じタームにマッピングしたものとして取り扱う。適切な形態の辞書タームが文書に出てくるかも知れないが、その辞書タームがどの文書にも出てこなくてもよい。

辞書タームの特定方法の例には、医学用語辞典等である、人が作成した特定分野の辞書を用いる段階が含まれる。実施形態によっては、辞書タームのリストをコーパス（corpus）中の一連のテキスト（a set of strings of text）から自動的に作成してもよい。テキストを頻度によりインデックスまたはソートしてもよいし、ある閾値より頻度が高いテキストを選択してもよい。その他の適切な統計的方法を用いてターム（terms）を決定してもよい。実施形態によっては、「ワード（word）」は「ターム（term）」や「辞書ターム（dictionary term）」と読み替えてもよい。

３. 辞書タームが共起する場合に、その出現数を計算する。２つのタームは、各タームが同じ共起コンテキスト（the same co-occurrence context）内に少なくとも１回出現するとき、共起したものとする。コンテキストの例としては文書や段落がある。

４. ドメイン・オントロジーとなる有向重みつきグラフを作成する。その有向重みつきグラフは、ノードとして辞書タームを含み、エッジ（edges）の重みとして類似性を含む。マトリックス、バイナリ・ディシジョン・ダイアグラム、またはバイナリ・ディシジョン・ダイアグラムの集合等の適切なデータ構造で表しうる情報を、実際的な表示として「有向重みつきグラフ」を用いて表すことができる。

５. 有向重みつきグラフを問い合わせる手順を適用する。辞書タームを入力されると、その入力された辞書タームに関係する辞書タームがその手順により出力される。例えば、この手順により、入力されたタームに対して、差分有向類似性（以下に説明する）（differential directional affinity）を有するタームがソートされたリストとして出力される。この場合、その出力には、オントロジーが取り扱う領域に関して、入力されたタームにより密接に関係するタームが含まれている。

類似性の定義はどんなものを用いてもよい。実施形態によっては、次の定義を用いてもよい：
１. 基本類似性
ａ）タームＡとタームＢとの間の基本類似性（Ａ）を、タームＡまたはＢのいずれかを含むコンテキスト数に対する、タームＡ及びＢを両方とも含むコンテキスト数の比として定義する。

ｂ）タームＡとタームＢとの間の基本類似性（Ａ）を、タームＡまたはＢのいずれかを含むコンテキスト数の大きい方に対する、タームＡ及びＢを両方とも含むコンテキスト数の比として定義してもよい。

２. 有向類似性
タームＡとタームＢとの間の有向類似性（ＤＡｆｆ）を、コンテキスト中にタームＡが出現することを条件として、タームＢが出現する条件付き確立として定義してもよい。

すなわち、有向類似性は、タームＡを含むコンテキストに対する、タームＡとＢを両方とも含む共起コンテキストの数である。一般的にＤＡｆｆ（Ａ，Ｂ）とＤＡｆｆ（Ｂ，Ａ）とは異なる。

３. 差分有向類似性
タームＡとタームＢとの間の差分有向類似性（ＤｉｆｆＤＡｆｆ）は、タームＡとＢとの間の有向類似性から、コーパスにおけるタームＢの一般性（common-ness）を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームＢの一般性は、そのコーパス中の他のタームに対するタームＢの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームＢの一般性（common-ness）は、タームＢの平均類似性（ＡＡ）である。その場合、差分有向類似性の定義は次のようになる：

タームＢの平均類似性（ＡＡ）すなわち平均有向類似性は次式で定義される：

すなわち、平均類似性は共起コンテキストにおける他のタームに対するタームＢの有向類似性の平均である。

図１は、ワードや文書の深さを決定するシステム１０の一実施形態を示す。実施形態によっては、システム１０はワードの類似性（例えば、そのワードの平均類似性）からそのワードの深さ（word depth）を決定する。実施形態によっては、システム１０は文書の類似性（例えば、その文書のワードの平均類似性やその文書の平均類似性）からその文書の深さ（document depth）を決定する。実施形態では、システム１０は深さ分析を行う。深さ分析の例としては、要求された深さ（文書深さ）を満たす文書の検索、文書の深さを示すグラフィカル要素の表示、ユーザ文書に基づくユーザ深さ（user depth）の決定がある。

実施形態によっては、有向類似性はワードのサブセット（subset）が与えられた時にその逆インデックスＩＩに対して計算することもできる。ここで、インデックスＩＩには例えばワードｗ_ｉとｗ_ｊのエントリーＩ（ｗ_ｉ）とＩ（ｗ_ｊ）が含まれる。一般的に、逆インデックスはターム（term）から、その記憶位置へのマッピング、すなわちタームが現れる共起コンテキストへのマッピングを格納したインデックスデータ構造である。Ｄ中のワードｗ_ｉとｗ_ｊの各ペアに対して、ＩＩ中のエントリーＩ（ｗ_ｉ）とＩ（ｗ_ｊ）の結合の値の数をＩ（ｗ_ｉ）中の値の数で割った値としてＤＡ（ｉ，ｊ）を定義する。一般的に、ＤＡ（ｉ，ｊ）はＤＡ（ｊ，ｉ）に必ずしも等しいとは限らない。その結果は任意の適切な方法で格納できる。例えば、Ｄ（１，ｉ）を格納し、次にＤ（２，ｊ）を格納し、以下同様に格納するように行ごとに格納できる。各行ｉについて、｜Ｉ（ｗ_ｉ）｜を格納し、その後にｗ_ｊとの結合（conjunction）の濃度を格納する。

実施形態によっては、有向類似性は３段階で計算できる。実施形態では、各辞書タームには位置的な整数識別子が付与される。逆インデックスのエントリーは整数識別子に対応する。段階０では、Ｄに対応するＩＩのエントリーを読み出す。パラメータ（ｓ，ｏ）に対して、その形式がｋｓ＋ｏである要素識別子を保存する。値ｋｓ＋ｏにより、調べるべきＩＩエントリーのサブセットが決まる。このように、有向類似性を平行して計算できる。一例として、パラメータｓ，ｏ（１，０）からの結果はパラメータ（３，０）、（３，１）、（３，２）で計算したものから得られる結果と同じである。この段階により逆インデックスの非常に大きなＤＡテーブルの計算も可能となる。

段階１では、ＤＡ（ｉ，ｊ）のみに対して行ごとに結合を計算する。段階２では、計算された上部三角領域のＵＴＤＡ配列を読み出す。下部三角領域は、上記三角領域からその転置として求められる。実施形態では、同じ次元の複数のＤＡ配列をひとつの配列に結合してもよい。大きなＩＩのＤＡ配列は、パラメータを（ｓ，ｉ）としてｉ＝０．．（ｓ−１）にわたるＤＡの和として計算できる。有向類似性（directional affinities）を算出できるように、付加的な情報を計算した結合とともに記憶してもよい。実施形態によっては、ＩＩエントリーの濃度を記憶してもよい。

実施形態では、ＤＡを行ごとに記憶し、ＡＡエントリーの計算をＤＡエントリーの計算と並行して進めることができる。特に、ＤＡの行をディスクから読み出しつつ加算し、最後に辞書エントリーの数で規格化することによってＡＡを生成する。

図示した実施形態において、システム１０はクライアント２０、サーバ２２、及びメモリ２４を含む。ユーザは、クライアント２０によりサーバ２２と通信して、言語のオントロジーを生成する。クライアント２０は、ユーザ入力をサーバ２２に送信し、サーバ出力をユーザに提供（例えば、表示や印刷）する。サーバシステム２４は言語のオントロジーを生成するアプリケーションを管理する。メモリ２４はサーバシステム２４が使うデータを記憶する。

図示した実施形態において、メモリ２４はページ５０とレコード５４とを記憶している。ページ５０（すなわち文書または共起コンテキスト）はワード（word）の集まりである。ページ５０の例としては、文書のページや、文書や、ブックや、ウェブページや、通信（例えば電子メールやインスタントメッセージ）その他がある。ページ５０はページ識別子により識別できる。ページ５０は有体のコンピュータ読み取り可能媒体に電子的に記憶されていてもよい。ページ５０には任意の適切なコンテンツが関連していてもよい。例えば、テキスト（文字、ワード、数字等）、画像（グラフィックス、写真、ビデオ等）、オーディオ（録音、コンピュータ生成サウンド等）、ソフトウェアプログラムが関連していてもよい。実施形態では、一組のページ５０がコーパス（corpus）に属している。コーパスは特定の主題、コミュニティ、組織、エンティティ（entity）に関連している。

レコード５４はページ５０を記述する。上記実施形態では、レコード５４は、インデックス５８、逆インデックス６２、オントロジー６６、クラスター６７を含む。インデックス５８はインデックスリストを含み、ページ５０のインデックスリストはページ５０のワードを示す。逆インデックス６２は逆インデックスリストを含み、あるワード（または一組のワード）の逆インデックスリストはそのワード（または一組のワード）を含むページ５０を示す。一実施例では、リストＷ_ｉはワードｗ_ｉを含むページ５０のページ識別子を含む。リストＷ_ｉ＆Ｗ_ｊはワードｗ_ｉとｗ_ｊを両方とも含む結合ページ（conjunction pages）５０のページ識別子を含む。リストＷ_ｉ＋Ｗ_ｊはワードｗ_ｉまたはｗ_ｊのいずれかを含む分離ページ（disjunction pages）５０のページ識別子を含む。Ｐ（Ｗ_ｉ）はＷ_ｉのページ５０の数、すなわちワードｗ_ｉを含むページ５０の数である。

一実施形態では、リスト（インデックスリスト、逆インデックスリスト等）はバイナリ・ディシジョン・ダイアグラム（ＢＤＤ）として記憶される。一実施例では、集合Ｗ_ｉのバイナリ・ディシジョン・ダイアグラムＢＤＤ（Ｗ_ｉ）はワードｗ_ｉを有するページ５０を表す。ＢＤＤ（Ｗ_ｉ）の十分割当カウント（satisfying assignment count）Ｓａｔｉｓｆ（ＢＤＤ（Ｗ_ｉ））によりワードｗ_ｉを有するページ５０の数Ｐ（Ｗ_ｉ）が求まる。

したがって、

オントロジー６６は言語のワードとそのワード間の関係を表すものである。一実施形態では、オントロジー６６はワード間の類似性（affinities）を表す。図示した実施例では、オントロジー６６は類似性マトリックスと類似性グラフを含む。類似性マトリックスの例を図３乃至図５を参照して説明する。類似性グラフの例を図６を参照して説明する。クラスター６７は互いに関係するワードのクラスターを記録している。クラスターは図７を参照してより詳細に説明する。

図示した実施形態では、サーバ２２は類似性モジュール３０、クラスターリングモジュール３１、及びオントロジー特性モジュール３２を含む。類似性モジュール３０はワードのペアの類似性を計算し、その類似性を類似性マトリックスに記録し、及び／または類似性マトリックスをレポートする。類似性モジュール３０は類似性グラフも生成できる。類似性モジュール３０は図２を参照してより詳細に説明する。

実施形態では、クラスターリングモジュール３１は、データセット中の関係のある要素のクラスターを特定することにより、そのデータセット中のパターンを発見する。実施形態では、クラスターリングモジュール３１は一組のワード（例えば、言語や一組のページ５０等）のクラスターを特定できる。一般的に、クラスターのワードは互いに強く関係しているが、クラスター外のワードとは関係していない。ワードのクラスターはその一組のワードのテーマ（すなわちトピック）を指定する。実施形態では、クラスターリングモジュール３１は、関係するワード間の類似性によりそのクラスターを特定する。その実施形態では、クラスターのワードは互いに強く類似しているが、クラスター外のワードとは類似していない。クラスターリングモジュール３１は図７を参照してより詳細に説明する。

実施形態では、オントロジー特性モジュール３２は一組のワード（例えば、ワードやそのワードを含む文書）のオントロジー特性（ontology features）を決定し、そのオントロジー特性を様々な場合に適用する。オントロジー特性はワードセットの特徴であり、言語のオントロジー空間にそのワードセットを配置するものである。オントロジー特性の例としては深さ（depth）と具体性（specificity）がある。実施形態では、深さ（depth）はワードセットのテキストとしての精巧さ（textual sophistication）を示す。深さがより大きい（深い）ワードセットは、より技術的かつ専門的であり、深さがより小さい（浅い）ワードセットは、より一般的なものである。実施形態では、ワードセットの具体性はそのワードセットのテーマの数に関係する。具体性が高いワードセットが有するテーマはより少なく、具体性が低いワードセットが有するテーマはより多い。

オントロジー特性モジュール３２はオントロジー特性を任意の適切な場合に適用する。適切な場合とは、例えば、オントロジー特性による文書の検索、ソート、選択や、文書のオントロジー特性のレポートや、ユーザの文書のオントロジー特性の決定などである。オントロジー特性モジュール３２は図８を参照してより詳細に説明する。

システム１０の構成要素は、インターフェイス、ロジック、メモリ、その他の適切な要素を含む。インターフェイスは入力を受信し、出力を送信し、入力や出力を処理し、その他の適当な動作を行う。インターフェイスはハードウェア及び／またはソフトウェアを含む。

ロジックは、これらの構成要素の動作を行い、例えば、入力から出力を生成する命令を実行する。ロジックはハードウェア、ソフトウェア及び／またはその他のロジックを含む。ロジックは有体媒体にエンコードされ、コンピュータにより実行された時に動作するものであってもよい。プロセッサ等のある種のロジックが構成要素の動作を管理してもよい。プロセッサの例としては、例えば、コンピュータ、マイクロプロセッサ、アプリケーションその他のロジックがある。

メモリは情報を記憶する。メモリは有体の、コンピュータ読み取り可能な、及び／またはコンピュータ実行可能な記憶媒体である。メモリの例には、コンピュータのメモリ（ＲＡＭ、ＲＯＭ等）、大規模記憶媒体（ハードディスク等）、リムーバブル記憶媒体（ＣＤ、ＤＶＤ等）、データベースやネットワーク記憶装置（サーバ等）、その他のコンピュータ読み取り可能な媒体が含まれる。

本発明の範囲から逸脱することなく、システム１０に修正、追加、または削除をすることができる。システム１０の構成要素は一体であっても分かれていてもよい。さらに、システム１０の動作を実行する構成要素は、これより多くても少なくてもよいし、他の構成要素であってもよい。例えば、生成器４２、４６の動作を１つの構成要素により行ってもよいし、類似性計算器３４の動作を２つ以上の構成要素でおこなってもよい。また、システム１０の動作の実行は、ソフトウェア、ハードウェア、及び／またはその他のロジックを含む任意の適切なロジックを用いて行ってもよい。本明細書では、「各」とは、集合の各要素、または集合の部分集合の各要素を指す。

本発明の範囲から逸脱することなく、マトリックスの例に修正、追加、または削除をすることができる。マトリックスに含まれる値はこれより多くても少なくてもよく、他の値が含まれてもよい。また、マトリックスの値を任意の適切な順序で構成してもよい。

図２は、図１のシステム１０で使用できる類似性モジュール３０の一実施形態を示す図である。類似性モジュール３０はワードのペアの類似性を計算し、その類似性を類似性マトリックスに記録し、及び／またはその類似性マトリックスをレポートする。類似性モジュール３０は類似性グラフも生成できる。

図示した実施形態では、類似性モジュール３０は類似性計算器３４、オントロジー生成器３８、及びワード推奨器４８を含む。類似性計算器３４は、ワードｗ_ｉの、または第１のワードｗ_ｉと第２のワードｗ_ｊを含むワードペアの任意の適切なタイプの類似性を計算する。類似性の例には基本類似性、有向類似性、平均類似性、差分類似性、その他の類似性が含まれる。

一実施形態では、ワード推奨器４８は、シード・ワード（seed word）を受け取り、そのシード・ワードとの類似性が類似性閾値より高いワードを特定する。類似性閾値は任意の適切な値であり、０．２５、０．５、０．７５、０．９５やこれらより大きな値であってもよい。類似性閾値は予めプログラムしても、ユーザが指定してもよい。

基本類似性はワードｗ_ｉ及び／またはｗ_ｊを含むページ５０の量（例えば数）に基づき計算できる。結合ページ量（conjunction page amount）はワードｗ_ｉとｗ_ｊを両方とも含むページ５０の量を表し、分離ページ量（disjunction page amount）はワードｗ_ｉまたはｗ_ｊのいずれか一方を含むページ５０の量を表す。基本類似性は結合ページ量を分離ページ量で割って求められる。一実施例では、結合ページ数はワードｗ_ｉとワードｗ_ｊを含むページ数を示し、分離ページ数はワードｗ_ｉまたはワードｗ_ｊのいずれかを含むページ数を示す。基本類似性は結合ページ数を分離ページ数で割って求めることができる。

図３は、基本類似性を記録した類似性マトリックス１１０の一例を示す図である。図示した例では、類似性マトリックス１１０はワードｗ_１，．．．，ｗ_５のペアごとの類似性を記録している。類似性マトリックス１１０によると、ワードｗ_０とｗ_１の間の類似性は０．００３であり、ワードｗ_０とｗ_２の間の類似性は０．００５であり、以下同様である。

図１に戻り、類似性グループは相互に類似性が高いワードのペアを含み、この類似性グループを用いてページのコンテンツに対するワードｗ_１、ｗ_２間の関係を捉える。類似性が類似性グループ閾値よりも高いことを、類似性が高いという。閾値は任意の適切な値であり、０．５０、０．６０、０．７５、０．９０、０．９５より大きな値であってもよい。１つのワードは２つ以上の類似性グループに属してもよい。一実施形態では、類似性グループはＢＤＤとして表すことができる。逆インデックス６２に、ＢＤＤのポインタをそのグループの各ワードとともに格納してもよい。

有向類似性を用いてワードｗ_ｊに対するワードｗ_ｉの重要性を測ることができる。類似性計算器３４は、ワードｗ_ｊが与えられたときのワードｗ_ｉの有向類似性を、ワードｗ_ｉとｗ_ｊを含むページ５０の量（例えば数）から計算する。ワードｗ_ｉページ量は、ワードｗ_ｉを含むページ５０の量を表す。ワードｗ_ｊが与えられたときのワードｗ_ｉの有向類似性は、結合ページ量をワードｗ_ｊページ量で割ったものである。例えば、ワードｗ_ｊページの数はワードｗ_ｉを含むページ５０の数を示す。ワードｗ_ｊが与えられたときのワードｗ_ｉの有向類似性は、結合ページ５０の数をワードｗ_ｉページ５０の数で割ったものである。

ＤＡｆｆｉｎｉｔｙ（ｗ_ｉ，ｗ_ｊ）はＤＡｆｆｉｎｉｔｙ（ｗ_ｊ，ｗ_ｉ）と同じではない。ワードｗ_ｉとｗ_ｊの間の有向類似性ＤＡｆｆｉｎｉｔｙ（ｗ_ｉ，ｗ_ｊ）が高いということは、ページ５０がワードｗ_ｊを含むときにそのページ５０がワードｗ_ｉを含む確率が高いということを示す。一例では、ページ［１２３４５６］がワードｗ_ｉを含み、ページ［４２］がワードｗ_ｊを含む。ワードｗ_ｊを含むページがワードｗ_ｉも含むということは、ワードｗ_ｊの観点からは、ワードｗ_ｉの重要性が高いということである。ワードｗ_ｉを含むページの１／３のみがワードｗ_ｊを含むということは、ワードｗ_ｉの観点からは、ワードｗ_ｊの重要性が低いということである。

図４は、ワードｗ_０，．．．ｗ_５の基本類似性を記録した類似性マトリックス１２０の一例を示す図である。上記の例では、ワード１２４はＡワード、ワード１２８はＢワードである。マトリックス１２０の行はＡワードが与えられたときのＢワードの類似性を記録し、類似性マトリックス１２０の列はＢワードが与えられたときの類似性を記録する。

図１に戻り、他のワードｗ_ｊに対するワードｗ_ｉの平均類似性を計算する。一実施形態では、平均類似性は、ワードｗ_ｉとその他のすべてのワードｗ_ｊとの間の類似性の平均である。Ｎ個のワードに対するワードｗ_ｉの平均類似性は次式で表される。

図５は、平均類似性を記録した類似性マトリックス１４０の一例を示す図である。行１４２はワード１乃至ワード５０，０００の基本類似性を記録している。行１４４はワード１乃至ワード５０，０００の平均類似性を記録している。

図１に戻り、ワードの平均類似性はそのワードの深さを示す。平均類似性が低いワードは深いワードであると考えられ、平均類似性が高いワードは浅いワードであると考えられる。深いワードは技術的であり、具体的であり、精密であるという傾向がある。深いワードの割合が高いページ５０は深いページであると考えられ、深いワードの割合が低いページ５０は浅いページであると考えられる。一実施形態では、ユーザは検索するワード及び／またはページ５０の深さを指定することができる。

ページ５０の深いワードは関係性が高いワードのクラスターを形成する。クラスターは共通のアイデアやテーマを表す。ページ５０のテーマ数はそのページ５０の具体性（specificity）を示す。テーマが少ないページ５０はより具体的であると考えられ、テーマが多いページ５０はあまり具体的でないと考えられる。

ワードｗ_ｊに対するワードｗ_ｉの差分類似性は、ワードｗ_ｉとｗ_ｊの間の有向類似性からワードｗ_ｊのその他すべてのワードとの平均類似性を引いたものである。差分類似性は次式で表せる：

差分類似性は、ページ５０にワードｗ_ｊが出現する一般的な傾向によるバイアスを除去したものである。場合によっては、差分類似性は、ページがワードｗ_ｊを含むときにそのページがワードｗ_ｉを含む確率をより正確に示すものである。
差分類似性を様々に応用できる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。

類似性計算器３４は、任意の適切な方法を用いて逆インデックスリストを検索し類似性を計算する。例えば、ワードｗ_ｉとワードｗ_ｊを両方とも含むページを特定するため、類似性計算器３４は、ワードｗ_ｉのリストＷ_ｉとワードｗ_ｊのリストＷ_ｊを検索して共通の要素（すなわち共通のページ識別子）を探す。

実施形態では、オントロジー生成器３８は、類似性マトリックスや類似性グラフなどの、言語のオントロジー６６を生成する。オントロジーは、基本類似性、有向類似性、平均類似性、差分類似性その他の任意の適切な類似性から生成できる。オントロジー６６は、任意の適切な方法で、言語から選択されたワードから生成できる。例えば、その言語の一般的に使用されている部分のワードや、主題領域に関係するワードを選択する。

図示した実施例では、オントロジー生成器３８は類似性マトリックス生成器４２と類似性グラフ生成器４６を含む。類似性マトリックス生成器４２は、ワード間の類似性を記録する類似性マトリックスを生成する。類似性グラフ生成器４６は、ワード間の類似性を表す類似性グラフを生成する。類似性グラフでは、ノードはワードを表し、ノード間の有向辺の重みはそのノードが表すワード間の類似性を表す。類似性グラフは任意の適切な次元数を有する。

図６は、類似性グラフ１５０の一例を示す図である。類似性グラフ１５０はノード１５４とリンク１５８を含む。ノード１５４はワードを表す。この例では、ノード１５４ａはワード「バイナリ（binary）」を表している。ノード１５４間の有向辺の重みは、ノード１５４が表すワード間の類似性を表す。例えば、重みが大きければ類似性が大きい。ノード間のリンク１５８は、そのノード１５４が表すワード間の類似性がある類似性閾値より大きいことを示している。類似性閾値は任意の適切な値であり、例えば、０．２５、０．５、０．７５、０．９５であっても、これらより大きな値であってもよい。

図７は、図１のシステム１０で使用できるクラスターリングモジュール３１の一実施形態を示す図である。実施形態では、クラスターリングモジュール３１は、データセット中の関係のある要素のクラスターを特定することにより、そのデータセット中のパターンを発見する。実施形態では、クラスターリングモジュール３１は一組のワード（例えば、言語や一組のページ５０等）のクラスターを特定できる。一般的に、クラスターのワードは互いに強く関係しているが、クラスター外のワードとは関係していない。ワードのクラスターはその一組のワードのテーマ（すなわちトピック）を指定する。

実施形態では、クラスターリングモジュール３１は、関係するワード間の類似性によりそのクラスターを特定する。その実施形態では、クラスターのワードは互いに強く類似しているが、クラスター外のワードとは類似していない。一実施形態では、ワードは、十分類似（sufficiently affine）していれば類似性が高い（highly affine）と考える。ワードは、類似性規準（例えば閾値）を満たせば十分類似している。以下に類似性規準の例を示す。

任意の適切な類似性を用いてクラスターを特定できる。実施形態では、クラスターリングモジュール３１は有向類似性を用いる。あるワードの他のワードに対する有向類似性はそのワードの共起性（co-occurrence）を特徴づける。クラスターは同様の共起性を有するワードを含んでいる。実施形態では、クラスターリングモジュール３１は差分類似性を用いる。差分類似性は、ページ５０にあるワードが出現する一般的な傾向によるバイアスを除去する傾向がある。

図示した実施形態では、クラスターリングモジュール３１はクラスターリングエンジン２１０とクラスターリング分析器２１４とを含む。クラスターリングエンジン２１０は類似性によりワードのクラスターを特定し、クラスターリング分析器２１４は類似性によるクラスターリングを用いて様々な分析を行う。

クラスターリングエンジン２１０は任意の適切な方法で、類似性によるワードのクラスターを特定する。クラスターの特定方法の３つの例を説明する：一組のワードからのクラスターの構成と、ワードのクラスターへのソーティングと、ワードの類似性ベクトルの比較である。一実施形態では、クラスターリングエンジン２１０は一組のワードからクラスターを構成する。一例では、クラスターリングエンジン２１０は、類似性＊Ａｆｆ（ｗ_ｉ，ｗ_ｊ）を有するワード｛ｗ_ｉ｝の集合ＷからクラスターＳを構成する。類似性値＊Ａｆｆ（ｗ_ｉ，ｗ_ｊ）はワードｗ_ｉのワードｗ_ｊに対する、有向類似性ＤＡｆｆｉｎｉｔｙ（ｗ_ｉ，ｗ_ｊ）や差分類似性ＤｉｆｆＡｆｆ（ｗ_ｉ，ｗ_ｊ）等の任意の適切な類似性を表す。ここで挙げる類似性値の例は規格化した値であってもよい。上記の例では、Ａｆｆ_ｆｏｒ（ｗ_ｉ，ｗ_ｊ）は前方類似性を表し、Ａｆｆ_ｂａｃｋ（ｗ_ｊ，ｗ_ｉ）は後方類似性を表す。

上記の例では、クラスターＳはシード・ワードｗ_ｑで始まる。カレントワード（current word）ｗ_ｘは、その時の繰り返し（current iteration）において集合Ｗのワードと比較される、クラスターＳのワードを表す。カレントワードは、最初にシード・ワードｗｑに設定される。

１回の繰り返しにおいて、カレントワードｗｘはクラスターＳのワードに設定される。集合Ｗのワードｗ_ｉは、カレントワードｗｘとの前方類似性Ａｆｆ_ｆｏｒ（ｗ_ｉ，ｗ_ｊ）に応じてソートされる。ソートされた集合Ｗの始めから開始して、類似性規準を満たす候補ワードｗ_ｃを特定する。類似性規準は次の規準を含む。すなわち、カレントワードｗ_ｘとの前方類似性規準（a forward affinity with the current word wx criterion）：

及び、シード・ワードｗ_ｑとの後方類似性規準（a backward affinity with the seed word w_q criterion）：

ここで、Ｔｈ_ｃｆは候補ワードの前方閾値を表し、Ｔｈ_ｃｂは後方ワードの後方閾値を表す。候補ワード｛ｗ_ｃ｝の順序付き集合の最初のワードをクラスターＳに加える。加えたワードの数はパラメータＳｉｚｅ_ｃで与えられる。閾値Ｔｈ_ｃｆとＴｈ_ｃｂは、最小値と最大値の間にある任意の適切な値を有する浮動小数点パラメータである。例としては、Ｔｈ_ｃｆとＴｈ_ｃｂの適切な値は実際の類似性の序列リスト（rank-ordered list）から決定される。例えば、リストの２００番目の値を使用する。パラメータＳｉｚｅ_ｃは任意の適切な値を有する整数パラメータである。適切な値の例として、デフォルト値を１，２，３または４にしてもよい。実施形態では、上記のパラメータは繰り返しによって変化してもよい。

繰り返し回数は任意の適切なものであればよい。一例では、繰り返し回数をこの方法の開始前に指定できる。他の例では、回数をこの方法の実行中に計算できる。例えば、その回数をクラスターＳの大きさの増大率から計算できる。

他の実施形態では、クラスターリングエンジン２１０は、一組のワードをクラスターにソーティングすることにより、クラスターを特定する。一例では、集合Ｗのワード｛ｗ_ｉ｝を、差分類似性や有向類似性などの類似性＊Ａｆｆ（ｗ_ｉ，ｗ_ｊ）に応じてソートする。他の例では、ワード｛ｗ_ｉ｝を、別のワード集合Ｑの各メンバーに対するワードｗ_ｉの類似性の累積関数（合計等）によりソートする。集合Ｗは任意の適切な方法で選択することができる。例えば、集合Ｗはクエリーに最も関係するＸ個のワードである。Ｘは任意の適切な値である。例えば、１０乃至１００、１００乃至２００、または２００以上の値である。

上記の例ではクラスターは最初、空である。集合Ｗの最初のワードｗ_ｉをクラスターに入れる。各繰り返しにおいて、集合Ｗからカレントワードｗ_ｘを選択する。＊Ａｆｆ（ｗ_ｘ，ｗ_ｆ）が類似性閾値Ｔｈにより与えられる類似性規準を満たせば、カレントワードｗ_ｘをクラスターに入れる。ここで、ｗ_ｆはそのクラスターに入れられた最初のワードを表す。閾値Ｔｈの値は任意の適切なものである。例えば、最小値が０．０で最大値が１．０のとき、０．１乃至０．５の範囲にある値である。＊Ａｆｆ（ｗ_ｘ，ｗ_ｆ）が閾値Ｔｈを満たさないとき、カレントワードｗ_ｘは空のクラスターに入れられる。集合Ｗの各ワードに対して繰り返す。

集合Ｗのワードを処理してから、小さいクラスターを削除してもよい。例えば、ワード数がＹに満たないクラスターを削除してもよい。Ｙは任意の適切な値であり、例えば、３乃至５、５乃至１０、１０乃至２５、２５乃至５０、または５０以上の範囲の値である。

クラスター数が満足のいく範囲になければ、閾値Ｔｈを変えて上記プロセスを繰り返す。閾値Ｔｈを変えることによりクラスターに入れる規準が厳しくなったりゆるくなったりする。上記の満足のいく範囲は、任意の適切な値であるクラスター数の最小値と最大値により決めてもよい。適切な値の例としては、最小値については１乃至５、５乃至１０、または１０以上の範囲の値であり、最大値については１０乃至１５、１５乃至２０、または２０以上の範囲の値である。閾値Ｔｈを大きくしてクラスター数を大きくしてもよいし、小さくしてクラスター数を小さくしてもよい。

他の実施形態では、クラスターリングエンジン２１０は、ワードの類似性ベクトルを比較することによりクラスターを特定する。実施形態では、類似性マトリックスの行と列により類似性ベクトル＜ｗ_ｉ，＊Ａｆｆ（ｗ_ｉ，ｗ_１），．．．，＊Ａｆｆ（ｗ_ｉ，ｗ_ｊ），．．．，＊Ａｆｆ（ｗ_ｉ，ｗ_ｎ）＞ができる。これはワードｗ_ｉのワードｗ_ｊ（ｊ＝１，．．．，ｎ）に対する類似性を表す。類似性値＊Ａｆｆ（ｗ_ｉ，ｗ_ｊ）はワードｗ_ｉのワードｗ_ｊに対する、有向類似性や差分類似性等の任意の適切な類似性を表す。

実施形態では、類似性値が近い（similar）類似性ベクトルはクラスターを示す。説明のためだけに、類似性ベクトルを類似性空間におけるワードの類似性の座標とみなしてもよい。すなわち、各類似性値＊Ａｆｆ（ｗ_ｉ，ｗ_ｊ）をある次元の座標とみなす。類似性値が近い（similar）類似性ベクトルは、そのベクトルが付随するワードが類似性空間において互いに近いことを示している。すなわち、そのベクトルは、そのワードが他のワードと有する類似性関係が近いことを示し、同じクラスターに含めることが適当であることを示す。

類似性ベクトルは、適切な距離関数により、１つの類似性ベクトルが他の類似性ベクトルの近傍にあるとき、類似性ベクトルは近い。距離関数は、類似性ベクトルに対して、その大きさのベクトルの標準的なユークリッド距離として、またはその大きさのベクトルの余弦（cosine）として定義することができる。距離関数は、クラスターリングエンジン２１０やユーザによって指定することもできる。

実施形態では、クラスターリングエンジン２１０はクラスターリング・アルゴリズムを用いて、互いに近い値を有する類似性ベクトルを特定する。クラスターリング・アルゴリズムの例には、ダイレクト（direct）・アルゴリズム、反復二分（repeated bisection）・アルゴリズム、集積（agglomerative）・アルゴリズム、バイアス集積（biased agglomerative）・アルゴリズムその他の適切なアルゴリズムなどがある。一例では、クラスターリングエンジン２１０は「ＣＬＵＴＯ」などのクラスターリングソフトウェアを含む。

クラスターリング分析器２１４は、任意の適切なアプリケーションにおいて分析のために類似性クラスターリングを用いる。一実施形態では、クラスターリング分析器２１４は類似性クラスターリングを用いてページをカテゴリー分けする。カテゴリーはクラスター識別子またはクラスターのメンバーと関連する。一例では、ページ５０のクラスターを特定し、そのページ５０をそのクラスターに応じてカテゴリー分けする。他の例では、ページ５０の重要なワードを選択し、そのワードを含むクラスターを見つける。ページ５０を見つけたクラスターに応じてカテゴリー分けしてもよい。

一実施形態では、クラスターリング分析器２１４は類似性クラスターリングを用いてページ５０のコーパスを分析する。コーパスは特定の主題、個人のコミュニティ、組織、その他のエンティティ（entity）に関連している。一例では、クラスターリング分析器２１４はコーパスのクラスターを特定し、そのクラスターからそのコーパスのコーパスキャラクタ（corpus character）を決定する。コーパスキャラクタはそのコーパスに付随するエンティティ（entity）に関連するワードを示す。ページ５０は、コーパスキャラクタのクラスターを有するとき、そのエンティティに関連している。

一実施形態では、クラスターリング分析器２１４は類似性クラスターリングを用いて、クエリーの曖昧性を除去し拡張する（query disambiguation and expansion）。上記の実施形態では、クラスターリング分析器２１４は、検索クエリーの検索タームを含むクラスターを特定する。クラスターによりその検索クエリーに関連する代替的なワードやカテゴリーが提供される。一例では、クラスターからのワードを検索者にレポートして、次の検索クエリーの支援をする。他の例では、クラスターリング分析器２１４は、クラスターからワードを選択して、新しい検索クエリーを自動的に形成する。クラスターリング分析器２１４はその新しいクエリーを順番に、または並行して実行する。

一実施形態では、クラスターリング分析器２１４は類似性クラスターリングを用いてソーシャルネットワークを調査（study）する。一例では、ページ５０はソーシャルネットワークに関する情報（insight）を提供する。かかるページの例としては、通信（手紙、電子メール、インスタントメッセージなど）、メモ、記事、議事録などがある。こうしたページ５０は、ソーシャルネットワークを形成する人々のユーザ識別子（名前など）であるワードを含む。名前のクラスターを特定して、そのネットワークを形成する人々の間の関係を分析する。一例では、別の類似性クラスターリングを用いて、システム管理者の名前など、情報を提供しないがほとんどのページ５０に現れる名前をフィルタ除去する。

実施形態では、クラスターリング分析器２１４は、データセットのクラスターを結合及び／または比較することにより、そのデータセットを分析する。一実施形態では、オーバーラップするデータセットのクラスターを比較する。１つのデータセットのクラスターを他のデータセットのクラスターにマッピングすると、そのデータセット間の関係についての情報（insight）が得られる。例えば、データセットは、職場のグループの文書の分析や、そのグループのソーシャルネットワークの調査（study）によるものである。ソーシャルネットワークのクラスターを文書の主題のクラスターにマッピングして、ソーシャルネットワークと主題の間の関係を分析する。

図８はオントロジー特性モジュール３２の一実施形態を示す図である。オントロジー特性モジュール３２は、一組のワード（例えば、ワードそのものやワードを含む文書）のオントロジー特性（ontology features）を決定し、そのオントロジー特性を様々な場合に適用する。その一組のワードには文書の基本的ターム（essential terms）が含まれているかも知れない。タームｔは、それに類似したｋ個のタームの少なくとも１つも文書に現れる場合、基本的タームである。現れなければそのタームｔはその文書にとっては基本的ではない。

オントロジー特性は、ある分野においてある文書を他の文書から意味的に区別する特性（feature）軸に沿って、その文書を特徴づける数量化可能な尺度である。例えば、文書の深さは理解可能性に関してその文書を区別し、文書の具体性はフォーカスに関してその文書を区別し、文書のテーマは記載されたトピックスの範囲（addressed range of topics）に関してその文書を区別する。オントロジー特性は任意の適切な方法で定義することができる。例えば、計算言語学における独立したアルゴリズムを用いて文書の可読性（readability）または深さ（depth）を特徴づけることができる。

図示した実施形態では、オントロジー特性モジュール３２は、深さエンジン２３０、テーマエンジン２４０、具体性エンジン２４４、オントロジー特性（ＯＦ）アプリケーションエンジン２５０を含む。深さエンジン２３０はワード（例えばワードそのものやワードを含む文書）の深さ（depth）を決定する。一般的に、深さはワードのテキスト的な精巧さ（textual sophistication）を示す。深さがより大きい（深い）ワードは、より技術的かつ専門的であり、深さがより小さい（浅い）ワードは、より一般的なものである。実施形態では、深さモジュール３２は文書のワードの深さを計算し、そのワードの深さに基づきその文書の深さを計算する。実施形態では、深さエンジン２３０は深さ値及び／または深さランキングを文書及び／またはワードに割り当てる。より深い文書またはワードにはより高い深さ値または深さランキングが割り当てられ、より浅い文書またはワードにはより低い深さ値または深さランキングが割り当てられる。

深さエンジン２３０はワードの深さを任意の適切な方法で計算する。実施形態では、深さエンジン２３０は平均類似性によりワードの深さを計算する。上記の実施形態では、ワードの深さはそのワードの平均類似性の関数である。より深いワードはより低い平均類似性を有し、より浅いワードはより高い平均類似性を有する。具体例では、深さエンジン２３０はワードをその平均類似性によりランキングすることによりそのワードの深さを計算する。平均類似性が低いワードには高い深さランキングが与えられ、平均類似性が高いワードには低い深さランキングが与えられる。

実施形態では、深さエンジン２３０はクラスターリング分析を用いてワードの深さを計算する。上記の実施形態では、クラスター内のワードは互いに強く類似しているが、クラスター外のワードとはそれほど類似していない。クラスター空間における距離を類似性により測るが、これは深さのインジケータである。実施形態では、属するクラスター数が少ないワード、小さいクラスターに属するワード、及び／または他のクラスターから遠いクラスターに属するワードは深いものとみなされる。一方、属するクラスター数が多いワード、大きいクラスターに属するワード、及び／または他のクラスターに近いクラスターに属するワードは浅いものとみなされる。

他の実施形態では、深さエンジン２３０は類似性グラフ１５０のリンク分析をしてワードの深さを計算する。リンク分析は、ＰＡＧＥＲＡＮＫなどの任意の適切なリンク分析アルゴリズムで行うことができる。便宜的に、図６の類似性グラフ１５０を利用してワードの深さを計算することもできる。類似性グラフ１５０はノード１５４とリンク１５８を含む。ノード１５４はワードを表す。ノード１５４間のリンク１５８は、そのノード１５４が表すワード間の類似性が、ある類似性閾値より大きいこと、すなわちそのワードが十分類似していることを示している。

実施形態では、深さエンジン２３０はノード１５４の人気度（popularity）を計算する。人気のあるノード１５４は浅いワードを表し、人気のないノード１５４は深いワードを表す。第１のノード１５４から第２のノード１５４へのリンク１３６は、第１のノード１５４による第２のノード１５４への人気度投票（popularity vote）であると考えられる。また、人気のあるノード１５４からの投票（vote）は人気のないノード１５４からの投票よりも重みが大きい。さらに、第１のノード１５４の第２のノード１５４に対する類似性はその投票に重みづけする。深さエンジン２３０はノード１５４への重みつき投票から、そのノード１５４の人気度を計算する。人気のないワードは深いものと考えられ、人気のあるワードは浅いものと考えられる。

深さエンジン２３０は文書の深さを任意の適切な方法で計算する。実施形態では、深さエンジン２３０は文書の少なくとも１つのワード、一部のワード、またはすべてのワードの深さにより、その文書の深さを計算する。実施形態では、ワードの深さは平均類似性で与えられ、文書の深さをその文書のワードの平均類似性から計算してもよい。例えば、文書の浅さ（shallowness）はその文書のワードの平均類似性の平均、すなわち、その文書中の各ワードの平均類似性の合計をその文書中のワードの総数で割ったものである。文書の深さは、その文書の浅さの逆数として計算できる。

実施形態では、深さは文書中の選択された一組のワードの平均深さから計算できる。選択された一組のワードには、その文書の基本的ワードが含まれる。例えば、（深さが）トップＸ％のワードが含まれる。ここで、Ｘは１０より小さくても、１０乃至２０でも、２０乃至３０でも、３０乃至４０でも、４０乃至５０でも、５０乃至６０でも、６０乃至７０で、７０より大きくてもよい。選択された一組のワードには、Ｐ％の標準的な文法ワードや、Ｑ％のストップワードが含まれない。ここで、ＰとＱは任意の適切な値であり、１０より小さくても、１０乃至２０でも、２０乃至３０でも、３０乃至４０でも、４０乃至５０でも、５０乃至６０でも、６０乃至７０で、７０より大きくてもよい。

実施形態では、深さエンジン２３０は文書におけるワードの深さの分布により、その文書の深さを計算する。実施形態では、深い文書は、深いワードを有する割合が高い。ワードの深さ分布の一例を、図９を参照して詳しく説明する。

図９は、ワードの深さの分布例を示すグラフ２４０である。グラフ２４０はある文書中のある深さを有するワードの割合を示す。実施形態では、深さエンジン２３０は最大閾値Ｔｈ_ｍａｘを越える深さを有するワードを破棄してもよい。実施形態では、深さエンジン２３０は、深さが処理閾値Ｔｈ_ｐｒｏｃより高く、（もしあれば）最大閾値Ｔｈ_ｍａｘより低い処理範囲にあるワードに基づき文書の深さを計算する。割合Ｘ％は処理されないワードの割合を表し、割合Ｙ％は処理されるワードの割合を表す。割合Ｙ％は任意の適切な値を有し、例えば、２％乃至５％、５％乃至１０％、または１０％以上である。実施形態では、深さエンジン２３０は、一定のワード（selected words）から文書の深さを計算する。例えば、深さエンジン２３０は言語中のある頻度レベル、例えば頻度がトップのワードからＺ個までのワード内にあるワードを選択する。ここでＺは、例えば１０，０００乃至５０，０００、または５０，０００以上の範囲の値である。

図８に戻り、実施形態では、深さエンジン２３０は文書の類似性（affinity）によりその文書の深さを計算する。文書間の類似性はその文書間の関係を示す。実施形態では、平均ワード類似性がそのワードの深さを示すのと同様に、平均文書類似性はその文書の深さを示す。文書の類似性は任意の適切な方法で定義することができる。一例では、共通ワード数Ｐ（Ｄ_１＆Ｄ_２）は文書Ｄ_１とＤ_２の両方にあるワードの数を示し、個別ワード数Ｐ（Ｄ_１＋Ｄ_２）は文書Ｄ_１またはＤ_２のいずれかにあるワードの数を示す。文書Ｄ_１とＤ_２の間の文書類似性ＤｏｃＡｆｆは次式で定義できる：

深さエンジン２３０は、平均ワード類似性の計算と同様に平均文書類似性を計算する。平均類似性が低い文書は深いものであると考えられ、平均類似性が高い文書は浅いものであると考えられる。

実施形態では、深さエンジン２３０は、文書類似性グラフのリンク分析をして文書の深さを計算する。文書類似性グラフは類似性グラフ１５０と同様だが、文書類似性グラフのノードはワードではなく文書を表す。深さエンジン２３０は、第１の文書を表す第１のノードから第２の文書を表す第２のノードへのリンクを、第１の文書が与えられたときの第２の文書の文書類似性で重み付けする。出て行くリンクの重みを規格化してもよい。

実施形態では、深さグラフをユーザインターフェースに表示して文書の深さを表示する。深さレベルを選択できる深さスライダーを併せて表示してもよい。実施形態では、文書がより大きな文書のセクションであるとき、深さグラフはそのセクションを示す。

実施形態では、深さエンジン２３０は文書深さを任意の適切な方法で計算できる。例えば、文書の類似性のヒストグラムを処理し、及び／または深さに基づき異なるワードの割合をトランケート（truncate）してからヒストグラムを処理することができる。他の方法には、Ｇｕｎｎｉｎｇ−Ｆｏｇ法、Ｆｌｅｓｃｈ法、またはＦｒｙ法がある。

実施形態では、深さエンジン２３０は深さ値をある深さレベルにマッピングして、深さを較正してもよい。実施形態では、範囲Ｒ_ｉの深さ値をレベルＬ_ｉにマッピングする。例えば、Ｒ_０＝｛ｒ_０：ｒ_０＜ｃ_０｝をレベルＬ_０にマッピングし、Ｒ_１＝｛ｒ_１：ｃ_０＜ｒ_１＜ｃ_１｝をレベルＬ_１にマッピングし、．．．、Ｒ_ｎ＝｛ｒ_ｎ：ｃ_ｎ＜ｒ_ｎ｝をレベルＬ_ｎにマッピングする。これらの範囲は任意の適切な深さ値を含み、同じ大きさである必要はない。レベルの数は任意の適切なものであればよく、５より少なくても、５から７であっても、７または８であっても、８から１０であっても、１０から２０であっても、２０から５０であっても、５０から１００であっても、１００より多くてもよい。

テーマエンジン２４０は文書のテーマ（すなわちトピックス）を決定する。実施形態では、クラスターリングモジュール３１が特定した文書中のワードのクラスターから、テーマエンジン２４０がテーマを決定する。上記の通り、ワードのクラスターはその一組のワードのテーマ（すなわちトピック）を指定する。文書のテーマはその文書の内容に関して有用な情報を提供する。例えば、クラスター｛腎臓、肝臓、タンパク質、問題｝を含む文書は、おそらく腎臓の機能低下による肝臓からのタンパク質のもれに関するものであり、インゲン豆のタンパク質成分に関するものではない。

実施形態では、テーマエンジン２４０はテーママップからテーマを決定する。上記の実施形態では、例えば、ターム頻度−逆文書頻度（ＴＦ−ＩＤＦ）（term frequency-inverse document frequency）法など任意の適切な方法を用いて文書からキーワードを抽出する。キーワードを用いてテーママップからテーマの候補を選択する。テーマ候補を文書と比較して、そのテーマがその文書に合致するか決定する。例として、テーマ候補のヒストグラムを文書のヒストグラムと比較する。テーマ候補が文書と合致したら、そのテーマにより、その文書のテーマのタイプや数を推定する。

具体性エンジン２４４は文書の具体性（specificity）を計算する。実施形態では、具体性エンジン２４４は、具体性値及び／または具体性ランキングを文書に割り当てる。より具体的な文書にはより高い具体性値または具体性ランキングが割り当てられ、より具体的でない文書にはより低い具体性値または具体性ランキングが割り当てられる。

実施形態では、具体性エンジン２４０は文書のテーマの数から具体性を計算する。例として、具体的な文書のテーマは少なく、具体的でない文書のテーマは多い。実施形態では、具体性エンジン２４０は文書のテーマの数と、そのテーマ間の類似性から具体性を計算する。例として、具体的な文書のテーマは、テーマ間の類似性が高くて少ない。一方、具体的でない文書のテーマは、テーマ間の類似性が低くて多い。

実施形態では、テーマの数は深さ（またはレベル）に依存する。例えば、深さが小さい１つのテーマは深さが大きい複数のテーマを表す。実施形態では、深さはユーザが深さスライダーを用いて選択するか、予め決まっている。実施形態では、レベルはユーザが選択するか、予め決まっている。例えば、任意の適切な数のレベルを決めて、そのレベルに対して深さを計算する。例えば、レベルは、ドメインベース（例えば、エンジニアリング、医療、ニュース、スポーツ、金融などのドメイン）、専門ベース（例えば、心臓科、眼科、腎臓科などの専門）、トピックベース（例えば、高血圧、コレステロール、バイパス手術、動脈硬化などのトピックス）、詳細ベース（例えば、立ちくらみ、慢性高血圧、急性高血圧などの詳細）、解決策ベース（例えば、老人性病因、医薬、遺伝子などの解決策）、人ベース（例えば、ユーザクエリーレベルなど）などがある。

オントロジー特性アプリケーションエンジン２５０は、（深さ、テーマ、具体性などの）オントロジー特性を用いて、任意の適切な状況でオントロジー特性分析を行う。適切な場合とは、例えば、オントロジー特性による文書の検索、ソート、推奨、選択や、文書のオントロジー特性のレポートや、ユーザの文書（または複数組みの文書）のオントロジー特性の決定などである。実施形態では、オントロジー特性アプリケーションエンジン２５０はオントロジー特性に関する情報を含むインデックスを使用する。一例では、オントロジー特性アプリケーションエンジン２５０は、深さランキングにより生成及び／または維持された文書深さ（ＤＤ）逆インデックス６２を使用する。ＤＤ逆インデックス６２は、ＤＤ逆インデックスリストを含む。ワードのＤＤ逆インデックスリストは、そのワードを含む文書（またはページ５０）の文書識別子をリストする。文書の文書識別子はその文書の深さを示す。例えば、文書識別子のエンコードに用いるバイナリエンコーディングは、深さを示す。場合によっては、ＤＤ逆インデックスリストは十分な深さを有する文書のみをリストしたものである。他の例では、オントロジー特性アプリケーションエンジン２５０は、逆インデックス６２に加えてランキングテーブルと深さテーブルを利用する。深さテーブルは文書の深さを示すものである。

実施形態では、オントロジー特性アプリケーションエンジン２５０は、指定された文書深さや具体性の値などの指定されたオントロジー特性値を有する文書を検索する。指定地は予め決められていても、計算してもユーザが選択してもよい。実施形態では、深さスライダーや具体性スライダーを用いて値を選択してもよい。

実施形態では、オントロジー特性アプリケーションエンジン２５０は、文書をソートするソート規準としてオントロジー特性を利用する。例えば、オントロジー特性アプリケーションエンジン２５０は、ソート規準だけでなく、テーマに関して文書深さ及び／または具体性により文書をソートする。例として、オントロジー特性アプリケーションエンジン２５０は、ＤＤ逆インデックス６２を検索して、文書深さによりソートされた文書を求める。例として、オントロジー特性アプリケーションエンジン２５０は、非ＤＤ逆インデックス６２を用いて文書を検索して、深さにより文書をソートする。

実施形態では、オントロジー特性アプリケーションエンジン２５０は、オントロジー特性の値をクライアント２０にグラフィカルに表示する。例えば、検索結果のトップＸ％の文書など、文書の一部または全部をグラフィカルに表示してもよい。オントロジー特性値を任意の適切な方法で表示できる。例として、数字、言葉、アイコンなどのグラフィカルインジケータにより値を示すことができる。例えば、検索結果のリスト中のアイテムや、オンラインニュースペーパーのヘッドラインや、文書アイコンなどの隣にグラフィカルインジケータを配置してもよい。例として、既存の図象（iconography）を修正して値を表示できる。例えば、テキストのサイズ、フォント、スタイル、カラーやグラフィカルインジケータにより値を示すことができる。他の例では、グラフにより値を示すことができる。オントロジー特性ヒストグラムは、文書量軸とオントロジー特性軸を含み、あるオントロジー特性値を有する文書の量を示す。例えば、文書量軸と文書深さ軸とを含む文書深さヒストグラムは、文書深さごとの文書量を示している。

実施形態では、ユーザは、オントロジー特性アプリケーションエンジン２５０により、特定のオントロジー特性値を有する文書の検索をすることができる。ユーザは、クエリーで用いる複数のワードのそれぞれにオントロジー特性値を指定することができる。例として、ユーザは、オントロジー特性アプリケーションエンジン２５０により深さを選択するオプションを提供され、深さを選択して入力することができる。そのオプションは任意の適切な方法で提供することができる。例えば：（ｉ）絶対的ターム（深さを表す数字や数字の範囲など）；（ｉｉ）相対的ターム（深さに関する検索結果の一部で、例えば「最も深いＸ％」など）；（ｉｉｉ）意味的ターム（「入門的」、「浅い」、「深い」、「極めて深い」、「非常に技術的」など）；（ｉｖ）グラフィカルターム（スライダー、ボタン、その他のグラフィカル要素など）；（ｖ）任意の適切なタームの組み合わせ（意味的ラベルを伴うスライダーなど）である。場合によっては、スライダーの端は「浅い」と「深い」である。ユーザはスライダーを一端または他端に向けて動かして深さを選択できる。検索結果が求まると、スライダーの横に文書深さヒストグラムが表示され、スライダーを文書深さの軸として使用できる。

実施形態では、オントロジー特性アプリケーションエンジン２５０はユーザのオントロジー特性キャラクタを計算できる。オントロジー特性キャラクタには、テーマとの関連でユーザ深さとユーザ具体性が含まれる。オントロジー特性キャラクタはそのユーザの文書のオントロジー特性を記述する。例えば、科学者は、第三者である評価者（third grader）が使うものより深い文書を使う。オントロジー特性キャラクタはテーマに対して与えられる。例えば、遺伝学者は、詩の分野で使うものよりも深い文書を遺伝学の分野では使う。オントロジー特性キャラクタを用いてユーザの専門を決定し、その人の経歴を構成しても、ソーシャルネットワークを分析してもよい。

ユーザの通信（電子メールやインスタントメッセージなど）や、ウェブページや、検索履歴（検索クエリーや選択したページなど）などの任意の適切な文書を分析してオントロジー特性キャラクタを推定する。実施形態では、オントロジー特性アプリケーションエンジン２５０はオントロジー特性キャラクタ（ontology feature character）を時間的に追跡して、過去のキャラクタを使って将来のキャラクタを予測できる。例として、オントロジー特性アプリケーションエンジン２５０では、一般的にユーザ深さ及び／または具体性は時間及び／またはある分野における活動とともに増大することを仮定してもよい。

実施形態では、オントロジー特性アプリケーションエンジン２５０では複数の動作を組み合わせてもよい。例えば、オントロジー特性アプリケーションエンジン２５０はユーザの深さをモニターし、そのユーザ深さに応じた文書を検索する。一例では、ユーザ深さをモニターし、ニュースをその深さに応じて提供する。将来のユーザ深さを予測して、予測されたユーザ深さに合ったニュースを提供する。
本発明の実施形態により以下の技術的有利性がもたらされる。一実施形態の技術的優位性として、ワードのワード深さ（word depth）をそのワードの類似性から決定できる。一実施形態の他の技術的優位性として、文書の文書深さ（document depth）をその文書の類似性から決定できる。一実施形態の他の技術的優位性として、深さ分析を行うことができる。深さ分析の例としては、要求された深さ（文書深さ）を満たす文書の検索、文書の深さを示すグラフィカル要素の表示、ユーザ文書に基づくユーザ深さ（user depth）の決定がある。本発明の実施形態には、上記の技術的な優位性を含まないもの、一部を含むもの、すべてを含むものがある。図面、詳細な説明、及び特許請求の範囲に基づき、当業者には容易に１つ以上の技術的な優位性が明らかとなるであろう。
本開示を実施形態に関して説明したが、これらの実施形態の変形や置き換えは当業者には明らかであろう。従って、上記の実施形態の説明は本開示を限定するものではない。特許請求の範囲に記載した本開示の精神と範囲から逸脱せずに、その他の変更、置き換え、改変も可能である。

上記の実施形態について以下の付記を記載する。
（付記１）複数のワードを含む複数の文書を記述する、前記複数の文書の複数の類似性を記録した、有体の媒体に記憶された記録にアクセスする段階と、
前記複数の類似性に応じて前記複数の文書の少なくとも一部に含まれる各文書の文書深さを決定する段階と、
前記文書深さにより文書深さ分析を行いその結果を得る段階と、
前記文書深さ分析の結果をレポートする段階とを含む方法。
（付記２）前記複数の類似性は前記複数のワードの複数の平均類似性をさらに含む、付記１に記載の方法。
（付記３）
前記記録は前記複数の類似性を含む文書類似性グラフをさらに含み、前記文書類似性グラフは複数のノードを含み、各ノードは１つの文書を表し、
各文書の文書深さを決定する段階は、
前記文書類似性グラフにリンク分析を適用して前記複数のノードの少なくとも一部の人気度を決定する段階と、
各文書が、人気度が低いノードで表されているときその文書は深いと決定する段階と、
各文書が、人気度が高いノードで表されているときその文書は浅いと決定する段階とを含む、付記１に記載の方法。
（付記４）前記文書深さにより文書深さ分析を行いその結果を生成する段階は、
文書深さ要求を含む検索クエリーを受け取る段階と、
前記検索クエリーと前記文書深さ要求とを満たす前記複数の文書のうちの一組の文書を検索する段階とを含む、付記１に記載の方法。
（付記５）前記文書深さにより文書深さ分析を行いその結果を生成する段階は、
各文書の文書深さのグラフィカル表示を行い、前記グラフィカル表示はグラフィカルインジケータとグラフィカルな修正と深さスライダーと深さグラフとよりなる集合から選択した要素を含む段階を含む、付記１に記載の方法。
（付記６）前記文書深さにより文書深さ分析を行いその結果を生成する段階は、
検索クエリーを受け取る段階と、
前記検索クエリーを満たす前記複数の文書のうちの一組の文書を検索する段階と、
前記一組の文書をソートする段階とを含む、付記１に記載の方法。
（付記７）前記複数の文書はユーザに関連し、
各文書の文書深さを決定する段階は、
前記複数の文書から前記ユーザのユーザ深さを決定する段階を含む、付記１に記載の方法。
（付記８）前記複数の文書はユーザに関連し、
各文書の文書深さを決定する段階は、
前記複数の文書からテーマに応じて前記ユーザのユーザ深さを決定する段階を含む、付記１に記載の方法。
（付記９）ソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体であって、実行したとき、
複数のワードを含む複数の文書を記述する、前記複数の文書の複数の類似性を記録した、有体の媒体に記憶された記録にアクセスする段階と、
前記複数の類似性に応じて前記複数の文書の少なくとも一部に含まれる各文書の文書深さを決定する段階と、
前記文書深さにより文書深さ分析を行いその結果を生成する段階と、
前記文書深さ分析の結果をレポートする段階とを実行する媒体。
（付記１０）前記複数の類似性は前記複数のワードの複数の平均類似性をさらに含む、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１１）前記記録は前記複数の類似性を含む文書類似性グラフをさらに含み、前記文書類似性グラフは複数のノードを含み、各ノードは１つの文書を表し、
前記コンピュータ読み取り可能有体媒体は、
前記文書類似性グラフにリンク分析を適用して前記複数のノードの少なくとも一部の人気度を決定する段階と、
各文書が、人気度が低いノードで表されているときその文書は深いと決定する段階と、
各文書が、人気度が高いノードで表されているときその文書は浅いと決定する段階とにより各文書の文書深さを決定できる、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１２）文書深さ要求を含む検索クエリーを受け取る段階と、
前記検索クエリーと前記文書深さ要求とを満たす前記複数の文書のうちの一組の文書を検索する段階と
により前記文書深さにより文書深さ分析を行いその結果を生成できる、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１３）各文書の文書深さのグラフィカル表示を行い、前記グラフィカル表示はグラフィカルインジケータとグラフィカルな修正と深さスライダーと深さグラフとよりなる集合から選択した要素を含む段階により前記文書深さにより文書深さ分析を行いその結果を生成できる、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１４）検索クエリーを受け取る段階と、
前記検索クエリーを満たす前記複数の文書のうちの一組の文書を検索する段階と、
前記一組の文書をソートする段階と
により前記文書深さにより文書深さ分析を行いその結果を生成できる、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１５）前記複数の文書はユーザに関連し、
前記コンピュータ読み取り可能有体媒体は、
前記複数の文書から前記ユーザのユーザ深さを決定する段階により各文書の文書深さを決定できる、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１６）前記複数の文書はユーザに関連し、
前記コンピュータ読み取り可能有体媒体は、
前記複数の文書からテーマに応じて前記ユーザのユーザ深さを決定する段階により各文書の文書深さを決定できる、付記９に記載のコンピュータ読み取り可能有体媒体。
（付記１７）有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードで記載され、前記記録は前記複数のワードの複数の類似性を含む段階と、
前記複数の類似性に応じて前記複数のワードのうちの各ワードのワード深さを決定する段階と、
前記複数のワード深さをレポートする段階とを含む方法。
（付記１８）前記複数の類似性は複数の平均類似性をさらに含み、平均類似性はワードの深さを示し、
前記複数のワードの各ワードのワード深さを決定する段階は、さらに、
各ワードの平均類似性が低いときそのワードは深いと決定する段階と、
各ワードの平均類似性が高いときそのワードは浅いと決定する段階とを含む、
付記１７に記載の方法。
（付記１９）前記記録は前記複数の類似性から生成した複数のクラスターを含み、前記複数のクラスターは前記複数のワードを含み、
前記複数のワードの各ワードのワード深さを決定する段階は、さらに、
各ワードが属するクラスター数が少ないときそのワードは深いと決定する段階と、
各ワードが属するクラスター数が多いときそのワードは浅いと決定する段階とを含む、
付記１７に記載の方法。
（付記２０）前記記録は前記複数の類似性を含む類似性グラフを含み、前記類似性グラフは複数のノードを含み、各ノードは１つのワードを表し、
前記複数のワードの各ワードのワード深さを決定する段階は、さらに、
前記類似性グラフにリンク分析を適用して、前記類似性グラフの各ノードの人気度を決定する段階と、
各ワードが、人気度が低いノードで表されているときそのワードは深いと決定する段階と、
各ワードが、人気度が高いノードで表されているときそのワードは浅いと決定する段階とを含む、
付記１７に記載の方法。
（付記２１）ソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体であって、実行したとき、
有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードで記載され、前記記録は前記複数のワードの複数の類似性を含む段階と、
前記複数の類似性に応じて前記複数のワードのうちの各ワードのワード深さを決定する段階と、
前記複数のワード深さをレポートする段階とを実行する媒体。
（付記２２）前記複数の類似性は複数の平均類似性をさらに含み、平均類似性はワードの深さを示し、
前記コンピュータ読み取り可能有体媒体は、
各ワードの平均類似性が低いときそのワードは深いと決定する段階と、
各ワードの平均類似性が高いときそのワードは浅いと決定する段階と
により前記複数のワードのうちの各ワードのワード深さを決定できる、付記２１に記載のコンピュータ読み取り可能有体媒体。
（付記２３）前記記録は前記複数の類似性から生成した複数のクラスターを含み、前記複数のクラスターは前記複数のワードを含み、
前記コンピュータ読み取り可能有体媒体は、
各ワードが属するクラスター数が少ないときそのワードは深いと決定する段階と、
各ワードが属するクラスター数が多いときそのワードは浅いと決定する段階と
により前記複数のワードのうちの各ワードのワード深さを決定できる、付記２１に記載のコンピュータ読み取り可能有体媒体。
（付記２４）前記記録は前記複数の類似性を含む類似性グラフを含み、前記類似性グラフは複数のノードを含み、各ノードは１つのワードを表し、
前記コンピュータ読み取り可能有体媒体は、
前記類似性グラフにリンク分析を適用して、前記類似性グラフの各ノードの人気度を決定する段階と、
各ワードが、人気度が低いノードで表されているときそのワードは深いと決定する段階と、
各ワードが、人気度が高いノードで表されているときそのワードは浅いと決定する段階と
により前記複数のワードのうちの各ワードのワード深さを決定できる、付記２１に記載のコンピュータ読み取り可能有体媒体。
（付記２５）有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードを含む文書を記述する段階と、
前記文書の前記複数のワードのうちの２つ以上のワードの組みの平均ワード深さを決定する段階と、
前記平均ワード深さから前記文書の文書深さを計算する段階とを含む方法。
（付記２６）前記２つ以上のワードの組みは前記文書の２つ以上の基本ワードを含む、付記２５に記載の方法。
（付記２７）前記２つ以上のワードの組みは最も深いＸ％のワードを含み、Ｘは５０以上である、付記２５に記載の方法。
（付記２８）前記２つ以上のワードの組みは最も深いＸ％のワードを含み、Ｘは５０以下である、付記２５に記載の方法。
（付記２９）前記２つ以上のワードの組みは前記文書の標準的文法ワードをＰ％除いたものであり、Ｐは５０以上である、付記２５に記載の方法。
（付記３０）前記２つ以上のワードの組みは前記文書の標準的文法ワードをＰ％除いたものであり、Ｐは５０以下である、付記２５に記載の方法。
（付記３１）前記２つ以上のワードの組みは前記文書のストップワードのＱ％を除いたものであり、Ｑは５０以上である、付記２５に記載の方法。
（付記３２）前記２つ以上のワードの組みは前記文書のストップワードのＱ％を除いたものであり、Ｑは５０以下である、付記２５に記載の方法。
（付記３３）ソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体であって、実行したとき、
有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードを含む文書を記述する段階と、
前記文書の前記複数のワードのうちの２つ以上のワードの組みの平均ワード深さを決定する段階と、
前記平均ワード深さから前記文書の文書深さを計算する段階と、
を実行する媒体。
（付記３４）前記２つ以上のワードの組みは前記文書の２つ以上の基本ワードを含む、付記３３に記載のコンピュータ読み取り可能有体媒体。
（付記３５）前記２つ以上のワードの組みは最も深いＸ％のワードを含み、Ｘは５０以上である、付記３３に記載のコンピュータ読み取り可能有体媒体。
（付記３６）前記２つ以上のワードの組みは最も深いＸ％のワードを含み、Ｘは５０以下である、付記３３に記載のコンピュータ読み取り可能有体媒体。
（付記３７）前記２つ以上のワードの組みは前記文書の標準的文法ワードをＰ％除いたものである、付記３３に記載のコンピュータ読み取り可能有体媒体。
（付記３８）前記２つ以上のワードの組みは前記文書の標準的文法ワードをＰ％除いたものであり、Ｐは５０以下である、付記３３に記載のコンピュータ読み取り可能有体媒体。
（付記３９）前記２つ以上のワードの組みは前記文書のストップワードのＱ％を除いたものであり、Ｑは５０以上である、付記３３に記載のコンピュータ読み取り可能有体媒体。
（付記４０）前記２つ以上のワードの組みは前記文書のストップワードのＱ％を除いたものであり、Ｑは５０以下である、付記３３に記載のコンピュータ読み取り可能有体媒体。

ワードや文書の深さを決定するシステム１０の一実施形態を示すブロック図である。図１のシステムで利用できる類似性モジュールの一実施形態を示すブロック図である。基本類似性を記録した類似性マトリックスの一例を示す図である。基本類似性を記録した類似性マトリックスの一例を示す図である。平均類似性を記録した類似性マトリックスの一例を示す図である。類似性グラフの一例を示す図である。図１のシステムで使用できるクラスターモジュールの一実施形態を示す図である。図１のシステムで利用できるオントロジー特性モジュールの一実施形態を示すブロック図である。ワードの深さの分布例を示すグラフである。

符号の説明

２０クライアント
２２サーバ
２４メモリ
２６ディシジョン・ダイアグラム・エンジン
３０類似性モジュール
３１クラスタリングモジュール
３２オントロジー特性モジュール
３４類似性計算器
３８オントロジー生成器
４２類似性マトリックス生成器
４６類似性グラフ生成器
４８ワード推奨器
５０ページ
５４レコード
５８インデックス
６２逆インデックス
６６オントロジー
６７クラスター
２１０クラスタリングエンジン
２１４クラスタ分析器
２３０深さエンジン
２４０テーマエンジン
２４４具体性エンジン
２５０オントロジー特性アプリケーションモジュール

Claims

複数のワードを含む複数の文書を記述する、前記複数の文書の複数の類似性を記録した、有体の媒体に記憶された記録にアクセスする段階と、
前記複数の類似性に応じて前記複数の文書の少なくとも一部に含まれる各文書の文書深さを決定する段階と、
前記文書深さにより文書深さ分析を行いその結果を得る段階と、
前記文書深さ分析の結果をレポートする段階とを含む方法。
ソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体であって、実行したとき、
複数のワードを含む複数の文書を記述する、前記複数の文書の複数の類似性を記録した、有体の媒体に記憶された記録にアクセスする段階と、
前記複数の類似性に応じて前記複数の文書の少なくとも一部に含まれる各文書の文書深さを決定する段階と、
前記文書深さにより文書深さ分析を行いその結果を生成する段階と、
前記文書深さ分析の結果をレポートする段階とを実行する媒体。
有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードで記載され、前記記録は前記複数のワードの複数の類似性を含む段階と、
前記複数の類似性に応じて前記複数のワードのうちの各ワードのワード深さを決定する段階と、
前記複数のワード深さをレポートする段階とを含む方法。
ソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体であって、実行したとき、
有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードで記載され、前記記録は前記複数のワードの複数の類似性を含む段階と、
前記複数の類似性に応じて前記複数のワードのうちの各ワードのワード深さを決定する段階と、
前記複数のワード深さをレポートする段階とを実行する媒体。
有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードを含む文書を記述する段階と、
前記文書の前記複数のワードのうちの２つ以上のワードの組みの平均ワード深さを決定する段階と、
前記平均ワード深さから前記文書の文書深さを計算する段階とを含む方法。
ソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体であって、実行したとき、
有体媒体に格納された記録にアクセスする段階であって、前記記録は複数のワードを含む文書を記述する段階と、
前記文書の前記複数のワードのうちの２つ以上のワードの組みの平均ワード深さを決定する段階と、
前記平均ワード深さから前記文書の文書深さを計算する段階と、
を実行する媒体。