JP4192213B2 - コンテクストベクトルの発生と検索のシステム及び方法 - Google Patents
コンテクストベクトルの発生と検索のシステム及び方法 Download PDFInfo
- Publication number
- JP4192213B2 JP4192213B2 JP12277097A JP12277097A JP4192213B2 JP 4192213 B2 JP4192213 B2 JP 4192213B2 JP 12277097 A JP12277097 A JP 12277097A JP 12277097 A JP12277097 A JP 12277097A JP 4192213 B2 JP4192213 B2 JP 4192213B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- context vector
- document
- context
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の背景】
1.発明の分野
本発明は、ベクトルべースの意味感知情報を記憶し、検索するシステムに関するものであり、一層詳しくは、情報内容の高次元抽象を表すコンテクストベクトルを生成し、検索する改良システムおよび方法に関する。
2.関連技術の説明
レコード記憶、検索の従来方法は、一般的に、逐語的にすべてのレコードを記憶し、逆索引を用いてレコード内のキーワードを検索するものである。キーワード検索は、照会単語のリストを含むデータべースのすべての内容を通して完璧な検索を行うことによって実行される。このようなシステムは、たとえば、「car 」と「automobile」がほぼ同じ意味を表すという知識をまったく持たず、ユーザが複雑で公式化の難しい照会を行うことによってこの情報を含めなければならない。いくつかのシステムは、組み込みシソーラスによってこの問題を解決しようとしているが、「意味感知性」を欠いており、多くの意味結合の微妙さを見逃すのである。たとえば、「car 」が「hippopotamus」(カバ)よりも「road」に近いという事実を見逃す。
【0002】
ニューラル・ネットワークの分野では、現在、多くの研究、開発が行われている。ニューラル・ネットワークとは、セルの或る集まりと、セル間の結合部とからなるものであり、あらゆる結合部が重み値あるいは成分値と呼ばれる連合した正または負の数を有する。各セルは共通のルールを用いて唯一の出力を計算し、この出力が他のセルに対する結合部に沿って移動する。いくつかの指定された「入力」セルが1セットの値に初期化されたときに、特定の結合部および成分値がネットワークの動きを決定する。成分値は、コンピュータの動きを決定するに際してプログラムが行動するにつれてニューラル・ネットワーク動作を決定するのにほぼ同じ役割を果たす。
文書検索のための従来技術としては、1つの表現として可変長の用語リストを用いるシステムがあるが、これらのシステムは用語間の意味感知性を持たない。これらのシステムでは、対になった用語が同義語であったり、同義語でなかったりする。
【0003】
いわゆる「ベクトルスペース法」は意味感知性をキャプチャできるが、すべての対になった用語の近接性が知られていなければならない。100,000 個以上の用語を持つ代表的なフルスケール・システムの場合、約50億の関係を必要とすることになり、これは獲得し、記憶するには非実用的な情報量である。
固定長のベクトルで検索する方法も提案されている。しかしながら、これらの方法では、少なくとも、文書の数と用語の数の合計の二乗のオーダーで作業しなければならない。これは文書、用語の大きなコーパスの場合には非実用的である。
ニューラル・ネットワークに基づき、或る種の意味感知性をキャプチャする文書検索モデルが提案されている。しかしながら、このようなモデルでの検索では、複数のサイクルの各々について文書数とキーワード数の積の二倍の乗算が必要である。
【0004】
Koll in "WEIRD: An Approach to Concept-Based Information Retrieval", SIGIR Forum, vol. 13, no. 4, Spring 1979, pp. 32-50がユークリッド・スペースでベクトル表現を用いる検索法を開示している。Kollで用いられるカーネルあるいはコアは非並行文書である。これは7の値のオーダーで非常に小さい寸法のベクトルを得ることができる。ベクトルは、1つの文書に1つの用語が現れるか現れないかに基づいてコア・文書から発生する。代替案として、Kollは決して同時に生じない用語のカーネルで始めることを示唆している。
Stephen I, Gallantによる、「Method for Context Vector Generation for Use in Document Storage and Retrieval」についての米国特許第5,325,298 号も関連技術を理解するには重要である。
【0005】
【発明の概要】
本発明は、文書記憶・検索システムで用いるためのコンテクストベクトルを生成するシステムおよび方法に向けたものである。コンテクストベクトルは意味または内容を表す成分値の固定長シリーズである。コンテクストベクトルの中の幾何学的関係はそれらの関連した用語の中の概念関係を表す。したがって、類似した意味または内容を持つ2つの情報用語は類似した向きのコンテクストベクトルを有し、類似していない意味または内容を有する用語は直交コンテクストベクトルを持つ。用語間の類似性は関連したコンテクストベクトルのドット積を計算することによって測定できる。
コンテクストベクトルは、単語、用語、文書、文書部分、照会、イメージ、定量データ、ピープルあるいは他の任意のタイプの情報用語と関連付けしてもよい。このコンテクストベクトルの使用により、学習された意味類似性に基づくコンテクスト感知式情報検索・経 路指定・視覚化システムを得ることができる。
【0006】
本発明はレコードの訓練コーパスについて作動するニューラル・ネットワークを用いるコンテクストベクトル生成機構を提供する。こうして得たベクトルは、訓練用レコードにおける単語の相互の近接(proximity)によって関連べースで形成される。コンテクストベクトルの中の関係は決定型であり、1つのコンテクストベクトル・セットが1つの論理解を持つが、複数の物理解を持ってもよい。ヒューマン知識、シソーラス、シノニム・リスト、知識べースあるいは概念ヒエラルキーはまったく不要である。
本発明によるレコード記憶は、各レコード(任意タイプの情報アイテムであってもよい)をマシン読み取り可能形態で処理システムに入力することによって行われる。もし或るレコードがテキストであるならば、無関係な単語を考慮から外してから処理してもよい。次に、学習法則をレコードの各単語(すなわち、アナログ成分)に適用し、単語近接に従ってコンテクストベクトルを割り当てる。この学習法則は、固定サイズの移動ウィンドウを文書を通じて適用する「ウィンドウ式共起性」の技術を使用する。ウィンドウ内の単語(隣接単語)は相互の重要性に従って隣接単語に「影響」を与えてもよい。このような「影響」はコンテクストベクトルの収斂あるいは崩壊を避けるように拘束される。ひとたびコンテクストベクトルが或るレコードのすべての文書に対して確立されたならば、コンテクストベクトルは結合されてそのレコードについての合計ベクトルを形成する。この合計ベクトルは次に正規化される。これはレコードの全体的な意味または内容を表す。
【0007】
レコードの合計ベクトルは、クラスタ化ノードのツリーを形成することによってクラスタ化して検索時間を短縮してもよい。或る定めたグループ内の正規化された合計ベクトルの平均に基づいて、各ノードについて中心軌跡が計算される。こうして、類似した情報内容を持つレコードが同じクラスタを占めることになる。クラスタの情報内容は中心軌跡ベクトルによって表される。ノード・ツリーは、で得たべース内に関連レコードを迅速に位置決めするように移動させてもよい。
ひとたびコンテクストベクトルが決定されたならば、ユーザが内容用語を指定できる照会インタフェースを用いてレコードを検索することができる。ブールの用語あるいは文書・フィードバックまたはこれら両方がある。基本的な検索法では、ユーザの照会をコンテクストベクトル(照会ベクトル)に変換する。照会は、模範文書、選定段落、文、単語に基づいてもよい。照会ベクトルが、次に、正規化合計ベクトル(またはノード中心軌跡)と結合されて最も近いベクトルを有するレコードを位置決めする。検索されたレコードはベクトル近接(これは照会に対する相対関連に対応する)の順序で表示してもよい。近接によるランク決めはユーザに対する情報オーバーロードを防ぐ(これは、検索結果がたとえば500の文書を含む可能性があり、しかもどの文書が最も関連がありそうかということをなんら示さない普通のブール検索法と異なる)。さらに、検索済みレコードの最も関連のある部分を所望に応じてハイライト表示してもよい。
【0008】
本システムは関連フィードバックを使用してもよい。それによれば、ユーザが検索済みの文書のうちどの文書が最も有効であるかを指定できる。次に、この指定された文書についての合計ベクトルを用いて新規な検索を実行してもよい。この技術は検索に要する時間を短縮し、システムの有効性を向上させる。
さらに、本発明の技術によれば、コンテクストベクトルを可視表現およびグラフィック表現に変換することによってテクスチャ情報の可視化が容易になる。したがって、ユーザは意味の可視表現を探査することができるし、文書検索にヒューマン可視パターン認識技術を適用することができる。
最後に、本発明は言語非依存情報表現機構を提供する。したがって、先立つ翻訳あるいは解釈の必要なしに、検索のために英語照会を外国語テキストで実施したりあるいはその逆を行うのに本発明のシステムを使用できる。
【0009】
【好ましい実施例の詳細な説明】
まず図1を参照して、ここには、本発明によるシステム100の代表的な実施例のブロック図が示してある。ユーザは入力装置111を介してシステム100に照会を与える。中央処理装置(CPU)107はプログラム記憶装置112内に記憶されたソフトウェア・プログラム命令を実施し、CPU 101を指図してシステム100の種々の機能を実施させる。図示実施例では、ソフトウェア・プログラムはCプログラミング言語で書かれており、UNIXオペレーティング・システムの下に稼働する。これらの言語の各々は種々の普通のハードウェア・プラットホームで稼働できる。データ記憶装置109が文書のコーパスと、コンテクストベクトルを記述するデータを含んでいる。代わりに、文書のコーパス(または他の情報アイテム)を遠隔地に位置させ、システム100に電子リンクを備えてもよい。ソフトウェア・プログラム命令に従って、CPU 107は、ワークスペースのような普通の要領で、入力装置111から入力を受け取り、データ記憶装置109にアクセスし、RAM108を使用する。CPU 107、データ記憶装置109およびプログラム記憶装置112は一緒に作動し、照会に応答してコンテクストベクトルを生成し、情報を検索する機構を提供する。
【0010】
図示実施例において、CPU 107は汎用コンピュータあるいは強力なパーソナル・コンピュータであってもよい。RAM108およびデータ記憶装置109はCPU のための普通のRAM、ROMおよびディスク記憶装置であり、出力装置110は検索済みの情報アイテムを印刷したり、ウィンドウべースのインタフェース・システムを用いてビデオスクリーンに情報を表示したり、後のアクセスのために情報アイテムをデータべースに送ったりする普通の手段である。
本発明の好ましい実施例は1億以上の文書を含む非常に大きなコーパスを取り扱える。このアーキテクチャは、所望に応じて、分散データ/分散プロセッサ環境における作業を支援する。また、充分なパワー、融通性のある任意のプラットホーム、作動システムおよびユーザ・インタフェース、たとえば、Xwindows/MOTIF, Sun/OS SunView, Microsoft Windows, VAX/VMSなどに具現することができる。
【0011】
本発明はコンテクストベクトルを使用する表現機構に基づいている。コンテクストベクトルは、情報アイテムの意味間の関係に基づいて決定される複数の成分値を有する固定長ベクトルである。これらの情報アイテムは、単語、段落、照会、文書、イメージなどであり得る。以下の説明において、例示の目的で、コンテクストベクトルは単語および文書に関連して説明するが、多くの他のタイプの情報アイテムも同様に表すことができる。好ましい実施例においては、各コンテクストベクトルは200またはそれ以上の成分値を有する。
本発明のコンテクストベクトル生成機構は、単語または文書の中の意味または内容の相対近接を定量的幾何学的な要領で表すベクトルを生成するように設計してある。
【0012】
したがって、類似する意味を有する情報アイテムは接近して整合したベクトルを有し、非類似の意味を有する情報アイテムは直交するベクトルを有する。この表現機構は、関連したコンテクストベクトルについて単純なドット積(スカラー積)操作を実施することによって意味の近接を評価することができる。ドット積結果が高ければ高いだけ、意味の類似性が高まるのである。
したがって、相対オリエンテーション(他のベクトルに関するもの)が意味および内容の相対近接を表している限り、ベクトル・スペース内の或る特定のベクトルの絶対オリエンテーションは無関係である。換言すれば、相対意味を定義する1セットのベクトルを見つける際の問題は、ベクトル・スペース内に無限数の物理解(絶対オリエンテーション)を有するが、論理解(相対オリエンテーション)はたった1つである。本発明のコンテクストベクトル生成機構は、ベクトルそのものの絶対オリエンテーションに関係することなく、確定的訓練法を介して論理解に到達するように設計してある。
【0013】
コンテクストベクトル訓練
コンテクストベクトルは、他の単語に対する近接に基づいて個々の単語あるいは用語について発生させられる。この学習技術は訓練セットの文書について実施される。次に図2を参照して、ここには、訓練システムのブロック図が示してある。プリプロセッサ102に対して、訓練テキスト101、句読点リスト103、句リスト104が設けてある。訓練テキスト101は1セットの訓練用文書を包含する。句読点リスト103は、無関係と思われる単語のリストを包含し、訓練で考慮されることはない(たとえば、前置詞および共通単語)。句リスト104は、訓練の目的のために単一単語として処理されるべき多重単語・句のリストを包含する(たとえば、「world series」、「golden parachute」、「best man」)。
【0014】
次に図5も参照して、ここには、訓練プロセスのフローチャートが示してある。システムは、訓練セットにおける文書を予備処理することによってスタートする。予備処理はいくつかのステップからなる。1)訓練単語のセットから句読点リストの単語を取り出すステップと、2)句リスト104を調べて単一単語として処理されるべき多重単語・句を位置決め、マーク付けするステップと、3)単語を「幹」まで縮小して訓練プロセスの有効性を向上させるステップとからなる。したがって、「investments 」、「investor」、「investing 」は幹「invest」を共有し、同等に処理することができる。
プリプロセッサ102によって生成された単語幹のセットは学習システムに送られ、この学習システムが図5に示す方法に従って1セットの幹コンテクストベクトル106を生成する。各コンテクストベクトルは固定数の成分からなる(好ましい実施例では200以上)。
【0015】
学習システム105は次の通りに幹コンテクストベクトルを生成する。まず、初期状態が割り当てられる(303)。好ましい実施例では、初期状態は、ゼロ平均ユニット分散ガウス乱数生成によって選定された成分からなる、各幹についてのランダム・コンテクストベクトルを生成することによって割り当てられる。システムが関係強さの測定値としてドット積を使用するので、相互直交性が望ましい初期状態である。これは、ほぼ直交性のベクトルがゼロに近いドット積を持つことになるという事実による。この近ゼロ・ドット積は弱い初期関係に対応する。ランダム・コンテクストベクトルを割り当てることにより、相互直交に近い初期状態を得ることができる。当業者には明らかなように、他の初期状態割り当て技術も使用できる。
【0016】
システムは、最初の文書304でスタートし、訓練コーパス内のすべての文書を処理する。各文書について、システムは最初の単語幹305でスタートし、各単語幹を1つずつ目標として文書を走査する。各幹が目標とされるので、システムは目標に学習法則を適用する(306)。好ましい実施例では、ステップ306は以下のサブステップを含む。まず、ウィンドウが定められる。このウィンドウは、目標幹のいずれかの側に現れる固定数の単語幹からなる。好ましい実施例では、ウィンドウは目標幹の各側に3つの幹を包含するが、任意のサイズでよい。定めたウィンドウ内の幹は隣接幹と呼ばれる。
次に図3、4も参照して、ここには、サンプル・文書の最初の少数の単語幹201についてのウィンドウ定義の例が示してある。図3において、目標幹202は「Federal 」であり、隣接幹203は「antitrust 」、「law 」、「simple」である。ウィンドウ204の包含する隣接幹203は3つだけである。これは、目標202の左には隣接幹がまったくないからである(目標202は文書の最初の単語幹だからである)。次に、図3に示すように、目標幹202は「antitrust 」であり、隣接幹203は「Federal 」、「law 」、「simple」、「commercial」である。図3、4も同様である。図4はより一般的なケースを示しており、ここでは、ウィンドウ204が目標202の各側に2つの隣接幹203を包含する(ここで、「Sherman Act 」が単一の単語幹として処理され、これが上述したように句リスト104で定義されることに注目されたい)。
【0017】
各目標202について、隣接幹203のコンテクストベクトルは目標202のコンテクストベクトルに「影響を与える」のに用いられる。各隣接幹の相対的な影響は、2つのファクタ、すなわち、1)目標に対するウィンドウ内の隣接幹の位置に依存する関数と、2)隣接幹を含む文書の数(頻度)によって決まる頻度関数とによって重み付けされる。隣接幹が近ければ近いだけ、そして、頻度関数が低ければ低いだけ、隣接幹への「影響」は大きくなる。これらの重み付け技術は以下に説明する。
目標単語jの目標ベクトルTjは或る種の学習法則によって更新される。いくつかの異なった学習法則が開発されているが、そのうちの任意のものを使用できる。いくつかの学習法則では、隣接コンテクストベクトルの重み付き平均はが決定されてから目標ベクトルTjに適用される。他の学習法則では、隣接幹の影響が決められ、ここに適用される。最も有効な学習法則は以下のものであることがわかっている。すなわち、エラーEijを目標単語の各隣接幹について定義し、隣接ベクトルと目標ベクトルの差を表すことができる。こうして、
【0018】
【数1】
【0019】
ここで、Nijは目標幹jの隣接幹iのコンテクストベクトルであり、
Tjは目標jのコンテクストベクトルを表す。
目標jの補正値Cjは以下の式を用いて決定される。
【0020】
【数2】
【0021】
ここで、WSは幹のウィンドウサイズであり、
αは隣接幹iと目標jの関係に従う目標jのベクトルTj上の各エラー・ベクトルEijの補正効果を制限する近接制約値である。
所望に応じて、各隣接幹の近接重みを補正値Cjを生成する際に適用してもよい。近接重みは、目標に近い隣接幹に目標から遠い隣接幹よりも大きな効果を与える。
次に、補正値を次のように目標ベクトルに適用する。
【0022】
【数3】
【0023】
ここで、γは予め定義したステップサイズあるいは学習率であり、
Fjはコーパス内の全幹発生回数であり、
Mはコーパス内のすべての独特な幹ベクトルについての平均コンテクストベクトルである。
上記の学習法則が非常に有効であることはわかっているが、ここでは説明の目的のために別の学習法則を使用する。当業者には明らかなように、他の学習法則も使用できる。
1つの代替案は次の通りに動作する。まず、標的jに対する隣接幹の重み付き合計Wjを以下の式を用いて決定する。
【0024】
【数4】
【0025】
ここで、G(i)は隣接幹iに対するガウス重みであり、
Djは目標幹jを含む文書の数である。
こうして、重み付き合計は目標幹jを含む文書の数に逆比例する。次いで、重み付き合計Wjを次のように目標ベクトルに加える。
【0026】
【数5】
【0027】
「バッチ式正規化エラー」法則として知られる別の学習法則は次のように作動する。まず、式4で計算された重み付き合計を用いて重み付きエラーを決定する。
【0028】
【数6】
【0029】
目標jについての補正値Cjを次の式を用いて決定する。
【0030】
【数7】
【0031】
次いで、この補正値を次のように目標ベクトルに適用する。
【0032】
【数8】
【0033】
式8において、重み付きエラーは正規化されない。代わりに、次の式を生成するように正規化され得る。
【0034】
【数9】
【0035】
これらの学習法則に伴う1つの問題は、複数回のパスが試みられたときに、コンテクストベクトルの崩壊あるいは収斂(過剰学習)が生じる可能性があるということである。その解決策は、互いに近すぎるベクトルを獲得するのを防ぐ制約を導入することである。これは式2で行われた。制約の効果は次の通りである。エラーベクトルの大きさがαよりも大きいとき、目標をその隣接幹に向かって移動させる。エラーベクトルの大きさがαよりも小さいときには、目標を隣接幹から離れるように移動させる。こうして、コンテクストベクトル・セットの収斂、崩壊が回避される。
効果的な訓練を行うために、αは目標およびその隣接幹の相対的な「重要度」に従って選定しなければならない。2つの幹が「重要」であり、同時に発生する場合、それらの間の学習された関係が強くなければならない(すなわち、2つのベクトルのドット積が大きくなければならない)。したがって、αは小さくて、2つのベクトルを互いに接近させることができるものでなければならない。隣接幹、目標幹の両方の重要度に従ってαを変えるために、以下の技術が使用される。
【0036】
コーパス内で幹の発生頻度によって重要度が決定される。幹jについての重要メトリックIjは予め定義した下限Bから1.0まで変化する。
【0037】
【数10】
【0038】
重要度は以下の式で決定される。
【0039】
【数11】
【0040】
ここで、NDjは幹jを含む文書の数であり、
TNDはコーパス内の文書の総数である。
この式からわかるように、すべての文書に現れる幹はBに等しい重要度を持つことになり、1つの文書だけに現れる幹は1.0に等しい重要度を持つことになる。発生頻度が大きければ大きいほど、幹の重要度は低くなるのである。
或る特定の対になった幹i、jについてのαの値は次の式で決定される。
【0041】
【数12】
【0042】
したがって、2つのベクトルの共有重要度が大きければ大きいほど、αの値が小さくなるのである。αの値は次のように限られる。
【0043】
【数13】
【0044】
したがって、明らかなように、αの値は任意の隣接ベクトルを目標ベクトルにどのくらい近いところで獲得できるかを決定する。αの値は2つのベクトルの間の最小角を決定し、したがって、それらの間の最大のドット積を決定する。
ふたたび図5を参照して、その学習法則を用いるにしても、システムは、次に、現行の文書内でより多くの幹を目標にすべきかどうかを知るためにチェック(307)を行う。もしそうであれば、システムは次の幹308を目標にし、ステップ306に戻る。
ひとたび文書のすべての幹についてのコンテクストベクトルを目標としたならば、システムは文書全体の合計ベクトルを決定する(329)。このベクトルは文書の内容あるいは意味全体を表している。文書内のすべての幹のコンテクストベクトルを単純に加算してその結果を正規化することによってこのベクトルを生成してもよい。あるいは、幹にそれらの頻度にしたがって重みを付けてもよい。その場合、文書の合計ベクトルを計算するときにコーパス全体で少ない頻度で発生する幹のコンテクストベクトルにより重い重みを付ける。1セットの幹コンテクストベクトルから合計ベクトルを決定する他の技術も使用できる。次に図6も参照して、ここには、好ましい実施例による文書の合計ベクトルを決定するプロセスのブロック図が示してある。コンテクストベクトル106は、逆頻度重み401で重みを付けられ、ベクトル合計動作402で結合される。その結果が正規化されて正規化合計ベクトル404を生成する(403)。
【0045】
再び図5を参照して、もしより多くの処理すべき文書がある場合には、システムは次の文書311に行き、ステップ305−309を繰り返す。
目標ベクトルは、実際には、反復の終わり(コーパスを通る一回のパス)まで更新されない。これは、ベクトルが隣接ベクトルに向かって移動するときにフリップフロップ効果および望ましくないフィードバック効果を防ぐ。反復時に、すべての補正値が合計され、ベクトル・アップデート312において反復限界で適用される。すべての目標Tjが更新された後、平均Mも更新される(313)。
次に、システムは、コーパスについて付加的な反復が必要かどうかをチェックする(314)。或る文書について実施されるべき反復回数は、速度、安定性などを含み得る或る種の予定義停止基準に依存する。付加的な反復が必要な場合には、システムはステップ304に戻る。
【0046】
当業者には明らかなように、上記訓練技術の多くのバージョンが可能である。特に訓練データが非テキスト性(たとえば、イメージ、サウンド、ビデオなど)である場合には可能である。
コンテクストベクトル保存・索引付け
ひとたび合計ベクトルが決定されたならば、それらは保存される。正規化合計ベクトルの記憶装置は、クラスタ・ツリーを創り出すことによって検索時間をさらに短縮するように配置することができる。レベル0、ノード1として索引付けされたツリーのトップにある初期ペアレント・ノードは、最初、データべース内のすべての正規化された合計ベクトルを含む。各々初期ペアレント・ノードから分岐する一連のチャイルド・ノードはクラスタ・ツリーの次のレベルで作られる。中心軌跡一致クラスタ化アルゴリズムを用いてチャイルド・ノードのシリーズの中に合計ベクトルを分布させる。或るグループのクラスタは、すべてのクラスタのすべての数が最も近い中心軌跡を持つグループとしてクラスタに従属している場合には、中心軌跡一致となる。中心軌跡は、各ディメンジョンについて、グループ内のすべてのコンテクストベクトルから成分値の平均を取り出すことによって決定される。ポピュラーな中心軌跡一致クラスタ化アルゴリズムの1つは収斂k平均クラスタ化である。収斂k平均クラスタ化は次のように実施され得る。
【0047】
1.k個のクラスタにベクトルをグループ別けする任意の初期パーティションでスタートする。たとえば、最初のk個の合計ベクトルを単要素クラスタとして採用し、各クラスタの中心軌跡の初期値をそのメンバー・ベクトルを等しくするようにセットする。残っている合計ベクトルの各々を最も近い中心軌跡を有するクラスタに割り当てる。各割り当て後、そのクラスタについて中心軌跡を再計算し、ベクトルを獲得する。
2.各合計ベクトルを順次に採用し、k個のクラスタの各々の中心軌跡からの距離を計算する。もしこのベクトルが最も近い中心軌跡を持つクラスタ内に現在ない場合には、ベクトルをそのクラスタに向かって移動させ、クラスタの中心軌跡を更新し、合計ベクトルを獲得するか、失わせる。
【0048】
3.収斂が達成されるまで、すなわち、すべての合計ベクトルを通して一回のパスがなんら新しい割り当てを生じさせなくなるまでステップ2を繰り返す。
収斂は非常に時間がかかる可能性があるので、クラスタ化アルゴリズムをステップ2の反復回数を制限することによって簡略化してもよい。所与の反復回数、たとえば99回の後、中心軌跡を凍結してもよい。次いで、すべての合計ベクトルを通して1回あるいはそれ以上の回数のパスを実施し、適切なクラスタにベクトルを分布させもよいが、中心軌跡を更新することはない。この近似法を用いると中心軌跡はもはや正確な中心軌跡とはならないが、本発明の用途のためには近似中心軌跡で充分である。中心軌跡が正確であることは本発明にとって必要ないが、クラスタが中心軌跡一致であることが好ましい。合計ベクトルを通る最後のパスは、クラスタが近似中心軌跡と一致することを保証する。本願で使用している「中心軌跡」は近似中心軌跡を意味することになる。換言すれば、近似中心軌跡は中心軌跡一致クラスタを確立するに充分な中心軌跡となる。各ノードは検索プロセスで用いるためにその中心軌跡によって識別される。
【0049】
あるいは、他の中心軌跡一致クラスタ化アルゴリズムを使用してもよい。代替案としては、たとえば、"Self-Organized Formation of Topologically Correct Feature Map"; T. Kohonen や"Performance Evaluation of Self-Organized Map Based on Neural Equalizers in Dynamic Discrete-Signal Detection"; T. Kohonen et alに記載されているものがある。
次のレベルのクラスタを形成する際、上方のレベルのノードが下方の1セットのチャイルド・ノードに対してペアレント・ノードとなる。ペアレント・ノードに割り当てられた合計ベクトルのみがクラスタ化アルゴリズムで用いられてそのペアレントから分岐するチャイルド・ノードを形成する。これはペアレント・ノードの全レベルおよび引き続くレベルを横切って繰り返され、各下方レベルではより少ないコンテクストベクトルがチャイルド・ノードに割り当てられる。これらのノードは、各ノードが上方のレベルにおけるノードから分岐するツリー・パターンを形成する。こうして、各合計ベクトルがクラスタ・ツリーの各レベル上の1つのノードに割り当てられる。各ノードは中心軌跡を有する。各合計ベクトルに対するボトムレベル・ノード割り当ておよび各ノードに対する中心軌跡は検索アルゴリズムで使用するために保存される。ツリーのボトムレベルでは、各ノードはそれに割り当てられた各正規化合計ベクトルに向いている。ボトムレベルのノードはバケットと呼ぶことができる。
【0050】
ひとたび1つのクラスタ・ツリーがセットアップされたならば、新しいレコード合計ベクトルをツリーに加えることは簡単なことである。ツリーの初期分岐は最も近い中心軌跡を発見するために検査される。合計ベクトルは最も近い中心軌跡を持つノードに割り当てられる。次いで、このノードからの分岐は最も近いチャイルド・ノード中心軌跡について検査され、1つのバケットに到達するまでプロセスが続行される。次に、新しいレコードがバケットに割り当てられ、これらのバケットの最も近い中心軌跡が合計ベクトルが割り当てられた先のレベル上のノードから分岐する。中心軌跡そのものは変化しない。この作用はクラスタの中心軌跡一致を保存する。もし或るバケットが大きすぎると、そのバケットの合計ベクトルが次のレベルのサブクラスタに分割され得る。
【0051】
検索
次に図14を参照して、上記のツリー技術に従って保存したコンテクストベクトルの検索は次のように進行する。ユーザは1セットの単語または用語を用いるか、あるいは、類似したレコードを探索する1つまたはそれ以上のレコード(または文書)を指定することによって照会を行う。単語、用語およびレコードは所望に応じて重み付けされ、探索されている結果のどれが最も関連があるかを示す。適切な重み付けの後、単語、用語およびレコードのコンテクストベクトルが加算によって結合されて単一の照会ベクトル1002を生成する。
この照会ベクトルは、次に、ドット積ベクトル動作1003を実施することによって、データべース内の各合計ベクトルと比較される。これらの結果のリストが蓄積され(1004)、最高のドット積に結果する合計ベクトルが検索に最も関連のあるものであると考えられる。所望ならば、文書をドット積大きさの順序でランク付けし(1005)、関連を示すリストを形成する。ランク付けされたリストは次にユーザ1006に対して出力される。近似によるランク付けはユーザに対する情報オーバーロードを防ぐ(これは、検索結果がたとえば500の文書を含む可能性があり、しかもどの文書が最も関連がありそうかということをなんら示さない普通のブール検索法とは異なる)。
【0052】
上記のクラスタ・ツリー記憶機構を用いることによって、検索作業は非常に加速され得る。照会ベクトルは、それに最も近い合計ベクトルを(ドット積演算によって)識別するのに用いられる。検索は深度第1ツリー・ウォークを用いて実施される。分岐がツリーの下方に続き、照会ベクトルに最も近い中心軌跡を有する各レベルのノードを採用する。検索はツリーを下方に進み、最終的になんらチャイルドを持たないボトムレベル・ノード(バケット)に到達する。このバケットにおける合計ベクトルの各々は照会ベクトルと(再びドット積演算によって)比較され、最も近い合計ベクトルが識別される。
深度第1ツリー・ウォークにおける次のノードを最も近いベクトルについてチェックする前に、まず、そのノードが完全に刈り込むことができるかどうかが決定される。中心一致性を侵害することなくこれまでに見つけられた最も近い正規化合計ベクトルよりもより近い正規化合計ベクトルがそのノードに割り当てられることが不可能である場合にはノードは刈り込まれる。ここで、刈り込みのために中心軌跡C´を持つノードを検査していると仮定する。もしCが任意の子孫ノードの中心軌跡であるならば、それ故に、照会中心軌跡V(今までに見出された最も近い中心軌跡)よりもQに近い任意のベクトルがC´よりもCに近くなければならないのが本当であるならば、中心軌跡C´を持つノードならびにそこから分岐する任意のノードを刈り込むことができる。これは、C、C´間の距離をC、Q間の距離とQ、V間の距離の合計o の二倍と比較することによって計算し得る。C、C´間の距離が大きい場合には、中心軌跡C´(およびその派生)を持つノードを刈り込むことができる。もしそうでなければ、残りの子孫ノードについて式が繰り返される。これは、それらのうちの任意のものが刈込可能となるからである。子孫ノードのいずれもがノードの刈り込みに達しない場合には、検索は中心軌跡C´を持つノードを探して継続し、1つでもあれば次のレベルに下降し行く。刈り込み式を用いることによって、最も近いベクトルVよりも照会ベクトルに近い任意のベクトルが中心軌跡C´よりも中心軌跡Cにより近くなければならないときはノードを刈り込むことができる。したがって、そのベクトルはノードCに割り当てられ得ないか、あるいは、中心軌跡一致性を侵害することになる。これがボトム・ノードであれば、このノード上の合計ベクトルのすべてをチェックしてどれが今までに見出された最も近いベクトルよりも近いかを決定しなければならない。より近い合計ベクトルが見出された場合には、それが記憶されている最も近い合計ベクトルとなる。こうして、刈り込まれない場合にはボトム・ノード全体が検索される。検索は深度第1ツリー・ウォークで継続し、可能な場合には全分岐を刈り取る。これらの検索は、すべての分岐がチェックされてしまうか刈り込まれてしまうまでツリーを通じて継続する。全ツリーが検索された後、最も近い合計ベクトルが識別される。この合計ベクトルと関連したレコードは検索することができる。
【0053】
線形プログラミング技術を含む他の公知のノード刈り込み技術も使用できる。
このシステムは関連フィードバックも使用できる。それによって、ユーザは検索した文書のどれが最も有効であるかを指定する。次に、この指定した文書についての合計ベクトルを使用して新しい検索を実施することができる。この技術は検索に必要な時間を短縮し、システム有効性を向上させる。
さらに、検索済みのレコードの最も関連のある部分は所望に応じてハイライト表示してもよい。これは各検索済みのレコードを、章、段落その他の成分を表す多数のセクションに分割することによって行われる。合計ベクトルは、各セクションについて、そのセクション内の単語幹に基づいて生成される。セクション合計ベクトルの照会ベクトルでのドット積演算が次に実施されて照会に最も関連のあるセクションを隔離する。選定されたセクションは、或る種の区別用の可視属性太字、大型活字、異なったフォントあるいはカラー、囲み箱などを用いて表示される。こうして、ユーザは照会に最も近い文書の部分を迅速に位置決めすることができる。
【0054】
上記システムの可能性のある用途の1つは、医療手順を記述するのに普通に用いられている普通のICD9の領域である。たとえば、医療手順および関連したICD9コードを表すようにコンテクストベクトルを生成することができる。次に、或る医療手順について付加的な情報が必要な場合には、照会ベクトルを公式化して現行の手順に関連した手順およびコードを検索することができる。
上記の情報検索システムの別の用途は定義された用語索引に従うテキスト・文書の自動符号化である。たとえば、Wall Street Journal は約150の用語の索引を用いて各論文を符号化している。これらの用語はヒューマン・エディタによって割り当てられる。上記の情報検索システムは次のようにしてこのような索引用語を割り当てるに際してヒューマン・エディタの性能をエミュレートするのに用いることができる。
【0055】
1.テキストのサンプルを用いて単語についてのコンテクストベクトルを構築する。
2.indexed collectionと呼ばれるヒューマン「experts 」(たとえば、Wall Street Journal の場合にはエディタ)によって索引付けした1セットの文書を収集し、これらの文書についてのコンテクストベクトルを生成する。
3.自動的に索引付けしようとしている新しい文書についてのコンテクストベクトルを生成する。
4.この新しい文書のコンテクストベクトルを索引付けしたコレクション内のすべての文書のコンテクストベクトルと比較し、最良のマッチ(おそらくは、最良マッチは10である)を識別する。
【0056】
5.最良マッチの各々の索引用語のリストを生成し、マッチの程度に比例する重みを各用語に割り当てる。その結果、より良いマッチの索引付け文書があまりよいマッチがない索引付け文書よりも大きい重みを有する。
6.各独特の索引用語について、最良マッチの索引文書の各々においてその索引用語の発生毎の重みを加算することによって索引用語スコアを生成する。
7.この索引用語スコアに従って独特の索引用語のリストをソートし、これらの索引用語をリストのトップで新しい文書に割り当てる。
文書可視化
記憶済みの合計ベクトルの別の有効な用途は文書内容の可視化の領域である。コンテクストベクトルは、文書の意味、内容を可視形態で表すことのできる機構を提供し、観察者が興味のある文書を見つけ出すのに可視指向のパターン認識技術の利益を享受できるようにする。
【0057】
ひとたび上記の方法を用いてベクトルが確立されたならば、ベクトルは多数の技術のうちの任意の技術を用いて可視表現することができる。好ましい実施例は、コンピュータ・スクリーン、たとえば、カラー・グラフィックス・ワークステーションあるいはグラフィックスボードを備えたPCまたはPS/2コンピュータに1セットの文書のカラー・グラフィックス可視表現を与える。それは、Cプログラミング言語で書かれたソフトウェアを用いて作動し、UNIXオペレーティング・システムの下に稼働する。本質的に、文書および他の情報アイテムについての合計ベクトルは照会用語に対応する軸線を有する疑似直交ディスプレイに表示される(照会用語は実際に互いに直交している必要はない)。さらに、これらのアイテムは他の照会用語を持つ意味の相対類似性を表す可視属性を持って表示され得る。
【0058】
図15を次に参照して、ここには、本発明の文書可視化の方法のフローチャートが示してある。この方法は文書に関して説明するが、任意タイプの情報アイテムに適用できる。まず、システムはユーザから照会を受け入れる(1102)。この照会は、上述したように、単語、用語、句、文書その他の形であってよい。次に、照会は多数の成分に分離される(1103)。この分離はユーザによって手作業で実施されてもよいし、或る種の自動化手段を用いてもよい。それによって、表示用の情報内容を最大化する成分を生成する。たとえば、照会成分は文書セット共分散マトリックスの主要成分と一致するものを選ぶことができる。これらは、データオブジェクトのコンテクストベクトルを機構スペース内のポイントとして考えることによって得られる。これらのポイントは1つのクラウドを形成し、1つのポイントが各オブジェクトを示す。主要成分分析は、まず、平方自乗平均分析に基づいてこのクラウドに最良はめあい楕円面を合わせる。この楕円面の最長直交主要軸に対応する照会用語がデータセットの主要成分として選ばれる。
【0059】
各成分について、ディスプレイ座標(軸)あるいは可視属性が割り当てられる(1104)。たとえば、5つの成分が識別された場合、最初の3つはX軸、Y軸、Z軸に割り当て、残りの2つはカラー、テキストの可視属性に割り当てることができる。任意数の軸および属性(可視、非可視属性を含む)を識別し、成分に割り当てることができるが、余分な軸あるいは属性は表示を混乱させる可能性がある。
上記の方法によって各照会成分1105についてコンテクストベクトルが決定される。次いで、ディスプレイに表現しようとしている各文書について、各照会成分についてのコンテクストベクトルを持つ文書の合計ベクトルを用いて1セットのドット積が計算される(1106)。各文書についてこうして得られたセットのドット積結果はその文書の表現のための座標、可視属性を特定する。ひとたびこのような情報が表示しようとしているすべての文書について生成されたならば、その結果はアイコンのオンスクリーン表示を可能とするディスプレイ・エンジンに供給される(1107)。こうして、ドット積結果に対応するオンスクリーン位置および属性を有する1セットのアイコンがディスプレイ・スクリーン上に示される。
【0060】
ディスプレイ・エンジンは、公知の人造リアリティ・イメージ生成技術を用いて先に求められたドット積結果に従ってより高い次元のコンテクストベクトル・スペースに投影される特定の形状、サイズ、カラー、テキスト、動きを持つ三次元アイコンとして各文書を描写する。さらに、或る文書についてのコード化情報(たとえば、著者あるいは刊行日)も表現することができる。
上記可視化機構についての多くのバリエーションが可能である。所望に応じて、上記の技術は表示座標のみを用いて使用できる。その場合、すべてのアイコンが均一な可視属性を持って表示されることになる。あるいは、カラー、サイズなどのような可視属性を有するアイコンを、位置決め機構を用いることなく表示してもよい。こうして、ハイパワー・プロセッサが上記の人造リアリティ・ディスプレイを生成する必要なしに、比較的コンパクトなディスプレイを行うことができる。或る実施例では、各アイコンは1つまたはそれ以上の小さいサーモメータ・イメージを含み、各サーモメータは特定の概念との相関度(ドット積結果)を示す。
【0061】
好ましい実施例のディスプレイ・エンジンは、高レベル・グラフィックス・ソフトウェア・インタフェース、たとえば、Programmer's Hierarchical Interactive Graphics System (PHIGS) である。他のディスプレイ・エンジンも同様に使用できる。PHIGSおよびその他のシステムを以下に説明するが、次の刊行物:Hill, F.S. Computer Graphics, Macmillan, New York, 1990; Kessener, L.R.A., Data Structures for Raster Graphics, Sprinnger-Verlag, Berlin, 1985; Foley, J.D., and van Dam, Fundamentals of Interactive Computer Graphics, Addison-Wesley, Reading, MA, 1983にも記載されている。
PHIGSへの入力として使用される三次元画面の記述は、固定三次元座標系に1セットのリンクされたポリゴンとして表現され、各ポリゴンが指定された光反射性(カラー、スペキュラリティ、テクスチャなど)を有する表示されるべき各個々のオブジェクトの記述に過ぎない。ポリゴンは表示しようとしているオブジェクトの可視外面を構成する。PHIGSはオブジェクトの照明および或る特定の有利なポイントからユーザへのオブジェクトの外観の計算を取り扱う。
【0062】
このような可視ディスプレイ技術を用いると、ユーザは多重属性スペース内で同時に大きなグループの文書を見ることができる。本発明のディスプレイは、大きなセットのデータ・オブジェクトについての各データ・オブジェクトのすべての属性をユーザに同時に示す。
次に図7を参照して、ここには、アイコンについての6つの異なった可視属性501−506、すなわち、サイズ501、形状502、カラー503、ひずみ504、オリエンテーション505、モーション506の1セットの例が示してある。付加的な可視特性ならびにサウンドを含む他の多くの例が可能である。
次に図8を参照して、ここには、用語「money laundering」、「drugs 」、「terrorist 」に対応する3つの軸線601を有するサンプル・ディスプレイが示してある。次に図11を参照して、ここには、軸線601を備え、この軸線601によって定義された座標スペース内に位置したアイコン901のクラスタを備えるサンプル・ディスプレイが示してある。
【0063】
次に図9を参照して、ここには、アイコン表示の例が示し得ある。この例では、ユーザは2つのアイコン単語、すなわち、サイズの属性を有する「Sendero Luminoso」と、ひずみの属性を有する「Simon Bolivar を指定してある。したがって、ボックス701内に示される大きなアイコンはSendero Luminosoとの強い関連性を示し、ボックス702内に示される小さいアイコンはSendero Luminosoとの弱い関連性を示す。同様に、ボックス703内に示されるひずんだアイコンはSimon Bolivar との強い関連性を示し、ボックス704内に示されるひずんでいないアイコンはSimon Bolivar との弱い関連性を示す。
本発明においては、各個々に解決できるアイコンは、その正しい位置における容易に識別されるオブジェクトとして描写され、その割り当てられた属性が処理される。アイコンは、疑似三次元スペース内に、陰線を除いて透視画法で表示される。単純なマウス・コマンドによって、ユーザはより高い次元のコンテクストベクトル・スペースの三次元投影によって進むことができる。ユーザ選択ウィンドウがベクトル・スペース全体ならびにユーザの現在の視点の位置及び向きを示すのに利用できる。位置及び向きはユーザ・コマンドに応答して変えることができる。これらの操作は、普通のコンピュータ・グラフィックスおよび人工リアリティ技術を用いて実施される。
【0064】
次に図10を参照して、ここには、ユーザ・ナビゲーションの例が示してある。出発画面01は3つの軸線805に関して位置決めされた3つのオブジェクト804を含む。ユーザは2つの操作803、すなわち、回転と並進を選び、結果的に最終画面802を得る。最終画面802において、軸線805が移動しており、オブジェクト804も再位置決めされている。
アイコンがユーザの位置から離れすぎたところに位置していてその特性のすべてを正確に表現するときには、このアイコンは光の点として示されることになる。もしより大きな数のアイコンが互いに接近して位置している場合には、これらのアイコンはクラウドあるいは陰影領域を示すかも知れない。
所望に応じて、ユーザはデータ・オブジェクト修飾パラメータを指定して可視クラスタ、情報オーバーロードを縮小する助けとすることができる。1つの修飾法では、ユーザはブール・パラメータを指定し、この指定されたパラメータに一致するアイコンのみを表示する。あるいは、表示は、上述したように実施されたコンテクストベクトル照会から得たトップランクの文書に限ってもよい。次に図12を参照して、ここには、軸線601と修飾されたアイコンの1つのクラスタ901とを含む例が示してある。クラスタ801の外側の他のアイコンは表示されない。
【0065】
情報のオーバーロードを低減する別の方法は、アイコンの階層組織を用意することである。ユーザは、従属オブジェクトの検査のためのアイコンを選び、「ズームイン」コマンドを指定する。システムがアイコンにズームインすると、他の文書を表すすべてのアイコンがディスプレイから消去される。次いで、新しい「サブアイコン」が導入され、これらのサブアイコンは選定された文書の節、章、段落を表す。これらのサブアイコンはアイコンと同じ方法で表示される。
アイコンあるいはサブアイコンの1つと関連したダブルクリックのような或る種のコマンドに応答して、関連文書(あるいは文書部分)をユーザの精読用に表示してもよい。次に図13を参照して、ここには、軸線601およびアイコン909を有する表示に重ねてテキスト・ウィンドウ910の例が示してある。ウィンドウ910はアイコン909と関連した文書のテキストを含む。ユーザは、普通のウィンドウ操作技術を用いて、所望のままに、ウィンドウを移動、スクロールし、ウィンドウ・サイズを調節し、ウィンドウを閉じることができる。
【0066】
外国語テキストのコンテクストベクトル
テキスト用データべースでの緊急要求の1つは、単一言語照会に記述されている特定のトピックを説明する全言語文書を検索し、経路指定できることである。この問題を解決するための或る特別な方法がコンテクストベクトルを使用して工夫されてきた。このセクションでは、英語とスペイン語の文書を含むコーパスの例を用いてこの方法を説明する。
第1のステップは、コーパスの英語部分についての1セットのコンテクストベクトルを構築すること(あるいは別のシステムから借用すること)である。両方の言語に熟達している人間が作業にかかわる。作業は「つなぎ単語(tie word)」のリストを創り出すことである。つなぎ単語というのは、両言語において全く同じ意味を有する単語のことである。英語、スペイン語両方、英語、ロシア語両方、英語、中国語両方、英語、日本語両方に通暁している人間による略式の論文では、これら言語対の各々について数百のエントリを有するつなぎ単語・リストを作るのは容易であることが明らかである。努力すれば、少なくとも2千のつなぎ単語のリストも作れるであろう。ここでは、これが任意2つのヒューマン言語について可能となると仮定する。このプロセスを簡単にするため、すべてのつなぎ単語を英語と他の言語(このセクションのケースではスペイン語)の間のものとする。これは、英語が明らかに最も豊かなヒューマン言語であり、また、世界中に普及している言語のうちの二番目(中国語が一番目)であるから、妥当なものである考えられる。
【0067】
ひとたびつなぎ単語が選んだならば、それらの英語でのコンテクストベクトルをルックアップする。次いで、外国語の対応単語についてのコンテクストベクトル・セットに変える。次に、これらのつなぎ単語コンテクストベクトルを凍結する。この言語についての残りのコンテクストベクトル(所望に応じて、句読点リストおよびステマーを使用できるが、これらがすべての利益ともたらすとは考えられない)は、たとえば、凍結されたつなぎ単語コンテクストベクトルを基体として用いて新しいコンテクストベクトルを適応的に構築するニューラル・ネットワークSVD法を用いて創り出す。最終結果は、英語コンテクストベクトルと同じコンテクストスペース内に位置する外語語についての1セットのコンテクストベクトルとなる。
【0068】
キーポイント:コンテクストスペースとは、ほぼすべてのヒューマン・データ・アイテム(全言語のテキスト、全言語の音声、画像およびビデオ)の意味を表すのに使用できると予想される普遍的な意味表現ドメインのことである。
ひとたび新しい外国語についてのコンテクストベクトルを構築したならば、その言語での文書はこれらのコンテクストベクトルから構築したコンテクストベクトルを持ち、コンテクストスペース・データべースに格納される。
本質的に、コンテクストスペースはデータ・アイテムの用途あるいは意味を記述する生の普遍的方法となる。同じスペースが全言語(ならびに究極的にはビデオ、画像、サウンドも同様に)について使用される。この普遍的なコンテクストスペースにおいてベクトルとして表される照会によって、すべての言語及びその内容に基づくメディアにおけるデータを検索することができる。最終的に構築されたとき、これは究極的な内容アドレス指定可能メモリ・システムとなる。
【0069】
多重言語の文書を検索あるいは経路指定するのに新しい機構は不要である。利用できる言語のうちの1つによる照会は、まず、公式化される(マシンはその言語を扱えるものでなければならない)。この照会は、次に、コンテクストベクトルに変換される。次に、このコンテクストベクトルが用いられて文書コンテクストベクトル・データべースを検索し、最も近いマッチを見つけ出す。これらのマッチはランク順に提供される(ブール照会も使用できるが、キーワードがそれらの由来する言語(指定しなければならない)の文書と一緒にのみ使用されることになる)。正味の結果は、言語に依存した最も関連のある文書のリストとなる。次に、ユーザが見たいと思う文書を選び、システムのテキスト・ウィンドウに表示することができる。
【0070】
英語・スペイン語システムの場合、いくつかの利点が連繋してこのようなシステムを、たとえば、英語・日本語システムよりもかなり容易に構築することができる。まず、かなりの量のスペイン語テキストがCD−ROMで利用できる。次に、スペイン語で使用されている文字が我々のMatch Plus(登録商標)システム内に既に存在する。第3に、英語、スペイン語の両言語に通暁した多くのスピーカが既に我々の中にいる。これらの理由により、英語・スペイン語システムを構築することが可能となると考えられる。
すべての言語にとって共通のコンテクストスペースを有することによる別の潜在的な利点は、おそらく生のギスティング・システムを構築することができることである。このアイデアは、外国語文書をテキスト・ウィンドウに表示するということである。ユーザはギスティング機構を呼び出す(キーボード制御シーケンスあるいはマウス操作メニュー選択を用いる)。ギスティング機構はウィンドウをテキスト内にほぼ1つの段落の長さで置くことになる。このウィンドウの次は(ウィンドウ内のハイライト表示されたテキストの側に向かって)英単語の選択を含む第2ウィンドウとなる。これらの英単語は外国語ウィンドウ内の資料の総計コンテクストベクトルと密接に一致したコンテクストベクトルを有する(この総計コンテクストベクトルはギスティング・システムによって自動的に演算される)。ギスティング・ウィンドウ内の英単語は外国語ウィンドウのコンテクストベクトルに対する接近度の順序で表示されることになる。これらの英単語が文に形成されることはないが、それでもこれらの単語が選ばれた文章の内容の非常に明解な認識を可能とすると考えられる。次に、ユーザはギスティング・ウィンドウを上下にスクロールして外国語テキストの内容を調べる。さらに、現存のMatch Plusハイライト表示システムを用いて、テキストの、照会ウィンドウに現在表示されている照会の主題事項に最も関係した文章を配置することができる。最終的には、多くの場合、このギスティング・ウィンドウ機構が後に無関係な文書として認識されるものを英語に翻訳することを不要にすると考えられる。これはコンテクストベクトル技術から派生すると考えられるまた別の分析生産性向上となる。
【0071】
Docuverse
分析で生じる重大な問題は、利用できる印刷資料のますます増え続ける量である。すべての所望知識情報の90%以上が利用できる文書内にあり、見つけられ、要約されるのを待っていると言われている。ブール照会べースの文書検索・経路指定システムは、歴史的には、関心のあるトピックスに基づいて大きな文書コーパスにアクセスする方法を見出す最初の試みであった。次世代の意味類似性べースの文書検索・経路指定システム(特に、HNC's TIPSTER プログラム・システム)が現在開発されつつある。これらのシステムは、或る特定の関心領域に関する文書にかなり迅速にかつ包括的にアクセスする能力を向上させるという点で分析の生産性をかなり向上させると予想される。
【0072】
高性能の文書検索・経路指定はかなり重要であるが、分析者の作業の1局面に取り組んでいるだけである。すなわち、公知タイプの情報についての文書データべースを検索するだけである。別の同等に重要な分析機能は、予測されず、普通でない新事実を調査することである。新しい傾向および新生の活動パターンを探すこともある。指定されたタイプの情報を調査することに基づく文書経路指定・検索システムは、それらの性質によって、この調査機能を実施する際にそれほど使用することができない。必要なのは、分析者が大量の文書になんとかして「入り込み」、歩き回れる方法である。すなわち、文書データべースの構造を知り、奇妙なことあるいは意外なことを探れるかということである。
このWhite Paper は新しいタイプの文書データべース探索ツールを提案する。すなわち、膨大な文書の情報内容を同時に探索するように分析者が強力な自然可視パターン認識技術を活用できるように設計したものを提案している。それはdocument universe に通じる分析者のウィンドウとなる。したがって、我々はこの概念をDOCUVERSE システムと呼ぶ。
【0073】
このDOCUVERSE システムの目標は、直感的で制御容易な探索プロセスを支援し、それによって、大量の文書の内容の特徴を迅速に評価できるようにすることにある。このプロセスのための基体はコンピュータ・スクリーン(たとえば、カラー・グラフィックス・ワークステーションまたはグラフィックス・ボードを備えたPCあるいはPS/2)上に1セットの文書をカラー・グラフィックスで可視表現することである。この表現は、ハリウッド・フィルムおよびフライト・シミュレータで使用するために開発された人工リアリティ・イメージ生成技術の或るものを活用するものであり、考慮中の文書セット内の各文書を、三次元サイバースペース内に位置した、特殊な形状、サイズ、カラー、テクスチャおよび動きを備えた三次元オブジェクトまたはアイコンとして描写することになる。各文書と関連したこれらの属性の各々は1セットのユーザ選択特徴(たとえば、当該トピックを示すテキスト本体)のうちの1つとの文書内容の意味類似性に対応する。或る文書についてのコード化情報(たとえば、書かれた時期あるいは著者の識別)も1つの特徴として使用できる。これにより、分析者は多重属性スペース内で大きなグループの文書を見ることができるようになる。
【0074】
このWhite Paper において論議しているプロジェクトはプロトタイプのDOCUVERSE システムを開発する。このシステムはCソフトウェア言語で書かれ、オフザシェル・カラー・グラフィックス・ワークステーション上のUnixの下で稼働する。任意他の特殊なハードウェアには依存しないが、ワークステーションのカラー・グラフィックス・ディスプレイおよびワークステーション・マウスを利用する。
このプロジェクトは、また、TIPSTER文書検知コントラクタによって開発されているソフトウェアを稼働することのできるTIPSTER Software Evaluation System Sun Microsystems ワークステーション・システム(DOCUVERSE システム・ワークステーションと融和する)の獲得、据え付けも含む。
【0075】
エンド・ユーザ問題
テクスチャ情報の大きなデータべースへの有効アクセスは従来からの操作上の問題である。コンピュータ・ネットワーク、照会べース検索・経路指定システムおよび電子メール・システムにおける進行中の開発は特殊なトピックスについての当該文書へのますます増大するアクセスを招く。しかしながら、これらの文書の内容の分析ならびにこの内容の傾向、変化の探索発見はまだ手作業で実施しなければならない。この非常に重要な作業領域を簡単に支援するツールは存在しない。これらの活動はおそらく分析者の作業の半分に相当するので、この領域でのコンピュータべースのツールの開発は最高に重要である。
技術的問題
進歩した調査・検索方法は、文書データべース内に存在する或る指定されたトピックについての大きな情報部分を位置指定できる。これらの方法に基づくシステムの最終製品は或る指定されたトピックに関連のある文書の優先リストである。分析者は、次に、これらの文書を検査し、それらの内容を使用して結論に達する。したがって、「1度に1文書」分析隘路が生じ、これは傾向、変化などを迅速に識別する分析者の能力を制限することが多い。必要とされるものは、予め選択したセットの文書(たとえば、照会べース検索・経路指定システムの出力)の内容を大量に処理できる別の方法である。特に、可視サイバースペース内に浮遊している個々のオブジェクトとして文書を見ることができ、各オブジェクトの位置および表示をユーザ定義文書属性によるランク付けあるいは補正によって決定することが望ましい。この目標は、大きな文書セットについて作動でき、かつ、自然ヒューマン可視画面分析能力を活用できる文書セット内容探索システムを作ることである。
【0076】
DOCUVERSE システム概念
もし情報が符号化され、正しく表現されるならば、人間の視覚は多くの情報ディメンジョンを知覚し、解釈することができる。コンテクストベクトル表現および高解像度表示は、テクスチャ情報の可視化のための技術を可能としている。情報の表示は、人間がテキスト・データべースの概要表現を通じて「ナビゲートする」ことができるように行うことができる。それがDOCUVERSE システムの目的である。
このセクションはコンテクストベクトルのHNC技術の再検討で始める。次に、DOCUVERSE システム概念を、その構成要素の説明をしながら説明する。
コンテクストベクトル
HNCのTIPSTER プロジェクト文書検索・経路指定システムおよびここに提案したDOCUVERSE システムは、共に、コンテクストベクトルの使用に基づいている。コンテクストベクトルとは、文書の意味内容(すなわち、文書の断片)を表すn次元ユークリッドスペース内の単位半径球体上の1点である。このベクトルの成分は或る一定の特徴の意味での全文書意味の補正値である。特徴は、小さいコンテクストなしの言語の概念を表す注意深く選ばれた高度記述用語を含む。他の特徴値はコーパスから適応的に学習される。数学的技術によって、1つのコンテクストベクトルは任意の単語、句あるいは文書断片に割り当てることができる。TIPSTER プロジェクトについて示したように、これらのコンテクストベクトルは意味の類似性についての正確な案内を行う(その類似性の性質には無関係)。この新しいアプローチは、もっと普通の意味類似性技術、たとえば、WordNet システムとは対照をなす。
【0077】
Princeton UniversityのProf. George Miller およびその同僚がWordNet と呼ばれる或るタイプの連合ディクショナリを開発した。WordNet は1つは動詞用であり、1つは名詞用であるなどのいくつかのデータ構造からなる。動詞構造は「in the manner of」という関係によって生成された数学順序ツリー構造である。このツリー内の1つの動詞は、別の動詞の動作が先の動詞の様式ならば、この別の動詞の上につながる。たとえば、動詞「walk」は動詞ツリーの下方に位置し、動詞ツリー内の動詞「move」につながる。これはwalking がmovingの様式の動作だからである。WordNet の名詞ツリーは動詞ツリーと同様であるが、関係は「is a kind of」である。したがって、animalは上方に位置し、dog につながる。これはdogsがanimalの一種だからである。
【0078】
TIPSTER プログラムで実施した実験では、HNCのコンテクストベクトルはWordNet に見出される非常に限られた種類の類似性をキャプチャすることが示された。徹底的なテストは行われなかったが、スポット・チェッキングでは、WordNet が意味が近いと考える対になった単語はHNCコンテクストベクトル・システムによる意味にも近いと考えられることが示された。しかしながら、コンテクストベクトルはこれを越えて進む。たとえば、WordNet において符号化された非常に限られた関係のために、drive とautomobileという単語についてはまったく関係が見出されない(1つは動詞であり、他は名詞だからである)。しかしながら、これらの単語のコンテクストベクトル、たとえば、block とcityおよびblock とtackleについてのコンテクストベクトルは非常に近い。一方、automobileとdog という単語についてのコンテクストベクトルは近くない。事実、単語についてのコンテクストベクトルの類似性は膨大な量のテキスト内の極接近性の統計値から出現するので、ほぼすべてのタイプの意味類似性が自動的にこの意味表現に組み込まれることになる。これは句、文書断片についてのコンテクストベクトルに持ち越される。これらが単語コンテクストベクトルの重み付きベクトル合計を採用することによって構成されているからである。
【0079】
意味を符号化するための優れた手段のほかに、コンテクストベクトルの数学形態を活用して急速調査方法を開発してもよい。そうすれば、文書セット内の各文書の意味類似性を迅速に決定することができる。また、或る特定のコンテクストベクトルを持つ意味の高度の補正値を持つ文書のみを見つけるのにトリム式調査を行うことも可能である。これらのプロパティは、選定したコンテクストベクトルと類似性について等級付けた文書のコンテクストベクトルの間のスカラー積またはドット積を採用する単純な数学的演算によって意味類似性の比較が実施されるという事実から現れる。接近したマッチについての大きな文書セットの調査は非常に効果的で迅速な階層クラスタ調査によって実施され得る。
要約すると、HNCのコンテクストベクトル・アプローチは単語、句あるいは文書の意味を表現し、多数の文書の意味類似性を比較する実用的な手段を提供する。
【0080】
データべース
分析のための当該データべースを構成する文書は、入れ子になったデータ・オブジェクトに階層状に組織化した情報を含んでいる。この提案の目的のために、これらのデータ・オブジェクトは、以下の任意のものであってよい。
・単語
・文書の一部(文、段落、節あるいは章)
・文書
・文書セット
・文書のデータべース
・データべースのセット
DOCUVERSE システムはこれらのタイプのオブジェクトの大部分あるいはすべてについての内容情報を表示することができる。しかしながら、プレゼンテーションを簡単に保つために、ここでは、描写されつつあるデータ・オブジェクトがすべて文書であるケースについてのみ限定する。
【0081】
人工リアリティ表示システム
DOCUVERSE システムは探索されるべき文書領域の可視表示を行うのに技術的現状コンピュータ・グラフィックス技術を使用する。この表示は、現存するソフトウェア・パッケージからこのプロジェクトのために採用される人工リアリティ・ソフトウェアを使用して構築される。このソフトウェアの背後の基本的なアイデアをこのセクションで説明する。
1980年代に、2つの非常に類似した標準的高レベル・グラフィックス・ソフトウェア・インタフェースが開発された。すなわち、GKS(the Graphical Kernel System)とPHIGS(the Programmer's Hierarchical Interactive Graphics System)である。これらは、現在、標準PHIGSインタフェースに統合されているが、これは多くのエンハンスメント(これ以降で「PHIGS」と言ったときには自動的にこれらも含める)と一緒に、多数のワークステーション・ベンダー(たとえば、Sun Microsystems、Hewlett-Packard 、IBM 、Silicon Graphics)によって支援されている。コンピュータ・グラフィックスの詳細については、GKS、PHIGS、X-Windows および以下の関連刊行物を参照されたい。
【0082】
・Hill, F.S., Computer Graphics, Macmillian, New York, 1990
・Kessener, L.R.A., Data Structures for Raster Graphics, Springer-Verlag, Berlin, 1985
・Foley, J.D., and van Dam, Fundamentals of Interactive Computer Graphics, Addison-Wesley, Reading, MA, 1983
PHIGSの基本アイデアは、グラフィックス創作作業を2つの片、すなわち、ユーザに表示すべきオブジェクトを記述する部分と、ユーザ選択の眼球位置、観察方向、パノラマ的視覚角度(すなわち、ズーム・レベル)からこれらのオブジェクトのディスプレイを生成する部分とに別けることにある。最初の仕事はアプリケーション・ソフトウェアについて行われることである。第2の仕事はPHIGSによって自動的に実施される。
【0083】
PHIGSへの入力として用いられる三次元画面の記述は、単に、固定三次元座標系に置かれた1セットのリンクされたポリゴンとして表される各個々の被表示オブジェクトについての記述であり、各ポリゴンは指定された光反射性(カラー、スペキュラリティ、テクスチャなど)を有する。ポリゴンは被表示オブジェクトの可視外面を構成する。オブジェクトのライティングおよびユーザの選んだ眼球優勢点からユーザまでの外観の計算がPHIGSの仕事である。
いくつかのワークステーションでは、PHIGSは主としてソフトウェアに組み込まれる。他では、PHIGSは主としてハードウェアに組み込まれる。最終的なスクリーン外観は両ケースともにほぼ同じであるが、ハードウェアにPHIGSを組み込んでいるワークステーションは、通常、分析者の作業ペースに合わせた速度で画像を表示することができるが、主としてPHIGSをソフトウェアに組み込んだワークステーションはこのような用途には遅すぎる。ここで、或る特殊なグラフィックス表示ボードを使用したならば、PC、PS/2コンピュータも満足できる速度でPHIGSを走らせることができることに注目されたい。
【0084】
このプロジェクトで使用する人工リアリティ・ソフトウェアは、表示すべきアイコン(すべての「属性」情報を持つアイコンで以下に説明する)を採用し、これらの属性をPHIGSがユーザに表示すべきポリゴンのリストに変換することができる。これは簡単に見えるが、実際にはかなり複雑である。たとえば、個々のアイコンを解像できるところよりも遠すぎるほど離れた距離のところに或るグループのアイコンが存在する場合、ソフトウェアは個々のアイコンを1「クラウド」のアイコンの現実的なレンダリングと交換しなければならない。可視画面分析者の有効利用を可能とするために、このレンダリングおよび他のすべては非常に高い品質で行わなければならない。これには、サイズを種々の距離のところで明らかにするために或る種の巧妙な黒ずみ処理および陰影処理が必要となる。別の可能性としては、より大きな距離のところで可視性を減ずる「fog 」を使用することがある。これらは、ハリウッド・フィルム、フライト・シミュレータ、分子模型作成、高品質ビデオ営業ゲームおよび広告のためのコンピュータ生成グラフィックスを行う人工リアリティ会社によって解決された問題のすべてである。
【0085】
データ・オブジェクト表現
DOCUVERSE システムは三次元グラフィックス・アイコンの形でユーザにデータ・オブジェクトを表示する。属性はユーザ選定記述特徴であり、データ・オブジェクトの意味の1局面を記述する。各属性は或る最小値(たとえば、0)と或る最大値(たとえば、1)の間の値を持つ。ディスプレイの目標は1つの大きな視覚的表示装置において大きなセットのデータ・オブジェクトについて各データ・オブジェクトの属性のすべてをユーザに示すことにある。これを行うべく、我々はほとんどすべてのヒューマン視覚的(そして、コンピュータ・グラフィックス!)技術を活用することにする。
基本的なアイデアは、各個々のデータ・オブジェクトを表すアイコンが多くの視覚的自由度を持つことになるということである(図7参照)。
【0086】
これらの自由度は、互いに独立して設定し得るという意味で「直交」となる。いくつかの例として、スペース内の位置、サイズ、形状、カラー、ひずみ、表面テクスチャおよびモーションがある。おそらくは、オーディオ画像形成を経由して、サウンドも使用できる。
使用したコンピュータがグラフィックス能力を持つことになるので、各アイコンのプレゼンテーションは視覚的に非常に精巧となる。各個々の解像可能なアイコンは正しい位置に容易に識別されるオブジェクトとして描画され、それの割り当てられた属性が処理される。この表示は人工リアリティ表示よりもリアル画面の写真に似ることになる。ただし、オブジェクトがアイコンとなることは除く。簡単なマウス・コマンドによって、ユーザは三次元サイバースペース内を自由に移動することができる。ユーザ選択ウィンドウがサイバースペース全体(立体形)を示し、ユーザの現在位置および表示スクリーンを通して見る現在の視線方向を示すのに利用できる。ユーザは任意の新しい(x、y、z)位置に自分の位置を容易に変えることができ、任意の新しい方位、高度に対して視線方向を回転させることができる(ビュースクリーンはボアサイト回転時に常に水平に、すなわち、x−y平面に対して並行に留まる)。位置および角度の急速な変更が可能であるが、滑らかな動きはない。すなわち、これには高価な特殊化したプロセッサが必要となるからである。
【0087】
解像すべきビュースクリーンからの距離が大きすぎるアイコンは光点として表現される。もしそれらのアイコンがグループ内にあるならば、陰影付きの領域(多少とも銀河に似ている領域)として表現される。これにより、離れたデータ・オブジェクトの位置を評価することができる。オプション、たとえば、遠方視覚を制限する「fog 」の導入も可能である。
低ズーム・レベルでは、ユーザはビュースクリーン内に立体のサイバースペース全体を見ることができる。これらのズーム・レベルでは、個々のオブジェクトは普通は見えないが、大きなグループの文書のみが見える。これらのグループの密度は三次元陰影処理を介して表現される。サイバースペース・キューブのまわりにビュースクリーンを動かすことによって、文書セット全体の三次元レイアウトが見える。それ故、これはより接近して見るために特殊な領域内に移動する戦法を示唆する。
【0088】
別のユーザ・オプションは、任意のアイコンを単にダブルクリックしてその文書を点検のために開くことである。これは、オブジェクトのテキストを含み、そのオブジェクトについて(ユーザが選んだアイコン表示属性の各々について)TIPSTER 様のよりハイライトの強いプロファイル(詳細についてはTIPSTER プロジェクト・ドキュメンテーション参照のこと)を提供する新しいオーバーレイ・ウィンドウを出現させることになる。ハイライトの強いプロファイルの任意のもののどこかをクリックすることによって、表示されたテキスト・ブロックが瞬間的に指示されたパッセージにジャンプする。多くのタイムオーバーで分析者生産性を向上させるのに、ワープ速度で或る文書領域を歩き回り、或る文書の特殊な内容のパッセージに瞬間的にジャンプして位置する能力が正当に予想される。検索された文書のセットを通じての手作業での調査と、同じセットをDOCUVERSE システムで探索することの差異は、ライト兄弟の飛行機とスターシップ計画との差異に似ている。我々は、各分析者に責任ある領域においてすべての利用可能なテクスチャ情報を絶えずモニタするパワーを与え、しかも生活を楽しむ時間も与えることを希望する。
【0089】
属性
アイコンの表示自由度を決定する属性はユーザがワークステーション上のユーザ・インタフェースを経て選択を行うことによって選ばれる。これらの属性をどのようにして選び、使用するかの予備的な概念を以下に説明する。このプロジェクトのタスク1は、属性を選び、使用するためにユーザに利用可能となる種々の方法を注意深く定義することに向けられる。
座標系選択:座標単語
表示されたアイコンの空間座標は3つのコンテクストベクトルによって特定される(図8参照)。コンテクストベクトルは単語(「座標単語」)、単語のグループ、文書または文書セットからのものであってもよい。座標単語は三次元のデータ・オブジェクトの投影情報内容を見るための(非直交)基本スペースを構成する。座標単語の例としては、「Terrorist 」、「Drugs 」、「Money Laundering」がある。アイコンの表示位置はデータ・オブジェクトのコンテクストベクトルと座標単語のコンテクストベクトルの投影(ドット積)に基づいて計算される。「座標単語」として他のデータ・オブジェクト属性を使用することも可能である。たとえば、1つの座標軸を用いて各データ・オブジェクトの作成日を表示してもよい。別の座標軸は著者がFidel Castroかそうでないかなどを表示してもよい。
【0090】
情報内容表示制御:アイコン単語
座標単語に加えて、ユーザは1セットの「アイコン単語」を特定できる。アイコン単語は表示されることになっている付加的な情報(すなわち、アイコンの形状、カラー、テクスチャ、サイズ、モーション、図9参照)を決定する。アイコン属性は、データ・オブジェクト属性のコンテクストベクトルの、各アイコン単語のコンテクストベクトルとの投影を計算することによって決定される。1つのアイコン属性は各アイコン単語と関連している。
表示オブジェクトの修飾
可視クラスタおよび情報オーバーロードを低減するのを助けるようにデータ・オブジェクトの修飾を実行できる。ブール修飾はマッチすべきキーワードのセットである。アイコン属性はヒットしたオブジェクトについてのみ表示される。おそらく、最も普通の修飾法は、適当な文書の本文を選ぶように検索・経路指定システムを使用するだけである。
【0091】
データ・オブジェクトの徹底的な計数が可能である。たとえば、キーボード・コマンドあるいはマウスでの「point and click 」のいずれかとしてDocument 4、Document 1544 、Document 3、Database "set.info. lib. text"がある。
ドット積およびスレショウルディング(thresholding)(経路指定法に類似する)を介してデータ・オブジェクト修飾を実施するためにコンテクストベクトルを使用してもよい。類似した情報内容を持つデータ・オブジェクトを関連付けるためにクラスタ化を使用してもよい。1つのクラスタ内のオブジェクトのみが表示される。
スペースの移動:視点の変更
座標単語またはオブジェクト関連付けデータの選択は表示基本スペースを定める。アイコン単語の選択はどんな種類の情報を表示するかを決定する。ポインティング装置(マウスなど)からの入力は三次元座標スペースないのユーザの視点を決定する。この視点の変更(およびズーム・レベルおよび視角の変更)は、標準のオフザシェル・コンピュータ・ グラフィックス法、人工リアリティ法を用いて実施される。
【0092】
現在の表示階層レベルでのすべてのデータ・オブジェクトは、三次元法、遠近法、隠れ線除去法を用いて表示される。ユーザは任意の時点で視点、座標あるいはアイコンを変更してデータべースに含まれた情報についての完全な洞察を獲得することができる(図10参照)。
スコープ制御:情報オーバーロード
データ・オブジェクト修飾はオーバーロード低減の第1方法を提供する。データ・オブジェクトの階層組織はオーバーロード低減の第2方法を提供する。ユーザはポインティング装置を用いて副座標オブジェクトの検査のためのデータ・オブジェクトを選定する。たとえば、下方詳細レベルへ「ズームイン」する。或るオブジェクトにズームインしたとき、より高いレベルの非選定オブジェクトのすべてがディスプレイから消去される。我々は、各文書が名目上アイコンとして表示されるモードを考えており、その場合、ユーザは、所望に応じて、そのアイコンの内部に飛び込んで、サブアイコンとしての文書の章、節、段落を検査することができる。段落内への飛び込みにより、その段落のテキストをスクリーン・ウィンドウに自動的に表示することができる。
【0093】
階層の最下方レベルで、データ・オブジェクトのテキストが表示される。ユーザはこの階層を任意所望レベルまで上昇、下降することができる。より高いレベルのオブジェクト(たとえば、文書セット)は階層を上昇しているときに復元される。
属性として使用するための高情報座標の自動的な決定
ユーザが属性を選べることに加えて、DOCUVERSE システムは1つの文書セットについての座標を自動的に選定することができる。これらの座標は、最も高い情報内容を持つ可能性があるという基準に基づいて選定される。たとえば、最も単純な座標は文書セット分散行列の主成分である。これらの成分は特徴スペース内のポイントとしてデータ・オブジェクトのコンテクストベクトルを考えることによって得られる。これらのポイントはクラウドを形成し、各オブジェクト毎に1つのポイントが割り当てられる。主成分分析は、単に、(平均二乗誤差の意味で)このクラウドに最良の適合楕円体を合わせるだけである。この楕円体の最長直交主要軸は、それ故、データセットの主要軸である(多くのリアルワールド・ケースにおいて、ほんの2、3の楕円体軸が非常に長いだけであり、誤差が少ないので、短い軸は無視することができる)。それ故、属性がこれらの主成分となる。
【0094】
主成分分析は通常は第1順位の近似法として良好に作動するが、正確な表現を創り出し損なうことが多い。主成分法の一般化がCottrell, Monro およびZipserによって提唱され、Hecht-Nielsen によって拡張されている。この方法は、一般的な曲線座標系をデータセット内に当てはめるのにニューラル・ネットワークを使用しており、この方法では、座標軸はほぼ局所的に直交のままであるが、セット内のデータの幾何学的「クラウド」の実際に形状に適合するように湾曲している。この方法(詳しくは、付録Aを参照されたい)は、最高の情報内容を能力に応じて持つ可能性があり、オリジナルの文書コンテクストベクトルを表す属性を創り出すと考えられる。HNCは、現在、この方法を洗練する努力を続けている。この努力の結果は、Innovative Science and Technology のSDIO Office が後援し、Army Research OfficeのMathematical Sciences Divisionが管理しており、これを個々に提案しているプロジェクトで使用する。
【0095】
特殊例
最後に、我々は、我々が提案したDOCUVERSE システムの能力のいくつかをどのようにして使用できるのかという特殊な虚構の例を提示する。DOCUVERSE 概念のより明確な計画能力を探索する例を提示するよりもむしろ、我々は、システムが使用されるであろう革新的な方法の1つを示す状況を説明する。この例における目標は、高速非符号化(あるいは符号化)データリンクを通じて送られる情報の性質をほぼリアルタイムで決定することにある。
データ:テキスト情報を含む被代行高バンド幅(10MB/秒)データリンク。
障害物:分析者が手作業で許容時間量内でメッセージを読むには非常に多すぎる情報がある。
【0096】
アプローチ:
ステップ1:座標の指定
分析者は以下のような1セットの関係のある座標単語を選ぶことによって表示座標を定義する。
Drugs
Money Laundering
Terrorists
DOCUVERSE は選定された座標スペース内のアイコンとしてメッセージに含まれる情報表現を表示する(図11参照)。
ステップ2:データ点検、選択
分析者は、視覚点検によって「terrorist, drugs, money laundering」座標系内のどのメッセージが関係がるかを決定し、より詳しい点検のためにマウスを使って1セットのメッセージを修飾する(選択する)(図12参照)。
【0097】
ステップ3:視点の変更
マウスを使用して、分析者は選定した座標スペース内を移動し、メッセージ内の情報のより明瞭な理解を行う。表示は新しい視点を反映するように更新される(図16参照)。
ステップ4:アイコン単語および属性の選択
分析者は、以下のアイコン単語を指定することによって調査のために付加的なデータ・ディメンジョンを選ぶ。
・「Sendero Luminoso」
・「Simon Bolivar」
・「Cinco de Mayo」
アイコン単語に対するメッセージ情報内容を反映させるために表示が更新される。これらのアイコン単語を持つ高い一致性を有するメッセージは容易に見ることができる(図17参照)。
【0098】
ステップ5:ズーム
次に、分析者はメッセージ情報のズームイン検査のために最も関連のあるデータ・オブジェクトを選ぶ(図18参照)。
ステップ6:点検
次に、選ばれたメッセージのテキストが手作業点検のために表示される(図13参照)。
DOCUVERSE システム概念の利点
要約すると、DOCUVERSE システムは分析者に新しいデータ探索能力を与える。このシステムの利点のうちのいくつかを以下に列挙する。
・高速:手作業によるメッセージの読み取りの必要なしに大量の隔離テキストの情報内容の点検が可能である。
【0099】
・コスト有効性:より少ない分析者でより多い作業をこなすことができる。
・使いやすさ:直感的なユーザ・インタフェースがヒューマン視覚システムの自然画面解釈能力を活用する。
・コンパチブル:DOCUVERSE は同じコンテクストベクトルおよび特徴をHNCのTIPSTER 経路指定/検索システムとして使用する。
・融通性:情報の性質についてはなんの仮定もない。単語にコンテクストベクトルがタグ付けされている場合には音声の解釈に適用可能である。外国語のメッセージが密集している特殊属性ギスティングにも使用できる。
・標準のハードウェア:標準のコンピュータ・グラフィックス・ワークステーションあるいはグラフィックス・ボードを備えたPC/PS2コンピュータ。
【0100】
・急速ユーザ訓練:直感的なヒューマン・インタフェースは訓練の要件を最小限にする。
上述したことから明らかなように、ここに開示した発明はコンテクストベクトル生成、検索のための新規で有利なシステム、方法を提供する。先の説明では、本発明の方法および実施例を例示したに過ぎない。当業者であれば理解できるように、本発明はその本質的な特徴の精神から逸脱することなく他の特殊な形態で実施可能である。したがって、本発明のこの開示は例示を意図したものであり、以下の請求の範囲に記載した発明の範囲を限定するものではない。
【図面の簡単な説明】
【図1】は本発明のハードウェア要素のブロック図である。
【図2】は本発明の訓練システムのブロック図である。
【図3】はウィンドウ定義の例を示す。
【図4】はウィンドウ定義の例を示す。
【図5】は本発明の訓練プロセスのフローチャートである。
【図6】は1つの文書についての概略ベクトルを決定するプロセスのブロック図である。
【図7】はサンプル・アイコン属性を示す。
【図8】は文書視覚化のためのサンプル表示である。
【図9】は関連を表すアイコンの例を示す。
【図10】はベクトル・スペースを通してのユーザの移動の例を示す。
【図11】は文書視覚化のためのサンプル表示である。
【図12】はアイコン修飾を示すサンプル表示である。
【図13】は開放アイコンを示すサンプル表示である。
【図14】は本発明の検索法のフローチャートである。
【図15】は文書視覚化法のフローチャートである。
【図16】は視点の変更を示すサンプル表示である。
【図17】はアイコン単語の選択を示すサンプル表示である。
【図18】はズーム効果を説明するサンプル表示である。
【図19】は検索のデータ流れ図である。
【図20】は本発明における照会生成経路指定のデータ流れ図である。
【図21】は本発明のコンテクストベクトル生成の一部を説明するデータ流れ図である。
【図22】は本発明のコンテクストベクトル生成の残りの部分を説明するデータ流れ図である。
【符号の説明】
100 本発明のシステム
101 訓練テキスト
102 プリプロセッサ
103 句読点リスト
104 句リスト
105 学習システム
107 中央処理装置
108 RAM
109 データ記憶装置
110 出力装置
111 入力装置
112 プログラム記憶装置
Claims (5)
- 合計ベクトルのセットを生成するシステムであって、
複数の情報エレメントを含むレコードのトレーニング・セットを含む記憶装置と、
前記記憶装置に接続され、各レコード内で選定された情報エレメントに対して、複数のランダムに発生された成分データ値のみを含む初期コンテクストベクトルを割り当てる初期コンテクストベクトルジェネレータと、
前記記憶装置内に接続され、コンテクストベクトル訓練プロセスを適用して選定された情報エレメントに対して、共起性を適用して選定された近接内の情報エレメントのコンテクストベクトルにおける隣接の位置に依存する関数および初期コンテクストベクトルに対する修正の大きさを変える近接制約による共起性に応答して、各レコードにおける選定された情報エレメントについて選定された情報エレメントの初期コンテクストベクトルを修正する反復トレーニング装置と、
前記記憶装置内に接続され、各レコードの前記情報エレメントの前記コンテクストベクトルを結合して前記レコードに対する合計ベクトルを決定し、前記記憶装置に前記決定された合計ベクトルを格納するベクトル結合装置とを備えたことを特徴とするシステム。 - 前記レコードが文書を有しており、前記情報エレメントが単語を有していることを特徴とする請求項1のシステム。
- さらに、前記記憶装置に接続され、前記文書から停止−リストに挙げられた単語を除去し、単一の単語として処理されるべき多重ワード・フレーズをマークし、単語を単語ステムに変換するプレプロセッサを備えたことを特徴とする請求項2に記載のシステム。
- 前記反復トレーニング装置が、
目標エレメントを反復的に選定する可動ウインドウと該目標エレメントの近傍の複数の近隣エレメントを提供する機能と、
前記目標エレメントに対する各近隣エレメントの近接性を決定する近接性決定装置と、
前記目標エレメントと前記ウインドウ内のそれぞれの前記近隣エレメントの相対的重要性を決定する共重要性決定装置と、
各近隣エレメントに対する前記近接性決定装置と共重要性決定装置の結果に応答して前記目標エレメントに対するコンテクストベクトルを修正するコンテクストベクトル修正装置とを備えたことを特徴とする請求項1に記載のシステム。 - さらに、ユーザからの質問を受け付ける入力装置と、
前記入力装置に接続され、質問コンテクストベクトルを決定する質問コンテクストベクトル決定装置と、
前記質問コンテクストベクトル決定装置に接続され、全体のレコードの前記コンテクストベクトルと前記質問コンテクストベクトルとを比較する比較器と、
前記比較器に接続され、該比較器の結果にしたがってランク付された前記全体のレコードのリストを集積するリストジェネレータとを備えた請求項1に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12277097A JP4192213B2 (ja) | 1997-04-07 | 1997-04-07 | コンテクストベクトルの発生と検索のシステム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12277097A JP4192213B2 (ja) | 1997-04-07 | 1997-04-07 | コンテクストベクトルの発生と検索のシステム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10283373A JPH10283373A (ja) | 1998-10-23 |
JP4192213B2 true JP4192213B2 (ja) | 2008-12-10 |
Family
ID=14844191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12277097A Expired - Lifetime JP4192213B2 (ja) | 1997-04-07 | 1997-04-07 | コンテクストベクトルの発生と検索のシステム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4192213B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114198A1 (en) * | 2003-11-24 | 2005-05-26 | Ross Koningstein | Using concepts for ad targeting |
CN111026884B (zh) * | 2019-12-12 | 2023-06-02 | 上海益商网络科技有限公司 | 一种提升人机交互对话语料质量与多样性的对话语料库生成方法 |
-
1997
- 1997-04-07 JP JP12277097A patent/JP4192213B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10283373A (ja) | 1998-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5619709A (en) | System and method of context vector generation and retrieval | |
US7251637B1 (en) | Context vector generation and retrieval | |
EP0615201B1 (en) | Document detection system using detection result presentation for facilitating user's comprehension | |
Lin | Map displays for information retrieval | |
Matsakis et al. | Linguistic description of relative positions in images | |
US8001152B1 (en) | Method and system for semantic affinity search | |
US9390194B2 (en) | Multi-faceted visualization of rich text corpora | |
US8229948B1 (en) | Context-based search query visualization and search query context management using neural networks | |
Peltonen et al. | Topic-relevance map: Visualization for improving search result comprehension | |
Nguyen et al. | A novel visualization model for web search results | |
Fried et al. | Maps of computer science | |
Leake et al. | Aiding knowledge capture by searching for extensions of knowledge models | |
JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
JP2006520948A (ja) | 3次元オブジェクトについて検索を行なうための方法、システムおよびデータ構造 | |
EP1390869A2 (en) | Method and system for text mining using multidimensional subspaces | |
US11928418B2 (en) | Text style and emphasis suggestions | |
JP2007133516A (ja) | 文書分類方法、文書分類プログラム及び文書分類装置 | |
US6332040B1 (en) | Method and apparatus for sorting and comparing linear configurations | |
JP4192213B2 (ja) | コンテクストベクトルの発生と検索のシステム及び方法 | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
Takano et al. | Correlated space formation for human whole-body motion primitives and descriptive word labels | |
JP4545614B2 (ja) | 文書分類プログラム及び文書分類装置 | |
Heidorn | Natural language processing of visual language for image storage and retrieval | |
JP3444223B2 (ja) | データベース登録装置 | |
Fowler et al. | Document explorer visualizations of WWW document and term spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070416 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070717 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071126 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080226 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080229 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080326 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080331 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080428 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080502 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080520 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080609 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080709 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080714 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20080807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080807 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |