次に図面を参照して説明すると、先ず図1には、ドメイン定義を設定し、また該定義に従ってデータ・エンティティを検索し、分析し、構造化し、マッピングし、分類するためのデータ・エンティティ・マッピング・システム10を図式的に例示する。図1に示した実施形態では、ドメイン定義は参照数字12で表されている。後でより詳しく述べるように、ドメイン定義は、技術分野のような任意の関連分野に関係付けることができる。ドメイン定義は後で述べる手法に従って設定することができ、一般的には、関連分野の論理的に細分された部分の概念的フレームワークと考えることができる。各部分は任意の数の概念的レベルに更に細分することができる。これらのレベルは、最終的には、データ・エンティティ内に見付けられる可能性のある属性に関連付けられて、それらの識別、分析、構造化、マッピング及び分類を可能にする。
ドメイン定義12は処理システム14にリンク(link)され、処理システム14は一連のデータ資源16のいずれかからのデータ・エンティティを識別するためにドメイン定義を利用する。処理システム14は一般に1台以上のプログラムされたコンピュータを含んでおり、これらのコンピュータは1つまた複数の場所に配置することができる。ドメイン定義自体は処理システム14内に記憶させることができ、或いは、該定義は、データ・エンティティを検索、分析、構造化、マッピング又は分類するために要求されたときに処理システム14によってアクセスすることができる。ドメイン定義、並びにデータ資源及びデータ・エンティティ自体を持つユーザ・インターフェースを可能にするために、一連の編集可能なインターフェース18が設けられる。この場合もまた、このようなインターフェースは処理システム14に記憶することができ、或いは必要な時にアクセスすることができる。インターフェースは一連のビュー20を生成する。これについては、後で説明する。一般に、このようなビューは、ドメインの定義、ドメインの改良修正(refinement)、データ・エンティティの分析、分析結果の観察、並びにデータ・エンティティ自体の観察及びそれらとの相互作用を可能にする。
ドメイン定義12に関して説明すると、本明細書では、用語「アクセス」、「ラベル」及び「属性(attribute) 」は、ドメイン定義によって表される概念的フレームワークの異なるレベルについて用いられる。当業者に理解されるように、任意の他の用語を使用することができる。一般的に、ドメイン定義の「軸」は、ドメインの概念的な細目を表す。軸は必ずしもドメイン全体をカバーしていなくてもよく、実際に、後で説明するように、様々な特定のレベルにおけるデータ・エンティティの様々な特定の面の分析及び観察を可能にするために戦略的に構造化することができる。参照数字22で表している「軸」は、複数のラベル24に細分される。この場合もまた、この追加したレベルの概念的な細目について任意の適当な用語を使用することができる。これらのラベルが、軸に対して割り当て可能な全ての範囲の概念をカバーしていないことがあるが、これらのラベルは一般的にそれぞれの軸の概念的な一部分である。更に、本発明手法は、1つの軸のラベルと別の軸のラベルとの間の、又は実際に複数の軸自体のラベルの間の、オーバーラップ、冗長性、或いは、それどころか、排他性も排除しない。
各ラベルは属性26に関連している。この場合もまた、属性はラベル相互間で、或いは軸相互間でも、共通であってよい。しかしながら、一般に、ドメインの戦略的定義は、ユーザがデータ・エンティティを分類できるようにするやり方で、個々のデータ・エンティティの一対多数のマッピング及び分類を可能にする。従って、データ・エンティティ相互の間を区別できるようにするために、軸とラベルと属性との間の何らかの区別が有用である。
更に、ほんの一例として示すと、本発明手法は、後で述べるように、テキスト文書だけでなく、画像データ、オーディオ・データ、波形データ等のような他の形態及び種類のデータを持つ文書の識別に適用することができる。別の例として、本手法は、関心のある特定の技術分野又はドメインにおける、特許及び特許出願のような知的財産権を識別するために適用することができる。このようなドメイン内では、一連の個別の分類法を考案することができ、それらは伝統的な分類法に従うことができ、或いは特定の知識又は興味に基づいてユーザによって完全に定義することができる。個々の軸の各々の中では、分類の個別の細目を具現化することができる。後でより詳しく説明するように、多数のこのようなレベルの分類を具現化することができる。最後に、文書が主に事実上テキストより成るので、個々の属性26は特定のワード(語)、ワード列、フレーズ(句)等を含むことができる。他の種類のデータ・エンティティでは、属性は、画像、オーディオ・ファイルの部分、波形の部分及び傾向などにおける関心のある特徴を含むことができる。次いで、ドメイン定義は、個々のデータ・エンティティの分析、構造化、マッピング及び分類を、エンティティ内及びエンティティ相互間で識別可能である特定の特徴によって可能にする。
しかしながら、後でより詳しく述べるように、本発明手法はテキスト文書の分析のための前例のないツールを提供するが、本発明はテキスト・データ・エンティティに適用する場合のみに制限されるものではない。本発明手法は、画像、オーディオ・データ、波形データのようなデータ・エンティティ、並びにこれらのデータ種類の1つ以上を含んでいるか又は互いに関連しているデータ・エンティティ(すなわち、テキスト及び画像、テキスト及びオーディオ、画像及びオーディオ、テキスト及び画像及びオーディオ、など)に用いることができる。
ドメイン定義に基づいて、処理システム14は、個々のデータ・エンティティを識別し、分析し、構造化し、マッピングし、分類するために、データ資源16にアクセスする。広範囲のこのようなデータ・エンティティはシステムによってアクセスすることができ、またこれらは任意の適当な場所又は形式で見付けることができる。例えば、本発明手法は、構造化されたデータ・エンティティ28又は構造化されていないエンティティ30を識別し分析するために使用することができる。構造化されたデータ・エンティティ28は、書誌的内容、予め識別されたフィールド、タグなどのこのような構造化されたデータを含むことができる。構造化されていないデータ・エンティティは、このような識別可能なフィールドを何ら含まないが、代わりに、それについての更なる又は異なる処理が相応しいような「生の」データ・エンティティであってよい。更に、このような構造化されたデータ・エンティティ及び構造化されていないデータ・エンティティは、「一般的な(at large)」供給源32から、又は統合知識ベース(IKB)34のような予め設定されたデータベースからと考えることができる。本書で用いる用語「一般的な(at large)」供給源は、(典型的には、ユーザによってIKBに)予め編成されていない任意の供給源を含み、このような一般的な供給源は、インターネット、ライブラリー、専門的な組織、ユーザ・グループ、又はどんなものであってもよいが任意の他の資源を介して見付けることができる。
他方、IKBは、ドメイン定義の概念的フレームワークに従って予め識別され、分析され、マッピングされ、分類されたデータ・エンティティを含むことができる。IKBの設定は、後でより詳しく説明するように、エンティティの更なる且つより高速の分析及び再分類のため、及びユーザ定義の検索判定基準に基づいたエンティティの検索のために、特に有用である。しかしながら、一般的な供給源からのデータ・エンティティを識別するために同じ又は同様な検索判定基準を使用することができること、及び本発明手法を予め定義されたIKBに対して使用することに限定しようとするものでないことに留意されたい。
最後に、図1に例示されているように、大まかに参照数字36で表されているような任意の他のデータ・エンティティ供給源を処理システム14によって利用することができる。このような他の供給源は、ドメイン及び分類の設定に続いて利用可能になる、新しく設定した又は新しく資源に対して契約したような供給源を含むことができる。また、このような新しい資源が時を選ばずに出現することがあることを留意すべきであり、そこで本発明手法はそれらを分類システムに組み込むようになっており、実際にこのような新しいデータ・エンティティに対処するために分類システムの改良修正を行えるようになっている。
本発明手法は、互いに関連しているが別々であると考えるべき幾つかの有用な機能を提供する。先ず、データ・エンティティの「識別(identification)」は、関心のある又は潜在的に関心のあるエンティティの選択に関する。これは、典型的には、ドメイン定義の属性、及び該属性に関連して働くように具現化される規則又はアルゴリズムを参照することによって実行される。エンティティの「分析」は、データによって定められた特徴の検査を必要とする。多種の分析が、関心のある属性と、エンティティの属性と、構造化、マッピング及び分類を行うための規則又はアルゴリズムとに基づいて、遂行することができる。分析はまた、例えば、類似性、差異、傾向、及び(以前には認識されてもいなかった)対応性を識別するために、構造化され分類されたデータ・エンティティについて遂行される。
本書で用いられる「構造化(structuring) 」は、概念的フレームワーク又はドメイン定義の設定を表す。データ・マイニングの分野では、用語「構造化」、及び「構造化された」データと「構造化されていない」データとの間の区別が、(例えば、図1に示した構造化されたエンティティと構造化されていないエンティティとに関して述べたように)使用されることがある。このような「構造」は、あるデータ・エンティティについて及びそれらのの中で特定の分析システムを具現化すると見なすことができる。従って、文書は、表題、要約、及び下位区分とに細分することができる。しかしながら、これらの各々の中では、データが本質的に構造化されていない状態のままであることがある。本発明手法は、ドメイン定義の特定の概念的フレームワークに依存して、このような構造を使用し、変更し、又は除去することさえも可能にする。このような構造化は、変換、フォーマット設定、タグ付け、或いは、データをより容易に検索、分析、比較及び分類を行える形式へ変換することを必要とすることがある。例えば、このような構造化は、XMLのようなマークアップ言語を使用すること等により、データを特定の種類のファイル又はフォーマットに変換することを含むことができる。
エンティティの「マッピング(mapping) 」は、ドメイン定義の属性をデータ・エンティティの特徴及び属性に関係付けることを必要とする。このようなマッピングは、ドメイン定義の属性と用いられる規則及びアルゴリズムとに従って、各エンティティのデータにドメイン定義を適用するプロセスと考えることができる。非常に関連しているけれども、マッピングは本書では「分類」とは区別される。分類は、(例えば、軸及びラベルの属性による)ドメイン定義の概念的フレームワークの細目とデータ・エンティティとの間の関係の割り当てである。本書では、一対多数のマッピングについて及び一対多数の分類について言及し、マッピングは、ドメイン定義の構造システムに基づいて分類に到達するためのプロセスである。
その結果のプロセスは、データ・マイニング、分類法(taxonomy)、マークアップ言語、及び単純な検索エンジンのような、ある既存の手法から区別することができるが、これらの幾分かはここで具現化されるサブプロセスのために使用することができる。例えば、典型的なデータ・マイニングは、ドメイン定義によって設定された構造に基づくのではなく、データ・エンティティの観点からデータ内の関係又はパターンを識別する。データ・マイニングは、一般に、エンティティの一対多数のマッピング又は分類を提供しない。分類法は、この分類法を定義するカテゴリの分解によってエンティティの独自の分類を行わせる。マークアップ言語は、エンティティを構造化するために潜在的に有用であるが、一対多数のマッピング又は分類には適していず、一般に言語のタグ又は他の特徴に基づいてエンティティ内に「構造」を提供する。同様に、単純な検索手法は、典型的には、ある検索判定基準を満たすエンティティのリストを作成するだけであって、本書で提供されるようなエンティティのマッピング又は分類を提供しない。
処理システム14はまた、データ・エンティティの分析、構造化、マッピング及び分類のために規則及びアルゴリズム38を利用する。後でより詳しく述べるように、規則及びアルゴリズム38は、典型的には、特定の種類のデータ・エンティティに適応させ、実際にデータ・エンティティの特定の目的(例えば、分析及び分類)に適応させる。例えば、規則及びアルゴリズムは、テキスト文書内のテキスト又はデータ・エンティティのテキスト部分についての分析に関するものとすることができる。アルゴリズムは、画像エンティティ又は、エンティティの画像部分などについての画像分析のために設けることができる。規則及びアルゴリズムは処理システム14内に記憶させることができ、或いは処理システムによって必要なときにアクセスするようにしてもよい。例えば、アルゴリズムの内のあるものは、診断用画像ファイルのような様々な種類のデータ・エンティティに極めて特有なものとすることができる。アルゴリズムの中には、画像内の関心のある特徴の分析及び識別のための巧妙なアルゴリズムが有り、これらはデータ・エンティティの分析のために必要なときに利用することができる。
データ処理システム14はまた、検索の結果、分析の結果、ユーザの好み、並びに分析、構造化、マッピング及び分類の目的を実行するために必要とされることのある任意の他の恒久的又は一時的なデータを記憶するための1つ又は複数の記憶装置40に結合される。具体的に述べると、記憶装置40は、一連の識別されたデータ・エンティティについて分析、構造化、マッピング及び分類が完了した後、IKB34を保存するために使用することができる。この場合もまた、追加のデータ・エンティティを時間につれてIKBに付加することができ、また、IKB内のデータ・エンティティの分析及び分類を改良修正し、更にドメイン定義、並びに分析及び分類のために適用された規則などの変更に基づいて変更することさえもできる。
ドメイン定義、規則及びアルゴリズム、並びにエンティティ自体と相互作用するために一連の編集可能なインターフェースを想定することができる。単なる一例として、図1に例示されているようなインターフェース18が現在考えられる。これらには、ドメインの軸、ラベル及び属性を設定するためのドメイン定義インターフェース42を含むことができる。また、使用すべき特定の規則を定義し、又は外部の規則及びアルゴリズムへのリンクを定める規則定義インターフェース44を設けることができる。また、ユーザが一般的な供給源又はIKBのいずれかからのデータ・エンティティを検索し、分析し、分類することを可能にするための検索定義インターフェース46が設けられ、また更に、1つ以上のデータ・エンティティの分析の結果を図示するための様々な結果観察インターフェース48も考えられる。これらのインターフェースは、典型的には、処理システム14に連結されるワークステーション50によってユーザに対して作用する。実際には、処理システム14はワークステーション50の一部であってよく、或いはワークステーションから完全に離れていて、適当なネットワークによって連結されるものであってよい。多数の異なるビューがインターフェースの一部として作用することができ、それらには図1に列挙したビュー、すなわち、スタンプ・ビュー、フォーム・ビュー、テーブル・ビュー、強調表示ビュー、基本的空間ディスプレイ(SPLAY)、オウバーレイ付きSPLAY、ユーザ定義スキーマ、又は任意の他のビューが含まれる。ここで、これらが分析及び分類の単なる模範的な検閲(review)であり、多数の他のビュー又はこれらビューの変形も想定することができることに留意されたい。
前に述べたように、本発明手法は、ドメイン定義によって表される概念的フレームワークのユーザ定義及び改良修正を規定する。図2は、ドメインの概念的フレームワークを定義する際の様々な段階を例示する。大まかに参照数字52で示した全体の論理は、第1の段階54におけるドメインの一般的な明細指定、それに続く第2の段階56におけるドメイン定義の改良修正を含む。ドメインの明細指定54は、ドメイン軸58の定義及び各軸内のラベル60の定義のような一連の段階を含むことができる。前に述べたように、軸は、一般に、ユーザが定めた任意の適当な態様で分解されたドメインの概念的な一部分を表す。次いで、ラベルは、個々の軸の概念的分解を表す。ラベルは、また実際に軸は、概念的下位分類レベルと見なすことができる。後でより詳しく説明するように、これらのレベルのあるものは冗長であることがあり、或いは、より低いレベルがまたより高いレベルと共に冗長であって、ドメイン内で「概念的ズーム作用」を可能にすることができる。すなわち、ラベルはまた、ドメインの軸としてリストに記載して、データ・エンティティの特定の分類のためのベースの分析及び可視化を可能にすることができる。
ドメインの明細指定に続いて、ドメインは段階56で更に改良修正することができる。このような改良修正は、各軸の個々のラベルの属性のリスト作成を含むことができる。一般に、これらの属性は、データ・エンティティの中に見付けることができ且つそれらの識別、分析、構造化、マッピング又は分類を容易にするようなデータ・エンティティの任意の特徴であってよい。図2に示されているように、文書の場合、このようなエンティティは、ワード、ワード及び用語についての変化、同義語、関連語、概念などを含むことができる。これらは、後でより詳しく説明するように、各ラベルについて簡単にリストに記載することができる。リストに記載された属性に基づいて、段階64で示すように、関連付けリストを作成することができる。この関連付けリストは、各々のラベル及び軸と関連付けるべき一群の属性を効果的に表す。
ドメインの定義に続いて、特定のデータ・エンティティの検索、分析、構造化、マッピング及び分類のために適用すべき規則及びアルゴリズムを、段階66で、識別して定義する。これらの規則及びアルゴリズムは、ドメインと共にユーザによって定義することができる。このような規則及びアルゴリズムは、ワード及びフレーズを識別するかどうか及びどのように識別するか(例えば、完全なワード又はフレーズを検索するかどうか、近似判定基準など)のように単純なものとすることができる。他の状況では、遙かに複雑なアルゴリズムを用いることができる。例えば、テキスト文書の分析の場合でも、複雑なテキスト分析、インデックス付け、分類、タグ付け、及び他のこのようなアルゴリズムを用いることができる。画像データ・エンティティの場合、アルゴリズムは、画像内の関心のある特定の領域又は特徴のついての識別、セグメント化、分類、比較などを行えるアルゴリズムを含むことができる。医学的診断の分野では、例えば、このようなアルゴリズムは、病状のコンピュータ支援診断、又は画像データのより複雑な分析を可能にすることができる。更に、規則及びアルゴリズムは、画像データ、オーディオ・データなどを含む、テキスト及び他のデータの別個の分析を可能にすることができる。また更に、規則及びアルゴリズムはテキスト及び他のデータの分析の組合せを規定することができる。
後でより詳しく説明するように、本発明手法は、データ・エンティティに含まれるテキスト、画像及び他の種類のデータについてのアルゴリズムの組合せに基づいて、分析可能であるデータの種類及びデータ・エンティティの分類を前例のないほどに自由に且つ広範囲にする。段階68で、オプションとして、このような規則及びアルゴリズムへのリンクを設けることができる。このようなリンクは、例えば、特定のデータ・エンティティを突き止めるべきであるが、それらの分析及び分類のために複雑な、進化している、又は全く新しいアルゴリズムが利用可能である場合、有用なことがある。適切な場合には、このようなリンクを多数設けることにより、ユーザ入力の検索判定基準に基づいて、一旦識別された個々のデータ・エンティティの分類を容易にすることができる。
段階70で、データ・エンティティにアクセスする。この場合もまた、データ・エンティティは、一般的な供給源及び既知の又は予め定められた知識ベースなどを含む任意の適当な場所において見付けることができる。図2に例示した処理ではデータ・エンティティが既に存在していると仮定しているが、本発明手法は、データ・エンティティ自体の取得又は生成まで拡張することができる。段階72で、オプションとして、データ・エンティティに対してインデックスを付けて保存することができる。当業者に理解されるように、このようなインデックス付けは、データ・エンティティのその後の処理を非常に高速にすることができる。このようなインデックス付けは、データ・エンティティにアクセスすべき状況に、且つ当初のエンティティが構造化されていない又は半構造化されている場合か、或いは生のデータ(例えば、生のテキスト)さえも含んでいる場合に、特に適している。このようなインデックス付けが遂行された場合、インデックス付きエンティティは、典型的には、その後のアクセス、分析、マッピング及び分類のために、段階72で保存される。また、前に述べたように、構造化され又は部分的に構造化されているエンティティ及びエンティティの一部分についてさえ、ドメイン定義はこのような構造を利用することができ(例えば、エンティティ内の既存の構造がドメイン定義の構造システムに対応している場合)、或いはデータを再構造化し又は更に構造化し、又はエンティティの既存のデータ構造を無視することさえもできる。
図2の段階74で、ドメイン定義と関連した規則及びアルゴリズムとが、アクセスされたデータ・エンティティに適用される。ドメイン定義と規則及びアルゴリズムとに基づいて、特定のデータ・エンティティが識別され、分析され、構造化され、マッピングされ、分析される。ここで、後でより詳しく説明するように、段階74で遂行される特定の検索はユーザによって指定し又は作成することができることに留意されたい。すなわち、一般的な供給源及びIKB内の供給源の両方についての特定の検索のためのインターフェースは、適切な検索インターフェースを介してユーザによって定義することができる。現在の具現例では、検索インターフェースは、検索を遂行するためにユーザによって選択することのできる同様な軸及びラベルを含む結果のドメイン定義インターフェースと本質的に同じであってよい。段階76で、ドメイン定義及び規則の適用の結果が保存される。段階78で、分析及び分類を、実際にはデータ・エンティティ自体を提示するインターフェース・ページが提示される。このような提示に基づいて、ドメイン定義及び属性、並びにドメイン定義に基づいて適用される規則及びアルゴリズムは、図2に示された先行する処理段階に戻る矢印で示されるように変更することができる。
データ・エンティティにアクセスし処理する特定の段階を図3に図式的に表す。図3において、エンティティ処理論理(全体的に参照数字80で表す)が、ドメイン定義(又はユーザによって定められた検索判定基準)と該定義に関連した規則及びアルゴリズムとに基づいたデータ・エンティティの分類82から始まる。この分類の結果、参照数字84で示すように、一対多数のマッピング及び分類を生じる。当業者に理解されるように、このようなマッピングは、典型的には、従来の検索エンジン及びデータ・マイニング・ツールによって遂行されていない。すなわち、多数の異なる軸、ラベル、及びこれらの実際に様々なレベルが、関連した属性、規則及びアルゴリズムと共にドメイン定義に含まれているので、各データ・エンティティは2つ以上の軸及びラベルへマッピングし、且つそれらの中で分類することができる。従って、任意の1つのデータ・エンティティは、ドメイン定義の概念的フレームワークの多数の異なる概念的細目にマッピングすることができる。この一対多数のマッピング及び分類は、データ・エンティティについてのその後の分析、比較及び考察のための強力なベースを提供する。
マッピング及び分類に続いて、図3にブロック86で示されるように、データ・エンティティの分析を遂行することができる。この場合もまた、このような分析はユーザ定義又は軸規則及びアルゴリズムに基づくと共に、統計的分析手法に基づいている。例えば、文書を検索し分類する場合、文書間の対応性、オーバーラップ及び区別を分析することができる。更に、文書の計数及び関連性のような簡単な分析は、多数の判定基準及び分類段階で行われる多数対一(many-to-one) のマッピングに基づいて決定することができる。次いで、ブロック88に示されているように、分析結果とビューが出力される。このようなビューは、本発明手法を具現化するソフトウエア・パッケージの一部であってよく、或いはユーザにより定義されたものであってよい。
段階90で、分析結果とビューがユーザによって検閲される。検閲は、任意の適当な形式を取ることができ、また検索などの後に直ちに、或いはその後の任意の時点に行うことができる。この場合もまた、検閲は、ブロック92に示されているように、個々の分析ビューについて遂行することができる。ブロック94に示されているように、検閲に基づいて、ユーザは概念的フレームワークの任意の部分を改良修正することができる。このような改良修正には、ドメイン定義又はドメイン定義の任意の部分の変更、適用される規則またはアルゴリズムの変更、遂行する分析の種類又は性質の変更などを含むことができる。従って、本発明手法は、データ・エンティティを識別し、分析し、分類するための非常に融通性のある相互作用型(又は対話型)のツールを提供する。
前に述べたように、ドメイン定義の概念的フレームワーク内で、軸及びラベルを細分し且つ定義するために多数の戦略を想定することができる。図4は、データ・エンティティの一対多数のマッピング及び分類を開発するための模範的なマッピング・プロセスを例示する。本目的のために、全体的に参照数字96で表したマッピングは、模範的なドメイン定義98に基づいて遂行される。ドメイン定義は一連の軸22及びそれらの関連したラベル24を含む。図4はまた、ドメイン定義自体により「概念的ズーム」を提供することのできる方法の一例をを示す。この図示例では、第1の軸Iの属性26及びその軸内のラベルIAの属性が、その後の軸Aのラベル・レベル100に設けられる。すなわち、軸Aは軸IのラベルIAと同一である。ラベルIAの属性が軸Aのラベルと同じであるので、後で説明するように、検索の際にユーザによって選択された場合、作成された検索結果は、ラベルIAの判定基準に対応した特定のデータ・エンティティを表すだけでなく、軸Aのラベルを参照することによってエンティティが選択され、マッピングされ、分類された理由のためにより高い分解能又は粒度を提供する。
図4に参照数字102で示されるように、特定のデータ・エンティティは一連の属性を含んでいると仮定される。テキスト・エンティティの場合、これらの属性はワード又はフレーズであってよい。すなわち、ドメイン定義の属性によって定められた特定のワード又はフレーズはデータ・エンティティ内で見付けられる。次いで、参照数字96で表されたマッピングは、エンティティ内で見付けられた属性に対応する個々の軸、ラベル及びラベル属性に従ってデータ・エンティティを分類すべきであることを指示する。この場合、軸レベル104において、エンティティは軸I、II及びAに従って分類される。更に、ラベル・レベルにおいて、エンティティはラベルIA、IIB、IIC、AAa及びAAcにおいて分類される。また更に、追加の軸Aによって提供される概念的ズームにより、「属性」レベルで、エンティティは属性IAa及びIAcに関連付けられる。現在の具現例では、後で説明するように、属性は作成された検索結果において直接表示されることはない。しかしながら、ラベルIAの属性を軸Aのラベル・レベル100に配置することによって、この追加の分類が遂行される。
図4に例示されたマッピングは、上述した本発明手法の分類段階で遂行される。ここで、この分類はユーザにより選択することができることに留意されたい。すなわち、後で説明するように、定義が設定された後、全ての軸、ラベル及び属性に従って、識別された全てのエンティティを構造化し、マッピングし、分類することができる。しかしながら、適切な場合には、ユーザは所望の分類のために軸及びラベルの内の幾つかのみを選択することができる。しかしながら、一旦分類が遂行されると、ドメイン定義の概念的フレームワークを作り上げる軸、ラベル及び属性の幾分か又は全てに対応する特定のデータ・エンティティを識別するように検索を行うことができる。この理由のため、データ・エンティティの識別、構造化、マッピング及び分類のために全ての軸、レベル及び属性を用いること、並びにその後の検索においてこれらのサブセットのユーザ選択を可能にすることが、有利であることがある。更に、インデックス付け又は他のデータ処理手法が用いられる場合、全ての軸及びラベル、並びに関連した属性の使用により、これらの全てのをカバーするインデックス付けが可能になり、これによってその後の検索及び分析が非常に容易になる。
前に述べたように、ドメイン定義によって表される概念的フレームワークは広範囲のレベル、並びにこれらのレベルの任意の概念的細目を含むことができる。図5は模範的なドメイン110を表し、この場合、これを「スーパードメイン」と呼ぶ。用語「スーパードメイン」は、本書では、ドメイン自体が細分され得ることを示すために用いられる。すなわち、分類における概念的分解において多数の異なるレベルを設けることができる。例示した実施形態では、スーパードメイン内に、ドメイン112、114、116及び118を含む4つのドメインが識別される。これらのドメインは互いにオーバーラップすることがある。すなわち、ドメイン内の特定のラベル又は属性が他のドメイン内に見付けられことがある。しかしながら、場合によっては、ドメイン間に何らオーバーラップがないことがある。図5に示されているように、これらのドメイン自体はスーパードメインの軸と見なすことができる。別の概念レベルでは、各ドメインは、ドメイン112についてのサブドメイン120で示すように、サブドメインに細分することができる。すなわち、各ドメインは概念的に、そのドメイン内でデータ・エンティティを明確に分類するように細分することができる。最終的には、個々の軸が定義され、各軸について複数のラベルが定義され、各ラベルについて複数の属性が定義される。
ドメインによって定義された概念的フレームワークに対するこの多レベル方式を、図6に更に例示する。図6は、実際に、6つの別々のレベルの分類及び分析を例示する。第1のレベルL1では、スーパードメインが定義される。このスーパードメイン110は、典型的には、データ・エンティティが見付けられるフィールド自体である。当業者に理解されるように、フィールドは、実際には、ユーザによって定義される一レベルの抽象概念である。スーパードメイン内には、図6にレベルL2に示されているように、一連のドメイン112〜118を見付けることができる。また更に、レベルL3〜L6で表されているように、各ドメイン内にはサブドメインのレベルが識別され、その次に一連の軸が続き、各軸は個別のラベルを持ち、最終的には各ラベルの属性を持つ。このように、ドメインの定義のために任意の数の概念レベルを定めることができる。次いで、データ・エンティティの最終的な属性に基づいて、対応するレベル及びサブレベルへのマッピング及びそれらにおける分類が達成される。
前に述べたように、本発明手法はドメイン及びその概念的フレームワークのユーザ定義を規定する。図7は、ドメインを定義するための模範的なコンピュータ・インターフェースのページを例示する。ほんの一例として、この例示した実施形態では、ドメインは、ドメイン・レベル、軸レベル、ラベル・レベル及び関連した属性のみを含む。参照数字22で示したドメイン定義テンプレートは、書誌的データ欄124、主観的データ欄126及び分類データ欄128を含むことができ、分類データ欄128には軸及びラベルが一覧表示されている。
設けられている場合には、書誌的データ欄124は、データ・エンティティの特定の識別特徴を対応するフィールドに与えることができるようにする。例えば、エンティティ・フィールド130をデータ・エンティティ識別フィールド132と共に設けることができ、これらは協力してデータ・エンティティを一意的に識別する。また、データ・エンティティを更に識別するために表題フィールド134を設けることができる。ユーザにより定義することのできる別のフィールド136を設けることができる。また。ブロック138及び140に示されているように、データ・エンティティの供給源又は起源を表すデータも提供することができる。ステータス・フィールド142のような更なる情報も希望により提供することができる。最後に、文書の要約などのような情報を受け取ること等のために、全般的摘要フィールド144を設けることができる。検索、分析、マッピング及び分類すべきデータ・エンティティを取り出すデータベースを選択すること等のために、選択146又はフィールド識別子を設けることができる。当業者に理解されるように、書誌的データ欄124のこれらの模範的なフィールドは例としてのみ示したものである。この情報の幾分か又は全ては構造化されたデータ・エンティティから得ることができ、或いはフィールドはユーザによって記入することができる。更に、一部のフィールドは、データ・エンティティ自体又はエンティティの一部分の処理及び分析のときのみ記入することができる。例えば、このような書誌的情報は、特許文書の第1ページ、本及び論文の書誌的リストなどのような文書の特定の欄に見いだすことができる。他の書誌的データは、例えば、画像ファイルのヘッダ、オーディオ・ファイルに関連したテキスト部分、テキスト、画像及びオーディオ・ファイル中に含まれる注釈などに見いだすことができる。
主観的データ欄126は、典型的には1人以上のユーザによって入力される一連の主観的データのいずれかを含むことができる。図示例では、主観的データは、エンティティ識別又は指定フィールド148、及び検閲者を識別するフィールド150を含む。主観的格付けフィールド152も設けることができる。図示の実施形態では、検閲者、専門家又は他の有資格者によって判断されたようなデータ・エンティティについての何らかの品質を識別するための別のフィールド154を設けることができる。品質は、例えば、ユーザ入力の妥当性又は他の的確性表示を含むことができる。最後に、検閲者のコメント受け取るためのコメント・フィールド156を含めることができる。ここで、主観的データ欄126の中のフィールドの幾分か又は全てを、人であるユーザ及び専門家によって記入することができるが、これらのフィールドの幾分か又は全ては、コンピュータ・アルゴリズムを含む自動的な手法によって記入することができることに留意されたい。
分類データ欄128は、例示の実施形態では、様々な軸及びラベルについての入力、並びに検索を開始し且つタスクを遂行するための仮想インターフェース・ツール(例えば、ボタン)を含む。例示の実施形態では、これらは、定義に従ってデータ・エンティティを検索し、分析し、構造化し、マッピングし、分類するためにドメイン定義を提起するための仮想ボタン158を含む。様々な結果及び追加のインターフェース・ページを表示するためのビューの選択が、ボタン160によって表すように行うことができる。図7における具現例では、ユーザがドメイン定義を作り上げる軸の内の1つ又は全てを選択することを可能にする一連の選択可能なブロック162が設けられる。同様に、ユーザ選択可能なブロック164が各ラベルについて設けられる、明瞭にするために図7に示されていないが、全ての軸が多数の異なるラベルを含むことができ、典型的には、含んでいる。ドメイン定義には任意の数の軸を設けることができ、また各軸について任意の数のラベルを設けることができる。最後に、個々の軸又はラベルの意味又は範囲を容易に思い出させるため、又は個々のラベルの属性を示すために、(例えば、マウス又は他のインターフェース装置の選択によって)ユーザによって自動的に観察し又は観察可能にすることのできる一連の識別子又はティップ(tip)ボックス166を設けることができる。
軸及びラベルを識別し且つ指定するために一連の追加のインターフェースを設けることができる。例えば、図8は、軸、ラベル及び各ラベルについてのティップ・テキストを定義するための模範的なインターフェース168を表す。このインターフェースでは、ユーザがフィールド170に軸名を入力し、フィールド172にその軸についての一連のラベル名を入力することができる。インターフェース168は更に、参照数字174で示されるように、ユーザがティップ・テキストを入力することを可能にする。ティップ・テキストは、各ラベルの意味又はそれらのラベルの範囲をユーザに思い出させるためにユーザのために使用し又は表示することができる。勿論、同様なティップ・テキストを各軸について設けることができる。
同様に、インターフェース・ページは、ユーザが各ラベルの特定の属性を定義することを可能にする。図9は、この目的のための模範的なインターフェース・ページを例示する。ページは、ユーザのために、個々の軸、及びそれについての属性を指定すべき該軸のラベルを表示する。図示例では、属性はテキスト文書の属性であり、ワード及びフレーズが、フィールド176におけるように、リストにしてユーザによって定義することができるようになっている。正確なワード又はフレーズのための別のフィールド178が設けられている。インターフェースの設計に依存して、ユーザが特定のワード又はフレーズを入力することのできるブロック180のような入力ブロック、また、それをワイルドカードのワード又はフレーズにすべきか、或いは正確なワード又はフレーズにすべきかを選択するための選択ブロック182のような選択ブロックを設けることができる。特に、相異なる種類のデータ・エンティティ、及び該エンティティにおいて遭遇すると予想される相異なる種類のデータのために、多種多様な他の属性入力インターフェースを想定することができる。最後に、図9に大まかに参照数字184で示すように、属性を追加し、属性を削除し、属性を修正すること等のための様々なブロックを、他の仮想ツールと共に設けることができる。
前に述べたように、本発明手法は、様々なデータ・エンティティについて識別し、分析し、構造化し、マッピングし、分類し、更に比較し、他の分析機能を遂行するために用いることができる。更に、これらは、一般的な供給源を含む多種多様な資源から選択することができる。その上、データ・エンティティは、前に述べたように、処理してIKBに保存することができる。図10は、これらの動作の一部を遂行する際の模範的な論理を表す。
図10に例示した模範的な論理186は、参照数字188で示すように、データ・エンティティの選択、分析及び分類のための1つ以上のテンプレートにアクセスすることから始まる。現在の具現例では、データ・エンティティの最初の選択及び分類のために、ドメイン定義の全ての軸、ラベル及び属性がこの段階で用いられる。しかしながら、参照数字190で示すように、必要に応じて、ユーザは、テンプレートから軸及びラベルと共に、データ・エンティティの識別及び分類のためのターゲット・データベース又は資源を選択することができる。本例では、段階190に示されている資産はデータ・エンティティであり、また資産ターゲットは、エンティティが見いだされている又は突き止められると信じられている1つ又は複数の場所である。資産ターゲットは、例えば、既知のデータベース、公開データベース及びライブラリー、加入契約制のデータベース及びライブラリーなどを含む。一例として、知的財産権について検索するとき、このような資産ターゲットは特許庁のデータベースを含むことができる。別の例として、医学的診断用画像について検索するとき、資産ターゲットは、画像保管通信システム(PACS)又はその他の保存施設のような画像保存施設を含むことができる。この場合もまた、この目的のために任意の適当な資源を用いることができる。
段階190で選択された軸及びラベルに基づいて、段階192で、選択された属性にアクセスすることができる。これらの属性は一般に、ユーザ及びドメイン定義によって定められたような、選択された軸及びラベルに対応する。この場合もまた、IKBに含めるためのような、データ・エンティティの初期分類のために、全ての軸及びラベル並びにそれらの関連属性を使用することができる。しかしながら、その後の検索において、また必要なら、初期検索において、軸及び/又はラベルのサブセットが検索判定基準として使用される場合、選択された属性のみを用いることができる。段階194で、選択された規則及びアルゴリズムにアクセスする。この場合もまた、これらの規則及びアルゴリズムは、例えば、検索テンプレートを介してユーザによって選択された検索判定基準に依存して、全ての分析及び分類について、又はサブセットについてのみ作用することができる。最後に、段階196で、資産ターゲット・フィールド、データ・エンティティ自体、データ・エンティティの一部分、或いはインデックス付きエンティティにもアクセスする。このアクセスは、典型的には、広域ネットワークのようなネットワークを介して、特にインターネットを介して行われる。一例として、段階196で、エンティティからの生のデータにアクセスすることができ、或いは、エンティティの特定の部分のみに(このような配分が(例えば、エンティティに存在する構造化から)可能である場合)アクセスすることができる。従って、特許のような知的財産権の文書については、アクセスを特定の細目、例えば、第1ページ、要約、特許請求の範囲などに制限することができる。同様に、画像ファイルについては、アクセスを書誌的情報のみ、画像内容のみ、又はこれらの組合せに対して行うことができる。
後でアクセス、再分類、分析などを行うために、データ・エンティティをIKBにおいて分類すべきである場合、図10に破線で囲まれている一連の下位段階を遂行することができる。一般に、これらの下位段階には、参照数字198で示されるようなデータの変換のためなどの段階を含むことができる。当業者に理解されるように、本ツールは広範囲のデータ、フォーマット、内容、及び未知であることのある構造について具現化することができるので、データの変換は段階198で適切であろう。このような変換には、再フォーマット設定、区分化、領域確保、及び分析及び分類のための所望のフォーマットへのデータのその他の操作を含むことができる。希望される場合、段階200で、エンティティにインデックスを付けることができる。このようなインデックス付けは、当業者に理解されるように、一般にデータ・エンティティを一連の区分又は部分に細分し、そして後で分析するために各部分にタグ又はインデックスを付けることを含む。このようなインデックス付けは、希望される場合、エンティティの各部分のみについて遂行することができる。インデックス付けは、遂行されたとき、段階202で記憶して、将来の検索のためにインデックス付きデータ・エンティティのアクセス及び評価をより一層高速にできるようにする。
希望される場合、特定のデータ・エンティティ、特にテキスト文書の分類を容易にし速度を高めるために「候補リスト」を用いることができる。このような候補リストを用いる場合、典型的には、図10に段階204で示されるように事前に候補リストを作成しておく。候補リストは一般に、軸及びラベルと共に、ターゲットとされたデータ・エンティティ内の特に関心のある関連した属性を含むことができる。候補リストは、或る特定のワード又はフレーズの存在のような簡単な判定基準がエンティティ内に見付けられたとき、IKB内に含めるためにデータ・エンティティを素早く選択するために使用することができる。このような候補リストが用いられる場合、段階206において、予め定められたリストが、アクセスされたデータ・エンティティに適用される。更なるフィルタリング及び検査を、データ・エンティティの性質及び具現化できる有用なフィルタリングに依存して、様々なやり方で行うことができる。例えば、図10に例示された段階208で、プロセスは、冗長性の検査、及び特定の文書及び他のデータ・エンティティのフィルタリングを要求することができる。例えば、IKBが既に設定されている場合、段階208は、特定のレコード又はデータ・エンティティが既にIKBに含まれているかどうかについての検証、及びIKB内の冗長なレコードを排除するためのこのようなデータ・エンティティの除去を含むことができる。同様に、レコードが本質的に同じ内在する情報を表していると判明した場合、これらは段階208でフィルタリングすることができる。例えば、知的財産権の例では、特定の特許出願が特許として刊行されたことを見付けることができ、そして、希望される場合、段階208で、出願情報とは対照的に特許情報を保持し且つ以前の情報を拒絶することができる。多種多様の検査及び検証を具現化することができる。
段階210で、データ・エンティティをマッピングし分類する。この場合もまた、マッピング及び分類は一般に、軸、ラベル及び属性によってドメイン定義に従う。前に述べたように、段階210で遂行される分類は、一対多数の分類であり、この場合、任意の単一のデータ・エンティティを2つ以上の対応する軸及びラベルに分類することができる。段階210は、主観的情報、注釈などを追加することのような、他の機能を含むことができる。勿論、この種の注釈及び主観的検閲又は他の主観的入力の追加は、後の段階で遂行することができる。段階210で、データ・エンティティは、インデックス付け、分類などと共に、IKBに保存される。ここで、本例で用語「IKB」を用いているが、この知識ベースは実際には様々な形態を取り得ることを理解されたい。IKBの特定の形態を、IKBが定められる特定のソフトウエア又はプラットフォームの説明の後に示す。本発明手法はIKBについてのいかなる特定のソフトウエア又は形態に制限されるものではない。
IKBは一般に分類情報を含んでいるが、データ・エンティティ自体の全て又は一部、或いは処理後の(例えば、インデックスを付けた、又は構造化した)エンティティ又はエンティティ部分を含むことができることに留意されたい。分類は任意の適当な形態を取ることができ、ドメイン定義の構造システムと対応するデータ・エンティティ又はエンティティの一部分との表形式の関連付けのような簡単なものであってよい。
IKBの設定後、又はデータ・エンティティの分類後、一般に、段階214で示されているように、様々な検索を遂行することができる。図10において段階194から段階214へ進む矢印は、段階214で遂行される検索が、IKBに記憶されているデータ・エンティティか又はIKBに記憶されていないデータ・エンティティのいずれかについて遂行できることを示している。すなわち、検索は、外部のデータベース、構造化されたデータ、構造化されていないデータなどを含むデータ・エンティティの一般的な供給源について遂行することができる。しかしながら、IKBが既に設定されている場合には、ブロック196で遂行されるアクセス段階が、IKBに直接アクセスするように進んで、段階214でIKBのレコードを検索する。次いで、段階216で、段階214に規定された検索、並びに関連した規則及びアルゴリズムに基づいて、検索結果が提示される。この場合もまた、これらの検索結果は、個々のデータ・エンティティの分析を含めて、広範囲の形態で提示することができ、或いは、検索結果はデータ・エンティティ自体を、それらの当初の形態で、又は幾分か強調した、さもなければ他の操作を施した形態で含むことができる。
検索結果の幾分か又は全て、データ・エンティティの選択、データ・エンティティの分類、或いはドメイン定義の任意の他の特徴又はその機能に基づいて、ドメイン定義、規則、又は概念的フレームワークの他の面及びそれを分析するために使用されるツールを、図10に参照数字94で示すように、修正することができる。すなわち、例えば、検索結果が過剰包含的(over inclusive)又は不足包含的(under inclusive) であると判った分析とき、ドメイン定義を変更することができ、またデータ・エンティティの選択、データ・エンティティの分類、又はエンティティの分析のために使用される規則も変更することができる。同様に、分析によりデータ・エンティティの間に過度の区別又は不充分な区別を行ったと判った場合、これらを段階94で変更することができる。更に、或る分野での開発等により、新しい概念的区別が認識され、又は新しい属性が認識されたとき、これらの結果として、適用されるドメイン定義、規則及びアルゴリズムなどを変更することができる。また更に、データ・エンティティの分類のための新しい規則及びアルゴリズムが開発され又は利用可能になったとき、これらの結果として、段階94で変更を行うことができる。このような変更に基づいて、プロセス全体を作り直すことができる。すなわち、追加の検索を遂行することができ、追加のデータ・エンティティをIKBに付け加えることができ、新しいIKBを作成することができ、等々である。実際に、このような変更の結果、IKB内に既に存在するデータ・エンティティを簡単に再分類することができる。
図11は、IKBを作成するために特定のテキスト・データ・エンティティに適用したときの、図10に記載したプロセスを図式的に表す。図11に大まかに参照数字218で示したIKB作成プロセスは、ドメインを定義するために使用されたテンプレートと大体類似しているか又は同じであってよいテンプレート220から始まる。前に述べたように、全ての軸、ラベル及びラベルの属性を含むようにIKBを作成するために最初に検索を行うことが好ましいことがある。しかしながら、希望される場合、テンプレートは、図11のテンプレート220の中の拡大したチェック・ボックス224によって示されているように、ユーザが特定の軸又はラベルを選択できるようにすることができる。幾つかの又は全ての軸及びラベル選択に基づいて、関連付けリスト226を用いることができる。関連付けリスト226は、図示例では、ユーザ定義の特定の属性及び或る特定の選択判定基準と共に、特定のラベルの個々の属性の識別を含むことができる。図11の例では、例えば、一例として、特定の属性はウェブ・ページ又は類似の技術分野に関係するワードである。図示例における選択判定基準には、データ・エンティティの識別に完全なワード又は不完全なワードを使用すべきであるかどうか、参照数字234で示されるように、近似格付けを使用すべきであるかどうか、参照数字236で示されるように、任意の特定の閾値を使用すべきであるかどうかが含まれる。当業者には明らかなように、テキスト検索及び分類のフィールド内でも、多数のこのような選択判定基準用いることができる。本発明手法は、このような選択判定基準のどれにも制限されるものではない。更にまた、選択判定基準が属性の品質の形態で用いることができること、又はこのような判定基準が選択及び分類プロセスに適用されるべき規則として具現化することもできることを認識されたい。
ドメイン定義、又はユーザによって選択されたようなドメイン定義の一部分に基づいて、且つ使用される場合の候補リストような入力に基づいて、図11に参照数字238で示されるように、規則がデータ・エンティティの選択及び分類のために適用される。図示の簡単な例では、規則識別子240が様々な規則242と関連付けられる。更に、図示例において、関連性判定基準244を規則の各々について具現化することができる。前に述べたように、データ・エンティティの選択及び分類のために任意の所望の規則を使用することができることに留意されたい。テキスト文書の場合、これらの規則は極めて簡単なことがある。しかしながら、より複雑な文書の場合、或いは、テキスト及び画像か又はテキスト及び他の形態のデータを分類の目的で分析すべき場合、これらの規則は、テキストの選択及び分析のための判定基準と、画像のような他のデータ部分の選択及び分析のための判定基準とを組み合わせることができる。また前に述べたように、規則は選択及び分類プロセスを具現化するコードに含めるか、又は該コードにリンクさせることができる。例えば、画像分析及び分類のために複雑なアルゴリズムが用いられる場合、このようなアルゴリズムは膨大になり過ぎることがあり、或いは該アルゴリズムへのリンクを最も効率よくし且つ制約するように慎重に使用することができる。
ドメイン定義、任意の候補リスト、任意の規則などに基づいて、多種多様な可能性のあるデータ・エンティティ246を含んでいる一般的な資源32にアクセスすることができる。次いで、ドメイン定義、その属性及び規則は、参照数字248で示すような、IKBに含むためのこれらのエンティティのサブセットを選択することを可能にする。現在の具現例では、これらのエンティティがIKBに含むために選択されるだけでなく、インデックス付け(行われた場合)、分析、タグ付けなどのような追加のデータが該エンティティに付随して、それらの更なる分析、表現、選択、検索などを可能にし且つ容易にする。
選択され分類されたデータ・エンティティについて遂行される分析は、ユーザの関心に依存して、且つデータ・エンティティの性質に依存して、広範に変えることができる。更に、分類の前でも、分類中でも、及び最初の分類後でも、追加の分析及び分類を遂行することができる。図12は、データ・エンティティ内の関心のある特徴のコンピュータ支援処理、分析及び分類のための論理を一般的に例示する。この論理は、全体的に参照数字250で表してあるが、各エンティティに含まれているデータの取得から始まると云うことができる。前に述べたように、本プロセスは一般に、このような取得が先験的に遂行されると仮定している。しかしながら、ある特定の分析及び分類に基づいて、本発明手法はまた、追加のデータを取得することによって追加のデータ・エンティティを生成することを推奨することができる。段階254で、前に述べたようにデータにアクセスする。データのアクセスに続いて、図12に全体的に参照数字256で示しているように、コンピュータ支援による手法を介してのその後の処理が続く。
前に述べたように、本発明手法は、データ・エンティティのコンピュータ支援による検索、分析及び分類における動作の高レベルの統合を提供する。これらの動作は一般に、特に様々な種類のデータ・エンティティを分析し分類するために、コンピュータ支援データ操作アルゴリズムによって遂行される。ある種のこのようなアルゴリズムが開発されていて、病気のコンピュータ支援検出又は診断のため、データのコンピュータ支援処理又は取得のため等のように、様々な分野で比較的限られた用途に使用されている。しかしながら、本発明手法では、新しく突き止めたデータ・エンティティを分析し分類するためのアルゴリズムと、IKBにおけるような既知のエンティティのその後の分析及び分類のためのアルゴリズムとの間の相互作用によって、進歩したレベルの統合及び相互動作性が与えられる。本手法は、テキスト及び画像、オーディオ・ファイルのような一層複雑な又はマルチメディア・データについてのアルゴリズムの前例のない組合せを使用する。
図12は、一般に本書においてコンピュータ支援データ操作アルゴリズム又はCAXと呼ぶことのあるこのようなアルゴリズムの相互動作性の概要を示す。本書におけるこのようなCAXアルゴリズムは、現在使用中のアルゴリズムに基づいて構築することができ、或いは、追加のデータ供給源及びエンティティ、又はこのようなデータ供給源及びエンティティの統合に基づいて、或いは特定の種類のデータ・エンティティの検索、分析及び分類のために、修正し又は完全に構築することができる。図12の概要では、例えば、完全に統合したシステムに含むことのできる広範囲の段階、処理又はモジュールが含まれるものとしてCAXシステム全体を例示している。前に述べたように、このような処理、機能又はモジュールの幾分か又は少数のみが存在するような、より制限された具現例も想定することができる。更に、現在考えられる実施形態では、このようなCAXシステムは、データ・エンティティの分析及び分類のためのアルゴリズムによって管理されたデータによりアルゴリズム自体及びデータ管理の両方の適応又は最適化を可能にするために情報を収集することができるように、IKBに関連して具現化することができる。アルゴリズムで具現化される規則又はプロセスを含む、個々のCAXアルゴリズムの様々な面は変更することができ、或いは特定の規則を、データ・エンティティ・マイニング、分析及び分類プロセスの際に書き込み及び呼び出すことができる。
多数のこのようなコンピュータ支援データ操作アルゴリズムを想定することができるが、図12に、データ・エンティティについて特定の機能を実行するためのある種のこのようなアルゴリズムを例示する。これらのプロセスは参照数字256で表している。図12に概略表示されているデータ操作段階をより詳しく考察すると、段階258で、アクセスしたデータが、例えば、インデックス付け、冗長性検査、データの再フォーマット設定、データの変換などのために一般的に処理される。当業者に理解されるように、段階258で実行される特定の処理は、分析されるデータ・エンティティの種類及び分析の種類又は遂行される機能に依存する。しかしながら、一般的な供給源及びIKBを含む前述の任意の供給源からのデータ・エンティティを処理することができることに留意されたい。段階260で、同様に、データ・エンティティの分析が遂行される。この場合もまた、このような分析は、データ・エンティティの性質、エンティティ内のデータ、及び分析を行うアルゴリズムの性質に依存する。このような処理は、例えば、エンティティ内での又は相互間での特定の類似点又は相違点を識別することができる。このようなデータについては、提示のために表作成、計数などを行う。同様に、データ・エンティティについて統計的分析も行って、関連性、類似性の程度、又はエンティティ内又はエンティティ相互間での関心のある任意の他の特徴のような関係を決定することができる。
このような処理及び分析に続いて、段階262で、関心のある特徴を一般的な態様でセグメント化し又は境界線で囲むことができる。テキスト・データにおける特徴の認識には、特定の文節及び用語の認識、このような文節及び用語の強調、文書の関連部分の識別などのような単純な動作を含むことができる。画像データにおいて、このような特徴セグメント化には、特徴及び対象物の限界又は輪郭の識別、コントラストの識別、明るさ、又は任意の数の画像に基づく分析を含むことができる。医学的分野では、例えば、セグメント化は特定の解剖学的構造又は病理学的特徴を区切り又は強調することを含むことができる。しかしながら、より一般的には、段階262で実行されるセグメント化は、データ間の様々な関係、相関の範囲などを含む任意の種類の特徴の限界を簡単に見分けることを意図している。
このようなセグメント化に続いて、段階264に概略表示されているように、データ内で特徴を識別することができる。このような特徴識別は一般に知られている手法に従って、画像データについて行うことができるが、段階264で実行される特徴識別は一層広い意味を持つことに留意されたい。すなわち、本発明のシステムに統合できるデータの範囲が広いので、特徴識別は、テキスト、画像、オーディオ・データ、又はこのようなデータの組合せのような、データの関連付けを含むことができる。一般に、特徴識別は、CAXアルゴリズムによって実行されるプロセスにとって関心のあるようなデータの間の相関についてのどんな種類の認識でもよい。
段階266で、このような特徴を分類する。このような分類は、典型的には、セグメント化された特徴の分布を既知の条件での既知の分布と比較することを含む。分類は、一般的に、データ・セットの既知の集団における分布を、検討中のデータ・セット又はエンティティと整合させる属性、パラメータ設定、値などから生じさせることができる。本書では、分布は、ドメイン定義の軸及びラベルについての属性のセット(集合)、又は希望される場合、これらのサブセット、に対応することができる。更に、分類は、一般に、前に述べたように所望の規則及びアルゴリズムに基づくことができる。この場合もまた、アルゴリズムはドメイン定義を同じソフトウエア・コードの一部とすることができ、また、検索、分析及び分類ソフトウエア、又は特定のアルゴリズムは、ソフトウエアにおける適切なリンクによって必要なときに呼び出すことができる。しかしながら、分類はまた、時間、空間、母集団などにわたる特定のデータ・エンティティ又はエンティティについての通しの傾向分析のような、母数によらない分布の一致に基づくものであってよい。
図12に示されているように、分析及び分類の際に実行されるプロセスは、一般的な資源32又は参照数字34で示されるようなIKBに記憶されたデータ・エンティティのいずれかに基づくものであってよい。また図12に記載されているように、これらのプロセスは、前に述べた種類のテンプレート220を介しての入力によって駆動することができる。分析及び分類の結果として、参照数字20で示すように、一般的に表現(representation)がユーザに示される。
データ・エンティティの検索、識別、分析、分類などのための本発明手法は、決定プロセスを容易にし且つ向上させることを特に意図している。これらの処理は、マーケティング決定、研究開発の決定、技術開発の決定、法的決定、経理及び投資の決定、臨床診断及び処置の決定などのような、広大な範囲の決定を含むことができる。これらの決定及びそれらのプロセスが図12に参照数字268で概略表示されている。前に述べたように、表現20に基づいて、また更に意志決定プロセスに基づいて、分析及び分類アルゴリズム、データ・エンティティ、ドメイン定義などに対する更なる改良修正が、図12にオプションのブロック270で示すように、望ましいことがある。当業者に理解されるように、このような改良修正は、限定するものではないが、追加のデータの取得、異なる条件下でのデータの取得、特定の追加のデータ分析、データの更なるセグメント化又は異なるセグメント化、特徴の代替の識別、及びデータの代替の分類を含むことができる。
前に述べたように、本発明手法では、IKBからのようなデータ・エンティティの検索並びに更なる識別及び分類を遂行するために追加のインターフェースが設けられる。図13は、IKBに記憶されているようなデータ・エンティティの検索を遂行するための概要を例示する。この概要は、IKBの形成のためにデータ・エンティティを検索し且つ構造化するための図11に示したものと同様であることに留意されたい。図13に全体的に参照数字272で示されているワークフローにおいて、軸及びラベルを含むドメイン定義をグラフィック表示している検索フォーム220を再び用いる。この場合もまた、属性及び、適切な場合には、関連付けリストを、検索テンプレートと組み合わせて、検索及び分類すべきデータ・エンティティの特徴を定めることができる。関連付けリスト226を、自動的な検索及び分類のために使用することができる。次いで、ユーザは特定の軸及びラベルを定めることができ、これらは、完成したテンプレート220を介してIKBを構成する構造化されたデータ・エンティティに配置されるべきものである。完成したテンプレート、関連付けリスト226、及び全体的に参照数字238で示した規則に基づいて、IKBが検索される。すなわち、選択され分類されたエンティティ248が検索されて、(テンプレート、任意の関連付けリスト、及び適用できる規則によって定められたような)検索のために使用される判定基準に対応するデータ・エンティティを識別し、且つ、適切な場合には、再分類する。図13に例示された実施形態において、検索結果が、検索テンプレートに類似するフォームを介して作成される。しかしながら、本例で「フォーム・ビュー」274として示されている表現において、各レコード又はデータ・エンティティについて突き止められた軸及びラベルのみがテンプレートで強調表示される。従って、ユーザは、分類手順において遂行される一対多数のマッピングのためのベースを素早く識別することが可能である。多数のこのようなレコード276を作成することができ、その各々は、希望される場合、前に述べたように、書誌的データ、主観的データ、分類データなどを表す。
別の具現例では、検索及び分析段階で突き止められ、且つ構造化されたデータ・エンティティに分類された特定の特徴又は属性について、データ・エンティティを強調表示することができる。図14は、1つのこのような具現例についての模範的なワークフローを例示する。図14の、全体的に参照数字278で示しているテキスト強調表示の具現例は、候補リスト280から候補の特定の特徴を識別することから始めることができる。参照数字282で示している候補選択をリストから行い、個々の関心のある特徴を強調表示するために効率のよい検索を実行することができる。図14に図示した具現例では、例えば、テキスト検索を文書IDフィールド284上で遂行し、参照数字286で示されるようにワードを強調表示する。従って、ドメイン定義内のラベルの個々の属性に対応することのできるこのワードが、エンティティ・レコード・ビュー288に示されているように強調表示される。現在の具現例では、強調表示は、ワードの色、又はワードを囲む背景の色を変えることによって行うことができる。参照数字290、292及び294で示すような異なる強調表示を、異なる用語について、或いは、例えば、単一のラベル又は単一の軸に関連した用語について使用することができる。この場合もまた、データ・エンティティの分類(及び選択)のためのベースは、強調表示を参照することによりユーザには直ぐに明らかになろう。当業者には理解されるように、テキスト文書の比較的簡単な例を示したが、同様な手法を広範囲のデータ・エンティティの種類について用いることができる。例えば、後で説明するように、画像データ、オーディオ・データ、又は他のデータ、及びこれらの種類のデータの組合せを、同様な態様で分析し且つ強調表示することができる。画像データを強調表示する場合、例えば、関心のある特徴を囲むブロック、関心のある特徴を示すポインター、関心のある特徴を示す注釈などのような、グラフィック表示手法を用いることができる。テキスト、画像、及び他の種類のデータを含むデータ・エンティティを分析する場合、これらの強調表示方式の組合せを使用することができる。
分析され分類されたデータ・エンティティを評価するために使用することのできる更に別の表現が図15〜22に例示されているような様々な空間ディスプレイを含む。図15に例示されている空間ディスプレイ(すなわち、splay)では、検索判定基準に対応し且つ検索判定基準に従って分類された一連のレコードのデータ中心の(data-centric)ビューが観察される。空間ディスプレイ296は、ドメイン定義の一対の軸298及び300を示すデータのマトリクス又は配列の形を取る。摘要表302がこれらの軸及び各自の個々のラベルに従う。軸及び個々のラベルの交点に対応するレコード又はデータ・エンティティのカウント又は数が、カウント又はスコア数304によって表される。勿論、後でより詳しく説明するように、各交点のブロック内に追加の情報を表示することができる。希望される場合、追加の情報は、カウント上でマウスをクリックして、参照数字306で示すようにドロップダウン・メニュー又はリストを生じさせること等によって、表示することができる。図示例は多数の可能性の内の1つに過ぎないことに留意されたい。追加の可能性は後で説明するが、形式的にはシステム設計者にとって利用可能な無数のオプションの内の一部である。現在の具現例では、例えば、リスト306から個々のエンティティ又はレコードへの追加のリンクを設けることができ、レコード自体はリストから入手できる。リストからのレコードの選択の結果、図13に示されているようなフォーム・ビュー又は図14に示されているような強調表示ビュー、或いはデータ・エンティティの全部又は一部の任意の同様な表現が表示される。
空間ディスプレイの別の例が図16に示されている。図16に例示のディスプレイはレコード中心の空間ディスプレイ308と考えることができる。レコード中心の(record-centric)ディスプレイは図15に例示のディスプレイと同様であるが、個々のデータ・エンティティ又はレコードの属性に対応するラベルの交点を強調表示する。すなわち、例えば、特定の知的財産権の会社オーナーのような、特定の検索判定基準で得られた複数のレコードが、図16に右傾の斜線で示されるような第1の色又は図形で強調表示される。第2の会社について得られたデータ・エンティティに対応するレコードが、左傾の斜線のような異なる態様で表示される。勿論、利用可能な場合に様々な色のような他のグラフィック手法がより指示的であり且つはっきり見えることがある。この場合もまた、強調表示は、交点ブロックの各々における少なくとも1つのレコードが、強調表示された特徴の各々(例えば、会社オーナー)について突き止められたことを示すことができる。従って、空間ディスプレイは、属性を持つ作成されたデータ・エンティティの間に交点が存在する場所、及びこのようなレコードが何ら作成されなかった領域を容易に明らかにすることができる。参照数字310及び312で示されている特定のレコード強調表示は、交差空間314における2つの中央のブロックの場合のように、オーバーラップして、各々のこのようなブロック内の少なくとも1つのレコードが強調表示のための一方又は他方のベースに属していることを表すことができる。この場合もまた、そこから特定のレコード又はビューにアクセスすることのできるレコード・リスト316のような、追加のグラフィック又は分析手法を用いることができる。
図17は、異なる種類のレコード中心のディスプレイと考えられる追加の空間ディスプレイを表す。図17のディスプレイでは、再び軸298及び300が示されており、各軸には対応する複数のラベルを持つ。各ラベルの交差を示すブロックが設けられている。しかしながら、空間ディスプレイ表現318では、各々の個々のレコード又はデータ・エンティティについて別々のブロックが設けられている。このようなブロックが参照数字320、322及び324で示されている。構造化されたデータ・エンティティの内容に基づいて、個々の交差ブロックは、レコードが軸ラベル属性を含んでいるか否かを表すことができる。例えば、図示のデータでは、データ・エンティティ320、322及び324はラベルIIAに対応する属性を何ら共有していないが、エンティティ322及び324はラベルIC/IIBで交差を共有している。この場合もまた、データの表示が、データ・エンティティの一意性又は独自性及びそれらの類似性の識別を容易にする。
幾分類似した空間ディスプレイが図18に例示されている。図18に例示されている種類の空間ディスプレイは、特定の財産権の会社オーナーのような特定の関心のある特徴について考慮することができる。ディスプレイを作成するために任意の他の適当な特徴を使用することができることは勿論である。図示のように、軸及びラベルが再び表形式で表されているが、特定の関心のある特徴が、参照数字320、322及び324で示されているような個々の交差ブロックにおいて呼び出される。例として、会社比較の場合、欄320、322及び324の各々は、各々の会社によって所有される各々の交差ブロックにおける財産の数に対応することができる。従って、分析は観察者にとって明らかであり、各々の会社オーナーの強さ及び弱さを相対的に示す。例えば、図示の例では、会社322は交差空間IC/IIBにおいて幾分か優勢であるが、交差空間IB/IIBにおいて会社320と共に弱くなると思われる。
空間ディスプレイの別の具体例が図19に示されている。図19は、異なる種類のレコード又はデータ・エンティティ中心のビューと考えることができる。この場合もまた、軸298及び300が示されている。また複数のデータ・エンティティ又はレコード320、322及び324が表形式で示されている。しかしながら、軸298、300及び任意の追加の軸330について、データ・エンティティの内容に基づいて分類を行った個々のラベルが例示されており、全てのこのような対応性が示されている。従って、ユーザは、特定のレコードが得られた方法及び理由、特定のレコードが構造化され且つ分類された方法、及びデータ・エンティティ・レコードの一対多数のマッピングためのベースを容易に見分けることができる。
空間ディスプレイの更に別の例が図20に示されている。図20の表現では、空間ディスプレイ332は、ドメイン定義の各軸334に対応するグラフィック空間をタイル状フォーマットで示しており、個々のラベル336は各軸について呼び出される。各ラベルはブロック又は区域338で表示される。図示例では、各ラベルの属性に対応するデータ・エンティティの数についてのカウント又は累計340がそれぞれのブロック内に提供される。全体的に参照数字342で示されている背景は着色することができ、又は個々のラベルの属性に対応するデータ・エンティティのレベル又は数を示すために背景について特定の図形を使用することができる。更に、図示例では、知的財産権の会社オーナーのような特定の特徴に対応するデータ・エンティティのような特別の意味を持つことができる挿入記号(inset) 344を設けることができる。この場合もまた、任意の他の適当な意味を、背景又は挿入記号344のいずれかに持たせることができる。更に、特定の関心のある特徴を呼び出すために、多数のこのような挿入記号又は他のグラフィック・ツールを使用することができる。
図示例では、提示されたデータの理解を高めるために特定の色又は図形を使用している凡例346が設けられる。図示例では、例えば、特定のラベルの属性に対応するデータ・エンティティの数について異なる色を使用することができ、凡例の挿入記号348では様々なカバー範囲が呼び出される。各ラベルについて背景及び挿入記号の意味を説明するために、例えば、参照数字350で表されているような追加の凡例を設けることができる。従って、構造化されたデータ・エンティティの分類に基づいた分析及び意志決定プロセスのために、様々な種類のグラフィックスを取り入れた非常に複雑で精巧なデータ・プレゼンテーション・ツールを使用することができる。適切な場合には、前に述べたように、ユーザが特定の軸、ラベル、属性又は任意の他の関心のある特徴に対応するデータ・エンティティに「掘り下げる」ことをできるようにするために、データ・エンティティ・レコード・リスト352のような追加の特徴を設けることができる。
図21は図20の基本的な空間ディスプレイを、関連した追加の具体例のグラフィックスと共に例示する。図21の例では、例えば、会社オーナー又は任意の他の関心のある特徴のような個々のデータ・エンティティをカウントによって分類するために、挿入図又はメニュー、グラフィックス、リンクされたディスプレイなどのような、多数の特定の特徴のグラフィック表現を示すことができる。挿入図354では、例えば、ユーザは、第1の軸Iの個々のラベルに対応するデータ・エンティティの数をグラフィック・フォーマット356で表示することができる。図示されているように、例えば、関心のある会社「会社1」が個々のラベルIA〜IFに対応して複数のデータ・エンティティを持つことが示されており、個々のデータ・エンティティ又はレコードのカウントは棒グラフで表示されており、棒グラフでは、軸358に沿って示された各々の個々のラベルについてデータ・エンティティの数又は量が示されている。カウントは、この例では棒360によって表すことができる。同様に、図21にグラフィック・ディスプレイ362で示されているように、個々のラベルについて、データ・エンティティの数を異なる会社(例えば、Co1,Co2,Co3)毎に表示することができる。会社の表示は軸366に沿って示すことができ、カウントは棒368で示す。グラフィック表現364は、個々のラベルについて各会社によって所有される財産の数の表示を提供する。この場合もまた、このような分析及びディスプレイのために任意の他の特徴を設けることができる。
図22は、相互作用型コンピュータ・インターフェースを介して具現化できるような、分析され分類されたデータ・エンティティの表現の相互作用型空間ディスプレイの一例を示す。相互作用型表現370は、図示例においてスーパードメイン374のトップレベル・ビューを含む。前に述べたように、このような表記は幾分任意であってよく、データ・エンティティについて定義されるような分類のレベルを単に表す。図22に示されているように、スーパードメインは幾つかの個々のドメイン376を含む、各ドメインは一連の軸378を含む。前に述べたように、スーパードメイン及びドメインの定義において、各軸は関心のある個々の属性又は特徴と関連付けられ、これにより構造データ・エンティティが分析され分類される。グラフィック表示のスーパードメインが提示されたとき、ユーザは、ビュー380によって示されているように個々のドメイン又は軸に「掘り下げる」ことができる。図示の具現例では、軸IAを選択することによって、ビュー380が生成され、その中の拡大された挿入図384に、選択された軸の個々のラベルが表示される。この挿入図は、参照数字386で示されるようにラベルを示し、ラベルに対応するデータ・エンティティのカウント又は累計のような追加の情報を表示することができる(図22には示していない)。この場合もまた、ラベルの各々は、図22に参照数字388で示すように、属性に関連付けされる。属性はラベルと共に表示しても表示しないてもよいが、属性は、データ・エンティティの選択及び分類を行ったベースの表示としてユーザにとってアクセス可能にすることができる。図22の具現例では、この場合もまた、他のドメインの個々の軸を、参照数字382で示されるように、最小化することができる。前に他の空間ディスプレイに関して述べたように、レコード・リスト390のような他のグラフィックスを設けて、ユーザがデータ・エンティティ、データ・エンティティの一部分、データ・エンティティの一覧表などを観察できるようにすることができる。前に簡単に述べたようにグラフ形式、表形式、又は強調表示のビューのような他の種類のグラフィック表現を設けることができるのは勿論である。
これまでの説明で述べたように、本発明手法は、任意の適当な種類のデータ・エンティティを検索し、分類し、分析するために用いることができる。一般に、幾つかの種類のデータ・エンティティが現在考えられ、それには、テキスト・エンティティ、画像エンティティ、オーディオ・エンティティ、及びこれらの組合せが含まれる。すなわち、特定のテキストのみのエンティティの場合、ワード選択及び分類手法、並びにワード及びテキストに基づいた手法を、グラフィック情報、主観的情報などによるテキスト表示と共に用いることができる。画像エンティティの場合、コンピュータ支援分析手法、コンピュータ支援特徴認識手法、セグメント化、分類などのための手法を含む、広範囲の画像分析手法が利用できる。
医学的診断用イメージングのような特定のドメインでは、これらの手法がまた、可能性のある病状を分析及び分類し、病気を診断し、処置を提案し、画像データの更なる処理又は取得を提案し、他の画像データの取得を提案するなどのために、画像データの評価を可能にすることができる。本発明手法は、テキスト情報が添付の書誌的情報に存在しているような、テキスト及び画像データの組合せを含む画像に用いることができる。当業者には明らかなように、医学的イメージングのような特定の環境では、標準的なDICOMヘッダような、画像データに付加されたヘッダには、画像の供給源及び種類、日付、書誌的情報などに関するかなりの情報が含まれることがある。この情報の幾分か又は全てを、分類及び更なる分析のために本発明手法に従って、分析し構造化することができる。このような分析及び分類に基づいて、データ・エンティティは、構造化された、半構造化された又は構造化されていない形態で、統合知識ベース(IKB)のような知識ベースに記憶することができる。従って、当業者には明らかなように、本発明手法は、財務分析、病気の認識、処置の認識、関心のある人口統計の認識、目標市場の認識、危険性の認識、或いは、データ・エンティティの間に存在するが、認識するのを困難にするほどに複雑であり又は明らかでない任意の他の相関関係のような目的のために、複雑なデータ・セットの統合分析を含む無数の有利な使用を可能にする。
図23、24及び25は、画像データ、特に、テキスト・データが関連している画像データに、上述の手法を適用した例を示す。図23に示されているように、画像/テキスト・エンティティ処理システム392は、一般的には上述の手法の趣旨に従うが、参照数字394で示されるように、画像及びテキスト・ファイルにより開始することができる。この場合もまた、ファイルに対応するデータ・エンティティは単一のファイル内に又は複数のファイル内に含むことができ、或いは、画像データに基づく注釈などのためにファイル間にリンクを設けることができる。一般に、各エンティティは、テキスト・セグメント396及び画像セグメント398を含む。テキスト・セグメント396は、構造された、構造化されていない又は主観的データを、一連の又は複数連のテキスト400の形態で含むことができる。画像セグメント398は、画像ヘッダ内のテキスト・データのような書誌的データ402、及び画像内容データ404を含むことができる。画像内容データは、典型的には、画像ピクセル・データ、ボクセル・データ、オーバーレイ・データなどの形態である。一般に、画像データ404は、所望の再構成手法に従った可視画像406すなわち表示のための一連の画像の再構成を可能にするのに充分なものとすることができる。当業者には明らかなように、特定の再構成手法は、一般に、画像データの性質、データを取得したイメージング・システムの種類などに従って選択することができる。
データ・エンティティが上述の種類の処理システム14に供給される。一般に、上述の全ての処理、特に図10及び12に関して説明した処理は、複雑なデータ・エンティティについて遂行することができる。これらの処理手法によれば、テキストにおける、また画像における、またテキスト及び画像の間での関心のある特定の特徴を、ドメイン定義と(参照数字38で示すような)ドメイン定義によって規定された規則又はアルゴリズムとに従って、セグメント化、識別、フィルタリング、処理、分類などを行うことができる。複雑なデータ・エンティティについて遂行された処理に基づいて、結果の構造化されたデータは任意の適当な記憶装置40に保存することができ、そして参照数字34で示すような統合知識ベース(IKB)を作成することができる。前にも述べたように、データ・エンティティの各々について遂行された一対多数のマッピングに基づいて、同様な検索を、テキスト、画像又は両方のいずれかにおける個々の関心のある特徴について遂行することができる。図23は複雑なデータ・エンティティにおけるテキスト及び画像ファイルを表しているが、データ・エンティティがテキスト及びオーディオ・データ、オーディオ・データ及び画像データ、テキスト及びオーディオ及び画像データ、或いは波形データ又は任意の他の種類のデータのような追加の種類のデータさえも含むことができることにも注意されたい。
図24に、複雑なデータ・エンティティについて遂行される特定の画像/テキスト・エンティティ処理408が大まかに例示されている。前に述べたように、テキスト・データ410(図24には強調表示ビューが示されている)及び画像データ412が、個々のテキスト規則及びアルゴリズム414と個々の画像規則及びアルゴリズム416とに従って、分析され分類される。しかしながら、分類及びマッピングのための規則及びアルゴリズムのいくらかは、テキスト及び画像データに基づいた判定基準を含むことができることに留意されたい。例えば、特定のテキスト分析からのみ識別可能であるような特定のグループの対象を別にすれば、ユーザは画像データ内の目に見える関心のある特定の解剖学的特徴に特別な関心を持つことができる。このような組合せの分析は、分類及びマッピングを向上させるための強力なツールを提供する。ドメイン定義12に基づいて、図24のブロック210で示されるようにマッピングが行われ、その結果はIKB34に保存することができる。
複雑なデータ・エンティティの分析及び分類に加えて、上述の全ての手法は、テキスト、画像、オーディオ、及び図25に大まかに示しているような他の種類のデータを含む複雑なデータ・エンティティについて使用することができる。図25は、テキスト・データのみについての前に述べたものと同様な、組合せのテキスト/画像データについての模範的なフォーム・ビューを示す。図25に示されているビュー420内に設けられた一覧表示において、全てが大まかに参照数字422で示されている主観的情報及び分類情報と共に、書誌的情報を提供することができる。しかしながら、画像データの分析についての追加の情報を、参照数字424で示されるような画像表現と共に提供することができる。適切な場合には、実際の画像、注釈付き画像、又は追加の主観的又は書誌的データに対するリンクを、勿論、設けることができる。
前に述べたように、本発明手法は、分析及び分類が可能である任意の適当なデータ・エンティティに適用することができる。模範的な一具現例では、該手法は、特許文書及び出願の再検索、分析、構造化及び分類に適用される。このような文書は、特に商業上利用可能なデータ集合体から入手されたとき、複数の項目(例えば、表題、要約、第1ページ、特許請求の範囲など)への文書の細分のような構造を含む。関心のある文書の識別及び分類のため、先ず関連したデータ・ドメインが定義される。軸は、イメージング・モダリティ、画像の特定の種類についての臨床的利用、画像再構成手法などのような、主題又は技術分野に関係付けることができる。各軸についてのラベルは、軸の題目を細分して、技術的概念のマトリクスを形成する。次いで、ワード、専門用語、フレーズなどが、ラベルの属性として各ラベルに関連付けられる。近似判定基準、全体又は部分ワード規則などを含む、同様な用語の認識のための規則及びアルゴリズムが設定又は選択される。任意の適当なテキスト分析規則を用いることができる。
ドメイン定義及び規則に基づいて、特許及び特許出願ファイルは利用可能なデータベースから入手できる。文書における構造は、このような構造がドメイン定義において具現化されているなら、譲受人、発明者などの識別などのために使用することができる。ドメイン定義によって使用されない文書に存在する構造は、例えば、書誌的データ・フィールドを完成するために使用することができ、或いは、ドメイン定義に関連していると見なされないなら、無視することができる。他方、構造化されていない文書中のデータは、例えば、一般に構造化されていない区域に見いだされる文書の部分(例えば、パラグラフ・テキスト、要約テキストなど)における用語を識別することによって、構造化することができる。後で検索及び分類するのを容易にするために、文書にインデックスを付けることもできる。
次いで、文書はドメイン定義上にマッピングされて、一対多数の分類を設定する。この分類は任意の特定の文書を多数の異なる軸/ラベルに関連付けする。次いで、トピックの特定の組合せに関する文書、特定のタイトルホルダーに割り当てられた文書、及びこれらの組合せについての検索のような、多数の高品位の種類の分析を文書について遂行することができる。関連付けされた用語及び属性を持つ、軸及びラベルのマトリクスは、文書の無数のサブセットが検索における軸及び/又はラベルの適切な組合せの選択によって定義されることを可能にする。
別の模範的な具現例では、医学的診断用画像ファイルを分類することができる。このようなファイルは、典型的には、画像データ及び書誌的データの両方を含む。主観的データ、医師による注釈なども含むことができる。この例で、ユーザは、特定の解剖学的構造、特定の病状、処置、人口統計的データ、及び関心のある任意の他の関連したカテゴリイに対応する軸を持つドメインを定義することができる。この場合もまた、ラベルは軸を論理的に細分し、また属性が各ラベルについて指定される。テキスト・データの場合、属性は、前の例で述べたように、用語、ワード、フレーズなどであってよい。しかしながら、画像データの場合、画像データのアルゴリズムによる分析を介してのみ識別可能である属性のような、一連の複雑で強力な属性を定義することができる。これらの属性の幾分かはコンピュータ支援診断(CAD)及び同様なプログラムによって分析することができる。前に述べたように、これらはドメイン定義の中に埋め込むことができ、或いは、画像データを分析し分類すべきときに必要に応じて呼び出すことができる。
この種の具現例では、テキスト、画像、オーディオ、波形、及び他の種類のデータを独立に分析することができ、或いは分類の複雑な組合せを定義することができることに留意されたい。エンティティが一対多数のマッピングによって分類される場合、画像データから識別できる特定の特性又は病状を示し、且つ、テキスト又は他のデータから、或いはこのようなデータの組合せから他の方法でのみ識別できる特定の類似性又はコントラストを持つ集団を突き止めるためのような、高品位の分析を遂行することができる。
これらの例において、及び任意の具現例において、上述の分析及びプレゼンテーション手法を用いることができ、また特定のの種類のエンティティに適応させることができる。例えば、特許のようなテキスト文書は、特定の関連したワード又はフレーズを強調表示することにより、強調表示ビューとして表示することができる。画像もまた、例えば、関心のある特定の特徴又は領域について色を変更することによって、又はポインタ、ボックスなどのようなグラフィック・ツールを使用することにより、強調表示することができる。
本発明の特定の特徴のみを例示し説明したが、当業者には多くの修正及び変更をなし得よう。従って、特許請求の範囲が本発明の真の精神の範囲内にあるこの様な全ての修正及び変更を包含するものであることを理解されたい。