JP5025488B2

JP5025488B2 - ドメイン特定のデータ・エンティティ・マッピング方法及びシステム

Info

Publication number: JP5025488B2
Application number: JP2007546830A
Authority: JP
Inventors: アヴィナッシュ，ゴパル・ビー; ワイナー，アリソン・レイ; コンリー，アン・マリー
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2004-12-17
Filing date: 2005-12-13
Publication date: 2012-09-12
Anticipated expiration: 2025-12-13
Also published as: US20060136467A1; DE112005003157T5; JP2008524712A; WO2006065816A1

Description

本発明は、一般的に云えば、データ・エンティティのマッピング及び分類に関するものである。より具体的には、関心のあるデータ・エンティティを識別し、必要とされる場合にこのようなエンティティを構造化し、また参照のためにこのようなエンティティを分析し、マッピングし、分類するための手法に関するものである。

関心のある特定の分野に関連したデータ・エンティティを識別するために多種多様な手法が開発されて現在使用されている。本書で用いる「データ・エンティティ」には、自動的な手法によって識別、分析及び分類することのできる任意の種類のディジタル化されたデータを含むことができる。このようなエンティティには、例として、ほんの少し列挙すれば、テキスト文書、画像ファイル、オーディオ・ファイル、波形データ、及びこれらの組合せが含まれる。

既存のデータ・エンティティ識別、分析及び分類手法は、多くの場合、関連した文書及び他のデータ項目を識別すると共に、ある程度、それらの項目自体又は関連部分のいずれかを収集するように設計されている。共通の検索エンジンが、例えば、ワードのブール検索又は他の判定基準を可能にする。検索は、文書自体又は文書の一部分、インデックス付き文書などについて実行することができる。ある特定の検索ツールは、同じ様な目的のための関連した用語による文書のタグ付けを用いている。その結果として、典型的には、リストを作成することができ、それらには時として文書に対するリンクが設けられる。これらの共通の手法はまた、文書の関連性についてのランク付けを用いている。
米国特許第６８２００９４号

このようなツールは多くの検索のために極めて有用であるが、より一層有用な検索及び分類を遂行できる改良されたツールが要望されている。特に、関連したドメインのより完全でユーザ指示の定義及び該ドメイン内での分類に基づいて、データ・エンティティの広範な分析、構造化、マッピング及び分類を可能にすることのできるツールが要望されている。更に、判定基準の組合せに基づいて、文書、画像、テキスト・ファイル、オーディオ・ファイルなどを検索し分類することのできるツールが要望されている。

本発明は、上記のような要望に応えるように設計された、データ・エンティティを識別、分析、構造化、マッピング及び分類するための手法を提供する。本手法は、ほんの少し例示すれば、テキスト・データ、画像データ、オーディオ・データ、波形データ、及びこれらの組合せのような、様々な種類のエンティティに適用することができる。エンティティは所望の場所において見付けることができ、また局所的に又は遠隔からアクセスすることができる。既知のデータベース又は処理済みの統合知識ベースを、データ・エンティティの供給源として使用することができる。

本発明手法の様々な面によれば、複数の軸(axis)及びラベル(label) を含むドメインを定義することによって、概念的フレームワークが設定される。潜在的に関心のあるデータ・エンティティにアクセスして、これらのエンティティの属性をドメイン定義に従って分析する。データ・エンティティ内に存在する任意の構造を使用することができ、或いはエンティティを全体的に又は部分的に再構成することができる。次いで、ドメイン定義及び規則及びアルゴリズムに従って一対多数(one-to-many) のマッピングを遂行して、データ・エンティティを分類すべきか否か及びデータ・エンティティをどのように分類すべきかを決定する。このようにして、単一の属性を、概念的フレームワーク内で多数の異なる場所及びやり方で分類して、データ・エンティティの分析及びグループ化を強化できるようにすることができる。次いで、エンティティの検索及び更なる分析を、ドメイン定義の軸及びラベルのサブセットの選択によって遂行することができる。

本発明のこれらの及び他の特徴、側面及び利点は、添付の図面を参照して以下の説明を読むことにより良く理解されよう。図面では、図面全体を通じて同様な部品を同じ符号で表している。

次に図面を参照して説明すると、先ず図１には、ドメイン定義を設定し、また該定義に従ってデータ・エンティティを検索し、分析し、構造化し、マッピングし、分類するためのデータ・エンティティ・マッピング・システム１０を図式的に例示する。図１に示した実施形態では、ドメイン定義は参照数字１２で表されている。後でより詳しく述べるように、ドメイン定義は、技術分野のような任意の関連分野に関係付けることができる。ドメイン定義は後で述べる手法に従って設定することができ、一般的には、関連分野の論理的に細分された部分の概念的フレームワークと考えることができる。各部分は任意の数の概念的レベルに更に細分することができる。これらのレベルは、最終的には、データ・エンティティ内に見付けられる可能性のある属性に関連付けられて、それらの識別、分析、構造化、マッピング及び分類を可能にする。

ドメイン定義１２は処理システム１４にリンク(link)され、処理システム１４は一連のデータ資源１６のいずれかからのデータ・エンティティを識別するためにドメイン定義を利用する。処理システム１４は一般に１台以上のプログラムされたコンピュータを含んでおり、これらのコンピュータは１つまた複数の場所に配置することができる。ドメイン定義自体は処理システム１４内に記憶させることができ、或いは、該定義は、データ・エンティティを検索、分析、構造化、マッピング又は分類するために要求されたときに処理システム１４によってアクセスすることができる。ドメイン定義、並びにデータ資源及びデータ・エンティティ自体を持つユーザ・インターフェースを可能にするために、一連の編集可能なインターフェース１８が設けられる。この場合もまた、このようなインターフェースは処理システム１４に記憶することができ、或いは必要な時にアクセスすることができる。インターフェースは一連のビュー２０を生成する。これについては、後で説明する。一般に、このようなビューは、ドメインの定義、ドメインの改良修正(refinement)、データ・エンティティの分析、分析結果の観察、並びにデータ・エンティティ自体の観察及びそれらとの相互作用を可能にする。

ドメイン定義１２に関して説明すると、本明細書では、用語「アクセス」、「ラベル」及び「属性(attribute) 」は、ドメイン定義によって表される概念的フレームワークの異なるレベルについて用いられる。当業者に理解されるように、任意の他の用語を使用することができる。一般的に、ドメイン定義の「軸」は、ドメインの概念的な細目を表す。軸は必ずしもドメイン全体をカバーしていなくてもよく、実際に、後で説明するように、様々な特定のレベルにおけるデータ・エンティティの様々な特定の面の分析及び観察を可能にするために戦略的に構造化することができる。参照数字２２で表している「軸」は、複数のラベル２４に細分される。この場合もまた、この追加したレベルの概念的な細目について任意の適当な用語を使用することができる。これらのラベルが、軸に対して割り当て可能な全ての範囲の概念をカバーしていないことがあるが、これらのラベルは一般的にそれぞれの軸の概念的な一部分である。更に、本発明手法は、１つの軸のラベルと別の軸のラベルとの間の、又は実際に複数の軸自体のラベルの間の、オーバーラップ、冗長性、或いは、それどころか、排他性も排除しない。

各ラベルは属性２６に関連している。この場合もまた、属性はラベル相互間で、或いは軸相互間でも、共通であってよい。しかしながら、一般に、ドメインの戦略的定義は、ユーザがデータ・エンティティを分類できるようにするやり方で、個々のデータ・エンティティの一対多数のマッピング及び分類を可能にする。従って、データ・エンティティ相互の間を区別できるようにするために、軸とラベルと属性との間の何らかの区別が有用である。

更に、ほんの一例として示すと、本発明手法は、後で述べるように、テキスト文書だけでなく、画像データ、オーディオ・データ、波形データ等のような他の形態及び種類のデータを持つ文書の識別に適用することができる。別の例として、本手法は、関心のある特定の技術分野又はドメインにおける、特許及び特許出願のような知的財産権を識別するために適用することができる。このようなドメイン内では、一連の個別の分類法を考案することができ、それらは伝統的な分類法に従うことができ、或いは特定の知識又は興味に基づいてユーザによって完全に定義することができる。個々の軸の各々の中では、分類の個別の細目を具現化することができる。後でより詳しく説明するように、多数のこのようなレベルの分類を具現化することができる。最後に、文書が主に事実上テキストより成るので、個々の属性２６は特定のワード（語）、ワード列、フレーズ（句）等を含むことができる。他の種類のデータ・エンティティでは、属性は、画像、オーディオ・ファイルの部分、波形の部分及び傾向などにおける関心のある特徴を含むことができる。次いで、ドメイン定義は、個々のデータ・エンティティの分析、構造化、マッピング及び分類を、エンティティ内及びエンティティ相互間で識別可能である特定の特徴によって可能にする。

しかしながら、後でより詳しく述べるように、本発明手法はテキスト文書の分析のための前例のないツールを提供するが、本発明はテキスト・データ・エンティティに適用する場合のみに制限されるものではない。本発明手法は、画像、オーディオ・データ、波形データのようなデータ・エンティティ、並びにこれらのデータ種類の１つ以上を含んでいるか又は互いに関連しているデータ・エンティティ（すなわち、テキスト及び画像、テキスト及びオーディオ、画像及びオーディオ、テキスト及び画像及びオーディオ、など）に用いることができる。

ドメイン定義に基づいて、処理システム１４は、個々のデータ・エンティティを識別し、分析し、構造化し、マッピングし、分類するために、データ資源１６にアクセスする。広範囲のこのようなデータ・エンティティはシステムによってアクセスすることができ、またこれらは任意の適当な場所又は形式で見付けることができる。例えば、本発明手法は、構造化されたデータ・エンティティ２８又は構造化されていないエンティティ３０を識別し分析するために使用することができる。構造化されたデータ・エンティティ２８は、書誌的内容、予め識別されたフィールド、タグなどのこのような構造化されたデータを含むことができる。構造化されていないデータ・エンティティは、このような識別可能なフィールドを何ら含まないが、代わりに、それについての更なる又は異なる処理が相応しいような「生の」データ・エンティティであってよい。更に、このような構造化されたデータ・エンティティ及び構造化されていないデータ・エンティティは、「一般的な(at large)」供給源３２から、又は統合知識ベース（ＩＫＢ）３４のような予め設定されたデータベースからと考えることができる。本書で用いる用語「一般的な(at large)」供給源は、（典型的には、ユーザによってＩＫＢに）予め編成されていない任意の供給源を含み、このような一般的な供給源は、インターネット、ライブラリー、専門的な組織、ユーザ・グループ、又はどんなものであってもよいが任意の他の資源を介して見付けることができる。

他方、ＩＫＢは、ドメイン定義の概念的フレームワークに従って予め識別され、分析され、マッピングされ、分類されたデータ・エンティティを含むことができる。ＩＫＢの設定は、後でより詳しく説明するように、エンティティの更なる且つより高速の分析及び再分類のため、及びユーザ定義の検索判定基準に基づいたエンティティの検索のために、特に有用である。しかしながら、一般的な供給源からのデータ・エンティティを識別するために同じ又は同様な検索判定基準を使用することができること、及び本発明手法を予め定義されたＩＫＢに対して使用することに限定しようとするものでないことに留意されたい。

最後に、図１に例示されているように、大まかに参照数字３６で表されているような任意の他のデータ・エンティティ供給源を処理システム１４によって利用することができる。このような他の供給源は、ドメイン及び分類の設定に続いて利用可能になる、新しく設定した又は新しく資源に対して契約したような供給源を含むことができる。また、このような新しい資源が時を選ばずに出現することがあることを留意すべきであり、そこで本発明手法はそれらを分類システムに組み込むようになっており、実際にこのような新しいデータ・エンティティに対処するために分類システムの改良修正を行えるようになっている。

本発明手法は、互いに関連しているが別々であると考えるべき幾つかの有用な機能を提供する。先ず、データ・エンティティの「識別(identification)」は、関心のある又は潜在的に関心のあるエンティティの選択に関する。これは、典型的には、ドメイン定義の属性、及び該属性に関連して働くように具現化される規則又はアルゴリズムを参照することによって実行される。エンティティの「分析」は、データによって定められた特徴の検査を必要とする。多種の分析が、関心のある属性と、エンティティの属性と、構造化、マッピング及び分類を行うための規則又はアルゴリズムとに基づいて、遂行することができる。分析はまた、例えば、類似性、差異、傾向、及び（以前には認識されてもいなかった）対応性を識別するために、構造化され分類されたデータ・エンティティについて遂行される。

本書で用いられる「構造化(structuring) 」は、概念的フレームワーク又はドメイン定義の設定を表す。データ・マイニングの分野では、用語「構造化」、及び「構造化された」データと「構造化されていない」データとの間の区別が、（例えば、図１に示した構造化されたエンティティと構造化されていないエンティティとに関して述べたように）使用されることがある。このような「構造」は、あるデータ・エンティティについて及びそれらのの中で特定の分析システムを具現化すると見なすことができる。従って、文書は、表題、要約、及び下位区分とに細分することができる。しかしながら、これらの各々の中では、データが本質的に構造化されていない状態のままであることがある。本発明手法は、ドメイン定義の特定の概念的フレームワークに依存して、このような構造を使用し、変更し、又は除去することさえも可能にする。このような構造化は、変換、フォーマット設定、タグ付け、或いは、データをより容易に検索、分析、比較及び分類を行える形式へ変換することを必要とすることがある。例えば、このような構造化は、ＸＭＬのようなマークアップ言語を使用すること等により、データを特定の種類のファイル又はフォーマットに変換することを含むことができる。

エンティティの「マッピング(mapping) 」は、ドメイン定義の属性をデータ・エンティティの特徴及び属性に関係付けることを必要とする。このようなマッピングは、ドメイン定義の属性と用いられる規則及びアルゴリズムとに従って、各エンティティのデータにドメイン定義を適用するプロセスと考えることができる。非常に関連しているけれども、マッピングは本書では「分類」とは区別される。分類は、（例えば、軸及びラベルの属性による）ドメイン定義の概念的フレームワークの細目とデータ・エンティティとの間の関係の割り当てである。本書では、一対多数のマッピングについて及び一対多数の分類について言及し、マッピングは、ドメイン定義の構造システムに基づいて分類に到達するためのプロセスである。

その結果のプロセスは、データ・マイニング、分類法(taxonomy)、マークアップ言語、及び単純な検索エンジンのような、ある既存の手法から区別することができるが、これらの幾分かはここで具現化されるサブプロセスのために使用することができる。例えば、典型的なデータ・マイニングは、ドメイン定義によって設定された構造に基づくのではなく、データ・エンティティの観点からデータ内の関係又はパターンを識別する。データ・マイニングは、一般に、エンティティの一対多数のマッピング又は分類を提供しない。分類法は、この分類法を定義するカテゴリの分解によってエンティティの独自の分類を行わせる。マークアップ言語は、エンティティを構造化するために潜在的に有用であるが、一対多数のマッピング又は分類には適していず、一般に言語のタグ又は他の特徴に基づいてエンティティ内に「構造」を提供する。同様に、単純な検索手法は、典型的には、ある検索判定基準を満たすエンティティのリストを作成するだけであって、本書で提供されるようなエンティティのマッピング又は分類を提供しない。

処理システム１４はまた、データ・エンティティの分析、構造化、マッピング及び分類のために規則及びアルゴリズム３８を利用する。後でより詳しく述べるように、規則及びアルゴリズム３８は、典型的には、特定の種類のデータ・エンティティに適応させ、実際にデータ・エンティティの特定の目的（例えば、分析及び分類）に適応させる。例えば、規則及びアルゴリズムは、テキスト文書内のテキスト又はデータ・エンティティのテキスト部分についての分析に関するものとすることができる。アルゴリズムは、画像エンティティ又は、エンティティの画像部分などについての画像分析のために設けることができる。規則及びアルゴリズムは処理システム１４内に記憶させることができ、或いは処理システムによって必要なときにアクセスするようにしてもよい。例えば、アルゴリズムの内のあるものは、診断用画像ファイルのような様々な種類のデータ・エンティティに極めて特有なものとすることができる。アルゴリズムの中には、画像内の関心のある特徴の分析及び識別のための巧妙なアルゴリズムが有り、これらはデータ・エンティティの分析のために必要なときに利用することができる。

データ処理システム１４はまた、検索の結果、分析の結果、ユーザの好み、並びに分析、構造化、マッピング及び分類の目的を実行するために必要とされることのある任意の他の恒久的又は一時的なデータを記憶するための１つ又は複数の記憶装置４０に結合される。具体的に述べると、記憶装置４０は、一連の識別されたデータ・エンティティについて分析、構造化、マッピング及び分類が完了した後、ＩＫＢ３４を保存するために使用することができる。この場合もまた、追加のデータ・エンティティを時間につれてＩＫＢに付加することができ、また、ＩＫＢ内のデータ・エンティティの分析及び分類を改良修正し、更にドメイン定義、並びに分析及び分類のために適用された規則などの変更に基づいて変更することさえもできる。

ドメイン定義、規則及びアルゴリズム、並びにエンティティ自体と相互作用するために一連の編集可能なインターフェースを想定することができる。単なる一例として、図１に例示されているようなインターフェース１８が現在考えられる。これらには、ドメインの軸、ラベル及び属性を設定するためのドメイン定義インターフェース４２を含むことができる。また、使用すべき特定の規則を定義し、又は外部の規則及びアルゴリズムへのリンクを定める規則定義インターフェース４４を設けることができる。また、ユーザが一般的な供給源又はＩＫＢのいずれかからのデータ・エンティティを検索し、分析し、分類することを可能にするための検索定義インターフェース４６が設けられ、また更に、１つ以上のデータ・エンティティの分析の結果を図示するための様々な結果観察インターフェース４８も考えられる。これらのインターフェースは、典型的には、処理システム１４に連結されるワークステーション５０によってユーザに対して作用する。実際には、処理システム１４はワークステーション５０の一部であってよく、或いはワークステーションから完全に離れていて、適当なネットワークによって連結されるものであってよい。多数の異なるビューがインターフェースの一部として作用することができ、それらには図１に列挙したビュー、すなわち、スタンプ・ビュー、フォーム・ビュー、テーブル・ビュー、強調表示ビュー、基本的空間ディスプレイ（ＳＰＬＡＹ）、オウバーレイ付きＳＰＬＡＹ、ユーザ定義スキーマ、又は任意の他のビューが含まれる。ここで、これらが分析及び分類の単なる模範的な検閲(review)であり、多数の他のビュー又はこれらビューの変形も想定することができることに留意されたい。

前に述べたように、本発明手法は、ドメイン定義によって表される概念的フレームワークのユーザ定義及び改良修正を規定する。図２は、ドメインの概念的フレームワークを定義する際の様々な段階を例示する。大まかに参照数字５２で示した全体の論理は、第１の段階５４におけるドメインの一般的な明細指定、それに続く第２の段階５６におけるドメイン定義の改良修正を含む。ドメインの明細指定５４は、ドメイン軸５８の定義及び各軸内のラベル６０の定義のような一連の段階を含むことができる。前に述べたように、軸は、一般に、ユーザが定めた任意の適当な態様で分解されたドメインの概念的な一部分を表す。次いで、ラベルは、個々の軸の概念的分解を表す。ラベルは、また実際に軸は、概念的下位分類レベルと見なすことができる。後でより詳しく説明するように、これらのレベルのあるものは冗長であることがあり、或いは、より低いレベルがまたより高いレベルと共に冗長であって、ドメイン内で「概念的ズーム作用」を可能にすることができる。すなわち、ラベルはまた、ドメインの軸としてリストに記載して、データ・エンティティの特定の分類のためのベースの分析及び可視化を可能にすることができる。

ドメインの明細指定に続いて、ドメインは段階５６で更に改良修正することができる。このような改良修正は、各軸の個々のラベルの属性のリスト作成を含むことができる。一般に、これらの属性は、データ・エンティティの中に見付けることができ且つそれらの識別、分析、構造化、マッピング又は分類を容易にするようなデータ・エンティティの任意の特徴であってよい。図２に示されているように、文書の場合、このようなエンティティは、ワード、ワード及び用語についての変化、同義語、関連語、概念などを含むことができる。これらは、後でより詳しく説明するように、各ラベルについて簡単にリストに記載することができる。リストに記載された属性に基づいて、段階６４で示すように、関連付けリストを作成することができる。この関連付けリストは、各々のラベル及び軸と関連付けるべき一群の属性を効果的に表す。

ドメインの定義に続いて、特定のデータ・エンティティの検索、分析、構造化、マッピング及び分類のために適用すべき規則及びアルゴリズムを、段階６６で、識別して定義する。これらの規則及びアルゴリズムは、ドメインと共にユーザによって定義することができる。このような規則及びアルゴリズムは、ワード及びフレーズを識別するかどうか及びどのように識別するか（例えば、完全なワード又はフレーズを検索するかどうか、近似判定基準など）のように単純なものとすることができる。他の状況では、遙かに複雑なアルゴリズムを用いることができる。例えば、テキスト文書の分析の場合でも、複雑なテキスト分析、インデックス付け、分類、タグ付け、及び他のこのようなアルゴリズムを用いることができる。画像データ・エンティティの場合、アルゴリズムは、画像内の関心のある特定の領域又は特徴のついての識別、セグメント化、分類、比較などを行えるアルゴリズムを含むことができる。医学的診断の分野では、例えば、このようなアルゴリズムは、病状のコンピュータ支援診断、又は画像データのより複雑な分析を可能にすることができる。更に、規則及びアルゴリズムは、画像データ、オーディオ・データなどを含む、テキスト及び他のデータの別個の分析を可能にすることができる。また更に、規則及びアルゴリズムはテキスト及び他のデータの分析の組合せを規定することができる。

後でより詳しく説明するように、本発明手法は、データ・エンティティに含まれるテキスト、画像及び他の種類のデータについてのアルゴリズムの組合せに基づいて、分析可能であるデータの種類及びデータ・エンティティの分類を前例のないほどに自由に且つ広範囲にする。段階６８で、オプションとして、このような規則及びアルゴリズムへのリンクを設けることができる。このようなリンクは、例えば、特定のデータ・エンティティを突き止めるべきであるが、それらの分析及び分類のために複雑な、進化している、又は全く新しいアルゴリズムが利用可能である場合、有用なことがある。適切な場合には、このようなリンクを多数設けることにより、ユーザ入力の検索判定基準に基づいて、一旦識別された個々のデータ・エンティティの分類を容易にすることができる。

段階７０で、データ・エンティティにアクセスする。この場合もまた、データ・エンティティは、一般的な供給源及び既知の又は予め定められた知識ベースなどを含む任意の適当な場所において見付けることができる。図２に例示した処理ではデータ・エンティティが既に存在していると仮定しているが、本発明手法は、データ・エンティティ自体の取得又は生成まで拡張することができる。段階７２で、オプションとして、データ・エンティティに対してインデックスを付けて保存することができる。当業者に理解されるように、このようなインデックス付けは、データ・エンティティのその後の処理を非常に高速にすることができる。このようなインデックス付けは、データ・エンティティにアクセスすべき状況に、且つ当初のエンティティが構造化されていない又は半構造化されている場合か、或いは生のデータ（例えば、生のテキスト）さえも含んでいる場合に、特に適している。このようなインデックス付けが遂行された場合、インデックス付きエンティティは、典型的には、その後のアクセス、分析、マッピング及び分類のために、段階７２で保存される。また、前に述べたように、構造化され又は部分的に構造化されているエンティティ及びエンティティの一部分についてさえ、ドメイン定義はこのような構造を利用することができ（例えば、エンティティ内の既存の構造がドメイン定義の構造システムに対応している場合）、或いはデータを再構造化し又は更に構造化し、又はエンティティの既存のデータ構造を無視することさえもできる。

図２の段階７４で、ドメイン定義と関連した規則及びアルゴリズムとが、アクセスされたデータ・エンティティに適用される。ドメイン定義と規則及びアルゴリズムとに基づいて、特定のデータ・エンティティが識別され、分析され、構造化され、マッピングされ、分析される。ここで、後でより詳しく説明するように、段階７４で遂行される特定の検索はユーザによって指定し又は作成することができることに留意されたい。すなわち、一般的な供給源及びＩＫＢ内の供給源の両方についての特定の検索のためのインターフェースは、適切な検索インターフェースを介してユーザによって定義することができる。現在の具現例では、検索インターフェースは、検索を遂行するためにユーザによって選択することのできる同様な軸及びラベルを含む結果のドメイン定義インターフェースと本質的に同じであってよい。段階７６で、ドメイン定義及び規則の適用の結果が保存される。段階７８で、分析及び分類を、実際にはデータ・エンティティ自体を提示するインターフェース・ページが提示される。このような提示に基づいて、ドメイン定義及び属性、並びにドメイン定義に基づいて適用される規則及びアルゴリズムは、図２に示された先行する処理段階に戻る矢印で示されるように変更することができる。

データ・エンティティにアクセスし処理する特定の段階を図３に図式的に表す。図３において、エンティティ処理論理（全体的に参照数字８０で表す）が、ドメイン定義（又はユーザによって定められた検索判定基準）と該定義に関連した規則及びアルゴリズムとに基づいたデータ・エンティティの分類８２から始まる。この分類の結果、参照数字８４で示すように、一対多数のマッピング及び分類を生じる。当業者に理解されるように、このようなマッピングは、典型的には、従来の検索エンジン及びデータ・マイニング・ツールによって遂行されていない。すなわち、多数の異なる軸、ラベル、及びこれらの実際に様々なレベルが、関連した属性、規則及びアルゴリズムと共にドメイン定義に含まれているので、各データ・エンティティは２つ以上の軸及びラベルへマッピングし、且つそれらの中で分類することができる。従って、任意の１つのデータ・エンティティは、ドメイン定義の概念的フレームワークの多数の異なる概念的細目にマッピングすることができる。この一対多数のマッピング及び分類は、データ・エンティティについてのその後の分析、比較及び考察のための強力なベースを提供する。

マッピング及び分類に続いて、図３にブロック８６で示されるように、データ・エンティティの分析を遂行することができる。この場合もまた、このような分析はユーザ定義又は軸規則及びアルゴリズムに基づくと共に、統計的分析手法に基づいている。例えば、文書を検索し分類する場合、文書間の対応性、オーバーラップ及び区別を分析することができる。更に、文書の計数及び関連性のような簡単な分析は、多数の判定基準及び分類段階で行われる多数対一(many-to-one) のマッピングに基づいて決定することができる。次いで、ブロック８８に示されているように、分析結果とビューが出力される。このようなビューは、本発明手法を具現化するソフトウエア・パッケージの一部であってよく、或いはユーザにより定義されたものであってよい。

段階９０で、分析結果とビューがユーザによって検閲される。検閲は、任意の適当な形式を取ることができ、また検索などの後に直ちに、或いはその後の任意の時点に行うことができる。この場合もまた、検閲は、ブロック９２に示されているように、個々の分析ビューについて遂行することができる。ブロック９４に示されているように、検閲に基づいて、ユーザは概念的フレームワークの任意の部分を改良修正することができる。このような改良修正には、ドメイン定義又はドメイン定義の任意の部分の変更、適用される規則またはアルゴリズムの変更、遂行する分析の種類又は性質の変更などを含むことができる。従って、本発明手法は、データ・エンティティを識別し、分析し、分類するための非常に融通性のある相互作用型（又は対話型）のツールを提供する。

前に述べたように、ドメイン定義の概念的フレームワーク内で、軸及びラベルを細分し且つ定義するために多数の戦略を想定することができる。図４は、データ・エンティティの一対多数のマッピング及び分類を開発するための模範的なマッピング・プロセスを例示する。本目的のために、全体的に参照数字９６で表したマッピングは、模範的なドメイン定義９８に基づいて遂行される。ドメイン定義は一連の軸２２及びそれらの関連したラベル２４を含む。図４はまた、ドメイン定義自体により「概念的ズーム」を提供することのできる方法の一例をを示す。この図示例では、第１の軸Ｉの属性２６及びその軸内のラベルＩＡの属性が、その後の軸Ａのラベル・レベル１００に設けられる。すなわち、軸Ａは軸ＩのラベルＩＡと同一である。ラベルＩＡの属性が軸Ａのラベルと同じであるので、後で説明するように、検索の際にユーザによって選択された場合、作成された検索結果は、ラベルＩＡの判定基準に対応した特定のデータ・エンティティを表すだけでなく、軸Ａのラベルを参照することによってエンティティが選択され、マッピングされ、分類された理由のためにより高い分解能又は粒度を提供する。

図４に参照数字１０２で示されるように、特定のデータ・エンティティは一連の属性を含んでいると仮定される。テキスト・エンティティの場合、これらの属性はワード又はフレーズであってよい。すなわち、ドメイン定義の属性によって定められた特定のワード又はフレーズはデータ・エンティティ内で見付けられる。次いで、参照数字９６で表されたマッピングは、エンティティ内で見付けられた属性に対応する個々の軸、ラベル及びラベル属性に従ってデータ・エンティティを分類すべきであることを指示する。この場合、軸レベル１０４において、エンティティは軸Ｉ、ＩＩ及びＡに従って分類される。更に、ラベル・レベルにおいて、エンティティはラベルＩＡ、ＩＩＢ、ＩＩＣ、ＡＡａ及びＡＡｃにおいて分類される。また更に、追加の軸Ａによって提供される概念的ズームにより、「属性」レベルで、エンティティは属性ＩＡａ及びＩＡｃに関連付けられる。現在の具現例では、後で説明するように、属性は作成された検索結果において直接表示されることはない。しかしながら、ラベルＩＡの属性を軸Ａのラベル・レベル１００に配置することによって、この追加の分類が遂行される。

図４に例示されたマッピングは、上述した本発明手法の分類段階で遂行される。ここで、この分類はユーザにより選択することができることに留意されたい。すなわち、後で説明するように、定義が設定された後、全ての軸、ラベル及び属性に従って、識別された全てのエンティティを構造化し、マッピングし、分類することができる。しかしながら、適切な場合には、ユーザは所望の分類のために軸及びラベルの内の幾つかのみを選択することができる。しかしながら、一旦分類が遂行されると、ドメイン定義の概念的フレームワークを作り上げる軸、ラベル及び属性の幾分か又は全てに対応する特定のデータ・エンティティを識別するように検索を行うことができる。この理由のため、データ・エンティティの識別、構造化、マッピング及び分類のために全ての軸、レベル及び属性を用いること、並びにその後の検索においてこれらのサブセットのユーザ選択を可能にすることが、有利であることがある。更に、インデックス付け又は他のデータ処理手法が用いられる場合、全ての軸及びラベル、並びに関連した属性の使用により、これらの全てのをカバーするインデックス付けが可能になり、これによってその後の検索及び分析が非常に容易になる。

前に述べたように、ドメイン定義によって表される概念的フレームワークは広範囲のレベル、並びにこれらのレベルの任意の概念的細目を含むことができる。図５は模範的なドメイン１１０を表し、この場合、これを「スーパードメイン」と呼ぶ。用語「スーパードメイン」は、本書では、ドメイン自体が細分され得ることを示すために用いられる。すなわち、分類における概念的分解において多数の異なるレベルを設けることができる。例示した実施形態では、スーパードメイン内に、ドメイン１１２、１１４、１１６及び１１８を含む４つのドメインが識別される。これらのドメインは互いにオーバーラップすることがある。すなわち、ドメイン内の特定のラベル又は属性が他のドメイン内に見付けられことがある。しかしながら、場合によっては、ドメイン間に何らオーバーラップがないことがある。図５に示されているように、これらのドメイン自体はスーパードメインの軸と見なすことができる。別の概念レベルでは、各ドメインは、ドメイン１１２についてのサブドメイン１２０で示すように、サブドメインに細分することができる。すなわち、各ドメインは概念的に、そのドメイン内でデータ・エンティティを明確に分類するように細分することができる。最終的には、個々の軸が定義され、各軸について複数のラベルが定義され、各ラベルについて複数の属性が定義される。

ドメインによって定義された概念的フレームワークに対するこの多レベル方式を、図６に更に例示する。図６は、実際に、６つの別々のレベルの分類及び分析を例示する。第１のレベルＬ１では、スーパードメインが定義される。このスーパードメイン１１０は、典型的には、データ・エンティティが見付けられるフィールド自体である。当業者に理解されるように、フィールドは、実際には、ユーザによって定義される一レベルの抽象概念である。スーパードメイン内には、図６にレベルＬ２に示されているように、一連のドメイン１１２〜１１８を見付けることができる。また更に、レベルＬ３〜Ｌ６で表されているように、各ドメイン内にはサブドメインのレベルが識別され、その次に一連の軸が続き、各軸は個別のラベルを持ち、最終的には各ラベルの属性を持つ。このように、ドメインの定義のために任意の数の概念レベルを定めることができる。次いで、データ・エンティティの最終的な属性に基づいて、対応するレベル及びサブレベルへのマッピング及びそれらにおける分類が達成される。

前に述べたように、本発明手法はドメイン及びその概念的フレームワークのユーザ定義を規定する。図７は、ドメインを定義するための模範的なコンピュータ・インターフェースのページを例示する。ほんの一例として、この例示した実施形態では、ドメインは、ドメイン・レベル、軸レベル、ラベル・レベル及び関連した属性のみを含む。参照数字２２で示したドメイン定義テンプレートは、書誌的データ欄１２４、主観的データ欄１２６及び分類データ欄１２８を含むことができ、分類データ欄１２８には軸及びラベルが一覧表示されている。

設けられている場合には、書誌的データ欄１２４は、データ・エンティティの特定の識別特徴を対応するフィールドに与えることができるようにする。例えば、エンティティ・フィールド１３０をデータ・エンティティ識別フィールド１３２と共に設けることができ、これらは協力してデータ・エンティティを一意的に識別する。また、データ・エンティティを更に識別するために表題フィールド１３４を設けることができる。ユーザにより定義することのできる別のフィールド１３６を設けることができる。また。ブロック１３８及び１４０に示されているように、データ・エンティティの供給源又は起源を表すデータも提供することができる。ステータス・フィールド１４２のような更なる情報も希望により提供することができる。最後に、文書の要約などのような情報を受け取ること等のために、全般的摘要フィールド１４４を設けることができる。検索、分析、マッピング及び分類すべきデータ・エンティティを取り出すデータベースを選択すること等のために、選択１４６又はフィールド識別子を設けることができる。当業者に理解されるように、書誌的データ欄１２４のこれらの模範的なフィールドは例としてのみ示したものである。この情報の幾分か又は全ては構造化されたデータ・エンティティから得ることができ、或いはフィールドはユーザによって記入することができる。更に、一部のフィールドは、データ・エンティティ自体又はエンティティの一部分の処理及び分析のときのみ記入することができる。例えば、このような書誌的情報は、特許文書の第１ページ、本及び論文の書誌的リストなどのような文書の特定の欄に見いだすことができる。他の書誌的データは、例えば、画像ファイルのヘッダ、オーディオ・ファイルに関連したテキスト部分、テキスト、画像及びオーディオ・ファイル中に含まれる注釈などに見いだすことができる。

主観的データ欄１２６は、典型的には１人以上のユーザによって入力される一連の主観的データのいずれかを含むことができる。図示例では、主観的データは、エンティティ識別又は指定フィールド１４８、及び検閲者を識別するフィールド１５０を含む。主観的格付けフィールド１５２も設けることができる。図示の実施形態では、検閲者、専門家又は他の有資格者によって判断されたようなデータ・エンティティについての何らかの品質を識別するための別のフィールド１５４を設けることができる。品質は、例えば、ユーザ入力の妥当性又は他の的確性表示を含むことができる。最後に、検閲者のコメント受け取るためのコメント・フィールド１５６を含めることができる。ここで、主観的データ欄１２６の中のフィールドの幾分か又は全てを、人であるユーザ及び専門家によって記入することができるが、これらのフィールドの幾分か又は全ては、コンピュータ・アルゴリズムを含む自動的な手法によって記入することができることに留意されたい。

分類データ欄１２８は、例示の実施形態では、様々な軸及びラベルについての入力、並びに検索を開始し且つタスクを遂行するための仮想インターフェース・ツール（例えば、ボタン）を含む。例示の実施形態では、これらは、定義に従ってデータ・エンティティを検索し、分析し、構造化し、マッピングし、分類するためにドメイン定義を提起するための仮想ボタン１５８を含む。様々な結果及び追加のインターフェース・ページを表示するためのビューの選択が、ボタン１６０によって表すように行うことができる。図７における具現例では、ユーザがドメイン定義を作り上げる軸の内の１つ又は全てを選択することを可能にする一連の選択可能なブロック１６２が設けられる。同様に、ユーザ選択可能なブロック１６４が各ラベルについて設けられる、明瞭にするために図７に示されていないが、全ての軸が多数の異なるラベルを含むことができ、典型的には、含んでいる。ドメイン定義には任意の数の軸を設けることができ、また各軸について任意の数のラベルを設けることができる。最後に、個々の軸又はラベルの意味又は範囲を容易に思い出させるため、又は個々のラベルの属性を示すために、（例えば、マウス又は他のインターフェース装置の選択によって）ユーザによって自動的に観察し又は観察可能にすることのできる一連の識別子又はティップ(tip)ボックス１６６を設けることができる。

軸及びラベルを識別し且つ指定するために一連の追加のインターフェースを設けることができる。例えば、図８は、軸、ラベル及び各ラベルについてのティップ・テキストを定義するための模範的なインターフェース１６８を表す。このインターフェースでは、ユーザがフィールド１７０に軸名を入力し、フィールド１７２にその軸についての一連のラベル名を入力することができる。インターフェース１６８は更に、参照数字１７４で示されるように、ユーザがティップ・テキストを入力することを可能にする。ティップ・テキストは、各ラベルの意味又はそれらのラベルの範囲をユーザに思い出させるためにユーザのために使用し又は表示することができる。勿論、同様なティップ・テキストを各軸について設けることができる。

同様に、インターフェース・ページは、ユーザが各ラベルの特定の属性を定義することを可能にする。図９は、この目的のための模範的なインターフェース・ページを例示する。ページは、ユーザのために、個々の軸、及びそれについての属性を指定すべき該軸のラベルを表示する。図示例では、属性はテキスト文書の属性であり、ワード及びフレーズが、フィールド１７６におけるように、リストにしてユーザによって定義することができるようになっている。正確なワード又はフレーズのための別のフィールド１７８が設けられている。インターフェースの設計に依存して、ユーザが特定のワード又はフレーズを入力することのできるブロック１８０のような入力ブロック、また、それをワイルドカードのワード又はフレーズにすべきか、或いは正確なワード又はフレーズにすべきかを選択するための選択ブロック１８２のような選択ブロックを設けることができる。特に、相異なる種類のデータ・エンティティ、及び該エンティティにおいて遭遇すると予想される相異なる種類のデータのために、多種多様な他の属性入力インターフェースを想定することができる。最後に、図９に大まかに参照数字１８４で示すように、属性を追加し、属性を削除し、属性を修正すること等のための様々なブロックを、他の仮想ツールと共に設けることができる。

前に述べたように、本発明手法は、様々なデータ・エンティティについて識別し、分析し、構造化し、マッピングし、分類し、更に比較し、他の分析機能を遂行するために用いることができる。更に、これらは、一般的な供給源を含む多種多様な資源から選択することができる。その上、データ・エンティティは、前に述べたように、処理してＩＫＢに保存することができる。図１０は、これらの動作の一部を遂行する際の模範的な論理を表す。

図１０に例示した模範的な論理１８６は、参照数字１８８で示すように、データ・エンティティの選択、分析及び分類のための１つ以上のテンプレートにアクセスすることから始まる。現在の具現例では、データ・エンティティの最初の選択及び分類のために、ドメイン定義の全ての軸、ラベル及び属性がこの段階で用いられる。しかしながら、参照数字１９０で示すように、必要に応じて、ユーザは、テンプレートから軸及びラベルと共に、データ・エンティティの識別及び分類のためのターゲット・データベース又は資源を選択することができる。本例では、段階１９０に示されている資産はデータ・エンティティであり、また資産ターゲットは、エンティティが見いだされている又は突き止められると信じられている１つ又は複数の場所である。資産ターゲットは、例えば、既知のデータベース、公開データベース及びライブラリー、加入契約制のデータベース及びライブラリーなどを含む。一例として、知的財産権について検索するとき、このような資産ターゲットは特許庁のデータベースを含むことができる。別の例として、医学的診断用画像について検索するとき、資産ターゲットは、画像保管通信システム（ＰＡＣＳ）又はその他の保存施設のような画像保存施設を含むことができる。この場合もまた、この目的のために任意の適当な資源を用いることができる。

段階１９０で選択された軸及びラベルに基づいて、段階１９２で、選択された属性にアクセスすることができる。これらの属性は一般に、ユーザ及びドメイン定義によって定められたような、選択された軸及びラベルに対応する。この場合もまた、ＩＫＢに含めるためのような、データ・エンティティの初期分類のために、全ての軸及びラベル並びにそれらの関連属性を使用することができる。しかしながら、その後の検索において、また必要なら、初期検索において、軸及び／又はラベルのサブセットが検索判定基準として使用される場合、選択された属性のみを用いることができる。段階１９４で、選択された規則及びアルゴリズムにアクセスする。この場合もまた、これらの規則及びアルゴリズムは、例えば、検索テンプレートを介してユーザによって選択された検索判定基準に依存して、全ての分析及び分類について、又はサブセットについてのみ作用することができる。最後に、段階１９６で、資産ターゲット・フィールド、データ・エンティティ自体、データ・エンティティの一部分、或いはインデックス付きエンティティにもアクセスする。このアクセスは、典型的には、広域ネットワークのようなネットワークを介して、特にインターネットを介して行われる。一例として、段階１９６で、エンティティからの生のデータにアクセスすることができ、或いは、エンティティの特定の部分のみに（このような配分が（例えば、エンティティに存在する構造化から）可能である場合）アクセスすることができる。従って、特許のような知的財産権の文書については、アクセスを特定の細目、例えば、第１ページ、要約、特許請求の範囲などに制限することができる。同様に、画像ファイルについては、アクセスを書誌的情報のみ、画像内容のみ、又はこれらの組合せに対して行うことができる。

後でアクセス、再分類、分析などを行うために、データ・エンティティをＩＫＢにおいて分類すべきである場合、図１０に破線で囲まれている一連の下位段階を遂行することができる。一般に、これらの下位段階には、参照数字１９８で示されるようなデータの変換のためなどの段階を含むことができる。当業者に理解されるように、本ツールは広範囲のデータ、フォーマット、内容、及び未知であることのある構造について具現化することができるので、データの変換は段階１９８で適切であろう。このような変換には、再フォーマット設定、区分化、領域確保、及び分析及び分類のための所望のフォーマットへのデータのその他の操作を含むことができる。希望される場合、段階２００で、エンティティにインデックスを付けることができる。このようなインデックス付けは、当業者に理解されるように、一般にデータ・エンティティを一連の区分又は部分に細分し、そして後で分析するために各部分にタグ又はインデックスを付けることを含む。このようなインデックス付けは、希望される場合、エンティティの各部分のみについて遂行することができる。インデックス付けは、遂行されたとき、段階２０２で記憶して、将来の検索のためにインデックス付きデータ・エンティティのアクセス及び評価をより一層高速にできるようにする。

希望される場合、特定のデータ・エンティティ、特にテキスト文書の分類を容易にし速度を高めるために「候補リスト」を用いることができる。このような候補リストを用いる場合、典型的には、図１０に段階２０４で示されるように事前に候補リストを作成しておく。候補リストは一般に、軸及びラベルと共に、ターゲットとされたデータ・エンティティ内の特に関心のある関連した属性を含むことができる。候補リストは、或る特定のワード又はフレーズの存在のような簡単な判定基準がエンティティ内に見付けられたとき、ＩＫＢ内に含めるためにデータ・エンティティを素早く選択するために使用することができる。このような候補リストが用いられる場合、段階２０６において、予め定められたリストが、アクセスされたデータ・エンティティに適用される。更なるフィルタリング及び検査を、データ・エンティティの性質及び具現化できる有用なフィルタリングに依存して、様々なやり方で行うことができる。例えば、図１０に例示された段階２０８で、プロセスは、冗長性の検査、及び特定の文書及び他のデータ・エンティティのフィルタリングを要求することができる。例えば、ＩＫＢが既に設定されている場合、段階２０８は、特定のレコード又はデータ・エンティティが既にＩＫＢに含まれているかどうかについての検証、及びＩＫＢ内の冗長なレコードを排除するためのこのようなデータ・エンティティの除去を含むことができる。同様に、レコードが本質的に同じ内在する情報を表していると判明した場合、これらは段階２０８でフィルタリングすることができる。例えば、知的財産権の例では、特定の特許出願が特許として刊行されたことを見付けることができ、そして、希望される場合、段階２０８で、出願情報とは対照的に特許情報を保持し且つ以前の情報を拒絶することができる。多種多様の検査及び検証を具現化することができる。

段階２１０で、データ・エンティティをマッピングし分類する。この場合もまた、マッピング及び分類は一般に、軸、ラベル及び属性によってドメイン定義に従う。前に述べたように、段階２１０で遂行される分類は、一対多数の分類であり、この場合、任意の単一のデータ・エンティティを２つ以上の対応する軸及びラベルに分類することができる。段階２１０は、主観的情報、注釈などを追加することのような、他の機能を含むことができる。勿論、この種の注釈及び主観的検閲又は他の主観的入力の追加は、後の段階で遂行することができる。段階２１０で、データ・エンティティは、インデックス付け、分類などと共に、ＩＫＢに保存される。ここで、本例で用語「ＩＫＢ」を用いているが、この知識ベースは実際には様々な形態を取り得ることを理解されたい。ＩＫＢの特定の形態を、ＩＫＢが定められる特定のソフトウエア又はプラットフォームの説明の後に示す。本発明手法はＩＫＢについてのいかなる特定のソフトウエア又は形態に制限されるものではない。

ＩＫＢは一般に分類情報を含んでいるが、データ・エンティティ自体の全て又は一部、或いは処理後の（例えば、インデックスを付けた、又は構造化した）エンティティ又はエンティティ部分を含むことができることに留意されたい。分類は任意の適当な形態を取ることができ、ドメイン定義の構造システムと対応するデータ・エンティティ又はエンティティの一部分との表形式の関連付けのような簡単なものであってよい。

ＩＫＢの設定後、又はデータ・エンティティの分類後、一般に、段階２１４で示されているように、様々な検索を遂行することができる。図１０において段階１９４から段階２１４へ進む矢印は、段階２１４で遂行される検索が、ＩＫＢに記憶されているデータ・エンティティか又はＩＫＢに記憶されていないデータ・エンティティのいずれかについて遂行できることを示している。すなわち、検索は、外部のデータベース、構造化されたデータ、構造化されていないデータなどを含むデータ・エンティティの一般的な供給源について遂行することができる。しかしながら、ＩＫＢが既に設定されている場合には、ブロック１９６で遂行されるアクセス段階が、ＩＫＢに直接アクセスするように進んで、段階２１４でＩＫＢのレコードを検索する。次いで、段階２１６で、段階２１４に規定された検索、並びに関連した規則及びアルゴリズムに基づいて、検索結果が提示される。この場合もまた、これらの検索結果は、個々のデータ・エンティティの分析を含めて、広範囲の形態で提示することができ、或いは、検索結果はデータ・エンティティ自体を、それらの当初の形態で、又は幾分か強調した、さもなければ他の操作を施した形態で含むことができる。

検索結果の幾分か又は全て、データ・エンティティの選択、データ・エンティティの分類、或いはドメイン定義の任意の他の特徴又はその機能に基づいて、ドメイン定義、規則、又は概念的フレームワークの他の面及びそれを分析するために使用されるツールを、図１０に参照数字９４で示すように、修正することができる。すなわち、例えば、検索結果が過剰包含的(over inclusive)又は不足包含的(under inclusive) であると判った分析とき、ドメイン定義を変更することができ、またデータ・エンティティの選択、データ・エンティティの分類、又はエンティティの分析のために使用される規則も変更することができる。同様に、分析によりデータ・エンティティの間に過度の区別又は不充分な区別を行ったと判った場合、これらを段階９４で変更することができる。更に、或る分野での開発等により、新しい概念的区別が認識され、又は新しい属性が認識されたとき、これらの結果として、適用されるドメイン定義、規則及びアルゴリズムなどを変更することができる。また更に、データ・エンティティの分類のための新しい規則及びアルゴリズムが開発され又は利用可能になったとき、これらの結果として、段階９４で変更を行うことができる。このような変更に基づいて、プロセス全体を作り直すことができる。すなわち、追加の検索を遂行することができ、追加のデータ・エンティティをＩＫＢに付け加えることができ、新しいＩＫＢを作成することができ、等々である。実際に、このような変更の結果、ＩＫＢ内に既に存在するデータ・エンティティを簡単に再分類することができる。

図１１は、ＩＫＢを作成するために特定のテキスト・データ・エンティティに適用したときの、図１０に記載したプロセスを図式的に表す。図１１に大まかに参照数字２１８で示したＩＫＢ作成プロセスは、ドメインを定義するために使用されたテンプレートと大体類似しているか又は同じであってよいテンプレート２２０から始まる。前に述べたように、全ての軸、ラベル及びラベルの属性を含むようにＩＫＢを作成するために最初に検索を行うことが好ましいことがある。しかしながら、希望される場合、テンプレートは、図１１のテンプレート２２０の中の拡大したチェック・ボックス２２４によって示されているように、ユーザが特定の軸又はラベルを選択できるようにすることができる。幾つかの又は全ての軸及びラベル選択に基づいて、関連付けリスト２２６を用いることができる。関連付けリスト２２６は、図示例では、ユーザ定義の特定の属性及び或る特定の選択判定基準と共に、特定のラベルの個々の属性の識別を含むことができる。図１１の例では、例えば、一例として、特定の属性はウェブ・ページ又は類似の技術分野に関係するワードである。図示例における選択判定基準には、データ・エンティティの識別に完全なワード又は不完全なワードを使用すべきであるかどうか、参照数字２３４で示されるように、近似格付けを使用すべきであるかどうか、参照数字２３６で示されるように、任意の特定の閾値を使用すべきであるかどうかが含まれる。当業者には明らかなように、テキスト検索及び分類のフィールド内でも、多数のこのような選択判定基準用いることができる。本発明手法は、このような選択判定基準のどれにも制限されるものではない。更にまた、選択判定基準が属性の品質の形態で用いることができること、又はこのような判定基準が選択及び分類プロセスに適用されるべき規則として具現化することもできることを認識されたい。

ドメイン定義、又はユーザによって選択されたようなドメイン定義の一部分に基づいて、且つ使用される場合の候補リストような入力に基づいて、図１１に参照数字２３８で示されるように、規則がデータ・エンティティの選択及び分類のために適用される。図示の簡単な例では、規則識別子２４０が様々な規則２４２と関連付けられる。更に、図示例において、関連性判定基準２４４を規則の各々について具現化することができる。前に述べたように、データ・エンティティの選択及び分類のために任意の所望の規則を使用することができることに留意されたい。テキスト文書の場合、これらの規則は極めて簡単なことがある。しかしながら、より複雑な文書の場合、或いは、テキスト及び画像か又はテキスト及び他の形態のデータを分類の目的で分析すべき場合、これらの規則は、テキストの選択及び分析のための判定基準と、画像のような他のデータ部分の選択及び分析のための判定基準とを組み合わせることができる。また前に述べたように、規則は選択及び分類プロセスを具現化するコードに含めるか、又は該コードにリンクさせることができる。例えば、画像分析及び分類のために複雑なアルゴリズムが用いられる場合、このようなアルゴリズムは膨大になり過ぎることがあり、或いは該アルゴリズムへのリンクを最も効率よくし且つ制約するように慎重に使用することができる。

ドメイン定義、任意の候補リスト、任意の規則などに基づいて、多種多様な可能性のあるデータ・エンティティ２４６を含んでいる一般的な資源３２にアクセスすることができる。次いで、ドメイン定義、その属性及び規則は、参照数字２４８で示すような、ＩＫＢに含むためのこれらのエンティティのサブセットを選択することを可能にする。現在の具現例では、これらのエンティティがＩＫＢに含むために選択されるだけでなく、インデックス付け（行われた場合）、分析、タグ付けなどのような追加のデータが該エンティティに付随して、それらの更なる分析、表現、選択、検索などを可能にし且つ容易にする。

選択され分類されたデータ・エンティティについて遂行される分析は、ユーザの関心に依存して、且つデータ・エンティティの性質に依存して、広範に変えることができる。更に、分類の前でも、分類中でも、及び最初の分類後でも、追加の分析及び分類を遂行することができる。図１２は、データ・エンティティ内の関心のある特徴のコンピュータ支援処理、分析及び分類のための論理を一般的に例示する。この論理は、全体的に参照数字２５０で表してあるが、各エンティティに含まれているデータの取得から始まると云うことができる。前に述べたように、本プロセスは一般に、このような取得が先験的に遂行されると仮定している。しかしながら、ある特定の分析及び分類に基づいて、本発明手法はまた、追加のデータを取得することによって追加のデータ・エンティティを生成することを推奨することができる。段階２５４で、前に述べたようにデータにアクセスする。データのアクセスに続いて、図１２に全体的に参照数字２５６で示しているように、コンピュータ支援による手法を介してのその後の処理が続く。

前に述べたように、本発明手法は、データ・エンティティのコンピュータ支援による検索、分析及び分類における動作の高レベルの統合を提供する。これらの動作は一般に、特に様々な種類のデータ・エンティティを分析し分類するために、コンピュータ支援データ操作アルゴリズムによって遂行される。ある種のこのようなアルゴリズムが開発されていて、病気のコンピュータ支援検出又は診断のため、データのコンピュータ支援処理又は取得のため等のように、様々な分野で比較的限られた用途に使用されている。しかしながら、本発明手法では、新しく突き止めたデータ・エンティティを分析し分類するためのアルゴリズムと、ＩＫＢにおけるような既知のエンティティのその後の分析及び分類のためのアルゴリズムとの間の相互作用によって、進歩したレベルの統合及び相互動作性が与えられる。本手法は、テキスト及び画像、オーディオ・ファイルのような一層複雑な又はマルチメディア・データについてのアルゴリズムの前例のない組合せを使用する。

図１２は、一般に本書においてコンピュータ支援データ操作アルゴリズム又はＣＡＸと呼ぶことのあるこのようなアルゴリズムの相互動作性の概要を示す。本書におけるこのようなＣＡＸアルゴリズムは、現在使用中のアルゴリズムに基づいて構築することができ、或いは、追加のデータ供給源及びエンティティ、又はこのようなデータ供給源及びエンティティの統合に基づいて、或いは特定の種類のデータ・エンティティの検索、分析及び分類のために、修正し又は完全に構築することができる。図１２の概要では、例えば、完全に統合したシステムに含むことのできる広範囲の段階、処理又はモジュールが含まれるものとしてＣＡＸシステム全体を例示している。前に述べたように、このような処理、機能又はモジュールの幾分か又は少数のみが存在するような、より制限された具現例も想定することができる。更に、現在考えられる実施形態では、このようなＣＡＸシステムは、データ・エンティティの分析及び分類のためのアルゴリズムによって管理されたデータによりアルゴリズム自体及びデータ管理の両方の適応又は最適化を可能にするために情報を収集することができるように、ＩＫＢに関連して具現化することができる。アルゴリズムで具現化される規則又はプロセスを含む、個々のＣＡＸアルゴリズムの様々な面は変更することができ、或いは特定の規則を、データ・エンティティ・マイニング、分析及び分類プロセスの際に書き込み及び呼び出すことができる。

多数のこのようなコンピュータ支援データ操作アルゴリズムを想定することができるが、図１２に、データ・エンティティについて特定の機能を実行するためのある種のこのようなアルゴリズムを例示する。これらのプロセスは参照数字２５６で表している。図１２に概略表示されているデータ操作段階をより詳しく考察すると、段階２５８で、アクセスしたデータが、例えば、インデックス付け、冗長性検査、データの再フォーマット設定、データの変換などのために一般的に処理される。当業者に理解されるように、段階２５８で実行される特定の処理は、分析されるデータ・エンティティの種類及び分析の種類又は遂行される機能に依存する。しかしながら、一般的な供給源及びＩＫＢを含む前述の任意の供給源からのデータ・エンティティを処理することができることに留意されたい。段階２６０で、同様に、データ・エンティティの分析が遂行される。この場合もまた、このような分析は、データ・エンティティの性質、エンティティ内のデータ、及び分析を行うアルゴリズムの性質に依存する。このような処理は、例えば、エンティティ内での又は相互間での特定の類似点又は相違点を識別することができる。このようなデータについては、提示のために表作成、計数などを行う。同様に、データ・エンティティについて統計的分析も行って、関連性、類似性の程度、又はエンティティ内又はエンティティ相互間での関心のある任意の他の特徴のような関係を決定することができる。

このような処理及び分析に続いて、段階２６２で、関心のある特徴を一般的な態様でセグメント化し又は境界線で囲むことができる。テキスト・データにおける特徴の認識には、特定の文節及び用語の認識、このような文節及び用語の強調、文書の関連部分の識別などのような単純な動作を含むことができる。画像データにおいて、このような特徴セグメント化には、特徴及び対象物の限界又は輪郭の識別、コントラストの識別、明るさ、又は任意の数の画像に基づく分析を含むことができる。医学的分野では、例えば、セグメント化は特定の解剖学的構造又は病理学的特徴を区切り又は強調することを含むことができる。しかしながら、より一般的には、段階２６２で実行されるセグメント化は、データ間の様々な関係、相関の範囲などを含む任意の種類の特徴の限界を簡単に見分けることを意図している。

このようなセグメント化に続いて、段階２６４に概略表示されているように、データ内で特徴を識別することができる。このような特徴識別は一般に知られている手法に従って、画像データについて行うことができるが、段階２６４で実行される特徴識別は一層広い意味を持つことに留意されたい。すなわち、本発明のシステムに統合できるデータの範囲が広いので、特徴識別は、テキスト、画像、オーディオ・データ、又はこのようなデータの組合せのような、データの関連付けを含むことができる。一般に、特徴識別は、ＣＡＸアルゴリズムによって実行されるプロセスにとって関心のあるようなデータの間の相関についてのどんな種類の認識でもよい。

段階２６６で、このような特徴を分類する。このような分類は、典型的には、セグメント化された特徴の分布を既知の条件での既知の分布と比較することを含む。分類は、一般的に、データ・セットの既知の集団における分布を、検討中のデータ・セット又はエンティティと整合させる属性、パラメータ設定、値などから生じさせることができる。本書では、分布は、ドメイン定義の軸及びラベルについての属性のセット（集合）、又は希望される場合、これらのサブセット、に対応することができる。更に、分類は、一般に、前に述べたように所望の規則及びアルゴリズムに基づくことができる。この場合もまた、アルゴリズムはドメイン定義を同じソフトウエア・コードの一部とすることができ、また、検索、分析及び分類ソフトウエア、又は特定のアルゴリズムは、ソフトウエアにおける適切なリンクによって必要なときに呼び出すことができる。しかしながら、分類はまた、時間、空間、母集団などにわたる特定のデータ・エンティティ又はエンティティについての通しの傾向分析のような、母数によらない分布の一致に基づくものであってよい。

図１２に示されているように、分析及び分類の際に実行されるプロセスは、一般的な資源３２又は参照数字３４で示されるようなＩＫＢに記憶されたデータ・エンティティのいずれかに基づくものであってよい。また図１２に記載されているように、これらのプロセスは、前に述べた種類のテンプレート２２０を介しての入力によって駆動することができる。分析及び分類の結果として、参照数字２０で示すように、一般的に表現(representation)がユーザに示される。

データ・エンティティの検索、識別、分析、分類などのための本発明手法は、決定プロセスを容易にし且つ向上させることを特に意図している。これらの処理は、マーケティング決定、研究開発の決定、技術開発の決定、法的決定、経理及び投資の決定、臨床診断及び処置の決定などのような、広大な範囲の決定を含むことができる。これらの決定及びそれらのプロセスが図１２に参照数字２６８で概略表示されている。前に述べたように、表現２０に基づいて、また更に意志決定プロセスに基づいて、分析及び分類アルゴリズム、データ・エンティティ、ドメイン定義などに対する更なる改良修正が、図１２にオプションのブロック２７０で示すように、望ましいことがある。当業者に理解されるように、このような改良修正は、限定するものではないが、追加のデータの取得、異なる条件下でのデータの取得、特定の追加のデータ分析、データの更なるセグメント化又は異なるセグメント化、特徴の代替の識別、及びデータの代替の分類を含むことができる。

前に述べたように、本発明手法では、ＩＫＢからのようなデータ・エンティティの検索並びに更なる識別及び分類を遂行するために追加のインターフェースが設けられる。図１３は、ＩＫＢに記憶されているようなデータ・エンティティの検索を遂行するための概要を例示する。この概要は、ＩＫＢの形成のためにデータ・エンティティを検索し且つ構造化するための図１１に示したものと同様であることに留意されたい。図１３に全体的に参照数字２７２で示されているワークフローにおいて、軸及びラベルを含むドメイン定義をグラフィック表示している検索フォーム２２０を再び用いる。この場合もまた、属性及び、適切な場合には、関連付けリストを、検索テンプレートと組み合わせて、検索及び分類すべきデータ・エンティティの特徴を定めることができる。関連付けリスト２２６を、自動的な検索及び分類のために使用することができる。次いで、ユーザは特定の軸及びラベルを定めることができ、これらは、完成したテンプレート２２０を介してＩＫＢを構成する構造化されたデータ・エンティティに配置されるべきものである。完成したテンプレート、関連付けリスト２２６、及び全体的に参照数字２３８で示した規則に基づいて、ＩＫＢが検索される。すなわち、選択され分類されたエンティティ２４８が検索されて、（テンプレート、任意の関連付けリスト、及び適用できる規則によって定められたような）検索のために使用される判定基準に対応するデータ・エンティティを識別し、且つ、適切な場合には、再分類する。図１３に例示された実施形態において、検索結果が、検索テンプレートに類似するフォームを介して作成される。しかしながら、本例で「フォーム・ビュー」２７４として示されている表現において、各レコード又はデータ・エンティティについて突き止められた軸及びラベルのみがテンプレートで強調表示される。従って、ユーザは、分類手順において遂行される一対多数のマッピングのためのベースを素早く識別することが可能である。多数のこのようなレコード２７６を作成することができ、その各々は、希望される場合、前に述べたように、書誌的データ、主観的データ、分類データなどを表す。

別の具現例では、検索及び分析段階で突き止められ、且つ構造化されたデータ・エンティティに分類された特定の特徴又は属性について、データ・エンティティを強調表示することができる。図１４は、１つのこのような具現例についての模範的なワークフローを例示する。図１４の、全体的に参照数字２７８で示しているテキスト強調表示の具現例は、候補リスト２８０から候補の特定の特徴を識別することから始めることができる。参照数字２８２で示している候補選択をリストから行い、個々の関心のある特徴を強調表示するために効率のよい検索を実行することができる。図１４に図示した具現例では、例えば、テキスト検索を文書ＩＤフィールド２８４上で遂行し、参照数字２８６で示されるようにワードを強調表示する。従って、ドメイン定義内のラベルの個々の属性に対応することのできるこのワードが、エンティティ・レコード・ビュー２８８に示されているように強調表示される。現在の具現例では、強調表示は、ワードの色、又はワードを囲む背景の色を変えることによって行うことができる。参照数字２９０、２９２及び２９４で示すような異なる強調表示を、異なる用語について、或いは、例えば、単一のラベル又は単一の軸に関連した用語について使用することができる。この場合もまた、データ・エンティティの分類（及び選択）のためのベースは、強調表示を参照することによりユーザには直ぐに明らかになろう。当業者には理解されるように、テキスト文書の比較的簡単な例を示したが、同様な手法を広範囲のデータ・エンティティの種類について用いることができる。例えば、後で説明するように、画像データ、オーディオ・データ、又は他のデータ、及びこれらの種類のデータの組合せを、同様な態様で分析し且つ強調表示することができる。画像データを強調表示する場合、例えば、関心のある特徴を囲むブロック、関心のある特徴を示すポインター、関心のある特徴を示す注釈などのような、グラフィック表示手法を用いることができる。テキスト、画像、及び他の種類のデータを含むデータ・エンティティを分析する場合、これらの強調表示方式の組合せを使用することができる。

分析され分類されたデータ・エンティティを評価するために使用することのできる更に別の表現が図１５〜２２に例示されているような様々な空間ディスプレイを含む。図１５に例示されている空間ディスプレイ（すなわち、ｓｐｌａｙ）では、検索判定基準に対応し且つ検索判定基準に従って分類された一連のレコードのデータ中心の(data-centric)ビューが観察される。空間ディスプレイ２９６は、ドメイン定義の一対の軸２９８及び３００を示すデータのマトリクス又は配列の形を取る。摘要表３０２がこれらの軸及び各自の個々のラベルに従う。軸及び個々のラベルの交点に対応するレコード又はデータ・エンティティのカウント又は数が、カウント又はスコア数３０４によって表される。勿論、後でより詳しく説明するように、各交点のブロック内に追加の情報を表示することができる。希望される場合、追加の情報は、カウント上でマウスをクリックして、参照数字３０６で示すようにドロップダウン・メニュー又はリストを生じさせること等によって、表示することができる。図示例は多数の可能性の内の１つに過ぎないことに留意されたい。追加の可能性は後で説明するが、形式的にはシステム設計者にとって利用可能な無数のオプションの内の一部である。現在の具現例では、例えば、リスト３０６から個々のエンティティ又はレコードへの追加のリンクを設けることができ、レコード自体はリストから入手できる。リストからのレコードの選択の結果、図１３に示されているようなフォーム・ビュー又は図１４に示されているような強調表示ビュー、或いはデータ・エンティティの全部又は一部の任意の同様な表現が表示される。

空間ディスプレイの別の例が図１６に示されている。図１６に例示のディスプレイはレコード中心の空間ディスプレイ３０８と考えることができる。レコード中心の(record-centric)ディスプレイは図１５に例示のディスプレイと同様であるが、個々のデータ・エンティティ又はレコードの属性に対応するラベルの交点を強調表示する。すなわち、例えば、特定の知的財産権の会社オーナーのような、特定の検索判定基準で得られた複数のレコードが、図１６に右傾の斜線で示されるような第１の色又は図形で強調表示される。第２の会社について得られたデータ・エンティティに対応するレコードが、左傾の斜線のような異なる態様で表示される。勿論、利用可能な場合に様々な色のような他のグラフィック手法がより指示的であり且つはっきり見えることがある。この場合もまた、強調表示は、交点ブロックの各々における少なくとも１つのレコードが、強調表示された特徴の各々（例えば、会社オーナー）について突き止められたことを示すことができる。従って、空間ディスプレイは、属性を持つ作成されたデータ・エンティティの間に交点が存在する場所、及びこのようなレコードが何ら作成されなかった領域を容易に明らかにすることができる。参照数字３１０及び３１２で示されている特定のレコード強調表示は、交差空間３１４における２つの中央のブロックの場合のように、オーバーラップして、各々のこのようなブロック内の少なくとも１つのレコードが強調表示のための一方又は他方のベースに属していることを表すことができる。この場合もまた、そこから特定のレコード又はビューにアクセスすることのできるレコード・リスト３１６のような、追加のグラフィック又は分析手法を用いることができる。

図１７は、異なる種類のレコード中心のディスプレイと考えられる追加の空間ディスプレイを表す。図１７のディスプレイでは、再び軸２９８及び３００が示されており、各軸には対応する複数のラベルを持つ。各ラベルの交差を示すブロックが設けられている。しかしながら、空間ディスプレイ表現３１８では、各々の個々のレコード又はデータ・エンティティについて別々のブロックが設けられている。このようなブロックが参照数字３２０、３２２及び３２４で示されている。構造化されたデータ・エンティティの内容に基づいて、個々の交差ブロックは、レコードが軸ラベル属性を含んでいるか否かを表すことができる。例えば、図示のデータでは、データ・エンティティ３２０、３２２及び３２４はラベルＩＩＡに対応する属性を何ら共有していないが、エンティティ３２２及び３２４はラベルＩＣ／ＩＩＢで交差を共有している。この場合もまた、データの表示が、データ・エンティティの一意性又は独自性及びそれらの類似性の識別を容易にする。

幾分類似した空間ディスプレイが図１８に例示されている。図１８に例示されている種類の空間ディスプレイは、特定の財産権の会社オーナーのような特定の関心のある特徴について考慮することができる。ディスプレイを作成するために任意の他の適当な特徴を使用することができることは勿論である。図示のように、軸及びラベルが再び表形式で表されているが、特定の関心のある特徴が、参照数字３２０、３２２及び３２４で示されているような個々の交差ブロックにおいて呼び出される。例として、会社比較の場合、欄３２０、３２２及び３２４の各々は、各々の会社によって所有される各々の交差ブロックにおける財産の数に対応することができる。従って、分析は観察者にとって明らかであり、各々の会社オーナーの強さ及び弱さを相対的に示す。例えば、図示の例では、会社３２２は交差空間ＩＣ／ＩＩＢにおいて幾分か優勢であるが、交差空間ＩＢ／ＩＩＢにおいて会社３２０と共に弱くなると思われる。

空間ディスプレイの別の具体例が図１９に示されている。図１９は、異なる種類のレコード又はデータ・エンティティ中心のビューと考えることができる。この場合もまた、軸２９８及び３００が示されている。また複数のデータ・エンティティ又はレコード３２０、３２２及び３２４が表形式で示されている。しかしながら、軸２９８、３００及び任意の追加の軸３３０について、データ・エンティティの内容に基づいて分類を行った個々のラベルが例示されており、全てのこのような対応性が示されている。従って、ユーザは、特定のレコードが得られた方法及び理由、特定のレコードが構造化され且つ分類された方法、及びデータ・エンティティ・レコードの一対多数のマッピングためのベースを容易に見分けることができる。

空間ディスプレイの更に別の例が図２０に示されている。図２０の表現では、空間ディスプレイ３３２は、ドメイン定義の各軸３３４に対応するグラフィック空間をタイル状フォーマットで示しており、個々のラベル３３６は各軸について呼び出される。各ラベルはブロック又は区域３３８で表示される。図示例では、各ラベルの属性に対応するデータ・エンティティの数についてのカウント又は累計３４０がそれぞれのブロック内に提供される。全体的に参照数字３４２で示されている背景は着色することができ、又は個々のラベルの属性に対応するデータ・エンティティのレベル又は数を示すために背景について特定の図形を使用することができる。更に、図示例では、知的財産権の会社オーナーのような特定の特徴に対応するデータ・エンティティのような特別の意味を持つことができる挿入記号(inset) ３４４を設けることができる。この場合もまた、任意の他の適当な意味を、背景又は挿入記号３４４のいずれかに持たせることができる。更に、特定の関心のある特徴を呼び出すために、多数のこのような挿入記号又は他のグラフィック・ツールを使用することができる。

図示例では、提示されたデータの理解を高めるために特定の色又は図形を使用している凡例３４６が設けられる。図示例では、例えば、特定のラベルの属性に対応するデータ・エンティティの数について異なる色を使用することができ、凡例の挿入記号３４８では様々なカバー範囲が呼び出される。各ラベルについて背景及び挿入記号の意味を説明するために、例えば、参照数字３５０で表されているような追加の凡例を設けることができる。従って、構造化されたデータ・エンティティの分類に基づいた分析及び意志決定プロセスのために、様々な種類のグラフィックスを取り入れた非常に複雑で精巧なデータ・プレゼンテーション・ツールを使用することができる。適切な場合には、前に述べたように、ユーザが特定の軸、ラベル、属性又は任意の他の関心のある特徴に対応するデータ・エンティティに「掘り下げる」ことをできるようにするために、データ・エンティティ・レコード・リスト３５２のような追加の特徴を設けることができる。

図２１は図２０の基本的な空間ディスプレイを、関連した追加の具体例のグラフィックスと共に例示する。図２１の例では、例えば、会社オーナー又は任意の他の関心のある特徴のような個々のデータ・エンティティをカウントによって分類するために、挿入図又はメニュー、グラフィックス、リンクされたディスプレイなどのような、多数の特定の特徴のグラフィック表現を示すことができる。挿入図３５４では、例えば、ユーザは、第１の軸Ｉの個々のラベルに対応するデータ・エンティティの数をグラフィック・フォーマット３５６で表示することができる。図示されているように、例えば、関心のある会社「会社１」が個々のラベルＩＡ〜ＩＦに対応して複数のデータ・エンティティを持つことが示されており、個々のデータ・エンティティ又はレコードのカウントは棒グラフで表示されており、棒グラフでは、軸３５８に沿って示された各々の個々のラベルについてデータ・エンティティの数又は量が示されている。カウントは、この例では棒３６０によって表すことができる。同様に、図２１にグラフィック・ディスプレイ３６２で示されているように、個々のラベルについて、データ・エンティティの数を異なる会社（例えば、Ｃｏ１，Ｃｏ２，Ｃｏ３）毎に表示することができる。会社の表示は軸３６６に沿って示すことができ、カウントは棒３６８で示す。グラフィック表現３６４は、個々のラベルについて各会社によって所有される財産の数の表示を提供する。この場合もまた、このような分析及びディスプレイのために任意の他の特徴を設けることができる。

図２２は、相互作用型コンピュータ・インターフェースを介して具現化できるような、分析され分類されたデータ・エンティティの表現の相互作用型空間ディスプレイの一例を示す。相互作用型表現３７０は、図示例においてスーパードメイン３７４のトップレベル・ビューを含む。前に述べたように、このような表記は幾分任意であってよく、データ・エンティティについて定義されるような分類のレベルを単に表す。図２２に示されているように、スーパードメインは幾つかの個々のドメイン３７６を含む、各ドメインは一連の軸３７８を含む。前に述べたように、スーパードメイン及びドメインの定義において、各軸は関心のある個々の属性又は特徴と関連付けられ、これにより構造データ・エンティティが分析され分類される。グラフィック表示のスーパードメインが提示されたとき、ユーザは、ビュー３８０によって示されているように個々のドメイン又は軸に「掘り下げる」ことができる。図示の具現例では、軸ＩＡを選択することによって、ビュー３８０が生成され、その中の拡大された挿入図３８４に、選択された軸の個々のラベルが表示される。この挿入図は、参照数字３８６で示されるようにラベルを示し、ラベルに対応するデータ・エンティティのカウント又は累計のような追加の情報を表示することができる（図２２には示していない）。この場合もまた、ラベルの各々は、図２２に参照数字３８８で示すように、属性に関連付けされる。属性はラベルと共に表示しても表示しないてもよいが、属性は、データ・エンティティの選択及び分類を行ったベースの表示としてユーザにとってアクセス可能にすることができる。図２２の具現例では、この場合もまた、他のドメインの個々の軸を、参照数字３８２で示されるように、最小化することができる。前に他の空間ディスプレイに関して述べたように、レコード・リスト３９０のような他のグラフィックスを設けて、ユーザがデータ・エンティティ、データ・エンティティの一部分、データ・エンティティの一覧表などを観察できるようにすることができる。前に簡単に述べたようにグラフ形式、表形式、又は強調表示のビューのような他の種類のグラフィック表現を設けることができるのは勿論である。

これまでの説明で述べたように、本発明手法は、任意の適当な種類のデータ・エンティティを検索し、分類し、分析するために用いることができる。一般に、幾つかの種類のデータ・エンティティが現在考えられ、それには、テキスト・エンティティ、画像エンティティ、オーディオ・エンティティ、及びこれらの組合せが含まれる。すなわち、特定のテキストのみのエンティティの場合、ワード選択及び分類手法、並びにワード及びテキストに基づいた手法を、グラフィック情報、主観的情報などによるテキスト表示と共に用いることができる。画像エンティティの場合、コンピュータ支援分析手法、コンピュータ支援特徴認識手法、セグメント化、分類などのための手法を含む、広範囲の画像分析手法が利用できる。

医学的診断用イメージングのような特定のドメインでは、これらの手法がまた、可能性のある病状を分析及び分類し、病気を診断し、処置を提案し、画像データの更なる処理又は取得を提案し、他の画像データの取得を提案するなどのために、画像データの評価を可能にすることができる。本発明手法は、テキスト情報が添付の書誌的情報に存在しているような、テキスト及び画像データの組合せを含む画像に用いることができる。当業者には明らかなように、医学的イメージングのような特定の環境では、標準的なＤＩＣＯＭヘッダような、画像データに付加されたヘッダには、画像の供給源及び種類、日付、書誌的情報などに関するかなりの情報が含まれることがある。この情報の幾分か又は全てを、分類及び更なる分析のために本発明手法に従って、分析し構造化することができる。このような分析及び分類に基づいて、データ・エンティティは、構造化された、半構造化された又は構造化されていない形態で、統合知識ベース（ＩＫＢ）のような知識ベースに記憶することができる。従って、当業者には明らかなように、本発明手法は、財務分析、病気の認識、処置の認識、関心のある人口統計の認識、目標市場の認識、危険性の認識、或いは、データ・エンティティの間に存在するが、認識するのを困難にするほどに複雑であり又は明らかでない任意の他の相関関係のような目的のために、複雑なデータ・セットの統合分析を含む無数の有利な使用を可能にする。

図２３、２４及び２５は、画像データ、特に、テキスト・データが関連している画像データに、上述の手法を適用した例を示す。図２３に示されているように、画像／テキスト・エンティティ処理システム３９２は、一般的には上述の手法の趣旨に従うが、参照数字３９４で示されるように、画像及びテキスト・ファイルにより開始することができる。この場合もまた、ファイルに対応するデータ・エンティティは単一のファイル内に又は複数のファイル内に含むことができ、或いは、画像データに基づく注釈などのためにファイル間にリンクを設けることができる。一般に、各エンティティは、テキスト・セグメント３９６及び画像セグメント３９８を含む。テキスト・セグメント３９６は、構造された、構造化されていない又は主観的データを、一連の又は複数連のテキスト４００の形態で含むことができる。画像セグメント３９８は、画像ヘッダ内のテキスト・データのような書誌的データ４０２、及び画像内容データ４０４を含むことができる。画像内容データは、典型的には、画像ピクセル・データ、ボクセル・データ、オーバーレイ・データなどの形態である。一般に、画像データ４０４は、所望の再構成手法に従った可視画像４０６すなわち表示のための一連の画像の再構成を可能にするのに充分なものとすることができる。当業者には明らかなように、特定の再構成手法は、一般に、画像データの性質、データを取得したイメージング・システムの種類などに従って選択することができる。

データ・エンティティが上述の種類の処理システム１４に供給される。一般に、上述の全ての処理、特に図１０及び１２に関して説明した処理は、複雑なデータ・エンティティについて遂行することができる。これらの処理手法によれば、テキストにおける、また画像における、またテキスト及び画像の間での関心のある特定の特徴を、ドメイン定義と（参照数字３８で示すような）ドメイン定義によって規定された規則又はアルゴリズムとに従って、セグメント化、識別、フィルタリング、処理、分類などを行うことができる。複雑なデータ・エンティティについて遂行された処理に基づいて、結果の構造化されたデータは任意の適当な記憶装置４０に保存することができ、そして参照数字３４で示すような統合知識ベース（ＩＫＢ）を作成することができる。前にも述べたように、データ・エンティティの各々について遂行された一対多数のマッピングに基づいて、同様な検索を、テキスト、画像又は両方のいずれかにおける個々の関心のある特徴について遂行することができる。図２３は複雑なデータ・エンティティにおけるテキスト及び画像ファイルを表しているが、データ・エンティティがテキスト及びオーディオ・データ、オーディオ・データ及び画像データ、テキスト及びオーディオ及び画像データ、或いは波形データ又は任意の他の種類のデータのような追加の種類のデータさえも含むことができることにも注意されたい。

図２４に、複雑なデータ・エンティティについて遂行される特定の画像／テキスト・エンティティ処理４０８が大まかに例示されている。前に述べたように、テキスト・データ４１０（図２４には強調表示ビューが示されている）及び画像データ４１２が、個々のテキスト規則及びアルゴリズム４１４と個々の画像規則及びアルゴリズム４１６とに従って、分析され分類される。しかしながら、分類及びマッピングのための規則及びアルゴリズムのいくらかは、テキスト及び画像データに基づいた判定基準を含むことができることに留意されたい。例えば、特定のテキスト分析からのみ識別可能であるような特定のグループの対象を別にすれば、ユーザは画像データ内の目に見える関心のある特定の解剖学的特徴に特別な関心を持つことができる。このような組合せの分析は、分類及びマッピングを向上させるための強力なツールを提供する。ドメイン定義１２に基づいて、図２４のブロック２１０で示されるようにマッピングが行われ、その結果はＩＫＢ３４に保存することができる。

複雑なデータ・エンティティの分析及び分類に加えて、上述の全ての手法は、テキスト、画像、オーディオ、及び図２５に大まかに示しているような他の種類のデータを含む複雑なデータ・エンティティについて使用することができる。図２５は、テキスト・データのみについての前に述べたものと同様な、組合せのテキスト／画像データについての模範的なフォーム・ビューを示す。図２５に示されているビュー４２０内に設けられた一覧表示において、全てが大まかに参照数字４２２で示されている主観的情報及び分類情報と共に、書誌的情報を提供することができる。しかしながら、画像データの分析についての追加の情報を、参照数字４２４で示されるような画像表現と共に提供することができる。適切な場合には、実際の画像、注釈付き画像、又は追加の主観的又は書誌的データに対するリンクを、勿論、設けることができる。

前に述べたように、本発明手法は、分析及び分類が可能である任意の適当なデータ・エンティティに適用することができる。模範的な一具現例では、該手法は、特許文書及び出願の再検索、分析、構造化及び分類に適用される。このような文書は、特に商業上利用可能なデータ集合体から入手されたとき、複数の項目（例えば、表題、要約、第１ページ、特許請求の範囲など）への文書の細分のような構造を含む。関心のある文書の識別及び分類のため、先ず関連したデータ・ドメインが定義される。軸は、イメージング・モダリティ、画像の特定の種類についての臨床的利用、画像再構成手法などのような、主題又は技術分野に関係付けることができる。各軸についてのラベルは、軸の題目を細分して、技術的概念のマトリクスを形成する。次いで、ワード、専門用語、フレーズなどが、ラベルの属性として各ラベルに関連付けられる。近似判定基準、全体又は部分ワード規則などを含む、同様な用語の認識のための規則及びアルゴリズムが設定又は選択される。任意の適当なテキスト分析規則を用いることができる。

ドメイン定義及び規則に基づいて、特許及び特許出願ファイルは利用可能なデータベースから入手できる。文書における構造は、このような構造がドメイン定義において具現化されているなら、譲受人、発明者などの識別などのために使用することができる。ドメイン定義によって使用されない文書に存在する構造は、例えば、書誌的データ・フィールドを完成するために使用することができ、或いは、ドメイン定義に関連していると見なされないなら、無視することができる。他方、構造化されていない文書中のデータは、例えば、一般に構造化されていない区域に見いだされる文書の部分（例えば、パラグラフ・テキスト、要約テキストなど）における用語を識別することによって、構造化することができる。後で検索及び分類するのを容易にするために、文書にインデックスを付けることもできる。

次いで、文書はドメイン定義上にマッピングされて、一対多数の分類を設定する。この分類は任意の特定の文書を多数の異なる軸／ラベルに関連付けする。次いで、トピックの特定の組合せに関する文書、特定のタイトルホルダーに割り当てられた文書、及びこれらの組合せについての検索のような、多数の高品位の種類の分析を文書について遂行することができる。関連付けされた用語及び属性を持つ、軸及びラベルのマトリクスは、文書の無数のサブセットが検索における軸及び／又はラベルの適切な組合せの選択によって定義されることを可能にする。

別の模範的な具現例では、医学的診断用画像ファイルを分類することができる。このようなファイルは、典型的には、画像データ及び書誌的データの両方を含む。主観的データ、医師による注釈なども含むことができる。この例で、ユーザは、特定の解剖学的構造、特定の病状、処置、人口統計的データ、及び関心のある任意の他の関連したカテゴリイに対応する軸を持つドメインを定義することができる。この場合もまた、ラベルは軸を論理的に細分し、また属性が各ラベルについて指定される。テキスト・データの場合、属性は、前の例で述べたように、用語、ワード、フレーズなどであってよい。しかしながら、画像データの場合、画像データのアルゴリズムによる分析を介してのみ識別可能である属性のような、一連の複雑で強力な属性を定義することができる。これらの属性の幾分かはコンピュータ支援診断（ＣＡＤ）及び同様なプログラムによって分析することができる。前に述べたように、これらはドメイン定義の中に埋め込むことができ、或いは、画像データを分析し分類すべきときに必要に応じて呼び出すことができる。

この種の具現例では、テキスト、画像、オーディオ、波形、及び他の種類のデータを独立に分析することができ、或いは分類の複雑な組合せを定義することができることに留意されたい。エンティティが一対多数のマッピングによって分類される場合、画像データから識別できる特定の特性又は病状を示し、且つ、テキスト又は他のデータから、或いはこのようなデータの組合せから他の方法でのみ識別できる特定の類似性又はコントラストを持つ集団を突き止めるためのような、高品位の分析を遂行することができる。

これらの例において、及び任意の具現例において、上述の分析及びプレゼンテーション手法を用いることができ、また特定のの種類のエンティティに適応させることができる。例えば、特許のようなテキスト文書は、特定の関連したワード又はフレーズを強調表示することにより、強調表示ビューとして表示することができる。画像もまた、例えば、関心のある特定の特徴又は領域について色を変更することによって、又はポインタ、ボックスなどのようなグラフィック・ツールを使用することにより、強調表示することができる。

本発明の特定の特徴のみを例示し説明したが、当業者には多くの修正及び変更をなし得よう。従って、特許請求の範囲が本発明の真の精神の範囲内にあるこの様な全ての修正及び変更を包含するものであることを理解されたい。

本発明手法の様々な面に従ったデータ・エンティティ識別、構造化、マッピング及び分類システムの概略全体図である。図１に示したようなシステムに用いることができる模範的なドメイン定義論理の流れ図である。ドメイン定義に基づいたエンティティ処理論理の流れ図である。図３の論理により遂行されるデータ・エンティティの模範的なマッピングの図式的表現図である。本発明手法の様々な面に従って具現化することのできる関連したドメイン及びドメイン・レベルの図式的表現図である。データ・エンティティの構造化、マッピング、分類及び分析を容易にするために具現化される多レベル・ドメイン定義の図式的表現図である。本発明手法の様々な面に従った、プログラムされたコンピュータと共に使用するための模範的なドメイン定義テンプレートの表現図である。図７のテンプレートによって定義されるドメインの軸及びラベルを定義するためのテンプレートの表現図である。ドメインの軸及びラベルについてデータ・エンティティ属性を定義するための模範的なインターフェースの略図である。データ・エンティティの検索及び分類のため、並びにこのような検索及び分類に基づいたＩＫＢの設定のための模範的な論理を例示する流れ図である。本発明手法に従ってドメイン定義及び規則を使用してエンティティの集合をＩＫＢにマッピングする方法の図式的表現図である。データ・エンティティの分析及び分類のために遂行することのできるある特定の処理段階の図式的表現図である。ＩＫＢのような既知の分野における関連したレコード又はデータ・エンティティを識別するための１つの模範的な処理の図式的表現図である。概念的フレームワークとしてドメイン定義に基づいて強調表示したテキスト文書のような分析後の一セット（集合）のデータ・エンティティの１つの模範的な表現図である。一セットのデータ・エンティティにおいて見付けられたドメイン定義の概念的フレームワークの属性又は部分の間の対応性を識別するために一セットのデータ・エンティティについて遂行される分析の別の表現図である。特定の属性を持つエンティティの間の対応性のオーバーラップ又は交差を示す一連のデータ・エンティティの分析の模範的な表現図である。ドメイン定義又は分析的又は概念的フレームワークの一部分のために一連のレコード又はデータ・エンティティについて遂行される分析の別の模範的な表現図である。所有者によるような他の判定基準による分類を示す、一連のデータ・エンティティについて遂行される分析の別の模範的な表現図である。レコード自体（すなわち、データ・エンティティ）によるデータ・エンティティの分析及び分類の別の模範的な表現図である。ドメイン定義の概念的フレームワークによるエンティティの累算的カウントを示している、一連のデータ・エンティティについて分析されたデータの別の模範的な表現図である。図２０に示したものと同様なデータ・エンティティの模範的な分析の別の模範的な表現図であるが、分析され分類されたデータ・エンティティに基づいて得ることのできるデータの模範的な追加のディスプレイを示す。ドメイン定義及びそれに関連した概念的フレームワークに基づいたデータ・エンティティの分析及び分類の別の相互作用的表現の図式的表現図である。ＩＫＢのようなファイルのデータベースの設定のために画像データ・ファイル及び関連したテキスト・ファイルの適用されるドメイン定義、検索、分析、マッピング及び分類手法の図式的表現図である。本発明手法の様々な面に従ってファイルの分類及びマッピングのために画像及びテキスト・ファイルを分析、マッピング及び分類するための模範的なワークフローの別の図式的表現図である。図２３及び図２４のプロセスに従って画像及びテキスト・ファイルの分析の一連の摘要表の模範的なディスプレイの表現図である。

符号の説明

１０データ・エンティティ・マッピング・システム
１２ドメイン定義
１６データ資源
１８編集可能なインターフェース
５０ワークステーション
５２ドメイン定義論理
８０エンティティ処理論理
９６マッピング
９８ドメイン定義
１２２ドメイン定義テンプレート
１２４書誌的データ欄
１２６主観的データ欄
１２８分類データ欄
１６８ティップ・テキスト定義インターフェース
１８６検索及び分類並びにＩＫＢ設定のための論理
２１８ＩＫＢ作成プロセス
２２０テンプレート
２２４チェック・ボックス
２２６関連付けリスト
２３８規則
２４６データ・エンティティ
２４８選択され分類されたエンティティ
２５０関心のある特徴のコンピュータ支援処理、分析及び分類のための論理
２５６コンピュータ支援による処理
２７２ワークフロー
２７４フォーム・ビュー
２７６レコード
２７８テキスト強調表示
２８０候補リスト
２８２候補選択
２８４文書ＩＤフィールド
２８８エンティティ・レコード・ビュー
２９０、２９２、２９４強調表示
２９６空間ディスプレイ
３０２摘要表
３０４カウント
３０６リスト
３０８空間ディスプレイ
３１０、３１２レコード強調表示
３１４交差空間
３１６レコード・リスト
３１８空間ディスプレイ表現
３２０、３２２、３２４ブロック
３２６空間ディスプレイ
３２８空間ディスプレイ
３３２空間ディスプレイ
３３４軸
３３６ラベル
３３８ブロック
３４０カウント
３４２背景
３４４挿入記号
３４６凡例
３４８挿入記号
３５０凡例
３５２データ・エンティティ・レコード・リスト
３５４挿入図
３５６グラフィック・フォーマット
３５８３５８
３６０棒
３６２グラフィック・ディスプレイ
３６４グラフィック表現
３６６軸
３６８棒
３７０相互作用型表現
３７６ドメイン
３７８軸
３８０ビュー
３８４挿入図
３９０レコード・リスト
３９２画像／テキスト・エンティティ処理システム
３９４画像及びテキスト・ファイル
３９６テキスト・セグメント
３９８画像セグメント
４００テキスト
４０６可視画像
４０８画像／テキスト・エンティティ処理
４１０テキスト・データ
４１２画像データ
４２０ビュー
４２２主観的情報及び分類情報
４２４画像表現

Claims

データ・エンティティをマッピングするための方法であって、
複数の分類軸及び各軸についての複数の分類ラベルを含むデータ・ドメインをコンピュータが定義する段階と、
関心のある属性を潜在的に有する複数のデータ・エンティティであって、構造化された複数のデータ・エンティティ（２８）と構造化されていない複数のデータ・エンティティ（３０）を含む前記複数のデータ・エンティティを記憶する手段に前記コンピュータがアクセスする段階と、
前記データ・ドメインの軸及びラベルに対応する、構造化された複数のデータ・エンティティ（２８）と構造化されていない複数のデータ・エンティティ（３０）内の属性を前記コンピュータが識別する段階と、
前記識別されたデータ・エンティティ属性を、前記軸及びラベルの対応する属性に従って前記コンピュータが分類する段階と、
コンピュータメモリに前記分類を前記コンピュータが格納する段階と、
を有し、
前記軸は、前記データ・ドメインの概念的な細目を表すものであり、
前記分類ラベルは、前記軸の概念的な細目を表すものであり、
前記軸及び前記分類ラベルは、ある軸は同時に分類ラベルとなり、ある分類ラベルは同時に軸となる、前記データ・ドメインのための非階層的で概念的なフレームワークを表すものであり、
前記分類が、前記識別されたデータ・エンティティ属性の、前記データ・ドメインの１以上の前記軸及びラベルに対する一対多数のマッピングを含んでいる、
方法。
前記データ・エンティティはテキスト文書を含み、前記属性は文書内に含まれるワード又はフレーズを含んでいる、請求項１記載の方法。
前記データ・エンティティは、テキスト文書と軸及びラベルに関連したワード又はフレーズとの間でのワード又はフレーズの整合によって識別される、請求項２記載の方法。
前記データ・エンティティは、テキスト文書内のワード又はフレーズと前記軸及びラベルに関連したワード又はフレーズとの整合についての近似判定基準によって識別される、請求項３記載の方法。
前記データ・エンティティは画像データを含んでおり、
前記画像データによって符号化された関心のある属性に基づいて画像データ・エンティティを前記コンピュータが識別する段階を含んでおり、
画像データが医学的画像を符号化し、また分類は画像データから検出可能な病状の分析を含んでいる、請求項１記載の方法。
前記方法は、ラベルの複数の属性を前記コンピュータが定義する段階を含み、該ラベルの属性に整合する属性を持つデータ・エンティティが識別される、請求項１記載の方法。
分類のためのベースを表すデータを含むデータ・エンティティの候補サブセットを前記コンピュータが定義する段階を含んでいる請求項１記載の方法。
前記データ・エンティティを分析する際に用いるべき判定基準のユーザ選択のためにドメイン定義に基づいて検索テンプレートを前記コンピュータが作成する段階を含んでおり、
前記テンプレートは、前記選択された判定基準に対応する属性を持つデータ・エンティティを識別するための検索判定基準のユーザ選択を可能にする、請求項１記載の方法。
分類されたデータ・エンティティを前記コンピュータが予測結果と比較する段階と、該比較に基づいて、ドメイン定義、或いは識別又は分類のためのベースを前記コンピュータが改良修正する段階とを含んでいる請求項１記載の方法。
データ・エンティティをマッピングするためのシステムであって、
コンピュータと、コンピュータメモリと、複数のデータ・エンティティを記憶する手段とを備え、
前記コンピュータが、
複数の分類軸及び各軸についての複数の分類ラベルを含むデータ・ドメインを定義し、
関心のある属性を潜在的に有する複数のデータ・エンティティであって、構造化された複数のデータ・エンティティ（２８）と構造化されていない複数のデータ・エンティティ（３０）を含む前記複数のデータ・エンティティを記憶する手段にアクセスし、
前記データ・ドメインの軸及びラベルに対応する、構造化された複数のデータ・エンティティ（２８）と構造化されていない複数のデータ・エンティティ（３０）内の属性を識別し、
前記識別されたデータ・エンティティ属性を、前記軸及びラベルの対応する属性に従って分類し、
コンピュータメモリに前記分類を格納し、
前記軸は、前記データ・ドメインの概念的な細目を表すものであり、
前記分類ラベルは、前記軸の概念的な細目を表すものであり、
前記軸及び前記分類ラベルは、ある軸は同時に分類ラベルとなり、ある分類ラベルは同時に軸となる、前記データ・ドメインのための非階層的で概念的なフレームワークを表すものであり、
前記分類が、前記識別されたデータ・エンティティ属性の、前記データ・ドメインの１以上の前記軸及びラベルに対する一対多数のマッピングを含んでいる、
システム。