JP5073494B2

JP5073494B2 - 文書処理装置および文書処理方法

Info

Publication number: JP5073494B2
Application number: JP2007528290A
Authority: JP
Inventors: 信行乙守; 祐介藤巻; 靖雄赤井; 俊夫上田
Original assignee: Metamoji
Current assignee: Metamoji
Priority date: 2005-05-09
Filing date: 2006-05-09
Publication date: 2012-11-14
Anticipated expiration: 2026-05-09
Also published as: WO2006121051A1; JPWO2006121051A1; US20090070295A1

Description

この発明は、データ処理技術に関し、とくに、文書データを構造化して処理する技術に関する。

近年、コンピュータの普及とネットワーク技術の進展に伴い、ネットワークを介した電子情報の交換が盛んになっている。これにより、従来においては紙ベースで行われていた事務処理の多くが、ネットワークベースの処理に置き換えられつつある。

企業においても、個人の知識や情報を組織全体で活用する、いわゆるナレッジマネジメントが、重要な経営手法となってきている。多くの企業においては、社内にデータベースシステムを有し、従業員からの情報を電子ファイル化して蓄積する。その一方で、従業員も、この社内データベースに蓄積されたファイルにネットワークを介してアクセスする。これによって、組織全体としての業務効率の向上が図られる。

この社内データベースに蓄積されるファイルの多くは、ＨＴＭＬ（Hyper Text Markup Language）とよばれる言語によって作成されている。また、近年においては、ＸＭＬ（eXtensible Markup Language）とよばれる言語を用いて、これらのファイルが作成される例も多くなってきている。

ＨＴＭＬは、ウェブページを記述するための言語である。すなわち、ＨＴＭＬは文書ファイルの表示方法を定義するマークアップ言語の一種である。これに対して、ＸＭＬはＨＴＭＬの様に、直接的にウェブページを記述することを目的とする言語というよりは、むしろ、文書ファイルに含まれるデータのデータ構造を定義する機能を有する言語といえる。ＸＭＬによって作成された文書ファイルは、別に表示レイアウト情報を与えることによって、ウェブページとして表示される。すなわち、ＸＭＬ文書においては、データの構造とその表示レイアウトが別々のものとして扱うことができる。ＸＭＬのように、マークアップ言語を生成するための言語はメタ言語ともよばれる。

ＸＭＬは、ネットワークなどを介して他者とデータを共有するのに適した形式として注目されており、ＸＭＬ文書を作成、表示、編集するためのアプリケーションが開発されている（たとえば、特許文献１参照）。ＸＭＬ文書は、文書型定義などにより定義されたボキャブラリ（タグセット）に基づいて作成されている。
特開２００１−２９０８０４号公報

企業内の多くの部署では、通常、個人情報を含んだ各種文書ファイルがオリジナルのフォーマット（ＸＭＬによる構造化は行われている）で存在している。個人情報の流出を防ぐため、セキュリティ管理者は、個人情報データを管理する必要がある。しかし、こうした個人情報データは各部署において通用するローカルな用語で登録されている。たとえば、営業では「顧客情報」として「氏名」や「住所」が、研究開発部門でも「データ入手先」として「氏名」「住所」が登録されている。また、こうした情報を入力するためのブラウザ画面における表示レイアウトは各部署単位で開発されている場合が多い。ここで、もし顧客情報を管理し、社外にこうした情報が流出することを防ごうとした場合に、そのシステム変更として以下の業務が発生する。

１．セキュリティ管理者が各部署で扱っている帳票などの文書ファイルに含まれる個人情報をチェックする。
２．社内システムとして、こうした帳票の個人情報に「個人情報注意」を示すアノテーションを付与するといった作業と個人情報データベースの構築。
３．各部署で使用している入力画面の変更。
これら業務は非常にコストがかかる。

本発明は、複数の構造化文書ファイルに含まれるデータを扱う上でのユーザの利便性を向上させるための技術を提供することにある。

上記課題を解決するために、本発明のある態様の文書処理装置は、複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルを保持するファイル保持部と、親文書ファイルに含まれるタグであるモデルタグから継承された子文書ファイルのタグである実体タグの名前をユーザによる指示入力に応じて変更するタグリネーム処理部と、子文書ファイルに含まれる実体タグの名前と、その実体タグの継承元であるモデルタグの名前を対応づけたタグマッピングテーブルを保持するタグマッピングテーブル保持部と、モデルタグの名前を検索キーとするユーザによる検索指示入力により、タグマッピングテーブルを参照して対応する実体タグの名前を検出し、その実体タグの名前を新たな検索キーとして子文書ファイルからその実体タグのデータを検出するタグデータ検索部と、を備える。

また、この装置は、フィルタリング対象となるべきタグの種類を定めたフィルタリング条件にしたがって、文書ファイルに含まれるタグを分類するフィルタリング処理部を備えてもよい。このフィルタリング処理部は、分類抽出の対象となるべきモデルタグをフィルタリング条件にしたがって特定し、そのモデルタグの名前を検索キーとして実体タグのデータを検出するようにタグデータ検索部に指示することにより、フィルタリングすべきタグのデータを分類抽出してもよい。
このような態様においては、たとえば、表示や外部への送信に適さないデータが入力されるタグをフィルタリング条件として定義しておけば、このような特定の属性を持つデータを文書ファイルから抽出しやすくなる。

この装置は、ユーザにより指定された実体タグの継承元であるモデルタグをタグマッピングテーブルを参照して検出し、タグマッピングテーブル保持部に保持されている複数のタグマッピングテーブルを参照することによりそのモデルタグを継承するその他の実体タグを検出する関連タグ検索部を更に備えてもよい。

本発明の別の態様もまた、文書処理装置である。
この装置は、複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルを保持するファイル保持部と、親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更するアノテーションリネーム処理部と、子文書ファイルに含まれる実体アノテーションの名前と、その実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを保持するアノテーションマッピングテーブル保持部と、子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定するアノテーション設定部と、モデルアノテーションの名前を検索キーとするユーザによる検索指示入力により、アノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出するアノテーションデータ検索部と、を備える。

この装置は、子文書ファイルを外部装置に送信するファイル送信部を更に備えてもよい。アノテーションデータ検索部は、子文書ファイルに含まれるデータのうち外部送信を禁止すべきデータに設定されるモデルアノテーションを検索キーとして子文書ファイルから該当データを検出し、ファイル送信部は、その検出されたデータの外部装置に対する送信を抑止してもよい。

本発明の別の態様もまた、文書処理装置である。
この装置は、所定のタグセットに属する実体タグによって記述された構造化文書ファイルを取得する文書取得部と、構造化文書ファイルに含まれる実体タグを検出し、所定のタグセットとは異なるタグセットに属するモデルタグのうち、検出した実体タグと所定の関係にあるモデルタグを検出する対応検出部と、所定の関係にある実体タグとモデルタグを対応づけてタグマッピングテーブルに記録するマッピング記録部と、モデルタグを検索キーとする検索指示入力をユーザから受け付けると、タグマッピングテーブルにおいて対応づけられている実体タグの要素データを構造化文書ファイルから検出するタグ検索部と、を備える。

この装置は、構造化文書ファイルに含まれるデータを画面表示させるデータ表示部と、
表示対象外となる要素データに対応するモデルタグの指定入力をユーザから受け付けると、タグマッピングテーブルにおいて対応づけられている実体タグを検出し、構造化文書ファイルにおいてその実体タグにより特定される要素データを表示対象から除外する表示制御部と、を更に備えてもよい。

この装置の対応検出部は、類語関係にある単語の組み合わせが定義された類語データテーブルを参照して、構造化文書ファイルから検出した実体タグの名前と類語関係にある名前のモデルタグを所定の関係にあるモデルタグとして検出してもよい。

この装置の対応検出部は、上位概念と下位概念の関係にある単語の組み合わせが定義された概念データテーブルを参照して、構造化文書ファイルから検出した実体タグの名前に対して上位概念にあたる名前のモデルタグを所定の関係にあるモデルタグとして検出してもよい。

なお、以上の構成要素の任意の組合せや、本発明の構成要素や表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体、データ構造などの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、複数の構造化文書ファイルに含まれるデータを扱う上でのユーザの利便性を向上させる上で効果がある。

前提技術に係る文書処理装置の構成を示す図である。処理対象となるＸＭＬ文書の例を示す図である。図２に示したＸＭＬ文書をＨＴＭＬで記述された表にマッピングする例を示す図である。図２に示したＸＭＬ文書を図３に示した表にマッピングするための定義ファイルの例を示す図である。図２に示したＸＭＬ文書を図３に示した表にマッピングするための定義ファイルの例を示す図である。図２に示した成績管理ボキャブラリで記述されたＸＭＬ文書を、図３に示した対応によりＨＴＭＬにマッピングして表示した画面の例を示す図である。ユーザが定義ファイルを生成するために、定義ファイル生成部がユーザに提示するグラフィカルユーザインタフェースの例を示す図である。定義ファイル生成部により生成された画面レイアウトの他の例を示す図である。文書処理装置によるＸＭＬ文書の編集画面の一例を示す図である。文書処理装置により編集されるＸＭＬ文書の他の例を示す図である。図９に示した文書を表示した画面の例を示す図である。文書処理システムの基本構成を示す図である。文書処理システム全体のブロック図を示す図である。文書処理システム全体のブロック図を示す図である。文書管理部の詳細を示す図である。ボキャブラリコネクションサブシステムの詳細を示す図である。プログラム起動部と他の構成の関係の詳細を示す図である。プログラム起動部によりロードされたアプリケーションサービスの構造の詳細を示す図である。コアコンポーネントの詳細を示す図である。文書管理部の詳細を示す図である。アンドゥフレームワークとアンドゥコマンドの詳細を示す図である。文書処理システムにおいて文書がロードされる様子を示す図である。文書とその表現の例を示す図である。モデルとコントローラの関係を示す図である。プラグインサブシステム、ボキャブラリコネクション、及びコネクタの詳細を示す図である。ＶＣＤファイルの例を示す図である。文書処理システムにおいて複合文書をロードする手順を示す図である。文書処理システムにおいて複合文書をロードする手順を示す図である。文書処理システムにおいて複合文書をロードする手順を示す図である。文書処理システムにおいて複合文書をロードする手順を示す図である。文書処理システムにおいて複合文書をロードする手順を示す図である。コマンドの流れを示す図である。セマンティックウェブのレイヤケーキを示す模式図である。個人情報を含んだ各種文書ファイルの一般的な取り扱い形態を示す模式図である。本実施例における個人情報管理支援システムのフローを示す図である。図３２のシーン１について詳細に説明するための模式図である。研究部門におけるグローバルオントロジーとローカルオントロジーの関係を示す図である。営業部門におけるグローバルオントロジーとローカルオントロジーの関係を示す図である。子文書ファイルにアノテーションを付与する態様を説明するための模式図である。アノテーションによるセキュリティ管理を説明するための模式図である。図３４や図３５に関連して説明したタグマッピングテーブルの別例を示す図である。前提技術で説明した文書処理装置の各種機能を利用しつつ、実体タグとモデルタグのマッピング機能を実現する文書処理装置の機能ブロック図である。モデルタグと実体タグのマッピング構造を説明するための模式図である。

符号の説明

２０文書処理装置、２２主制御ユニット、２４編集ユニット、３０ＤＯＭユニット、３２ＤＯＭ提供部、３４ＤＯＭ生成部、３６出力部、４０ＣＳＳユニット、４２ＣＳＳ解析部、４４ＣＳＳ提供部、４６レンダリング部、５０ＨＴＭＬユニット、５２，６２制御部、５４，６４編集部、５６，６６表示部、６０ＳＶＧユニット、８０ＶＣユニット、８２マッピング部、８４定義ファイル取得部、８６定義ファイル生成部、３０００文書処理装置、３１００ユーザインタフェース処理部、３１１０入力部、３１１２アノテーション設定部、３１１４文書取得部、３１２０表示部、３１３０通信部、３１３２文書送信部、３１３４文書受信部、３２００データ処理部、３２１０文書編集部、３２１２タグリネーム部、３２１４アノテーションリネーム部、３２２０検索部、３２２２タグ検索部、３２２４アノテーション検索部、３２３０マッピング処理部、３２３２対応検出部、３２３４マッピング記録部、３２４０マスク処理部、３２５０データ保持部、３２５２ファイル保持部、３２５４タグマッピングテーブル保持部、３２５６アノテーションマッピングテーブル保持部。

以下、本実施例における前提技術について述べた後、本発明の特徴を説明する。

（前提技術）
図１は、前提技術に係る文書処理装置２０の構成を示す。文書処理装置２０は、文書内のデータが階層構造を有する複数の構成要素に分類された構造化文書を処理するが、本前提技術では構造化文書の一例としてＸＭＬ文書を処理する例について説明する。文書処理装置２０は、主制御ユニット２２、編集ユニット２４、ＤＯＭユニット３０、ＣＳＳユニット４０、ＨＴＭＬユニット５０、ＳＶＧユニット６０、及び変換部の一例であるＶＣユニット８０を備える。これらの構成は、ハードウエアコンポーネントでいえば、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

主制御ユニット２２は、プラグインのロードや、コマンド実行のフレームワークを提供する。編集ユニット２４は、ＸＭＬ文書を編集するためのフレームワークを提供する。文書処理装置２０における文書の表示及び編集機能は、プラグインにより実現されており、文書の種別に応じて必要なプラグインが主制御ユニット２２又は編集ユニット２４によりロードされる。主制御ユニット２２又は編集ユニット２４は、処理対象となるＸＭＬ文書の名前空間を参照して、ＸＭＬ文書がいずれのボキャブラリにより記述されているかを判別し、そのボキャブラリに対応した表示又は編集用のプラグインをロードして表示や編集を実行させる。例えば、文書処理装置２０には、ＨＴＭＬ文書の表示及び編集を行うＨＴＭＬユニット５０、ＳＶＧ文書の表示及び編集を行うＳＶＧユニット６０など、ボキャブラリ（タグセット）ごとに表示系及び編集系がプラグインとして実装されており、ＨＴＭＬ文書を編集するときはＨＴＭＬユニット５０が、ＳＶＧ文書を編集するときはＳＶＧユニット６０が、それぞれロードされる。後述するように、ＨＴＭＬとＳＶＧの双方の構成要素を含む複合文書が処理対象となっている場合は、ＨＴＭＬユニット５０とＳＶＧユニット６０の双方がロードされる。

このような構成によれば、ユーザは、必要な機能のみを選択してインストールし、後から適宜機能を追加又は削除することができるので、プログラムを格納するハードディスクなどの記録媒体の記憶領域を有効に活用することができ、また、プログラム実行時にも、メモリの浪費を防ぐことができる。また、機能拡張性に優れており、開発主体としても、プラグインの形で新たなボキャブラリに対応することが可能なので開発が容易となり、ユーザとしても、プラグインの追加により容易かつ低コストにて機能を追加することができる。

編集ユニット２４は、ユーザインターフェースを介してユーザから編集指示のイベントを受け付け、そのイベントを適切なプラグインなどに通知するともに、イベントの再実行（リドゥ）又は実行の取消（アンドゥ）などの処理を制御する。

ＤＯＭユニット３０は、ＤＯＭ提供部３２、ＤＯＭ生成部３４、及び出力部３６を含み、ＸＭＬ文書をデータとして扱うときのアクセス方法を提供するために定められた文書オブジェクトモデル（Document Object Model：ＤＯＭ）に準拠した機能を実現する。ＤＯＭ提供部３２は、編集ユニット２４に定義されているインタフェースを満たすＤＯＭの実装である。ＤＯＭ生成部３４は、ＸＭＬ文書からＤＯＭツリーを生成する。後述するように、処理対象となるＸＭＬ文書が、ＶＣユニット８０により他のボキャブラリにマッピングされる場合は、マッピング元のＸＭＬ文書に対応するソースツリーと、マッピング先のＸＭＬ文書に対応するデスティネーションツリーが生成される。出力部３６は、例えば編集終了時に、ＤＯＭツリーをＸＭＬ文書として出力する。

ＣＳＳユニット４０は、ＣＳＳ解析部４２、ＣＳＳ提供部４４、及びレンダリング部４６を含み、ＣＳＳに準拠した表示機能を提供する。ＣＳＳ解析部４２は、ＣＳＳの構文を解析するパーサの機能を有する。ＣＳＳ提供部４４は、ＣＳＳオブジェクトの実装であり、ＤＯＭツリーに対してＣＳＳのカスケード処理を行う。レンダリング部４６は、ＣＳＳのレンダリングエンジンであり、ＣＳＳを用いてレイアウトされるＨＴＭＬなどのボキャブラリで記述された文書の表示に用いられる。

ＨＴＭＬユニット５０は、ＨＴＭＬにより記述された文書を表示又は編集する。ＳＶＧユニット６０は、ＳＶＧにより記述された文書を表示又は編集する。これらの表示／編集系は、プラグインの形で実現されており、それぞれ、文書を表示する表示部（Canvas）５６、６６、編集指示を含むイベントを送受信する制御部（Editlet）５２、６２、編集コマンドを受けてＤＯＭに対して編集を行う編集部（Zone）５４、６４を備える。制御部５２又は６２が外部からＤＯＭツリーの編集コマンドを受け付けると、編集部５４又は６４がＤＯＭツリーを変更し、表示部５６又は６６が表示を更新する。これらは、ＭＶＣ（Model-View-Controller）と呼ばれるフレームワークに類似する構成をとっており、概ね、表示部５６及び６６が「View」に、制御部５２及び６２が「Controller」に、編集部５４及び６４とＤＯＭの実体が「Model」に、それぞれ対応する。本前提技術の文書処理装置２０では、ＸＭＬ文書をツリー表示形式で編集するだけでなく、それぞれのボキャブラリに応じた編集を可能とする。例えば、ＨＴＭＬユニット５０は、ＨＴＭＬ文書をワードプロセッサに類似した方式で編集するためのユーザインターフェースを提供し、ＳＶＧユニット６０は、ＳＶＧ文書を画像描画ツールに類似した方式で編集するためのユーザインターフェースを提供する。

ＶＣユニット８０は、マッピング部８２、定義ファイル取得部８４、及び定義ファイル生成部８６を含み、あるボキャブラリにより記述された文書を、他のボキャブラリにマッピングすることにより、マッピング先のボキャブラリに対応した表示編集用プラグインで文書を表示又は編集するためのフレームワークを提供する。本前提技術では、この機能を、ボキャブラリコネクション（Vocabulary Connection：ＶＣ）と呼ぶ。定義ファイル取得部８４は、マッピングの定義を記述したスクリプトファイルを取得する。この定義ファイルは、ノードごとに、ノード間の対応（コネクション）を記述する。このとき、各ノードの要素値や属性値の編集の可否を指定してもよい。また、ノードの要素値や属性値を用いた演算式を記述してもよい。これらの機能については、後で詳述する。マッピング部８２は、定義ファイル取得部８４が取得したスクリプトファイルを参照して、ＤＯＭ生成部３４にデスティネーションツリーを生成させ、ソースツリーとデスティネーションツリーの対応関係を管理する。定義ファイル生成部８６は、ユーザが定義ファイルを生成するためのグラフィカルユーザインターフェースを提供する。

ＶＣユニット８０は、ソースツリーとデスティネーションツリーの間のコネクションを監視し、表示を担当するプラグインにより提供されるユーザインタフェースを介してユーザから編集指示を受け付けると、まずソースツリーの該当するノードを変更する。ＤＯＭユニット３０が、ソースツリーが変更された旨のミューテーションイベントを発行すると、ＶＣユニット８０は、そのミューテーションイベントを受けて、ソースツリーの変更にデスティネーションツリーを同期させるべく、変更されたノードに対応するデスティネーションツリーのノードを変更する。デスティネーションツリーを表示／編集するプラグイン、例えばＨＴＭＬユニット５０は、デスティネーションツリーが変更された旨のミューテーションイベントを受けて、変更されたデスティネーションツリーを参照して表示を更新する。このような構成により、少数のユーザにより利用されるローカルなボキャブラリにより記述された文書であっても、他のメジャーなボキャブラリに変換することで、文書を表示することができるとともに、編集環境が提供される。

文書処理装置２０により文書を表示又は編集する動作について説明する。文書処理装置２０が処理対象となる文書を読み込むと、ＤＯＭ生成部３４が、そのＸＭＬ文書からＤＯＭツリーを生成する。また、主制御ユニット２２又は編集ユニット２４は、名前空間を参照して文書を記述しているボキャブラリを判別する。そのボキャブラリに対応したプラグインが文書処理装置２０にインストールされている場合は、そのプラグインをロードして、文書を表示／編集させる。プラグインがインストールされていない場合は、マッピングの定義ファイルが存在するか否かを確認する。定義ファイルが存在する場合、定義ファイル取得部８４が定義ファイルを取得し、その定義に従って、デスティネーションツリーが生成され、マッピング先のボキャブラリに対応するプラグインにより文書が表示／編集される。複数のボキャブラリを含む複合文書である場合は、後述するように、それぞれのボキャブラリに対応したプラグインにより、文書の該当箇所がそれぞれ表示／編集される。定義ファイルが存在しない場合は、文書のソース又はツリー構造を表示し、その表示画面において編集が行われる。

図２は、処理対象となるＸＭＬ文書の例を示す。このＸＭＬ文書は、生徒の成績データを管理するために用いられる。ＸＭＬ文書のトップノードである構成要素「成績」は、配下に、生徒ごとに設けられた構成要素「生徒」を複数有する。構成要素「生徒」は、属性値「名前」と、子要素「国語」、「数学」、「理科」、「社会」を有する。属性値「名前」は、生徒の名前を格納する。構成要素「国語」、「数学」、「理科」、「社会」は、それぞれ、国語、数学、理科、社会の成績を格納する。例えば、名前が「Ａ」である生徒の国語の成績は「９０」、数学の成績は「５０」、理科の成績は「７５」、社会の成績は「６０」である。以下、この文書で使用されているボキャブラリ（タグセット）を、「成績管理ボキャブラリ」と呼ぶ。

本前提技術の文書処理装置２０は、成績管理ボキャブラリの表示／編集に対応したプラグインを有しないので、この文書をソース表示、ツリー表示以外の方法で表示するためには、前述したＶＣ機能が用いられる。すなわち、成績管理ボキャブラリを、プラグインが用意された別のボキャブラリ、例えば、ＨＴＭＬやＳＶＧなどにマッピングするための定義ファイルを用意する必要がある。ユーザ自身が定義ファイルを作成するためのユーザインターフェースについては後述することにして、ここでは、既に定義ファイルが用意されているとして説明を進める。

図３は、図２に示したＸＭＬ文書をＨＴＭＬで記述された表にマッピングする例を示す。図３の例では、成績管理ボキャブラリの「生徒」ノードを、ＨＴＭＬにおける表（「TABLE」ノード）の行（「TR」ノード）に対応づけ、各行の第１列には属性値「名前」を、第２列には「国語」ノードの要素値を、第３列には「数学」ノードの要素値を、第４列には「理科」ノードの要素値を、第５列には「社会」ノードの要素値を、それぞれ対応付ける。これにより、図２に示したＸＭＬ文書を、ＨＴＭＬの表形式で表示することができる。また、これらの属性値及び要素値は、編集可能であることが指定されており、ユーザがＨＴＭＬによる表示画面上で、ＨＴＭＬユニット５０の編集機能により、これらの値を編集することができる。第６列には、国語、数学、理科、社会の成績の加重平均を算出する演算式が指定されており、生徒の成績の平均点が表示される。このように、定義ファイルに演算式を指定可能とすることにより、より柔軟な表示が可能となり、編集時のユーザの利便性を向上させることができる。なお、第６列は、編集不可であることが指定されており、平均点のみを個別に編集することができないようにしている。このように、マッピング定義において、編集の可否を指定可能とすることにより、ユーザの誤操作を防ぐことができる。

図４（ａ）及び図４（ｂ）は、図２に示したＸＭＬ文書を図３に示した表にマッピングするための定義ファイルの例を示す。この定義ファイルは、定義ファイル用に定義されたスクリプト言語により記述される。定義ファイルには、コマンドの定義と、表示のテンプレートが記述されている。図４（ａ）（ｂ）の例では、コマンドとして、「生徒の追加」と「生徒の削除」が定義されており、それぞれ、ソースツリーにノード「生徒」を挿入する操作と、ソースツリーからノード「生徒」を削除する操作が対応付けられている。また、テンプレートとして、表の第１行に「名前」、「国語」などの見出しが表示され、第２行以降に、ノード「生徒」の内容が表示されることが記述されている。ノード「生徒」の内容を表示するテンプレート中、「text-of」と記述された項は「編集可能」であることを意味し、「value-of」と記述された項は「編集不可能」であることを意味する。また、ノード「生徒」の内容を表示する行のうち、第６列には、「(src:国語 + src:数学 + src:理科 + src:社会) div 4」という計算式が記述されており、生徒の成績の平均が表示されることを意味する。

図５は、図２に示した成績管理ボキャブラリで記述されたＸＭＬ文書を、図３に示した対応によりＨＴＭＬにマッピングして表示した画面の例を示す。表９０の各行には、左から、各生徒の名前、国語の成績、数学の成績、理科の成績、社会の成績、及び平均点が表示されている。ユーザは、この画面上で、ＸＭＬ文書を編集することができる。たとえば、第２行第３列の値を「７０」に変更すると、このノードに対応するソースツリーの要素値、すなわち、生徒「Ｂ」の数学の成績が「７０」に変更される。このとき、ＶＣユニット８０は、デスティネーションツリーをソースツリーに追従させるべく、デスティネーションツリーの該当箇所を変更し、ＨＴＭＬユニット５０が、変更されたデスティネーションツリーに基づいて表示を更新する。したがって、画面上の表においても、生徒「Ｂ」の数学の成績が「７０」に変更され、更に、平均点が「５５」に変更される。

図５に示した画面には、図４（ａ）（ｂ）に示した定義ファイルに定義されたように、「生徒の追加」及び「生徒の削除」のコマンドがメニューに表示される。ユーザがこれらのコマンドを選択すると、ソースツリーにおいて、ノード「生徒」が追加又は削除される。このように、本前提技術の文書処理装置２０では、階層構造の末端の構成要素の要素値を編集するのみではなく、階層構造を編集することも可能である。このようなツリー構造の編集機能は、コマンドの形でユーザに提供されてもよい。また、例えば、表の行を追加又は削除するコマンドが、ノード「生徒」を追加又は削除する操作に対応づけられてもよい。また、他のボキャブラリを埋め込むコマンドがユーザに提供されてもよい。この表を入力用テンプレートとして、穴埋め形式で新たな生徒の成績データを追加することもできる。以上のように、ＶＣ機能により、ＨＴＭＬユニット５０の表示／編集機能を利用しつつ、成績管理ボキャブラリで記述された文書を編集することが可能となる。

図６は、ユーザが定義ファイルを生成するために、定義ファイル生成部８６がユーザに提示するグラフィカルユーザインタフェースの例を示す。画面左側の領域９１には、マッピング元のＸＭＬ文書がツリー表示されている。画面右側の領域９２には、マッピング先のＸＭＬ文書の画面レイアウトが示されている。この画面レイアウトは、ＨＴＭＬユニット５０により編集可能となっており、ユーザは、画面右側の領域９２において、文書を表示するための画面レイアウトを作成する。そして、例えば、マウスなどのポインティングデバイスにより、画面左側の領域９１に表示されたマッピング元のＸＭＬ文書のノードを、画面右側の領域９２に表示されたＨＴＭＬによる画面レイアウト中へドラッグ＆ドロップ操作を行うことにより、マッピング元のノードと、マッピング先のノードとのコネクションが指定される。例えば、要素「生徒」の子要素である「数学」を、ＨＴＭＬ画面の表９０の第１行第３列にドロップすると、「数学」ノードと、３列目の「ＴＤ」ノードの間にコネクションが張られる。各ノードには、編集の可否が指定できるようになっている。また、表示画面中には、演算式を埋め込むこともできる。画面の編集が終わると、定義ファイル生成部８６は、画面レイアウトとノード間のコネクションを記述した定義ファイルを生成する。

ＸＨＴＭＬ、ＭａｔｈＭＬ、ＳＶＧなどの主要なボキャブラリに対応したビューワやエディタは既に開発されているが、図２に示した文書のようなオリジナルなボキャブラリで記述された文書に対応したビューワやエディタを開発するのは現実的でない。しかし、上記のように、他のボキャブラリにマッピングするための定義ファイルを作成すれば、ビューワやエディタを開発しなくても、ＶＣ機能を利用して、オリジナルなボキャブラリで記述された文書を表示・編集することができる。

図７は、定義ファイル生成部８６により生成された画面レイアウトの他の例を示す。図７の例では、成績管理ボキャブラリで記述されたＸＭＬ文書を表示するための画面に、表９０と、円グラフ９３が作成されている。この円グラフ９３は、ＳＶＧにより記述される。後述するように、本前提技術の文書処理装置２０は、一つのＸＭＬ文書内に複数のボキャブラリを含む複合文書を処理することができるので、この例のように、ＨＴＭＬで記述された表９０と、ＳＶＧで記述された円グラフ９３とを、一つの画面上に表示することができる。

図８は、文書処理装置２０によるＸＭＬ文書の編集画面の一例を示す。図８の例では、一つの画面が複数に分割されており、それぞれの領域において、処理対象となるＸＭＬ文書を異なる複数の表示形式により表示している。領域９４には、文書のソースが表示されており、領域９５には、文書のツリー構造が表示されており、領域９６には、図５に示したＨＴＭＬにより記述された表が表示されている。これらのいずれの画面上においても、文書の編集が可能であり、いずれかの画面上でユーザが編集を行うと、ソースツリーが変更され、それぞれの画面の表示を担当するプラグインが、ソースツリーの変更を反映すべく画面を更新する。具体的には、ソースツリーの変更を通知するミューテーションイベントのリスナーとして、それぞれの編集画面の表示を担当するプラグインの表示部を登録しておき、いずれかのプラグイン又はＶＣユニット８０によりソースツリーが変更されたときに、編集画面を表示中の全ての表示部が、発行されたミューテーションイベントを受け取って画面を更新する。このとき、プラグインがＶＣ機能により表示を行っている場合は、ＶＣユニット８０がソースツリーの変更に追従してデスティネーションツリーを変更した後、変更されたデスティネーションツリーを参照してプラグインの表示部が画面を更新する。

例えば、ソース表示及びツリー表示を、専用のプラグインにより実現している場合は、ソース表示用プラグインとツリー表示用プラグインは、デスティネーションツリーを用いず、直接ソースツリーを参照して表示を行う。この場合、いずれかの画面において編集が行われると、ソース表示用プラグインとツリー表示用プラグインは、変更されたソースツリーを参照して画面を更新し、領域９６の画面を担当しているＨＴＭＬユニット５０は、ソースツリーの変更に追従して変更されたデスティネーションツリーを参照して画面を更新する。

ソース表示及びツリー表示は、ＶＣ機能を利用して実現することもできる。すなわち、ソース、ツリー構造をＨＴＭＬによりレイアウトし、そのＨＴＭＬにＸＭＬ文書をマッピングして、ＨＴＭＬユニット５０により表示してもよい。この場合、ソース形式、ツリー形式、表形式の３つのデスティネーションツリーが生成されることになる。いずれかの画面において編集が行われると、ＶＣユニット８０は、ソースツリーを変更した後、ソース形式、ツリー形式、表形式の３つのデスティネーションツリーをそれぞれ変更し、ＨＴＭＬユニット５０は、それらのデスティネーションツリーを参照して、３つの画面を更新する。

このように、一つの画面上に複数の表示形式で文書を表示することにより、ユーザの利便性を向上させることができる。例えば、ユーザは、ソース表示又はツリー表示により文書の階層構造を把握しつつ、表９０などを用いて視覚的に分かりやすい形式で文書を表示し、編集することができる。上記の例では、一つの画面を分割して複数の表示形式による画面を同時に表示したが、一つの画面に一つの表示形式による画面を表示し、表示形式をユーザの指示により切り替え可能としてもよい。この場合、主制御ユニット２２が、ユーザから表示形式の切り替え要求を受け付け、各プラグインに指示して表示を切り替える。

図９は、文書処理装置２０により編集されるＸＭＬ文書の他の例を示す。図９に示したＸＭＬ文書では、ＳＶＧ文書の「foreignObject」タグの中にＸＨＴＭＬ文書が埋め込まれており、さらに、ＸＨＴＭＬ文書の中にＭａｔｈＭＬで記述された数式が入っている。このような場合、編集ユニット２４が、名前空間を参照して、適切な表示系に描画作業を振り分ける。図９の例では、編集ユニット２４は、まず、ＳＶＧユニット６０に四角形を描画させ、つづいて、ＨＴＭＬユニット５０にＸＨＴＭＬ文書を描画させる。さらに、図示しないＭａｔｈＭＬユニットに、数式を描画させる。こうして、複数のボキャブラリを包含する複合文書が適切に表示される。表示結果を図１０に示す。

文書編集中、カーソル（キャリッジ）の位置に応じて、表示されるメニューを切り替えてもよい。すなわち、カーソルが、ＳＶＧ文書が表示された領域内に存在するときは、ＳＶＧユニット６０が提供するメニュー、又はＳＶＧ文書をマッピングするための定義ファイルに定義されたコマンドを表示し、カーソルが、ＸＨＴＭＬ文書が表示された領域内に存在するときは、ＨＴＭＬユニット５０が提供するメニュー、又はＸＨＴＭＬ文書をマッピングするための定義ファイルに定義されたコマンドを表示する。これにより、編集位置に応じて適切なユーザインターフェースを提供することができる。

複合文書において、あるボキャブラリに対応する適切なプラグイン又はマッピング定義ファイルがなかった場合は、そのボキャブラリにより記述された部分は、ソース表示又はツリー表示されてもよい。従来、ある文書に他の文書を埋め込んだ複合文書を開くとき、埋め込まれた文書を表示するアプリケーションがインストールされていないと、その内容を表示することができなかったが、本前提技術では、表示用のアプリケーションが存在しなくても、テキストデータにより構成されたＸＭＬ文書をソース表示又はツリー表示することにより内容を把握することができる。これは、テキストベースであるＸＭＬなどの文書ならではの特徴といえる。

データがテキストベースで記述されることの他の利点として、例えば、複合文書中の、あるボキャブラリにより記述される部分において、同一文書内の他のボキャブラリで記述された部分のデータを参照してもよい。また、文書内で検索を実行する時に、ＳＶＧなどの図に埋め込まれた文字列も検索対象とすることができる。

あるボキャブラリにより記述された文書内に、他のボキャブラリのタグを用いてもよい。このＸＭＬ文書は、妥当（valid）ではないが、整形式（well-formed）であれば、有効なＸＭＬ文書として処理可能である。この場合、挿入された他のボキャブラリのタグは、定義ファイルによりマッピングされてもよい。例えば、ＸＨＴＭＬ文書中に、「重要」、「最重要」などのタグを使用し、これらのタグで囲まれた部分を強調表示してもよいし、重要度の順にソートして表示してもよい。

図１０に示した編集画面において、ユーザにより文書が編集されると、編集された部分を担当するプラグイン又はＶＣユニット８０がソースツリーを変更する。ソースツリーには、ノードごとにミューテーションイベントのリスナーを登録できるようになっており、通常は、各ノードが属するボキャブラリに対応したプラグインの表示部又はＶＣユニット８０がリスナーとして登録される。ＤＯＭ提供部３２は、ソースツリーが変更されると、変更されたノードから上位の階層へたどって、登録されたリスナーがあれば、そのリスナーへミューテーションイベントを発行する。例えば、図９に示した文書において、＜ｈｔｍｌ＞ノードの下位のノードが変更された場合、＜ｈｔｍｌ＞ノードにリスナーとして登録されたＨＴＭＬユニット５０にミューテーションイベントが通知されるとともに、その上位の＜ｓｖｇ＞ノードにリスナーとして登録されたＳＶＧユニット６０にもミューテーションイベントが通知される。このとき、ＨＴＭＬユニット５０は、変更されたソースツリーを参照して表示を更新する。ＳＶＧユニット６０は、自身のボキャブラリに属するノードが変更されていないので、ミューテーションイベントを無視してもよい。

編集の内容によっては、ＨＴＭＬユニット５０による表示の更新に伴って、全体のレイアウトが変わる可能性がある。この場合は、画面のレイアウトを管理する構成、例えば最上位のノードの表示を担当するプラグインにより、プラグインごとの表示領域のレイアウトが更新される。例えば、ＨＴＭＬユニット５０による表示領域が以前より大きくなった場合、ＨＴＭＬユニット５０は、まず自身の担当する部分を描画して、表示領域の大きさを決定する。そして、画面のレイアウトを管理する構成に、変更後の表示領域の大きさを通知し、レイアウトの更新を依頼する。画面のレイアウトを管理する構成は、通知を受けて、プラグインごとの表示領域を再レイアウトする。こうして、編集された部分の表示が適切に更新されるとともに、画面全体のレイアウトが更新される。

つづいて、前提技術の文書処理装置２０を実現する機能構成について更に詳細に説明する。以下の説明では、クラス名などを記載する際には、英字をそのまま用いて記載することにする。

Ａ．概要
インターネットの出現により、ユーザによって処理され管理される文書の数が、ほぼ指数関数的に増加してきた。インターネットの核を形成するウェブ（World Wide Web）は、そのような文書データの大きな受け皿となっている。ウェブは、文書に加えて、このような文書の情報検索システムを提供する。これらの文書は、通常、マークアップ言語により記述される。マークアップ言語のシンプルかつポピュラーな例の一つにＨＴＭＬ（HyperText Markup Language）がある。このような文書は、ウェブの他の位置に格納されている他の文書へのリンクをさらに含む。ＸＭＬ（eXtensible Markup Language）は、さらに高度でポピュラーなマークアップ言語である。ウェブ文書にアクセスし、閲覧するためのシンプルなブラウザが、Ｊａｖａ（登録商標）のようなオブジェクト指向のプログラミング言語で開発されている。

マークアップ言語により記述された文書は、通常、ブラウザや他のアプリケーションの中では、ツリーデータ構造の形で表現される。この構造は、文書を構文解析した結果のツリーに相当する。ＤＯＭ（Document Object Model）は、文書を表現し、操作するために使用される、よく知られたツリーベースのデータ構造モデルである。ＤＯＭは、ＨＴＭＬやＸＭＬ文書などを含む文書を表現するための標準的なオブジェクトのセットを提供する。ＤＯＭは、文書内のコンポーネントを表現するオブジェクトがどのようにつながっているかという標準モデルと、それらのオブジェクトにアクセスしたり操作したりするための標準インタフェイスという、２つの基本的なコンポーネントを含む。

アプリケーション開発者は、独自のデータ構造やＡＰＩ（Application Program Interface）へのインタフェイスとしてＤＯＭをサポートすることができる。他方、文書を作成するアプリケーション開発者は、彼らのＡＰＩの独自インタフェイスではなく、ＤＯＭの標準インタフェイスを使用することができる。したがって、標準を提供するというその能力により、ＤＯＭは、様々な環境、特にウェブにおいて、文書の相互利用を促進させるために有効である。ＤＯＭのいくつかのバージョンが定義されており、異なるプログラミング環境及びアプリケーションによって使用されている。

ＤＯＭツリーは、対応するＤＯＭの内容に基づいた文書の階層的表現である。ＤＯＭツリーは「根（ルート）」、及びルートから発生する１つ以上の「節（ノード）」を含む。ルートが文書全体を表す場合もある。中間のノードは、例えば、テーブル及びそのテーブル中の行及び列のような要素を表すことができる。ＤＯＭツリーの「葉」は、通常、それ以上分解できないテキストや画像のようなデータを表す。ＤＯＭツリーの各ノードは、フォント、サイズ、色、インデントなど、ノードによって表される要素のパラメータを記述する属性に関連付けられてもよい。

ＨＴＭＬは、文書を作成するために一般に用いられる言語であるが、フォーマット及びレイアウト用の言語であり、データ記述のための言語ではない。ＨＴＭＬドキュメントを表現するＤＯＭツリーのノードは、ＨＴＭＬのフォーマッティングタグとして予め定義されたエレメントであって、通常、ＨＴＭＬは、データの詳述や、データのタギング／ラベリングのための機能を提供しないので、ＨＴＭＬドキュメント中のデータに対するクエリを定式化することは多くの場合困難である。

ネットワーク設計者たちの目指すものは、ウェブ上の文書がソフトウェアアプリケーションによってクエリされたり処理されたりできるようにすることである。表示方法とは無関係で、階層的に構造化された言語であれば、そのようにクエリされ処理されることができる。ＸＭＬ（eXtensible Markup Language）のようなマークアップ言語は、これらの特徴を提供することができる。

ＨＴＭＬとは逆に、ＸＭＬのよく知られた利点は、文書の設計者が自由に定義可能な「タグ」を使用して、データ要素にラベルを付けることが可能である点である。このようなデータ要素は、階層的に構造化することができる。さらに、ＸＭＬ文書は、文書内で用いられるタグ及びそれらの相互関係の「文法」を記述した文書型定義を含むことができる。構造化されたＸＭＬ文書の表示方法を定義するために、ＣＳＳ（Cascading Style Sheet）又はＸＳＬ（XML Style Language）が使用される。ＤＯＭ、ＨＴＭＬ、ＸＭＬ、ＣＳＳ、ＸＳＬ及び関連する言語の特徴に関する付加的な情報は、ウェブからも得ることができる。（例えば、http://www.w3.org/TR/）

Ｘｐａｔｈは、ＸＭＬ文書の部分の位置を指定するために共通のシンタックス及びセマンティクスを提供する。機能性の例として、ＸＭＬ文書に対応するＤＯＭツリーのトラバース（移動）がある。それは、ＸＭＬ文書の様々な表現に関連した文字列、数、及びブーリアン文字の操作のための基本的な機能を提供する。Ｘｐａｔｈは、ＸＭＬ文書の見た目のシンタックス、例えば、テキストとしてみたときに何行目であるとか何文字目であるとかといった文法ではなく、ＤＯＭツリーなどの抽象的・論理的な構造において動作する。Ｘｐａｔｈを使用することにより、例えばＸＭＬ文書のＤＯＭツリー内の階層的構造を通じて場所を指定することができる。アドレシングのための使用の他に、Ｘｐａｔｈは、ＤＯＭツリー中のノードがパターンにマッチするか否かをテストするために使用されるようにも設計されている。ＸＰａｔｈに関する更なる詳細は、http://www.w3.org/TR/xpathで得ることができる。

ＸＭＬの既知の利点及び特徴により、マークアップ言語（例えばＸＭＬ）で記述された文書を扱うことができ、文書を作成及び修正するためのユーザフレンドリーなインタフェイスを提供することができる、効果的な文書処理システムが求められる。

ここで説明されるシステムの構成のうちのいくつかは、ＭＶＣ（Model-View-Controller）と呼ばれる、よく知られたＧＵＩ（Graphical User Interface）パラダイムを用いて説明される。ＭＶＣパラダイムは、アプリケーション又はアプリケーションのインタフェイスの一部を、３つの部分、すなわち、モデル、ビュー、コントローラに分割する。ＭＶＣは、元は、ＧＵＩの世界に、従来の入力、処理、出力の役割を割り当てるために開発された。
［入力］ → ［処理］ → ［出力］
［コントローラ］→ ［モデル］ → ［ビュー］

ＭＶＣパラダイムによれば、外界のモデリング、ユーザへの視覚的なフィードバック、及びユーザの入力は、モデル（Ｍ）、ビュー（Ｖ）、及びコントローラ（Ｃ）オブジェクトにより分離されて扱われる。コントローラは、ユーザからのマウスとキーボード入力のような入力を解釈し、これらのユーザアクションを、適切な変更をもたらすためにモデル及び／又はビューに送られるコマンドにマップするように作用する。モデルは、１以上のデータ要素を管理するように作用し、その状態に関するクエリに応答し、状態を変更する指示に応答する。ビューは、ディスプレイの長方形の領域を管理するように作用し、グラフィクスとテキストの組合せによりユーザにデータを提示する機能を有する。

Ｂ．文書処理システムの全体構成
文書処理システムの実施例は、図１１−２９に関連して明らかにされる。

図１１（ａ）は、後述するタイプの文書処理システムの基礎として機能する要素の従来の構成例を示す。構成１０は、通信経路１３によりメモリ１２に接続されたＣＰＵ又はマイクロプロセッサ１１などの形式のプロセッサを含む。メモリ１２は、現在又は将来に利用可能な任意のＲＯＭ及び／又はＲＡＭの形式であってもよい。通信経路１３は、典型的にはバスとして設けられる。マウス、キーボード、音声認識システムなどのユーザ入力装置１４及び表示装置１５（又は他のユーザインタフェイス）に対する入出力インタフェイス１６も、プロセッサ１１とメモリ１２の通信のためのバスに接続される。この構成は、スタンドアロンであってもよいし、複数の端末及び１以上のサーバが接続されてネットワーク化された形式であってもよいし、既知のいかなる方式により構成されてもよい。本発明は、これらのコンポーネントの配置、集中又は分散されたアーキテクチャー、あるいは様々なコンポーネントの通信方法により制限されない。

さらに、本システム及びここで議論される実施例は、様々な機能性を提供するいくつかのコンポーネント及びサブコンポーネントを含むものとして議論される。これらのコンポーネント及びサブコンポーネントは、注目された機能性を提供するために、ハードウェアとソフトウェアの組合せだけでなく、ハードウェアのみ、ソフトウェアのみによっても実現されうる。さらに、ハードウェア、ソフトウェア、及びそれらの組合せは、汎用の計算装置、専用のハードウェア、又はそれらの組合せにより実現されうる。したがって、コンポーネント又はサブコンポーネントの構成は、コンポーネント又はサブコンポーネントの機能性を提供するための特定のソフトウェアを実行する汎用／専用の計算装置を含む。

図１１（ｂ）は、文書処理システムの一例の全体のブロック図を示す。このような文書処理システムにおいて文書が生成され編集される。これらの文書は、例えばＸＭＬなど、マークアップ言語の特徴を有する任意の言語により記述されてもよい。また、便宜上、特定のコンポーネント及びサブコンポーネントの用語及び表題を創造した。しかしながら、これらは、この開示の一般的な教示の範囲を制限するために解釈されるべきではない。

文書処理システムは、２つの基本的な構成を有するものととらえることができる。第１の構成は、文書処理システムが動作する環境である「実行環境」１０１である。例えば、実行環境は、文書の処理中及び管理中に、ユーザだけでなくシステムも支援する、基本的なユーティリティ及び機能を提供する。第２の構成は、実行環境において走るアプリケーションから構成される「アプリケーション」１０２である。これらのアプリケーションは、文書自身及び文書の様々な表現を含む。

１．実行環境
実行環境１０１のキーとなるコンポーネントはProgramInvoker（プログラムインボーカ：プログラム起動部）１０３である。ProgramInvoker１０３は、文書処理システムを起動するためにアクセスされる基本的なプログラムである。例えば、ユーザが文書処理システムにログオンして開始するとき、ProgramInvoker１０３が実行される。ProgramInvoker１０３は、例えば、文書処理システムにプラグインとして加えられた機能を読み出して実行させたり、アプリケーションを開始して実行させたり、文書に関連するプロパティを読み出すことができる。ProgramInvoker１０３の機能はこれらに限定されない。ユーザが実行環境内で実行されるように意図されたアプリケーションを起動したいとき、ProgramInvoker１０３は、そのアプリケーションを見つけ、それを起動して、アプリケーションを実行する。

ProgramInvoker１０３には、プラグインサブシステム１０４、コマンドサブシステム１０５、及びResource（リソース）モジュール１０９などのいくつかのコンポーネントがアタッチされている。これらの構成については、以下に詳述する。

ａ）プラグインサブシステム
プラグインサブシステム１０４は、文書処理システムに機能を追加するための高度に柔軟で効率的な構成として使用される。プラグインサブシステム１０４は、また、文書処理システムに存在する機能を修正又は削除するために使用することができる。さらに、種々様々の機能をプラグインサブシステムを使用して追加又は修正することができる。例えば、画面上への文書の描画を支援するように作用するEditlet（エディットレット：編集部）機能を追加することもできる。Editletプラグインは、システムに追加されるボキャブラリの編集も支援する。

プラグインサブシステム１０４は、ServiceBroker（サービスブローカ：サービス仲介部）１０４１を含む。ServiceBroker１０４１は、文書処理システムに加えられるプラグインを管理することにより、文書処理システムに加えられるサービスを仲介する。

所望の機能性を実現する個々の機能は、Service（サービス）１０４２の形でシステムに追加される。利用可能なService１０４２のタイプは、Application（アプリケーション）サービス、ZoneFactory（ゾーンファクトリ：ゾーン生成部）Service、Editlet（エディットレット：編集部）Service、CommandFactory（コマンドファクトリ：コマンド生成部）Service、ConnectXPath（コネクトＸＰａｔｈ：ＸＰａｔｈ管理部）Service、CSSComputation（ＣＳＳコンピューテーション：ＣＳＳ計算部）Serviceなどを含むが、これらに限定されない。これらのService、及びシステムの他の構成とそれらとの関係は、文書処理システムについてのよりよい理解のために、以下に詳述される。

プラグインとServiceの関係は以下の通りである。プラグインは、１以上のServiceProvider（サービスプロバイダ：サービス提供部）を含むことができるユニットである。それぞれのServiceProviderは、それに関連したServiceの１以上のクラスを有する。例えば、適切なソフトウェアアプリケーションを有する単一のプラグインを使用することにより、１以上のServiceをシステムに追加することができ、これにより、対応する機能をシステムに追加することができる。

ｂ）コマンドサブシステム
コマンドサブシステム１０５は、文書の処理に関連したコマンドの形式の命令を実行するために使用される。ユーザは、一連の命令を実行することにより、文書に対する操作を実行することができる。例えば、ユーザは、コマンドの形で命令を発行することにより、文書処理システム中のＸＭＬ文書に対応するＸＭＬのＤＯＭツリーを編集し、ＸＭＬ文書を処理する。これらのコマンドは、キーストローク、マウスクリック、又は他の有効なユーザインタフェイスアクションを使用して入力されてもよい。１つのコマンドにより１以上の命令が実行されることもある。この場合、これらの命令が１つのコマンドにラップ（包含）され、連続して実行される。例えば、ユーザが、誤った単語を正しい単語に置換したいとする。この場合、第１の命令は、文書中の誤った単語を発見することであり、第２の命令は、誤った単語を削除することであり、第３の命令は、正しい単語を挿入することであってもよい。これらの３つの命令が１つのコマンドにラップされてもよい。

コマンドは、関連した機能、例えば、後で詳述する「アンドゥ」機能を有してもよい。これらの機能は、オブジェクトを生成するために使用されるいくつかの基本クラスにも割り当てられてもよい。

コマンドサブシステム１０５のキーとなるコンポーネントは、選択的にコマンドを与え、実行するように作用するCommandInvoker（コマンドインボーカ：コマンド起動部）１０５１である。図１１（ｂ）には、１つのCommandInvokerのみが示されているが、１以上のCommandInvokerが使用されてもよく、１以上のコマンドが同時に実行されてもよい。CommandInvoker１０５１は、コマンドを実行するために必要な機能及びクラスを保持する。動作において、実行されるべきCommand（コマンド：命令）１０５２は、Queue（キュー）１０５３に積まれる。CommandInvokerは、連続的に実行するコマンドスレッドを生成する。CommandInvoker内で既に実行中のCommandがなければ、CommandInvoker１０５１により実行されるように意図されたCommand１０５２が実行される。CommandInvokerが既にコマンドを実行している場合、新しいCommandは、Queue１０５３の最後に積まれる。しかしながら、それぞれのCommandInvoker１０５１では、一度に１つのCommandのみが実行される。指定されたCommandの実行に失敗した場合、CommandInvoker１０５１は例外処理を実行する。

CommandInvoker１０５１により実行されるCommandの型は、UndoableCommand（取消可能コマンド）１０５４、AsynchronousCommand（非同期コマンド）１０５５、及びVCCommand（ＶＣコマンド）１０５６を含むが、これらに限定されない。UndoableCommand１０５４は、ユーザが望めば、そのCommandの結果を取り消すことが可能なCommandである。UndoableCommandの例として、切り取り、コピー、テキストの挿入、などがある。動作において、ユーザが文書の一部を選択し、その部分に切り取りコマンドを適用するとき、UndoableCommandを用いることにより、切り取られた部分は、必要であれば、「切り取られていない」ようにすることができる。

VCCommand１０５６は、ボキャブラリコネクション記述子（Vocabulary Connection Descriptor：ＶＣＤ）スクリプトファイルに格納される。これらは、プログラマにより定義されうるユーザ指定のCommandである。Commandは、例えば、ＸＭＬフラグメントを追加したり、ＸＭＬフラグメントを削除したり、属性を設定したりするための、より抽象的なCommandの組合せであってもよい。これらのCommandは、特に、文書の編集に焦点を合わせている。

AsynchronousCommand１０５５は、文書のロードや保存など、システムよりのCommandであり、UndoableCommandやVCCommandとは別に、非同期的に実行される。AsynchronousCommandは、UndoableCommandではないので、取り消すことはできない。

ｃ）リソース
Resource１０９は、様々なクラスに、いくつかの機能を提供するオブジェクトである。例えば、ストリングリソース、アイコン、及びデフォルトキーバインドは、システムで使用されるResourceの例である。

２．アプリケーションコンポーネント
文書処理システムの第２の主要な特徴であるアプリケーションコンポーネント１０２は、実行環境１０１において実行される。アプリケーションコンポーネント１０２は、実際の文書と、システム内における文書の様々な論理的、物理的な表現を含む。さらに、アプリケーションコンポーネント１０２は、文書を管理するために使用されるシステムの構成を含む。アプリケーションコンポーネント１０２は、さらに、UserApplication（ユーザアプリケーション）１０６、アプリケーションコア１０８、ユーザインタフェイス１０７、及びCoreComponent（コアコンポーネント）１１０を含む。

ａ）ユーザアプリケーション
UserApplication１０６は、ProgramInvoker１０３と共にシステム上にロードされる。UserApplication１０６は、文書と、文書の様々な表現と、文書と対話するために必要なユーザインタフェイスとをつなぐ接着剤となる。例えば、ユーザが、プロジェクトの一部である文書のセットを生成したいとする。これらの文書がロードされると、文書の適切な表現が生成される。ユーザインタフェイス機能は、UserApplication１０６の一部として追加される。言いかえれば、UserApplication１０６は、ユーザがプロジェクトの一部を形成する文書と対話することを可能とする文書の表現と、文書の様々な態様とを、共に保持する。一旦UserApplication１０６が生成されると、ユーザがプロジェクトの一部を形成する文書との対話を望むたびに、ユーザは簡単に実行環境上にUserApplication１０６をロードすることができる。

ｂ）コアコンポーネント
CoreComponent１１０は、複数のPane（ペイン）の間で文書を共有する方法を提供する。後で詳述するように、Paneは、ＤＯＭツリーを表示し、画面の物理的なレイアウトを扱う。例えば、物理的な画面は、個々の情報の断片を描写する画面内の複数のPaneからなる。ユーザから画面上に見える文書は、１又はそれ以上のPaneに出現しうる。また、２つの異なる文書が画面上で２つの異なるPaneに現れてもよい。

図１１（ｃ）に示されるように、画面の物理的なレイアウトもツリーの形式になっている。Paneは、RootPane（ルートペイン）１０８４にもなり得るし、SubPane（サブペイン）１０８５にもなり得る。RootPane１０８４は、Paneのツリーの根に当たるPaneであり、SubPane１０８５は、RootPane１０８４以外の任意のPaneである。

CoreComponent１１０は、さらに、フォントを提供し、ツールキットなど、文書のための複数の機能的な操作のソースの役割を果たす。CoreComponent１１０により実行されるタスクの一例に、複数のPane間におけるマウスカーソルの移動がある。実行されるタスクの他の例として、あるPane中の文書の一部をマークし、それを異なる文書を含む別のPane上にコピーする。

ｃ）アプリケーションコア
上述したように、アプリケーションコンポーネント１０２は、システムにより処理され管理される文書から構成される。これは、システム内における文書の様々な論理的及び物理的な表現を含む。アプリケーションコア１０８は、アプリケーションコンポーネント１０２の構成である。その機能は、実際の文書を、それに含まれる全てのデータとともに保持することである。アプリケーションコア１０８は、DocumentManager（ドキュメントマネージャ：文書管理部）１０８１及びDocument（ドキュメント：文書）１０８２自身を含む。

DocumentManager１０８１の様々な態様を以下に詳述する。DocumentManager１０８１は、Document１０８２を管理する。DocumentManager１０８１は、RootPane１０８４、SubPane１０８５、ClipBoard（クリップボード）ユーティリティ１０８７、及びSnapShot（スナップショット）ユーティリティ１０８８にも接続される。ClipBoardユーティリティ１０８７は、ユーザがクリップボードに加えることを決定した文書の部分を保持する方法を提供する。例えば、ユーザが、文書の一部を切り取り、後で再考するために新規文書にそれを保存することを望んだとする。このような場合、切り取られた部分がClipBoardに追加される。

つづいて、SnapShotユーティリティ１０８８についても説明する。SnapShotユーティリティ１０８８は、アプリケーションがある状態から別の状態まで移行するときに、アプリケーションの現在の状態を記憶することを可能とする。

ｄ）ユーザインタフェイス
アプリケーションコンポーネント１０２の別の構成は、ユーザがシステムと物理的に対話する手段を提供するユーザインタフェイス１０７である。例えば、ユーザインタフェイスは、ユーザが文書をアップロードしたり、削除したり、編集したり、管理したりするために使用される。ユーザインタフェイスは、Frame（フレーム）１０７１、MenuBar（メニューバー）１０７２、StatusBar（ステータスバー）１０７３、及びURLBar（ＵＲＬバー）１０７４を含む。

Frame１０７１は、一般に知られているように、物理的な画面のアクティブな領域であるとみなされる。MenuBar１０７２は、ユーザに選択を提供するメニューを含む画面領域である。StatusBar１０７３は、アプリケーションの実行状態を表示する画面領域である。URLBar１０７４は、インターネットをナビゲートするためにＵＲＬアドレスを入力する領域を提供する。

Ｃ．文書管理及び関連するデータ構造
図１２は、DocumentManager１０８１の詳細を示す。これは、文書処理システム内で文書を表現するために用いられるデータ構造及び構成を含む。分かりやすくするために、このサブセクションで説明される構成は、ＭＶＣパラダイムを用いて説明される。

DocumentManager１０８１は、文書処理システム内にある全ての文書を保持しホストするDocumentContainer（ドキュメントコンテナ：文書コンテナ）２０３を含む。DocumentManager１０８１にアタッチされたツールキット２０１は、DocumentManager１０８１により使用される様々なツールを提供する。例えば、DomService（ＤＯＭサービス）は、文書に対応するＤＯＭを生成し、保持し、管理するために必要とされる全ての機能を提供するために、ツールキット２０１により提供されるツールである。ツールキット２０１により提供される別のツールであるIOManager（入出力管理部）は、システムへの入力及びシステムからの出力を管理する。同様に、StreamHandler（ストリームハンドラ）は、ビットストリームによる文書のアップロードを扱うツールである。これらのツールは、図中に特に示さず、参照番号を割り当てないが、ツールキット２０１のコンポーネントを形成する。

ＭＶＣパラダイムの表現によれば、モデル（Ｍ）は、文書のＤＯＭツリーモデル２０２を含む。前述したように、全ての文書は、文書処理システムにおいてＤＯＭツリーとして表現される。文書は、また、DocumentContainer２０３の一部を形成する。

１．ＤＯＭモデル及びゾーン
文書を表現するＤＯＭツリーは、Node（ノード）２０２１を有するツリーである。ＤＯＭツリーの部分集合であるZone（ゾーン）２０９は、ＤＯＭツリー内の１以上のNodeの関連領域を含む。例えば、画面上で文書の一部のみを表示し得るが、この可視化された文書の一部はZone２０９を用いて表示される。Zoneは、ZoneFactory（ゾーンファクトリ：ゾーン生成部）２０５と呼ばれるプラグインを用いて、生成され、取り扱われ、処理される。ZoneはＤＯＭの一部を表現するが、１以上の「名前空間」を使用してもよい。よく知られているように、名前空間は、名前空間内でユニークな名前の集合である。換言すれば、名前空間内に同じ名前は存在しない。

２．Facet及びFacetとZoneとの関係
Facet（ファセット）２０２２は、ＭＶＣパラダイムのモデル（Ｍ）部分内の別の構成である。Facetは、ZoneにおいてNodeを編集するために使用される。Facet２０２２は、Zone自身の内容に影響を与えずに実行することができる手続（プロシージャ）を使用して、ＤＯＭへのアクセスを編成する。次に説明するように、これらの手続は、Nodeに関連した重要で有用な操作を実行する。

各Nodeは、対応するFacetを有する。ＤＯＭの中のNodeを直接操作する代わりに、操作を実行するためにFacetを使用することによって、ＤＯＭの保全性は保護される。操作がNode上で直接実行される場合、いくつかのプラグインがＤＯＭを同時に変更することができ、その結果矛盾を引き起こす。

Ｗ３Ｃが策定したＤＯＭの標準規格は、Nodeを操作するための標準的なインタフェイスを定義するが、実際には、ボキャブラリごと又はNodeごとに特有の操作があるので、これらの操作をＡＰＩとして用意しておくのが好都合である。文書処理システムでは、このような各Nodeに特有のＡＰＩをFacetとして用意し、各Nodeにアタッチする。これにより、ＤＯＭの標準規格に準拠しつつ、有用なＡＰＩを付加することができる。また、ボキャブラリごとに特有のＤＯＭを実装するのではなく、標準的なＤＯＭの実装に、後から特有のＡＰＩを付加するようにすることで、多様なボキャブラリを統一的に処理することができるともに、複数のボキャブラリが任意の組合せで混在した文書を適切に処理することができる。

ボキャブラリは、名前空間に属するタグ（例えばＸＭＬのタグ）のセットである。上述したように、名前空間は、ユニークな名前（ここではタグ）のセットを有する。ボキャブラリは、ＸＭＬ文書を表現するＤＯＭツリーのサブツリーとして現れる。このサブツリーはZoneを含む。特定の例においては、タグセットの境界はZoneによって定義される。Zone２０９は、ZoneFactory２０５と呼ばれるServiceを利用して生成される。上述したように、Zone２０９は、文書を表現するＤＯＭツリーの一部の内部表現である。このような文書の一部へのアクセスを提供するために、論理的な表現が要求される。この論理的表現は、文書が画面上で論理的にどのように表現されるかについてコンピュータに通知する。Canvas（キャンバス）２１０は、Zoneに対応する論理的なレイアウトを提供するように作用するServiceである。

他方、Pane２１１は、Canvas２１０により提供される論理的なレイアウトに対応する物理的な画面レイアウトである。実際、ユーザは表示画面上で文字や画像によって文書のレンダリングのみを見る。したがって、文書は、画面上に文字や画像を描画するプロセスにより、画面上に描写されなければならない。文書は、Pane２１１により提供される物理的なレイアウトに基づいて、Canvas２１０により画面上に描写される。

Zone２０９に対応するCanvas２１０は、Editlet２０６を使用して生成される。文書のＤＯＭは、Editlet２０６及びCanvas２１０を使用して編集される。元の文書の完全性を維持するために、Editlet２０６及びCanvas２１０は、Zone２０９における１以上のNodeに対応するFacetを使用する。これらのServiceは、Zone及びＤＯＭ内のNodeを直接操作しない。Facetは、Command２０７を利用して操作される。

ユーザは、一般に、画面上のカーソルを移動させたり、コマンドをタイプしたりすることによって、画面と対話する。画面上の論理的なレイアウトを提供するCanvas２１０は、このカーソル操作を受け付ける。Canvas２１０は、対応するアクションをFacetに実行させることができる。この関係により、カーソルサブシステム２０４は、DocumentManager１０８１に対して、ＭＶＣパラダイムのコントローラ（Ｃ）として機能する。Canvas２１０は、イベントを扱うタスクも有する。例えば、Canvas２１０は、マウスクリック、フォーカス移動、及びユーザにより起こされた同様のアクションなどのイベントを扱う。

３．Zone、Facet、Canvas及びPaneの間の関係の概要
文書処理システム内の文書は、少なくとも４つの観点から見ることができる。すなわち、１）文書処理システムにおいて文書の内容及び構造を保持するために用いられるデータ構造、２）文書の保全性に影響を与えずに文書の内容を編集する手段、３）文書の画面上の論理的なレイアウト、４）文書の画面上の物理的なレイアウト、である。Zone、Facet、Canvas及びPaneは、前述の４つの観点に相当する、文書処理システムのコンポーネントをそれぞれ表す。

４．アンドゥサブシステム
上述したように、文書に対するいかなる変更（例えば編集）も取消可能であることが望ましい。例えば、ユーザが編集操作を実行し、次に、その変更の取消を決定したとする。図１２に関連して、アンドゥサブシステム２１２は、文書管理部の取消可能なコンポーネントを実現する。UndoManager（アンドゥマネージャ：アンドゥ管理部）２１２１は、ユーザによって取り消される可能性のある全ての文書に対する操作を保持する。

例えば、ユーザが、文書中の単語を別の単語に置換するコマンドを実行したとする。その後、ユーザは考え直し、元の単語に戻すことを決定したとする。アンドゥサブシステム２１２は、このような操作を支援する。UndoManager２１２１は、このようなUndoableEdit（アンドゥアブルエディット：取消可能な編集）２１２２の操作を保持する。

５．カーソルサブシステム
前述したように、ＭＶＣのコントローラ部分は、カーソルサブシステム２０４を備えてもよい。カーソルサブシステム２０４は、ユーザから入力を受け付ける。これらの入力は、一般にコマンド及び／又は編集操作の性格を有している。したがって、カーソルサブシステム２０４は、DocumentManager１０８１に関連したＭＶＣパラダイムのコントローラ（Ｃ）部分であると考えることができる。

６．ビュー
前述したように、Canvas２１０は、画面上に提示されるべき文書の論理的なレイアウトを表す。ＸＨＴＭＬ文書の例では、Canvas２１０は、文書が画面上でいかに見えるかを論理的に表現したボックスツリー２０８を含んでもよい。このボックスツリー２０８は、DocumentManager１０８１に関連したＭＶＣパラダイムのビュー（Ｖ）部分に含まれよう。

Ｄ．ボキャブラリコネクション
文書処理システムの重要な特徴は、ＸＭＬ文書を、他の表現にマップして取り扱うことが可能で、かつ、マップした先の表現を編集すると、その編集が元のＸＭＬ文書に整合性を保ちつつ反映される環境を提供することにある。

マークアップ言語により記述された文書、例えばＸＭＬ文書は、文書型定義により定義されたボキャブラリに基づいて作成されている。ボキャブラリは、タグのセットである。ボキャブラリは、任意に定義されてもよいため、無限に多くのボキャブラリが存在しうる。しかしながら、多数の可能なボキャブラリのそれぞれに対して専用の処理／管理環境を提供するのは現実的ではない。ボキャブラリコネクションは、この問題を解決する方法を提供する。

例えば、文書は２以上のマークアップ言語により記述されてもよい。文書は、例えば、ＸＨＴＭＬ（eXtensible HyperText Markup Language）、ＳＶＧ（Scalable Vector Graphics）、ＭａｔｈＭＬ（Mathematical Markup Language）、その他のマークアップ言語により記述されてもよい。換言すれば、マークアップ言語は、ＸＭＬにおけるボキャブラリやタグセットと同様に見なされてもよい。

ボキャブラリは、ボキャブラリプラグインを用いて処理される。文書処理システムにおいてプラグインが利用不可能であるボキャブラリにより記述された文書は、プラグインが利用可能である別のボキャブラリの文書にマッピングすることにより表示される。この特徴により、プラグインが用意されていないボキャブラリの文書も適切に表示することができる。

ボキャブラリコネクションは、定義ファイルを取得し、取得した定義ファイルに基づいて２つの異なるボキャブラリの間でマッピングする能力を含む。あるボキャブラリで記述された文書は、別のボキャブラリにマッピングすることができる。このように、ボキャブラリコネクションは、文書がマッピングされるボキャブラリに対応した表示／編集プラグインにより文書を表示し編集することを可能にする。

上述したように、各文書は、一般に複数のノードを有するＤＯＭツリーとして文書処理システムにおいて記述される。「定義ファイル」は、それぞれのノードについて、そのノードと他のノードとの対応を記述する。各ノードの要素値及び属性値が編集可能か否かが指定される。ノードの要素値又は属性値を用いた演算式が記述されてもよい。

マッピングという特徴を利用して、定義ファイルを適用したデスティネーションＤＯＭツリーが生成される。このように、ソースＤＯＭツリーとデスティネーションＤＯＭツリーの関係が構築され保持される。ボキャブラリコネクションは、ソースＤＯＭツリーとデスティネーションＤＯＭツリーの対応を監視する。ユーザから編集指示を受けると、ボキャブラリコネクションは、ソースＤＯＭツリーの関連したノードを変更する。ソースＤＯＭツリーが変更されたことを示す「ミューテーションイベント」が発行され、デスティネーションＤＯＭツリーがそれに応じて変更される。

ボキャブラリコネクションの使用により、少数のユーザのみに知られていた比較的マイナーなボキャブラリを、別のメジャーなボキャブラリに変換することができる。したがって、少数のユーザによって利用されるマイナーなボキャブラリであっても、文書を適切に表示し、望ましい編集環境を提供することができる。

このように、文書処理システムの一部であるボキャブラリコネクションサブシステムは、文書の複数の表現を可能にする機能を提供する。

図１３は、ボキャブラリコネクション（ＶＣ：Vocabulary Connection）サブシステム３００を示す。ＶＣサブシステム３００は、同一の文書の２つの代替表現の整合性を維持する方法を提供する。例えば、２つの表現は、同一文書の、２つの異なるボキャブラリによる表現であってもよい。前述したように、一方はソースＤＯＭツリーであってもよく、他方はデスティネーションＤＯＭツリーであってもよい。

１．ボキャブラリコネクションサブシステム
ボキャブラリコネクションサブシステム３００の機能は、VocabularyConnection３０１と呼ばれるプラグインを使用して、文書処理システムにおいて実現される。文書が表現されるVocabulary３０５ごとに、対応するプラグインが要求される。例えば、文書の一部がＨＴＭＬで記述され、残りがＳＶＧで記述されている場合、ＨＴＭＬとＳＶＧに対応するボキャブラリプラグインが要求される。

VocabularyConnectionプラグイン３０１は、適切なVocabulary３０５の文書に対応した、Zone２０９又はPane２１１のための適切なVCCanvas（ボキャブラリコネクションキャンバス）３１０を生成する。VocabularyConnection３０１を用いて、ソースＤＯＭツリー内のZone２０９に対する変更は、変換ルールにより、別のＤＯＭツリー３０６の対応するZoneに伝達される。変換ルールは、ボキャブラリコネクション記述子（Vocabulary Connection Descriptor：ＶＣＤ）の形式で記述される。このようなソースＤＯＭとデスティネーションＤＯＭの間の変換に対応するそれぞれのＶＣＤファイルについて、対応するVCManager（ボキャブラリコネクションマネージャ）３０２が生成される。

２．Connector
Connector３０４は、ソースＤＯＭツリーのソースノードと、デスティネーションＤＯＭツリーのデスティネーションノードとを接続する。Connector３０４は、ソースＤＯＭツリー中のソースノード、及びソースノードに対応するソース文書に対する修正（変更）を見るために作用する。そして、対応するデスティネーションＤＯＭツリーのノードを修正する。Connector３０４は、デスティネーションＤＯＭツリーを修正することができる唯一のオブジェクトである。例えば、ユーザは、ソース文書、及び対応するソースＤＯＭツリーに対してのみ修正を行うことができる。その後、Connector３０４がデスティネーションＤＯＭツリーに、対応する修正を行う。

Connector３０４は、ツリー構造を形成するために、論理的にリンクされる。Connector３０４により形成されたツリーは、ConnectorTree（コネクタツリー）と呼ばれる。Connector３０４は、ConnectorFactory（コネクタファクトリ：コネクタ生成部）３０３と呼ばれるServiceを用いて生成される。ConnectorFactory３０３は、ソース文書からConnector３０４を生成し、それらをリンクしてConnectorTreeを形成する。VocabularyConnectionManager３０２は、ConnectorFactory３０３を保持する。

前述したように、ボキャブラリは名前空間におけるタグのセットである。図示されるように、Vocabulary３０５は、VocabularyConnection３０１によって文書に対して生成される。これは、文書ファイルを解析し、ソースＤＯＭとデスティネーションＤＯＭの間の写像のための適切なVocabularyConnectionManager３０２を生成することにより行われる。さらに、Connectorを生成するConnectorFactory３０３と、Zone２０９を生成するZoneFactory２０５と、Zone内のノードに対応するCanvasを生成するEditlet２０６との間の適切な関係が作られる。ユーザがシステムから文書を処分又は削除するとき、対応するVocabularyConnectionManager３０２が削除される。

Vocabulary３０５は、VCCanvas３１０を生成する。さらに、Connector３０４及びデスティネーションＤＯＭツリー３０６が対応して生成される。

ソースＤＯＭ及びCanvasは、それぞれ、モデル（Ｍ）及びビュー（Ｖ）に対応する。しかしながら、このような表現は、ターゲットのボキャブラリが画面上に描写可能である場合に限って意味がある。描写は、ボキャブラリプラグインにより行われる。ボキャブラリプラグインは、主要なボキャブラリ、例えば、ＸＨＴＭＬ、ＳＶＧ、ＭａｔｈＭＬについて提供される。ボキャブラリプラグインは、ターゲットのボキャブラリに関連して使用される。これらは、ボキャブラリコネクション記述子を用いてボキャブラリ間でマッピングする方法を提供する。

このようなマッピングは、ターゲットのボキャブラリが、マッピング可能で、画面上に描写される方法が予め定義されたものである場合にのみ意味がある。このようなレンダリング方法は、例えばＸＨＴＭＬなどのように、Ｗ３Ｃなどの組織により定義された標準規格となっている。

ボキャブラリコネクションが必要であるとき、VCCanvasが使用される。この場合、ソースのビューを直接生成することができないので、ソースのCanvasは生成されない。この場合、VCCanvasが、ConnectorTreeを使用して生成される。このVCCanvasは、イベントの変換のみを扱い、画面上の文書の描写を援助しない。

３．DestinationZone、Pane、及びCanvas
上述したように、ボキャブラリコネクションサブシステムの目的は、同一の文書の２つの表現を同時に生成し保持することである。第２の表現も、ＤＯＭツリーの形式であり、これはデスティネーションＤＯＭツリーとして既に説明した。第２の表現における文書を見るために、DestinationZone、Canvas及びPaneが必要である。

VCCanvasが作成されると、対応するDestinationPane３０７が生成される。さらに、関連するDestinationCanvas３０８と、対応するBoxTree３０９が生成される。同様に、VCCanvas３１０も、ソース文書に対するPane２１１及びZone２０９に関連づけられる。

DestinationCanvas３０８は、第２の表現における文書の論理的なレイアウトを提供する。特に、DestinationCanvas３０８は、デスティネーション表現における文書を描写するために、カーソルや選択のようなユーザインタフェイス機能を提供する。DestinationCanvas３０８に生じたイベントは、Connectorに供給される。DestinationCanvas３０８は、マウスイベント、キーボードイベント、ドラッグアンドドロップイベント、及び文書のデスティネーション（第２）表現のボキャブラリに特有なイベントを、Connector３０４に通知する。

４．ボキャブラリコネクションコマンドサブシステム
ボキャブラリコネクション（ＶＣ）サブシステム３００の要素として、ボキャブラリコネクション（ＶＣ）コマンドサブシステム３１３がある。ボキャブラリコネクションコマンドサブシステム３１３は、ボキャブラリコネクションサブシステム３００に関連した命令の実行のために使用されるVCCommand（ボキャブラリコネクションコマンド）３１５を生成する。VCCommandは、内蔵のCommandTemplate（コマンドテンプレート）３１８を使用して、及び／又は、スクリプトサブシステム３１４においてスクリプト言語を使用してスクラッチからコマンドを生成することにより、生成することができる。

コマンドテンプレートには、例えば、「If」コマンドテンプレート、「When」コマンドテンプレート、「挿入（Insert）」コマンドテンプレートなどがある。これらのテンプレートは、VCCommandを作成するために使用される。

５．ＸＰａｔｈサブシステム
ＸＰａｔｈサブシステム３１６は、文書処理システムの重要な構成であり、ボキャブラリコネクションの実現を支援する。Connector３０４は、一般にxpath情報を含む。上述したように、ボキャブラリコネクションのタスクの１つは、ソースＤＯＭツリーの変化をデスティネーションＤＯＭツリーに反映させることである。xpath情報は、変更／修正を監視されるべきソースＤＯＭツリーのサブセットを決定するために用いられる１以上のxpath表現を含む。

６．ソースＤＯＭツリー、デスティネーションＤＯＭツリー、及びConnectorTreeの概要
ソースＤＯＭツリーは、別のボキャブラリに変換される前のボキャブラリで文書を表現したＤＯＭツリー又はZoneである。ソースＤＯＭツリーのノードは、ソースノードと呼ばれる。

それに対して、デスティネーションＤＯＭツリーは、ボキャブラリコネクションに関連して前述したように、同一の文書を、マッピングにより変換された後の異なるボキャブラリで表現したＤＯＭツリー又はZoneである。デスティネーションＤＯＭツリーのノードは、デスティネーションノードと呼ばれる。

ConnectorTreeは、ソースノードとデスティネーションノードの対応を表すConnectorに基づく階層的表現である。Connectorは、ソースノードと、ソース文書になされた修正を監視し、デスティネーションＤＯＭツリーを修正する。Connectorは、デスティネーションＤＯＭツリーを修正することを許された唯一のオブジェクトである。

Ｅ．文書処理システムにおけるイベントフロー
実用のためには、プログラムはユーザからのコマンドに応答しなければならない。イベントは、プログラム上で実行されたユーザアクションを記述し実行する方法である。多くの高級言語、例えばＪａｖａ（登録商標）は、ユーザアクションを記述するイベントに頼っている。従来、プログラムは、ユーザアクションを理解し、それを自身で実行するために、積極的に情報を集める必要があった。これは、例えば、プログラムが自身を初期化した後、ユーザが画面、キーボード、マウスなどでアクションを起こしたときに適切な処理を講じるために、ユーザのアクションを繰り返し確認するループに入ることを意味する。しかしながら、このプロセスは扱いにくい。さらに、それは、ユーザが何かをするのを待つ間、ＣＰＵサイクルを消費してループするプログラムを必要とする。

多くの言語が、異なるパラダイムを採用することにより、これらの問題を解決している。そのうちの一つは、現代の全てのウィンドウシステムの基礎となっている、イベントドリブンプログラミングである。このパラダイムでは、全てのユーザアクションは、「イベント」と呼ばれる抽象的な事象の集合に属する。イベントは、十分詳細に、特定のユーザアクションを記述する。プログラムがユーザにより生成されたイベントを積極的に収集するのではなく、監視すべきイベントが生じたときに、システムがプログラムに通知する。この方法によりユーザとの対話を扱うプログラムは「イベントドリブン」であると言われる。

これは、多くの場合、全てのユーザにより生成されたイベントの基本特性を獲得する「Event（イベント）」クラスを使用して扱われる。

文書処理システムは、自身のイベント、及びこれらのイベントを扱う方法を定義して使用する。いくつかの型のイベントが使用される。例えば、マウスイベントは、ユーザのマウスアクションから起こるイベントである。マウスを含むユーザアクションは、Canvas２１０によって、マウスイベントに渡される。このように、Canvasは、システムのユーザによる相互作用の最前部にあると言える。必要であれば、最前部にあるCanvasは、そのイベントに関連した内容を子へ渡す。

それに対して、キーストロークイベントは、Canvas２１０から流れる。キーストロークイベントは、即時的なフォーカスを有する。すなわち、それは、いかなる瞬間でも作業に関連する。Canvas２１０上に入力されたキーストロークイベントは、その親に渡される。キー入力は、文字列挿入を扱うことが可能な、異なるイベントによって処理される。文字列の挿入を扱うイベントは、キーボードを使用して文字が挿入されたときに発生する。他の「イベント」は、例えば、ドラッグイベント、ドロップイベント、マウスイベントと同様に扱われる他のイベントを含む。

１．ボキャブラリコネクション外のイベントの取り扱い
イベントは、イベントスレッドを用いて渡される。Canvas２１０は、イベントを受け取ると、その状態を変更する。必要であれば、Command１０５２がCanvas２１０によりCommandQueue１０５３にポストされる。

２．ボキャブラリコネクション内のイベントの取り扱い
VocabularyConnectionプラグイン３０１を用いて、DestinationCanvasの一例であるXHTMLCanvas１１０６は、発生したイベント、例えば、マウスイベント、キーボードイベント、ドラッグアンドドロップイベント、及びボキャブラリに特有のイベントなどを受け取る。これらのイベントは、コネクタ３０４に通知される。より詳細には、図２１（ｂ）に図示されるように、VocabularyConnectionプラグイン３０１内のイベントフローは、SourcePane１１０３、VCCanvas１１０４、DestinationPane１１０５、DestinationCanvasの一例であるDestinationCanvas１１０６、デスティネーションＤＯＭツリー及びConnectorTreeを通過する。

Ｆ．ProgramInvoker及びProgramInvokerと他の構成との関係
ProgramInvoker１０３及びそれと他の構成との関係は、図１４（ａ）に更に詳細に示される。ProgramInvoker１０３は、文書処理システムを開始するために実行される実行環境中の基本的なプログラムである。図１１（ｂ）及び図１１（ｃ）に図示されるように、UserApplication１０６、ServiceBroker１０４１、CommandInvoker１０５１、及びResource１０９は、全てProgramInvoker１０３に接続される。前述したように、アプリケーション１０２は、実行環境中で実行されるコンポーネントである。同様に、ServiceBroker１０４１は、システムに様々な機能を加えるプラグインを管理する。他方、CommandInvoker１０５１は、ユーザにより提供される命令を実行して、コマンドを実行するために使用されるクラス及びファンクションを保持する。

１．プラグイン及びサービス
ServiceBroker１０４１について、図１４（ｂ）を参照して更に詳細に説明する。前述したように、ServiceBroker１０４１は、システムに様々な機能を追加するプラグイン（及び関連するサービス）を管理する。Service１０４２は、文書処理システムに特徴を追加又は変更可能な最も下の層である。「Service」は、ServiceCategory４０１とServiceProvider４０２の２つの部分からなる。図１４（ｃ）に図示されるように、１つのServiceCategory４０１は、複数の関連するServiceProvider４０２を持ちうる。それぞれのServiceProviderは、特定のServiceCategoryの一部または全部を実行するように作用する。ServiceCategory４０１は、他方では、Serviceの型を定義する。

Serviceは、１）文書処理システムに特定の特色を提供する「特色サービス」、２）文書処理システムにより実行されるアプリケーションである「アプリケーションサービス」、３）文書処理システムの全体にわたって必要な特色を提供する「環境サービス」、の３つの型に分類することができる。

Serviceの例は、図１４（ｄ）に示される。アプリケーションServiceのCategoryにおいては、システムユーティリティが対応するServiceProviderの例である。同様に、Editlet２０６はCategoryであり、HTMLEditlet及びSVGEditletは対応するServiceProviderである。ZoneFactory２０５は、Serviceの別のCategoryであり、対応するServiceProvider（図示せず）を有する。

プラグインは、文書処理システムに機能性を加えると既に説明したが、いくつかのServiceProvider４０２及びそれらに関連するクラスからなるユニットと見なされてもよい。各プラグインは、宣言ファイルに記述された依存性及びServiceCategory４０１を有する。

２．ProgramInvokerとアプリケーションとの関係
図１４（ｅ）は、ProgramInvoker１０３とUserApplication１０６との関係についての更なる詳細を示す。必要な文書やデータなどは、ストレージからロードされる。必要なプラグインは、全てServiceBroker１０４１上にロードされる。ServiceBroker１０４１は、全てのプラグインを保持し管理する。プラグインは、システムに物理的に追加することができ、又、その機能はストレージからロードすることができる。プラグインの内容がロードされると、ServiceBroker１０４１は、対応するプラグインを定義する。つづいて、対応するUserApplication１０６が生成され、実行環境１０１にロードされ、ProgramInvoker１０３にアタッチされる。

Ｇ．アプリケーションサービスと環境との関係
図１５（ａ）は、ProgramInvoker１０３上にロードしたアプリケーションサービスの構成についての更なる詳細を示す。コマンドサブシステム１０５のコンポーネントであるCommandInvoker１０５１は、ProgramInvoker１０３内のCommand１０５２を起動又は実行する。Command１０５２は、文書処理システムにおいて、ＸＭＬなどの文書を処理し、対応するＸＭＬＤＯＭツリーを編集するために用いられる命令である。CommandInvoker１０５１は、Command１０５２を実行するために必要なクラス及びファンクションを保持する。

ServiceBroker１０４１も、ProgramInvoker１０３内で実行される。UserApplication１０６は、ユーザインタフェイス１０７及びCoreComponent１１０に接続される。CoreComponent１１０は、全てのPaneの間で文書を共有する方法を提供する。CoreComponent１１０は、さらにフォントを提供し、Paneのためのツールキットの役割を果たす。

図１５（ｂ）は、Frame１０７１、MenuBar１０７２、及びStatusBar１０７３の関係を示す。

Ｈ．アプリケーションコア
図１６（ａ）は、全ての文書、及び文書の一部及び文書に属するデータを保持するアプリケーションコア１０８についての更なる説明を提供する。CoreComponent１１０は、文書１０８２を管理するDocumentManager１０８１にアタッチされる。DocumentManager１０８１は、文書処理システムに関連づけられたメモリに格納される全ての文書１０８２の所有者である。

画面上の文書の表示を容易にするために、DocumentManager１０８１はRootPane１０８４にも接続される。ClipBoard１０８７、SnapShot１０８８、Drag&Drop６０１、及びOverlay６０２の機能も、CoreComponent１１０にアタッチされる。

SnapShot１０８８は、アプリケーションの状態を元に戻すために使用される。ユーザがSnapShot１０８８を起動したとき、アプリケーションの現状が検知され、格納される。その後、アプリケーションの状態が別の状態に変わるとき、格納された状態の内容は保存される。SnapShot１０８８は、図１６（ｂ）に図示される。動作において、アプリケーションがあるＵＲＬから他へ移動するときに、前に戻る動作及び先に進む動作をシームレスに実行可能とするために、SnapShot１０８８は以前の状態を記憶する。

Ｉ．DocumentManager内における文書の構成
図１７（ａ）は、DocumentManager１０８１の更なる説明と、DocumentManagerにおいて文書が構成され保持される様子を示す。図１１（ｂ）に示したように、DocumentManager１０８１は、文書１０８２を管理する。図１７（ａ）に示される例において、複数の文書のうちの１つはRootDocument（ルート文書）７０１であり、残りの文書はSubDocument（サブ文書）７０２である。DocumentManager１０８１は、RootDocument７０１に接続され、RootDocument７０１は、全てのSubDocument７０２に接続される。

図１２及び図１７（ａ）に示すように、DocumentManager１０８１は、全ての文書１０８２を管理するオブジェクトであるDocumentContainer２０３に結合される。DOMService７０３及びIOManager７０４を含むツールキット２０１（例えばＸＭＬツールキット）の一部を形成するツールも、DocumentManager１０８１に供給される。再び図１７（ａ）を参照して、DOMService７０３は、DocumentManager１０８１により管理される文書に基づいたＤＯＭツリーを生成する。各Document７０５は、それがRootDocument７０１であってもSubDocument７０２であっても、対応するDocumentContainer２０３によって管理される。

図１７（ｂ）は、文書Ａ−Ｅが階層的に配置される様子を示す。文書ＡはRootDocumentである。文書Ｂ−Ｄは、文書ＡのSubDocumentである。文書Ｅは、文書ＤのSubDocumentである。図１７（ｂ）の左側は、これと同じ文書の階層が画面上に表示された例を示す。RootDocumentである文書Ａは、基本フレームとして表示される。文書ＡのSubDocumentである文書Ｂ−Ｄは、基本フレームＡの中のサブフレームとして表示される。文書ＤのSubDocumentである文書Ｅは、サブフレームＤのサブフレームとして画面に表示される。

再び図１７（ａ）を参照して、UndoManager（アンドゥマネージャ：アンドゥ管理部）７０６及びUndoWrapper（アンドゥラッパー）７０７は、それぞれのDocumentContainer２０３に対して生成される。UndoManager７０６及びUndoWrapper７０７は、取消可能なコマンドを実行するために使用される。この特徴を使用することにより、編集操作を使用して文書に対して実行された変更を取り消すことができる。SubDocumentの変更は、RootDocumentとも密接な関係を有する。アンドゥ操作は、階層内の他の文書に影響する変更を考慮に入れて、例えば、図１７（ｂ）に示されるような連鎖状の階層における全ての文書の間で整合性が維持されることを保証する。

UndoWrapper７０７は、DocumentContainer２０３内のSubDocumentに関連するアンドゥオブジェクトをラップし、それらをRootDocumentに関連するアンドゥオブジェクトに結合させる。UndoWrapper７０７は、UndoableEditAcceptor（アンドゥアブルエディットアクセプタ：アンドゥ可能編集受付部）７０９に利用可能なアンドゥオブジェクトの収集を実行する。

UndoManager７０６及びUndoWrapper７０７は、UndoableEditAcceptor７０９及びUndoableEditSource（アンドゥアブルエディットソース）７０８に接続される。当業者には理解されるように、Document７０５がUndoableEditSource７０８であってもよく、取消可能な編集オブジェクトのソースであってもよい。

Ｊ．アンドゥコマンド及びアンドゥフレームワーク
図１８（ａ）及び図１８（ｂ）は、アンドゥフレームワーク及びアンドゥコマンドについて更なる詳細を提供する。図１８（ａ）に示されるように、UndoCommand８０１、RedoCommand８０２、及びUndoableEditCommand８０３は、図１１（ｂ）に示したようにCommandInvoker１０５１に積むことができるコマンドであり、順に実行される。UndoableEditCommand８０３は、UndoableEditSource７０８及びUndoableEditAcceptor７０９に更にアタッチされる。「foo」EditCommand８０４及び「bar」EditCommand８０５は、UndoableEditCommandの例である。

１．UndoableEditCommandの実行
図１８（ｂ）は、UndoableEditCommandの実行を示す。まず、ユーザが編集コマンドを使用してDocument７０５を編集すると仮定する。第１ステップＳ１では、UndoableEditAcceptor７０９が、Document７０５のＤＯＭツリーであるUndoableEditSource７０８にアタッチされる。第２ステップＳ２では、ユーザにより発行されたコマンドに基づいて、Document７０５がＤＯＭのＡＰＩを用いて編集される。第３ステップＳ３では、ミューテーションイベントのリスナーが、変更がなされたことを通知される。すなわち、このステップでは、ＤＯＭツリーの全ての変更を監視するリスナーが編集操作を検知する。第４ステップＳ４では、UndoableEditがUndoManager７０６のオブジェクトとして格納される。第５ステップＳ５では、UndoableEditAcceptor７０９がUndoableEditSource７０８からデタッチされる。UndoableEditSource７０８は、Document７０５自身であってもよい。

Ｋ．システムへの文書のロードに関する手順
上記のサブセクションでは、システムの様々なコンポーネント及びサブコンポーネントについて説明した。以下、これらのコンポーネントの使用に関する方法論について説明する。図１９（ａ）は、文書処理システムに文書がロードされる様子の概要を示す。それぞれのステップは、図２４−２８において、特定の例に関連して詳述される。

簡単には、文書処理システムは、文書に含まれるデータからなるバイナリデータストリームからＤＯＭを生成する。ApexNode（エイペックスノード：頂点ノード）が、注目対象でありZoneに属する文書の一部のために生成される。つづいて、対応するPaneが同定される。同定されたPaneは、ApexNode及び物理的な画面表面からZone及びCanvasを生成する。Zoneは、次に、それぞれのノードにFacetを生成し、それらに必要とされる情報を提供する。Canvasは、ＤＯＭツリーから、ノードをレンダリングするためのデータ構造を生成する。

より詳細には、文書はストレージ９０１からロードされる。文書のＤＯＭツリー９０２が生成される。文書を保持するための、対応するDocumentContainer９０３が生成される。DocumentContainer９０３は、DocumentManager９０４にアタッチされる。ＤＯＭツリーは、ルートノードと、ときには複数のセカンダリノードを含む。

一般に、このような文書は、テキスト及びグラフィクスの双方を含む。したがって、ＤＯＭツリーは、例えば、ＸＨＴＭＬサブツリーだけでなくＳＶＧサブツリーを有してもよい。ＸＨＴＭＬサブツリーは、ＸＨＴＭＬのApexNode９０５を有する。同様に、ＳＶＧサブツリーは、ＳＶＧのApexNode９０６を有する。

ステップ１では、ApexNode９０６が、画面の論理的なレイアウトであるPane９０７にアタッチされる。ステップ２では、Pane９０７は、PaneOwner（ペインオーナー：ペインの所有者）９０８であるCoreComponentに、ApexNode９０６のためのZoneFactoryを要求する。ステップ３では、PaneOwner９０８は、ZoneFactoryと、ApexNode９０６のためのCanvasFactoryであるEditletとを返す。

ステップ４では、Pane９０７がZone９０９を生成する。Zone９０９はPane９０７にアタッチされる。ステップ５では、Zone９０９がそれぞれのノードに対してFacetを生成し、対応するノードにアタッチする。ステップ６では、Pane９０７がCanvas９１０を生成する。Canvas９１０はPane９０７にアタッチされる。Canvas９１０には様々なCommandが含まれる。ステップ７では、Canvas９１０が文書を画面にレンダリングするためのデータ構造を構築する。ＸＨＴＭＬの場合、これはボックスツリー構造を含む。

１．ZoneのＭＶＣ
図１９（ｂ）は、ＭＶＣパラダイムを用いてZoneの構成の概要を示す。この場合、Zone及びFacetは文書に関連した入力であるから、モデル（Ｍ）はZone及びFacetを含む。Canvasと、文書を画面にレンダリングするためのデータ構造体は、ユーザが画面上に見る出力であるから、ビュー（Ｖ）はCanvas及びデータ構造体に対応する。Commandは、文書とその様々な関係に対して制御操作を実行するので、コントロール（Ｃ）はCanvasに含まれるCommandを含む。

Ｌ．文書の表現
図２０を用いて、文書及びその様々な表現の例について以下に説明する。この例で使用される文書は、テキストと画像の双方を含む。テキストは、ＸＨＴＭＬを用いて表され、画像は、ＳＶＧを用いて表される。図２０は、文書のコンポーネント及び対応するオブジェクトの関係のＭＶＣ表現を詳細に示す。この例において、Document１００１は、Document１００１を保持するDocumentContainer１００２にアタッチされる。文書はＤＯＭツリー１００３により表現される。ＤＯＭツリーは、ApexNode１００４を含む。

ApexNodeは、黒丸で表される。頂点でないノードは、白丸で表される。ノードを編集するために用いられるFacetは、三角形で表され、対応するノードにアタッチされる。文書がテキストと画像を有するので、この文書のＤＯＭツリーは、ＸＨＴＭＬ部分とＳＶＧ部分を含む。ApexNode１００４は、ＸＨＴＭＬサブツリーの最上のノードである。これは、文書のＸＨＴＭＬ部分の物理的な表現のための最上PaneであるXHTMLPane１００５にアタッチされる。ApexNode１００４は、文書のＤＯＭツリーの一部であるXHTMLZone１００６にもアタッチされる。

Node１００４に対応するFacetも、XHTMLZone１００６にアタッチされる。XHTMLZone１００６は、XHTMLPane１００５にアタッチされる。XHTMLEditletは、文書の論理的な表現であるXHTMLCanvas１００７を生成する。XHTMLCanvas１００７は、XHTMLPane１００５にアタッチされる。XHTMLCanvas１００７は、Document１００１のＸＨＴＭＬコンポーネントのためのBoxTree１００９を生成する。文書のＸＨＴＭＬ部分を保持し描画するために必要な様々なCommand１００８も、XHTMLCanvas１００７に追加される。

同様に、文書のＳＶＧサブツリーのApexNode１０１０は、文書のＳＶＧコンポーネントを表現するDocument１００１のＤＯＭツリーの一部であるSVGZone１０１１にアタッチされる。ApexNode１０１０は、文書のＳＶＧ部分の物理的な表現の最上のPaneであるSVGPane１０１３にアタッチされる。文書のＳＶＧ部分の論理的な表現を表すSVGCanvas１０１２は、SVGEditletにより生成され、SVGPane１０１３にアタッチされる。画面上に文書のＳＶＧ部分をレンダリングするためのデータ構造及びコマンドは、SVGCanvasにアタッチされる。例えば、このデータ構造は、図示されるように、円、線、長方形などを含んでもよい。

図２０に関連して説明された文書例の表現の一部について、図２１（ａ）に関連して、前述したＭＶＣパラダイムを用いて更に説明する。図２１（ａ）は、文書１００１のＸＨＴＭＬコンポーネントにおけるＭＶの関係を簡略化して示す。モデルは、Document１００１のＸＨＴＭＬコンポーネントのためのXHTMLZone１１０１である。XHTMLZoneのツリーには、いくつかのNode及びそれらに対応するFacetが含まれる。対応するXHTMLZone及びPaneは、ＭＶＣパラダイムのモデル（Ｍ）部分の一部である。ＭＶＣパラダイムのビュー（Ｖ）部分は、Document１００１のＸＨＴＭＬコンポーネントの、対応するXHTMLCanvas１１０２及びBoxTreeである。文書のＸＨＴＭＬ部分は、Canvasと、それに含まれるCommandを使用して画面に描写される。キーボードやマウス入力などのイベントは、図示されるように、逆方向へ進む。

SourcePaneは、更なる機能、すなわち、ＤＯＭの保有者としての役割を有する。図２１（ｂ）は、図２１（ａ）に示したDocument１００１のコンポーネントに対するボキャブラリコネクションを提供する。ＤＯＭホルダーとして機能するSourcePane１１０３は、文書のソースＤＯＭツリーを含む。ConnectorTreeは、ConnectorFactoryにより生成され、デスティネーションＤＯＭの保有者としても機能するDestinationPane１１０５を生成する。DestinationPane１１０５は、XHTMLDestinationCanvas１１０６としてボックスツリーの形式でレイアウトされる。

Ｍ．プラグインサブシステム、ボキャブラリコネクション、及びコネクタの関係
図２２（ａ）−（ｃ）は、それぞれ、プラグインサブシステム、ボキャブラリコネクション、及びConnectorに関連する更なる詳細を示す。プラグインサブシステムは、文書処理システムに機能を追加又は交換するために用いられる。プラグインサブシステムは、ServiceBroker１０４１を含む。ServiceBroker１０４１にアタッチされるZoneFactoryService１２０１は、文書の一部に対するZoneを生成する。EditletService１２０２も、ServiceBroker１０４１にアタッチされる。EditletService１２０２は、Zone中のNodeに対応するCanvasを生成する。

ZoneFactoryの例は、XHTMLZone及びSVGZoneをそれぞれ生成するXHTMLZoneFactory１２１１及びSVGZoneFactory１２１２である。文書例に関連して前述したように、文書のテキストコンポーネントは、XHTMLZoneを生成することにより表現されてもよいし、画像はSVGZoneを用いて表現されてもよい。EditletServiceの例は、XHTMLEditlet１２２１及びSVGEditlet１２２２を含む。

図２２（ｂ）は、ボキャブラリコネクションに関連する更なる詳細を示す。ボキャブラリコネクションは、前述したように、文書処理システムの重要な特徴であり、２つの異なる方法で文書の整合のとれた表現及び表示を可能とする。ConnectorFactory３０３を保持するVCManager３０２は、ボキャブラリコネクションサブシステムの一部である。ConnectorFactory３０３は、文書のConnector３０４を生成する。前述したように、Connectorは、ソースＤＯＭ中のノードを監視し、２つの表現の間の整合性を維持するために、デスティネーションＤＯＭ中のノードを修正する。

Template３１７は、いくつかのノードの変換ルールを表す。ボキャブラリコネクション記述子（ＶＣＤ）ファイルは、特定のパス又はルールを満たす要素又は要素の集合を他の要素に変換するいくつかのルールを表すTemplateのリストである。Template３１７及びCommandTemplate３１８は、全てVCManager３０２にアタッチされる。VCManagerは、ＶＣＤファイル中の全てのセクションを管理するオブジェクトである。１つのＶＣＤファイルに対して、１つのVCManagerオブジェクトが生成される。

図２２（ｃ）は、Connectorに関連する更なる詳細を提供する。ConnectorFactory３０３は、ソース文書からConnectorを生成する。ConnectorFactory３０３は、Vocabulary、Template、及びElementTemplateにアタッチされ、それぞれ、VocabularyConnector、TemplateConnector、ElementConnectorを生成ずる。

VCManager３０２は、ConnectorFactory３０３を保持する。Vocabularyを生成するために、対応するＶＣＤファイルが読み込まれる。こうして、ConnectorFactory３０３が生成される。このConnectorFactory３０３は、Zoneを生成するZoneFactory及びCanvasを生成するEditletに関連する。

つづいて、ターゲットボキャブラリのEditletServiceが、VCCanvasを生成する。VCCanvasも、ソースＤＯＭツリー又はZoneにおけるApexNodeのConnectorを生成する。必要に応じて、子のConnectorが再帰的に生成される。ConnectorTreeは、ＶＣＤファイル中のテンプレートの集合により生成される。

テンプレートは、マークアップ言語の要素を他の要素に変換するためのルールの集合である。例えば、各テンプレートは、ソースＤＯＭツリー又はZoneにマッチされる。適切にマッチした場合には、頂点Connectorが生成される。例えば、テンプレート「A/*/D」は、間にどんなノードがあるかに関係なく、ノードＡで始まりノードＤで終わる全ての枝に合致する。同様に、「//B」は、ルートからの全ての「B」ノードに一致する。

Ｎ．ConnectorTreeに関係するＶＣＤファイルの例
特定の文書と関係する処理を説明する例を続ける。ドキュメントタイトルのある「MySampleXML」というタイトルの文書が文書処理システムにロードされる。図２３は、「MySampleXML」ファイルのための、VCManager及びConnectorFactoryTreeを用いたＶＣＤスクリプトの例を示す。スクリプトファイル中のボキャブラリセクション、テンプレートセクションと、VCManagerにおける対応するコンポーネントが示される。タグ「vcd:vocabulary」において、属性「match」は「sample:root」、「label」は「MySampleXML」、「call-template」は「sample template」となっている。

この例では、Vocabularyは、「MySampleXML」のVCManagerにおいて「sample:root」として頂点要素を含む。対応するＵＩラベルは、「MySampleXML」である。テンプレートセクションにおいて、タグは「vcd:template」であり、名前は「sample:template」である。

Ｏ．ファイルがシステムにロードされる方法の詳細な例
図２４−２８は、文書「MySampleXML」のロードについての詳細な記述を示す。図２４（ａ）に示されるステップ１では、文書がストレージ１４０５からロードされる。DOMServiceは、ＤＯＭツリー及びDocumentManager１４０６と対応するDocumentContainer１４０１を生成する。DocumentContainer１４０１は、DocumentManager１４０６にアタッチされる。文書は、ＸＨＴＭＬ及びMySampleXMLのサブツリーを含む。ＸＨＴＭＬのApexNode１４０３は、タグ「xhtml:html」が付されたＸＨＴＭＬの最上のノードである。「MySampleXML」のApexNode１４０４は、タグ「sample:root」が付された「MySampleXML」の最上ノードである。

図２４（ｂ）に示されるステップ２では、RootPaneが文書のXHTMLZone、Facet、及びCanvasを生成する。Pane１４０７、XHTMLZone１４０８、XHTMLCanvas１４０９、及びBoxTree１４１０が、ApexNode１４０３に対応して生成される。

図２４（ｃ）に示されるステップ３では、XHTMLZoneが知らないタグ「sample:root」を発見し、XHTMLCanvasの領域からSubPaneを生成する。

図２５に示されるステップ４では、SubPaneが「sample:root」を扱うことができ、適切なZoneを生成可能なZoneFactoryを得る。このZoneFactoryは、ZoneFactoryを実行可能なVocabulary内にある。それは、「MySampleXML」のVocabularySectionの内容を含む。

図２６に示されるステップ５では、「MySampleXML」に対応するVocabularyがDefaultZone１６０１を生成する。対応するEditletが生成され、対応するCanvasを生成するためにSubPane１５０１が提供される。Editletは、VCCanvasを生成する。そして、それはTemplateSectionを呼ぶ。ConnectorFactoryTreeも含まれている。ConnectorFactoryTreeは、ConnectorTreeとなる全てのConnectorを生成する。

図２７に示されるステップ６では、各ConnectorがデスティネーションＤＯＭオブジェクトを生成する。コネクタのうちのいくつかはxpath情報を含んでいる。xpath情報は、変更／修正を監視する必要のあるソースＤＯＭツリーの部分集合を決定するために使用される１以上のxpath表現を含む。

図２８に示されるステップ７では、ボキャブラリは、ソースＤＯＭのペインからデスティネーションＤＯＭツリーのDestinationPaneを作成する。これは、SourcePaneに基づいてなされる。デスティネーションツリーのApexNodeは、DestinationPane及び対応するZoneにアタッチされる。DestinationPaneは、DestinationCanvasを生成し、文書をデスティネーションのフォーマットでレンダリングするためのデータ構造及びコマンドを構築する、自身のEditletを提供される。

図２９（ａ）は、対応するソースノードを持たず、デスティネーションツリーにのみ存在するノード上でイベントが発生したときのフローを示す。マウスイベント、キーボードイベントなど、Canvasが取得したイベントは、デスティネーションツリーを通過して、ElementTemplateConnectorに伝達される。ElementTemplateConnectorは対応するソースノードを持たないので、伝達されたイベントはソースノードに対する編集操作ではない。ElementTemplateConnectorは、伝達されたイベントがCommandTemplateに記述されたコマンドに合致すれば、それに対応するActionを実行する。合致するコマンドがなければ、ElementTemplateConnectorは、伝達されたイベントを無視する。

図２９（ｂ）は、TextOfConnectorによりソースノードに対応づけられているデスティネーションツリーのノード上でイベントが発生したときのフローを示す。TextOfConnectorは、ソースＤＯＭツリーのＸＰａｔｈで指定されたノードからテキストノードを取得して、デスティネーションＤＯＭツリーのノードにマッピングする。マウスイベント、キーボードイベントなど、Canvasが取得したイベントは、デスティネーションツリーを通過して、TextOfConnectorに伝達される。TextOfConnectorは、伝達されたイベントを、対応するソースノードの編集コマンドにマッピングし、Queue１０５３に積む。編集コマンドは、Facetを介して実行されるＤＯＭのＡＰＩコールの集合である。キューに積まれたコマンドが実行されると、ソースノードが編集される。ソースノードが編集されると、ミューテーションイベントが発行され、リスナーとして登録されたTextOfConnectorにソースノードの変更が通知される。TextOfConnectorは、ソースノードの変更を、対応するデスティネーションノードに反映させるように、デスティネーションツリーを再構築する。このとき、TextOfConnectorを含むテンプレートに、「for each」や「for loop」などの制御文が含まれている場合、ConnectorFactoryがこの制御文を再評価し、TextOfConnectorを再構築した後、デスティネーションツリーが再構築される。

（実施例）
図３０は、セマンティックウェブのレイヤケーキを示す模式図である。
前提技術において示した文書処理装置２０は、複合ドキュメント、Webサービスなど各シーンにおけるXML文書（XMLデータ）ハンドリング技術として有効であることは上記した通りである。
１）同図のレイヤケーキで示されるセマンティックWebの進化において、”XML”から”RDF(Resource Description Framework)以上”のデータ構造をシームレスに扱うことは、大きな課題といえる。
２）また、すべての文書がRDFで記述されるということがすぐに実現されることは難しいことが予想される。
３）そこでこれまでのXMLベースのデータとRDF以降のデータとを連結する技術が望まれる。
４）この時、前提技術にて示したXMLハンドリング技術は、「XML」という共通言語によって、既存のXMLによるデータとセマンティックWebアプリケーションをつなげるキーテクノロジーとなる可能性がある。

図３１は、個人情報を含んだ各種文書ファイルの一般的な取り扱い形態を示す模式図である。
こうした各部署で個別に作成している帳票などの文書ファイルやそのための入力ブラウザを大きく変更することなく一括管理することが本実施例において目的とするところである。
そのために、社内基準としてグローバルな（モデルとなる）データを定義した後、各部署におけるローカルなデータ定義との関係をオントロジー技術で連携し、既存のＸＭＬ構造化された社内文書と文書入力ブラウザに対してＸＭＬハンドリング技術により最小のコストでデータの収集と付加情報の追加が可能としている。

図３２は、本実施例における個人情報管理支援システムのフローを示す図である。
＜シーン１＞
セキュリティ管理者が、各部署の文書ファイルに含まれる個人情報を収集する。各部署の文書ファイルで使用されているローカルな用語については、膨大なバリエーションがある。そのため、セキュリティ管理者は、これらのローカルな用語を完全に把握してはいない。
しかし、同図においては、文書の構造や属性についてのオントロジーが社内基準によって定義されている（以下、このようなオントロジーを「グローバルオントロジー」とよぶ）。各部署では、ローカルオントロジーとしてその部署のローカルな用語をグローバルオントロジーの用語にリンクさせている。これにより、社内基準としてのグローバルオントロジーと部署ごとのローカルオントロジーがシームレスに連係することになる。
社内データベースからローカルオントロジーに基づいて作成された文書ファイルを検索するにあたり、社内基準のグローバルオントロジーに基づいて意味的な上位概念での検索を行う。この意味的な上位概念は各部署において実際に使用されている用語に変換される。そして、社内データベースからＸＭＬ構造化文書を検索してその結果が一覧表示される。

使用する要素技術：
１．社内全体で基準化されているグローバルオントロジーと、そのグローバルオントロジーにマッピングされているローカルオントロジー。
２．グローバルオントロジーからローカルオントロジーに展開した上で、社内データベースを検索して一覧表示する機能。

＜シーン２＞
検索結果として一覧された文書ファイルを、各部署に配信する。そして、配信された文書ファイルに対して、各部署の部長は、人名や住所といった個人情報をチェックし、たとえば、「個人情報処理該当」といったアノテーションを付与する。このとき、各部署のローカルな用語を使ってアノテーションが付与される。

営業部門と開発部門の文書ファイルをもとにして、外部提出用の新しい文書を作成した場合においても、アノテーションが設定されたテキストを使っている場合には、「個人情報処理該当」アノテーションがそのまま利用可能となる。
すなわち、文書ファイルのデータが、２次的、あるいは、３次的に利用される場合であっても、このようなアノテーション情報が保持される。

図３３は、図３２のシーン１について詳細に説明するための模式図である。
図３４以降に関連して説明するように、社内基準として利用するタグは、グローバルなオントロジーとして定義されている。つまり、会社全体としては、文書ファイルの種類や、そこに記述される各タグについては抽象的、汎用的な定義がなされている。
一例として、「Doc」タグのプロパティとして、「Creater」、「CreateDate」といったタグが含まれるようなスキーマ、いわば、グローバルオントロジーが定義されているとする。一方、営業部門では、「営業日報」タグのプロパティとして、「報告者」、「報告日」といったタグが含まれるようなスキーマ、いわば、ローカルオントロジーが定義される。ここで、「営業日報」タグは「Doc」タグを継承したタグである。同様に「報告者」、「報告日」といったタグは、それぞれ「Creater」タグや「CreateDate」タグを継承している。以下、グローバルオントロジーに基づいて定義されるタグのことを「モデルタグ」とよぶ。

さて、住所に関連する「MeetingPlace」タグはグローバルオントロジーにて定義されているモデルタグであるとする。セキュリティ管理者は、ローカルオントロジーに基づく文書ファイル内のデータを、この「MeetingPlace」というモデルタグ名で検索する。「MeetingPlace」というモデルタグは、研究部門では「出張先」タグとしてリネームされている。また、営業部門では「住所」としてリネームされている。
すなわち、グローバルオントロジーにおける「MeetingPlace」というタグは、ローカルオントロジーにおいては、「出張先」であったり「住所」であったりと部署ごとの業務に応じたタグ名となる。以下、ローカルオントロジーに基づいて定義されるタグのことを「実体タグ」とよぶ。

図３４は、研究部門におけるグローバルオントロジーとローカルオントロジーの関係を示す図である。
ここに示すように、グローバルオントロジーにおける「MeetingPlace」タグは、この研究部門においては「出張先」タグとなっている。グローバルオントロジーにおいては、「DocumentEntity」というクラスのプロパティとして「MeetingPlace」が定義されている。いわば、社内基準としてのモデルタグのデータ構造が、そのまま各部署の文書ファイルの実体タグのデータ構造として継承されている。以下、社内基準であるグローバルオントロジーに基づいて作成された文書ファイルを「親文書ファイル」、また、そのタグ構造を「親スキーマ」とよぶ。また、親スキーマを継承したスキーマ（以下、「子スキーマ」とよぶ）をもち、ローカルオントロジーに基づいて各部署において生成された文書ファイルを「子文書ファイル」とよぶ。子文書ファイルの表示レイアウトは、各部署ごとに作成されてもよいし、標準的な表示レイアウトがあらかじめ提供されてもよい。

同図に示すように、実体タグのプロパティは、モデルタグのプロパティをそのまま継承している。その一方で、実体タグの名前は、各部署の業務に応じてリネーム可能となっている。子文書ファイルは、モデルタグに実体タグをマッピングするためのタグマッピングテーブルとセットで保持されることになる。たとえば、「出張先」タグは、その継承元である「MeetingPlace」タグにマッピングされている。

図３５は、営業部門におけるグローバルオントロジーとローカルオントロジーの関係を示す図である。
ここに示すように、グローバルオントロジーにおける「MeetingPlace」タグは、この営業部門においては「住所」タグとなっている。

セキュリティ管理者は、たとえば、社内の様々な子文書ファイルに対して「MeetingPlace」というモデルタグを継承する実体タグに対応して入力されているデータを検索することができる。セキュリティ管理者が「MeetingPlace」タグを検索キーとして社内データベースを検索すると、先述したタグマッピングテーブルによって、子スキーマごとに対応する実体タグ名が特定される。たとえば、研究部門において使用されている子文書ファイルに対して、「MeetingPlace」タグを検索キーとして検索指示した場合、検索キーは「出張先」というタグ名に変換される。そして、「出張先」タグを入力項目とするデータを子文書ファイルから検出することができる。そのため、セキュリティ管理者は、実体タグ名を知らなくても、モデルタグの名前で一元的に社内文書から所望のデータを検索できる。一方、各部署における子文書ファイルユーザは、グローバルオントロジーにしたがっている限り、自由に実体タグ名を設定できるため、セキュリティ管理者と各部署のユーザが社内文書を扱うための利便性を向上させることができる。

図３６は、子文書ファイルにアノテーションを付与する態様を説明するための模式図である。
１．研究部門で個人情報となる人名や住所などに「個人情報対象データ」を示すアノテーションを設定する。
２．この時、子文書ファイルが２種類以上の表示レイアウトにて表示されているときには、一方の表示画面に対するアノテーション設定はその他の表示画面に対するアノテーション設定として同時的に反映される。これは、アノテーションが子文書ファイルの「データ」に設定されるからである。前提技術において説明したミューテーションイベントによる技術が応用される。
３．営業部門でも、個人情報となる人名や住所などに「個人情報対象データ」を示すアノテーションを設定する。
４．企画者がこのふたつの文書、すなわち、研究部門の子文書ファイルと営業部門の子文書ファイルを利用してひとつの企画書ファイルを作成しても、それぞれのアノテーション情報は残っている。
５．外部へ企画書ファイルを送信する場合には、会社のセキュリティシステムがこのアノテーションが設定されている部分をマスキングすることで、個人情報にかかわる箇所が外部流出することを防ぐ。

このようなアノテーションもタグと同じく構造化文書ファイルの構成要素の一種といえる。親スキーマには、たとえば、「Important」アノテーションのように、グローバルオントロジーに基づく複数種類のアノテーションが含まれている。一方、子スキーマには、この「Important」アノテーションを継承したアノテーションが含まれることになる。ユーザは、この子スキーマにおけるアノテーション（以下、「実体アノテーション」とよぶ）の名前を、実体タグと同様にリネームできる。たとえば、「Important」アノテーションを「営業秘密」アノテーションといった具合に業務に応じたリネームが可能である。

子スキーマの各実体アノテーションのプロパティは、親スキーマにおけるアノテーション（以下、グローバルオントロジーに基づいて定義されているアノテーションのことを「モデルアノテーション」とよぶ）のプロパティをそのまま継承している。子文書ファイルは、この親スキーマによるモデルアノテーションに実体アノテーションをマッピングするためのアノテーションマッピングテーブルとセットで保持されることになる。

セキュリティ管理者は、モデルアノテーションを検索キーとして、社内データベースを検索すると、先述したアノテーションマッピングテーブルによって、子スキーマごとに対応する実体アノテーション名が特定される。たとえば、「Important」アノテーションを検索キーとして検索指示した場合、営業部門の子文書ファイルについては「営業秘密」アノテーションに変換される。そして、「営業秘密」アノテーションが設定されているデータを子文書ファイルから検出することができる。そのため、セキュリティ管理者は、実体アノテーション名を知らなくても、モデルアノテーションの名前で一元的に社内文書から所望のデータを検索できる。一方、各部署における子文書ファイルユーザは、グローバルオントロジーにしたがっている限り、自由にアノテーション名を設定できるため、セキュリティ管理者と各部署のユーザが社内文書を扱うための利便性を向上させることができる。

アノテーションの場合、タグというスキーマに必ずしも制約されることがないというメリットがある。たとえば、「MeetingPlace」と「MeetingContent」タグに入力される２種類のデータに１種類のアノテーションが設定されてもよい。あるいは、「MeetingPlace」タグへの入力データの一部に対してアノテーションが設定されてもよい。
モデルアノテーションとしては、たとえば、個人情報を指定するためのアノテーション、重要情報を指定するためのアノテーションなどさまざまな種類のアノテーションが用意されてもよい。子文書ファイルに対し、個人情報を指定するためのモデルアノテーションを継承した実体アノテーションが、個人情報に相当するデータ範囲に設定されてもよい。そして、たとえば、個人情報を指定するためのモデルアノテーションから継承された実体アノテーションが設定されているデータについては、社外に送信されないように処置してもよい。より具体的には、セキュリティシステムが個人情報を指定するためのモデルアノテーションを検索キーとして、子文書ファイルの個人情報を特定し、これらのデータをマスキングすることによって、個人情報が外部に流出しないように処置することができる。

図３７は、アノテーションによるセキュリティ管理を説明するための模式図である。
１．セキュリティ管理者としては、個人情報を指定するためのタグを社内文書ファイルに付与させるため、「SecurityName」というタグ名で管理している。
２．営業部門では、部署内の文書ファイルにおいてわかりやすいように「非流出顧客情報」として、研究部門では「研究者情報」として独自のアノテーション名にてアノテーションを設定している。同図に示すように、営業部門においては、「Ａ氏」というデータをアノテートするために、「非流出顧客情報」というアノテーションがタグとして設定されている。一方、研究部門においては「Ｂ氏」というデータをアノテートするために、「研究者情報」というアノテーションがタグとして設定されている。
３．この関係はＶＣＤにより連結されている。すなわち、個人情報のアノテーション時に利用される各部署のタグは、社内基準である「SecurityName」タグにマッピングする処理がＶＣＤとして提供される。
４．これにより各部署におけるローカルな用語にてアノテーションが設定されても、セキュリティ管理は「SecurityName」により一元的に管理することができる。

アノテーションは、子文書ファイルのタグや、タグに対して入力されたデータの全部または一部、あるいは、複数のタグに対して入力されたデータのセットに対して設定されてもよい。

次に、タグに基づくデータ処理関数を２例挙げる。
関数名：ont_searh
引数：ローカルドメイン、実体タグ
返値：指定した実体タグの継承元であるモデルタグから継承されている、全てのドメインにおける実体タグの一覧
説明：指定した実体タグと同じグローバルオントロジーのクラスに該当する全ての実体タグの一覧を取得する。この関数は、まず、ＤＯＭツリーを取得した後、営業部門の「住所」という実体タグの継承元である「MeetingPlace」というモデルタグを取得する。そして、このモデルタグを継承している研究部門の「出張先」タグを検出する。
これにより、取得したいノードに相当する概念（オントロジーのクラス）あるいは、それに相当する他のドメインのタグを指定することで、検索が可能となる。いいかえれば、検索対象のドメインがわからなくても検索が可能となる。
サンプル：<vcd:for-each select=“function:ont_search(function:document(“*.xml”)//*/営業部門:住所)">
このサンプルの場合、カレントディレクトリの拡張子がxmlである全てのファイルをparseし、その中で営業部門：住所と同じグローバルオントロジーのクラスに該当するノードの一覧を取得する。

関数名：ont_call
引数：ターゲットドメイン、コマンド名
返値：ターゲットドメインのＶＣＤに定義されているコマンドを実行する。
説明：オントロジーにおけるドメイン変換を行って、表示や編集を行う場合、編集コマンドを記述してあるドメインと編集対象となるドメインが異なるため、編集対象ドキュメントのスキーマを保つことを保証しがたい。そこで、たとえば、個人情報にタグを付けるといった特定の編集コマンドのインタフェースをグローバルオントロジーで定義する。そして、各ドメインにおけるローカルオントロジーにおいて、これらの編集コマンドを実装することにより、各ドメインにおけるスキーマにしたがった形で編集コマンドを定義できる。このコマンドは各ドメインを処理するためのＶＣＤコマンドとして定義する。
サンプル：<vcd:action event="event:mouse-clicked"><instruction:callname="function:ont-call(annotate-privacy,$contextNS)"/></vcd:action>
このサンプルの場合、該当箇所でマウスがクリックされると、$contextNSドメインで定義されたannotate-privacyというコマンドが実行される。

図３８として、図３４や図３５に関連して説明したタグマッピングテーブルの別例を示す。
ここでは、「Customer」として定義されたモデルタグが、研究部門においては「出張先」、営業部門では「顧客名」として定義されている。こうした知識があれば、セキュリティ管理者は、個人情報となりえる情報を検索する場合において、
研究部門->出張報告書->出張先
営業部門->営業日報->顧客名
というローカルなタグ名で該当データを検索する必要はなく、
DocumentEntry->Customer
だけで、必要な情報を検索できる。

以上、本実施例における文書処理技術の特徴をまとめると以下の通りである。
１．XML技術とセマンティックWeb技術の融合
文書処理装置２０をプラットフォームとすることで、RDF、RDFS(Resource Description Framework Shema)、OWL(Web Ontology Language)といったセマンティックWeb技術とXML技術がシームレスに結合可能となる。
２．ヒューマンリーダブルからマシーンリーダブルのデータ整合性
セマンティックWebの展望であるヒューマンリーダブルからマシーンリーダブルとともに、現実世界で問題となるデータを扱うブラウザとデータの整合性が文書処理装置２０にて統一して扱うことができる。
３．上記１、２の各技術を連携した個人情報管理支援システムを文書処理装置２０をプラットフォームとして実現することができる。
以上の実施例に示した処理方法には、企業などの業務組織において取り扱われる文書ファイルのデータ整合性を保持しやすくなるという効果がある。

本発明に関連して更に付言する。
これまでに、モデルタグと実体タグのマッピング、およびその利用場面を中心として説明した。たとえば、社内において標準的なモデルタグのセット（以下、「モデルタグセット」とよぶ）を用意しておき、各部署ではモデルタグセットをベースとして業務に即した実体タグを作り、実体タグに基づいてＸＭＬ文書ファイルを作成してもよい。この場合、開発部とマーケティング部、営業部はそれぞれ別々の実体タグによりＸＭＬ文書を作成することになる。しかし、実体タグのセット（以下、「実体タグセット」とよぶ）は別々であってもその継承元は同じモデルタグセットであるため、モデルタグに基づく情報検索が可能である。

たとえば、モデルタグ＜従業員＞から実体タグ＜課長＞や＜ライセンス担当＞が継承されているとし、このような実体タグによって記述されているＸＭＬ文書ファイルを想定する。より具体的には、このＸＭＬ文書ファイルに＜課長＞加藤＜／課長＞、＜ライセンス担当＞長谷川＜／ライセンス担当＞という２つの要素が含まれている場合、モデルタグ＜従業員＞を対象としてデータ検出を指示すると、「加藤」、「長谷川」という２つの要素データを検出できる。これは、モデルタグ＜従業員＞と実体タグ＜課長＞および＜ライセンス担当＞が内部的に対応づけられているためである。モデルタグを継承するかたちで実体タグを作成する限り、モデルタグを検索キーとして実体タグの要素データから求める情報を取得できる。タグに限らず、アノテーションについても同様である。以下、このようなモデルタグから継承するかたちで実体タグを生成し、モデルタグと実体タグをマッピングするやり方を「トップダウンアプローチ」とよぶことにする。

これとは別の場面として、ＸＭＬ文書ファイルにおいて既に使用されているさまざまな実体タグをモデルタグにマッピングしてもよい。以下、このようなマッピングの仕方を「ボトムアップアプローチ」とよぶことにする。ボトムアップアプローチにおいては、実体タグはモデルタグから継承して作成する必要はなく、ユーザが任意に定義できる。仮に、あるＸＭＬ文書ファイルに実体タグ＜課長＞や＜ライセンス担当＞が含まれているとする。これらの実体タグは、モデルタグをベースとして作成されたタグではなく、ユーザが特段の制約もなく自由に定義したタグであるとする。一方、さきほどのモデルタグ＜従業員＞には、＜社長＞、＜課長＞、＜ライセンス担当＞、＜新入社員＞、＜プロジェクトリーダ＞、・・・のようにさまざまな下位概念語や類語にあたるタグがあらかじめ定義されている。モデルタグの名前と実体タグの名前が上位概念語と下位概念語の関係にあるとき、これらのタグは自動的に対応づけられることになる。ＸＭＬ文書ファイルの実体タグ＜課長＞は、モデルタグ＜従業員＞の下位概念語となっていることから、実体タグ＜課長＞に対してモデルタグ＜従業員＞が自動的に対応づけられる。このような方法によれば、既存のＸＭＬ文書ファイルに含まれているタグを標準的なモデルタグに自動的に結びつけることができる。

図３９は、前提技術で説明した文書処理装置２０の各種機能を利用しつつ、実体タグとモデルタグのマッピング機能を実現する文書処理装置３０００の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。

文書処理装置３０００は、ユーザインタフェース処理部３１００、通信部３１３０、データ処理部３２００およびデータ保持部３２５０を含む。
ユーザインタフェース処理部３１００は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例においては、ユーザインタフェース処理部３１００により文書処理装置３０００のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書処理装置３０００を操作してもよい。この場合、通信部３１３０が、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。

データ処理部３２００は、ユーザインタフェース処理部３１００や通信部３１３０から取得されたデータを元にして各種のデータ処理を実行する。データ処理部３２００は、ユーザインタフェース処理部３１００とデータ保持部３２５０の間のインタフェースの役割も果たす。データ保持部３２５０は、あらかじめ用意された設定データや、データ処理部３２００から受け取ったデータなど、さまざまなデータを格納する。

ユーザインタフェース処理部３１００は、ユーザからの入力を受け付ける入力部３１１０とユーザに対して各種情報を表示する表示部３１２０を含む。表示部３１２０の機能は、前提技術で説明した文書処理装置２０の表示部５６等により実現される。入力部３１１０は、アノテーション設定部３１１２と文書取得部３１１４を含む。アノテーション設定部３１１２は、ユーザからの指示入力に基づき、ＸＭＬ文書に対してアノテーションを設定する。アノテーションはタグの属性（attribute）として設定される。文書取得部３１１４は、処理対象となるＸＭＬ文書ファイルを取得する。

通信部３１３０は、他の文書処理装置３０００や所定のサーバ装置などの外部装置と通信する。通信部３１３０は、文書送信部３１３２と文書受信部３１３４を含む。文書送信部３１３２は、外部装置にＸＭＬ文書ファイルを送信する。文書受信部３１３４は、外部装置からＸＭＬ文書ファイルを受信する。このように、文書処理装置３０００は文書取得部３１１４と文書受信部３１３４のいずれかを介して処理対象となるＸＭＬ文書ファイルを取得する。

データ保持部３２５０は、ファイル保持部３２５２、タグマッピングテーブル保持部３２５４およびアノテーションマッピングテーブル保持部３２５６を含む。
ファイル保持部３２５２は、ＸＭＬ文書ファイル、特に、実体タグによって記述されたＸＭＬ文書ファイルを保持する。タグマッピングテーブル保持部３２５４は、実体タグとモデルタグを対応づけたタグマッピングテーブルを保持する。アノテーションマッピングテーブル保持部３２５６は、実体アノテーションとモデルアノテーションを対応づけたアノテーションマッピングテーブルを保持する。

データ処理部３２００は、文書編集部３２１０、検索部３２２０、マッピング処理部３２３０およびマスク処理部３２４０を含む。
文書編集部３２１０は、ユーザからの入力に応じてＸＭＬ文書ファイルの編集処理を実行する。文書編集部３２１０の主たる機能は、前提技術で説明した文書処理装置２０の基本的な機能、特に、編集ユニット２４により実現される。トップダウンアプローチとして、ユーザは、モデルタグセットによって記述されているＸＭＬ文書ファイルを、実体タグで記述されたＸＭＬ文書ファイルに変換してもよい。また、ボトムアップアプローチとして、はじめから自由に実体タグを定義してＸＭＬ文書ファイルを作成してもよい。

文書編集部３２１０は、タグリネーム部３２１２とアノテーションリネーム部３２１４を含む。トップダウンアプローチを採る場合において、タグリネーム部３２１２は、モデルタグ名を変更することにより実体タグを生成する。このとき、マッピング処理部３２３０のマッピング記録部３２３４は、実体タグと変更元のモデルタグをタグマッピングテーブルに対応づけて記録する。アノテーションリネーム部３２１４も同様であり、モデルアノテーション名を変更することにより実体アノテーションを生成する。マッピング記録部３２３４は、実体アノテーションと変更元のモデルアノテーションをモデルマッピングテーブルに対応づけて記録する。トップダウンアプローチにより実体タグや実体アノテーションが生成されるときには、マッピング記録部３２３４が対応づけを自動的に行う。一方、ボトムアップアプローチの場合においては、マッピング処理部３２３０の対応検出部３２３２がモデルタグと実体タグ、モデルアノテーションと実体アノテーションとの対応関係を自動検出する。検出方法については後述する。

検索部３２２０は、ＸＭＬ文書ファイル中からタグやアノテーションを検索する。検索部３２２０はタグ検索部３２２２とアノテーション検索部３２２４を含む。
タグ検索部３２２２はタグを検索する。たとえば、先ほどの例の場合、モデルタグ＜従業員＞を検索キーとする場合、タグ検索部３２２２は、タグマッピングテーブルを参照してモデルタグ＜従業員＞と対応づけられている実体タグを検出する。すなわち、ＸＭＬ文書ファイル中から実体タグ＜課長＞や＜ライセンス担当＞を検出し、それらの要素データを取得する。

このようなモデルタグ→実体タグという検索方法に限らず、実体タグ→モデルタグ→実体タグという検索方法も可能である。たとえば、あるＸＭＬ文書ファイルＡでは実体タグ＜課長＞が使用されており、別のＸＭＬ文書ファイルＢでは実体タグ＜ライセンス担当＞が使用されていたとする。このとき、ＸＭＬ文書ファイルＡの実体タグ＜課長＞を検索キーとして、ＸＭＬ文書ファイルＢから実体タグ＜ライセンス担当＞を検索してもよい。この場合、タグ検索部３２２２は、ＸＭＬ文書ファイルＡの実体タグ＜課長＞とタグマッピングテーブルにおいて対応づけられているモデルタグ＜従業員＞を特定する。次に、タグ検索部３２２２は、モデルタグ＜従業員＞とタグマッピングテーブルにおいて対応づけられている実体タグ＜ライセンス担当＞を特定する。このようにして、同じモデルタグにマッピングされている別の実体タグを検索することもできる。タグマッピングテーブルは、モデルタグセットと実体タグセットの組み合わせごとに用意される。無論、ＸＭＬ文書ファイルＡの実体タグを検索キーとして、同じＸＭＬ文書ファイルＡに含まれ、同じモデルタグとマッピングされている別の実体タグを検索することもできる。

アノテーション検索部３２２４はアノテーションを検索する。アノテーション検索部３２２４もタグ検索と同様に、モデルアノテーションを検索キーとして、ＸＭＬ文書ファイル中から該当する実体アノテーションを検索する。また、実体アノテーションを検索キーとして、同じモデルアノテーションにマッピングされている別の実体アノテーションを検索することもできる。

マッピング処理部３２３０は、タグやアノテーションのマッピングを管理する。基本的な仕組みは、前提技術で説明したＶＣユニット８０によるボキャブラリコネクションの仕組みと同様である。マッピング処理部３２３０は、対応検出部３２３２とマッピング記録部３２３４を含む。対応検出部３２３２は、ボトムアップアプローチにおいて実体タグとモデルタグ、実体アノテーションとモデルアノテーションの対応関係を検出する。

対応検出部３２３２は、あらかじめ用意されている類語テーブルや概念語テーブルを参照して、対応関係を検出する。類語テーブルには、類語関係にある単語の組み合わせ記述されている。たとえば、「自動車」という単語に対しては、「電車」、「自転車」などの単語が類語として登録されている。モデルタグ＜自動車＞が定義されている場合において、ユーザがＸＭＬ文書ファイル中に＜電車＞という実体タグを定義したときには、対応検出部３２３２は類語テーブルを参照して、モデルタグ＜自動車＞と実体タグ＜電車＞の対応関係を検出し、マッピング記録部３２３４はタグマッピングテーブルに両タグを対応づけて記録する。

概念語テーブルには、上位概念と下位概念の関係にある単語の組み合わせが記述されている。たとえば、「自動車」という単語に対しては、「高級車」、「新型車」などの下位概念にあたる単語が登録されている。モデルタグ＜自動車＞が定義されている場合において、ユーザがＸＭＬ文書ファイル中に＜高級車＞という実体タグを定義したときには、対応検出部３２３２は類語テーブルを参照して、モデルタグ＜自動車＞と実体タグ＜高級車＞の対応関係を検出し、マッピング記録部３２３４はタグマッピングテーブルに各タグを対応づけて記録する。

このように、対応検出部３２３２は、類語テーブルおよび概念語テーブルの双方または一方を参照してタグ間の対応関係を検出する。アノテーションについても同様である。ボトムアップアプローチにおいて、ユーザは実体タグに対して任意のモデルタグセットにおける任意のモデルタグを明示的にマッピングしてもよい。明示的なマッピングが指示されると、マッピング記録部３２３４はタグマッピングテーブルに実体タグとモデルタグの対応関係を記録する。１つのモデルタグセットに対して複数種類の実体タグセットをそれぞれ対応づけてもよいし、複数種類のモデルタグセットに対して１つの実体タグセットを対応づけてもよい。

マスク処理部３２４０は、ユーザによって指定された情報を非公開化する。たとえば、ファイル保持部３２５２に保持されているＸＭＬ文書ファイルを画面表示させるとき、個人情報保護のために従業員名に関わる情報を表示対象外としたいとする。この場合、ユーザは非表示対象データをモデルタグ＜従業員＞により指定する。マスク処理部３２４０は、タグマッピングテーブルを参照して、ＸＭＬ文書ファイル中から対応する実体タグを検出する。そして、対応する実体タグ＜課長＞や＜ライセンス担当＞の要素データである「加藤」は「長谷川」を表示対象から除外する。具体的には、ＸＭＬ文書ファイルをＸＳＬスタイルシートにて変換することにより、非表示データが除外されたＸＭＬ文書ファイルを新たに生成する。そして、生成されたＸＭＬ文書ファイルに含まれるデータが実際の表示対象となる。文書送信部３１３２によって外部装置にＸＭＬ文書ファイルを送信するときにも、データのマスクが可能である。この場合には、非表示データが除外されたＸＭＬ文書ファイルが送信対象となる。このような処理方法によれば、モデルタグにより非表示対象データを指定することにより、モデルタグとマッピングされているさまざまな実体タグの要素データを一元的に非公開化できる。また、非公開化以外にも、たとえば、該当データの表示色やフォントを変更してもよい。このようにマスク処理部３２４０は、ユーザによって指定された情報の表示態様を変化させることもできる。

図４０は、モデルタグと実体タグのマッピング構造を説明するための模式図である。
ここではモデルタグセット１、モデルタグセット２という２種類のモデルタグセットが提供されているとする。モデルタグセット１とモデルタグセット２は別々のベンダー（vender）によって提供されてもよい。ＸＭＬ文書ファイル３３００やＸＭＬ文書ファイル３３０２に含まれている実体タグは、モデルタグをリネームしたものではなく、ユーザが任意に設定したタグである。すなわち、ボトムアップアプローチを前提としている。モデルタグセット１は、モデルタグ＜人間＞と、その下位概念語としてのモデルタグ＜従業員＞を含む。単語「従業員」には、類語として「社員」、下位概念語として「課長」、「社長」、「課長代理」等の単語が類語テーブルや概念語テーブルにおいて対応づけられているものとする。モデルタグセット２は、モデルタグとして＜重要＞と＜不要＞を含む。

ＸＭＬ文書ファイル３３００には、実体タグ＜社員＞が含まれている。対応検出部３２３２は、類語テーブルを参照して「社員」という単語と「従業員」という単語が類語関係にあることを検出する。このとき、マッピング記録部３２３４は、ＸＭＬ文書ファイル３３００の実体タグ＜社員＞とモデルタグセット１のモデルタグ＜従業員＞とを対応づけてタグマッピングテーブルに記録する。

ＸＭＬ文書ファイル３３０２は、実体タグ＜課長＞、＜社長＞、＜課長代理＞を含む。対応検出部３２３２は、概念語テーブルを参照して「課長」という単語が「従業員」という単語の下位概念語であることを検出する。このとき、マッピング記録部３２３４は、ＸＭＬ文書ファイル３３０２の実体タグ＜課長＞とモデルタグセット１のモデルタグ＜従業員＞とを対応づけてタグマッピングテーブルに記録する。＜社長＞や＜課長代理＞についても同様である。

ユーザは、モデルタグセット２のモデルタグ＜重要＞に対して実体タグ＜社長＞を明示的にマッピングしている。このため、マッピング記録部３２３４は、ＸＭＬ文書ファイル３３０２の実体タグ＜社長＞とモデルタグセット２のモデルタグ＜重要＞とを対応づけてタグマッピングテーブルに記録する。また、ユーザはモデルタグ＜不要＞に対して実体タグ＜課長代理＞を明示的にマッピングしている。このため、これらのタグもタグマッピングテーブルにおいて対応づけられる。
このような実体タグ＜社長＞とモデルタグ＜重要＞のマッピングはユーザの判断に基づいている。そのため、同じモデルタグセット２に対して、実体タグ＜社長＞にモデルタグ＜不要＞をマッピングし、＜課長＞や＜課長代理＞に対してはモデルタグ＜重要＞をマッピングしてもよい。中間管理職＝重要という観点に立つならば、このようなマッピングも想定し得る。特に、「重要」や「不要」のように評価に関わるモデルタグの場合、ユーザの価値判断や評価基準に応じてマッピングが変化する可能性もある。たとえば、システムの運用中に、実体タグ＜課長代理＞は＜不要＞ではなく＜重要＞にマッピングされるべきであるとして状況変化することがある。この場合、タグマッピングテーブルにおける実体タグとモデルタグの対応関係を変更する。このように、実体タグとモデルタグの対応関係は、状況に応じて柔軟に変更可能であることが望ましい。更に、マッピングテーブルは、ユーザごとに設定してもよい。たとえば、ユーザＡは＜社長＞に＜重要＞をマッピングし、ユーザＢは＜社長＞に＜不要＞をマッピングするといった具合である。この場合、モデルタグセットと実体タグセットの組み合わせは同じでも、ユーザＡ用のマッピングテーブルとユーザＢ用のマッピングテーブルは別々となる。

このような処理モデルによると、既存のＸＭＬ文書ファイルを１以上のモデルタグセットにマッピングできる。そのため、さまざまな実体タグセットによって記述されたＸＭＬ文書ファイルであっても、重要な実体タグをモデルタグ＜重要＞とマッピングするだけで重要な要素データを簡単に検索できる。ボトムアップアプローチによれば、ユーザにモデルタグの使用やモデルタグをベースとした実体タグの生成を強いる必要がない。そのため、モデルタグセットを介することによって、別々の実体タグセットを結びつけることができる。たとえば、開発部で使用されている実体タグセットと、マーケティング部で使用されている実体タグセットは別々のものであるかもしれないが、共通のモデルタグセットを介することによって両部署の情報を合理的に結びつけることができる。また、さまざまな種類のモデルタグセットを用意しておけば、さまざまな観点から実体タグを検索することができる。

Claims

複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルを保持するファイル保持部と、
親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更するアノテーションリネーム処理部と、
子文書ファイルに含まれる実体アノテーションの名前と、その実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを保持するアノテーションマッピングテーブル保持部と、
子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定するアノテーション設定部と、
モデルアノテーションの名前を検索キーとし、前記アノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出するアノテーションデータ検索部と、
子文書ファイルを外部装置に送信する際に、前記アノテーションデータ検索部が、子文書ファイルに含まれるデータのうち外部送信を禁止すべきデータに設定されるモデルアノテーションを検索キーとして子文書ファイルから該当データを検出した場合に、その検出されたデータの外部装置に対する送信を抑止するファイル送信部と、
を備えたことを特徴とする文書処理装置。
複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルについて、親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更するステップと、
子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定するステップと、
子文書ファイルを外部装置に送信する際に、子文書ファイルに含まれるデータのうち外部送信を禁止すべきデータに設定されるモデルアノテーションの名前を検索キーとし、子文書ファイルに含まれる実体アノテーションの名前とその実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出した場合に、その検出されたデータの外部装置に対する送信を抑止するステップと、
をコンピュータが実行することを特徴とする文書処理方法。
複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルについて、親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更する機能と、
子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定する機能と、
子文書ファイルを外部装置に送信する際に、子文書ファイルに含まれるデータのうち外部送信を禁止すべきデータに設定されるモデルアノテーションの名前を検索キーとし、子文書ファイルに含まれる実体アノテーションの名前とその実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出した場合に、その検出されたデータの外部装置に対する送信を抑止する機能と、
をコンピュータに発揮させることを特徴とする文書処理プログラム。