JP2004086642A - Xml変換装置及びそのプログラムの記録媒体 - Google Patents
Xml変換装置及びそのプログラムの記録媒体 Download PDFInfo
- Publication number
- JP2004086642A JP2004086642A JP2002247963A JP2002247963A JP2004086642A JP 2004086642 A JP2004086642 A JP 2004086642A JP 2002247963 A JP2002247963 A JP 2002247963A JP 2002247963 A JP2002247963 A JP 2002247963A JP 2004086642 A JP2004086642 A JP 2004086642A
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- document
- xml
- file
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【課題】表形式データからなる既存の電子化文書をXMLデータに変換する。
【解決手段】予め、表形式データを有する教師用電子化文書から変換規則を抽出し、変換規則を用いて電子化文書をXMLデータに変換する。
【選択図】図1
【解決手段】予め、表形式データを有する教師用電子化文書から変換規則を抽出し、変換規則を用いて電子化文書をXMLデータに変換する。
【選択図】図1
Description
【0001】
【発明の属する技術分野】
本発明は、電子化文書を格納した記録媒体を持つ計算機において、特に、表形式で記述された電子化文書を予め教師用となる電子化文書から抽出した変換規則を用いて構造化文書であるXML文書に変換するXML装置に関する。
【0002】
【従来の技術】
ネットワークの発達に伴い、計算機のOSやアプリケーションに依存することなく、Webブラウザ上に構造化文書を表示する為の言語としてXMLが注目されている。XMLは、利用者が自由に設定可能なタグを用いて文書を記述することで、構造的に文書を表示することや、検索することが可能である。
【0003】
これに伴い、ワードプロセッサ等の文書作成装置やパーソナルコンピュータにおける文書作成ソフト等を用いて作成した文書やDBに格納した情報をXMLデータに変換することにより、Web上で閲覧や編集等、広く利用する試みが行なわれている。
【0004】
例えば、特開2001―357030号公報では、組版言語による電子化文書をXML形式に変換する場合において、組版言語の構造を活用した変換規則を予め定義し、この変換規則を用いて他の組版言語による電子化文書をXML文書に変換することを開示している。
【0005】
また、特開2001−273177号公報では、RDBを対象としてXML文書に変換しており、この場合もRDBにおけるスキーマ情報を用いてXML文書に変換することを開示している。
【0006】
また、特開平9−69101号公報では、非構造化文書において、予め構造情報を示す文字列を変換規則として格納し、この構造情報を用いて、構造化文書に変換することを開示している。
【0007】
このように、従来の様々なフォーマットで記述された電子化文書をXMLに代表されるような構造化文書に変換する方法が多く発明されている。
【0008】
【発明が解決しようとする課題】
上記従来技術において、文書作成装置を用いて記述された非構造化文書を構造化文書に変換することは困難であった。
【0009】
特に、表形式データを有する電子化文書の場合、表形式データを構成する最小単位であるセルごとにデータを取得することは可能であったが、表形式データを構造化文書として変換することが出来なかった。
【0010】
従来、格納されている電子化文書には表形式データと通常のテキストデータが混在する場合が多く、本発明は、表形式データを有する電子化文書を構造化文書に変換する場合において利用者の負担を極力軽減することを目的とする。
【0011】
【課題を解決するための手段】
本発明では、上記課題を解決する為に以下の手段を設けることを特徴とする。少なくとも一つ以上の電子化文書を格納した記憶装置を保持し、
(1)教師用となる電子化文書から、文書構造を有する構造化文書に変換する為の変換規則を抽出するマッピング情報抽出手段と、マッピング情報抽出手段において予め抽出した変換規則を元に一文書以上の電子化文書を構造化文書に変換する手段を設ける。
(2)マッピング情報抽出手段においては、教師用電子化文書から抽出する変換規則を、入力装置を介して利用者が定義することを可能とする入力手段を設ける。
(3)マッピング情報抽出手段においては、特に変換対象文書が表形式データを有する文書の場合において、表の先頭行あるいは先頭列に記述された内容を構造化文書の制御情報(タグ)の候補として、予め抽出することを可能とする設定定義手段を設ける。
(4)マッピング情報抽出手段においては、特に変換対象文書が文書の先頭部分あるいは後尾部分において属性情報を有する文書の場合において、該当部分に記述された内容を構造化文書の制御情報(タグ)の候補として抽出することを可能とする設定定義手段を設ける。
(5)収集変換処理手段においては、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして記憶装置に格納する収集変換処理手段を設ける。
(6)変換対象文書が少なくとも一文書以上格納されている記憶装置を少なくとも一装置以上を利用者が指定し、また、少なくとも一つ以上の変換規則を利用者が指定した場合において、格納されている電子化文書を、指定した全ての変換規則を用いて変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして記憶装置に格納する収集変換処理手段を設ける。
【0012】
【発明の実施の形態】
以下,本発明の一実施の形態を図面により詳細に説明する。まず、図1に,本発明全体のシステム構成図を示す。XML変換装置1001は、XML変換処理を行なう処理装置01、記憶装置02、表示装置03、及び入力装置04から構成される。
【0013】
XML変換装置1001において、変換対象となる文書ファイル群を格納した文書ファイルDB0201、文書ファイルをXMLデータに変換する場合の変換規則を格納したマッピング情報0202、変換した結果によってXMLデータを格納するか否かを定義した変換条件0203、及び変換したXMLデータ0204は、記憶装置02に格納されている。
【0014】
処理装置01において、教師用となる教師用文書ファイルからXMLデータ0204へ変換する為の変換規則を抽出するマッピング情報抽出部0102、変換規則を用いて文書ファイルをXMLデータ0204に変換する収集変換部0103、及びXMLデータ0204を表示する表示部0104はプログラムとして処理装置01に格納されている。
【0015】
利用者は、表示装置03において出力した教師用文書ファイルを参照し、入力装置04を介して、XMLデータ0204に変換する為の変換条件として、まずタグ情報を入力し、次に、タグに対するデータ部分の対応関係及び位置情報を入力する。これらの情報は、変換条件としてマッピング情報0202に格納する。更に、このマッピング情報0202を用いて、他の電子化文書をXMLデータに変換し、変換条件0203に合致したファイルのみ、XMLファイルとしてXMLデータ0204として記憶装置02に格納する。
【0016】
変換条件となるマッピング情報を抽出するための教師用文書ファイル、抽出したマッピング情報0202を用いて教師用文書ファイルをXMLデータに変換した結果、及び変換済みXMLデータは表示装置03に出力される。
【0017】
また、XML変換装置1001は、WWWサーバ1002及びネットワーク1003を介し、少なくとも一つ以上のクライアントマシン1004と接続することが可能であり、クライアントマシン1004に格納した文書ファイルDB0201を、マッピング情報0202及び変換条件0203を用いて、XMLデータ0204に変換することも可能である。
【0018】
図2に、XML変換装置1001における全体処理フローチャートを示す。
ステップ0101において、XML変換ツール初期画面(図3)を表示する。利用者は「マッピング」、「収集変換」、「表示」、「終了」のいずれか一つの処理を選択する(03002〜03005)。
【0019】
利用者が「マッピング」を選択した場合、マッピング情報抽出部0102において、文書ファイルDB0201からユーザが指定した教師用文書ファイルを表示装置03に出力し、利用者が入力したタグ及びタグとデータの対応関係及び位置情報をマッピング情報0202として記憶装置02に格納するマッピング情報抽出処理を行なう。なお、詳細は、図4以降の画面例及び図14のマッピング処理におけるフローチャートを用いて説明する。
【0020】
利用者が「収集変換」を選択した場合、収集変換部0103において、利用者が選択したマッピング情報ファイル0202を用いて、文書ファイル0201をXMLデータ0204に変換し、変換条件0203に合致したファイルのみ、XMLデータ0204として記憶装置02に格納する。なお、詳細は、図17以降の画面例及び図19の収集変換処理におけるフローチャートを用いて説明する。
【0021】
利用者が「表示」を選択した場合、表示部0104において、利用者が入力したXMLファイル0204を表示装置04に出力する。なお、詳細は、図20以降の画面例及び図22の表示処理におけるフローチャートを用いて説明する。
利用者が「終了」を選択した場合、ステップ0105において、XML変換処理プログラムを終了させる。
【0022】
図3は、XML変換処理装置の初期画面例である。表示装置03における初期画面03001は、入力装置04を介してユーザがマッピング処理を指示する領域03002、収集変換処理を指示する領域03003、表示処理を指示する領域03004、終了処理を指示する表示領域03005から構成される。
【0023】
図4は、本装置においてXML変換の対象となる文書ファイルDB0201の一例である。文書ファイルDB0201において、文書の先頭部分における属性情報である02011、少なくとも一つ以上の表形式データ02012、02013、及び文書の後尾部分における属性情報である02014から構成される。
【0024】
図5は、教師用文書ファイルの選択画面例である。図3の初期画面03001において、利用者がマッピング処理の開始を入力すると本画面が表示される。利用者は、教師用文書ファイル選択画面表示領域03011において、教師用文書ファイル名を入力領域03012に入力し、処理開始ボタンとなる03013を選択することで処理を開始する。
【0025】
図6は、マッピング画面における初期画面例である。図5において、利用者が教師用文書ファイルを選択すると本画面が表示される。
XMLデータ0204は、主に、タグとそのタグに対するデータ部分から構成される。そこで、マッピング画面においては、まずタグを定義し、そのタグに対するデータを定義する必要がある。XMLデータ0204は、タグ及びデータのから構成される対の情報を少なくとも一つ以上含む。
【0026】
マッピング初期画面は、表示領域030201において、タグの一覧を表示する領域030202、教師用文書ファイルを表示する領域030203、教師用文書ファイルからタグ候補の抽出処理を指示する領域030204、新規のタグ名を入力する領域030205、タグ名入力領域030205に記述したタグ名をタグ一覧領域に追加する処理を指示する領域030206、タグ一覧表示領域030202に表示されたタグを削除する処理を指示する領域030207、マッピング情報として抽出したタグと位置情報を対応付ける処理を指示する領域030208、マッピング情報としてタグに対するデータとの対応関係及び位置情報を対応付ける処理を指示する領域030209、登録したこれらのマッピング情報を元に教師用データをXML変換した結果を表示する処理を指示する領域030210、及び利用者が定義した対応関係をマッピング情報としてマッピング情報ファイル0202に格納する処理を指示する030211から構成される。
【0027】
図7は、タグ抽出条件設定画面例である。図6において、利用者がタグ候補の抽出処理を指示する領域030204を選択すると本画面が表示される。
タグ抽出条件設定画面は、表示領域03031において、ヘッダからタグ候補を抽出することを条件として指定する領域03032、表形式の先頭行からタグ候補を抽出することを条件として指定する領域03033、指示した条件を読み込み、この条件に基づいて教師用文書ファイルからタグ候補を抽出する処理を指示する領域03034、及び指定した条件を破棄し、タグ抽出条件設定処理を終了することを指示する領域03035から構成される。
【0028】
図8は、図7においてタグ抽出条件を設定し、タグ抽出処理を行なった後の画面例である。本画面では、タグ抽出処理を行なった後、教師用文書ファイルから抽出したタグ候補を、タグ一覧表示領域030205に出力した画面である。
【0029】
図9は、データ定義処理において範囲に関するデータ定義条件設定の画面例である。図6において、利用者がデータ定義の設定処理を指示する領域030209を選択すると本画面が表示される。
【0030】
範囲に関するデータ定義条件設定画面は、表示領域03041において、更に範囲に関する条件を設定する表示領域03042において、既に定義したタグのデータ部分として表示領域の次行から取得する行の範囲を定義することを指示する領域03043、既に定義したタグのデータ部分として表示領域の次列から取得する列の範囲を定義することを指示する領域03044、この条件に基づいてタグに対するデータ部分を抽出する処理を指示する領域03045、及び指定した条件を破棄し、データ定義条件設定処理を終了することを指示する領域03046から構成される。
【0031】
図10は、データ定義処理において改行に関するデータ定義条件設定の画面例である。図9において、利用者が改行に関する条件を設定する表示領域03052を選択すると本画面が表示される。
【0032】
改行に関するデータ定義条件設定画面は、表示領域03051において、更に改行に関する条件を設定する表示領域03052において、定義したデータの表示領域から抽出する文字情報に関して、改行コードを文字情報から削除することを指示する領域03053、改行コードを文字情報から削除しないことを指示する領域03054、この条件に基づいてデータから文字情報を抽出することを指示する領域03055、及び指定した条件を破棄し、データ定義条件設定処理を終了することを指示する領域03056から構成される。
【0033】
図11は、データ定義処理において型に関するデータ定義条件設定の画面例である。図9において、利用者が型に関する条件を設定する表示領域03062を選択すると本画面が表示される。
【0034】
型に関するデータ定義条件設定画面は、表示領域03061において、更に型に関する条件を設定する表示領域03062において、利用者が選択したタグ名の表示領域03063、利用者が選択したタグに対するデータの型の候補一覧を表示する領域03064、この条件に基づいてタグに対するデータの型を指定することを指示する領域03065、及び指定した条件を破棄し、データ定義条件設定処理を終了することを指示する領域03066から構成される。
【0035】
図12は、データ定義処理において入れ子タグの確認画面例である。図7において、利用者が選択したタグに対するデータ抽出領域として、既に別のタグとして定義済みの表示領域を選択した場合、これらのタグが入れ子の関係であることを確認する画面が表示される。
【0036】
タグの入れ子に関する確認画面は、表示領域03071において、ユーザが定義した情報が入れ子の関係であることを出力した表示領域03072、この条件に基づいてタグの入れ子関係を指定することを指示する領域03073、及び指定した条件を破棄し、タグの入れ子関係を定義する処理を終了することを指示する領域03074から構成される。
【0037】
図13は、マッピング情報保存画面例である。表示領域03081において、マッピング情報を格納する場所を利用者が入力する領域03082、利用者が入力した格納場所に既に格納済みのマッピング情報名の一覧を表示する領域03083、マッピング情報名を利用者が入力する領域03084、マッピング情報のファイル情報の内容を表示する領域03085、及び、マッピング情報の保存処理を指示する領域03086、及び指定したマッピング情報名を破棄し、マッピング情報の保存処理を終了することを指示する領域03087から構成される。
【0038】
図14は、教師用データのXML変換結果表示画面例である。図8において、利用者が定義したマッピング情報を元に教師用文書ファイルをXML変換することを指示する表示領域030210を選択した場合、本画面が表示される。
本画面は、教師用文書ファイルのXML変換結果表示領域030901のみから構成され、この領域にXMLデータ0204が表示される。
【0039】
図15は、マッピング処理の詳細なフローチャートである。図3の初期画面においてマッピング処理を利用者が選択した場合、本マッピング情報抽出処理0102を実行する。
【0040】
利用者がマッピング処理03002を指示すると、教師用文書ファイルを選択する画面を出力する。まず、ステップ010201では、この教師用文書ファイル選択画面で利用者が入力した教師用文書ファイル名を読み込む。
【0041】
次に、ステップ010202において、図5のマッピング画面03011を表示し、更に教師用文書ファイルの内容を表示領域030203に表示する。次に、ステップ010203において、利用者が、図6のタグ抽出処理指示領域030204を選択すると、タグ抽出処理であるステップ010204に進む。
【0042】
ステップ010204では、利用者が指示したタグ抽出条件に基づき、教師用文書ファイルからタグの候補を抽出し、タグ一覧表示領域030202に表示する。タグ抽出条件では、教師用文書ファイルのヘッダー部分をタグとして抽出するかどうか、及び、表形式の先頭行をタグとして抽出するかどうかを利用者は設定することが可能である。
【0043】
次に、ステップ010205において、利用者が新規タグ名入力領域030205においてタグ名を入力し、追加することを指示する表示領域030206を選択するとタグ追加処理であるステップ010206に進む。
ステップ010206では、利用者が入力したタグ名を読み込み、タグ一覧表示領域030202にタグ名を追加表示する。次に、ステップ010207において、利用者がタグ一覧表示領域030202に表示されたタグから一つのタグを選択し、教師用文書ファイル表示領域030203においてそのタグの抽出領域を選択すると、そのタグとそのタグを抽出する位置情報の対応関係を読み込む。次に、ステップ010208において、そのタグに対するデータ部分の抽出範囲を指定し、更にそのデータの抽出方法として、範囲、改行、型、入れ子に関する条件を指定する。このステップ010207、ステップ010208の処理において、タグとタグの抽出位置情報及び、そのデータ部分の位置情報及び詳細設定を行なうことが可能である。
【0044】
そして、ステップ010209においてタグ定義処理を終了すると、再びタグ情報を入力するためにステップ010206に戻るか、これらのマッピング情報を保存するステップ010210に進む。
【0045】
ステップ010211では、マッピング情報保存画面において利用者が入力したマッピング情報の格納場所及びマッピング情報ファイル名を読み込み、マッピング情報として格納する。
【0046】
ステップ010212において、利用者が図7における教師用文書ファイルのXML変換結果の表示処理を指示する領域030210を選択すると、ステップ010213に進む。
【0047】
ステップ010213では、教師用文書ファイルをXML変換し、その結果を教師用データのXML変換結果として表示装置03の表示領域に出力する。
ステップ010214においてマッピング作業を終了すると、本マッピング処理が終了する。
【0048】
図16は、上記の処理で抽出したマッピング情報ファイル0202のデータ構造である。マッピング情報ファイル0202は、大きく二つのテーブル020201及び020202から構成される。テーブル020201には、マッピングファイル名及びこのマッピングファイルを抽出する為の教師用データファイル名が格納されている。テーブル020202は、複数のレコードから構成され、また1レコードは、複数のデータ項目から構成される。
【0049】
データ項目は、「タグ名」、「タグ位置情報」、範囲に関する情報である「データ抽出位置情報」、「繰返しデータ抽出」、及び「繰返しデータ抽出方向」、改行に関する情報である「改行」、型に関する情報である「型」、入れ子に関する情報である「入れ子」から構成される。
【0050】
図17は、収集変換ファイル選択画面例である。図3の初期画面03001において、利用者が収集変換03003の開始を入力すると、本画面が表示される。利用者は、マッピングファイル選択領域03102及び003103において、マッピング情報ファイル0202を指定し、更に変換元となる電子化文書ファイル名を変換元情報表示領域03104、03105、03106において指定する。更に、変換先の格納領域を変換先情報表示領域03104、03105、03107において指定する。更に、収集変換処理0103を実行することを指示する表示領域03108を利用者が選択すると収集変換処理0103を開始する。また、変換後、変換結果を参照したい場合は、ログ内容を表示する画面03111を表示することを指示する表示領域03109を選択する。
【0051】
図18は、ログ内容表示画面例である。本画面は、変換したファイルの変換日時、変換結果、変換後のファイル名を出力した表示領域03112及び、本画面を終了することを指示する表示領域03113から構成される。
【0052】
図19は、収集変換処理の詳細なフローチャートである。図3の初期画面において収集変換処理03003を利用者が選択した場合、本収集変換処理0103を実行する。
【0053】
利用者が収集変換処理03003を指示すると、マッピング情報ファイル名や変換元のファイル名を指定する画面を出力する。まず、ステップ010301では、マッピングファイル名を読み込む。次に、ステップ010302において、変換元ファイル名を読み込む。次に、ステップ010303において、変換先フォルダ名を読み込む。ここで、利用者が変換実行を指示すると、収集変換処理010304を開始する。ステップ010305では、利用者が指定したマッピングファイル名を元に、変換元ファイルを1ファイルずつ読み込み変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイル0203に合致した変換結果ファイルのみXMLファイルとして格納する。
【0054】
次に、ステップ010306において、変換結果をログ情報として格納する。次に、ステップ010307において、利用者がログ結果を表示することを指示すると、ログ結果を表示するステップに進む。次に、ステップ010308において、ログ結果表示画面を表示し、そこにログ結果を表示する。そして、ステップ010309において収集変換作業を終了すると、本収集変換処理が終了する。
【0055】
図20は、表示XMLファイル選択画面例である。図3の初期画面03001において、利用者がXMLファイル表示03004の開始を入力すると本画面が表示される。利用者は、表示XMLファイル選択画面において、XMLデータ0204の選択に関する表示領域03122、03123、及び03124において、XMLデータ0204のファイル名を指定し、表示処理を実行することを指示する表示領域03125を利用者が選択すると表示処理を開始する。また、原文書を表示したい場合は、原文書を表示することを指示する表示領域03126を選択する。
【0056】
図21は、上記処理に参照する変換規則0203のデータ構造である。
変換規則0203は、複数のレコードから構成され、また1レコードは、複数のデータ項目から構成される。データ項目は、「エラー個数」、「結果」から構成される。変換処理において発生するエラー個数に応じて、XMLデータ0204として出力するか否かを定義している。
【0057】
図22は、XML変換結果表示画面例である。本画面は、変換したXMLデータを表示した画面である。
【0058】
図23は、XMLデータ表示処理の詳細なフローチャートである。図3の初期画面において表示処理を利用者が選択した場合、本表示処理0104を実行する。
利用者が図3の表示処理03004を指示すると、ステップ010401,010402においてXML表示フォルダ名、及び表示ファイル名を読み込む。
次に、ステップ010403においてXMLデータのファイル名の表示を指示すると、ステップ010404においてXMLデータのファイル名を表示する。
また、ステップ010405において原文書の表示を指示すると、ステップ010406において原文書を表示する。そして、ステップ010407において表示作業を終了すると、本表示処理が終了する。
【0059】
以上が、本発明の実施の形態の説明である。また、図24から図26は、本実施の形態の拡張例である自動収集変換装置の一部画面例である。これにより、特に電子化文書に対してそれぞれ変換規則であるマッピング情報指定しなくても、ネットワークに接続された処理装置における記憶装置に格納された電子化文書を自動的に収集し、XMLデータ0204に変換することが可能である。
【0060】
図24は、本拡張例における自動収集変換が設定画面である。
本画面では、マッピング情報ファイル0202を指定する表示領域03142及び03143において複数のマッピング情報ファイル0202を指定することが可能である。
【0061】
また、変換元ファイルを格納した処理装置の一覧を表示領域03144において、変換対象となる処理装置を複数指定することが可能である。
【0062】
また、変換先ファイル情報を表示した表示領域03145,03146,03147において変換した結果を格納する場所を指定する。
【0063】
また、変換ルール表示領域03148において、本処理をするに実行しない場合の時間指定やエラー時の対応を指示する。
【0064】
図25は、自動収集変換ログ内容表示画面である。本画面は、図18と特に変更はない。
【0065】
図26は、自動収集変換処理の詳細なフローチャートである。
利用者が収集変換処理を指示すると、マッピング情報ファイル名や変換元のファイル名を指定する画面を出力する。
【0066】
まず、ステップ010501では、マッピングファイル名を読み込む。
次に、ステップ010502において、変換元ファイル名を読み込む。
次に、ステップ010503において、変換先フォルダ名を読み込む。
次に、ステップ010504において、変換ルールを格納する。
ここで、利用者が変換実行を指示すると、自動収集変換処理010505を開始する。
ステップ010506では利用者が指定した変換ルールを入力する。
【0067】
次に、ステップ010507では、利用者が指定した時間になったら、マッピングファイル名を元に、変換元ファイルを1ファイルずつ読み込み変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして格納する。
【0068】
次に、ステップ010508において、変換結果をログ情報として格納する。次に、ステップ010509において、利用者がログ結果を表示することを指示すると、ログ結果を表示するステップに進む。
次に、ステップ010510において、ログ結果表示画面を表示し、そこにログ結果を表示する。
そして、ステップ010511において収集変換作業を終了すると、本収集変換処理が終了する。
【0069】
本実施の形態によれば、同じフォーマットで記述された大量の電子化文書において、予め教師用となる電子化文書から、構造化文書に変換するための変換規則を抽出し、この変換規則を用いて他の電子化文書を自動的に構造化文書に変換することが可能である。
【0070】
また、表形式データで記述されたことの特徴を活かして変換規則の候補を予め抽出することが可能であり、利用者の負担を軽減することが可能である。
【0071】
また、変換規則は利用者が自由に定義することが可能である。
【0072】
また、ネットワークに接続された複数の計算機装置における記憶装置に格納された電子化文書に対して、それぞれ変換規則を特に指定することなく、XMLデータに変換することが可能である。
【0073】
【発明の効果】
本発明によれば、同じフォーマットで記述された大量の電子化文書において、予め教師用となる電子化文書から、構造化文書に変換するための変換規則を抽出し、この変換規則を用いて他の電子化文書を自動的に構造化文書に変換することができるという効果がある。
【0074】
また、表形式データで記述されたことの特徴を活かして変換規則の候補を予め抽出することが可能であり、利用者の負担を軽減することができるという効果がある。
また、ネットワークに接続された複数の計算機装置における記憶装置に格納された電子化文書に対して、それぞれ変換規則を特に指定することなく、XMLデータに変換することができるという効果がある。
【図面の簡単な説明】
【図1】XML変換装置におけるシステム構成図
【図2】XML変換装置全体の動作のフローチャート
【図3】初期画面例
【図4】電子化文書ファイル例を示す図
【図5】教師用文書ファイル選択画面例を示す図
【図6】マッピング初期画面例を示す図
【図7】タグ抽出条件設定画面例を示す図
【図8】タグ抽出後のマッピング画面例を示す図
【図9】範囲に関するデータ定義条件設定画面例を示す図
【図10】改行に関するデータ定義条件設定画面例を示す図
【図11】型に関するデータ定義条件設定画面例を示す図
【図12】入れ子タグに関する設定画面例を示す図
【図13】マッピング情報保存画面例を示す図
【図14】教師用データのXML変換結果画面例を示す図
【図15】マッピング処理の動作のフローチャート
【図16】マッピング情報を説明するための図
【図17】収集変換ファイル選択画面例を示す図
【図18】ログ内容表示画面例を示す図
【図19】収集変換処理の動作のフローチャート
【図20】表示XMLファイル選択画面例を示す図
【図21】XML変換条件を説明するための図
【図22】XML変換結果画面例を示す図
【図23】表示処理の動作のフローチャート
【図24】自動収集変換設定画面例を示す図
【図25】自動収集変換ログ内容表示画面例を示す図
【図26】自動収集変換処理の動作のフローチャート
【符号の説明】
1001…XML変換装置、1002…WWWサーバ、1003…ネットワーク、1004…処理装置、01…処理装置、02…記憶装置、03…表示装置、04…入力装置、0102…マッピング情報抽出部、0103…収集変換部、0104…表示部、0201…文書ファイルDB、0202…マッピング情報、0203…変換条件、0204…XMLデータ。
【発明の属する技術分野】
本発明は、電子化文書を格納した記録媒体を持つ計算機において、特に、表形式で記述された電子化文書を予め教師用となる電子化文書から抽出した変換規則を用いて構造化文書であるXML文書に変換するXML装置に関する。
【0002】
【従来の技術】
ネットワークの発達に伴い、計算機のOSやアプリケーションに依存することなく、Webブラウザ上に構造化文書を表示する為の言語としてXMLが注目されている。XMLは、利用者が自由に設定可能なタグを用いて文書を記述することで、構造的に文書を表示することや、検索することが可能である。
【0003】
これに伴い、ワードプロセッサ等の文書作成装置やパーソナルコンピュータにおける文書作成ソフト等を用いて作成した文書やDBに格納した情報をXMLデータに変換することにより、Web上で閲覧や編集等、広く利用する試みが行なわれている。
【0004】
例えば、特開2001―357030号公報では、組版言語による電子化文書をXML形式に変換する場合において、組版言語の構造を活用した変換規則を予め定義し、この変換規則を用いて他の組版言語による電子化文書をXML文書に変換することを開示している。
【0005】
また、特開2001−273177号公報では、RDBを対象としてXML文書に変換しており、この場合もRDBにおけるスキーマ情報を用いてXML文書に変換することを開示している。
【0006】
また、特開平9−69101号公報では、非構造化文書において、予め構造情報を示す文字列を変換規則として格納し、この構造情報を用いて、構造化文書に変換することを開示している。
【0007】
このように、従来の様々なフォーマットで記述された電子化文書をXMLに代表されるような構造化文書に変換する方法が多く発明されている。
【0008】
【発明が解決しようとする課題】
上記従来技術において、文書作成装置を用いて記述された非構造化文書を構造化文書に変換することは困難であった。
【0009】
特に、表形式データを有する電子化文書の場合、表形式データを構成する最小単位であるセルごとにデータを取得することは可能であったが、表形式データを構造化文書として変換することが出来なかった。
【0010】
従来、格納されている電子化文書には表形式データと通常のテキストデータが混在する場合が多く、本発明は、表形式データを有する電子化文書を構造化文書に変換する場合において利用者の負担を極力軽減することを目的とする。
【0011】
【課題を解決するための手段】
本発明では、上記課題を解決する為に以下の手段を設けることを特徴とする。少なくとも一つ以上の電子化文書を格納した記憶装置を保持し、
(1)教師用となる電子化文書から、文書構造を有する構造化文書に変換する為の変換規則を抽出するマッピング情報抽出手段と、マッピング情報抽出手段において予め抽出した変換規則を元に一文書以上の電子化文書を構造化文書に変換する手段を設ける。
(2)マッピング情報抽出手段においては、教師用電子化文書から抽出する変換規則を、入力装置を介して利用者が定義することを可能とする入力手段を設ける。
(3)マッピング情報抽出手段においては、特に変換対象文書が表形式データを有する文書の場合において、表の先頭行あるいは先頭列に記述された内容を構造化文書の制御情報(タグ)の候補として、予め抽出することを可能とする設定定義手段を設ける。
(4)マッピング情報抽出手段においては、特に変換対象文書が文書の先頭部分あるいは後尾部分において属性情報を有する文書の場合において、該当部分に記述された内容を構造化文書の制御情報(タグ)の候補として抽出することを可能とする設定定義手段を設ける。
(5)収集変換処理手段においては、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして記憶装置に格納する収集変換処理手段を設ける。
(6)変換対象文書が少なくとも一文書以上格納されている記憶装置を少なくとも一装置以上を利用者が指定し、また、少なくとも一つ以上の変換規則を利用者が指定した場合において、格納されている電子化文書を、指定した全ての変換規則を用いて変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして記憶装置に格納する収集変換処理手段を設ける。
【0012】
【発明の実施の形態】
以下,本発明の一実施の形態を図面により詳細に説明する。まず、図1に,本発明全体のシステム構成図を示す。XML変換装置1001は、XML変換処理を行なう処理装置01、記憶装置02、表示装置03、及び入力装置04から構成される。
【0013】
XML変換装置1001において、変換対象となる文書ファイル群を格納した文書ファイルDB0201、文書ファイルをXMLデータに変換する場合の変換規則を格納したマッピング情報0202、変換した結果によってXMLデータを格納するか否かを定義した変換条件0203、及び変換したXMLデータ0204は、記憶装置02に格納されている。
【0014】
処理装置01において、教師用となる教師用文書ファイルからXMLデータ0204へ変換する為の変換規則を抽出するマッピング情報抽出部0102、変換規則を用いて文書ファイルをXMLデータ0204に変換する収集変換部0103、及びXMLデータ0204を表示する表示部0104はプログラムとして処理装置01に格納されている。
【0015】
利用者は、表示装置03において出力した教師用文書ファイルを参照し、入力装置04を介して、XMLデータ0204に変換する為の変換条件として、まずタグ情報を入力し、次に、タグに対するデータ部分の対応関係及び位置情報を入力する。これらの情報は、変換条件としてマッピング情報0202に格納する。更に、このマッピング情報0202を用いて、他の電子化文書をXMLデータに変換し、変換条件0203に合致したファイルのみ、XMLファイルとしてXMLデータ0204として記憶装置02に格納する。
【0016】
変換条件となるマッピング情報を抽出するための教師用文書ファイル、抽出したマッピング情報0202を用いて教師用文書ファイルをXMLデータに変換した結果、及び変換済みXMLデータは表示装置03に出力される。
【0017】
また、XML変換装置1001は、WWWサーバ1002及びネットワーク1003を介し、少なくとも一つ以上のクライアントマシン1004と接続することが可能であり、クライアントマシン1004に格納した文書ファイルDB0201を、マッピング情報0202及び変換条件0203を用いて、XMLデータ0204に変換することも可能である。
【0018】
図2に、XML変換装置1001における全体処理フローチャートを示す。
ステップ0101において、XML変換ツール初期画面(図3)を表示する。利用者は「マッピング」、「収集変換」、「表示」、「終了」のいずれか一つの処理を選択する(03002〜03005)。
【0019】
利用者が「マッピング」を選択した場合、マッピング情報抽出部0102において、文書ファイルDB0201からユーザが指定した教師用文書ファイルを表示装置03に出力し、利用者が入力したタグ及びタグとデータの対応関係及び位置情報をマッピング情報0202として記憶装置02に格納するマッピング情報抽出処理を行なう。なお、詳細は、図4以降の画面例及び図14のマッピング処理におけるフローチャートを用いて説明する。
【0020】
利用者が「収集変換」を選択した場合、収集変換部0103において、利用者が選択したマッピング情報ファイル0202を用いて、文書ファイル0201をXMLデータ0204に変換し、変換条件0203に合致したファイルのみ、XMLデータ0204として記憶装置02に格納する。なお、詳細は、図17以降の画面例及び図19の収集変換処理におけるフローチャートを用いて説明する。
【0021】
利用者が「表示」を選択した場合、表示部0104において、利用者が入力したXMLファイル0204を表示装置04に出力する。なお、詳細は、図20以降の画面例及び図22の表示処理におけるフローチャートを用いて説明する。
利用者が「終了」を選択した場合、ステップ0105において、XML変換処理プログラムを終了させる。
【0022】
図3は、XML変換処理装置の初期画面例である。表示装置03における初期画面03001は、入力装置04を介してユーザがマッピング処理を指示する領域03002、収集変換処理を指示する領域03003、表示処理を指示する領域03004、終了処理を指示する表示領域03005から構成される。
【0023】
図4は、本装置においてXML変換の対象となる文書ファイルDB0201の一例である。文書ファイルDB0201において、文書の先頭部分における属性情報である02011、少なくとも一つ以上の表形式データ02012、02013、及び文書の後尾部分における属性情報である02014から構成される。
【0024】
図5は、教師用文書ファイルの選択画面例である。図3の初期画面03001において、利用者がマッピング処理の開始を入力すると本画面が表示される。利用者は、教師用文書ファイル選択画面表示領域03011において、教師用文書ファイル名を入力領域03012に入力し、処理開始ボタンとなる03013を選択することで処理を開始する。
【0025】
図6は、マッピング画面における初期画面例である。図5において、利用者が教師用文書ファイルを選択すると本画面が表示される。
XMLデータ0204は、主に、タグとそのタグに対するデータ部分から構成される。そこで、マッピング画面においては、まずタグを定義し、そのタグに対するデータを定義する必要がある。XMLデータ0204は、タグ及びデータのから構成される対の情報を少なくとも一つ以上含む。
【0026】
マッピング初期画面は、表示領域030201において、タグの一覧を表示する領域030202、教師用文書ファイルを表示する領域030203、教師用文書ファイルからタグ候補の抽出処理を指示する領域030204、新規のタグ名を入力する領域030205、タグ名入力領域030205に記述したタグ名をタグ一覧領域に追加する処理を指示する領域030206、タグ一覧表示領域030202に表示されたタグを削除する処理を指示する領域030207、マッピング情報として抽出したタグと位置情報を対応付ける処理を指示する領域030208、マッピング情報としてタグに対するデータとの対応関係及び位置情報を対応付ける処理を指示する領域030209、登録したこれらのマッピング情報を元に教師用データをXML変換した結果を表示する処理を指示する領域030210、及び利用者が定義した対応関係をマッピング情報としてマッピング情報ファイル0202に格納する処理を指示する030211から構成される。
【0027】
図7は、タグ抽出条件設定画面例である。図6において、利用者がタグ候補の抽出処理を指示する領域030204を選択すると本画面が表示される。
タグ抽出条件設定画面は、表示領域03031において、ヘッダからタグ候補を抽出することを条件として指定する領域03032、表形式の先頭行からタグ候補を抽出することを条件として指定する領域03033、指示した条件を読み込み、この条件に基づいて教師用文書ファイルからタグ候補を抽出する処理を指示する領域03034、及び指定した条件を破棄し、タグ抽出条件設定処理を終了することを指示する領域03035から構成される。
【0028】
図8は、図7においてタグ抽出条件を設定し、タグ抽出処理を行なった後の画面例である。本画面では、タグ抽出処理を行なった後、教師用文書ファイルから抽出したタグ候補を、タグ一覧表示領域030205に出力した画面である。
【0029】
図9は、データ定義処理において範囲に関するデータ定義条件設定の画面例である。図6において、利用者がデータ定義の設定処理を指示する領域030209を選択すると本画面が表示される。
【0030】
範囲に関するデータ定義条件設定画面は、表示領域03041において、更に範囲に関する条件を設定する表示領域03042において、既に定義したタグのデータ部分として表示領域の次行から取得する行の範囲を定義することを指示する領域03043、既に定義したタグのデータ部分として表示領域の次列から取得する列の範囲を定義することを指示する領域03044、この条件に基づいてタグに対するデータ部分を抽出する処理を指示する領域03045、及び指定した条件を破棄し、データ定義条件設定処理を終了することを指示する領域03046から構成される。
【0031】
図10は、データ定義処理において改行に関するデータ定義条件設定の画面例である。図9において、利用者が改行に関する条件を設定する表示領域03052を選択すると本画面が表示される。
【0032】
改行に関するデータ定義条件設定画面は、表示領域03051において、更に改行に関する条件を設定する表示領域03052において、定義したデータの表示領域から抽出する文字情報に関して、改行コードを文字情報から削除することを指示する領域03053、改行コードを文字情報から削除しないことを指示する領域03054、この条件に基づいてデータから文字情報を抽出することを指示する領域03055、及び指定した条件を破棄し、データ定義条件設定処理を終了することを指示する領域03056から構成される。
【0033】
図11は、データ定義処理において型に関するデータ定義条件設定の画面例である。図9において、利用者が型に関する条件を設定する表示領域03062を選択すると本画面が表示される。
【0034】
型に関するデータ定義条件設定画面は、表示領域03061において、更に型に関する条件を設定する表示領域03062において、利用者が選択したタグ名の表示領域03063、利用者が選択したタグに対するデータの型の候補一覧を表示する領域03064、この条件に基づいてタグに対するデータの型を指定することを指示する領域03065、及び指定した条件を破棄し、データ定義条件設定処理を終了することを指示する領域03066から構成される。
【0035】
図12は、データ定義処理において入れ子タグの確認画面例である。図7において、利用者が選択したタグに対するデータ抽出領域として、既に別のタグとして定義済みの表示領域を選択した場合、これらのタグが入れ子の関係であることを確認する画面が表示される。
【0036】
タグの入れ子に関する確認画面は、表示領域03071において、ユーザが定義した情報が入れ子の関係であることを出力した表示領域03072、この条件に基づいてタグの入れ子関係を指定することを指示する領域03073、及び指定した条件を破棄し、タグの入れ子関係を定義する処理を終了することを指示する領域03074から構成される。
【0037】
図13は、マッピング情報保存画面例である。表示領域03081において、マッピング情報を格納する場所を利用者が入力する領域03082、利用者が入力した格納場所に既に格納済みのマッピング情報名の一覧を表示する領域03083、マッピング情報名を利用者が入力する領域03084、マッピング情報のファイル情報の内容を表示する領域03085、及び、マッピング情報の保存処理を指示する領域03086、及び指定したマッピング情報名を破棄し、マッピング情報の保存処理を終了することを指示する領域03087から構成される。
【0038】
図14は、教師用データのXML変換結果表示画面例である。図8において、利用者が定義したマッピング情報を元に教師用文書ファイルをXML変換することを指示する表示領域030210を選択した場合、本画面が表示される。
本画面は、教師用文書ファイルのXML変換結果表示領域030901のみから構成され、この領域にXMLデータ0204が表示される。
【0039】
図15は、マッピング処理の詳細なフローチャートである。図3の初期画面においてマッピング処理を利用者が選択した場合、本マッピング情報抽出処理0102を実行する。
【0040】
利用者がマッピング処理03002を指示すると、教師用文書ファイルを選択する画面を出力する。まず、ステップ010201では、この教師用文書ファイル選択画面で利用者が入力した教師用文書ファイル名を読み込む。
【0041】
次に、ステップ010202において、図5のマッピング画面03011を表示し、更に教師用文書ファイルの内容を表示領域030203に表示する。次に、ステップ010203において、利用者が、図6のタグ抽出処理指示領域030204を選択すると、タグ抽出処理であるステップ010204に進む。
【0042】
ステップ010204では、利用者が指示したタグ抽出条件に基づき、教師用文書ファイルからタグの候補を抽出し、タグ一覧表示領域030202に表示する。タグ抽出条件では、教師用文書ファイルのヘッダー部分をタグとして抽出するかどうか、及び、表形式の先頭行をタグとして抽出するかどうかを利用者は設定することが可能である。
【0043】
次に、ステップ010205において、利用者が新規タグ名入力領域030205においてタグ名を入力し、追加することを指示する表示領域030206を選択するとタグ追加処理であるステップ010206に進む。
ステップ010206では、利用者が入力したタグ名を読み込み、タグ一覧表示領域030202にタグ名を追加表示する。次に、ステップ010207において、利用者がタグ一覧表示領域030202に表示されたタグから一つのタグを選択し、教師用文書ファイル表示領域030203においてそのタグの抽出領域を選択すると、そのタグとそのタグを抽出する位置情報の対応関係を読み込む。次に、ステップ010208において、そのタグに対するデータ部分の抽出範囲を指定し、更にそのデータの抽出方法として、範囲、改行、型、入れ子に関する条件を指定する。このステップ010207、ステップ010208の処理において、タグとタグの抽出位置情報及び、そのデータ部分の位置情報及び詳細設定を行なうことが可能である。
【0044】
そして、ステップ010209においてタグ定義処理を終了すると、再びタグ情報を入力するためにステップ010206に戻るか、これらのマッピング情報を保存するステップ010210に進む。
【0045】
ステップ010211では、マッピング情報保存画面において利用者が入力したマッピング情報の格納場所及びマッピング情報ファイル名を読み込み、マッピング情報として格納する。
【0046】
ステップ010212において、利用者が図7における教師用文書ファイルのXML変換結果の表示処理を指示する領域030210を選択すると、ステップ010213に進む。
【0047】
ステップ010213では、教師用文書ファイルをXML変換し、その結果を教師用データのXML変換結果として表示装置03の表示領域に出力する。
ステップ010214においてマッピング作業を終了すると、本マッピング処理が終了する。
【0048】
図16は、上記の処理で抽出したマッピング情報ファイル0202のデータ構造である。マッピング情報ファイル0202は、大きく二つのテーブル020201及び020202から構成される。テーブル020201には、マッピングファイル名及びこのマッピングファイルを抽出する為の教師用データファイル名が格納されている。テーブル020202は、複数のレコードから構成され、また1レコードは、複数のデータ項目から構成される。
【0049】
データ項目は、「タグ名」、「タグ位置情報」、範囲に関する情報である「データ抽出位置情報」、「繰返しデータ抽出」、及び「繰返しデータ抽出方向」、改行に関する情報である「改行」、型に関する情報である「型」、入れ子に関する情報である「入れ子」から構成される。
【0050】
図17は、収集変換ファイル選択画面例である。図3の初期画面03001において、利用者が収集変換03003の開始を入力すると、本画面が表示される。利用者は、マッピングファイル選択領域03102及び003103において、マッピング情報ファイル0202を指定し、更に変換元となる電子化文書ファイル名を変換元情報表示領域03104、03105、03106において指定する。更に、変換先の格納領域を変換先情報表示領域03104、03105、03107において指定する。更に、収集変換処理0103を実行することを指示する表示領域03108を利用者が選択すると収集変換処理0103を開始する。また、変換後、変換結果を参照したい場合は、ログ内容を表示する画面03111を表示することを指示する表示領域03109を選択する。
【0051】
図18は、ログ内容表示画面例である。本画面は、変換したファイルの変換日時、変換結果、変換後のファイル名を出力した表示領域03112及び、本画面を終了することを指示する表示領域03113から構成される。
【0052】
図19は、収集変換処理の詳細なフローチャートである。図3の初期画面において収集変換処理03003を利用者が選択した場合、本収集変換処理0103を実行する。
【0053】
利用者が収集変換処理03003を指示すると、マッピング情報ファイル名や変換元のファイル名を指定する画面を出力する。まず、ステップ010301では、マッピングファイル名を読み込む。次に、ステップ010302において、変換元ファイル名を読み込む。次に、ステップ010303において、変換先フォルダ名を読み込む。ここで、利用者が変換実行を指示すると、収集変換処理010304を開始する。ステップ010305では、利用者が指定したマッピングファイル名を元に、変換元ファイルを1ファイルずつ読み込み変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイル0203に合致した変換結果ファイルのみXMLファイルとして格納する。
【0054】
次に、ステップ010306において、変換結果をログ情報として格納する。次に、ステップ010307において、利用者がログ結果を表示することを指示すると、ログ結果を表示するステップに進む。次に、ステップ010308において、ログ結果表示画面を表示し、そこにログ結果を表示する。そして、ステップ010309において収集変換作業を終了すると、本収集変換処理が終了する。
【0055】
図20は、表示XMLファイル選択画面例である。図3の初期画面03001において、利用者がXMLファイル表示03004の開始を入力すると本画面が表示される。利用者は、表示XMLファイル選択画面において、XMLデータ0204の選択に関する表示領域03122、03123、及び03124において、XMLデータ0204のファイル名を指定し、表示処理を実行することを指示する表示領域03125を利用者が選択すると表示処理を開始する。また、原文書を表示したい場合は、原文書を表示することを指示する表示領域03126を選択する。
【0056】
図21は、上記処理に参照する変換規則0203のデータ構造である。
変換規則0203は、複数のレコードから構成され、また1レコードは、複数のデータ項目から構成される。データ項目は、「エラー個数」、「結果」から構成される。変換処理において発生するエラー個数に応じて、XMLデータ0204として出力するか否かを定義している。
【0057】
図22は、XML変換結果表示画面例である。本画面は、変換したXMLデータを表示した画面である。
【0058】
図23は、XMLデータ表示処理の詳細なフローチャートである。図3の初期画面において表示処理を利用者が選択した場合、本表示処理0104を実行する。
利用者が図3の表示処理03004を指示すると、ステップ010401,010402においてXML表示フォルダ名、及び表示ファイル名を読み込む。
次に、ステップ010403においてXMLデータのファイル名の表示を指示すると、ステップ010404においてXMLデータのファイル名を表示する。
また、ステップ010405において原文書の表示を指示すると、ステップ010406において原文書を表示する。そして、ステップ010407において表示作業を終了すると、本表示処理が終了する。
【0059】
以上が、本発明の実施の形態の説明である。また、図24から図26は、本実施の形態の拡張例である自動収集変換装置の一部画面例である。これにより、特に電子化文書に対してそれぞれ変換規則であるマッピング情報指定しなくても、ネットワークに接続された処理装置における記憶装置に格納された電子化文書を自動的に収集し、XMLデータ0204に変換することが可能である。
【0060】
図24は、本拡張例における自動収集変換が設定画面である。
本画面では、マッピング情報ファイル0202を指定する表示領域03142及び03143において複数のマッピング情報ファイル0202を指定することが可能である。
【0061】
また、変換元ファイルを格納した処理装置の一覧を表示領域03144において、変換対象となる処理装置を複数指定することが可能である。
【0062】
また、変換先ファイル情報を表示した表示領域03145,03146,03147において変換した結果を格納する場所を指定する。
【0063】
また、変換ルール表示領域03148において、本処理をするに実行しない場合の時間指定やエラー時の対応を指示する。
【0064】
図25は、自動収集変換ログ内容表示画面である。本画面は、図18と特に変更はない。
【0065】
図26は、自動収集変換処理の詳細なフローチャートである。
利用者が収集変換処理を指示すると、マッピング情報ファイル名や変換元のファイル名を指定する画面を出力する。
【0066】
まず、ステップ010501では、マッピングファイル名を読み込む。
次に、ステップ010502において、変換元ファイル名を読み込む。
次に、ステップ010503において、変換先フォルダ名を読み込む。
次に、ステップ010504において、変換ルールを格納する。
ここで、利用者が変換実行を指示すると、自動収集変換処理010505を開始する。
ステップ010506では利用者が指定した変換ルールを入力する。
【0067】
次に、ステップ010507では、利用者が指定した時間になったら、マッピングファイル名を元に、変換元ファイルを1ファイルずつ読み込み変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして格納する。
【0068】
次に、ステップ010508において、変換結果をログ情報として格納する。次に、ステップ010509において、利用者がログ結果を表示することを指示すると、ログ結果を表示するステップに進む。
次に、ステップ010510において、ログ結果表示画面を表示し、そこにログ結果を表示する。
そして、ステップ010511において収集変換作業を終了すると、本収集変換処理が終了する。
【0069】
本実施の形態によれば、同じフォーマットで記述された大量の電子化文書において、予め教師用となる電子化文書から、構造化文書に変換するための変換規則を抽出し、この変換規則を用いて他の電子化文書を自動的に構造化文書に変換することが可能である。
【0070】
また、表形式データで記述されたことの特徴を活かして変換規則の候補を予め抽出することが可能であり、利用者の負担を軽減することが可能である。
【0071】
また、変換規則は利用者が自由に定義することが可能である。
【0072】
また、ネットワークに接続された複数の計算機装置における記憶装置に格納された電子化文書に対して、それぞれ変換規則を特に指定することなく、XMLデータに変換することが可能である。
【0073】
【発明の効果】
本発明によれば、同じフォーマットで記述された大量の電子化文書において、予め教師用となる電子化文書から、構造化文書に変換するための変換規則を抽出し、この変換規則を用いて他の電子化文書を自動的に構造化文書に変換することができるという効果がある。
【0074】
また、表形式データで記述されたことの特徴を活かして変換規則の候補を予め抽出することが可能であり、利用者の負担を軽減することができるという効果がある。
また、ネットワークに接続された複数の計算機装置における記憶装置に格納された電子化文書に対して、それぞれ変換規則を特に指定することなく、XMLデータに変換することができるという効果がある。
【図面の簡単な説明】
【図1】XML変換装置におけるシステム構成図
【図2】XML変換装置全体の動作のフローチャート
【図3】初期画面例
【図4】電子化文書ファイル例を示す図
【図5】教師用文書ファイル選択画面例を示す図
【図6】マッピング初期画面例を示す図
【図7】タグ抽出条件設定画面例を示す図
【図8】タグ抽出後のマッピング画面例を示す図
【図9】範囲に関するデータ定義条件設定画面例を示す図
【図10】改行に関するデータ定義条件設定画面例を示す図
【図11】型に関するデータ定義条件設定画面例を示す図
【図12】入れ子タグに関する設定画面例を示す図
【図13】マッピング情報保存画面例を示す図
【図14】教師用データのXML変換結果画面例を示す図
【図15】マッピング処理の動作のフローチャート
【図16】マッピング情報を説明するための図
【図17】収集変換ファイル選択画面例を示す図
【図18】ログ内容表示画面例を示す図
【図19】収集変換処理の動作のフローチャート
【図20】表示XMLファイル選択画面例を示す図
【図21】XML変換条件を説明するための図
【図22】XML変換結果画面例を示す図
【図23】表示処理の動作のフローチャート
【図24】自動収集変換設定画面例を示す図
【図25】自動収集変換ログ内容表示画面例を示す図
【図26】自動収集変換処理の動作のフローチャート
【符号の説明】
1001…XML変換装置、1002…WWWサーバ、1003…ネットワーク、1004…処理装置、01…処理装置、02…記憶装置、03…表示装置、04…入力装置、0102…マッピング情報抽出部、0103…収集変換部、0104…表示部、0201…文書ファイルDB、0202…マッピング情報、0203…変換条件、0204…XMLデータ。
Claims (7)
- 少なくとも一文書以上の電子化文書を格納した記憶装置を保持し、
格納された電子化文書を文書構造を有する構造化文書に変換するための文書変換システムにおいて、
教師用となる電子化文書から、文書構造を有する構造化文書に変換する為の変換規則を抽出するマッピング情報抽出手段と、
該マッピング情報抽出手段によって予め抽出した変換規則を元に一文書以上の電子化文書を構造化文書に変換する処理変換手段と、
該処理変換手段により変換された変換結果を出力装置に表示する表示手段を少なくとも一つ以上設けることを特徴とするXML変換装置。 - 請求項1記載のXML変換装置において、
前記マッピング情報抽出手段に、教師用電子化文書から抽出する変換規則を、入力装置を介して利用者が定義する入力手段を設けることを特徴とするXML変換装置。 - 請求項2記載のXML変換装置において、
変換対象文書が表形式データを有する文書の場合においては、表の先頭行あるいは先頭列に記述された内容を構造化文書の制御情報(タグ)の候補として予め抽出することを可能とする設定定義手段を設けることを特徴とするXML変換装置。 - 請求項2記載のXML変換装置において、
変換対象文書が文書の先頭部分あるいは後尾部分において属性情報を有する文書の場合においては、該当部分に記述された内容を構造化文書の制御情報(タグ)の候補として抽出することを可能とする設定定義手段を設けることを特徴とするXML変換装置。 - 請求項1記載のXML変換装置において、
利用者が指定した少なくとも一つ以上の変換対象文書を、同様に利用者が指定した変換規則を用いて変換する変換処理手段での変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして記憶装置に格納する収集変換処理手段を設けることを特徴とするXML変換装置。 - 請求項1記載のXML変換装置において、
変換対象文書が少なくとも一文書以上格納されている記憶装置を少なくとも一装置以上を利用者が指定し、また、少なくとも一つ以上の変換規則を利用者が指定した場合、格納されている電子化文書を、指定した全ての変換規則を用いて変換し、変換結果に応じてXMLファイルを出力するか否かを定義した変換条件ファイルに合致した変換結果ファイルのみXMLファイルとして記憶装置に格納する収集変換処理手段を設けることを特徴とするXML変換装置。 - 請求項1から請求項6のいずれか一つ以上を記載したプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002247963A JP2004086642A (ja) | 2002-08-28 | 2002-08-28 | Xml変換装置及びそのプログラムの記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002247963A JP2004086642A (ja) | 2002-08-28 | 2002-08-28 | Xml変換装置及びそのプログラムの記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004086642A true JP2004086642A (ja) | 2004-03-18 |
Family
ID=32055455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002247963A Pending JP2004086642A (ja) | 2002-08-28 | 2002-08-28 | Xml変換装置及びそのプログラムの記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004086642A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203819A (ja) * | 2011-03-28 | 2012-10-22 | Toshiba Corp | エンコーダコンパイラ、プログラムおよび通信機器 |
JP2019040260A (ja) * | 2017-08-22 | 2019-03-14 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
-
2002
- 2002-08-28 JP JP2002247963A patent/JP2004086642A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203819A (ja) * | 2011-03-28 | 2012-10-22 | Toshiba Corp | エンコーダコンパイラ、プログラムおよび通信機器 |
JP2019040260A (ja) * | 2017-08-22 | 2019-03-14 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123269B (zh) | 一种基于模板的出版物半自动生成方法及系统 | |
US20040128280A1 (en) | System, method and program for printing an electronic document | |
JP2009075879A (ja) | 画像処理装置と画像処理方法とプログラム | |
JP2012150638A (ja) | コンテンツ推奨装置、コンテンツ推奨方法及びプログラム | |
JP2004086642A (ja) | Xml変換装置及びそのプログラムの記録媒体 | |
JPH09245052A (ja) | 構造化文書処理装置 | |
JP2007115132A (ja) | 情報処理装置及びその制御方法、情報処理システム、コンピュータプログラム、記憶媒体 | |
JPH09282218A (ja) | Html文書本型整形方法及びその装置 | |
JP2002169836A (ja) | 情報の集約整理支援システム | |
JPH117452A (ja) | ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体 | |
JP2009098829A (ja) | 漫画のコマ検索装置 | |
JP2003316773A (ja) | 文書管理システム、方法、プログラム及び記憶媒体 | |
JP2005267057A (ja) | テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム | |
JP4255538B2 (ja) | 構造化文書蓄積検索装置 | |
Gribomont | OCR with Google Vision API and Tesseract | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム | |
JP2004102887A (ja) | 文書作成支援装置、文書作成支援方法、プログラムおよび記録媒体 | |
JP2000315209A (ja) | 画像ファイリング装置、画像ファイリング方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4220439B2 (ja) | 構造化データ変換装置及び方法 | |
JP2005135118A (ja) | 図面管理システム | |
JP4737659B2 (ja) | 表組データベースシステムおよび表組データ作成装置 | |
JP2004288151A (ja) | 操作履歴管理装置、操作履歴管理方法、および操作履歴管理プログラム | |
JP2004164301A (ja) | 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラム | |
JPH11161726A (ja) | 電子帳票システム | |
JP2001325271A (ja) | ファイル管理装置、ファイル管理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |