JP2001101183A - データ構造化方式 - Google Patents

データ構造化方式

Info

Publication number
JP2001101183A
JP2001101183A JP27442499A JP27442499A JP2001101183A JP 2001101183 A JP2001101183 A JP 2001101183A JP 27442499 A JP27442499 A JP 27442499A JP 27442499 A JP27442499 A JP 27442499A JP 2001101183 A JP2001101183 A JP 2001101183A
Authority
JP
Japan
Prior art keywords
document
unit
document structure
data
constraint information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27442499A
Other languages
English (en)
Inventor
Kazuki Shibata
和樹 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP27442499A priority Critical patent/JP2001101183A/ja
Publication of JP2001101183A publication Critical patent/JP2001101183A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 文書の構造化(構造化されたテキスト文書デ
ータの生成)に際して、作業効率を向上させ、作業者の
負担を軽減する。 【解決手段】 文書構造制約情報入力部1は、構造化の
内容を指定する文法定義を示す文書構造制約情報(DT
D等)を入力する。文書構造編集部2は、グラフィカル
ユーザインタフェースを用いた作業者からの指示に基づ
き、構造化対象のテキスト文書データの文書構造を編集
する。表示部7は、編集対象の文書構造および構造化対
象のテキスト文書データの並置した表示を行う。タグ付
け処理部8は、文書構造制約情報に反しないように、文
書構造編集部2によって編集された文書構造の要素と構
造化対象のテキスト文書データ中の文書要素との対応付
けをグラフィカルユーザインタフェースを用いた作業者
からの指示に従って行い、当該対応付けに基づき構造化
のためのタグ付けを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書構造化を行う
情報処理システムに関し、特にタグを付けることによっ
て構造化されたテキスト文書データ(XML(eXte
nsible Mark−up Language)デ
ータ,SGML(Standard Generali
zed Mark−up Language)データ,
およびHTML(Hyper Text Mark−u
p Language)データ等)を生成するデータ構
造化方式に関する。
【0002】
【従来の技術】近年、XML,SGML,およびHTM
L等の普及に伴って、構造化されていない単なるテキス
ト文書データ(電子データの形式の文書データ)よりも
構造化されたテキスト文書データを前提とした情報処理
システムが増えている。
【0003】新規に作成する文書については、構造化デ
ータ(構造化されたテキスト文書データ)専用のエディ
タが開発されている。一方、構造化されていない形で既
に存在するテキスト文書データについても、変換による
構造化を行い、既存のデータを構造化データとして再利
用する方法が求められている。
【0004】また、電子データではなく、紙の文書とし
て存在する文書データに対しても、構造化されたテキス
ト文書データに変換する方法が必要となる。
【0005】従来より、構造化されていないテキスト文
書データを構造化データに変換する技術としては、「文
字列パターンに着目したルールによる変換」や「表示ス
タイル情報に着目したルールによる変換」による方法が
存在した。
【0006】また、SGMLエディタ等の構造化データ
用のエディタを使って、テキスト文書データの構造化を
行うことも行われていた。
【0007】一方、紙の文書に対しては、人手で文書の
領域毎に属性を与える方法が提案されている(特開平8
−83285号公報参照)。
【0008】
【発明が解決しようとする課題】上述したような従来の
データ構造化方式には、以下に示すような問題点が生じ
ていた。
【0009】第1に、「文字列パターンに着目したルー
ルによる変換」や「表示スタイル情報に着目したルール
による変換」による方法によって構造化されていないテ
キストデータを構造化データに変換する技術では、いず
れも、複雑なルールの設定に工数がかかり、作業能率が
悪くなり、作業者の負担が大きくなるという問題点があ
る。また、一般に完全なルールの設定は難しいので、デ
ータの種類によっては、変換精度がかなり低くなるとい
う問題点がある。
【0010】第2に、SGMLエディタ等の構造化デー
タ用のエディタを使ってテキスト文書データの構造化を
行う技術では、文書要素毎にテキスト文書データからエ
ディタにカット&ペーストが必要になり、効率的とはい
えない変換処理となる(作業者の負担が大きくなる)と
いう問題点がある。
【0011】第3に、紙の文書に対する上述の特開平8
−83285号公報に記載された従来技術(「文字コー
ド生成方法及び文書データベース登録システムの前処理
装置」)では、特定の文書型(ドキュメントタイプ)に
従って誤りなく構造化を行うことについては考慮されて
おらず、複雑な構造を持つテキスト文書データへの変換
(構造化)を行う場合に、作業能率を上げることが困難
になるという問題点がある。
【0012】本発明の目的は、上述の点に鑑み、文書の
構造化(構造化データの生成)に際して、作業能率(効
率)を向上することができ、作業者の負担を軽減するこ
とができ、当該効率の向上および当該負担の軽減に基拠
して変換(構造化)精度の向上を図ることができるデー
タ構造化方式を提供することにある。
【0013】なお、文書の構造化に関する従来技術につ
いての特許公報としては、上記特開平8−83285号
公報の他に、特開平5−159101号公報,特開平6
−243024号公報,特開平10−49695号公
報,および特開平11−66196号公報がある。
【0014】しかし、当該各公報に記載された各技術
(「文書論理構造認識および文書内容認識のための装置
および方法」,「文書構造表現方式、その文書構造表現
方式によるネットワーク型文書処理装置、並びにデータ
構造表示装置」,「文書編集装置」,および「文書画像
認識装置およびその装置としてコンピュータを機能させ
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体」)の構成は、いずれも、「グラフィカル
ユーザインタフェースを用いた作業者からの指示に基づ
き、構造化対象のテキスト文書データの文書構造を編集
する文書構造編集部」,「前記文書構造編集部による編
集対象の文書構造および構造化対象のテキスト文書デー
タの並置した表示を行う表示部」,および「文書構造制
約情報に反しないように、前記文書構造編集部によって
編集された文書構造の要素と構造化対象のテキスト文書
データ中の文書要素との対応付けをグラフィカルユーザ
インタフェースを用いた作業者からの指示に従って行
い、当該対応付けに基づき構造化のためのタグ付けを行
うタグ付け処理部」という特徴的な構成要素を備える本
発明における構成とは明確に相違している。したがっ
て、当該各従来技術自体からはもちろん、当該従来技術
を相互に組み合わせたとしても、本発明に想到できるも
のではない。
【0015】
【課題を解決するための手段】本発明のデータ構造化方
式は、タグを付けることによって構造化されたテキスト
文書データを生成するデータ構造化方式において、構造
化の内容を指定する文法定義を示す文書構造制約情報を
入力する文書構造制約情報入力部と、グラフィカルユー
ザインタフェースを用いた作業者からの指示に基づき、
構造化対象のテキスト文書データの文書構造を編集して
保持する文書構造編集部と、前記文書構造制約情報入力
部により入力された文書構造制約情報を保持し、当該文
書構造制約情報に基づき前記文書構造編集部による編集
対象の文書構造の妥当性を検査し、当該検査で妥当性を
欠く場合には警告メッセージを出力する文書構造検査部
と、構造化の対象となる構造化されていないテキスト文
書データを入力する文書入力部と、前記文書入力部によ
り入力されたテキスト文書データを格納する文書格納部
と、グラフィカルユーザインタフェースにおける作業者
からの指示・操作を入力する位置入力装置と、前記文書
構造編集部および前記文書格納部の格納内容の並置した
表示,前記文書構造検査部の出力する警告メッセージの
表示,ならびに前記位置入力装置を用いたグラフィカル
ユーザインタフェースの表示を行う表示部と、前記文書
構造編集部によって編集された文書構造の要素と前記文
書格納部に格納されたテキスト文書データ中の文書要素
との対応付けを前記位置入力装置を用いた作業者の操作
によって行い、当該対応付けおよび前記文書構造制約情
報入力部で入力された文書構造制約情報による最終チェ
ックに基づき構造化のためのタグ付けを行うタグ付け処
理部と、前記タグ付け処理部によりタグ付けが行われる
ことにより構造化されたテキスト文書データを出力する
出力部とを有する。
【0016】また、本発明のデータ構造化方式は、タグ
を付けることによって構造化されたテキスト文書データ
を生成するデータ構造化方式において、構造化の内容を
指定する文法定義を示す文書構造制約情報を入力する文
書構造制約情報入力部と、グラフィカルユーザインタフ
ェースを用いた作業者からの指示に基づき、構造化対象
のテキスト文書データの文書構造を編集して保持する文
書構造編集部と、前記文書構造制約情報入力部により入
力された文書構造制約情報を保持し、当該文書構造制約
情報に基づき前記文書構造編集部による編集対象の文書
構造の妥当性を検査し、当該検査で妥当性を欠く場合に
は警告メッセージを出力する文書構造検査部と、構造化
の対象である紙文書を画像データとして読み込む画像入
力部と、前記画像入力部により読み込まれた紙文書の画
像データを格納する画像格納部と、グラフィカルユーザ
インタフェースにおける作業者からの指示・操作を入力
する位置入力装置と、前記文書構造編集部および前記画
像格納部の格納内容の並置した表示,前記文書構造検査
部の出力する警告メッセージの表示,ならびに前記位置
入力装置を用いたグラフィカルユーザインタフェースの
表示を行う表示部と、前記画像格納部に格納された画像
データ中の指定領域における文書の内容を文字として認
識しテキスト文書データを生成する文字認識部と、前記
文書構造編集部によって編集された文書構造の要素と前
記画像格納部に格納された画像データに基づいて前記文
字認識部により生成されたテキスト文書データ中の文書
要素との対応付けを前記位置入力装置を用いた作業者の
操作によって行い、当該対応付けおよび前記文書構造制
約情報入力部で入力された文書構造制約情報による最終
チェックに基づき構造化のためのタグ付けを行うタグ付
け処理部と、前記タグ付け処理部によりタグ付けが行わ
れることにより構造化されたテキスト文書データを出力
する出力部とを有する構成にすることも可能である。
【0017】なお、より一般的には、本発明のデータ構
造化方式は、タグを付けることによって構造化されたテ
キスト文書データを生成するデータ構造化方式におい
て、構造化の内容を指定する文法定義を示す文書構造制
約情報を入力する文書構造制約情報入力部と、グラフィ
カルユーザインタフェースを用いた作業者からの指示に
基づき、構造化対象のテキスト文書データの文書構造を
編集する文書構造編集部と、前記文書構造編集部による
編集対象の文書構造および構造化対象のテキスト文書デ
ータの並置した表示を行う表示部と、前記文書構造制約
情報入力部により入力された文書構造制約情報に反しな
いように、前記文書構造編集部によって編集された文書
構造の要素と構造化対象のテキスト文書データ中の文書
要素との対応付けをグラフィカルユーザインタフェース
を用いた作業者からの指示に従って行い、当該対応付け
に基づき構造化のためのタグ付けを行うタグ付け処理部
と、前記タグ付け処理部によりタグ付けが行われること
により構造化されたテキスト文書データを出力する出力
部とを有すると表現することができる。
【0018】また、このようなデータ構造化方式は、コ
ンピュータを、構造化の内容を指定する文法定義を示す
文書構造制約情報を入力する文書構造制約情報入力部,
グラフィカルユーザインタフェースを用いた作業者から
の指示に基づき、構造化対象のテキスト文書データの文
書構造を編集する文書構造編集部,前記文書構造編集部
による編集対象の文書構造および構造化対象のテキスト
文書データの並置した表示を行う表示部,前記文書構造
制約情報入力部により入力された文書構造制約情報に反
しないように、前記文書構造編集部によって編集された
文書構造の要素と構造化対象のテキスト文書データ中の
文書要素との対応付けをグラフィカルユーザインタフェ
ースを用いた作業者からの指示に従って行い、当該対応
付けに基づき構造化のためのタグ付けを行うタグ付け処
理部,ならびに前記タグ付け処理部によりタグ付けが行
われることにより構造化されたテキスト文書データを出
力する出力部として機能させるためのプログラムを記録
した記録媒体として実現することも可能である。
【0019】
【発明の実施の形態】次に、本発明について図面を参照
して詳細に説明する。
【0020】(1) 第1の実施の形態 図1は、本発明の第1の実施の形態に係るデータ構造化
方式(ここでは、構造化されていないテキスト文書デー
タをXMLデータに変換(構造化)するためのデータ構
造化方式)の構成を示すブロック図である。
【0021】図1を参照すると、本実施の形態に係るデ
ータ構造化方式は、DTD(Document Typ
e Definition。文書型定義)を読み込む文
書構造制約情報入力部1と、構造化対象のテキスト文書
データの文書構造を編集して保持する文書構造編集部2
と、DTDを保持して文書構造編集部2による編集対象
の文書構造の妥当性を検査する文書構造検査部3と、構
造化の対象であるテキスト文書データ(構造化されてい
ないテキスト文書データ)を読み込む文書入力部4と、
文書入力部4により読み込まれたテキスト文書データを
格納する文書格納部5と、グラフィカルユーザインタフ
ェースにおける作業者(ユーザ)からの指示・操作を入
力する位置入力装置6(マウス等によって実現される装
置)と、文書構造編集部2および文書格納部5の格納内
容の並置した表示,文書構造検査部3の出力する警告メ
ッセージの表示,ならびに位置入力装置6を用いたグラ
フィカルユーザインタフェースの表示を行う表示部7
と、位置入力装置6を用いた作業者の操作によって文書
構造編集部2によって編集された文書構造の要素と文書
格納部5に格納されたテキスト文書データ中の文書要素
との対応付けを行い当該対応付け(文書構造制約情報入
力部1で入力されたDTDによる最終チェックの結果を
含む)に基づきXMLのタグ付けを行うタグ付け処理部
8と、XMLデータを出力する出力部9とを含んで構成
されている。
【0022】なお、本実施の形態では、構造化されてい
ないテキスト文書データをXMLデータに構造化するた
めのデータ構造化方式を示している。しかし、本発明の
データ構造化方式における生成対象の構造化データは、
XMLデータに限られず、他の「タグを付けることによ
って構造化されたテキスト文書データ」、例えばSGM
LデータやHTMLデータであってもよいことはいうま
でもない(このことは後述する第2の実施の形態に関し
ても妥当する)。ちなみに、文書構造制約情報入力部1
によって入力される「DTD」は、より一般的には、
「構造化の内容を指定する文法定義」を示す文書構造制
約情報ということになる。
【0023】図2は、本実施の形態に係るデータ構造化
方式の処理を示す流れ図である。この処理は、DTD読
込み・格納ステップ201と、ひな型文書構造生成ステ
ップ202と、文書構造表示ステップ203と、テキス
ト文書データ読込み・格納ステップ204と、テキスト
文書データ表示ステップ205と、文書構造編集ステッ
プ206と、編集対象文書構造表示ステップ207と、
文書構造監視ステップ208と、文書構造・テキスト文
書データ対応付けステップ209と、タグ生成・XML
データ作成ステップ210と、XMLデータ出力ステッ
プ211とからなる。
【0024】図3は、本実施の形態に係るデータ構造化
方式において文書構造編集部2の編集によって表示部7
に表示される画面の具体例を示す図である。
【0025】次に、上記のように構成された本実施の形
態に係るデータ構造化方式の動作を説明する。
【0026】文書構造制約情報入力部1は、ディスク装
置等に格納されているDTDを読み込んで、構造化され
たテキスト文書データ(ここでは、XMLデータ)が備
えるべき文書構造上の制約を示す文書構造制約情報に該
当する当該DTDを文書構造検査部3に格納する(ステ
ップ201)。
【0027】また、文書構造編集部2は、編集のひな形
として、文書構造入力部1により入力されたDTDの制
約を満たす具体的な文書構造(DTDに適合するもので
あればどのような文書構造でもよい任意の文書構造)を
生成し、自己の内部に格納する(ステップ202)。例
えば、DTDで「要素Aの下位要素として0個以上の要
素Bが存在する」という指定があった場合に、そのDT
Dの制約に対する具体的な文書構造として、「要素Aの
下位要素として要素Bが1つだけ存在する」という、D
TDの指定を満たす特定の文書構造を生成し格納する。
【0028】表示部7(例えば、CRT(Cathod
e Ray Tube)を用いた表示装置)は、ステッ
プ202で文書構造編集部2に格納された文書構造(編
集のひな型としての文書構造)を、図3に示すように、
画面上の構造表示領域(図3中の左側領域)に表示する
(ステップ203)。
【0029】一方、文書入力部4は、ディスク装置等に
格納されている構造化の対象となるテキスト文書データ
(構造化されていないテキスト文書データ)を読み込
み、例えば半導体メモリを利用した文書格納部5に格納
する(ステップ204)。
【0030】表示部7は、ステップ204で文書格納部
5に格納されたテキスト文書データを、図3に示すよう
に、画面上の文書表示領域(図3中の右側領域)に表示
する(ステップ205)。
【0031】なお、上記の一連の処理手順において、ス
テップ201〜203の処理手順とステップ204およ
び205の処理手順とは順序が逆になってもかまわな
い。
【0032】次に、文書構造編集部2は、位置入力装置
6を使った作業者からの指示(操作)に基づき、自己の
内部に保持している文書構造から、実際に取り出したい
テキスト文書データの文書構造を編集する(ステップ2
06)。例えば、上記のステップ202で例示した「要
素Aの下位要素として要素Bが1つだけ存在する」とい
う文書構造を編集して、「要素Aの下位要素として要素
Bが3つ存在する」という文書構造を得る。
【0033】表示部7は、ステップ206における編集
対象の文書構造を、画面上の構造表示領域に表示する
(ステップ207)。
【0034】また、文書構造検査部3は、ステップ20
6における文書構造編集部2による編集対象の文書構造
を監視し、自己の内部に保持しているDTDに反するよ
うな文書構造を検出すると、表示部7を通して作業者に
警告メッセージを表示する(ステップ208)。
【0035】タグ付け処理部8は、位置入力装置6を使
った作業者からの操作(グラフィカルユーザインタフェ
ースによる操作)に基づき、表示部7の画面の構造表示
領域に表示されている文書構造の各要素を、同時に文書
表示領域に表示されている構造化対象のテキスト文書デ
ータの文書要素に対応付ける(ステップ209)。
【0036】この対応付けのインタフェースの態様とし
ては、例えば、以下のa〜cに示すものが考えられる。
【0037】a.表示部7の画面の構造表示領域(図3
参照)で入れ子構造の矩形として表現されている要素を
当該画面の文書表示領域にドラッグし、当該文書表示領
域に表示されている文書要素(上記の矩形で示される要
素に対応付ける文書要素)の領域を正確に囲むように図
形の大きさや形状を調整(変更)する。
【0038】b.上記aにおける「ドラッグ」と「大き
さや形状の調整」とを同時に実行する。
【0039】c.表示部7の画面の構造表示領域で矩形
(対応付けの対象となる要素を示す矩形)を指定し、当
該画面の文書表示領域上の文書要素(上記の矩形で示さ
れる要素に対応付ける文書要素)の領域(範囲)を指定
する。
【0040】なお、ステップ206〜208の処理手順
とステップ209の処理手順とは、同時に進めることが
可能である。
【0041】タグ付け処理部8は、ステップ209にお
ける「文書構造の各要素とテキスト文書データの各文書
要素との対応付け」に基づき、文書構造入力部1で読み
込まれたDTD(文書構造検査部3に保持されているD
TD)に反しないことを最終的にチェックした上で、適
切なタグ(XMLのタグ)を生成し、当該タグを有する
(タグ付けが行われた)XMLデータを作成する(ステ
ップ210)。
【0042】出力部9は、ステップ210でタグ付け処
理部8により作成されたXMLデータをディスク装置等
で実現される出力先の装置に出力する(ステップ21
1)。
【0043】(2) 第2の実施の形態 図4は、本発明の第2の実施の形態に係るデータ構造化
方式(ここでは、紙文書(電子化されていない紙に書か
れた文書のデータ)をXMLデータに変換(構造化)す
るためのデータ構造化方式)の構成を示すブロック図で
ある。
【0044】図4を参照すると、本実施の形態に係るデ
ータ構造化方式は、DTDを読み込む文書構造制約情報
入力部401と、構造化対象のテキスト文書データの文
書構造を編集して保持する文書構造編集部402と、D
TDを保持して文書構造編集部402による編集対象の
文書構造の妥当性を検査する文書構造検査部403と、
構造化の対象である紙文書を画像データとして読み込む
画像入力部404と、画像入力部4により読み込まれた
紙文書の画像データを格納する画像格納部405と、グ
ラフィカルユーザインタフェースにおける作業者(ユー
ザ)からの指示・操作を入力する位置入力装置406
(マウス等によって実現される装置)と、文書構造編集
部402および画像格納部405の格納内容の並置した
表示,文書構造検査部403の出力する警告メッセージ
の表示,ならびに位置入力装置406を用いたグラフィ
カルユーザインタフェースの表示を行う表示部407
と、画像格納部405に格納された画像データ中の指定
領域(作業者から指定された領域)における文書の内容
を文字として認識しテキスト文書データを生成する文字
認識部408と、位置入力装置406を用いた作業者の
操作によって文書構造編集部402によって編集された
文書構造の要素と画像格納部405に格納された画像デ
ータに基づいて文字認識部408により生成されたテキ
スト文書データ中の文書要素との対応付けを行い当該対
応付け(文書構造制約情報入力部401で入力されたD
TDによる最終チェックの結果を含む)に基づきXML
のタグ付けを行うタグ付け処理部409と、XMLデー
タを出力する出力部410とを含んで構成されている。
【0045】本実施の形態に係るデータ構造化方式は、
第1の実施の形態に係るデータ構造化方式と比べて、以
下のa〜cに示す特徴を有している。
【0046】a.構造化の対象となる入力データが、第
1の実施の形態に係るデータ構造化方式におけるテキス
ト文書データの代わりに、紙文書のスキャン画像の画像
データとなる。これによって、文書入力部4および文書
格納部5の代わりに、画像入力部404(スキャナ等に
よって実現される構成要素)および画像格納部405が
構成要素として存在する。
【0047】b.本実施の形態に特有の構成要素とし
て、文字認識部408が存在する。文字認識部408
は、画像格納部405に格納されている元画像(紙文書
を示す画像)の画像データに対して作業者の操作に従い
位置入力装置406から指定された領域(指定領域)を
認識し、その指定の後に当該指定領域内の文書の画像デ
ータを文字認識し、当該指定領域内の内容に対するテキ
スト文書データを生成する。
【0048】c.タグ付け処理部409は、上記bにお
いて生成されたテキスト文書データに対して、第1の実
施の形態におけるタグ付け処理部9と同様のタグ付け処
理を行う。
【0049】なお、本実施の形態に係るデータ構造化方
式における上記以外の動作は、第1の実施の形態に係る
データ構造化方式における動作と同様である。
【0050】(3) 第3の実施の形態 図5は、本発明の第3の実施の形態に係るデータ構造化
方式の構成を示すブロック図である。
【0051】図5を参照すると、本発明の第3の実施の
形態に係るデータ構造化方式は、図1に示した第1の実
施の形態に係るデータ構造化方式に対して、データ構造
化処理プログラムを記録した記録媒体500を備える点
が異なっている。この記録媒体500は、磁気ディス
ク,半導体メモリ,その他の記録媒体であってよい。
【0052】データ構造化処理プログラムは、記録媒体
500からコンピュータに読み込まれ、当該コンピュー
タの動作をDTDを入力する文書構造制約情報入力部
1,文書構造編集部2,文書構造検査部3,テキスト文
書データを入力する文書入力部4,文書格納部5,位置
入力装置6,表示部7,タグ付け処理部8,およびXM
Lデータを出力する出力部9として制御する。データ構
造化処理プログラムの制御による文書構造制約情報入力
部1,文書構造編集部2,文書構造検査部3,文書入力
部4,文書格納部5,位置入力装置6,表示部7,タグ
付け処理部8,および出力部9の動作は、第1の実施の
形態における文書構造制約情報入力部1,文書構造編集
部2,文書構造検査部3,文書入力部4,文書格納部
5,位置入力装置6,表示部7,タグ付け処理部8,お
よび出力部9の動作と全く同様になるので、その詳しい
説明を割愛する。
【0053】(4) 第4の実施の形態 図6は、本発明の第4の実施の形態に係るデータ構造化
方式の構成を示すブロック図である。
【0054】図6を参照すると、本発明の第4の実施の
形態に係るデータ構造化方式は、図4に示した第2の実
施の形態に係るデータ構造化方式に対して、データ構造
化処理プログラムを記録した記録媒体600を備える点
が異なっている。この記録媒体600は、磁気ディス
ク,半導体メモリ,その他の記録媒体であってよい。
【0055】データ構造化処理プログラムは、記録媒体
600からコンピュータに読み込まれ、当該コンピュー
タの動作をDTDを入力する文書構造制約情報入力部4
01,文書構造編集部402,文書構造検査部403,
紙文書を画像データとして入力する画像入力部404,
画像格納部405,位置入力装置406,表示部40
7,文字認識部408,タグ付け処理部409,および
XMLデータを出力する出力部410として制御する。
データ構造化処理プログラムの制御による文書構造制約
情報入力部401,文書構造編集部402,文書構造検
査部403,画像入力部404,画像格納部405,位
置入力装置406,表示部407,文字認識部408,
タグ付け処理部409,および出力部410の動作は、
第2の実施の形態における文書構造制約情報入力部40
1,文書構造編集部402,文書構造検査部403,画
像入力部404,画像格納部405,位置入力装置40
6,表示部407,文字認識部408,タグ付け処理部
409,および出力部410の動作と全く同様になるの
で、その詳しい説明を割愛する。
【0056】
【発明の効果】以上説明したように、本発明によると、
以下に示すような効果が生じる。
【0057】第1の効果は、構造化の対象となる実際の
文書上で直接的に(文書そのものを見ながら)構造化の
指示を行うことができるため、その操作が直感的で理解
しやすいものとなり、作業者による作業における位置入
力装置(マウス等)や視線の移動量が少なくなって、作
業効率が向上するということである。
【0058】第2の効果は、文書構造が常に図的に表示
されているので、直感的で能率の高い編集作業が可能に
なるというこである。
【0059】なお、SGMLエディタ等の構造化データ
用のエディタ(専用エディタ)を使ってテキスト文書の
構造化を行う従来技術は、文書要素毎にテキスト文書デ
ータからエディタにカット&ペーストが行われる点で、
要素毎に領域を指定する本発明と似ている部分がある。
しかし、当該従来技術と本発明とを比較すると、本発明
には次のaおよびbに示す利点がある。
【0060】a.当該従来技術における専用エディタの
入力欄は図的に文書構造を表したものになっておらず、
単に出現順に並んでいるため、どの欄が対応付けるべき
文書要素に対応しているか直感的な理解が難しい。これ
に対し、本発明では、文書要素に対応する文書構造の要
素を、図的に表示された文書構造中から直感的に選び、
当該文書要素までドラッグすることができる。
【0061】b.当該従来技術では、カット&ペースト
がテキストエディタおよびSGMLエディタのアプリケ
ーションプログラム間にまたがるため、作業者に対する
負担が大きい。これに対し、本発明では、同一アプリケ
ーションプログラム内で作業が完結しているため、作業
者の負担は小さい。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係るデータ構造化
方式の構成を示すブロック図である。
【図2】図1に示すデータ構造化方式の処理を示す流れ
図である。
【図3】図1に示すデータ構造化方式の動作を説明する
ための図(文書構造編集部の編集によって表示部に表示
される画面の具体例を示す図)である。
【図4】本発明の第2の実施の形態に係るデータ構造化
方式の構成を示すブロック図である。
【図5】本発明の第3の実施の形態に係るデータ構造化
方式の構成を示すブロック図である。
【図6】本発明の第4の実施の形態に係るデータ構造化
方式の構成を示すブロック図である。
【符号の説明】
1,401 文書構造制約情報入力部 2,402 文書構造編集部 3,403 文書構造検査部 4 文書入力部 5 文書格納部 6,406 位置入力装置 7,407 表示部 8,409 タグ付け処理部 9,410 出力部 404 画像入力部 405 画像格納部 408 文字認識部 500,600 記録媒体

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 タグを付けることによって構造化された
    テキスト文書データを生成するデータ構造化方式におい
    て、構造化の内容を指定する文法定義を示す文書構造制
    約情報を入力する文書構造制約情報入力部と、グラフィ
    カルユーザインタフェースを用いた作業者からの指示に
    基づき、構造化対象のテキスト文書データの文書構造を
    編集する文書構造編集部と、前記文書構造編集部による
    編集対象の文書構造および構造化対象のテキスト文書デ
    ータの並置した表示を行う表示部と、前記文書構造制約
    情報入力部により入力された文書構造制約情報に反しな
    いように、前記文書構造編集部によって編集された文書
    構造の要素と構造化対象のテキスト文書データ中の文書
    要素との対応付けをグラフィカルユーザインタフェース
    を用いた作業者からの指示に従って行い、当該対応付け
    に基づき構造化のためのタグ付けを行うタグ付け処理部
    と、前記タグ付け処理部によりタグ付けが行われること
    により構造化されたテキスト文書データを出力する出力
    部とを有することを特徴とするデータ構造化方式。
  2. 【請求項2】 タグを付けることによって構造化された
    テキスト文書データを生成するデータ構造化方式におい
    て、構造化の内容を指定する文法定義を示す文書構造制
    約情報を入力する文書構造制約情報入力部と、グラフィ
    カルユーザインタフェースを用いた作業者からの指示に
    基づき、構造化対象のテキスト文書データの文書構造を
    編集して保持する文書構造編集部と、前記文書構造制約
    情報入力部により入力された文書構造制約情報を保持
    し、当該文書構造制約情報に基づき前記文書構造編集部
    による編集対象の文書構造の妥当性を検査し、当該検査
    で妥当性を欠く場合には警告メッセージを出力する文書
    構造検査部と、構造化の対象となる構造化されていない
    テキスト文書データを入力する文書入力部と、前記文書
    入力部により入力されたテキスト文書データを格納する
    文書格納部と、グラフィカルユーザインタフェースにお
    ける作業者からの指示・操作を入力する位置入力装置
    と、前記文書構造編集部および前記文書格納部の格納内
    容の並置した表示,前記文書構造検査部の出力する警告
    メッセージの表示,ならびに前記位置入力装置を用いた
    グラフィカルユーザインタフェースの表示を行う表示部
    と、前記文書構造編集部によって編集された文書構造の
    要素と前記文書格納部に格納されたテキスト文書データ
    中の文書要素との対応付けを前記位置入力装置を用いた
    作業者の操作によって行い、当該対応付けおよび前記文
    書構造制約情報入力部で入力された文書構造制約情報に
    よる最終チェックに基づき構造化のためのタグ付けを行
    うタグ付け処理部と、前記タグ付け処理部によりタグ付
    けが行われることにより構造化されたテキスト文書デー
    タを出力する出力部とを有することを特徴とするデータ
    構造化方式。
  3. 【請求項3】 タグを付けることによって構造化された
    テキスト文書データを生成するデータ構造化方式におい
    て、構造化の内容を指定する文法定義を示す文書構造制
    約情報を入力する文書構造制約情報入力部と、グラフィ
    カルユーザインタフェースを用いた作業者からの指示に
    基づき、構造化対象のテキスト文書データの文書構造を
    編集して保持する文書構造編集部と、前記文書構造制約
    情報入力部により入力された文書構造制約情報を保持
    し、当該文書構造制約情報に基づき前記文書構造編集部
    による編集対象の文書構造の妥当性を検査し、当該検査
    で妥当性を欠く場合には警告メッセージを出力する文書
    構造検査部と、構造化の対象である紙文書を画像データ
    として読み込む画像入力部と、前記画像入力部により読
    み込まれた紙文書の画像データを格納する画像格納部
    と、グラフィカルユーザインタフェースにおける作業者
    からの指示・操作を入力する位置入力装置と、前記文書
    構造編集部および前記画像格納部の格納内容の並置した
    表示,前記文書構造検査部の出力する警告メッセージの
    表示,ならびに前記位置入力装置を用いたグラフィカル
    ユーザインタフェースの表示を行う表示部と、前記画像
    格納部に格納された画像データ中の指定領域における文
    書の内容を文字として認識しテキスト文書データを生成
    する文字認識部と、前記文書構造編集部によって編集さ
    れた文書構造の要素と前記画像格納部に格納された画像
    データに基づいて前記文字認識部により生成されたテキ
    スト文書データ中の文書要素との対応付けを前記位置入
    力装置を用いた作業者の操作によって行い、当該対応付
    けおよび前記文書構造制約情報入力部で入力された文書
    構造制約情報による最終チェックに基づき構造化のため
    のタグ付けを行うタグ付け処理部と、前記タグ付け処理
    部によりタグ付けが行われることにより構造化されたテ
    キスト文書データを出力する出力部とを有することを特
    徴とするデータ構造化方式。
  4. 【請求項4】 前記文書構造編集部に保持される文書構
    造を図的に表示する構造表示領域および前記文書入力部
    により入力されたテキスト文書データによって示される
    構造化の対象となる文書を表示する文書表示領域の2つ
    の領域を画面上に同時に並置して表示する前記表示部を
    有することを特徴とする請求項1,請求項2,または請
    求項3記載のデータ構造化方式。
  5. 【請求項5】 文書構造制約情報としてDTDを入力
    し、構造化されたテキスト文書データとしてXMLデー
    タ,SGMLデータ,およびHTMLデータのいずれか
    を出力することを特徴とする請求項1,請求項2,請求
    項3,または請求項4記載のデータ構造化方式。
  6. 【請求項6】 コンピュータを、構造化の内容を指定す
    る文法定義を示す文書構造制約情報を入力する文書構造
    制約情報入力部,グラフィカルユーザインタフェースを
    用いた作業者からの指示に基づき、構造化対象のテキス
    ト文書データの文書構造を編集する文書構造編集部,前
    記文書構造編集部による編集対象の文書構造および構造
    化対象のテキスト文書データの並置した表示を行う表示
    部,前記文書構造制約情報入力部により入力された文書
    構造制約情報に反しないように、前記文書構造編集部に
    よって編集された文書構造の要素と構造化対象のテキス
    ト文書データ中の文書要素との対応付けをグラフィカル
    ユーザインタフェースを用いた作業者からの指示に従っ
    て行い、当該対応付けに基づき構造化のためのタグ付け
    を行うタグ付け処理部,ならびに前記タグ付け処理部に
    よりタグ付けが行われることにより構造化されたテキス
    ト文書データを出力する出力部として機能させるための
    プログラムを記録した記録媒体。
  7. 【請求項7】 コンピュータを、構造化の内容を指定す
    る文法定義を示す文書構造制約情報を入力する文書構造
    制約情報入力部,グラフィカルユーザインタフェースを
    用いた作業者からの指示に基づき、構造化対象のテキス
    ト文書データの文書構造を編集して保持する文書構造編
    集部,前記文書構造制約情報入力部により入力された文
    書構造制約情報を保持し、当該文書構造制約情報に基づ
    き前記文書構造編集部による編集対象の文書構造の妥当
    性を検査し、当該検査で妥当性を欠く場合には警告メッ
    セージを出力する文書構造検査部,構造化の対象となる
    構造化されていないテキスト文書データを入力する文書
    入力部,前記文書入力部により入力されたテキスト文書
    データを格納する文書格納部,グラフィカルユーザイン
    タフェースにおける作業者からの指示・操作を入力する
    位置入力装置,前記文書構造編集部および前記文書格納
    部の格納内容の並置した表示,前記文書構造検査部の出
    力する警告メッセージの表示,ならびに前記位置入力装
    置を用いたグラフィカルユーザインタフェースの表示を
    行う表示部,前記文書構造編集部によって編集された文
    書構造の要素と前記文書格納部に格納されたテキスト文
    書データ中の文書要素との対応付けを前記位置入力装置
    を用いた作業者の操作によって行い、当該対応付けおよ
    び前記文書構造制約情報入力部で入力された文書構造制
    約情報による最終チェックに基づき構造化のためのタグ
    付けを行うタグ付け処理部,ならびに前記タグ付け処理
    部によりタグ付けが行われることにより構造化されたテ
    キスト文書データを出力する出力部として機能させるた
    めのプログラムを記録した記録媒体。
  8. 【請求項8】 コンピュータを、構造化の内容を指定す
    る文法定義を示す文書構造制約情報を入力する文書構造
    制約情報入力部,グラフィカルユーザインタフェースを
    用いた作業者からの指示に基づき、構造化対象のテキス
    ト文書データの文書構造を編集して保持する文書構造編
    集部,前記文書構造制約情報入力部により入力された文
    書構造制約情報を保持し、当該文書構造制約情報に基づ
    き前記文書構造編集部による編集対象の文書構造の妥当
    性を検査し、当該検査で妥当性を欠く場合には警告メッ
    セージを出力する文書構造検査部,構造化の対象である
    紙文書を画像データとして読み込む画像入力部,前記画
    像入力部により読み込まれた紙文書の画像データを格納
    する画像格納部,グラフィカルユーザインタフェースに
    おける作業者からの指示・操作を入力する位置入力装
    置,前記文書構造編集部および前記画像格納部の格納内
    容の並置した表示,前記文書構造検査部の出力する警告
    メッセージの表示,ならびに前記位置入力装置を用いた
    グラフィカルユーザインタフェースの表示を行う表示
    部,前記画像格納部に格納された画像データ中の指定領
    域における文書の内容を文字として認識しテキスト文書
    データを生成する文字認識部,前記文書構造編集部によ
    って編集された文書構造の要素と前記画像格納部に格納
    された画像データに基づいて前記文字認識部により生成
    されたテキスト文書データ中の文書要素との対応付けを
    前記位置入力装置を用いた作業者の操作によって行い、
    当該対応付けおよび前記文書構造制約情報入力部で入力
    された文書構造制約情報による最終チェックに基づき構
    造化のためのタグ付けを行うタグ付け処理部,ならびに
    前記タグ付け処理部によりタグ付けが行われることによ
    り構造化されたテキスト文書データを出力する出力部と
    して機能させるためのプログラムを記録した記録媒体。
JP27442499A 1999-09-28 1999-09-28 データ構造化方式 Pending JP2001101183A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27442499A JP2001101183A (ja) 1999-09-28 1999-09-28 データ構造化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27442499A JP2001101183A (ja) 1999-09-28 1999-09-28 データ構造化方式

Publications (1)

Publication Number Publication Date
JP2001101183A true JP2001101183A (ja) 2001-04-13

Family

ID=17541490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27442499A Pending JP2001101183A (ja) 1999-09-28 1999-09-28 データ構造化方式

Country Status (1)

Country Link
JP (1) JP2001101183A (ja)

Similar Documents

Publication Publication Date Title
US8244541B2 (en) Content creation system, content creation method, computer executable program for executing the same content creation method, computer readable storage medium having stored the same program, graphical user interface system and display control method
JPH01180062A (ja) 文書整形装置
US20130185627A1 (en) Supporting generation of transformation rule
JPH05135121A (ja) ダイアグラム認識システム
CN1973285A (zh) 文档处理方法及其装置
JP2001101183A (ja) データ構造化方式
JP2002014845A (ja) テスト・スクリプト部品の自動生成方法および装置
JPH06231224A (ja) 操作ガイダンス生成装置および操作ガイダンスの生成方法
JP4484791B2 (ja) 検証データ生成装置および検証データ生成プログラム、検証データ生成方法
JP4719743B2 (ja) グラフ処理装置
JPH09237274A (ja) Www用htmlファイル作成方法及び装置
JPH0830448A (ja) プログラム仕様整合検査装置
JPH05257665A (ja) Hcpチャート/ソースプログラム連動編集装置
JPH05150924A (ja) ネツトワーク監視画面テキストフアイル生成装置
JPS6254337A (ja) プログラムの階層指定表示方式
JP2002342079A (ja) 制御プログラム作成装置
JP2929542B2 (ja) データベース操作方法
JP3154790B2 (ja) 光学的文字読取装置
JP2811747B2 (ja) 言語処理装置
JP3305858B2 (ja) 自動図形作成装置および自動図形作成方法
JP2001325097A (ja) ヘルプ機能生成装置、ヘルプ機能生成方法、及びヘルプ機能生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10207923A (ja) 設計作業における文書作成支援装置
JP2937381B2 (ja) 集積回路の設計方法及び設計装置
JPH0793144A (ja) プログラム解析装置
JPH07160703A (ja) 構造文書編集装置