JPH08221399A - 構造化文書作成方法および装置 - Google Patents

構造化文書作成方法および装置

Info

Publication number
JPH08221399A
JPH08221399A JP7029096A JP2909695A JPH08221399A JP H08221399 A JPH08221399 A JP H08221399A JP 7029096 A JP7029096 A JP 7029096A JP 2909695 A JP2909695 A JP 2909695A JP H08221399 A JPH08221399 A JP H08221399A
Authority
JP
Japan
Prior art keywords
document
logical structure
user
definition
information indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7029096A
Other languages
English (en)
Inventor
Yoshifumi Sato
佳史 里
Masatoshi Hino
匡利 樋野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7029096A priority Critical patent/JPH08221399A/ja
Publication of JPH08221399A publication Critical patent/JPH08221399A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 (修正有) 【構成】予め用意したユーザが定義した文書論理構造を
表す情報(仮タグ)と複数の文書論理構造定義(文書型
定義)との対応関係を参照して、ユーザが仮タグを用い
て作成した原テキストと各文書型定義との一致度(検索
頻度)を求め101、その一致度順に文書型定義を表示
し、ユーザに対して文書型定義の選択要求を行う。更
に、ユーザの選択した文書型定義109に合わせて、原
テキスト中の仮タグを、文書型定義に基づく文書論理構
造を表す情報(SGMLタグ情報)に変換し、変換結果
を含むテキストを、文書型定義に基づいて構文解析を行
なうパーサ(SGMLパーサ)によって解析し、変換結
果の整合性の検証を行なう113。 【効果】複数の文書型定義の中から、ユーザが仮タグを
用いて作成した原文書に対応する文書型定義の選択及び
文書型定義に応じた文書インスタンスへの変換を容易に
行なうことができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ユ−ザが作成した文書
から所定の文書論理構造定義に従った構造化文書を作成
する構造化文書作成方法および装置に関するものであ
る。
【0002】
【従来の技術】構造化文書の形式の一つに、論理構造を
明示的に表す情報をテキスト中に埋め込むものがある。
一般にユーザが作成した構造化文書(以下、文書インス
タンスと呼ぶ)は、文書の論理構造を規定する文書論理
構造定義を記述したファイルを指定する部分と、文書の
内容を表す内容テキスト部からなることが多い。文書論
理構造定義には、その文書の論理構造と、その構成要素
を表わすマーク(以下、タグと呼ぶ)が定義されてい
る。また、内容テキスト部には、文書論理構造定義内で
定義されたタグを、そのタグに対応する論理構造の内容
となる文字列が一意に定まるように挿入し、文書の論理
構造を明示的に表現する。
【0003】文書インスタンスは、一般にテキストエデ
ィタや、構造化文書専用のエディタである構造化文書エ
ディタを用いて作成する。また、文書インスタンス中の
タグが正しく付けられているか否かは、指定された文書
論理構造定義に従って文書インスタンスの構文解析を行
うパーサによって検証される。
【0004】他に文書インスタンスを生成する手段とし
ては、ワードプロセッサ等で作成した、タグのない文書
(以下、プレーンテキストと呼ぶ)の文書論理構造を解
析して、構造化文書の文書インスタンスを作成するとい
う手段も考えられる。この手段に必要なプレーンテキス
トの論理構造を解析する技術として特開昭62−249
270号公報に記載された「文書処理装置」がある。こ
の装置では、見出し語辞書、見出し規則辞書、文章構造
規則辞書等を参照して文書構造を判定し、この文書構造
に従って前記文書データの、例えば、章、節、箇条書、
段落などの階層的な論理構造を求めるものである。
【0005】
【発明が解決しようとする課題】近年、組織内に氾濫す
る膨大な量の文書を電子的かつ統一的に扱うため、組織
内の文書を全て構造化文書形式で蓄積し、共有/活用す
る文書情報処理システムの構築が活発化している。ま
た、米国防総省のCALS(Continuous Acquisition and Li
fecycle Support)において、国際標準構造化文書形式S
GMLをベースとして規定された形式の文書のみ受け付
けるという例に見られるように、文書情報処理システム
へのデ−タ入力に要する労力を削減するため、受け付け
る文書を特定の構造化文書形式に限定する(あるいはそ
の形式に従った文書を優遇する)という動きもある。
【0006】しかし、対象とする構造化文書形式を扱い
慣れない者にとって、最初から正確な構造化文書を作成
することは困難である。これは、以下に示すような理由
による。
【0007】まず、テキストエディタを用いて文書イン
スタンスを作成する場合、「対象とする文書に対してど
のような文書論理構造定義が用意されており、どのよう
にタグを付けるべきか」というような、文書インスタン
スの記述方法に関する正確な知識をユーザが持つ必要が
ある。
【0008】また、構造化文書エディタを用いて文書イ
ンスタンスを作成する場合には、扱い慣れないタグを付
加する労力を軽減することが出来るが、ユーザが使用す
る計算機環境に構造化文書エディタが存在する必要があ
る。
【0009】さらに、先に挙げた特開昭62−2492
70号公報における、プレ−ンテキストから論理構造を
抽出する方法については、予め与えられた見出し語や文
書構造に従って文書論理構造を求めるため、与えられて
いない見出し語や文書構造については対応できない。
【0010】以上の理由により、従来の技術では、対象
とする構造化文書形式を扱い慣れない者にとって、その
形式に沿った正確な文書インスタンスを作成することは
困難である。
【0011】
【課題を解決するための手段】本発明は、ユーザが独自
に定義した文書の論理構造を示す情報(以下、ユ−ザ定
義タグ情報と呼ぶ)と、対象とする構造化文書形式にお
いて予め用意されている複数の文書論理構造定義とを対
応付けてその一致度を求める手段と、ユーザがユーザ定
義タグ情報を用いて作成した原テキストについて文書論
理構造定義との一致度を求め、一致度順に文書論理構造
定義を表示する手段と、表示された文書論理構造定義を
ユーザが選択する手段と、ユーザの選択した文書論理構
造定義に合わせて原テキスト中のユーザ定義タグ情報を
文書論理構造定義で用いられている文書の論理構造を示
す情報(以下、規定タグ情報と呼ぶ)に変換する手段と
を具備して構成するものである。
【0012】ユ−ザ定義タグ情報と文書論理構造定義と
の対応付けは、例えばユ−ザ定義タグ情報と、文書論理
構造定義名称又は文書論理構造定義を一意に示す情報
と、規定タグ情報との三項関係を持つ関係テ−ブルを用
いて行う。
【0013】また、上記関係テーブルの登録内容の不足
が検出される場合に、未登録の三項関係を上記関係テー
ブルに登録する手段を設ける。
【0014】さらに、変換結果を含むテキストが文書論
理構造定義に適合するか否かを検証する手段(パーサ)
を設ける。
【0015】なお、ユ−ザの作成する原テキストは、ユ
−ザ定義タグ情報及び規定タグ情報の一方、又は両方を
用いて記述して良いとする。
【0016】本発明では、文書の目的にあった文書論理
構造定義を検索する手段を提供することで、予め決めら
れた論理構造にユ−ザの作成する原テキストを合わせる
のではなく、原テキストに合った文書論理構造定義を選
択し、その文書論理構造定義に沿った構造化文書を生成
することができる。
【0017】
【作用】原テキスト中のユーザ定義タグ情報と、変換対
象の文書論理構造定義との対応関係を参照することによ
り、原テキストと各文書論理構造定義との一致度を調べ
る。
【0018】ユーザ定義タグ情報と文書論理構造定義と
の一致度順に、検索された文書論理構造定義をユーザに
対して提示する。
【0019】ユーザが文書論理構造定義の選択を行うこ
とで、提示された複数の文書論理構造定義の中から目的
とする文書論理構造定義が決定する。
【0020】ユーザの選択した文書論理構造定義に合わ
せて原テキスト中のユーザ定義タグ情報を規定タグ情報
に変換する。その過程でタグ情報間の対応関係の不足が
検出された場合には、新たな対応関係の関係テーブル登
録をユーザに対して要求する。
【0021】変換したテキストを、文書論理構造定義に
従って構文解析を行うパーサによって検証することで、
文書インスタンスが文書論理構造定義沿っているか否か
が判定される。これによりユーザ定義タグ情報から規定
タグ情報への変換が正しく行われたか否かの判定が行わ
れる。
【0022】以上述べたように、ユーザの馴染みやすい
ユーザ定義タグ情報と各文書論理構造定義内の規定タグ
情報とを予め対応付けておくことにより、ユーザはユー
ザ定義タグ情報のみを用いて原テキストを作成すればよ
く、文書論理構造定義名称や、その定義に従った記述方
法を正確に把握しておく必要はない。そのため、対象と
する構造化文書形式を扱い慣れない者にとっても、容易
にその文書形式に従った文書インスタンスを作成するこ
とが可能になる。
【0023】
【実施例】本発明の一実施例を図を用いて説明する。本
実施例においては、構造化文書形式としてSGML形式
を採用し、文書論理構造定義に相当する概念はSGML
の「文書型定義」であるとする。ここでは、本発明を用
いた構造化文書作成プログラム301について説明す
る。
【0024】図1は、構造化文書作成プログラム301
の処理フローである。この処理フローを説明する前に、
ハードウェア構成とシステム構成を図2と図3を用いて
説明する。
【0025】図2はハードウェア構成を示す図である。
ハードウェアは主記憶装置201、CPU203、二次
記憶装置205、キーボード207、マウス209、C
RT211を持つ計算機である。
【0026】図3はシステム構成を示す図である。
【0027】構造化文書作成プログラム301は原テキ
ストファイル307から原テキストを読み込み、関係テ
ーブルファイル309にある関係テーブル600を用い
て原テキストを文書インスタンスに変換して、結果ファ
イル311に出力する。
【0028】SGMLパーサ305は文書型定義ファイ
ル313中の文書型定義を用いて結果ファイル311中
の文書インスタンスの検証を行う。
【0029】連絡領域303は構造化文書作成プログラ
ム301とSGMLパーサ305とのデータのやりとり
を行うための領域である。
【0030】原テキストファイル307の内容を図4
に、結果ファイル311の内容である文書インスタンス
を図5に、関係テーブルファイル309の内容を図6に
それぞれ示す。
【0031】図4は原テキストの内容を示す図である。
【0032】原テキストはユーザが定義したタグ(以
下、仮タグと呼ぶ)を付けられた文書である。
【0033】仮タグには開始仮タグ(401、403、
405、407、409)と終了仮タグ(402、40
4、406、408、410)がある。開始仮タグは記
号”<<”と記号”>>”で囲まれており、記号で挟ま
れた文字列が開始仮タグ名称である。終了仮タグは記
号”<</”と記号”>>”で囲まれており、記号で挟
まれた文字列が終了仮タグ名称である。開始仮タグと終
了仮タグで囲まれたテキストが仮タグで示される内容で
ある。
【0034】図5は文書インスタンスを示す図である。
【0035】文書インスタンスは文書型定義情報とタグ
付けされた文書からなる。
【0036】文書型定義情報は文書インスタンスの型を
定義する情報であり、図5では文書型宣言文501で外
部ファイルに書かれた型を定義している。
【0037】文書インスタンスはSGMLタグを付けら
れた文書である。SGMLタグには開始タグ(502、
504、506、508、510)と終了タグ(50
3、505、507、509、511)がある。開始タ
グは記号”<”と記号”>”で囲まれており、記号で挟
まれた文字列が開始タグ名称である。終了タグは記号”
</”と記号”>”で囲まれており、記号で挟まれた文
字列が終了タグ名称である。開始タグと終了タグで囲ま
れたテキストがタグで示された内容である。
【0038】図6は関係テーブル600である。関係テ
ーブル600は仮タグ欄601、SGMLタグ欄60
2、文書型定義ファイル名称欄603からなる。関係テ
ーブル600の各行は仮タグとSGMLタグと文書型定
義の三項関係を表す。
【0039】仮タグ欄601は原テキスト中に記述され
た仮タグを格納する。SGMLタグ欄602は文書イン
スタンス中のSGMLタグを格納する。文書型定義ファ
イル名称欄603は文書型定義ファイル名称を格納す
る。
【0040】次に図1の処理ついて説明する。
【0041】処理101は仮タグを用いた文書型定義検
索処理である。処理101は原テキスト中の仮タグから
文書型定義ファイル名を検索する処理である。処理10
1の詳細を図8を用いて説明する。また、処理101の
別の処理方法を図9を用いて説明する。
【0042】図8は処理101の詳細処理フローであ
る。
【0043】処理801は原テキストから仮タグを1件
抜き出す処理である。原テキスト中の仮タグは記号”<
<”と記号”>>”で囲まれているので、記号”<<”
と記号”>>”の記号に注目して仮タグを抜き出す。
【0044】処理803は原テキスト中から全てのタグ
を抜き出したか否かを判定する処理である。全ての仮タ
グを抜き出した場合は処理811に移り、原テキスト中
にまだ抜き出していない仮タグがある場合には処理80
5に移る。
【0045】処理805は処理801で抜き出した仮タ
グを用いて関係テーブル600の仮タグ欄601を検索
し、該当する関係を取り出す処理である。
【0046】処理807は処理805で仮タグの検索が
成功したか否かの判定を行う処理である。検索が成功し
た場合は処理809に移り、検索が失敗した場合は処理
801に移る。
【0047】処理809は処理805の検索でヒットし
た関係の中の文書型定義ファイル名称の頻度を記憶する
処理である。この検索時の頻度情報(以下、検索頻度と
呼ぶ)が、原テキストと文書型定義との「一致度」に相
当する概念である。
【0048】処理811は処理809で文書型定義ファ
イル名を記憶したか否かを判定する処理である。1件で
も記憶していれば処理101は成功(処理813)と
し、記憶してなければ処理101は失敗(処理815)
とする。
【0049】図9は処理101の別法の詳細処理フロー
である。
【0050】図9の処理方法は原テキスト中に仮タグだ
けでなくSGMLタグが混在している場合に、SGML
タグをも文書型定義検索に利用するための方法である。
【0051】処理901は原テキストから仮タグまたは
SGMLタグを1件抜き出す処理である。原テキスト中
の仮タグは記号”<<”と記号”>>”で囲まれている
ので、記号”<<”と記号”>>”の記号に注目して仮
タグを抜き出す。また原テキスト中のSGMLタグは記
号”<”と記号”>”で囲まれているので記号”<”と
記号”>”の記号に注目して抜き出す。
【0052】処理903は原テキスト中から全てのタグ
を抜き出したか否かを判定する処理である。全ての仮タ
グまたはSGMLタグを抜き出したときは処理915に
移り、原テキスト中にまだ仮タグまたはSGMLタグが
あるときには処理905に移る。
【0053】処理905は処理901で抜き出したタグ
の種類を判定する処理である。抜き出したタグが仮タグ
の場合は処理907に移り、抜き出したタグがSGML
タグの場合は処理909に移る。
【0054】処理907は処理901で抜き出した仮タ
グを用いて関係テーブル600の仮タグ欄601を検索
し、関係を取り出す処理である。
【0055】処理909は処理901で抜き出したSG
MLタグを用いて関係テーブル600のSGMLタグ欄
602を検索し、関係を取り出す処理である。
【0056】処理911は処理907で仮タグの検索
が、また処理909でSGMLタグの検索が成功したか
否かの判定を行う処理である。検索が成功したときは処
理913に移り、検索が失敗したときは処理901に移
る。
【0057】処理913は処理907または処理909
で検索した関係中の文書型定義ファイル名称の頻度を記
憶する処理である。
【0058】処理915は処理913で文書型定義ファ
イル名を記憶したか否かを判定する処理である。1件で
も記憶していれば処理101は成功(処理917)と
し、記憶してなければ処理101は失敗(処理919)
とする。
【0059】処理103は処理101が成功したか否か
を判定する処理である。処理101が成功ならば処理1
05に移り、失敗ならば処理119に移る。
【0060】処理105は処理101で検索した文書型
定義を検索頻度順に表示する処理である。処理105の
詳細を図10を用いて説明する。
【0061】図10は検索した文書型定義を検索頻度順
に表示する処理の詳細フローである。
【0062】処理1001は処理101で検索し記憶し
た文書型定義ファイル名称を検索頻度の降順にソートす
る処理である。降順にソートすることで文書型定義ファ
イル名称を検索頻度の高い順に順序付ける。
【0063】処理1003は処理1001でソートした
文書型定義ファイル名称の中から検索頻度の高い文書型
定義ファイル名称から順に1件取り出す処理である。
【0064】処理1005は処理1003で取り出した
文書型定義ファイル名称とそのファイルの内容を表示す
る処理である。
【0065】処理1007は次に頻度の高い文書型定義
ファイル名称が存在するか否かを判定する処理である。
存在すれば処理1001に移り、存在しなければ処理1
05を終了する。
【0066】処理105の表示内容を図11に示す。
【0067】図11は文書型定義のファイル名と内容の
表示を示す図である。
【0068】枠1100は文書型定義のファイル名と内
容を表示する表示枠である。枠1100には処理101
で検索した全ての文書型定義について表示する。
【0069】枠1101には処理101で検索した全て
の文書型定義ファイル名を表示する。
【0070】枠1102には処理101で検索した全て
の文書型定義ファイルの内容を表示する。
【0071】枠1103と枠1105はそれぞれ1件の
文書型定義ファイルについてその名称と内容を表示する
表示枠である。
【0072】枠1104と枠1106はそれぞれ1件の
文書型定義ファイル名称を表示する表示枠である。枠1
107(枠1109)は枠1104(枠1106)に示
される文書型定義ファイルの内容を表示する表示枠であ
る。
【0073】マーク1110、マーク1111は表示枠
1100をスクロールするボタンである。
【0074】マーク1112、マーク1113(マーク
1114、マーク1115)は表示枠1107(表示枠
1109)をスクロールするボタンである。
【0075】処理107は文書型定義の選択をユーザに
要求する処理である。文書型定義の選択の手段を図12
を用いて、また処理の詳細を図13を用いて説明する。
【0076】図12は文書型定義の選択画面である。文
書の選択は図11で示した枠1100を用いて行う。
【0077】図12において、マーク1200はマウス
カーソルであり、マウス209を用いて動かされる。枠
1201は空の表示枠である。
【0078】図13は処理107の詳細フローである。
【0079】処理1301はユーザの入力待ちを行う処
理である。ユーザ入力待ちはマウス209のボタンをユ
ーザが押すまで続く。
【0080】処理1303は処理1301でマウス20
9のボタンが押された位置を判定する処理である。空の
表示枠が選択された場合は文書型定義の選択は行われな
かったこととする(処理1304)。文書型定義ファイ
ル名称が表示されている枠を選択した場合は選択した枠
の文書型定義の選択は行われたこととする(処理130
5)。スクロールボタン(1110、1111、111
2、1113、1114、1115)を選択した場合は
該当する枠のスクロール処理(処理1307)を行う。
【0081】処理109は処理107で文書型定義を選
択したか否かを判定する処理である。
【0082】処理107で文書型定義を選択しなかった
ときは処理119に移り、文書型定義を選択したときは
処理111に移る。
【0083】処理111は原テキストを文書インスタン
スに変換する処理である。処理111の詳細処理を図1
4を用いて説明する。
【0084】図14は処理111の詳細フローである。
【0085】処理1401は処理107または処理11
9で決まった文書型定義ファイルに含まれる論理構造の
中から、目的とする構造の名称をユーザに要求する処理
である。ユーザは処理107または処理119で選択し
た文書型定義ファイル中の目的とする論理構造の名称を
入力する。
【0086】処理1403は処理107または処理11
9で決まった文書型定義ファイル名称と処理1401で
入力した論理構造名称から文書型宣言文501を生成す
る。処理1405は処理1405で生成された文書型宣
言文501を結果ファイル311に出力する。
【0087】処理1407は、関係テーブル600に記
述された三項関係に従って、原テキスト中の仮タグを処
理107または処理119で決まった文書型定義で定義
されたSGMLタグに変換を行なう処理である。その過
程で、関係テーブル600に登録内容の不足が存在する
ことが検出された場合には、ユーザに新たな三項関係の
設定を要求する。処理1407の詳細処理を図15を用
いて説明する。
【0088】図15は原テキスト中の仮タグをSGML
タグに変換する処理の詳細フローである。
【0089】処理1501は原テキストから同一文字種
が連続した文字列を取り出す処理である。同一文字種が
連続した文字列とは、漢字、ひらがな、カタカナ、数
字、英字、記号のいずれか一つの種類で構成される文字
列である。
【0090】処理1503は処理1501で文字列が取
り出せたか否かを判定する処理である。文字列が取り出
せない場合には処理1407を終了し、処理1501で
文字列が取り出せた場合には処理1505に移る。
【0091】処理1505は処理1501で取り出した
文字列が仮タグの開始記号”<<”であるか否かを判定
する処理である。処理1501で取り出した文字列が記
号”<<”である場合は処理1507に移り、記号”<
<”でない場合は処理1506に移る。
【0092】処理1506は処理1501で取り出した
文字列を結果ファイル311に出力する処理である。
【0093】処理1507は仮タグ内のタグ名称を表す
文字列を取り出す処理である。また、この処理内で仮タ
グの種類が開始仮タグであるか終了仮タグであるかの判
定を同時に行う。
【0094】処理1509は関係テーブル600から処
理107または処理119でユーザが指定した文書型定
義ファイル名と処理1507で取り出した仮タグ名称を
持つ関係を検索する処理である。
【0095】処理1510は処理1509の検索が成功
したか否かを判定する処理である。検索が成功したとき
は処理1511に移り、検索が失敗したときは処理15
13に移る。
【0096】処理1511は処理1509で検索した関
係に含まれるSGMLタグを結果ファイル311に出力
する処理である。処理1507で開始仮タグを取り出し
た場合は開始タグを、処理1507で終了仮タグを取り
出した場合は終了タグを出力する。
【0097】処理1513はユーザにSGMLタグ名を
要求する処理である。ユーザは目的とする文書型定義の
SGMLタグ名称を入力する。
【0098】処理1515は処理1513で入力された
SGMLタグ名称を持つSGMLタグを結果ファイル3
11に出力し、処理1507で取り出した仮タグと処理
107または処理119でユーザが指定した文書型定義
ファイル名と処理1513でユーザが入力したSGML
タグ名称の組を記憶する処理である。結果ファイルに出
力するSGMLタグは処理1507で開始仮タグを取り
出した場合は開始タグを、処理1507で終了仮タグを
取り出した場合は終了タグとする。
【0099】処理1409はSGMLパーサ305に結
果ファイル311中の文書インスタンスを検証させるた
めの処理要求を行う処理である。処理要求は連絡領域3
03にSGMLパーサ305の処理要求を出力すること
で行う。
【0100】処理1411はSGMLパーサ305の検
証結果待ち処理である。SGMLパーサ305の検証結
果は連絡領域303にSGMLパーサ305が出力す
る。
【0101】処理113はSGMLパーサ305で結果
ファイル311中の文書インスタンスを検証する処理で
ある。処理113の詳細処理を図16を用いて説明す
る。
【0102】図16は処理113の詳細フローである。
【0103】処理1601は連絡領域303の情報を読
み込む処理である。
【0104】処理1603は処理1601で読み込んだ
情報が構造化文書作成プログラム301からの検証処理
要求か否かを判定する処理である。検証処理要求のとき
は処理1603に移り、検証処理要求でないときは処理
1601に移る。
【0105】処理1605は結果ファイル311から文
書インスタンスを読み込み、文書インスタンスの検証を
行う処理である。文書インスタンスの検証では、文章型
定義に沿ったタグづけが行われているか否かを調べる。
【0106】処理1607は処理1605の検証結果を
連絡領域303に出力する処理である。
【0107】処理115は処理113の検証の成否を判
定する処理である。検証が成功したときは処理117に
移り、検証が失敗したときは構造化文書作成処理を終了
する。
【0108】処理117は処理1515で記憶した仮タ
グとSGMLタグと文書型定義ファイル名称の組を関係
テーブル600に格納する。処理117によって新規に
格納された関係の例を図7に示す。図7において関係7
01が処理117によって新たに関係テーブル600に
加えられた関係である。関係701は原テキスト中に存
在した仮タグのうち図6の関係テーブル600には存在
しなかったためユーザが仮タグとSGMLタグとの関係
を定義することで関係テーブル600に加えられたもの
である。
【0109】処理119は文書型定義ファイル名称をユ
ーザに要求する処理である。処理119は処理101で
文書型定義の検索に失敗した場合や検索した文書型定義
に目的とする文書型定義がない場合にユーザが適当な文
書型定義を用いて文書インスタンスの検証を行うための
手段となる。
【0110】なお、本実施例では、関係テーブル600
の登録内容の不足の検出を処理111におけるタグ変換
処理の過程で行なっているが、これを、処理113にお
いて変換後の構造化文書の整合性をパーサを用いて検証
する際に行なうことも可能である。その場合には、不足
を解消する三項関係の入力をユーザに要求し、ユーザが
入力した新たな三項関係を考慮したタグ変換処理を行な
い、変換結果の整合性をパーサを用いて再検証する。
【0111】
【発明の効果】本発明により、ユーザは自らの扱いやす
いユーザ定義タグ情報のみを用いて原テキストを作成す
ればよく、文書論理構造定義名称や、その定義に従った
記述方法を正確に把握しておく必要はない。そのため、
対象とする構造化文書形式を扱い慣れない者にとって
も、容易にその文書形式に従った文書インスタンスを作
成することが可能になる。
【図面の簡単な説明】
【図1】図1は文書型定義検索プログラムの処理フロー
について説明する図である。
【図2】図2はハードウェア構成について説明する図で
ある。
【図3】図3はシステム構成について説明する図であ
る。
【図4】図4は原テキストについて説明する図である。
【図5】図5は文書インスタンスについて説明する図で
ある。
【図6】図6は関係テーブルについて説明する図であ
る。
【図7】図7は更新後の関係テーブルについて説明する
図である。
【図8】図8は仮タグを用いた文書型定義検索の詳細フ
ローについて説明する図である。
【図9】図9は仮タグを用いた文書型定義検索の別法の
詳細フローについて説明する図である。
【図10】図10は検索した文書型定義を検索頻度順に
表示する処理の詳細フローについて説明する図である。
【図11】図11は文書型定義のファイル名と内容の表
示を示す図である。
【図12】図12は文書型定義の選択画面を示す図であ
る。
【図13】図13は文書型定義の選択をユーザに要求す
る処理の詳細フローについて説明する図である。
【図14】図14は原テキストの文書インスタンス変換
について説明する図である。
【図15】図15は原テキスト中の仮タグをSGMLタ
グに変換する処理の詳細フローについて説明する図であ
る。
【図16】図16はSGMLパーサによる検証処理につ
いて説明する図である。
【符号の説明】
301…構造化文書作成プログラム、305…SGML
パーサ、307…原テキストファイル、309…関係テ
ーブルファイル、311…結果ファイル、600…関係
テーブル

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】文書から所定の文書論理構造定義にしたが
    った構造化文書を作成する構造化文書作成方法におい
    て、 予め文書の論理構造を示す所定の論理構造定義を複数記
    憶しておき、 上記文書についてユーザが定義した論理構造を示す情報
    と、記憶された所定の文書論理構造定義を比較して、一
    致度を求め、 比較された文書論理構造を一致度順に表示し、 表示された文書論理構造定義を上記ユーザが選択し、 上記ユーザの選択に基づいて上記ユーザが定義した文書
    の論理構造を示す情報をユーザの選択した文書論理構造
    定義で用いられる文書の論理構造を示す情報に変換する
    ことを特徴とする構造化文書作成方法。
  2. 【請求項2】請求項1に記載の構造化文書作成方法にお
    いて、 上記ユーザが定義した文書論理構造を示す情報を用いて
    行なう複数の文書論理構造定義との対応付けを、少なく
    ともユーザが定義した文書論理構造を示す情報と、文書
    論理構造定義の名称又は文書論理構造定義を一意に示す
    情報と、各文書論理構造定義においてテキスト中で用い
    る文書論理構造を示す情報の三項関係を持つ関係テーブ
    ルを用いて行なうことを特徴とする構造化文書作成方
    法。
  3. 【請求項3】請求項2に記載の構造化文書作成方法にお
    いて、 上記ユーザが定義した文書論理構造を示す情報を登録さ
    れた文書論理構造定義で用いられる文書論理構造を示す
    情報に変換した後、変換された文書論理構造定義を含む
    文書が文書論理構造定義に適合するかどうかを検証する
    ことを特徴とする構造化文書作成方法。
  4. 【請求項4】請求項2に記載の構造化文書作成方法にお
    いて、 上記関係テーブルに登録内容の過不足を確認し、 確認の結果不足が存在することが検出された場合に、ユ
    ーザが定義した文書論理構造を示す情報、文書論理構造
    定義の名称又は文書論理構造定義を一意に示す情報、文
    書論理構造定義で用いられる文書論理構造を示す情報、
    の三項目を新たに対応付け、上記三項関係を持つ関係テ
    ーブルに登録することを特徴とする構造化文書作成方
    法。
  5. 【請求項5】請求項1に記載の構造化文書作成方法にお
    いて、 上記文書中のユーザが定義した文書論理構造を示す情
    報、及び、文書論理構造定義で用いられる文書論理構造
    を示す情報の一方、又は、両方を用いて文書論理構造定
    義との対応付けを行なうことを特徴とする構造化文書作
    成方法。
  6. 【請求項6】文書から所定の文書論理構造定義にしたが
    った構造化文書を作成する構造化文書作成装置におい
    て、 予め文書の論理構造を示す所定の論理構造定義を複数記
    憶する手段と、 上記文書についてユーザが定義した論理構造を示す情報
    と、記憶された所定の文書論理構造定義を比較し、一致
    度を求める手段と、 比較された文書論理構造を一致度順に表示する手段と、 表示された文書論理構造定義を上記ユーザが選択する手
    段と、 上記ユーザの選択に基づいて上記ユーザが定義した文書
    の論理構造を示す情報をユーザの選択した文書論理構造
    定義で用いられる文書の論理構造を示す情報に変換する
    手段を有することを特徴とする構造化文書作成装置。
JP7029096A 1995-02-17 1995-02-17 構造化文書作成方法および装置 Pending JPH08221399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7029096A JPH08221399A (ja) 1995-02-17 1995-02-17 構造化文書作成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7029096A JPH08221399A (ja) 1995-02-17 1995-02-17 構造化文書作成方法および装置

Publications (1)

Publication Number Publication Date
JPH08221399A true JPH08221399A (ja) 1996-08-30

Family

ID=12266834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7029096A Pending JPH08221399A (ja) 1995-02-17 1995-02-17 構造化文書作成方法および装置

Country Status (1)

Country Link
JP (1) JPH08221399A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202072B1 (en) * 1997-05-08 2001-03-13 Jusystem Corp. Method and apparatus for processing standard generalized markup language (SGML) and converting between SGML and plain text using a prototype and document type definition
US9208151B2 (en) 2011-10-25 2015-12-08 International Business Machines Corporation Method, program, and system for specification verification

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202072B1 (en) * 1997-05-08 2001-03-13 Jusystem Corp. Method and apparatus for processing standard generalized markup language (SGML) and converting between SGML and plain text using a prototype and document type definition
US9208151B2 (en) 2011-10-25 2015-12-08 International Business Machines Corporation Method, program, and system for specification verification

Similar Documents

Publication Publication Date Title
RU2358311C2 (ru) Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml
JP5992404B2 (ja) 参考文献検証のための引用処理、提示および移送用のシステムおよび方法
US8060511B2 (en) Method for extracting referential keys from a document
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20090024384A1 (en) Data processing method and system, program for realizing the method, and computer readable storage medium storing the program
US8565526B2 (en) Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
US20050283453A9 (en) Concept navigation in data storage systems
US20090019015A1 (en) Mathematical expression structured language object search system and search method
JPH0293866A (ja) 要約生成方法および要約生成装置
JPH09190449A (ja) 索引自動生成方法とその利用方法
US20130013604A1 (en) Method and System for Making Document Module
JPH08221399A (ja) 構造化文書作成方法および装置
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
JPH103483A (ja) 情報検索装置
JPH01304575A (ja) 文書処理装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH10207875A (ja) 表作成装置およびその方法
JP2621999B2 (ja) 文書処理装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP3470930B2 (ja) 自然語解析方法及び装置
JPH0635971A (ja) 文書検索装置
JP2000207475A (ja) 文書作成装置及び文書作成プログラムを記録した機械読み取り可能な記録媒体
Nagy et al. DIA, OCR, AND THE WWW
TWI374413B (en) System for testing query function of electronic dictionary and method using the same
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040106