JPH0744560A - 文書処理装置における論理構造認識処理方式 - Google Patents

文書処理装置における論理構造認識処理方式

Info

Publication number
JPH0744560A
JPH0744560A JP5190998A JP19099893A JPH0744560A JP H0744560 A JPH0744560 A JP H0744560A JP 5190998 A JP5190998 A JP 5190998A JP 19099893 A JP19099893 A JP 19099893A JP H0744560 A JPH0744560 A JP H0744560A
Authority
JP
Japan
Prior art keywords
document
logical structure
tag
rule
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5190998A
Other languages
English (en)
Inventor
Tae Sumizawa
妙 住澤
Eiji Yamazaki
英二 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP5190998A priority Critical patent/JPH0744560A/ja
Publication of JPH0744560A publication Critical patent/JPH0744560A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 一定のルールに従った定型文書を効率よく作
成する。 【構成】 共通文書ファイル15は、文書の論理的構造
の出現順序ルールを記憶する。入力文書ファイル16は
汎用マークアップ言語規約に基づいて作成された文書を
記憶する。プログラム174はファイル15のルールを
チェーン形式の共通論理構造テーブルに展開して領域1
72に記憶する。プログラム175は作業領域171に
取り込まれたマークアップ文書から文書タグを順番に取
得し、タグテーブルとして領域173に設定する。プロ
グラム176は論理構造テーブルを参照して、タグテー
ブルの文書タグの出現順序がルールに合致するか判定
し、合致すればタグテーブルのチェーンをのばし、合致
しなければその旨を利用者に指摘する。全文書タグの合
致判定後、プログラム177は文書の論理構造を生成す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の作成・編集を行
う文書処理装置における論理構造認識処理方式に係り、
特に、文書をマーク付けする汎用マークアップ言語規約
に従った文書タグを用いて作成された文書データの論理
構造認識処理方式に関する。
【0002】
【従来の技術】文書の内容は、章・節・段落等の文書の
持つ意味について着目した論理構造と、ページやフレー
ム等の文書の内容を物理的に配置するための割付け構造
の二つに大別することができる。
【0003】従来の技術は、この点に着目し、構造文書
の作成を行っている。例えば、特開平3−127170
号公報には、論理構造とその内容を並列して作成し、文
書に固有の論理的構造を作成することが記載されてい
る。この従来技術では、操作者にガイダンスを示すこと
で次内容を促し、操作性の向上をはかっている。
【0004】
【発明が解決しようとする課題】ワードプロセッサの普
及に伴い文書処理システムは急速に進歩し、また、ワー
クステーションを中心に国際標準・オープン化への対応
が強く必要とされている。これらの文書表現は、ISO
で規格化された交換形式表現や、同じくISOで規格化
されたマークアップゲージに代表される。このうち、I
SOの交換形式は、実装面での負荷が大きい等の点か
ら、文字コードだけで表現できるマークアップゲージに
よる文書表現の普及が予想され、この表現方法で一定の
ルールに従った文書を容易に作成できることが要求され
てきた。
【0005】しかしながら、従来技術は、先の特開平3
−127170号公報にも記載されているように、操作
者がガイダンスに従って文書内容を入力すると、それに
伴い文書の論理的構造を順次生成していくもので、処理
装置は文書の論理的構造単位の内容をキー入力によって
取得する方式であり、一定のルールに従った定型文書を
効率よく作成するには不向きである。
【0006】本発明の目的は、文書処理装置において、
汎用マークアップ言語規約に従って作成された入力文書
データから、その文書の固有の論理的構造を容易に生成
することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、請求項1の発明は、論理要素の名称を表わすタグ名
称である文字列とその前後のタグ区切り記号とからなる
文書タグ及びそれに続くテキスト文によって表わされる
マークアップランゲージに従って作成された文書(マー
クアップ文書)を処理する文書処理装置において、作成
されたマークアップ文書を記憶する手段と、予め定義さ
れた文書の論理的構造の出現順序に関するルールを記憶
する手段と、前記論理的構造の出現順序に関するルール
をチェーン形式の共通論理構造テーブルに展開する手段
と、前記マークアップ文書から文書タグを順次取得する
手段と、前記共通論理構造テーブルを参照して、前記文
書タグの出現順序が前記ルールと合致するか判定し、合
致しないときはその旨を出力する手段を有することを特
徴とする。
【0008】請求項2の発明は、文書タグの出現順序の
判定に先立って、そのタグ名称の適否を判定することを
特徴とする。
【0009】請求項3の発明は、文書タグのタグ名称、
出現順序が正しい場合、当該マークアップ文書に固有の
特定論理構造を生成することを特徴とする。
【0010】
【作用】必要とされる予め定義された論理的構造の出現
順序に関するルールの情報を共通論理構造テーブルとし
て、内部的にランダムアクセスメモリ等に展開する。こ
れにより、マークアップされた入力文書データの文書タ
グの出現順序と共通論理構造テーブルのマッチングをと
ることで、容易に文書タグの出現順序がルールと合致す
るかどうか判定でき、処理の迅速化が図れる。また、こ
の時、共通論理構造テーブルのルールを表わす情報の中
に含まれている文書タグに対応する名称を利用して、入
力文書データの文書タグの出現順序の判定に先立って、
そのタグ名称の適否を判定することもできる。
【0011】マークアップされた入力文書データの文書
タグ名称の出現順序等と共通論理構造テーブルのマッチ
ングをとり、適合しない文書タグが現れた場合にはそれ
を却下して、利用者に対し誤りである旨を指摘する。こ
れに応じ利用者は指摘された誤りを修正する。このよう
にして、入力文書データの文書タグの出現順序等が一定
のルールに従っていることが判定された場合、該入力文
書に固有の論理構造を生成する。
【0012】
【実施例】以下、本発明の一実施例を図面を用いて詳述
する。
【0013】図1は本発明の一実施例の構成図を示した
ものである。図中、11は種々の処理を実行する処理装
置(CPU)、12は処理実行コマンド等を入力する為
に使用するキーボード、13は出力結果を表示する為の
表示装置、14は表示画面上での入力指示に使用するマ
ウス、15は予め定義された文書の論理的構造の出現順
序に関するルール(例えば、ISOの国際規格であるO
DA/事務文書体系規約に準拠するルール)を前もって
記憶しておく共通文書ファイル、16は汎用マークアッ
プ言語規約(例えば、文書構造の記述方法に関する国際
規格であるSGML/汎用マークアップ言語規約)に基
づいて作成された文書を記憶する入力文書ファイル、1
7は処理装置11が実行するプログラムやデータを保持
するランダムアクセスメモリの主記憶装置である。
【0014】主記憶装置17には、データ領域として作
業領域171、共通論理構造テーブル領域172および
タグテーブル領域173があり、プログラムとしては共
通論理構造展開プログラム174、文書データ解析プロ
グラム175、マッチングプログラム176および論理
構造生成プログラム177がある。プログラム174
は、共通文書ファイル15の予め定義された論理的構造
の出現順序に関するルールをチェーン形式の共通論理構
造テーブルとして領域172に展開するプログラム、プ
ログラム175は、入力文書ファイル16の汎用マーク
アップ言語規約に従って作成された入力文書データか
ら、文書タグ情報を識別し、タグテーブルとして領域1
73に展開するプログラム、プログラム176は、プロ
グラム175によって生成されたタグテーブルのパスを
元に、プログラム174によって展開された共通論理構
造テーブルを検索し、論理構造の下部構造をルールに従
って評価・決定することによって、マークアップされた
入力文書データのタグ名称の出現順序と共通論理構造の
マッチングを図り、併せて文書タグが論理構造上、正確
に設定されているかどうか検査するプログラム、プログ
ラム176は入力文書ファイル16中の入力文書に固有
の文書の論理的構造を生成するプログラムである。
【0015】初めに、図2のフローチャートを用いて本
発明による論理構造認識処理の全体的流れを説明する。
まず、入力文書ファイル16及び共通文書ファイル15
をオープンする(ステップ201,202)。次に、プ
ログラム174を起動し、共通文書ファイル15中の必
要とされる予め定義された論理的構造の出現順序に関す
るルールの情報を共通論理構造テーブルとして、主記憶
装置17の共通論理構造テーブル領域172に展開する
(ステップ203)。次に、入力文書ファイル16の汎
用マークアップ言語規約に従って作成された入力文書デ
ータを読み込んで主記憶装置17の作業領域171に格
納する(ステップ204)。この入力文書データの読み
込みが終了すると(ステップ205)、プログラム17
5,176を起動する。プログラム175は作業領域1
71の入力文書データを解析し、文書タグ情報を抽出
し、タグテーブルとしてタグテーブル領域173に設定
する(ステップ206)。プログラム176は、このタ
グテーブル領域173を参照し、タグの出現順序を上位
構造から下位構造までを1つのパスとして、該タグテー
ブルに登録する。さらに、プログラム176は、領域1
72の共通論理構造テーブルを検索して、論理構造の下
部構造をルールに従って評価・決定し、タグテーブルに
登録した順序で下位構造が作成できるかチェックするこ
とによって文書タグと共通論理構造のマッチングを図る
(ステップ207)。この時、設定された文書タグが予
め定義された論理的構造の出現順序に関するルールに則
していない場合、その旨を表示装置13に出力する。最
後の文書タグ名までの処理が終了すると(ステップ20
8)、プログラム177を起動する。プログラム177
は領域173のタグテーブルに従い、入力文書の論理的
構造を生成する(ステップ209)。最後に、共通文書
ファイル15および入力文書ファイル16をクローズに
する(ステップ210,211)。
【0016】図3は文書構造の出現順序に関するルール
を示す共通論理構造の例である。共通論理構造には、各
ノードに固有の名称を利用者可視名として付けておき
(例えば“文書”、“和文表題”など)、これをマーク
アップに利用し、マークアップ文書の文書タグと該利用
者可視名を一件一件対応させ、論理的構造の出現順序に
関するルールをこの共通論理構造に記述されたものと対
応するかチェックする。
【0017】図4は、図3の共通論理構造から利用者可
視名、論理構造の出現順序に関するルール及び、識別子
等の情報を取得して、主記憶装置17の領域172に共
通論理構造テーブルとしてチェーン形式に展開したもの
である。図3から図4への変換は、共通論理構造展開プ
ログラム174によって行われる。このように、共通論
理構造の情報を共通文書ファイル15から内部のランダ
ムアクセスメモリ等の領域172へ展開することによっ
て、共通論理構造の情報を取得する際にアクセスが速く
なるため、処理速度の向上が望める上に、共通論理構造
から入力文書の特定論理構造を生成する際に必要となる
論理構造の上位と下位構造のパスの接続を示す識別子の
リストを取得することができる。図4中のSEQ・RE
P・OPTは、それぞれ下位構造が順番に現れること・
繰り返すこと・省略可能となることを表している。例え
ば、識別子“本体”配下には「SEQ 3 4 5 6
(OPT7)」のルールに基づいてノードが生成される
ことになっており、更に識別子3“表題”の配下には
「SEQ 8 9」の順で最下位オブジェクトである識
別子8“和文表題”、識別子9“英文表題”がそれぞれ
順に生成されるというルールが記述されている。
【0018】図5は、マークアップされた入力文書デー
タから文書タグの情報を抜き出し文書タグテーブルとし
て、文書タグ名その他の必要とされる情報を設定したテ
ーブル・チェーンを示したものである。
【0019】文書タグは、図5の(b)に拡大して示す
ように、論理要素の名称を表すマークであることを示す
為に用いられるタグ区切り記号と、それに付随する論理
要素の名称を表すタグ名称である文字列及び、それに続
く文書の内容であるテキストとの論理要素の区切りを表
すタグ閉じ記号からなる。
【0020】文書データ解析プログラム172では、作
業領域171に取り込まれた図5の(a)に示すような
入力マークアップ文書データから、データと論理構造単
位の名称との区切りを示す記号と、論理構造の名称と、
続くデータとの区切りを示す記号を識別することで、論
理構造単位の名称である文書タグ名を取得し、タグテー
ブル領域173に設定を行う。この際、共通論理構造の
すべてのノードに対してタグを対応させると、必然的に
決められてしまうタグも入力しなくてはならず煩雑であ
る。そこで、汎用マークアップ言語規約では次の様な構
造的ルールを設けている。 利用者可視名でノードとルートからのノード列が一
意に決まるもので、上位の文書タグを省略できる。 下位構造が選択の余地なく一意に決まる文書タグを
省略できる。 このように設定することで、利用者は共通論理構造で規
定されている全てのノードを文書タグとして記す必要が
なくなり、煩雑さから開放されることになる。図5の
(c)に示すタグテーブルで、斜線を施こさないノード
が省略可を示している。
【0021】次のマッチングプログラム176では、省
略されたノードを補正(追加)し、文書タグの出現順序
等が予め定義されたルールである共通論理構造に反する
ものである場合はエラーを出力し、適合する場合はタグ
テーブルのチェーンを繋げ、共通論理構造に沿った形で
文書タグテーブルのパスを生成する処理を行う。
【0022】図6にマッチング処理のフローチャートを
示す。以下では、図7の例を用いて共通論理構造と文書
タグテーブルのチェーンのマッチング処理の概要を説明
す。
【0023】いま、“文書”“和文表題”“英文表題”
“和文著者名”と順にタグテーブルのチェーンが生成さ
れ、次に“和文勤務先”の文書タグが文書データ解析プ
ログラム175によって取得されたとする。マッチング
プログラム176は共通論理構造テーブルのカレントポ
インタをノード2に設定した後(ステップ601)、該
ノード2以降をサーチし(ステップ602,604,6
05)、処理対象文書タグ“和文勤務先”のノード識別
子12を取得する(ステップ606)。この時、綴り上
の誤り等により、求める文書タグ名と一致する利用者可
視名が共通論理構造テーブル上に存在しない時は、その
旨をエラーメッセージとして出力する(ステップ60
3)。これにより、利用者は指摘された誤りを修正すれ
ばよい。
【0024】文書タグが正しく取得された場合には、そ
の時のタグテーブルの最終位置を退避した後(ステップ
607)、タグテーブル及び共通論理構造テーブルの各
カレントポインタを戻して(ステップ608,60
9)、ステップ607で退避したタグテーブルの最終位
置まで再び順に共通論理構造テーブル及びタグテーブル
を検索し(ステップ610,611,613,61
4)、文書タグの生成過程が正しく、処理対象文書タグ
に対応するタグテーブルを続けて生成することができる
か判定を行う。図7では、カレントポインタのある共通
論理構造テーブルのノード2配下に記述された下位構造
の出現順序に関するルールは「SEQ 3 45 6
(OPT7)」であるので、この順に各テーブルを検索
し、タグテーブルが出現順序に関するルールに従って生
成されることを確認する。すると、ノード識別子5の
“勤務先”の配下に、ノード識別子12“和文勤務先”
が発見され、それまでの従属関係が正しいものであるこ
とが判定される。
【0025】文書タグの生成過程が正しい場合、省略さ
れているノードを追加等するため、それまで生成されて
いたタグテーブルを補正する必要があるか判定し(ステ
ップ615)、補正要の場合はタグテーブルのチェーン
を補正後(ステップ616)、取得した文書タグを接続
する(ステップ617)。図7の場合、取得した“和文
勤務先”の文書タグは、“勤務先”のノードを追加し
て、途中まで生成されていたタグテーブルのチェーンを
補正後、接続されることになる。
【0026】一方、上述の文書タグの続きとして“英文
著者名”の後に“和文勤務先”ではなく、“英文勤務
先”の文書タグが出現した場合、ノード識別子5の“勤
務先”の配下には、シーケンスとしてノード識別子12
“和文勤務先”、続いてノード識別子13”英文勤務
先”が来るべきであることから、ステップ611におい
て“和文勤務先”のタグより前に出現する“英文勤務
先”の文書タグの誤りが指摘され、マッチングプログラ
ム176は、その旨をエラーメッセージとして表示する
(ステップ612)。これを見て利用者は誤りを修正す
る。
【0027】このように、文書データ解析プログラム1
75が文書タグを取得する度にマッチングプログラム1
76が動作し、文書タグの構造上の適否を判定した上
で、文書タグの出現順序等が正しければ、タグテーブル
に該文書タグデータをチェーンする処理が行われる。
【0028】論理構造生成プログラム177は、全ての
文書タグの出現順序が一定のルールに適合していること
が判定された場合、プログラム176からの要求によ
り、タグテーブル等をもとに入力文書の特定論理構造を
生成する。これは、基本的には図4から図3を生成する
処理であり、タグテーブルが正しくチェーンされていれ
ば、それを元に入力文書に固有の特定論理構造を生成す
ることはたやすい。
【0029】
【発明の効果】以上の説明から明らかであるように、本
発明によればマークアップゲージに従って作成された文
書を入力した場合、その文書タグの出現順序等が一定の
ルールに合致しているかどうか迅速に認識し、誤ったマ
ークアップがあればそれを利用者に指摘することによ
り、一定のルールに従った定型文書を効率よく作成する
ことができる。
【図面の簡単な説明】
【図1】本発明による文書処理装置の一実施例の構成図
である。
【図2】本発明による論理構造認識処理の流れを説明す
るためのフローチャートの一例である。
【図3】共通論理構造の一例を示す図である。
【図4】共通論理構造をチェーン形式に展開した図であ
る。
【図5】文書データ解析処理の概要を示す図である。
【図6】マッチング処理の流れを説明するためのフロー
チャートの一例である。
【図7】マッチング処理の概要を示す図である。
【符号の説明】
11 処理装置 12 キーボード 13 表示装置 14 マウス 15 共通文書ファイル 16 入力文書ファイル 17 主記憶装置 171 作業領域 172 共通論理構造テーブル領域 173 タグテーブル領域 174 共通論理構造展開プログラム 175 文書データ解析プログラム 176 マッチングプログラム 177 論理構造生成プログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山崎 英二 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 論理要素の名称を表わすタグ名称である
    文字列とその前後のタグ区切り記号とからなる文書タグ
    及びそれに続くテキスト文によって表わされるマークア
    ップランゲージに従って作成された文書(以下、マーク
    アップ文書と称す)を処理する文書処理装置における論
    理構造認識処理方式であって、 作成されたマークアップ文書を記憶する手段と、 予め定義された文書の論理的構造の出現順序に関するル
    ールを記憶する手段と、 前記の論理的構造の出現順序に関するルールをチェーン
    形式の共通論理構造テーブルに展開する手段と、 前記マークアップ文書から文書タグを順次取得する手段
    と、 前記共通論理構造テーブルを参照して、前記文書タグの
    出現順序が前記ルールと合致するか判定し、合致しない
    ときはその旨を出力する手段と、を有することを特徴と
    する論理構造認識処理方式。
  2. 【請求項2】 請求項1記載の文書処理装置における論
    理構造認識処理方式において、文書タグの出現順序の判
    定に先立って、そのタグ名称の適否を判定することを特
    徴とする論理構造認識処理方式。
  3. 【請求項3】 請求項1および2記載の文書処理装置に
    おける論理構造認識処理方式において、文書タグのタグ
    名称、出現順序が正しい場合、当該マークアップ文書に
    固有の特定論理構造を生成することを特徴とする論理構
    造認識処理方式。
JP5190998A 1993-08-02 1993-08-02 文書処理装置における論理構造認識処理方式 Pending JPH0744560A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5190998A JPH0744560A (ja) 1993-08-02 1993-08-02 文書処理装置における論理構造認識処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5190998A JPH0744560A (ja) 1993-08-02 1993-08-02 文書処理装置における論理構造認識処理方式

Publications (1)

Publication Number Publication Date
JPH0744560A true JPH0744560A (ja) 1995-02-14

Family

ID=16267168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5190998A Pending JPH0744560A (ja) 1993-08-02 1993-08-02 文書処理装置における論理構造認識処理方式

Country Status (1)

Country Link
JP (1) JPH0744560A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202072B1 (en) 1997-05-08 2001-03-13 Jusystem Corp. Method and apparatus for processing standard generalized markup language (SGML) and converting between SGML and plain text using a prototype and document type definition
CN113255295A (zh) * 2021-04-27 2021-08-13 西安电子科技大学 一种自然语言到pptl形式化规约自动生成方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202072B1 (en) 1997-05-08 2001-03-13 Jusystem Corp. Method and apparatus for processing standard generalized markup language (SGML) and converting between SGML and plain text using a prototype and document type definition
CN113255295A (zh) * 2021-04-27 2021-08-13 西安电子科技大学 一种自然语言到pptl形式化规约自动生成方法及系统
CN113255295B (zh) * 2021-04-27 2024-04-09 西安电子科技大学 一种自然语言到pptl形式化规约自动生成方法及系统

Similar Documents

Publication Publication Date Title
JP4869630B2 (ja) コンテンツを開始テンプレートとターゲットテンプレートとの間でマップするための方法およびシステム
JPH0630066B2 (ja) テーブル型言語翻訳方法
JPH07325827A (ja) ハイパーテキスト自動生成装置
JP2007141123A (ja) 異なるファイルの同一文字列のリンク
CN106960058A (zh) 一种网页结构变更检测方法及系统
US6003023A (en) Incremental change processing apparatus for presented objects
JPH0744560A (ja) 文書処理装置における論理構造認識処理方式
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
JP2928246B2 (ja) 翻訳支援装置
JPH0635971A (ja) 文書検索装置
JPH07146868A (ja) 自然言語処理装置
JPH056291A (ja) テスト資源の作成・管理方法
JPH0546370A (ja) プログラム生成装置
CN117313817A (zh) Java代码审计模型训练方法、装置、系统及存储介质
JP2908184B2 (ja) テキストファイル編集方法及び装置
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
JP2002351871A (ja) 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
JPH03233669A (ja) 文書作成装置
JP2889052B2 (ja) 文字書体処理方法および装置
JPH0535453A (ja) モジユール仕様書検証システム
JPS63140339A (ja) バ−ジヨン識別予約語管理方式
JPH08235019A (ja) 命令テーブル生成方法
JPH05342258A (ja) 自然語処理システム
JPH07141178A (ja) オブジェクトアクセス装置
JPH1139347A (ja) テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees