JPH0816594A - 文書自動マーク付け装置 - Google Patents
文書自動マーク付け装置Info
- Publication number
- JPH0816594A JPH0816594A JP6146417A JP14641794A JPH0816594A JP H0816594 A JPH0816594 A JP H0816594A JP 6146417 A JP6146417 A JP 6146417A JP 14641794 A JP14641794 A JP 14641794A JP H0816594 A JPH0816594 A JP H0816594A
- Authority
- JP
- Japan
- Prior art keywords
- document
- rule
- character string
- marking
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
理構造を示すマークを自動的に付けることができる装置
を提供する。 【構成】 入力文書を格納する文書入力部1、マーク付
けのためのルールを記述するマーク付けルール部2、前
記入力文書に対して前記ルールを適用して、前記ルール
に適合した文字列については所定のパターンに変換して
出力し、適合しない文字列は元の文字列を出力すること
により、前記入力文書に対するマーク付け処理を行うた
めのマーク付け部3、及び前記マーク付け部から出力さ
れたマーク付き文書を格納するマーク付き文書出力部6
により文書の自動マーク付け装置を構成する。
Description
ないプレーンな文書に対して、論理構造を示すマークを
自動的に付けることによって、プレーンな文書を構造化
文書に変換する文書自動マーク付け装置に関するもので
ある。
ことによって、レイアウトなどの編集の自動化、電子媒
体書籍の自動作成、ドキュメントデータベースの作成な
ど、文書の二次的な加工を柔軟に行えるようにすること
が普及しつつある。この構造化文書の実現方法の一つ
に、文書に論理構造を示すマークを付ける方法がある。
これを「マーク付け」又は「マークアップ」という。JI
S X 8879及びJIS X 4151で定められた「SGML」(St
andard Generalized Markup Language: 標準一般化マー
ク付け言語)もこの方法の一つである。
成装置を用いて手作業でマークアップするか、または、
構造化文書作成のための専用の構造エディタを使って、
文書を作成しながらマークアップをする必要があった。
方法には次の問題があった。 1.手作業で一つずつマークを付けるのは面倒であり、
また、マーク付けの規則を覚える必要がある。 2.専用の構造エディタを使うには、そのためのハード
/ソフトを準備する必要がある。また、今まで使ってい
た文書作成装置とは違う入力操作を覚える必要がある。
ていない文書に対して、論理構造を示すマークを自動的
に付けることができる装置を提供することを目的とする
ものである。
め、本発明は、入力文書を格納する文書入力部、マーク
付けのためのルールを記述するマーク付けルール部、前
記入力文書に対して前記ルールを適用して、前記ルール
に適合した文字列については所定のパターンに変換して
出力し、適合しない文字列については元の文字列を出力
することにより、前記入力文書に対するマーク付け処理
を行うためのマーク付け部、及び前記マーク付け部から
出力されたマーク付き文書を格納するマーク付き文書出
力部により文書の自動マーク付け装置を構成する。
た文書にマーク付けルール部に記述されたマーク付けル
ールを適用する。そして、ルールに適合する文字列につ
いては所定のパターンに変換してマーク付き文書出力部
に出力し、適合しない文字列については元の文字列をマ
ーク付き文書出力部に出力する。これによって、マーク
付けのされていない文書から自動的にマーク付き文書を
得ることができる。
る。図1は、文書マーク付け装置の構成を示す。文書入
力部1は、例えば直接アクセス記憶装置により構成され
るもので、図2に示すプレーンな文書11(以下、この
文書を「入力文書」という。)が格納されているものと
する。マーク付けルール部2は、例えば直接アクセス記
憶装置により構成されるもので、図3に示すマーク付け
ルールが記述されているものとする。
ク付けの処理を行うもので、例えば、CPU及びメモリ
などから構成される。マーク付け部3は、適合ルール検
索部4と文字列変換部5とから成る。適合ルール検索部
4は、入力文書からマーク付けルール部2に記述された
ルールに適合する文字列を検索し、その検索結果を文字
列変換部5に出力する。文字列変換部5は、適合ルール
検索部4からの出力に応じて、入力文書を所定のパター
ンに変換して、マーク付き文書出力部6に出力する。
クセス記憶装置により構成され、マーク付き文書を格納
するものである。次に、図1の各部分の詳細について説
明する。図2は、文書入力部1に格納された変換前のマ
ーク付けの無い入力文書11と、マーク付き文書出力部
6に格納された変換後のマーク付けがされた文書14を
示す。入力文書11の章の表示12と節の表示13が、
本装置によりマーク付け処理されて、章のマーク15と
節のマーク16が付けられる。
す。マーク付けルール部2に記述されるマーク付けルー
ル21は、テキストファイルにより構成され、複数の変
換表22,23……からなる。また、表中の「{」は変
換表の開始を表し、「}」は変換表の終了を表す。図示
の例では、変換表22は文書中の章の部分を変換するた
めのものであり、変換表23は文書中の付録の部分を変
換するためのものである。
ると、変換表22は複数の行からなり、各行において、
左に変換元パターンを、右に変換先パターンを記述して
いる。変換元パターンと変換先パターンは、「”」で囲
んで記述している。なお、パターンの中に「”」という
文字を記述したい場合は、「¥”」と記述する。図の例
で説明すると、第1行は「第」という文字列(文字列に
は1文字を含むこととする。)を「<章 id=”章」
という文字列に変換することを示している。
しているのは、数字を表している。このように、「:」
が付いている記述を「組み込み文字」といい、「:A」
は英数字を、「:B」は空白類を、「:C」は英字を表
す。また、「+」は、直前の文字の1個以上の繰り返し
を表す。例えば、第3行の「:B+」という記述
は、「:B」(つまり空白類)の1個以上の繰り返しを
表す。同様に、「*」は直前の文字の0個以上の繰り返
しを表す。また、第4行の「.」は任意の文字を表す。
ただし、「.」を表したい場合は、「¥.」と記述す
る。第5行の「¥n」は改行文字を表す。
変換先パターンが「=」になっている。これは、変換元
パターンをそのまま複写することを表している。次に、
図4のフローチャートを用いてマーク付け処理について
説明する。なお、図中のステップS11〜15までは、
適合ルール検索部4における動作であり、ステップS1
6〜20までは、文字列変換部5における動作である。
置づけ(ステップS11)、マーク付けルール21の先
頭に表ポインタを位置づける(ステップS12)。ステ
ップS13〜15において、各文字ごとに、文字ポイン
タから始まる文字列が各変換表22,23…の変換元パ
ターンに適合するかどうかを判定する。つまり、ステッ
プS13で、文字ポインタから始まる文字列が表ポイン
タが指す変換表に適合するか否かが判定され適合すれば
ステップS16へ進む。適合しなければ、ステップS1
4〜15により次の変換表に進み、ステップS13で同
様な判定がされる。もし、適合する変換表が無ければ、
ステップS15のNからステップS19へ進む。なお、
ステップS13の詳細な処理については後述する。
る文字列が表ポインタが指す変換表に適合すると判定さ
れた場合、ステップS16において、適合した範囲の文
字列を、変換表に従って変換をして、マーク付き文書部
6に出力する。なお、ステップS16の処理の詳細につ
いても後述する。そして、ステップS17で文字ポイン
タを適合した範囲の次の位置へ文字ポインタを動かし、
ステップS18へ進む。
ら始まる文字が変換表に適合しないと判定された場合
は、ステップS19へ進み、文字ポインタが指示する文
字をそのままマーク付き文書出力部6に出力する。そし
て、ステップS20で文字ポインタを一つ後ろに動か
し、ステップS18へ進む。ステップS18において、
入力文書中にまだ処理していない文字がある場合、ステ
ップS12へ戻り、以後同様の処理が行われる。全ての
文字についての処理が終わり、処理していない文字が無
くなった場合は、ステップS18のNから出てマーク付
け処理を終了する。
文書11の章の表示12が、変換表22により、マーク
付き文書14の章のマーク15に変換される処理につい
て説明をする。始めに、図4のステップS13において
は、文字ポインタから始まる文字列が変換表の第1行か
ら第5行までの変換元パターンと一致するかどうかを判
定する。
「第」と一致する。 2)変換表の第2行の変換元パターンが「1」と一致す
る。 3)変換表の第3行の変換元パターンが「章 」と一致
する。 4)変換表の第4行の変換元パターンが「概要」と一致
する。 5)変換表の第5行の変換元パターンが「↓」(改行記
号)と一致する。
文字ポインタから始まる文字列が「適合した」とみなし
て、次にステップS16の変換及び出力を行う。 1)「第」を「<章 id=”章」に変換して、マーク
付き文書出力部6に出力する。 2)「1」はそのまま出力する。
て出力する。 4)「概要」はそのまま出力する。 5)「↓」(改行記号)を「</表題>」に変換して出
力する。 以上の動作によって、図2に示すようなマーク付き文書
が得られる。次に、前述の図4のフローチャートにおけ
るステップS13及びステップS16の詳細な動作につ
いて以下に説明する。また、以下に説明される動作にお
いては、同時に、本発明の自動マーク付け装置における
新たな機能及びその動作についても説明される。
について説明する。図6及び図7は、マーク付けルール
の変形例を示す。図6には、通常の章に対する変換表3
2と、その章に付随する節に対する変換表34と、付録
に対する変換表33と、付録に付随する節に対する変換
表35が示されている。さらに、図7には、パターンの
移動を行わせるための変換表36が示されている。
おいては、第1行の前に、それぞれ表名が設定されてい
る。変換表32には「章開始」が、変換表33には「付
録開始」が設定される。また、変換表34には「開始表
名」及び「終了表名」が、変換表35には「開始表名」
が設定されている。節の変換表34は、「章開始」の変
換表32が適合された後、その適合を開始するが、「付
録開始」の変換表33が適合されたら、その適合を終了
するものであり、付録の節の変換表35は、「付録開
始」の変換表33が適合された後、その適合を開始する
ものである。このマーク付けルールを適用して以下に説
明する処理動作が行われることにより、章の後には章の
節が続き、付録の後には付録の節が続くマーク付けが行
われることとなり、章の後に付録の節が続いたり、付録
の後に章の付録が続くことがなくなる。
いられる。例えば、索引のように、マーク付けの無い文
書中では表記が読みより先に記載されるが、マーク付き
文書においては、索引としての機能上、読みのパターン
を表記のパターンより前に記載したいということがあ
る。変換表36はこのようなパターンの移動を行うとき
に使用されるものである。
詳細を示す。なお、以下の説明において、ステップS1
1〜20は、図4のフローチャートにおけるステップを
表す。これらのステップについては、図4に関する説明
を参照されたい。ステップS31では、表ポインタが指
示する変換表に開始表名が設定されているか否かが判定
され、ステップS32では、開始表名が指す変換表は既
に適合済みであるか否かが判定され、ステップS33で
は、終了表名が設定されているか否かが判定され、ステ
ップS34では、終了表名が指す変換表は既に適合済み
か否かかが判定される。
3は、開始表名及び終了表名が共に設定されていない例
であるから、これらの変換表の場合には、ステップS3
5へ進む。章の節の変換表34は、開始表名及び終了表
名が共に設定されている例であるから、この変換表34
の場合には、開始表である章の変換表32が適合済みで
あり、終了表である付録の変換表33が未だ適合されて
ない場合にステップS35へ進む。一方、開始表である
変換表32が適合されていないか、又は終了表である変
換表33が適合されている場合には、ステップS40へ
進み、不適合と判定される。以後は図4のステップS1
4へ進み、次の表の選択が行われる。
ある付録の変換表33が適合済みであれば、ステップS
35へ進み、適合済みでなければ、ステップS40へ進
み不適合と判定される。ステップS35〜45では、当
該変換表と入力文書中の文字ポインタから始まる文字列
が当該変換表のルールに適合するか否かの判定がされ
る。
頭の行に位置づけ、ステップS36で入力文書の比較ポ
インタを文字ポインタと同じ位置に動かす。ステップS
37で、適合範囲格納テーブルが一つ拡張されて、ステ
ップS38へ進む。この適合範囲格納テーブルは、図1
0に示す構造を有しており、適合が判定されている文字
列の適合位置と、その長さが変換表の各行ごとに記録さ
れるもので、処理の進行に伴って順次拡張していくもの
である。
の変換元パターンが、比較ポインタから始まる入力文書
の文字列と適合するか否かが判定される。適合しなけれ
ば、ステップS39で図10の適合範囲格納テーブルが
解放されて、ステップS40へ進み、不適合と判定さ
れ、図4のステップS4へ進む。適合すれば、ステップ
S41へ進む。
ルの「適合位置」に比較ポインタの位置を入れて、ステ
ップS42では、適合範囲格納テーブルの「適合長」に
適合した長さを入れる。ステップS43では、比較ポイ
ンタを適合した範囲の次の位置へ動かす。図10の第1
行の例では、適合位置の310から、適合長6だけ離れ
た位置316へ比較ポインタを動かす。ステップS44
では、行ポインタを一つ後ろへ動かす。前記の例では、
第2行に動かす。
っているか否かが判定され、残っていれば、ステップS
37へ戻る。以後、この処理を繰り返すことにより、変
換表における全ての行の変換元パターンが、比較ポイン
タから始まる文字列と適合するか否かが判定される。も
し、途中で一致しなくなると、ステップS38からステ
ップS39,S40へ進み、不適合と判定される。ま
た、全ての行の変換元パターンが一致すれば、ステップ
S46において適合と判定され、図4のステップS17
へ進む。
図6の変換表と適合した場合は、前の説明と同じ変換が
行われるので、重複する説明は省略する。ここでは、文
字列が図7の変換表と適合した場合についての説明を行
う。始めに変換表36について説明すると、第1行の
「△」は索引の開始記号、第5行の「→」は読みの開始
記号、第7行の「←▽」は読みの終了記号と索引の終了
記号を表す。
引「△装置→そうち←▽」が記載されていた場合、この
文字列については、以上説明した図8、図9の処理によ
り、次の変換が終了している。 1)「△」は「<索引 読み=”」に変換される。 2)続いて変換先パターンに、無条件に「<<ラベル
A」が挿入される。
に「”>」が挿入される。 4)「装置」はそのまま無変換とされる。 5)「→」は削除される。 6)「そうち」は「>>ラベルA」に変換される。 7)「←▽」は「</索引>」に変換される。
て、図12のフローチャートを用いて説明する。この処
理は、ある変換表に適合した範囲の入力文書の文字列
を、その変換表に従って変換先パターンに変換してマー
ク付き文書部6に出力するものである。さらに、この処
理においては、図7の変換表36を用いた変換先パター
ンの入替えも行われる。
変換表の先頭の行に位置づける(以下、この行ポインタ
が指す行を省略して「現在行」という。)。次に、ステ
ップS52において、現在行の変換先パターンが変換さ
れた型のもの(””で囲まれたもの"....")であるか否
かが判定され、変換型であれば、ステップS53で、現
在行の変換先パターンの文字列"...."をマーク付き文書
部6に出力する。変換型でなければ、ステップS54へ
進む。
パターンが複写の型(=)であるか否かが判定され、複
写型であれば、ステップS55で、現在行の適合範囲格
納テーブルが示す入力文書の範囲をマーク付き文書部6
に出力する。複写型でなければ、ステップS56へ進
む。ステップS56では、移動先の型(<<)か否かが
判定される。移動先型であれば、ステップS57で、同
じ移動ラベル(図7の例では、ラベルA)を持つ移動元
(>>)の行を検出して、適合範囲格納テーブルにおい
てその行の示す入力文書の範囲(図7の例では「そう
ち」)をマーク付き文書部6に出力する。含まなけれ
ば、ステップS58へ進む。
ろに動かし、ステップS59で変換表に行が残っている
か否かが判定される。残っていれば、ステップS52へ
戻り、以上説明したステップが繰り返される。当該変換
表について全ての行についての変換が終了すれば、ステ
ップS60へ進んで適合範囲格納テーブルを解放して、
図4のステップS8へ進む。
文字列が図6の変換表に適合した場合は、前の説明と同
じようなマーク付き文書出力部6への出力が行われるの
で、重複する説明は省略する。ここでは、文字列が図7
の変換表に適合した場合について説明を行う。なお、図
7を用いた変換については、図8、図9の説明において
既に説明したように変換が終了している。
力する。 2)挿入された「<<ラベルA」に対応する移動元「>
>ラベルA」を検出し、現在行の適合範囲格納テーブル
が示す入力文書の範囲の「そうち」を出力する。 3)挿入された「”>」を出力する。
テーブルが示す入力文書の範囲の「装置」を出力する。 5)第5,6行は無視される。 6)変換された「</索引>」を出力する。 以上の結果、図11に示すように、読みの「そうち」が
表記の「装置」の前に移動させられる。
らなる文書のマーク付け処理について説明してきた。本
発明の自動マーク付け装置は、このような章と節からな
る文書のマーク付け処理の変換のみならず、その他の論
理構造の文書に対しても適用可能である。
ない文書に対して、論理構造を示すマークを自動的に付
けることができる装置を提供することができる。したが
って、既存の文書作成装置で文書を作成し、その後、本
発明の文書自動マーク付け装置で一挙にマーク付けをす
ることができる。また、今までに蓄積された大量の文書
の文書データを、簡単に構造化文書に転用することがで
きる。
示す文書図。
ク付き文書を示す図。
図。
ート。
の1)。
の2)。
フローチャート(その1)。
フローチャート(その2)。
合範囲格納テーブルを示す図。
図。
のフローチャート。
Claims (2)
- 【請求項1】 入力文書を格納する文書入力部、マーク
付けのためのルールを記述するマーク付けルール部、前
記入力文書に対して前記ルールを適用して、前記ルール
に適合した文字列については所定のパターンに変換して
出力し、適合しない文字列については元の文字列を出力
することにより、前記入力文書に対するマーク付け処理
を行うためのマーク付け部、及び前記マーク付け部から
出力されたマーク付き文書を格納するマーク付き文書出
力部を具備する文書自動マーク付け装置。 - 【請求項2】 入力文書を格納する文書入力部、マーク
付けのためのルールを記述するマーク付けルール部、前
記入力文書から前記ルールに適合する文字列を検索する
適合ルール検索部、適合ルール検索部による検索の結
果、前記入力文書中の文字列が前記ルールに適合すると
きは、その文字列について所定のパターンに変換して出
力し、前記ルールに適合しないときは元の文字列を出力
する文字列変換部、前記適合ルール検索部と前記文字列
変換部とからなるマーク付け部、及び前記マーク付け部
から出力されたマーク付き文書を格納するマーク付き文
書出力部を具備する文書自動マーク付け装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14641794A JP4111552B2 (ja) | 1994-06-28 | 1994-06-28 | 文書自動マーク付け装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14641794A JP4111552B2 (ja) | 1994-06-28 | 1994-06-28 | 文書自動マーク付け装置及び方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005279850A Division JP2006048720A (ja) | 2005-09-27 | 2005-09-27 | 文書自動マーク付け装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0816594A true JPH0816594A (ja) | 1996-01-19 |
JP4111552B2 JP4111552B2 (ja) | 2008-07-02 |
Family
ID=15407223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14641794A Expired - Fee Related JP4111552B2 (ja) | 1994-06-28 | 1994-06-28 | 文書自動マーク付け装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4111552B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219579A (ja) * | 2006-02-14 | 2007-08-30 | Profield Co Ltd | ドキュメント変換装置、およびプログラム |
-
1994
- 1994-06-28 JP JP14641794A patent/JP4111552B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219579A (ja) * | 2006-02-14 | 2007-08-30 | Profield Co Ltd | ドキュメント変換装置、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4111552B2 (ja) | 2008-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4924976B2 (ja) | ソフトウェア開発支援システム | |
WO2015162737A1 (ja) | 音訳作業支援装置、音訳作業支援方法及びプログラム | |
JP3477812B2 (ja) | 文書処理装置および方法 | |
JPH0816594A (ja) | 文書自動マーク付け装置 | |
JP6392445B2 (ja) | 音訳支援装置、音訳支援方法及び音訳支援プログラム | |
JP2000090083A (ja) | 文書処理装置および明細書処理装置 | |
JPH0361596B2 (ja) | ||
JP2006048720A (ja) | 文書自動マーク付け装置及び方法 | |
US20040164989A1 (en) | Method and apparatus for disclosing information, and medium for recording information disclosure program | |
JPH09330107A (ja) | プログラマブルコントローラ用ラダー図作成cadシステムにおけるコメント付与方法 | |
JPH05135054A (ja) | 文書処理方法 | |
JP2982180B2 (ja) | 文章作成装置 | |
JPS6370372A (ja) | 文書処理装置 | |
JPH03102565A (ja) | 文書作成装置 | |
JPH07290792A (ja) | 帳票作成処理方法 | |
JPH0554145B2 (ja) | ||
KR900002175A (ko) | 변동화일 갱신장치 및 방법 | |
JPS6019236A (ja) | 記録装置 | |
JPH0581262A (ja) | かな漢字変換装置 | |
JPH0540638A (ja) | 語彙解析編集方式 | |
JPH07249034A (ja) | 文字列抽出処理装置 | |
JPH08194706A (ja) | 構造化文章作成装置 | |
JPH05174024A (ja) | 文書編集装置 | |
JP2000181909A (ja) | 辞書学習方法及び文書作成装置 | |
JPS61264433A (ja) | 電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040622 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040819 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080111 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080408 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110418 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110418 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |