JPH077409B2 - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH077409B2
JPH077409B2 JP60030290A JP3029085A JPH077409B2 JP H077409 B2 JPH077409 B2 JP H077409B2 JP 60030290 A JP60030290 A JP 60030290A JP 3029085 A JP3029085 A JP 3029085A JP H077409 B2 JPH077409 B2 JP H077409B2
Authority
JP
Japan
Prior art keywords
finding
document
cell
data
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60030290A
Other languages
English (en)
Other versions
JPS61190653A (ja
Inventor
利夫 岡本
勇 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60030290A priority Critical patent/JPH077409B2/ja
Publication of JPS61190653A publication Critical patent/JPS61190653A/ja
Publication of JPH077409B2 publication Critical patent/JPH077409B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は文書処理装置において、文書データの形態上の
論理構造を生成,保持する文書処理装置に関する。
〔発明の技術的背景とその問題点〕
文書は読みやすくするため、全体を複数の範囲に分割
し、その各々の1つのまとまりに見だしと呼ばれる、短
い分をそのまとまりの最初の部分につけ、またいま、分
割したまとまりをさらに分割し、その各々に見だしをつ
けるといった構造を持っているのが一般的である。そし
て見だしには、その見だしの示す範囲と、他の見だしと
の関係を示すために見だしの冒頭部に見だし記号という
ものがついているのが一般的である。
たとえば『第1章』『第3節』というのがここでいって
いる見だし記号の例である。このような文書構造を持っ
た文書を計算機によって処理しようとした場合、このよ
うな文書構造をまったく考慮しておらず、もっぱら、装
置上の制約から、文書構造に関係ない別の単位、たとえ
ば、表示画面に一度に表示できる大きさの単位あるい
は、紙に印刷した時に一頁に入る大きさの単位等で取り
扱っており、そのため文書構造を持った文書を編集する
場合、上記の制約のため利用者にとってつかいにくいも
のになっていた。
たとえば、章の入れかえを行う場合、従来の装置では、
章の初めと終りをカーソル等で移動範囲を示す必要があ
り、かつ、その章が大きい場合、その章の初めを指定
し、終りを指定するまで、表示画面を何回も更新しなけ
ればならないので、指定位置をまちがえることが多い。
しかし、文書構造を持った装置では求める章を簡単に指
定できるので、上記のような繁雑な指定操作は不要にな
り操作性はかなり向上すると思われる。
また、他人が作成した文書や、自分が作成した文書で
も、以前に作ったもので、どのような内容のものか忘れ
たものでも、従来の装置では、文書ファイルのファイル
名程度の内容しかわからず、そこから、文書内容を類推
するのは困難な場合が多いが、文書の見だしだけでも一
度に見られると、その文書の内容が類推しやすい。
つまり従来の装置では、文書の構造を利用したより高度
の文書処理の実現が困難であるという欠点があった。
〔発明の目的〕
本発明は、上記実情に鑑みなされたもので、文書の形態
上の論理構造を抽出し、階層構造を構築することを目的
とする。
〔発明の概要〕
本発明は、コード情報で書かれた文書データから見だし
の候補を取り出し、その見だしの記号部分から、見だし
相互間の関係を決め、見だしの階層構造を決めることを
可能としたものである。
具体例をあげると、改行コードで区切った文字列で文頭
から、一行分に相当する長さ以下の文字列を取りだし、
その冒頭部分に『第一章』,『(3)』『0』等の見だ
し記号の入っている文字列を見だしとする。
見だし記号の数字,英文字が入っている時は、その字
体,順序性,形式によって、また、記号だけの場合は、
前後の関係によって、今処理している見だしの階層構造
上の順位を決め、見だし間の論理構造をもつデータ構造
をつくりだすことによって実施される。
〔発明の効果〕
本発明によれば、処理する文書が、見だしを利用して、
形態上、階層構造を持っていた場合、見だしから階層構
造を決定し、保持するので、そのデータ構造を利用し
て、章単位,節単位の編集操作が容易になり、操作性が
向上するほか、階層構造を利用したより高度な機能;た
とえば、目次のリスト作成とか、章,節ごとに規則的に
字下げして印刷して文書を見やすくする機能とか、見だ
し記号の誤り指摘,見だし記号のつけ直し等が容易に実
現できる。さらに、本装置に入力する文書データは階層
構造のデータを持つ必要がないので、従来の文書処理装
置で作成した文書データでも本装置で処理でき、かつ、
本装置で新規に文書を作成する操作でも、階層構造を意
識することなく従来と同じ操作でよく、操作者にさらに
負担をかけることがない等の効果を奏する。
〔発明の実施例〕
以下図面を参照して本発明の一実施例を説明する第1図
は本発明の一実施例の全体のブロック図を示す。ここ
で、入力装置1,出力装置2,表示装置3,外部記憶装置4,内
部記憶装置5は従来から広く一般に文書処理で使用され
ているもので特定はしない。
制御装置6を詳記したのが第2図のブロック図である。
第1図において、文書ファイルが入っている外部記憶装
置4から、入力装置1により指定された名前のファイル
を内部記憶装置5内の文書データ記憶部に送られる。
文書データ記憶部7に入った文書は見だし候補発見部8
の処理によって、見だしの候補及びその見だしの開始位
置が求められ、それぞれの記憶部9,10に入る。入ったデ
ータは次の見出し決定部11に送られ、そこでこのデータ
が見だしかどうか,また見だしであれば、どのような種
類の見出しかとその判定規則が書かれている判定規則記
憶部12のデータをもとに処理される。処理されたデータ
は見だしデータセルと呼ばれる、その見だしに関し、種
々の情報を書きこんで一かたまりとしたものが作成さ
れ、見だしデータセル記憶部13に貯えられる。この見だ
し候補発見部8と見だし判定部11の処理を、今処理して
いる文書がすべておわるまで続ける。
そして見だしデータセルがすべて作られたところで処理
は文書構造決定部14に移り、ここで階層構造決定規則記
憶部15を用いて見だしデータセルを階層構造につなぎあ
わせ、すべての処理をおえる。
次に各部の動作を詳しく説明する。
見だし候補発見部8のブロック図を第3図に示す。
読出位置制御部16の指示により、文書データ記憶部7か
ら順番に1文字づつ比較部17に送り、同時にアドレス記
憶部18にその文字の文書中の位置を貯えておく。一方、
比較部17に送られたデータをレジスタ1に入っている改
行コードと比較する。又、データはラインバッファ19に
も同時に送られ、ここに貯えられ、文字数をカウンタ21
で計測しておく。データ中に改行コードが現われた時の
カウンタ21の値と、あらかじめ定めておいた1行文の長
さ(たとえば40文字)としてレジスタ2に入れておいた
値とを比較部22で比較し、カウンタがその値と一致した
時判定部20に入り、改行コードの一致が同時又は先行し
た場合、このデータは見だし候補と決定され、ラインバ
ッファ部のデータを見だし候補データ記憶部10に入れ、
アドレス記憶部の値から、カウンタの値を演算部23で減
算処理し、この値からラインバッファ部の先頭アドレス
が求まるので、これを見だし候補データ開始位置記憶部
9へ入れ、ラインバッファ,カウンタを初期状態に戻
し、再びこの見だし発見部の処理をくり返す。
逆に、カウンタの値と一行文の長さの値の一致の方が先
行した場合、ラインバッファ部に入っているデータは見
だしになり得ないと判断し、ラインバッファ,カウンタ
を初期状態に戻し、再びこの見だし発見部の処理をくり
返す。
処理中に文書データが終了したら、処理を見だし判定部
11に引き継ぐ。
次に見だし決定部のブロック図を第4図に示す。判定規
則記憶部24には第5図に示すような正規表現であらわさ
れる見だし決定の規則が入っている。これを判定規則適
用制御部25で適用して成功した場合見だしと決定し、成
功しなかった場合、見だしでないと決定する。
第5図で丸印でかこまれた記号は、非終端記号と呼ぶも
のであり、四角でかこまれた記号は終端記号で文字コー
ドデータそのものである。各規則は、左側に丸でも四角
でも囲まれていない記号が右側の非終端記号,終端記号
に置き換えることを示している。各記号は矢印の方向に
順番に適用し、上下に矢印が並んでいる場合は上の規則
から適用し、上のルールが成功しなかった場合、下のル
ールを適用することを示している。そしてこれらの規則
を適用してすべての非終端記号が終端記号に置き換った
時、この適用した規則は成功したことになり、途中で置
き換えがうまくいかなくなった場合、その適用は成功し
ないことになる。
たとえば、第6図の文書を入力して5行目の が見だし決定部に入力したとすると、第7図のように規
則を適用すると成功し、見だしと決定される。それ以外
の適用の仕方をすると成功しない。
このように適用の仕方も何通りもあるので、どれか1通
りの適用の仕方が成功すれば見だしとされ、すべての適
用の仕方が成功しなければ見だしでないとする。
見だしと決定されると次に見だしデータセル作成部26へ
処理が行く。ここでは第8図に示すような見だしデータ
セルを1つの見だしに対して1つ作成する。そして見だ
し決定規則に従って成功した適用の仕方の結果をセルに
書いておく。また数字部,英字部を適用した見だしは、
数字部の場合はその数値を、英字部の場合は、アルファ
ベット順で何番目かという数値をオーダーと名付けそこ
に入れておく。たとえば見だし記号が『第二章』の場
合、オーダーは2.『C。』の場合は3となる。この作成
部で見だしデータセルのうち第8図のAの部分が定まっ
たことになる。このようなデータセルを見だしデータセ
ル記憶部27に貯える。
たとえば、第7図で例に示した見だしの場合、前置部は
なし、数字部は数字A(第5図(e))でオーダーは1,
後置部は『.』ということがわかり、見だし候補データ
開始位置記憶部9にこの見だしの開始位置が入っている
のでこれもデータセルに移す。以上の操作で第9図のよ
うにデータセルが出来あがる。見だしでないと決定され
た場合、データセルをつくらずこの見だし候補データと
開始位置のデータをすてる。
以上の処理を入力データがなくなるまでくり返す、入力
データがなくなったら処理を文書構造決定部14に進め
る。
最後に文書構造決定部14の詳しい説明をする。ここでは
前段で作成された見だしデータセルを階層構造につなげ
るところである。
処理手順を第10図第11図第12図にしめす。
例をあげて説明する。第6図の文書の場合、第13図に示
すように5つのセルが出来る。
まず1番目のセル『1.はじめに』を入力する。そして第
10図のフローに従い、あらかじめ設けてあるルートのセ
ルの子供として1番目のセルをつなげる。つまり1番目
のセルの親セルの先頭アドレスを書く所にルートのアド
レスを入れ、次の兄弟セルの先頭アドレス,1番目の子セ
ルの先頭アドレス,エラーフラグの所は今、該当しない
のでどこも差し示していないという意味の特別な値を入
れておく。そして階数の所は1.つまり1番上位の見だし
とする。
次に、2番目のセル『2.本発明の特徴』を入力する。現
在のセル(1番目のセル)は 前置部 なし 英数字で 数字Aの場合 後置部 『.』 オーダー 1 次のセル(2番目のセル)はオーダーが2以外は同じで
ある。よって第12図の規則でのケースになるので、2
番目のセルを1番目のセルと兄弟とする。つまり、1番
目のセル中の次の兄弟セルの先頭アドレスをかく所に2
番目のセルの先頭アドレスをかき込み、2番目のセルの
親セルの先頭アドレスには1番目のセルの親セルの先頭
アドレスの所に入っているのと同じアドレス(つまりル
ートセルのアドレス)を書き込み、階数は現存セルの階
数と同じ1をかきこみその他は該当なしの値を入れてお
く。
次に3番目のセル『(1)従来の技術』を入力する。こ
れは現在のセルである2番目のセルと比べると、前置
部,数字の種類,後置部とも異なっており、現在のオー
ダーは1である。よって第12図ののケースになりこの
3番目のセルを2番目のセルの子供にし、階数を1つ増
して2とすることになる。そしてさきほどと同様にポイ
ンタ操作をしてつなげる。4番目のセル『(2)特徴の
説明』を入力し同様の処理をすると3番目の兄弟とな
る。
5番目のセル『3.終りに』を入力すると、第12図のの
ケースになり階数を1つ減して1とし4番目のセルの親
つまり2番目のセル『2.本発明の特徴』との比較にな
り、処理結果、これの兄弟になるから、2番目のセルの
兄弟としてこの5番目のセルをつなげる。
以上全部のセルを処理すると第13図のような階層構造が
完成し、処理を終える。
この処理では見だし記号がまちがえていた場合、ある程
度推測して階層構造をつなごうとしている。
たとえば『第一章』の次に『第二章』とせず『第三章』
とした場合、つまりオーダーが飛んでいる場合、また
『第一章』の次に『第一章』というようにオーダーが同
じ場合、これは本来、オーダーが続いているものと仮定
し、セルにエラーフラグをたてて同じ階層,兄弟セルと
してリンクする。そして本来の正しいオーダーをセルの
所定の所に書き込み、この値を使って以後の処理を続け
る。また、『(1)』の次に『〔2〕』となった場合、
つまり形が違うがオーダーが続いている場合で親にその
形が出てきていない時は、形をあやまってつかったもの
と仮定して両者は兄弟としエラーフラグをたてて最初の
形をセルにつけ加えておく。
以上のエラー処理でも階層不明のセルがあるときは、現
在の兄弟としてあつかいエラーフラグをたて兄のセルの
形、オーダーをひきつぐものとする。
尚、上記した実施例においては、見だし候補を全部求め
てから、見だしかどうか判定し、判定が全部終った後で
階層構造を決定しているが、見だし候補が1つ見つかり
仕第、階層構造決定までのすべての処理を行い、処理が
終ったら、再び、見だし候補を見つけるというようにく
り返し処理で実施してもよい。
また見だし候補決定部において、1つの文の長さが一行
分を起えるものは見だし候補として採用していないがす
べての改行コード等、文を区切るコードで区切られた文
をすべて見だし候補として仮定し、次の処理部である、
見だし判定部で見だしを決定してもよい。
また求めた見だしの階層構造をデータ構造として保持す
るやり方は、上記の実施例では、自分の親と弟と第1子
の見だしのセルの先頭アドレスを持つことで実現してい
るが、他の方法でデータ構造を実現してもかまわない。
更に各見だしのセルの内容もこの実施例にこだわらず、
たとえば見だし以下につづく本文をこのセルに結びつけ
る等など考えられるが、それでもかまわない。
見だしの階層化に限ったことではなく、たとえば組織図
のように形態上、階層構造をもつデータの場合でも、見
だし決定規則や文書構造決定規則などのルールのデータ
を変えることで応用可能である。
本実施例は日本語の文書を扱っているが日本語に限ら
ず、他国語の文書でも見だしがついているものであれ
ば、判定規則,階層構造決定規則を、その国語用に書き
直せばそれで同様に実施できる。
【図面の簡単な説明】
第1図は本装置の全体の構成図, 第2図は制御部の詳しい構成図, 第3図は制御部のなかの見だし候補発見部の構成図, 第4図は制御部のなかの見だし決定部の構成図, 第5図は見だし決定部の判定規則記憶部中に貯えられて
いる判定規則を正規表現した図, 第6図は本装置に入力する文書構造をもった文書の例を
示す図, 第7図は第6図の文書例中の見だし候補の1つに第5図
の判定規則がどのように適用されるか、その例を示す
図, 第8図は見だしデータセルのデータ構造図, 第9図は第6図の文書例中の1つの見だしがデータセル
でどのように表現されるか、その例を示す図, 第10図、第11図、第12図は、制御部のなかの文書構造決
定部での処理操作を表わした図, 第13図は第6図の文書例の見だしのデータセルが文書構
造決定部を通ってどのようにつながったかその例を示す
図である。 1……入力装置,2……出力装置,3……表示装置,4……外
部記憶装置,5……内部記憶装置,6……制御装置。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】コード情報で書かれた文書データを入力す
    る入力手段と、 この入力手段より入力された文書データの中から記号を
    含む見出しを複数抽出する抽出手段と、 この抽出手段により抽出された複数の見出しに含まれる
    記号同士を比較して順次前記見出し同士の包含関係、順
    序関係等の階層構造を決定する決定手段とを具備したこ
    とを特徴とする文書処理装置。
  2. 【請求項2】前記決定手段は、前記見出しに含まれる記
    号の形が同じである場合にはこの記号中の順序を示す部
    分に誤りがあっても同じ階層であると決定することを特
    徴とする特許請求の範囲第1項記載の文書処理装置。
  3. 【請求項3】前記決定手段は、前記見出しに含まれる記
    号中の順序を示す部分が連続しておりこの記号の形が未
    だ出現していない場合にはこの記号の形に誤りがあって
    も同じ階層であると決定することを特徴とする特許請求
    の範囲第1項記載の文書処理装置。
JP60030290A 1985-02-20 1985-02-20 文書処理装置 Expired - Lifetime JPH077409B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60030290A JPH077409B2 (ja) 1985-02-20 1985-02-20 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60030290A JPH077409B2 (ja) 1985-02-20 1985-02-20 文書処理装置

Publications (2)

Publication Number Publication Date
JPS61190653A JPS61190653A (ja) 1986-08-25
JPH077409B2 true JPH077409B2 (ja) 1995-01-30

Family

ID=12299592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60030290A Expired - Lifetime JPH077409B2 (ja) 1985-02-20 1985-02-20 文書処理装置

Country Status (1)

Country Link
JP (1) JPH077409B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6366663A (ja) * 1986-09-09 1988-03-25 Toshiba Corp 文書構造管理方式
JPH01136270A (ja) * 1987-11-24 1989-05-29 Mitsubishi Electric Corp ワードプロセッサ装置
JPH0362169A (ja) * 1989-07-31 1991-03-18 Agency Of Ind Science & Technol 文書検索方法及び文書検索装置
JPH03129461A (ja) * 1989-10-14 1991-06-03 Hitachi Ltd 文書編集処理装置
AU1735701A (en) 2000-12-08 2002-06-18 Fujitsu Ltd Sequence analysis method and sequence analysis apparatus

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766384B2 (ja) * 1983-07-11 1995-07-19 株式会社東芝 文書作成装置
JPS6024622A (ja) * 1983-07-21 1985-02-07 Toshiba Corp 文書作成装置

Also Published As

Publication number Publication date
JPS61190653A (ja) 1986-08-25

Similar Documents

Publication Publication Date Title
EP0241646B1 (en) Document processing apparatus
US7802184B1 (en) Method and apparatus for processing text and character data
US8726148B1 (en) Method and apparatus for processing text and character data
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
JPS61502495A (ja) 暗号解析装置
JPH0766384B2 (ja) 文書作成装置
JPH0211934B2 (ja)
JPH077409B2 (ja) 文書処理装置
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
JPH076168A (ja) Dbcsコード・ページを使ってsbcsフォント及びdbcsフォントを与える構造化された文書を編集する方法
JPS62249270A (ja) 文書処理装置
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP3103179B2 (ja) 文書作成装置及び文書作成方法
JPS62245366A (ja) 文書処理装置
JPH0668748B2 (ja) 文書整形方法
JPH02136956A (ja) レイアウト情報の抽出方法
JPH03233669A (ja) 文書作成装置
Bandyopadhyay Detection and correction of phonetic errors with a new orthographic dictionary
JPH0682366B2 (ja) 文字列訂正方式
JP2000020513A (ja) 日本語入力装置および方法
JPH0584934B2 (ja)
JPH0585055B2 (ja)
JP2005165652A (ja) 翻訳メモリシステム、翻訳方法、および翻訳メモリシステム用プログラム
JPH10177573A (ja) 文書処理方法および装置
JPH11232268A (ja) 文書処理装置、ルビ割り付け方法、及び記録媒体