JPH077411B2 - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH077411B2
JPH077411B2 JP61088064A JP8806486A JPH077411B2 JP H077411 B2 JPH077411 B2 JP H077411B2 JP 61088064 A JP61088064 A JP 61088064A JP 8806486 A JP8806486 A JP 8806486A JP H077411 B2 JPH077411 B2 JP H077411B2
Authority
JP
Japan
Prior art keywords
heading
headline
delimiter
document
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61088064A
Other languages
English (en)
Other versions
JPS62245366A (ja
Inventor
利夫 岡本
勇 岩井
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP61088064A priority Critical patent/JPH077411B2/ja
Publication of JPS62245366A publication Critical patent/JPS62245366A/ja
Publication of JPH077411B2 publication Critical patent/JPH077411B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は文書データの章・箇条書き等の論理構造を生成
する文書処理装置に関する。
(従来の技術) 文書は理解しやすく、又、読みやすくするために、形態
上の構造を持っている。
たとえば、1つの文書は複数の章という大きなかたまり
から成っており、1つの章はさらに複数の節に分かれて
いるという構成になっている。1つの章なり節のかたま
りはかたまりの先頭に見だしと呼ばれる、短い文をつけ
る。
さらにそのかたまり間の関係を示す、数字等の記号(前
見出し記号)がついているのが一般的である。たとえ
ば、『第1章』、『第3節』というのがここでいう前見
出し記号である。
このような文書構造を持った文を表示する際には、この
構造を反映して、レイアウト処理を行い見やすく表示す
ることが望まれる。たとえば見だしのところに下線を引
いたり、倍角表示をすることを行い、見だしと本体の間
には一行空行を入れる等の処置を行うと見やすくなる。
従来のワードプロセサ等の文書処理装置ではこれらのレ
イアウト処理を利用者が行う必要があった。つまり下線
を引く操作を見だしの所で行いまた見出しと本体との間
に空行挿入の操作を行う等の必要が有った。
従来のワードプロセサはかな漢字変換技術の向上にとも
ない入力操作は非常に向上し、利用者の負担軽減が著し
い。ところがレイアウト操作の軽減化はほとんど進歩し
ておらず、文書処理の全体の負担に対するレイアウトの
負担の割合は非常に大きくなっており、レイアウト操作
の軽減が必要である。
さらにある機械で作成した文書を別の機械に移す場合、
コードは互換性がある場合が多いが、レイアウト情報
は、ほとんど互換性がない。従って従来は文字コードだ
けを移し、その後、再度レイアウト処理を行うか、レイ
アウトコードの変換機能を作成し、それを用いて処理す
る。ところが、変換機能は特定の機種どうしの変換しか
行えず、また、すべてのレイアウト情報が完全に変換さ
れるわけではないので、利用に制限があり、不満であっ
た。
(発明が解決しようとする問題点) このように従来の文書処理装置では、文書構造に利用し
ていないためレイアウト処理がユーザにとって負担の大
きいものとなっていた。
そこで本発明は文書の階層構造を自動的に生成するもの
であり、特に見出し抽出に対する効率を高めることを目
的とする。
[発明の構成] (問題点を解決するための手段) 本発明に係る文書処理装置は、文書データを入力する入
力手段と、見出しと見出し以外の文との区切りとなる可
能性のある区切り記号を予め記憶した見出し区切り語辞
書を用いて、前記入力手段より入力された文書データに
対し見出しの範囲を決定する見出し範囲決定手段と、こ
の見出し範囲決定手段の結果に基づき前記文書データに
所定の処理を行って出力する手段とを具備したことを特
徴とするものである。
(作 用) 本発明は、コード情報で書かれた文書データに対し、見
出し区切り辞書のデータから見出し区切り候補を求め、
更に見出し区切り規則辞書を用いて見出しの範囲を求め
ることを可能としたものである。
具体的に例をあげると、改行コードがあるとこれは見出
し区切りと判定して次の文字が見出し範囲の始めとな
る。
また の文字があるとこの文字から見出し範囲の始めとなる。
また改行コード、『:』『〜』の文字があるとこの文字
の1つ前までで見出し範囲が終りとなる。このようにし
て見出し範囲の開始位置、終了位置の候補が求まるの
で、これらに対して見出し区切り規則を適用して、見出
し範囲を決定する。
このようにすることにより、従来なら例えば改行コード
が入っていなければ見出しと見出し以外の文とを識別す
るようなことは全くできなかったのが、見出し区切り語
辞書を利用してこれらを識別し見出し範囲を決定するこ
とができるようになる。さらには、このように決定され
た見出し範囲の最後に改行コードを挿入する等の処理を
行ったり、この見出し範囲に基づいてさらに章・節・箇
条書き・段落等の文書構造を判定しこの文書構造に対応
するレイアウト処理を行ったりして、このような処理を
施された文書データを出力することが可能になる。
(実施例) 以下図面を参照して本発明の一実施例を説明する。第1
図は本発明の一実施例の構成概略図である。原文は入力
部1あるいはすでに入力されている場合は原文記憶部2
から呼び出されて、文書管理部5に送られる。文書管理
部5は、文書データを見出し区切り候補抽出部7へ送
る。見出し区切り候補抽出部では見出し区切り語辞書8
(区切りとなるべき記号・数字や改行コード等が記憶さ
れている)を検索して、文書データ中から見出しと見出
し以外の文に分離する可能性の高い文字を検索して、そ
れぞれ見出し範囲始り位置、見出し範囲終り位置とし
て、見出し区切り候補とする。
見出し範囲判定部9は、見出し区切り辞書10にもとづい
て文書管理部5から送られた見出し区切り候補を判定し
て、見出し範囲を定める。
見出し判定部11は、見出し範囲判定部9により求めた範
囲に対して第2図に示す見出し語辞書13により、見出し
語の候補を抽出し、見出し語候補に対して、例えば、第
3図のような見出し規則辞書12の内容に基づいて、見出
しであるかいなかの判定を行う。
文書構造判定部14は見出し判定部11により、見出しある
いは見出しでないと判定されたものに対し、例えば第4
図のような文書構造規則辞書15の内容に基づいて、章見
出し、節見出し、段落などの論理構造を判定する。この
結果は、文書管理部5により、論理構造記憶部6に書き
込まれ、表示制御部3により、表示部4に表示される。
以下、第7図の文書及び第8図の処理フローチャートを
例にとって本発明の特徴である見出し範囲を求める動作
を詳しく説明する。ここで□が1つの文字コード情報を
表わしており、□の上の数字は、入力された文字コード
の順番を表わしている。この様な文字コード情報から成
る文書データが入力部1より入力される(第8図81)。
すると、見出し区切り候補抽出部7は、文書データに対
して見出し区切り語辞書8の内容を参照して区切りとな
るべき記号・文字・改行コード等を検索する。
つまり文書データ中の区切り開始候補、区切り終了候補
を抽出する。(第8図83,84)抽出した結果はその文字
の位置、優先度として文書管理部5内にある所定の記憶
部に貯えられる。(第8図85)この動作は文書データが
無くなるまで続けられる。(第8図82) 第7図では、抽出した結果の様子を、各文字の下に 区切り開始位置候補を 区切り終了位置候補を 示し、その下の△の中に数字で各候補の優先度を表示し
ている。
次に文書管理部5は見出し範囲判定部9にさきほど貯え
た結果を送る。(第8図86) 見出し範囲判定部9では、第6図に示す、見出し区切り
規則に従って見出し範囲を決定する。(第8図87) 第7図(a)の文書では、カラム0が区切り開始候補、
カラム5が区切り終了候補であるので見出し区切り規則
のに従ってカラム0からカラム5までが見出し範囲に
なる。第7図(a)では矢印でその範囲と示してある。
第7図(b)文書ではすでにカラム24が区切り終了位置
になっている場合である。規則によりカラム25が区切
り開始位置になり規則によりカラム26が区切り終了位
置になる。従って、カラム25からカラム26が見出し範囲
となる。第7図(b)では矢印Aがそれを示している。
しかし、規則によりカラム29の区切り終了候補の優先
度の方が高いので、上での範囲Aは修正され、カラム25
からカラム29までが見出し範囲となる。第7図(b)で
は矢印Bがそれを示している。
このようにして、見出し範囲判定部9は入力された文書
の区切り候補に対し、見出し区切り規則辞書10にしたが
って次々と見出し範囲を定め、その結果を文書管理部5
へ出力する(第8図88)。この動作は見出し区切り候補
の全ての位置と優先度に対して規則を適用して行われる
が、それが終了すると(第8図89)、上述した様に見出
し判定部11では見出しであるか否かの決定がその見出し
内容を基に行われ、続いて文書構造判定位部14では見出
し及び見出しでないとされた文に対して、章・節・箇条
書き等の階層構造が決定される。
尚、上記した実施例においては、見出し範囲を決定して
から、見出し判定部11に結果を送っているが、ここで完
全に範囲を決定せず、区切り候補の優先度を利用して見
出し範囲優先度を計算し、その結果を利用して見出し判
定部11で見出しを判定してもよい。また、優先度を持っ
た複数の見出し範囲を見出し判定部11に送ってそこで見
出しを判定してもよい。
また、見出し区切り辞書10には、文字と優先度を表わす
数字しか入っていないが、その他の属性たとえば数字で
あるとか、アルファベットであるとかの細かい情報を入
れておいて、見出し範囲判定部9では、それらの属性を
利用してもう少し詳しく判定して見出し範囲を決定して
もよい。
更に、本発明は見出し範囲の抽出に限ったことではな
く、たとえば、文書中の数式等の形態上他と異なる部分
を抽出する場合でも区切り辞書と区切り規則の内容を変
えることで応用可能である。
本実施例は日本語の文書を扱っているが日本語に限ら
ず、他国語の文書での見だしがついているものであれば
辞書、判定規則を、その国語用に書き直せばそれで同様
に実施できる。
[発明の効果] 本発明によれば、文書のコード情報から見だしを利用し
て文書構造を抽出する場合、見だしの抽出精度が大巾に
向上することで文書構造の抽出精度も向上する。従って
利用者が後で修正する負担が大巾に減少し、操作性がか
なり向上する。
さらに見出し区切り辞書と規則を文書構造抽出部と切り
はなすことで、見出し抽出のためだけの辞書と規則が簡
単にかつ適格になるので、開発に要するリソースがかな
り減少する。また英文や他外国語の文書のように、使用
する文字や使用方法が異なる場合でも、辞書をそれにあ
ったものに切りかえるだけでよく、文書構造抽出の汎用
性が高まる。
【図面の簡単な説明】
第1図は本発明の一実施例の全体構成図、第2図は見出
し語辞書の構成例を示す図、第3図は見出し規則辞書の
構成例を示す図、第4図は文書構造規則辞書の構成例を
示す図、第5図は見出し区切り語辞書の構成例を示す
図、第6図は見出し区切り規則辞書の構成例を示す図、
第7図は文書データに対する見出し区切り規則の適用例
を示す図、第8図は本発明の一実施例の処理フロー図で
ある。 1……入力部、2……原文記憶部、3……表示制御部、 4……表示部、5……文書管理部、 6……論理構造記憶部、 7……見出し区切り候補抽出部、 8……見出し区切り語辞書、 9……見出し範囲判定部、 10……見出し区切り規則辞書、 11……見出し判定部、12……見出し規則辞書、 13……見出し語辞書、14……文書構造判定部、 15……文書構造規則辞書

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文書データを入力する入力手段と、 見出しと見出し以外の文との区切りとなる可能性のある
    複数の区切り記号と、各区切り記号に対応した優先度と
    を予め記憶した記憶手段と、 この記憶手段に記憶された区切り記号に基づいて前記入
    力手段より入力された文書データから見出し区切り候補
    を複数抽出する抽出手段と、 この抽出手段により抽出された見出し区切り候補に対応
    する優先度を参照し、予め記憶された規則を適用して、
    前記文書データに対し見出しの範囲を決定する決定手段
    と、 この決定手段の決定結果に基づき前記文書データに所定
    の処理を行って出力する手段とを具備したことを特徴と
    する文書処理装置。
JP61088064A 1986-04-18 1986-04-18 文書処理装置 Expired - Lifetime JPH077411B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61088064A JPH077411B2 (ja) 1986-04-18 1986-04-18 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61088064A JPH077411B2 (ja) 1986-04-18 1986-04-18 文書処理装置

Publications (2)

Publication Number Publication Date
JPS62245366A JPS62245366A (ja) 1987-10-26
JPH077411B2 true JPH077411B2 (ja) 1995-01-30

Family

ID=13932421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61088064A Expired - Lifetime JPH077411B2 (ja) 1986-04-18 1986-04-18 文書処理装置

Country Status (1)

Country Link
JP (1) JPH077411B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2841813B2 (ja) * 1990-09-28 1998-12-24 富士通株式会社 文書修正システム
JPH07253980A (ja) * 1994-10-24 1995-10-03 Casio Comput Co Ltd 文書作成装置
JP5147883B2 (ja) * 2005-07-11 2013-02-20 有限会社アイ・アール・ディー 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
JP4579281B2 (ja) * 2005-07-11 2010-11-10 有限会社アイ・アール・ディー 出願文書情報作成装置、出願文書情報作成方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766384B2 (ja) * 1983-07-11 1995-07-19 株式会社東芝 文書作成装置
JPS6024622A (ja) * 1983-07-21 1985-02-07 Toshiba Corp 文書作成装置

Also Published As

Publication number Publication date
JPS62245366A (ja) 1987-10-26

Similar Documents

Publication Publication Date Title
EP0201096B1 (en) Processing method and processor for machine translation
EP0370774A2 (en) Machine translation system
JPH0793335A (ja) テキストの言語機能を提供する方法
JPH0776969B2 (ja) 文書処理装置
JPH06139229A (ja) ペン型スタイラスおよびコンピュータを使用するかな文字−漢字変換方法
JPH077411B2 (ja) 文書処理装置
JPS59165179A (ja) 辞書引方式
JPS5971536A (ja) 日本語文作成装置
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JPS6389970A (ja) かな漢字変換装置
JPH077409B2 (ja) 文書処理装置
JP2621999B2 (ja) 文書処理装置
JPH0724054B2 (ja) デ−タ処理装置
JP3847801B2 (ja) 文字処理装置及びその処理方法
JPS62143178A (ja) 自然言語翻訳方式
JP2744430B2 (ja) 自然言語処理装置
JPH01287774A (ja) 和文データ入力処理装置
JPH07182344A (ja) 機械翻訳装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JP2005010916A (ja) 文書処理装置、文字入力支援方法、及びプログラム
JP2575947B2 (ja) 文節切出し装置
JPS61256467A (ja) 仮名漢字変換装置
JPS59172031A (ja) 日本語処理システムにおける洋数字/漢数字変換方式
JPH0785026A (ja) 辞書更生方法及び装置