JPH02297264A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH02297264A
JPH02297264A JP1069805A JP6980589A JPH02297264A JP H02297264 A JPH02297264 A JP H02297264A JP 1069805 A JP1069805 A JP 1069805A JP 6980589 A JP6980589 A JP 6980589A JP H02297264 A JPH02297264 A JP H02297264A
Authority
JP
Japan
Prior art keywords
document
character
chart
layout information
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1069805A
Other languages
English (en)
Inventor
Miyoshi Fukui
美佳 福井
Isamu Iwai
岩井 勇
Miwako Doi
美和子 土井
Yoichi Takebayashi
洋一 竹林
Koji Yamaguchi
浩司 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1069805A priority Critical patent/JPH02297264A/ja
Publication of JPH02297264A publication Critical patent/JPH02297264A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本弁明は、例えばワードプロセッサ等で作成された文書
を任意のよ式に整形する文書処理装置に係わり、特に図
表を含んだ文書データの整形を行うのに好適な文書処理
g置に関する。
(従来の技#1) ワードプロセッサ等で作成された文l中には、文章デー
タの流れの中に図表のように文章とは形態の異なる2次
元的なまとまりを持ったものが含まれることが多い。見
出し、段落等からなる文章データの流れは、基本的には
1列に並ぶ線状のデータであり、整形時に1頁の行数、
桁数等が異なる様々な書式を用いることが可能である。
これに対し、図表等のように、作成時の2次元に展開さ
れた位置が重要な意味を持つものは、この位置関係を損
なうような占式に変更することはできない。
実際、従来のワードプロセッサ等で一度整形した支店を
書式を変えて再整形する場合、文書中に埋めこまれた図
表が思う通りに再配置されないことが多い。即ち、文書
データで構成されている図表が頁亘りを起こしたり、タ
ブ位置がずれて元通りの形態に印刷されない等の問題が
起こる。図形コードと文字コードとが関係付けられてい
ないシステムでは、編集によって文字と図形とがずれて
しまうこともある。こういったずれを修正する作業は人
手に頼る部分が多く、非常に繁雑で時間がかかる作業で
ある。
そこで、一部のシステムでは、このような問題点を解決
するため、図表を構成する文字データ、図形及びイメー
ジデータの2次元的なまとまりを1つの枠内に収容し、
その枠筒拡大、縮小及び移動等の編集を行えるようにし
たものが知られている。しかし、この場合には、一つ一
つの図表データに対して枠を設定し、この枠にf−夕を
持たせる指定を行わなくてはならない。
また、OCR(光学文字読取装@)を使用したシステム
の中には、本文、図形及びイメージの存在する範囲を夫
々識別し、これ等を文字コード、図形コード及びイメー
ジデータ等として別々に切り出して、別の文書中の任意
の位置に再現プるものも提案されている。しかし、文書
中に埋め込まれた表のように文章との区切りがはっきり
しないものは、OCRのようなイメージレベルの解析の
みでは図表部分を完全に識別することはできない。
また、コードで記録されている文章を処理するシステム
においては、イメージに変操せずにOCRと同様の処理
を行うものはない。
一方、文章と図表との参照関係により、図表の位置を割
り付ける図表データ割り付は装置(特開昭61−215
70号)が知られているが、この装置においては、図表
データは文章データと区別され、1図表ずつ区切られて
いるものを前提としている。但し、このシステムでは、
文章中に含まれるものでも、図表見出しと図表を割り付
けるための複数の空行に関しては、この部分が1つの図
表領域であることを識別する握能も持つが(特開昭63
−758705号)、それ以外の図表の内容に属する文
字データを文章から識別する機能は無い。
(発明が解決しようとする課題) このように、従来の文書処理装置では、整形した文章を
樗式変更によって再整形する際、本文中に埋め込まれた
文字データによって構成されている図表の形態が崩れた
り、文字データと図形やイメージデータの表示位置がず
れることがあり、これを修正するための作業がユーザの
大きな負担になるという問題があった。
本発明はかかる問題点に鑑みなされたものであって、文
章データ中に図表の混在する交円データの編集作業を極
めて容易に行うことができ、ユーザの負担を大幅に軽減
させることを可能とする文書処理装置を提供することを
目的とする。
[発明の構成1 (課題を解決するための手段) 本発明に係る文書処理装置は、文字コードを含む文よデ
ータを入力データとして入力する入力手段と、この入力
手段から入力された文字]−ドにより構成され所定の区
切りコードによって区切られた各文字列の表示画面上の
位置を示すレイアウト情報を抽出するレイアウト情報抽
出手段と、このレイアウト情報抽出部で抽出された各文
字列が見出し、項目、番号及び数式等の形態情報のうち
どの形態情報であるかを抽出する形態情報抽出手段と、
前記レイアウト情報抽出手段で抽出されたレイアウト情
報に基づいて互いに隣接する複数行に亘る文字列の表示
位置の規則性を判定すると共に、前記形態情報抽出手段
で抽出された形態情報に基づいて文書中に挿入された図
表及び式等の図表的なまとまりを構成する文字コード列
を抽出する図表範囲決定手段とを具備したことを特徴と
している。
なお、図表範囲決定手段は、例えば隣接する複数行にお
いて同じ表示位置にある文字列の形態情報の類似性とを
判定して図表範囲を決定する、又は隣接する複数行に亘
って同じ表示位置にある文字列が形態的に連続して文を
構成するかどうかを判定して図表範囲を決定する、更に
は、各文字列の位置と形態情報とから図表見出しと図表
内容とを識別し、近接する図表見出しと図表内容群とを
1つの図表を構成するまとまりと決定する等の処理を行
うものである。
また、本発明では、文字データから位置関係を指示する
用語を用いて図表を参照する図表参照箇所を抽出する図
表参照箇所抽出部を更に備えるようにし、前記図表範囲
決定手段が、前記図表参照箇所抽出部によって抽出され
た参照箇所が指示する位置関係に基づいて対応する図表
の範囲を決定するようにしてもよい。
(作用) 本発明においては、レイアウト情報抽出手段で抽出され
たレイアウト情報に基づいて、図表範囲決定手段が、互
いに隣接する複数行に回る文字列の表示位置の規則性を
判定し、更に、前記形態情報抽出手段で抽出された形態
情報に基づいて文書中に挿入された図表及び式等の図表
的なまとまりを構成する文字コード列を抽出する。この
ため、このように抽出された文字コード列を図表として
識別することが可能となる。
これにより、ユーザは図表が混在している文章データ中
の図表範囲を指定する作業からfall欣される。この
機能を文出編集装置に組み込むことにより、図表毎の編
集作業が容易になる。
なお、図表範囲は、1行に文字列が複数並び、かつ隣接
行に亘って同一位置に類似の形態属性が並んでいる等の
条件を判定することにより決定できる。この場合、隣接
する複数行に亘って同じ表示位置にある文字列が形態的
に連続している、又は、近接する図表見出しと図表内容
群とを抽出する等の処理を行うことにより、図表範囲の
決定粘度を高めることができる。
また、文書データ中の図表参照箇所を抽出し、この参照
箇所が指示する位置関係を図表範囲決定の一つの基準と
することにより、図表範囲を更に精度よく決定すること
ができる。
(実施例) 以下、添付の図面に基づいて本発明の実施例について説
明する。
第1図は本発明の一実施例に係る文書処l!I!装置の
概略構成を示すブロック図である。
この文よ処Jl装置は、文よ管理部10を中心として、
入力部20.文書データ記憶部30、レイアウト情報抽
出部40、文634M造記憶部50、形態情報抽出部6
0、図表範囲決定部70、図表参照箇所抽出部80及び
出力部90から構成されている。
入力部20は、文字コードを含む文書データ及び操作の
ための各種コマンドを入力するためのもので、例えばキ
ーボード及びイメージリーダ等がこれに該当する。
文書データ記憶部30は、入力部20によって入力され
た文17−タを記憶する。
処理を行う文書データは、入力部20又は文占データ記
憶部30から呼び出されて処理全体の管理を行う文書管
理部10に送られる。
レイアウト情報抽出部40は、文よ管理部10から送ら
れてくる文書データ、即ち文字コード列を、所定の区切
りコードによって区切られた1まとまりの文字列毎に切
り出し、これら切り出された文字列の表示上の位置やサ
イズ等を割り出して文肉II4造記憶部50の各文字列
の記憶領域によき込む。
形態情報抽出部60は、文書管理部10から送られてく
る各文字列の英数記号やキーワードをキーワード辞書6
1とのマツチングにより抽出し、その抽出結果を各文字
列の形態情報として文書構造記憶部50に困き込む。
図表範囲決定部70は、支出411造記憶部50に格納
された各文字列のレイアウト情報と形態情報とからまと
まり判定規則辞溜71を使用して各文字列間の関係付け
を行い、図表をなすまとまりを判定し、文よ構造記憶部
50に書き込む。
図表参照箇所抽出部80は、文書データ記憶部30に記
憶された文字列データから、図表の参照箇所を指示する
用語を抽出する。
出力部80は、整形されに文書データ又は文書構造記憶
部50に格納された各文字列のレイアウト情報、形態情
報及びまとまり情報等を出力するためものである。
次にこのように411成された本実施例に係る支間処理
装置の動作について説明する。
入力部20を介して文字コードからなる文書データが入
力されると、この文書データは文書管理部10によって
文書データ記憶部30に転送される。
続いて文書管理部10は、レイアウト情報抽出部40、
形態情報抽出部60及び図表範囲決定部70を適宜起動
して12図に示すようなフローに従って上記文書データ
記憶部30に格納された文書データを処理する。
まず、第2図(a)のレイアウト情報の抽出処理が行な
われる。例えば、入力された文書データが第3図に示す
ようなデータであるとすると、レイアウト情報抽出部4
0は、まず文よデータ記憶部30から文字コード列を1
文字ずつ読み出しながら、空白(タブ)、改行又は改頁
によって区切られた各文字列を切り出ず(ステップ1)
。そして、レイアウト情報抽出部40は、切り出された
各文字列毎に、例えば第4図(a)に示すように、開始
桁、中心桁及び終了桁と、その文字列が含まれる行番号
、文番号及び頁番号を求め、これらを文字列のレイアウ
ト情報として文書構造記憶部50に格納する(ステップ
2)。
第5図は、レイアウト情報抽出部40における処理の詳
細を示すフローチャートである。基本的には、頁番号p
、文番号pn及び行番号Inを順次更新しながら改行、
改頁及び空白等の区切りマークを検出し、これらが検出
されたら文字列番号を更新して文字列情報をよき出して
いくことにより、処理が進められていく。
次に、第2図(b)の形態情報抽出処理が行なわれる。
即ち、まず形態情報抽出部60は、レイアウト情報抽出
部40で切り出した各文字列を読み出す(ステップ3)
。続いて例えば第6図に示すようなキーワード辞店61
を参照しながら、各文字列の頭から一致するカテゴリを
捜していく(ステップ4)。例えば、第3図に示した文
書データ中の文字列「3.性能比較」では、「3」が第
6図の辞書のカテゴリ■、数字の1.一般の中の3番目
の項目「3」に一致するので、この文字種を(数字−一
般−3)と決定する。次の文字峙「、」は、カテゴリ■
1句読点の2.英文の1番目の項目と一致するため(句
読点−英文−■)と決足りる。しかし、その後の文字種
「性能評価」は、キーワード辞よ中に該当する項目が無
いため、(その他)とする。
次にこのような文字種の並びを、例えば第7図に示すよ
うな各形態属性を現す文字種パターンと照合する(ステ
ップ5)。例えば上述した例「3゜性能評価」は、第8
図に示すように、見出しのパターン1に一致する。この
ように、照合するパターンが属する形態属性を文字列の
形態情報として、例えば第4図(b)に示すように、文
書構造記憶部50に格納する(ステップ6)。
続いて第2図(C)の図表範囲決定処理が行なわれる。
図表範囲決定部70は、例えば第9図に示すようなまと
まり判別規則を順次読み出しくステップ7)、図表範囲
決定処理を行う(ステップ8)。そして、読み出す規則
が無くなるまで、この処理を繰り返す(ステップ9)。
第10図にこの図表範囲決定処理の詳細フローを示す。
まず、判別規則1に注目する(ステップ11)。
この規則では、1つの図表範囲をなす条件として、項目
という文字列を3つ以上持つ行が2行以上連続している
ことを求めている。そこで、項目が3つ以上ある行を探
索する(ステップ12)。第4図の支間構造を見ると、
54行目がその条件に当てはまる。図表範囲と文章との
区切りのために、空行を必要とするかどうかの区切り条
件(ステップ13)は無いので、ステップ13からステ
ップ14へ移る。次に文字列が存在する行は55行なの
で、その間の空行数は0となり、行間の空行数条件(ス
テップ14)を満たしている。このためステップ15へ
進む。しかし、55行目は、項目を1つしか含まないた
め、ステップ16へ進む。
しかし連続行数が1行のため、ステップ16の条件を満
たさず、ステップ12へ戻る。他に判別規則1を満たす
行がないとすると、ステップ17.II)〜らステップ
12へ戻る。
次に判別規則2を読み出すが、この規則を満たす図表範
囲は無いので、判別規則3を読み出すくステップ12.
17.11>。
判別規則3の行条件は、項目、数式又は番号という形態
情報の文字列を1行に3つ以上持つという条件であり、
54行目がこれに当てはまる(ステップ12)。この場
合も区切り条件は無く、行間の空き行数条件の0も満た
しているため、ステップ15へ移る。今度は、次の55
行目が条件に当てはまるので、ステップ18へ移り、行
形悪条件が表のため、ステップ19へ移る。ここで、5
4行目の文字列wno=64.65.66.67の開始
桁S [wnO] 、中心桁C[wnO]及び終了桁E
 [wnO]と、55行目の文字列Wn1=68.69
,70.71の開始桁S[wn1]、中心桁C[wn1
]、終了桁E[wn1]を用いて、これら文字列が、例
えば第11図のような位置関係を求める条件のうちどれ
に当てはまるかを判定する。このとき、例えば第12図
のように、前後の行で、左右の文字列が噛み合っている
と表形態にならない。従って、図表範囲の最初の行から
調べて噛み合いが無ければ表形態であるとする。
54行と55行とは噛み合いがないため表形態となり、
ステップ14へ戻る。同様に56行と57行も図表範囲
に含まれることがわかる。更に58行目の文字列がない
ため、58行が空行であることがわかるが、行間の空行
数条件のOを超えるので、ステップ16へ移る。このと
き図表範囲となる連続行数条件3行を満たしているため
、ステップ20へ移るが、区切り条件は無いので、54
行目から57行目の文字列64〜79が1つの図表範囲
と決定される。
このように、第9図のまとまり判定規則では、1行に含
まれる文字列の数が多く、項目の形態をしている項目、
数式又は番号等のように類似する形態属性が複数行に亘
って同一位置に並んでいる等の条件を用いている。しか
し、本発明はこのようなものに限定されるものではなく
、抽出づるレイアウト情報や形態情報を変えることによ
って、様々な判別規則が考えられる。例えば、キーワー
ド辞謹61に図表見出しを特定する「図」、rFiaJ
及び「表」というキーワードを登録し、図表見出しとい
う形態属性を決定する規則を追加し、まとまり判別規則
71に、この図表見出しに前後する表形態の文字列を持
つ行を1つの図表とするという規則を追加すれば、例え
ば第13図に示すような例文の「表1」から図表範囲が
34行乃至41行であることがわかる。ここで、第13
図の例文の24行目のような章見出しや、25行目のよ
うな節見出しといつた支出の構造まで自動抽出すれば、
これらのような図表の内容と誤り易い形態の文字列が並
んでいても、誤りなく識別できる判別規則を備えること
ができる。
なお、上記の説明では、第1図に示した図表参照箇所抽
出部80について特に言及しなかったが、この図表参照
箇所抽出部80により、例えば第14図に示す例文の3
3行に含まれる「下表に示す」のような、図表の参照箇
所から図表位置を示している部分を抽出することにより
、レイアウト情報からその部分の下に位置する文字列に
対して、まとまり判別規則を適用することで、より正確
に図表範囲を決定することもできる。
[発明の効果] 以上述べたように本発明によれば、文書データを構成す
る文字列のレイアウト情報と形態情報とから文章中に混
在している2次元的なまとまりを有する図表範囲を識別
するようにしたので、文章の流れの中から、図表データ
を正確に切り出すことができ、文関編集時や再整形時に
文章と図表とを区別して処理することができる。従って
、図表を含む文書データの編集作業を極めて容易に行う
ことができる。
【図面の簡単な説明】
第1図乃至第14図は本発明の一実施例に係る支出処理
装置を説明するための図で、第1図は文崗処哩装置の構
成を示すブロック図、第2図は処理の全体的な流れを示
す流れ図、第3図は入力される文書データの一例を示す
図、第4図は抽出されたレイアウト情報及び形態情報の
一例を示す図、第5図はレイアウト情報抽出処理の流れ
を示す流れ図、第6図は形態情報抽出部で使用されるキ
ーワード故国の一例を示す図、第7図は文字列の形態パ
ターンから形態属性を決定するための規則を示す図、第
8図は文字列の形態パターンから形態属性を決定する様
子を示す図、第9図はまとまり判定規則の一例を示す図
、第10図は図表範囲決定処理の流れを示す流れ図、第
11図は文字列同士の位置関係を判別する規則の一例を
示す図、第12図は表形態と表形態以外の文字列との位
置関係を示す図、第13図及び第14図は入力される文
書データの他の例を夫々示す図である。 10・・・文書管理部、20・・・入力部、30・・・
文書データ記憶部、40・・・レイアウト情報抽出部、
5O・・・文書構造記憶部、60・・・形態情報抽出部
、61・・・キーワード故国、70・・・図表範囲決定
部、71・・・まとまり判定規則辞潔。 出願人代理人 弁理士 鈴江 武彦 第2図 第 図 ■・−、e欠はコード 第 図 第 図 中IQ・ 中1(′

Claims (5)

    【特許請求の範囲】
  1. (1)文字コードを含む文書データを入力データとして
    入力する入力手段と、 この入力手段から入力された文字コードにより構成され
    所定の区切りコードによって区切られた各文字列の表示
    画面上の位置を示すレイアウト情報を抽出するレイアウ
    ト情報抽出手段と、このレイアウト情報抽出手段で抽出
    された各文字列が見出し、項目、番号及び数式等の形態
    情報のうちどの形態情報に該当するかを抽出する形態情
    報抽出手段と、 前記レイアウト情報抽出手段で抽出されたレイアウト情
    報に基づいて互いに隣接する複数行に亘る文字列の表示
    位置の規則性を判定すると共に、前記形態情報抽出手段
    で抽出された形態情報に基づいて文書中に挿入された図
    表及び式等の図表的なまとまりを構成する文字コード列
    を抽出する図表範囲決定手段とを具備したことを特徴と
    する文書処理装置。
  2. (2)前記図表範囲決定手段は、隣接する複数行におい
    て同じ表示位置にある文字列の形態情報の類似性とを判
    定して図表範囲を決定するものであることを特徴とする
    請求項1記載の文書処理装置。
  3. (3)前記図表範囲決定手段は、隣接する複数行に亘っ
    て同じ表示位置にある文字列が形態的に連続して文を構
    成するか否かを判定して図表範囲を決定することを特徴
    とする請求項1又は2記載の文書処理装置。
  4. (4)前記図表範囲決定手段は、各文字列の位置と形態
    情報とから図表見出しと図表内容とを識別し、近接する
    図表見出しと図表内容群とを1つの図表を構成するまと
    まりと決定するものであることを特徴とする請求項1乃
    至3のいずれか1項に記載の文書処理装置。
  5. (5)文字データから位置関係を指示する用語を用いて
    図表を参照する図表参照箇所を抽出する図表参照箇所抽
    出部を更に備え、前記図表範囲決定手段は、前記図表参
    照箇所抽出部によって抽出された参照箇所が指示する位
    置関係に基づいて対応する図表の範囲を決定するもので
    あることを特徴とする請求項1乃至4のいずれか1項に
    記載の文書処理装置。
JP1069805A 1989-03-22 1989-03-22 文書処理装置 Pending JPH02297264A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1069805A JPH02297264A (ja) 1989-03-22 1989-03-22 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1069805A JPH02297264A (ja) 1989-03-22 1989-03-22 文書処理装置

Publications (1)

Publication Number Publication Date
JPH02297264A true JPH02297264A (ja) 1990-12-07

Family

ID=13413332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1069805A Pending JPH02297264A (ja) 1989-03-22 1989-03-22 文書処理装置

Country Status (1)

Country Link
JP (1) JPH02297264A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052466A (ja) * 1991-06-20 1993-01-08 Fujitsu Ltd 文字型データとベクトルデータの同時転送方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052466A (ja) * 1991-06-20 1993-01-08 Fujitsu Ltd 文字型データとベクトルデータの同時転送方式

Similar Documents

Publication Publication Date Title
JP3160201B2 (ja) 情報検索方法、情報検索装置
CN1928865B (zh) 用于同步合成,显示及处理文本和图象文件的方法和设备
US6721451B1 (en) Apparatus and method for reading a document image
JP2726568B2 (ja) 文字認識方法及び装置
EP0241646A2 (en) Document processing apparatus
JPH08241332A (ja) 全文登録語検索装置および方法
EP0478315A2 (en) Apparatus and method for determining and displaying the difference between two technical drawings
JPH02297264A (ja) 文書処理装置
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP3470930B2 (ja) 自然語解析方法及び装置
JPH01205265A (ja) 文書整形装置
JP2795754B2 (ja) データ検索処理方式
JPH0668748B2 (ja) 文書整形方法
JPH01205263A (ja) 文書処理装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPS63280374A (ja) 情報の検索・表示方法
JP2634926B2 (ja) かな漢字変換装置
JP4256841B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
JP2575947B2 (ja) 文節切出し装置
JPH0229864A (ja) キーワード抽出方式
JP2002297574A (ja) ルビ付与システムおよびプログラム
JP2931485B2 (ja) 文字切出し装置及び方法
JPH01237756A (ja) 文書作成装置
JPH0869471A (ja) 検索用インデックスの作成方法、文書検索方法及び文書検索装置
JPS61117656A (ja) デ−タ処理システムにおける日本語処理方式