JPH11175520A - 文書解析方法および文書解析装置 - Google Patents

文書解析方法および文書解析装置

Info

Publication number
JPH11175520A
JPH11175520A JP9338560A JP33856097A JPH11175520A JP H11175520 A JPH11175520 A JP H11175520A JP 9338560 A JP9338560 A JP 9338560A JP 33856097 A JP33856097 A JP 33856097A JP H11175520 A JPH11175520 A JP H11175520A
Authority
JP
Japan
Prior art keywords
size
value
document
character
component element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9338560A
Other languages
English (en)
Inventor
Hiroaki Takagi
宏明 高城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP9338560A priority Critical patent/JPH11175520A/ja
Publication of JPH11175520A publication Critical patent/JPH11175520A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 既存の文書の中に文字の大小の対比というデ
ザインが使用されているかを自動的に調べることのでき
る文書解析方法および文書解析装置を提供する。 【解決手段】 文書を構成する部品要素から部品要素属
性判定部2にて文字部品要素を取り出して、大きさ算出
部5にて大きさを求めて大きさ値整理部6にて大きさの
値を類別する。隣接する大きさの値間での大きさの割合
を大きさ割合算出部7にて求め、その大きさの割合を大
きさ割合調査部8にて所定の閾値と比べ、閾値以上の割
合の個数が1個の場合には、大きさ値分類部9で全ての
大きさの値を2つのグループに分類する。最大値最小値
抽出部10にて各グループごとに大きさの値の最大値と
最小値を抽出し、最小値に対する最大値の割合を大きさ
割合調査部8で調べて閾値より小さければ、文字の大小
の対比というデザインが使用されていると判定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書のデザインに
関する情報を自動的に調べて抽出する文書解析方法およ
び文書解析装置に関するものである。
【0002】
【従来の技術】コンピュータの性能向上や低価格化等に
伴い、コンピュータによる文書作成は幅広く普及した。
アマチュアレベルの一般ユーザも、できるだけ品質の良
い文書を作成したいと願っている。しかし、デザイナが
作成するようなデザイン品質の高い文書や、レイアウト
ハンドブックなどに取り上げられているデザインの基本
を押さえた文書を作成することは非常に難しい。また、
文書のデザインには様々な種類のものがあるが、それぞ
れ重要である。それらのデザインの様々な種類を駆使す
るためには、種々のデザインを熟知していなければなら
ず、一般ユーザにとっては困難を極める。
【0003】一般ユーザの願望を少しでもかなえるため
の方法として、デザイン品質の高い既存の文書を再利用
したり、デザイン例を参考にするなどの方法がある。そ
のためには、デザインの種類ごとに既存の文書を蓄積し
ておいたり、多数の既存の文書から任意のデザインのも
のを捜し出せることが必要となる。これには既存の文書
からデザインに関する情報を自動的に抽出できることが
必要となる。
【0004】既存の文書を解析する従来の方法として、
例えば特開平7−168910号公報に記されているよ
うに、画像データ形式の文書から複数の文字領域を検出
して、本文や表題やあらまし等の各項目領域を識別する
ものがある。これは文字領域を対象にした領域分割の手
法であり、デザイナの作成するような品質の高い文書の
デザインの内容を解析するものではない。
【0005】また既存の文書のレイアウトを評価する従
来の方法として、例えば特開平8−255063号公報
に記された方法がある。この文献に記された方法は、文
字や図形や画像などが存在する文書の中の空白領域の分
散状態を調べてレイアウトの適切さを調べるものであ
る。しかし、空白領域の分散状態でデザイナの作成する
ようなデザインを解析することはできない。
【0006】これら以外にも、例えば文書の認識のため
の領域分割を行なったり、定型的な文書のフォーマット
を抽出するといった、文書の内容を解析するものはある
が、いずれの方法も、デザイン品質の高い文書のデザイ
ンを解析するものではない。
【0007】デザインの種類のひとつに大小の対比とい
うものがある。(例えば、内田広由紀編、「レイアウト
事典Part.2 写真・イラスト表現の原則と実
際」,昭和60年1月20日発行、株式会社視覚デザイ
ン研究所、P.104〜105など参照。)例えば文字
の大小の対比は、その言葉の通り、文書の中に大きな文
字と小さな文字を同時に用いることであり、これにより
文書が生き生きしてくる。この文字の大小の対比は文字
組みの基本とも言われており、重要である。
【0008】上述のような従来のレイアウトを解析する
方法では、デザインの解析ができないため、このような
文字の大小の対比というデザインを解析することはでき
なかった。
【0009】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、既存の文書の中に文字の大
小の対比というデザインが使用されているかを自動的に
調べることのできる文書解析方法および文書解析装置を
提供することを目的とするものである。
【0010】
【課題を解決するための手段】本発明は、文書を構成す
る部品要素から例えば文字部品要素を抽出し、抽出した
文字部品要素の大きさを調べて大きさの値を類別する。
そして、類別された大きさの値のうち隣接する2つの大
きさの値の間でそれぞれ割合を調べて閾値と比較し、大
きさの値の大きく異なっている部分を検出する。この大
きく異なっている部分で大きさの値を2つのグループに
分類する。これによって大きな文字のグループと小さな
文字のグループに分類できる。2つに分類されたグルー
プごとに前記文字部品要素の大きさの値を調べる。例え
ばグループ内の文字の大きさのバラツキが小さいほど、
大きな文字のグループと小さな文字のグループとの間の
文字の大小の対比性が大きくなる。これにより、文書中
に文字の大小の対比のデザインが存在すると解析するこ
とができる。
【0011】
【発明の実施の形態】図1は、本発明の実施の一形態を
示す構成図である。図中、1は部品要素読み込み部、2
は部品要素属性判定部、3は部品要素数判定部、4は編
集履歴読み込み部、5は大きさ算出部、6は大きさ値整
理部、7は大きさ割合算出部、8は大きさ割合調査部、
9は大きさ値分類部、10は最大値最小値抽出部であ
る。
【0012】部品要素読み込み部1は、文書を構成する
部品要素を読み込む。部品要素属性判定部2は、部品要
素の属性が所定のものであるか否かを判定する。部品要
素数判定部3は、部品要素の数を調べる。編集履歴読み
込み部4は、部品要素を作成したときの編集履歴を読み
込む。大きさ算出部5は、部品要素の大きさを算出す
る。大きさ値整理部6は、部品要素の大きさの値を類別
して整理する。大きさ割合算出部7は、部品要素間の大
きさの割合を算出する。大きさ割合調査部8は、大きさ
の割合を所定の閾値と比べる。大きさ値分類部9は、あ
る1つの大きさの割合に基づいて、部品要素の大きさの
値を2つのグループに分類する。最大値最小値抽出部1
0は、2つに分類されたグループ中の大きさの値から最
大値と最小値を抽出する。
【0013】では簡単な文書の例を取り上げて、ここで
対象とする文字の大小の対比の内容について説明する。
図2は、文字の大小の対比のデザインが使用されている
文書の一例の説明図である。文書のデータ形式は、アプ
リケーションソフトウェア等によって作成された電子文
書である。ラスタ画像等の画像データ形式の文書でも、
その中が構成要素に分割できて、その構成要素の属性が
識別できていれば処理の対象になりうる。
【0014】図2に示す文書は、文字や画像や図形や表
から構成されている。図2に示す文書において、上の方
から見てゆくと、「ハワイ」というタイトル、四角形の
図形、「99,800円〜」という小見出しがある。そ
の左下は船の写っている写真の画像であり、その右側は
箇条書きの文章である。写真の下は、数行の説明の文章
で、その右側は表が配されている。表の下は「○○ツア
ー」という文字である。これらを扱うときの単位を部品
要素と呼ぶ。この例では部品要素の数は8個である。
【0015】これらの部品要素の中で、文字の部分は、
タイトル、小見出し、箇条書きの文章、説明の文章、ツ
アー会社名の5か所である。表の中にも、文字が入って
いるが、説明を簡単にするために、ここでは、表の中の
文字は表の部品要素の一部と考えることにする。これら
の5か所の文字のうち、タイトルと小見出しとツアー会
社名の文字は大きさが大きく、箇条書きの文章と説明の
文章の文字は大きさが小さい。これらの文字の大きさの
差がある程度大きいため、タイトル、小見出し、ツアー
会社名が引き立って見える。このように文字の大きさに
ある程度の差が存在するとき、文字の大小の対比のデザ
インと見なすことができる。
【0016】そこで本発明では、このような文字の大小
の状況が文書の中に現れるか否かを解析することによ
り、文字の大小の対比のデザインが使用されているか否
かを判定する。もし文字の大きさが大きいものから小さ
いものまであっても、大きさが少しずつ変化していて、
それらの大きさの間に大きな差がない場合には、大きな
文字にインパクトはなく、文字の大小の対比があるとは
見なさない。
【0017】図3は、本発明の実施の一形態における処
理の概要を示すフローチャートである。S31では文書
を構成する部品要素から文字の部品要素を取り出し、そ
れらの大きさを調べ、大きさの値を類別して整理する。
S32では隣接する2つの大きさの値の間でそれぞれ大
きさの値の割合を調べ、所定の閾値と比較し、その結果
によって大きさの値を2つのグループに分類する。S3
3では2つに分類されたグループごとに大きさの値の最
大値と最小値の割合を調べて閾値と比較し、最終的に文
字の大小の対比というデザインの使用の有無を判定す
る。
【0018】次にこれらのS31からS33までの各処
理の詳細について説明する。図4は、文字部品要素の大
きさの値を類別する処理の一例を示すフローチャートで
ある。この処理は、図3に示すフローチャートの中のS
31における処理である。S41では、文書の情報から
部品要素読み込み部1を通して部品要素を読み込み、部
品要素属性判定部2にて部品要素の属性を調べて属性が
文字である文字部品要素を抽出する。ここで属性とは、
文字や画像や図形といった部品要素の種類をさす。例え
ば図2に示した文書の例において抽出される文字部品要
素は、タイトル、小見出し、箇条書きの文章、説明の文
章、ツアー会社名の5つの部品要素である。
【0019】S42では、S41によって抽出された文
字部品要素の数を部品要素数判定部3にて調べる。S4
3ではS42によって調べた文字部品要素の数が2個以
上か否かを判定する。2個という数は文字の大小の対比
を表現するための最低限の数である。2個以上の場合に
はS44に進みさらに判定を続け、1個以下の場合には
S51に進んで文字の大小の対比のデザインが使用され
ていないと判断し、処理を終了する。図2に示した文書
の例では、調べた文字部品要素の数は5個であり、S4
4に進む。
【0020】S44では、抽出した文字部品要素のうち
から1つの文字部品要素を選択し、選択した文字部品要
素の情報を読み出す。S45では、S44で読み出した
1つの文字部品要素の属性の種類を再び部品要素属性判
定部2にてさらに細かく調べる。文字は、通常は文字列
として入力され、データの種類としては文字コードで表
現され、その属性情報のひとつとして大きさがポイント
数などによって表現されている。タイトルの文字やキャ
ッチフレーズのための文字などは、目立たせるために、
例えば大きさを大きくしたり、向きや形状などを変える
など、修飾編集を受けていることが多い。このように大
きさや向きや形状を編集するためには、通常は文字コー
ドの情報を図形の情報に変更して処理を行なう。すなわ
ち、これらの文字は、見た目には文字であるが、データ
の種類としては文字コードではなく、それ以外の例えば
図形データとして表現されている。このS45では、文
字部品要素中の文字が文字コードであるか、それ以外の
例えば図形データであるかを調べる。
【0021】S46では、S45で調べた結果、選択し
た文字部品要素中の文字が文字コードであるか否かを判
定し、文字コードである場合にはS47に進み、それ以
外の場合にはS48に進む。S47では、文字コードに
よって表現されている文字の大きさを大きさ算出部5に
て文字コードに付加されている属性情報から求める。ま
たS48では、文字コード以外の例えば図形データとし
て表現される文字の大きさを大きさ算出部5にて求め
る。この場合の文字は、その文字を最初に入力したとき
は文字コードであり、その後に図形のデータに変更され
て、図形として編集を受けている。よって編集を受けた
過程を編集履歴として操作情報記憶部22に保存してお
き、その情報を編集履歴読み込み部4から読み出し、読
み出した編集履歴をもとに大きさを求める。例えば、文
字を図形として拡大を複数回行なった場合には、その拡
大率の累積から文字の大きさを求めればよい。また、編
集履歴が残されていない場合には、図形データから個々
の文字を切り出し、切り出した文字の外接矩形の大きさ
に基づいて文字の大きさの値を求めてもよい。
【0022】なお、文字コードによる文字である場合に
は、文字の大きさは例えばポイント数であり、また図形
データの文字の場合には、大きさの単位は例えばcmや
mmなどである。S41によって選び出した全ての文字
部品要素が文字コードによる文字あるいは図形データの
文字である場合には、文字の大きさは例えばポイント数
やcm,mm等の単位で統一されるが、文字コードによ
る文字の文字部品要素と図形データの文字の文字部品要
素が混在した文書ではそれぞれの文字部品要素で文字の
大きさの単位系が異なることがある。そのため、例えば
cm,mmといった単位に揃えたり、あるいはポイント
数に換算して求めておくとよい。
【0023】S49では、すべての文字部品要素の情報
の読み出しを終了したか否かを調べ、終了していない場
合にはS44に戻って他の文字部品要素を選択し、その
文字部品要素についての処理を行なう。すべての文字部
品要素について処理が終了した場合にはS50に進む。
【0024】S50では、すべての文字部品要素におけ
る文字の大きさの値を大きさ値整理部6にて調べて類別
し、大きさの順番に整理する。図5は、文字部品要素の
大きさの値を類別した結果の一例を示すグラフである。
図2に示す文書の例における5個の文字部品要素、すな
わちタイトル、小見出し、箇条書きの文章、説明の文
章、ツアー会社名の文字の大きさの値がそれぞれ80、
70、10、8、60であるとする。このとき、各文字
部品要素の文字の大きさの値の順番は、タイトル、小見
出し、ツアー会社名、箇条書きの文章、説明の文章の順
であり、その大きさの値は80、70、60、10、8
となる。図5では、これらの大きさの位置に垂線を記し
て示している。図5における大きさの値の単位は何でも
よく、ここでは特に明記していない。
【0025】S50まで通過する場合には、文字の大小
の対比というデザインが使用されている可能性が残され
ているという状況であり、さらにその後の処理でデザイ
ンを調べていくことになる。なお、S51において文字
の大小の対比というデザインが使用されていないと判定
された場合には、次の図3におけるS32の処理に進ま
ずに全ての処理を終了する。
【0026】図6は、文字部品要素の文字の大きさの値
を2つのグループに分類する処理の一例を示すフローチ
ャートである。この処理は、図3に示すフローチャート
の中のS32における処理である。
【0027】S61では、文字部品要素の文字の大きさ
の値の中から隣接する2つの大きさの値を取り出し、小
さい方の値に対する大きい方の値の割合を大きさ割合算
出部7にて求める。図7は、大きさ割合算出部で求めた
割合の値の一例の説明図である。図2に示す文書では、
図5に示すように80、70、60、10、8の5種類
の文字の大きさの値が得られている。隣接する2つの大
きさの値とは、80と70、70と60、60と10、
10と8である。これらの組み合わせについて、小さい
方の値に対する大きい方の値の割合を求める。算出され
た割合の値を図7に数値で示している。図7において、
例えば、隣接する大きさの値8と10との組み合わせに
おける大きさの割合は1.25となる。大きさの種類の
数は5種類なので、求める大きさの割合の数は4個であ
る。
【0028】S62では、S61によって求めたすべて
の大きさの割合を、大きさ割合調査部8にて所定の閾値
と比較する。図8は、大きさの割合の算出結果の一例を
示すグラフである。S61において大きさ割合算出部7
にて求めた大きさの割合を一次元のグラフに表わすと図
8に示すようになる。これらの大きさの割合を所定の閾
値と比較する。図8では閾値を破線で示している。この
閾値は処理が始まる前にあらかじめ設定しておく。値は
任意の値を設定でき、限定はしない。例えば閾値は経験
的に決めればよい。ここでは一例として、3としてい
る。この大きさの割合が大きいことは、図5、図7にお
ける隣接する2つの大きさの値の間が広く空いているこ
とを示し、すなわち文字の大きさが大きく異なることを
示している。S62における閾値処理によって、文字の
大きさが大きく異なる文字の大きさの値の組を検出する
ことができる。
【0029】S63では、S62による閾値との比較結
果から、閾値以上となった大きさの割合の数を調べる。
S64では、S63によって調べた数が1個であるか否
かを判定し、1個以外の場合にはS67に進んで文字の
大小の対比のデザインが使用されていないと判断し、処
理を終了する。また、1個の場合にはS65に進み、さ
らに判定を続ける。この処理で閾値以上の大きさの割合
の数が1個であるか否かを調べた理由は、文字部品要素
の隣接する大きさの値の差が飛び抜けて大きいところを
1か所だけ抽出するためである。それは、この大きさの
差のところを境にして、文字部品要素を大きさの大きい
グループと大きさの小さいグループに分けるためのもの
であり、これにより大小の関係を表現する。例えば閾値
以上の大きさの割合の数が2個存在する場合、隣接する
大きさの値の差が大きい箇所が2箇所存在し、文書全体
として少なくとも大、中、小の3段階の大きさの文字を
使用していることが考えられる。その場合、文字の大小
によって視覚的に与えるインパクトは小さくなり、大小
の対比のデザインが使用されているとは判断できない場
合が生じるためである。
【0030】図2に示した文書の例では、文字の大きさ
の割合は図7に示すように1.25、6.0、1.1
7、1.14であり、図8に示すような大きさの割合の
値のグラフとなる。閾値を3とした場合には、それより
大きい大きさの割合は6.0の1個だけであり、S65
に進み、さらに判定を続ける。
【0031】S65では、S64によって閾値以上とし
て選ばれた1個の大きさの割合の元になった隣接する2
つの大きさの値を取り出す。図2に示す文書の例では、
図8に示すように閾値以上として選ばれた大きさの割合
は6.0であり、その大きさの割合が算出される元とな
った隣接する2つの大きさの値は、図7からわかるよう
に10と60である。
【0032】S66では、S65によって取り出された
2つの大きさの値に基づいて、すべての大きさの値を2
つのグループに分類する。図2に示す文書の例では、図
5に示す5種類の大きさの値80、70、60、10、
8を10以下と60以上の2つのグループに分ける。こ
れにより、文字の大きさの値が80、70、60のグル
ープと10、8のグループに分けられる。
【0033】S66まで通過する場合には、文字の大小
の対比というデザインが使用されている可能性が残され
ているという状況であり、さらにその後の処理でデザイ
ンを調べていくことになる。なお、S67において文字
の大小の対比というデザインが使用されていないと判定
された場合には、次の図3におけるS33の処理に進ま
ずにすべての処理を終了する。
【0034】図9は、2つに分類されたグループごとに
大きさの値の割合を調べる処理の一例を示すフローチャ
ートである。この処理は、図3に示すフローチャートの
中のS33における処理である。S71では、2つに分
類された大きさの値のグループから、大きさの大きい方
のグループの値を取り出す。図2に示す文書の例では、
図5に示す5種類の大きさの値のうちの80、70、6
0が取り出される。
【0035】S72では、S71によって取り出した大
きさの値の類別された数を調べる。すなわち、同じ大き
さの値の文字部品要素が複数あれば、それらは1つとし
て数え、異なる大きさの値の数を調べる。S73では、
S72によって調べた数が2個以上か否かを調べ、2個
以上の場合にはS74に進み、1個以下の場合にはS7
8に進む。2個以上の場合には、それらの間で大きさを
さらに調べていく。1個の場合には、グループ内の大き
さの値の関係を調べる必要はない。また、0個の場合は
存在しない。図2に示す文書の例では、上述のように大
きさの大きい方のグループに含まれる類別された大きさ
の値の個数は3個であるため、S74へ進む。
【0036】S74では、S71によって取り出した大
きさの値の類別結果から、最大値最小値抽出部10にて
最も大きい大きさの値と最も小さい大きさの値を選び出
す。図2に示す文書の例では、上述のように大きさの大
きい方のグループに含まれる類別された大きさの値は8
0、70、60であるので、最大値は80で最小値は6
0である。
【0037】S75では、S74によって選び出した最
小値に対する最大値の割合を求める。図2に示した文書
の例では、最大値80および最小値60から、最小値に
対する最大値の割合は約1.3となる。
【0038】S76では、S75によって求めた割合を
大きさ割合調査部8にて所定の閾値と比較する。この閾
値は処理が始まる前にあらかじめ設定しておく。値は任
意の値を設定でき、限定はしない。例えば閾値は経験的
に決めておくことができる。ここでは例えば、2程度に
設定しておく。S77ではS76での比較結果から、割
合が閾値以上の場合にはS78に進み、閾値より小さい
場合にはS86に進む。このS76からS77ではグル
ープ内の文字の大きさの値の広がりを閾値を用いて判定
している。分類されたグループ中の大きさの値の範囲が
広い場合には、すべての文字部品要素の大きさが2分化
されて見えず、結果として大小の対比が感じられなくな
る。ここではこのような場合を除外するための判定を行
なっている。図2に示した文書の例では、最小値に対す
る最大値の割合の値が約1.3であり、閾値を2とした
場合には閾値以下となるため、S78に進んでさらに判
定を続ける。
【0039】S78からS84は、S71からS77と
同様の処理であり、もう一つのグループ、すなわち、大
きさの値の小さいグループに対して同様の処理を行な
う。S78では、2つに分類された大きさの値のグルー
プから大きさの小さい方のグループの大きさの値を取り
出す。図2に示す文書の例では、図5に示す5種類の大
きさの値のうちの10、8が取り出される。
【0040】S79では、S78によって取り出した大
きさの値の類別された数を調べる。S80では、S79
によって調べた数が2個以上か否かを判定し、2個以上
の場合にはS81に進み、1個以下の場合にはS85に
進む。S81では、S78によって取り出した類別され
た大きさの値から最も大きい値と最も小さい値を選び出
す。S82では、S81によって選び出した最小値に対
する最大値の割合を求める。S83では、S82によっ
て求めた割合を大きさ割合調査部8にて所定の閾値と比
較する。S84では、S83での比較結果に従い、割合
が閾値以上の場合にはS85に進み、それより小さい場
合にはS86に進む。図2に示す文書の例では、大きさ
の値の小さいグループにおける大きさの値の類別された
数は2個であり、最大値は10で最小値は8である。最
小値に対する最大値の割合は1.25となる。閾値が2
に設定されている場合、この割合は閾値以下となり、S
85へ進む。
【0041】S85では、判定対象の文書中に文字の大
小の対比というデザインが使用されていると見なし、使
用されているという情報を出力する。このようにして図
2に示した文書の例では、文字の大小の対比というデザ
インが使用された文書として判定されることになる。ま
たS86では、文字の大小の対比というデザインが使用
されていないと見なし、使用されていないという情報を
出力する。
【0042】このようにして、文書中に文字の大小の対
比というデザインが使用されているか否かを自動的に判
定することができる。ここでは文字の大小の対比に限定
して説明したが、本発明はこれに限らず、例えば写真な
どの画像部品要素について、その大小の対比というデザ
インが使用されているか否かを判定することもできる。
この場合、部品要素属性判定部2において属性が画像で
ある部品要素を抽出すればよい。もちろん、他の属性の
部品要素、あるいは複数の属性の部品要素について、大
小の対比というデザインの使用を判定することも可能で
ある。
【0043】図10は、本発明の文書解析方法あるいは
文書解析装置を用いた文書処理装置の一例を示すブロッ
ク図である。図中、21は情報入力部、22は操作情報
記憶部、23は文書情報記憶部、24は文書情報編集
部、25は文書情報表示部、26はデザイン情報解析
部、27はデザイン情報記憶部、28は文字大小対比情
報解析部である。ここでは、文書の入力作成から、文書
中に文字の大小の対比というデザインが使用されている
かを解析するまでの文書処理全般を行なう装置について
説明する。
【0044】まず操作者による操作の情報や文書の素材
となるような情報を情報入力部21から取り込む。取り
込んだ操作情報は操作情報記憶部22に記憶される。ま
た、取り込んだ文書の素材や生成編集された文書は文書
情報記憶部23に記憶しておく。文書の生成編集は文書
情報編集部24にて行ない、生成編集した文書の表示は
文書情報表示部25にて行なう。
【0045】文書のデザインに関する情報はデザイン情
報解析部26にて解析し、解析されたデザインに関する
情報はデザイン情報記憶部27に記憶する。デザインの
ひとつである文字の大小の対比についての解析はデザイ
ン情報解析部26の中の文字大小対比情報解析部28に
て行なう。この文字大小対比情報解析部28として、本
発明の文書解析方法あるいは文書解析装置を組み込めば
よい。文字大小対比情報解析部28は、文書情報記憶部
23に記憶されている文書の情報を部品要素読み込み部
1を介して読み込み、解析を行なう。このとき、編集履
歴が必要な場合には、操作情報記憶部22から編集履歴
読み込み部4を介して編集履歴を読み込む。解析の結果
として文字の大小の対比というデザインが使用されてい
るか否かを示す情報をデザイン情報記憶部27に出力
し、記憶させる。文字の大小の対比の他に解析したいデ
ザインがあれば、デザイン情報解析部26に、それため
の情報解析部を用意すればよい。
【0046】
【発明の効果】以上の説明から明らかなように、本発明
によれば、既存の文書の中に文字の大小の対比というデ
ザインが使用されているか否かを自動的に調べることが
でき、デザインの解析を自動的に行なうことができると
いう効果がある。
【図面の簡単な説明】
【図1】 本発明の実施の一形態を示す構成図である。
【図2】 文字の大小の対比のデザインが使用されてい
る文書の一例の説明図である。
【図3】 本発明の実施の一形態における処理の概要を
示すフローチャートである。
【図4】 文字部品要素の大きさの値を類別する処理の
一例を示すフローチャートである。
【図5】 文字部品要素の大きさの値を類別した結果の
一例を示すグラフである。
【図6】 文字部品要素の文字の大きさの値を2つのグ
ループに分類する処理の一例を示すフローチャートであ
る。
【図7】 大きさ割合算出部で求めた割合の値の一例の
説明図である。
【図8】 大きさの割合の算出結果の一例を示すグラフ
である。
【図9】 2つに分類されたグループごとに大きさの値
の割合を調べる処理の一例を示すフローチャートであ
る。
【図10】 本発明の文書解析方法あるいは文書解析装
置を用いた文書処理装置の一例を示すブロック図であ
る。
【符号の説明】
1…部品要素読み込み部、2…部品要素属性判定部、3
…部品要素数判定部、4…編集履歴読み込み部、5…大
きさ算出部、6…大きさ値整理部、7…大きさ割合算出
部、8…大きさ割合調査部、9…大きさ値分類部、10
…最大値最小値抽出部、21…情報入力部、22…操作
情報記憶部、23…文書情報記憶部、24…文書情報編
集部、25…文書情報表示部、26…デザイン情報解析
部、27…デザイン情報記憶部、28…文字大小対比情
報解析部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書のデザインを解析する文書解析方法
    において、文書を構成する部品要素から文字部品要素を
    抽出し、抽出した前記文字部品要素の大きさを調べて大
    きさの値を類別し、類別された前記大きさの値のうち隣
    接する2つの大きさの値の間でそれぞれ割合を調べ、前
    記割合を所定の閾値と比較し、比較結果に従って前記大
    きさの値を2つのグループに分類し、2つに分類された
    前記グループごとに前記文字部品要素の大きさの値を調
    べることにより、文書の文字の大小の対比のデザインを
    解析することを特徴とする文書解析方法。
  2. 【請求項2】 前記文字部品要素の大きさを調べる処理
    は、前記文字部品要素のデータの種類が文字コードであ
    る場合には付加されている大きさの情報をもとに前記文
    字部品要素の大きさを求め、前記文字部品要素のデータ
    の種類が図形コードである場合には編集履歴をもとに前
    記文字部品要素の大きさを求めることを特徴とする請求
    項1に記載の文書解析方法。
  3. 【請求項3】 2つに分類された前記グループごとに前
    記文字部品要素の大きさの値を調べる処理は、2つに分
    類された前記グループごとに類別された前記大きさの値
    の最大値と最小値を抽出し、最小値に対する最大値の割
    合を調べて所定の閾値と比較し、閾値内であることを調
    べることを特徴とする請求項1に記載の文書解析方法。
  4. 【請求項4】 文書のデザインを解析する文書解析装置
    において、文書を構成する部品要素を読み込む部品要素
    読み込み手段と、前記部品要素が所定の属性を有するか
    否かを判定する部品要素属性判定手段と、前記部品要素
    の数を調べる部品要素数判定手段と、前記部品要素の大
    きさを算出する大きさ算出手段と、前記部品要素の大き
    さの値を類別して整理する大きさ値整理手段と、前記部
    品要素間の前記大きさの値の割合を算出する大きさ割合
    算出手段と、前記大きさの値の割合を所定の閾値と比較
    する大きさ割合調査手段と、ある1つの大きさの値の割
    合により前記大きさの値を2つのグループに分類する大
    きさ値分類手段と、分類された前記グループから前記大
    きさの値の最大値と最小値を抽出する最大値最小値抽出
    手段を有することを特徴とする文書解析装置。
  5. 【請求項5】 さらに前記部品要素を作成したときの編
    集履歴を読み込む編集履歴読み込み手段を有し、前記大
    きさ算出手段は該編集履歴読み込み手段によって読み込
    まれた前記編集履歴に基づいて前記部品要素の大きさを
    算出することを特徴とする請求項4に記載の文書解析装
    置。
JP9338560A 1997-12-09 1997-12-09 文書解析方法および文書解析装置 Pending JPH11175520A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9338560A JPH11175520A (ja) 1997-12-09 1997-12-09 文書解析方法および文書解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9338560A JPH11175520A (ja) 1997-12-09 1997-12-09 文書解析方法および文書解析装置

Publications (1)

Publication Number Publication Date
JPH11175520A true JPH11175520A (ja) 1999-07-02

Family

ID=18319335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9338560A Pending JPH11175520A (ja) 1997-12-09 1997-12-09 文書解析方法および文書解析装置

Country Status (1)

Country Link
JP (1) JPH11175520A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244412A (ja) * 2009-04-08 2010-10-28 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244412A (ja) * 2009-04-08 2010-10-28 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム

Similar Documents

Publication Publication Date Title
EP0854433B1 (en) Caption and photo extraction from scanned document images
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
CN100501760C (zh) 标题抽取装置和方法
US8005300B2 (en) Image search system, image search method, and storage medium
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US8041113B2 (en) Image processing device, image processing method, and computer program product
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US20050134935A1 (en) Automatic document separation
JPH08166970A (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する方法
JP3692018B2 (ja) テロップ情報処理装置
CN101004792A (zh) 图像处理装置和方法,图像形成装置以及计算机程序产品
US5502777A (en) Method and apparatus for recognizing table and figure having many lateral and longitudinal lines
JPH05225378A (ja) 文書画像の領域分割システム
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
US6728403B1 (en) Method for analyzing structure of a treatise type of document image
CN112925905B (zh) 提取视频字幕的方法、装置、电子设备和存储介质
US20020085755A1 (en) Method for region analysis of document image
JPH11175520A (ja) 文書解析方法および文書解析装置
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN115357490A (zh) 一种针对移动应用的界面缩放缺陷检测方法及电子装置
JP2003087562A (ja) 画像処理装置および画像処理方法
JP2005339537A (ja) テロップ情報表示装置
JPH11175519A (ja) 文書解析方法および文書解析装置
JP2003178071A (ja) 文書管理システム
JPH0743718B2 (ja) マルチメディア文書構造化方式