JPH11175519A - 文書解析方法および文書解析装置 - Google Patents

文書解析方法および文書解析装置

Info

Publication number
JPH11175519A
JPH11175519A JP9338559A JP33855997A JPH11175519A JP H11175519 A JPH11175519 A JP H11175519A JP 9338559 A JP9338559 A JP 9338559A JP 33855997 A JP33855997 A JP 33855997A JP H11175519 A JPH11175519 A JP H11175519A
Authority
JP
Japan
Prior art keywords
document
component elements
size
component element
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9338559A
Other languages
English (en)
Inventor
Hiroaki Takagi
宏明 高城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP9338559A priority Critical patent/JPH11175519A/ja
Publication of JPH11175519A publication Critical patent/JPH11175519A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 既存の文書の中に市松模様というデザインが
使用されているかを自動的に調べることのできる文書解
析方法および文書解析装置を提供する。 【解決手段】 文書の部品要素から部品要素属性判定部
2で画像部品要素を選出し、大きさ算出部5で面積を求
める。大きさ順序調査部6で面積の大きい2つを注目画
像部品要素とし、大きさ割合算出部7の算出結果から大
きさ割合判定部8で他との大きさの差異を確認する。注
目画像部品要素間に重なりがないことを位置関係調査部
9で確認し、領域分割部10で文書を4領域に分割す
る。注目画像部品要素とそれを含む分割領域の面積の割
合を大きさ割合判定部8で判定し、注目画像部品要素が
文書の要部であることを確認する。また、注目画像部品
要素の存在しない分割領域の他の部品要素の属性を調
べ、注目画像部品要素との対比関係を判定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書のデザインに
関する情報を自動的に調べて抽出する文書解析方法およ
び文書解析装置に関するものである。
【0002】
【従来の技術】コンピュータの性能向上や低価格化等に
伴い、コンピュータによる文書作成は幅広く普及した。
アマチュアレベルの一般ユーザも、できるだけ品質の良
い文書を作成したいと願っている。しかし、デザイナが
作成するようなデザイン品質の高い文書や、レイアウト
ハンドブックなどに取り上げられているデザインの基本
を押さえた文書を作成することは非常に難しい。また、
文書のデザインには様々な種類のものがあるが、それぞ
れ重要である。それらのデザインの様々な種類を駆使す
るためには、種々のデザインを熟知していなければなら
ず、一般ユーザにとっては困難を極める。
【0003】一般ユーザの願望を少しでもかなえるため
の方法として、デザイン品質の高い既存の文書を再利用
したり、デザイン例を参考にするなどの方法がある。そ
のためには、デザインの種類ごとに既存の文書を蓄積し
ておいたり、多数の既存の文書から任意のデザインのも
のを捜し出せることが必要となる。これには既存の文書
からデザインに関する情報を自動的に抽出できることが
必要となる。
【0004】既存の文書を解析する従来の方法として、
例えば特開平7−168910号公報に記されているよ
うに、文書の画像データから複数の文字領域を検出し
て、本文や表題やあらまし等の各項目領域を識別するも
のがある。これは文字領域を対象にした領域分割であ
り、デザイナの作成するような品質の高い文書のデザイ
ンの内容を解析するものではない。
【0005】また既存の文書のレイアウトを評価する従
来の方法として、例えば特開平8−255063号公報
に記された方法がある。この文献に記された方法は、文
字や図形や画像などが存在する文書の中の空白領域の分
散状態を調べてレイアウトの適切さを調べるものであ
る。しかし、空白領域の分散状態でデザイナの作成する
ようなデザインを解析することはできない。
【0006】これら以外にも、例えば文書の認識のため
の領域分割を行なったり、定型的な文書のフォーマット
を抽出するといった、文書の内容を解析するものはある
が、いずれの方法も、デザイン品質の高い文書のデザイ
ンを解析することはできない。
【0007】デザインの中のひとつに市松模様の表現と
いうものがある。(例えば、内田広由紀編、「レイアウ
ト事典Part.2 写真・イラスト表現の原則と実
際」,昭和60年1月20日発行、株式会社視覚デザイ
ン研究所、P.168〜169など参照。)この市松模
様の表現は、文書全体を概観したときに、その言葉通り
に、市松模様として見えるものである。例えば、文書の
ある片隅に目につくほどのある程度大きい画像があり、
その対角方向にも目につくほどのある程度大きい画像が
あり、それら以外は空白、もしくは画像ではない文字か
らなるようなものである。画像の部分は面のように見る
ことができ、一方の画像ではない文字の部分は面として
見ることは少ない。また、面の部分と面でない部分とで
は、色合いや明るさなどが異なって見える。このように
画像の部分と画像ではない部分とは対比させて見ること
ができるため、市松模様として見ることができる。文書
における市松模様のデザインの意味を明確に定義するこ
とは難しいので、ここでは上述の例のような文書を、市
松模様のデザインの文書と呼ぶことにする。
【0008】上述のような従来のレイアウトを解析する
方法では、デザインの解析ができないため、このような
市松模様の表現が使用されているか否かを調べることま
ではできなかった。
【0009】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、既存の文書の中に市松模様
というデザインが使用されているかを自動的に調べるこ
とのできる文書解析方法および文書解析装置を提供する
ことを目的とするものである。
【0010】
【課題を解決するための手段】本発明は、文書を構成す
る部品要素から例えば画像の部品要素を取り出して、そ
の中から主要部となりうる大きい2つの部品要素を取り
出し、それらの間で水平方向および垂直方向の占める位
置の重なりの有無を調べる。重なりがなければ斜め方向
に2つの部品要素が配置されている。この場合にはそれ
らの部品要素をもとに文書を4つの領域に分割し、分割
領域における2つの部品要素の面積の割合を調べ、それ
らの部品要素が文書の要部をなしていることを確認す
る。また、2つの部品要素の存在しない分割領域におけ
る他の部品要素の属性を調べることにより、2つの部品
要素の存在する部分と存在しない部分を対比させた文書
であるか否かを判定する。これによって、例えば画像の
部品要素が対角位置に配置され、文書全体を概観したと
きに市松模様として見えるデザインの有無を、自動的に
判定することができる。
【0011】
【発明の実施の形態】図1は、本発明の実施の一形態を
示す構成図である。図中、1は部品要素読み込み部、2
は部品要素属性判定部、3は部品要素数判定部、4は外
形位置算出部、5は大きさ算出部、6は大きさ順序調査
部、7は大きさ割合算出部、8は大きさ割合判定部、9
は位置関係調査部、10は領域分割部である。
【0012】部品要素読み込み部1は、文書を構成する
部品要素を読み込む。部品要素属性判定部2は、部品要
素の属性が任意のものであるかを判定する。部品要素数
判定部3は、部品要素の数を調べる。外形位置算出部4
は、部品要素の外形の位置を算出する。大きさ算出部5
は、部品要素の大きさを算出する。大きさ順序調査部6
は、部品要素の大きさの順番を調べる。大きさ割合算出
部7は、部品要素間や部品要素と領域間の大きさの割合
を算出する。大きさ割合判定部8は、大きさの割合を任
意の閾値と比べる。位置関係調査部9は、部品要素間の
位置の関係を調べる。領域分割部10は、文書を4つの
領域に分割する。
【0013】では簡単な文書の例を取り上げて、ここで
対象とする市松模様の内容について説明する。図2は、
市松模様のデザインが利用されている文書の一例の説明
図である。文書のデータ形式は、アプリケーションソフ
トウェア等によって作成された電子文書である。ラスタ
画像形式の文書でも、その中が構成要素に分割できて、
その種類が識別できていれば処理の対象になりうる。
【0014】図2に示す文書は、文字や画像から構成さ
れている。他に図形などがあってもかまわない。図2に
示す文書において、左上と右下の部分が文章で、属性と
しては文字である。また右上の雪ダルマが写っている写
真と左下の風景が写っている写真が画像である。これら
を部品要素とする。この文書では、画像が右上と左下の
対角方向に配置されており、大きさはある程度のもので
ある。画像以外の文字の部分は左上と右下というよう
に、これも対角方向に配置されている。画像の部分はそ
れぞれ面として見ることができるが、文字の部分はその
ようには見えにくい。また色合いや明るさも異なって見
える。このように画像の部分と画像以外の部分との対角
的な配置関係と、それらの間の面としての見えや色合い
の違いなどの対比から、文章全体として市松模様と感じ
ることができる。そこでこのような状況が文書の中に現
れるか否かを解析することにより、市松模様のデザイン
が使用されているか否かを判定することにする。
【0015】図3は、本発明の実施の一形態における処
理の概要を示すフローチャートである。S31では文書
を構成する部品要素から画像部品要素を取り出し、大き
い2つの画像部品要素を抽出してそれを注目画像部品要
素とし、それらの位置と大きさについて調べる。S32
では2つの注目画像部品要素をもとに文書を4つの領域
に分割する。S33では文書領域の大きさに対する2つ
の注目画像部品要素の大きさの割合を調べる。S34で
は2つの注目画像部品要素の存在しない領域において部
品要素の大きさと属性を調べる。
【0016】次にこれらのS31からS34までの各処
理の詳細について説明する。図4は、画像部品要素の位
置と大きさについて調べる処理の一例を示すフローチャ
ートである。この処理は、図3に示すフローチャートの
中のS31における処理である。
【0017】S41では文書の情報から部品要素読み込
み部1を通して部品要素の情報を読み込み、部品要素属
性判定部2にて部品要素の属性を調べて画像の部品要素
を選び出す。ここで属性とは、文字や画像や図形といっ
た情報の種類をさす。S42ではS41によって選び出
した画像部品要素の数を部品要素数判定部3にて調べ
る。S43ではS42によって調べた画像部品要素の数
が2個以上であるか否かを判定する。2個という数は市
松模様を表現するための最低限の数である。画像部品要
素の数が1個以下の場合には、S55に進み、市松模様
のデザインが使用されていないと判断する。画像部品要
素の数が2個以上の場合には、S44に進む。
【0018】S44では選び出した画像部品要素の外形
の位置を外形位置算出部4にて計算する。ここで外形の
位置とは画像の輪郭の形状が矩形の場合には、その矩形
の端部の位置である。画像の輪郭の形状が任意の場合に
は外接矩形を求め、求めた外接矩形の端部の位置を外形
の位置とする。S45では画像部品要素の面積を大きさ
算出部5にて算出する。ここでは部品要素の大きさとし
て面積を利用するが、このほか外形の幅や高さなどを利
用してもよい。この面積の計算はS44において求めた
外形の位置を用いて計算する。画像の輪郭の形状が任意
の場合には外接矩形の面積とする。
【0019】S46では2個以上の画像部品要素の面積
を大きさ順序調査部6にて比べて、各画像部品要素の大
きさの順番を調べる。S47ではS46によって調べた
順番に従い、面積の大きい2つの画像部品要素を抽出す
る。抽出した2つの画像部品要素を、注目画像部品要素
と呼ぶことにする。
【0020】S48では面積の3番目に大きい画像部品
要素の面積に対する2番目に大きい注目画像部品要素の
面積の割合を大きさ割合算出部7にて求める。S49で
はS48によって求めた面積の割合を大きさ割合判定部
8にて所定の閾値と比較する。S50ではS49での比
較により閾値以上の場合にはS51に進み、それより小
さい場合にはS55に進んで市松模様のデザインが使用
されていないと判断する。このS48ないしS50にお
ける処理は、対象とする市松模様が、画像部品要素の中
の2つの注目画像部品要素がそれら以外の画像部品要素
に比べて大きさがかなり大きいとしたことによるもので
ある。すなわち、S48における処理で求めた面積の割
合が小さい場合には、2つの注目画像部品要素以外にも
目を引く画像部品要素が存在することを意味し、ここで
いう市松模様のレイアウトとはならない。この面積の割
合の大小の判定は、S49において閾値との比較によっ
て行なっている。このとき用いる閾値は、処理が始まる
前にあらかじめ設定しておく。値は任意の値を設定で
き、限定されるものではないが、例えば、3倍以上など
としておくことができる。なお、全ての画像部品要素の
数が2つの場合には、S48からS50までの処理は不
要である。
【0021】S51では2つの注目画像部品要素につい
て水平方向の占める位置に重なりがあるかないかを位置
関係調査部9にて調べる。図5は、位置関係調査部にお
ける注目画像部品要素の水平方向の重なり具合の判定の
説明図である。図中、ハッチングを施した部分が図2に
示した画像中の注目画像部品要素の外接矩形を示してい
る。2つの注目画像部品要素について、外形の水平方向
の端の位置を求め、存在範囲を求める。図5の下部に示
す両矢印で示した範囲が、それぞれの注目画像部品要素
の外形の水平方向の存在範囲である。これらの存在範囲
の重なりを調べる。図5に示した例では水平方向の存在
範囲に重なりはない。S52ではS51の調査の結果、
重ならない場合にはS53に進む。また、重なる場合に
はS55に進み市松模様のデザインが使用されていない
と判断する。
【0022】S53ではS51と同様に2つの注目画像
部品要素について今度は垂直方向の占める位置に重なり
があるかないかを位置関係調査部9にて調べる。S54
ではS53の調査の結果、重ならない場合には図3のS
31の処理を終了してS32に進む。この場合、市松模
様というデザインが使用されている可能性が残されてお
り、その後の処理でそれを調べていくことになる。重な
る場合にはS55に進み市松模様のデザインが使用され
ていないと判断する。
【0023】S55では、画像部品要素が1個以下の場
合や、3個以上同程度の大きさの画像部品要素が存在し
ていたり、あるいは2個の注目画像部品の存在領域が水
平方向または垂直方向に重なりを有しているなどの場合
に、市松模様というデザインが使用されていないと見な
し、使用されていないという情報を出力する。この場合
には図3のS32以降の処理を行なう必要はなく、全て
の処理を終了する。
【0024】図4に示したフローチャートでは、水平方
向および垂直方向に注目画像部品要素の重なりがないこ
とを市松模様の条件としているが、見かけ上、市松模様
として認識できる程度の重なりを許容するように条件を
設定してもよい。
【0025】図6は、文書領域の分割処理の一例を示す
フローチャートである。この処理は、図3に示すフロー
チャートの中のS32における処理であり、領域分割部
10において行なわれる。S61では2つの注目画像部
品要素のうち水平方向の位置の大きい方の注目画像部品
要素について、その外形の水平方向の端部の小さい方の
座標値を取り出す。注目画像部品要素の外形の水平位置
は図4のS51で既に求めているため、その値を利用す
る。例えば図2に示す文書において、水平方向の位置の
大きい方の注目画像部品要素とは右上の雪ダルマの写っ
ている写真画像であり、この画像の左端の水平方向の座
標値を取り出す。
【0026】S62では2つの注目画像部品要素のうち
水平方向の位置の小さい方の注目画像部品要素につい
て、その外形の水平方向の端部の大きい方の座標値を取
り出す。例えば図2に示す文書においては、水平方向の
位置の小さい方の注目画像部品要素とは、左下の風景の
写っている写真画像であり、この画像の右端の水平方向
の座標値を取り出す。
【0027】図7は、各注目画像部品要素から取り出し
た座標値の位置の一例の説明図である。図7において、
図2に示す文書における雪ダルマの写っている写真画像
と風景の写っている写真画像の部分、すなわち2つの注
目画像部品要素にハッチングを施して示している。図7
に示すように2つの注目画像部品要素からS61および
S62の処理によって、それぞれの注目画像部品要素か
ら縦の破線で示した水平方向の位置が取り出される。
【0028】S63ではS61によって取り出した水平
方向の座標値とS62によって取り出した水平方向の座
標値の間の値を求める。この値は2つの座標値の間の値
であればよく、ここでは中間の値とする。
【0029】次のS64からS66までの処理はS61
からS63までの処理と同様に垂直方向の座標値に対し
て行なうものである。S64では2つの注目画像部品要
素のうち垂直方向の位置の大きい方の注目画像部品要素
について、その外形の垂直方向の端部の小さい方の座標
値を取り出す。例えば図2に示す文書においては、垂直
方向の位置の大きい方の注目画像部品要素とは、左下の
風景の写っている写真画像であり、この画像の上端の垂
直方向の座標値を取り出す。またS65では2つの注目
画像部品要素のうち垂直方向の位置の小さい方の注目画
像部品要素について、その外形の垂直方向の端部の大き
い方の座標値を取り出す。例えば図2に示す文書におい
て、垂直方向の位置の小さい方の注目画像部品要素とは
右上の雪ダルマの写っている写真画像であり、この画像
の下端の垂直方向の座標値を取り出す。このようにし
て、図7に示すように、2つの注目画像部品要素からS
64およびS65の処理によって、横の破線で示した垂
直方向の位置が取り出される。
【0030】S66ではS64によって取り出した垂直
方向の座標値とS65によって取り出した垂直方向の座
標値の間の値を求める。これも例えば中間の値とするこ
とができる。
【0031】S67ではS63によって求めた水平方向
の中間座標値と、S66で求めた垂直方向の中間座標値
により、文書を4つの領域に分割する。図8は、分割さ
れた4つの領域の一例の説明図である。図7に示すよう
にハッチングを施した2つの注目画像部品要素から取り
出された水平方向、垂直方向の座標値から、その間の値
を求めることによって、図8に破線で示す中間座標値が
得られている。この中間座標値によって、図8に示す領
域ARU、ALU、ALD、ARDの4つの領域に分割すること
ができる。
【0032】図9は、文書領域の大きさに対する注目画
像部品要素の大きさを調べる処理の一例を示すフローチ
ャートである。この処理は、図3に示すフローチャート
の中のS33における処理である。S71では2つの注
目画像部品要素のうち1方の注目画像部品要素を選択す
る。S72では選択した注目画像部品要素の面積の値を
取り出す。この面積は図4のS45において既に求めて
いるため、その値を利用する。S73ではS32で4つ
に分割した文書の領域の中で、選択した注目画像部品要
素の存在する領域の面積を算出する。この面積の算出は
大きさ算出部5にて行なう。
【0033】S74では選択した注目画像部品要素の面
積に対する、S73によって求めた存在領域の面積の割
合を大きさ割合算出部7にて算出する。S75ではS7
4によって求めた面積の割合を大きさ割合判定部8にて
所定の閾値と比較する。S76ではS75での比較によ
り閾値以上の場合にはS77に進む。また、それより小
さい場合にはS83に進み市松模様のデザインが使用さ
れていないと判断する。このS74〜S76における処
理は、対象とする市松模様が、注目画像部品要素の大き
さがそれの存在する領域の大きさに比べてかなり大きな
割合のときに成り立つとしたことによる。これは面積の
割合が小さすぎると目につきにくくなり、市松模様を感
じなくなるためである。S75で比較に用いる閾値も処
理が始まる前にあらかじめ設定しておく。値は任意の値
を設定でき、限定されるものではないが、例えば、0.
5以上などとしておくことができる。
【0034】次のS77からS82までの処理は、S7
1からS76までの処理と同様に、もう1方の注目画像
部品要素に対して行なうものである。S77ではもう1
方の注目画像部品要素を選択する。S78では選択した
注目画像部品要素の面積の値を取り出す。S79では4
つに分割した領域の中で選択した注目画像部品要素の存
在する領域の面積を算出する。S80では選択した注目
画像部品要素の面積に対する、S79によって求めた存
在領域の面積の割合を大きさ割合算出部7にて算出す
る。S81ではS80によって求めた面積の割合を大き
さ割合判定部8にて所定の閾値と比較する。S82では
S81での比較により閾値以上の場合には図3における
S33の処理を終了する。この場合には、市松模様とい
うデザインが使用されている可能性が残されており、そ
の後の処理でそれを調べていくことになる。また、閾値
より小さい場合にはS83に進んで市松模様のデザイン
が使用されていないと判断する。
【0035】S83では、注目画像部品要素の面積が、
その存在する領域の面積に比べて小さく、目立たないと
判断される場合に、処理対象の文書には市松模様という
デザインが使用されていないと見なし、使用されていな
いという情報を出力する。この場合には、S34以降の
処理を行なう必要はない。
【0036】図2に示した画像の例では、図8に示した
ように、雪ダルマの写っている写真画像の領域の面積は
分割された領域ARUの面積の大部分を有しており、ま
た、風景の写っている写真画像の領域の面積も分割され
た領域ALDの面積の大部分を占めている。そのため、市
松模様というデザインが使用されている可能性が残され
ており、さらに調べていくことになる。
【0037】図10は、注目画像部品要素の存在しない
領域において部品要素の大きさと属性を調べる処理の一
例を示すフローチャートである。この処理は、図3に示
すフローチャートの中のS34における処理である。S
33では注目画像部品要素の含まれる分割領域について
判定を行なった。S34では注目画像部品要素の存在し
ない分割領域について、同様に判定を行なう。S91で
は4つに分割した領域の中で注目画像部品要素の存在し
ない2つの領域の中に入る部品要素を全て選び出す。S
92ではS91によって選び出された部品要素があるか
を判定し、ない場合にはS98に進み市松模様のデザイ
ンが使用されていると判断する。また、部品要素がある
場合にはS93に進み、さらに判定を続ける。
【0038】S93ではS91によって選出した部品要
素の外形の位置を外形位置算出部4にて計算する。部品
要素の輪郭の形状が任意の場合には外接矩形を求め、そ
れを外形の位置とする。S94では選出した部品要素の
面積を大きさ算出部5にて算出する。この計算はS93
によって求めた外形の位置を用いて計算する。部品要素
の輪郭の形状が任意の場合には外接矩形の面積とする。
S95では注目画像部品要素の存在しない2つの領域の
中に入る部品要素の中で面積の大きい部品要素を1つず
つ抽出する。S96ではS95によって抽出した2つの
部品要素の属性を調べる。S97ではS96の調査によ
って、両方とも文字である場合にはS98に進み、市松
模様のデザインが使用されていると判断する。また、一
方あるいは両方が文字でない場合にはS99に進み市松
模様のデザインが使用されていないと判断する。ここで
2つの部品要素の属性が文字以外の場合でも市松模様と
考えられる場合も存在するが、例えば、図形やイラスト
などの場合には、形状や色によっては写真画像と見た目
に似通うことも考えられるため、ここでは対象に入れな
いことにした。
【0039】S98では、市松模様というデザインが使
用されていると見なし、使用されているという情報を出
力する。またS99では、市松模様というデザインが使
用されていないと見なし、使用されていないという情報
を出力する。
【0040】図2に示した文書の例では、注目画像部品
要素の存在しない左上と右下の領域から部品要素を選出
する。この例では左上と右下の部分には文章が存在する
ので、この部分が抽出され、それぞれの属性が調査され
る。この抽出された部分の属性は文字であるので、図2
に示した文書は市松模様のデザインが使用されているも
のと判定されることになる。このようにして、文書に市
松模様のデザインが使用されているか否かを判定するこ
とができる。
【0041】図11は、本発明の文書解析方法あるいは
文書解析装置を用いた文書処理装置の一例を示すブロッ
ク図である。図中、21は情報入力部、22は操作情報
記憶部、23は文書情報記憶部、24は文書情報編集
部、25は文書情報表示部、26はデザイン情報解析
部、27はデザイン情報記憶部、28は市松模様情報解
析部である。ここでは、文書の入力作成から、文書の中
に市松模様というデザインが使用されているかを解析す
るまでの文書処理全般を行なう装置について説明する。
【0042】まず操作者による操作の情報や文書の素材
となるような情報を情報入力部21から取り込む。取り
込んだ操作情報は操作情報記憶部22に記憶される。ま
た、取り込んだ文書の素材や生成編集された文書は文書
情報記憶部23に記憶しておく。文書の生成編集は文書
情報編集部24にて行ない、生成編集した文書の表示は
文書情報表示部25にて行なう。
【0043】文書のデザインに関する情報はデザイン情
報解析部26にて解析し、解析されたデザインに関する
情報はデザイン情報記憶部27に記憶する。デザインの
ひとつである市松模様についてはデザイン情報解析部2
6の中の市松模様情報解析部28にて行なう。この市松
模様情報解析部28として、本発明の文書解析方法ある
いは文書解析装置を組み込めばよい。市松模様情報解析
部28は、文書情報記憶部23に記憶されている文書の
情報を部品要素読み込み部1を介して読み込み、解析を
行なって、市松模様のデザインが使用されているか否か
をデザイン情報記憶部27に出力し、記憶させる。市松
模様の他に解析したいデザインがあれば、デザイン情報
解析部26に、それための情報解析部を用意すればよ
い。
【0044】
【発明の効果】以上の説明から明らかなように、本発明
によれば、既存の文書の中に市松模様というデザインが
使用されているか否かを自動的に調べることができ、デ
ザインの解析を自動的に行なうことができるという効果
がある。
【図面の簡単な説明】
【図1】 本発明の実施の一形態を示す構成図である。
【図2】 市松模様のデザインが利用されている文書の
一例の説明図である。
【図3】 本発明の実施の一形態における処理の概要を
示すフローチャートである。
【図4】 画像部品要素の位置と大きさについて調べる
処理の一例を示すフローチャートである。
【図5】 位置関係調査部における注目画像部品要素の
水平方向の重なり具合の判定の説明図である。
【図6】 文書領域の分割処理の一例を示すフローチャ
ートである。
【図7】 各注目画像部品要素から取り出した座標値の
位置の一例の説明図である。
【図8】 分割された4つの領域の一例の説明図であ
る。
【図9】 文書領域の大きさに対する注目画像部品要素
の大きさを調べる処理の一例を示すフローチャートであ
る。
【図10】 注目画像部品要素の存在しない領域におい
て部品要素の大きさと属性を調べる処理の一例を示すフ
ローチャートである。
【図11】 本発明の文書解析方法あるいは文書解析装
置を用いた文書処理装置の一例を示すブロック図であ
る。
【符号の説明】 1…部品要素読み込み部、2…部品要素属性判定部、3
…部品要素数判定部、4…外形位置算出部、5…大きさ
算出部、6…大きさ順序調査部、7…大きさ割合算出
部、8…大きさ割合判定部、9…位置関係調査部、10
…領域分割部、21…情報入力部、22…操作情報記憶
部、23…文書情報記憶部、24…文書情報編集部、2
5…文書情報表示部、26…デザイン情報解析部、27
…デザイン情報記憶部、28…市松模様情報解析部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書のデザインを解析する文書解析方法
    において、文書を構成する部品要素の中の任意の同じ属
    性の部品要素の大きさを調べて大きい2つの部品要素を
    抽出し、抽出した前記2つの部品要素の水平方向および
    垂直方向の占める位置の重なりを調べ、前記2つの部品
    要素をもとに文書を4領域に分割し、前記2つの部品要
    素の大きさに対する前記2つの部品要素の存在する分割
    された領域の大きさの割合を調べ、前記2つの部品要素
    の存在しない2つの分割された領域内の部品要素を調べ
    ることにより文書の所定のデザインを解析することを特
    徴とする文書解析方法。
  2. 【請求項2】 前記任意の同じ属性の部品要素は、画像
    の属性を有する部品要素であることを特徴とする請求項
    1に記載の文書解析方法。
  3. 【請求項3】 前記2つの部品要素の存在しない2つの
    分割された領域内の部品要素を調べる処理は、該領域内
    に部品要素が全くない、またはそれぞれの該領域中で最
    も大きい部品要素の属性を調べて属性が文字であるか否
    かを調べることを特徴とする請求項1に記載の文書解析
    方法。
  4. 【請求項4】 文書のデザインを解析する文書解析装置
    において、文書を構成する部品要素を読み込む部品要素
    読み込み手段と、前記部品要素の属性が所定のものであ
    るか否かを判定する部品要素属性判定手段と、前記部品
    要素の数を調べる部品要素数判定手段と、前記部品要素
    の外形の位置を算出する外形位置算出手段と、前記部品
    要素の大きさを算出する大きさ算出手段と、前記部品要
    素の大きさの順番を調べる大きさ順序調査手段と、前記
    部品要素間や前記部品要素と領域間の大きさの割合を算
    出する大きさ割合算出手段と、該大きさ割合算出手段で
    算出した大きさの割合を所定の閾値と比較する大きさ割
    合判定手段と、前記部品要素間の位置関係を調べる位置
    関係判定手段と、文書を4つの領域に分割する領域分割
    手段を有することを特徴とする文書解析装置。
JP9338559A 1997-12-09 1997-12-09 文書解析方法および文書解析装置 Pending JPH11175519A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9338559A JPH11175519A (ja) 1997-12-09 1997-12-09 文書解析方法および文書解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9338559A JPH11175519A (ja) 1997-12-09 1997-12-09 文書解析方法および文書解析装置

Publications (1)

Publication Number Publication Date
JPH11175519A true JPH11175519A (ja) 1999-07-02

Family

ID=18319325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9338559A Pending JPH11175519A (ja) 1997-12-09 1997-12-09 文書解析方法および文書解析装置

Country Status (1)

Country Link
JP (1) JPH11175519A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008072446A (ja) * 2006-09-14 2008-03-27 Seiko Epson Corp 文書編集装置、プログラムおよび記憶媒体
JP2008186332A (ja) * 2007-01-31 2008-08-14 Seiko Epson Corp レイアウト評価装置、プログラムおよび記憶媒体
JP2008191746A (ja) * 2007-02-01 2008-08-21 Seiko Epson Corp 動画生成装置、プログラムおよび記憶媒体
JP2008204179A (ja) * 2007-02-20 2008-09-04 Seiko Epson Corp 文書評価装置、プログラムおよび記憶媒体
CN112651215A (zh) * 2020-12-31 2021-04-13 中国农业银行股份有限公司 文档配图确定方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008072446A (ja) * 2006-09-14 2008-03-27 Seiko Epson Corp 文書編集装置、プログラムおよび記憶媒体
JP2008186332A (ja) * 2007-01-31 2008-08-14 Seiko Epson Corp レイアウト評価装置、プログラムおよび記憶媒体
JP2008191746A (ja) * 2007-02-01 2008-08-21 Seiko Epson Corp 動画生成装置、プログラムおよび記憶媒体
JP2008204179A (ja) * 2007-02-20 2008-09-04 Seiko Epson Corp 文書評価装置、プログラムおよび記憶媒体
CN112651215A (zh) * 2020-12-31 2021-04-13 中国农业银行股份有限公司 文档配图确定方法、装置、电子设备及存储介质
CN112651215B (zh) * 2020-12-31 2023-11-03 中国农业银行股份有限公司 文档配图确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US9881229B2 (en) Apparatus, method and program for image search
EP2270714B1 (en) Image processing device and image processing method
US20060153447A1 (en) Characteristic region extraction device, characteristic region extraction method, and characteristic region extraction program
US20040218838A1 (en) Image processing apparatus and method therefor
US20010014176A1 (en) Document image processing device and method thereof
JP4165042B2 (ja) 画像レイアウト評価方法および画像レイアウト評価システムならびに画像レイアウト評価処理プログラム
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
JP2001060247A (ja) 画像処理装置および画像処理方法
EP1017011A2 (en) Block selection of table features
US20040165000A1 (en) Picture layout processing apparatus, picture layout processing method, and program therefor
US7844080B2 (en) Image processing system and image processing method, and computer program
JP2004363786A (ja) 画像処理装置
JPH11175519A (ja) 文書解析方法および文書解析装置
US8077977B2 (en) Image processing system, image processing method, computer readable medium and computer data signal
JP3726442B2 (ja) 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JP4116377B2 (ja) 画像処理方法および画像処理装置
JP4207256B2 (ja) カラー画像の領域分割方法およびプログラム記憶媒体
EP0627701B1 (en) Image processing method and apparatus for document analysis
JP2000333022A (ja) 画像の二値化方法及び装置並びに記憶媒体
JP2004192121A (ja) 画像検索装置、画像分類方法、画像検索方法、及びプログラム
JP2002027228A (ja) 画像処理のための装置、方法及び記録媒体
JPH0830725A (ja) 画像処理装置及び方法
JPH10222688A (ja) 画像処理方法
JPH11175521A (ja) 文書解析方法および文書解析装置
JPH11175520A (ja) 文書解析方法および文書解析装置