JPH03290774A - 文書画像の文章領域抽出装置 - Google Patents
文書画像の文章領域抽出装置Info
- Publication number
- JPH03290774A JPH03290774A JP2091654A JP9165490A JPH03290774A JP H03290774 A JPH03290774 A JP H03290774A JP 2091654 A JP2091654 A JP 2091654A JP 9165490 A JP9165490 A JP 9165490A JP H03290774 A JPH03290774 A JP H03290774A
- Authority
- JP
- Japan
- Prior art keywords
- area
- picture
- image
- line
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002093 peripheral effect Effects 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40062—Discrimination between different image types, e.g. two-tone, continuous tone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は、文章、線図、写真等が混在する文書におい
て、文章領域中の文字を文字認識装置等により認識する
際、事前に文章領域を抽出するための入力操作を不要に
して、自動的に文章領域を判別し抽出することのできる
文書画像の文章領域抽出装置に関する。
て、文章領域中の文字を文字認識装置等により認識する
際、事前に文章領域を抽出するための入力操作を不要に
して、自動的に文章領域を判別し抽出することのできる
文書画像の文章領域抽出装置に関する。
(従来の技術)
従来装置としては、2値化した文書画像データに対し、
簡単なノイズ除去を行なった後、演算が比較的容易な投
影演算により文書画像の周辺分布を求め、これがゼロに
なる空白部を検出して各領域間の境界を決定する文章領
域抽出装置が知られている。
簡単なノイズ除去を行なった後、演算が比較的容易な投
影演算により文書画像の周辺分布を求め、これがゼロに
なる空白部を検出して各領域間の境界を決定する文章領
域抽出装置が知られている。
(発明が解決しようとする課題)
しかしながらこの従来装置においては、周辺分布がゼロ
になる空白部を検出しているため、文書内のレイアウト
が複雑になると、実際には各領域間の境界としての空白
部分が存在するにもかかわらず、周辺分布上に投影演算
値がゼロになる部分が現われないことがあり、全ての境
界を検出することができずに、文章領域の抽出の際、入
力操作を必要とする煩わしさがあった。
になる空白部を検出しているため、文書内のレイアウト
が複雑になると、実際には各領域間の境界としての空白
部分が存在するにもかかわらず、周辺分布上に投影演算
値がゼロになる部分が現われないことがあり、全ての境
界を検出することができずに、文章領域の抽出の際、入
力操作を必要とする煩わしさがあった。
そこで本発明は、上記問題点を解決するためになされた
もので、その目的とするところは、文章以外に図形や写
真を含みレイアウトが複雑な文書画像であっても、文章
領域を自動的に抽出することのできる文書画像の文章領
域抽出装置を提供することにある。
もので、その目的とするところは、文章以外に図形や写
真を含みレイアウトが複雑な文書画像であっても、文章
領域を自動的に抽出することのできる文書画像の文章領
域抽出装置を提供することにある。
(課題を解決するための手段)
上記目的を達成するために、本発明は、文章、線図、写
真等が混在する文書画像を撮像して得られた2値化画像
データからX、Y両座標軸に関し各ラインごとの黒画素
数を計数して周辺分布を求める投影手段と、得られた周
辺分布から分布値がその前後よりも小さい谷部を検出す
る手段と、検出された谷部を通過するラインを分割線と
して、画面を縦横に分割する手段と1分割された画像領
域ごとに、隣接する他の領域との境界部が互いに黒画素
により接している場合に両領域を合併する手段と、分割
された画像領域ごとに、領域を区分する外接枠の内側に
黒画素が存在しない場合に領域の外接枠を黒画素の位置
まで後退して領域を縮小する手段と、画像領域内の線密
度を算出し、その値の大小により内部の画像が文章画像
である文章領域を抽出する手段とを備えたことを特徴と
する。
真等が混在する文書画像を撮像して得られた2値化画像
データからX、Y両座標軸に関し各ラインごとの黒画素
数を計数して周辺分布を求める投影手段と、得られた周
辺分布から分布値がその前後よりも小さい谷部を検出す
る手段と、検出された谷部を通過するラインを分割線と
して、画面を縦横に分割する手段と1分割された画像領
域ごとに、隣接する他の領域との境界部が互いに黒画素
により接している場合に両領域を合併する手段と、分割
された画像領域ごとに、領域を区分する外接枠の内側に
黒画素が存在しない場合に領域の外接枠を黒画素の位置
まで後退して領域を縮小する手段と、画像領域内の線密
度を算出し、その値の大小により内部の画像が文章画像
である文章領域を抽出する手段とを備えたことを特徴と
する。
(作用)
本発明においては、文章、3図、写真等が混在する文書
画像を撮像して得られた2値化画像データが入力される
と、投影手段により、x、y両座標軸に関し各ラインご
との黒画素数が計数されて周辺分布が求められる。
画像を撮像して得られた2値化画像データが入力される
と、投影手段により、x、y両座標軸に関し各ラインご
との黒画素数が計数されて周辺分布が求められる。
次いで、周辺分布値の中から前後の分布値よりも小さい
谷部が検出され、この谷部を通過するラインを分割線と
して、画面が複数の画像領域に区分される。
谷部が検出され、この谷部を通過するラインを分割線と
して、画面が複数の画像領域に区分される。
区分された各画像領域は、隣接する他の領域との境界部
が互いに黒画素により接している場合は両領域が合併さ
れ1分割線により区分された領域の外接枠の内側に黒画
素が存在しない場合は領域の外接枠が黒画素の位置にま
で後退し・て領域が縮小される。
が互いに黒画素により接している場合は両領域が合併さ
れ1分割線により区分された領域の外接枠の内側に黒画
素が存在しない場合は領域の外接枠が黒画素の位置にま
で後退し・て領域が縮小される。
さらに1画像領域内の線密度から領域内の画像が文章画
像である領域が抽出される。
像である領域が抽出される。
(実施例)
第1図は本発明の一実施例の処理内容を表すフローチャ
ートである。
ートである。
以下、フローチャートに沿って動作を説明する。
最初に周辺分布の計算処理(Sl)を行う。
この処理は1文書画像をイメージスキャナ等の入力装置
で入力し、2値化した後に文書画像中の黒画素のX軸投
影及びY軸投影演算により周辺分布を求める。黒画素の
投影とはX軸方向又はY軸方向に1ラインごとの黒画素
数を計測し、その値をX軸又はY軸に写像したものであ
る。また、黒画素数をX軸方向に計測しそれをY軸に写
像したものをY軸投影と呼び、Y軸方向に計測してX軸
に写像したものをX軸投影と呼ぶ。
で入力し、2値化した後に文書画像中の黒画素のX軸投
影及びY軸投影演算により周辺分布を求める。黒画素の
投影とはX軸方向又はY軸方向に1ラインごとの黒画素
数を計測し、その値をX軸又はY軸に写像したものであ
る。また、黒画素数をX軸方向に計測しそれをY軸に写
像したものをY軸投影と呼び、Y軸方向に計測してX軸
に写像したものをX軸投影と呼ぶ。
第2図は、文字Wが連続して配置されてなる文章と、文
章以外の図形p、罫線ai、a2を含む画像を、ライン
ごとに含まれる黒画素をX軸及びY軸に投影して得られ
る周辺分布の一例を示し、画像中の縦又は横に空白部が
連続している部分に相当する位置が、それぞれX軸、Y
軸に投影されて周辺分布中の周囲よりもくぼんだ谷Tx
□〜Tx、、Ty工〜Ty&となる。
章以外の図形p、罫線ai、a2を含む画像を、ライン
ごとに含まれる黒画素をX軸及びY軸に投影して得られ
る周辺分布の一例を示し、画像中の縦又は横に空白部が
連続している部分に相当する位置が、それぞれX軸、Y
軸に投影されて周辺分布中の周囲よりもくぼんだ谷Tx
□〜Tx、、Ty工〜Ty&となる。
次に、分割線検出の処理(S2)を行う。
この処理は周辺分布中の谷を検出し、その谷の位置を通
る水平又は垂直線を分割線とする。垂直分割線の座標値
はX軸上の周辺分布中の谷部の最小値により求められ、
水平分割線の座標値はY軸上の周辺分布中の谷部の最小
値により求められる。
る水平又は垂直線を分割線とする。垂直分割線の座標値
はX軸上の周辺分布中の谷部の最小値により求められ、
水平分割線の座標値はY軸上の周辺分布中の谷部の最小
値により求められる。
なお、周辺分布の谷部は次のように定義することができ
る。
る。
周辺分布をP (i )と表わし、P■inをP+++
in:MiN(P+;−n+、−、P(i−1>、P(
1゜P (i+1 )F ”’ p P (inn))
”’ (1)としたときに、P■;n=P<
i)となるような場合・これを周辺分布の谷とする。た
だし、P(i−n+==−=P+5−t)=P+1)=
P+i◆l>=−=P(i*rnでないならば、最小値
は複数であってもよい。ここでiは谷の位置を示し、X
軸上の周辺分布に対してはX座標値であり、Y軸上の周
辺分布に対してはX座標値である。従ってX軸上の周辺
分布においてP X+1in= P x(a )となる
場合、分割線はx = aで表わされる。
in:MiN(P+;−n+、−、P(i−1>、P(
1゜P (i+1 )F ”’ p P (inn))
”’ (1)としたときに、P■;n=P<
i)となるような場合・これを周辺分布の谷とする。た
だし、P(i−n+==−=P+5−t)=P+1)=
P+i◆l>=−=P(i*rnでないならば、最小値
は複数であってもよい。ここでiは谷の位置を示し、X
軸上の周辺分布に対してはX座標値であり、Y軸上の周
辺分布に対してはX座標値である。従ってX軸上の周辺
分布においてP X+1in= P x(a )となる
場合、分割線はx = aで表わされる。
なお、実際の画像データから得られる周辺分布には小さ
な凹凸があり、谷の誤検出を防ぐため谷の検出処理前に
次式により周辺分布を平滑化する。
な凹凸があり、谷の誤検出を防ぐため谷の検出処理前に
次式により周辺分布を平滑化する。
第3図は、平滑化と谷検出の処理例を示す。本実施例は
、式(1)及び式(2)においてm = n = 1と
した例である。図(a)は周辺分布の具体例を示し、左
端より分布値がそれぞれA=2.B=8゜C=6である
ので、式(2)により同図(b)に示されるように例え
ばBを平均化した分布値として平均値D″:5が得られ
る。同様にして、各分布値がその前後の分布値との平均
値に置き換えて平滑化されることにより、周辺分布内に
含まれるノイズが除去される。
、式(1)及び式(2)においてm = n = 1と
した例である。図(a)は周辺分布の具体例を示し、左
端より分布値がそれぞれA=2.B=8゜C=6である
ので、式(2)により同図(b)に示されるように例え
ばBを平均化した分布値として平均値D″:5が得られ
る。同様にして、各分布値がその前後の分布値との平均
値に置き換えて平滑化されることにより、周辺分布内に
含まれるノイズが除去される。
また、谷の検出については、図(b)の平滑化された分
布値、例えばE=7.F=4.G=5の3値から式(1
)によりムの位置、すなわちFの位置が谷として検出さ
れる。他のΔで示した位置も同様に谷として検出される
。
布値、例えばE=7.F=4.G=5の3値から式(1
)によりムの位置、すなわちFの位置が谷として検出さ
れる。他のΔで示した位置も同様に谷として検出される
。
これらの処理により第2図の実施例では、X軸上の周辺
分布において谷TXL−TX、が、Y軸上の周辺分布に
おいて谷Tyi〜T’gがそれぞれ検出され、X軸又は
Y軸の谷が検出された位置に垂直なラインがそれぞれ垂
直分割線Lv工〜Lv、、水平分割線Lo工〜LoGに
決定される。
分布において谷TXL−TX、が、Y軸上の周辺分布に
おいて谷Tyi〜T’gがそれぞれ検出され、X軸又は
Y軸の谷が検出された位置に垂直なラインがそれぞれ垂
直分割線Lv工〜Lv、、水平分割線Lo工〜LoGに
決定される。
次にブロック抽出の処理(S3)をそれぞれ行う。
この処理は、検出された分割線により文書画像の画面を
分割する。
分割する。
第4図(a)は、分割線LvL−Lv、、L)l、〜L
ll。
ll。
により文書画像を分割した実施例を示す。本実施例では
、直交する8本と6本の分割線により画像が35のブロ
ックに分割される。
、直交する8本と6本の分割線により画像が35のブロ
ックに分割される。
次に、ここで得られた各ブロックについて、ブロックサ
イズの縮小処理を行ない、ブロック内の画像の外接枠を
後退させる。第4図(b)は縮小処理例を示し、ブロッ
クSatにおいて外周の分割線L’V31 LV41
LM□と内部の文字Wとの間に一様に空白部があるので
、文字Wの外周に相当する黒画素に接するまで外接枠を
後退させて実線部を新しい外接枠とする。また、ブロッ
ク内に画像がない場合には、そのブロックを削除する。
イズの縮小処理を行ない、ブロック内の画像の外接枠を
後退させる。第4図(b)は縮小処理例を示し、ブロッ
クSatにおいて外周の分割線L’V31 LV41
LM□と内部の文字Wとの間に一様に空白部があるので
、文字Wの外周に相当する黒画素に接するまで外接枠を
後退させて実線部を新しい外接枠とする。また、ブロッ
ク内に画像がない場合には、そのブロックを削除する。
同様な処理を全ブロックについて行ない、ブロックを再
定義する。本実施例では、削除されるブロックがないの
で再定義の前後でブロック数に変化はない、再定義され
た後のブロックの配置は第5図となる。
定義する。本実施例では、削除されるブロックがないの
で再定義の前後でブロック数に変化はない、再定義され
た後のブロックの配置は第5図となる。
次にサブ領域の抽出処理(S4)を行う。
この処理は、前段の処理で抽出した各ブロックにおいて
ブロック同士が接する場合、これらを無条件に統合する
。統合されたブロックをサブ領域と呼ぶ。なお、相互に
隣接するブロックであっても、それぞれ有するデータ値
の属性が異なる場合は、文書レイアウトの特性からブロ
ックは空白部で分離されるべきものと見なせるので、ブ
ロック同士が接している場合は分離される空白が存在し
ないと同時にその属性が同一ということになる。
ブロック同士が接する場合、これらを無条件に統合する
。統合されたブロックをサブ領域と呼ぶ。なお、相互に
隣接するブロックであっても、それぞれ有するデータ値
の属性が異なる場合は、文書レイアウトの特性からブロ
ックは空白部で分離されるべきものと見なせるので、ブ
ロック同士が接している場合は分離される空白が存在し
ないと同時にその属性が同一ということになる。
第5図に示した文書画像からサブ領域を抽出すると第6
図に示す配置となる。
図に示す配置となる。
次に、文章領域の抽出処理(S5)を行う。
この処理は、各々のサブ領域について、ランレングスか
ら得られる線密度及び黒画素密度を求め、これをもとに
各サブ領域の属性を判別して文章領域を抽出する。一般
にサブ領域において互いに属性が等しい場合は、互いの
線密度及び黒画素密度がほぼ等しくなる。ここで言う属
性判別とは、文章、線図、写真等の画像ごとに異なる固
有の線密度等の特性からサブ領域の種類を判別して識別
うベルを付けることである。
ら得られる線密度及び黒画素密度を求め、これをもとに
各サブ領域の属性を判別して文章領域を抽出する。一般
にサブ領域において互いに属性が等しい場合は、互いの
線密度及び黒画素密度がほぼ等しくなる。ここで言う属
性判別とは、文章、線図、写真等の画像ごとに異なる固
有の線密度等の特性からサブ領域の種類を判別して識別
うベルを付けることである。
以下1本実施例における属性判別の手順を述べる。まず
、m密度及び黒画素密度がほぼ等しくなるサブ領域に同
じラベルを付け1つのグループにまとめる。全サブ領域
について同様に行ない、いくつかのグループに分類する
。
、m密度及び黒画素密度がほぼ等しくなるサブ領域に同
じラベルを付け1つのグループにまとめる。全サブ領域
について同様に行ない、いくつかのグループに分類する
。
第6図の実施例では、数字はサブ領域の番号、アルファ
ベットはグループラベルを表わしており、17のサブ領
域がT、U、V3つのグループに分類される。
ベットはグループラベルを表わしており、17のサブ領
域がT、U、V3つのグループに分類される。
次に、各グループの属性を判別する。ここでは、文字認
識装置で文字を認識するという目的のため。
識装置で文字を認識するという目的のため。
グループの中から文章領域を判別し抽出する。
般に、文書画像データは1文章領域と他の線図領域、写
真領域との線密度を比較すると次のような特性がある。
真領域との線密度を比較すると次のような特性がある。
St>Sd、SP ・・・(3)ただ
し、St:文章領域の線密度 Sd:9図領域の1g密度 SP:写真領域の線密度 これにより、各グループの線密度S T、 S u、
S vを比較し5文章領域に属するサブ領域を判別する
。
し、St:文章領域の線密度 Sd:9図領域の1g密度 SP:写真領域の線密度 これにより、各グループの線密度S T、 S u、
S vを比較し5文章領域に属するサブ領域を判別する
。
本実施例ではグループTが文章領域に属するサブ領域と
して判別され、他のグループU、Vは線図又は写真領域
と判別される。なお、線密度以外に黒画素密度について
も比較参照すればさらに判別精度が向上する。
して判別され、他のグループU、Vは線図又は写真領域
と判別される。なお、線密度以外に黒画素密度について
も比較参照すればさらに判別精度が向上する。
最後にグループTと判別された互いに隣接するサブ領域
を矩形で囲み文章領域として表示する。
を矩形で囲み文章領域として表示する。
このとき矩形枠の中に他の属性、つまりグループU又は
■が含まれないように矩形の大きさ、形状が決定される
。
■が含まれないように矩形の大きさ、形状が決定される
。
第7図は以上の処理により抽出された文書領域の例を示
す。本実施例では4つの文章領域が抽出される。
す。本実施例では4つの文章領域が抽出される。
本実施例では、上述したように周辺分布の谷を検出して
、領域の境界を検出することによりレイアウトが複雑な
文書であっても文章領域の抽出が容易に行えると同時に
、罫線等により囲まれた文章領域も抽出することができ
る。また、この実施例では周辺分布を平滑化した後に谷
の検出を行なうため、従来の周辺分布を用いる方法で問
題点となっていた文書画像データ中に含まれるノイズの
悪影響を小さくすることができる。
、領域の境界を検出することによりレイアウトが複雑な
文書であっても文章領域の抽出が容易に行えると同時に
、罫線等により囲まれた文章領域も抽出することができ
る。また、この実施例では周辺分布を平滑化した後に谷
の検出を行なうため、従来の周辺分布を用いる方法で問
題点となっていた文書画像データ中に含まれるノイズの
悪影響を小さくすることができる。
(発明の効果)
以上述べたように本発明によれば、文章、線区、写真等
が混在してレイアウトが複雑な文書画像であっても、周
辺分布の谷を検出して領域を抽出し、さらに領域内の線
密度から文章領域であるか否かが識別されるため、文字
認識装置に本発明を用いることにより入力画像から文章
画像を抽出する前処理を自動化することができる。
が混在してレイアウトが複雑な文書画像であっても、周
辺分布の谷を検出して領域を抽出し、さらに領域内の線
密度から文章領域であるか否かが識別されるため、文字
認識装置に本発明を用いることにより入力画像から文章
画像を抽出する前処理を自動化することができる。
第1図は実施例の処理内容を表すフローチャート、第2
図は処理画像の具体例と周辺分布を示す図、第3図は周
辺分布の平滑化の一例を示す説明図、第4図は分割線に
よる画像分割と縮小処理例を示す説明図、第5図は抽出
されたブロックの配置図、第6図は抽出されたサブブロ
ックの配置図、第7図は抽出された文章領域の配置図で
ある。 L hl−L11G+ Lvl−Lv、−分割線Tx、
〜Txs、Ty、−Ty1周辺分布中の谷W・・・文字
p・・・写真画像 G、、a、・・・罫線T・・
・文章を含むサブ領域のグループラベルU・・・線図を
含むサブ領域のグループラベル■・写真を含むサブ領域
のグループラベル↓〜17・・サブ領域 第 1 図 第 図 (a) 第 図 第4 図 (aン (b)
図は処理画像の具体例と周辺分布を示す図、第3図は周
辺分布の平滑化の一例を示す説明図、第4図は分割線に
よる画像分割と縮小処理例を示す説明図、第5図は抽出
されたブロックの配置図、第6図は抽出されたサブブロ
ックの配置図、第7図は抽出された文章領域の配置図で
ある。 L hl−L11G+ Lvl−Lv、−分割線Tx、
〜Txs、Ty、−Ty1周辺分布中の谷W・・・文字
p・・・写真画像 G、、a、・・・罫線T・・
・文章を含むサブ領域のグループラベルU・・・線図を
含むサブ領域のグループラベル■・写真を含むサブ領域
のグループラベル↓〜17・・サブ領域 第 1 図 第 図 (a) 第 図 第4 図 (aン (b)
Claims (1)
- 【特許請求の範囲】 文章、線図、写真等が混在する文書画像を撮像して得
られた2値化画像データからX,Y両座標軸に関し各ラ
インごとの黒画素数を計数して周辺分布を求める投影手
段と、 得られた周辺分布から分布値がその前後よりも小さい谷
部を検出する手段と、 検出された谷部を通過するラインを分割線として、画面
を縦横に分割する手段と、 分割された画像領域ごとに、隣接する他の領域との境界
部が互いに黒画素により接している場合に両領域を合併
する手段と、 分割された画像領域ごとに、領域を区分する外接枠の内
側に黒画素が存在しない場合に領域の外接枠を黒画素の
位置まで後退して領域を縮小する手段と、 画像領域内の線密度を算出し、その値の大小により内部
の画像が文章画像である文章領域を抽出する手段と、 を備えたことを特徴とする文書画像の文章領域抽出装置
。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2091654A JPH03290774A (ja) | 1990-04-06 | 1990-04-06 | 文書画像の文章領域抽出装置 |
US07/678,217 US5091964A (en) | 1990-04-06 | 1991-04-01 | Apparatus for extracting a text region in a document image |
GB9107066A GB2244886B (en) | 1990-04-06 | 1991-04-04 | Apparatus for extracting a text region in a document image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2091654A JPH03290774A (ja) | 1990-04-06 | 1990-04-06 | 文書画像の文章領域抽出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03290774A true JPH03290774A (ja) | 1991-12-20 |
Family
ID=14032496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2091654A Pending JPH03290774A (ja) | 1990-04-06 | 1990-04-06 | 文書画像の文章領域抽出装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5091964A (ja) |
JP (1) | JPH03290774A (ja) |
GB (1) | GB2244886B (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612540B2 (ja) * | 1990-06-28 | 1994-02-16 | 富士ゼロックス株式会社 | 文書作成支援装置 |
EP0472313B1 (en) * | 1990-08-03 | 1998-11-11 | Canon Kabushiki Kaisha | Image processing method and apparatus therefor |
WO1993010500A1 (en) * | 1991-11-13 | 1993-05-27 | Iowa State University Research Foundation, Inc. | Improved memory capacity neural network |
JPH05151254A (ja) * | 1991-11-27 | 1993-06-18 | Hitachi Ltd | 文書処理方法およびシステム |
US5563996A (en) * | 1992-04-13 | 1996-10-08 | Apple Computer, Inc. | Computer note pad including gesture based note division tools and method |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
DE4318526C2 (de) * | 1992-06-10 | 1999-11-25 | Canon Kk | Bildeingabevorrichtung |
US5596655A (en) * | 1992-08-18 | 1997-01-21 | Hewlett-Packard Company | Method for finding and classifying scanned information |
JPH06203165A (ja) * | 1993-01-07 | 1994-07-22 | Canon Inc | 画像情報処理方法及び装置 |
US5592572A (en) * | 1993-11-05 | 1997-01-07 | The United States Of America As Represented By The Department Of Health And Human Services | Automated portrait/landscape mode detection on a binary image |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
JP3096388B2 (ja) * | 1994-06-22 | 2000-10-10 | シャープ株式会社 | 電子複写機における自動画質調整装置 |
US5548664A (en) * | 1994-06-29 | 1996-08-20 | Wang Laboratories, Inc. | Automatic determination of blank pages and binary images' bounding boxes |
US5852676A (en) * | 1995-04-11 | 1998-12-22 | Teraform Inc. | Method and apparatus for locating and identifying fields within a document |
JPH0951422A (ja) * | 1995-08-09 | 1997-02-18 | Minolta Co Ltd | 画像編集装置 |
US5774579A (en) * | 1995-08-11 | 1998-06-30 | Canon Kabushiki Kaisha | Block selection system in which overlapping blocks are decomposed |
US5737442A (en) * | 1995-10-20 | 1998-04-07 | Bcl Computers | Processor based method for extracting tables from printed documents |
US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
JP3814320B2 (ja) * | 1995-12-14 | 2006-08-30 | キヤノン株式会社 | 画像処理方法及び装置 |
US5915039A (en) * | 1996-11-12 | 1999-06-22 | International Business Machines Corporation | Method and means for extracting fixed-pitch characters on noisy images with complex background prior to character recognition |
US6512848B2 (en) | 1996-11-18 | 2003-01-28 | Canon Kabushiki Kaisha | Page analysis system |
JP2000163044A (ja) * | 1998-11-30 | 2000-06-16 | Sharp Corp | 画像表示装置 |
US6507671B1 (en) * | 1998-12-11 | 2003-01-14 | International Business Machines Corporation | Method and system for dropping template from a filled in image |
US6614930B1 (en) * | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
US6608930B1 (en) * | 1999-08-09 | 2003-08-19 | Koninklijke Philips Electronics N.V. | Method and system for analyzing video content using detected text in video frames |
WO2001014992A1 (en) * | 1999-08-25 | 2001-03-01 | Kent Ridge Digital Labs | Document classification apparatus |
US7006711B2 (en) * | 2000-06-21 | 2006-02-28 | Microsoft Corporation | Transform table for ink sizing and compression |
US7397949B2 (en) * | 2000-06-21 | 2008-07-08 | Microsoft Corporation | Serial storage of ink and its properties |
US6707473B2 (en) * | 2001-08-01 | 2004-03-16 | Microsoft Corporation | Dynamic rendering of ink strokes with transparency |
DE60204066T2 (de) * | 2001-02-22 | 2006-02-02 | Oce Print Logic Technologies S.A. | Automatische Lokalisierung von Tabellen in Dokumenten |
US7346229B2 (en) * | 2001-06-27 | 2008-03-18 | Microsoft Corporation | Transform table for ink sizing and compression |
US6909430B2 (en) * | 2001-08-01 | 2005-06-21 | Microsoft Corporation | Rendering ink strokes of variable width and angle |
US7168038B2 (en) * | 2001-08-01 | 2007-01-23 | Microsoft Corporation | System and method for scaling and repositioning drawings |
JP4000844B2 (ja) * | 2001-12-11 | 2007-10-31 | 日本電気株式会社 | コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム |
US7602972B1 (en) * | 2005-04-25 | 2009-10-13 | Adobe Systems, Incorporated | Method and apparatus for identifying white space tables within a document |
JP4771804B2 (ja) * | 2005-12-20 | 2011-09-14 | 富士通株式会社 | レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 |
JP5776419B2 (ja) * | 2011-07-29 | 2015-09-09 | ブラザー工業株式会社 | 画像処理装置、画像処理プラグラム |
JP5983858B2 (ja) * | 2013-03-08 | 2016-09-06 | 株式会社島津製作所 | 分析対象領域設定装置 |
EP3175773A4 (en) * | 2014-07-30 | 2018-10-10 | Olympus Corporation | Image processing device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4447830A (en) * | 1981-09-10 | 1984-05-08 | Xerox Corporation | Image scanning apparatus and method |
US4403257A (en) * | 1982-03-19 | 1983-09-06 | Xerox Corporation | Halftone detection and delineation |
US4741046A (en) * | 1984-07-27 | 1988-04-26 | Konishiroku Photo Industry Co., Ltd. | Method of discriminating pictures |
JPH0344788A (ja) * | 1989-07-13 | 1991-02-26 | Fuji Facom Corp | 文書画像の領域抽出方法 |
-
1990
- 1990-04-06 JP JP2091654A patent/JPH03290774A/ja active Pending
-
1991
- 1991-04-01 US US07/678,217 patent/US5091964A/en not_active Expired - Fee Related
- 1991-04-04 GB GB9107066A patent/GB2244886B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB2244886A (en) | 1991-12-11 |
GB9107066D0 (en) | 1991-05-22 |
US5091964A (en) | 1992-02-25 |
GB2244886B (en) | 1994-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH03290774A (ja) | 文書画像の文章領域抽出装置 | |
US5444793A (en) | Method for detecting machine printed monetary amounts in binary images | |
EP0831421B1 (en) | Method and apparatus for retouching a digital color image | |
JPH10162099A (ja) | 矩形オブジェクトの認識方法及び認識装置、矩形オブジェクトの認識を行うプログラム・プロダクト | |
JP3728224B2 (ja) | 文書処理装置及び方法 | |
JPH10513284A (ja) | 二進イメージに対する空白ページ及び文字枠の自動決定 | |
US5014331A (en) | Method of detecting an internal point within a closed area | |
JP2007072642A (ja) | 画像処理装置および画像処理装置の制御方法 | |
US11190684B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
JP3487494B2 (ja) | メニュー選択方法及び装置 | |
JPH06187489A (ja) | 文字認識装置 | |
JP3406942B2 (ja) | 画像処理装置及び方法 | |
JPH10187886A (ja) | 文字認識装置および文字認識方法 | |
JPH0573718A (ja) | 領域属性識別方式 | |
JP3000480B2 (ja) | 文字領域区切り検出方法 | |
JP2982221B2 (ja) | 文字読み取り装置 | |
JPH09179982A (ja) | 特定パターン検出方法 | |
JPH04309191A (ja) | 領域属性識別装置 | |
JPH09106438A (ja) | 等幅フォントにおける幅の検出方法および装置 | |
JP3100825B2 (ja) | 線認識方法 | |
JPH08249419A (ja) | 表領域判定装置 | |
CN115731250A (zh) | 文本分割方法、装置、设备及存储介质 | |
JP2943682B2 (ja) | 印刷行検出装置及び印刷行検出方法 | |
JP2000207490A (ja) | 文字切出装置、および文字切出方法 |