JP3774498B2 - 画像処理方法とその装置 - Google Patents

画像処理方法とその装置 Download PDF

Info

Publication number
JP3774498B2
JP3774498B2 JP00053096A JP53096A JP3774498B2 JP 3774498 B2 JP3774498 B2 JP 3774498B2 JP 00053096 A JP00053096 A JP 00053096A JP 53096 A JP53096 A JP 53096A JP 3774498 B2 JP3774498 B2 JP 3774498B2
Authority
JP
Japan
Prior art keywords
block
character
blocks
image
candidate block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00053096A
Other languages
English (en)
Other versions
JPH09186861A (ja
Inventor
一弘 松林
伸一 砂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP00053096A priority Critical patent/JP3774498B2/ja
Publication of JPH09186861A publication Critical patent/JPH09186861A/ja
Application granted granted Critical
Publication of JP3774498B2 publication Critical patent/JP3774498B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、画像処理方法とその装置、特に、画像から文字領域を抽出する画像処理方法とその装置に関する。
【0002】
【従来の技術】
従来、画像から文字領域を抽出する装置として、画像をたとえば8×8画素で構成されるブロックに分割し、各ブロックごとにDCT(離散コサイン変換)処理を行ない、文字領域と他の領域との空間周波数成分の特徴の違いによって、文字領域を抽出するものが知られている。
【0003】
一般に、文字画像は非文字画像に比べて、輝度成分YにおけるDCT係数の低周波領域の値の絶対値が大きい傾向がある。画像電子学会誌第20巻5号の「適応的量子化を用いたDCT符号化法」によると、各ブロックごとに、図1に示すように、低周波領域の特定のDCT係数について絶対値の和を求め、文字らしさを表す点数とし、点数が所定の閾値より大きければ文字画像ブロック、そうでなければ非文字画像ブロックと判定する。
【0004】
【発明が解決しようとする課題】
しかしながら、従来の文字抽出装置においては、画像の空間周波数成分のみに基づいて文字抽出を行なうため、文字と同程度の空間周波数をもつ背景パターンを文字として誤抽出してしまうという問題点があった。
本発明の目的は、上記問題点を解決し、文字画像を良好に抽出することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するため、本発明の画像処理方法は以下の工程を備える。即ち、
画像に対して所定サイズのブロックごとに直交変換を行うことによって得られる各ブロックの空間周波数分布に基づいて、前記画像における複数のブロックの中から文字領域の候補となると判定された候補ブロックを分類する文字候補ブロック分類工程と、
前記文字候補ブロック分類工程で分類された候補ブロックの周囲に存在する複数の周囲ブロックを抽出する周囲ブロック抽出工程と、
前記周囲ブロック抽出工程で抽出された周囲ブロックに関して、各周囲ブロックのAC成分が所定の閾値より小さく、且つ、各周囲ブロックのDC成分が互いにほぼ等しい場合、前記文字候補ブロック分類工程で分類された候補ブロックが文字領域であると判定し、そうでない場合には前記文字候補ブロック分類工程で分類された候補ブロックは文字領域でないと判定する判定工程と、
を備えることを特徴とする。
【0006】
また別の発明は、
画像に対して所定サイズのブロックごとに直交変換を行うことによって得られる各ブロックの空間周波数分布に基づいて、前記画像における複数のブロックの中から文字領域の候補となると判定された候補ブロックを分類する文字候補ブロック分類手段と、
前記文字候補ブロック分類手段で分類された候補ブロックの周囲に存在する複数の周囲ブロックを抽出する周囲ブロック抽出手段と、
前記周囲ブロック抽出手段で抽出された周囲ブロックに関して、各周囲ブロックのAC成分が所定の閾値より小さく、且つ、各周囲ブロックのDC成分が互いにほぼ等しい場合、前記文字候補ブロック分類手段で分類された候補ブロックが文字領域であると判定し、そうでない場合には前記文字候補ブロック分類手段で分類された候補ブロックは文字領域でないと判定する判定手段とを備えることを特徴とする。
【0008】
【発明の実施の形態】
はじめに、本発明の実施の形態の画像処理方法とその装置のポイントを要約した後に、その詳細な説明に入るものとする。
本発明の実施の形態の画像処理方法とその装置は、画像から文字領域の候補を抽出し、該領域の周囲の領域を抽出し、該周囲の領域の色が単一色とみなせるかどうかを判定する。これにより、該周囲の領域の色が単一色とみなせれば、もとの領域は文字領域であると判定する。
【0009】
以下、本発明の実施の形態の画像処理方法とその装置の詳細な説明を行う。
(第1の実施の形態)
本実施の形態では、まず画像を8×8画素のブロックに分け、各ブロックの空間周波数成分の特徴に基づき、文字画像の候補となるブロックを求め、さらに候補となったブロックの周辺のブロックの色が単一色と見なせるかどうかによって文字画像かどうかを判断する。
【0010】
一般に、文字の周辺は、文字を見やすくするために無地になっているのが普通である。一方、文字でない背景パターンの場合は、周辺が無地であるという傾向をもたない。
【0011】
画像の空間周波数成分を得るためには、画像データにDCT処理を行なう方法と、すでにDCTを用いて圧縮された画像データを利用する方法とがある。本実施の形態では、後者について説明するが、前者の方法によってもよいことは言うまでもない。
DCTを用いた画像圧縮方法として、JPEGやMPEGなどのアルゴリズムが知られている。符号化は、図2で示すように、画像入力、DCT、量子化、可変長符号化の順で行なわれ、復号化は図3に示すように、圧縮画像入力、可変長復号化、逆量子化、逆DCTの順で行われる。逆量子化が終了した段階では、各ブロックごとの空間周波数成分が得られる。カラー画像においては、輝度成分Y,色差成分Cb,Crの各成分ごとに空間周波数成分が得られる。
【0012】
図4は、本発明の第1の実施の形態の文字抽出装置のハードウェアブロック図である。
21は、圧縮された画像データを記憶するためのハードディスク、22は、画像や情報を表示するカラー液晶表示器、23は画像演算を行なうための演算部、24は処理途中のデータなどを記憶するためのRAM(ランダムアクセスメモリ)、25はプログラムに基づいて処理を行なう制御部(CPU)である。
【0013】
図5は、本発明の第1の実施の形態の文字抽出装置の処理手順を示すブロック図である。ここでの基本的な動作について、図6のフローチャートを用いて説明する。
まず、ステップS501では、圧縮画像入力部1によって入力された圧縮画像データを、可変長復号化部2によって、可変長符号化部34と逆手順によって復号化する。
【0014】
ステップS502では、逆量子化部3によって、量子化部33と逆手順によって逆量子化することにより、各ブロックごとのDCT係数を求める。
ステップS503では、文字画像候補抽出部4によって、各ブロックを、文字画像候補ブロックと非文字画像ブロックとに分類し、分類結果を属性記憶部5へ出力する。
【0015】
文字画像候補ブロックは、文字画像ブロックを含むが、文字と同程度の空間周波数をもつ背景パターンのブロックも含む場合がある。そこで、さらにステップS504において、各文字画像候補ブロックについて、文字画像ブロック、非文字画像ブロックに分類し、分類結果を属性記憶部5へ出力する。
次に、ステップS503の処理について、図7のフローチャートを用いて詳しく説明する。
【0016】
ステップS601では、輝度成分Yに対するDCT係数の分布に基づき、文字らしさを点数化する。一般に、文字画像は非文字画像に比べて、DCT係数の低周波領域の値の絶対値が大きい傾向がある。そこで、各ブロックごとに、図1に示す特定のDCT係数について絶対値の和を求め、文字らしさを表す点数とする。 ステップS602では、前記点数が所定の閾値より大きいかどうか判定し、大きければステップS603へ進み、文字画像候補ブロックという属性を出力する。そうでなければ、ステップS604へ進み、非文字画像ブロックという属性を出力する。
【0017】
次に、ステップS504の処理について、図7のフローチャートを用いて詳しく説明する。
ステップS701では、図9に示すように連結された文字画像候補ブロックで構成される領域121に対して、それを囲むブロックで構成される領域122に着目し、以下の処理を行なう。
【0018】
ステップS702では、領域122の各ブロックAC(交流)成分がすべて小さければステップS703へ進み、そうでなければステップS705へ進む。
ブロックAC成分は、ブロック内の輝度や色の変化を表わすので、図10A、図10B、図10Cのようにブロック内のAC成分が所定の閾値より小さければ、ブロック内が単一色であるとみなせる。
【0019】
なお、図10A、図10B、図10C各の横軸は本来、水平周波数0〜7、垂直周波数0〜7の二次元で表すべきものであるが、便宜上、一次元で表わしている。
ステップS703において、領域122の各ブロックのDC(直流)成分が領域122の全ブロックについてほぼ等しければ、ステップS704へ進み、そうでなければS705へ進む。ほぼ等しいかどうかは、値の分散が所定の閾値より小さいかどうかで判定できる。ブロックのDC成分は、ブロック内の画素の輝度や色の平均を表すので、図11A、図11B、図11Cに示すように領域122の全ブロックについてほぼ等しければ、領域122内の全ブロックは同一色で構成されるとみなせる。
【0020】
ステップS704において、ブロック内が単一色であり、しかも全ブロックが同一色であるので、領域122は単一色で構成されている。したがって、文字候補領域121は文字と判定することができる。
他方、ステップS705においては、文字でないと判定する。
本実施の形態では、文字画像候補の抽出(ステップS503)、及び候補に対する判定(ステップS504)のいずれも空間周波数成分の特徴を利用するため処理を共通にでき、コストや処理速度が増大することがなく、抽出の正解率を向上させることができるという特有の効果がある。
(第2の実施の形態)
周辺ブロックが単一色かどうかを判定する方法として、第1の実施の形態では空間周波数成分を用いたが、第2の実施の形態では、画素の色の値を直接調べることで判定する方法を提供する。
【0021】
図12A、図12B、図12Cで示すように、図9の領域122内の全画素に対するRGB値の分散が所定の閾値より小さいかどうかによって、単一色であるかどうかを判定できる。
この方法では、周辺の領域をブロック単位でなく、自由な形に設定してよい。たとえば、文字候補領域121の周辺n画素ずつを用いるとすると、nの値を目的の画像に合わせて調整することで、よりきめ細かな抽出をおこなうことができる。
【0022】
なお、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0023】
この場合、記憶媒体から読出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0024】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0025】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0026】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードを格納することになるが、簡単に説明すると、図13のメモリマップ例に示す各モジュールを記憶媒体に格納することになる。
すなわち、少なくとも、圧縮画像を入力する「圧縮画像入力モジュール」、入力した圧縮画像を可変長復号化する「可変長復号化処理モジュール」、復号化された画像を逆量子化する「逆量子化モジュール」、逆量子化された画像から文字候補領域を抽出する「文字画像候補抽出モジュール」、その周辺領域の色を抽出する「周辺色抽出モジュール」、その周辺色に基づいて、文字画像領域を決定する「文字画像判定モジュール」の各モジュールのプログラムコードを記憶媒体に格納すればよい。尚、上述の各モジュールは、図5の各処理ブロックでの各ユニットに対応する。
【0027】
以上述べたように、画像から文字領域の候補を抽出し、該領域の周囲の領域を抽出し、該周囲の領域の色が単一とみなせるかどうかを判定して、該周囲の領域の色が単一色とみなせれば、もとの領域は文字領域であると判定することで、文字画像を良好に抽出することができる。
【0028】
【発明の効果】
以上説明したように本発明によれば、文字画像を良好に抽出することができる。
【図面の簡単な説明】
【図1】文字らしさの点数を求めるための、特定のDCT係数の位置を示した図である。
【図2】画像圧縮符号化処理のブロック図である。
【図3】画像圧縮複号化処理のブロック図である。
【図4】本発明の第1の実施の形態の文字抽出装置のハードウェアブロック図である。
【図5】本発明の第1の実施の形態の文字抽出装置の処理概念を示すブロック図である。
【図6】本発明の第1の実施の形態の文字抽出装置の基本的な動作を示したフローチャートである。
【図7】ステップS503の文字画像候補、非文字画像に分類する処理を示したフローチャートである。
【図8】文字画像候補を文字画像または非文字画像に分類する処理を示したフローチャートである。
【図9】ある文字列における、おける文字候補領域と周辺領域の例を示す図である。
【図10A】ブロック内のAC成分の分布を示したグラフである。
【図10B】ブロック内のAC成分の分布を示したグラフである。
【図10C】ブロック内のAC成分の分布を示したグラフである。
【図11A】各ブロックのDC成分の分布を示したグラフである。
【図11B】各ブロックのDC成分の分布を示したグラフである。
【図11C】各ブロックのDC成分の分布を示したグラフである。
【図12A】周辺領域の画素の値の分布を示したグラフである。
【図12B】周辺領域の画素の値の分布を示したグラフである。
【図12C】周辺領域の画素の値の分布を示したグラフである。
【図13】各処理モジュールのレイアウトの一例を示す図である。
【符号の説明】
1 圧縮画像入力部
2 可変長複合化部
3 逆量子化部
4 文字画像候補抽出部
5 属性記憶部
6 周辺色抽出部
7 文字画像判定部

Claims (6)

  1. 画像に対して所定サイズのブロックごとに直交変換を行うことによって得られる各ブロックの空間周波数分布に基づいて、前記画像における複数のブロックの中から文字領域の候補となると判定された候補ブロックを分類する文字候補ブロック分類工程と、
    前記文字候補ブロック分類工程で分類された候補ブロックの周囲に存在する複数の周囲ブロックを抽出する周囲ブロック抽出工程と、
    前記周囲ブロック抽出工程で抽出された周囲ブロックに関して、各周囲ブロックのAC成分が所定の閾値より小さく、且つ、各周囲ブロックのDC成分が互いにほぼ等しい場合、前記文字候補ブロック分類工程で分類された候補ブロックが文字領域であると判定し、そうでない場合には前記文字候補ブロック分類工程で分類された候補ブロックは文字領域でないと判定する判定工程と、
    を備えることを特徴とする画像処理方法。
  2. 前記文字候補ブロック分類工程は、
    前記画像を所定サイズのブロックに分割する分割工程と、
    前記分割工程で分割されたブロックごとに所定の直交変換を行い、前記各ブロックの空間周波数分布を獲得する直交変換工程とを備え
    前記直交変換工程で得られた各ブロック空間周波数分布に基づいて、前記画像における複数のブロックの中から前記文字領域の候補となる候補ブロックを分類することを特徴とする請求項1に記載の画像処理方法。
  3. 前記文字候補ブロック分類工程は、前記直交変換工程で得られた各ブロックに対する空間周波数分布について、低空間周波数領域のパワーが所定の閾値より大きいブロックを前記候補ブロックとして分類することを特徴とする請求項2に記載の画像処理方法。
  4. 画像に対して所定サイズのブロックごとに直交変換を行うことによって得られる各ブロックの空間周波数分布に基づいて、前記画像における複数のブロックの中から文字領域の候補となると判定された候補ブロックを分類する文字候補ブロック分類手段と、
    前記文字候補ブロック分類手段で分類された候補ブロックの周囲に存在する複数の周囲ブロックを抽出する周囲ブロック抽出手段と、
    前記周囲ブロック抽出手段で抽出された周囲ブロックに関して、各周囲ブロックのAC成分が所定の閾値より小さく、且つ、各周囲ブロックのDC成分が互いにほぼ等しい場合、前記文字候補ブロック分類手段で分類された候補ブロックが文字領域であると判定し、そうでない場合には前記文字候補ブロック分類手段で分類された候補ブロックは文字領域でないと判定する判定手段と、
    を備えることを特徴とする画像処理装置。
  5. 前記文字候補ブロック分類手段は、
    前記画像を所定サイズのブロックに分割する分割手段と、
    前記分割手段で分割されたブロックごとに所定の直交変換を行い、前記各ブロックの空間周波数分布を獲得する直交変換手段とを備え
    前記直交変換手段で得られた各ブロック空間周波数分布に基づいて、前記画像における複数のブロックの中から前記文字領域の候補となる候補ブロックを分類することを特徴とする請求項に記載の画像処理装置。
  6. 前記文字候補ブロック分類手段は、前記直交変換手段で得られた各ブロックに対する空間周波数分布について、低空間周波数領域のパワーが所定の閾値より大きいブロックを前記候補ブロックとして分類することを特徴とする請求項に記載の画像処理装置
JP00053096A 1996-01-08 1996-01-08 画像処理方法とその装置 Expired - Fee Related JP3774498B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00053096A JP3774498B2 (ja) 1996-01-08 1996-01-08 画像処理方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00053096A JP3774498B2 (ja) 1996-01-08 1996-01-08 画像処理方法とその装置

Publications (2)

Publication Number Publication Date
JPH09186861A JPH09186861A (ja) 1997-07-15
JP3774498B2 true JP3774498B2 (ja) 2006-05-17

Family

ID=11476338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00053096A Expired - Fee Related JP3774498B2 (ja) 1996-01-08 1996-01-08 画像処理方法とその装置

Country Status (1)

Country Link
JP (1) JP3774498B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3972751B2 (ja) 2001-08-27 2007-09-05 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
US7864365B2 (en) 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US8437054B2 (en) * 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7876959B2 (en) 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images

Also Published As

Publication number Publication date
JPH09186861A (ja) 1997-07-15

Similar Documents

Publication Publication Date Title
US8218887B2 (en) Enhanced method of multilayer compression of PDF (image) files using OCR systems
US5751865A (en) Method and apparatus for image rotation with reduced memory using JPEG compression
US7248782B2 (en) Image retrieving apparatus, image retrieving method and recording medium for recording program to implement the image retrieving method
JP2006092556A (ja) 領域検出方法および領域検出プログラム
US8463041B2 (en) Word-based document image compression
JP2007288732A (ja) 画像処理装置、画像処理方法およびプログラム
US9305603B2 (en) Method and apparatus for indexing a video stream
JPH0946519A (ja) 画像処理装置および方法
CN108769803A (zh) 带边框视频的识别方法、裁剪方法、系统、设备及介质
US7027646B2 (en) Scaled image generating apparatus and method, image feature calculating apparatus and method, computer programs therefor, and image data structure
JPH11167623A (ja) 画像処理装置及び画像処理方法
JP3774498B2 (ja) 画像処理方法とその装置
JP2003006643A (ja) 画像処理装置及びその方法、プログラム
JP2007527126A (ja) 画像部分の圧縮方法および装置
JP4441300B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
EP1347393A1 (en) Image searching device
JP2004048219A (ja) 電子透かし情報の挿入方法
JPH10233693A (ja) 画像処理方法及び装置並びに記憶媒体
CN113453017B (zh) 视频处理方法、装置、设备及计算机程序产品
JP4001446B2 (ja) 画像背景色特定のための方法、装置及びコンピュータ読み取り可能な記録媒体
US9066116B2 (en) Encoding pre-roll advertisements in progressively-loading images
JP2002133414A (ja) 画像処理方法及びその装置、記憶媒体
KR100473944B1 (ko) 디지털 영상신호의 텍스트 추출방법
US5751858A (en) Moving picture coding apparatus
Schaefer et al. Midstream content access based on color visual pattern coding

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110224

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140224

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees