JP2000090194A - 画像処理方法および画像処理装置 - Google Patents
画像処理方法および画像処理装置Info
- Publication number
- JP2000090194A JP2000090194A JP10256614A JP25661498A JP2000090194A JP 2000090194 A JP2000090194 A JP 2000090194A JP 10256614 A JP10256614 A JP 10256614A JP 25661498 A JP25661498 A JP 25661498A JP 2000090194 A JP2000090194 A JP 2000090194A
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- image
- document image
- document
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
領域の段組構成、文章領域内の各文字サイズ等を考慮す
ることなく、局所的な画素の配置情報に基づいて領域の
抽出処理を行うと、結果として得られる領域情報は必ず
しも文書の論理構造を反映するものとはならない。 【解決手段】 画像入力部11から入力された文書画像
を分割して文章領域を抽出する画像処理装置10におい
て、入力文書画像に含まれる文章が縦書きであるか又は
横書きであるかを文章方向算定部13で算定し、この文
章方向算定部13による算定結果を参照して分割境界設
定部14で入力文書画像を分割する境界を設定する。そ
して、領域分割部13において、分割境界設定部14で
設定された境界にて入力文書画像を分割する。
Description
像を分割して文章領域を抽出する画像処理方法および画
像処理装置に関し、特に画像データとして入力された新
聞や雑誌等の各種印刷文書から所望の文章領域を抽出す
る画像処理方法および画像処理装置に関するものであ
る。
ンピュータ等を用いた、電子データを出力形態とする電
子文書作成装置の普及に加え、インターネットやイント
ラネット等に代表されるようにオフィスや家庭を取り巻
くネットワーク環境が急速に発達しており、情報を伝達
したり、蓄積する手段として電子データ化された文書が
広く用いられている。そのうえさらに、新聞や雑誌等の
紙面上の文書情報を利用したいというニーズも多く、こ
れらを上記電子文書作成装置によって作成された文書と
混在させて利用するためには、紙面上の文書情報を何ら
かの手段を用いて電子データに変換する必要が生じる。
は、紙面上の文書情報をデジタル画像として取り込んだ
文書画像データそのものを所望の電子データとして利用
することである。しかし、このような電子データは文章
や図形、表等といった文書の構成要素がどのようなもの
であろうと文書全体が一律に画素の集合として表現され
てしまうため、上記電子文書作成装置によって作成され
た文書と同等に文書内の文章や図形を自由に検索、編集
するなど多岐にわたる利用が困難であるという問題点が
ある。
像を図形領域や写真領域などの他、縦書き文章領域や横
書き文章領域のように、ある属性を持つ複数の領域に分
割して所望の文章領域を抽出する技術として、以下に示
すような文書画像領域分割方式が提案されている。
は、黒画素成分の大きさに基づいて文章領域を抽出する
技術が開示されている。これは、先ず、入力された文書
画像を2値化し、黒画素連結成分を抽出してその外接矩
形のサイズから文字と判定されるものを抽出する。次
に、文章領域としての評価値が最良となるまで統合条件
を変更しながら統合処理を繰り返すことで、文書領域を
抽出するというものである。
は、白画素成分の密度に着目して文書画像を分割し、分
割された領域の特性から文章領域を抽出する技術が開示
されている。これは、先ず、入力された文書画像を一定
の大きさのセルに分割して各セルの黒画素数をカウント
し、黒画素数がしきい値以下であればそのセルを空白セ
ルとする。次に、4近傍で隣接する空白セル同士を連結
して空白セル領域を作成し、空白領域で区切られた矩形
領域をブロックとして抽出する。そして、平均黒画素数
がしきい値よりも少なく、水平/垂直方向に作成した投
影分布に周期性のあるものを文章領域として抽出すると
いうものである。
7,1985)」には、文書画像において投影分布を作
成し、分布の形状に基づいて文書画像を分割し、文章領
域を抽出する技術が開示されている。これは、先ず、入
力された文書画像に対して水平または垂直方向に投影分
布を作成し、この作成した投影分布上で頻度が存在する
部分(以下、黒領域部と称す)と頻度が0の部分(以
下、空白部と称す)を抽出する。このとき、黒領域部に
一定の条件を満たす極小点が存在する場合には、この極
小点から当該黒領域部を分割した場合の両領域同士の相
関比を評価することで、黒領域部間の分離と統合を繰り
返しながら最終的な黒領域部を抽出する。
規則性情報、即ち黒領域部の平均区間幅、空間部の平均
区間幅、黒領域部の面積などを算出することで、縦書き
文章領域か、横書き文章領域かまたは未確定領域かを判
断する。ここでは、相関比が高い複数個の黒領域群が連
続し、かつ一定許容範囲で配置されている場合に、これ
らの黒領域群を一つの文章領域としている。一方、相関
比と共に、空白部の区間幅を文章領域の分離情報として
利用する。そして、これらの処理を水平方向と垂直方向
で交互に繰り返して実施することで、最終的に確定した
文章領域を抽出するというものである。
た従来の文章画像領域分割方式では、いずれの場合も文
書内における縦書き文章領域や横書き文章領域の段組構
成、文章領域内の各文字サイズ等を考慮することなく、
局所的な画素の配置情報に基づいて領域を抽出するよう
にしているため、結果として得られる領域情報は必ずし
も文書の論理構造を反映するものではなかった。
開示の従来技術では、統合条件として、統合後の領域が
抽出した文字列に対する文字認識処理結果を用いたり、
または、統合後の領域から抽出した文字列の幾何学的情
報を用いるなどしているが、領域を個々の連結成分単位
の細かさで分割してしまうと、1文字が複数の連結成分
から表現されることとなり、統合条件によってはこれら
を正しく統合できないことも予想される。
横書き文章領域かを算出しているため、統合誤りが発生
した場合には、文章領域全体の属性を誤って判断されて
しまうことがある。さらには、どのような統合条件を利
用するにせよ、何度にも亘って統合処理を行い、その結
果から最良のものを選択する必要があるため、処理時間
がかかるという問題点がある。
示の従来技術では、文章中の文字サイズの如何に関わら
ず、文書画像を一定の大きさのセルに分割して空白セル
を抽出している。このとき、空白セルを作成する際には
文書画像中の最も小さい文字が抽出できるようなセルの
サイズを設定する必要がある。
白領域を抽出した場合、例えば、より大きなサイズの文
字から構成される文章領域の文字間において、小さなサ
イズの文字から構成される文章領域の文字間隔に比べて
広いことが原因で不必要に空白セルが作成されてしまう
可能性がある。その結果、得られる文章領域も本来なら
ば同一の文章領域として扱われるべきものが、不自然に
分割された複数の文章領域として抽出されてしまうとい
う問題点がある。
7,1985)」に開示の従来技術では、水平および垂
直方向の投影分布を交互に作成し、投影分布上の空白部
を検出して領域を分割しているが、複雑な構造の文書で
は明確な空白部が検出されることは少ないため、領域の
分割ができない場合があるという問題点がある。さらに
は、各黒領域部において相関比を求めているが、この相
関比は頻度分布の分散に基づく特徴量であることから、
その算出には数度に亘る浮動小数点演算を必要とする。
さらには、相関比に基づいて黒領域部の分離と統合処理
を繰り返す必要があるため、やはり多くの演算処理を必
要とする問題点がある。
ものであり、その目的とするところは、文書構造が未知
である文書画像に対して、文書の論理構造に逆らうこと
なく領域を分割し、かつ縦書き文書領域と横書き文書領
域を分離して抽出できる画像処理方法および画像処理装
置を提供することにある。
法は、入力された文書画像に含まれる文章が縦書きであ
るか又は横書きであるかを算定し、その算定した結果を
参照して入力文書画像を分割する境界を設定し、その設
定した境界において入力文書画像を分割することを特徴
としている。
理方法を実現するための画像処理装置であって、入力さ
れた文書画像に含まれる文章が縦書きであるか又は横書
きであるかを算定する算定手段と、この算定手段による
算定結果を参照して入力文書画像を分割する境界を設定
する境界設定手段と、この境界設定手段によって設定さ
れた境界において入力文書画像を分割する分割手段とを
備えることを特徴としている。
算定手段は、入力された文書画像に含まれる文章が縦書
きであるか又は横書きであるかを算定することで、文書
の論理構造を把握する。この算定結果を受けて、境界設
定手段は、算定された文章方向を考慮して入力文書画像
を分割する境界を設定する。そして、分割手段は、境界
設定手段で文章方向に応じて設定された境界において入
力文書画像を分割することで、文書の論理構造を尊重し
た文章領域の抽出を行う。
れた文書画像を構成する画素の投影分布を算出し、その
算出した投影分布において、所定のしきい値に満たない
頻度を有する区間幅を用いて入力文書画像を分割する境
界を設定し、その設定した境界において入力文書画像を
分割することを特徴としている。
の画像処理方法を実現するための画像処理装置であっ
て、入力された文書画像を構成する画素の投影分布を算
出する投影分布算出手段と、この投影分布算出手段によ
って算出された投影分布において、所定のしきい値に満
たない頻度を有する区間幅を用いて文書画像を分割する
境界を設定する境界設定手段と、この境界設定手段によ
って設定された境界において文書画像を分割する分割手
段とを備える構成となっている。
ず、投影分布算出手段は、入力された文書画像を構成す
る画素の投影分布を算出する。この算出結果を受けて、
境界設定手段は、算出された投影分布において、所定の
しきい値に満たない頻度を有する区間幅を用いて入力文
書画像を分割する境界を設定する。投影分布においてし
きい値を設定することで、空白領域(画素数が0)の検
出が難しい複雑な文書であっても、分割領域の境界を精
度良く設定できる。そして、分割手段は、境界設定手段
で設定された境界において入力文書画像を分割する。
て図面を参照しつつ詳細に説明する。
処理装置10の構成を概略的に示したブロック図であ
る。図1において、第1実施形態に係る画像処理装置1
0は、画像入力部11、前処理部12、文章方向算定部
13、分割境界設定部14および領域分割部15を有す
る構成となっている。なお、これら構成部分の各処理に
ついては、マイクロコンピュータ等によって構成される
制御部(図示せず)によって制御されるものとする。
部11は、文書画像を入力するためのものである。この
画像入力部11としては、スキャナ等光学的に文書情報
を入力する手段であっても良いし、また予めデジタル画
像に変換された文書情報を入力する手段であっても良
い。画像入力部11から入力された画像に対し、ここで
は公知の技術によって2値化した後、傾きを検出してそ
の補正処理を施すこととする。以降、この処理によって
得られた画像を入力画像と称す。なお、入力画像では文
字をはじめとする文書構成要素が黒画素で表現されるも
のとする。
入力された画像から、文章方向算定部13および分割境
界設定部14で処理を施す際に利用する特徴量を抽出す
る。ここでは、特徴量として黒画素連結成分に対して外
接する矩形(以下、外接矩形と称す)の幾何情報を用い
るものとして説明する。文章方向算定部13は、画像入
力部11から入力された文書画像の文章が、縦書き主体
であるか横書き主体であるかを算定する。
3によって算定された文章方向によって、画像入力部1
1から入力された文書画像を分割する境界を設定する。
そして、領域分割部15は、分割境界設定部14によっ
て設定された分割境界に基づいて、画像入力部11から
入力された文書画像を分割する。
処理装置10の全体の動作につき、図2のフローチャー
トを用いて説明する。
し(ステップS11)、次いで前処理部12で前処理を
実施して分割対象領域を入力画像全体に設定する(ステ
ップS12)。次に、文章方向算定部13で分割対象領
域における文章領域の主体となる文章方向を算出し(ス
テップS13)、得られた情報を利用して分割境界設定
部14で分割境界を設定する(ステップS14)。
S14において分割境界が設定できたかどうかを判定し
(ステップS15)、分割境界を設定できた場合には、
その設定された分割境界に基づいて領域分割部15で領
域を分割する(ステップS16)。そして、図示せぬ制
御部により、分割後の1つの領域を新たな分割対象領域
として設定し(ステップS17)、しかる後ステップS
13へ移行する。
14での分割境界の設定が不可能であったと判断した場
合には、さらに分割対象領域とすることのできる領域が
他に存在するか否かを判断する(ステップS18)。こ
こで、他に存在すると判断した場合には、ステップS1
7に移行してこの領域を新たな分割対象領域として設定
する。他に分割対象領域となる分割処理後の領域が存在
しない場合には、一連の処理を終了する。
構成部分の動作について説明する。先ず、画像入力部1
1から入力された画像に対する処理として、前処理部1
2の処理内容について図3のフローチャートを用いて説
明する。
処理を施し、黒画素連結成分を抽出する(ステップS2
1)。ここに、ラベリング処理とは、連結している画素
の成分からなる1つの領域に1つの識別値を与える処理
を言う。次いで、抽出したすべての黒画素連結成分に対
して外接する矩形を作成し(ステップS22)、続いて
各外接矩形の高さHと幅Wを算出する(ステップS2
3)。
し、予め設定しておいたサイズに関するしきい値TH
SMALL とTHLARGE および形状に関するしきい値TH
SEPARATORを用いて、外接矩形によって囲まれる黒画素
連結成分を、以下に示すように、文字候補、図形候補、
フィールドセパレータ候補、ノイズ候補の4種類に分類
する(ステップS24)。
いて、図4のフローチャートを用いて説明する。なお、
以下に言う水平方向および垂直方向とは、横書きおよび
縦書きの各文章方向にそれぞれ対応する方向を言うもの
とする。
矩形間の平均間隔である水平方向平均間隔SH と、垂直
方向に隣接する文字候補の外接矩形間の平均間隔である
垂直方向平均間隔SV を算出する(ステップS31)。
ただし、算出に用いる外接矩形間隔が予め設定しておい
たしきい値THSPACE よりも広い場合には、この値を利
用しないものとする。
明する。例えば、水平方向平均間隔SH を算出するので
あれば、しきい値THSPACE 以下である間隔DH1は算
出に利用するが、しきい値THSPACE を超える間隔DH
2は利用しない。同様に、垂直方向平均間隔SV を算出
するのであれば、しきい値THSPACE 以下である間隔D
V2は算出に利用するが、しきい値THSPACE を超える
間隔DV1は利用しない。このようなしきい値TH
SPACE による判断処理を導入することで、安定して平均
間隔を算出することができる。
って統計的に設定しても良いし、又文字候補の外接矩形
における高さの平均値HAVE と幅の平均値WAVE を算出
し、これらに基づいてその都度算出しても良い。実際に
は、水平方向平均間隔SH は平均列間隔とほぼ等しく、
垂直方向平均間隔SV は平均行間隔とほぼ等しい値とな
ることから、ここでは水平方向平均間隔SH を平均列間
隔、垂直方向平均間隔SV を平均行間隔と呼ぶこととす
る。
間隔SV から、以下のように対象領域の文章方向を算定
する(ステップS32)。 ・SV <SH である場合、縦書き文章領域が主体であ
る。 ・SV >SH である場合、横書き文章領域が主体であ
る。
書きまたは横書きのどちらか一方を優先的に選択するよ
うにしても良いし、文字候補の配置状態から水平方向へ
の分布範囲と垂直方向への分布範囲を比較し、水平方向
への分布範囲が広い場合には横書き文章領域であり、逆
に垂直方向への分布範囲が広い場合には縦書き文章領域
であるとしても良い。
いて、図6のフローチャートを用いて説明する。
の投影分布を作成する(ステップS41)。このとき、
投影する画素は、入力画像中のすべての連結成分を対象
としても良いし、文字候補である連結成分のみを対象と
しても良い。続いて、作成した投影分布情報を利用して
分割境界候補を抽出する(ステップS42)。ここで
は、分割境界候補の抽出について、図7を用いて説明す
る。
布を示し、(b)が垂直方向の投影分布を示すものとす
る。水平方向および垂直方向の両投影分布において、し
きい値THDISTRIBUTIONに満たない頻度を持つ閉区間D
1〜D5に着目し、区間D1〜D3のうちのしきい値T
HSPLIT-H 以上の区間幅を持つ区間を、また区間D4と
D5のうちのしきい値THSPLIT-V 以上の区間幅を持つ
区間を分割境界候補として抽出する。
れた主体となる文章方向を考慮し、しきい値TH
SPLIT-V とTHSPLIT-H を、平均行間隔SV と平均列間
隔SH を用いて以下のように設定する。 THSPLIT-V =SV ×C1 THSPLIT-H =SH ×C2 ………(5)
変更する。ただし、両者は以下の関係を保つものとす
る。 ・縦書き文章領域が主体である場合:C1=C2×α ・横書き文章領域が主体である場合:C2=C1×α ………(6) ここに、αは、1よりも大きい(1<α)係数である。
場合には、しきい値THSPLIT-V がしきい値TH
SPLIT-H に比べて大きくなることから、水平方向の投影
分布上から分割境界候補が抽出される確率が高くなり、
垂直方向の投影分布上からは分割境界候補が抽出される
確率が低くなる。逆に、横書き文章領域が主体である場
合には、しきい値THSPLIT-H がしきい値THSPLIT-V
に比べて大きくなることから、垂直方向の投影分布上か
ら分割境界候補が抽出される確率が高くなり、水平方向
の投影分布上から分割境界候補が抽出される確率が低く
なる。
方向を確定しないのは、例えば、図8に示すように、文
章がすべて縦書きであった場合でも、段組構成により複
数の文章領域として抽出することが必要な場合などに対
する配慮である。
文章領域が主体であると算定された場合は、少なくとも
しきい値THSPLIT-V が区間D4の区間幅よりも大きな
値となり、しきい値THSPLIT-H が最大でも区間D3の
区間幅と等しくなるような式(6)の係数αを設定する
ことにより、垂直方向の投影分布上からは分割境界候補
が抽出されず、水平方向の投影分布のみから境界分割候
補が抽出されることとなる。
文章領域が主体であると算定された場合は、少なくとも
しきい値THSPLIT-H が区間D3の区間幅よりも大きな
値となり、しきい値THSPLIT-V が最大でも区間D4の
区間幅と等しくなるような式(6)の係数αを設定する
ことにより、水平方向の投影分布上からは分割境界候補
が抽出されず、垂直方向の投影分布のみから境界分割候
補が抽出されることとなる。
ップS42で抽出した分割境界候補の中から最も区間幅
の広いものを分割境界として設定する(ステップS4
3)。例えば、図7の投影分布のうち、同図(a)の区
間D1〜D3が分割境界候補として抽出された場合、分
割境界として設定するのは区間D3となる。
向の投影分布を表しているのであれば、図9(a)に示
すように、分割境界は画像において垂直方向に設定さ
れ、図7(a)が入力画像の垂直方向の投影分布を表し
ているのであれば、図9(b)に示すように、分割境界
は画像において水平方向に設定されることになる。
て、図10のフローチャートを用いて説明する。先ず、
分割境界設定部14で設定された投影分布上の分割境界
において、分割境界の両端から投影分布を走査して最小
頻度点を検出する(ステップS51)。
1を用いて説明する。図11(a)の場合では、分割境
界である区間D1において最小頻度点はS1が唯一求ま
る。図11(b)の場合では、S1からS2に亘って最
小頻度を持つ区間D2が求まるが、この場合、S1およ
びS2の2点を最小頻度点とする。
S2に亘って最小頻度を持つ区間D2と、S3からS4
に亘って最小頻度を持つ区間D3が求まる。ここでは、
分割境界の端点P1から走査して初めて最小頻度点とし
て検出されたS1からの区間幅D2と、分割境界のもう
一方の端点P2から走査して初めて最小頻度点として検
出されたS4からの区間幅D3を比較する。
る。 ・D2<D3の場合:S3とS4を最小頻度点とする。 ・D2>D3の場合:S1とS2を最小頻度点とする。 ・D2=D3の場合:水平方向の投影分布であれば、S
1とS2を最小頻度点とする。逆に、垂直方向の投影分
布であれば、S3とS4を最小頻度点とする。これは、
文章領域において、最終行や最終列は、他の行や列と比
べて文字数が少ない場合が多いことを考慮したものであ
る。
度点に基づいて領域を分割する(ステップS52)。分
割後、例えば図11(a)においてS1が分割後の2つ
の領域の端点となり、図11(b)においてはS1およ
びS2が分割後の2つの領域のそれぞの端点となる。ま
た、図11(c)においては、S1とS2、またはS3
とS4が対となって分割後の2つの領域の端点となる。
ージンを削除し文章領域を抽出する(ステップS5
3)。この様子を図12を用いて説明する。図12
(a)は、縦書き文章領域が主体である文書画像を上述
の手法により2つの領域に分割した直後の様子を示して
いる。この2つの領域において水平方向の投影分布の端
点P3とP4を用いて、図12(b)に示すように文章
領域を矩形で限定することにより、文章領域を抽出する
ことができる。
割処理に対応するものである。次に、既に抽出した文章
領域を新たな分割対象領域として設定し、上述した文章
方向算定部13、分割境界設定部14および領域分割部
15による一連の処理を再び実行する。このように、分
割境界が抽出できなくなるまで画像を細分化して文章を
抽出することで、複雑な文章構造を持つ文章画像から最
終的に複数の文章領域群を得ることができる。
係数C1、または係数αと係数C2の組み合わせを設定
することにより、最終的に得られる文章領域の形態を、
図12(b)に示すように人の目で判断して同一属性を
持つと考えられるブロックとしたり、または、1行/1
列単位とすることも可能である。
を持つ図形が文書内に混在す場合でも、適切に文章領域
を抽出することが可能となる。例えば、最終的に得られ
る文章領域の形態が、図12(b)に示すように、人の
目で判断して同一属性を持つと考えられるブロックとし
て抽出されるような値α1に係数αを固定し、図13
(a)に示す文書画像から文章領域を抽出することを考
える。
判断されたとしても、区間D1の区間幅が上記係数αに
て設定されたしきい値THSPLIT-H よりも大きいため、
ステップS42で分割領域候補として設定されてしま
い、同じように分割領域候補として設定された区間D2
〜D8よりも区間幅が広いことから、ステップS43に
おいて分割境界として設定されてしまう。この結果、文
章領域抽出結果は、図13(b)に示すようになってし
まい、本来の文書が持つ文書構造に反すものとなってし
まう。
書構成に応じて動的に変更させた場合を考える。ここで
は、対象分割領域中に図形属性を持つ黒画素連結成分が
存在した場合、最終的に得られる文章領域の形態が1行
/1列単位となる値α2を選択する。局所的に領域分割
および文章領域抽出処理が繰り返されても、分割対象領
域中に図形候補が存在する限りα2を選択することで、
得られる最終結果は図13(c)に示すようになり、同
図(b)のような不自然な文章領域抽出を防ぐことがで
きる。
分割境界候補の中から設定する際の条件を、最小頻度点
を持つものとして変更しても良いし、最小頻度点を持つ
分割境界候補が複数存在する場合には、さらにその中で
最大の区間幅を持つものとしても良い。
領域中に、フィールドセパレータ候補が含まれている場
合、水平方向に延びるフィールドセパレータなのか、垂
直方向に延びるフィールドセパレータなのかの情報を利
用し、フィールドセパレータ候補の外接矩形の座標に基
づいて領域を分割しても良い。例えば、新聞記事など込
み入った複数の文章領域から構成される文書では、句読
点とその次に続く文字との間隔が段組間の間隔よりも広
いことがあり、フィールドセパレータ候補の幾何情報を
利用して文章領域を分割することが有効である。
割して文章領域を抽出する処理方法として、入力文書画
像に含まれる文章が縦書きであるか又は横書きであるか
を算定し、その算定した結果を参照して入力文書画像を
分割する境界を設定し、その設定した境界において入力
文書画像を分割するようにしたことにより、文書構造が
未知である文書画像に対しても、文書の論理構造を考慮
して領域分割の境界を設定できるため、文書の論理構造
に逆らうような不自然な領域の分割を防ぐことができ
る。
ように、細分化した連結成分同士の再統合処理や、投影
分布上の黒領域の統合処理など一切の統合処理を行うこ
となく、領域分割を中心とする処理のみで、縦書き文書
領域と横書き文書領域を分離して抽出することができ
る。さらには、複雑な浮動小数点演算が少ないので、高
速な処理を実現することができる。
力された文書画像を構成する画素の投影分布を算出し、
この投影分布において、所定のしきい値TH
DISTRIBUTIONに満たない頻度を有する区間幅を用いて分
割境界を設定するようにしているので、従来技術のよう
に、投影分布上の空白部(頻度が0の部分)を分割境界
としているのに比べて、文書の論理構造を考慮したより
精度の高い分割境界の設定が可能となる。
確な空白領域、即ち頻度が存在しない区間の検出が困難
となるのであるが、しきい値THDISTRIBUTIONを設定
し、このしきい値THDISTRIBUTION以下の頻度を有する
区間幅を用いて分割境界を設定するようにすることで、
入力された文書画像が複雑な文書画像であっても、文書
の論理構造を考慮して領域分割の境界をより精度良く設
定できるのである。
の投影分布を算出し、この投影分布において、所定のし
きい値に満たない頻度を有する区間幅を用いて分割境界
を設定するという技術思想は本発明の特徴の一つであ
り、上記実施形態の場合のように、入力された文書画像
に含まれる文章が縦書きであるか又は横書きであるかを
算定し、その算定した結果を参照して入力文書画像を分
割する境界を設定し、その設定した境界において入力文
書画像を分割する画像処理方法および画像処理装置への
適用に限定されるものではなく、一般的な画像処理方法
および画像処理装置にも適用可能である。
第2実施形態に係る画像処理装置20の構成を概略的に
示したブロック図である。
処理装置20は、画像入力部21、前処理部22、投影
方向算出部23、分割境界設定部24および領域分割部
25を有する構成となっている。なお、これら構成部分
の各処理については、マイクロコンピュータ等によって
構成される制御部(図示せず)によって制御されるもの
とする。
部21は、文書画像を入力するためのものである。この
画像入力部11としては、スキャナ等光学的に文書情報
を入力する手段であっても良いし、また予めデジタル画
像に変換された文書情報を入力する手段であっても良
い。画像入力部11から入力された画像に対し、ここで
は公知の技術によって2値化した後、傾きを検出してそ
の補正処理を施すこととする。なお、入力画像では文字
をはじめとする文書構成要素が黒画素で表現されるもの
とする。
された文書画像から、投影分布算出部23および分割境
界設定部24で処理を施す際に利用する特徴量を抽出す
る。ここでは、特徴量として黒画素連結成分の外接矩形
の幾何情報を用いるものとして説明する。投影分布算出
部23は、画像入力部21から入力された文書画像を構
成する画素の投影分布を算出する。
3によって算出された投影分布において、所定のしきい
値に満たない頻度を有する区間幅を用いて入力文書画像
を分割する境界を設定する。そして、領域分割部25
は、分割境界設定部24によって設定された分割境界に
基づいて、画像入力部21から入力された文書画像を分
割する。
処理部22および領域分割部25はそれぞれ、図1に示
した画像入力部11、前処理部12および領域分割部1
5と内部構成および処理内容が同一であることから、そ
の処理内容の説明については割愛する。また、投影分布
算出部23および分割境界設定部24についても、基本
的には、図1に示した分割境界設定部14の内部構成お
よび処理内容をそれぞれ分担したものである。
る画素の投影分布を算出し、この投影分布を用いて分割
領域の境界を設定する際に、投影分布において、所定の
しきい値を設定し、このしきい値に満たない頻度を有す
る区間幅を用いて分割境界を設定することで、複雑な文
書であっても、文書の論理構造を考慮したより精度の高
い分割境界の設定が可能となる。
像処理装置30の構成を概略的に示したブロック図であ
る。この第3実施形態に係る画像処理装置30は、第1
実施形態に係る画像処理装置10に対し、入力画像を垂
直方向に膨張した画像と、入力画像を水平方向に膨張し
た画像との論理積を求めることにより、個々の連結成分
が個々の文字を表わす確率を高められた画像を新たな入
力画像として生成する構成を採っている。
に係る画像処理装置30は、画像入力部31、入力画像
再生成部32、前処理部33、文章方向算定部34、分
割境界設定部35および領域分割部36を有する構成と
なっている。なお、これら構成部分の各処理について
は、マイクロコンピュータ等によって構成される制御部
(図示せず)によって制御されるものとする。
部31は、文書画像を入力するためのものである。この
画像入力部31としては、スキャナ等光学的に文書情報
を入力する手段であっても良いし、また予めデジタル画
像に変換された文書情報を入力する手段であっても良
い。画像入力部31から入力された画像に対し、ここで
は公知の技術によって2値化した後、傾きを検出してそ
の補正処理を施すこととする。なお、入力画像では文字
をはじめとする文書構成要素が黒画素で表現されるもの
とする。
から入力された画像に対して、画像を垂直方向に膨張処
理した画像と、入力画像を水平方向に膨張処理した画像
との論理積を求めることにより、個々の連結成分が個々
の文字を表わす確率を高められた画像を新たな入力画像
として生成する。以降、この入力画像再生成部32での
処理により得られた画像を入力画像と称す。
再生成した入力画像から、文章方向算定部34および分
割境界設定部35で処理を施す際に利用する特徴量を抽
出する。ここでは、特徴量として黒画素連結成分の外接
矩形の幾何情報を用いるものとして説明する。文章方向
算定部34は、入力画像再生成部32で再生成した入力
画像の文章が、縦書き主体であるか横書き主体であるか
を算定する。
4によって算定された文章方向によって、入力画像再生
成部32で再生成した入力画像を分割する境界を設定す
る。そして、領域分割部36は、分割境界設定部35に
よって設定された分割境界に基づいて、入力画像再生成
部32で再生成した画像を分割する。
処理装置30の全体の動作につき、図16のフローチャ
ートを用いて説明する。
し(ステップS61)、次いで入力画像再生成部32に
おいて入力画像を再生成する処理を実施する(ステップ
S62)。次に、前処理部33で前処理を実施して分割
対象領域を入力画像全面に設定する(ステップS6
3)。続いて、文章方向算定部34で分割対象領域にお
ける文章領域の主体となる文章方向を算出し(ステップ
S64)、得られた情報を利用して分割境界設定部35
で分割境界を設定する(ステップS65)。
S65において分割境界が設定できたかどうかを判定し
(ステップS66)、分割境界を設定できた場合には、
その設定された分割境界に基づいて領域分割部36で領
域を分割する(ステップS67)。そして、図示せぬ制
御部により、分割後の1つの領域を新たな分割対象領域
として設定し(ステップS68)、しかる後ステップS
64へ移行する。
65での分割境界の設定が不可能であったと判断した場
合には、さらに分割対象領域とすることのできる領域が
他に存在するか否かを判断する(ステップS69)。こ
こで、他に存在すると判断した場合には、ステップS6
8に移行してこの領域を新たな分割対象領域として設定
する。他に分割対象領域となる分割処理後の領域が存在
しない場合には、一連の処理を終了する。
文章方向算定部34、分割境界設定部35および領域分
割部36はそれぞれ、図1に示した画像入力部11、前
処理部12、文章方向算定部13、分割境界設定部14
および領域分割部15と内部構成および処理内容が同一
であることから、その処理内容の説明については割愛す
る。そして、ここでは、入力画像再生成部32の処理内
容について、図17のフローチャートを用いて説明す
る。
に対して、予め設定した画素数EXPH 分だけ水平方向
に膨張処理を施す(ステップS71)。画素数EXPH
は、最低でも抽出対象とする最大サイズの濁点を持つ文
字において、これら濁点が文字中核部と融合する程度が
好ましい。
像に対して、予め設定した画素数EXPV 分だけ垂直方
向に膨張処理を施す(ステップS72)。画素数EXP
V は画素数EXPH と同様に、最低でも抽出対象とする
最大サイズの濁点を持つ文字において、これら濁点が文
字中核部と融合する程度が好ましい。EXPV =EXP
H としても良い。
の膨張画像とステップS72で作成した垂直方向の膨張
画像の論理積画像を作成する(ステップS73)。これ
により、文字の濁点を表わす連結成分が文字中核部と統
合され、1連結成分が1文字を表わす確率を高めること
ができる。その結果、文字方向算定部34において算出
する平均列間隔SH と平均行間隔SV の精度が高くな
る。すなわち、文章が縦書き主体であるか横書き主体で
あるかを算定する際に、平均列間隔SH と平均行間隔S
V を用いていることから、より精度の高い算出が可能と
なる。
文章方向算定部34で算出する平均列間隔SH と平均行
間隔SV を用いて領域分割の境界を設定しているため、
この領域分割境界が誤って設定される可能性も低くな
る。これにより、最終的に得られる文章領域を、より安
定的に文章の論理構造に沿った形態で抽出することがで
きる。
のサイズによってしきい値を設け、このしきい値よりも
小さな画素数や外接矩形のサイズを持つ連結成分をノイ
ズとして除去するような、公知のノイズ成分除去方式を
併用した場合には、上述のような統合作用があるため、
濁点を表わす連結成分がノイズとして誤認識されること
を防ぐことができる。
33においてラベリング処理を行うが、ラベリング処理
は連結成分が少ないほど処理時間も短くなるため、入力
画像再生成部32によって再生成された画像を入力画像
として用いることで、連結成分の算出時間を短縮するこ
とができる。
張処理した画像と、入力画像を水平方向に膨張処理した
画像との論理積を求めることで、個々の連結成分が個々
の文字を表わす確率を高められた画像を新たな文書画像
として入力するようにしたことにより、文章が縦書き主
体であるか又は横書き主体であるかを、連結成分の中で
文字として考えられるものの配置から算出する場合に、
例えば、文字の濁点を表わす連結成分が文字中核部と統
合され、1連結成分が1文字を表わす確率が高くなるた
め、より精度の高い文章方向の算出が可能になる。
ることになることから、連結成分を抽出する際に一般的
に用いられるラベリング処理を利用する場合には処理時
間を短縮することができるため、処理の高速化と領域分
割精度の向上を図ることが可能となる。
入力された文書画像に含まれる文章が縦書きであるか又
は横書きであるかを算定し、その算定した結果を参照し
て入力文書画像を分割する境界を設定し、その設定した
境界において入力文書画像を分割するようにしたことに
より、文書構造が未知である文書画像に対しても、文書
の論理構造を考慮して領域分割の境界を設定できるた
め、文書の論理構造に逆らうような不自然な領域の分割
を防ぐことができるとともに、複雑な浮動小数点演算が
少ないので、高速な処理を実現することができる。
の投影分布を算出し、この投影分布を用いて分割領域の
境界を設定する際に、投影分布において所定のしきい値
を設定し、このしきい値に満たない頻度を有する区間幅
を用いて分割境界を設定するようにしたことにより、明
確な空白領域の検出が困難な複雑な文書であっても、文
書の論理構造を考慮したより精度の高い分割境界の設定
が可能となる。
構成を概略的に示すブロック図である。
作を説明するフローチャートである。
るフローチャートである。
説明するフローチャートである。
文字間隔を算定する処理の説明図である。
説明するフローチャートである。
分布上の分割境界候補を抽出する処理の説明図である。
境界候補を抽出する際に注意する必要がある文書画像例
を示す図である。
分布上の分割境界候補から分割境界を設定する処理の説
明図である。
明するフローチャートである。
布上の分割境界から分割に用いる最小頻度点を抽出する
処理の説明図である。
布上の分割境界における最小頻度点から領域を分割する
処理の説明図である。
割境界の設定次第で文章領域抽出結果が改善される様子
の説明図である。
の構成を概略的に示すブロック図である。
の構成を概略的に示すブロック図である。
動作を説明するフローチャートである。
容を説明するフローチャートである。
処理部、13,34…文章方向算定部、14,24,3
5…分割境界設定部、15,25,36…領域分割部、
23…投影分布算出部、32…入力画像再生成部
Claims (20)
- 【請求項1】 入力された文書画像に含まれる文章が縦
書きであるか又は横書きであるかを算定し、 その算定した結果を参照して前記文書画像を分割する境
界を設定し、 その設定した境界において前記文書画像を分割すること
を特徴とする画像処理方法。 - 【請求項2】 前記文書画像を横書き文章方向に膨張処
理した画像と、前記文書画像を縦書き文章方向に膨張処
理した画像との論理積を求め、この論理積画像を新たな
文書画像として入力することを特徴とする請求項1記載
の画像処理方法。 - 【請求項3】 前記境界の設定に際しては、前記文書画
像を構成する画素の横書き文章方向および縦書き文章方
向における投影分布を算出し、この算出した投影分布を
用いて前記境界を設定することを特徴とする請求項1又
は2記載の画像処理方法。 - 【請求項4】 前記算定の結果において、前記文書画像
に含まれ文章が縦書き主体である場合には、縦書き文章
方向に境界を設定する確率を高め、横書き主体である場
合には、横書き文章方向に境界を設定する確率を高める
ことを特徴とする請求項1,2又は3記載の画像処理方
法。 - 【請求項5】 前記文書画像に含まれる文章が縦書き主
体であるか又は横書き主体であるかを、前記文書画像の
連結成分の中で文字と考えられるものの配置情報から算
出することを特徴とする請求項1,2又は3記載の画像
処理方法。 - 【請求項6】 入力された文書画像を構成する画素の投
影分布を算出し、 その算出した投影分布において、所定のしきい値に満た
ない頻度を有する区間幅を用いて前記文書画像を分割す
る境界を設定し、 その設定した境界において前記文書画像を分割すること
を特徴とする画像処理方法。 - 【請求項7】 前記文書画像を分割する境界を、前記区
間幅が最も広いところで設定することを特徴とする請求
項6記載の画像処理方法。 - 【請求項8】 前記文書画像を分割する境界を、前記区
間幅が所定のしきい値以上で、かつ最も頻度が小さいと
ころで設定することを特徴とする請求項6又は7記載の
画像処理方法。 - 【請求項9】 前記文書画像を分割する境界を、前記区
間幅が所定のしきい値以上で、かつ最も頻度が小さい区
間のうちの最も区間幅が広いところで設定することを特
徴とする請求項6又は7記載の画像処理方法。 - 【請求項10】 入力された文書画像に含まれる文章が
縦書きであるか又は横書きであるかを算定する算定手段
と、 前記算定手段による算定結果を参照して前記文書画像を
分割する境界を設定する境界設定手段と、 前記境界設定手段によって設定された境界において前記
文書画像を分割する分割手段とを備えることを特徴とす
る画像処理装置。 - 【請求項11】 前記文書画像を横書き文章方向に膨張
処理した画像と、前記文書画像を縦書き文章方向に膨張
処理した画像との論理積を求め、この論理積画像を新た
な文書画像として入力する入力画像再生成手段をさらに
備えることを特徴とする請求項10記載の画像処理装
置。 - 【請求項12】 前記境界設定手段は、前記文書画像を
構成する画素の横書き文章方向および縦書き文章方向に
おける投影分布を算出する投影分布算出手段を有し、こ
の投影分布算出手段によって算出された投影分布を用い
て前記境界を設定することを特徴とする請求項10又は
11記載の画像処理装置。 - 【請求項13】 前記境界設定手段は、前記算定手段に
よって前記文書画像に含まれ文章が縦書き主体であると
判定された場合には、縦書き文章方向に境界を設定する
確率を高め、横書き主体であると判定された場合には、
横書き文章方向に境界を設定する確率を高めることを特
徴とする請求項10,11又は12記載の画像処理装
置。 - 【請求項14】 前記算定手段は、前記文書画像に含ま
れる文章が縦書き主体であるか又は横書き主体であるか
を、前記文書画像の連結成分の中で文字と考えられるも
のの配置情報から算出することを特徴とする請求項1
0,11又は12記載の画像処理装置。 - 【請求項15】 入力された文書画像を構成する画素の
投影分布を算出する投影分布算出手段と、 前記投影分布算出手段によって算出された投影分布にお
いて、所定のしきい値に満たない頻度を有する区間幅を
用いて前記文書画像を分割する境界を設定する境界設定
手段と、 前記境界設定手段によって設定された境界において前記
文書画像を分割する分割手段とを備えることを特徴とす
る画像処理装置。 - 【請求項16】 前記境界設定手段は、前記区間幅が最
も広いところで前記文書画像を分割する境界を設定する
ことを特徴とする請求項15記載の画像処理装置。 - 【請求項17】 前記境界設定手段は、前記区間幅が所
定のしきい値以上で、かつ最も頻度が小さいところで前
記文書画像を分割する境界を設定することを特徴とする
請求項15又は16記載の画像処理装置。 - 【請求項18】 前記境界設定手段は、前記区間幅が所
定のしきい値以上で、かつ最も頻度が小さい区間のうち
の最も区間幅が広いところで前記文書画像を分割する境
界を設定することを特徴とする請求項15又は16記載
の画像処理装置。 - 【請求項19】 前記文書画像に含まれる文章が縦書き
主体であるか又は横書き主体であるかを算定する算定手
段をさらに備え、 前記境界設定手段は、前記算定手段による算定結果を参
照し、かつ前記投影分布算出手段によって算出された投
影分布を用いて前記文書画像を分割する境界を設定する
ことを特徴とする請求項15又は16記載の画像処理装
置。 - 【請求項20】 前記投影分布算出手段は、前記文書画
像を構成する画素の横書き文章方向および縦書き文章方
向における投影分布を算出することを特徴とする請求項
19記載の画像処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25661498A JP3852218B2 (ja) | 1998-09-10 | 1998-09-10 | 画像処理方法および画像処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25661498A JP3852218B2 (ja) | 1998-09-10 | 1998-09-10 | 画像処理方法および画像処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000090194A true JP2000090194A (ja) | 2000-03-31 |
JP3852218B2 JP3852218B2 (ja) | 2006-11-29 |
Family
ID=17295080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25661498A Expired - Fee Related JP3852218B2 (ja) | 1998-09-10 | 1998-09-10 | 画像処理方法および画像処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3852218B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277092A (ja) * | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文字画像切出装置、文字画像切出方法およびプログラム |
JP2009123206A (ja) * | 2007-11-14 | 2009-06-04 | Canon Inc | 画像からテキストを抽出する方法及び装置 |
US8457404B2 (en) | 2010-08-24 | 2013-06-04 | Fuji Xerox Co., Ltd. | Image processing apparatus, computer readable medium for image processing and computer data signal for image processing |
US8787676B2 (en) | 2010-08-03 | 2014-07-22 | Fuji Xerox, Co., Ltd. | Image processing apparatus, computer readable medium storing program, and image processing method |
JP2015170979A (ja) * | 2014-03-06 | 2015-09-28 | ブラザー工業株式会社 | 画像処理装置 |
US9280725B2 (en) | 2013-02-14 | 2016-03-08 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
-
1998
- 1998-09-10 JP JP25661498A patent/JP3852218B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277092A (ja) * | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文字画像切出装置、文字画像切出方法およびプログラム |
JP2009123206A (ja) * | 2007-11-14 | 2009-06-04 | Canon Inc | 画像からテキストを抽出する方法及び装置 |
US8787676B2 (en) | 2010-08-03 | 2014-07-22 | Fuji Xerox, Co., Ltd. | Image processing apparatus, computer readable medium storing program, and image processing method |
US8457404B2 (en) | 2010-08-24 | 2013-06-04 | Fuji Xerox Co., Ltd. | Image processing apparatus, computer readable medium for image processing and computer data signal for image processing |
US9280725B2 (en) | 2013-02-14 | 2016-03-08 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
JP2015170979A (ja) * | 2014-03-06 | 2015-09-28 | ブラザー工業株式会社 | 画像処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3852218B2 (ja) | 2006-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3302147B2 (ja) | 文書画像処理方法 | |
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
EP0854434B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
US5848184A (en) | Document page analyzer and method | |
US5613016A (en) | Area discrimination system for text image | |
EP1310912A2 (en) | Image processing method, apparatus and system | |
JPH03260787A (ja) | テキスト又は線図形を識別する方法及びデジタル処理システム | |
JPH07114618A (ja) | 手書き及びマシン印字テキストの区分化方法 | |
US5502777A (en) | Method and apparatus for recognizing table and figure having many lateral and longitudinal lines | |
JP3852218B2 (ja) | 画像処理方法および画像処理装置 | |
JPS6132187A (ja) | 文字認識方式 | |
JPH04352295A (ja) | 文字列方向判別装置 | |
JP2918666B2 (ja) | 文字画像切出し方法 | |
JPH0916713A (ja) | 画像領域分割方法 | |
JP3565310B2 (ja) | 一般の文書画像から罫線を抽出する罫線抽出装置および方法 | |
JP2977230B2 (ja) | 文字切り出し方法 | |
JPH0830725A (ja) | 画像処理装置及び方法 | |
JPH05159062A (ja) | 文書認識装置 | |
JPH09134404A (ja) | 棒グラフ認識装置 | |
JPH09114925A (ja) | 光学式文字読取装置 | |
JPH0728934A (ja) | 文書画像処理装置 | |
JPH04241074A (ja) | 自動文書清書装置 | |
JP2899356B2 (ja) | 文字認識装置 | |
JPH0950488A (ja) | 異サイズ混在文字列の読取り方法 | |
JPH03126188A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060828 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100915 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110915 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120915 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120915 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130915 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |