JP7243981B2

JP7243981B2 - 紙面領域分類装置及びそのプログラム

Info

Publication number: JP7243981B2
Application number: JP2019042099A
Authority: JP
Inventors: 陽一景山; 千佳子石沢; 佑芽越▲高▼; 健二末廣; 美紀高橋; 拓也小林
Original assignee: Akita University NUC
Current assignee: Akita University NUC
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2023-03-22
Anticipated expiration: 2039-03-08
Also published as: JP2020144719A

Description

特許法第３０条第２項適用（１）平成３０年度電気関係学会東北支部連合大会論文集による公開、電気関係学会東北支部連合、平成３０年９月６日発行

特許法第３０条第２項適用（２）平成３０年度電気関係学会東北支部連合大会における講演、国立大学法人岩手大学上田キャンパス、平成３０年９月６日講演

特許法第３０条第２項適用（３）平成３０年度情報処理学会東北支部研究会における講演、放送大学秋田学習センター、平成３０年１１月２９日講演

特許法第３０条第２項適用（４）平成３１年電気学会全国大会論文集（ＤＶＤ－ＲＯＭ版）による公開、一般社団法人電気学会、平成３１年３月１日発行

本発明は、印刷物からデジタル化された紙面画像について領域の分類を行う紙面領域分類装置等に関するものである。

近年、新聞の編集作業のデジタル化が進んでおり、紙媒体に印刷されるだけでなく、インターネットにおいて記事の検索や閲覧が可能になっている。一方、古い新聞に掲載された記事は、紙面単位でデジタル化された紙面画像として保存されているだけであり、記事単位の利用が進んでいないのが現状である。古い新聞に掲載された記事の利用を促進するためには、紙面画像に含まれる見出し、本文、写真、広告等の領域を分類し、見出しと本文や写真の関連付けを行うことが不可欠である。

例えば、特許文献１には、紙面を撮影して得られる紙面画像から該紙面画像の部分をスクラップするための方法が開示されている。特許文献１に記載の方法では、紙面画像に関する複数の仕切りエッジ（＝罫線や余白のこと）のうち、水平方向に伸長する上下の水平エッジ及び垂直方向に伸長する左右の垂直エッジから成るエッジのセットに基づいて紙面画像の区分を検出し、それぞれの区分に対応するエッジのセットに基づいてマップ領域を決定することが記載されている。

また、例えば、特許文献２には、文字やイラストをぼかして、膨張及び伸縮を繰り返すことによって、文字やイラストの領域を特定することが記載されている。

特許第６３５３８９３号公報（特開２０１８－９７５５１号公報）特開２０１８－５５４８号公報

しかしながら、特許文献１及び特許文献２のいずれの技術も、古い新聞の紙面画像の特徴について十分に考慮されていないため、古い新聞の紙面画像について精度良く領域を分類することができない。

古い新聞の紙面画像では、インクのシミやかすれ、歪み等が存在するため、特許文献１に記載の技術を適用すると、水平エッジ及び垂直エッジの過剰抽出や抽出漏れが多くなり、精度良く領域を分類できないと推察される。

また、古い新聞では本文の文字と写真の距離が近いため、文字と写真が混在した状態で特許文献２に記載の技術を適用すると、膨張処理によって文字と写真の領域が結合してしまい、両者を区別できなくなり、精度良く領域を分類できないと推察される。

本発明は、前述した問題点に鑑みてなされたものであり、その目的とすることは、古い新聞の紙面画像について精度良く領域の分類を行う紙面領域分類装置等を提供することである。

前述した目的を達成するための第１の発明は、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置であって、前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部と、を備え、前記本文領域分類部は、前記紙面画像から、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域とそれ以外の領域とを区別する本文分類用マスク画像を作成し、前記本文分類用マスク画像に対してラベリング処理を行い、同一のラベルが付されている領域の外接矩形を本文候補領域とし、前記本文候補領域に対して前記書字方向と直交する方向に膨張する書字直交方向膨張処理を行い、前記書字直交方向膨張処理の結果、画素が重複する前記本文候補領域のグループを単一の図形とする場合の外接矩形を前記本文領域とすることを特徴とする紙面領域分類装置である。第１の発明の紙面領域分類装置によって、古い新聞の紙面画像から、見出し領域、写真領域、広告領域及び本文領域を精度良く分類することができ、記事単位のデータ作成が容易となる。また、本文領域と他の領域が近接する古い新聞であっても、精度良く分類できる。また、本文領域が過剰に細切れ状態で分類されることを防ぐことができる。

また、前記本文領域分類部は、前記書字直交方向膨張処理の前に前記本文候補領域を前記書字方向に所定の画素数だけ収縮し、前記書字直交方向膨張処理の後に前記本文候補領域を前記書字方向に所定の画素数だけ膨張するようにしても良い。これによって、上下に隣接する段の本文同士が結合して単一の本文領域として分類されることを防ぐことができる。

第２の発明は、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置であって、前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部と、を備え、前記見出し領域分類部は、前記見出し以外の領域が連結されるように前記基準線領域に基づいて見出し分類用前処理画像を作成し、前記見出し分類用前処理画像に対してラベリング処理を実行し、面積が最大となるラベルの領域及び前記基準線領域に基づいて前記見出しと前記見出し以外を区別する見出し分類用マスク画像を作成し、前記見出し分類用マスク画像に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出することによって、前記見出し領域を検出することを特徴とする紙面領域分類装置である。第２の発明の紙面領域分類装置によって、古い新聞の紙面画像から、見出し領域、写真領域、広告領域及び本文領域を精度良く分類することができ、記事単位のデータ作成が容易となる。また、精度良く見出し領域を検出することができる。

第３の発明は、コンピュータを、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置として機能させるためのプログラムであって、前記コンピュータを、前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部として機能させ、前記本文領域分類部は、前記紙面画像から、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域とそれ以外の領域とを区別する本文分類用マスク画像を作成し、前記本文分類用マスク画像に対してラベリング処理を行い、同一のラベルが付されている領域の外接矩形を本文候補領域とし、前記本文候補領域に対して前記書字方向と直交する方向に膨張する書字直交方向膨張処理を行い、前記書字直交方向膨張処理の結果、画素が重複する前記本文候補領域のグループを単一の図形とする場合の外接矩形を前記本文領域とするためのプログラムである。第３の発明のプログラムを汎用のコンピュータにインストールすることによって、第１の発明の紙面領域分類装置を得ることができる。

第４の発明は、コンピュータを、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置として機能させるためのプログラムであって、前記コンピュータを、前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部として機能させ、前記見出し領域分類部は、前記見出し以外の領域が連結されるように前記基準線領域に基づいて見出し分類用前処理画像を作成し、前記見出し分類用前処理画像に対してラベリング処理を実行し、面積が最大となるラベルの領域及び前記基準線領域に基づいて前記見出しと前記見出し以外を区別する見出し分類用マスク画像を作成し、前記見出し分類用マスク画像に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出することによって、前記見出し領域を検出するためのプログラムである。第４の発明のプログラムを汎用のコンピュータにインストールすることによって、第２の発明の紙面領域分類装置を得ることができる。

本発明により、古い新聞の紙面画像について精度良く領域の分類を行う紙面領域分類装置等を提供することができる。

紙面領域分類装置の概要を示す図紙面画像の一例を示す図基準線領域分類部の処理の流れを示すフローチャート基準線領域分類部の処理を説明する図基準線領域分類部の処理を説明する図見出し領域分類部の処理の流れを示すフローチャート見出し領域分類部の処理を説明する図見出し領域分類部の処理を説明する図写真領域分類部の処理の流れを示すフローチャート写真領域分類部の処理を説明する図写真領域分類部の処理を説明する図広告領域分類部の処理の流れを示すフローチャート広告領域分類部の処理を説明する図本文領域分類部の処理の流れを示すフローチャート本文領域分類部の処理を説明する図本文領域分類部の処理を説明する図本文領域分類部の処理を説明する図

以下図面に基づいて、本発明の実施形態を詳細に説明する。図１は、紙面領域分類装置の概要を示す図である。紙面領域分類装置１は、デスクトップＰＣ（「Personal Computer」の略）やノートＰＣ等のコンピュータであり、制御部としてのＣＰＵ（「Central Processing Unit」の略）、主記憶部としてのメモリ、補助記憶部としてのＨＤＤ（「Hard Disk Drive」の略）やフラッシュメモリ、表示部としての液晶ディスプレイ、入力部としてのキーボードやマウス、タッチパネルディスプレイ等のハードウエアを有する。補助記憶部には、ＯＳ（「Operating System」の略）、アプリケーションプログラム、処理に必要なデータ等が記憶されている。紙面領域分類装置１の制御部は、補助記憶部からＯＳやアプリケーションプログラムを読み出して主記憶部に格納し、主記憶部にアクセスしながら、その他の機器を制御し、後述する処理を実行する。

紙面領域分類装置１は、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う装置であり、紙面の紙面画像を入力する紙面画像入力部１１と、紙面画像の正規化を行う正規化部１２と、紙面画像に含まれ、本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部１３と、基準線領域に基づいて紙面画像に含まれる見出しを検出し、見出し領域に分類する見出し領域分類部１４と、紙面画像に含まれる写真を検出し、写真領域に分類する写真領域分類部１５と、紙面画像に含まれる広告を検出し、広告領域に分類する広告領域分類部１６と、見出し領域、写真領域及び広告領域に関する重複又は誤検出について再分類を行う領域再分類部１７と、基準線領域、見出し領域、写真領域及び広告領域に基づいて紙面画像に含まれる本文の領域を検出し、本文領域に分類する本文領域分類部１８と、分類結果を出力する分類結果出力部１９と、を備える。

見出し領域分類部１４は、基準線領域分類部１３の後に処理を実行する。また、領域再分類部１７及び本文領域分類部１８は、見出し領域分類部１４、写真領域分類部１５及び広告領域分類部１６の後に処理を実行する。一方、見出し領域分類部１４、写真領域分類部１５及び広告領域分類部１６については、互いに順序を変えて処理を実行しても良い。

図２は、紙面画像の一例を示す図である。紙面画像２の紙面は、１９３８年４月１日に発行された秋田魁新報の朝刊の第１面である。紙面画像２は、印刷された紙面をスキャナーで読み取り、デジタル化したものである。図２に示すように、紙面画像２の紙面は、本文の書字方向が縦書きであり、上下左右に一定の幅で区切って段にする段組によって区切られ、段組に沿って記事が配置されている。更に、紙面全体を囲む枠線が存在する。当時の印刷方法は凸版印刷であり、経年劣化もあるため、紙面画像２には、インクのシミ、かすれ及び歪み等のノイズが存在する。本実施の形態では、このようなノイズによってＯＣＲ（Optical Character Recognition：光学的文字認識）技術では本文の文字がほとんど認識できない紙面画像２を対象とし、ＯＣＲ技術を用いずに各領域を分類する。

記事の利用を促進するためには、見出しと本文や写真の関連付けを行い、記事単位のデータを作成することが不可欠である。そこで、紙面領域分類装置１は、記事単位のデータ作成が容易になるように、紙面画像２に含まれる見出し、本文、写真、広告等の領域を分類する。

紙面には様々な罫線が用いられている。例えば、紙面画像２には、（１）本文の書字方向と直交する方向、すなわち図２の左右方向に伸び、段と段の間を区切る線、（２）本文の書字方向、すなわち図２の上下方向に伸び、記事と記事の間を区切る線、（３）見出しや本文等を囲む線等である。これらの罫線は、太さや色が様々であり、飾り模様が付されていることもある。本実施の形態では、見出し等の領域の分類精度を向上させるため、本文の書字方向に伸び、２以上の段に跨る線を基準線として検出し、見出しの検出等における処理の基準として用いる。

図２では、それぞれ、基準線領域３、見出し領域４、写真領域５、広告領域６及び本文領域７の一つを太線で囲んでいる。尚、記事には、見出しや本文の他に、リード文と呼ばれる記事の概略を説明する文章が存在する場合もある。本実施の形態では、リード文は、見出しとして検出されても良いし、本文として検出されても良い。通常、見出し、リード文及び本文は、文字数、文字サイズ及び書き出しの位置等に違いがあるため、リード文が見出し領域４や本文領域７に含まれていても、これらの特徴の違いによって、後から分けることが可能である。

図１の説明に戻る。紙面画像入力部１１は、紙面画像２を入力する。本実施の形態では、ＰＤＦ形式の元データを、２４ビットカラーのＢｉｔｍａｐ形式（４６７２×６４６４画素）に変換し、紙面画像２とする。

正規化部１２は、処理時間の短縮を目的としてリサイズ処理を行う。本実施の形態では、正規化部１２は、バイリニア補間法（双１次内挿法）を用いてリサイズ処理を行う。また、正規化部１２は、紙面全体の歪みの補正を目的として射影変換処理を行う。本実施の形態では、ユーザが入力部を介して４点の座標を指定すると、正規化部１２は、ユーザによって指定される４点の座標が長方形の頂点の座標になるように射影変換処理を行う。ユーザは、入力部を介して紙面全体を囲む枠線の４つの角を指定する。

基準線領域分類部１３は、書字方向に伸びるエッジの外接矩形を基準線領域３とする。エッジを線として検出するのではなく、エッジの外接矩形、すなわち幅のある領域として検出することによって、飾り模様が付されていたり、ノイズによって歪んでいたりする線についても精度良く検出できる。更に、基準線領域分類部１３は、基準線領域３を書字方向に空白以外の画素まで延長する。これによって、後述する見出し領域分類部１４の処理において、見出し領域４を精度良く検出できる。

図３は、基準線領域分類部の処理の流れを示すフローチャートである。図３に示すように、基準線領域分類部１３は、書字方向に伸びるエッジを検出するための前処理を実行する（ステップＳ１１）。基準線領域分類部１３は、ソーベルフィルタを紙面画像２に適用し、書字方向のエッジを検出する。次に、基準線領域分類部１３は、反転処理、及び大津の手法を用いた２値化処理を実行する。次に、基準線領域分類部１３は、基準線の周囲に隣接する文字やノイズ等を棄却することを目的として、連結画素が３画素以下となる黒画素を除去する。そして、基準線領域分類部１３は、黒画素の膨張処理を１回、黒画素の収縮処理を１回、及び反転処理を実行し、基準線分類用前処理画像とする。

次に、基準線領域分類部１３は、基準線分類用前処理画像に対してラベリング処理を実行し（ステップＳ１２）、棄却判定処理を実行する（ステップＳ１３）。ステップＳ１１において作成される基準線分類用前処理画像は、基準線に相当する画素のエッジが連結し、強調されるものの、見出しや本文等の文字、写真等の領域も検出される。従って、基準線の領域のみを検出するためには、文字や写真等の領域を棄却する必要がある。

基準線領域分類部１３は、基準線分類用前処理画像に対して、例えば、ＯｐｅｎＣｖＢｌｏｂｓ（https://opencv.org/のウェブページ参照）を用いてラベリング処理を実行する。次に、基準線領域分類部１３は、ラベリング処理によって得られる各ラベルの領域に対して、外接矩形を算出する。ここで得られる外接矩形の領域は、基準線以外に、文字や写真等のエッジも含まれている。そこで、基準線領域分類部１３は、（１）紙面画像２の左右端２％に該当する領域は、紙面全体を囲む枠線と仮定し、棄却する、（２）上下方向の長さが３００画素(＝紙面の高さ３，２３２画素に対して約９．２８％)以下となる領域は、基準線以外と仮定し、棄却する、（３）左右方向の長さが５０画素(＝紙面の幅２，３３６画素に対して約２．１４％)以上となる領域は、基準線以外と仮定し、棄却する、という３つの棄却判定条件に従い、基準線以外の領域を棄却する。

次に、基準線領域分類部１３は、延長処理用画像を作成し（ステップＳ１４）、基準線延長処理を実行し（ステップＳ１５）、基準線領域３を決定する（ステップＳ１６）。ステップＳ１５の基準線延長処理では、ステップＳ１３において棄却されなかった基準線の領域を書字方向に空白以外の画素まで延長する。ここで、空白と空白以外の画素を明確に区別するため、基準線領域分類部１３は、ソーベルフィルタを適用し、左右方向のエッジが強調される画像を作成し、この画像に対して反転処理、及び大津の２値化処理を実行する。そして、基準線領域分類部１３は、基準線の周囲に隣接するノイズを棄却することを目的として、連結画素が３画素以下となる黒画素を除去した後、オープニング処理を２回実行し、延長処理用画像とする。

図４、図５は、基準線領域分類部の処理を説明する図である。図４（ａ）に示す画像３１は、延長処理用画像に対して延長前基準線領域３ａを重ねたものである。画像３１では、左右方向のエッジが強調されており、段同士の境界線が明確に確認できる。基準線領域分類部１３は、延長前基準線領域３ａを書字方向に空白以外の画素、すなわち境界線３２ａ及び３２ｂの画素まで延長する。この結果が図４（ｂ）に示す画像３３であり、延長処理用画像に対して延長後基準線領域３ｂを重ねたものである。また、図５に示す基準線領域分類結果画像３４は、紙面画像２に対して全ての延長後基準線領域３ｂを明示したものである。尚、基準線領域分類結果画像３４は、紙面画像２の原画像に対して明度を変更し、赤色の枠線で延長後基準線領域３ｂを描画したものをグレースケール画像にしたものである。

図１の説明に戻る。見出し領域分類部１４は、見出し以外の領域が連結されるように基準線領域３に基づいて見出し分類用前処理画像を作成し、見出し分類用前処理画像に対してラベリング処理を実行し、面積が最大となるラベルの領域及び基準線領域３に基づいて見出しと見出し以外を区別する見出し分類用マスク画像を作成する。更に、見出し領域分類部１４は、見出し分類用マスク画像に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出することによって、見出し領域４を検出する。これによって、精度良く見出し領域４を検出することができる。

図６は、見出し領域分類部の処理の流れを示すフローチャートである。図６に示すように、見出し領域分類部１４は、紙面画像２に対して前処理を実行する（ステップＳ２１）。図２を参照すれば、見出しは周囲が空白になっていることから、見出し領域分類部１４は、見出し以外の領域を結合し、見出しを独立させることによって、見出しを検出する。具体的には、見出し領域分類部１４は、適応的閾値処理の１つであり、近傍領域の重み付け平均値を閾値とし、重みを正規分布となるように計算する２値化処理を紙面画像２に対して実行する。次に、見出し領域分類部１４は、２値化処理後の画像に対して反転処理を実行し、白画素の膨張処理を５回、白画素の収縮処理を５回実行する。この状態では、見出しと基準線が膨張処理によって結合される場合がある。そこで、見出し領域分類部１４は、基準線領域分類部１３によって分類された基準線領域３に相当する画素を棄却し、これを見出し分類用前処理画像とする。尚、膨張処理や収縮処理の実行回数は一例であり、この例に限定されるものではない。以下に示す膨張処理や収縮処理の実行回数についても同様である。

図７、図８は、見出し領域分類部の処理を説明する図である。図７（ａ）は、ステップＳ２１の処理結果である見出し分類用前処理画像４１を示している。見出し分類用前処理画像４１を参照すれば、写真や本文といった見出し以外の領域が白画素として結合し、見出しの周囲が黒画素で埋め尽くされ、見出しが写真や本文といった見出し以外の領域から独立していることが分かる。

次に、見出し領域分類部１４は、ラベリング処理を実行する（ステップＳ２２）。具体的には、見出し領域分類部１４は、例えば、ＯｐｅｎＣｖＢｌｏｂｓを用いて見出し分類用前処理画像４１に対してラベリング処理を実行する。

次に、見出し領域分類部１４は、面積が最大となるラベルの領域に基準線領域３を追加した領域を抽出する（ステップＳ２３）。面積が最大となるラベルの領域は、ほぼ見出し以外の領域に相当するものの、ステップＳ２１の処理において基準線領域３に相当する画素を棄却することに起因し、見出しが過剰に検出される場合がある。そこで、本実施の形態では、見出し領域分類部１４は、面積が最大となるラベルの領域に基準線領域３を追加した領域を抽出する。図７（ｂ）に示す画像４２が、ステップＳ２３の抽出結果である。広告の領域を除けば、概ね白画素が見出し以外の領域に相当する画素であり、黒画素が見出しの領域に相当する画素である。画像４２を参照すれば、見出しの領域は、黒画素が矩形状に連結している領域として容易に判別できる。

次に、見出し領域分類部１４は、見出しと見出し以外を区別する見出し分類用マスク画像を作成する（ステップＳ２４）。具体的には、見出し領域分類部１４は、ステップＳ２３の抽出結果に対して、反転処理、黒画素の膨張処理を２０回、及び黒画素の収縮処理を２０回実行する。図７（ｃ）は、ステップＳ２２の抽出結果である見出し分類用マスク画像４３を示している。見出し分類用マスク画像４３を参照すれば、広告の領域を除き、概ね白画素が連結した領域が見出しの領域であり、黒画素が連結した領域が見出し以外の領域である。

ステップＳ２４において作成される見出し分類用マスク画像４３は、左右方向に伸びる罫線が、見出し以外の領域から棄却される場合がある。すなわち、見出し分類用マスク画像４３において、左右方向に伸びる罫線が白画素（＝見出しの領域に相当する画素）になる場合がある。そこで、見出し領域分類部１４は、見出し分類用マスク画像４３を補正する（ステップＳ２５）。具体的には、見出し領域分類部１４は、紙面画像２に対してソーベルフィルタを適用することによって、左右方向に伸びるエッジを検出し、反転処理、大津の手法を用いた２値化処理、及び黒画素の膨張処理を２回実行し、補正用前処理画像とする。図７（ｄ）は、この処理結果である補正用前処理画像４４を示している。そして、見出し領域分類部１４は、ステップＳ２４において作成される見出し分類用マスク画像４３と補正用前処理画像４４との論理和を算出し、補正後マスク画像とする。図８（ａ）は、この処理結果である補正後マスク画像４５を示している。

次に、見出し領域分類部１４は、ラベリング処理を実行する（ステップＳ２６）。具体的には、見出し領域分類部１４は、例えば、ＯｐｅｎＣｖＢｌｏｂｓを用いて補正後マスク画像４５に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出する。

ステップＳ２６において算出される各ラベルの領域の外接矩形は、見出し以外に、写真や広告、及び本文の空白の一部が含まれる場合がある。そこで、見出し領域分類部１４は、棄却判定処理を実行し（ステップＳ２７）、見出し領域４を決定する（ステップＳ２８）。本実施の形態では、２以上の段に跨る領域を見出し領域４とする。具体的な棄却判定条件として、見出し領域分類部１４は、見出しの右側に基準線が存在する場合を考慮し、外接矩形の高さが３００画素以上となる領域を見出し領域４とし、これ以外に該当する領域を棄却する。図８（ｂ）に示す見出し領域分類結果画像４６は、紙面画像２に対して全ての見出し領域４を明示したものである。尚、見出し領域分類結果画像４６は、紙面画像２の原画像に対して明度を変更し、赤色の枠線で見出し領域４を描画したものをグレースケール画像にしたものである。また、見出し領域分類結果画像４６には、広告領域６に含まれるべき領域が見出し領域４として分類されている場合があるが、これについては後述の領域再分類部１７によって再分類される。

図１の説明に戻る。写真領域分類部１５は、紙面画像２に対して互いに異なる第１前処理及び第２前処理を実行し、第１前処理によって作成される画像と第２前処理によって作成される画像との差分画像を作成し、差分画像に基づいて写真領域５を検出する。写真の領域には明度が低い画素が密集している。そこで、写真領域分類部１５は、第１前処理によって写真に相当する画素（＝明度が低い画素）を結合させた画像を作成し、第２前処理によって写真以外の領域を強調した画像を作成し、これら２つの画像の差分画像を用いることによって写真領域５を精度良く検出する。特に、写真と本文が近接している古い新聞において有効である。

図９は、写真領域分類部の処理の流れを示すフローチャートである。図９に示すように、写真領域分類部１５は、紙面画像２に対して、写真に相当する画素を結合させる第１前処理を実行する（ステップＳ３１）。具体的には、写真領域分類部１５は、紙面画像２に８方向ラプラシアンフィルタを適用してエッジを検出した後、反転処理と、Ｓａｕｖｏｌａの手法による閾値決定処理を用いた２値化処理を実行する。

図１０、図１１は、写真領域分類部の処理を説明する図である。図１０（ａ）は、ステップＳ３１の処理結果である第１写真分類用前処理画像５１を示している。第１写真分類用前処理画像５１は、写真の領域に相当する画素が黒画素として出現していることが分かる。

次に、写真領域分類部１５は、紙面画像２に対して、写真以外の領域を強調する第２前処理を実行する（ステップＳ３２）。具体的には、写真領域分類部１５は、紙面画像２に７×７のメディアンフィルタを適用して平滑化処理を実行した後、８方向ラプラシアンフィルタを適用してエッジを検出し、更に、反復処理と、Ｓａｕｖｏｌａの手法による閾値決定処理を用いた２値化処理と、黒画素の膨張処理２回を実行する。図１０（ｂ）は、ステップＳ３２の処理結果である第２写真分類用前処理画像５２を示している。第２写真分類用前処理画像５２は、写真の領域に相当する画素がほとんど白画素、写真以外の見出しや本文に相当する画素が黒画素で強調されていることが分かる。

次に、写真領域分類部１５は、第１写真分類用前処理画像５１と第２写真分類用前処理画像５２との差分画像を作成する（ステップＳ３３）。具体的には、写真領域分類部１５は、第１写真分類用前処理画像５１から第２写真分類用前処理画像５２の差分を算出した後、黒画素の膨張処理２回と反転処理を実行する。図１１（ａ）は、ステップＳ３３の処理結果である画像５３を示している。写真領域分類部１５は、前述の差分を算出する処理において、第１写真分類用前処理画像５１及び第２写真分類用前処理画像５２の同一画素位置同士の値を確認し、第１写真分類用前処理画像５１の値が黒画素、第２写真分類用前処理画像５２の値が白画素であった場合、差分画像の同一画素位置の値を黒画素とし、それ以外の場合は白画素とする。尚、第１写真分類用前処理画像５１、第２写真分類用前処理画像５２及び差分画像の画像サイズは同一である。画像５３は、差分画像に対して黒画素の膨張処理と反転処理を実行した後の画像である。画像５３は、写真の領域については白画素が密集しており、他の領域についてはほとんど黒画素である。但し、広告に含まれるイラストの領域は、写真の領域と同様、白画素が密集している。

次に、写真領域分類部１５は、例えば、ＯｐｅｎＣｖＢｌｏｂｓを用いて差分画像５３に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出する（ステップＳ３４）。

次に、写真領域分類部１５は、ステップＳ３４において算出される外接矩形に対して棄却判定処理を実行し、写真候補領域を特定する（ステップＳ３５）。具体的な棄却判定条件として、写真領域分類部１５は、横幅１００画素以下、高さ１００画素以下となる領域を本文やその他のノイズと仮定し、棄却する。尚、棄却判定条件の画素数は一例であり、この例に限定されるものではない。以下の棄却判定条件についても同様である。

次に、写真領域分類部１５は、ステップＳ３５において特定される写真候補領域の明度ヒストグラムを作成する（ステップＳ３６）。写真候補領域には、本文の領域が含まれる場合がある。そこで、写真の領域は明度の低い画素が密集しているという特徴に着目し、明度ヒストグラムを用いて写真の領域と本文の領域を区別する。

次に、写真領域分類部１５は、ステップＳ３６において作成される明度ヒストグラムを用いて、写真候補領域に対して棄却判定処理を実行する（ステップＳ３７）。具体的な棄却判定条件として、写真領域分類部１５は、横幅が紙面画像２の５０％以上の写真候補領域を広告領域６に分類するとともに、明度ヒストグラムの尖度を算出し、尖度が閾値より大きい写真候補領域を棄却する。一方、写真領域分類部１５は、尖度が閾値以下の写真候補領域を写真領域５に決定する（ステップＳ３８）。本実施の形態では、閾値を４．０としたが、この例に限定されるものではない。図１１（ｂ）に示す写真領域分類結果画像５４は、紙面画像２に対して全ての写真領域５を明示したものである。尚、写真領域分類結果画像５４は、紙面画像２の原画像に対して明度を変更し、赤色の枠線で写真領域５を描画したものをグレースケール画像にしたものである。また、写真領域分類結果画像５４には、広告領域６に含まれるべき領域が写真領域５として分類されている場合があるが、これについては後述の領域再分類部１７によって再分類される。

図１の説明に戻る。広告領域分類部１６は、囲み枠線を強調するように広告分類用前処理画像を作成し、広告分類用前処理画像に対してラベリング処理を実行することによって、広告領域６を検出する。広告は、ほとんどの場合、周囲に囲み枠線が存在するため、囲み枠線に着目することによって広告領域６を精度良く検出することができる。

図１２は、広告領域分類部の処理の流れを示すフローチャートである。図１２に示すように、広告領域分類部１６は、紙面画像２に対して、囲み枠線を強調する前処理を実行する（ステップＳ４１）。具体的には、広告領域分類部１６は、紙面画像２に対して７×７のメディアンフィルタを適用し、平滑化処理を実行した後、８方向ラプラシアンフィルタを適用し、エッジを検出する。次に、広告領域分類部１６は、反転処理、大津の手法を用いた２値化処理、及び黒画素の膨張処理３回を実行し、広告分類用前処理画像とする。

図１３は、広告領域分類部の処理を説明する図である。図１３（ａ）は、ステップＳ４１の処理結果である広告分類用前処理画像６１を示している。広告分類用前処理画像６１は、広告の囲み枠線が太線として強調されていることが分かる。

次に、広告領域分類部１６は、例えば、ＯｐｅｎＣｖＢｌｏｂｓを用いて広告分類用前処理画像６１に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出する（ステップＳ４２）。

次に、広告領域分類部１６は、ステップＳ４２において算出される外接矩形に対して、棄却判定処理を実行し（ステップＳ４３）、広告領域を決定する（ステップＳ４４）。広告領域分類部１６は、（１）外接矩形が紙面の７０％以上の面積を有する場合、記事全体の囲み枠線と仮定し、棄却する、（２）紙面の下部５０％部分に存在し、外接矩形が横幅１００画素以下、高さ１００画素以下の場合、本文やその他のノイズの領域と仮定し、棄却する、という２つの棄却判定条件に従い、広告以外の領域を棄却する。一方、広告領域分類部１６は、これらの棄却判定条件に合致しない外接矩形を広告領域６として決定する。図１３（ｂ）に示す広告領域分類結果画像６２は、紙面画像２に対して全ての広告領域６を明示したものである。尚、広告領域分類結果画像６２は、紙面画像２の原画像に対して明度を変更し、赤色の枠線で広告領域６を描画したものをグレースケール画像にしたものである。

図１の説明に戻る。領域再分類部１７は、既に分類されている見出し領域４、写真領域５及び広告領域６について、位置情報や重複状態に基づいて再分類を行う。具体的には、領域再分類部１７は、（１）紙面画像２の下部３０％部分を広告優先領域とし、広告優先領域において広告領域６と交差する見出し領域４を広告領域６として再分類する、（２）見出し領域４及び写真領域５が重複する場合、重複する面積を算出し、見出し領域４の５０％以上が重複している場合、見出し領域４の誤検出と仮定し、この見出し領域４を棄却する、という再分類条件に従って再分類を行う。また、領域再分類部１７は、大きい矩形に包含される小さい矩形を棄却する処理を行い、広告領域６の調整を行う。これによって、見出し領域４、写真領域５及び広告領域６が一意に分類されるとともに、分類の精度を向上させることができる。

本文領域分類部１８は、紙面画像２から、基準線領域３、見出し領域４、写真領域５及び広告領域６とそれ以外の領域とを区別する本文分類用マスク画像を作成し、本文分類用マスク画像に対してラベリング処理を行い、同一のラベルが付されている領域の外接矩形を本文候補領域とし、本文候補領域に対して書字方向と直交する方向に膨張する書字直交方向膨張処理を行い、書字直交方向膨張処理の結果、画素が重複する本文候補領域のグループを単一の図形とする場合の外接矩形を本文領域７とする。これによって、本文領域７と他の領域が近接する古い新聞であっても、精度良く分類できる。また、本文領域７が過剰に細切れ状態で分類されることを防ぐことができる。

また、上下に隣接する段の本文同士は、互いに異なる記事に属する場合があるため、単一の本文領域７として分類されることは望ましくない。そこで、本文領域分類部１８は、書字直交方向膨張処理の前に本文候補領域を書字方向に所定の画素数だけ収縮し、膨張処理の後に本文候補領域を書字方向に所定の画素数だけ膨張する。これによって、上下に隣接する段の本文同士が結合して単一の本文領域７として分類されることを防ぐことができる。

図１４は、本文領域分類部の処理の流れを示すフローチャートである。図１４に示すように、本文領域分類部１８は、紙面画像２に対して前処理を実行する（ステップＳ５１）。具体的には、本文領域分類部１８は、紙面画像２に対して７×７のメディアンフィルタを適用し、平滑化処理を実行した後、ソーベルフィルタを適用し、エッジを検出する。次に、本文領域分類部１８は、反転処理と、大津の手法を用いた２値化処理を実行する。更に、本文領域分類部１８は、黒画素の膨張処理３回、黒画素の収縮処理２回、及び反転処理を実行し、本文分類用前処理画像とする。

図１５～図１７は、本文領域分類部の処理を説明する図である。図１５（ａ）は、ステップＳ５１の処理結果である本文分類用前処理画像８１を示している。

次に、本文領域分類部１８は、基準線領域３、見出し領域４、写真領域５及び広告領域６を用いて、本文分類用マスク画像を作成する（ステップＳ５２）。図１５（ｂ）に示す画像８２は、基準線領域３、見出し領域４、写真領域５及び広告領域６の分類結果を示している。尚、画像８２は、紙面画像２の原画像に対して、領域ごとに異なる色で着色したものをグレースケール画像にしたものである。本文領域分類部１８は、本文分類用前処理画像８１に対して、画像８２における基準線領域３、見出し領域４、写真領域５及び広告領域６のいずれかの領域に属する画素を黒画素として重畳することによって、本文分類用マスク画像を作成する。図１５（ｃ）は、この処理結果である本文分類用マスク画像８３を示している。

次に、本文領域分類部１８は、例えば、ＯｐｅｎＣｖＢｌｏｂｓを用いて本文分類用マスク画像８３に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出し、本文候補領域とする（ステップＳ８３）。ここで、本文領域分類部１８は、本文候補領域からノイズを除去するために、本文の１文字分に相当する高さ１５画素(＝紙面の高さ３，２３２画素に対して約０．４６４％)及び横幅１５画素(＝紙面の幅２，３３６画素に対して約０．６４２％)以下となる領域を棄却する。また、本文領域分類部１８は、本文候補領域から枠線を除外するために、高さが２段分(＝紙面の高さ３，２３２画素に対して約１４％)以上の領域については枠線と仮定し、棄却する。図１５（ｄ）は、この処理結果である本文候補領域検出結果画像８４を示している。尚、本文候補領域検出結果画像８４は、紙面画像２の原画像に対して、本文候補領域を青色の枠線で示したものをグレースケール画像にしたものである。

次に、本文領域分類部１８は、本文候補領域に相当する各矩形を書字方向に４画素だけ収縮する（ステップＳ５４）。これは、上下に隣接する段の本文同士が結合してしまうことを防ぐための処理である。

次に、本文領域分類部１８は、各矩形を書字方向と直交する方向にｎ画素膨張する（ステップＳ５５）。本実施の形態では、ステップＳ５５～ステップＳ５７を３回繰り返す。膨張画素数を示すｎは、１回目が８画素、２回目が３画素、３回目が２画素とし、回数を追うごとに減らしていく。図１６（ａ）に示す画像８５は、本文候補領域検出結果画像８４の一部を切り出したものである。図１６（ｂ）に示す画像８６は、本文候補領域検出結果画像８４に膨張処理を実行した結果の一部を切り出したものである。尚、画像８５及び画像８６は、紙面画像２の原画像に対して、各矩形を青色の枠線で示したものをグレースケール画像にしたものである。

次に、本文領域分類部１８は、ステップＳ５５の処理の結果、画素が重複する矩形同士をグループ化し（ステップＳ５６）、各グループを単一の図形とする場合の外接矩形を算出する（ステップＳ５７）。図１７は、ステップＳ５６及びＳ５７の処理を示している。算出される外接矩形は、新たな矩形として後続の処理の対象となる。また、図１６（ｃ）に示す画像８７は、グループ化及び外接矩形の算出処理を実行した結果の一部を切り出したものである。尚、画像８７は、紙面画像２の原画像に対して、各矩形を青色の枠線で示したものをグレースケール画像にしたものである。

次に、本文領域分類部１８は、繰り返し回数が所定回数（＝本実施の形態では３回）に到達したか否か確認する（ステップＳ５８）。到達していない場合（ステップＳ５８のＮｏ）、本文領域分類部１８は、ステップＳ５５から処理を繰り返す。到達している場合（ステップＳ５８のＹｅｓ）、本文領域分類部１８は、ステップＳ５９に進む。

次に、本文領域分類部１８は、各矩形を書字方向に４画素だけ膨張する（ステップＳ５９）。これは、ステップＳ５４において収縮した分を元に戻すための処理である。

次に、本文領域分類部１８は、他の矩形に包含されている矩形を棄却し、最終的な本文領域７を決定する（ステップＳ６０）。図１６（ｄ）に示す本文領域分類結果画像８８は、紙面画像２に対して全ての本文領域７を明示したものである。尚、本文領域分類結果画像８８は、紙面画像２の原画像に対して明度を変更し、赤色の枠線で本文領域７を描画したものをグレースケール画像にしたものである。

図１の説明に戻る。分類結果出力部１９は、分類結果を表示部に表示し、入力部を介してユーザから切り抜きや保存の指示を受け付ける。具体的には、分類結果出力部１９は、見出し領域４、写真領域５、広告領域６及び本文領域７の一部又は全部を紙面画像２に重畳して表示部に表示する。次に、分類結果出力部１９は、入力部を介して各領域の選択を受け付ける。次に、分類結果出力部１９は、領域が選択された状態で、切り抜きや保存の指示を受け付ける。これによって、ユーザは、見出しと本文や写真の関連付けを容易に行うことができ、紙面画像２から記事単位に切り抜いて保存する作業を効率良く行うことができる。尚、分類結果出力部１９は、分類結果の修正を受け付けるようにしても良い。

以上の通り、本実施の形態における紙面領域分類装置１によれば、古い新聞の紙面画像２から、見出し領域４、写真領域５、広告領域６及び本文領域７を精度良く分類することができ、記事単位のデータ作成が容易となる。

本実施例では、紙面領域分類装置１によって紙面画像２の領域の分類を行った。対象データは、１９３８年４月６日～４月３０日の間に発行された秋田魁新報の朝刊の紙面とした。最初に、目視によって見出し領域４、写真領域５及び広告領域６の正解マスク画像を作成し、正解となる領域（以下、「正解領域」という。）を取得した。ここで、正解マスク画像は、正解領域が白画素、正解領域ではない領域が黒画素である。次に、紙面領域分類装置１によって検出された領域（以下、「検出領域」という。）と正解領域との比較を行い、後述する評価指標を用いて検出精度を評価した。

本実施例では、検出領域の評価指標として、精度（precision）（％）、再現率（recall）（％）、Ｆ値（F-measure）（％）、ＩｏＵ（Intersection-Over-Union）（％）を用いた。Ｆ値（％）とは、画素の分類精度を評価するための指標であり、ＩｏＵ（％）とは、検出領域と正解領域との重なり度合を評価するための指標である。ここで、「ＴＰ」を検出領域が正しく分類された（正解領域に含まれる）画素数、「ＦＰ」を検出領域が正解領域に含まれない画素数、「ＦＮ」を検出領域が含まれない正解領域の画素数、「Area of overlap」を正解領域と検出領域の論理積の面積（＝画素数）、「Area of union」を正解領域と検出領域の論理和の面積（＝画素数）とすると、精度（precision）（％）、再現率（recall）（％）、Ｆ値（F-measure）（％）及びＩｏＵ（Intersection-Over-Union）（％）は以下の式で算出される。

また、正解領域と重複しない検出領域（以下、「誤検出領域」という。）においては誤検出率（％）を算出し、検出されない正解領域（以下、「未検出領域」という。）においては未検出率（％）を算出した。ここで、「誤検出領域面積」を正解領域と重複しない領域の合計面積（＝合計画素数）、「未検出領域面積」を正解領域の中で検出されなかった領域の合計面積（＝合計画素数）、「正解領域外側面積」を正解マスク画像における黒画素（＝正解領域ではない画素）の面積（＝画素数）とすると、誤検出率（％）及び未検出率（％）は以下の式で算出される。

本実施例では、前述の式に基づき、見出し領域４、写真領域５及び広告領域６について評価指標を算出した。算出結果は以下の通りである。

見出し領域４の検出においては、Ｆ値の平均が８２．２１％、ＩｏＵの平均が７４．８７％という良好な結果となった。また、検出結果を目視で確認したところ、他の領域との重複はあるものの、見出しの全てを検出できていた。更に、未検出率の平均においても０．７７％という良好な結果となった。写真領域５の検出においては、Ｆ値の平均が８１．７１％、ＩｏＵの平均が７６．０５％という良好な結果となった。また、検出結果を目視で確認したところ、写真の全てを検出できていた。広告領域６の検出においては、広告領域６同士の重複等に起因して評価指標の数値は良好とは言えないが、検出結果を目視で確認したところ、広告領域６全体を覆うような検出ができていた。以上の通り、紙面領域分類装置１による領域の分類が有用であることが分かった。

以上、添付図面を参照しながら、本発明に係る紙面領域分類装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１………紙面領域分類装置
２………紙面画像
３………基準線領域
４………見出し領域
５………写真領域
６………広告領域
７………本文領域
１１………紙面画像入力部
１２………正規化部
１３………基準線領域分類部
１４………見出し領域分類部
１５………写真領域分類部
１６………広告領域分類部
１７………領域再分類部
１８………本文領域分類部
１９………分類結果出力部

Claims

見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置であって、
前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、
前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、
前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、
前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、
前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、
前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部と、
を備え、
前記本文領域分類部は、前記紙面画像から、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域とそれ以外の領域とを区別する本文分類用マスク画像を作成し、前記本文分類用マスク画像に対してラベリング処理を行い、同一のラベルが付されている領域の外接矩形を本文候補領域とし、前記本文候補領域に対して前記書字方向と直交する方向に膨張する書字直交方向膨張処理を行い、前記書字直交方向膨張処理の結果、画素が重複する前記本文候補領域のグループを単一の図形とする場合の外接矩形を前記本文領域とする
ことを特徴とする紙面領域分類装置。
前記本文領域分類部は、前記書字直交方向膨張処理の前に前記本文候補領域を前記書字方向に所定の画素数だけ収縮し、前記書字直交方向膨張処理の後に前記本文候補領域を前記書字方向に所定の画素数だけ膨張する
ことを特徴とする請求項１に記載の紙面領域分類装置。
見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置であって、
前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、
前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、
前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、
前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、
前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、
前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部と、
を備え、
前記見出し領域分類部は、前記見出し以外の領域が連結されるように前記基準線領域に基づいて見出し分類用前処理画像を作成し、前記見出し分類用前処理画像に対してラベリング処理を実行し、面積が最大となるラベルの領域及び前記基準線領域に基づいて前記見出しと前記見出し以外を区別する見出し分類用マスク画像を作成し、前記見出し分類用マスク画像に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出することによって、前記見出し領域を検出する
ことを特徴とする紙面領域分類装置。
コンピュータを、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置として機能させるためのプログラムであって、
前記コンピュータを、
前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、
前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、
前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、
前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、
前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、
前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部として機能させ、
前記本文領域分類部は、前記紙面画像から、前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域とそれ以外の領域とを区別する本文分類用マスク画像を作成し、前記本文分類用マスク画像に対してラベリング処理を行い、同一のラベルが付されている領域の外接矩形を本文候補領域とし、前記本文候補領域に対して前記書字方向と直交する方向に膨張する書字直交方向膨張処理を行い、前記書字直交方向膨張処理の結果、画素が重複する前記本文候補領域のグループを単一の図形とする場合の外接矩形を前記本文領域とするためのプログラム。
コンピュータを、見出し、本文、写真及び広告を含む紙面の紙面画像の領域の分類を行う紙面領域分類装置として機能させるためのプログラムであって、
前記コンピュータを、
前記紙面画像に含まれ、前記本文の書字方向に伸びる線を基準線として検出し、基準線領域に分類する基準線領域分類部と、
前記基準線領域に基づいて前記紙面画像に含まれる前記見出しを検出し、見出し領域に分類する見出し領域分類部と、
前記紙面画像に含まれる前記写真を検出し、写真領域に分類する写真領域分類部と、
前記紙面画像に含まれる前記広告を検出し、広告領域に分類する広告領域分類部と、
前記見出し領域、前記写真領域及び前記広告領域に関する重複又は誤検出について再分類を行う領域再分類部と、
前記基準線領域、前記見出し領域、前記写真領域及び前記広告領域に基づいて前記紙面画像に含まれる前記本文の領域を検出し、本文領域に分類する本文領域分類部として機能させ、
前記見出し領域分類部は、前記見出し以外の領域が連結されるように前記基準線領域に基づいて見出し分類用前処理画像を作成し、前記見出し分類用前処理画像に対してラベリング処理を実行し、面積が最大となるラベルの領域及び前記基準線領域に基づいて前記見出しと前記見出し以外を区別する見出し分類用マスク画像を作成し、前記見出し分類用マスク画像に対してラベリング処理を実行し、各ラベルの領域の外接矩形を算出することによって、前記見出し領域を検出するためのプログラム。