JP2019096067A

JP2019096067A - 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法

Info

Publication number: JP2019096067A
Application number: JP2017225029A
Authority: JP
Inventors: 和也米澤; Kazuya Yonezawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2019-06-20
Anticipated expiration: 2037-11-22
Also published as: JP6922690B2; US10783390B2; US20190156135A1

Abstract

【課題】画像から文字領域を抽出する際の抽出精度を向上させる。【解決手段】文字領域抽出プログラムであって、画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、抽出した文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、処理をコンピュータに実行させる。【選択図】図３

Description

本発明は、文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法に関する。

従来より、撮像装置において撮影された撮影画像等から、文字（例えば、看板や標識等に記載された文字）が含まれる領域（文字領域）を抽出し、抽出した文字領域について、文字認識を行う文字認識処理が知られている。

当該文字認識処理においては、撮影画像等から文字領域を過不足なく抽出することが求められる。しかしながら、撮影画像等に含まれる文字の場合、文字の大きさが規格化されておらず、大きさの異なる文字が複数含まれることから、抽出できない文字領域が発生することがある。

これに対して、例えば、下記特許文献１では、解像度の異なる画像を複数生成したうえで、それぞれの解像度の画像から文字領域の候補を検出し、検出した文字領域の候補が所定数以上重複している領域を、文字領域として抽出する抽出方法が提案されている。

当該抽出方法によれば、大きさの異なる文字が複数含まれていた場合でも、それぞれの文字領域を抽出することができる。

特開２０１２−１０８６８９号公報

しかしながら、上記抽出方法の場合、抽出された文字領域には文字以外の背景画像も多く含まれることとなる。つまり、実際に文字がある領域よりも広い領域が文字領域として抽出されることとなり、抽出精度（抽出された文字領域に占める実際に文字がある領域の割合）が低い。このため、抽出された文字領域を用いて文字認識を行った場合に、文字認識精度が低下するといった問題が生じる。

一つの側面では、画像から文字領域を抽出する際の抽出精度を向上させることを目的としている。

一態様によれば、文字領域抽出プログラムは、
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、処理をコンピュータに実行させる。

画像から文字領域を抽出する際の抽出精度を向上させることができる。

画像処理システムのシステム構成の一例を示す図である。画像処理装置のハードウェア構成の一例を示す図である。文字領域抽出部の機能構成の一例を示す図である。解像度とエッジ密度との関係を示す図である。文字領域候補抽出処理の概要を示す図である。重複領域抽出処理及び文字領域判定処理の概要を示す図である。文字領域抽出処理の流れを示す第１のフローチャートである。文字領域抽出処理の流れを示す第２のフローチャートである。文字領域抽出処理の具体例を示す図である。

以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

［第１の実施形態］
＜画像処理システムのシステム構成＞
はじめに、画像処理装置を含む画像処理システムのシステム構成について説明する。図１は、画像処理システムのシステム構成の一例を示す図である。

図１に示すように、画像処理システム１００は、画像提供装置１１０と、画像処理装置１２０と、端末１３０とを有する。画像提供装置１１０は、有線または無線を介して、画像処理装置１２０と接続される（あるいは、画像提供装置１１０は、画像処理装置１２０が有するドライブ装置に直接セットされる）。また、画像処理装置１２０と端末１３０とは、ネットワーク１４０を介して接続される。

画像提供装置１１０は、画像処理装置１２０に撮影画像等の画像データを提供する装置または媒体であり、第１の実施形態において画像提供装置１１０には、撮像装置１１１や各種記録媒体１１２が含まれる。記録媒体１１２は、画像データを格納可能な媒体であり、記録媒体１１２には、任意の媒体が含まれる。

画像処理装置１２０は、文字領域抽出装置の一例である。画像処理装置１２０には、画像取得プログラムと文字領域抽出プログラムとがインストールされており、当該プログラムが実行されることで、画像処理装置１２０は、画像取得部１２１、文字領域抽出部１２２として機能する。

画像取得部１２１は、画像提供装置１１０より画像データを取得し、画像記憶部１２３に格納する。文字領域抽出部１２２は、画像記憶部１２３に格納された画像データを読み出し、画像データに含まれる各フレームにおいて、文字領域を抽出する。文字領域抽出部１２２は、抽出した文字領域を、画像データとともに、ネットワーク１４０を介して端末１３０に送信する。

端末１３０は、ネットワーク１４０を介して文字領域抽出部１２２より送信された画像データを受信し、画像データに含まれる各フレームにおいて、文字領域に対して文字認識処理を行う。また、端末１３０は、文字認識処理の結果を出力する。

＜画像処理装置のハードウェア構成＞
次に、画像処理装置１２０のハードウェア構成について説明する。図２は、画像処理装置のハードウェア構成の一例を示す図である。図２に示すように、画像処理装置１２０は、ＣＰＵ（Central Processing Unit）２０１、ＲＯＭ（Read Only Memory）２０２、ＲＡＭ（Random Access Memory）２０３を有する。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３は、いわゆるコンピュータを形成する。

また、画像処理装置１２０は、補助記憶装置２０４、表示装置２０５、操作装置２０６、Ｉ／Ｆ（Interface）装置２０７、通信装置２０８、ドライブ装置２０９を有する。なお、画像処理装置１２０の各ハードウェアは、バス２１０を介して相互に接続されている。

ＣＰＵ２０１は、補助記憶装置２０４にインストールされている各種プログラム（例えば、画像取得プログラム、文字領域抽出プログラム等）を実行する演算デバイスである。

ＲＯＭ２０２は、不揮発性メモリである。ＲＯＭ２０２は、補助記憶装置２０４にインストールされている各種プログラムをＣＰＵ２０１が実行するために必要な各種プログラム、データ等を格納する、主記憶デバイスとして機能する。具体的には、ＲＯＭ２０２はＢＩＯＳ（Basic Input/Output System）やＥＦＩ（Extensible Firmware Interface）等のブートプログラム等を格納する、主記憶デバイスとして機能する。

ＲＡＭ２０３は、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）等の揮発性メモリである。ＲＡＭ２０３は、補助記憶装置２０４にインストールされている各種プログラムがＣＰＵ２０１によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。

補助記憶装置２０４は、各種プログラムや、各種プログラムが実行されることで処理される画像データ等を格納する補助記憶デバイスである。例えば、画像記憶部１２３は、補助記憶装置２０４において実現される。

表示装置２０５は、画像処理装置１２０の内部状態等を表示する表示デバイスである。操作装置２０６は、画像処理装置１２０の管理者が画像処理装置１２０に対して各種指示を入力するための入力デバイスである。

Ｉ／Ｆ装置２０７は、画像提供装置１１０のうち、撮像装置１１１等と接続するための接続デバイスである。通信装置２０８は、ネットワーク１４０を介して端末１３０と通信するための通信デバイスである。

ドライブ装置２０９は、画像提供装置１１０のうち、記録媒体１１２等をセットするためのデバイスである。ここでいう記録媒体１１２には、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体１１２には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

なお、ドライブ装置２０９は、補助記憶装置２０４に各種プログラムをインストールする際に用いられてもよい。具体的には、画像処理装置１２０の管理者が、配布された記録媒体１１２をドライブ装置２０９にセットし、該記録媒体１１２に記録された各種プログラムをドライブ装置２０９が読み出すことで、補助記憶装置２０４に各種プログラムがインストールされてもよい。

あるいは、各種プログラムの補助記憶装置２０４へのインストールは、通信装置２０８を介して行われてもよい。具体的には、画像処理装置１２０の管理者が、通信装置２０８を介してネットワーク１４０より各種プログラムをダウンロードすることで、補助記憶装置２０４に各種プログラムがインストールされてもよい。

＜文字領域抽出部の機能構成＞
次に、文字領域抽出部１２２の機能構成について説明する。図３は、文字領域抽出部の機能構成の一例を示す図である。

図３に示すように、文字領域抽出部１２２は、画像読み出し部３０１、相対サイズ変更部３０２、走査部３０３、文字領域候補抽出部３０４、重複領域抽出部３０５、文字領域判定部３０６、出力部３０７を有する。

画像読み出し部３０１は、画像記憶部１２３に格納された画像データを、フレーム単位で読み出し、相対サイズ変更部３０２に通知する。

相対サイズ変更部３０２は変更手段の一例であり、通知されたフレーム単位の画像データについて、解像度を変更する。相対サイズ変更部３０２は、所定の変更パターンに基づいて解像度を順次変更することで、画像データと固定サイズの走査窓との相対的な大きさの関係を順次変更する。

相対サイズ変更部３０２は、例えば、画像データの横方向の解像度を所定の解像度に固定した状態で、縦方向の解像度を順次変更していく。そして、相対サイズ変更部３０２は、所定の変更範囲について、縦方向の解像度の変更が完了すると、続いて、画像データの横方向の解像度を別の解像度で固定し、同様に、縦方向の解像度を順次変更していく。相対サイズ変更部３０２では、これらの処理を繰り返し、横方向の解像度について、所定の変更範囲の変更が完了することで、縦方向と横方向の全ての解像度の組み合わせを実現する。

走査部３０３は、所定の変更パターンに基づいて画像データの解像度が変更されるごとに、固定サイズの走査窓を用いて、変更後の解像度の画像データを走査する。また、走査部３０３は、各走査位置において、走査窓に含まれる画像領域を抽出し、文字領域候補抽出部３０４に通知する。

文字領域候補抽出部３０４は抽出手段の一例であり、走査窓に含まれる画像領域からエッジ画素を抽出し、当該画像領域のエッジ密度を算出する。なお、エッジ密度とは、走査窓に含まれる画像領域の総画素数に対する、エッジ画素の画素数の割合を指す。

また、文字領域候補抽出部３０４は、算出したエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を文字領域候補として抽出する。更に、文字領域候補抽出部３０４は、抽出した文字領域候補を、そのときの解像度（縦方向、横方向）とともに、重複領域抽出部３０５に通知する。

重複領域抽出部３０５は、文字領域候補抽出部３０４より通知された文字領域候補を拡大または縮小する。具体的には、重複領域抽出部３０５は、それぞれの文字領域候補が抽出された画像データを、統一した解像度の画像データに拡大または縮小した場合の拡大率または縮小率を算出し、文字領域候補を拡大または縮小する。

また、重複領域抽出部３０５は、拡大または縮小した文字領域候補を、統一した解像度の画像データに配置する。更に、重複領域抽出部３０５は、拡大または縮小した文字領域候補が配置された画像データについて、文字領域候補同士が所定の閾値面積以上重複しているか否かを判定する。重複領域抽出部３０５は、文字領域候補同士が所定の閾値面積以上重複していると判定した場合に、当該重複している文字領域候補を抽出し、抽出した文字領域候補同士を対応付ける。

文字領域判定部３０６は判定手段の一例であり、重複領域抽出部３０５により対応付けられた文字領域候補の中から、エッジ密度が最大となる文字領域候補を判定する。また、文字領域判定部３０６は、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する。

出力部３０７は、文字領域判定部３０６により抽出された文字領域を、処理対象のフレームの画像データと対応付けて、出力する。

＜解像度とエッジ密度との関係＞
次に、解像度を変更した画像データと、各解像度の画像データにおける各走査位置での走査窓に含まれる画像領域のエッジ密度との関係について説明する。図４は、解像度とエッジ密度との関係を示す図である。

このうち、図４（ａ）は、画像データの横方向の解像度を所定の解像度に固定した状態で、縦方向の解像度を順次変更した場合の各画像データと、各解像度の画像データにおける所定の走査位置での走査窓に含まれる画像領域のエッジ密度とを示した図である。

なお、図４（ａ）に示す各画像データは、画素の大きさを固定して表示した場合を示している（したがって、図４（ａ）に示す各画像データは、縦方向の解像度が高いほど、縦方向のサイズが大きく表示されている）。

図４（ａ）に示すように、画像データ４０１よりも縦方向の解像度が高い画像データ４０２の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４０１の場合よりも高くなる。同様に、画像データ４０２よりも縦方向の解像度が高い画像データ４０３の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４０２の場合よりも高くなる。同様に、画像データ４０３よりも縦方向の解像度が高い画像データ４０４の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４０３の場合よりも高くなる。一方で、画像データ４０４よりも縦方向の解像度が高い画像データ４０５の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４０４の場合よりも低くなる。

このように、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像領域内の文字が、固定サイズの走査窓４００に対して縦方向に内接する状態において、最大になる。

図４（ｂ）は、画像データの縦方向の解像度を所定の解像度に固定した状態で、横方向の解像度を順次変更した場合の各画像データと、各解像度の画像データにおける所定の走査位置での走査窓に含まれる画像領域のエッジ密度とを示した図である。

なお、図４（ａ）と同様、図４（ｂ）に示す各画像データも、画素の大きさを固定して表示した場合を示している（したがって、図４（ｂ）に示す各画像データも、横方向の解像度が高いほど、横方向のサイズが大きく表示されている）。

図４（ｂ）に示すように、画像データ４１１よりも横方向の解像度が高い画像データ４１２の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４１１の場合よりも高くなる。同様に、画像データ４１２よりも横方向の解像度が高い画像データ４１３の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４１２の場合よりも高くなる。同様に、画像データ４１３よりも横方向の解像度が高い画像データ４１４の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４１３の場合よりも高くなる。一方で、画像データ４１４よりも横方向の解像度が高い画像データ４１５の場合、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像データ４１４の場合よりも低くなる。

このように、固定サイズの走査窓４００に含まれる画像領域のエッジ密度は、画像領域内の文字が、固定サイズの走査窓４００に対して横方向に内接する状態において、最大になる。

したがって、画像データの縦方向及び横方向の解像度を順次変更し、エッジ密度が最大となる解像度を判定することで、走査窓に対して、縦方向及び横方向において文字が内接した画像領域を抽出することができる。つまり、文字以外の背景画像が極力排除された、抽出精度の高い文字領域を抽出することができる。

＜文字領域候補抽出処理の概要＞
次に、文字領域候補抽出部３０４による文字領域候補抽出処理の概要について説明する。図５は、文字領域候補抽出処理の概要を示す図である。なお、上述したとおり、相対サイズ変更部３０２は、縦方向の所定の変更範囲内の全ての解像度と、横方向の所定の変更範囲内の全ての解像度との任意の組み合わせの画像データを生成する。ただし、図５では、説明の簡略化のため、そのうちの一部の組み合わせを抜粋して示している。また、走査部３０３は、解像度が変更された画像データ内の全ての領域について、走査窓４００を用いて走査を行うが、ここでは、画像データ内の所定の文字（“５２３”）が描画された走査位置に着目して説明する。

画像データ内の所定の文字（“５２３”）が描画された位置が走査位置となった場合、文字領域候補抽出部３０４により算出されるエッジ密度は、画像データの縦方向の解像度の変更に伴い、図５（ａ）に示すように変化する。

このうち、エッジ密度が所定の閾値Ｔｈ１以上となる画像データ４０３〜４０５に着目する。そして、画像データ４０３〜４０５それぞれの縦方向の解像度に対して、横方向の解像度が異なる５つの画像データを抜粋し、そのエッジ密度をグラフ化すると、図５（ｂ−１）〜（ｂ−３）に示す通りとなる。

図５（ｂ−１）〜（ｂ−３）それぞれに示すように、横方向の解像度が異なる５つの画像データのうち、画像データ４０３〜４０５以外の画像データ（例えば、画像データ５２１〜５４２）は、画像データ４０３〜４０５よりもエッジ密度が高くなっている。

文字領域候補抽出部３０４では、このうち、エッジ密度が所定の閾値Ｔｈ２以上となる解像度の画像データ５２１、５３１、５４１を特定する。そして、文字領域候補抽出部３０４は、特定した当該画像データ５２１、５３１、５４１について、走査窓４００が示す領域を、文字領域候補５５１、５５２、５５３として抽出する。

＜重複領域抽出処理及び文字領域判定処理の概要＞
次に、重複領域抽出部３０５による重複領域抽出処理及び文字領域判定部３０６による文字領域判定処理の概要について説明する。図６は、重複領域抽出処理及び文字領域判定処理の概要を示す図である。

図６に示すように、重複領域抽出部３０５は、画像データ５２１、５３１、５４１より抽出された文字領域候補５５１、５５２、５５３の大きさを拡大または縮小する。

具体的には、重複領域抽出部３０５は、画像データ５２１、５３１、５４１を、統一した解像度の画像データ５２１’、５３１’、５４１’に拡大または縮小する場合の拡大率または縮小率を算出する。例えば、重複領域抽出部３０５は、画像データ５２１を画像データ５２１’に拡大する場合の拡大率を算出し、該拡大率を用いて、文字領域候補５５１を拡大して文字領域候補５５１’を得る。また、重複領域抽出部３０５は、画像データ５３１を画像データ５３１’に拡大する場合の拡大率を算出し、該拡大率を用いて、文字領域候補５５２を拡大して文字領域候補５５２’を得る。更に、重複領域抽出部３０５は、画像データ５４１を画像データ５４１’に縮小する場合の縮小率を算出し、該縮小率を用いて、文字領域候補５５３を縮小して文字領域候補５５３’を得る。

続いて、重複領域抽出部３０５は、拡大または縮小した文字領域候補５５１’、５５２’、５５３’を、統一した解像度の画像データ（ここでは画像データ５３１’）に配置し、重複の有無を判定する。

図６の例の場合、文字領域候補５５１’、５５２’、５５３’は、互いに所定の閾値面積以上重複しているため、重複領域抽出部３０５は、文字領域候補５５１’、５５２’、５５３’が互いに重複していると判定し、これらの文字領域候補を抽出する。また、重複領域抽出部３０５は、抽出した文字領域候補同士を対応付ける。

文字領域判定部３０６は、重複領域抽出部３０５によって対応付けられた文字領域候補５５１’、５５２’、５５３’の中から、エッジ密度が最大となる文字領域候補を判定する。図６の例は、文字領域候補５５１’、５５２’、５５３’のうち、文字領域候補５５２’に含まれる画像領域のエッジ密度が最大となると判定されたことを示している。

＜文字領域抽出処理の流れ＞
次に、文字領域抽出部１２２による文字領域抽出処理の流れについて説明する。図７及び図８は、文字領域抽出処理の流れを示す第１及び第２のフローチャートである。また、図９は、文字領域抽出処理の具体例を示す図である。以下、図９の具体例を参照しながら、図７及び図８に示す文字領域抽出処理の流れについて説明する。

ステップＳ７０１において、画像読み出し部３０１は、画像記憶部１２３より、処理対象のフレームの画像データ９００（図９）を読み出す。ステップＳ７０２において、走査部３０３は、固定サイズの走査窓４００を読み出す。

ステップＳ７０３において、相対サイズ変更部３０２は、読み出した画像データ９００について、縦方向の解像度及び横方向の解像度を、所定の解像度に初期化する。

ステップＳ７０４において、相対サイズ変更部３０２は、解像度を初期化した画像データについて、横方向の解像度を固定した状態で、縦方向の解像度を変更する。

ステップＳ７０５において、走査部３０３は、ステップＳ７０３において縦方向の解像度が変更された画像データを、固定サイズの走査窓４００を用いて走査する。

ステップＳ７０６において、文字領域候補抽出部３０４は、走査中の走査窓４００の各走査位置における画像領域についてエッジ処理を行い、エッジ画素を検出する。また、文字領域候補抽出部３０４は、検出したエッジ画素に基づいて、各走査位置における画像領域のエッジ密度を算出することで、所定の閾値Ｔｈ２以上のエッジ密度を有する走査位置を特定する。更に、文字領域候補抽出部３０４は、特定した走査位置において走査窓が示す領域を文字領域候補として抽出する。

ステップＳ７０７において、文字領域候補抽出部３０４は、抽出した文字領域候補を、エッジ密度及び解像度（縦方向、横方向）と対応付けて保持する。

ステップＳ７０８において、相対サイズ変更部３０２は、縦方向の解像度について、所定の変更範囲内全てを網羅したか否かを判定する。ステップＳ７０８において、網羅していない縦方向の解像度があると判定した場合には（ステップＳ７０８においてＮｏの場合には）、ステップＳ７０４に戻る。一方、ステップＳ７０８において、縦方向の解像度について、所定の変更範囲内全てを網羅したと判定した場合には（ステップＳ７０８においてＹｅｓの場合には）、ステップＳ７０９に進む。

ステップＳ７０９において、相対サイズ変更部３０２は、横方向の解像度について、所定の変更範囲内全てを網羅したか否かを判定する。ステップＳ７０９において、網羅していない横方向の解像度があると判定した場合には（ステップＳ７０９においてＮｏの場合には）、ステップＳ７１０に進む。

ステップＳ７１０において、相対サイズ変更部３０２は、縦方向の解像度を所定の解像度に初期化する。また、ステップＳ７１１において、相対サイズ変更部３０２は、横方向の解像度を変更し、ステップＳ７０４に戻る。

これにより、ステップＳ７１１において新たに変更された横方向の解像度に固定した状態で、ステップＳ７０４からステップＳ７０８において縦方向の解像度を順次変更しながら、走査窓４００を走査し、文字領域候補を抽出することができる。

図９において、画像データ９１０は、ステップＳ７１１において新たに変更した横方向の解像度を固定した状態で、ステップＳ７０４において縦方向の解像度を変更しながら走査窓４００を走査した場合の、所定の縦方向の解像度における画像データを示している。画像データ９１０の場合、走査窓４００を走査することで、文字領域候補９１１、９１２が抽出される。

また、画像データ９２０は、ステップＳ７１１において更に変更された横方向の解像度を固定した状態で、ステップＳ７０４において縦方向の解像度を変更しながら走査窓４００を走査した場合の、所定の縦方向の解像度における画像データを示している。画像データ９２０の場合、走査窓４００を走査することで、文字領域候補９２１、９２２、９２３が抽出される。

また、画像データ９３０は、ステップＳ７１１において更に変更された横方向の解像度を固定した状態で、ステップＳ７０４において縦方向の解像度を変更しながら走査窓４００を走査した場合の、所定の縦方向の解像度における画像データを示している。画像データ９３０の場合、走査窓４００を走査することで、文字領域候補９３１、９３２が抽出される。

図７の説明に戻る。ステップＳ７０９において、横方向の解像度について、所定の変更範囲内全てを網羅したと判定した場合には（ステップＳ７０９においてＹｅｓの場合には）、図８のステップＳ８０１に進む。

ステップＳ８０１において、重複領域抽出部３０５は、ステップＳ７０７において保持された文字領域候補９１１、９１２、９２２、９２３、９３１、９３２を読み出す。また、重複領域抽出部３０５は読み出した文字領域候補に対応付けられた解像度（縦方向、横方向）を、統一した解像度にするための拡大率または縮小率を算出する。更に、重複領域抽出部３０５は、算出した拡大率または縮小率に基づいて、文字領域候補９１１〜９３２を拡大または縮小し、統一した解像度の画像データに配置する。

図９において、画像データ９４０は、統一した解像度の画像データを示している。また、文字領域候補９１１’〜９３２’は、それぞれ、ステップＳ７０７において保持された文字領域候補９１１〜９３２を、拡大または縮小して画像データ９４０に配置した様子を示している。

具体的には、文字領域候補９１１’は、画像データ９１０より抽出された文字領域候補９１１を、画像データ９４０に対する画像データ９１０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。また、文字領域候補９１２’は、画像データ９１０より抽出した文字領域候補９１２を、画像データ９４０に対する画像データ９１０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。

同様に、文字領域候補９２１’は、画像データ９２０より抽出された文字領域候補９２１を、画像データ９４０に対する画像データ９２０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。また、文字領域候補９２２’は、画像データ９２０より抽出した文字領域候補９２２を、画像データ９４０に対する画像データ９２０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。また、文字領域候補９２３’は、画像データ９２０より抽出した文字領域候補９２３を、画像データ９４０に対する画像データ９２０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。

同様に、文字領域候補９３１’は、画像データ９３０より抽出された文字領域候補９３１を、画像データ９４０に対する画像データ９３０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。また、文字領域候補９３２’は、画像データ９３０より抽出した文字領域候補９３２を、画像データ９４０に対する画像データ９３０の拡大率に基づいて拡大し、画像データ９４０に配置した様子を示している。

図８の説明に戻る。ステップＳ８０２において、重複領域抽出部３０５は、統一した解像度の画像データに配置された文字領域候補同士が、所定の閾値面積以上重複しているか否かを判定する。また、重複領域抽出部３０５は、文字領域候補同士が所定の閾値面積以上重複していると判定した場合、当該重複している文字領域候補を抽出し、抽出した文字領域候補同士を対応付ける。

図９の画像データ９５０は、統一した解像度の画像データ９４０に配置された文字領域候補９１１’〜９３２’のうち、文字領域候補９１２’、９２３’、９３１’、９３２’が、互いに重複していると判定され、互いに対応付けられたことを示している。

ステップＳ８０３において、文字領域判定部３０６は、互いに対応付けられた文字領域候補の中から、エッジ密度が最大の文字領域候補を判定する。図９の画像データ９６０は、互いに対応付けられた文字領域候補９１２’、９２３’、９３１’、９３２’それぞれのエッジ密度のうち、文字領域候補９１２’のエッジ密度が最大であると判定されたことを示している。

ステップＳ８０４において、文字領域判定部３０６は、エッジ密度が最大であると判定した文字領域候補９１２’に含まれる画像領域を、文字領域として抽出する。

以上の説明から明らかなように、第１の実施形態に係る文字領域抽出装置は、処理対象のフレームの画像データに対して、固定の走査窓を用いて、解像度を変更しながら走査することで、エッジ密度が所定の閾値以上となる各走査位置を特定する。また、第１の実施形態に係る文字領域抽出装置は、特定した各走査位置において、走査窓が示す領域を文字領域候補として抽出する。また、第１の実施形態に係る文字領域抽出装置は、抽出した文字領域候補を、統一した解像度の画像データに配置し、互いに重複する文字領域候補の中から、エッジ密度が最大となる文字領域候補を判定する。更に、第１の実施形態に係る文字領域抽出装置は、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する。

このように、エッジ密度に基づいて文字領域を抽出することで、走査窓に対して文字が内接した画像領域を文字領域として抽出することが可能となる。つまり、文字以外の背景画像が極力排除された、抽出精度の高い文字領域を抽出することができる。

［第２の実施形態］
上記第１の実施形態において、相対サイズ変更部３０２は、はじめに横方向の解像度を固定した状態で、縦方向の解像度を順次変更していくものとして説明したが、変更順序はこれに限定されない。例えば、はじめに縦方向の解像度を固定した状態で、横方向の解像度を順次変更していくようにしてもよい。

また、上記第１の実施形態において、文字認識処理は端末１３０において実行されるものとして説明したが、画像処理装置１２０において実行するようにしてもよい。また、上記第１の実施形態において、文字領域抽出処理は、画像処理装置１２０の文字領域抽出部１２２が実行するものとして説明したが、文字領域抽出部１２２の一部の機能を他の装置に搭載し、複数の装置で（つまり、システムで）実行するようにしてもよい。当該複数の装置には、撮像装置１１１や端末１３０が含まれていてもよい。

なお、開示の技術では、以下に記載する付記のような形態が考えられる。
（付記１）
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
処理をコンピュータに実行させる文字領域抽出プログラム。
（付記２）
走査窓のサイズを固定し、画像の縦方向の解像度と横方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする付記１に記載の文字領域抽出プログラム。
（付記３）
走査窓のサイズを固定し、画像の横方向の解像度と縦方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする付記１に記載の文字領域抽出プログラム。
（付記４）
前記相対的な大きさの関係を、統一した所定の関係に変更する場合の拡大率または縮小率を用いて、抽出した前記文字領域候補の大きさを拡大または縮小し、
拡大または縮小した前記文字領域候補の中から、互いに重複する文字領域候補を抽出することを特徴とする付記１に記載の文字領域抽出プログラム。
（付記５）
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更する変更手段と、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出する抽出手段と、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する判定手段と
を有することを特徴とする文字領域抽出装置。
（付記６）
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
処理をコンピュータが実行する文字領域抽出方法。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１００：画像処理システム
１１０：画像提供装置
１２０：画像処理装置
１２１：画像取得部
１２２：文字領域抽出部
１３０：端末
３０１：画像読み出し部
３０２：相対サイズ変更部
３０３：走査部
３０４：文字領域候補抽出部
３０５：重複領域抽出部
３０６：文字領域判定部
３０７：出力部
４００：走査窓

Claims

画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
処理をコンピュータに実行させる文字領域抽出プログラム。
走査窓のサイズを固定し、画像の縦方向の解像度と横方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする請求項１に記載の文字領域抽出プログラム。
走査窓のサイズを固定し、画像の横方向の解像度と縦方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする請求項１に記載の文字領域抽出プログラム。
前記相対的な大きさの関係を、統一した所定の関係に変更する場合の拡大率または縮小率を用いて、抽出した前記文字領域候補の大きさを拡大または縮小し、
拡大または縮小した前記文字領域候補の中から、互いに重複する文字領域候補を抽出することを特徴とする請求項１に記載の文字領域抽出プログラム。
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更する変更手段と、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出する抽出手段と、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する判定手段と
を有することを特徴とする文字領域抽出装置。
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
処理をコンピュータが実行する文字領域抽出方法。