JP2019096067A - 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法 - Google Patents

文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法 Download PDF

Info

Publication number
JP2019096067A
JP2019096067A JP2017225029A JP2017225029A JP2019096067A JP 2019096067 A JP2019096067 A JP 2019096067A JP 2017225029 A JP2017225029 A JP 2017225029A JP 2017225029 A JP2017225029 A JP 2017225029A JP 2019096067 A JP2019096067 A JP 2019096067A
Authority
JP
Japan
Prior art keywords
character area
image
character
image data
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017225029A
Other languages
English (en)
Other versions
JP6922690B2 (ja
Inventor
和也 米澤
Kazuya Yonezawa
和也 米澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017225029A priority Critical patent/JP6922690B2/ja
Priority to US16/164,864 priority patent/US10783390B2/en
Publication of JP2019096067A publication Critical patent/JP2019096067A/ja
Application granted granted Critical
Publication of JP6922690B2 publication Critical patent/JP6922690B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40068Modification of image resolution, i.e. determining the values of picture elements at new relative positions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/409Edge or detail enhancement; Noise or error suppression
    • H04N1/4092Edge or detail enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像から文字領域を抽出する際の抽出精度を向上させる。【解決手段】文字領域抽出プログラムであって、画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、抽出した文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、処理をコンピュータに実行させる。【選択図】図3

Description

本発明は、文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法に関する。
従来より、撮像装置において撮影された撮影画像等から、文字(例えば、看板や標識等に記載された文字)が含まれる領域(文字領域)を抽出し、抽出した文字領域について、文字認識を行う文字認識処理が知られている。
当該文字認識処理においては、撮影画像等から文字領域を過不足なく抽出することが求められる。しかしながら、撮影画像等に含まれる文字の場合、文字の大きさが規格化されておらず、大きさの異なる文字が複数含まれることから、抽出できない文字領域が発生することがある。
これに対して、例えば、下記特許文献1では、解像度の異なる画像を複数生成したうえで、それぞれの解像度の画像から文字領域の候補を検出し、検出した文字領域の候補が所定数以上重複している領域を、文字領域として抽出する抽出方法が提案されている。
当該抽出方法によれば、大きさの異なる文字が複数含まれていた場合でも、それぞれの文字領域を抽出することができる。
特開2012−108689号公報
しかしながら、上記抽出方法の場合、抽出された文字領域には文字以外の背景画像も多く含まれることとなる。つまり、実際に文字がある領域よりも広い領域が文字領域として抽出されることとなり、抽出精度(抽出された文字領域に占める実際に文字がある領域の割合)が低い。このため、抽出された文字領域を用いて文字認識を行った場合に、文字認識精度が低下するといった問題が生じる。
一つの側面では、画像から文字領域を抽出する際の抽出精度を向上させることを目的としている。
一態様によれば、文字領域抽出プログラムは、
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、処理をコンピュータに実行させる。
画像から文字領域を抽出する際の抽出精度を向上させることができる。
画像処理システムのシステム構成の一例を示す図である。 画像処理装置のハードウェア構成の一例を示す図である。 文字領域抽出部の機能構成の一例を示す図である。 解像度とエッジ密度との関係を示す図である。 文字領域候補抽出処理の概要を示す図である。 重複領域抽出処理及び文字領域判定処理の概要を示す図である。 文字領域抽出処理の流れを示す第1のフローチャートである。 文字領域抽出処理の流れを示す第2のフローチャートである。 文字領域抽出処理の具体例を示す図である。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
[第1の実施形態]
<画像処理システムのシステム構成>
はじめに、画像処理装置を含む画像処理システムのシステム構成について説明する。図1は、画像処理システムのシステム構成の一例を示す図である。
図1に示すように、画像処理システム100は、画像提供装置110と、画像処理装置120と、端末130とを有する。画像提供装置110は、有線または無線を介して、画像処理装置120と接続される(あるいは、画像提供装置110は、画像処理装置120が有するドライブ装置に直接セットされる)。また、画像処理装置120と端末130とは、ネットワーク140を介して接続される。
画像提供装置110は、画像処理装置120に撮影画像等の画像データを提供する装置または媒体であり、第1の実施形態において画像提供装置110には、撮像装置111や各種記録媒体112が含まれる。記録媒体112は、画像データを格納可能な媒体であり、記録媒体112には、任意の媒体が含まれる。
画像処理装置120は、文字領域抽出装置の一例である。画像処理装置120には、画像取得プログラムと文字領域抽出プログラムとがインストールされており、当該プログラムが実行されることで、画像処理装置120は、画像取得部121、文字領域抽出部122として機能する。
画像取得部121は、画像提供装置110より画像データを取得し、画像記憶部123に格納する。文字領域抽出部122は、画像記憶部123に格納された画像データを読み出し、画像データに含まれる各フレームにおいて、文字領域を抽出する。文字領域抽出部122は、抽出した文字領域を、画像データとともに、ネットワーク140を介して端末130に送信する。
端末130は、ネットワーク140を介して文字領域抽出部122より送信された画像データを受信し、画像データに含まれる各フレームにおいて、文字領域に対して文字認識処理を行う。また、端末130は、文字認識処理の結果を出力する。
<画像処理装置のハードウェア構成>
次に、画像処理装置120のハードウェア構成について説明する。図2は、画像処理装置のハードウェア構成の一例を示す図である。図2に示すように、画像処理装置120は、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203を有する。CPU201、ROM202、RAM203は、いわゆるコンピュータを形成する。
また、画像処理装置120は、補助記憶装置204、表示装置205、操作装置206、I/F(Interface)装置207、通信装置208、ドライブ装置209を有する。なお、画像処理装置120の各ハードウェアは、バス210を介して相互に接続されている。
CPU201は、補助記憶装置204にインストールされている各種プログラム(例えば、画像取得プログラム、文字領域抽出プログラム等)を実行する演算デバイスである。
ROM202は、不揮発性メモリである。ROM202は、補助記憶装置204にインストールされている各種プログラムをCPU201が実行するために必要な各種プログラム、データ等を格納する、主記憶デバイスとして機能する。具体的には、ROM202はBIOS(Basic Input/Output System)やEFI(Extensible Firmware Interface)等のブートプログラム等を格納する、主記憶デバイスとして機能する。
RAM203は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の揮発性メモリである。RAM203は、補助記憶装置204にインストールされている各種プログラムがCPU201によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。
補助記憶装置204は、各種プログラムや、各種プログラムが実行されることで処理される画像データ等を格納する補助記憶デバイスである。例えば、画像記憶部123は、補助記憶装置204において実現される。
表示装置205は、画像処理装置120の内部状態等を表示する表示デバイスである。操作装置206は、画像処理装置120の管理者が画像処理装置120に対して各種指示を入力するための入力デバイスである。
I/F装置207は、画像提供装置110のうち、撮像装置111等と接続するための接続デバイスである。通信装置208は、ネットワーク140を介して端末130と通信するための通信デバイスである。
ドライブ装置209は、画像提供装置110のうち、記録媒体112等をセットするためのデバイスである。ここでいう記録媒体112には、CD−ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体112には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
なお、ドライブ装置209は、補助記憶装置204に各種プログラムをインストールする際に用いられてもよい。具体的には、画像処理装置120の管理者が、配布された記録媒体112をドライブ装置209にセットし、該記録媒体112に記録された各種プログラムをドライブ装置209が読み出すことで、補助記憶装置204に各種プログラムがインストールされてもよい。
あるいは、各種プログラムの補助記憶装置204へのインストールは、通信装置208を介して行われてもよい。具体的には、画像処理装置120の管理者が、通信装置208を介してネットワーク140より各種プログラムをダウンロードすることで、補助記憶装置204に各種プログラムがインストールされてもよい。
<文字領域抽出部の機能構成>
次に、文字領域抽出部122の機能構成について説明する。図3は、文字領域抽出部の機能構成の一例を示す図である。
図3に示すように、文字領域抽出部122は、画像読み出し部301、相対サイズ変更部302、走査部303、文字領域候補抽出部304、重複領域抽出部305、文字領域判定部306、出力部307を有する。
画像読み出し部301は、画像記憶部123に格納された画像データを、フレーム単位で読み出し、相対サイズ変更部302に通知する。
相対サイズ変更部302は変更手段の一例であり、通知されたフレーム単位の画像データについて、解像度を変更する。相対サイズ変更部302は、所定の変更パターンに基づいて解像度を順次変更することで、画像データと固定サイズの走査窓との相対的な大きさの関係を順次変更する。
相対サイズ変更部302は、例えば、画像データの横方向の解像度を所定の解像度に固定した状態で、縦方向の解像度を順次変更していく。そして、相対サイズ変更部302は、所定の変更範囲について、縦方向の解像度の変更が完了すると、続いて、画像データの横方向の解像度を別の解像度で固定し、同様に、縦方向の解像度を順次変更していく。相対サイズ変更部302では、これらの処理を繰り返し、横方向の解像度について、所定の変更範囲の変更が完了することで、縦方向と横方向の全ての解像度の組み合わせを実現する。
走査部303は、所定の変更パターンに基づいて画像データの解像度が変更されるごとに、固定サイズの走査窓を用いて、変更後の解像度の画像データを走査する。また、走査部303は、各走査位置において、走査窓に含まれる画像領域を抽出し、文字領域候補抽出部304に通知する。
文字領域候補抽出部304は抽出手段の一例であり、走査窓に含まれる画像領域からエッジ画素を抽出し、当該画像領域のエッジ密度を算出する。なお、エッジ密度とは、走査窓に含まれる画像領域の総画素数に対する、エッジ画素の画素数の割合を指す。
また、文字領域候補抽出部304は、算出したエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を文字領域候補として抽出する。更に、文字領域候補抽出部304は、抽出した文字領域候補を、そのときの解像度(縦方向、横方向)とともに、重複領域抽出部305に通知する。
重複領域抽出部305は、文字領域候補抽出部304より通知された文字領域候補を拡大または縮小する。具体的には、重複領域抽出部305は、それぞれの文字領域候補が抽出された画像データを、統一した解像度の画像データに拡大または縮小した場合の拡大率または縮小率を算出し、文字領域候補を拡大または縮小する。
また、重複領域抽出部305は、拡大または縮小した文字領域候補を、統一した解像度の画像データに配置する。更に、重複領域抽出部305は、拡大または縮小した文字領域候補が配置された画像データについて、文字領域候補同士が所定の閾値面積以上重複しているか否かを判定する。重複領域抽出部305は、文字領域候補同士が所定の閾値面積以上重複していると判定した場合に、当該重複している文字領域候補を抽出し、抽出した文字領域候補同士を対応付ける。
文字領域判定部306は判定手段の一例であり、重複領域抽出部305により対応付けられた文字領域候補の中から、エッジ密度が最大となる文字領域候補を判定する。また、文字領域判定部306は、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する。
出力部307は、文字領域判定部306により抽出された文字領域を、処理対象のフレームの画像データと対応付けて、出力する。
<解像度とエッジ密度との関係>
次に、解像度を変更した画像データと、各解像度の画像データにおける各走査位置での走査窓に含まれる画像領域のエッジ密度との関係について説明する。図4は、解像度とエッジ密度との関係を示す図である。
このうち、図4(a)は、画像データの横方向の解像度を所定の解像度に固定した状態で、縦方向の解像度を順次変更した場合の各画像データと、各解像度の画像データにおける所定の走査位置での走査窓に含まれる画像領域のエッジ密度とを示した図である。
なお、図4(a)に示す各画像データは、画素の大きさを固定して表示した場合を示している(したがって、図4(a)に示す各画像データは、縦方向の解像度が高いほど、縦方向のサイズが大きく表示されている)。
図4(a)に示すように、画像データ401よりも縦方向の解像度が高い画像データ402の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ401の場合よりも高くなる。同様に、画像データ402よりも縦方向の解像度が高い画像データ403の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ402の場合よりも高くなる。同様に、画像データ403よりも縦方向の解像度が高い画像データ404の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ403の場合よりも高くなる。一方で、画像データ404よりも縦方向の解像度が高い画像データ405の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ404の場合よりも低くなる。
このように、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像領域内の文字が、固定サイズの走査窓400に対して縦方向に内接する状態において、最大になる。
図4(b)は、画像データの縦方向の解像度を所定の解像度に固定した状態で、横方向の解像度を順次変更した場合の各画像データと、各解像度の画像データにおける所定の走査位置での走査窓に含まれる画像領域のエッジ密度とを示した図である。
なお、図4(a)と同様、図4(b)に示す各画像データも、画素の大きさを固定して表示した場合を示している(したがって、図4(b)に示す各画像データも、横方向の解像度が高いほど、横方向のサイズが大きく表示されている)。
図4(b)に示すように、画像データ411よりも横方向の解像度が高い画像データ412の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ411の場合よりも高くなる。同様に、画像データ412よりも横方向の解像度が高い画像データ413の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ412の場合よりも高くなる。同様に、画像データ413よりも横方向の解像度が高い画像データ414の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ413の場合よりも高くなる。一方で、画像データ414よりも横方向の解像度が高い画像データ415の場合、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像データ414の場合よりも低くなる。
このように、固定サイズの走査窓400に含まれる画像領域のエッジ密度は、画像領域内の文字が、固定サイズの走査窓400に対して横方向に内接する状態において、最大になる。
したがって、画像データの縦方向及び横方向の解像度を順次変更し、エッジ密度が最大となる解像度を判定することで、走査窓に対して、縦方向及び横方向において文字が内接した画像領域を抽出することができる。つまり、文字以外の背景画像が極力排除された、抽出精度の高い文字領域を抽出することができる。
<文字領域候補抽出処理の概要>
次に、文字領域候補抽出部304による文字領域候補抽出処理の概要について説明する。図5は、文字領域候補抽出処理の概要を示す図である。なお、上述したとおり、相対サイズ変更部302は、縦方向の所定の変更範囲内の全ての解像度と、横方向の所定の変更範囲内の全ての解像度との任意の組み合わせの画像データを生成する。ただし、図5では、説明の簡略化のため、そのうちの一部の組み合わせを抜粋して示している。また、走査部303は、解像度が変更された画像データ内の全ての領域について、走査窓400を用いて走査を行うが、ここでは、画像データ内の所定の文字(“523”)が描画された走査位置に着目して説明する。
画像データ内の所定の文字(“523”)が描画された位置が走査位置となった場合、文字領域候補抽出部304により算出されるエッジ密度は、画像データの縦方向の解像度の変更に伴い、図5(a)に示すように変化する。
このうち、エッジ密度が所定の閾値Th1以上となる画像データ403〜405に着目する。そして、画像データ403〜405それぞれの縦方向の解像度に対して、横方向の解像度が異なる5つの画像データを抜粋し、そのエッジ密度をグラフ化すると、図5(b−1)〜(b−3)に示す通りとなる。
図5(b−1)〜(b−3)それぞれに示すように、横方向の解像度が異なる5つの画像データのうち、画像データ403〜405以外の画像データ(例えば、画像データ521〜542)は、画像データ403〜405よりもエッジ密度が高くなっている。
文字領域候補抽出部304では、このうち、エッジ密度が所定の閾値Th2以上となる解像度の画像データ521、531、541を特定する。そして、文字領域候補抽出部304は、特定した当該画像データ521、531、541について、走査窓400が示す領域を、文字領域候補551、552、553として抽出する。
<重複領域抽出処理及び文字領域判定処理の概要>
次に、重複領域抽出部305による重複領域抽出処理及び文字領域判定部306による文字領域判定処理の概要について説明する。図6は、重複領域抽出処理及び文字領域判定処理の概要を示す図である。
図6に示すように、重複領域抽出部305は、画像データ521、531、541より抽出された文字領域候補551、552、553の大きさを拡大または縮小する。
具体的には、重複領域抽出部305は、画像データ521、531、541を、統一した解像度の画像データ521’、531’、541’に拡大または縮小する場合の拡大率または縮小率を算出する。例えば、重複領域抽出部305は、画像データ521を画像データ521’に拡大する場合の拡大率を算出し、該拡大率を用いて、文字領域候補551を拡大して文字領域候補551’を得る。また、重複領域抽出部305は、画像データ531を画像データ531’に拡大する場合の拡大率を算出し、該拡大率を用いて、文字領域候補552を拡大して文字領域候補552’を得る。更に、重複領域抽出部305は、画像データ541を画像データ541’に縮小する場合の縮小率を算出し、該縮小率を用いて、文字領域候補553を縮小して文字領域候補553’を得る。
続いて、重複領域抽出部305は、拡大または縮小した文字領域候補551’、552’、553’を、統一した解像度の画像データ(ここでは画像データ531’)に配置し、重複の有無を判定する。
図6の例の場合、文字領域候補551’、552’、553’は、互いに所定の閾値面積以上重複しているため、重複領域抽出部305は、文字領域候補551’、552’、553’が互いに重複していると判定し、これらの文字領域候補を抽出する。また、重複領域抽出部305は、抽出した文字領域候補同士を対応付ける。
文字領域判定部306は、重複領域抽出部305によって対応付けられた文字領域候補551’、552’、553’の中から、エッジ密度が最大となる文字領域候補を判定する。図6の例は、文字領域候補551’、552’、553’のうち、文字領域候補552’に含まれる画像領域のエッジ密度が最大となると判定されたことを示している。
<文字領域抽出処理の流れ>
次に、文字領域抽出部122による文字領域抽出処理の流れについて説明する。図7及び図8は、文字領域抽出処理の流れを示す第1及び第2のフローチャートである。また、図9は、文字領域抽出処理の具体例を示す図である。以下、図9の具体例を参照しながら、図7及び図8に示す文字領域抽出処理の流れについて説明する。
ステップS701において、画像読み出し部301は、画像記憶部123より、処理対象のフレームの画像データ900(図9)を読み出す。ステップS702において、走査部303は、固定サイズの走査窓400を読み出す。
ステップS703において、相対サイズ変更部302は、読み出した画像データ900について、縦方向の解像度及び横方向の解像度を、所定の解像度に初期化する。
ステップS704において、相対サイズ変更部302は、解像度を初期化した画像データについて、横方向の解像度を固定した状態で、縦方向の解像度を変更する。
ステップS705において、走査部303は、ステップS703において縦方向の解像度が変更された画像データを、固定サイズの走査窓400を用いて走査する。
ステップS706において、文字領域候補抽出部304は、走査中の走査窓400の各走査位置における画像領域についてエッジ処理を行い、エッジ画素を検出する。また、文字領域候補抽出部304は、検出したエッジ画素に基づいて、各走査位置における画像領域のエッジ密度を算出することで、所定の閾値Th2以上のエッジ密度を有する走査位置を特定する。更に、文字領域候補抽出部304は、特定した走査位置において走査窓が示す領域を文字領域候補として抽出する。
ステップS707において、文字領域候補抽出部304は、抽出した文字領域候補を、エッジ密度及び解像度(縦方向、横方向)と対応付けて保持する。
ステップS708において、相対サイズ変更部302は、縦方向の解像度について、所定の変更範囲内全てを網羅したか否かを判定する。ステップS708において、網羅していない縦方向の解像度があると判定した場合には(ステップS708においてNoの場合には)、ステップS704に戻る。一方、ステップS708において、縦方向の解像度について、所定の変更範囲内全てを網羅したと判定した場合には(ステップS708においてYesの場合には)、ステップS709に進む。
ステップS709において、相対サイズ変更部302は、横方向の解像度について、所定の変更範囲内全てを網羅したか否かを判定する。ステップS709において、網羅していない横方向の解像度があると判定した場合には(ステップS709においてNoの場合には)、ステップS710に進む。
ステップS710において、相対サイズ変更部302は、縦方向の解像度を所定の解像度に初期化する。また、ステップS711において、相対サイズ変更部302は、横方向の解像度を変更し、ステップS704に戻る。
これにより、ステップS711において新たに変更された横方向の解像度に固定した状態で、ステップS704からステップS708において縦方向の解像度を順次変更しながら、走査窓400を走査し、文字領域候補を抽出することができる。
図9において、画像データ910は、ステップS711において新たに変更した横方向の解像度を固定した状態で、ステップS704において縦方向の解像度を変更しながら走査窓400を走査した場合の、所定の縦方向の解像度における画像データを示している。画像データ910の場合、走査窓400を走査することで、文字領域候補911、912が抽出される。
また、画像データ920は、ステップS711において更に変更された横方向の解像度を固定した状態で、ステップS704において縦方向の解像度を変更しながら走査窓400を走査した場合の、所定の縦方向の解像度における画像データを示している。画像データ920の場合、走査窓400を走査することで、文字領域候補921、922、923が抽出される。
また、画像データ930は、ステップS711において更に変更された横方向の解像度を固定した状態で、ステップS704において縦方向の解像度を変更しながら走査窓400を走査した場合の、所定の縦方向の解像度における画像データを示している。画像データ930の場合、走査窓400を走査することで、文字領域候補931、932が抽出される。
図7の説明に戻る。ステップS709において、横方向の解像度について、所定の変更範囲内全てを網羅したと判定した場合には(ステップS709においてYesの場合には)、図8のステップS801に進む。
ステップS801において、重複領域抽出部305は、ステップS707において保持された文字領域候補911、912、922、923、931、932を読み出す。また、重複領域抽出部305は読み出した文字領域候補に対応付けられた解像度(縦方向、横方向)を、統一した解像度にするための拡大率または縮小率を算出する。更に、重複領域抽出部305は、算出した拡大率または縮小率に基づいて、文字領域候補911〜932を拡大または縮小し、統一した解像度の画像データに配置する。
図9において、画像データ940は、統一した解像度の画像データを示している。また、文字領域候補911’〜932’は、それぞれ、ステップS707において保持された文字領域候補911〜932を、拡大または縮小して画像データ940に配置した様子を示している。
具体的には、文字領域候補911’は、画像データ910より抽出された文字領域候補911を、画像データ940に対する画像データ910の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。また、文字領域候補912’は、画像データ910より抽出した文字領域候補912を、画像データ940に対する画像データ910の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。
同様に、文字領域候補921’は、画像データ920より抽出された文字領域候補921を、画像データ940に対する画像データ920の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。また、文字領域候補922’は、画像データ920より抽出した文字領域候補922を、画像データ940に対する画像データ920の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。また、文字領域候補923’は、画像データ920より抽出した文字領域候補923を、画像データ940に対する画像データ920の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。
同様に、文字領域候補931’は、画像データ930より抽出された文字領域候補931を、画像データ940に対する画像データ930の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。また、文字領域候補932’は、画像データ930より抽出した文字領域候補932を、画像データ940に対する画像データ930の拡大率に基づいて拡大し、画像データ940に配置した様子を示している。
図8の説明に戻る。ステップS802において、重複領域抽出部305は、統一した解像度の画像データに配置された文字領域候補同士が、所定の閾値面積以上重複しているか否かを判定する。また、重複領域抽出部305は、文字領域候補同士が所定の閾値面積以上重複していると判定した場合、当該重複している文字領域候補を抽出し、抽出した文字領域候補同士を対応付ける。
図9の画像データ950は、統一した解像度の画像データ940に配置された文字領域候補911’〜932’のうち、文字領域候補912’、923’、931’、932’が、互いに重複していると判定され、互いに対応付けられたことを示している。
ステップS803において、文字領域判定部306は、互いに対応付けられた文字領域候補の中から、エッジ密度が最大の文字領域候補を判定する。図9の画像データ960は、互いに対応付けられた文字領域候補912’、923’、931’、932’それぞれのエッジ密度のうち、文字領域候補912’のエッジ密度が最大であると判定されたことを示している。
ステップS804において、文字領域判定部306は、エッジ密度が最大であると判定した文字領域候補912’に含まれる画像領域を、文字領域として抽出する。
以上の説明から明らかなように、第1の実施形態に係る文字領域抽出装置は、処理対象のフレームの画像データに対して、固定の走査窓を用いて、解像度を変更しながら走査することで、エッジ密度が所定の閾値以上となる各走査位置を特定する。また、第1の実施形態に係る文字領域抽出装置は、特定した各走査位置において、走査窓が示す領域を文字領域候補として抽出する。また、第1の実施形態に係る文字領域抽出装置は、抽出した文字領域候補を、統一した解像度の画像データに配置し、互いに重複する文字領域候補の中から、エッジ密度が最大となる文字領域候補を判定する。更に、第1の実施形態に係る文字領域抽出装置は、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する。
このように、エッジ密度に基づいて文字領域を抽出することで、走査窓に対して文字が内接した画像領域を文字領域として抽出することが可能となる。つまり、文字以外の背景画像が極力排除された、抽出精度の高い文字領域を抽出することができる。
[第2の実施形態]
上記第1の実施形態において、相対サイズ変更部302は、はじめに横方向の解像度を固定した状態で、縦方向の解像度を順次変更していくものとして説明したが、変更順序はこれに限定されない。例えば、はじめに縦方向の解像度を固定した状態で、横方向の解像度を順次変更していくようにしてもよい。
また、上記第1の実施形態において、文字認識処理は端末130において実行されるものとして説明したが、画像処理装置120において実行するようにしてもよい。また、上記第1の実施形態において、文字領域抽出処理は、画像処理装置120の文字領域抽出部122が実行するものとして説明したが、文字領域抽出部122の一部の機能を他の装置に搭載し、複数の装置で(つまり、システムで)実行するようにしてもよい。当該複数の装置には、撮像装置111や端末130が含まれていてもよい。
なお、開示の技術では、以下に記載する付記のような形態が考えられる。
(付記1)
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
処理をコンピュータに実行させる文字領域抽出プログラム。
(付記2)
走査窓のサイズを固定し、画像の縦方向の解像度と横方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする付記1に記載の文字領域抽出プログラム。
(付記3)
走査窓のサイズを固定し、画像の横方向の解像度と縦方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする付記1に記載の文字領域抽出プログラム。
(付記4)
前記相対的な大きさの関係を、統一した所定の関係に変更する場合の拡大率または縮小率を用いて、抽出した前記文字領域候補の大きさを拡大または縮小し、
拡大または縮小した前記文字領域候補の中から、互いに重複する文字領域候補を抽出することを特徴とする付記1に記載の文字領域抽出プログラム。
(付記5)
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更する変更手段と、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出する抽出手段と、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する判定手段と
を有することを特徴とする文字領域抽出装置。
(付記6)
画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
処理をコンピュータが実行する文字領域抽出方法。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
100 :画像処理システム
110 :画像提供装置
120 :画像処理装置
121 :画像取得部
122 :文字領域抽出部
130 :端末
301 :画像読み出し部
302 :相対サイズ変更部
303 :走査部
304 :文字領域候補抽出部
305 :重複領域抽出部
306 :文字領域判定部
307 :出力部
400 :走査窓

Claims (6)

  1. 画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
    変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
    抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
    処理をコンピュータに実行させる文字領域抽出プログラム。
  2. 走査窓のサイズを固定し、画像の縦方向の解像度と横方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする請求項1に記載の文字領域抽出プログラム。
  3. 走査窓のサイズを固定し、画像の横方向の解像度と縦方向の解像度とを順次変更することで、前記画像と前記画像を走査する走査窓との相対的な大きさの関係を変更することを特徴とする請求項1に記載の文字領域抽出プログラム。
  4. 前記相対的な大きさの関係を、統一した所定の関係に変更する場合の拡大率または縮小率を用いて、抽出した前記文字領域候補の大きさを拡大または縮小し、
    拡大または縮小した前記文字領域候補の中から、互いに重複する文字領域候補を抽出することを特徴とする請求項1に記載の文字領域抽出プログラム。
  5. 画像と、該画像を走査する走査窓との相対的な大きさの関係を変更する変更手段と、
    変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出する抽出手段と、
    抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する判定手段と
    を有することを特徴とする文字領域抽出装置。
  6. 画像と、該画像を走査する走査窓との相対的な大きさの関係を変更し、
    変更した各々の関係のもとで、前記走査窓を走査させることで、前記走査窓に含まれる画像領域のエッジ密度が所定の閾値以上となる走査位置を特定し、特定した走査位置において走査窓が示す領域を、文字領域候補として抽出し、
    抽出した前記文字領域候補が互いに重複する場合に、重複した文字領域候補の中からエッジ密度が最大となる文字領域候補を判定し、判定した文字領域候補に含まれる画像領域を、文字領域として抽出する、
    処理をコンピュータが実行する文字領域抽出方法。
JP2017225029A 2017-11-22 2017-11-22 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法 Active JP6922690B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017225029A JP6922690B2 (ja) 2017-11-22 2017-11-22 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法
US16/164,864 US10783390B2 (en) 2017-11-22 2018-10-19 Recording medium recording character area extraction program, information processing apparatus and character area extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017225029A JP6922690B2 (ja) 2017-11-22 2017-11-22 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法

Publications (2)

Publication Number Publication Date
JP2019096067A true JP2019096067A (ja) 2019-06-20
JP6922690B2 JP6922690B2 (ja) 2021-08-18

Family

ID=66532402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017225029A Active JP6922690B2 (ja) 2017-11-22 2017-11-22 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法

Country Status (2)

Country Link
US (1) US10783390B2 (ja)
JP (1) JP6922690B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0654180A (ja) * 1992-07-29 1994-02-25 Mitsubishi Electric Corp 画像領域分離装置及び画像領域分離方法
JP2002232704A (ja) * 2001-01-31 2002-08-16 Ricoh Co Ltd 画像処理装置及び画像形成装置
JP2010232795A (ja) * 2009-03-26 2010-10-14 Seiko Epson Corp 階調数低減装置、階調数低減方法
JP2011087144A (ja) * 2009-10-16 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP2012108689A (ja) * 2010-11-17 2012-06-07 Nippon Hoso Kyokai <Nhk> 文字領域検出装置およびそのプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012120587A1 (ja) * 2011-03-04 2012-09-13 グローリー株式会社 文字列切出方法及び文字列切出装置
JP6352695B2 (ja) * 2014-06-19 2018-07-04 株式会社東芝 文字検出装置、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0654180A (ja) * 1992-07-29 1994-02-25 Mitsubishi Electric Corp 画像領域分離装置及び画像領域分離方法
JP2002232704A (ja) * 2001-01-31 2002-08-16 Ricoh Co Ltd 画像処理装置及び画像形成装置
JP2010232795A (ja) * 2009-03-26 2010-10-14 Seiko Epson Corp 階調数低減装置、階調数低減方法
JP2011087144A (ja) * 2009-10-16 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP2012108689A (ja) * 2010-11-17 2012-06-07 Nippon Hoso Kyokai <Nhk> 文字領域検出装置およびそのプログラム

Also Published As

Publication number Publication date
JP6922690B2 (ja) 2021-08-18
US10783390B2 (en) 2020-09-22
US20190156135A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
JP6956555B2 (ja) 画像内の物体を検出する方法及び物体検出システム
US10187546B2 (en) Method and device for correcting document image captured by image pick-up device
CN108549643B (zh) 翻译处理方法和装置
JP2007183742A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP6904182B2 (ja) 画像視点変換装置及び方法
US10609293B2 (en) Real-time glare detection inside a dynamic region of an image
JP2001320579A (ja) 広域精細画像生成方法及びシステム並びにコンピュータ可読記録媒体
JP6061502B2 (ja) 画像処理装置、画像処理方法及びプログラム
US10475187B2 (en) Apparatus and method for dividing image into regions
US9131193B2 (en) Image-processing device removing encircling lines for identifying sub-regions of image
KR101377910B1 (ko) 화상 처리 방법 및 화상 처리 장치
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
JP6932758B2 (ja) 物体検出装置、物体検出方法、物体検出プログラム、学習装置、学習方法及び学習プログラム
JP6828333B2 (ja) 画像処理装置及び画像処理プログラム
JP2016053763A (ja) 画像処理装置、画像処理方法及びプログラム
JP6922690B2 (ja) 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法
JP5794154B2 (ja) 画像処理プログラム、画像処理方法、及び画像処理装置
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US10380463B2 (en) Image processing device, setting support method, and non-transitory computer-readable media
JP2002300404A (ja) 画像処理方法及び画像処理装置
JP5563390B2 (ja) 画像処理装置およびその制御方法、及びプログラム
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP4315349B2 (ja) 画像処理方法および装置並びにプログラム
JP2020017110A (ja) オブジェクト検出システム
JPH09288728A (ja) 画像処理装置及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210712

R150 Certificate of patent or registration of utility model

Ref document number: 6922690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150