JP2018152026A

JP2018152026A - 文字認識方法及びコンピュータプログラム

Info

Publication number: JP2018152026A
Application number: JP2017049764A
Authority: JP
Inventors: 栄竹内; Sakae Takeuchi; 克犬嶋; Masaru INUJIMA
Original assignee: SOFNEC CO Ltd
Current assignee: SOFNEC CO Ltd
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2018-09-27
Anticipated expiration: 2037-03-15
Also published as: JP6671613B2

Abstract

【課題】テレビのテロップ等のカラー画像から文字を抽出しその文字を認識する方法およびプログラムを提供する。【解決手段】対象となるカラー画像から生成された複数の２値画像を取得するステップと、各２値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ（連結成分群）が文字認識対象となる文字候補であるか否かを判定するステップと、文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、を実行する。【選択図】図１

Description

本発明は、数多くの色が使われている画像内の個々の文字を認識し、特に１つの文字に複数の色が使われていたり、グラデーションがかかっていたり、ハッチングされていたりする文字の認識も可能とする文字認識方法に関する。

テレビ映像のような動画像には、画像に文字がオーバーレイされていることが多く、文字のみを抽出する機能が必要となることがある。最近の画像の多くはカラー画像であって、背景にも文字にも通常複数の色が用いられるので、対象となるカラー画像から文字のみを抽出して、その文字を認識することは容易ではない。特許文献１には、背景がある画像からも文字列を抽出するようにした「文字認識装置及び画像処理プログラム」が提案されている。

特開２０１５−１８４６９１号公報

特許文献１に記載の発明は、色やサイズが同じ文字が並んでいるテレビや映画の字幕、ドキュメント類の文字認識およびテキスト処理に適している。しかしながら、この発明では、画像全体の中で文字がまばらに配置されていたり、文字の大きさがさまざまであったり、文字列を構成する個々の文字の色が異なっていたりする場合、例えばテレビのバラエティ番組のテロップのような文字の認識には向いているとはいえない。

本発明は、字幕やドキュメントのほかに、位置も大きさも色も異なる文字が含まれるカラー画像から、高い精度で文字を抽出し、その文字を認識することを課題とする。

本発明は、画像に含まれる文字を認識する文字認識方法であって、対象となる画像から生成された複数の２値画像を取得するステップと、各２値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ（以下、「連結成分群」）が文字認識対象となる文字候補であるか否かを判定するステップと、前記文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、からなることを特徴とする。本発明はどのような画像も対象となるが、特に多種類の色を含むカラー画像を対象とした文字認識に高い効果を発揮する。カラー画像でなくても、グレースケールのモノクロ画像内の文字を認識するのにも役立つ。

本発明の画像処理方法によれば、文字か非文字かをニューラルネットワークを利用して判定するので、運用実績に伴い認識精度が向上する。ニューラルネットワークにはいろいろな種類があるが、下記の実施形態では畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ。以下、「ＣＮＮ」）を用いている。複数の２値画像を対象に文字認識を行うので、背景と文字のそれぞれが複数の色を含むカラー画像であっても、文字認識結果は高い精度が期待できる。例えば、一部の２値画像によっては連結成分が消失し、文字認識不能であるとしても、他の２値画像によって文字認識が可能となる場合もある。連結成分群をニューラルネットワークにかける前に、文字の可能性が有るか否かを簡易判定するので、迅速な処理速度が実現できる。

本発明では、ニューラルネットワークの文字用の教師データには、書体の相違によらず同一の文字には同一のコードが付与されており、ニューラルネットワークの非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることが望ましい。
同一の文字には同一のコードが付与されることにより、ニューラルネットワークの汎化能力が高まり、異なる人による手書き文字であっても認識可能となる。既存のフォントにはない若干デザイン化された文字にも対応可能である。
また、非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることにより、非文字用の教師データを迅速大量に生成できるので、２値画像に含まれるノイズの抽出が容易になる。

本発明では、Ｋ−ｍｅａｎｓ法によってＮ個（Ｎ＞＝３）のグループに分類し、分類されたＮ個のグループを２分し、一方に含まれるピクセルが白で、他方に含まれるピクセルが黒で表示された２^Ｎ−２個の２値画像を文字認識の対象とすることが望ましい。これらの２^Ｎ−２個の２値画像には、互いに白と黒が反転した２値画像の対が含まれているので、白抜きした文字や周囲を縁取りした文字等の認識も可能となる。

本発明では、各２値画像から得られた文字候補のニューラルネットワークによる判定結果を、文字候補毎にその外接矩形の位置と大きさとともに出力することが望ましい。

入力されたカラー画像に含まれる文字を、背景から取り出して、高い精度でその文字を認識できる。特に、１つの文字に複数の色が使われていたり、グラデーションがかかっていたりする文字や、画像内に孤立して存在する文字であっても認識可能である。モノクロであっても、グレースケールの画像に含まれる文字であって、文字毎に或は１つの文字内で輝度が異なる場合にも、高い精度で文字認識が可能である。

本発明の実施形態に係る文字認識装置の構成を示す機能ブロック図である。本発明の実施形態に係る学習用の文字データを例示する図である。本発明の実施形態に係る非文字を学習するために生成されたフラクタル図形を例示する図である。本発明の実施形態に係る学習用の文字類似の非文字データを例示する図である。本発明の実施形態に係る２値画像の個数を説明する図である。本発明の実施形態に係る文字認識が、複数の２値画像を必要とすることを説明するための図である。本発明の実施形態に係る文字認識が、複数の２値画像を必要とすることを説明するための図である。本発明の実施形態に係る文字認識の処理フローを示す流れ図である。本発明の実施形態に係る２値画像を走査し推定文字領域を抽出することを説明する図である。本発明の実施形態に係る「連結成分」の意義を説明するための図である。本発明の実施形態に係る膨張・収縮処理による連結成分のラベリング処理を説明するための図である。本発明の実施形態に係る文字候補を構成する連結成分と、その外接矩形を説明するための図である。本発明の実施形態に係るＣＮＮによる文字判定から除外する文字候補を説明するための図である。本発明の実施形態に係る文字候補のＣＮＮによる判定結果を例示する図である。本発明の実施形態に係る複数の２値画像から得られた文字認識結果を説明するための図である。

図面を参照しながら本発明の一実施形態の文字認識処理について、次の項目別に説明する。
《１．文字認識装置の機能ブロック構成》
《２．文字認識装置による前処理（機械学習（ＣＮＮ識別器２２の生成））》
《３．文字認識装置による前処理（複数の２値画像の生成）》
《４．文字認識装置による本処理（原画像に含まれる各文字の認識）》

《１．文字認識装置の機能ブロック構成》
本実施形態を実行するコンピュータ（以下、「文字認識装置」という）の機能に着目した構成について、図１を参照しながら説明する。
文字認識装置１は、パソコンやスマートフォンなどのコンピュータと、そのコンピュータに実装されたコンピュータプログラム（請求項５に係るコンピュータプログラムに相当）によって実現されている。
文字認識装置１は、処理部２と記憶部３と通信インターフェース部４を備える。これらのほかに、オペレータが操作時に用いるマウスやキーボードなどの入力操作部、ディスプレイやプリンタなどの出力部やカメラなども適宜備えるが図示は省略する。

記憶部３には、入力された処理対象画像、文字識別のための学習サンプル、各種閾値等のパラメータ類、処理部２による各種の中間処理結果などが格納され、メモリやハードディスクなどの記憶装置によって実現される。
中間処理結果には、推定文字領域のピクセル群、連結成分、文字候補、２値画像ごとの文字認識結果などが含まれる。
記憶部３には、コンピュータを文字認識装置１として機能させるためのプログラムも含まれ、これらのプログラムがメモリ上に読み込まれ、読み込まれたプログラムコードを図示しないＣＰＵが実行することによって処理部２の各部が動作することになる。
次に、処理部２について説明する。

処理部２は、機械学習用データ取得部２０と、機械学習部２１と、ＣＮＮ識別器２２と、２値画像取得部２３と、推定文字領域走査部２４と、連結成分抽出部２５と、文字候補選定部２６と、文字候補認識部２７と、文字認識結果出力部２８を備える。以下、各部２０〜２８について説明する。

機械学習用データ取得部２０は、通信インターフェース部４を介して、外部の通信ネットワークや情報処理装置から機械学習をさせるための文字データや非文字データを取得する。非文字データの学習用にフラクタル図形を用いるが、このフラクタル図形は外部から取得してもよいが、文字認識装置１の内部にフラクタル図形生成部２０ａを備えてもよい。この実施形態では、フラクタル図形生成部２０ａによって非文字データとしてのフラクタル図形が生成されるものとして説明する。

機械学習部２１は、機械学習用データを用いて学習をし、その結果得られたパラメータ類をＣＮＮ識別器２２に記憶させる。本実施形態では、文字候補認識部２７によって入力された文字候補をＣＮＮ識別器２２に実装されたＣＮＮの機能によって文字か非文字（ノイズ）かを判定し、その判定結果が文字候補認識部２７に返される。
機械学習については、後述する《２．文字認識装置による前処理（機械学習（ＣＮＮ識別器２２の生成））》において詳しく説明する。

２値画像取得部２３は、通信インターフェース部４を介して、外部の通信ネットワークや情報処理装置から処理対象となる２値画像データを取得する。ただし、外部からは原カラー画像を取得し、文字認識装置１の内部に備えた画像２値化処理部２３ａで２値画像を生成してもよい。この実施形態では、画像２値化処理部２３ａによって２値画像が生成されるものとして説明する。
２値画像の生成については、後述する《３．文字認識装置による前処理（複数の２値画像の生成）》において詳しく説明する。

推定文字領域走査部２４は、１枚の２値画像を、左上頂点を基点として垂直方向および水平方向に走査し、１個以上の文字が集まっていると推定される推定文字領域を抽出する。

連結成分抽出部２５は、推定文字領域から連結成分を抽出する。解像度等の制約によっては異なる文字の一部のピクセル同士が繋がっていることがある。そのため適宜膨張・収縮処理を施して公知の手法でラベリングを行い各連結成分を抽出する。

文字候補選定部２６は、外接矩形同士に一部重なりがある連結成分群或は重なりがなくても外接矩形間の距離が小さい連結成分群等が、文字認識の対象として適当か否かを判定し、適当であれば文字候補とする。この文字候補のみがＣＮＮ識別器２２による判定対象となる。

文字候補認識部２７は、文字候補として選定された１個以上の連結成分群が、文字か非文字かをＣＮＮ識別器２２によって判定する。判定結果が文字であれば、文字コードとその尤度を、非文字であれば、「文字でない」という情報と非文字である尤度をＣＮＮの出力として得る。

文字認識結果出力部２８は、文字認識結果を文字認識装置１に備えられているプリンタや画面などへ出力したり、後続するテキスト処理等の入力データとして出力したりする。

《２．文字認識装置による前処理（機械学習（ＣＮＮ識別器２２の生成））》
これは、学習用データを外部から取得し或は内部で生成し、機械学習を行い、学習によって得たパラメータ類をＣＮＮ識別器２２に保存する処理である。

学習用データには、文字データと非文字データとがある。
文字データ、つまり文字コードに対応するサンプルはその文字を描画した画像を与えればよいが、できるだけバラエティに富んだ画像を用意することで認識精度を向上させるものとする。例えば同一文字コードが付与された文字を、多数のフォントを用いて描画する。
図２には、文字データの例を示す。算用数字「３」として、各種のフォントと手書き文字を同一の文字コードに対応づけて保存する。このように、書体の違いや活字か手書きかによらず同一の文字には同一のコードを設定する。これによりＣＮＮの汎化能力が高まる。もし、書体等の違いによって異なるコードを設定するならば、未学習のデータに適合できないという所謂オーバーフィッティングの問題が生じやすくなる。

文字候補の中で、文字でないと判定されるデータ（非文字データ）には、2種類がある。
第１は実写画像に現われる自然物等が2値化の結果、文字認識の対象となってしまったもの、第２は複数の文字が並んだものがひとまとめに文字認識の対象として挙げられたものである。

第１の非文字パターンに対する学習データとしては、自然物のシミュレーションとしてよく用いられるフラクタル図形が使用できる。フラクタル地形生成法によってランダムに山地の地形を作り、これを等高線で分けた２値画像を生成し、この2値画像から適宜学習用のデータを取り出す。図３（ａ）（ｂ）（ｃ）には、ランダムに生成した山地を等高線で分けた図を標高の低い順から示している。図中破線の矩形で囲んだ部分は、非文字データとして任意に選択し登録するデータ例である。文字データのコードには正の整数を付与するのに対し、非文字データには負の整数のコードを付与するものとする。コードの正負だけで文字か非文字か直ちに判断できるからである。
なお、自然物に対応する非文字データとしてフラクタル図形を利用するのは、非文字つまりノイズにはフラクタル図形に似ているものが多いからである。

第２の非文字パターンは文字に似ているノイズである。これは、図４（１ａ）〜（２ｂ）に例示するように、格子状あるいは三角状に文字を配置した画像をランダムに生成すればよい。
複雑な部首を組み合わせた漢字もこの学習データにマッチしてしまうおそれはある。しかし、仮にそのような文字があるとしても、その文字に対応した学習データの方により高い尤度でマッチするはずである。例えば、図４（２ａ）の非文字データは、図４（３ａ）の文字データと似ている。しかし、本実施形態のＣＮＮには、非文字データと文字データの両方を学習させているので、文字「轟」であれば、図４（３ａ）の方の尤度が高くなると考えられる。

《３．文字認識装置による前処理（複数の２値画像の生成）》
本実施形態では、カラー画像から文字を抽出することを想定している。原画像が２値化画像（モノクロとは限らない）であったり、モノクロのドキュメントであったりする場合は２値画像は１枚ですむが、カラー画像やグレースケール画像の場合は複数の２値画像が必要となる。次に本実施形態における２値画像の生成手順を簡単に説明する。

Ｋ−ｍｅａｎｓ法によって原画像内の全ピクセルをＮ個（Ｎは３以上）のグループに分類する。Ｎ個のグループを白いピクセルのグループと黒いピクセルのグループに２分する。グループ数Ｎは、原カラー画像で使われている色の個数や、文字認識の処理スピードや精度を考慮して適宜決定すればよい。このように本実施形態では、Ｋ−ｍｅａｎｓ法による処理という同一のアルゴリズムによって同時に複数の２値画像を生成できる。図５の例では、グループ個数Ｎ＝３であり、２^３通りの塗り分け方がある。ただし、全グループが白あるいは黒の場合は処理対象外とし、２値画像（２）〜（７）の６枚を処理対象とする。なお、黒色のピクセルを以下「前景ピクセル」と呼ぶ。

図５において、例えば（２）と（７）は、互いに白黒が反転しているだけなので、いずれか一方の２値画像について文字認識処理を実行すれば足りるようにも思える。しかし、図６（ａ）に例示するように、画像には縁取りのある文字や白抜きの文字も含まれる。本実施形態では黒い前景ピクセルのみを文字認識の対象としているので、図６（ａ）の白抜きの文字「Ｚ」は文字認識の対象外となりかねない。周囲が幅の狭い前景ピクセルで囲まれているだけなのでこの前景ピクセルが非文字として判定されたり、そもそも文字候補として認識されなかったりするおそれがあるからである。しかし、図６（ｂ）のように反転した２値画像も用意しておけば、原画像で白抜きされている文字も文字認識の対象となる。

本実施形態では、１つの文字であっても複数の色が使われていたり、グラデーションがかかっていたりする文字も認識できなくてはならない。そのためにも、２値画像が複数あることが意味を持つ。例えば、図７はグラデーションがかかった大文字「Ｋ」が２値化されている状態を示す。図７の（ａ）、（ｂ）、（Ｃ）のそれぞれ単独では大文字「Ｋ」と特定することは難しいが、これら３枚の２値画像から得た情報を総合すれば大文字「Ｋ」と認識することが可能である。

《４．文字認識装置による本処理（２値画像に含まれる各文字の認識）》
図８の処理フローに従い、説明する。
先ずＪ枚の２値画像を取得し（ステップＳ１０），画像カウンタ変数ｊ（ｊ＝１〜Ｊの整数）に初期値１をセットする（ステップＳ１１）。

対象となる２値画像について、２値画像を走査して推定文字領域を抽出する（ステップＳ１２）。
図９に示すように、まず、画像の左上頂点から下方に向かって垂直方向に走査する。前景ピクセルが横方向に広がって並んでいる領域Ｒ１が見つかる。しかし、前景ピクセル群の外接矩形の縦の長さが所定の閾値以下である場合は、ノイズであると判断して文字認識の対象とはせず、下方への走査を再開する。領域Ｒ２の外接矩形の縦・横が所定の閾値以上であれば、１個以上の文字が含まれる領域と推定し、ステップＳ１３以降の処理対象となる。
このように、画像を走査する時点で、ある程度のノイズは除去できる。

ステップＳ１２で抽出された推定文字領域から、連結成分を抽出する（ステップＳ１３）。
ここで、用語「連結」および「連結成分」について、図１０（ａ）を参照しながら説明する。因みに、本発明における「連結」および「連結成分」は、位相空間における連結性の概念を離散集合であるピクセルの集まりに適用できるよう変形したものである。

2値画像の全ピクセルを元とする集合 U=[1,W]×[1,H]内にあって前景ピクセルからなる集合をＢとすると、B⊆U である。図中破線の楕円で囲まれている前景ピクセルが、集合Ｂの元である
ここでは、ピクセル間の隣接関係が重要な概念となるが、これは上下左右のみを隣接点とする場合（４連結）と、斜めも隣接点として扱う場合（８連結）とが考えられる。これは任意に選択してよい。
図１０（ａ）では、ピクセルp,q,r∈Ｂに対してpとqは隣接し、ｑとｒは隣接している。このように任意のピクセル同士が互いに隣接したピクセルを辿ることで到達できる場合、これを「連結である」と言い、これらのピクセルのみを元とするBの部分集合Ｃを「連結成分」と言う。同様にBの部分集合Ｄも「連結成分」である（図中、集合Ｃ，Ｄの元であるピクセルは１点鎖線の楕円で囲まれている）。集合Ｃと集合Ｄのような連結成分同士の共通部分は空集合である。
一つの文字は一個または複数の連結成分から構成される。図１０（ｂ）の「あ」という文字は１個の連結成分のみから構成され、図１０（ｄ）の「談」という文字は１１個の連結成分から構成される。なお、１個の連結成分において、その真部分集合は連結成分ではない。例えば、図１０（ｃ）は図１０（ｂ）の一部のピクセルを取り出した集合なので、もはや連結成分とはいえず、本実施形態の処理対象外である。

次に、連結成分の抽出の仕方を説明する。
推定文字領域から、前景ピクセルを隣接関係に従ってラベリングすることで容易に連結成分が抽出できる。しかし、画像の解像度の制約等により、複数の文字がピクセルを共有している状態がしばしば起こる。この問題を解決するために膨張・収縮処理を用いる。
図１１の例では、図１１（ａ）に示すように、隣り合う「た」と「け」の文字が破線を付した部分でつながっている（図１１（ｂ）は破線部分の拡大図）。そのため、図１１（ｃ）に示すように、画像に対して収縮処理を施す。これによって本来隣接しているべきでないピクセル同士が分離される。収縮した画像でラベリングを行ない、得られた連結成分Ｐ１、Ｐ２に対してその近辺の収縮処理によって削られたピクセルを追加し直し、これを連結成分ＮＰ１．ＮＰ２とする。
なお、この膨張・収縮処理によって画像のノイズに由来する細かなごみ、ひげが消去できるという副次的効果もある。

文字は１個以上の連結成分からなる。そこで、ＣＮＮによる文字判定の処理にかける前に文字候補となりうる連結成分群を抽出する（ステップＳ１４）。
文字候補とは、１個の文字を構成すると推定される連結成分群のことであって、ＣＮＮによる判定対象とするだけの意味があるものをいう。
図１２に例示する文字列左端の「た」の文字はＰａ、Ｐｂ、Ｐｃの３つの連結成分からなる。もし、集合｛Ｐａ、Ｐｂ、Ｐｃ｝のべき集合の空集合を除く７個の元についてＣＮＮによる判定処理を行おうとするならば、処理速度の点で望ましくない。そのため、本実施形態では、次のように連結成分の外接矩形を利用する。

図１２（ａ）の文字列は、Ｐａ，Ｐｂ，・・・、Ｐｈの連結成分からなり、図１２（ｂ）に示すように各連結成分の外接矩形をｒＰａ，ｒＰｂ，・・・、ｒＰｈとする。左端に位置する外接矩形ｒＰａの左上頂点のＸ座標から走査を開始する。外接矩形ｒＰａは外接矩形ｒＰｂおよびｒＰｃと重なり合う部分があるので、これら３つの外接矩形を包含する矩形Ｒｅｃｔ１の内部にある連結成分群（Ｐａ，Ｐｂ、Ｐｃ）を文字候補（この段階では、仮の文字候補にすぎない）とする。
外接矩形ｒＰｂ，ｒＰｃの右側に外接矩形ｒＰｄがあるが、Ｘ座標同士（ｘ３とｘ４）の距離が離れているので、Ｒｅｃｔ１には外接矩形ｒＰｄを含めない。
続いて、外接矩形ｒＰｄの左上頂点のＸ座標ｘ４から右に向かって水平に走査を再開する。出発点ｘ４から右側に位置する外接矩形の右上頂点のＸ座標ｘ５、ｘ６、ｘ７、ｘ８の値を抽出する。外接矩形ｒＰｄの横幅が狭い（ｘ５−ｘ４）ので、右隣の外接矩形ｒＰｅも包含する矩形Ｒｅｃｔ２の内部にある連結成分群（Ｐｄ，Ｐｅ）を仮の文字候補とする。さらに右隣にある外接矩形ｒＰｆも包含した矩形Ｒｅｃｔ３の内部にある連結成分群（Ｐｄ，Ｐｅ、Ｐｆ）を仮の文字候補としてもよい。文字列の右端にある外接矩形ｒＰｇ，ｒＰｈの右上のＸ座標ｘ８は、スタート位置のＸ座標ｘ４から離れすぎているので、これらを包含する矩形Ｒｅｃｔ４の内部にある連結成分群（Ｐｄ，Ｐｅ、Ｐｆ、Ｐｇ、Ｐｈ）は仮の文字候補とはしない。

以上、煩雑さを避けるために各外接矩形のｘ座標同士の比較についてのみ説明したが、ｙ座標同士の比較をすることも当然である。例えば、連結成分Ｐｇに着目した場合、連結成分Ｐｈは外接矩形同士が上下に近接しているので、外接矩形ｒＰｇとｒＰｈを包含する矩形Ｒｅｃｔ５の内部にある連結成分群（Ｐｇ，Ｐｈ）も仮の文字候補とする。

このような外接矩形を利用した文字候補の選定方法をとるならば、矩形内に混入したノイズによって認識精度が影響を受ける可能性はある。しかし、本実施形態では以下の理由で問題としないことにする。すなわち、第１に、２値化方法の特徴から、ある２値画像にノイズが混入していても、大部分のケースでは別の画像のほぼ同じ矩形部分を取り出すとノイズの無い文字が得られるからである。第２に、文字の判定にはＣＮＮを使用するが、その特徴としてこのようなノイズに強くなるように訓練することができるからである。汎化能力の高い学習ができていれば、たとえ認識対象の画像としてノイズを含んだものしか得られなかったとしても、若干尤度の低い認識結果となるだけで最終結果の品質にはさほど影響しないと考えられる。

以上が、文字候補の基本的な決定方法である。
しかし、文字候補として得られた中には、ＣＮＮによる文字識別を行なうまでもなく、簡単な判定のみで文字をなさないとわかるものが多数含まれている。そのため、ＣＮＮにかける前に、文字識別の対象とする文字候補を選別する（ステップＳ１５）。このように、簡易な判定法で文字候補の数を絞り込むことは全体的な処理高速化のために有効である。
以下にそのような判定法を例示する。

（１）外接矩形の上下左右端のいずれかに接する連結成分があまりにも微細なものしかないものは文字候補を構成する連結成分から除外する（図１３（ａ）のｃ１は除外し、ｃ２を文字候補とする）。
（２）外接矩形のサイズの上限と下限を予め設けておいて、サイズ上限を超えるあるいは下限を下回る文字候補は除外する（図１３（ｂ）のｃ３、ｃ４）。
（３）外接矩形の縦横比が極端なものを除外する。例えば、図１３（ｃ）のｃ６は縦・横比が１：２であり、隣接する文字候補ｃ５と比べても１個の文字でない可能性が高い。ただし、文字のなかには極端な縦横比のもの(漢数字の「一」など)もあるので、それらに対する配慮との兼ね合いになる。例えば、処理速度よりも認識精度が重要視されるような用途では、縦横比による判定を省略してもよい。
（４）あまりにも多くの連結成分を含むものは文字候補から除外する（図１３（ｄ）のｃ７）。
（５）全体の外接矩形の面積に対して、含まれる各連結成分の外接矩形の面積の総和が小さすぎる場合は除外する（図１３（ｅ）のｃ８）。ここで、ピクセル数の比率で判定しないのは、「口」のような文字を除外しないようにするためである。

上記の文字候補としての適否を判定する方法（１）〜（５）は例示にすぎない。要は、文字認識の精度と処理速度の兼ね合いとからＣＮＮを利用した文字識別処理にかける文字候補を取捨選択できればよいのである。

続いて、文字らしいと簡易判定された文字候補（１個以上の連結成分群）をＣＮＮにかける（ステップＳ１６）。
あらかじめ用意した文字データおよび非文字データで学習済みのＣＮＮに、文字候補を入力する。ＣＮＮが入力されたデータを文字と判定すると、その文字コードと尤度を返し、文字でないと判定すると、"文字でない"という判定結果を非文字である尤度とともに返す。本実施形態では、ＣＮＮは文字データと非文字データの両者で学習しているので、文字か非文字（＝ノイズ）かをその尤度をもって同時に判断できるのである。

図１４（ａ）は文字と判定された場合の出力結果を示すが、文字コードと尤度の組合せは１とおりとは限らない。１枚の２値画像からは唯一の判定結果を得ることは困難なので、ここでは文字コードの候補を尤度の高い順に取得できればよい。図１４（ｂ）は、文字でないと推定された場合の判定結果を示す。
これらの出力結果は、文字候補の外接矩形の（左上の）位置および縦横サイズとともに、記憶部３に格納し、後続の処理で参照する。ここで出力されるのは、高い尤度で文字と判定された連結成分群だけでもよい。
１個の連結成分群に対して、文字と非文字の矛盾する判断が返ってくることもあるが、最終的には全２値画像の認識結果を総合するので、妥当な判断が得られる。つまり、１枚の２値画像によっては文字か非文字か、あるいは文字の場合も文字コードが何かがはっきりと決定されなくてもかまわない。

１枚の２値画像に含まれる全推定文字領域についての処理が終了していなければ（ステップＳ１７でＮｏ）、ステップＳ１２の処理に戻り、次の推定文字領域を抽出するために画像を走査する。図９の例の場合、垂直方向の走査が完了済であれば、画像の左上座標から右方に向かって水平方向に走査する。前景ピクセルが縦方向に広がって並んでいる領域Ｒ３が見つかるが、横の長さが所定の閾値以下である場合は、ノイズであると判断して文字認識の対象とはしない。水平方向の走査を続行し、領域Ｒ４の外接矩形の縦・横が所定の閾値以上であれば、１個以上の文字が含まれる領域と推定して、ステップＳ１３以降の処理を実行する。
１枚の２値画像についての文字認識処理が終了したならば（ステップＳ１７でＹｅｓ），Ｊ枚の２値画像の全部についての処理が終了したかを判断する。まだ終了していなければ（ステップＳ１８でＮｏ），変数ｊをインクリメントし（ステップＳ１９）、ステップＳ１２に戻って、ｊ番目の画像を走査して推定文字領域を抽出する。

全２値画像のそれぞれについて、前景ピクセルの文字認識が終了しているならば（ステップＳ１８でＹｅｓ），全部の２値画像についての文字認識結果を画面やプリンタに出力したり、他の処理システムへ出力したりする（ステップＳ２０）。例えば、文脈を考慮したテキスト処理である。この後続処理は、他の情報処理装置で行ってもよく、文字認識装置１の内部で行っても良い。図１５に、複数の２値画像のほぼ同じ位置にある連結成分群の認識結果を例示する。２値画像によって、ＣＮＮの判定結果は異なるが、これらの判定結果をどのように利用するかは後続の処理次第なのである。

以上、本発明の１実施形態について説明した。しかし、本発明はこの実施形態に限るものではなく、特許請求の範囲を逸脱しない限りで、種々の実施形態が考えられる。例えば、２値画像は複数を前提としているが、１枚の２値画像に本発明を適用することも勿論可能である。また、１枚のカラー画像あるいはグレースケール画像から２値画像を生成するために、必ずしもｋ−ｍｅａｎｓ法を利用しなくてもよい。さらに、図８に示した処理フローは例示にすぎず、例えば、１枚の画像についての文字認識の都度、その判定結果を出力してもよいことは言うまでもない。

カラー画像に含まれる文字を高い精度で認識でき、テレビのテロップ、道路交通標識、看板等からテキストを抽出する際の基本となる技術として、幅広い利用が期待される。

１：文字認識装置
２：処理部
２０：機械学習用データ取得部
２１：機械学習部
２２：ＣＮＮ識別器
２３：２値画像取得部
２４：推定文字領域走査部
２５：連結成分抽出部
２６：文字候補選定部
２７：文字候補認識部
２８：文字認識結果出力部
３：記憶部
４：通信インターフェース部

Claims

画像に含まれる文字を認識する文字認識方法であって、対象となる画像から生成された複数の２値画像を取得するステップと、各２値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ（以下、「連結成分群」）が文字認識対象となる文字候補であるか否かを判定するステップと、前記文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、からなることを特徴とする文字認識方法。
ニューラルネットワークの文字用の教師データには、書体の相違によらず同一の文字には同一のコードが付与されており、ニューラルネットワークの非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることを特徴とする請求項１に記載の文字認識方法。
Ｋ−ｍｅａｎｓ法によってＮ個（Ｎ＞＝３）のグループに分類し、分類されたＮ個のグループを２分し、一方に含まれるピクセルが白で、他方に含まれるピクセルが黒で表示された２^Ｎ−２個の２値画像を文字認識の対象とすることを特徴とする請求項１または２のいずれかに記載の文字認識方法。
各２値画像から得られた文字候補のニューラルネットワークによる判定結果を、文字候補毎にその外接矩形の位置と大きさとともに出力するステップを含むことを特徴とする請求項１〜３のいずれか１に記載の文字認識方法。
請求項１〜４のいずれかに記載の文字認識方法をコンピュータに実行させることを特徴とするコンピュータプログラム。