JP2018152026A - 文字認識方法及びコンピュータプログラム - Google Patents

文字認識方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2018152026A
JP2018152026A JP2017049764A JP2017049764A JP2018152026A JP 2018152026 A JP2018152026 A JP 2018152026A JP 2017049764 A JP2017049764 A JP 2017049764A JP 2017049764 A JP2017049764 A JP 2017049764A JP 2018152026 A JP2018152026 A JP 2018152026A
Authority
JP
Japan
Prior art keywords
character
image
character recognition
connected component
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017049764A
Other languages
English (en)
Other versions
JP6671613B2 (ja
Inventor
栄 竹内
Sakae Takeuchi
栄 竹内
克 犬嶋
Masaru INUJIMA
克 犬嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOFNEC CO Ltd
Original Assignee
SOFNEC CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOFNEC CO Ltd filed Critical SOFNEC CO Ltd
Priority to JP2017049764A priority Critical patent/JP6671613B2/ja
Publication of JP2018152026A publication Critical patent/JP2018152026A/ja
Application granted granted Critical
Publication of JP6671613B2 publication Critical patent/JP6671613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】テレビのテロップ等のカラー画像から文字を抽出しその文字を認識する方法およびプログラムを提供する。【解決手段】対象となるカラー画像から生成された複数の2値画像を取得するステップと、各2値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ(連結成分群)が文字認識対象となる文字候補であるか否かを判定するステップと、文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、を実行する。【選択図】図1

Description

本発明は、数多くの色が使われている画像内の個々の文字を認識し、特に1つの文字に複数の色が使われていたり、グラデーションがかかっていたり、ハッチングされていたりする文字の認識も可能とする文字認識方法に関する。
テレビ映像のような動画像には、画像に文字がオーバーレイされていることが多く、文字のみを抽出する機能が必要となることがある。 最近の画像の多くはカラー画像であって、背景にも文字にも通常複数の色が用いられるので、対象となるカラー画像から文字のみを抽出して、その文字を認識することは容易ではない。 特許文献1には、背景がある画像からも文字列を抽出するようにした「文字認識装置及び画像処理プログラム」が提案されている。
特開2015−184691号公報
特許文献1に記載の発明は、色やサイズが同じ文字が並んでいるテレビや映画の字幕、ドキュメント類の文字認識およびテキスト処理に適している。 しかしながら、この発明では、画像全体の中で文字がまばらに配置されていたり、文字の大きさがさまざまであったり、文字列を構成する個々の文字の色が異なっていたりする場合、例えばテレビのバラエティ番組のテロップのような文字の認識には向いているとはいえない。
本発明は、字幕やドキュメントのほかに、位置も大きさも色も異なる文字が含まれるカラー画像から、高い精度で文字を抽出し、その文字を認識することを課題とする。
本発明は、画像に含まれる文字を認識する文字認識方法であって、対象となる画像から生成された複数の2値画像を取得するステップと、各2値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ(以下、「連結成分群」)が文字認識対象となる文字候補であるか否かを判定するステップと、前記文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、からなることを特徴とする。 本発明はどのような画像も対象となるが、特に多種類の色を含むカラー画像を対象とした文字認識に高い効果を発揮する。カラー画像でなくても、グレースケールのモノクロ画像内の文字を認識するのにも役立つ。
本発明の画像処理方法によれば、文字か非文字かをニューラルネットワークを利用して判定するので、運用実績に伴い認識精度が向上する。ニューラルネットワークにはいろいろな種類があるが、下記の実施形態では畳み込みニューラルネットワーク(Convolutional Neural Network。以下、「CNN」)を用いている。 複数の2値画像を対象に文字認識を行うので、背景と文字のそれぞれが複数の色を含むカラー画像であっても、文字認識結果は高い精度が期待できる。例えば、一部の2値画像によっては連結成分が消失し、文字認識不能であるとしても、他の2値画像によって文字認識が可能となる場合もある。 連結成分群をニューラルネットワークにかける前に、文字の可能性が有るか否かを簡易判定するので、迅速な処理速度が実現できる。
本発明では、ニューラルネットワークの文字用の教師データには、書体の相違によらず同一の文字には同一のコードが付与されており、 ニューラルネットワークの非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることが望ましい。
同一の文字には同一のコードが付与されることにより、ニューラルネットワークの汎化能力が高まり、異なる人による手書き文字であっても認識可能となる。既存のフォントにはない若干デザイン化された文字にも対応可能である。
また、非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることにより、非文字用の教師データを迅速大量に生成できるので、2値画像に含まれるノイズの抽出が容易になる。
本発明では、K−means法によってN個(N>=3)のグループに分類し、分類されたN個のグループを2分し、一方に含まれるピクセルが白で、他方に含まれるピクセルが黒で表示された2−2個の2値画像を文字認識の対象とすることが望ましい。これらの2−2個の2値画像には、互いに白と黒が反転した2値画像の対が含まれているので、白抜きした文字や周囲を縁取りした文字等の認識も可能となる。
本発明では、各2値画像から得られた文字候補のニューラルネットワークによる判定結果を、文字候補毎にその外接矩形の位置と大きさとともに出力することが望ましい。
入力されたカラー画像に含まれる文字を、背景から取り出して、高い精度でその文字を認識できる。特に、1つの文字に複数の色が使われていたり、グラデーションがかかっていたりする文字や、画像内に孤立して存在する文字であっても認識可能である。モノクロであっても、グレースケールの画像に含まれる文字であって、文字毎に或は1つの文字内で輝度が異なる場合にも、高い精度で文字認識が可能である。
本発明の実施形態に係る文字認識装置の構成を示す機能ブロック図である。 本発明の実施形態に係る学習用の文字データを例示する図である。 本発明の実施形態に係る非文字を学習するために生成されたフラクタル図形を例示する図である。 本発明の実施形態に係る学習用の文字類似の非文字データを例示する図である。 本発明の実施形態に係る2値画像の個数を説明する図である。 本発明の実施形態に係る文字認識が、複数の2値画像を必要とすることを説明するための図である。 本発明の実施形態に係る文字認識が、複数の2値画像を必要とすることを説明するための図である。 本発明の実施形態に係る文字認識の処理フローを示す流れ図である。 本発明の実施形態に係る2値画像を走査し推定文字領域を抽出することを説明する図である。 本発明の実施形態に係る「連結成分」の意義を説明するための図である。 本発明の実施形態に係る膨張・収縮処理による連結成分のラベリング処理を説明するための図である。 本発明の実施形態に係る文字候補を構成する連結成分と、その外接矩形を説明するための図である。 本発明の実施形態に係るCNNによる文字判定から除外する文字候補を説明するための図である。 本発明の実施形態に係る文字候補のCNNによる判定結果を例示する図である。 本発明の実施形態に係る複数の2値画像から得られた文字認識結果を説明するための図である。
図面を参照しながら本発明の一実施形態の文字認識処理について、次の項目別に説明する。
《1.文字認識装置の機能ブロック構成》
《2.文字認識装置による前処理(機械学習(CNN識別器22の生成))》
《3.文字認識装置による前処理(複数の2値画像の生成)》
《4.文字認識装置による本処理(原画像に含まれる各文字の認識)》
《1. 文字認識装置の機能ブロック構成》
本実施形態を実行するコンピュータ(以下、「文字認識装置」という)の機能に着目した構成について、図1を参照しながら説明する。
文字認識装置1は、パソコンやスマートフォンなどのコンピュータと、そのコンピュータに実装されたコンピュータプログラム(請求項5に係るコンピュータプログラムに相当)によって実現されている。
文字認識装置1は、処理部2と記憶部3と通信インターフェース部4を備える。これらのほかに、オペレータが操作時に用いるマウスやキーボードなどの入力操作部、ディスプレイやプリンタなどの出力部やカメラなども適宜備えるが図示は省略する。
記憶部3には、入力された処理対象画像、文字識別のための学習サンプル、各種閾値等のパラメータ類、処理部2による各種の中間処理結果などが格納され、メモリやハードディスクなどの記憶装置によって実現される。
中間処理結果には、推定文字領域のピクセル群、連結成分、文字候補、2値画像ごとの文字認識結果などが含まれる。
記憶部3には、コンピュータを文字認識装置1として機能させるためのプログラムも含まれ、これらのプログラムがメモリ上に読み込まれ、読み込まれたプログラムコードを図示しないCPUが実行することによって処理部2の各部が動作することになる。
次に、処理部2について説明する。
処理部2は、機械学習用データ取得部20と、機械学習部21と、CNN識別器22と、2値画像取得部23と、推定文字領域走査部24と、連結成分抽出部25と、文字候補選定部26と、文字候補認識部27と、文字認識結果出力部28を備える。以下、各部20〜28について説明する。
機械学習用データ取得部20は、通信インターフェース部4を介して、外部の通信ネットワークや情報処理装置から機械学習をさせるための文字データや非文字データを取得する。非文字データの学習用にフラクタル図形を用いるが、このフラクタル図形は外部から取得してもよいが、文字認識装置1の内部にフラクタル図形生成部20aを備えてもよい。この実施形態では、フラクタル図形生成部20aによって非文字データとしてのフラクタル図形が生成されるものとして説明する。
機械学習部21は、機械学習用データを用いて学習をし、その結果得られたパラメータ類をCNN識別器22に記憶させる。本実施形態では、文字候補認識部27によって入力された文字候補をCNN識別器22に実装されたCNNの機能によって文字か非文字(ノイズ)かを判定し、その判定結果が文字候補認識部27に返される。
機械学習については、後述する《2.文字認識装置による前処理(機械学習(CNN識別器22の生成))》において詳しく説明する。
2値画像取得部23は、通信インターフェース部4を介して、外部の通信ネットワークや情報処理装置から処理対象となる2値画像データを取得する。ただし、外部からは原カラー画像を取得し、文字認識装置1の内部に備えた画像2値化処理部23aで2値画像を生成してもよい。この実施形態では、画像2値化処理部23aによって2値画像が生成されるものとして説明する。
2値画像の生成については、後述する《3.文字認識装置による前処理(複数の2値画像の生成)》において詳しく説明する。
推定文字領域走査部24は、1枚の2値画像を、左上頂点を基点として垂直方向および水平方向に走査し、1個以上の文字が集まっていると推定される推定文字領域を抽出する。
連結成分抽出部25は、推定文字領域から連結成分を抽出する。解像度等の制約によっては異なる文字の一部のピクセル同士が繋がっていることがある。そのため適宜膨張・収縮処理を施して公知の手法でラベリングを行い各連結成分を抽出する。
文字候補選定部26は、外接矩形同士に一部重なりがある連結成分群或は重なりがなくても外接矩形間の距離が小さい連結成分群等が、文字認識の対象として適当か否かを判定し、適当であれば文字候補とする。この文字候補のみがCNN識別器22による判定対象となる。
文字候補認識部27は、文字候補として選定された1個以上の連結成分群が、文字か非文字かをCNN識別器22によって判定する。判定結果が文字であれば、文字コードとその尤度を、非文字であれば、「文字でない」という情報と非文字である尤度をCNNの出力として得る。
文字認識結果出力部28は、文字認識結果を文字認識装置1に備えられているプリンタや画面などへ出力したり、後続するテキスト処理等の入力データとして出力したりする。
《2. 文字認識装置による前処理(機械学習(CNN識別器22の生成))》
これは、学習用データを外部から取得し或は内部で生成し、機械学習を行い、学習によって得たパラメータ類をCNN識別器22に保存する処理である。
学習用データには、文字データと非文字データとがある。
文字データ、つまり文字コードに対応するサンプルはその文字を描画した画像を与えればよいが、できるだけバラエティに富んだ画像を用意することで認識精度を向上させるものとする。例えば同一文字コードが付与された文字を、多数のフォントを用いて描画する。
図2には、文字データの例を示す。算用数字「3」として、各種のフォントと手書き文字を同一の文字コードに対応づけて保存する。このように、書体の違いや活字か手書きかによらず同一の文字には同一のコードを設定する。これによりCNNの汎化能力が高まる。もし、書体等の違いによって異なるコードを設定するならば、未学習のデータに適合できないという所謂オーバーフィッティングの問題が生じやすくなる。
文字候補の中で、文字でないと判定されるデータ(非文字データ)には、2種類がある。
第1は実写画像に現われる自然物等が2値化の結果、文字認識の対象となってしまったもの、第2は複数の文字が並んだものがひとまとめに文字認識の対象として挙げられたものである。
第1の非文字パターンに対する学習データとしては、自然物のシミュレーションとしてよく用いられるフラクタル図形が使用できる。フラクタル地形生成法によってランダムに山地の地形を作り、これを等高線で分けた2値画像を生成し、この2値画像から適宜学習用のデータを取り出す。図3(a)(b)(c)には、ランダムに生成した山地を等高線で分けた図を標高の低い順から示している。図中破線の矩形で囲んだ部分は、非文字データとして任意に選択し登録するデータ例である。文字データのコードには正の整数を付与するのに対し、非文字データには負の整数のコードを付与するものとする。コードの正負だけで文字か非文字か直ちに判断できるからである。
なお、自然物に対応する非文字データとしてフラクタル図形を利用するのは、非文字つまりノイズにはフラクタル図形に似ているものが多いからである。
第2の非文字パターンは文字に似ているノイズである。これは、図4(1a)〜(2b)に例示するように、格子状あるいは三角状に文字を配置した画像をランダムに生成すればよい。
複雑な部首を組み合わせた漢字もこの学習データにマッチしてしまうおそれはある。しかし、仮にそのような文字があるとしても、その文字に対応した学習データの方により高い尤度でマッチするはずである。例えば、図4(2a)の非文字データは、図4(3a)の文字データと似ている。しかし、本実施形態のCNNには、非文字データと文字データの両方を学習させているので、文字「轟」であれば、図4(3a)の方の尤度が高くなると考えられる。
《3.文字認識装置による前処理(複数の2値画像の生成)》
本実施形態では、カラー画像から文字を抽出することを想定している。原画像が2値化画像(モノクロとは限らない)であったり、モノクロのドキュメントであったりする場合は2値画像は1枚ですむが、カラー画像やグレースケール画像の場合は複数の2値画像が必要となる。 次に本実施形態における2値画像の生成手順を簡単に説明する。
K−means法によって原画像内の全ピクセルをN個(Nは3以上)のグループに分類する。N個のグループを白いピクセルのグループと黒いピクセルのグループに2分する。グループ数Nは、原カラー画像で使われている色の個数や、文字認識の処理スピードや精度を考慮して適宜決定すればよい。このように本実施形態では、K−means法による処理という同一のアルゴリズムによって同時に複数の2値画像を生成できる。 図5の例では、グループ個数N=3であり、2通りの塗り分け方がある。ただし、全グループが白あるいは黒の場合は処理対象外とし、2値画像(2)〜(7)の6枚を処理対象とする。 なお、黒色のピクセルを以下「前景ピクセル」と呼ぶ。
図5において、例えば(2)と(7)は、互いに白黒が反転しているだけなので、いずれか一方の2値画像について文字認識処理を実行すれば足りるようにも思える。しかし、図6(a)に例示するように、画像には縁取りのある文字や白抜きの文字も含まれる。本実施形態では黒い前景ピクセルのみを文字認識の対象としているので、図6(a)の白抜きの文字「Z」は文字認識の対象外となりかねない。周囲が幅の狭い前景ピクセルで囲まれているだけなのでこの前景ピクセルが非文字として判定されたり、そもそも文字候補として認識されなかったりするおそれがあるからである。しかし、図6(b)のように反転した2値画像も用意しておけば、原画像で白抜きされている文字も文字認識の対象となる。
本実施形態では、1つの文字であっても複数の色が使われていたり、グラデーションがかかっていたりする文字も認識できなくてはならない。そのためにも、2値画像が複数あることが意味を持つ。例えば、図7はグラデーションがかかった大文字「K」が2値化されている状態を示す。図7の(a)、(b)、(C)のそれぞれ単独では大文字「K」と特定することは難しいが、これら3枚の2値画像から得た情報を総合すれば大文字「K」と認識することが可能である。
《4. 文字認識装置による本処理(2値画像に含まれる各文字の認識)》
図8の処理フローに従い、説明する。
先ずJ枚の2値画像を取得し(ステップS10),画像カウンタ変数j(j=1〜Jの整数)に初期値1をセットする(ステップS11)。
対象となる2値画像について、2値画像を走査して推定文字領域を抽出する(ステップS12)。
図9に示すように、まず、画像の左上頂点から下方に向かって垂直方向に走査する。前景ピクセルが横方向に広がって並んでいる領域R1が見つかる。しかし、前景ピクセル群の外接矩形の縦の長さが所定の閾値以下である場合は、ノイズであると判断して文字認識の対象とはせず、下方への走査を再開する。領域R2の外接矩形の縦・横が所定の閾値以上であれば、1個以上の文字が含まれる領域と推定し、ステップS13以降の処理対象となる。
このように、画像を走査する時点で、ある程度のノイズは除去できる。
ステップS12で抽出された推定文字領域から、連結成分を抽出する(ステップS13)。
ここで、用語「連結」および「連結成分」について、図10(a)を参照しながら説明する。因みに、本発明における「連結」および「連結成分」は、位相空間における連結性の概念を離散集合であるピクセルの集まりに適用できるよう変形したものである。
2値画像の全ピクセルを元とする集合 U=[1,W]×[1,H]内にあって前景ピクセルからなる集合をBとすると、B⊆U である。図中破線の楕円で囲まれている前景ピクセルが、集合Bの元である
ここでは、ピクセル間の隣接関係が重要な概念となるが、これは上下左右のみを隣接点とする場合(4連結)と、斜めも隣接点として扱う場合(8連結)とが考えられる。これは任意に選択してよい。
図10(a)では、ピクセルp,q,r∈B に対してpとqは隣接し、qとrは隣接している。このように任意のピクセル同士が互いに隣接したピクセルを辿ることで到達できる場合、これを「連結である」と言い、これらのピクセルのみを元とするBの部分集合Cを「連結成分」と言う。同様にBの部分集合Dも「連結成分」である(図中、集合C,Dの元であるピクセルは1点鎖線の楕円で囲まれている)。集合Cと集合Dのような連結成分同士の共通部分は空集合である。
一つの文字は一個または複数の連結成分から構成される。図10(b)の「あ」という文字は1個の連結成分のみから構成され、図10(d)の「談」という文字は11個の連結成分から構成される。なお、1個の連結成分において、その真部分集合は連結成分ではない。例えば、図10(c)は図10(b)の一部のピクセルを取り出した集合なので、もはや連結成分とはいえず、本実施形態の処理対象外である。
次に、連結成分の抽出の仕方を説明する。
推定文字領域から、前景ピクセルを隣接関係に従ってラベリングすることで容易に連結成分が抽出できる。しかし、画像の解像度の制約等により、複数の文字がピクセルを共有している状態がしばしば起こる。この問題を解決するために膨張・収縮処理を用いる。
図11の例では、図11(a)に示すように、隣り合う「た」と「け」の文字が破線を付した部分でつながっている(図11(b)は破線部分の拡大図)。そのため、図11(c)に示すように、画像に対して収縮処理を施す。これによって本来隣接しているべきでないピクセル同士が分離される。収縮した画像でラベリングを行ない、得られた連結成分P1、P2に対してその近辺の収縮処理によって削られたピクセルを追加し直し、これを連結成分NP1.NP2とする。
なお、この膨張・収縮処理によって画像のノイズに由来する細かなごみ、ひげが消去できるという副次的効果もある。
文字は1個以上の連結成分からなる。そこで、CNNによる文字判定の処理にかける前に文字候補となりうる連結成分群を抽出する(ステップS14)。
文字候補とは、1個の文字を構成すると推定される連結成分群のことであって、CNNによる判定対象とするだけの意味があるものをいう。
図12に例示する文字列左端の「た」の文字はPa、Pb、Pcの3つの連結成分からなる。もし、集合{Pa、Pb、Pc}のべき集合の空集合を除く7個の元についてCNNによる判定処理を行おうとするならば、処理速度の点で望ましくない。そのため、本実施形態では、次のように連結成分の外接矩形を利用する。
図12(a)の文字列は、Pa,Pb,・・・、Phの連結成分からなり、図12(b)に示すように各連結成分の外接矩形をrPa,rPb,・・・、rPhとする。左端に位置する外接矩形rPaの左上頂点のX座標から走査を開始する。外接矩形rPaは外接矩形rPbおよびrPcと重なり合う部分があるので、これら3つの外接矩形を包含する矩形Rect1の内部にある連結成分群(Pa,Pb、Pc)を文字候補(この段階では、仮の文字候補にすぎない)とする。
外接矩形rPb,rPcの右側に外接矩形rPdがあるが、X座標同士(x3とx4)の距離が離れているので、Rect1には外接矩形rPdを含めない。
続いて、外接矩形rPdの左上頂点のX座標x4から右に向かって水平に走査を再開する。出発点x4から右側に位置する外接矩形の右上頂点のX座標x5、x6、x7、x8の値を抽出する。外接矩形rPdの横幅が狭い(x5−x4)ので、右隣の外接矩形rPeも包含する矩形Rect2の内部にある連結成分群(Pd,Pe)を仮の文字候補とする。さらに右隣にある外接矩形rPfも包含した矩形Rect3の内部にある連結成分群(Pd,Pe、Pf)を仮の文字候補としてもよい。文字列の右端にある外接矩形rPg,rPhの右上のX座標x8は、スタート位置のX座標x4から離れすぎているので、これらを包含する矩形Rect4の内部にある連結成分群(Pd,Pe、Pf、Pg、Ph)は仮の文字候補とはしない。
以上、煩雑さを避けるために各外接矩形のx座標同士の比較についてのみ説明したが、y座標同士の比較をすることも当然である。例えば、連結成分Pgに着目した場合、連結成分Phは外接矩形同士が上下に近接しているので、外接矩形rPgとrPhを包含する矩形Rect5の内部にある連結成分群(Pg,Ph)も仮の文字候補とする。
このような外接矩形を利用した文字候補の選定方法をとるならば、矩形内に混入したノイズによって認識精度が影響を受ける可能性はある。しかし、本実施形態では以下の理由で問題としないことにする。すなわち、第1に、2値化方法の特徴から、ある2値画像にノイズが混入していても、大部分のケースでは別の画像のほぼ同じ矩形部分を取り出すとノイズの無い文字が得られるからである。第2に、文字の判定にはCNNを使用するが、その特徴としてこのようなノイズに強くなるように訓練することができるからである。汎化能力の高い学習ができていれば、たとえ認識対象の画像としてノイズを含んだものしか得られなかったとしても、若干尤度の低い認識結果となるだけで最終結果の品質にはさほど影響しないと考えられる。
以上が、文字候補の基本的な決定方法である。
しかし、文字候補として得られた中には、CNNによる文字識別を行なうまでもなく、簡単な判定のみで文字をなさないとわかるものが多数含まれている。そのため、CNNにかける前に、文字識別の対象とする文字候補を選別する(ステップS15)。このように、簡易な判定法で文字候補の数を絞り込むことは全体的な処理高速化のために有効である。
以下にそのような判定法を例示する。
(1)外接矩形の上下左右端のいずれかに接する連結成分があまりにも微細なものしかないものは文字候補を構成する連結成分から除外する(図13(a)のc1は除外し、c2を文字候補とする)。
(2)外接矩形のサイズの上限と下限を予め設けておいて、サイズ上限を超えるあるいは下限を下回る文字候補は除外する(図13(b)のc3、c4)。
(3)外接矩形の縦横比が極端なものを除外する。例えば、図13(c)のc6は縦・横比が1:2であり、隣接する文字候補c5と比べても1個の文字でない可能性が高い。ただし、文字のなかには極端な縦横比のもの(漢数字の「一」など)もあるので、それらに対する配慮との兼ね合いになる。例えば、処理速度よりも認識精度が重要視されるような用途では、縦横比による判定を省略してもよい。
(4)あまりにも多くの連結成分を含むものは文字候補から除外する(図13(d)のc7)。
(5)全体の外接矩形の面積に対して、含まれる各連結成分の外接矩形の面積の総和が小さすぎる場合は除外する(図13(e)のc8)。ここで、ピクセル数の比率で判定しないのは、「口」のような文字を除外しないようにするためである。
上記の文字候補としての適否を判定する方法(1)〜(5)は例示にすぎない。要は、文字認識の精度と処理速度の兼ね合いとからCNNを利用した文字識別処理にかける文字候補を取捨選択できればよいのである。
続いて、文字らしいと簡易判定された文字候補(1個以上の連結成分群)をCNNにかける(ステップS16)。
あらかじめ用意した文字データおよび非文字データで学習済みのCNNに、文字候補を入力する。CNNが入力されたデータを文字と判定すると、その文字コードと尤度を返し、文字でないと判定すると、"文字でない"という判定結果を非文字である尤度とともに返す。本実施形態では、CNNは文字データと非文字データの両者で学習しているので、文字か非文字(=ノイズ)かをその尤度をもって同時に判断できるのである。
図14(a)は文字と判定された場合の出力結果を示すが、文字コードと尤度の組合せは1とおりとは限らない。1枚の2値画像からは唯一の判定結果を得ることは困難なので、ここでは文字コードの候補を尤度の高い順に取得できればよい。図14(b)は、文字でないと推定された場合の判定結果を示す。
これらの出力結果は、文字候補の外接矩形の(左上の)位置および縦横サイズとともに、記憶部3に格納し、後続の処理で参照する。ここで出力されるのは、高い尤度で文字と判定された連結成分群だけでもよい。
1個の連結成分群に対して、文字と非文字の矛盾する判断が返ってくることもあるが、最終的には全2値画像の認識結果を総合するので、妥当な判断が得られる。つまり、1枚の2値画像によっては文字か非文字か、あるいは文字の場合も文字コードが何かがはっきりと決定されなくてもかまわない。
1枚の2値画像に含まれる全推定文字領域についての処理が終了していなければ(ステップS17でNo)、ステップS12の処理に戻り、次の推定文字領域を抽出するために画像を走査する。図9の例の場合、垂直方向の走査が完了済であれば、画像の左上座標から右方に向かって水平方向に走査する。前景ピクセルが縦方向に広がって並んでいる領域R3が見つかるが、横の長さが所定の閾値以下である場合は、ノイズであると判断して文字認識の対象とはしない。水平方向の走査を続行し、領域R4の外接矩形の縦・横が所定の閾値以上であれば、1個以上の文字が含まれる領域と推定して、ステップS13以降の処理を実行する。
1枚の2値画像についての文字認識処理が終了したならば(ステップS17でYes),J枚の2値画像の全部についての処理が終了したかを判断する。まだ終了していなければ(ステップS18でNo),変数jをインクリメントし(ステップS19)、ステップS12に戻って、j番目の画像を走査して推定文字領域を抽出する。
全2値画像のそれぞれについて、前景ピクセルの文字認識が終了しているならば(ステップS18でYes),全部の2値画像についての文字認識結果を画面やプリンタに出力したり、他の処理システムへ出力したりする(ステップS20)。例えば、文脈を考慮したテキスト処理である。この後続処理は、他の情報処理装置で行ってもよく、文字認識装置1の内部で行っても良い。図15に、複数の2値画像のほぼ同じ位置にある連結成分群の認識結果を例示する。2値画像によって、CNNの判定結果は異なるが、これらの判定結果をどのように利用するかは後続の処理次第なのである。
以上、本発明の1実施形態について説明した。しかし、本発明はこの実施形態に限るものではなく、特許請求の範囲を逸脱しない限りで、種々の実施形態が考えられる。 例えば、2値画像は複数を前提としているが、1枚の2値画像に本発明を適用することも勿論可能である。また、1枚のカラー画像あるいはグレースケール画像から2値画像を生成するために、必ずしもk−means法を利用しなくてもよい。さらに、図8に示した処理フローは例示にすぎず、例えば、1枚の画像についての文字認識の都度、その判定結果を出力してもよいことは言うまでもない。
カラー画像に含まれる文字を高い精度で認識でき、テレビのテロップ、道路交通標識、看板等からテキストを抽出する際の基本となる技術として、幅広い利用が期待される。
1:文字認識装置
2:処理部
20:機械学習用データ取得部
21:機械学習部
22:CNN識別器
23: 2値画像取得部
24:推定文字領域走査部
25:連結成分抽出部
26:文字候補選定部
27:文字候補認識部
28:文字認識結果出力部
3:記憶部
4:通信インターフェース部

Claims (5)

  1. 画像に含まれる文字を認識する文字認識方法であって、対象となる画像から生成された複数の2値画像を取得するステップと、各2値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ(以下、「連結成分群」)が文字認識対象となる文字候補であるか否かを判定するステップと、前記文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、からなることを特徴とする文字認識方法。
  2. ニューラルネットワークの文字用の教師データには、書体の相違によらず同一の文字には同一のコードが付与されており、 ニューラルネットワークの非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることを特徴とする請求項1に記載の文字認識方法。
  3. K−means法によってN個(N>=3)のグループに分類し、分類されたN個のグループを2分し、一方に含まれるピクセルが白で、他方に含まれるピクセルが黒で表示された2−2個の2値画像を文字認識の対象とすることを特徴とする請求項1または2のいずれかに記載の文字認識方法。
  4. 各2値画像から得られた文字候補のニューラルネットワークによる判定結果を、文字候補毎にその外接矩形の位置と大きさとともに出力するステップを含むことを特徴とする請求項1〜3のいずれか1に記載の文字認識方法。
  5. 請求項1〜4のいずれかに記載の文字認識方法をコンピュータに実行させることを特徴とするコンピュータプログラム。
JP2017049764A 2017-03-15 2017-03-15 文字認識方法及びコンピュータプログラム Active JP6671613B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017049764A JP6671613B2 (ja) 2017-03-15 2017-03-15 文字認識方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017049764A JP6671613B2 (ja) 2017-03-15 2017-03-15 文字認識方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018152026A true JP2018152026A (ja) 2018-09-27
JP6671613B2 JP6671613B2 (ja) 2020-03-25

Family

ID=63679601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017049764A Active JP6671613B2 (ja) 2017-03-15 2017-03-15 文字認識方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6671613B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053723A (ja) * 2017-08-03 2019-04-04 ジルファルコン テクノロジー インコーポレイテッドGyrfalcon Technology Inc. Cnnベースの集積回路を使用する自然言語処理
JP2021103386A (ja) * 2019-12-24 2021-07-15 株式会社Mobility Technologies 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法
JP2022535549A (ja) * 2019-06-06 2022-08-09 北京字節跳動網絡技術有限公司 サブタイトルのクロスボーダーの処理方法、装置及び電子装置
CN117725943A (zh) * 2024-02-06 2024-03-19 浙江码尚科技股份有限公司 基于数图处理的点阵码识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155803A (ja) * 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置
JP2009199276A (ja) * 2008-02-20 2009-09-03 Fujitsu Ltd テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法
JP2013196136A (ja) * 2012-03-16 2013-09-30 Toshiba Corp 画像処理装置、及び画像処理方法
JP2015184691A (ja) * 2014-03-20 2015-10-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155803A (ja) * 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置
JP2009199276A (ja) * 2008-02-20 2009-09-03 Fujitsu Ltd テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法
JP2013196136A (ja) * 2012-03-16 2013-09-30 Toshiba Corp 画像処理装置、及び画像処理方法
JP2015184691A (ja) * 2014-03-20 2015-10-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053723A (ja) * 2017-08-03 2019-04-04 ジルファルコン テクノロジー インコーポレイテッドGyrfalcon Technology Inc. Cnnベースの集積回路を使用する自然言語処理
JP2022535549A (ja) * 2019-06-06 2022-08-09 北京字節跳動網絡技術有限公司 サブタイトルのクロスボーダーの処理方法、装置及び電子装置
JP7331146B2 (ja) 2019-06-06 2023-08-22 北京字節跳動網絡技術有限公司 サブタイトルのクロスボーダーの処理方法、装置及び電子装置
US11924520B2 (en) 2019-06-06 2024-03-05 Beijing Bytedance Network Technology Co., Ltd. Subtitle border-crossing processing method and apparatus, and electronic device
JP2021103386A (ja) * 2019-12-24 2021-07-15 株式会社Mobility Technologies 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法
JP7416614B2 (ja) 2019-12-24 2024-01-17 Go株式会社 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法
CN117725943A (zh) * 2024-02-06 2024-03-19 浙江码尚科技股份有限公司 基于数图处理的点阵码识别方法及系统
CN117725943B (zh) * 2024-02-06 2024-06-04 浙江码尚科技股份有限公司 基于数图处理的点阵码识别方法及系统

Also Published As

Publication number Publication date
JP6671613B2 (ja) 2020-03-25

Similar Documents

Publication Publication Date Title
JP5972468B2 (ja) 画像からのラベルの検出
JP4469873B2 (ja) 画像文書の検索装置、プログラム、及び記録媒体
JP4764231B2 (ja) 画像処理装置、制御方法、コンピュータプログラム
JP3748172B2 (ja) 画像処理装置
JP6998198B2 (ja) マルチバイナリゼーション画像処理
JP4366011B2 (ja) 文書処理装置及び方法
WO2019085971A1 (zh) 图像中定位文本的方法、装置、电子设备和存储介质
JP6671613B2 (ja) 文字認識方法及びコンピュータプログラム
JP2005523530A (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
US20180089525A1 (en) Method for line and word segmentation for handwritten text images
CN112507876A (zh) 一种基于语义分割的有线表格图片解析方法和装置
EP0949579A2 (en) Multiple size reductions for image segmentation
WO2018151043A1 (ja) 画像処理方法、及びコンピュータプログラム
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP2005317042A (ja) 画像処理装置
CN112070708B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
US7130085B2 (en) Half-tone dot elimination method and system thereof
JP4890351B2 (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
US8295602B2 (en) Image processing apparatus and image processing method
Callier et al. Automatic road area extraction from printed maps based on linear feature detection
JP7365835B2 (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
JP2019003534A (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
CN112712080A (zh) 一种用于走字屏采集图像的文字识别处理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190701

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191105

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200206

R150 Certificate of patent or registration of utility model

Ref document number: 6671613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250