JP2018152026A - 文字認識方法及びコンピュータプログラム - Google Patents
文字認識方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2018152026A JP2018152026A JP2017049764A JP2017049764A JP2018152026A JP 2018152026 A JP2018152026 A JP 2018152026A JP 2017049764 A JP2017049764 A JP 2017049764A JP 2017049764 A JP2017049764 A JP 2017049764A JP 2018152026 A JP2018152026 A JP 2018152026A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- character recognition
- connected component
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
同一の文字には同一のコードが付与されることにより、ニューラルネットワークの汎化能力が高まり、異なる人による手書き文字であっても認識可能となる。既存のフォントにはない若干デザイン化された文字にも対応可能である。
また、非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることにより、非文字用の教師データを迅速大量に生成できるので、2値画像に含まれるノイズの抽出が容易になる。
《1.文字認識装置の機能ブロック構成》
《2.文字認識装置による前処理(機械学習(CNN識別器22の生成))》
《3.文字認識装置による前処理(複数の2値画像の生成)》
《4.文字認識装置による本処理(原画像に含まれる各文字の認識)》
本実施形態を実行するコンピュータ(以下、「文字認識装置」という)の機能に着目した構成について、図1を参照しながら説明する。
文字認識装置1は、パソコンやスマートフォンなどのコンピュータと、そのコンピュータに実装されたコンピュータプログラム(請求項5に係るコンピュータプログラムに相当)によって実現されている。
文字認識装置1は、処理部2と記憶部3と通信インターフェース部4を備える。これらのほかに、オペレータが操作時に用いるマウスやキーボードなどの入力操作部、ディスプレイやプリンタなどの出力部やカメラなども適宜備えるが図示は省略する。
中間処理結果には、推定文字領域のピクセル群、連結成分、文字候補、2値画像ごとの文字認識結果などが含まれる。
記憶部3には、コンピュータを文字認識装置1として機能させるためのプログラムも含まれ、これらのプログラムがメモリ上に読み込まれ、読み込まれたプログラムコードを図示しないCPUが実行することによって処理部2の各部が動作することになる。
次に、処理部2について説明する。
機械学習については、後述する《2.文字認識装置による前処理(機械学習(CNN識別器22の生成))》において詳しく説明する。
2値画像の生成については、後述する《3.文字認識装置による前処理(複数の2値画像の生成)》において詳しく説明する。
これは、学習用データを外部から取得し或は内部で生成し、機械学習を行い、学習によって得たパラメータ類をCNN識別器22に保存する処理である。
文字データ、つまり文字コードに対応するサンプルはその文字を描画した画像を与えればよいが、できるだけバラエティに富んだ画像を用意することで認識精度を向上させるものとする。例えば同一文字コードが付与された文字を、多数のフォントを用いて描画する。
図2には、文字データの例を示す。算用数字「3」として、各種のフォントと手書き文字を同一の文字コードに対応づけて保存する。このように、書体の違いや活字か手書きかによらず同一の文字には同一のコードを設定する。これによりCNNの汎化能力が高まる。もし、書体等の違いによって異なるコードを設定するならば、未学習のデータに適合できないという所謂オーバーフィッティングの問題が生じやすくなる。
第1は実写画像に現われる自然物等が2値化の結果、文字認識の対象となってしまったもの、第2は複数の文字が並んだものがひとまとめに文字認識の対象として挙げられたものである。
なお、自然物に対応する非文字データとしてフラクタル図形を利用するのは、非文字つまりノイズにはフラクタル図形に似ているものが多いからである。
複雑な部首を組み合わせた漢字もこの学習データにマッチしてしまうおそれはある。しかし、仮にそのような文字があるとしても、その文字に対応した学習データの方により高い尤度でマッチするはずである。例えば、図4(2a)の非文字データは、図4(3a)の文字データと似ている。しかし、本実施形態のCNNには、非文字データと文字データの両方を学習させているので、文字「轟」であれば、図4(3a)の方の尤度が高くなると考えられる。
本実施形態では、カラー画像から文字を抽出することを想定している。原画像が2値化画像(モノクロとは限らない)であったり、モノクロのドキュメントであったりする場合は2値画像は1枚ですむが、カラー画像やグレースケール画像の場合は複数の2値画像が必要となる。 次に本実施形態における2値画像の生成手順を簡単に説明する。
図8の処理フローに従い、説明する。
先ずJ枚の2値画像を取得し(ステップS10),画像カウンタ変数j(j=1〜Jの整数)に初期値1をセットする(ステップS11)。
図9に示すように、まず、画像の左上頂点から下方に向かって垂直方向に走査する。前景ピクセルが横方向に広がって並んでいる領域R1が見つかる。しかし、前景ピクセル群の外接矩形の縦の長さが所定の閾値以下である場合は、ノイズであると判断して文字認識の対象とはせず、下方への走査を再開する。領域R2の外接矩形の縦・横が所定の閾値以上であれば、1個以上の文字が含まれる領域と推定し、ステップS13以降の処理対象となる。
このように、画像を走査する時点で、ある程度のノイズは除去できる。
ここで、用語「連結」および「連結成分」について、図10(a)を参照しながら説明する。因みに、本発明における「連結」および「連結成分」は、位相空間における連結性の概念を離散集合であるピクセルの集まりに適用できるよう変形したものである。
ここでは、ピクセル間の隣接関係が重要な概念となるが、これは上下左右のみを隣接点とする場合(4連結)と、斜めも隣接点として扱う場合(8連結)とが考えられる。これは任意に選択してよい。
図10(a)では、ピクセルp,q,r∈B に対してpとqは隣接し、qとrは隣接している。このように任意のピクセル同士が互いに隣接したピクセルを辿ることで到達できる場合、これを「連結である」と言い、これらのピクセルのみを元とするBの部分集合Cを「連結成分」と言う。同様にBの部分集合Dも「連結成分」である(図中、集合C,Dの元であるピクセルは1点鎖線の楕円で囲まれている)。集合Cと集合Dのような連結成分同士の共通部分は空集合である。
一つの文字は一個または複数の連結成分から構成される。図10(b)の「あ」という文字は1個の連結成分のみから構成され、図10(d)の「談」という文字は11個の連結成分から構成される。なお、1個の連結成分において、その真部分集合は連結成分ではない。例えば、図10(c)は図10(b)の一部のピクセルを取り出した集合なので、もはや連結成分とはいえず、本実施形態の処理対象外である。
推定文字領域から、前景ピクセルを隣接関係に従ってラベリングすることで容易に連結成分が抽出できる。しかし、画像の解像度の制約等により、複数の文字がピクセルを共有している状態がしばしば起こる。この問題を解決するために膨張・収縮処理を用いる。
図11の例では、図11(a)に示すように、隣り合う「た」と「け」の文字が破線を付した部分でつながっている(図11(b)は破線部分の拡大図)。そのため、図11(c)に示すように、画像に対して収縮処理を施す。これによって本来隣接しているべきでないピクセル同士が分離される。収縮した画像でラベリングを行ない、得られた連結成分P1、P2に対してその近辺の収縮処理によって削られたピクセルを追加し直し、これを連結成分NP1.NP2とする。
なお、この膨張・収縮処理によって画像のノイズに由来する細かなごみ、ひげが消去できるという副次的効果もある。
文字候補とは、1個の文字を構成すると推定される連結成分群のことであって、CNNによる判定対象とするだけの意味があるものをいう。
図12に例示する文字列左端の「た」の文字はPa、Pb、Pcの3つの連結成分からなる。もし、集合{Pa、Pb、Pc}のべき集合の空集合を除く7個の元についてCNNによる判定処理を行おうとするならば、処理速度の点で望ましくない。そのため、本実施形態では、次のように連結成分の外接矩形を利用する。
外接矩形rPb,rPcの右側に外接矩形rPdがあるが、X座標同士(x3とx4)の距離が離れているので、Rect1には外接矩形rPdを含めない。
続いて、外接矩形rPdの左上頂点のX座標x4から右に向かって水平に走査を再開する。出発点x4から右側に位置する外接矩形の右上頂点のX座標x5、x6、x7、x8の値を抽出する。外接矩形rPdの横幅が狭い(x5−x4)ので、右隣の外接矩形rPeも包含する矩形Rect2の内部にある連結成分群(Pd,Pe)を仮の文字候補とする。さらに右隣にある外接矩形rPfも包含した矩形Rect3の内部にある連結成分群(Pd,Pe、Pf)を仮の文字候補としてもよい。文字列の右端にある外接矩形rPg,rPhの右上のX座標x8は、スタート位置のX座標x4から離れすぎているので、これらを包含する矩形Rect4の内部にある連結成分群(Pd,Pe、Pf、Pg、Ph)は仮の文字候補とはしない。
しかし、文字候補として得られた中には、CNNによる文字識別を行なうまでもなく、簡単な判定のみで文字をなさないとわかるものが多数含まれている。そのため、CNNにかける前に、文字識別の対象とする文字候補を選別する(ステップS15)。このように、簡易な判定法で文字候補の数を絞り込むことは全体的な処理高速化のために有効である。
以下にそのような判定法を例示する。
(2)外接矩形のサイズの上限と下限を予め設けておいて、サイズ上限を超えるあるいは下限を下回る文字候補は除外する(図13(b)のc3、c4)。
(3)外接矩形の縦横比が極端なものを除外する。例えば、図13(c)のc6は縦・横比が1:2であり、隣接する文字候補c5と比べても1個の文字でない可能性が高い。ただし、文字のなかには極端な縦横比のもの(漢数字の「一」など)もあるので、それらに対する配慮との兼ね合いになる。例えば、処理速度よりも認識精度が重要視されるような用途では、縦横比による判定を省略してもよい。
(4)あまりにも多くの連結成分を含むものは文字候補から除外する(図13(d)のc7)。
(5)全体の外接矩形の面積に対して、含まれる各連結成分の外接矩形の面積の総和が小さすぎる場合は除外する(図13(e)のc8)。ここで、ピクセル数の比率で判定しないのは、「口」のような文字を除外しないようにするためである。
あらかじめ用意した文字データおよび非文字データで学習済みのCNNに、文字候補を入力する。CNNが入力されたデータを文字と判定すると、その文字コードと尤度を返し、文字でないと判定すると、"文字でない"という判定結果を非文字である尤度とともに返す。本実施形態では、CNNは文字データと非文字データの両者で学習しているので、文字か非文字(=ノイズ)かをその尤度をもって同時に判断できるのである。
これらの出力結果は、文字候補の外接矩形の(左上の)位置および縦横サイズとともに、記憶部3に格納し、後続の処理で参照する。ここで出力されるのは、高い尤度で文字と判定された連結成分群だけでもよい。
1個の連結成分群に対して、文字と非文字の矛盾する判断が返ってくることもあるが、最終的には全2値画像の認識結果を総合するので、妥当な判断が得られる。つまり、1枚の2値画像によっては文字か非文字か、あるいは文字の場合も文字コードが何かがはっきりと決定されなくてもかまわない。
1枚の2値画像についての文字認識処理が終了したならば(ステップS17でYes),J枚の2値画像の全部についての処理が終了したかを判断する。まだ終了していなければ(ステップS18でNo),変数jをインクリメントし(ステップS19)、ステップS12に戻って、j番目の画像を走査して推定文字領域を抽出する。
2:処理部
20:機械学習用データ取得部
21:機械学習部
22:CNN識別器
23: 2値画像取得部
24:推定文字領域走査部
25:連結成分抽出部
26:文字候補選定部
27:文字候補認識部
28:文字認識結果出力部
3:記憶部
4:通信インターフェース部
Claims (5)
- 画像に含まれる文字を認識する文字認識方法であって、対象となる画像から生成された複数の2値画像を取得するステップと、各2値画像から連結成分を抽出するステップと、近接した連結成分の組み合わせ(以下、「連結成分群」)が文字認識対象となる文字候補であるか否かを判定するステップと、前記文字候補と判定された連結成分群をニューラルネットワークにかけて、文字か非文字かを判定させ、その判定結果が文字であれば文字コードとその尤度を、非文字であれば文字でない尤度を取得するステップと、からなることを特徴とする文字認識方法。
- ニューラルネットワークの文字用の教師データには、書体の相違によらず同一の文字には同一のコードが付与されており、 ニューラルネットワークの非文字用の教師データには、フラクタル生成処理によって生成されたフラクタル図形と、複数の文字をランダムに組み合わせたデータとが含まれることを特徴とする請求項1に記載の文字認識方法。
- K−means法によってN個(N>=3)のグループに分類し、分類されたN個のグループを2分し、一方に含まれるピクセルが白で、他方に含まれるピクセルが黒で表示された2N−2個の2値画像を文字認識の対象とすることを特徴とする請求項1または2のいずれかに記載の文字認識方法。
- 各2値画像から得られた文字候補のニューラルネットワークによる判定結果を、文字候補毎にその外接矩形の位置と大きさとともに出力するステップを含むことを特徴とする請求項1〜3のいずれか1に記載の文字認識方法。
- 請求項1〜4のいずれかに記載の文字認識方法をコンピュータに実行させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017049764A JP6671613B2 (ja) | 2017-03-15 | 2017-03-15 | 文字認識方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017049764A JP6671613B2 (ja) | 2017-03-15 | 2017-03-15 | 文字認識方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018152026A true JP2018152026A (ja) | 2018-09-27 |
JP6671613B2 JP6671613B2 (ja) | 2020-03-25 |
Family
ID=63679601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017049764A Active JP6671613B2 (ja) | 2017-03-15 | 2017-03-15 | 文字認識方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6671613B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019053723A (ja) * | 2017-08-03 | 2019-04-04 | ジルファルコン テクノロジー インコーポレイテッドGyrfalcon Technology Inc. | Cnnベースの集積回路を使用する自然言語処理 |
JP2021103386A (ja) * | 2019-12-24 | 2021-07-15 | 株式会社Mobility Technologies | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
JP2022535549A (ja) * | 2019-06-06 | 2022-08-09 | 北京字節跳動網絡技術有限公司 | サブタイトルのクロスボーダーの処理方法、装置及び電子装置 |
CN117725943A (zh) * | 2024-02-06 | 2024-03-19 | 浙江码尚科技股份有限公司 | 基于数图处理的点阵码识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000155803A (ja) * | 1998-11-20 | 2000-06-06 | Nec Corp | 文字読取方法および光学式文字読取装置 |
JP2009199276A (ja) * | 2008-02-20 | 2009-09-03 | Fujitsu Ltd | テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法 |
JP2013196136A (ja) * | 2012-03-16 | 2013-09-30 | Toshiba Corp | 画像処理装置、及び画像処理方法 |
JP2015184691A (ja) * | 2014-03-20 | 2015-10-22 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
-
2017
- 2017-03-15 JP JP2017049764A patent/JP6671613B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000155803A (ja) * | 1998-11-20 | 2000-06-06 | Nec Corp | 文字読取方法および光学式文字読取装置 |
JP2009199276A (ja) * | 2008-02-20 | 2009-09-03 | Fujitsu Ltd | テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法 |
JP2013196136A (ja) * | 2012-03-16 | 2013-09-30 | Toshiba Corp | 画像処理装置、及び画像処理方法 |
JP2015184691A (ja) * | 2014-03-20 | 2015-10-22 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019053723A (ja) * | 2017-08-03 | 2019-04-04 | ジルファルコン テクノロジー インコーポレイテッドGyrfalcon Technology Inc. | Cnnベースの集積回路を使用する自然言語処理 |
JP2022535549A (ja) * | 2019-06-06 | 2022-08-09 | 北京字節跳動網絡技術有限公司 | サブタイトルのクロスボーダーの処理方法、装置及び電子装置 |
JP7331146B2 (ja) | 2019-06-06 | 2023-08-22 | 北京字節跳動網絡技術有限公司 | サブタイトルのクロスボーダーの処理方法、装置及び電子装置 |
US11924520B2 (en) | 2019-06-06 | 2024-03-05 | Beijing Bytedance Network Technology Co., Ltd. | Subtitle border-crossing processing method and apparatus, and electronic device |
JP2021103386A (ja) * | 2019-12-24 | 2021-07-15 | 株式会社Mobility Technologies | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
JP7416614B2 (ja) | 2019-12-24 | 2024-01-17 | Go株式会社 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
CN117725943A (zh) * | 2024-02-06 | 2024-03-19 | 浙江码尚科技股份有限公司 | 基于数图处理的点阵码识别方法及系统 |
CN117725943B (zh) * | 2024-02-06 | 2024-06-04 | 浙江码尚科技股份有限公司 | 基于数图处理的点阵码识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6671613B2 (ja) | 2020-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5972468B2 (ja) | 画像からのラベルの検出 | |
JP4469873B2 (ja) | 画像文書の検索装置、プログラム、及び記録媒体 | |
JP4764231B2 (ja) | 画像処理装置、制御方法、コンピュータプログラム | |
JP3748172B2 (ja) | 画像処理装置 | |
JP6998198B2 (ja) | マルチバイナリゼーション画像処理 | |
JP4366011B2 (ja) | 文書処理装置及び方法 | |
WO2019085971A1 (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
JP6671613B2 (ja) | 文字認識方法及びコンピュータプログラム | |
JP2005523530A (ja) | 取り込み画像データから文字列を識別して抜出するシステムおよび方法 | |
US20180089525A1 (en) | Method for line and word segmentation for handwritten text images | |
CN112507876A (zh) | 一种基于语义分割的有线表格图片解析方法和装置 | |
EP0949579A2 (en) | Multiple size reductions for image segmentation | |
WO2018151043A1 (ja) | 画像処理方法、及びコンピュータプログラム | |
JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
JP2005317042A (ja) | 画像処理装置 | |
CN112070708B (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
JP2010074342A (ja) | 画像処理装置、画像形成装置、及びプログラム | |
US7130085B2 (en) | Half-tone dot elimination method and system thereof | |
JP4890351B2 (ja) | 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法 | |
US8295602B2 (en) | Image processing apparatus and image processing method | |
Callier et al. | Automatic road area extraction from printed maps based on linear feature detection | |
JP7365835B2 (ja) | 構造認識システム、構造認識装置、構造認識方法、及びプログラム | |
JP2019003534A (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
JP3476595B2 (ja) | 画像領域分割方法、および画像2値化方法 | |
CN112712080A (zh) | 一种用于走字屏采集图像的文字识别处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190701 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191105 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6671613 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |