JP2015032088A - 文字認識装置および文字認識方法 - Google Patents

文字認識装置および文字認識方法 Download PDF

Info

Publication number
JP2015032088A
JP2015032088A JP2013160244A JP2013160244A JP2015032088A JP 2015032088 A JP2015032088 A JP 2015032088A JP 2013160244 A JP2013160244 A JP 2013160244A JP 2013160244 A JP2013160244 A JP 2013160244A JP 2015032088 A JP2015032088 A JP 2015032088A
Authority
JP
Japan
Prior art keywords
character
image
learning data
support vector
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013160244A
Other languages
English (en)
Other versions
JP6075238B2 (ja
Inventor
室崎 隆
Takashi Murozaki
隆 室崎
禎 川越
Tei Kawagoe
禎 川越
昭弘 大東
Akihiro Daito
昭弘 大東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2013160244A priority Critical patent/JP6075238B2/ja
Publication of JP2015032088A publication Critical patent/JP2015032088A/ja
Application granted granted Critical
Publication of JP6075238B2 publication Critical patent/JP6075238B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】文字の認識精度を向上する。【解決手段】文字が記された被検査物1を撮影した検査画像を取得する画像取得手段11と、検査画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する画像生成手段S216と、正規化画像の文字領域から求めた特徴量に基づいて、文字領域に写っている文字を識別するサポートベクターマシン129と、複数のモデル画像の文字部分相互間の相違領域A1を細分化した第1セルB1の輝度値を特徴量としてサポートベクターマシン129の学習データを生成する学習データ生成手段S120とを備える。【選択図】図12

Description

本発明は、文字認識装置および文字認識方法に関する。
従来、特許文献1には、実際に誤読の起こる可能性のあるモデル組に関する情報を記憶しておく文字認識方法が記載されている。
この従来技術では、整合処理によって得られた二つの候補モデルがMi1、Mi2であった場合(Mi1、Mi2のいずれが第1位、第2位であるかを問わない)、テーブル要素Aiが参照されることになる。
そして、認識処理対象の文字画像と各候補モデル(ここではMi1、Mi2)との相違度Di1、Di2を、対応した再評価係数ki1、ki2を乗じて再評価し、ki1×Di1≦ki2×Di2のときはモデルMi1の文字カテゴリを最終結果とし、ki1×Di1>ki2×Di2のときはモデルMi2の文字カテゴリを最終結果とする。
特開平8−194778号公報
しかしながら、上記従来技術によると、候補モデルとの相違度を係数と掛け合わせて再評価しているに過ぎず、実質的に文字認識をしていない。また、評価係数の求め方が不明であるし、そもそも誤認識しない評価係数を予め決定することは困難であると考えられる。
本発明は上記点に鑑みて、文字の認識精度を向上することを目的とする。
上記目的を達成するため、請求項1に記載の発明では、
文字が記された被検査物(1)を撮影した検査画像を取得する画像取得手段(11)と、
検査画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する画像生成手段(S216)と、
正規化画像の文字領域から求めた特徴量に基づいて、文字領域に写っている文字を識別するサポートベクターマシン(129)と、
複数のモデル画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量としてサポートベクターマシン(129)の学習データを生成する学習データ生成手段(S120)とを備えることを特徴とする。
これによると、複数文字相互間の相違を顕在化させることができるので、文字の誤認識を抑制して認識精度を向上させることができる。さらに、検査画像の文字の太さを正規化させることができるので、認識精度を一層向上させることができる。
上記目的を達成するため、請求項2に記載の発明では、
文字が記された被検査物(1)を撮影した検査画像を取得する画像取得手段(11)と、
検査画像の文字領域から求めた特徴量に基づいて、文字領域に写っている文字を識別するサポートベクターマシン(129)と、
複数のモデル画像の文字を細線化したのちに所定の太さに太線化することによって複数の正規化画像を生成する画像生成手段(S190)と、
複数のモデル画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量としてサポートベクターマシン(129)の学習データを生成する学習データ生成手段(S120)とを備えることを特徴とする。
これによると、請求項1に記載の発明と同様に、複数文字相互間の相違を顕在化させることができるので、文字の誤認識を抑制して認識精度を向上させることができる。さらに、複数のモデル画像の文字の太さを正規化させることができるので、認識精度を一層向上させることができる。
上記目的を達成するため、請求項9に記載の発明では、
複数のモデル画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量としてサポートベクターマシン(129)の学習データを生成するステップ(S120)と、
文字が記された被検査物(1)を撮影した検査画像を取得するステップ(S200)と、
検査画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する画像生成ステップ(S216)と、
サポートベクターマシン(129)を用いて、正規化画像の文字領域から求めた特徴量に基づいて文字領域に写っている文字を識別するステップ(S250)とを含むことを特徴とする。
これによると、請求項1に記載の発明と同様の作用効果を奏することができる。
上記目的を達成するため、請求項10に記載の発明では、
複数のモデル画像の文字を細線化したのちに所定の太さに太線化することによって複数の正規化画像を生成する画像生成ステップ(S190)と、
複数の正規化画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量としてサポートベクターマシン(129)の学習データを生成するステップ(S120)と、
文字が記された被検査物(1)を撮影した検査画像を取得するステップ(S200)と、
サポートベクターマシン(129)を用いて、検査画像の文字領域から求めた特徴量に基づいて文字領域に写っている文字を識別するステップ(S250)とを含むことを特徴とする。
これによると、請求項2に記載の発明と同様の作用効果を奏することができる。
なお、この欄および特許請求の範囲で記載した各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
第1実施形態における文字認識装置の全体構成図である。 第1実施形態における文字認識装置の処理部を示すブロック図である。 第1実施形態におけるサポートベクターマシンの概念図である。 第1実施形態におけるサポートベクターマシンの学習処理を示すフローチャートである。 第1実施形態におけるサポートベクターマシンの学習処理においてパターンマッチングを行った結果の例を示すグラフである。 第1実施形態におけるサポートベクターマシンの学習処理において作成された類似グループの例を示す図表である。 第1実施形態におけるサポートベクターマシンの学習データ生成処理を示すフローチャートである。 第1実施形態におけるサポートベクターマシンの学習データ生成処理において画像処理を行った結果の例を示す図である。 第1実施形態におけるサポートベクターマシンの学習データ生成処理において作成された学習テーブルの例を示す図表である。 第1実施形態における文字認識装置の文字認識処理を示すフローチャートである。 第1実施形態におけるサポートベクターマシンの正規化処理を示すフローチャートである。 第1実施形態におけるサポートベクターマシンの正規化処理における画像の例を示す図である。 第2実施形態における文字認識装置の文字認識処理を示すフローチャートである。 第2実施形態における文字認識処理のキャリブレーション処理を示すフローチャートである。
以下、実施形態について図に基づいて説明する。なお、以下の各実施形態相互において、互いに同一もしくは均等である部分には、図中、同一符号を付してある。
(第1実施形態)
図1に示す文字認識装置10は、車両のエンジンに燃料を供給する燃料ポンプの生産ラインに設置され、燃料ポンプの部品の表面に刻印された型番等の文字(本例では、アルファベット大文字)を認識する。燃料ポンプの部品の表面に対する文字の刻印は、例えばレーザー刻印装置を用いて行われる。
文字認識装置10は、先ずパターンマッチングにより文字認識を行って候補文字を選択し、候補文字に類似する類似文字がある場合、類似文字との相違領域等から抽出したセルの輝度値をサポートベクターマシンの入力特徴量として、候補文字である可能性を表すプロバビリティ(確信度)を求める。
文字認識装置10は、撮像部11と処理部12とを備えている。撮像部11は、被検査物であるワーク1を撮影して検査画像を取得する画像取得手段であり、取得した検査画像を処理部12へ送信する。撮像部11は、ワーク1を照明する照明光源を有してもよい。
処理部12は、ワーク1表面に刻印された文字を、撮像部11が取得した検査画像に基づいて認識するとともに種々の制御を行う。処理部12は、パーソナルコンピュータおよびその周辺機器で構成されている。
図2に示すように、処理部12は、制御手段121、通信手段122、記憶手段123、パターンマッチング手段124、XOR演算手段125、AND演算手段126、セル抽出手段127、平均輝度値算出手段128およびサポートベクターマシン129等を有している。
制御手段121は、パーソナルコンピュータの中央演算装置(CPU)と、その周辺回路などで構成され、CPUに読み込まれたプログラムにしたがって動作し、撮像部11および処理部12の各手段を制御する。
通信手段122は、撮像部11等の機器と処理部12との間で制御信号、画像データおよびデータ信号を送受信する通信インタフェースであり、I/Oポートおよびそのドライバで構成される。
処理部12は、通信手段122を通じて撮像部11から検査画像を受信する。制御手段121で生成された制御信号は、通信手段122を通じて撮像部11へ送信される。処理部12は、認識した文字の情報を、通信手段122を通じて外部の機器へ出力する。
記憶手段123は、ランダムアクセスメモリ(RAM)やリードオンリメモリ(ROM)といった半導体メモリ、磁気ディスク、光ディスクなどの記憶媒体、および記憶媒体へのアクセス装置などで構成されており、処理部12の制御を行うプログラムや種々のデータを記憶する。
記憶手段123が記憶するデータとしては、例えば、ワーク1に刻印される可能性のある各文字(以下、認識対象文字という)に対応するテンプレート画像、サポートベクターマシン129の学習データ、および撮像部11が撮影した検査画像などがある。
パターンマッチング手段124、XOR演算手段125、AND演算手段126、セル抽出手段127、平均輝度値算出手段128、サポートベクターマシン129および画像生成手段130は、例えばCPU上で実行されるプログラムにより実装される機能モジュールである。これらの手段124〜129は、CPUとは別個の画像処理用プロセッサを備える専用処理ボードとして実装されてもよい。
パターンマッチング手段124は、入力画像を記憶手段123から読み出したテンプレート画像と比較してパターンマッチングを行って、入力画像に含まれる文字を認識する。具体的には、パターンマッチング手段124は、入力画像と各テンプレート画像との一致度を表すスコアを求め、そのスコアが最大となるテンプレート画像を決定する。本例では、スコアを下記の数式1に示す正規化相関係数で求める。
但し、Rはスコア(一致度)であり、Iは入力画像の輝度値であり、Tはテンプレート画像の輝度値であり、wは画像の幅であり、hは画像の高さである。
入力画像に含まれる文字とテンプレート画像に含まれる文字とが完全に一致する場合、スコアR=1となり、入力画像に含まれる文字とテンプレート画像に含まれる文字とに全く相関が無い場合、スコアR=0となる。
XOR演算手段125は、2つの画像の排他的論理和(XOR)を求める。AND演算手段126は、2つの画像の論理積(AND)を求める。セル抽出手段127は、画像中の所定領域から所定の大きさのセルを抽出する。平均輝度値算出手段128は、セル抽出手段127が抽出した各セルの平均輝度値を算出する。
サポートベクターマシン129は、平均輝度値算出手段128が算出した各セルの平均輝度値を特徴量として、画像中に写っている文字を識別する。図3に、サポートベクターマシン129の概念図を示す。
サポートベクターマシン129は、所定の識別対象物が、複数のカテゴリの何れかに属する場合、その識別対象物から求めた特徴量に基づいて、その識別対象物を何れのカテゴリに属するかを判定する識別器である。
カテゴリ間の境界は、各カテゴリに属する学習データの特徴量のうち、隣接するカテゴリに属する学習データの特徴量との距離が最も近いものの組で表される。このカテゴリ間の境界を表す特徴量は、サポートベクトルと呼ばれる。
図3の例では、丸印で示された各点が、カテゴリC1に属する特徴量であり、このうち特徴量201〜203が、カテゴリC1のサポートベクトルである。また、菱形で示された各点が、カテゴリC2に属する特徴量であり、このうち特徴量204〜206が、カテゴリC2のサポートベクトルである。
サポートベクターマシン129では、識別精度を向上するために、カテゴリC1のサポートベクトルと、カテゴリC2のサポートベクトル間の距離(マージン)が最大化されるように、サポートベクトルが決定される。
サポートベクターマシン129では、カテゴリ間の境界が非線形な場合でも、カーネル関数を利用して、学習データの特徴量を高次元に写像した上でサポートベクトルを決定することにより、各カテゴリに属する特徴量を線形分離可能とすることで、良好な識別性能を得ることができる。
本実施形態では、互いに類似する複数の認識対象文字の相違領域等から抽出したセルの平均輝度値を学習データの特徴量としてサポートベクターマシン129を予め学習させている。
サポートベクターマシン129は、複数の画像の相違領域等から抽出したセルの平均輝度値を受け取ると、それを入力特徴量とすることにより、特定の認識対象文字である確信度を表すプロバビリティを求める。
処理部12は、パターンマッチング手段124またはサポートベクターマシン129による文字認識結果を、ディスプレイに表示してユーザに報知したり通信手段122を介して通信可能に接続された他の機器へ出力したりする。
次に、サポートベクターマシン129の学習方法を説明する。サポートベクターマシン129の学習は、処理部12が図4のフローチャートに示す処理を実行することによって行われる。
まずステップS100では、学習に用いる入力画像を生成する。具体的には、認識対象文字に対応するモデル画像(テンプレート画像)の大きさなどを自動調整する。本例では、モデル画像は予め記憶手段123に記憶されている。
続くステップS110では、類似文字のグルーピングを行う。具体的には、パターンマッチング手段124が、各テンプレート画像相互間で、上述の数式1に示す正規化相関係数を用いてパターンマッチングを行う。そして、パターンマッチングのスコアRが閾値(本例では0.7)を超えた文字を類似文字としてグルーピングする。
図5は、認識対象文字「C」についてパターンマッチングを行った結果の例を示している。この場合、認識対象文字「D」、「G」、「O」、「Q」のスコアが0.7を超えるため、認識対象文字「C」と、類似文字「C」、「D」、「G」、「O」、「Q」との組合せでグルーピングする。
本例では、2種類の文字の組合せでグルーピングして類似グループを作成する。具体的には、「C、D」、「C、G」、「C、O」および「C、Q」の4つの類似グループを作成する。
このようなグルーピングを「C」以外の認識対象文字についても行う。本例では、学習対象文字がアルファベット大文字であるので、例えば図6に示すような類似グループが作成される。作成された類似グループは、記憶手段123に書き込まれて登録される。
続くステップS120では、サポートベクターマシン129の学習に用いる学習データを生成する。したがって、ステップS120は学習データ生成手段を構成している。ステップS120の詳細を図7に示す。
まずステップS1210では、ステップS110で作成した類似グループの各認識対象文字に対応する各テンプレート画像(一組のモデル画像)を記憶手段123から読み出して入力する。
続くステップS1220では、ステップS1210で入力された各テンプレート画像について、文字部分の相違領域を抽出し、抽出した文字部分の相違領域を多数個のセルに細分化する。続くステップS1230では、ステップS1220で細分化した多数個のセルについて学習データを生成する。
図8(a)は、「C、D」の類似グループについてステップS1220、S1230を実行した例を示し、図8(b)は、「C、O」の類似グループについてステップS1220、S1230を実行した例を示している。
ステップS1220では、XOR演算手段125が類似グループの各認識対象文字に対応する各テンプレート画像の各文字部分に対して排他的論理和(XOR)を求めることによって文字部分の相違領域A1(図中の白色の領域)を抽出し、セル抽出手段127が相違領域A1から第1セルB1を抽出することによって相違領域A1を多数個の第1セルB1に細分化する。
図8(a)の例では、「C」、「D」のテンプレート画像の各文字部分に対して排他的論理和(XOR)を求めることによって文字部分の相違領域A1を抽出し、図8(b)の例では、「C」、「O」のテンプレート画像の各文字部分に対して排他的論理和(XOR)を求めることによって文字部分の相違領域A1を抽出した。
本例では、相違領域A1から四角形の第1セルB1を抽出している。相違領域A1から第1セルB1を抽出する方法としては、例えば、第1セルB1に対応した四角形のパターンで相違領域をサーチングすることによって、相違領域を多数個の第1セルB1に細分化することができる。
ステップS1230では、平均輝度値算出手段128が各第1セルB1の平均輝度値を算出し、その平均輝度値を学習データとする。本例では、各第1セルB1の画像(グレー画像)の平均輝度値を、黒を0、白を1として正規化して学習データとする。
続くステップS1240では、ステップS1210で入力された各テンプレート画像について、背景部分(文字以外の部分)の相違領域を抽出し、抽出した背景部分の相違領域を多数個のセルに細分化する。続くステップS1250では、ステップS1240で細分化した多数個のセルについて学習データを作成する。
図8(c)は、「C、D」の類似グループについてステップS1240、S1250を実行した例を示し、図8(d)は、「C、O」の類似グループについてステップS1240、S1250を実行した例を示している。
ステップS1240では、XOR演算手段125が類似グループの各認識対象文字に対応する各テンプレート画像の各背景部分に対して排他的論理和(XOR)を求めることによって背景部分の相違領域A2(図中の白色の領域)を抽出し、セル抽出手段127が相違領域A2から第2セルB2を抽出することによって相違領域A2を多数個の第2セルB2に細分化する。
図8(c)の例では、「C」、「D」のテンプレート画像の各背景部分に対して排他的論理和(XOR)を求めることによって背景部分の相違領域A2を抽出し、図8(d)の例では、「C」、「O」のテンプレート画像の各背景部分に対して排他的論理和(XOR)を求めることによって背景部分の相違領域A2を抽出した。
本例では、ステップS1220と同様に、相違領域A2から四角形の第2セルB2を抽出している。なお、図8(d)の例では、相違領域A2の大きさが小さいため、第2セルB2が1つも抽出されていない。
ステップS1250では、ステップS1230と同様に、平均輝度値算出手段128が各第2セルB2の平均輝度値を算出し、その平均輝度値を学習データとする。
続くステップS1260では、ステップS1210で入力された各テンプレート画像について、文字部分の共通領域を抽出し、抽出した文字部分の共通領域を多数個のセルに細分化する。続くステップS1270では、ステップS1260で細分化した多数個のセルについて学習データを作成する。
図8(e)は、「C、D」の類似グループについてステップS1260、S1270を実行した例を示し、図8(f)は、「C、O」の類似グループについてステップS1260、S1270を実行した例を示している。
ステップS1260では、AND演算手段126が類似グループの各認識対象文字に対応する各テンプレート画像の各文字部分に対して論理積(AND)を求めることによって文字部分の共通領域A3(図中の白色の領域)を抽出し、セル抽出手段127が共通領域A3から第3セルB3を抽出することによっ共通領域A3を多数個の第3セルB3に細分化する。
図8(e)の例では、「C」、「D」のテンプレート画像の各文字部分に対して論理積(AND)を求めることによって文字部分の共通領域A3を抽出し、図8(f)の例では、「C」、「O」のテンプレート画像の各文字部分に対して論理積(AND)を求めることによって文字部分の共通領域A3を抽出した。
本例では、ステップS1220、S1240と同様に、共通領域A3から四角形の第3セルB3を抽出している。
ステップS1270では、ステップS1230、S1250と同様に、平均輝度値算出手段128が各第3セルB3の平均輝度値を算出し、その平均輝度値を学習データとする。
続くステップS1280では、ステップS1230、S1250、S1270で作成した学習データ、すなわち各第1、第2、第3セルB1、B2、B3の平均輝度値データを併合してSVM学習テーブルを作成する。図9は、「C、O」の類似グループについて作成した学習テーブルの例を示している。
ステップS1280では、第1、第2、第3セルB1、B2、B3の個数を調整して重み付けを行う。具体的には、文字部分および背景部分の相違領域A1、A2の第1、第2セルB1、B2の合計個数が、文字部分の共通領域の第3セルB3の個数よりも多くなるように、第1、第2、第3セルB1、B2、B3を適宜間引きする。
より具体的には、学習テーブル上のセルの全個数(図9の例では100個)に対して、文字部分および背景部分の相違領域A1、A2の第1、第2セルB1、B2の合計個数を70%以上、文字部分の共通領域の第3セルB3の個数を30%未満とするのが好ましい。
このとき、間引き後の各第1、第2、第3セルB1、B2、B3が各領域A1、A2、A3において極力均等に位置するように第1、第2、第3セルB1、B2、B3を間引きするのが好ましい。このような第1、第2、第3セルB1、B2、B3の間引きについての理解を容易にするために、図8(e)、(f)では、間引きされて少なくなった第3セルB3が文字部分の共通領域A3に略均等に位置している様子を模式的に示している。
本例では、サポートベクターマシン129の学習対象としてのモデル画像として、認識対象文字に対応するテンプレート画像と同じ画像の他、文字の周囲に汚れがあったり文字の一部が欠けていたりする不鮮明な画像も複数個含め、これらの不鮮明なモデル画像から抽出した学習データもデフォルト設定に含めている。図9では、不鮮明なモデル画像から抽出した学習データを太枠で囲んで示している。このような不鮮明なモデル画像から抽出した学習データも利用することにより、サポートベクターマシン129のロバスト性を向上することができる。
なお、図9では図示を省略しているが、本例では、学習テーブルに各セルB1、B2、B3の位置情報(重心に対する相対位置)も含めている。
ステップS1290では、ステップS1280で併合した学習データ(学習テーブル)を記憶手段123に出力して書き込む。
ステップS130では、SVM学習(サポートベクターマシン学習)を行う。具体的には、ステップS120で作成した学習データ(学習テーブル)をサポートベクターマシン129に入れ込む。以上により、サポートベクターマシン129の学習処理を終了する。
次に、文字認識装置10を用いた文字認識方法を説明する。文字認識装置10を用いた文字認識は、サポートベクターマシン129の学習処理を終了した後に処理部12が図10のフローチャートに示す処理を実行することによって行われる。
まずステップS200では、撮像部11によって撮影された検査画像を入力する。続くステップS210では、ステップS200で入力された検査画像から文字が写っている領域の画像(以下、文字領域画像という。)を切り出す。
続くステップS213では、ステップS210で切り出された文字領域画像を2値化する。
続くステップS216では、ステップS213で2値化した画像を正規化して正規化画像を生成する。したがって、ステップS216は、正規化画像を生成する画像生成ステップであり、正規化画像を生成する画像生成手段を構成している。
ステップS216の詳細を図11に示す。ステップS2161では、ステップS100で生成した入力画像から文字領域を抽出する。具体的には、ステップS2161aでは、ステップS100で生成した入力画像から特徴点を抽出する。S2161aで特徴点を抽出した例を図12(a)に示す。
ステップS2161bでは、ステップS2161aで抽出した特徴点の密度を計算する。ステップS2161cでは、ステップS2161bでの計算結果に基づいて文字領域を抽出する。S2161cで文字領域を抽出した例を図12(b)に示す。
ステップS2162では、ステップS2161で抽出した文字領域から各文字を抽出しするとともに各文字の重心の座標を求める。ステップS2162で各文字を抽出した例を図12(c)に示す。各文字の抽出は、例えばブロブ解析によって行うことができる。
ステップS2163では、ステップS2162で抽出した各文字の傾きを補正する。ステップS2163で文字の傾きを補正した例を図12(d)に示す。例えば、ステップS2162で求めた各文字の重心の座標に基づいて近似直線を求め、その近似曲線の傾きを各文字の傾きとみなして各文字の傾きを補正する。
ステップS2164では、S2163で傾きを補正した文字の大きさを補正して所定の大きさにする。ステップS2164で文字の大きさを補正した例を図12(e)に示す。
ステップS2165ではスケルトンモデルを作成する。具体的には、ステップS2165aでは、ステップS2164で大きさを補正した文字を細線化する。ステップS2165aで文字をスケルトン化した例を図12(f)に示す。
ステップS2165bでは、ステップS2165aで文字を細線化した画像からノイズを除去する。ステップS2165bでノイズを除去した例を図12(g)に示す。ステップS2165cでは、ステップS2165bでノイズを除去した画像に対して、文字の線を所定の太さに太らせる。ステップS2165cで太線化した例を図12(h)に示す。
ステップS2165cで文字を太線化する理由は、ステップS240で実行するSVM判別において、顕在化させる相違領域を確保するためである。
続くステップS220では、ステップS216で正規化された正規化画像と、各認識対象文字に対応するテンプレート画像との間でパターンマッチングを行う。具体的には、パターンマッチング手段124が、ステップS216で正規化された正規化画像と、各認識対象文字に対応するテンプレート画像との間で、上述の数式1に示す正規化相関係数を用いてパターンマッチングを行う。
続くステップS230では、ステップS220のパターンマッチングで最も高いスコアが得られた文字(以下、最高スコア文字)について、記憶手段123に登録されている類似グループを探索する。
ステップS240では、ステップS230での探索結果に基づいて、類似グループの登録があるか否かを判定する。類似グループの登録があると判定した場合、ステップS250へ進みSVM判別(サポートベクターマシン判別)を行う。
具体的には、ステップS216で正規化された正規化画像、およびステップS230で探索された類似グループに属する類似文字のテンプレート画像の両画像に基づいて上述のステップS1220〜S1270と同様の処理を行って、両画像の文字部分の相違領域、背景部分の相違領域および文字部分の共通領域を抽出し、抽出した各領域から多数個のセルを抽出して各セルの平均輝度値を求める。そして、各セルの平均輝度値をサポートベクターマシンの入力特徴量とすることにより、ステップS220のパターンマッチングにおける最高スコア文字についてプロバビリティを求める。
一方、ステップS240にて類似グループの登録がないと判定した場合、ステップS260へ進み、ステップS220のパターンマッチングにおける最高スコア文字を第1位候補文字として選択する。
ステップS250、S260に続くステップS270では、ステップS260で選択した第1位候補文字におけるパターンマッチングのスコア、またはステップS240のSVM判別で求められたプロバビリティが閾値以上であるか否かを判定する。
閾値以上であると判定した場合、ステップS280へ進み、ステップS220のパターンマッチングにおける最高スコア文字(第1位候補文字)を認識文字としてディスプレイ等の出力対象機器に出力する。
一方、閾値未満であると判定した場合、ステップS290へ進み、文字の識別が不能であったこと(認識NG)をディスプレイ等の出力対象機器に出力する。
なお、ステップS270で用いる閾値は、文字認識装置10に要求される認識精度に応じて適宜設定される。本例では、閾値が0.7に設定されている。
本実施形態によると、ステップS1220、S1230等で述べたように、複数のモデル画像の文字部分相互間の相違領域A1を細分化した第1セルB1の輝度値を特徴量としてサポートベクターマシン129の学習データを生成する。
このため、相違領域A1の面積を特徴量とした場合と比較して複数文字相互間の相違を顕在化させることができる。このため、文字の誤認識を抑制して認識精度を向上させることができる。
さらに、ステップS216で述べたように、検査画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する。このため、検査画像の文字の太さを正規化させることができるので、認識精度を一層向上させることができる。
本実施形態によると、ステップS216で述べたように、検査画像の文字の傾きおよび大きさを補正する。このため、認識精度を一層向上させることができる。
本実施形態によると、ステップS1240、S1250等で述べたように、モデル画像の背景部分相互間の相違領域A2を細分化した第2セルB2の輝度値も特徴量として学習データを生成する。このため、複数文字相互間の相違をさらに顕在化させることができ、ひいては文字の誤認識をさらに抑制することができる。
本実施形態によると、ステップS1260、S1270等で述べたように、文字部分相互間の共通領域A3を細分化した第3セルB3の輝度値も特徴量としてサポートベクターマシン129の学習データを生成する。このため、相違領域A1、A2を細分化したセルB1、B2の輝度値のみを特徴量としてサポートベクターマシン129の学習データを生成する場合と比較して文字認識精度を向上させることができる。
本実施形態によると、ステップS1280で述べたように、学習データに利用する第1セルB1および第2セルB2の合計個数を、学習データに利用する第3セルB3の個数よりも多くする。このため、サポートベクターマシン129による検出マージンを拡大することができ、ひいては文字認識精度をさらに向上させることができる。
本実施形態によると、ステップS240で述べたように、サポートベクターマシン129は、パターンマッチングによるスコア(一致度)が最も高くなった認識対象文字についてプロバビリティ(確信度)を求める。すなわち、パターンマッチングによる認識結果をサポートベクターマシン129で再評価する。このため、文字認識精度をさらに向上させることができる。
(第2実施形態)
上記第1実施形態では、検査画像を正規化してパターンマッチングのテンプレート画像に整合させるが、本実施形態では、上記第1実施形態とは逆に、パターンマッチングのテンプレート画像を正規化して検査画像に整合させる。
本実施形態では、処理部12が図13のフローチャートに示す処理を実行することによって、サポートベクターマシン129の学習処理および文字認識が行われる。
まずステップS180では、キャリブレーションを行う必要があるか否かを判定する。例えば、レーザー刻印装置のメンテナンスが行われて刻印文字の大きさ、太さ、位置等が変化した場合や、過剰判定が発生した場合等に、キャリブレーションを行う必要があると判定する。
ステップS180でキャリブレーションを行う必要がないと判定した場合、ステップS200へ進む。ステップS200〜S290は、上記第1実施形態におけるステップS200〜S290と同様である。
ステップS180でキャリブレーションを行う必要があると判定した場合、ステップS190へ進んでキャリブレーションを行う。ステップS190は、複数のモデル画像の文字を細線化したのちに所定の太さに太線化することによって複数の正規化画像を生成する画像生成ステップであり、複数の正規化画像を生成する画像生成手段を構成している。
ステップS190の詳細を図14に示す。ステップS1901では、キャリブレーションに用いる画像を入力させる。具体的には、撮像部11で撮像されたワーク1の画像を入力させる。そして、入力された画像に対して、認識領域と認識文字とを対話式に指定する。さらに、入力された画像中の文字の傾き、大きさ、および線の太さを計測する。
ステップS1902では、ステップS1901で指定された認識文字に対応するマッチングモデル(モデル画像)を入力させる。
ステップS1903では、ステップS1902で入力されたマッチングモデルを正規化する。具体的には、ステップS1903aでは、ステップS1902で入力されたマッチングモデルの傾きを、ステップS1901で入力された画像中の文字の傾きに合わせて補正する。
ステップS1903bでは、ステップS1903aで傾きを補正した文字の大きさを、ステップS1901で入力された画像中の文字の大きさに合わせて補正して所定の大きさにする。
ステップS1903c〜S1903eではスケルトンモデルを作成する。具体的には、ステップS1903cでは、ステップS1903bで大きさを補正した文字を細線化する。ステップS1903dでは、ステップS1903cで文字を細線化した画像からノイズを除去する。ステップS1903eでは、ステップS1903dでノイズを除去した画像に対して、文字の線を、ステップS1901で入力された画像中の文字の太さに合わせて太らせる。
ステップS1904では、類似文字のグルーピングを行う。ステップS1904の詳細は、上記第1実施形態のステップS110と同様である。
ステップS1905では、サポートベクターマシン129の学習に用いる学習データを生成する。ステップS1905の詳細は、上記第1実施形態のステップS120と同様である。
ステップS1906では、SVM学習を行う。ステップS1906の詳細は、上記第1実施形態のステップS130と同様である。
ステップS1907では、全てのマッチングモデル(モデル画像)に対してSVM学習を行ったか否かを判定し、全てのマッチングモデルに対してSVM学習を行っていないと判定した場合、ステップS1902へ戻り、全てのマッチングモデルに対してSVM学習を行ったと判定した場合、キャリブレーションを終了してステップS200へ進む。
本実施形態によると、マッチングモデル(モデル像)を入力画像の文字に合わせてキャリブレーションを行うので、検査画像が入力される度に検査画像を正規化する必要がない。マッチングモデルのキャリブレーションは、予め行っておくことができる。マッチングモデルのキャリブレーションは、常時行う必要はなく、メンテナンス等が行われたときに行えばよい。そのため、入力画像の認識処理に要する時間を短縮できる。
本実施形態によると、上記第1実施形態と同様に、複数のモデル画像の文字部分相互間の相違領域A1を細分化した第1セルB1の輝度値を特徴量としてサポートベクターマシン129の学習データを生成するので、複数文字相互間の相違を顕在化させることができ、ひいては文字の誤認識を抑制して認識精度を向上させることができる。
さらに、ステップS190で述べたように、複数のモデル画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する。このため、複数のモデル画像の文字の太さを正規化させることができるので、認識精度を一層向上させることができる。
(他の実施形態)
上記実施形態を適宜組み合わせ可能である。上記実施形態を例えば以下のように種々変形可能である。
(1)上記実施形態では、第1、第2、第3セルB1、B2、B3の平均輝度値を特徴量としてサポートベクターマシン129の学習データを生成したが、第1、第2、第3セルB1、B2、B3の最大輝度値等を特徴量としてサポートベクターマシン129の学習データを生成してもよい。
(2)上記実施形態では、2種類の文字の組合せで類似グループを作成し、2種類の文字に対してSVM判別を行ったが、3種類以上の文字の組合せで類似グループを作成し、3種類以上の文字に対してSVM判別を行ってもよい。
(3)上記実施形態において、サポートベクターマシン129の学習データ上のセルの全個数や、第1、第2、第3セルB1、B2、B3の個数の比率等を適宜変更してもよい。
(4)上記実施形態では、ステップS100において、学習に用いる入力画像として、予め記憶手段123に記憶されたモデル画像を用いるが、ステップS100において、撮像部11によって撮影された画像を正規化し、正規化された画像を学習に用いる入力画像として使用してもよい。
1 ワーク(被検査物)
11 撮像部(画像取得手段)
124 パターンマッチング手段
129 サポートベクターマシン
A1 文字部分の相違領域
B1 第1セル
A2 背景部分の相違領域
B2 第2セル
A3 文字部分の共通領域
B3 第3セル
S216 画像生成手段
S120 学習データ生成手段

Claims (10)

  1. 文字が記された被検査物(1)を撮影した検査画像を取得する画像取得手段(11)と、
    前記検査画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する画像生成手段(S216)と、
    前記正規化画像の文字領域から求めた特徴量に基づいて、前記文字領域に写っている文字を識別するサポートベクターマシン(129)と、
    複数のモデル画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量として前記サポートベクターマシン(129)の学習データを生成する学習データ生成手段(S120)とを備えることを特徴とする文字認識装置。
  2. 文字が記された被検査物(1)を撮影した検査画像を取得する画像取得手段(11)と、
    前記検査画像の文字領域から求めた特徴量に基づいて、前記文字領域に写っている文字を識別するサポートベクターマシン(129)と、
    複数のモデル画像の文字を細線化したのちに所定の太さに太線化することによって複数の正規化画像を生成する画像生成手段(S190)と、
    前記複数のモデル画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量として前記サポートベクターマシン(129)の学習データを生成する学習データ生成手段(S120)とを備えることを特徴とする文字認識装置。
  3. 前記画像生成手段(S216、S190)は、前記文字の傾きおよび大きさを補正することを特徴とする請求項1または2に記載の文字認識装置。
  4. 前記学習データ生成手段(S120)は、前記モデル画像の背景部分相互間の相違領域(A2)を細分化した第2セル(B2)の輝度値も特徴量として前記学習データを生成することを特徴とする請求項1ないし3のいずれか1つに記載の文字認識装置。
  5. 前記学習データ生成手段(S120)は、前記文字部分相互間の共通領域(A3)を細分化した第3セル(B3)の輝度値も特徴量として前記サポートベクターマシン(129)の学習データを生成することを特徴とする請求項4に記載の文字認識装置。
  6. 前記学習データ生成手段(S120)は、前記学習データに利用する前記第1セル(B1)および前記第2セル(B2)の合計個数を、前記学習データに利用する前記第3セル(B3)の個数よりも多くすることを特徴とする請求項5に記載の文字認識装置。
  7. 前記複数のモデル画像は、相互のパターンマッチングによって求められた一致度が閾値を超えた一組の画像であることを特徴とする請求項1ないし6のいずれか1つに記載の文字認識装置。
  8. 前記文字領域を認識対象文字に対応するテンプレート画像と比較してパターンマッチングを行い前記認識対象文字との一致度を求めるパターンマッチング手段(124)を備え、
    前記サポートベクターマシン(129)は、前記一致度が最も高くなった前記認識対象文字に対する確信度を求めることを特徴とする請求項1ないし7のいずれか1つに記載の文字認識装置。
  9. 複数のモデル画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量としてサポートベクターマシン(129)の学習データを生成するステップ(S120)と、
    文字が記された被検査物(1)を撮影した検査画像を取得するステップ(S200)と、
    前記検査画像の文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成する画像生成ステップ(S216)と、
    前記サポートベクターマシン(129)を用いて、前記正規化画像の文字領域から求めた特徴量に基づいて前記文字領域に写っている文字を識別するステップ(S250)とを含むことを特徴とする文字認識方法。
  10. 複数のモデル画像の文字を細線化したのちに所定の太さに太線化することによって複数の正規化画像を生成する画像生成ステップ(S190)と、
    前記複数の正規化画像の文字部分相互間の相違領域(A1)を細分化した第1セル(B1)の輝度値を特徴量としてサポートベクターマシン(129)の学習データを生成するステップ(S120)と、
    文字が記された被検査物(1)を撮影した検査画像を取得するステップ(S200)と、
    前記サポートベクターマシン(129)を用いて、前記検査画像の文字領域から求めた特徴量に基づいて前記文字領域に写っている文字を識別するステップ(S250)とを含むことを特徴とする文字認識方法。
JP2013160244A 2013-08-01 2013-08-01 文字認識装置および文字認識方法 Active JP6075238B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013160244A JP6075238B2 (ja) 2013-08-01 2013-08-01 文字認識装置および文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013160244A JP6075238B2 (ja) 2013-08-01 2013-08-01 文字認識装置および文字認識方法

Publications (2)

Publication Number Publication Date
JP2015032088A true JP2015032088A (ja) 2015-02-16
JP6075238B2 JP6075238B2 (ja) 2017-02-08

Family

ID=52517364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013160244A Active JP6075238B2 (ja) 2013-08-01 2013-08-01 文字認識装置および文字認識方法

Country Status (1)

Country Link
JP (1) JP6075238B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084299A (ja) * 2015-10-30 2017-05-18 株式会社シーイーシー 画像処理装置および画像処理方法
CN107016417A (zh) * 2017-03-28 2017-08-04 青岛伟东云教育集团有限公司 一种字符识别的方法及装置
WO2019077656A1 (ja) * 2017-10-16 2019-04-25 富士通株式会社 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63237185A (ja) * 1987-03-25 1988-10-03 Daihatsu Motor Co Ltd 文字認識装置
JPH02202687A (ja) * 1989-02-01 1990-08-10 Fuji Electric Co Ltd 類似文字判別方法
JPH11238135A (ja) * 1998-02-23 1999-08-31 Sony Corp イメージ認識方法およびイメージ認識装置
JP2007179413A (ja) * 2005-12-28 2007-07-12 Toshiba Corp パターン認識装置、パターン認識方法、および特徴抽出パラメータの生成方法
JP2009175800A (ja) * 2008-01-21 2009-08-06 Denso Corp 文字認識装置、そのような装置を備えた燃料ポンプモジュールの組み付け装置及び文字認識方法
JP2010026805A (ja) * 2008-07-18 2010-02-04 Denso Corp 文字認識装置及び文字認識方法
JP2013228781A (ja) * 2012-04-24 2013-11-07 Denso Corp 文字認識装置および文字認識方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63237185A (ja) * 1987-03-25 1988-10-03 Daihatsu Motor Co Ltd 文字認識装置
JPH02202687A (ja) * 1989-02-01 1990-08-10 Fuji Electric Co Ltd 類似文字判別方法
JPH11238135A (ja) * 1998-02-23 1999-08-31 Sony Corp イメージ認識方法およびイメージ認識装置
JP2007179413A (ja) * 2005-12-28 2007-07-12 Toshiba Corp パターン認識装置、パターン認識方法、および特徴抽出パラメータの生成方法
JP2009175800A (ja) * 2008-01-21 2009-08-06 Denso Corp 文字認識装置、そのような装置を備えた燃料ポンプモジュールの組み付け装置及び文字認識方法
JP2010026805A (ja) * 2008-07-18 2010-02-04 Denso Corp 文字認識装置及び文字認識方法
JP2013228781A (ja) * 2012-04-24 2013-11-07 Denso Corp 文字認識装置および文字認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084299A (ja) * 2015-10-30 2017-05-18 株式会社シーイーシー 画像処理装置および画像処理方法
CN107016417A (zh) * 2017-03-28 2017-08-04 青岛伟东云教育集团有限公司 一种字符识别的方法及装置
WO2019077656A1 (ja) * 2017-10-16 2019-04-25 富士通株式会社 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム
JPWO2019077656A1 (ja) * 2017-10-16 2020-07-30 富士通株式会社 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム
US11650579B2 (en) 2017-10-16 2023-05-16 Fujitsu Limited Information processing device, production facility monitoring method, and computer-readable recording medium recording production facility monitoring program

Also Published As

Publication number Publication date
JP6075238B2 (ja) 2017-02-08

Similar Documents

Publication Publication Date Title
US20160196467A1 (en) Three-Dimensional Face Recognition Device Based on Three Dimensional Point Cloud and Three-Dimensional Face Recognition Method Based on Three-Dimensional Point Cloud
CN110503054B (zh) 文本图像的处理方法及装置
CN106874901B (zh) 一种行驶证识别方法及装置
WO2014123619A1 (en) System and method for identifying similarities in different images
CN110688941A (zh) 人脸图像的识别方法及其装置
WO2019232870A1 (zh) 手写字训练样本获取方法、装置、计算机设备及存储介质
JP6075238B2 (ja) 文字認識装置および文字認識方法
JP2019536164A (ja) 画像処理装置、画像処理方法および画像処理プログラム
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
CN107240185A (zh) 一种冠字号识别方法、装置、设备及存储介质
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及系统
CN117495891B (zh) 点云边缘检测方法、装置和电子设备
KR20110103223A (ko) 얼굴 인식을 위한 sift 알고리즘을 이용한 키포인트 매칭 시스템 및 방법
CN106709490B (zh) 一种字符识别方法和装置
CN106485202A (zh) 非约束人脸识别系统及方法
JP5729348B2 (ja) 文字認識装置および文字認識方法
KR101849933B1 (ko) 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치
CN106326927A (zh) 一种鞋印新类别检测方法
CN113537216B (zh) 一种点阵字体文本行倾斜校正方法及装置
CN113421257B (zh) 一种点阵字体文本行旋转校正方法及装置
JP2008027130A (ja) オブジェクト認識装置およびオブジェクト認識方法ならびにオブジェクト認識用プログラム
TWI689723B (zh) 提取物件表面凹印的方法
JP2001014465A (ja) 物体認識方法及び物体認識装置
CN109961063B (zh) 文本检测方法及装置、计算机设备和存储介质
RU2595181C2 (ru) Способ выбора изображений для идентификации оружия по следу бойка

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161226

R151 Written notification of patent or utility model registration

Ref document number: 6075238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250