JP7338159B2

JP7338159B2 - 情報処理装置及びプログラム

Info

Publication number: JP7338159B2
Application number: JP2019010053A
Authority: JP
Inventors: ベイリ任; 俊一木村
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2023-09-05
Anticipated expiration: 2039-01-24
Also published as: US20200242389A1; US11361529B2; JP2020119291A

Description

本発明は、情報処理装置及びプログラムに関する。

文字認識において、対象の画像から文字ではないノイズを除去することで、認識精度を上げることが行われている。

特許文献１に記載された方法では、まず帳票原稿からの読取り後切り出された文字の画像データを、縦横とも２分の１に画像圧縮して圧縮データを得る。次に、この圧縮データから、最大画素ブロックを抽出することにより、他の成分を排除し、抽出データを得る。そして、この最大画素ブロックを再びもとの画素サイズに拡大したのち、元の画像データとのアンドを取る。これにより、比較的大きなノイズであっても文字成分と認識せず除去可能となる。また、画像圧縮により処理画素数が減り、処理速度が向上する。さらに、最後に元の画像データとの論理積を取ることで、元の文字かすれ部分等がそのまま復元され、端点の形状維持が可能となる。

特許文献２に記載された方法では、入力画像から孤立点ノイズを探索する範囲を決定し、決定した範囲を対象に外接矩形を抽出し、抽出した外接矩形より、孤立点ノイズの候補矩形を抽出し、さらに前記抽出した外接矩形から文字矩形候補を抽出し、抽出した孤立点ノイズ候補矩形とその周辺の矩形との関係から孤立点ノイズを判定し、同様に抽出した文字矩形候補とその周辺の矩形との関係から孤立点ノイズを判定し、判定した孤立点ノイズを除去する。

特開平５－６４６１号公報特開２００６－７２８３９号公報

入力画像中の文字候補部分のサイズと、その文字候補部分の近隣の文字候補部分からの距離と、に基づいてその文字候補部分が文字かノイズかを判定する方式では、例えばサイズが大きい非文字をノイズではなく文字と判定してしまったり、近隣の文字から離れた位置にある文字をノイズと判定してしまったりするなどの誤りが生じるおそれがある。

本発明は、サイズと距離とに基づいて文字かノイズかを判定する方式よりも、文字かノイズかの判定の誤りを低減するための技術を提供するものである。

請求項１に係る発明は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を３つの座標軸とする３次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段と、を含む情報処理装置である。

請求項２に係る発明は、複数のサンプル画像と、それらサンプル画像の各々に含まれる画像要素がそれぞれ文字又はノイズのいずれに該当するか示す正解データと、の入力を受け付ける手段と、前記複数のサンプル画像の各々を、前記文字認識手段又は同じ画像が入力された場合に前記文字認識手段と同じデータを出力する認識装置に入力し、この入力に応じて前記文字認識手段又は前記認識装置により認識された各文字についての前記距離と前記サイズと前記確度との組合せが示す座標点を前記３次元空間内にプロットし、プロットした各文字についての座標点と、前記正解データが示す、それら各文字に対応する画像要素が文字又はノイズのいずれに該当するかを示す情報とから、前記３次元空間の中での前記範囲を求めることで、前記範囲情報を生成する手段と、を含む請求項１に記載の情報処理装置である。

請求項３に係る発明は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、を含み、前記判定手段は、前記距離と前記サイズと前記確度とを入力とし、前記文字認識手段の文字認識結果が文字又はノイズのいずれに該当するかを示す情報を出力するニューラルネットワーク、を用いて前記判定を行う、情報処理装置である。

請求項４に係る発明は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、を含み、前記判定手段は、前記文字がノイズではない真の文字であるために、前記距離が満たすべき値の範囲、前記サイズが満たすべき値の範囲、及び前記確度が満たすべき値の範囲の情報を用いることにより、前記距離、前記サイズ及び前記確度の３つの要素のうちの少なくとも１つの要素の値が当該要素に対応する前記範囲内にない場合に、前記文字がノイズに該当すると判定し、前記３つの要素の値が全て当該要素に対応する前記範囲内にある場合に前記文字がノイズに該当しないと判定する、ことを特徴とする情報処理装置である。

参考例の構成は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行う判定手段と、を含み、前記判定手段は、前記文字についての前記距離、前記サイズ、及び前記確度のそれぞれの値に基づきスコアを計算し、計算したスコアが所定の範囲に含まれる場合、前記文字がノイズに該当すると判定する、ことを特徴とする情報処理装置である。

請求項５に係る発明は、コンピュータを、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段、文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を３つの座標軸とする３次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段、として機能させるためのプログラムである。

請求項１、３、４又は５に係る発明によれば、サイズと距離とに基づいて文字かノイズかを判定する方式よりも、文字かノイズかの判定の誤りを低減することができる。

請求項２に係る発明によれば、判定手段が判定に用いる範囲情報を生成することができる。

実施形態のシステムの構成を例示する図である。ノイズを含んだ入力画像の例を示す図である。ノイズを含んだ入力画像の別の例を示す図である。図２に示す入力画像に対する文字認識結果を例示する図である。図３に示す入力画像に対する文字認識結果を例示する図である。

図１を参照して、本発明に係る情報処理装置を含んだシステム構成の一例を説明する。

図１のシステムは、本発明に係る情報処理装置の一例である文字認識装置１０と、モデル学習装置２０とを含む。

文字認識装置１０は、処理対象である入力画像に対してＯＣＲ（光学文字認識）技術による文字認識処理を行うことにより、その入力画像に含まれる文字列を認識する。

文字認識装置１０には、文字列の画像を含んだ入力画像が入力される。入力画像は、例えば、帳票等の紙面をスキャナで読み取ることにより得られる画像である。以下の例では、紙面を読み取ることにより得られた画像から、認識対象の文字列を含む領域（例えば特定の記入欄）を切り出すことにより得られた画像が、入力画像として文字認識装置１０に入力されるものとする。入力画像は、例えば、一行の文字列を含んだ短冊状の領域の画像である。

入力画像に含まれる文字列は、典型的には、手書き文字からなる文字列である。ただし、これは一例に過ぎず、文字認識装置１０は、入力画像に含まれる活字の文字列や、手書き文字と活字が混じった文字列を認識できるものであってもよい。文字列は、１以上の文字からなる列である。また、認識の対象となる文字の中には、各種のアルファベットやひらがな、カタカナなどの表音文字、漢字等の表意文字、ロゴマーク等の各種マーク等が含まれてもよい。

本実施形態の文字認識装置１０は、入力画像に含まれるノイズを認識し、ノイズに該当する部分についての文字認識結果を除去する機能を有する。

ここで、ノイズとは、入力画像に含まれる画像要素のうち文字以外の画像要素である。文字認識処理の対象となる入力画像として一般的な白黒画像を例にとると、黒色の画素の連結成分のうち、文字又は文字の一部（例えば、例えばアルファベット「ｉ」の上側の点や下側の縦線）に該当しない連結成分が、ノイズである。例えば、図２に例示する入力画像１００の場合、９文字の手書き漢字の列の右側の、少し離れた位置にある黒画素の連結成分がノイズ１０２である。

ノイズは様々な要因により発生する。要因の一つの例は、ユーザによる書き損じや、ユーザが記入した文字以外の要素（例えばアンダーラインや囲み枠など）である。また、記入先の紙面の折れ曲がりや汚れ、あるいはその紙面をスキャナで読み取った際のスキャナに起因する読み取りノイズも、入力画像中にノイズをもたらす場合がある。

本実施形態は、ノイズのうち特に孤立点ノイズの検出及び除去を対象とする。孤立点ノイズは、入力画像中の文字列からある程度の距離以上（すなわち予め設定した閾値以上）離れた位置にあるノイズのことである。文字列から閾値以上離れているということは、入力画像に含まれる文字のうちそのノイズに最も近い文字からの距離が閾値以上あるということである。なお、孤立点に該当する距離かどうかは文字の大きさに依存する。文字が大きい場合と小さい場合とでは、文字とノイズの絶対的な距離が同じであっても、前者は文字とノイズが比較的近く、ノイズが孤立していないように見えやすく、後者は文字とノイズが比較的離れており、ノイズ孤立して見えやすい。このような文字の大きさによる違いをなくすために、孤立点ノイズの判定では、文字列からノイズまでの距離を、文字列を構成する文字のサイズ等を基準に正規化する。

図２に例示したノイズ１０２は、文字列からある程度離れており、孤立点ノイズに該当する。また、図３に示す入力画像１１０には、ひらがな、漢字、数字を含んだ手書き文字列の下にアンダーラインが引かれており、そのアンダーラインの右端がかすれている。このかすれた部分に含まれる黒い複数の点列（図中、破線の楕円形の枠１１２で囲んだ）は、手書き文字列から離れているので、孤立点ノイズに該当する。一方、アンダーラインの本体部分は、手書き文字列の下方の近接した位置にあるので、孤立点ノイズには該当しない。

以下では、煩雑さを避けるために、「ノイズ」という用語は孤立点ノイズを指すものとする。

図１の説明に戻ると、文字認識装置１０は、ＯＣＲ部１２、特徴ベクトル計算部１４、ノイズ判定部１６、分類モデル記憶部１７、及びノイズ除去部１８を含む。

ＯＣＲ部１２は、入力画像に対してＯＣＲ技術を用いた文字認識処理を行うことで、その入力画像が含んでいる文字列を認識する。ＯＣＲ部１２は、「文字認識手段」の一例である。ＯＣＲ部１２は、例えば入力画像に含まれる文字ごとに認識を行うことにより、文字ごとの認識結果データとして、当該文字の文字認識結果としての文字コード、その文字の矩形座標、及びその文字認識結果の確度を求める。すなわち、ＯＣＲ部１２の文字認識処理の認識結果データには、入力画像中の文字列の各文字を表す文字コード、それら各文字の矩形座標、及びそれら各文字の確度の情報が含まれる。なお、このうち各文字コードが、ＯＣＲ部１２による狭義の文字認識結果である。

このうち文字の矩形座標は、入力画像中のその文字の外接矩形を表す座標情報である。文字の外接矩形は、入力画像のｘ軸及びｙ軸にそれぞれ平行な線分から構成される矩形であって、その文字に対して外接する。矩形座標は、その外接矩形を特定する複数の点の座標の組であり、例えばその外接矩形の右上と左下の頂点の座標の組である。ＯＣＲ部１２は、入力画像中の各文字を認識する際にそれら各文字の外接矩形を求めており、この外接矩形を表す矩形座標を出力する。

また、確度は、ＯＣＲ部１２が求めた文字コードが入力画像中の当該文字を正しく表している確からしさを示す度合いである。確度が高いほど、その文字コードが正解である（すなわち入力画像中の文字列を正しく表している）蓋然性が高い。ＯＣＲ部１２は、この確度の情報を文字の認識結果データの一項目として出力する。

特徴ベクトル計算部１４は、ＯＣＲ部１２から入力された文字ごとの認識結果データから、文字ごとに特徴ベクトルを計算する。特徴ベクトルは、文字のサイズ、最近接文字に対する距離、及び確度の３つの成分からなるベクトルである。

文字のサイズは、入力画像内でのその文字の外接矩形のサイズである。外接矩形のサイズとしては、例えば、その外接矩形の対角線の長さ、又は面積等を用いてもよい。なお、ノイズの判定の際に重要なのは、文字やノイズの絶対的な大きさではなく、大きさの相対関係なので、文字のサイズとしては正規化した値を用いる。正規化は、例えば、入力画像中の各文字のサイズを、入力画像の代表サイズ（例えば入力画像自体のサイズやそれら文字の中での最大の文字のサイズ）で除算することにより行えばよい。

最近接文字との距離は、入力画像中での、その文字の外接矩形とその文字に最も近い他の文字の外接矩形との距離である。それら２つの文字の外接矩形同士の距離としては、例えば、それら外接矩形の代表点同士の距離を用いればよい。外接矩形の代表点は、例えば外接矩形の右上の頂点、又は外接矩形の中心点等、予め定めておけばよい。なお、孤立点の判定の観点では、距離の絶対値よりは、文字のサイズとの間の相対的な大きさの関係が重要である。したがって、最近接文字との距離としては、入力画像中でのその距離の実際の値を、代表サイズ（例えば入力画像の高さ、又は入力画像中での最大の文字のサイズ）で正規化した値を用いる。

特徴ベクトル計算部１４は、ＯＣＲ部１２から受け取った認識結果データのうち、各文字の矩形座標の情報を用いることで、各文字について、その文字のサイズと、その文字と最近接文字との距離とを計算する。そして、それらサイズ及び距離と、ＯＣＲ部１２から受け取った確度とを成分として持つ特徴ベクトルを生成し、生成した特徴ベクトルをノイズ判定部１６へと出力する。また、特徴ベクトル計算部１４は、ＯＣＲ部１２からの認識結果データに含まれる各文字の文字コードをノイズ判定部１６へと出力する。同じ文字についての文字コードと特徴ベクトルとが互いに対応付け可能な態様で、文字コード群と特徴ベクトル群がノイズ判定部１６へと出力される。

ノイズ判定部１６は、「判定手段」の一例であり、入力された各文字の特徴ベクトルに基づいて、その文字がノイズであるか否かを判定する。すなわち、ＯＣＲ部１２による文字認識結果の段階では、入力画像中のノイズも暫定的に文字として認識されている可能性があるが、ノイズ判定部１６は、そのように暫定的に文字と判定されているものを、真の文字とノイズとに分類するのである。ノイズ判定部１６の判定は、分類モデル記憶部１７に記憶されている分類モデルを用いて行われる。

分類モデルは、文字についての特徴ベクトルに基づいて、その文字がノイズ又は真の文字のいずれかに分類するのに用いるモデルである。

一つの例では、特徴ベクトルの３つの成分をそれぞれ座標軸とした３次元空間内で、ノイズと判定されるべき文字の特徴ベクトルの存在する領域（以下、ノイズ領域と呼ぶ）を表す情報を、分類モデルとして用いる。例えば、確度がｃ１以上ｃ２未満の範囲については、サイズがｓ１以下、かつ最近接文字との距離がｄ１以上の領域がノイズの領域であり、確度がｃ２以上ｃ３未満の範囲については、サイズがｓ２以下かつ最近接文字との距離がｄ２以上の領域がノイズの領域である、というように、分類モデルには３次元空間内でのノイズの領域が規定されている。この場合、ノイズ判定部１６は、特徴ベクトル計算部１４が文字の認識結果データから求めた特徴ベクトルがそのノイズ領域内にある場合、その文字が実はノイズであると判定し、そうでない場合はその文字は真の文字であると判定する。

また、分類モデルは、上述の３次元空間内での、真の文字と判定されるべき文字の特徴ベクトルの存在する領域（以下、文字領域という）を表す情報であってもよい。この場合、ノイズ判定部１６は、特徴ベクトル計算部１４が文字の認識結果データから求めた特徴ベクトルが文字領域内にある場合、その文字が真の文字であると判定し、そうでない場合はその文字はノイズであると判定する。

また、分類モデルは、上述の３次元空間内での、ノイズ領域と文字領域とをそれぞれ表すものであってもよい。ノイズ領域と文字領域とは重ならない。また、ノイズ領域及び文字領域のいずれにも属さないグレーゾーンがあってもよい。ノイズ判定部１６は、特徴ベクトル計算部１４が文字の認識結果データから求めた特徴ベクトルが文字領域内にある場合はその文字が真の文字であると判定し、ノイズ領域にある場合はその文字はノイズであると判定する。また、文字について求められた特徴ベクトルがグレーゾーン内に位置する場合、ノイズ判定部１６は、その文字が「グレーゾーン文字」であると判定してもよい。

ノイズ判定部１６は、特徴ベクトル計算部１４から受け取った各文字の文字コードを、その文字についての判定結果、すなわち「ノイズ」か「真の文字」かを示す情報、と対応付けて、ノイズ除去部１８へと出力する。なお、分類モデルがグレーゾーンを含む場合、ノイズ判定部１６は、「グレーゾーン文字」との判定結果を出力する場合もある。

以上に例示したノイズ領域、文字領域又はその両方の領域の情報は、認識された文字のうちノイズに該当するものの座標の範囲を特定するための「範囲情報」の一例である。

また、分類モデルは、特徴ベクトルを入力とし、ノイズか真の文字かの判定結果を出力とするニューラルネットワークであってもよい。この場合、ノイズ判定部１６は、分類モデル記憶部１７に記憶されたデータを用いて分類モデルのニューラルネットワークを構成し、そのニューラルネットワークに各文字の特徴ベクトルを入力することで、それら各文字がノイズか真の文字かを示す判定結果を得る。

ノイズ除去部１８は、ノイズ判定部１６から入力された情報に基づき、ＯＣＲ部１２の認識結果データからノイズの除去を行う。例えば、ノイズ除去部１８は、入力された文字コードと判定結果のペアごとに、その判定結果が「真の文字」である場合はその文字コードを出力し、その判定結果が「ノイズ」である場合はその文字コードを除去する。すなわち、ノイズ除去部１８からは、「ノイズ」と判定された文字は出力されない。このようにして、ノイズ除去部１８からは、「ノイズ」と判定された文字を除いた残りの文字の文字コードの列が出力されることとなる。出力された文字コード列は、各種のアプリケーションプログラムで利用される。

また、ノイズ判定部１６が、文字認識結果を「ノイズ」、「真の文字」、「グレーゾーン文字」の３分類のいずれであるかを判定する例では、ノイズ除去部１８は、「グレーゾーン文字」と判定された文字については、その文字の文字コードを、「グレーゾーン文字」を示すフラグと共に出力してもよい。この場合、その出力を受け取るアプリケーションプログラムには、「グレーゾーン」文字とのフラグがある文字コードについてどのように取り扱うかが規定されている。例えば、あるアプリケーションプログラムではグレーゾーン文字のフラグがある文字コードは単に除去し、別のアプリケーションプログラムでは、グレーゾーン文字のフラグがある文字コードはユーザに確認を求める表示を行う。

図４に、文字認識装置１０による文字認識の結果の例を示す。この例は、図２に例示した入力画像１００に対応するものである。入力画像１００中に左から順に並んでいる９つの手書き文字について、ＯＣＲ部１２によりそれぞれ外接矩形１２０が求められている。この外接矩形の情報から、文字のサイズや最近接文字との距離の情報が求められる。これら９つの文字については、それぞれ文字認識結果の文字コード「神」、「奈」、「川」、「県」、「横」、「浜」、「市」、「西」、「区」が求められている。それら９つの文字についての確度は、０．９９６、０．９９７，・・・，０．９９９といずれも高い値となっている。なお、確度は、例えば、０から１までの実数値をとり、１に近いほど正解である蓋然性が高い。これら９つの文字については、ノイズ判定部１６は、サイズ、最近接文字との距離、確度の３成分から、真の文字に該当するものと判定する。また、入力画像１００中の右端にある黒画素の連結成分（すなわちノイズ１０２）については、ＯＣＲ部１２は文字コード「あ」と認識したが、その認識についての確度は０．１２９であり、かなり低い。ノイズ判定部１６は、その文字「あ」のサイズ、最近接文字（すなわち左から９番目の文字「区」）からの距離、及び確度０．１２９から、その文字「あ」と認識されたものがノイズであると判定する。

図５に、文字認識装置１０による文字認識の結果の別の例を示す。この例は、図３に例示した入力画像１００に対応するものである。入力画像１００中に左から順に並んでいる１１個の手書き文字については、ノイズ判定部１６は、サイズ、最近接文字との距離、確度の３成分から、真の文字に該当するものと判定する。一方、入力画像１００中の右端近傍にある枠１１２内の６個の小さい連結成分については、ＯＣＲ部１２は、それぞれ「-」、「又」、「上」、「－」、「－」、「め」と認識する。そのうち、最初の文字認識結果「-」については、確度は０．７９と高い値となっているが、他の文字認識結果についての確度は最高でも０．３０というように低い値となっている。ノイズ判定部１６は、例えば枠１１２内の左端の連結成分についての文字認識結果「-」については、確度は０．７９と比較的高いものの、サイズや最近接文字（すなわち左から１１番目の文字「番」）からの距離を考慮に入れて、「ノイズ」であると判定する。また、枠１１２内の残りの５つの文字認識結果についても、サイズ、最近接文字（すなわち「番」）からの距離、及び確度から、ノイズであると判定する。

再び図１の説明に戻り、モデル学習装置２０について説明する。モデル学習装置２０は、分類モデル記憶部１７に記憶される分類モデルを生成するための学習を行う。

モデル学習装置２０は、ＯＣＲ部２２、特徴ベクトル計算部２４、ノイズ抽出部２６、及び学習部２８を含む。

モデル学習装置２０には、サンプル画像３２と正解データ３４とを含む学習データ３０が入力される。サンプル画像３２は、認識対象となる手書き文字等からなる文字列の画像を表すデータである。サンプル画像３２には、文字列だけでなく、ノイズである画像要素も含まれる。正解データ３４は、そのサンプル画像３２に対する文字認識結果の正解を示すデータである。すなわち、正解データは、サンプル画像に示される文字列を表す文字コードの列が含まれる。

学習データ３０には、サンプル画像３２と正解データ３４のペアが多数含まれている。

ＯＣＲ部２２は、入力画像に対してＯＣＲ技術を用いた文字認識処理を行うことで、その入力画像が含んでいる文字列を認識する。ＯＣＲ部２２は、文字認識装置１０内のＯＣＲ部１２と同等の性能を持つ文字認識器である。すなわち、ＯＣＲ部１２及び２２に対して同じ入力画像を入力すれば、まったく同じ認識結果データ（すなわち文字コード、外接矩形の矩形座標、確度）を出力する。ＯＣＲ部２２は、学習データ３０に含まれる個々のサンプル画像３２を受け取り、それらサンプル画像３２について文字認識処理を行う。

特徴ベクトル計算部２４は、文字認識装置１０内の特徴ベクトル計算部２４と同じ処理を行うことにより、ＯＣＲ部２２による各文字の文字認識結果について、それぞれ特徴ベクトルを計算する。計算された特徴ベクトルは、学習部２８へ出力される。

ノイズ抽出部２６には、正解データ３４と、ＯＣＲ部２２による文字認識結果とが入力される。ノイズ抽出部２６は、正解データ３４を参照することにより、入力された各文字の文字認識結果からノイズを抽出する。ノイズ抽出部２６は、例えば、ＯＣＲ部２２が出力したサンプル画像についての文字認識結果の文字列内の文字のうち、正解データ３４が示す正解の文字列に含まれない文字を、ノイズとして抽出する。この場合、ノイズ抽出部２６は、ＯＣＲ部２２による文字認識結果のうち、正解データ３４が示す正解の文字列に含まれる文字は、真の文字であると判定する。ノイズ抽出部２６は、ＯＣＲ部２２による文字認識結果ごとに、その文字認識結果がノイズ、又は真の文字のいずれに該当するかを示す抽出結果情報を学習部２８へと出力する。

学習部２８は、特徴ベクトル計算部２４から入力される各文字の特徴ベクトルと、ノイズ抽出部２６から入力される各文字についての抽出結果情報とに基づき、分類モデルを学習する。

一つの例では、この学習では、文字のサイズ、最近接文字との距離、及び確度を３つの座標軸とする３次元空間内に、特徴ベクトルが表す座標点をプロットし、その座標点に対してノイズ抽出部２６からの抽出結果情報（すなわち、ノイズか、真の文字かを示す情報）を対応付ける。多数のサンプル画像から得られる多数の特徴ベクトル及び抽出結果情報を、このようにして３次元空間上にプロットし、そのプロット結果を分析することにより、その３次元空間内のノイズ領域又は文字領域又はそれら両方を画定する。画定されたノイズ領域、文字領域、又はそれら両方の領域を示す情報が、分類モデルとなる。

また別の例では、学習部２８は、ニューラルネットワークに分類モデルを学習させる。この例では、ニューラルネットワークは特徴ベクトルを入力とし、その特徴ベクトルに対応する「文字」が真の文字及びノイズのいずれであるかの判定結果を出力する。学習部２８は、特徴ベクトル計算部２４から入力された特徴ベクトルをそのニューラルネットワークの入力層に入力し、ノイズ抽出部２６から入力されるその特徴ベクトルに対応する抽出結果情報を教師データとしてそのニューラルネットワークに与える。多数の特徴ベクトル及び抽出結果情報をニューラルネットワークに与えることで、ニューラルネットワークは、特徴ベクトルからノイズか真の文字かを判定する分類モデルを学習する。

学習部２８での学習により生成された分類モデルは、分類モデル記憶部１７に記憶される。

以上の例では、正解データ３４は、サンプル画像３２が含む文字列を示すものであったが、これは一例にすぎない。この代わりに、正解データ３４は、そのサンプル画像３２が表す文字列画像内の各「文字」がそれぞれ真の文字、及びノイズのいずれであるかを示すデータであってもよい。すなわち、正解データ３４は、ＯＣＲ部２２が入力画像中から文字として認識した文字認識結果ごとに、それが真の文字、ノイズのいずれであるかを示す。あくまで一例であるが、サンプル画像３２をＯＣＲ部２２で認識させ、その結果得られた各文字の文字認識結果を人間が見て、それら個々の文字認識結果が真の文字かノイズかを示す情報を入力することで、正解データ３４が生成される。また例えば、文字認識装置１０の出力する文字認識結果を人間によりチェックすることで、より信頼性の高い認識結果を得るシステムが知られている。この種のシステムでは、入力画像に対する文字認識装置１０の文字認識結果のうち、人間が文字でないとして除去する指示を行ったものをノイズとして記録することで、サンプル画像３２と正解データ３４のペアが生成可能である。すなわち、その入力画像をサンプル画像３２とすると共に、入力画像の文字認識結果のうち人間が除去を指示したものをノイズ、そうでないものを真の文字とする情報を正解データ３４とし、互いに対応付けて蓄積すればよい。

正解データ３４が、サンプル画像３２が表す文字列画像内の各「文字」がそれぞれ真の文字、及びノイズのいずれであるかを示すものである場合、ノイズ抽出部２６は不要である。学習部２８は、その正解データ３４が示す、各文字がノイズか真の文字かを示す情報を用いて、学習を行えばよい。

また以上の例では、モデル学習装置２０を文字認識装置１０とは別体の装置として構成したが、別の例として、文字認識装置１０にモデル学習装置２０の機能を内蔵してもよい。この場合、文字認識装置１０にＯＣＲ部２２及び特徴ベクトル計算部２４を別途設けることなく、ＯＣＲ部１２及び特徴ベクトル計算部１４にそれらの機能を代行させてもよい。

以上、本発明の一実施形態について説明した。ただし、上述した実施形態は、本発明の実施形態のあくまで一例に過ぎない。

分類モデルとノイズ判定部１６の判定処理の別の例として、以下のようなものもある。

例えば、一つの例では、分類モデルは、認識される文字の特徴ベクトル内の文字のサイズ、最近接文字との距離、及び確度の３つの要素（すなわち座標成分）のそれぞれについて、その文字が真の文字である場合の当該要素の値の範囲を示す情報を含む。この範囲を示す情報は、その範囲の上限及び下限を示す情報である。なお、その範囲を示す情報は、上限又は下限のうちの一方のみを規定するものであってもよく、この場合他方はその要素が取り得る値の最下限又は最上限の値である。この例では、ノイズ判定部１６は、認識結果のある文字について特徴ベクトル計算部１４が求めた特徴ベクトルの各要素、すなわち文字のサイズ、最近接文字からの距離、及び確度のうちの少なくとも１つの要素の値が、その要素に対応する上記範囲内にない場合、その文字がノイズに該当すると判定する。逆に、特徴ベクトルの３要素のすべてが、それぞれ当該要素に対応する上記範囲内にあれば、その文字は真の文字であると判定する。

また別の例では、ノイズ判定部１６は、認識された文字について特徴ベクトル計算部１４が求めた特徴ベクトルの３要素、すなわち文字のサイズ、最近接文字との距離、及び確度の値から、スコアを計算する。このスコアは、特徴ベクトルを１次元の数値で表した値である。例えば、それら３つの要素を変数として含んだ関数を用いて、特徴ベクトルからスコアを計算する。そして、ノイズ判定部１６は、ある文字の特徴ベクトルから求めたスコアの値が所定の範囲に含まれる場合、その文字がノイズに該当すると判定する。逆に、スコアがその範囲に含まれない場合には、その文字は真の文字に該当すると判定する。この例では、その範囲の情報が分類モデルに相当する。

以上に例示した実施形態の文字認識装置１０及びモデル学習装置２０は、一つの例ではハードウエアの論理回路として構成可能である。また、別の例として、実施形態の情報処理装置は、内蔵されるコンピュータにそれら装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウエアとして、ＣＰＵ等のプロセッサ、ランダムアクセスメモリ（ＲＡＭ）及びリードオンリメモリ（ＲＯＭ）等のメモリ（一次記憶）、ＨＤＤ（ハードディスクドライブ）を制御するＨＤＤコントローラ、各種Ｉ／Ｏ（入出力）インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばＩ／Ｏインタフェース経由で、ＣＤやＤＶＤなどの可搬型ディスク記録媒体に対する読み取り及び／又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び／又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがＣＤやＤＶＤ等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがＲＡＭに読み出されＣＰＵ等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、実施形態の文字認識装置１０及びモデル学習装置２０は、ソフトウエアとハードウエアの組合せで構成されてもよい。

１０文字認識装置、１２，２２ＯＣＲ部、１４，２４特徴ベクトル計算部、１６ノイズ判定部、１７分類モデル記憶部、１８ノイズ除去部、２０モデル学習装置、２６ノイズ抽出部、２８学習部、３０学習データ、３２サンプル画像、３４正解データ。

Claims

入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、
文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を３つの座標軸とする３次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段と、
を含む情報処理装置。
複数のサンプル画像と、それらサンプル画像の各々に含まれる画像要素がそれぞれ文字又はノイズのいずれに該当するか示す正解データと、の入力を受け付ける手段と、
前記複数のサンプル画像の各々を、前記文字認識手段又は同じ画像が入力された場合に前記文字認識手段と同じデータを出力する認識装置に入力し、この入力に応じて前記文字認識手段又は前記認識装置により認識された各文字についての前記距離と前記サイズと前記確度との組合せが示す座標点を前記３次元空間内にプロットし、プロットした各文字についての座標点と、前記正解データが示す、それら各文字に対応する画像要素が文字又はノイズのいずれに該当するかを示す情報とから、前記３次元空間の中での前記範囲を求めることで、前記範囲情報を生成する手段と、
を含む請求項１に記載の情報処理装置。
入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、
前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、
を含み、
前記判定手段は、前記距離と前記サイズと前記確度とを入力とし、前記文字認識手段の文字認識結果が文字又はノイズのいずれに該当するかを示す情報を出力するニューラルネットワーク、を用いて前記判定を行う、情報処理装置。
入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、
前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、
を含み、
前記判定手段は、前記文字がノイズではない真の文字であるために、前記距離が満たすべき値の範囲、前記サイズが満たすべき値の範囲、及び前記確度が満たすべき値の範囲の情報を用いることにより、前記距離、前記サイズ及び前記確度の３つの要素のうちの少なくとも１つの要素の値が当該要素に対応する前記範囲内にない場合に、前記文字がノイズに該当すると判定し、前記３つの要素の値が全て当該要素に対応する前記範囲内にある場合に前記文字がノイズに該当しないと判定する、ことを特徴とする情報処理装置。
コンピュータを、
入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段、
文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を３つの座標軸とする３次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段、
として機能させるためのプログラム。