JP7338159B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7338159B2
JP7338159B2 JP2019010053A JP2019010053A JP7338159B2 JP 7338159 B2 JP7338159 B2 JP 7338159B2 JP 2019010053 A JP2019010053 A JP 2019010053A JP 2019010053 A JP2019010053 A JP 2019010053A JP 7338159 B2 JP7338159 B2 JP 7338159B2
Authority
JP
Japan
Prior art keywords
character
noise
size
characters
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019010053A
Other languages
English (en)
Other versions
JP2020119291A (ja
Inventor
ベイリ 任
俊一 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019010053A priority Critical patent/JP7338159B2/ja
Priority to US16/548,799 priority patent/US11361529B2/en
Publication of JP2020119291A publication Critical patent/JP2020119291A/ja
Application granted granted Critical
Publication of JP7338159B2 publication Critical patent/JP7338159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
文字認識において、対象の画像から文字ではないノイズを除去することで、認識精度を上げることが行われている。
特許文献1に記載された方法では、まず帳票原稿からの読取り後切り出された文字の画像データを、縦横とも2分の1に画像圧縮して圧縮データを得る。次に、この圧縮データから、最大画素ブロックを抽出することにより、他の成分を排除し、抽出データを得る。そして、この最大画素ブロックを再びもとの画素サイズに拡大したのち、元の画像データとのアンドを取る。これにより、比較的大きなノイズであっても文字成分と認識せず除去可能となる。また、画像圧縮により処理画素数が減り、処理速度が向上する。さらに、最後に元の画像データとの論理積を取ることで、元の文字かすれ部分等がそのまま復元され、端点の形状維持が可能となる。
特許文献2に記載された方法では、入力画像から孤立点ノイズを探索する範囲を決定し、決定した範囲を対象に外接矩形を抽出し、抽出した外接矩形より、孤立点ノイズの候補矩形を抽出し、さらに前記抽出した外接矩形から文字矩形候補を抽出し、抽出した孤立点ノイズ候補矩形とその周辺の矩形との関係から孤立点ノイズを判定し、同様に抽出した文字矩形候補とその周辺の矩形との関係から孤立点ノイズを判定し、判定した孤立点ノイズを除去する。
特開平5-6461号公報 特開2006-72839号公報
入力画像中の文字候補部分のサイズと、その文字候補部分の近隣の文字候補部分からの距離と、に基づいてその文字候補部分が文字かノイズかを判定する方式では、例えばサイズが大きい非文字をノイズではなく文字と判定してしまったり、近隣の文字から離れた位置にある文字をノイズと判定してしまったりするなどの誤りが生じるおそれがある。
本発明は、サイズと距離とに基づいて文字かノイズかを判定する方式よりも、文字かノイズかの判定の誤りを低減するための技術を提供するものである。
請求項1に係る発明は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を3つの座標軸とする3次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段と、を含む情報処理装置である。
請求項に係る発明は、複数のサンプル画像と、それらサンプル画像の各々に含まれる画像要素がそれぞれ文字又はノイズのいずれに該当するか示す正解データと、の入力を受け付ける手段と、前記複数のサンプル画像の各々を、前記文字認識手段又は同じ画像が入力された場合に前記文字認識手段と同じデータを出力する認識装置に入力し、この入力に応じて前記文字認識手段又は前記認識装置により認識された各文字についての前記距離と前記サイズと前記確度との組合せが示す座標点を前記3次元空間内にプロットし、プロットした各文字についての座標点と、前記正解データが示す、それら各文字に対応する画像要素が文字又はノイズのいずれに該当するかを示す情報とから、前記3次元空間の中での前記範囲を求めることで、前記範囲情報を生成する手段と、を含む請求項に記載の情報処理装置である。
請求項に係る発明は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、を含み、前記判定手段は、前記距離と前記サイズと前記確度とを入力とし、前記文字認識手段の文字認識結果が文字又はノイズのいずれに該当するかを示す情報を出力するニューラルネットワーク、を用いて前記判定を行う、情報処理装置である。
請求項に係る発明は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、を含み、前記判定手段は、前記文字がノイズではない真の文字であるために、前記距離が満たすべき値の範囲、前記サイズが満たすべき値の範囲、及び前記確度が満たすべき値の範囲の情報を用いることにより、前記距離、前記サイズ及び前記確度の3つの要素のうちの少なくとも1つの要素の値が当該要素に対応する前記範囲にない場合に、前記文字がノイズに該当すると判定し、前記3つの要素の値が全て当該要素に対応する前記範囲内にある場合に前記文字がノイズに該当しないと判定する、ことを特徴とする情報処理装置である。
参考例の構成は、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行う判定手段と、を含み、前記判定手段は、前記文字についての前記距離、前記サイズ、及び前記確度のそれぞれの値に基づきスコアを計算し、計算したスコアが所定の範囲に含まれる場合、前記文字がノイズに該当すると判定する、ことを特徴とする情報処理装置である。
請求項に係る発明は、コンピュータを、入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段、字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を3つの座標軸とする3次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段、として機能させるためのプログラムである。
請求項1、又はに係る発明によれば、サイズと距離とに基づいて文字かノイズかを判定する方式よりも、文字かノイズかの判定の誤りを低減することができる。
請求項に係る発明によれば、判定手段が判定に用いる範囲情報を生成することができる。
実施形態のシステムの構成を例示する図である。 ノイズを含んだ入力画像の例を示す図である。 ノイズを含んだ入力画像の別の例を示す図である。 図2に示す入力画像に対する文字認識結果を例示する図である。 図3に示す入力画像に対する文字認識結果を例示する図である。
図1を参照して、本発明に係る情報処理装置を含んだシステム構成の一例を説明する。
図1のシステムは、本発明に係る情報処理装置の一例である文字認識装置10と、モデル学習装置20とを含む。
文字認識装置10は、処理対象である入力画像に対してOCR(光学文字認識)技術による文字認識処理を行うことにより、その入力画像に含まれる文字列を認識する。
文字認識装置10には、文字列の画像を含んだ入力画像が入力される。入力画像は、例えば、帳票等の紙面をスキャナで読み取ることにより得られる画像である。以下の例では、紙面を読み取ることにより得られた画像から、認識対象の文字列を含む領域(例えば特定の記入欄)を切り出すことにより得られた画像が、入力画像として文字認識装置10に入力されるものとする。入力画像は、例えば、一行の文字列を含んだ短冊状の領域の画像である。
入力画像に含まれる文字列は、典型的には、手書き文字からなる文字列である。ただし、これは一例に過ぎず、文字認識装置10は、入力画像に含まれる活字の文字列や、手書き文字と活字が混じった文字列を認識できるものであってもよい。文字列は、1以上の文字からなる列である。また、認識の対象となる文字の中には、各種のアルファベットやひらがな、カタカナなどの表音文字、漢字等の表意文字、ロゴマーク等の各種マーク等が含まれてもよい。
本実施形態の文字認識装置10は、入力画像に含まれるノイズを認識し、ノイズに該当する部分についての文字認識結果を除去する機能を有する。
ここで、ノイズとは、入力画像に含まれる画像要素のうち文字以外の画像要素である。文字認識処理の対象となる入力画像として一般的な白黒画像を例にとると、黒色の画素の連結成分のうち、文字又は文字の一部(例えば、例えばアルファベット「i」の上側の点や下側の縦線)に該当しない連結成分が、ノイズである。例えば、図2に例示する入力画像100の場合、9文字の手書き漢字の列の右側の、少し離れた位置にある黒画素の連結成分がノイズ102である。
ノイズは様々な要因により発生する。要因の一つの例は、ユーザによる書き損じや、ユーザが記入した文字以外の要素(例えばアンダーラインや囲み枠など)である。また、記入先の紙面の折れ曲がりや汚れ、あるいはその紙面をスキャナで読み取った際のスキャナに起因する読み取りノイズも、入力画像中にノイズをもたらす場合がある。
本実施形態は、ノイズのうち特に孤立点ノイズの検出及び除去を対象とする。孤立点ノイズは、入力画像中の文字列からある程度の距離以上(すなわち予め設定した閾値以上)離れた位置にあるノイズのことである。文字列から閾値以上離れているということは、入力画像に含まれる文字のうちそのノイズに最も近い文字からの距離が閾値以上あるということである。なお、孤立点に該当する距離かどうかは文字の大きさに依存する。文字が大きい場合と小さい場合とでは、文字とノイズの絶対的な距離が同じであっても、前者は文字とノイズが比較的近く、ノイズが孤立していないように見えやすく、後者は文字とノイズが比較的離れており、ノイズ孤立して見えやすい。このような文字の大きさによる違いをなくすために、孤立点ノイズの判定では、文字列からノイズまでの距離を、文字列を構成する文字のサイズ等を基準に正規化する。
図2に例示したノイズ102は、文字列からある程度離れており、孤立点ノイズに該当する。また、図3に示す入力画像110には、ひらがな、漢字、数字を含んだ手書き文字列の下にアンダーラインが引かれており、そのアンダーラインの右端がかすれている。このかすれた部分に含まれる黒い複数の点列(図中、破線の楕円形の枠112で囲んだ)は、手書き文字列から離れているので、孤立点ノイズに該当する。一方、アンダーラインの本体部分は、手書き文字列の下方の近接した位置にあるので、孤立点ノイズには該当しない。
以下では、煩雑さを避けるために、「ノイズ」という用語は孤立点ノイズを指すものとする。
図1の説明に戻ると、文字認識装置10は、OCR部12、特徴ベクトル計算部14、ノイズ判定部16、分類モデル記憶部17、及びノイズ除去部18を含む。
OCR部12は、入力画像に対してOCR技術を用いた文字認識処理を行うことで、その入力画像が含んでいる文字列を認識する。OCR部12は、「文字認識手段」の一例である。OCR部12は、例えば入力画像に含まれる文字ごとに認識を行うことにより、文字ごとの認識結果データとして、当該文字の文字認識結果としての文字コード、その文字の矩形座標、及びその文字認識結果の確度を求める。すなわち、OCR部12の文字認識処理の認識結果データには、入力画像中の文字列の各文字を表す文字コード、それら各文字の矩形座標、及びそれら各文字の確度の情報が含まれる。なお、このうち各文字コードが、OCR部12による狭義の文字認識結果である。
このうち文字の矩形座標は、入力画像中のその文字の外接矩形を表す座標情報である。文字の外接矩形は、入力画像のx軸及びy軸にそれぞれ平行な線分から構成される矩形であって、その文字に対して外接する。矩形座標は、その外接矩形を特定する複数の点の座標の組であり、例えばその外接矩形の右上と左下の頂点の座標の組である。OCR部12は、入力画像中の各文字を認識する際にそれら各文字の外接矩形を求めており、この外接矩形を表す矩形座標を出力する。
また、確度は、OCR部12が求めた文字コードが入力画像中の当該文字を正しく表している確からしさを示す度合いである。確度が高いほど、その文字コードが正解である(すなわち入力画像中の文字列を正しく表している)蓋然性が高い。OCR部12は、この確度の情報を文字の認識結果データの一項目として出力する。
特徴ベクトル計算部14は、OCR部12から入力された文字ごとの認識結果データから、文字ごとに特徴ベクトルを計算する。特徴ベクトルは、文字のサイズ、最近接文字に対する距離、及び確度の3つの成分からなるベクトルである。
文字のサイズは、入力画像内でのその文字の外接矩形のサイズである。外接矩形のサイズとしては、例えば、その外接矩形の対角線の長さ、又は面積等を用いてもよい。なお、ノイズの判定の際に重要なのは、文字やノイズの絶対的な大きさではなく、大きさの相対関係なので、文字のサイズとしては正規化した値を用いる。正規化は、例えば、入力画像中の各文字のサイズを、入力画像の代表サイズ(例えば入力画像自体のサイズやそれら文字の中での最大の文字のサイズ)で除算することにより行えばよい。
最近接文字との距離は、入力画像中での、その文字の外接矩形とその文字に最も近い他の文字の外接矩形との距離である。それら2つの文字の外接矩形同士の距離としては、例えば、それら外接矩形の代表点同士の距離を用いればよい。外接矩形の代表点は、例えば外接矩形の右上の頂点、又は外接矩形の中心点等、予め定めておけばよい。なお、孤立点の判定の観点では、距離の絶対値よりは、文字のサイズとの間の相対的な大きさの関係が重要である。したがって、最近接文字との距離としては、入力画像中でのその距離の実際の値を、代表サイズ(例えば入力画像の高さ、又は入力画像中での最大の文字のサイズ)で正規化した値を用いる。
特徴ベクトル計算部14は、OCR部12から受け取った認識結果データのうち、各文字の矩形座標の情報を用いることで、各文字について、その文字のサイズと、その文字と最近接文字との距離とを計算する。そして、それらサイズ及び距離と、OCR部12から受け取った確度とを成分として持つ特徴ベクトルを生成し、生成した特徴ベクトルをノイズ判定部16へと出力する。また、特徴ベクトル計算部14は、OCR部12からの認識結果データに含まれる各文字の文字コードをノイズ判定部16へと出力する。同じ文字についての文字コードと特徴ベクトルとが互いに対応付け可能な態様で、文字コード群と特徴ベクトル群がノイズ判定部16へと出力される。
ノイズ判定部16は、「判定手段」の一例であり、入力された各文字の特徴ベクトルに基づいて、その文字がノイズであるか否かを判定する。すなわち、OCR部12による文字認識結果の段階では、入力画像中のノイズも暫定的に文字として認識されている可能性があるが、ノイズ判定部16は、そのように暫定的に文字と判定されているものを、真の文字とノイズとに分類するのである。ノイズ判定部16の判定は、分類モデル記憶部17に記憶されている分類モデルを用いて行われる。
分類モデルは、文字についての特徴ベクトルに基づいて、その文字がノイズ又は真の文字のいずれかに分類するのに用いるモデルである。
一つの例では、特徴ベクトルの3つの成分をそれぞれ座標軸とした3次元空間内で、ノイズと判定されるべき文字の特徴ベクトルの存在する領域(以下、ノイズ領域と呼ぶ)を表す情報を、分類モデルとして用いる。例えば、確度がc1以上c2未満の範囲については、サイズがs1以下、かつ最近接文字との距離がd1以上の領域がノイズの領域であり、確度がc2以上c3未満の範囲については、サイズがs2以下かつ最近接文字との距離がd2以上の領域がノイズの領域である、というように、分類モデルには3次元空間内でのノイズの領域が規定されている。この場合、ノイズ判定部16は、特徴ベクトル計算部14が文字の認識結果データから求めた特徴ベクトルがそのノイズ領域内にある場合、その文字が実はノイズであると判定し、そうでない場合はその文字は真の文字であると判定する。
また、分類モデルは、上述の3次元空間内での、真の文字と判定されるべき文字の特徴ベクトルの存在する領域(以下、文字領域という)を表す情報であってもよい。この場合、ノイズ判定部16は、特徴ベクトル計算部14が文字の認識結果データから求めた特徴ベクトルが文字領域内にある場合、その文字が真の文字であると判定し、そうでない場合はその文字はノイズであると判定する。
また、分類モデルは、上述の3次元空間内での、ノイズ領域と文字領域とをそれぞれ表すものであってもよい。ノイズ領域と文字領域とは重ならない。また、ノイズ領域及び文字領域のいずれにも属さないグレーゾーンがあってもよい。ノイズ判定部16は、特徴ベクトル計算部14が文字の認識結果データから求めた特徴ベクトルが文字領域内にある場合はその文字が真の文字であると判定し、ノイズ領域にある場合はその文字はノイズであると判定する。また、文字について求められた特徴ベクトルがグレーゾーン内に位置する場合、ノイズ判定部16は、その文字が「グレーゾーン文字」であると判定してもよい。
ノイズ判定部16は、特徴ベクトル計算部14から受け取った各文字の文字コードを、その文字についての判定結果、すなわち「ノイズ」か「真の文字」かを示す情報、と対応付けて、ノイズ除去部18へと出力する。なお、分類モデルがグレーゾーンを含む場合、ノイズ判定部16は、「グレーゾーン文字」との判定結果を出力する場合もある。
以上に例示したノイズ領域、文字領域又はその両方の領域の情報は、認識された文字のうちノイズに該当するものの座標の範囲を特定するための「範囲情報」の一例である。
また、分類モデルは、特徴ベクトルを入力とし、ノイズか真の文字かの判定結果を出力とするニューラルネットワークであってもよい。この場合、ノイズ判定部16は、分類モデル記憶部17に記憶されたデータを用いて分類モデルのニューラルネットワークを構成し、そのニューラルネットワークに各文字の特徴ベクトルを入力することで、それら各文字がノイズか真の文字かを示す判定結果を得る。
ノイズ除去部18は、ノイズ判定部16から入力された情報に基づき、OCR部12の認識結果データからノイズの除去を行う。例えば、ノイズ除去部18は、入力された文字コードと判定結果のペアごとに、その判定結果が「真の文字」である場合はその文字コードを出力し、その判定結果が「ノイズ」である場合はその文字コードを除去する。すなわち、ノイズ除去部18からは、「ノイズ」と判定された文字は出力されない。このようにして、ノイズ除去部18からは、「ノイズ」と判定された文字を除いた残りの文字の文字コードの列が出力されることとなる。出力された文字コード列は、各種のアプリケーションプログラムで利用される。
また、ノイズ判定部16が、文字認識結果を「ノイズ」、「真の文字」、「グレーゾーン文字」の3分類のいずれであるかを判定する例では、ノイズ除去部18は、「グレーゾーン文字」と判定された文字については、その文字の文字コードを、「グレーゾーン文字」を示すフラグと共に出力してもよい。この場合、その出力を受け取るアプリケーションプログラムには、「グレーゾーン」文字とのフラグがある文字コードについてどのように取り扱うかが規定されている。例えば、あるアプリケーションプログラムではグレーゾーン文字のフラグがある文字コードは単に除去し、別のアプリケーションプログラムでは、グレーゾーン文字のフラグがある文字コードはユーザに確認を求める表示を行う。
図4に、文字認識装置10による文字認識の結果の例を示す。この例は、図2に例示した入力画像100に対応するものである。入力画像100中に左から順に並んでいる9つの手書き文字について、OCR部12によりそれぞれ外接矩形120が求められている。この外接矩形の情報から、文字のサイズや最近接文字との距離の情報が求められる。これら9つの文字については、それぞれ文字認識結果の文字コード「神」、「奈」、「川」、「県」、「横」、「浜」、「市」、「西」、「区」が求められている。それら9つの文字についての確度は、0.996、0.997,・・・,0.999といずれも高い値となっている。なお、確度は、例えば、0から1までの実数値をとり、1に近いほど正解である蓋然性が高い。これら9つの文字については、ノイズ判定部16は、サイズ、最近接文字との距離、確度の3成分から、真の文字に該当するものと判定する。また、入力画像100中の右端にある黒画素の連結成分(すなわちノイズ102)については、OCR部12は文字コード「あ」と認識したが、その認識についての確度は0.129であり、かなり低い。ノイズ判定部16は、その文字「あ」のサイズ、最近接文字(すなわち左から9番目の文字「区」)からの距離、及び確度0.129から、その文字「あ」と認識されたものがノイズであると判定する。
図5に、文字認識装置10による文字認識の結果の別の例を示す。この例は、図3に例示した入力画像100に対応するものである。入力画像100中に左から順に並んでいる11個の手書き文字については、ノイズ判定部16は、サイズ、最近接文字との距離、確度の3成分から、真の文字に該当するものと判定する。一方、入力画像100中の右端近傍にある枠112内の6個の小さい連結成分については、OCR部12は、それぞれ「-」、「又」、「上」、「-」、「-」、「め」と認識する。そのうち、最初の文字認識結果「-」については、確度は0.79と高い値となっているが、他の文字認識結果についての確度は最高でも0.30というように低い値となっている。ノイズ判定部16は、例えば枠112内の左端の連結成分についての文字認識結果「-」については、確度は0.79と比較的高いものの、サイズや最近接文字(すなわち左から11番目の文字「番」)からの距離を考慮に入れて、「ノイズ」であると判定する。また、枠112内の残りの5つの文字認識結果についても、サイズ、最近接文字(すなわち「番」)からの距離、及び確度から、ノイズであると判定する。
再び図1の説明に戻り、モデル学習装置20について説明する。モデル学習装置20は、分類モデル記憶部17に記憶される分類モデルを生成するための学習を行う。
モデル学習装置20は、OCR部22、特徴ベクトル計算部24、ノイズ抽出部26、及び学習部28を含む。
モデル学習装置20には、サンプル画像32と正解データ34とを含む学習データ30が入力される。サンプル画像32は、認識対象となる手書き文字等からなる文字列の画像を表すデータである。サンプル画像32には、文字列だけでなく、ノイズである画像要素も含まれる。正解データ34は、そのサンプル画像32に対する文字認識結果の正解を示すデータである。すなわち、正解データは、サンプル画像に示される文字列を表す文字コードの列が含まれる。
学習データ30には、サンプル画像32と正解データ34のペアが多数含まれている。
OCR部22は、入力画像に対してOCR技術を用いた文字認識処理を行うことで、その入力画像が含んでいる文字列を認識する。OCR部22は、文字認識装置10内のOCR部12と同等の性能を持つ文字認識器である。すなわち、OCR部12及び22に対して同じ入力画像を入力すれば、まったく同じ認識結果データ(すなわち文字コード、外接矩形の矩形座標、確度)を出力する。OCR部22は、学習データ30に含まれる個々のサンプル画像32を受け取り、それらサンプル画像32について文字認識処理を行う。
特徴ベクトル計算部24は、文字認識装置10内の特徴ベクトル計算部24と同じ処理を行うことにより、OCR部22による各文字の文字認識結果について、それぞれ特徴ベクトルを計算する。計算された特徴ベクトルは、学習部28へ出力される。
ノイズ抽出部26には、正解データ34と、OCR部22による文字認識結果とが入力される。ノイズ抽出部26は、正解データ34を参照することにより、入力された各文字の文字認識結果からノイズを抽出する。ノイズ抽出部26は、例えば、OCR部22が出力したサンプル画像についての文字認識結果の文字列内の文字のうち、正解データ34が示す正解の文字列に含まれない文字を、ノイズとして抽出する。この場合、ノイズ抽出部26は、OCR部22による文字認識結果のうち、正解データ34が示す正解の文字列に含まれる文字は、真の文字であると判定する。ノイズ抽出部26は、OCR部22による文字認識結果ごとに、その文字認識結果がノイズ、又は真の文字のいずれに該当するかを示す抽出結果情報を学習部28へと出力する。
学習部28は、特徴ベクトル計算部24から入力される各文字の特徴ベクトルと、ノイズ抽出部26から入力される各文字についての抽出結果情報とに基づき、分類モデルを学習する。
一つの例では、この学習では、文字のサイズ、最近接文字との距離、及び確度を3つの座標軸とする3次元空間内に、特徴ベクトルが表す座標点をプロットし、その座標点に対してノイズ抽出部26からの抽出結果情報(すなわち、ノイズか、真の文字かを示す情報)を対応付ける。多数のサンプル画像から得られる多数の特徴ベクトル及び抽出結果情報を、このようにして3次元空間上にプロットし、そのプロット結果を分析することにより、その3次元空間内のノイズ領域又は文字領域又はそれら両方を画定する。画定されたノイズ領域、文字領域、又はそれら両方の領域を示す情報が、分類モデルとなる。
また別の例では、学習部28は、ニューラルネットワークに分類モデルを学習させる。この例では、ニューラルネットワークは特徴ベクトルを入力とし、その特徴ベクトルに対応する「文字」が真の文字及びノイズのいずれであるかの判定結果を出力する。学習部28は、特徴ベクトル計算部24から入力された特徴ベクトルをそのニューラルネットワークの入力層に入力し、ノイズ抽出部26から入力されるその特徴ベクトルに対応する抽出結果情報を教師データとしてそのニューラルネットワークに与える。多数の特徴ベクトル及び抽出結果情報をニューラルネットワークに与えることで、ニューラルネットワークは、特徴ベクトルからノイズか真の文字かを判定する分類モデルを学習する。
学習部28での学習により生成された分類モデルは、分類モデル記憶部17に記憶される。
以上の例では、正解データ34は、サンプル画像32が含む文字列を示すものであったが、これは一例にすぎない。この代わりに、正解データ34は、そのサンプル画像32が表す文字列画像内の各「文字」がそれぞれ真の文字、及びノイズのいずれであるかを示すデータであってもよい。すなわち、正解データ34は、OCR部22が入力画像中から文字として認識した文字認識結果ごとに、それが真の文字、ノイズのいずれであるかを示す。あくまで一例であるが、サンプル画像32をOCR部22で認識させ、その結果得られた各文字の文字認識結果を人間が見て、それら個々の文字認識結果が真の文字かノイズかを示す情報を入力することで、正解データ34が生成される。また例えば、文字認識装置10の出力する文字認識結果を人間によりチェックすることで、より信頼性の高い認識結果を得るシステムが知られている。この種のシステムでは、入力画像に対する文字認識装置10の文字認識結果のうち、人間が文字でないとして除去する指示を行ったものをノイズとして記録することで、サンプル画像32と正解データ34のペアが生成可能である。すなわち、その入力画像をサンプル画像32とすると共に、入力画像の文字認識結果のうち人間が除去を指示したものをノイズ、そうでないものを真の文字とする情報を正解データ34とし、互いに対応付けて蓄積すればよい。
正解データ34が、サンプル画像32が表す文字列画像内の各「文字」がそれぞれ真の文字、及びノイズのいずれであるかを示すものである場合、ノイズ抽出部26は不要である。学習部28は、その正解データ34が示す、各文字がノイズか真の文字かを示す情報を用いて、学習を行えばよい。
また以上の例では、モデル学習装置20を文字認識装置10とは別体の装置として構成したが、別の例として、文字認識装置10にモデル学習装置20の機能を内蔵してもよい。この場合、文字認識装置10にOCR部22及び特徴ベクトル計算部24を別途設けることなく、OCR部12及び特徴ベクトル計算部14にそれらの機能を代行させてもよい。
以上、本発明の一実施形態について説明した。ただし、上述した実施形態は、本発明の実施形態のあくまで一例に過ぎない。
分類モデルとノイズ判定部16の判定処理の別の例として、以下のようなものもある。
例えば、一つの例では、分類モデルは、認識される文字の特徴ベクトル内の文字のサイズ、最近接文字との距離、及び確度の3つの要素(すなわち座標成分)のそれぞれについて、その文字が真の文字である場合の当該要素の値の範囲を示す情報を含む。この範囲を示す情報は、その範囲の上限及び下限を示す情報である。なお、その範囲を示す情報は、上限又は下限のうちの一方のみを規定するものであってもよく、この場合他方はその要素が取り得る値の最下限又は最上限の値である。この例では、ノイズ判定部16は、認識結果のある文字について特徴ベクトル計算部14が求めた特徴ベクトルの各要素、すなわち文字のサイズ、最近接文字からの距離、及び確度のうちの少なくとも1つの要素の値が、その要素に対応する上記範囲内にない場合、その文字がノイズに該当すると判定する。逆に、特徴ベクトルの3要素のすべてが、それぞれ当該要素に対応する上記範囲内にあれば、その文字は真の文字であると判定する。
また別の例では、ノイズ判定部16は、認識された文字について特徴ベクトル計算部14が求めた特徴ベクトルの3要素、すなわち文字のサイズ、最近接文字との距離、及び確度の値から、スコアを計算する。このスコアは、特徴ベクトルを1次元の数値で表した値である。例えば、それら3つの要素を変数として含んだ関数を用いて、特徴ベクトルからスコアを計算する。そして、ノイズ判定部16は、ある文字の特徴ベクトルから求めたスコアの値が所定の範囲に含まれる場合、その文字がノイズに該当すると判定する。逆に、スコアがその範囲に含まれない場合には、その文字は真の文字に該当すると判定する。この例では、その範囲の情報が分類モデルに相当する。
以上に例示した実施形態の文字認識装置10及びモデル学習装置20は、一つの例ではハードウエアの論理回路として構成可能である。また、別の例として、実施形態の情報処理装置は、内蔵されるコンピュータにそれら装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウエアとして、CPU等のプロセッサ、ランダムアクセスメモリ(RAM)及びリードオンリメモリ(ROM)等のメモリ(一次記憶)、HDD(ハードディスクドライブ)を制御するHDDコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばI/Oインタフェース経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAMに読み出されCPU等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、実施形態の文字認識装置10及びモデル学習装置20は、ソフトウエアとハードウエアの組合せで構成されてもよい。
10 文字認識装置、12,22 OCR部、14,24 特徴ベクトル計算部、16 ノイズ判定部、17 分類モデル記憶部、18 ノイズ除去部、20 モデル学習装置、26 ノイズ抽出部、28 学習部、30 学習データ、32 サンプル画像、34 正解データ。

Claims (5)

  1. 入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、
    字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を3つの座標軸とする3次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段と、
    を含む情報処理装置。
  2. 複数のサンプル画像と、それらサンプル画像の各々に含まれる画像要素がそれぞれ文字又はノイズのいずれに該当するか示す正解データと、の入力を受け付ける手段と、
    前記複数のサンプル画像の各々を、前記文字認識手段又は同じ画像が入力された場合に前記文字認識手段と同じデータを出力する認識装置に入力し、この入力に応じて前記文字認識手段又は前記認識装置により認識された各文字についての前記距離と前記サイズと前記確度との組合せが示す座標点を前記3次元空間内にプロットし、プロットした各文字についての座標点と、前記正解データが示す、それら各文字に対応する画像要素が文字又はノイズのいずれに該当するかを示す情報とから、前記3次元空間の中での前記範囲を求めることで、前記範囲情報を生成する手段と、
    を含む請求項に記載の情報処理装置。
  3. 入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、
    前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、
    を含み、
    前記判定手段は、前記距離と前記サイズと前記確度とを入力とし、前記文字認識手段の文字認識結果が文字又はノイズのいずれに該当するかを示す情報を出力するニューラルネットワーク、を用いて前記判定を行う、情報処理装置。
  4. 入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段と、
    前記各文字のそれぞれについて、その文字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、に基づいて、その文字がノイズに該当するか否かの判定を行い、ノイズと判定した文字を前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する判定手段と、
    を含み、
    前記判定手段は、前記文字がノイズではない真の文字であるために、前記距離が満たすべき値の範囲、前記サイズが満たすべき値の範囲、及び前記確度が満たすべき値の範囲の情報を用いることにより、前記距離、前記サイズ及び前記確度の3つの要素のうちの少なくとも1つの要素の値が当該要素に対応する前記範囲にない場合に、前記文字がノイズに該当すると判定し、前記3つの要素の値が全て当該要素に対応する前記範囲内にある場合に前記文字がノイズに該当しないと判定する、ことを特徴とする情報処理装置。
  5. コンピュータを、
    入力画像に対して文字認識処理を行うことにより、前記入力画像から認識した各文字について、その文字についての文字認識結果と、その文字の位置と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を出力する文字認識手段、
    字の位置から求められるその文字とその文字の最近接文字との距離と、その文字のサイズと、その文字についての前記文字認識結果の確度と、を3つの座標軸とする3次元空間の中で、前記入力画像から認識された文字のうちノイズに該当するものの座標の範囲を特定するための範囲情報、を用い、前記入力画像から認識された文字についての前記距離と前記サイズと前記確度とが示す座標が、前記範囲情報に示される前記範囲の中に含まれる場合には、当該文字についての前記文字認識結果をノイズとして、前記文字認識手段の出力した前記各文字についての前記文字認識結果のデータから除去する手段、
    として機能させるためのプログラム。
JP2019010053A 2019-01-24 2019-01-24 情報処理装置及びプログラム Active JP7338159B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019010053A JP7338159B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム
US16/548,799 US11361529B2 (en) 2019-01-24 2019-08-22 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019010053A JP7338159B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020119291A JP2020119291A (ja) 2020-08-06
JP7338159B2 true JP7338159B2 (ja) 2023-09-05

Family

ID=71732482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019010053A Active JP7338159B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US11361529B2 (ja)
JP (1) JP7338159B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052835B (zh) * 2020-09-29 2022-10-11 北京百度网讯科技有限公司 信息处理方法、信息处理装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162149A (ja) 2016-03-09 2017-09-14 キヤノン株式会社 画像処理装置、プログラムおよび画像処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056461A (ja) 1991-06-28 1993-01-14 Sanyo Electric Co Ltd ノイズ除去方式
US6212299B1 (en) * 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
JPH0749926A (ja) * 1993-08-04 1995-02-21 Fuji Xerox Co Ltd 文字認識装置
JP3837193B2 (ja) * 1996-05-13 2006-10-25 松下電器産業株式会社 文字行抽出方法および装置
JP2000295406A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
JP4275866B2 (ja) * 2000-01-27 2009-06-10 富士通株式会社 カラー画像から文字列パターンを抽出する装置および方法
JP2004110128A (ja) * 2002-09-13 2004-04-08 Ricoh Co Ltd 画像処理装置、画像処理方法、および画像処理プログラム並びに記録媒体
JP2006072839A (ja) * 2004-09-03 2006-03-16 Ricoh Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP5322517B2 (ja) * 2008-07-08 2013-10-23 キヤノン株式会社 画像処理装置および方法
JP5347793B2 (ja) * 2009-07-17 2013-11-20 富士通株式会社 文字認識装置、文字認識プログラムおよび文字認識方法
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162149A (ja) 2016-03-09 2017-09-14 キヤノン株式会社 画像処理装置、プログラムおよび画像処理方法

Also Published As

Publication number Publication date
US20200242389A1 (en) 2020-07-30
US11361529B2 (en) 2022-06-14
JP2020119291A (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
CN111639646B (zh) 一种基于深度学习的试卷手写英文字符识别方法及系统
Bissacco et al. Photoocr: Reading text in uncontrolled conditions
Choudhary et al. A new character segmentation approach for off-line cursive handwritten words
US6335986B1 (en) Pattern recognizing apparatus and method
EP2569930B1 (en) Segmentation of a word bitmap into individual characters or glyphs during an ocr process
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN110942074A (zh) 字符切分识别方法、装置、电子设备、存储介质
CN110276351B (zh) 多语言场景文本检测与识别方法
WO2018090011A1 (en) System and method of character recognition using fully convolutional neural networks
CN109948533B (zh) 一种文本检测方法、装置、设备及可读存储介质
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
Wicht et al. Camera-based sudoku recognition with deep belief network
JP7338159B2 (ja) 情報処理装置及びプログラム
JP6116531B2 (ja) 画像処理装置
JP2009223612A (ja) 画像認識装置及びプログラム
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP5039659B2 (ja) 文字認識方法及び文字認識装置
KR102064974B1 (ko) 블럽 기반의 문자 인식 방법 및 이를 위한 장치
Chanda et al. Font identification—In context of an Indic script
CN115082919B (zh) 一种地址识别方法、电子设备及存储介质
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R150 Certificate of patent or registration of utility model

Ref document number: 7338159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150