JP2005309608A - 文字認識結果出力装置、文字認識装置、その方法及びプログラム - Google Patents

文字認識結果出力装置、文字認識装置、その方法及びプログラム Download PDF

Info

Publication number
JP2005309608A
JP2005309608A JP2004123277A JP2004123277A JP2005309608A JP 2005309608 A JP2005309608 A JP 2005309608A JP 2004123277 A JP2004123277 A JP 2004123277A JP 2004123277 A JP2004123277 A JP 2004123277A JP 2005309608 A JP2005309608 A JP 2005309608A
Authority
JP
Japan
Prior art keywords
image data
character
character recognition
cluster
screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004123277A
Other languages
English (en)
Other versions
JP4172584B2 (ja
Inventor
Makoto Kato
加藤 真
Toshimichi Arima
有馬 俊道
Michitoshi Sumikawa
道俊 澄川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004123277A priority Critical patent/JP4172584B2/ja
Priority to US10/907,753 priority patent/US7466861B2/en
Publication of JP2005309608A publication Critical patent/JP2005309608A/ja
Priority to US12/196,247 priority patent/US7558426B2/en
Application granted granted Critical
Publication of JP4172584B2 publication Critical patent/JP4172584B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/184Extraction of features or characteristics of the image by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 同一カテゴリの文字イメージを並べた確認画面において、字形の近似する文字イメージをまとめて表示し、オペレータが認識結果の確認・修正を行う場合の作業効率を向上させ、オペレータの負担を軽減させる。
【解決手段】 文字認識装置の出力機構において、文字認識処理の対象となる文字のイメージデータを、文字認識処理により認識された文字(カテゴリ)ごとに分類するカテゴリ分類部20と、カテゴリ分類部20によって分類された各カテゴリのイメージデータに関して、そのイメージデータに含まれる文字の形状に関する特徴量を求め、この特徴量に基づきイメージデータをさらに1または複数のクラスタに分類するクラスタリング処理部30と、このクラスタリング処理部30により分類されたクラスタごとにイメージデータを表示する確認画面を生成し表示出力する画面生成部50とを備える。
【選択図】 図2

Description

本発明は、コンピュータの表示装置などに表示される画面の表示制御方法に関し、特に文字を認識することにより読み取られたイメージを画面上に表示する方法等に関する。
印刷された文字や手書き文字をコンピュータにより光学的に認識するOCR(Optical Character Recognition)技術では、誤認識を完全になくすことは困難である。そのため、必要に応じて、オペレータの目視により認識結果をチェックし、誤認識された認識結果を修正することが行われる。
オペレータによる認識結果のチェックを行う場合、オペレータが文字イメージと認識結果文字とを比較するためのユーザインタフェースとなる確認画面の構成は、オペレータの確認作業の効率を大きく左右する。すなわち、確認作業に多くの煩雑な工数を要するとすれば、高い作業効率は望めない。また、確認作業のためにオペレータは常に視線を上下左右に動かさなければならず、この動作を長時間にわたって繰り返すことにより、オペレータの目はひどく疲労してしまう。
従来、確認作業に要する工数を減らし、また個々の作業におけるオペレータの負担を軽減することを目的として、図9に示すような認識結果の表示画面(ユーザインタフェース)が提案されている(例えば、特許文献1参照)。
図9に示す画面は、OCRの認識系による認識結果のカテゴリ(文字)が同じであった文字イメージを並べて一括表示する。この確認画面は、同一字形の文字が大量に表示されている中に、少数の異なる字形の文字(すなわち誤認識された文字)が混在している場合、それを容易に発見できるという人の視覚特性を利用したものである。また、この画面構成によれば、オペレータは、正しく認識された文字イメージから認識結果であるカテゴリを判断できるので、文字イメージごとにカテゴリを確認する手間を省くことができる。そのため、この確認画面を用いることにより、認識結果に対する効率的な確認・修正作業が可能である。
米国特許第5,455,875号明細書
上述したように、OCRによる文字認識結果をオペレータの目視によりチェックする場合、作業効率を高め、かつオペレータの負担を軽減するために、ユーザインタフェースとなる確認画面の構成が重要であり、従来技術として、認識結果のカテゴリが同じであった文字イメージを並べて一括表示する確認画面が提案されている。この従来の確認画面は、印刷文字(活字)の場合のように同一カテゴリと認識される文字イメージがほぼ同じ字形である場合に非常に効果的である。
しかし、手書き文字や書体の異なる印刷文字が混在する場合には、同一カテゴリと認識される文字イメージも、個々の文字イメージを相互に比較するとその字形はかなり異なっている。そのため、ほぼ同じ字形の文字が並ぶ中で少数の異なる字形の文字を発見しやすいといった人の視覚特性を有効に活用しにくく、印刷文字の場合ほどには確認・修正作業における効率向上を期待することができなかった。
そこで、本発明は、コンピュータによる文字認識において、オペレータが認識結果の確認・修正を行う場合の作業効率を向上させ、オペレータの負担を軽減させる、認識結果の表示出力を行うことを目的とする。
また本発明は、文字認識の結果を文字イメージの字形に基づいて処理することにより、同一カテゴリと認識された文字イメージを並べて一括表示する確認画面の効果を一層高めることを他の目的とする。
上記の目的を達成するため、本発明は、文字認識装置もしくはその認識結果の出力機構(文字認識結果出力装置)として実現される。すなわち、この文字認識結果の出力機構(装置)は、文字認識処理の対象となる文字のイメージデータを格納するデータ格納部と、このデータ格納部に格納されたイメージデータを、文字認識処理により認識された文字(カテゴリ)ごとに分類するカテゴリ分類部とを備え、さらにカテゴリ分類部によって分類されたカテゴリごとに、イメージデータに含まれる文字の形状に関する特徴量を求め、この特徴量に基づきイメージデータをさらに1または複数のクラスタに分類するクラスタリング処理部と、このクラスタリング処理部により分類されたクラスタごとにイメージデータを表示する確認画面を生成し出力する画面生成部とを備えることを特徴とする。
より詳しくは、このクラスタリング処理部は、例えばイメージデータに含まれるペリフェラル特徴を抽出し、このペリフェラル特徴どうしの特徴空間における距離に基づいてイメージデータをクラスタに分類する。さらに具体的には、文字ごとのイメージデータからペリフェラル特徴の特徴ベクトルを求め、ペリフェラル特徴の特徴空間における文字ごとの特徴ベクトル相互の距離に基づいて、この特徴空間をクラスタに分割する。そして、分割された特徴空間の各クラスタに属する特徴ベクトルの配置を、各クラスタにおける特徴ベクトル相互の距離に基づいて修正する。
画面生成部は、より詳細には、クラスタリング処理部により複数のクラスタに分類されたイメージデータを並べて表示する確認画面を生成し、かつこの確認画面において、イメージデータをクラスタごとにまとめて表示する。そして、より好ましくは、画面生成部は、この確認画面におけるイメージデータに関する表示色をクラスタごとに変えて表示する。具体的な態様としては、イメージデータの表示箇所の背景色を変更したり、イメージデータによる文字自体の表示色を変更したりすることができる。さらに、この画面生成部は、イメージデータが属するクラスタに関する情報を対応するイメージデータに付して表示することもできる。
さらにまた、この文字認識結果の出力機構(装置)は、クラスタリング処理部により分類されたイメージデータを、クラスタごとにソートするソート部をさらに備える構成とすることができる。この場合、画面生成部は、生成される確認画面においてソート部によるソート結果にしたがってイメージデータを並べて表示する。
また、上記の目的を達成する他の本発明は、コンピュータに文字認識処理の結果を出力させる方法として実現される。この方法は、コンピュータが、認識対象である文字のイメージデータを文字認識処理により認識された文字(カテゴリ)ごとに分類する第1のステップと、分類されたカテゴリごとに、イメージデータを読み出し、そのイメージデータに含まれる文字の形状に関する特徴量を求め、この特徴量に基づきイメージデータをさらにクラスタごとに分類する第2のステップと、分類されたクラスタごとにイメージデータを表示する確認画面を生成し、出力する第3のステップとを含む。
また、この方法は、イメージデータをクラスタごとにソートするステップをさらに含み、第3のステップでは、ソート結果にしたがって確認画面にイメージデータを並べて表示する構成とすることができる。
また本発明は、コンピュータを制御して上記の文字認識結果出力方法における各ステップに対応する処理を実行させるプログラム、あるいは、上述した文字認識結果の出力機構(装置)の各機能をコンピュータにより実現させるプログラムとしても実現される。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。
以上のように構成された本発明によれば、同一カテゴリの文字イメージを並べた確認画面において、字形の近似する文字イメージをまとめて表示することが可能となる。
これにより、本発明によれば、オペレータが認識結果の確認・修正を行う場合の作業効率を向上させ、オペレータの負担を軽減させることができる。
以下、添付図面を参照して、本発明を実施するための最良の形態(以下、実施形態)について詳細に説明する。
本発明は、OCR等の文字認識技術における認識結果の出力装置として実現される。したがって、文字認識装置の出力系(機構)として装置に組み込んだり、認識系(機構)の構成とは別個に設けられて認識系による認識結果を処理し出力する文字認識結果出力装置として構成したりすることができる。以下では、独立した装置としての文字認識結果出力装置の構成を例として、実施形態を説明する。
図1は、本実施形態による文字認識結果出力装置を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、演算手段であるCPU(Central Processing Unit:中央処理装置)101と、M/B(マザーボード)チップセット102およびCPUバスを介してCPU101に接続されたメインメモリ103と、同じくM/Bチップセット102およびAGP(Accelerated Graphics Port)を介してCPU101に接続されたビデオカード104と、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット102に接続された磁気ディスク装置(HDD)105、ネットワークインタフェース106と、さらにこのPCIバスからブリッジ回路107およびISA(Industry Standard Architecture)バスなどの低速なバスを介してM/Bチップセット102に接続されたフレキシブルディスクドライブ108およびキーボード/マウス109とを備える。
なお、図1は本実施形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード104を設ける代わりに、ビデオメモリのみを搭載し、CPU101にてイメージデータを処理する構成としても良いし、外部記憶装置として、ATA(AT Attachment)やSCSI(Small Computer System Interface)などのインタフェースを介してCD−R(Compact Disc Recordable)やDVD−RAM(Digital Versatile Disc Random Access Memory)のドライブを設けても良い。
図2は、本実施形態の文字認識結果出力装置の機能構成を示す図である。
図2を参照すると、本実施形態の文字認識結果出力装置は、OCRの認識系によって認識されたイメージデータとその認識結果とを格納するデータ格納部10と、認識結果をカテゴリ(個々の文字)ごとに分類するカテゴリ分類部20と、各カテゴリの認識結果に対してさらに詳細なクラスタリングを行うクラスタリング処理部30と、クラスタリング処理の結果をソートするソート部40と、ソート結果をマージして認識結果を出力するための画面を生成する画面生成部50とを備える。
データ格納部10は、例えば図1に示した磁気ディスク装置105等の記憶装置にて実現され、OCRの認識系によって認識された文字イメージのデータを格納し保持する。この認識結果のイメージデータは、認識系から入力された時点では、認識時の元情報に基づいて整理されている。例えば、紙の帳票に書かれた文字をOCRにて読み取った場合、帳票ごとに認識結果のイメージデータがファイルされてデータ格納部10に格納される。
カテゴリ分類部20は、例えば図1のプログラム制御されたCPU101にて実現され、データ格納部10に格納されているイメージデータを認識結果であるカテゴリ(文字)ごとに分類する。カテゴリごとに分類されたイメージデータは、改めてデータ格納部10に格納される。
クラスタリング処理部30は、例えば図1のプログラム制御されたCPU101にて実現され、カテゴリ分類部20により分類されたイメージデータの中から1つのカテゴリのイメージデータを選択してデータ格納部10から読み出し、クラスタリング処理を行って、同一カテゴリ中の各文字イメージをさらに詳細に分類する。
ここで、クラスタリング処理とは、統計的手法を用いて文字イメージを同種(同形)のもの同士に自動分類する処理である。カテゴリ分類部20により同じカテゴリ(文字)として認識された文字イメージであっても、手書き文字の場合にはそのイメージ形状が各々大きく異なるので、これらが複数のクラスタに分類されることとなる。クラスタリング処理における分類に用いる特徴量としては、オペレータ(人間)が認識結果を確認する際の判断(外形に対する類否の判断等)に影響を与えるような任意の特徴量を用いることができ、例えば、認識系による文字認識に用いたものと同じ特徴量を利用することができる。また、視覚的な区別が明確になるような他の特徴量を選択的に用いることもできる。
クラスタリング処理部30によりクラスタごとに分類されたイメージデータは、例えば図1のメインメモリ103やCPU101のキャッシュメモリ等の記憶手段に保持されてソート部40の処理において用いられる。
ソート部40は、例えば図1のプログラム制御されたCPU101にて実現され、クラスタリング処理部30により詳細に分類された文字イメージを、分類ごとにソートする。ソートの基準としては、種々の基準を用いることができるが、クラスタリング処理の場合と同様に、オペレータが認識結果を確認する際の判断に影響を与えるような特徴量に基づいてソートを行うことができる。
ソート部40によるソート結果は、例えば図1のメインメモリ103やCPU101のキャッシュメモリ等の記憶手段に保持され、画面生成部50により利用される。
画面生成部50は、例えば図1のプログラム制御されたCPU101とビデオカード104等のグラフィックス機構にて実現され、ソート部40によるソート結果に基づき、同一カテゴリに分類されている文字イメージを並べて一括表示する確認画面を生成し、ディスプレイ装置に表示させる。上記のクラスタリング処理部30によるクラスタリング処理およびソート部40によるソート処理を反映させた確認画面を表示させることにより、画面上の文字イメージの並びが、オペレータが見たときに違和感なく同形の文字がまとまって表示されることとなる。
次に、クラスタリング処理部30およびソート部40の処理について、さらに詳細に説明する。
上述したように、クラスタリング処理やソートの基準となる特徴量としては種々のものを用いることができるが、本実施形態では、文字イメージの外形的な性質を代表するペリフェラル特徴を用いてクラスタリング処理を行い、文字イメージの濃淡に影響する特徴量である黒画素数の比率を用いてソートを行った例を挙げて説明する。
まず、ペリフェラル特徴を用いたクラスタリング処理について説明する。
ペリフェラル特徴の抽出処理対象としては、文字サイズを正規化した文字イメージのイメージデータ(以下、正規化イメージと称す)が用いられる。なお、文字イメージにおける文字サイズの正規化処理は、認識系の認識処理においても、認識対象の文字イメージの特徴ベクトルを抽出する前処理として一般的に行われる処理であるので、そこで得られた正規化イメージをそのまま利用することができる。
ペリフェラル特徴とは、この正規化イメージに対し、文字枠の周囲から文字成分の黒画素が最初に現れるまでの深さを測定し、その値を指標とする特徴量である。人間が見た目で文字を判断するときは、細かな内側の部分よりも、外形の印象が判断に大きく影響すると考えられることから、この特徴量を利用してクラスタリングを行うことができる。
正規化イメージからペリフェラル特徴を抽出する具体的な手法を説明する。
図3は、ペリフェラル特徴の抽出方法を説明する図である。
各文字の正規化イメージは、横16画素、縦24画素に正規化されているものとする。この正規化イメージを、横方向に4画素ずつ4分割し、縦方向に4画素ずつ6分割して、短冊状の領域に分ける。それぞれの領域で外辺から内側に向かって画素をスキャンし、最初に黒画素にぶつかるまでの深さ(長さ)をその領域内で総計して得られた値が、その正規化イメージにおける領域ごとのペリフェラル特徴の特徴量となる。
手書き文字の場合、同じ字でも書き手によって外形の差異が大きい。そこで、その差異の影響を抑えるため、深さ方向に関してはスキャンする画素数を制限することができる。スキャンする画素数の最大値を8画素までとすると、1領域の幅は4画素であるので、各領域における特徴量の範囲は0〜32となる。
また、図3に示すように、横方向の4分割および縦方向の6分割によって20個の領域が生成されるので、特徴量の次元数は20次元となる(この次元数を考慮し、以下では、各文字イメージにおけるペリフェラル特徴の特徴量を特徴ベクトルと表記する)。
クラスタリング処理部30は、データ格納部10から読み出された同一カテゴリの各文字イメージに対し、上記の手法を用いてペリフェラル特徴の特徴ベクトルを求める。そして、次に示す手順で、文字イメージのパターン集合から性質の似通った複数個のパターンを要素とする部分集合を構成する操作により、クラスタリング処理を行う。
図4は、クラスタリング処理部30によるクラスタリング処理の流れの一例を説明するフローチャートである。
図4を参照すると、クラスタリング処理部30は、初期化動作として、まず同一カテゴリにおける全ての文字イメージの特徴ベクトルを束ねて1つのクラスタとし、それらの特徴ベクトルの平均値を中心核として登録する(ステップ401)。
次に、クラスタリング処理部30は、クラスタの分割に伴うメンバー(特徴ベクトル)の再配置を行う。なお、初期化時には、ステップ401で初期化された1つのクラスタが存在するだけなので、メンバーを再配置するための以下の一連の処理(ステップ402〜404)は通過する。
まず、クラスタリング処理部30は、個々のメンバーに関して、各登録済みクラスタの中心核との間の距離を計算し、距離が最も近いクラスタに属するよう配置し直す(ステップ402)。そして、クラスタごとに、再配置されたメンバーを考慮して中心核の位置を再計算する(ステップ403)。クラスタリング処理部30は、このクラスタ内のメンバーの再配置と再配置後の各クラスタにおける中心核の位置の再計算を、メンバーの移動がなくなるまで繰り返す(ステップ404)。
ステップ402、403の処理を繰り返してメンバーの移動がなくなったならば、次にクラスタリング処理部30は、登録済みクラスタの中で、中心核と各メンバーとの距離の平均値が最も大きいクラスタを選び、クラスタAとする(ステップ405)。そして、クラスタAにおける中心核と各メンバーとの距離の平均値が、予め設定された閾値以下ならば、クラスタリング処理を終了する(ステップ406)。
一方、クラスタAにおける中心核と各メンバーとの距離の平均値が閾値を超える場合、クラスタリング処理部30は、次の手順でクラスタの分割を行う。
まず、クラスタリング処理部30は、クラスタAに属する特徴ベクトルから任意の2つを選び、それらを仮の中心核とする。そして、残りの特徴ベクトルを、いずれか近い方の仮の中心核に属させて、2つのクラスタB、Cを設定する(ステップ407)。
次に、クラスタリング処理部30は、クラスタB、Cの各々に関して、仮の中心核とメンバーである他の特徴ベクトルとの距離の平均値を求め、2つの平均値を合計する(ステップ408)。
クラスタリング処理部30は、クラスタAのメンバーである特徴ベクトルから仮の中心核として任意の2つを選ぶ組合せ全てに対してステップ407、408の処理を行い(ステップ409)、それぞれの仮の中心核に基づくクラスタB、Cに関して、仮の中心核と他の特徴ベクトルとの距離の平均値の合計を算出する。そして、算出された各クラスタB、Cの組合せにおける仮の中心核と他の特徴ベクトルとの距離の平均値の合計が最小となる組合せを特定し、特定された組合せにおける2つの仮の中心核を新たな中心核に決定して、クラスタAを2つに分割する(ステップ410)。
ステップ410でクラスタAを分割した結果、全体のクラスタ数が予め設定された上限値に達したならば、クラスタリング処理部30は、クラスタリング処理を終了する(ステップ411)。一方、全体のクラスタ数が定められた上限値に達していなければ、ステップ402に戻り、クラスタ内のメンバーの再配置処理およびクラスタの分割処理を繰り返す。
図5は、所定のカテゴリの文字イメージに対する上述したクラスタリング処理の結果を説明する図である。
図5において、多次元の特徴ベクトルの集合である特徴空間500は、処理対象である文字イメージのカテゴリ全体に対応しており、クラスタリング処理の結果、複数のクラスタ501〜507に分割されている。また、各クラスタ501〜507内の点がメンバーである個々の特徴ベクトルを表している。この多次元特徴空間500の構成が、各特徴ベクトルに対応する文字イメージのクラスタリング処理による分類結果を表す。
次に、正規化された文字枠内における黒画素数の比率を用いたソート処理について説明する。
人間の目はイメージの濃淡に対して敏感であることが知られている。そこで、本実施形態では、ソート部40が、正規化イメージ(文字サイズが正規化された文字イメージ)の黒画素の総数を数え、文字枠内における黒画素数の比率を算出する。そして、クラスタリング処理部30の処理によって得られたクラスタごとに、算出された黒画素比率の高い文字イメージから順にイメージデータをソートする。なお、ここでは文字が黒色で書かれることが多いために、黒画素比率を特徴量として用いるとして説明したが、一般的に、文字が書かれた色の画素比率を特徴量として用いることができるのは言うまでもない。
次に、クラスタリング処理部30によるクラスタリング処理およびソート部40によるソート処理を反映させた確認画面について、さらに詳細に説明する。
上述したように、画面生成部50は、ソート部40によるソート結果をマージし、処理対象である文字イメージを一括表示する確認画面を生成する。
図6は、画面生成部50により生成される確認画面の構成例を示す図である。
図6に示す確認画面60には、ソート部40によりソートされた文字イメージを並べて表示する帯状のイメージ表示欄61と、各文字イメージの認識結果であるカテゴリを表示する情報表示欄62とが、上下に並んで表示されている。
図6の本実施形態による確認画面と図9に示した従来の確認画面とを比較すると、図6の確認画面では、同じカテゴリ(図示の例では数字の「9」)に分類された文字イメージのうち、文字の太さや字形が近似しており、人が目視した際によく似た印象を受ける文字イメージどうしがまとまって表示されていることが分かる。
認識結果の確認および修正作業を行うオペレータにとっては、図6のように表示された確認画面を用いることにより、字形の異なる文字イメージがバラバラに並んだ従来の確認画面を用いる場合に比べて負担が少なくなり、作業が容易になる。
また、本実施形態では、文字の太さや字形などで特徴付けられる外形が近似している文字イメージどうしが同じクラスタに分類されてまとまって表示される。したがって、認識系において誤認識された文字イメージは、どのクラスタにも分類されにくいため、結果として誤認識された文字がまとまって表示されやすくなり、認識結果の確認・修正作業が一層容易になる。
さらに、画面生成部50は、クラスタリング処理部30によるクラスタリング処理の結果を確認画面に対して明示的に反映するように表示制御することができる。例えば、文字イメージを表示したイメージ表示欄61の背景色や文字イメージの表示色をクラスタごとに変えて表示したり、情報表示欄62に文字イメージのカテゴリを表示する代わりに当該文字イメージのクラスタの識別情報を表示したりすることができる。
図7は、確認画面60のイメージ表示欄61および情報表示欄62の背景色をクラスタごとに変えて表示した例を示す図、図8は、確認画面60の情報表示欄62に対応する文字イメージのクラスタ番号(図示の例では0〜5)を表示した例を示す図である。
このように、確認画面60において、文字イメージのクラスタの別を明示することにより、オペレータは同じクラスタに属する文字イメージをまとめて把握しやすくなり、認識結果の確認・修正作業が一層容易になる。
本実施形態による文字認識結果出力装置を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。 本実施形態の文字認識結果出力装置の機能構成を示す図である。 本実施形態におけるペリフェラル特徴の抽出方法を説明する図である。 本実施形態におけるクラスタリング処理の流れを説明するフローチャートである。 所定のカテゴリの文字イメージに対する本実施形態によるクラスタリング処理の結果を説明する図である。 本実施形態の画面生成部により生成される確認画面の構成例を示す図である。 本実施形態における確認画面のイメージ表示欄および情報表示欄の背景色をクラスタごとに変えて表示した例を示す図である。 本実施形態における確認画面の情報表示欄に、対応する文字イメージのクラスタ番号を表示した例を示す図である。 文字認識の結果を確認・修正するために用いられる従来の確認画面の構成例を示す図である。
符号の説明
10…データ格納部、20…カテゴリ分類部、30…クラスタリング処理部、40…ソート部、50…画面生成部、60…確認画面、61…イメージ表示欄、62…情報表示欄、101…CPU(Central Processing Unit:中央処理装置)、103…メインメモリ、104…ビデオカード、105…磁気ディスク装置(HDD)

Claims (20)

  1. 文字認識処理の結果を出力する装置において、
    前記文字認識処理の対象となる文字のイメージデータを格納するデータ格納部と、
    前記データ格納部に格納された前記イメージデータを、前記文字認識処理により認識された文字(カテゴリ)ごとに分類するカテゴリ分類部と、
    前記カテゴリ分類部によって分類された前記カテゴリごとに、前記イメージデータに含まれる文字の形状に関する特徴量を求め、当該特徴量に基づき当該イメージデータをさらに1または複数のクラスタに分類するクラスタリング処理部と、
    前記クラスタリング処理部により分類されたクラスタごとに前記イメージデータを表示する画面を生成する画面生成部と
    を備えることを特徴とする文字認識結果出力装置。
  2. 前記クラスタリング処理部は、前記イメージデータに含まれる各文字のペリフェラル特徴を抽出し、当該ペリフェラル特徴どうしの特徴空間における距離に基づいて当該イメージデータを前記クラスタに分類することを特徴とする請求項1に記載の文字認識結果出力装置。
  3. 前記クラスタリング処理部により分類された前記イメージデータを前記クラスタごとにソートするソート部をさらに備え、
    前記画面生成部は、前記画面において前記ソート部によるソート結果にしたがって前記イメージデータを並べて表示することを特徴とする請求項1に記載の文字認識結果出力装置。
  4. 前記ソート部は、前記イメージデータに含まれる文字を記述する色の画素比率を基準として当該イメージデータをソートすることを特徴とする請求項3に記載の文字認識結果出力装置。
  5. 前記画面生成部は、前記クラスタリング処理部により複数の前記クラスタに分類された前記イメージデータを並べて表示する画面を生成し、かつ当該画面において、当該イメージデータを当該クラスタごとにまとめて表示することを特徴とする請求項1に記載の文字認識結果出力装置。
  6. 前記画面生成部は、前記クラスタリング処理部により分類されたクラスタごとに前記イメージデータをまとめて前記画面に表示すると共に、当該画面における当該イメージデータに関する表示色を当該クラスタごとに変えて表示することを特徴とする請求項1に記載の文字認識結果出力装置。
  7. 前記画面生成部は、前記クラスタリング処理部により分類されたクラスタごとに前記イメージデータをまとめて前記画面に表示すると共に、当該イメージデータが属するクラスタに関する情報を当該イメージデータに付して表示することを特徴とする請求項1に記載の文字認識結果出力装置。
  8. 文字のイメージデータを読み取って文字データとして認識する装置において、
    文字認識処理を行う認識機構と、
    前記認識機構による認識結果を出力する出力機構とを備え、
    前記出力機構は、
    前記認識機構による文字認識処理の対象となる文字のイメージデータを格納するデータ格納部と、
    前記データ格納部に格納された前記イメージデータを、前記文字認識処理により認識された文字(カテゴリ)ごとに分類するカテゴリ分類部と、
    前記カテゴリ分類部によって分類された前記カテゴリごとに、前記イメージデータに含まれる文字の形状に関する特徴量を求め、当該特徴量に基づき当該イメージデータをさらに1または複数のクラスタに分類するクラスタリング処理部と、
    前記クラスタリング処理部により分類されたクラスタごとに前記イメージデータを表示する画面を生成し出力する画面生成部と
    を備えることを特徴とする文字認識装置。
  9. 前記出力機構は、前記クラスタリング処理部により分類された前記イメージデータを前記クラスタごとにソートするソート部をさらに備え、
    前記画面生成部は、前記画面において前記ソート部によるソート結果にしたがって前記イメージデータを並べて表示することを特徴とする請求項8に記載の文字認識装置。
  10. 前記出力機構の前記画面生成部は、前記クラスタリング処理部により複数の前記クラスタに分類された前記イメージデータを並べて表示する画面を生成し、かつ当該画面において、当該イメージデータを当該クラスタごとにまとめて表示することを特徴とする請求項8に記載の文字認識装置。
  11. コンピュータに文字認識処理の結果を出力させる方法であって、
    前記コンピュータが、認識対象である文字のイメージデータを前記文字認識処理により認識された文字(カテゴリ)ごとに分類し、記憶手段に格納する第1のステップと、
    前記コンピュータが、分類されたカテゴリごとに、前記イメージデータを読み出し、そのイメージデータに含まれる文字の形状に関する特徴量を求め、当該特徴量に基づき当該イメージデータをさらに1または複数のクラスタに分類する第2のステップと、
    前記コンピュータが、前記分類されたクラスタごとに前記イメージデータを表示する画面を生成し、出力する第3のステップと
    を含むことを特徴とする文字認識結果出力方法。
  12. 前記第2のステップは、
    前記コンピュータが、前記イメージデータに含まれる各文字のペリフェラル特徴の特徴ベクトルを求めるステップと、
    前記コンピュータが、ペリフェラル特徴の特徴空間における文字ごとの前記特徴ベクトル相互の距離に基づいて当該特徴空間をクラスタに分割するステップと、
    前記コンピュータが、分割された前記特徴空間の各クラスタに属する前記特徴ベクトルの配置を、各クラスタにおける当該特徴ベクトル相互の距離に基づいて修正するステップと
    を含むことを特徴とする請求項11に記載の文字認識結果出力方法。
  13. 前記コンピュータが、前記イメージデータを前記クラスタごとにソートするステップをさらに含み、
    前記第3のステップでは、前記コンピュータが、前記ソートの結果にしたがって前記画面に前記イメージデータを並べて表示することを特徴とする請求項11に記載の文字認識結果出力方法。
  14. 前記第3のステップでは、前記コンピュータが、前記画面における前記イメージデータに関する表示色を前記クラスタごとに変えて表示することを特徴とする請求項11に記載の文字認識結果出力方法。
  15. 前記第3のステップでは、前記コンピュータが、前記画面において前記イメージデータが属するクラスタに関する情報を当該イメージデータに付して表示することを特徴とする請求項11に記載の文字認識結果出力方法。
  16. コンピュータに、
    認識対象である文字のイメージデータを、文字認識処理により認識された文字(カテゴリ)ごとに分類し、記憶手段に格納する第1の処理と、
    分類されたカテゴリごとに、前記イメージデータを読み出し、そのイメージデータに含まれる文字の形状に関する特徴量を求め、当該特徴量に基づき当該イメージデータをさらに1または複数のクラスタに分類する第2の処理と、
    前記クラスタごとに前記イメージデータを表示する画面を生成し、出力する第3の処理と
    を実行させることを特徴とするプログラム。
  17. 前記第2の処理では、前記イメージデータに含まれる各文字からペリフェラル特徴を抽出し、当該ペリフェラル特徴どうしの特徴空間における距離に基づいて当該イメージデータを分類する処理を前記コンピュータに実行させることを特徴とする請求項16に記載のプログラム。
  18. 前記イメージデータを前記クラスタごとにソートする処理を前記コンピュータにさらに実行させ、
    前記第3の処理では、前記ソートの結果にしたがって前記画面に前記イメージデータを並べて表示する処理を前記コンピュータに実行させることを特徴とする請求項16に記載のプログラム。
  19. 前記第3の処理では、前記画面における前記イメージデータに関する表示色を前記クラスタごとに変えて表示する処理を前記コンピュータに実行させることを特徴とする請求項16に記載のプログラム。
  20. 前記第3の処理では、前記画面において前記イメージデータが属するクラスタに関する情報を当該イメージデータに付して表示する処理を前記コンピュータに実行させることを特徴とする請求項16に記載のプログラム。
JP2004123277A 2004-04-19 2004-04-19 文字認識結果出力装置、文字認識装置、その方法及びプログラム Expired - Fee Related JP4172584B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004123277A JP4172584B2 (ja) 2004-04-19 2004-04-19 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US10/907,753 US7466861B2 (en) 2004-04-19 2005-04-14 Method for outputting character recognition results
US12/196,247 US7558426B2 (en) 2004-04-19 2008-08-21 Device for outputting character recognition results, character recognition device, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004123277A JP4172584B2 (ja) 2004-04-19 2004-04-19 文字認識結果出力装置、文字認識装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005309608A true JP2005309608A (ja) 2005-11-04
JP4172584B2 JP4172584B2 (ja) 2008-10-29

Family

ID=35096329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004123277A Expired - Fee Related JP4172584B2 (ja) 2004-04-19 2004-04-19 文字認識結果出力装置、文字認識装置、その方法及びプログラム

Country Status (2)

Country Link
US (2) US7466861B2 (ja)
JP (1) JP4172584B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146147A (ja) * 2011-01-12 2012-08-02 Hitachi Solutions Ltd 文書処理装置、及び文書処理プログラム
JP2013077157A (ja) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> 光学式文字認識で生成したテキストデータの校正を支援するためのシステム、方法、プログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3861157B2 (ja) * 2004-02-27 2006-12-20 国立大学法人広島大学 参照データ最適化装置とパターン認識システム
US7660824B2 (en) * 2004-05-20 2010-02-09 Bea Systems, Inc. System and method for performing batch configuration changes
TWI405135B (zh) * 2005-05-17 2013-08-11 Ibm 系統,方法及記錄媒體
US8116566B2 (en) * 2006-08-28 2012-02-14 Colorado State University Research Foundation Unknown pattern set recognition
US7650035B2 (en) * 2006-09-11 2010-01-19 Google Inc. Optical character recognition based on shape clustering and multiple optical character recognition processes
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
EP2074558A4 (en) * 2006-09-08 2013-07-31 Google Inc FORM CLUSTERING IN THE POST-OPERATION OF THE RECOGNITION OF OPTICAL CHARACTERS
TWI344623B (en) * 2007-04-13 2011-07-01 Primax Electronics Ltd Method for text and graphic separation and text enhancement
CN107102723B (zh) * 2007-08-20 2019-12-06 高通股份有限公司 用于基于手势的移动交互的方法、装置、设备和非暂时性计算机可读介质
US9261979B2 (en) * 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
US8103132B2 (en) * 2008-03-31 2012-01-24 International Business Machines Corporation Fast key-in for machine-printed OCR-based systems
JP4661921B2 (ja) * 2008-08-26 2011-03-30 富士ゼロックス株式会社 文書処理装置およびプログラム
US20110044554A1 (en) * 2009-08-21 2011-02-24 Konica Minolta Systems Laboratory, Inc. Adaptive deblurring for camera-based document image processing
KR20110085728A (ko) * 2010-01-21 2011-07-27 삼성전자주식회사 휴대용 단말기에서 건물 영역을 인식하기 위한 장치 및 방법
US20110211737A1 (en) * 2010-03-01 2011-09-01 Microsoft Corporation Event Matching in Social Networks
US8983210B2 (en) * 2010-03-01 2015-03-17 Microsoft Corporation Social network system and method for identifying cluster image matches
US9465993B2 (en) * 2010-03-01 2016-10-11 Microsoft Technology Licensing, Llc Ranking clusters based on facial image analysis
US8660371B2 (en) 2010-05-06 2014-02-25 Abbyy Development Llc Accuracy of recognition by means of a combination of classifiers
US8768105B2 (en) * 2011-01-21 2014-07-01 Kodak Alaris Inc. Method for searching a database using query images and an image anchor graph-based ranking algorithm
EP2671168A4 (en) * 2011-02-03 2017-03-08 Voxeleron LLC Method and system for image analysis and interpretation
JP2012203298A (ja) * 2011-03-28 2012-10-22 Brother Ind Ltd 画像処理装置及びプログラム
JP6067040B2 (ja) * 2015-01-30 2017-01-25 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
RU2693916C1 (ru) * 2018-04-09 2019-07-05 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание символов с использованием иерархической классификации
US10824899B2 (en) * 2018-12-27 2020-11-03 Microsoft Technology Licensing, Llc Structural clustering and alignment of OCR results
CN110502651B (zh) * 2019-08-15 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110751140A (zh) * 2019-09-16 2020-02-04 深圳市国信合成科技有限公司 字符批量识别方法、装置和计算机设备
CN112800972A (zh) * 2021-01-29 2021-05-14 北京市商汤科技开发有限公司 文字识别方法及装置、存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US5463696A (en) * 1992-05-27 1995-10-31 Apple Computer, Inc. Recognition system and method for user inputs to a computer system
JPH0696263A (ja) 1992-09-09 1994-04-08 Nippon Telegr & Teleph Corp <Ntt> パターン認識装置
ES2150926T3 (es) * 1993-06-30 2000-12-16 Ibm Metodo para segmentacion de imagenes y clasificacion de elementos de imagen para tratamiento de documentos.
US5812697A (en) * 1994-06-10 1998-09-22 Nippon Steel Corporation Method and apparatus for recognizing hand-written characters using a weighting dictionary
AU3477397A (en) * 1996-06-04 1998-01-05 Paul J. Werbos 3-brain architecture for an intelligent decision and control system
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP3000349B2 (ja) 1997-06-19 2000-01-17 株式会社バーズ情報科学研究所 キー入力編集方法及び編集装置
US6562077B2 (en) * 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6252988B1 (en) * 1998-07-09 2001-06-26 Lucent Technologies Inc. Method and apparatus for character recognition using stop words
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP2001256244A (ja) * 2000-03-14 2001-09-21 Fuji Xerox Co Ltd 画像データ分類装置および画像データ分類方法
US7072523B2 (en) * 2000-09-01 2006-07-04 Lenovo (Singapore) Pte. Ltd. System and method for fingerprint image enhancement using partitioned least-squared filters
US20020164070A1 (en) * 2001-03-14 2002-11-07 Kuhner Mark B. Automatic algorithm generation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146147A (ja) * 2011-01-12 2012-08-02 Hitachi Solutions Ltd 文書処理装置、及び文書処理プログラム
JP2013077157A (ja) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> 光学式文字認識で生成したテキストデータの校正を支援するためのシステム、方法、プログラム
US8953910B2 (en) 2011-09-30 2015-02-10 International Business Machines Corporation Proof reading of text data generated through optical character recognition
US8971670B2 (en) 2011-09-30 2015-03-03 International Business Machines Corporation Proof reading of text data generated through optical character recognition

Also Published As

Publication number Publication date
US20050232495A1 (en) 2005-10-20
JP4172584B2 (ja) 2008-10-29
US7558426B2 (en) 2009-07-07
US20080310738A1 (en) 2008-12-18
US7466861B2 (en) 2008-12-16

Similar Documents

Publication Publication Date Title
JP4172584B2 (ja) 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US5539841A (en) Method for comparing image sections to determine similarity therebetween
LeCun et al. Learning methods for generic object recognition with invariance to pose and lighting
US5410611A (en) Method for identifying word bounding boxes in text
CN102667810B (zh) 数字图像中的面部识别
US8009900B2 (en) System and method for detecting an object in a high dimensional space
WO2017016240A1 (zh) 一种钞票冠字号识别方法
JP5997545B2 (ja) 信号処理方法及び信号処理装置
EP2434431A1 (en) Method and device for classifying image
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
CN104182722B (zh) 文本检测方法和装置以及文本信息提取方法和系统
CN110717492B (zh) 基于联合特征的图纸中字符串方向校正方法
CN110598703B (zh) 一种基于深度神经网络的ocr识别方法及装置
Shafait et al. Pixel-accurate representation and evaluation of page segmentation in document images
US20090218404A1 (en) Camera based code reading
CN102737240B (zh) 分析数字文档图像的方法
WO2021159802A1 (zh) 图形验证码识别方法、装置、计算机设备及存储介质
CN100371945C (zh) 一种计算机辅助书法作品真伪鉴别方法
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
JP3634574B2 (ja) 情報処理方法及び装置
CN111612045B (zh) 一种获取目标检测数据集的通用方法
CN112949728A (zh) 基于切片图像筛选和特征聚合的mri图像分类方法
JP4749884B2 (ja) 顔判別装置の学習方法、顔判別方法および装置並びにプログラム
Nadeem et al. Character recognition using template matching
US11995907B2 (en) Distributed computer system for document authentication

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080806

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees