JP2009259190A - 文字認識プログラムおよび文字認識装置 - Google Patents

文字認識プログラムおよび文字認識装置 Download PDF

Info

Publication number
JP2009259190A
JP2009259190A JP2008220424A JP2008220424A JP2009259190A JP 2009259190 A JP2009259190 A JP 2009259190A JP 2008220424 A JP2008220424 A JP 2008220424A JP 2008220424 A JP2008220424 A JP 2008220424A JP 2009259190 A JP2009259190 A JP 2009259190A
Authority
JP
Japan
Prior art keywords
character
category
information
image
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008220424A
Other languages
English (en)
Inventor
Katsuto Fujimoto
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008220424A priority Critical patent/JP2009259190A/ja
Priority to US12/396,961 priority patent/US20090245658A1/en
Publication of JP2009259190A publication Critical patent/JP2009259190A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字認識装置は、入力された文字画像を認識して出力する場合に、高精度な文字認識を実現することを課題とする。
【解決手段】文字認識装置は、入力された文字画像を認識して出力する場合に、入力された文字画像の比較分類対象となる文字カテゴリの構造情報を利用して文字パターンを抽出し、抽出された文字パターンと当該文字パターンに対応する文字カテゴリとの類似度が最大となる文字カテゴリを、入力された文字画像の認識結果として出力する。
【選択図】 図1

Description

この発明は、入力された文字画像を認識して出力する文字認識プログラムおよび文字認識装置に関する。
従来より、スキャナなどによる文字認識は、カラー文書画像において容量低減やスキャン高速化などのため、低解像度画像(例えば、「150〜200dpi」など)が一般的に利用されている。そして、この低解像度のカラー画像、さらには、解像度の低い白黒画像や濃淡画像などの低解像度画像中の様々な文字パターンに対応して、高精度に認識する技術の必要性が高まってきている。
この低解像度画像を認識する技術として、例えば、特許文献1(特開2000−181994号公報)では、カラー画像や濃淡画像などを二値化して白黒二値パターンで表現される文字パターンを抽出し、抽出された文字パターンと、文字の標準パターンを記憶する特徴辞書とを用いて当該2つのパターンの類似度を算出し、入力画像に対応する文字を認識している。
また、カラー画像や濃淡画像などの二値化は、背景よりも濃い部分をストローク(縦の線分や横の線分など)として抽出する「背景判別Niblack二値化」や「コントラストフリー二値化」などが一般的に利用されている。
特開2000−181994号公報
しかしながら、上記した従来の技術は、文字パターンにおいて潰れやかすれなどが発生するために、文字認識の精度が低いという課題があった。具体的には、「背景判別Niblack二値化」や「コントラストフリー二値化」などは、濃淡劣化画像などを二値化する場合に、背景画像(白色)に対して濃い部分(黒色)を出力することにより文字認識させる手法である。そして、これらの手法は、図23に示すように、線分が細い部分や、線分が密集していて背景画像との区別がしづらい部分などがある文字パターンにおいて潰れやかすれなどが発生する。この結果、従来の技術は、文字認識の精度が低いという課題があった。なお、図23は、従来技術に係る二値化によって出力される文字パターンの例を示す図である。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、高精度な文字認識を実現することが可能である文字認識プログラムおよび文字認識装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本願の開示する文字認識装置は、入力された文字画像の情報と、前記入力された文字画像を認識して出力する文字を示す文字カテゴリの構造に関する情報とに基づいて、前記入力された文字画像を認識する際に前記文字カテゴリと照合される文字パターンを抽出する文字パターン抽出手段と、前記文字パターン抽出手段によって抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力する類似度算出手段と、を有することを要件とする。
本願の開示する文字認識装置によれば、高精度な文字認識を実現することが可能であるという効果を奏する。
以下に添付図面を参照して、この発明に係る文字認識装置の実施例を詳細に説明する。なお、以下では、本発明に係る文字認識装置の概要および特徴、文字認識装置の構成および処理の流れを順に説明し、最後に本実施例による効果を説明する。
[概要および特徴]
最初に、図1を用いて、実施例1に係る文字認識装置の概要および特徴を説明する。図1は、実施例1に係る文字認識装置の概要および特徴を示す図である。
この文字認識装置は、所定の装置や媒体などから入力された文字画像を認識して、当該文字画像の文字を出力するものである。なお、入力される文字画像は、例えば、カラー画像、白黒画像または濃淡劣化画像などであり、画像の種類は何であっても良い。
このような構成において、文字認識装置は、入力された文字画像を認識して出力することを概要とするものであり、特に、高精度な文字認識を実現することが可能である点を主たる特徴とする。なお、以下では、入力される文字画像が濃淡劣化画像である場合を説明する。
この主たる特徴について具体的に説明すると、文字認識装置は、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を記憶する文字構造辞書記憶部を有する。また、文字認識装置は、文字カテゴリに対応付けて、入力された文字画像を認識する際に文字カテゴリと照合される文字パターンを記憶する文字認識辞書記憶部を有する。
このような状態において、文字認識装置は、入力された文字画像の情報と、文字構造辞書記憶部に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出して文字認識辞書記憶部に格納する(図1の(1)参照)。
具体的に説明すると、文字認識装置は、入力された「早」の濃淡劣化画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「言」の構造に関する情報である縦ストローク数「2」および横ストローク数「6」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置は、抽出された縦ストロークと横ストロークとを合成して、入力された「早」の濃淡劣化画像の文字パターンを抽出する。続いて、文字認識装置は、文字カテゴリ「言」に対応付けて、抽出された文字パターンを文字認識辞書記憶部に格納する。
また、文字認識装置は、入力された「早」の濃淡劣化画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「中」の構造に関する情報である縦ストローク数「3」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置は、抽出された縦ストロークと横ストロークとを合成して、入力された「中」の濃淡劣化画像の文字パターンを抽出する。続いて、文字認識装置は、文字カテゴリ「中」に対応付けて、抽出された文字パターンを文字認識辞書記憶部に格納する。
また、文字認識装置は、入力された「早」の濃淡劣化画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「早」の構造に関する情報である縦ストローク数「3」および横ストローク数「4」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置は、抽出された縦ストロークと横ストロークとを合成して、入力された「早」の濃淡劣化画像の文字パターンを抽出する。続いて、文字認識装置は、文字カテゴリ「早」に対応付けて、抽出された文字パターンを文字認識辞書記憶部に格納する。
なお、文字パターンの抽出は、文字構造辞書記憶部に記憶されている全ての文字カテゴリに対して実施すると、処理時間が膨大になってしまうので、従来技術を利用して、入力される文字画像から抽出される文字パターンに対応する文字カテゴリをある程度の数に制限する。つまり、文字認識装置は、入力される文字画像に対して従来から利用されている文字認識処理を実施して、得られた文字認識処理結果の候補を文字カテゴリとし、当該文字カテゴリの構造情報を利用して文字パターンを抽出する。
そして、文字認識装置は、文字認識辞書記憶部に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を、入力された文字画像の認識結果として出力する(図1の(2)参照)。
上記した例で具体的に説明すると、文字認識装置は、文字認識辞書記憶部に格納された「早」の濃淡劣化画像の文字パターンと、当該文字パターンに対応する文字カテゴリ「言」とを照合して類似度を算出する。また、文字認識装置は、文字認識辞書記憶部に格納された「早」の濃淡劣化画像の文字パターンと、当該文字パターンに対応する文字カテゴリ「中」とを照合して類似度を算出する。また、文字認識装置は、文字認識辞書記憶部に格納された「早」の濃淡劣化画像の文字パターンと、当該文字パターンに対応する文字カテゴリ「早」とを照合して類似度を算出する。
そして、文字認識装置は、算出された類似度が最大となる文字カテゴリ「早」を、入力された「早」の濃淡劣化画像の認識結果として出力する。さらに、入力された文字画像の認識結果としては、類似度が算出された文字カテゴリの候補となった文字「言」や「中」などの文字コードや算出された類似度などの情報を出力するようにしてもよい。
なお、文字認識装置は、入力された文字画像に対して、比較分類対象となる文字カテゴリの数だけ上記した文字パターン抽出処理と、類似度算出処理とを繰り返し実施することとなる。そして、文字認識装置は、比較分類対象となる全ての文字カテゴリについて算出された類似度が最大となる文字カテゴリを、入力された文字画像の認識結果として出力する。
このようなことから、実施例1に係る文字認識装置は、入力された文字画像を認識して出力する場合に、入力された文字画像の比較分類対象となる文字カテゴリの構造情報を利用して文字パターンを抽出し、抽出された文字パターンと当該文字パターンに対応する文字カテゴリとの類似度が最大となる文字カテゴリを、入力された文字画像の認識結果として出力することができる結果、高精度な文字認識を実現することが可能である。
つまり、文字認識装置は、入力された文字画像を認識して出力する場合に、種々の文字カテゴリの構造情報を利用した文字パターンを抽出するので、入力される文字画像について背景判別して出力することによって、特に複雑な文字において潰れやかすれなどが発生する従来技術と比較して、複雑な文字においても潰れやかすれなどが発生することなく、高精度な文字認識を実現することが可能である。
言い換えると、文字認識装置は、入力される文字画像の縦または横の線分が背景判別によって出力した場合に潰れやかすれなどが発生する線分であっても、文字カテゴリの構造情報である縦と横との線分の数は明らかであるため、当該線分の数を必ず利用した文字認識結果を出力する。この結果、文字認識装置は、複雑な文字においても潰れやかすれなどが発生することなく、高精度な文字認識を実現することが可能である。
[実施例1に係る文字認識装置の構成]
次に、図2を用いて、実施例1に係る文字認識装置の構成を説明する。図2は、実施例1に係る文字認識装置の構成を示す図である。
図2に示すように、文字認識装置10は、記憶部20と、制御部30とを有し、接続されるスキャナや媒体などから入力される文字画像を認識して、当該文字画像の文字を認識して出力する。
記憶部20は、制御部30による各種処理に必要なデータや、制御部30による各種処理結果を記憶し、特に本発明に密接に関連するものとしては、文字構造辞書記憶部21と、文字認識辞書記憶部22とを有する。
文字構造辞書記憶部21は、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を記憶する。例えば、文字構造辞書記憶部21は、図3に示すように、入力された「早」の文字画像を認識して出力する文字を示す文字カテゴリ「早」に対応付けて、当該文字カテゴリ「早」の縦ストローク数「3」と横ストローク数「4」との構造に関する情報を記憶する。なお、図3は、文字構造辞書記憶部21に記憶される情報の例を示す図である。
文字認識辞書記憶部22は、文字カテゴリに対応付けて、入力された文字画像を認識する際に文字カテゴリと照合される文字パターンを記憶する。例えば、文字認識辞書記憶部22は、図4に示すように、文字カテゴリ「早」に対応付けて、入力された「早」の文字画像を認識する際に文字カテゴリ「早」と照合される文字パターンを記憶する。なお、図4は、文字認識辞書記憶部22に記憶される情報の例を示す図である。
制御部30は、制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有するとともに、特に本発明に密接に関連するものとしては、文字パターン抽出部31と、類似度算出部32とを有し、これらによって種々の処理を実行する。
文字パターン抽出部31は、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出して文字認識辞書記憶部22に格納する。
具体的に例を挙げて説明すると、文字パターン抽出部31は、入力された「早」の文字画像に対して、文字構造辞書記憶部21に記憶された文字カテゴリ「早」の構造に関する情報である縦ストローク数「3」および横ストローク数「4」を利用して、縦ストロークと横ストロークとを抽出する。
そして、文字パターン抽出部31は、抽出された縦ストロークと横ストロークとを合成して、入力された「早」の文字画像の文字パターンを抽出する。続いて、文字パターン抽出部31は、文字カテゴリ「早」に対応付けて、抽出された文字パターンを文字認識辞書記憶部22に格納する。
なお、文字パターン抽出部31は、上記した文字パターン抽出処理を、入力された「早」の文字画像の比較分類対象となる文字カテゴリ「言」や「中」などに対して実施して、複数の文字パターンを抽出して文字認識辞書記憶部22に格納する。
類似度算出部32は、文字パターン抽出部31によって文字認識辞書記憶部22に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を、入力された文字画像の認識結果として出力する。
上記した例で具体的に例を挙げると、類似度算出部32は、文字パターン抽出部31によって文字認識辞書記憶部22に格納された「早」の文字画像の文字パターンと、当該文字パターンに対応する文字カテゴリ「早」とを照合して類似度を算出する。また、類似度算出部32は、文字パターン抽出部31によって文字認識辞書記憶部22に格納された「言」や「中」などの文字パターンと、当該文字パターンの文字カテゴリ「言」や「中」などとを照合してそれぞれ類似度を算出する。
そして、類似度算出部32は、算出された類似度が最大となる文字カテゴリ「早」を、入力された「早」の文字画像の認識結果として出力する。なお、入力された文字画像の認識結果としては、類似度が算出された文字カテゴリの候補となった文字「言」や「中」などの文字コードや算出された類似度などの情報を出力するようにしてもよい。
[実施例1に係る文字認識装置による処理]
次に、図5を用いて、実施例1に係る文字認識装置10による文字認識処理を説明する。図5は、実施例1に係る文字認識装置10による文字認識処理を説明するためのフローチャートである。
図5に示すように、文字認識装置10は、所定の装置や媒体などから文字画像が入力されると(ステップS11肯定)、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出して文字認識辞書記憶部22に格納する(ステップS12)。
例えば、文字認識装置10は、スキャナや媒体(CD−R)などから文字画像が入力されると、入力された「早」の濃淡劣化画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「早」の構造に関する情報である縦ストローク数「3」および横ストローク数「4」を利用して、縦ストロークと横ストロークとを抽出する。
そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「早」の濃淡劣化画像の文字パターンを抽出する。続いて、文字認識装置10は、文字カテゴリ「早」に対応付けて、抽出された文字パターンを文字認識辞書記憶部22に格納する。
そして、文字認識装置10は、文字認識辞書記憶部22に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を、入力された文字画像の認識結果として出力する(ステップS13)。
例えば、文字認識装置10は、文字認識辞書記憶部22に格納された「早」の濃淡劣化画像の文字パターンと、当該文字パターンに対応する文字カテゴリ「早」とを照合して類似度を算出する。そして、文字認識装置10は、算出された類似度が最大となる文字カテゴリ「早」を、入力された「早」の濃淡劣化画像の認識結果として出力する。
なお、入力された「早」の濃淡劣化画像の認識結果としては、上記した文字カテゴリ「早」だけでなく、類似度が算出された文字カテゴリの候補となった文字(例えば、「言」や「中」など。)の文字コードや算出された類似度などの情報を出力するようにしてもよい。
[実施例1に係る文字パターン抽出処理]
次に、図6を用いて、実施例1に係る文字パターン抽出処理の詳細を説明する。図6は、実施例1に係る文字パターン抽出処理の詳細を説明するためのフローチャートである。なお、以下に説明する文字パターン抽出処理は、図5に示したステップS12における処理に該当する。
図6に示すように、文字認識装置10は、所定の装置や媒体などから文字画像が入力されると(ステップS21肯定)、入力された文字画像を白領域範囲並びに黒領域範囲に数値化する(ステップS22)。
具体的に説明すると、文字認識装置10は、スキャナや媒体(CD−R)などから文字画像が入力されると、当該入力画像における白領域範囲を「0」、黒領域範囲を「255」とした濃淡画像に変換する。そして、文字認識装置10は、図7に示すように、入力された文字画像情報(元画像情報)にエッジフィルタを適用して、当該文字画像内の境界値を算出し、算出された境界値情報を文字画像の数値情報とする。なお、図7は、実施例1に係る文字画像中の領域情報取得処理を説明するための図である。
そして、文字認識装置10は、算出された境界値情報が画像劣化の影響を強く保持した数値情報であるため、当該数値情報に対し、図8に示すシグモイド関数を利用して、弱い境界値情報を出来る限り強く、または、強い境界値情報を一定値まで弱くなるように数値情報の平滑化を実施する。なお、図8は、実施例1に係るシグモイド関数による境界値情報の平滑化処理を説明するための図である。
そして、文字認識装置10は、入力された文字画像を数値化した情報と、文字構造辞書記憶部21に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、入力された文字画像の線分を動的計画法により検出し(ステップS23)、文字パターンを抽出して文字認識辞書記憶部22に格納する(ステップS24)。
上記した例で具体的に説明すると、文字認識装置10は、入力された文字画像を数値化した情報と、文字構造辞書記憶部21に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、(式1)に示した動的計画法を利用した算出式によって、入力される文字画像における文字ストロークを検出する。この文字画像における文字ストロークの検出は、(式1)において最大となる評価値を算出することにより求める。
Figure 2009259190
また、(式1)に示したX座標範囲(xs,xe)とY座標範囲(ys,ye)における白領域評価値(例えば、「Wx(Y)」など。)の算出は、(式2)に示すように、境界情報各セルの平均値を利用した算出式により求める。
Figure 2009259190
また、(式1)に示した黒領域評価値(例えば、「Bx(Y)」など。)の算出は、白領域評価値と同様に、各セルの平均値に基づいて算出することとなる。この黒領域評価値における黒領域の境界値については、図9に示すように、「黒プラス領域」と、「一様領域(白領域)」と、「黒マイナス領域」との3つの部分に分類される。よって、黒領域評価値の算出は、(式3)に示すように、黒プラス領域における評価値「Bu」と、黒マイナス領域における評価値「Bd」と、一様領域(白領域)における評価値「Wc」との和によって求める。なお、図9は、実施例1に係る黒領域評価値の取得について説明するための図である。
Figure 2009259190
つまり、文字認識装置10は、(式1)の算出式における「Y」〜「Y」までの白領域評価値を(式2)の算出式、黒領域評価値を(式3)の算出式を利用して、最大となる評価値を求めることで、入力される文字画像における文字ストロークを検出する。その後、文字認識装置10は、検出された文字ストロークを合成して文字パターンを抽出し、文字認識辞書記憶部22に格納する。
[実施例1による効果]
このようにして、実施例1によれば、文字認識装置10は、入力された文字画像を認識して出力する場合に、入力された文字画像の比較分類対象となる文字カテゴリの構造情報を利用して文字パターンを抽出し、抽出された文字パターンと当該文字パターンに対応する文字カテゴリとの類似度をそれぞれ算出し、算出された類似度が最大となる文字カテゴリを、入力された文字画像の認識結果として出力することができる結果、高精度な文字認識を実現することが可能である。
例えば、文字認識装置10は、入力された文字画像を認識して出力する場合に、入力された「早」の文字画像に対して、文字カテゴリ「早」の構造に関する情報である縦ストローク数「3」および横ストローク数「4」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「早」の文字画像の文字パターンを抽出する。続いて、文字認識装置10は、抽出された「早」の文字画像の文字パターンと、当該文字パターンに対応する文字カテゴリ「早」とを照合して類似度を算出する。その後、文字認識装置10は、算出された類似度が最大となる文字カテゴリ「早」を、入力された「早」の文字画像の認識結果として出力する。この結果、文字認識装置10は、高精度な文字認識を実現することが可能である。
ところで、上記実施例1では、文字パターンを抽出する際に白領域範囲および黒領域範囲それぞれの評価値を動的計画法によって算出し、算出された評価値が最大となるものを出力する場合を説明したが、本発明はこれに限定されるものではなく、文字パターンを抽出する際に白領域および黒領域範囲それぞれの評価値を動的計画法によって算出するとともに、線分の長短によって黒領域評価値を加点して、算出された評価値が最大となるものを出力することもできる。
そこで、以下の実施例2では、(式4)〜(式6)を用いて、実施例2に係る文字認識装置10による文字パターン抽出処理について説明する。なお、実施例2に係る文字認識装置10の各構成や一部の機能などについては、実施例1と同様であるためその説明を省略し、特に、実施例1とは異なる二段階の動的計画法を利用した文字パターン抽出処理を説明する。
[実施例2に係る文字パターン抽出処理]
まず、スキャナやデジタルカメラなどで取得された濃淡劣化画像などの自然画像は、取得解像度や撮影状況などによって、人工画像と比較して濃淡値が一定値になることが少ないことが一般的に知られている。そして、このような状態において境界値を取得し、(式3)を利用した黒領域の評価値算出は、入力される文字画像において、本来であれば線分が長く、連続していなければならない領域が、濃淡差によって短い連続した領域でしか高い評価が得られない可能性があるため、出来る限り長い連続領域を高評価とする必要がある。そのため、この評価値算出においては、長い連続領域を高評価とするために、(式4)に示すように加点要素「Bl(X)」を算出する。
Figure 2009259190
また、文字認識装置10による黒領域評価値の算出においては、図9に示した一様領域(白領域)の部分は色としては白色ではないので、当該一様領域の濃淡値を利用して黒領域評価値に加点することとして、(式5)に示すように入力される文字画像の濃淡値から算出する評価値「Bs(X,Y)」を算出する。
Figure 2009259190
上記した(式4)と(式5)とから、文字認識装置10による黒領域評価値の算出は、(式6)に示すように領域(X,Y)における最終的な黒領域評価値「B(X,Y)」を算出することにより求める。また、文字認識装置10は、算出された評価値が最大となるものを文字パターンとして抽出し、抽出された文字パターンと当該文字パターンに対応する文字カテゴリとの類似度が最大となるものを、入力された文字画像の認識結果として出力する。なお、類似度とは、白黒文字認識によって取得される文字の類似性を計る距離値(文字パターンと文字カテゴリとの距離ベクトル)や識別関数値などである。
Figure 2009259190
[実施例2による効果]
このようなことから、実施例2に係る文字認識装置10は、入力された文字画像を認識して出力する場合に、入力された文字画像を白領域範囲並びに黒領域範囲に数値化した情報と、文字カテゴリの縦および横の線分の数に関する情報とに基づいて、入力された文字画像の線分を動的計画法により検出するとともに、当該線分の長短によって黒領域を加点した文字パターンを抽出し、抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとの距離値を算出し、算出された距離値が最も近くなる文字カテゴリ、または、当該距離値が算出された文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力することができる結果、安定してより高精度な文字認識を実現することが可能である。
つまり、文字認識装置10は、入力された文字画像を認識して出力する場合に、入力された文字画像の比較分類対象となる文字カテゴリの縦および横の線分について、長く、連続した領域を高評価とするために加点要素を利用して最終的な黒評価値を算出し、文字パターンを抽出するので、安定してより高精度な文字認識を実現することが可能である。
ところで、上記実施例1または上記実施例2では、入力画像の縦および横の線分の数や、当該線分の長さに基づいて類似度を算出する場合を説明したが、本発明はこれに限定されるものではなく、入力画像の縦および横の線分の位置情報に基づいて類似度を算出することもできる。
そこで、以下の実施例3では、図10〜図15を用いて、入力画像の縦および横の線分の位置情報に基づいて類似度を算出する場合について説明する。
[実施例3の概要]
最初に、図10を用いて、実施例3に係る文字認識装置10の概要を説明する。図10は、実施例3に係る文字認識装置10の概要を示す図である。なお、以下では、入力される文字画像が「口」である場合を説明する。
文字認識装置10は、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を構造辞書記憶部に記憶している。そして、文字認識装置10は、入力された文字画像の情報と、構造辞書記憶部に記憶された文字カテゴリの構造に関する情報とに基づいて、入力された文字画像を認識する際に文字カテゴリと照合される文字パターンを抽出する(図10の(1)参照)。
具体的に説明すると、文字認識装置10は、入力された「口」の文字画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
また、文字認識装置10は、入力された「口」の文字画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「井」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
なお、文字パターンの抽出は、文字構造辞書記憶部に記憶されている全ての文字カテゴリに対して実施すると、処理時間が膨大になってしまうので、従来技術を利用して、入力される文字画像から抽出される文字パターンに対応する文字カテゴリをある程度の数に制限する。つまり、文字認識装置10は、入力される文字画像に対して従来から利用されている文字認識処理を実施して、得られた文字認識処理結果の候補を文字カテゴリとし、当該文字カテゴリの構造情報を利用して文字パターンを抽出する。
そして、文字認識装置10は、抽出された文字パターンと、構造辞書記憶部に記憶された文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する(図10の(2)参照)。
上述した例で具体的に説明すると、文字認識装置10は、抽出された文字画像「口」の文字パターンの縦ストロークを左から「T1」および「T2」、横ストロークを上から「Y1」および「Y2」とする。そして、文字認識装置10は、「T1」と「Y1」との位置情報(接点情報)を「T1×Y1、0%、0%」とする。なお、「T1×Y1、0%、0%」とは、縦ストローク「T1」の上端からの長さの割合「0%」と、横ストローク「Y1」の左端からの長さの割合「0%」の位置で、「T1」と「Y1」とが接していることを示している。
また、文字認識装置10は、同様に、「T2」と「Y1」との位置情報を「T2×Y1、0%、100%」、「T1」と「Y2」との位置情報を「T1×Y2、100%、0%」、「T2」と「Y2」との位置情報を「T2×Y2、100%、100%」とする。
続いて、文字認識装置10は、抽出された文字パターンの位置情報と、文字構造辞書記憶部に記憶される文字カテゴリ(例えば、「口」や「井」など)のそれぞれの位置情報とをそれぞれ照合して評価値(類似度)を算出する。
なお、評価値の算出としては、例えば、文字パターンと文字カテゴリとの位置情報の値、または、位置情報から二点間のユークリッド距離を求めて、所定閾値未満である場合に一致「TRUE」(距離が近い)、所定閾値以上である場合に不一致「FALSE」などとする。そして、文字認識装置10は、全ての評価項目数のうち、一致「TRUE」となった項目数がいくつあるかを評価値として算出する。
その後、文字認識装置10は、算出された評価値が最大となる文字カテゴリ「口」を、入力された「口」の文字画像の認識結果として出力する。さらに、入力された文字画像の認識結果としては、評価値が算出された文字カテゴリの候補となった文字カテゴリ、当該文字カテゴリの文字コードや算出された評価値などの情報を出力するようにしても良いし、算出された評価値の上位数個の文字カテゴリを出力することとしても良い。
つまり、文字認識装置10は、入力される文字画像に対応する文字カテゴリの縦ストロークと横ストロークとに基づいて文字パターンを抽出し、抽出された文字パターンと文字カテゴリとの位置情報の評価値が最大となるもの、または、候補となった文字カテゴリなどを出力することができる結果、処理負荷を削減しつつ、かつ、さらに高精度な文字認識を実現することが可能である。
[実施例3に係る文字認識装置の構成]
次に、図11を用いて、実施例3に係る文字認識装置10の構成を説明する。図11は、実施例3に係る文字認識装置10の構成を示す図である。
図11に示すように、文字認識装置10は、記憶部20と、制御部30とを有し、接続されるスキャナや媒体などから入力される文字画像を認識して、当該文字画像の認識結果として文字を出力する。
記憶部20は、制御部30による各種処理に必要なデータや、制御部30による各種処理結果を記憶し、特に、文字構造辞書記憶部21を有する。
文字構造辞書記憶部21は、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を記憶する。具体的には、文字構造辞書記憶部21は、図12に示すように、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの縦ストローク数および辺のID(ストロークのID)と、横ストローク数および辺のID(ストロークのID)と、位置情報とを記憶する。
例えば、文字構造辞書記憶部21は、図12に示すように、文字カテゴリ「口」に対応付けて、当該文字カテゴリ「口」の縦ストローク数「2」および辺のID「T1」、「T2」と、横ストローク数「2」および辺のID「Y1」、「Y2」と、位置情報「T1×Y1、0%、0%」などを記憶する。なお、図12は、文字構造辞書記憶部21に記憶される情報の例を示す図である。
文字構造辞書記憶部21に記憶される文字カテゴリ「口」の位置情報は、例えば、図13に示すように、A「T1×Y1、0%、0%」、B「T2×Y1、0%、100%」、C「T1×Y2、100%、0%」およびD「T2×Y2、100%、100%」となる。「T1×Y1、0%、0%」とは、縦ストローク「T1」の上端からの長さの割合「0%」と、横ストローク「Y1」の左端からの長さの割合「0%」の位置で、「T1」と「Y1」とが接していることを示している。なお、図13は、文字カテゴリ「口」の位置情報を説明するための図である。
また、例えば、文字構造辞書記憶部21は、図12に示すように、文字カテゴリ「井」に対応付けて、当該文字カテゴリ「井」の縦ストローク数「2」および辺のID「T1」、「T2」と、横ストローク数「2」および辺のID「Y1」、「Y2」と、位置情報「T1×Y1、30%、30%」などを記憶する。
文字構造辞書記憶部21に記憶される文字カテゴリ「井」の位置情報は、例えば、図14に示すように、P「T1×Y1、30%、30%」、Q「T2×Y1、30%、70%」、R「T1×Y2、70%、30%」およびS「T2×Y2、70%、70%」となる。「T1×Y1、30%、30%」とは、縦ストローク「T1」の上端からの長さの割合「30%」と、横ストローク「Y1」の左端からの長さの割合「30%」の位置で、「T1」と「Y1」とが交差していることを示している。なお、図14は、文字カテゴリ「井」の位置情報を説明するための図である。
制御部30は、制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有するとともに、特に、文字パターン抽出部31と、評価値算出部33とを有し、これらによって種々の処理を実行する。
文字パターン抽出部31は、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出する。具体的に例を挙げて説明すると、文字パターン抽出部31は、入力された「口」の文字画像に対して、文字構造辞書記憶部21に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。
そして、文字パターン抽出部31は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。なお、文字パターン抽出部31は、文字構造辞書記憶部21に記憶された全ての文字カテゴリ、または、ある程度の数に制限した文字カテゴリに対して、上記文字パターン抽出処理を実施する。
評価値算出部33は、文字パターン抽出部31によって抽出された文字パターンと、文字構造辞書記憶部21に記憶された文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する。
上述した例で具体的に例を挙げると、評価値算出部33は、抽出された文字画像「口」の文字パターンの縦ストロークを左から「T1」および「T2」、横ストロークを上から「Y1」および「Y2」とする。そして、評価値算出部33は、「T1」と「Y1」との位置情報を「T1×Y1、0%、0%」とする。なお、「T1×Y1、0%、0%」とは、縦ストローク「T1」の上端からの長さの割合「0%」と、横ストローク「Y1」の左端からの長さの割合「0%」の位置で、「T1」と「Y1」とが接していることを示している。
また、評価値算出部33は、同様に、「T2」と「Y1」との位置情報を「T2×Y1、0%、100%」、「T1」と「Y2」との位置情報を「T1×Y2、100%、0%」、「T2」と「Y2」との位置情報を「T2×Y2、100%、100%」とする。
そして、評価値算出部33は、抽出された文字パターンの位置情報と、文字構造辞書記憶部21に記憶される文字カテゴリ(例えば、「口」や「井」など)のそれぞれの位置情報とをそれぞれ照合して評価値を算出する。評価値の算出としては、例えば、文字パターンと文字カテゴリとの位置情報の値、または、位置情報から二点間のユークリッド距離を求めて、所定閾値未満である場合に一致「TRUE」(距離が近い)、所定閾値以上である場合に不一致「FALSE」などとする。
評価値について詳細に説明すると、抽出された文字パターンと文字構造辞書記憶部21に記憶される文字カテゴリとの縦および横ストローク「T1」、「Y1」に関する位置情報「0%、0%」のそれぞれの値が、所定閾値未満である場合に一致「TRUE」、所定閾値以上である場合に不一致「FALSE」とする。例えば、抽出された文字パターンの位置情報が「T1×Y1、20%、50%」、照合する文字カテゴリの位置情報が「T1×Y1、23%、49%」である場合には、一致「TRUE」として出力されることとなる。
そして、評価値算出部33は、全ての条件数「Cn」(conditionの数)と、一致「TRUE」となった数「K」とから、「評価値=K÷Cn」として算出し、算出された評価値が最大となる文字カテゴリ「口」を、入力された「口」の文字画像の認識結果として出力する。なお、入力された文字画像の認識結果としては、評価値が算出された文字カテゴリの候補となった文字カテゴリ、当該文字カテゴリの文字コードや算出された評価値などの情報を出力するようにしても良いし、算出された評価値の上位数個の文字カテゴリを出力することとしても良い。
[実施例3に係る文字認識装置による処理]
次に、図15を用いて、実施例3に係る文字認識装置10による文字認識処理を説明する。図15は、実施例3に係る文字認識装置10による文字認識処理を説明するためのフローチャートである。
図15に示すように、文字認識装置10は、所定の装置や媒体などから文字画像が入力されると(ステップS31肯定)、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出する(ステップS32)。
例えば、文字認識装置10は、スキャナや媒体(CD−Rなど)などから「口」の文字画像が入力されると、入力された「口」の文字画像に対して、文字構造辞書記憶部21に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
また、文字認識装置10は、文字カテゴリ「口」の文字パターンを抽出した後、文字構造辞書記憶部21に記憶された文字カテゴリ「井」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
そして、文字認識装置10は、抽出された文字パターンと、文字構造辞書記憶部21に記憶された文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する(ステップS33)。
例えば、文字認識装置10は、抽出された文字画像「口」の文字パターンの縦ストロークを左から「T1」および「T2」、横ストロークを上から「Y1」および「Y2」とする。そして、文字認識装置10は、「T1」と「Y1」との位置情報を「T1×Y1、0%、0%」とする。また、文字認識装置10は、同様に、「T2」と「Y1」との位置情報を「T2×Y1、0%、100%」、「T1」と「Y2」との位置情報を「T1×Y2、100%、0%」、「T2」と「Y2」との位置情報を「T2×Y2、100%、100%」とする。
そして、文字認識装置10は、抽出された文字パターンの位置情報と、文字構造辞書記憶部21に記憶される文字カテゴリ(例えば、「口」や「井」など)のそれぞれの位置情報とをそれぞれ照合して評価値を算出する。評価値について、文字認識装置10は、抽出された文字パターンと文字構造辞書記憶部21に記憶される文字カテゴリとの縦および横ストローク「T1」、「Y1」に関する位置情報「0%、0%」のそれぞれの値が、所定閾値未満である場合に一致「TRUE」、所定閾値以上である場合に不一致「FALSE」とする。
そして、文字認識装置10は、全ての条件数「Cn」と、一致「TRUE」となった数「K」とから、「評価値=K÷Cn」として算出し、算出された評価値が最大となる文字カテゴリ「口」を、入力された「口」の文字画像の認識結果として出力する。なお、入力された文字画像の認識結果としては、評価値が算出された文字カテゴリの候補となった文字カテゴリ、当該文字カテゴリの文字コードや算出された評価値などの情報を出力するようにしても良いし、算出された評価値の上位数個の文字カテゴリを出力することとしても良い。
[実施例3による効果]
実施例3に係る文字認識装置10は、入力される文字画像の縦および横の線分の位置情報に基づいて評価値(類似度)を算出し、算出された評価値が最大となるもの、または、候補となった文字カテゴリなどを出力することができる結果、処理負荷を削減しつつ、かつ、さらに高精度な文字認識を実現することが可能である。
ところで、上記実施例1〜上記実施例3では、入力画像の縦および横の線分の数に基づいて文字パターンを抽出し、抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとの類似度または評価値を算出して出力する場合を説明したが、本発明はこれに限定されるものではなく、入力画像の縦および横の線分の数に基づいて文字パターンを抽出し、抽出された文字パターンと、当該文字パターンに対応する文字カテゴリのうち、包含関係にある上位の文字カテゴリを出力することもできる。
そこで、以下の実施例4では、図16〜図20を用いて、入力画像の縦および横の線分の数に基づいて文字パターンを抽出し、抽出された文字パターンと、当該文字パターンに対応する文字カテゴリのうち、包含関係にある上位の文字カテゴリを出力する場合について説明する。
[実施例4の概要]
最初に、図16を用いて、実施例4に係る文字認識装置10の概要を説明する。図16は、実施例4に係る文字認識装置10の概要を示す図である。なお、以下では、入力される文字画像が「口」である場合を説明する。
文字認識装置10は、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を構造辞書記憶部に記憶している。また、文字認識装置10は、全ての文字カテゴリにおいて、第一の所定の文字カテゴリが第二の所定の文字カテゴリを部分として含むことを示す包含文字情報を包含文字記憶部に記憶している。
そして、文字認識装置10は、入力された文字画像の情報と、構造辞書記憶部に記憶された文字カテゴリの構造に関する情報とに基づいて、入力された文字画像を認識する際に文字カテゴリと照合される文字パターンを抽出する(図16の(1)参照)。
具体的に説明すると、文字認識装置10は、入力された「口」の文字画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
また、文字認識装置10は、入力された「口」の文字画像に対して、文字構造辞書記憶部に記憶された文字カテゴリ「井」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
なお、文字パターンの抽出は、文字構造辞書記憶部に記憶されている全ての文字カテゴリに対して実施すると、処理時間が膨大になってしまうので、従来技術を利用して、入力される文字画像から抽出される文字パターンに対応する文字カテゴリをある程度の数に制限する。つまり、文字認識装置10は、入力される文字画像に対して従来から利用されている文字認識処理を実施して、得られた文字認識処理結果の候補を文字カテゴリとし、当該文字カテゴリの構造情報を利用して文字パターンを抽出する。
そして、文字認識装置10は、抽出された文字パターンに対応する文字カテゴリであって、包含文字記憶部に記憶される文字カテゴリのうち、最上位となる文字カテゴリ、または、当該文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する(図16の(2)参照)。
上述した例で具体的に説明すると、文字認識装置10は、抽出された文字パターンに対応する文字カテゴリであって、包含文字記憶部に記憶される文字カテゴリ(例えば、「口」、「一」および「二」など)のうち、最上位となる文字カテゴリ「口」、または、当該文字カテゴリの候補となった文字カテゴリ「一」や「二」などの情報を入力された文字画像「口」の認識結果として出力する。
ここで、包含文字とは、例えば、文字カテゴリ「王」が有する構造情報(ストローク)を含む文字のことであり、当該「王」は、「一」、「二」、「三」および「工」などの構造情報を含むことから、「一」、「二」、「三」または「工」などは、「王」の包含文字となる。
つまり、文字認識装置10は、入力される文字画像に対応する文字カテゴリの縦ストロークと横ストロークとに基づいて文字パターンを抽出し、抽出された文字パターンに対応する文字カテゴリのうち、包含関係における最上位、または、候補となった文字カテゴリなどを出力することができる結果、処理負荷を削減しつつ、かつ、さらに高精度な文字認識を実現することが可能である。
言い換えると、文字認識装置10は、例えば、「王」のような包含文字を複数有する文字カテゴリである場合でも、包含文字の最上位となる文字カテゴリを入力される文字画像の認識結果として出力することができる結果、さらに高精度な文字認識を実現することが可能である。
[実施例4に係る文字認識装置の構成]
次に、図17を用いて、実施例4に係る文字認識装置10の構成を説明する。図17は、実施例4に係る文字認識装置10の構成を示す図である。
図17に示すように、文字認識装置10は、記憶部20と、制御部30とを有し、接続されるスキャナや媒体などから入力される文字画像を認識して、当該文字画像の認識結果として文字を出力する。
記憶部20は、制御部30による各種処理に必要なデータや、制御部30による各種処理結果を記憶し、特に、文字構造辞書記憶部21と、包含文字記憶部23とを有する。
文字構造辞書記憶部21は、入力された文字画像を認識して出力する文字を示す文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を記憶する。例えば、文字構造辞書記憶部21は、入力された「口」の文字画像を認識して出力する文字を示す文字カテゴリ「口」に対応付けて、当該文字カテゴリ「口」の縦ストローク数「2」と横ストローク数「2」との構造に関する情報を記憶する。
また、例えば、文字構造辞書記憶部21は、入力された「口」の文字画像を認識して出力する文字を示す文字カテゴリ「井」に対応付けて、当該文字カテゴリ「井」の縦ストローク数「2」と横ストローク数「2」との構造に関する情報を記憶する。
包含文字記憶部23は、全ての文字カテゴリにおいて、第一の所定の文字カテゴリが第二の所定の文字カテゴリを部分として含むことを示す包含文字情報を記憶する。具体的には、包含文字記憶部23は、図18に示すように、全ての文字カテゴリの識別子を示す「ID」に対応付けて、「文字カテゴリ」と当該文字カテゴリを包含文字とする文字カテゴリのIDを示す「Pointer(ポインタ)」とを記憶する。
例えば、包含文字記憶部23は、図18に示すように、全ての文字カテゴリの識別子を示すID「1」に対応付けて、文字カテゴリ「一」とポインタ「2、7・・・」とを記憶し、ポインタ「2」は、文字カテゴリ「二」を指す。なお、図18は、包含文字記憶部23に記憶される情報の例を示す図である。
上記包含文字記憶部23に記憶される情報は、例えば、図19に示すように、所定の文字カテゴリ「一」自身が包含文字となる先「二」または「十」などとの関係を示すものである。要するに、文字カテゴリ「王」は、「一」、「二」、「三」および「十」などの包含文字を有することとなる。なお、図19は、包含文字における有向グラフのイメージを示す図である。
制御部30は、制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有するとともに、特に、文字パターン抽出部31と、包含文字出力部34とを有し、これらによって種々の処理を実行する。
文字パターン抽出部31は、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出する。具体的に例を挙げて説明すると、文字パターン抽出部31は、入力された「口」の文字画像に対して、文字構造辞書記憶部21に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。
そして、文字パターン抽出部31は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。なお、文字パターン抽出部31は、文字構造辞書記憶部21に記憶された全ての文字カテゴリ、または、ある程度の数に制限した文字カテゴリに対して、上記文字パターン抽出処理を実施する。
包含文字出力部34は、抽出された文字パターンに対応する文字カテゴリであって、包含文字記憶部23に記憶される文字カテゴリのうち、最上位となる文字カテゴリ、または、当該文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する。
上述した例で具体的に例を挙げると、包含文字出力部34は、文字パターン抽出部31によって抽出された文字パターンに対応する文字カテゴリであって、包含文字記憶部23に記憶される文字カテゴリ(例えば、「口」、「一」および「二」など)のうち、最上位となる文字カテゴリ「口」、または、当該文字カテゴリの候補となった文字カテゴリ「一」や「二」などの情報を入力された文字画像「口」の認識結果として出力する。
例えば、包含文字出力部34は、入力画像「王」から文字パターンが抽出された結果、当該「王」に対応する文字カテゴリが「一」、「二」、「三」、「十」、「工」および「王」である場合に、文字カテゴリそれぞれの包含文字を、包含文字記憶部23を用いて取得する。そして、包含文字出力部34は、文字カテゴリそれぞれの包含文字のうち、最上位となる文字カテゴリ「王」を認識結果として出力する。
つまり、包含文字出力部34は、図24に例示すように、入力画像「王」に対する認識結果として類似度がある程度高くなる文字カテゴリ「三」と「王」とのうち、「三」が「王」の包含文字であることから、当該包含文字の上位となる「王」を認識結果として出力する。なお、図24は、入力画像が「王」である場合に類似度が高くなる文字カテゴリを示す図である。
[実施例4に係る文字認識装置による処理]
次に、図20を用いて、実施例4に係る文字認識装置10による文字認識処理を説明する。図20は、実施例4に係る文字認識装置10による文字認識処理を説明するためのフローチャートである。
図20に示すように、文字認識装置10は、所定の装置や媒体などから文字画像が入力されると(ステップS41肯定)、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出する(ステップS42)。
例えば、文字認識装置10は、スキャナや媒体(CD−Rなど)などから「口」の文字画像が入力されると、入力された「口」の文字画像に対して、文字構造辞書記憶部21に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
また、文字認識装置10は、文字カテゴリ「口」の文字パターンを抽出した後、文字構造辞書記憶部21に記憶された文字カテゴリ「井」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
そして、文字認識装置10は、抽出された文字パターンに対応する文字カテゴリであって、包含文字記憶部23に記憶される文字カテゴリのうち、最上位となる文字カテゴリ、または、当該文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する(ステップS43)。
例えば、文字認識装置10は、文字パターン抽出部31によって抽出された文字パターンに対応する文字カテゴリであって、包含文字記憶部23に記憶される文字カテゴリ(例えば、「口」、「一」および「二」など)のうち、最上位となる文字カテゴリ「口」、または、当該文字カテゴリの候補となった文字カテゴリ「一」や「二」などの情報を入力された文字画像「口」の認識結果として出力する。
[実施例4による効果]
実施例4に係る文字認識装置10は、入力される文字画像に対応する文字カテゴリの縦ストロークと横ストロークとに基づいて文字パターンを抽出し、抽出された文字パターンに対応する文字カテゴリのうち、包含関係における最上位、または、候補となった文字カテゴリなどを出力することができる結果、かつ、さらに高精度な文字認識を実現することが可能である。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも
種々の異なる形態にて実施されてよいものである。そこで、(1)文字カテゴリの構造情報、(2)二値化パラメタの利用、(3)類似度算出と包含文字出力とを利用、(4)文字認識装置の構成、(5)プログラムにおいて異なる実施例を説明する。
(1)文字カテゴリの構造情報
上記実施例1および実施例2では、文字カテゴリの構造情報として縦および横の線分(ストローク)の数を利用して、入力された文字画像の文字パターンを抽出する場合を説明したが、本発明はこれに限定されるものではなく、文字カテゴリの構造情報として斜めのストロークや閉回路などの数を利用して、入力された文字画像の文字パターンを抽出することもできる。例えば、文字認識装置10は、文字カテゴリの構造情報を記憶する文字構造辞書記憶部21に、斜めストロークのある「文」や閉回路を含む「章」などの構造情報を記憶させておく。そして、文字認識装置10は、記憶している構造情報を利用して、入力された「文」や「章」などの文字画像の文字パターンを抽出する。なお、文字認識装置10による文字パターン抽出は、上記してきた漢字に限られるものではなく、平仮名やローマ字など、文字カテゴリの構造情報を有するものであれば何であっても良い。
(2)二値化パラメタの利用
また、上記実施例1および実施例2では、動的計画法を利用して文字パターンを抽出する場合を説明したが、本発明はこれに限定されるものではなく、二値化のパラメタを変化させつつ文字パターンを抽出することもできる。例えば、二値化パラメタによる文字パターン抽出においては、二値化パラメタが小さい場合に抽出される文字パターンがかすれており、二値化パラメタが大きい場合に抽出される文字パターンに潰れやノイズなどが発生する。そして、文字認識装置10は、文字カテゴリの線分の数を利用するとともに、この二値化パラメタを変化させつつ線分を抽出することにより、線分の数が必ず利用された文字パターンを抽出する。
(3)類似度算出と包含文字出力とを利用
また、上記実施例1〜上記実施例4では、類似度算出、評価値算出または包含文字出力のいずれか一つを用いて、文字認識処理を実施する場合を説明したが、本発明はこれに限定されるものではなく、類似度算出および/または評価値算出と、包含文字出力とを用いて、文字認識処理を実施することもできる。
以下に、図21を用いて、類似度算出および/または評価値算出と、包含文字出力とを用いた文字認識処理の流れを説明する。図21は、類似度算出および/または評価値算出と、包含文字出力とを用いた文字認識処理の流れを示すフローチャートである。
図21に示すように、文字認識装置10は、所定の装置や媒体などから文字画像が入力されると(ステップS51肯定)、入力された文字画像の情報と、文字構造辞書記憶部21に記憶された文字カテゴリの構造に関する情報とに基づいて、文字パターンを抽出する(ステップS52)。
例えば、文字認識装置10は、スキャナや媒体(CD−Rなど)などから「口」の文字画像が入力されると、入力された「口」の文字画像に対して、文字構造辞書記憶部21に記憶された文字カテゴリ「口」の構造に関する情報である縦ストローク数「2」および横ストローク数「2」を利用して、縦ストロークと横ストロークとを抽出する。そして、文字認識装置10は、抽出された縦ストロークと横ストロークとを合成して、入力された「口」の文字画像の文字パターンを抽出する。
そして、文字認識装置10は、抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を、入力された文字画像の認識結果として出力する(ステップS53)。
例えば、文字認識装置10は、上記実施例1または上記実施例2において利用される類似度、若しくは、上記実施例3において利用される評価値を算出して、文字認識結果の候補となる上位数個の文字カテゴリを出力する。なお、算出される類似度と評価値とは、当該類似度と評価値との両方を利用して、算出された類似度に算出された評価値を加味した値として算出し、文字認識結果の候補を出力することとしても良い。
続いて、文字認識装置10は、出力された文字カテゴリであって、包含文字記憶部23に記憶される文字カテゴリのうち、最上位となる文字カテゴリ、または、当該文字カテゴリの候補となった文字の情報を入力された文字画像の認識結果として出力する(ステップS54)。
例えば、文字認識装置10は、出力された文字カテゴリであって、包含文字記憶部23に記憶される文字カテゴリ(例えば、「口」、「一」および「二」など)のうち、最上位となる文字カテゴリ「口」、または、当該文字カテゴリの候補となった文字カテゴリ「一」や「二」などの情報を入力された文字画像「口」の認識結果として出力する。
つまり、文字認識装置10は、抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとの類似度および/または評価値において、上位にある文字カテゴリ候補で包含文字関係にある文字カテゴリの最上位、または、候補文字カテゴリの上位数個の文字カテゴリを出力することができる結果、さらに高精度に文字認識を実現することが可能である。
(4)文字認識装置の構成
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメタを含む情報(例えば、図2に示した「文字構造辞書記憶部21」などに記憶される文字カテゴリの構造情報など)については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、例えば、文字パターン抽出部31を、入力された文字画像を受け付ける文字画像受付部と、受け付けた文字画像の文字パターンを抽出する文字パターン抽出部とに分散したり、類似度算出部32を、抽出された文字パターンと当該文字パターンに対応する文字カテゴリとの類似度を算出する類似度算出部と、算出された類似度が最大となる文字カテゴリを出力する認識結果出力部とに分散したりするなど、その全部または一部を、各種の負担や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(5)プログラム
ところで、上記の実施例では、ハードウェアロジックによって各種の処理を実現する場合を説明したが、本発明はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータで実行することによって実現するようにしてもよい。そこで、以下では、図22を用いて、上記の実施例に示した文字認識装置10と同様の機能を有する文字認識プログラムを実行するコンピュータの一例を説明する。図22は、文字認識プログラムを実行するコンピュータを示す図である。
図22に示すように、文字認識装置としてのコンピュータ110は、HDD130、CPU140、ROM150およびRAM160をバス180などで接続される。
ROM150には、上記の実施例1に示した文字認識装置10と同様の機能を発揮する文字認識プログラム、つまり、図22に示すように文字パターン抽出プログラム150aと、類似度算出プログラム150bとが、あらかじめ記憶されている。なお、これらのプログラム150a〜プログラム150bについては、図2に示した文字認識装置10の各構成要素と同様、適宜統合または、分散してもよい。
そして、CPU140がこれらのプログラム150a〜プログラム150bをROM150から読み出して実行することで、図22に示すように、プログラム150a〜プログラム150bは、文字パターン抽出プロセス140aと、類似度算出プロセス140bとして機能するようになる。なお、プロセス140a〜プロセス140bは、図2に示した、文字パターン抽出部31と、類似度算出部32とに対応する。
そして、CPU140はRAM160に記録された文字構造辞書データ160aと、文字認識辞書データ160bとに基づいて文字認識プログラムを実行する。
なお、上記した各プログラム150a〜プログラム150bについては、必ずしも最初からROM150に記憶させておく必要はなく、例えば、コンピュータ110に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、またはコンピュータ110の内外に備えられるHDDなどの「固定用の物理媒体」、さらには公衆回線、インターネット、LAN、WANなどを介してコンピュータ110に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ110がこれから各プログラムを読み出して実行するようにしてもよい。
以上の実施例1〜実施例5を含む実施形態に関し、更に以下の付記を開示する。
(付記1)入力された文字画像の情報と、前記入力された文字画像を認識して出力する文字を示す文字カテゴリの構造に関する情報とに基づいて、前記入力された文字画像を認識する際に前記文字カテゴリと照合される文字パターンを抽出する文字パターン抽出手順と、
前記文字パターン抽出手順によって抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力する類似度算出手順と、
をコンピュータに実行させることを特徴とする文字認識プログラム。
(付記2)前記文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を構造辞書記憶手段に記憶させる構造辞書記憶手順と、
前記文字カテゴリに対応付けて、前記文字パターンを認識辞書記憶手段に記憶させる構造辞書記憶手順と、をさらにコンピュータに実行させ、
前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの構造に関する情報とに基づいて、前記文字パターンを抽出して前記認識辞書記憶手段に格納し、
前記類似度算出手順は、前記文字パターン抽出手順によって前記認識辞書記憶手段に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力することを特徴とする付記1に記載の文字認識プログラム。
(付記3)前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記文字パターンを抽出して前記認識辞書記憶手段に格納することを特徴とする付記2に記載の文字認識プログラム。
(付記4)前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
前記文字パターン抽出手順は、前記入力された文字画像を白領域範囲並びに黒領域範囲に数値化した情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記入力された文字画像の線分を動的計画法により検出し、前記文字パターンを抽出して前記認識辞書記憶手段に格納することを特徴とする付記2に記載の文字認識プログラム。
(付記5)前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
前記文字パターン抽出手順は、前記入力された文字画像を白領域範囲並びに黒領域範囲に数値化した情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記入力された文字画像の線分を動的計画法により検出するとともに、当該線分の長短によって黒領域を加点し、前記文字パターンを抽出して前記認識辞書記憶手段に格納し、
前記類似度算出手順は、前記文字パターン抽出手順によって前記認識辞書記憶手段に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとの距離値を算出し、算出された距離値が最も近くなる文字カテゴリ、または、当該距離値が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力することを特徴とする付記2に記載の文字認識プログラム。
(付記6)前記文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を構造辞書記憶手段に記憶させる構造辞書記憶手順をさらにコンピュータに実行させ、
前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの構造に関する情報とに基づいて、前記文字パターンを抽出し、
前記類似度算出手順は、前記文字パターン抽出手順によって抽出された文字パターンと、前記構造辞書記憶手段に記憶された文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力することを特徴とする付記1に記載の文字認識プログラム。
(付記7)前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報と、当該文字カテゴリの線分の位置に関する情報とであって、
前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分に関する情報とに基づいて、前記文字パターンを抽出し、
前記類似度算出手順は、前記文字パターン抽出手順によって抽出された文字パターンの位置に関する情報と、前記構造辞書記憶手段に記憶された文字カテゴリの線分の位置に関する情報とをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力することを特徴とする付記6に記載の文字認識プログラム。
(付記8)全ての文字カテゴリにおいて、第一の所定の文字カテゴリが第二の所定の文字カテゴリを部分として含むことを示す包含文字情報を包含文字記憶手段に記憶させる包含文字記憶手順と、
前記文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を構造辞書記憶手段に記憶させる構造辞書記憶手順と、
前記類似度算出手順によって出力された文字カテゴリであって、前記包含文字記憶手段に記憶される文字カテゴリのうち、最上位となる文字カテゴリ、または、当該文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力する包含文字出力手順と、をさらにコンピュータに実行させ、
前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの構造に関する情報とに基づいて、前記文字パターンを抽出することを特徴とする付記1に記載の文字認識プログラム。
(付記9)前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記文字パターンを抽出することを特徴とする付記8に記載の文字認識プログラム。
(付記10)入力された文字画像の情報と、前記入力された文字画像を認識して出力する文字を示す文字カテゴリの構造に関する情報とに基づいて、前記入力された文字画像を認識する際に前記文字カテゴリと照合される文字パターンを抽出する文字パターン抽出手段と、
前記文字パターン抽出手段によって抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力する類似度算出手段と、
を有することを特徴とする文字認識装置。
実施例1に係る文字認識装置の概要および特徴を示す図である。 実施例1に係る文字認識装置の構成を示す図である。 文字構造辞書記憶部に記憶される情報の例を示す図である。 文字認識辞書記憶部に記憶される情報の例を示す図である。 実施例1に係る文字認識装置による文字認識処理を説明するためのフローチャートである。 実施例1に係る文字パターン抽出処理の詳細を説明するためのフローチャートである。 実施例1に係る文字画像中の領域情報取得処理を説明するための図である。 実施例1に係るシグモイド関数による境界値情報の平滑化処理を説明するための図である。 実施例1に係る黒領域評価値の取得について説明するための図である。 実施例3に係る文字認識装置の概要を示す図である。 実施例3に係る文字認識装置の構成を示す図である。 文字構造辞書記憶部に記憶される情報の例を示す図である。 文字カテゴリ「口」の位置情報を説明するための図である。 文字カテゴリ「井」の位置情報を説明するための図である。 実施例3に係る文字認識装置による文字認識処理を説明するためのフローチャートである。 実施例4に係る文字認識装置の概要を示す図である。 実施例4に係る文字認識装置の構成を示す図である。 包含文字記憶部に記憶される情報の例を示す図である。 包含文字における有向グラフのイメージを示す図である。 実施例4に係る文字認識装置による文字認識処理を説明するためのフローチャートである。 類似度算出および/または評価値算出と、包含文字出力とを用いた文字認識処理の流れを示すフローチャートである。 文字認識プログラムを実行するコンピュータを示す図である。 従来技術に係る二値化によって出力される文字パターンの例を示す図である。 入力画像が「王」である場合に類似度が高くなる文字カテゴリを示す図である。
符号の説明
10 文字認識装置
20 記憶部
21 文字構造辞書記憶部
22 文字認識辞書記憶部
23 包含文字記憶部
30 制御部
31 文字パターン抽出部
32 類似度算出部
33 評価値算出部
34 包含文字出力部

Claims (6)

  1. 入力された文字画像の情報と、前記入力された文字画像を認識して出力する文字を示す文字カテゴリの構造に関する情報とに基づいて、前記入力された文字画像を認識する際に前記文字カテゴリと照合される文字パターンを抽出する文字パターン抽出手順と、
    前記文字パターン抽出手順によって抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力する類似度算出手順と、
    をコンピュータに実行させることを特徴とする文字認識プログラム。
  2. 前記文字カテゴリに対応付けて、当該文字カテゴリの構造に関する情報を構造辞書記憶手段に記憶させる構造辞書記憶手順と、
    前記文字カテゴリに対応付けて、前記文字パターンを認識辞書記憶手段に記憶させる構造辞書記憶手順と、をさらにコンピュータに実行させ、
    前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの構造に関する情報とに基づいて、前記文字パターンを抽出して前記認識辞書記憶手段に格納し、
    前記類似度算出手順は、前記文字パターン抽出手順によって前記認識辞書記憶手段に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力することを特徴とする請求項1に記載の文字認識プログラム。
  3. 前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
    前記文字パターン抽出手順は、前記入力された文字画像の情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記文字パターンを抽出して前記認識辞書記憶手段に格納することを特徴とする請求項2に記載の文字認識プログラム。
  4. 前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
    前記文字パターン抽出手順は、前記入力された文字画像を白領域範囲並びに黒領域範囲に数値化した情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記入力された文字画像の線分を動的計画法により検出し、前記文字パターンを抽出して前記認識辞書記憶手段に格納することを特徴とする請求項2に記載の文字認識プログラム。
  5. 前記構造辞書記憶手段によって記憶される文字カテゴリの構造に関する情報は、当該文字カテゴリの縦および横の線分の数に関する情報であって、
    前記文字パターン抽出手順は、前記入力された文字画像を白領域範囲並びに黒領域範囲に数値化した情報と、前記構造辞書記憶手段に記憶された文字カテゴリの縦および横の線分の数に関する情報とに基づいて、前記入力された文字画像の線分を動的計画法により検出するとともに、当該線分の長短によって黒領域を加点し、前記文字パターンを抽出して前記認識辞書記憶手段に格納し、
    前記類似度算出手順は、前記文字パターン抽出手順によって前記認識辞書記憶手段に格納された文字パターンと、当該文字パターンに対応する文字カテゴリとの距離値を算出し、算出された距離値が最も近くなる文字カテゴリ、または、当該距離値が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力することを特徴とする請求項2に記載の文字認識プログラム。
  6. 入力された文字画像の情報と、前記入力された文字画像を認識して出力する文字を示す文字カテゴリの構造に関する情報とに基づいて、前記入力された文字画像を認識する際に前記文字カテゴリと照合される文字パターンを抽出する文字パターン抽出手段と、
    前記文字パターン抽出手段によって抽出された文字パターンと、当該文字パターンに対応する文字カテゴリとをそれぞれ照合して類似度を算出し、算出された類似度が最大となる文字カテゴリ、または、当該類似度が算出された文字カテゴリの候補となった文字の情報を前記入力された文字画像の認識結果として出力する類似度算出手段と、
    を有することを特徴とする文字認識装置。
JP2008220424A 2008-03-28 2008-08-28 文字認識プログラムおよび文字認識装置 Withdrawn JP2009259190A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008220424A JP2009259190A (ja) 2008-03-28 2008-08-28 文字認識プログラムおよび文字認識装置
US12/396,961 US20090245658A1 (en) 2008-03-28 2009-03-03 Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008088339 2008-03-28
JP2008220424A JP2009259190A (ja) 2008-03-28 2008-08-28 文字認識プログラムおよび文字認識装置

Publications (1)

Publication Number Publication Date
JP2009259190A true JP2009259190A (ja) 2009-11-05

Family

ID=41117321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008220424A Withdrawn JP2009259190A (ja) 2008-03-28 2008-08-28 文字認識プログラムおよび文字認識装置

Country Status (2)

Country Link
US (1) US20090245658A1 (ja)
JP (1) JP2009259190A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216038A (ja) * 2011-03-31 2012-11-08 Kyocera Communication Systems Co Ltd 文書イメージ出力装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015022771A1 (ja) * 2013-08-15 2015-02-19 日本電気株式会社 画像処理を実行する情報処理装置及び画像処理方法
US10146979B2 (en) * 2015-06-03 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processing visual cues to improve device understanding of user input

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01246678A (ja) * 1988-03-29 1989-10-02 Toshiba Corp パターン認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216038A (ja) * 2011-03-31 2012-11-08 Kyocera Communication Systems Co Ltd 文書イメージ出力装置

Also Published As

Publication number Publication date
US20090245658A1 (en) 2009-10-01

Similar Documents

Publication Publication Date Title
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
CN107133622B (zh) 一种单词的分割方法和装置
US9665768B2 (en) Process of handwriting recognition and related apparatus
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
JP4232800B2 (ja) ラインノイズ除去装置、ラインノイズ除去方法、ラインノイズ除去プログラム
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN106372624B (zh) 人脸识别方法及系统
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
JP3913985B2 (ja) 文書画像中の基本成分に基づく文字列抽出装置および方法
Marne et al. Identification of optimal optical character recognition (OCR) engine for proposed system
Ali et al. Recognition system for Pakistani paper currency
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
Verma et al. Removal of obstacles in Devanagari script for efficient optical character recognition
KR20090055087A (ko) Ocr을 위한 문서 영상의 자동 평가 방법 및 시스템
JP2009259190A (ja) 文字認識プログラムおよび文字認識装置
CN101546379A (zh) 计算机可读记录介质、字符识别设备和字符识别方法
JP5857634B2 (ja) 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
KR20160053544A (ko) 후보 문자의 추출 방법
KR101012101B1 (ko) 한글 인식 방법 및 장치
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
JP5625196B2 (ja) 特徴点検出装置、特徴点検出方法、特徴点検出プログラム及び記録媒体
Chowdhury et al. Bengali handwriting recognition and conversion to editable text
CN111670458B (zh) 读取系统
US20200242389A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2010108113A (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111101