JP3661774B2 - 文字列認識方法、文字認識装置およびプログラム - Google Patents

文字列認識方法、文字認識装置およびプログラム Download PDF

Info

Publication number
JP3661774B2
JP3661774B2 JP2001033850A JP2001033850A JP3661774B2 JP 3661774 B2 JP3661774 B2 JP 3661774B2 JP 2001033850 A JP2001033850 A JP 2001033850A JP 2001033850 A JP2001033850 A JP 2001033850A JP 3661774 B2 JP3661774 B2 JP 3661774B2
Authority
JP
Japan
Prior art keywords
character
character string
candidate
similarity
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001033850A
Other languages
English (en)
Other versions
JP2002236877A (ja
Inventor
達勇 秋山
祐人 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001033850A priority Critical patent/JP3661774B2/ja
Publication of JP2002236877A publication Critical patent/JP2002236877A/ja
Application granted granted Critical
Publication of JP3661774B2 publication Critical patent/JP3661774B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、カラー画像から文字列を認識する方法および装置に関する。さらには、そのような認識方法を実行するプログラムに関する。
【0002】
【従来の技術】
カラー画像から文字列を認識する手法として、印刷物や写真などの原稿をカラーイメージスキャナ(CCDタイプやMOSタイプがある)を用いてカラー画像として取り込み、該取り込んだカラー画像から文字列を認識する2値化手法が知られている。このような文字列認識では、(R、G、B)表色系上のクラスタリング手法を利用するものが一般的であり、通常、クラスタリング結果として得られる画像に対して文字領域の抽出が行われる。一例として、カラー画像中からタイトルを抽出する手法(特開2000-172849号公報参照)を以下に簡単に説明する。
【0003】
まず、カラーイメージスキャナ等から取り込まれたカラー画像の各画素を色毎にクラスタリングすることにより色分解画像を生成する。具体的には、取り込んだカラー画像の各画素をそれぞれの(R、G、B)値に基づいて(R、G、B)空間にマッピングしてクラスタ分布を形成し、各クラスタ毎の色分解画像を生成する。次いで、1つの色(タイトルの文字領域の色)の色分解画像から連結領域の外接矩形を求め、その求めた外接矩形を、サイズ、形状が一定の範囲にあるものだけに絞る。こうして得られた各外接矩形について、隣接矩形探索範囲をそれぞれ設定し、その範囲にかかる外接矩形を探索する。次いで、お互いに隣接矩形探索範囲内にかかるような矩形をグループとして抽出し、その抽出したグループのうち、グループ内の各矩形の重心の並びの直線性が良いものを残し、そのグループの外接矩形を求める。そして、その求めたグループの外接矩形内を対称に該グループを構成する領域の色に近いパターンを抽出する。このパターン抽出により、タイトルの文字列を抽出することが可能である。
【0004】
【発明が解決しようとする課題】
書籍の裏表紙には、価格、ISBN番号などの実用上非常に有益な情報が記載されているが、必ずしも黒色の記載ではない。このような文字列情報を、カラーイメージスキャナなどにより取り込まれたカラー画像中から抽出する場合、従来の、(R、G、B)表色系上でのクラスタリングを利用する手法では、背景に複雑な文様があると、正確な文字認識を行うことができない。特に、従来は、クラスタリングの際、最適なクラスタ数を求めることは困難であるため、文字領域抽出のための良好な画像を得ることができず、文字列認識処理の精度が低いものとなっていた。例えば、図11に示すように、緑色の背景に「ISBN4−7856−3060−4 C3055 ¥3800E」のISBNコードおよび値段が青色で印刷された文字列領域が存在する場合、最適なクラスタ数が与えられないと、文字列領域(青)と背景(緑)を分離することが困難となり、文字列を正確に認識することができない。
【0005】
上述の特開2000-172849号公報に記載の文字列認識手法においても、取り込んだカラー画像の各画素をそれぞれの(R、G、B)値に基づいて(R、G、B)空間にマッピングしてクラスタ分布を生成するが、その際、クラスタ数は適当に与えられており、最適なクラスタ数が必ず与えられるとは限らない。最適なクラスタ数が与えられない場合、クラスタリングの後に行われる文字列認識処理の精度が低下し、文字列を正確に認識することができない。
【0006】
本発明の目的は、上記問題を解決し、最適なクラスタ数における文字列認識を行うことができる方法および装置、さらにはそのような認識処理を実行可能なプログラムを提供することにある。
【0007】
【課題を解決するための手段】
上記目的を達成するため、本発明の文字認識方法は、取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第1のステップと、
前記所定の範囲の各クラスタ数毎に、前記(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第2のステップと、
前記所定の範囲の各クラスタ数毎に、前記第2のステップで生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第3のステップと、
前記第3のステップで格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第4のステップとを含むことを特徴とする。
【0008】
上記の場合、第2のステップは、
所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元するステップと、
前記復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得するステップと、
前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択するステップと、
前記選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するステップとを含み、
第3のステップは、
前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求めるステップと、
前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するステップとを含むようにしてもよい。
【0009】
本発明の文字認識装置は、カラー画像データを取り込むための画像入力手段と、
前記画像入力手段にて取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させるクラスタ結合手段と、
前記所定の範囲の各クラスタ数毎に、前記(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する画像領域解析手段と、
前記所定の範囲の各クラスタ数毎に、前記画像領域解析手段にて生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する文字認識手段と、
前記文字認識手段にて格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する最終結果判定手段とを有することを特徴とする。
【0010】
上記の場合、画像領域解析手段は、所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するように構成され、
文字認識手段は、前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するように構成されてもよい。
【0011】
本発明のプログラムは、取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第1の処理と、
前記所定の範囲の各クラスタ数毎に、前記(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第2の処理と、
前記所定の範囲の各クラスタ数毎に、前記第2の処理で生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第3の処理と、
前記第3の処理で格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第4の処理とをコンピュータに実行させることを特徴とする。
【0012】
上記の場合、第2の処理が、所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力する処理であり、
第3の処理が、前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納する処理であってもよい。
【0013】
上記のとおりの本発明においては、特定の文字列、例えばISBNコード等書籍に特有の文字サイズ、文字の並びに関する知識を利用するので、単にクラスタリングを行うよりも高精度に認識を行うことができる。
【0014】
また、本発明では、クラスタ数を可変としており、それぞれのクラスタ数のときの各クラスタから復元画像が生成されて文字認識処理が行われる。そして、各文字認識処理毎に、最大1候補の候補文字列が格納され、そのうちから最も特定の文字列と類似した候補、すなわち文字列類似度の大きな文字列候補が最終候補として出力される。このように、本発明では、クラスタ数可変という特徴を有しており、最適なクラスタ数で文字認識処理を行えるようになっている。
【0015】
【発明の実施の形態】
次に、本発明の実施形態について図面を参照して説明する。
【0016】
図1は、本発明の一実施形態の文字列認識装置の主要構成を示すブロック図である。この文字列認識装置は、特定の文字列、例えば書籍裏表紙に記載されたISBNコードや値段(図10参照)などの文字列を認識する装置であって、その構成は、画像入力部1、クラスタ結合部2、画像領域解析部3、文字認識部4、最終結果判定部5からなる。
【0017】
画像入力部1は、周知のカラーイメージスキャナを備え、書籍裏表紙のカラー画像データを取り込むことができる。取り込まれたカラー画像データは、画像入力部1の画像格納部(不図示)に格納される。この他、画像入力部1は、取り込んだカラー画像データの各画素をそれぞれの(R、G、B)値に基づいて(R、G、B)空間にマッピングし、それぞれをクラスタとして割り当てる機能、その割り当てたクラスタに適当な順番でクラスタ番号を付与する機能などを持つ。
【0018】
クラスタ結合部2は、画像入力部1にて割り当てられたクラスタのうち最も距離の近いクラスタを結合するものである。具体的には、以下の式を満たすクラスタ、すなわち、(R、G、B)空間における2要素間の距離が最小となるような(R、G、B)上の点xs、xtに関して、要素xsの属するクラスタXiと要素xtの属するクラスタXjを結合する。ただし、クラスタXiとクラスタXjは異なるクラスタである。結合したクラスタには、番号としてmin(i,j)が付与される。
【0019】
d2min(Xi,Xj)=mins,t||(xs−xt)||
(ただし、xs∈Xi、xt∈Xj)
画像領域解析部3は、(R、G、B)空間に形成された各クラスタ毎に、そのクラスタに属する画素値をもつ画像を復元し、それら復元画像に対してラベリングを行うとともに、各復元画像に含まれている文字や図形(隣接する画素の画素値が所定の大きさの範囲にある連結領域)のそれぞれについて、外接矩形を獲得する機能を持つ。また、画像領域解析部3は、あらかじめ定義された外接矩形長(外接矩形の縦方向または横方向の長さ)に関する知識を有し、該外接矩形長を有する外接矩形を含む復元画像を文字領域を含む画像の候補として選択する機能を持つ。さらに、画像領域解析部3は、その選択した復元画像について、(x,y)座標における各外接矩形の四隅座標(各頂部の座標)および各外接矩形間の距離を求め、それらの値が予め定義されている値以下となる外接矩形を結合してライン化を行うことにより文字情報候補ライン画像を生成する機能を持つ。
【0020】
文字認識部4は、画像領域解析部3にて生成された文字情報候補ライン画像を入力とし、この文字情報候補ライン画像から個別文字切り出しを行い、該切り出した文字候補と所定の字種が予め登録されたテンプレートとの類似度(以下、文字類似度と記す。)を計算する機能を持つ。また、文字認識部4は、切り出した文字候補と文字類似度から特定の文字列に関する文字列類似度を計算し、該計算結果に基づいて文字列候補とその文字列類似度をそれぞれ格納する機能を持つ。
【0021】
最終結果判定部5は、文字認識部4に格納された文字列候補と文字列類似度を入力とし、これらから最終候補を判定して最終結果を出力する。文字認識部4に格納された文字列候補が複数ある場合は、それぞれの文字列類似度を比較し、最も大きな文字列類似度を持つ文字列候補が最終候補として出力される。最終候補が1つもない場合は、所定のメッセージ、例えば「読み取り不能」が出力される。最終結果判定部5からの出力は、例えばCRT、液晶ディスプレイなどの表示部(不図示)に表示される。
【0022】
次に、この文字列認識装置の文字列認識処理の動作について具体的に説明する。本形態の文字列認識装置は、カラー画像中から特定の文字列を認識することができるが、ここでは、書籍裏表紙に記載されたISBNコードや値段などの文字列を認識する場合の処理を例に挙げて説明する。図2は、図1に示した文字列認識装置の文字列認識処理を説明するためのフローチャート図である。
【0023】
まず、ステップS10にて、画像入力部1によるカラー画像の取り込み、マッピングおよびクラスタ生成が行われる。具体的には、カラーイメージスキャナを用いてISBNコードや値段などの文字列が印刷された書籍裏表紙のカラー画像を取り込み、これを画像格納部に格納する。このとき、入力されたカラー画像データのすべての画素について、(R,G,B)成分が格納される。おのおのの画素は、一通りの(R,G,B)の値の組み合わせを持つので、必ず(R,G,B)空間の1点へマッピングされる。
【0024】
図3は、マッピングの一例を示す模式図である。この図3の例のように、入力画像の画素Aは必ず(R,G,B)空間の1点のA’点にマッピングされる。そして、この(R,G,B)空間にマッピングされた各画素に対してクラスタリングが行われる。このクラスタリングでは、画素の数をN個としたとき、クラスタ結合のための初期値として、それぞれ1つの画素(要素)からなるN個のクラスタが生成される。すなわち、この初期値の状態では、画素とクラスタは一対一で対応する。また、このクラスタリングの際、適当な順番(例えば、2次元画像の座標軸をx軸、y軸としたときのx成分昇順,y成分昇順)でクラスタ番号を付与し、画素と対応づけて格納する。
【0025】
次いで、ステップS11にて、クラスタ結合部2によるクラスタの結合が行われる。このクラスタ結合では、例えば、図4(a)に示すような3つのクラスタX1〜X3が(R、G、B)空間に存在する場合、2要素間の距離が最小となる点xs、xtがそれぞれ属する2つのクラスタX2、X3が結合される。クラスタ結合後は、図4(b)に示すように、クラスタX1と、2つのクラスタX2、X3が結合された結合クラスタの2つとなる。この場合、結合クラスタには、番号としてmin(2,3)が付与される。なお、図4に示した例では、説明を簡単にするため、3つのクラスタX1〜X3しか示していないが、通常は、上述の通り、初期値の状態においてN個のクラスタが存在し、クラスタ結合が行われるたびにクラスタ数が1つずつ減っていく。図4(a)に示した各クラスタX1〜X3は、すでに何回かクラスタ結合が行われており、クラスタX1は3つの画素(要素)を、クラスタX2、X3は、それぞれ5つの画素(要素)を含んだものとなっている。
【0026】
上記ステップS11にて1回のクラスタ結合が行われると、次いで、ステップS12にて、クラスタ数がncmax以下かどうかが判断される。この判断は、クラスタ結合部2によって行われる。クラスタ数がncmaxより大きい場合は、上記のステップS11に戻って再びクラスタ結合が行われ、クラスタ数がncmax以下である場合は、続くステップS13にて、クラスタ数がncmin以上かどうかが判断される。この判断も、クラスタ結合部2によって行われる。クラスタ数がncminより小さい場合には、後述のステップS17の最終結果出力処理に移行し、クラスタ数がncmin以上の場合は、続くステップS14にて画像領域解析部3による以下のような画像領域解析が行われる。なお、クラスタ数ncmax、ncminは、その範囲のいずれかのクラスタ数において、文字認識処理が最も精度良く行われるように予め設定されている。また、クラスタ結合のアルゴリズムにより、ncmax>ncminであれば、必ず1度以上の画像領域解析が実行される。
【0027】
ステップS14の画像領域解析は、画像復元、外接矩形の獲得、外接矩形長に基づく文字候補領域の絞り込み、外接矩形の結合(ライン化)、領域解析の5つ処理からなる。
【0028】
(a)画像復元:
画像復元では、各クラスタ毎に、2次元平面(x,y)座標系で、それぞれのクラスタに含まれる画素集合からなる画像を復元する。図5(a)はクラスタ分布の一例を示す図で、図5(b)は図5(a)に示す各クラスタの復元画像を模式的に示す図である。この例では、(R、G、B)空間に複数のクラスタX1〜Xnが存在し、クラスタX1から文字「12345」と三角形の図形を含む復元画像が、クラスタX2から文字「x」と楕円の図形を含む復元画像が、クラスタXnから三角形の図形を含む復元画像がそれぞれ復元される。
【0029】
(b)外接矩形の獲得:
外接矩形の獲得では、各クラスタの復元画像に対して、それぞれラベル付けを行い、各復元画像中の文字や図形についてそれぞれ外接矩形(ブロック)を求める。外接矩形は、図6(a)に示すように、復元画像中の文字、図形のそれぞれについて求められる。図6(a)に示す復元画像a1,a2,…,anは、それぞれ図5(b)に示したクラスタX1,X2,…,Xnの復元画像である。復元画像a1においては三角形の図形、文字「1」、「2」、「3」、「4」、「5」のそれぞれの外接矩形が求められ、復元画像a2においては楕円形の図形、文字「x」のそれぞれの外接矩形が求められ、復元画像anにおいては三角形の図形の外接矩形が求められる。
【0030】
(c)文字候補領域の絞り込み:
文字候補領域の絞り込みでは、各復元画像について、予め設定された外接矩形長の範囲の外接矩形長を持つ外接矩形を含んでいるかどうかを判定する。図6(b)は、予め設定された外接矩形長の範囲の外接矩形長を持つ外接矩形を示す図である。図6(b)中、復元画像a1およびa2は図6(a)の復元画像a1およびa2に関するものである。図6の(a)および(b)を例に説明すると、図6(a)に示した復元画像a1〜anのうち、復元画像a1、a2のみが上記の範囲の外接矩形が含まれると判定され、他の復元画像(a3〜an)については含まれないと判定される。上記の範囲の外接矩形が含まれると判定された復元画像については、図6(b)に示すようにその範囲の外接矩形のみが残される。
【0031】
(d)外接矩形の結合:
外接矩形の結合(ライン化)は、上記の範囲の外接矩形が含まれると判定された各復元画像(図6(b)参照)に対して行われる。復元画像中に含まれる各外接矩形(ブロック)について、それら外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下であり、かつ、隣接する外接矩形間の距離が予め設定された値以下である場合に、それら外接矩形を結合する。より具体的には、この外接矩形の結合は以下のような手順で行う。
【0032】
まず、復元画像中の各外接矩形(ブロック)の外接矩形四隅座標をそれぞれ求める。外接矩形四隅の座標は、図7(a)に示すように、(x,y)座標系における外接矩形四隅座標値(xsk,xlk,ysk,ylk)として定義する。「xsk」は外接矩形(ブロックk)の左上隅(頂部)および左下隅(頂部)のx軸の値を表わし、「xlk」は外接矩形(ブロックk)の右上隅(頂部)および右下隅(頂部)のx軸の値を表わす。「ysk」は外接矩形(ブロックk)の左上隅(頂部)および右上隅(頂部)のy軸の値を表わし、「ylk」は外接矩形(ブロックk)の左下隅(頂部)および右下隅(頂部)のy軸の値を表わす。
【0033】
続いて、図7(b)に示すように、復元画像中の各外接矩形(ブロックk)の並びのずれの大きさとして、D1(maxkylk−minkylk)およびD2(maxkysk−minkysk)を求め、さらに隣接する外接矩形(ブロックk)間の距離Dを求める。ここで、「maxkylk」は各外接矩形のうち、図7(a)に示した外接矩形四隅座標値(xsk,xlk,ysk,ylk)の「ylk」の値が最も大きなブロックk(図7(b)の例ではブロックk2)の「ylk」の値を示す。同様に、「maxkysk」は外接矩形四隅座標値(xsk,xlk,ysk,ylk)の「ysk」の値が最も大きなブロックk(図7(b)の例ではブロックk1)の「ysk」の値を示す。また、「minkylk」は外接矩形四隅座標値(xsk,xlk,ysk,ylk)の「ylk」の値が最も小さなブロックk(図7(b)の例ではブロックk1)の「ylk」の値、「minkysk」は外接矩形四隅座標値(xsk,xlk,ysk,ylk)の「ysk」の値が最も小さなブロックk(図7(b)の例ではブロックk2)の「ysk」の値をそれぞれ示す。
【0034】
上記のようにして求めたD1、D2があらかじめ定義された値TYS、TYL以下で、かつ、隣接する矩形間距離Dがあらかじめ定義された値以下である場合に、それら外接矩形を結合する。
【0035】
(e)領域解析:
上記外接矩形の結合で結合された外接矩形群(ブロック群)について、あらかじめ定義された認識対象に関する最小ブロック数、最大ブロック数、最小ブロックサイズ、最大ブロックサイズの知識との照合を行う。これらの条件をクリアする外接矩形群(ブロック群)のみを採択し、その採択した外接矩形群(ブロック群)を文字情報候補ラインとして出力する。条件がクリアされない場合は、文字情報候補ラインは出力されない。
【0036】
上述したような画像領域解析(ステップS14)が行われると、次いで、ステップS15にて、文字情報候補ラインの有無の判定が行われる。この判定も、画像領域解析部3によって行われる。文字情報候補ライン無しの場合は、上述したステップS11のクラスタ結合に戻って再びクラスタ結合が行われ、文字情報候補ライン有りの場合は、続くステップS16にて文字認識部5による以下のような文字認識が行われる。
【0037】
ステップS16の文字認識では、まず、画像領域解析部3から出力された、復元画像中の文字情報候補ライン内の領域について、周知の文字切り出し処理を行って文字領域候補を切り出す。続いて、その切り出された各文字領域候補に対し、あらかじめ登録された字種(特定の文字(アルファベットや数字)、例えばI、S、B、Nや数字0〜9)ごとのテンプレートとの類似度を計算する。この文字類似度は、値が小さいほど確信度が高い。本例では、あらかじめ登録された認識対象文字列(例えば、数字5桁や「ISBN」と数字を含む文字列など)を参照して、上記の各文字領域候補からその認識対象文字列に相当する文字列候補を切り出し、この切りだした各文字列候補に対して、各文字領域候補の文字類似度を、上記のような文字領域候補と字種のすべての組み合わせについて計算し、文字列類似度を各文字領域候補の文字類似度の和として計算する。このようにして求めた各文字列候補の文字列類似度のうち、あらかじめ設定された値よりも大きいものについて、文字列類似度の大きい文字列候補から、出力候補文字列として、最大1候補の文字列類似度の値と文字列候補を格納する。
【0038】
上記の処理をより具体的に説明すると、次のようなこととなる。以下に挙げる例は、認識対象である特定の文字列を「12345」としている。
【0039】
例えば、図8に示すように、文字列「12345」を含む文字情報候補ラインが画像領域解析部3から出力された場合、文字「1」、「2」、「3」、「4」、「5」の文字領域候補が切り出され、その切り出された各文字領域候補に対し、あらかじめ登録された字種(1、2、3、4、5)ごとのテンプレートとの類似度を計算する。そして、あらかじめ登録された認識対象文字列(ここでは、「12345」)を参照して、上記の各文字領域候補からその認識対象文字列に相当する文字列候補の文字類似度を計算する。図8の例では、文字領域候補には文字「1」〜「5」しか存在しないため、文字列候補は「12345」のみとなる。文字領域候補に他の文字が存在する場合は、その文字を組み合わせた文字列も文字列候補として文字類似度が計算される。文字列候補の文字類似度は、各文字領域候補「1」〜「5」の文字類似度と字種のすべての組み合わせについて計算し、文字列類似度を各文字領域候補の文字類似度の和として計算する。図8の例では、文字候補列は「12345」のみであるため、求めた文字候補列の文字列類似度があらかじめ設定された値よりも大きければ、出力候補文字列としてその文字列候補が文字列類似度とともに格納される。このようにして格納される文字列候補および文字列類似度の値は、ステップS11のクラスタ結合後のクラスタ数によって異なり、最適なクラスタ数のときにその文字列類似度が最も大きくなる。文字列候補が存在しない場合は棄却とする(図8の「Reject」)。
【0040】
上記ステップS16の文字認識の後は、上述のステップS11に戻って再びクラスタ結合が行われる。このようにしてステップS11〜S16の処理が繰り返され、ステップS13にてクラスタ数がncmin以下となったときに、初めてステップS17に移行し、最終結果判定部5による以下のような最終結果出力処理が行われる。
【0041】
最終結果出力処理では、文字認識部4に格納された文字認識結果(出力候補文字列)から最終候補を決定してそれを出力する。なお、文字認識部4に一つも出力候補文字列が存在しない場合には、「読み取り不能」を示す情報が出力される。文字認識部4に出力候補文字列が1つのみ存在する場合は、その出力候補文字列を最終候補として出力する。文字認識部4に出力候補文字列が2つ以上存在する場合は、文字列類似度の最も大きな候補文字列を最終候補として出力する。
【0042】
以上説明した処理を、図11に示したカラー画像、すなわち緑色の背景に「ISBN4−7856−3060−4 C3055 ¥3800E」のISBNコードおよび値段が青色で印刷された文字列領域が存在するカラー画像を例として説明すると、次のようなことになる。
【0043】
この例の場合は、クラスタ数の範囲ncmin〜ncmaxとして例えばクラスタ数3〜7(この範囲は、経験的に与えられるものである。)が設定され、この範囲において、それぞれのクラスタ数のときの各クラスタから復元画像が生成されて文字認識処理が行われる。そして、各文字認識処理毎に、最大1候補の文字列類似度の値と候補文字列が格納される。ここで、最適なクラスタ数が5であったとすると、クラスタ数5のときの文字認識処理において、図10に示すように「ISBN4−7856−3060−4 C3055 ¥3800E」(青色)の文字列が精度よく復元され、最も大きな文字列類似度を持つ文字列候補が文字列認識部4に格納される。クラスタ数が5以外の場合には、精度良く文字列認識を行うことが困難であるため、文字列認識部4に格納される文字列候補の文字列類似度は小さい値をとる。したがって、最終結果判定部5では、クラスタ数5の場合の文字列候補が採択され、それが最終候補として出力される。
【0044】
以上説明したように、本形態の文字認識装置によれば、文字認識処理が精度良く行われるクラスタ数の範囲ncmin〜ncmaxを想定し、その範囲において、それぞれのクラスタ数のときのクラスタからの復元画像が生成されて文字認識処理が行われる。そして、各文字認識処理毎に、最大1候補の文字列類似度の値と候補文字列が格納され、そのうちから最も文字列類似度の大きな候補文字列が最終候補として出力される。このように、本形態の文字認識装置は、クラスタ数可変という特徴を有しており、最適なクラスタ数で文字認識処理を行えるようになっている。
【0045】
(他の実施形態)
上述の実施形態において、クラスタリングにK−Means法などのクラスタ数固定の統計的クラスタリング手法を用いることができる。具体的には、図1に示したクラスタ結合部を以下のようなクラスタリング再構築部に置き換える。
【0046】
クラスタリング再構築部は、クラスタ結合部と置き換え可能なユニットである。このクラスタリング再構築部では、クラスタ数NCが1ずつ減算され、結果的に、K−Means法などのクラスタ数固定の統計的クラスタリング手法によるクラスタリングが行われる。この結果生成された各クラスタは、類似したRGB成分を持つ画素の集合となる。この画素の集合から復元画像を得、上述した画像領域解析部、文字認識部、最終結果判定部による各処理が行われる。
【0047】
(他の実施形態:プログラム)
図9は、本発明の他の実施形態である、文字認識処理に関するプログラムを備える文字認識装置の一構成例を示すブロック図である。
【0048】
図9を参照すると、本実施形態は、カラーイメージスキャナなどの入力装置11と、入力装置11から取り込まれるカラー画像データについて文字認識処理を行うデータ処理装置10と、その文字認識処理結果を出力するための出力装置12と、文字認識処理プログラムを記録した記録媒体13とを備える。データ処理装置10は、前述のクラスタ結合部2、画像領域解析部3、文字認識部4、最終結果判定部5などの各処理部における動作を記録媒体13に記録された文字認識処理プログラムにしたがって実行する。記録媒体13は磁気ディスク、半導体メモリ、その他の記録媒体であってよい。出力装置12は、CRT、液晶ディスプレイなどの表示装置、またはプリンタである。
【0049】
文字認識処理プログラムは、記録媒体13からデータ処理装置10に読み込まれ、データ処理装置10の動作を制御する。データ処理装置10は、文字認識処理プログラムの制御により、以下のような文字認識処理を実行することができる。
【0050】
入力装置1からカラー画像データが与えられると、まず、その取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる(第1の処理)。
【0051】
次いで、上記所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する(第2の処理)。
【0052】
次いで、上記所定の範囲の各クラスタ数毎に、上記の処理で生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する(第3の処理)。
【0053】
そして、上記の処理で格納された、上記所定の範囲の各クラスタ数毎の文字列候補のうちで、類似度が最も大きな文字列候補を最終候補として出力する(第4の処理)。
【0054】
上記の第2の処理を、所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、上記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するようにし、上記第3の処理を、文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、その切り出した各文字候補領域からなる文字候補列と特定の文字列との文字列類似度として求め、文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するようにしてもよい。
【0055】
以上のように、本形態では、記録媒体13に記録されたプログラムによる制御により、前述した各実施形態の文字認識処理を実現することができる。なお、ここでは、文字認識処理プログラムは、記録媒体13により提供されるようになっているが、本発明はこの形態に限定されるものではなく、文字認識処理プログラムはどのような手段で提供されてもよい。例えば、ネットワークを介して外部装置から提供されるような構成としてもよい。
【0056】
【発明の効果】
以上説明したように、本発明によれば、クラスタ数を可変として、複数回文字認識処理を実行させ、結果として最適なクラスタ数における文字列認識を行うことができるので、従来のものより、高精度に認識を行うことができ、信頼性の高い文字認識結果を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の文字列認識装置の主要構成を示すブロック図である。
【図2】図1に示した文字列認識装置の文字列認識処理を説明するためのフローチャート図である。
【図3】マッピングの一例を示す模式図である。
【図4】(a)および(b)は、クラスタ結合を説明するための模式図である。
【図5】(a)は、(R、G、B)空間のクラスタの一例を示す模式図、(b)は(a)に示すクラスタの復元画像を示す模式図である。
【図6】(a)は、図5(b)に示す復元画像の外接矩形を示す模式図、(b)は(a)に示す外接矩形のうちの、予め設定された外接矩形長の範囲の外接矩形長を持つ外接矩形を示す模式図である。
【図7】(a)は(x,y)座標系における外接矩形四隅座標値を説明するための図、(b)は外接矩形四隅座標値と外接矩形間距離を用いた矩形結合を説明するための図である。
【図8】文字情報候補ラインの出力結果の一例を示す模式図である。
【図9】本発明の他の実施形態である、文字認識処理に関するプログラムを備える文字認識装置の一構成例を示すブロック図である。
【図10】ISBNコード含むカラー画像データの一例を示す模式図である。
【図11】図10に示すカラー画像データの文字認識結果を示すモ模式図である。
【符号の説明】
1 画像入力部
2 クラスタ結合部
3 画像領域解析部
4 文字認識部
5 最終結果判定部
10 データ処理装置
11 入力装置
12 出力装置
13 記録媒体

Claims (15)

  1. 取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第1のステップと、
    前記所定の範囲の各クラスタ数毎に、前記(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第2のステップと、
    前記所定の範囲の各クラスタ数毎に、前記第2のステップで生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第3のステップと、
    前記第3のステップで格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第4のステップとを含むことを特徴とする文字列認識方法。
  2. 第2のステップは、
    所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元するステップと、
    前記復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得するステップと、
    前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択するステップと、
    前記選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するステップとを含み、
    第3のステップは、
    前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求めるステップと、
    前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するステップとを含むことを特徴とする請求項1に記載の文字認識方法。
  3. 第1のステップが、隣接するクラスタとの距離が近いクラスタ対から順に結合するステップであることを特徴とする請求項1または2に記載の文字認識方法。
  4. 第1のステップにおけるクラスタ結合にクラスタ数固定の統計的クラスタリングを用いることを特徴とする請求項1または2に記載の文字認識方法。
  5. 特定の文字列がISBNコードを含む文字列であることを特徴とする請求項1から4のいずれか1項に記載の文字認識方法。
  6. カラー画像データを取り込むための画像入力手段と、
    前記画像入力手段にて取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させるクラスタ結合手段と、
    前記所定の範囲の各クラスタ数毎に、前記(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する画像領域解析手段と、
    前記所定の範囲の各クラスタ数毎に、前記画像領域解析手段にて生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する文字認識手段と、
    前記文字認識手段にて格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する最終結果判定手段とを有することを特徴とする文字列認識装置。
  7. 画像領域解析手段は、
    所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するように構成され、
    文字認識手段は、
    前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するように構成されていることを特徴とする請求項6に記載の文字認識装置。
  8. クラスタ結合手段は、隣接するクラスタとの距離が近いクラスタ対から順に結合するように構成されていることを特徴とする請求項6または7に記載の文字認識装置。
  9. クラスタ結合手段は、クラスタ数固定の統計的クラスタリングを行うことを特徴とする請求項6または7に記載の文字認識装置。
  10. 特定の文字列がISBNコードを含む文字列であることを特徴とする請求項6から9のいずれか1項に記載の文字認識装置。
  11. 取り込まれたカラー画像データの各画素を(R、G、B)空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第1の処理と、
    前記所定の範囲の各クラスタ数毎に、前記(R、G、B)空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第2の処理と、
    前記所定の範囲の各クラスタ数毎に、前記第2の処理で生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第3の処理と、
    前記第3の処理で格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第4の処理とをコンピュータに実行させるためのプログラム。
  12. 第2の処理が、所定の範囲の各クラスタ数毎に、(R、G、B)空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力する処理であり、
    第3の処理が、前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納する処理である請求項11に記載のプログラム。
  13. 第1の処理が、隣接するクラスタとの距離が近いクラスタ対から順に結合する処理であることを特徴とする請求項11または12に記載のプログラム。
  14. 第1の処理が、クラスタ数固定の統計的クラスタリングを行う処理であることを特徴とする請求項11または12に記載のプログラム。
  15. 特定の文字列がISBNコードを含む文字列であることを特徴とする請求項11から14のいずれか1項に記載のプログラム。
JP2001033850A 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム Expired - Fee Related JP3661774B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001033850A JP3661774B2 (ja) 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001033850A JP3661774B2 (ja) 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2002236877A JP2002236877A (ja) 2002-08-23
JP3661774B2 true JP3661774B2 (ja) 2005-06-22

Family

ID=18897543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001033850A Expired - Fee Related JP3661774B2 (ja) 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム

Country Status (1)

Country Link
JP (1) JP3661774B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5672059B2 (ja) * 2011-02-24 2015-02-18 富士通株式会社 文字認識処理装置および方法並びに文字認識処理プログラム
US9202127B2 (en) 2011-07-08 2015-12-01 Qualcomm Incorporated Parallel processing method and apparatus for determining text information from an image
CN107784301B (zh) 2016-08-31 2021-06-11 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置

Also Published As

Publication number Publication date
JP2002236877A (ja) 2002-08-23

Similar Documents

Publication Publication Date Title
JP3747589B2 (ja) 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JP2776295B2 (ja) 画像インデックス生成方法及び画像インデックス生成装置
JP4845715B2 (ja) 画像処理方法、画像処理装置、プログラム、及び記憶媒体
JP5997545B2 (ja) 信号処理方法及び信号処理装置
US20060029276A1 (en) Object image detecting apparatus, face image detecting program and face image detecting method
JP5283088B2 (ja) 画像検索装置および同画像検索装置に適用される画像検索用コンピュータプログラム
JP2004522228A (ja) ディジタル画像を表現し比較する方法
CN105701489A (zh) 一种新型的数字提取和识别的方法及系统
JP3851742B2 (ja) 帳票処理方法及び装置
JPH0256708B2 (ja)
JP4275866B2 (ja) カラー画像から文字列パターンを抽出する装置および方法
CN114155540A (zh) 基于深度学习的文字识别方法、装置、设备及存储介质
CN113840135A (zh) 色偏检测方法、装置、设备及存储介质
JP4859351B2 (ja) 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP3661774B2 (ja) 文字列認識方法、文字認識装置およびプログラム
JP4211941B2 (ja) パターン抽出装置
JPH08287258A (ja) カラー画像認識装置
JP4957924B2 (ja) 文書画像特徴量生成装置、文書画像特徴量生成方法及び文書画像特徴量生成用プログラム
JP6546385B2 (ja) 画像処理装置及びその制御方法、プログラム
JP4390523B2 (ja) 最小領域による合成画像の分割
JP2005208977A (ja) 文書ファイリング装置および文書ファイリング方法
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JP2002185782A (ja) 文字抽出装置、文字抽出方法および記録媒体
JP3199009B2 (ja) 画像蓄積・管理装置及び画像インデックス生成方法
JP4221960B2 (ja) 帳票識別装置及びその識別方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041126

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050315

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100401

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110401

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120401

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120401

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140401

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees