JP2002236877A - 文字列認識方法、文字認識装置およびプログラム - Google Patents

文字列認識方法、文字認識装置およびプログラム

Info

Publication number
JP2002236877A
JP2002236877A JP2001033850A JP2001033850A JP2002236877A JP 2002236877 A JP2002236877 A JP 2002236877A JP 2001033850 A JP2001033850 A JP 2001033850A JP 2001033850 A JP2001033850 A JP 2001033850A JP 2002236877 A JP2002236877 A JP 2002236877A
Authority
JP
Japan
Prior art keywords
character
character string
candidate
image
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001033850A
Other languages
English (en)
Other versions
JP3661774B2 (ja
Inventor
Tatsuisa Akiyama
達勇 秋山
Murahito Hayashi
祐人 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001033850A priority Critical patent/JP3661774B2/ja
Publication of JP2002236877A publication Critical patent/JP2002236877A/ja
Application granted granted Critical
Publication of JP3661774B2 publication Critical patent/JP3661774B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】最適なクラスタ数で文字列認識を行うことがで
きるようにする。 【解決手段】画像入力部1にて取り込まれたカラー画像
データの各画素を(R、G、B)空間にマッピングして
得られるクラスタの数を所定の範囲において変化させる
クラスタ結合部2と、各クラスタ数毎に、復元画像を生
成し、特定の文字列の文字サイズおよび文字の並びを参
照して文字情報候補ライン画像を生成する画像領域解析
部3と、その文字情報候補ライン画像から文字列候補を
切り出し、これと上記特定の文字列との類似度を計算
し、該類似度が予め設定された値よりも大きな文字列候
補のうちで、最も類似度の大きな文字列候補をその類似
度とともに格納する文字認識部4と、各クラスタ数毎の
文字列候補のうちで、類似度が最も大きな文字列候補を
最終候補として出力する最終結果判定部5とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、カラー画像から文
字列を認識する方法および装置に関する。さらには、そ
のような認識方法を実行するプログラムに関する。
【0002】
【従来の技術】カラー画像から文字列を認識する手法と
して、印刷物や写真などの原稿をカラーイメージスキャ
ナ(CCDタイプやMOSタイプがある)を用いてカラ
ー画像として取り込み、該取り込んだカラー画像から文
字列を認識する2値化手法が知られている。このような
文字列認識では、(R、G、B)表色系上のクラスタリ
ング手法を利用するものが一般的であり、通常、クラス
タリング結果として得られる画像に対して文字領域の抽
出が行われる。一例として、カラー画像中からタイトル
を抽出する手法(特開2000-172849号公報参照)を以下
に簡単に説明する。
【0003】まず、カラーイメージスキャナ等から取り
込まれたカラー画像の各画素を色毎にクラスタリングす
ることにより色分解画像を生成する。具体的には、取り
込んだカラー画像の各画素をそれぞれの(R、G、B)
値に基づいて(R、G、B)空間にマッピングしてクラ
スタ分布を形成し、各クラスタ毎の色分解画像を生成す
る。次いで、1つの色(タイトルの文字領域の色)の色
分解画像から連結領域の外接矩形を求め、その求めた外
接矩形を、サイズ、形状が一定の範囲にあるものだけに
絞る。こうして得られた各外接矩形について、隣接矩形
探索範囲をそれぞれ設定し、その範囲にかかる外接矩形
を探索する。次いで、お互いに隣接矩形探索範囲内にか
かるような矩形をグループとして抽出し、その抽出した
グループのうち、グループ内の各矩形の重心の並びの直
線性が良いものを残し、そのグループの外接矩形を求め
る。そして、その求めたグループの外接矩形内を対称に
該グループを構成する領域の色に近いパターンを抽出す
る。このパターン抽出により、タイトルの文字列を抽出
することが可能である。
【0004】
【発明が解決しようとする課題】書籍の裏表紙には、価
格、ISBN番号などの実用上非常に有益な情報が記載
されているが、必ずしも黒色の記載ではない。このよう
な文字列情報を、カラーイメージスキャナなどにより取
り込まれたカラー画像中から抽出する場合、従来の、
(R、G、B)表色系上でのクラスタリングを利用する
手法では、背景に複雑な文様があると、正確な文字認識
を行うことができない。特に、従来は、クラスタリング
の際、最適なクラスタ数を求めることは困難であるた
め、文字領域抽出のための良好な画像を得ることができ
ず、文字列認識処理の精度が低いものとなっていた。例
えば、図11に示すように、緑色の背景に「ISBN4
−7856−3060−4 C3055 ¥3800
E」のISBNコードおよび値段が青色で印刷された文
字列領域が存在する場合、最適なクラスタ数が与えられ
ないと、文字列領域(青)と背景(緑)を分離すること
が困難となり、文字列を正確に認識することができな
い。
【0005】上述の特開2000-172849号公報に記載の文
字列認識手法においても、取り込んだカラー画像の各画
素をそれぞれの(R、G、B)値に基づいて(R、G、
B)空間にマッピングしてクラスタ分布を生成するが、
その際、クラスタ数は適当に与えられており、最適なク
ラスタ数が必ず与えられるとは限らない。最適なクラス
タ数が与えられない場合、クラスタリングの後に行われ
る文字列認識処理の精度が低下し、文字列を正確に認識
することができない。
【0006】本発明の目的は、上記問題を解決し、最適
なクラスタ数における文字列認識を行うことができる方
法および装置、さらにはそのような認識処理を実行可能
なプログラムを提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の文字認識方法は、取り込まれたカラー画像
データの各画素を(R、G、B)空間にマッピングして
得られるクラスタを結合してそのクラスタ数を所定の範
囲において変化させる第1のステップと、前記所定の範
囲の各クラスタ数毎に、前記(R、G、B)空間におけ
る各クラスタの復元画像を生成し、該生成した復元画像
のそれぞれについて、特定の文字列の文字サイズおよび
文字の並びを参照して、該特定の文字列に関する文字情
報候補ライン画像を生成する第2のステップと、前記所
定の範囲の各クラスタ数毎に、前記第2のステップで生
成された各復元画像の文字情報候補ライン画像につい
て、その文字情報候補ライン画像から文字列候補を切り
出して、該切り出した文字列候補と前記特定の文字列と
の類似度を計算し、該類似度が予め設定された値よりも
大きな文字列候補のうちで、最も類似度の大きな文字列
候補をその類似度とともに格納する第3のステップと、
前記第3のステップで格納された、前記所定の範囲の各
クラスタ数毎の文字列候補のうちで、前記類似度が最も
大きな文字列候補を最終候補として出力する第4のステ
ップとを含むことを特徴とする。
【0008】上記の場合、第2のステップは、所定の範
囲の各クラスタ数毎に、(R、G、B)空間における各
クラスタについて、そのクラスタに属する画素値をもつ
画像を復元するステップと、前記復元した各復元画像の
それぞれについて、隣接する画素の画素値が所定の大き
さの範囲にある連結領域の外接矩形を獲得するステップ
と、前記復元画像のうち、所定の矩形長範囲の外接矩形
を含むものを特定の文字列に関する文字領域を含む画像
候補として選択するステップと、前記選択した画像候補
のそれぞれについて、前記所定の矩形長範囲の外接矩形
のうち、隣接する外接矩形間の距離が予め設定された値
以下で、かつ、その隣接する外接矩形の並びの直線性に
対するずれの大きさが予め設定された値以下のものを結
合し、該結合された外接矩形群のうち、予め定義された
最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サ
イズの条件を満たすものを文字情報候補ライン画像とし
て出力するステップとを含み、第3のステップは、前記
文字情報候補ライン画像から個別に文字候補領域を切り
出し、該切り出した各文字候補領域について、前記特定
の文字列に関する字種が予め登録されたテンプレートと
の類似度である文字類似度を計算するとともに、該各文
字候補領域の文字類似度の和を、前記切り出した各文字
候補領域からなる文字候補列と前記特定の文字列との文
字列類似度として求めるステップと、前記文字列類似度
が予め設定された値よりも大きな文字列候補のうちで、
最も文字列類似度の大きな文字列候補をその文字列類似
度とともに格納するステップとを含むようにしてもよ
い。
【0009】本発明の文字認識装置は、カラー画像デー
タを取り込むための画像入力手段と、前記画像入力手段
にて取り込まれたカラー画像データの各画素を(R、
G、B)空間にマッピングして得られるクラスタを結合
してそのクラスタ数を所定の範囲において変化させるク
ラスタ結合手段と、前記所定の範囲の各クラスタ数毎
に、前記(R、G、B)空間における各クラスタの復元
画像を生成し、該生成した復元画像のそれぞれについ
て、特定の文字列の文字サイズおよび文字の並びを参照
して、該特定の文字列に関する文字情報候補ライン画像
を生成する画像領域解析手段と、前記所定の範囲の各ク
ラスタ数毎に、前記画像領域解析手段にて生成された各
復元画像の文字情報候補ライン画像について、その文字
情報候補ライン画像から文字列候補を切り出して、該切
り出した文字列候補と前記特定の文字列との類似度を計
算し、該類似度が予め設定された値よりも大きな文字列
候補のうちで、最も類似度の大きな文字列候補をその類
似度とともに格納する文字認識手段と、前記文字認識手
段にて格納された、前記所定の範囲の各クラスタ数毎の
文字列候補のうちで、前記類似度が最も大きな文字列候
補を最終候補として出力する最終結果判定手段とを有す
ることを特徴とする。
【0010】上記の場合、画像領域解析手段は、所定の
範囲の各クラスタ数毎に、(R、G、B)空間における
各クラスタについて、そのクラスタに属する画素値をも
つ画像を復元し、該復元した各復元画像のそれぞれにつ
いて、隣接する画素の画素値が所定の大きさの範囲にあ
る連結領域の外接矩形を獲得し、前記復元画像のうち、
所定の矩形長範囲の外接矩形を含むものを特定の文字列
に関する文字領域を含む画像候補として選択し、該選択
した画像候補のそれぞれについて、前記所定の矩形長範
囲の外接矩形のうち、隣接する外接矩形間の距離が予め
設定された値以下で、かつ、その隣接する外接矩形の並
びの直線性に対するずれの大きさが予め設定された値以
下のものを結合し、該結合された外接矩形群のうち、予
め定義された最小矩形数、最大矩形数、最小矩形サイ
ズ、最大矩形サイズの条件を満たすものを文字情報候補
ライン画像として出力するように構成され、文字認識手
段は、前記文字情報候補ライン画像から個別に文字候補
領域を切り出し、該切り出した各文字候補領域につい
て、前記特定の文字列に関する字種が予め登録されたテ
ンプレートとの類似度である文字類似度を計算するとと
もに、該各文字候補領域の文字類似度の和を、前記切り
出した各文字候補領域からなる文字候補列と前記特定の
文字列との文字列類似度として求め、前記文字列類似度
が予め設定された値よりも大きな文字列候補のうちで、
最も文字列類似度の大きな文字列候補をその文字列類似
度とともに格納するように構成されてもよい。
【0011】本発明のプログラムは、取り込まれたカラ
ー画像データの各画素を(R、G、B)空間にマッピン
グして得られるクラスタを結合してそのクラスタ数を所
定の範囲において変化させる第1の処理と、前記所定の
範囲の各クラスタ数毎に、前記(R、G、B)空間にお
ける各クラスタの復元画像を生成し、該生成した復元画
像のそれぞれについて、特定の文字列の文字サイズおよ
び文字の並びを参照して、該特定の文字列に関する文字
情報候補ライン画像を生成する第2の処理と、前記所定
の範囲の各クラスタ数毎に、前記第2の処理で生成され
た各復元画像の文字情報候補ライン画像について、その
文字情報候補ライン画像から文字列候補を切り出して、
該切り出した文字列候補と前記特定の文字列との類似度
を計算し、該類似度が予め設定された値よりも大きな文
字列候補のうちで、最も類似度の大きな文字列候補をそ
の類似度とともに格納する第3の処理と、前記第3の処
理で格納された、前記所定の範囲の各クラスタ数毎の文
字列候補のうちで、前記類似度が最も大きな文字列候補
を最終候補として出力する第4の処理とをコンピュータ
に実行させることを特徴とする。
【0012】上記の場合、第2の処理が、所定の範囲の
各クラスタ数毎に、(R、G、B)空間における各クラ
スタについて、そのクラスタに属する画素値をもつ画像
を復元し、該復元した各復元画像のそれぞれについて、
隣接する画素の画素値が所定の大きさの範囲にある連結
領域の外接矩形を獲得し、前記復元画像のうち、所定の
矩形長範囲の外接矩形を含むものを特定の文字列に関す
る文字領域を含む画像候補として選択し、該選択した画
像候補のそれぞれについて、前記所定の矩形長範囲の外
接矩形のうち、隣接する外接矩形間の距離が予め設定さ
れた値以下で、かつ、その隣接する外接矩形の並びの直
線性に対するずれの大きさが予め設定された値以下のも
のを結合し、該結合された外接矩形群のうち、予め定義
された最小矩形数、最大矩形数、最小矩形サイズ、最大
矩形サイズの条件を満たすものを文字情報候補ライン画
像として出力する処理であり、第3の処理が、前記文字
情報候補ライン画像から個別に文字候補領域を切り出
し、該切り出した各文字候補領域について、前記特定の
文字列に関する字種が予め登録されたテンプレートとの
類似度である文字類似度を計算するとともに、該各文字
候補領域の文字類似度の和を、前記切り出した各文字候
補領域からなる文字候補列と前記特定の文字列との文字
列類似度として求め、前記文字列類似度が予め設定され
た値よりも大きな文字列候補のうちで、最も文字列類似
度の大きな文字列候補をその文字列類似度とともに格納
する処理であってもよい。
【0013】上記のとおりの本発明においては、特定の
文字列、例えばISBNコード等書籍に特有の文字サイ
ズ、文字の並びに関する知識を利用するので、単にクラ
スタリングを行うよりも高精度に認識を行うことができ
る。
【0014】また、本発明では、クラスタ数を可変とし
ており、それぞれのクラスタ数のときの各クラスタから
復元画像が生成されて文字認識処理が行われる。そし
て、各文字認識処理毎に、最大1候補の候補文字列が格
納され、そのうちから最も特定の文字列と類似した候
補、すなわち文字列類似度の大きな文字列候補が最終候
補として出力される。このように、本発明では、クラス
タ数可変という特徴を有しており、最適なクラスタ数で
文字認識処理を行えるようになっている。
【0015】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。
【0016】図1は、本発明の一実施形態の文字列認識
装置の主要構成を示すブロック図である。この文字列認
識装置は、特定の文字列、例えば書籍裏表紙に記載され
たISBNコードや値段(図10参照)などの文字列を
認識する装置であって、その構成は、画像入力部1、ク
ラスタ結合部2、画像領域解析部3、文字認識部4、最
終結果判定部5からなる。
【0017】画像入力部1は、周知のカラーイメージス
キャナを備え、書籍裏表紙のカラー画像データを取り込
むことができる。取り込まれたカラー画像データは、画
像入力部1の画像格納部(不図示)に格納される。この
他、画像入力部1は、取り込んだカラー画像データの各
画素をそれぞれの(R、G、B)値に基づいて(R、
G、B)空間にマッピングし、それぞれをクラスタとし
て割り当てる機能、その割り当てたクラスタに適当な順
番でクラスタ番号を付与する機能などを持つ。
【0018】クラスタ結合部2は、画像入力部1にて割
り当てられたクラスタのうち最も距離の近いクラスタを
結合するものである。具体的には、以下の式を満たすク
ラスタ、すなわち、(R、G、B)空間における2要素
間の距離が最小となるような(R、G、B)上の点x
s、xtに関して、要素xsの属するクラスタXiと要
素xtの属するクラスタXjを結合する。ただし、クラ
スタXiとクラスタXjは異なるクラスタである。結合
したクラスタには、番号としてmin(i,j)が付与
される。
【0019】d2min(Xi,Xj)=mins,t
|(xs−xt)|| (ただし、xs∈Xi、xt∈Xj) 画像領域解析部3は、(R、G、B)空間に形成された
各クラスタ毎に、そのクラスタに属する画素値をもつ画
像を復元し、それら復元画像に対してラベリングを行う
とともに、各復元画像に含まれている文字や図形(隣接
する画素の画素値が所定の大きさの範囲にある連結領
域)のそれぞれについて、外接矩形を獲得する機能を持
つ。また、画像領域解析部3は、あらかじめ定義された
外接矩形長(外接矩形の縦方向または横方向の長さ)に
関する知識を有し、該外接矩形長を有する外接矩形を含
む復元画像を文字領域を含む画像の候補として選択する
機能を持つ。さらに、画像領域解析部3は、その選択し
た復元画像について、(x,y)座標における各外接矩
形の四隅座標(各頂部の座標)および各外接矩形間の距
離を求め、それらの値が予め定義されている値以下とな
る外接矩形を結合してライン化を行うことにより文字情
報候補ライン画像を生成する機能を持つ。
【0020】文字認識部4は、画像領域解析部3にて生
成された文字情報候補ライン画像を入力とし、この文字
情報候補ライン画像から個別文字切り出しを行い、該切
り出した文字候補と所定の字種が予め登録されたテンプ
レートとの類似度(以下、文字類似度と記す。)を計算
する機能を持つ。また、文字認識部4は、切り出した文
字候補と文字類似度から特定の文字列に関する文字列類
似度を計算し、該計算結果に基づいて文字列候補とその
文字列類似度をそれぞれ格納する機能を持つ。
【0021】最終結果判定部5は、文字認識部4に格納
された文字列候補と文字列類似度を入力とし、これらか
ら最終候補を判定して最終結果を出力する。文字認識部
4に格納された文字列候補が複数ある場合は、それぞれ
の文字列類似度を比較し、最も大きな文字列類似度を持
つ文字列候補が最終候補として出力される。最終候補が
1つもない場合は、所定のメッセージ、例えば「読み取
り不能」が出力される。最終結果判定部5からの出力
は、例えばCRT、液晶ディスプレイなどの表示部(不
図示)に表示される。
【0022】次に、この文字列認識装置の文字列認識処
理の動作について具体的に説明する。本形態の文字列認
識装置は、カラー画像中から特定の文字列を認識するこ
とができるが、ここでは、書籍裏表紙に記載されたIS
BNコードや値段などの文字列を認識する場合の処理を
例に挙げて説明する。図2は、図1に示した文字列認識
装置の文字列認識処理を説明するためのフローチャート
図である。
【0023】まず、ステップS10にて、画像入力部1
によるカラー画像の取り込み、マッピングおよびクラス
タ生成が行われる。具体的には、カラーイメージスキャ
ナを用いてISBNコードや値段などの文字列が印刷さ
れた書籍裏表紙のカラー画像を取り込み、これを画像格
納部に格納する。このとき、入力されたカラー画像デー
タのすべての画素について、(R,G,B)成分が格納
される。おのおのの画素は、一通りの(R,G,B)の
値の組み合わせを持つので、必ず(R,G,B)空間の
1点へマッピングされる。
【0024】図3は、マッピングの一例を示す模式図で
ある。この図3の例のように、入力画像の画素Aは必ず
(R,G,B)空間の1点のA’点にマッピングされ
る。そして、この(R,G,B)空間にマッピングされ
た各画素に対してクラスタリングが行われる。このクラ
スタリングでは、画素の数をN個としたとき、クラスタ
結合のための初期値として、それぞれ1つの画素(要
素)からなるN個のクラスタが生成される。すなわち、
この初期値の状態では、画素とクラスタは一対一で対応
する。また、このクラスタリングの際、適当な順番(例
えば、2次元画像の座標軸をx軸、y軸としたときのx
成分昇順,y成分昇順)でクラスタ番号を付与し、画素
と対応づけて格納する。
【0025】次いで、ステップS11にて、クラスタ結
合部2によるクラスタの結合が行われる。このクラスタ
結合では、例えば、図4(a)に示すような3つのクラ
スタX1〜X3が(R、G、B)空間に存在する場合、
2要素間の距離が最小となる点xs、xtがそれぞれ属
する2つのクラスタX2、X3が結合される。クラスタ
結合後は、図4(b)に示すように、クラスタX1と、
2つのクラスタX2、X3が結合された結合クラスタの
2つとなる。この場合、結合クラスタには、番号として
min(2,3)が付与される。なお、図4に示した例
では、説明を簡単にするため、3つのクラスタX1〜X
3しか示していないが、通常は、上述の通り、初期値の
状態においてN個のクラスタが存在し、クラスタ結合が
行われるたびにクラスタ数が1つずつ減っていく。図4
(a)に示した各クラスタX1〜X3は、すでに何回か
クラスタ結合が行われており、クラスタX1は3つの画
素(要素)を、クラスタX2、X3は、それぞれ5つの
画素(要素)を含んだものとなっている。
【0026】上記ステップS11にて1回のクラスタ結
合が行われると、次いで、ステップS12にて、クラス
タ数がncmax以下かどうかが判断される。この判断
は、クラスタ結合部2によって行われる。クラスタ数が
ncmaxより大きい場合は、上記のステップS11に戻
って再びクラスタ結合が行われ、クラスタ数がncmax
以下である場合は、続くステップS13にて、クラスタ
数がncmin以上かどうかが判断される。この判断も、
クラスタ結合部2によって行われる。クラスタ数がnc
minより小さい場合には、後述のステップS17の最終
結果出力処理に移行し、クラスタ数がncmin以上の場
合は、続くステップS14にて画像領域解析部3による
以下のような画像領域解析が行われる。なお、クラスタ
数ncmax、ncminは、その範囲のいずれかのクラスタ
数において、文字認識処理が最も精度良く行われるよう
に予め設定されている。また、クラスタ結合のアルゴリ
ズムにより、ncmax>ncminであれば、必ず1度以上
の画像領域解析が実行される。
【0027】ステップS14の画像領域解析は、画像復
元、外接矩形の獲得、外接矩形長に基づく文字候補領域
の絞り込み、外接矩形の結合(ライン化)、領域解析の
5つ処理からなる。
【0028】(a)画像復元:画像復元では、各クラス
タ毎に、2次元平面(x,y)座標系で、それぞれのク
ラスタに含まれる画素集合からなる画像を復元する。図
5(a)はクラスタ分布の一例を示す図で、図5(b)
は図5(a)に示す各クラスタの復元画像を模式的に示
す図である。この例では、(R、G、B)空間に複数の
クラスタX1〜Xnが存在し、クラスタX1から文字
「12345」と三角形の図形を含む復元画像が、クラ
スタX2から文字「x」と楕円の図形を含む復元画像
が、クラスタXnから三角形の図形を含む復元画像がそ
れぞれ復元される。
【0029】(b)外接矩形の獲得:外接矩形の獲得で
は、各クラスタの復元画像に対して、それぞれラベル付
けを行い、各復元画像中の文字や図形についてそれぞれ
外接矩形(ブロック)を求める。外接矩形は、図6
(a)に示すように、復元画像中の文字、図形のそれぞ
れについて求められる。図6(a)に示す復元画像a
1,a2,…,anは、それぞれ図5(b)に示したク
ラスタX1,X2,…,Xnの復元画像である。復元画
像a1においては三角形の図形、文字「1」、「2」、
「3」、「4」、「5」のそれぞれの外接矩形が求めら
れ、復元画像a2においては楕円形の図形、文字「x」
のそれぞれの外接矩形が求められ、復元画像anにおい
ては三角形の図形の外接矩形が求められる。
【0030】(c)文字候補領域の絞り込み:文字候補
領域の絞り込みでは、各復元画像について、予め設定さ
れた外接矩形長の範囲の外接矩形長を持つ外接矩形を含
んでいるかどうかを判定する。図6(b)は、予め設定
された外接矩形長の範囲の外接矩形長を持つ外接矩形を
示す図である。図6(b)中、復元画像a1およびa2
は図6(a)の復元画像a1およびa2に関するもので
ある。図6の(a)および(b)を例に説明すると、図
6(a)に示した復元画像a1〜anのうち、復元画像
a1、a2のみが上記の範囲の外接矩形が含まれると判
定され、他の復元画像(a3〜an)については含まれ
ないと判定される。上記の範囲の外接矩形が含まれると
判定された復元画像については、図6(b)に示すよう
にその範囲の外接矩形のみが残される。
【0031】(d)外接矩形の結合:外接矩形の結合
(ライン化)は、上記の範囲の外接矩形が含まれると判
定された各復元画像(図6(b)参照)に対して行われ
る。復元画像中に含まれる各外接矩形(ブロック)につ
いて、それら外接矩形の並びの直線性に対するずれの大
きさが予め設定された値以下であり、かつ、隣接する外
接矩形間の距離が予め設定された値以下である場合に、
それら外接矩形を結合する。より具体的には、この外接
矩形の結合は以下のような手順で行う。
【0032】まず、復元画像中の各外接矩形(ブロッ
ク)の外接矩形四隅座標をそれぞれ求める。外接矩形四
隅の座標は、図7(a)に示すように、(x,y)座標
系における外接矩形四隅座標値(xsk,xlk,y
k,ylk)として定義する。「xsk」は外接矩形
(ブロックk)の左上隅(頂部)および左下隅(頂部)
のx軸の値を表わし、「xlk」は外接矩形(ブロック
k)の右上隅(頂部)および右下隅(頂部)のx軸の値
を表わす。「ysk」は外接矩形(ブロックk)の左上
隅(頂部)および右上隅(頂部)のy軸の値を表わし、
「ylk」は外接矩形(ブロックk)の左下隅(頂部)
および右下隅(頂部)のy軸の値を表わす。
【0033】続いて、図7(b)に示すように、復元画
像中の各外接矩形(ブロックk)の並びのずれの大きさ
として、D1(maxkylk−minkylk)およびD
2(maxkysk−minkysk)を求め、さらに隣接
する外接矩形(ブロックk)間の距離Dを求める。ここ
で、「maxkylk」は各外接矩形のうち、図7(a)
に示した外接矩形四隅座標値(xsk,xlk,ysk
ylk)の「ylk」の値が最も大きなブロックk(図7
(b)の例ではブロックk2)の「ylk」の値を示
す。同様に、「maxkysk」は外接矩形四隅座標値
(xsk,xlk,ysk,ylk)の「ysk」の値が最
も大きなブロックk(図7(b)の例ではブロックk
1)の「ysk」の値を示す。また、「minkylk
は外接矩形四隅座標値(xsk,xlk,ysk,ylk
の「ylk」の値が最も小さなブロックk(図7(b)
の例ではブロックk1)の「ylk」の値、「mink
k」は外接矩形四隅座標値(xsk,xlk,ysk,y
k)の「ysk」の値が最も小さなブロックk(図7
(b)の例ではブロックk2)の「ysk」の値をそれ
ぞれ示す。
【0034】上記のようにして求めたD1、D2があら
かじめ定義された値TYS、TYL以下で、かつ、隣接
する矩形間距離Dがあらかじめ定義された値以下である
場合に、それら外接矩形を結合する。
【0035】(e)領域解析:上記外接矩形の結合で結
合された外接矩形群(ブロック群)について、あらかじ
め定義された認識対象に関する最小ブロック数、最大ブ
ロック数、最小ブロックサイズ、最大ブロックサイズの
知識との照合を行う。これらの条件をクリアする外接矩
形群(ブロック群)のみを採択し、その採択した外接矩
形群(ブロック群)を文字情報候補ラインとして出力す
る。条件がクリアされない場合は、文字情報候補ライン
は出力されない。
【0036】上述したような画像領域解析(ステップS
14)が行われると、次いで、ステップS15にて、文
字情報候補ラインの有無の判定が行われる。この判定
も、画像領域解析部3によって行われる。文字情報候補
ライン無しの場合は、上述したステップS11のクラス
タ結合に戻って再びクラスタ結合が行われ、文字情報候
補ライン有りの場合は、続くステップS16にて文字認
識部5による以下のような文字認識が行われる。
【0037】ステップS16の文字認識では、まず、画
像領域解析部3から出力された、復元画像中の文字情報
候補ライン内の領域について、周知の文字切り出し処理
を行って文字領域候補を切り出す。続いて、その切り出
された各文字領域候補に対し、あらかじめ登録された字
種(特定の文字(アルファベットや数字)、例えばI、
S、B、Nや数字0〜9)ごとのテンプレートとの類似
度を計算する。この文字類似度は、値が小さいほど確信
度が高い。本例では、あらかじめ登録された認識対象文
字列(例えば、数字5桁や「ISBN」と数字を含む文
字列など)を参照して、上記の各文字領域候補からその
認識対象文字列に相当する文字列候補を切り出し、この
切りだした各文字列候補に対して、各文字領域候補の文
字類似度を、上記のような文字領域候補と字種のすべて
の組み合わせについて計算し、文字列類似度を各文字領
域候補の文字類似度の和として計算する。このようにし
て求めた各文字列候補の文字列類似度のうち、あらかじ
め設定された値よりも大きいものについて、文字列類似
度の大きい文字列候補から、出力候補文字列として、最
大1候補の文字列類似度の値と文字列候補を格納する。
【0038】上記の処理をより具体的に説明すると、次
のようなこととなる。以下に挙げる例は、認識対象であ
る特定の文字列を「12345」としている。
【0039】例えば、図8に示すように、文字列「12
345」を含む文字情報候補ラインが画像領域解析部3
から出力された場合、文字「1」、「2」、「3」、
「4」、「5」の文字領域候補が切り出され、その切り
出された各文字領域候補に対し、あらかじめ登録された
字種(1、2、3、4、5)ごとのテンプレートとの類
似度を計算する。そして、あらかじめ登録された認識対
象文字列(ここでは、「12345」)を参照して、上
記の各文字領域候補からその認識対象文字列に相当する
文字列候補の文字類似度を計算する。図8の例では、文
字領域候補には文字「1」〜「5」しか存在しないた
め、文字列候補は「12345」のみとなる。文字領域
候補に他の文字が存在する場合は、その文字を組み合わ
せた文字列も文字列候補として文字類似度が計算され
る。文字列候補の文字類似度は、各文字領域候補「1」
〜「5」の文字類似度と字種のすべての組み合わせにつ
いて計算し、文字列類似度を各文字領域候補の文字類似
度の和として計算する。図8の例では、文字候補列は
「12345」のみであるため、求めた文字候補列の文
字列類似度があらかじめ設定された値よりも大きけれ
ば、出力候補文字列としてその文字列候補が文字列類似
度とともに格納される。このようにして格納される文字
列候補および文字列類似度の値は、ステップS11のク
ラスタ結合後のクラスタ数によって異なり、最適なクラ
スタ数のときにその文字列類似度が最も大きくなる。文
字列候補が存在しない場合は棄却とする(図8の「Reje
ct」)。
【0040】上記ステップS16の文字認識の後は、上
述のステップS11に戻って再びクラスタ結合が行われ
る。このようにしてステップS11〜S16の処理が繰
り返され、ステップS13にてクラスタ数がncmin
下となったときに、初めてステップS17に移行し、最
終結果判定部5による以下のような最終結果出力処理が
行われる。
【0041】最終結果出力処理では、文字認識部4に格
納された文字認識結果(出力候補文字列)から最終候補
を決定してそれを出力する。なお、文字認識部4に一つ
も出力候補文字列が存在しない場合には、「読み取り不
能」を示す情報が出力される。文字認識部4に出力候補
文字列が1つのみ存在する場合は、その出力候補文字列
を最終候補として出力する。文字認識部4に出力候補文
字列が2つ以上存在する場合は、文字列類似度の最も大
きな候補文字列を最終候補として出力する。
【0042】以上説明した処理を、図11に示したカラ
ー画像、すなわち緑色の背景に「ISBN4−7856
−3060−4 C3055 ¥3800E」のISB
Nコードおよび値段が青色で印刷された文字列領域が存
在するカラー画像を例として説明すると、次のようなこ
とになる。
【0043】この例の場合は、クラスタ数の範囲nc
min〜ncmaxとして例えばクラスタ数3〜7(この範囲
は、経験的に与えられるものである。)が設定され、こ
の範囲において、それぞれのクラスタ数のときの各クラ
スタから復元画像が生成されて文字認識処理が行われ
る。そして、各文字認識処理毎に、最大1候補の文字列
類似度の値と候補文字列が格納される。ここで、最適な
クラスタ数が5であったとすると、クラスタ数5のとき
の文字認識処理において、図10に示すように「ISB
N4−7856−3060−4 C3055 ¥380
0E」(青色)の文字列が精度よく復元され、最も大き
な文字列類似度を持つ文字列候補が文字列認識部4に格
納される。クラスタ数が5以外の場合には、精度良く文
字列認識を行うことが困難であるため、文字列認識部4
に格納される文字列候補の文字列類似度は小さい値をと
る。したがって、最終結果判定部5では、クラスタ数5
の場合の文字列候補が採択され、それが最終候補として
出力される。
【0044】以上説明したように、本形態の文字認識装
置によれば、文字認識処理が精度良く行われるクラスタ
数の範囲ncmin〜ncmaxを想定し、その範囲におい
て、それぞれのクラスタ数のときのクラスタからの復元
画像が生成されて文字認識処理が行われる。そして、各
文字認識処理毎に、最大1候補の文字列類似度の値と候
補文字列が格納され、そのうちから最も文字列類似度の
大きな候補文字列が最終候補として出力される。このよ
うに、本形態の文字認識装置は、クラスタ数可変という
特徴を有しており、最適なクラスタ数で文字認識処理を
行えるようになっている。
【0045】(他の実施形態)上述の実施形態におい
て、クラスタリングにK−Means法などのクラスタ
数固定の統計的クラスタリング手法を用いることができ
る。具体的には、図1に示したクラスタ結合部を以下の
ようなクラスタリング再構築部に置き換える。
【0046】クラスタリング再構築部は、クラスタ結合
部と置き換え可能なユニットである。このクラスタリン
グ再構築部では、クラスタ数NCが1ずつ減算され、結
果的に、K−Means法などのクラスタ数固定の統計
的クラスタリング手法によるクラスタリングが行われ
る。この結果生成された各クラスタは、類似したRGB
成分を持つ画素の集合となる。この画素の集合から復元
画像を得、上述した画像領域解析部、文字認識部、最終
結果判定部による各処理が行われる。
【0047】(他の実施形態:プログラム)図9は、本
発明の他の実施形態である、文字認識処理に関するプロ
グラムを備える文字認識装置の一構成例を示すブロック
図である。
【0048】図9を参照すると、本実施形態は、カラー
イメージスキャナなどの入力装置11と、入力装置11
から取り込まれるカラー画像データについて文字認識処
理を行うデータ処理装置10と、その文字認識処理結果
を出力するための出力装置12と、文字認識処理プログ
ラムを記録した記録媒体13とを備える。データ処理装
置10は、前述のクラスタ結合部2、画像領域解析部
3、文字認識部4、最終結果判定部5などの各処理部に
おける動作を記録媒体13に記録された文字認識処理プ
ログラムにしたがって実行する。記録媒体13は磁気デ
ィスク、半導体メモリ、その他の記録媒体であってよ
い。出力装置12は、CRT、液晶ディスプレイなどの
表示装置、またはプリンタである。
【0049】文字認識処理プログラムは、記録媒体13
からデータ処理装置10に読み込まれ、データ処理装置
10の動作を制御する。データ処理装置10は、文字認
識処理プログラムの制御により、以下のような文字認識
処理を実行することができる。
【0050】入力装置1からカラー画像データが与えら
れると、まず、その取り込まれたカラー画像データの各
画素を(R、G、B)空間にマッピングして得られるク
ラスタを結合してそのクラスタ数を所定の範囲において
変化させる(第1の処理)。
【0051】次いで、上記所定の範囲の各クラスタ数毎
に、(R、G、B)空間における各クラスタの復元画像
を生成し、該生成した復元画像のそれぞれについて、特
定の文字列の文字サイズおよび文字の並びを参照して、
該特定の文字列に関する文字情報候補ライン画像を生成
する(第2の処理)。
【0052】次いで、上記所定の範囲の各クラスタ数毎
に、上記の処理で生成された各復元画像の文字情報候補
ライン画像について、その文字情報候補ライン画像から
文字列候補を切り出して、該切り出した文字列候補と特
定の文字列との類似度を計算し、該類似度が予め設定さ
れた値よりも大きな文字列候補のうちで、最も類似度の
大きな文字列候補をその類似度とともに格納する(第3
の処理)。
【0053】そして、上記の処理で格納された、上記所
定の範囲の各クラスタ数毎の文字列候補のうちで、類似
度が最も大きな文字列候補を最終候補として出力する
(第4の処理)。
【0054】上記の第2の処理を、所定の範囲の各クラ
スタ数毎に、(R、G、B)空間における各クラスタに
ついて、そのクラスタに属する画素値をもつ画像を復元
し、該復元した各復元画像のそれぞれについて、隣接す
る画素の画素値が所定の大きさの範囲にある連結領域の
外接矩形を獲得し、復元画像のうち、所定の矩形長範囲
の外接矩形を含むものを特定の文字列に関する文字領域
を含む画像候補として選択し、該選択した画像候補のそ
れぞれについて、上記所定の矩形長範囲の外接矩形のう
ち、隣接する外接矩形間の距離が予め設定された値以下
で、かつ、その隣接する外接矩形の並びの直線性に対す
るずれの大きさが予め設定された値以下のものを結合
し、該結合された外接矩形群のうち、予め定義された最
小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイ
ズの条件を満たすものを文字情報候補ライン画像として
出力するようにし、上記第3の処理を、文字情報候補ラ
イン画像から個別に文字候補領域を切り出し、該切り出
した各文字候補領域について、特定の文字列に関する字
種が予め登録されたテンプレートとの類似度である文字
類似度を計算するとともに、該各文字候補領域の文字類
似度の和を、その切り出した各文字候補領域からなる文
字候補列と特定の文字列との文字列類似度として求め、
文字列類似度が予め設定された値よりも大きな文字列候
補のうちで、最も文字列類似度の大きな文字列候補をそ
の文字列類似度とともに格納するようにしてもよい。
【0055】以上のように、本形態では、記録媒体13
に記録されたプログラムによる制御により、前述した各
実施形態の文字認識処理を実現することができる。な
お、ここでは、文字認識処理プログラムは、記録媒体1
3により提供されるようになっているが、本発明はこの
形態に限定されるものではなく、文字認識処理プログラ
ムはどのような手段で提供されてもよい。例えば、ネッ
トワークを介して外部装置から提供されるような構成と
してもよい。
【0056】
【発明の効果】以上説明したように、本発明によれば、
クラスタ数を可変として、複数回文字認識処理を実行さ
せ、結果として最適なクラスタ数における文字列認識を
行うことができるので、従来のものより、高精度に認識
を行うことができ、信頼性の高い文字認識結果を提供す
ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の文字列認識装置の主要構
成を示すブロック図である。
【図2】図1に示した文字列認識装置の文字列認識処理
を説明するためのフローチャート図である。
【図3】マッピングの一例を示す模式図である。
【図4】(a)および(b)は、クラスタ結合を説明す
るための模式図である。
【図5】(a)は、(R、G、B)空間のクラスタの一
例を示す模式図、(b)は(a)に示すクラスタの復元
画像を示す模式図である。
【図6】(a)は、図5(b)に示す復元画像の外接矩
形を示す模式図、(b)は(a)に示す外接矩形のうち
の、予め設定された外接矩形長の範囲の外接矩形長を持
つ外接矩形を示す模式図である。
【図7】(a)は(x,y)座標系における外接矩形四
隅座標値を説明するための図、(b)は外接矩形四隅座
標値と外接矩形間距離を用いた矩形結合を説明するため
の図である。
【図8】文字情報候補ラインの出力結果の一例を示す模
式図である。
【図9】本発明の他の実施形態である、文字認識処理に
関するプログラムを備える文字認識装置の一構成例を示
すブロック図である。
【図10】ISBNコード含むカラー画像データの一例
を示す模式図である。
【図11】図10に示すカラー画像データの文字認識結
果を示すモ模式図である。
【符号の説明】
1 画像入力部 2 クラスタ結合部 3 画像領域解析部 4 文字認識部 5 最終結果判定部 10 データ処理装置 11 入力装置 12 出力装置 13 記録媒体

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 取り込まれたカラー画像データの各画素
    を(R、G、B)空間にマッピングして得られるクラス
    タを結合してそのクラスタ数を所定の範囲において変化
    させる第1のステップと、 前記所定の範囲の各クラスタ数毎に、前記(R、G、
    B)空間における各クラスタの復元画像を生成し、該生
    成した復元画像のそれぞれについて、特定の文字列の文
    字サイズおよび文字の並びを参照して、該特定の文字列
    に関する文字情報候補ライン画像を生成する第2のステ
    ップと、 前記所定の範囲の各クラスタ数毎に、前記第2のステッ
    プで生成された各復元画像の文字情報候補ライン画像に
    ついて、その文字情報候補ライン画像から文字列候補を
    切り出して、該切り出した文字列候補と前記特定の文字
    列との類似度を計算し、該類似度が予め設定された値よ
    りも大きな文字列候補のうちで、最も類似度の大きな文
    字列候補をその類似度とともに格納する第3のステップ
    と、 前記第3のステップで格納された、前記所定の範囲の各
    クラスタ数毎の文字列候補のうちで、前記類似度が最も
    大きな文字列候補を最終候補として出力する第4のステ
    ップとを含むことを特徴とする文字列認識方法。
  2. 【請求項2】 第2のステップは、 所定の範囲の各クラスタ数毎に、(R、G、B)空間に
    おける各クラスタについて、そのクラスタに属する画素
    値をもつ画像を復元するステップと、 前記復元した各復元画像のそれぞれについて、隣接する
    画素の画素値が所定の大きさの範囲にある連結領域の外
    接矩形を獲得するステップと、 前記復元画像のうち、所定の矩形長範囲の外接矩形を含
    むものを特定の文字列に関する文字領域を含む画像候補
    として選択するステップと、 前記選択した画像候補のそれぞれについて、前記所定の
    矩形長範囲の外接矩形のうち、隣接する外接矩形間の距
    離が予め設定された値以下で、かつ、その隣接する外接
    矩形の並びの直線性に対するずれの大きさが予め設定さ
    れた値以下のものを結合し、該結合された外接矩形群の
    うち、予め定義された最小矩形数、最大矩形数、最小矩
    形サイズ、最大矩形サイズの条件を満たすものを文字情
    報候補ライン画像として出力するステップとを含み、 第3のステップは、 前記文字情報候補ライン画像から個別に文字候補領域を
    切り出し、該切り出した各文字候補領域について、前記
    特定の文字列に関する字種が予め登録されたテンプレー
    トとの類似度である文字類似度を計算するとともに、該
    各文字候補領域の文字類似度の和を、前記切り出した各
    文字候補領域からなる文字候補列と前記特定の文字列と
    の文字列類似度として求めるステップと、 前記文字列類似度が予め設定された値よりも大きな文字
    列候補のうちで、最も文字列類似度の大きな文字列候補
    をその文字列類似度とともに格納するステップとを含む
    ことを特徴とする請求項1に記載の文字認識方法。
  3. 【請求項3】 第1のステップが、隣接するクラスタと
    の距離が近いクラスタ対から順に結合するステップであ
    ることを特徴とする請求項1または2に記載の文字認識
    方法。
  4. 【請求項4】 第1のステップにおけるクラスタ結合に
    クラスタ数固定の統計的クラスタリングを用いることを
    特徴とする請求項1または2に記載の文字認識方法。
  5. 【請求項5】 特定の文字列がISBNコードを含む文
    字列であることを特徴とする請求項1から4のいずれか
    1項に記載の文字認識方法。
  6. 【請求項6】 カラー画像データを取り込むための画像
    入力手段と、 前記画像入力手段にて取り込まれたカラー画像データの
    各画素を(R、G、B)空間にマッピングして得られる
    クラスタを結合してそのクラスタ数を所定の範囲におい
    て変化させるクラスタ結合手段と、 前記所定の範囲の各クラスタ数毎に、前記(R、G、
    B)空間における各クラスタの復元画像を生成し、該生
    成した復元画像のそれぞれについて、特定の文字列の文
    字サイズおよび文字の並びを参照して、該特定の文字列
    に関する文字情報候補ライン画像を生成する画像領域解
    析手段と、 前記所定の範囲の各クラスタ数毎に、前記画像領域解析
    手段にて生成された各復元画像の文字情報候補ライン画
    像について、その文字情報候補ライン画像から文字列候
    補を切り出して、該切り出した文字列候補と前記特定の
    文字列との類似度を計算し、該類似度が予め設定された
    値よりも大きな文字列候補のうちで、最も類似度の大き
    な文字列候補をその類似度とともに格納する文字認識手
    段と、 前記文字認識手段にて格納された、前記所定の範囲の各
    クラスタ数毎の文字列候補のうちで、前記類似度が最も
    大きな文字列候補を最終候補として出力する最終結果判
    定手段とを有することを特徴とする文字列認識装置。
  7. 【請求項7】 画像領域解析手段は、 所定の範囲の各クラスタ数毎に、(R、G、B)空間に
    おける各クラスタについて、そのクラスタに属する画素
    値をもつ画像を復元し、該復元した各復元画像のそれぞ
    れについて、隣接する画素の画素値が所定の大きさの範
    囲にある連結領域の外接矩形を獲得し、前記復元画像の
    うち、所定の矩形長範囲の外接矩形を含むものを特定の
    文字列に関する文字領域を含む画像候補として選択し、
    該選択した画像候補のそれぞれについて、前記所定の矩
    形長範囲の外接矩形のうち、隣接する外接矩形間の距離
    が予め設定された値以下で、かつ、その隣接する外接矩
    形の並びの直線性に対するずれの大きさが予め設定され
    た値以下のものを結合し、該結合された外接矩形群のう
    ち、予め定義された最小矩形数、最大矩形数、最小矩形
    サイズ、最大矩形サイズの条件を満たすものを文字情報
    候補ライン画像として出力するように構成され、 文字認識手段は、 前記文字情報候補ライン画像から個別に文字候補領域を
    切り出し、該切り出した各文字候補領域について、前記
    特定の文字列に関する字種が予め登録されたテンプレー
    トとの類似度である文字類似度を計算するとともに、該
    各文字候補領域の文字類似度の和を、前記切り出した各
    文字候補領域からなる文字候補列と前記特定の文字列と
    の文字列類似度として求め、前記文字列類似度が予め設
    定された値よりも大きな文字列候補のうちで、最も文字
    列類似度の大きな文字列候補をその文字列類似度ととも
    に格納するように構成されていることを特徴とする請求
    項6に記載の文字認識装置。
  8. 【請求項8】 クラスタ結合手段は、隣接するクラスタ
    との距離が近いクラスタ対から順に結合するように構成
    されていることを特徴とする請求項6または7に記載の
    文字認識装置。
  9. 【請求項9】 クラスタ結合手段は、クラスタ数固定の
    統計的クラスタリングを行うことを特徴とする請求項6
    または7に記載の文字認識装置。
  10. 【請求項10】 特定の文字列がISBNコードを含む
    文字列であることを特徴とする請求項6から9のいずれ
    か1項に記載の文字認識装置。
  11. 【請求項11】 取り込まれたカラー画像データの各画
    素を(R、G、B)空間にマッピングして得られるクラ
    スタを結合してそのクラスタ数を所定の範囲において変
    化させる第1の処理と、 前記所定の範囲の各クラスタ数毎に、前記(R、G、
    B)空間における各クラスタの復元画像を生成し、該生
    成した復元画像のそれぞれについて、特定の文字列の文
    字サイズおよび文字の並びを参照して、該特定の文字列
    に関する文字情報候補ライン画像を生成する第2の処理
    と、 前記所定の範囲の各クラスタ数毎に、前記第2の処理で
    生成された各復元画像の文字情報候補ライン画像につい
    て、その文字情報候補ライン画像から文字列候補を切り
    出して、該切り出した文字列候補と前記特定の文字列と
    の類似度を計算し、該類似度が予め設定された値よりも
    大きな文字列候補のうちで、最も類似度の大きな文字列
    候補をその類似度とともに格納する第3の処理と、 前記第3の処理で格納された、前記所定の範囲の各クラ
    スタ数毎の文字列候補のうちで、前記類似度が最も大き
    な文字列候補を最終候補として出力する第4の処理とを
    コンピュータに実行させるためのプログラム。
  12. 【請求項12】 第2の処理が、所定の範囲の各クラス
    タ数毎に、(R、G、B)空間における各クラスタにつ
    いて、そのクラスタに属する画素値をもつ画像を復元
    し、該復元した各復元画像のそれぞれについて、隣接す
    る画素の画素値が所定の大きさの範囲にある連結領域の
    外接矩形を獲得し、前記復元画像のうち、所定の矩形長
    範囲の外接矩形を含むものを特定の文字列に関する文字
    領域を含む画像候補として選択し、該選択した画像候補
    のそれぞれについて、前記所定の矩形長範囲の外接矩形
    のうち、隣接する外接矩形間の距離が予め設定された値
    以下で、かつ、その隣接する外接矩形の並びの直線性に
    対するずれの大きさが予め設定された値以下のものを結
    合し、該結合された外接矩形群のうち、予め定義された
    最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サ
    イズの条件を満たすものを文字情報候補ライン画像とし
    て出力する処理であり、 第3の処理が、前記文字情報候補ライン画像から個別に
    文字候補領域を切り出し、該切り出した各文字候補領域
    について、前記特定の文字列に関する字種が予め登録さ
    れたテンプレートとの類似度である文字類似度を計算す
    るとともに、該各文字候補領域の文字類似度の和を、前
    記切り出した各文字候補領域からなる文字候補列と前記
    特定の文字列との文字列類似度として求め、前記文字列
    類似度が予め設定された値よりも大きな文字列候補のう
    ちで、最も文字列類似度の大きな文字列候補をその文字
    列類似度とともに格納する処理である請求項11に記載
    のプログラム。
  13. 【請求項13】 第1の処理が、隣接するクラスタとの
    距離が近いクラスタ対から順に結合する処理であること
    を特徴とする請求項11または12に記載のプログラ
    ム。
  14. 【請求項14】 第1の処理が、クラスタ数固定の統計
    的クラスタリングを行う処理であることを特徴とする請
    求項11または12に記載のプログラム。
  15. 【請求項15】 特定の文字列がISBNコードを含む
    文字列であることを特徴とする請求項11から14のい
    ずれか1項に記載のプログラム。
JP2001033850A 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム Expired - Fee Related JP3661774B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001033850A JP3661774B2 (ja) 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001033850A JP3661774B2 (ja) 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2002236877A true JP2002236877A (ja) 2002-08-23
JP3661774B2 JP3661774B2 (ja) 2005-06-22

Family

ID=18897543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001033850A Expired - Fee Related JP3661774B2 (ja) 2001-02-09 2001-02-09 文字列認識方法、文字認識装置およびプログラム

Country Status (1)

Country Link
JP (1) JP3661774B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012174163A (ja) * 2011-02-24 2012-09-10 Fujitsu Ltd 文字認識処理装置および方法並びに文字認識処理プログラム
CN103608823A (zh) * 2011-07-08 2014-02-26 高通股份有限公司 用于从图像确定文本信息的并行处理方法和设备
JP2019515374A (ja) * 2016-08-31 2019-06-06 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 画像内の文字領域を認識するための方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012174163A (ja) * 2011-02-24 2012-09-10 Fujitsu Ltd 文字認識処理装置および方法並びに文字認識処理プログラム
CN103608823A (zh) * 2011-07-08 2014-02-26 高通股份有限公司 用于从图像确定文本信息的并行处理方法和设备
JP2014523036A (ja) * 2011-07-08 2014-09-08 クゥアルコム・インコーポレイテッド 画像からテキスト情報を決定するための並列処理方法および装置
US9202127B2 (en) 2011-07-08 2015-12-01 Qualcomm Incorporated Parallel processing method and apparatus for determining text information from an image
JP2019515374A (ja) * 2016-08-31 2019-06-06 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 画像内の文字領域を認識するための方法及び装置
US10803338B2 (en) 2016-08-31 2020-10-13 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for recognizing the character area in a image

Also Published As

Publication number Publication date
JP3661774B2 (ja) 2005-06-22

Similar Documents

Publication Publication Date Title
JP3747589B2 (ja) 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
US6690828B2 (en) Method for representing and comparing digital images
JP4845715B2 (ja) 画像処理方法、画像処理装置、プログラム、及び記憶媒体
US20060029276A1 (en) Object image detecting apparatus, face image detecting program and face image detecting method
US11323577B2 (en) Image processing device for creating an album
JP5997545B2 (ja) 信号処理方法及び信号処理装置
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US6731789B1 (en) Image processing apparatus and method, and storage medium
CN111209909B (zh) 资质识别模板构建方法、装置、设备和存储介质
US6549662B1 (en) Method of recognizing characters
JPH0256708B2 (ja)
JP2007199749A (ja) 画像検索方法及び画像検索装置
JP3661774B2 (ja) 文字列認識方法、文字認識装置およびプログラム
JPH0256707B2 (ja)
CN113449732A (zh) 信息处理装置、图像读取装置、记录介质、信息处理方法
JP4390523B2 (ja) 最小領域による合成画像の分割
JP3319203B2 (ja) 文書ファイリング方法及び装置
JP2022185872A (ja) 画像処理装置、画像処理方法、撮像装置
JP2002185782A (ja) 文字抽出装置、文字抽出方法および記録媒体
JP3199009B2 (ja) 画像蓄積・管理装置及び画像インデックス生成方法
JP7512798B2 (ja) 情報処理装置及びコンピュータプログラム
JP3948943B2 (ja) 図形認識方法及び装置
JPH1063251A (ja) パターン生成装置
JP2740506B2 (ja) 画像認識方法
JP3045810B2 (ja) 二値画像処理方法および装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041126

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050315

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100401

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110401

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120401

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120401

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140401

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees