JP2002236877A

JP2002236877A - 文字列認識方法、文字認識装置およびプログラム

Info

Publication number: JP2002236877A
Application number: JP2001033850A
Authority: JP
Inventors: Tatsuisa Akiyama; 達勇秋山; Murahito Hayashi; 祐人林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-02-09
Filing date: 2001-02-09
Publication date: 2002-08-23
Anticipated expiration: 2021-02-09
Also published as: JP3661774B2

Abstract

(57)【要約】【課題】最適なクラスタ数で文字列認識を行うことがで
きるようにする。【解決手段】画像入力部１にて取り込まれたカラー画像
データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして
得られるクラスタの数を所定の範囲において変化させる
クラスタ結合部２と、各クラスタ数毎に、復元画像を生
成し、特定の文字列の文字サイズおよび文字の並びを参
照して文字情報候補ライン画像を生成する画像領域解析
部３と、その文字情報候補ライン画像から文字列候補を
切り出し、これと上記特定の文字列との類似度を計算
し、該類似度が予め設定された値よりも大きな文字列候
補のうちで、最も類似度の大きな文字列候補をその類似
度とともに格納する文字認識部４と、各クラスタ数毎の
文字列候補のうちで、類似度が最も大きな文字列候補を
最終候補として出力する最終結果判定部５とを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、カラー画像から文
字列を認識する方法および装置に関する。さらには、そ
のような認識方法を実行するプログラムに関する。

【０００２】

【従来の技術】カラー画像から文字列を認識する手法と
して、印刷物や写真などの原稿をカラーイメージスキャ
ナ（ＣＣＤタイプやＭＯＳタイプがある）を用いてカラ
ー画像として取り込み、該取り込んだカラー画像から文
字列を認識する２値化手法が知られている。このような
文字列認識では、（Ｒ、Ｇ、Ｂ）表色系上のクラスタリ
ング手法を利用するものが一般的であり、通常、クラス
タリング結果として得られる画像に対して文字領域の抽
出が行われる。一例として、カラー画像中からタイトル
を抽出する手法（特開2000-172849号公報参照）を以下
に簡単に説明する。

【０００３】まず、カラーイメージスキャナ等から取り
込まれたカラー画像の各画素を色毎にクラスタリングす
ることにより色分解画像を生成する。具体的には、取り
込んだカラー画像の各画素をそれぞれの（Ｒ、Ｇ、Ｂ）
値に基づいて（Ｒ、Ｇ、Ｂ）空間にマッピングしてクラ
スタ分布を形成し、各クラスタ毎の色分解画像を生成す
る。次いで、１つの色（タイトルの文字領域の色）の色
分解画像から連結領域の外接矩形を求め、その求めた外
接矩形を、サイズ、形状が一定の範囲にあるものだけに
絞る。こうして得られた各外接矩形について、隣接矩形
探索範囲をそれぞれ設定し、その範囲にかかる外接矩形
を探索する。次いで、お互いに隣接矩形探索範囲内にか
かるような矩形をグループとして抽出し、その抽出した
グループのうち、グループ内の各矩形の重心の並びの直
線性が良いものを残し、そのグループの外接矩形を求め
る。そして、その求めたグループの外接矩形内を対称に
該グループを構成する領域の色に近いパターンを抽出す
る。このパターン抽出により、タイトルの文字列を抽出
することが可能である。

【０００４】

【発明が解決しようとする課題】書籍の裏表紙には、価
格、ＩＳＢＮ番号などの実用上非常に有益な情報が記載
されているが、必ずしも黒色の記載ではない。このよう
な文字列情報を、カラーイメージスキャナなどにより取
り込まれたカラー画像中から抽出する場合、従来の、
（Ｒ、Ｇ、Ｂ）表色系上でのクラスタリングを利用する
手法では、背景に複雑な文様があると、正確な文字認識
を行うことができない。特に、従来は、クラスタリング
の際、最適なクラスタ数を求めることは困難であるた
め、文字領域抽出のための良好な画像を得ることができ
ず、文字列認識処理の精度が低いものとなっていた。例
えば、図１１に示すように、緑色の背景に「ＩＳＢＮ４
−７８５６−３０６０−４Ｃ３０５５￥３８００
Ｅ」のＩＳＢＮコードおよび値段が青色で印刷された文
字列領域が存在する場合、最適なクラスタ数が与えられ
ないと、文字列領域（青）と背景（緑）を分離すること
が困難となり、文字列を正確に認識することができな
い。

【０００５】上述の特開2000-172849号公報に記載の文
字列認識手法においても、取り込んだカラー画像の各画
素をそれぞれの（Ｒ、Ｇ、Ｂ）値に基づいて（Ｒ、Ｇ、
Ｂ）空間にマッピングしてクラスタ分布を生成するが、
その際、クラスタ数は適当に与えられており、最適なク
ラスタ数が必ず与えられるとは限らない。最適なクラス
タ数が与えられない場合、クラスタリングの後に行われ
る文字列認識処理の精度が低下し、文字列を正確に認識
することができない。

【０００６】本発明の目的は、上記問題を解決し、最適
なクラスタ数における文字列認識を行うことができる方
法および装置、さらにはそのような認識処理を実行可能
なプログラムを提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、本発明の文字認識方法は、取り込まれたカラー画像
データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして
得られるクラスタを結合してそのクラスタ数を所定の範
囲において変化させる第１のステップと、前記所定の範
囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間におけ
る各クラスタの復元画像を生成し、該生成した復元画像
のそれぞれについて、特定の文字列の文字サイズおよび
文字の並びを参照して、該特定の文字列に関する文字情
報候補ライン画像を生成する第２のステップと、前記所
定の範囲の各クラスタ数毎に、前記第２のステップで生
成された各復元画像の文字情報候補ライン画像につい
て、その文字情報候補ライン画像から文字列候補を切り
出して、該切り出した文字列候補と前記特定の文字列と
の類似度を計算し、該類似度が予め設定された値よりも
大きな文字列候補のうちで、最も類似度の大きな文字列
候補をその類似度とともに格納する第３のステップと、
前記第３のステップで格納された、前記所定の範囲の各
クラスタ数毎の文字列候補のうちで、前記類似度が最も
大きな文字列候補を最終候補として出力する第４のステ
ップとを含むことを特徴とする。

【０００８】上記の場合、第２のステップは、所定の範
囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各
クラスタについて、そのクラスタに属する画素値をもつ
画像を復元するステップと、前記復元した各復元画像の
それぞれについて、隣接する画素の画素値が所定の大き
さの範囲にある連結領域の外接矩形を獲得するステップ
と、前記復元画像のうち、所定の矩形長範囲の外接矩形
を含むものを特定の文字列に関する文字領域を含む画像
候補として選択するステップと、前記選択した画像候補
のそれぞれについて、前記所定の矩形長範囲の外接矩形
のうち、隣接する外接矩形間の距離が予め設定された値
以下で、かつ、その隣接する外接矩形の並びの直線性に
対するずれの大きさが予め設定された値以下のものを結
合し、該結合された外接矩形群のうち、予め定義された
最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サ
イズの条件を満たすものを文字情報候補ライン画像とし
て出力するステップとを含み、第３のステップは、前記
文字情報候補ライン画像から個別に文字候補領域を切り
出し、該切り出した各文字候補領域について、前記特定
の文字列に関する字種が予め登録されたテンプレートと
の類似度である文字類似度を計算するとともに、該各文
字候補領域の文字類似度の和を、前記切り出した各文字
候補領域からなる文字候補列と前記特定の文字列との文
字列類似度として求めるステップと、前記文字列類似度
が予め設定された値よりも大きな文字列候補のうちで、
最も文字列類似度の大きな文字列候補をその文字列類似
度とともに格納するステップとを含むようにしてもよ
い。

【０００９】本発明の文字認識装置は、カラー画像デー
タを取り込むための画像入力手段と、前記画像入力手段
にて取り込まれたカラー画像データの各画素を（Ｒ、
Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合
してそのクラスタ数を所定の範囲において変化させるク
ラスタ結合手段と、前記所定の範囲の各クラスタ数毎
に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元
画像を生成し、該生成した復元画像のそれぞれについ
て、特定の文字列の文字サイズおよび文字の並びを参照
して、該特定の文字列に関する文字情報候補ライン画像
を生成する画像領域解析手段と、前記所定の範囲の各ク
ラスタ数毎に、前記画像領域解析手段にて生成された各
復元画像の文字情報候補ライン画像について、その文字
情報候補ライン画像から文字列候補を切り出して、該切
り出した文字列候補と前記特定の文字列との類似度を計
算し、該類似度が予め設定された値よりも大きな文字列
候補のうちで、最も類似度の大きな文字列候補をその類
似度とともに格納する文字認識手段と、前記文字認識手
段にて格納された、前記所定の範囲の各クラスタ数毎の
文字列候補のうちで、前記類似度が最も大きな文字列候
補を最終候補として出力する最終結果判定手段とを有す
ることを特徴とする。

【００１０】上記の場合、画像領域解析手段は、所定の
範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における
各クラスタについて、そのクラスタに属する画素値をも
つ画像を復元し、該復元した各復元画像のそれぞれにつ
いて、隣接する画素の画素値が所定の大きさの範囲にあ
る連結領域の外接矩形を獲得し、前記復元画像のうち、
所定の矩形長範囲の外接矩形を含むものを特定の文字列
に関する文字領域を含む画像候補として選択し、該選択
した画像候補のそれぞれについて、前記所定の矩形長範
囲の外接矩形のうち、隣接する外接矩形間の距離が予め
設定された値以下で、かつ、その隣接する外接矩形の並
びの直線性に対するずれの大きさが予め設定された値以
下のものを結合し、該結合された外接矩形群のうち、予
め定義された最小矩形数、最大矩形数、最小矩形サイ
ズ、最大矩形サイズの条件を満たすものを文字情報候補
ライン画像として出力するように構成され、文字認識手
段は、前記文字情報候補ライン画像から個別に文字候補
領域を切り出し、該切り出した各文字候補領域につい
て、前記特定の文字列に関する字種が予め登録されたテ
ンプレートとの類似度である文字類似度を計算するとと
もに、該各文字候補領域の文字類似度の和を、前記切り
出した各文字候補領域からなる文字候補列と前記特定の
文字列との文字列類似度として求め、前記文字列類似度
が予め設定された値よりも大きな文字列候補のうちで、
最も文字列類似度の大きな文字列候補をその文字列類似
度とともに格納するように構成されてもよい。

【００１１】本発明のプログラムは、取り込まれたカラ
ー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピン
グして得られるクラスタを結合してそのクラスタ数を所
定の範囲において変化させる第１の処理と、前記所定の
範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間にお
ける各クラスタの復元画像を生成し、該生成した復元画
像のそれぞれについて、特定の文字列の文字サイズおよ
び文字の並びを参照して、該特定の文字列に関する文字
情報候補ライン画像を生成する第２の処理と、前記所定
の範囲の各クラスタ数毎に、前記第２の処理で生成され
た各復元画像の文字情報候補ライン画像について、その
文字情報候補ライン画像から文字列候補を切り出して、
該切り出した文字列候補と前記特定の文字列との類似度
を計算し、該類似度が予め設定された値よりも大きな文
字列候補のうちで、最も類似度の大きな文字列候補をそ
の類似度とともに格納する第３の処理と、前記第３の処
理で格納された、前記所定の範囲の各クラスタ数毎の文
字列候補のうちで、前記類似度が最も大きな文字列候補
を最終候補として出力する第４の処理とをコンピュータ
に実行させることを特徴とする。

【００１２】上記の場合、第２の処理が、所定の範囲の
各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラ
スタについて、そのクラスタに属する画素値をもつ画像
を復元し、該復元した各復元画像のそれぞれについて、
隣接する画素の画素値が所定の大きさの範囲にある連結
領域の外接矩形を獲得し、前記復元画像のうち、所定の
矩形長範囲の外接矩形を含むものを特定の文字列に関す
る文字領域を含む画像候補として選択し、該選択した画
像候補のそれぞれについて、前記所定の矩形長範囲の外
接矩形のうち、隣接する外接矩形間の距離が予め設定さ
れた値以下で、かつ、その隣接する外接矩形の並びの直
線性に対するずれの大きさが予め設定された値以下のも
のを結合し、該結合された外接矩形群のうち、予め定義
された最小矩形数、最大矩形数、最小矩形サイズ、最大
矩形サイズの条件を満たすものを文字情報候補ライン画
像として出力する処理であり、第３の処理が、前記文字
情報候補ライン画像から個別に文字候補領域を切り出
し、該切り出した各文字候補領域について、前記特定の
文字列に関する字種が予め登録されたテンプレートとの
類似度である文字類似度を計算するとともに、該各文字
候補領域の文字類似度の和を、前記切り出した各文字候
補領域からなる文字候補列と前記特定の文字列との文字
列類似度として求め、前記文字列類似度が予め設定され
た値よりも大きな文字列候補のうちで、最も文字列類似
度の大きな文字列候補をその文字列類似度とともに格納
する処理であってもよい。

【００１３】上記のとおりの本発明においては、特定の
文字列、例えばＩＳＢＮコード等書籍に特有の文字サイ
ズ、文字の並びに関する知識を利用するので、単にクラ
スタリングを行うよりも高精度に認識を行うことができ
る。

【００１４】また、本発明では、クラスタ数を可変とし
ており、それぞれのクラスタ数のときの各クラスタから
復元画像が生成されて文字認識処理が行われる。そし
て、各文字認識処理毎に、最大１候補の候補文字列が格
納され、そのうちから最も特定の文字列と類似した候
補、すなわち文字列類似度の大きな文字列候補が最終候
補として出力される。このように、本発明では、クラス
タ数可変という特徴を有しており、最適なクラスタ数で
文字認識処理を行えるようになっている。

【００１５】

【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。

【００１６】図１は、本発明の一実施形態の文字列認識
装置の主要構成を示すブロック図である。この文字列認
識装置は、特定の文字列、例えば書籍裏表紙に記載され
たＩＳＢＮコードや値段（図１０参照）などの文字列を
認識する装置であって、その構成は、画像入力部１、ク
ラスタ結合部２、画像領域解析部３、文字認識部４、最
終結果判定部５からなる。

【００１７】画像入力部１は、周知のカラーイメージス
キャナを備え、書籍裏表紙のカラー画像データを取り込
むことができる。取り込まれたカラー画像データは、画
像入力部１の画像格納部（不図示）に格納される。この
他、画像入力部１は、取り込んだカラー画像データの各
画素をそれぞれの（Ｒ、Ｇ、Ｂ）値に基づいて（Ｒ、
Ｇ、Ｂ）空間にマッピングし、それぞれをクラスタとし
て割り当てる機能、その割り当てたクラスタに適当な順
番でクラスタ番号を付与する機能などを持つ。

【００１８】クラスタ結合部２は、画像入力部１にて割
り当てられたクラスタのうち最も距離の近いクラスタを
結合するものである。具体的には、以下の式を満たすク
ラスタ、すなわち、（Ｒ、Ｇ、Ｂ）空間における２要素
間の距離が最小となるような（Ｒ、Ｇ、Ｂ）上の点ｘ
ｓ、ｘｔに関して、要素ｘｓの属するクラスタＸｉと要
素ｘｔの属するクラスタＸｊを結合する。ただし、クラ
スタＸｉとクラスタＸｊは異なるクラスタである。結合
したクラスタには、番号としてｍｉｎ（ｉ，ｊ）が付与
される。

【００１９】ｄ２ｍｉｎ（Ｘｉ，Ｘｊ）＝ｍｉｎ_s,t｜
｜（ｘｓ−ｘｔ）｜｜（ただし、ｘｓ∈Ｘｉ、ｘｔ∈Ｘｊ）画像領域解析部３は、（Ｒ、Ｇ、Ｂ）空間に形成された
各クラスタ毎に、そのクラスタに属する画素値をもつ画
像を復元し、それら復元画像に対してラベリングを行う
とともに、各復元画像に含まれている文字や図形（隣接
する画素の画素値が所定の大きさの範囲にある連結領
域）のそれぞれについて、外接矩形を獲得する機能を持
つ。また、画像領域解析部３は、あらかじめ定義された
外接矩形長（外接矩形の縦方向または横方向の長さ）に
関する知識を有し、該外接矩形長を有する外接矩形を含
む復元画像を文字領域を含む画像の候補として選択する
機能を持つ。さらに、画像領域解析部３は、その選択し
た復元画像について、（ｘ，ｙ）座標における各外接矩
形の四隅座標（各頂部の座標）および各外接矩形間の距
離を求め、それらの値が予め定義されている値以下とな
る外接矩形を結合してライン化を行うことにより文字情
報候補ライン画像を生成する機能を持つ。

【００２０】文字認識部４は、画像領域解析部３にて生
成された文字情報候補ライン画像を入力とし、この文字
情報候補ライン画像から個別文字切り出しを行い、該切
り出した文字候補と所定の字種が予め登録されたテンプ
レートとの類似度（以下、文字類似度と記す。）を計算
する機能を持つ。また、文字認識部４は、切り出した文
字候補と文字類似度から特定の文字列に関する文字列類
似度を計算し、該計算結果に基づいて文字列候補とその
文字列類似度をそれぞれ格納する機能を持つ。

【００２１】最終結果判定部５は、文字認識部４に格納
された文字列候補と文字列類似度を入力とし、これらか
ら最終候補を判定して最終結果を出力する。文字認識部
４に格納された文字列候補が複数ある場合は、それぞれ
の文字列類似度を比較し、最も大きな文字列類似度を持
つ文字列候補が最終候補として出力される。最終候補が
１つもない場合は、所定のメッセージ、例えば「読み取
り不能」が出力される。最終結果判定部５からの出力
は、例えばＣＲＴ、液晶ディスプレイなどの表示部（不
図示）に表示される。

【００２２】次に、この文字列認識装置の文字列認識処
理の動作について具体的に説明する。本形態の文字列認
識装置は、カラー画像中から特定の文字列を認識するこ
とができるが、ここでは、書籍裏表紙に記載されたＩＳ
ＢＮコードや値段などの文字列を認識する場合の処理を
例に挙げて説明する。図２は、図１に示した文字列認識
装置の文字列認識処理を説明するためのフローチャート
図である。

【００２３】まず、ステップＳ１０にて、画像入力部１
によるカラー画像の取り込み、マッピングおよびクラス
タ生成が行われる。具体的には、カラーイメージスキャ
ナを用いてＩＳＢＮコードや値段などの文字列が印刷さ
れた書籍裏表紙のカラー画像を取り込み、これを画像格
納部に格納する。このとき、入力されたカラー画像デー
タのすべての画素について、（Ｒ，Ｇ，Ｂ）成分が格納
される。おのおのの画素は、一通りの（Ｒ，Ｇ，Ｂ）の
値の組み合わせを持つので、必ず（Ｒ，Ｇ，Ｂ）空間の
１点へマッピングされる。

【００２４】図３は、マッピングの一例を示す模式図で
ある。この図３の例のように、入力画像の画素Ａは必ず
（Ｒ，Ｇ，Ｂ）空間の１点のＡ’点にマッピングされ
る。そして、この（Ｒ，Ｇ，Ｂ）空間にマッピングされ
た各画素に対してクラスタリングが行われる。このクラ
スタリングでは、画素の数をＮ個としたとき、クラスタ
結合のための初期値として、それぞれ１つの画素（要
素）からなるＮ個のクラスタが生成される。すなわち、
この初期値の状態では、画素とクラスタは一対一で対応
する。また、このクラスタリングの際、適当な順番（例
えば、２次元画像の座標軸をｘ軸、ｙ軸としたときのｘ
成分昇順,ｙ成分昇順）でクラスタ番号を付与し、画素
と対応づけて格納する。

【００２５】次いで、ステップＳ１１にて、クラスタ結
合部２によるクラスタの結合が行われる。このクラスタ
結合では、例えば、図４（ａ）に示すような３つのクラ
スタＸ１〜Ｘ３が（Ｒ、Ｇ、Ｂ）空間に存在する場合、
２要素間の距離が最小となる点ｘｓ、ｘｔがそれぞれ属
する２つのクラスタＸ２、Ｘ３が結合される。クラスタ
結合後は、図４（ｂ）に示すように、クラスタＸ１と、
２つのクラスタＸ２、Ｘ３が結合された結合クラスタの
２つとなる。この場合、結合クラスタには、番号として
ｍｉｎ（２，３）が付与される。なお、図４に示した例
では、説明を簡単にするため、３つのクラスタＸ１〜Ｘ
３しか示していないが、通常は、上述の通り、初期値の
状態においてＮ個のクラスタが存在し、クラスタ結合が
行われるたびにクラスタ数が１つずつ減っていく。図４
（ａ）に示した各クラスタＸ１〜Ｘ３は、すでに何回か
クラスタ結合が行われており、クラスタＸ１は３つの画
素（要素）を、クラスタＸ２、Ｘ３は、それぞれ５つの
画素（要素）を含んだものとなっている。

【００２６】上記ステップＳ１１にて１回のクラスタ結
合が行われると、次いで、ステップＳ１２にて、クラス
タ数がｎｃ_max以下かどうかが判断される。この判断
は、クラスタ結合部２によって行われる。クラスタ数が
ｎｃ_maxより大きい場合は、上記のステップＳ１１に戻
って再びクラスタ結合が行われ、クラスタ数がｎｃ_max
以下である場合は、続くステップＳ１３にて、クラスタ
数がｎｃ_min以上かどうかが判断される。この判断も、
クラスタ結合部２によって行われる。クラスタ数がｎｃ
_minより小さい場合には、後述のステップＳ１７の最終
結果出力処理に移行し、クラスタ数がｎｃ_min以上の場
合は、続くステップＳ１４にて画像領域解析部３による
以下のような画像領域解析が行われる。なお、クラスタ
数ｎｃ_max、ｎｃ_minは、その範囲のいずれかのクラスタ
数において、文字認識処理が最も精度良く行われるよう
に予め設定されている。また、クラスタ結合のアルゴリ
ズムにより、ｎｃ_max＞ｎｃ_minであれば、必ず１度以上
の画像領域解析が実行される。

【００２７】ステップＳ１４の画像領域解析は、画像復
元、外接矩形の獲得、外接矩形長に基づく文字候補領域
の絞り込み、外接矩形の結合（ライン化）、領域解析の
５つ処理からなる。

【００２８】（ａ）画像復元：画像復元では、各クラス
タ毎に、２次元平面（ｘ，ｙ）座標系で、それぞれのク
ラスタに含まれる画素集合からなる画像を復元する。図
５（ａ）はクラスタ分布の一例を示す図で、図５（ｂ）
は図５（ａ）に示す各クラスタの復元画像を模式的に示
す図である。この例では、（Ｒ、Ｇ、Ｂ）空間に複数の
クラスタＸ１〜Ｘｎが存在し、クラスタＸ１から文字
「１２３４５」と三角形の図形を含む復元画像が、クラ
スタＸ２から文字「ｘ」と楕円の図形を含む復元画像
が、クラスタＸｎから三角形の図形を含む復元画像がそ
れぞれ復元される。

【００２９】（ｂ）外接矩形の獲得：外接矩形の獲得で
は、各クラスタの復元画像に対して、それぞれラベル付
けを行い、各復元画像中の文字や図形についてそれぞれ
外接矩形（ブロック）を求める。外接矩形は、図６
（ａ）に示すように、復元画像中の文字、図形のそれぞ
れについて求められる。図６（ａ）に示す復元画像ａ
１，ａ２，…，ａｎは、それぞれ図５（ｂ）に示したク
ラスタＸ１，Ｘ２，…，Ｘｎの復元画像である。復元画
像ａ１においては三角形の図形、文字「１」、「２」、
「３」、「４」、「５」のそれぞれの外接矩形が求めら
れ、復元画像ａ２においては楕円形の図形、文字「ｘ」
のそれぞれの外接矩形が求められ、復元画像ａｎにおい
ては三角形の図形の外接矩形が求められる。

【００３０】（ｃ）文字候補領域の絞り込み：文字候補
領域の絞り込みでは、各復元画像について、予め設定さ
れた外接矩形長の範囲の外接矩形長を持つ外接矩形を含
んでいるかどうかを判定する。図６（ｂ）は、予め設定
された外接矩形長の範囲の外接矩形長を持つ外接矩形を
示す図である。図６（ｂ）中、復元画像ａ１およびａ２
は図６（ａ）の復元画像ａ１およびａ２に関するもので
ある。図６の（ａ）および（ｂ）を例に説明すると、図
６（ａ）に示した復元画像ａ１〜ａｎのうち、復元画像
ａ１、ａ２のみが上記の範囲の外接矩形が含まれると判
定され、他の復元画像（ａ３〜ａｎ）については含まれ
ないと判定される。上記の範囲の外接矩形が含まれると
判定された復元画像については、図６（ｂ）に示すよう
にその範囲の外接矩形のみが残される。

【００３１】（ｄ）外接矩形の結合：外接矩形の結合
（ライン化）は、上記の範囲の外接矩形が含まれると判
定された各復元画像（図６（ｂ）参照）に対して行われ
る。復元画像中に含まれる各外接矩形（ブロック）につ
いて、それら外接矩形の並びの直線性に対するずれの大
きさが予め設定された値以下であり、かつ、隣接する外
接矩形間の距離が予め設定された値以下である場合に、
それら外接矩形を結合する。より具体的には、この外接
矩形の結合は以下のような手順で行う。

【００３２】まず、復元画像中の各外接矩形（ブロッ
ク）の外接矩形四隅座標をそれぞれ求める。外接矩形四
隅の座標は、図７（ａ）に示すように、（ｘ，ｙ）座標
系における外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙ
ｓ_k，ｙｌ_k）として定義する。「ｘｓ_k」は外接矩形
（ブロックｋ）の左上隅（頂部）および左下隅（頂部）
のｘ軸の値を表わし、「ｘｌ_k」は外接矩形（ブロック
ｋ）の右上隅（頂部）および右下隅（頂部）のｘ軸の値
を表わす。「ｙｓ_k」は外接矩形（ブロックｋ）の左上
隅（頂部）および右上隅（頂部）のｙ軸の値を表わし、
「ｙｌ_k」は外接矩形（ブロックｋ）の左下隅（頂部）
および右下隅（頂部）のｙ軸の値を表わす。

【００３３】続いて、図７（ｂ）に示すように、復元画
像中の各外接矩形（ブロックｋ）の並びのずれの大きさ
として、Ｄ１（ｍａｘ_kｙｌ_k−ｍｉｎ_kｙｌ_k）およびＤ
２（ｍａｘ_kｙｓ_k−ｍｉｎ_kｙｓ_k）を求め、さらに隣接
する外接矩形（ブロックｋ）間の距離Ｄを求める。ここ
で、「ｍａｘ_kｙｌ_k」は各外接矩形のうち、図７（ａ）
に示した外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，
ｙｌ_k）の「ｙｌ_k」の値が最も大きなブロックｋ（図７
（ｂ）の例ではブロックｋ２）の「ｙｌ_k」の値を示
す。同様に、「ｍａｘ_kｙｓ_k」は外接矩形四隅座標値
（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）の「ｙｓ_k」の値が最
も大きなブロックｋ（図７（ｂ）の例ではブロックｋ
１）の「ｙｓ_k」の値を示す。また、「ｍｉｎ_kｙｌ_k」
は外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）
の「ｙｌ_k」の値が最も小さなブロックｋ（図７（ｂ）
の例ではブロックｋ１）の「ｙｌ_k」の値、「ｍｉｎ_kｙ
ｓ_k」は外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙ
ｌ_k）の「ｙｓ_k」の値が最も小さなブロックｋ（図７
（ｂ）の例ではブロックｋ２）の「ｙｓ_k」の値をそれ
ぞれ示す。

【００３４】上記のようにして求めたＤ１、Ｄ２があら
かじめ定義された値ＴＹＳ、ＴＹＬ以下で、かつ、隣接
する矩形間距離Ｄがあらかじめ定義された値以下である
場合に、それら外接矩形を結合する。

【００３５】（ｅ）領域解析：上記外接矩形の結合で結
合された外接矩形群（ブロック群）について、あらかじ
め定義された認識対象に関する最小ブロック数、最大ブ
ロック数、最小ブロックサイズ、最大ブロックサイズの
知識との照合を行う。これらの条件をクリアする外接矩
形群（ブロック群）のみを採択し、その採択した外接矩
形群（ブロック群）を文字情報候補ラインとして出力す
る。条件がクリアされない場合は、文字情報候補ライン
は出力されない。

【００３６】上述したような画像領域解析（ステップＳ
１４）が行われると、次いで、ステップＳ１５にて、文
字情報候補ラインの有無の判定が行われる。この判定
も、画像領域解析部３によって行われる。文字情報候補
ライン無しの場合は、上述したステップＳ１１のクラス
タ結合に戻って再びクラスタ結合が行われ、文字情報候
補ライン有りの場合は、続くステップＳ１６にて文字認
識部５による以下のような文字認識が行われる。

【００３７】ステップＳ１６の文字認識では、まず、画
像領域解析部３から出力された、復元画像中の文字情報
候補ライン内の領域について、周知の文字切り出し処理
を行って文字領域候補を切り出す。続いて、その切り出
された各文字領域候補に対し、あらかじめ登録された字
種（特定の文字（アルファベットや数字）、例えばＩ、
Ｓ、Ｂ、Ｎや数字０〜９）ごとのテンプレートとの類似
度を計算する。この文字類似度は、値が小さいほど確信
度が高い。本例では、あらかじめ登録された認識対象文
字列（例えば、数字５桁や「ＩＳＢＮ」と数字を含む文
字列など）を参照して、上記の各文字領域候補からその
認識対象文字列に相当する文字列候補を切り出し、この
切りだした各文字列候補に対して、各文字領域候補の文
字類似度を、上記のような文字領域候補と字種のすべて
の組み合わせについて計算し、文字列類似度を各文字領
域候補の文字類似度の和として計算する。このようにし
て求めた各文字列候補の文字列類似度のうち、あらかじ
め設定された値よりも大きいものについて、文字列類似
度の大きい文字列候補から、出力候補文字列として、最
大１候補の文字列類似度の値と文字列候補を格納する。

【００３８】上記の処理をより具体的に説明すると、次
のようなこととなる。以下に挙げる例は、認識対象であ
る特定の文字列を「１２３４５」としている。

【００３９】例えば、図８に示すように、文字列「１２
３４５」を含む文字情報候補ラインが画像領域解析部３
から出力された場合、文字「１」、「２」、「３」、
「４」、「５」の文字領域候補が切り出され、その切り
出された各文字領域候補に対し、あらかじめ登録された
字種（１、２、３、４、５）ごとのテンプレートとの類
似度を計算する。そして、あらかじめ登録された認識対
象文字列（ここでは、「１２３４５」）を参照して、上
記の各文字領域候補からその認識対象文字列に相当する
文字列候補の文字類似度を計算する。図８の例では、文
字領域候補には文字「１」〜「５」しか存在しないた
め、文字列候補は「１２３４５」のみとなる。文字領域
候補に他の文字が存在する場合は、その文字を組み合わ
せた文字列も文字列候補として文字類似度が計算され
る。文字列候補の文字類似度は、各文字領域候補「１」
〜「５」の文字類似度と字種のすべての組み合わせにつ
いて計算し、文字列類似度を各文字領域候補の文字類似
度の和として計算する。図８の例では、文字候補列は
「１２３４５」のみであるため、求めた文字候補列の文
字列類似度があらかじめ設定された値よりも大きけれ
ば、出力候補文字列としてその文字列候補が文字列類似
度とともに格納される。このようにして格納される文字
列候補および文字列類似度の値は、ステップＳ１１のク
ラスタ結合後のクラスタ数によって異なり、最適なクラ
スタ数のときにその文字列類似度が最も大きくなる。文
字列候補が存在しない場合は棄却とする（図８の「Reje
ct」）。

【００４０】上記ステップＳ１６の文字認識の後は、上
述のステップＳ１１に戻って再びクラスタ結合が行われ
る。このようにしてステップＳ１１〜Ｓ１６の処理が繰
り返され、ステップＳ１３にてクラスタ数がｎｃ_min以
下となったときに、初めてステップＳ１７に移行し、最
終結果判定部５による以下のような最終結果出力処理が
行われる。

【００４１】最終結果出力処理では、文字認識部４に格
納された文字認識結果（出力候補文字列）から最終候補
を決定してそれを出力する。なお、文字認識部４に一つ
も出力候補文字列が存在しない場合には、「読み取り不
能」を示す情報が出力される。文字認識部４に出力候補
文字列が１つのみ存在する場合は、その出力候補文字列
を最終候補として出力する。文字認識部４に出力候補文
字列が２つ以上存在する場合は、文字列類似度の最も大
きな候補文字列を最終候補として出力する。

【００４２】以上説明した処理を、図１１に示したカラ
ー画像、すなわち緑色の背景に「ＩＳＢＮ４−７８５６
−３０６０−４Ｃ３０５５￥３８００Ｅ」のＩＳＢ
Ｎコードおよび値段が青色で印刷された文字列領域が存
在するカラー画像を例として説明すると、次のようなこ
とになる。

【００４３】この例の場合は、クラスタ数の範囲ｎｃ
_min〜ｎｃ_maxとして例えばクラスタ数３〜７（この範囲
は、経験的に与えられるものである。）が設定され、こ
の範囲において、それぞれのクラスタ数のときの各クラ
スタから復元画像が生成されて文字認識処理が行われ
る。そして、各文字認識処理毎に、最大１候補の文字列
類似度の値と候補文字列が格納される。ここで、最適な
クラスタ数が５であったとすると、クラスタ数５のとき
の文字認識処理において、図１０に示すように「ＩＳＢ
Ｎ４−７８５６−３０６０−４Ｃ３０５５￥３８０
０Ｅ」（青色）の文字列が精度よく復元され、最も大き
な文字列類似度を持つ文字列候補が文字列認識部４に格
納される。クラスタ数が５以外の場合には、精度良く文
字列認識を行うことが困難であるため、文字列認識部４
に格納される文字列候補の文字列類似度は小さい値をと
る。したがって、最終結果判定部５では、クラスタ数５
の場合の文字列候補が採択され、それが最終候補として
出力される。

【００４４】以上説明したように、本形態の文字認識装
置によれば、文字認識処理が精度良く行われるクラスタ
数の範囲ｎｃ_min〜ｎｃ_maxを想定し、その範囲におい
て、それぞれのクラスタ数のときのクラスタからの復元
画像が生成されて文字認識処理が行われる。そして、各
文字認識処理毎に、最大１候補の文字列類似度の値と候
補文字列が格納され、そのうちから最も文字列類似度の
大きな候補文字列が最終候補として出力される。このよ
うに、本形態の文字認識装置は、クラスタ数可変という
特徴を有しており、最適なクラスタ数で文字認識処理を
行えるようになっている。

【００４５】（他の実施形態）上述の実施形態におい
て、クラスタリングにＫ−Ｍｅａｎｓ法などのクラスタ
数固定の統計的クラスタリング手法を用いることができ
る。具体的には、図１に示したクラスタ結合部を以下の
ようなクラスタリング再構築部に置き換える。

【００４６】クラスタリング再構築部は、クラスタ結合
部と置き換え可能なユニットである。このクラスタリン
グ再構築部では、クラスタ数ＮＣが１ずつ減算され、結
果的に、Ｋ−Ｍｅａｎｓ法などのクラスタ数固定の統計
的クラスタリング手法によるクラスタリングが行われ
る。この結果生成された各クラスタは、類似したＲＧＢ
成分を持つ画素の集合となる。この画素の集合から復元
画像を得、上述した画像領域解析部、文字認識部、最終
結果判定部による各処理が行われる。

【００４７】（他の実施形態：プログラム）図９は、本
発明の他の実施形態である、文字認識処理に関するプロ
グラムを備える文字認識装置の一構成例を示すブロック
図である。

【００４８】図９を参照すると、本実施形態は、カラー
イメージスキャナなどの入力装置１１と、入力装置１１
から取り込まれるカラー画像データについて文字認識処
理を行うデータ処理装置１０と、その文字認識処理結果
を出力するための出力装置１２と、文字認識処理プログ
ラムを記録した記録媒体１３とを備える。データ処理装
置１０は、前述のクラスタ結合部２、画像領域解析部
３、文字認識部４、最終結果判定部５などの各処理部に
おける動作を記録媒体１３に記録された文字認識処理プ
ログラムにしたがって実行する。記録媒体１３は磁気デ
ィスク、半導体メモリ、その他の記録媒体であってよ
い。出力装置１２は、ＣＲＴ、液晶ディスプレイなどの
表示装置、またはプリンタである。

【００４９】文字認識処理プログラムは、記録媒体１３
からデータ処理装置１０に読み込まれ、データ処理装置
１０の動作を制御する。データ処理装置１０は、文字認
識処理プログラムの制御により、以下のような文字認識
処理を実行することができる。

【００５０】入力装置１からカラー画像データが与えら
れると、まず、その取り込まれたカラー画像データの各
画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるク
ラスタを結合してそのクラスタ数を所定の範囲において
変化させる（第１の処理）。

【００５１】次いで、上記所定の範囲の各クラスタ数毎
に、（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像
を生成し、該生成した復元画像のそれぞれについて、特
定の文字列の文字サイズおよび文字の並びを参照して、
該特定の文字列に関する文字情報候補ライン画像を生成
する（第２の処理）。

【００５２】次いで、上記所定の範囲の各クラスタ数毎
に、上記の処理で生成された各復元画像の文字情報候補
ライン画像について、その文字情報候補ライン画像から
文字列候補を切り出して、該切り出した文字列候補と特
定の文字列との類似度を計算し、該類似度が予め設定さ
れた値よりも大きな文字列候補のうちで、最も類似度の
大きな文字列候補をその類似度とともに格納する（第３
の処理）。

【００５３】そして、上記の処理で格納された、上記所
定の範囲の各クラスタ数毎の文字列候補のうちで、類似
度が最も大きな文字列候補を最終候補として出力する
（第４の処理）。

【００５４】上記の第２の処理を、所定の範囲の各クラ
スタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタに
ついて、そのクラスタに属する画素値をもつ画像を復元
し、該復元した各復元画像のそれぞれについて、隣接す
る画素の画素値が所定の大きさの範囲にある連結領域の
外接矩形を獲得し、復元画像のうち、所定の矩形長範囲
の外接矩形を含むものを特定の文字列に関する文字領域
を含む画像候補として選択し、該選択した画像候補のそ
れぞれについて、上記所定の矩形長範囲の外接矩形のう
ち、隣接する外接矩形間の距離が予め設定された値以下
で、かつ、その隣接する外接矩形の並びの直線性に対す
るずれの大きさが予め設定された値以下のものを結合
し、該結合された外接矩形群のうち、予め定義された最
小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイ
ズの条件を満たすものを文字情報候補ライン画像として
出力するようにし、上記第３の処理を、文字情報候補ラ
イン画像から個別に文字候補領域を切り出し、該切り出
した各文字候補領域について、特定の文字列に関する字
種が予め登録されたテンプレートとの類似度である文字
類似度を計算するとともに、該各文字候補領域の文字類
似度の和を、その切り出した各文字候補領域からなる文
字候補列と特定の文字列との文字列類似度として求め、
文字列類似度が予め設定された値よりも大きな文字列候
補のうちで、最も文字列類似度の大きな文字列候補をそ
の文字列類似度とともに格納するようにしてもよい。

【００５５】以上のように、本形態では、記録媒体１３
に記録されたプログラムによる制御により、前述した各
実施形態の文字認識処理を実現することができる。な
お、ここでは、文字認識処理プログラムは、記録媒体１
３により提供されるようになっているが、本発明はこの
形態に限定されるものではなく、文字認識処理プログラ
ムはどのような手段で提供されてもよい。例えば、ネッ
トワークを介して外部装置から提供されるような構成と
してもよい。

【００５６】

【発明の効果】以上説明したように、本発明によれば、
クラスタ数を可変として、複数回文字認識処理を実行さ
せ、結果として最適なクラスタ数における文字列認識を
行うことができるので、従来のものより、高精度に認識
を行うことができ、信頼性の高い文字認識結果を提供す
ることができる。

【図面の簡単な説明】

【図１】本発明の一実施形態の文字列認識装置の主要構
成を示すブロック図である。

【図２】図１に示した文字列認識装置の文字列認識処理
を説明するためのフローチャート図である。

【図３】マッピングの一例を示す模式図である。

【図４】（ａ）および（ｂ）は、クラスタ結合を説明す
るための模式図である。

【図５】（ａ）は、（Ｒ、Ｇ、Ｂ）空間のクラスタの一
例を示す模式図、（ｂ）は（ａ）に示すクラスタの復元
画像を示す模式図である。

【図６】（ａ）は、図５（ｂ）に示す復元画像の外接矩
形を示す模式図、（ｂ）は（ａ）に示す外接矩形のうち
の、予め設定された外接矩形長の範囲の外接矩形長を持
つ外接矩形を示す模式図である。

【図７】（ａ）は（ｘ，ｙ）座標系における外接矩形四
隅座標値を説明するための図、（ｂ）は外接矩形四隅座
標値と外接矩形間距離を用いた矩形結合を説明するため
の図である。

【図８】文字情報候補ラインの出力結果の一例を示す模
式図である。

【図９】本発明の他の実施形態である、文字認識処理に
関するプログラムを備える文字認識装置の一構成例を示
すブロック図である。

【図１０】ＩＳＢＮコード含むカラー画像データの一例
を示す模式図である。

【図１１】図１０に示すカラー画像データの文字認識結
果を示すモ模式図である。

【符号の説明】

１画像入力部２クラスタ結合部３画像領域解析部４文字認識部５最終結果判定部１０データ処理装置１１入力装置１２出力装置１３記録媒体

Claims

【特許請求の範囲】

【請求項１】取り込まれたカラー画像データの各画素
を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラス
タを結合してそのクラスタ数を所定の範囲において変化
させる第１のステップと、前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、
Ｂ）空間における各クラスタの復元画像を生成し、該生
成した復元画像のそれぞれについて、特定の文字列の文
字サイズおよび文字の並びを参照して、該特定の文字列
に関する文字情報候補ライン画像を生成する第２のステ
ップと、前記所定の範囲の各クラスタ数毎に、前記第２のステッ
プで生成された各復元画像の文字情報候補ライン画像に
ついて、その文字情報候補ライン画像から文字列候補を
切り出して、該切り出した文字列候補と前記特定の文字
列との類似度を計算し、該類似度が予め設定された値よ
りも大きな文字列候補のうちで、最も類似度の大きな文
字列候補をその類似度とともに格納する第３のステップ
と、前記第３のステップで格納された、前記所定の範囲の各
クラスタ数毎の文字列候補のうちで、前記類似度が最も
大きな文字列候補を最終候補として出力する第４のステ
ップとを含むことを特徴とする文字列認識方法。
【請求項２】第２のステップは、所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間に
おける各クラスタについて、そのクラスタに属する画素
値をもつ画像を復元するステップと、前記復元した各復元画像のそれぞれについて、隣接する
画素の画素値が所定の大きさの範囲にある連結領域の外
接矩形を獲得するステップと、前記復元画像のうち、所定の矩形長範囲の外接矩形を含
むものを特定の文字列に関する文字領域を含む画像候補
として選択するステップと、前記選択した画像候補のそれぞれについて、前記所定の
矩形長範囲の外接矩形のうち、隣接する外接矩形間の距
離が予め設定された値以下で、かつ、その隣接する外接
矩形の並びの直線性に対するずれの大きさが予め設定さ
れた値以下のものを結合し、該結合された外接矩形群の
うち、予め定義された最小矩形数、最大矩形数、最小矩
形サイズ、最大矩形サイズの条件を満たすものを文字情
報候補ライン画像として出力するステップとを含み、第３のステップは、前記文字情報候補ライン画像から個別に文字候補領域を
切り出し、該切り出した各文字候補領域について、前記
特定の文字列に関する字種が予め登録されたテンプレー
トとの類似度である文字類似度を計算するとともに、該
各文字候補領域の文字類似度の和を、前記切り出した各
文字候補領域からなる文字候補列と前記特定の文字列と
の文字列類似度として求めるステップと、前記文字列類似度が予め設定された値よりも大きな文字
列候補のうちで、最も文字列類似度の大きな文字列候補
をその文字列類似度とともに格納するステップとを含む
ことを特徴とする請求項１に記載の文字認識方法。
【請求項３】第１のステップが、隣接するクラスタと
の距離が近いクラスタ対から順に結合するステップであ
ることを特徴とする請求項１または２に記載の文字認識
方法。
【請求項４】第１のステップにおけるクラスタ結合に
クラスタ数固定の統計的クラスタリングを用いることを
特徴とする請求項１または２に記載の文字認識方法。
【請求項５】特定の文字列がＩＳＢＮコードを含む文
字列であることを特徴とする請求項１から４のいずれか
１項に記載の文字認識方法。
【請求項６】カラー画像データを取り込むための画像
入力手段と、前記画像入力手段にて取り込まれたカラー画像データの
各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られる
クラスタを結合してそのクラスタ数を所定の範囲におい
て変化させるクラスタ結合手段と、前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、
Ｂ）空間における各クラスタの復元画像を生成し、該生
成した復元画像のそれぞれについて、特定の文字列の文
字サイズおよび文字の並びを参照して、該特定の文字列
に関する文字情報候補ライン画像を生成する画像領域解
析手段と、前記所定の範囲の各クラスタ数毎に、前記画像領域解析
手段にて生成された各復元画像の文字情報候補ライン画
像について、その文字情報候補ライン画像から文字列候
補を切り出して、該切り出した文字列候補と前記特定の
文字列との類似度を計算し、該類似度が予め設定された
値よりも大きな文字列候補のうちで、最も類似度の大き
な文字列候補をその類似度とともに格納する文字認識手
段と、前記文字認識手段にて格納された、前記所定の範囲の各
クラスタ数毎の文字列候補のうちで、前記類似度が最も
大きな文字列候補を最終候補として出力する最終結果判
定手段とを有することを特徴とする文字列認識装置。
【請求項７】画像領域解析手段は、所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間に
おける各クラスタについて、そのクラスタに属する画素
値をもつ画像を復元し、該復元した各復元画像のそれぞ
れについて、隣接する画素の画素値が所定の大きさの範
囲にある連結領域の外接矩形を獲得し、前記復元画像の
うち、所定の矩形長範囲の外接矩形を含むものを特定の
文字列に関する文字領域を含む画像候補として選択し、
該選択した画像候補のそれぞれについて、前記所定の矩
形長範囲の外接矩形のうち、隣接する外接矩形間の距離
が予め設定された値以下で、かつ、その隣接する外接矩
形の並びの直線性に対するずれの大きさが予め設定され
た値以下のものを結合し、該結合された外接矩形群のう
ち、予め定義された最小矩形数、最大矩形数、最小矩形
サイズ、最大矩形サイズの条件を満たすものを文字情報
候補ライン画像として出力するように構成され、文字認識手段は、前記文字情報候補ライン画像から個別に文字候補領域を
切り出し、該切り出した各文字候補領域について、前記
特定の文字列に関する字種が予め登録されたテンプレー
トとの類似度である文字類似度を計算するとともに、該
各文字候補領域の文字類似度の和を、前記切り出した各
文字候補領域からなる文字候補列と前記特定の文字列と
の文字列類似度として求め、前記文字列類似度が予め設
定された値よりも大きな文字列候補のうちで、最も文字
列類似度の大きな文字列候補をその文字列類似度ととも
に格納するように構成されていることを特徴とする請求
項６に記載の文字認識装置。
【請求項８】クラスタ結合手段は、隣接するクラスタ
との距離が近いクラスタ対から順に結合するように構成
されていることを特徴とする請求項６または７に記載の
文字認識装置。
【請求項９】クラスタ結合手段は、クラスタ数固定の
統計的クラスタリングを行うことを特徴とする請求項６
または７に記載の文字認識装置。
【請求項１０】特定の文字列がＩＳＢＮコードを含む
文字列であることを特徴とする請求項６から９のいずれ
か１項に記載の文字認識装置。
【請求項１１】取り込まれたカラー画像データの各画
素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラ
スタを結合してそのクラスタ数を所定の範囲において変
化させる第１の処理と、前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、
Ｂ）空間における各クラスタの復元画像を生成し、該生
成した復元画像のそれぞれについて、特定の文字列の文
字サイズおよび文字の並びを参照して、該特定の文字列
に関する文字情報候補ライン画像を生成する第２の処理
と、前記所定の範囲の各クラスタ数毎に、前記第２の処理で
生成された各復元画像の文字情報候補ライン画像につい
て、その文字情報候補ライン画像から文字列候補を切り
出して、該切り出した文字列候補と前記特定の文字列と
の類似度を計算し、該類似度が予め設定された値よりも
大きな文字列候補のうちで、最も類似度の大きな文字列
候補をその類似度とともに格納する第３の処理と、前記第３の処理で格納された、前記所定の範囲の各クラ
スタ数毎の文字列候補のうちで、前記類似度が最も大き
な文字列候補を最終候補として出力する第４の処理とを
コンピュータに実行させるためのプログラム。
【請求項１２】第２の処理が、所定の範囲の各クラス
タ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタにつ
いて、そのクラスタに属する画素値をもつ画像を復元
し、該復元した各復元画像のそれぞれについて、隣接す
る画素の画素値が所定の大きさの範囲にある連結領域の
外接矩形を獲得し、前記復元画像のうち、所定の矩形長
範囲の外接矩形を含むものを特定の文字列に関する文字
領域を含む画像候補として選択し、該選択した画像候補
のそれぞれについて、前記所定の矩形長範囲の外接矩形
のうち、隣接する外接矩形間の距離が予め設定された値
以下で、かつ、その隣接する外接矩形の並びの直線性に
対するずれの大きさが予め設定された値以下のものを結
合し、該結合された外接矩形群のうち、予め定義された
最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サ
イズの条件を満たすものを文字情報候補ライン画像とし
て出力する処理であり、第３の処理が、前記文字情報候補ライン画像から個別に
文字候補領域を切り出し、該切り出した各文字候補領域
について、前記特定の文字列に関する字種が予め登録さ
れたテンプレートとの類似度である文字類似度を計算す
るとともに、該各文字候補領域の文字類似度の和を、前
記切り出した各文字候補領域からなる文字候補列と前記
特定の文字列との文字列類似度として求め、前記文字列
類似度が予め設定された値よりも大きな文字列候補のう
ちで、最も文字列類似度の大きな文字列候補をその文字
列類似度とともに格納する処理である請求項１１に記載
のプログラム。
【請求項１３】第１の処理が、隣接するクラスタとの
距離が近いクラスタ対から順に結合する処理であること
を特徴とする請求項１１または１２に記載のプログラ
ム。
【請求項１４】第１の処理が、クラスタ数固定の統計
的クラスタリングを行う処理であることを特徴とする請
求項１１または１２に記載のプログラム。
【請求項１５】特定の文字列がＩＳＢＮコードを含む
文字列であることを特徴とする請求項１１から１４のい
ずれか１項に記載のプログラム。