JP3661774B2

JP3661774B2 - 文字列認識方法、文字認識装置およびプログラム

Info

Publication number: JP3661774B2
Application number: JP2001033850A
Authority: JP
Inventors: 達勇秋山; 祐人林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-02-09
Filing date: 2001-02-09
Publication date: 2005-06-22
Anticipated expiration: 2021-02-09
Also published as: JP2002236877A

Description

【０００１】
【発明の属する技術分野】
本発明は、カラー画像から文字列を認識する方法および装置に関する。さらには、そのような認識方法を実行するプログラムに関する。
【０００２】
【従来の技術】
カラー画像から文字列を認識する手法として、印刷物や写真などの原稿をカラーイメージスキャナ（ＣＣＤタイプやＭＯＳタイプがある）を用いてカラー画像として取り込み、該取り込んだカラー画像から文字列を認識する２値化手法が知られている。このような文字列認識では、（Ｒ、Ｇ、Ｂ）表色系上のクラスタリング手法を利用するものが一般的であり、通常、クラスタリング結果として得られる画像に対して文字領域の抽出が行われる。一例として、カラー画像中からタイトルを抽出する手法（特開2000-172849号公報参照）を以下に簡単に説明する。
【０００３】
まず、カラーイメージスキャナ等から取り込まれたカラー画像の各画素を色毎にクラスタリングすることにより色分解画像を生成する。具体的には、取り込んだカラー画像の各画素をそれぞれの（Ｒ、Ｇ、Ｂ）値に基づいて（Ｒ、Ｇ、Ｂ）空間にマッピングしてクラスタ分布を形成し、各クラスタ毎の色分解画像を生成する。次いで、１つの色（タイトルの文字領域の色）の色分解画像から連結領域の外接矩形を求め、その求めた外接矩形を、サイズ、形状が一定の範囲にあるものだけに絞る。こうして得られた各外接矩形について、隣接矩形探索範囲をそれぞれ設定し、その範囲にかかる外接矩形を探索する。次いで、お互いに隣接矩形探索範囲内にかかるような矩形をグループとして抽出し、その抽出したグループのうち、グループ内の各矩形の重心の並びの直線性が良いものを残し、そのグループの外接矩形を求める。そして、その求めたグループの外接矩形内を対称に該グループを構成する領域の色に近いパターンを抽出する。このパターン抽出により、タイトルの文字列を抽出することが可能である。
【０００４】
【発明が解決しようとする課題】
書籍の裏表紙には、価格、ＩＳＢＮ番号などの実用上非常に有益な情報が記載されているが、必ずしも黒色の記載ではない。このような文字列情報を、カラーイメージスキャナなどにより取り込まれたカラー画像中から抽出する場合、従来の、（Ｒ、Ｇ、Ｂ）表色系上でのクラスタリングを利用する手法では、背景に複雑な文様があると、正確な文字認識を行うことができない。特に、従来は、クラスタリングの際、最適なクラスタ数を求めることは困難であるため、文字領域抽出のための良好な画像を得ることができず、文字列認識処理の精度が低いものとなっていた。例えば、図１１に示すように、緑色の背景に「ＩＳＢＮ４−７８５６−３０６０−４Ｃ３０５５￥３８００Ｅ」のＩＳＢＮコードおよび値段が青色で印刷された文字列領域が存在する場合、最適なクラスタ数が与えられないと、文字列領域（青）と背景（緑）を分離することが困難となり、文字列を正確に認識することができない。
【０００５】
上述の特開2000-172849号公報に記載の文字列認識手法においても、取り込んだカラー画像の各画素をそれぞれの（Ｒ、Ｇ、Ｂ）値に基づいて（Ｒ、Ｇ、Ｂ）空間にマッピングしてクラスタ分布を生成するが、その際、クラスタ数は適当に与えられており、最適なクラスタ数が必ず与えられるとは限らない。最適なクラスタ数が与えられない場合、クラスタリングの後に行われる文字列認識処理の精度が低下し、文字列を正確に認識することができない。
【０００６】
本発明の目的は、上記問題を解決し、最適なクラスタ数における文字列認識を行うことができる方法および装置、さらにはそのような認識処理を実行可能なプログラムを提供することにある。
【０００７】
【課題を解決するための手段】
上記目的を達成するため、本発明の文字認識方法は、取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第１のステップと、
前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第２のステップと、
前記所定の範囲の各クラスタ数毎に、前記第２のステップで生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第３のステップと、
前記第３のステップで格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第４のステップとを含むことを特徴とする。
【０００８】
上記の場合、第２のステップは、
所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元するステップと、
前記復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得するステップと、
前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択するステップと、
前記選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するステップとを含み、
第３のステップは、
前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求めるステップと、
前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するステップとを含むようにしてもよい。
【０００９】
本発明の文字認識装置は、カラー画像データを取り込むための画像入力手段と、
前記画像入力手段にて取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させるクラスタ結合手段と、
前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する画像領域解析手段と、
前記所定の範囲の各クラスタ数毎に、前記画像領域解析手段にて生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する文字認識手段と、
前記文字認識手段にて格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する最終結果判定手段とを有することを特徴とする。
【００１０】
上記の場合、画像領域解析手段は、所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するように構成され、
文字認識手段は、前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するように構成されてもよい。
【００１１】
本発明のプログラムは、取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第１の処理と、
前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第２の処理と、
前記所定の範囲の各クラスタ数毎に、前記第２の処理で生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第３の処理と、
前記第３の処理で格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第４の処理とをコンピュータに実行させることを特徴とする。
【００１２】
上記の場合、第２の処理が、所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力する処理であり、
第３の処理が、前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納する処理であってもよい。
【００１３】
上記のとおりの本発明においては、特定の文字列、例えばＩＳＢＮコード等書籍に特有の文字サイズ、文字の並びに関する知識を利用するので、単にクラスタリングを行うよりも高精度に認識を行うことができる。
【００１４】
また、本発明では、クラスタ数を可変としており、それぞれのクラスタ数のときの各クラスタから復元画像が生成されて文字認識処理が行われる。そして、各文字認識処理毎に、最大１候補の候補文字列が格納され、そのうちから最も特定の文字列と類似した候補、すなわち文字列類似度の大きな文字列候補が最終候補として出力される。このように、本発明では、クラスタ数可変という特徴を有しており、最適なクラスタ数で文字認識処理を行えるようになっている。
【００１５】
【発明の実施の形態】
次に、本発明の実施形態について図面を参照して説明する。
【００１６】
図１は、本発明の一実施形態の文字列認識装置の主要構成を示すブロック図である。この文字列認識装置は、特定の文字列、例えば書籍裏表紙に記載されたＩＳＢＮコードや値段（図１０参照）などの文字列を認識する装置であって、その構成は、画像入力部１、クラスタ結合部２、画像領域解析部３、文字認識部４、最終結果判定部５からなる。
【００１７】
画像入力部１は、周知のカラーイメージスキャナを備え、書籍裏表紙のカラー画像データを取り込むことができる。取り込まれたカラー画像データは、画像入力部１の画像格納部（不図示）に格納される。この他、画像入力部１は、取り込んだカラー画像データの各画素をそれぞれの（Ｒ、Ｇ、Ｂ）値に基づいて（Ｒ、Ｇ、Ｂ）空間にマッピングし、それぞれをクラスタとして割り当てる機能、その割り当てたクラスタに適当な順番でクラスタ番号を付与する機能などを持つ。
【００１８】
クラスタ結合部２は、画像入力部１にて割り当てられたクラスタのうち最も距離の近いクラスタを結合するものである。具体的には、以下の式を満たすクラスタ、すなわち、（Ｒ、Ｇ、Ｂ）空間における２要素間の距離が最小となるような（Ｒ、Ｇ、Ｂ）上の点ｘｓ、ｘｔに関して、要素ｘｓの属するクラスタＸｉと要素ｘｔの属するクラスタＸｊを結合する。ただし、クラスタＸｉとクラスタＸｊは異なるクラスタである。結合したクラスタには、番号としてｍｉｎ（ｉ，ｊ）が付与される。
【００１９】
ｄ２ｍｉｎ（Ｘｉ，Ｘｊ）＝ｍｉｎ_s,t｜｜（ｘｓ−ｘｔ）｜｜
（ただし、ｘｓ∈Ｘｉ、ｘｔ∈Ｘｊ）
画像領域解析部３は、（Ｒ、Ｇ、Ｂ）空間に形成された各クラスタ毎に、そのクラスタに属する画素値をもつ画像を復元し、それら復元画像に対してラベリングを行うとともに、各復元画像に含まれている文字や図形（隣接する画素の画素値が所定の大きさの範囲にある連結領域）のそれぞれについて、外接矩形を獲得する機能を持つ。また、画像領域解析部３は、あらかじめ定義された外接矩形長（外接矩形の縦方向または横方向の長さ）に関する知識を有し、該外接矩形長を有する外接矩形を含む復元画像を文字領域を含む画像の候補として選択する機能を持つ。さらに、画像領域解析部３は、その選択した復元画像について、（ｘ，ｙ）座標における各外接矩形の四隅座標（各頂部の座標）および各外接矩形間の距離を求め、それらの値が予め定義されている値以下となる外接矩形を結合してライン化を行うことにより文字情報候補ライン画像を生成する機能を持つ。
【００２０】
文字認識部４は、画像領域解析部３にて生成された文字情報候補ライン画像を入力とし、この文字情報候補ライン画像から個別文字切り出しを行い、該切り出した文字候補と所定の字種が予め登録されたテンプレートとの類似度（以下、文字類似度と記す。）を計算する機能を持つ。また、文字認識部４は、切り出した文字候補と文字類似度から特定の文字列に関する文字列類似度を計算し、該計算結果に基づいて文字列候補とその文字列類似度をそれぞれ格納する機能を持つ。
【００２１】
最終結果判定部５は、文字認識部４に格納された文字列候補と文字列類似度を入力とし、これらから最終候補を判定して最終結果を出力する。文字認識部４に格納された文字列候補が複数ある場合は、それぞれの文字列類似度を比較し、最も大きな文字列類似度を持つ文字列候補が最終候補として出力される。最終候補が１つもない場合は、所定のメッセージ、例えば「読み取り不能」が出力される。最終結果判定部５からの出力は、例えばＣＲＴ、液晶ディスプレイなどの表示部（不図示）に表示される。
【００２２】
次に、この文字列認識装置の文字列認識処理の動作について具体的に説明する。本形態の文字列認識装置は、カラー画像中から特定の文字列を認識することができるが、ここでは、書籍裏表紙に記載されたＩＳＢＮコードや値段などの文字列を認識する場合の処理を例に挙げて説明する。図２は、図１に示した文字列認識装置の文字列認識処理を説明するためのフローチャート図である。
【００２３】
まず、ステップＳ１０にて、画像入力部１によるカラー画像の取り込み、マッピングおよびクラスタ生成が行われる。具体的には、カラーイメージスキャナを用いてＩＳＢＮコードや値段などの文字列が印刷された書籍裏表紙のカラー画像を取り込み、これを画像格納部に格納する。このとき、入力されたカラー画像データのすべての画素について、（Ｒ，Ｇ，Ｂ）成分が格納される。おのおのの画素は、一通りの（Ｒ，Ｇ，Ｂ）の値の組み合わせを持つので、必ず（Ｒ，Ｇ，Ｂ）空間の１点へマッピングされる。
【００２４】
図３は、マッピングの一例を示す模式図である。この図３の例のように、入力画像の画素Ａは必ず（Ｒ，Ｇ，Ｂ）空間の１点のＡ’点にマッピングされる。そして、この（Ｒ，Ｇ，Ｂ）空間にマッピングされた各画素に対してクラスタリングが行われる。このクラスタリングでは、画素の数をＮ個としたとき、クラスタ結合のための初期値として、それぞれ１つの画素（要素）からなるＮ個のクラスタが生成される。すなわち、この初期値の状態では、画素とクラスタは一対一で対応する。また、このクラスタリングの際、適当な順番（例えば、２次元画像の座標軸をｘ軸、ｙ軸としたときのｘ成分昇順,ｙ成分昇順）でクラスタ番号を付与し、画素と対応づけて格納する。
【００２５】
次いで、ステップＳ１１にて、クラスタ結合部２によるクラスタの結合が行われる。このクラスタ結合では、例えば、図４（ａ）に示すような３つのクラスタＸ１〜Ｘ３が（Ｒ、Ｇ、Ｂ）空間に存在する場合、２要素間の距離が最小となる点ｘｓ、ｘｔがそれぞれ属する２つのクラスタＸ２、Ｘ３が結合される。クラスタ結合後は、図４（ｂ）に示すように、クラスタＸ１と、２つのクラスタＸ２、Ｘ３が結合された結合クラスタの２つとなる。この場合、結合クラスタには、番号としてｍｉｎ（２，３）が付与される。なお、図４に示した例では、説明を簡単にするため、３つのクラスタＸ１〜Ｘ３しか示していないが、通常は、上述の通り、初期値の状態においてＮ個のクラスタが存在し、クラスタ結合が行われるたびにクラスタ数が１つずつ減っていく。図４（ａ）に示した各クラスタＸ１〜Ｘ３は、すでに何回かクラスタ結合が行われており、クラスタＸ１は３つの画素（要素）を、クラスタＸ２、Ｘ３は、それぞれ５つの画素（要素）を含んだものとなっている。
【００２６】
上記ステップＳ１１にて１回のクラスタ結合が行われると、次いで、ステップＳ１２にて、クラスタ数がｎｃ_max以下かどうかが判断される。この判断は、クラスタ結合部２によって行われる。クラスタ数がｎｃ_maxより大きい場合は、上記のステップＳ１１に戻って再びクラスタ結合が行われ、クラスタ数がｎｃ_max以下である場合は、続くステップＳ１３にて、クラスタ数がｎｃ_min以上かどうかが判断される。この判断も、クラスタ結合部２によって行われる。クラスタ数がｎｃ_minより小さい場合には、後述のステップＳ１７の最終結果出力処理に移行し、クラスタ数がｎｃ_min以上の場合は、続くステップＳ１４にて画像領域解析部３による以下のような画像領域解析が行われる。なお、クラスタ数ｎｃ_max、ｎｃ_minは、その範囲のいずれかのクラスタ数において、文字認識処理が最も精度良く行われるように予め設定されている。また、クラスタ結合のアルゴリズムにより、ｎｃ_max＞ｎｃ_minであれば、必ず１度以上の画像領域解析が実行される。
【００２７】
ステップＳ１４の画像領域解析は、画像復元、外接矩形の獲得、外接矩形長に基づく文字候補領域の絞り込み、外接矩形の結合（ライン化）、領域解析の５つ処理からなる。
【００２８】
（ａ）画像復元：
画像復元では、各クラスタ毎に、２次元平面（ｘ，ｙ）座標系で、それぞれのクラスタに含まれる画素集合からなる画像を復元する。図５（ａ）はクラスタ分布の一例を示す図で、図５（ｂ）は図５（ａ）に示す各クラスタの復元画像を模式的に示す図である。この例では、（Ｒ、Ｇ、Ｂ）空間に複数のクラスタＸ１〜Ｘｎが存在し、クラスタＸ１から文字「１２３４５」と三角形の図形を含む復元画像が、クラスタＸ２から文字「ｘ」と楕円の図形を含む復元画像が、クラスタＸｎから三角形の図形を含む復元画像がそれぞれ復元される。
【００２９】
（ｂ）外接矩形の獲得：
外接矩形の獲得では、各クラスタの復元画像に対して、それぞれラベル付けを行い、各復元画像中の文字や図形についてそれぞれ外接矩形（ブロック）を求める。外接矩形は、図６（ａ）に示すように、復元画像中の文字、図形のそれぞれについて求められる。図６（ａ）に示す復元画像ａ１，ａ２，…，ａｎは、それぞれ図５（ｂ）に示したクラスタＸ１，Ｘ２，…，Ｘｎの復元画像である。復元画像ａ１においては三角形の図形、文字「１」、「２」、「３」、「４」、「５」のそれぞれの外接矩形が求められ、復元画像ａ２においては楕円形の図形、文字「ｘ」のそれぞれの外接矩形が求められ、復元画像ａｎにおいては三角形の図形の外接矩形が求められる。
【００３０】
（ｃ）文字候補領域の絞り込み：
文字候補領域の絞り込みでは、各復元画像について、予め設定された外接矩形長の範囲の外接矩形長を持つ外接矩形を含んでいるかどうかを判定する。図６（ｂ）は、予め設定された外接矩形長の範囲の外接矩形長を持つ外接矩形を示す図である。図６（ｂ）中、復元画像ａ１およびａ２は図６（ａ）の復元画像ａ１およびａ２に関するものである。図６の（ａ）および（ｂ）を例に説明すると、図６（ａ）に示した復元画像ａ１〜ａｎのうち、復元画像ａ１、ａ２のみが上記の範囲の外接矩形が含まれると判定され、他の復元画像（ａ３〜ａｎ）については含まれないと判定される。上記の範囲の外接矩形が含まれると判定された復元画像については、図６（ｂ）に示すようにその範囲の外接矩形のみが残される。
【００３１】
（ｄ）外接矩形の結合：
外接矩形の結合（ライン化）は、上記の範囲の外接矩形が含まれると判定された各復元画像（図６（ｂ）参照）に対して行われる。復元画像中に含まれる各外接矩形（ブロック）について、それら外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下であり、かつ、隣接する外接矩形間の距離が予め設定された値以下である場合に、それら外接矩形を結合する。より具体的には、この外接矩形の結合は以下のような手順で行う。
【００３２】
まず、復元画像中の各外接矩形（ブロック）の外接矩形四隅座標をそれぞれ求める。外接矩形四隅の座標は、図７（ａ）に示すように、（ｘ，ｙ）座標系における外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）として定義する。「ｘｓ_k」は外接矩形（ブロックｋ）の左上隅（頂部）および左下隅（頂部）のｘ軸の値を表わし、「ｘｌ_k」は外接矩形（ブロックｋ）の右上隅（頂部）および右下隅（頂部）のｘ軸の値を表わす。「ｙｓ_k」は外接矩形（ブロックｋ）の左上隅（頂部）および右上隅（頂部）のｙ軸の値を表わし、「ｙｌ_k」は外接矩形（ブロックｋ）の左下隅（頂部）および右下隅（頂部）のｙ軸の値を表わす。
【００３３】
続いて、図７（ｂ）に示すように、復元画像中の各外接矩形（ブロックｋ）の並びのずれの大きさとして、Ｄ１（ｍａｘ_kｙｌ_k−ｍｉｎ_kｙｌ_k）およびＤ２（ｍａｘ_kｙｓ_k−ｍｉｎ_kｙｓ_k）を求め、さらに隣接する外接矩形（ブロックｋ）間の距離Ｄを求める。ここで、「ｍａｘ_kｙｌ_k」は各外接矩形のうち、図７（ａ）に示した外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）の「ｙｌ_k」の値が最も大きなブロックｋ（図７（ｂ）の例ではブロックｋ２）の「ｙｌ_k」の値を示す。同様に、「ｍａｘ_kｙｓ_k」は外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）の「ｙｓ_k」の値が最も大きなブロックｋ（図７（ｂ）の例ではブロックｋ１）の「ｙｓ_k」の値を示す。また、「ｍｉｎ_kｙｌ_k」は外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）の「ｙｌ_k」の値が最も小さなブロックｋ（図７（ｂ）の例ではブロックｋ１）の「ｙｌ_k」の値、「ｍｉｎ_kｙｓ_k」は外接矩形四隅座標値（ｘｓ_k，ｘｌ_k，ｙｓ_k，ｙｌ_k）の「ｙｓ_k」の値が最も小さなブロックｋ（図７（ｂ）の例ではブロックｋ２）の「ｙｓ_k」の値をそれぞれ示す。
【００３４】
上記のようにして求めたＤ１、Ｄ２があらかじめ定義された値ＴＹＳ、ＴＹＬ以下で、かつ、隣接する矩形間距離Ｄがあらかじめ定義された値以下である場合に、それら外接矩形を結合する。
【００３５】
（ｅ）領域解析：
上記外接矩形の結合で結合された外接矩形群（ブロック群）について、あらかじめ定義された認識対象に関する最小ブロック数、最大ブロック数、最小ブロックサイズ、最大ブロックサイズの知識との照合を行う。これらの条件をクリアする外接矩形群（ブロック群）のみを採択し、その採択した外接矩形群（ブロック群）を文字情報候補ラインとして出力する。条件がクリアされない場合は、文字情報候補ラインは出力されない。
【００３６】
上述したような画像領域解析（ステップＳ１４）が行われると、次いで、ステップＳ１５にて、文字情報候補ラインの有無の判定が行われる。この判定も、画像領域解析部３によって行われる。文字情報候補ライン無しの場合は、上述したステップＳ１１のクラスタ結合に戻って再びクラスタ結合が行われ、文字情報候補ライン有りの場合は、続くステップＳ１６にて文字認識部５による以下のような文字認識が行われる。
【００３７】
ステップＳ１６の文字認識では、まず、画像領域解析部３から出力された、復元画像中の文字情報候補ライン内の領域について、周知の文字切り出し処理を行って文字領域候補を切り出す。続いて、その切り出された各文字領域候補に対し、あらかじめ登録された字種（特定の文字（アルファベットや数字）、例えばＩ、Ｓ、Ｂ、Ｎや数字０〜９）ごとのテンプレートとの類似度を計算する。この文字類似度は、値が小さいほど確信度が高い。本例では、あらかじめ登録された認識対象文字列（例えば、数字５桁や「ＩＳＢＮ」と数字を含む文字列など）を参照して、上記の各文字領域候補からその認識対象文字列に相当する文字列候補を切り出し、この切りだした各文字列候補に対して、各文字領域候補の文字類似度を、上記のような文字領域候補と字種のすべての組み合わせについて計算し、文字列類似度を各文字領域候補の文字類似度の和として計算する。このようにして求めた各文字列候補の文字列類似度のうち、あらかじめ設定された値よりも大きいものについて、文字列類似度の大きい文字列候補から、出力候補文字列として、最大１候補の文字列類似度の値と文字列候補を格納する。
【００３８】
上記の処理をより具体的に説明すると、次のようなこととなる。以下に挙げる例は、認識対象である特定の文字列を「１２３４５」としている。
【００３９】
例えば、図８に示すように、文字列「１２３４５」を含む文字情報候補ラインが画像領域解析部３から出力された場合、文字「１」、「２」、「３」、「４」、「５」の文字領域候補が切り出され、その切り出された各文字領域候補に対し、あらかじめ登録された字種（１、２、３、４、５）ごとのテンプレートとの類似度を計算する。そして、あらかじめ登録された認識対象文字列（ここでは、「１２３４５」）を参照して、上記の各文字領域候補からその認識対象文字列に相当する文字列候補の文字類似度を計算する。図８の例では、文字領域候補には文字「１」〜「５」しか存在しないため、文字列候補は「１２３４５」のみとなる。文字領域候補に他の文字が存在する場合は、その文字を組み合わせた文字列も文字列候補として文字類似度が計算される。文字列候補の文字類似度は、各文字領域候補「１」〜「５」の文字類似度と字種のすべての組み合わせについて計算し、文字列類似度を各文字領域候補の文字類似度の和として計算する。図８の例では、文字候補列は「１２３４５」のみであるため、求めた文字候補列の文字列類似度があらかじめ設定された値よりも大きければ、出力候補文字列としてその文字列候補が文字列類似度とともに格納される。このようにして格納される文字列候補および文字列類似度の値は、ステップＳ１１のクラスタ結合後のクラスタ数によって異なり、最適なクラスタ数のときにその文字列類似度が最も大きくなる。文字列候補が存在しない場合は棄却とする（図８の「Reject」）。
【００４０】
上記ステップＳ１６の文字認識の後は、上述のステップＳ１１に戻って再びクラスタ結合が行われる。このようにしてステップＳ１１〜Ｓ１６の処理が繰り返され、ステップＳ１３にてクラスタ数がｎｃ_min以下となったときに、初めてステップＳ１７に移行し、最終結果判定部５による以下のような最終結果出力処理が行われる。
【００４１】
最終結果出力処理では、文字認識部４に格納された文字認識結果（出力候補文字列）から最終候補を決定してそれを出力する。なお、文字認識部４に一つも出力候補文字列が存在しない場合には、「読み取り不能」を示す情報が出力される。文字認識部４に出力候補文字列が１つのみ存在する場合は、その出力候補文字列を最終候補として出力する。文字認識部４に出力候補文字列が２つ以上存在する場合は、文字列類似度の最も大きな候補文字列を最終候補として出力する。
【００４２】
以上説明した処理を、図１１に示したカラー画像、すなわち緑色の背景に「ＩＳＢＮ４−７８５６−３０６０−４Ｃ３０５５￥３８００Ｅ」のＩＳＢＮコードおよび値段が青色で印刷された文字列領域が存在するカラー画像を例として説明すると、次のようなことになる。
【００４３】
この例の場合は、クラスタ数の範囲ｎｃ_min〜ｎｃ_maxとして例えばクラスタ数３〜７（この範囲は、経験的に与えられるものである。）が設定され、この範囲において、それぞれのクラスタ数のときの各クラスタから復元画像が生成されて文字認識処理が行われる。そして、各文字認識処理毎に、最大１候補の文字列類似度の値と候補文字列が格納される。ここで、最適なクラスタ数が５であったとすると、クラスタ数５のときの文字認識処理において、図１０に示すように「ＩＳＢＮ４−７８５６−３０６０−４Ｃ３０５５￥３８００Ｅ」（青色）の文字列が精度よく復元され、最も大きな文字列類似度を持つ文字列候補が文字列認識部４に格納される。クラスタ数が５以外の場合には、精度良く文字列認識を行うことが困難であるため、文字列認識部４に格納される文字列候補の文字列類似度は小さい値をとる。したがって、最終結果判定部５では、クラスタ数５の場合の文字列候補が採択され、それが最終候補として出力される。
【００４４】
以上説明したように、本形態の文字認識装置によれば、文字認識処理が精度良く行われるクラスタ数の範囲ｎｃ_min〜ｎｃ_maxを想定し、その範囲において、それぞれのクラスタ数のときのクラスタからの復元画像が生成されて文字認識処理が行われる。そして、各文字認識処理毎に、最大１候補の文字列類似度の値と候補文字列が格納され、そのうちから最も文字列類似度の大きな候補文字列が最終候補として出力される。このように、本形態の文字認識装置は、クラスタ数可変という特徴を有しており、最適なクラスタ数で文字認識処理を行えるようになっている。
【００４５】
（他の実施形態）
上述の実施形態において、クラスタリングにＫ−Ｍｅａｎｓ法などのクラスタ数固定の統計的クラスタリング手法を用いることができる。具体的には、図１に示したクラスタ結合部を以下のようなクラスタリング再構築部に置き換える。
【００４６】
クラスタリング再構築部は、クラスタ結合部と置き換え可能なユニットである。このクラスタリング再構築部では、クラスタ数ＮＣが１ずつ減算され、結果的に、Ｋ−Ｍｅａｎｓ法などのクラスタ数固定の統計的クラスタリング手法によるクラスタリングが行われる。この結果生成された各クラスタは、類似したＲＧＢ成分を持つ画素の集合となる。この画素の集合から復元画像を得、上述した画像領域解析部、文字認識部、最終結果判定部による各処理が行われる。
【００４７】
（他の実施形態：プログラム）
図９は、本発明の他の実施形態である、文字認識処理に関するプログラムを備える文字認識装置の一構成例を示すブロック図である。
【００４８】
図９を参照すると、本実施形態は、カラーイメージスキャナなどの入力装置１１と、入力装置１１から取り込まれるカラー画像データについて文字認識処理を行うデータ処理装置１０と、その文字認識処理結果を出力するための出力装置１２と、文字認識処理プログラムを記録した記録媒体１３とを備える。データ処理装置１０は、前述のクラスタ結合部２、画像領域解析部３、文字認識部４、最終結果判定部５などの各処理部における動作を記録媒体１３に記録された文字認識処理プログラムにしたがって実行する。記録媒体１３は磁気ディスク、半導体メモリ、その他の記録媒体であってよい。出力装置１２は、ＣＲＴ、液晶ディスプレイなどの表示装置、またはプリンタである。
【００４９】
文字認識処理プログラムは、記録媒体１３からデータ処理装置１０に読み込まれ、データ処理装置１０の動作を制御する。データ処理装置１０は、文字認識処理プログラムの制御により、以下のような文字認識処理を実行することができる。
【００５０】
入力装置１からカラー画像データが与えられると、まず、その取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる（第１の処理）。
【００５１】
次いで、上記所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する（第２の処理）。
【００５２】
次いで、上記所定の範囲の各クラスタ数毎に、上記の処理で生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する（第３の処理）。
【００５３】
そして、上記の処理で格納された、上記所定の範囲の各クラスタ数毎の文字列候補のうちで、類似度が最も大きな文字列候補を最終候補として出力する（第４の処理）。
【００５４】
上記の第２の処理を、所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、上記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するようにし、上記第３の処理を、文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、その切り出した各文字候補領域からなる文字候補列と特定の文字列との文字列類似度として求め、文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するようにしてもよい。
【００５５】
以上のように、本形態では、記録媒体１３に記録されたプログラムによる制御により、前述した各実施形態の文字認識処理を実現することができる。なお、ここでは、文字認識処理プログラムは、記録媒体１３により提供されるようになっているが、本発明はこの形態に限定されるものではなく、文字認識処理プログラムはどのような手段で提供されてもよい。例えば、ネットワークを介して外部装置から提供されるような構成としてもよい。
【００５６】
【発明の効果】
以上説明したように、本発明によれば、クラスタ数を可変として、複数回文字認識処理を実行させ、結果として最適なクラスタ数における文字列認識を行うことができるので、従来のものより、高精度に認識を行うことができ、信頼性の高い文字認識結果を提供することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態の文字列認識装置の主要構成を示すブロック図である。
【図２】図１に示した文字列認識装置の文字列認識処理を説明するためのフローチャート図である。
【図３】マッピングの一例を示す模式図である。
【図４】（ａ）および（ｂ）は、クラスタ結合を説明するための模式図である。
【図５】（ａ）は、（Ｒ、Ｇ、Ｂ）空間のクラスタの一例を示す模式図、（ｂ）は（ａ）に示すクラスタの復元画像を示す模式図である。
【図６】（ａ）は、図５（ｂ）に示す復元画像の外接矩形を示す模式図、（ｂ）は（ａ）に示す外接矩形のうちの、予め設定された外接矩形長の範囲の外接矩形長を持つ外接矩形を示す模式図である。
【図７】（ａ）は（ｘ，ｙ）座標系における外接矩形四隅座標値を説明するための図、（ｂ）は外接矩形四隅座標値と外接矩形間距離を用いた矩形結合を説明するための図である。
【図８】文字情報候補ラインの出力結果の一例を示す模式図である。
【図９】本発明の他の実施形態である、文字認識処理に関するプログラムを備える文字認識装置の一構成例を示すブロック図である。
【図１０】ＩＳＢＮコード含むカラー画像データの一例を示す模式図である。
【図１１】図１０に示すカラー画像データの文字認識結果を示すモ模式図である。
【符号の説明】
１画像入力部
２クラスタ結合部
３画像領域解析部
４文字認識部
５最終結果判定部
１０データ処理装置
１１入力装置
１２出力装置
１３記録媒体

Claims

取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第１のステップと、
前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第２のステップと、
前記所定の範囲の各クラスタ数毎に、前記第２のステップで生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第３のステップと、
前記第３のステップで格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第４のステップとを含むことを特徴とする文字列認識方法。
第２のステップは、
所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元するステップと、
前記復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得するステップと、
前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択するステップと、
前記選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するステップとを含み、
第３のステップは、
前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求めるステップと、
前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するステップとを含むことを特徴とする請求項１に記載の文字認識方法。
第１のステップが、隣接するクラスタとの距離が近いクラスタ対から順に結合するステップであることを特徴とする請求項１または２に記載の文字認識方法。
第１のステップにおけるクラスタ結合にクラスタ数固定の統計的クラスタリングを用いることを特徴とする請求項１または２に記載の文字認識方法。
特定の文字列がＩＳＢＮコードを含む文字列であることを特徴とする請求項１から４のいずれか１項に記載の文字認識方法。
カラー画像データを取り込むための画像入力手段と、
前記画像入力手段にて取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させるクラスタ結合手段と、
前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する画像領域解析手段と、
前記所定の範囲の各クラスタ数毎に、前記画像領域解析手段にて生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する文字認識手段と、
前記文字認識手段にて格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する最終結果判定手段とを有することを特徴とする文字列認識装置。
画像領域解析手段は、
所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力するように構成され、
文字認識手段は、
前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納するように構成されていることを特徴とする請求項６に記載の文字認識装置。
クラスタ結合手段は、隣接するクラスタとの距離が近いクラスタ対から順に結合するように構成されていることを特徴とする請求項６または７に記載の文字認識装置。
クラスタ結合手段は、クラスタ数固定の統計的クラスタリングを行うことを特徴とする請求項６または７に記載の文字認識装置。
特定の文字列がＩＳＢＮコードを含む文字列であることを特徴とする請求項６から９のいずれか１項に記載の文字認識装置。
取り込まれたカラー画像データの各画素を（Ｒ、Ｇ、Ｂ）空間にマッピングして得られるクラスタを結合してそのクラスタ数を所定の範囲において変化させる第１の処理と、
前記所定の範囲の各クラスタ数毎に、前記（Ｒ、Ｇ、Ｂ）空間における各クラスタの復元画像を生成し、該生成した復元画像のそれぞれについて、特定の文字列の文字サイズおよび文字の並びを参照して、該特定の文字列に関する文字情報候補ライン画像を生成する第２の処理と、
前記所定の範囲の各クラスタ数毎に、前記第２の処理で生成された各復元画像の文字情報候補ライン画像について、その文字情報候補ライン画像から文字列候補を切り出して、該切り出した文字列候補と前記特定の文字列との類似度を計算し、該類似度が予め設定された値よりも大きな文字列候補のうちで、最も類似度の大きな文字列候補をその類似度とともに格納する第３の処理と、
前記第３の処理で格納された、前記所定の範囲の各クラスタ数毎の文字列候補のうちで、前記類似度が最も大きな文字列候補を最終候補として出力する第４の処理とをコンピュータに実行させるためのプログラム。
第２の処理が、所定の範囲の各クラスタ数毎に、（Ｒ、Ｇ、Ｂ）空間における各クラスタについて、そのクラスタに属する画素値をもつ画像を復元し、該復元した各復元画像のそれぞれについて、隣接する画素の画素値が所定の大きさの範囲にある連結領域の外接矩形を獲得し、前記復元画像のうち、所定の矩形長範囲の外接矩形を含むものを特定の文字列に関する文字領域を含む画像候補として選択し、該選択した画像候補のそれぞれについて、前記所定の矩形長範囲の外接矩形のうち、隣接する外接矩形間の距離が予め設定された値以下で、かつ、その隣接する外接矩形の並びの直線性に対するずれの大きさが予め設定された値以下のものを結合し、該結合された外接矩形群のうち、予め定義された最小矩形数、最大矩形数、最小矩形サイズ、最大矩形サイズの条件を満たすものを文字情報候補ライン画像として出力する処理であり、
第３の処理が、前記文字情報候補ライン画像から個別に文字候補領域を切り出し、該切り出した各文字候補領域について、前記特定の文字列に関する字種が予め登録されたテンプレートとの類似度である文字類似度を計算するとともに、該各文字候補領域の文字類似度の和を、前記切り出した各文字候補領域からなる文字候補列と前記特定の文字列との文字列類似度として求め、前記文字列類似度が予め設定された値よりも大きな文字列候補のうちで、最も文字列類似度の大きな文字列候補をその文字列類似度とともに格納する処理である請求項１１に記載のプログラム。
第１の処理が、隣接するクラスタとの距離が近いクラスタ対から順に結合する処理であることを特徴とする請求項１１または１２に記載のプログラム。
第１の処理が、クラスタ数固定の統計的クラスタリングを行う処理であることを特徴とする請求項１１または１２に記載のプログラム。
特定の文字列がＩＳＢＮコードを含む文字列であることを特徴とする請求項１１から１４のいずれか１項に記載のプログラム。