JP2006277149A

JP2006277149A - 文字画像切出装置、文字画像切出方法およびプログラム

Info

Publication number: JP2006277149A
Application number: JP2005093260A
Authority: JP
Inventors: Toshiya Koyama; 俊哉小山; Teruka Saito; 照花斎藤; Shoichi Tateno; 昌一舘野; Kei Tanaka; 圭田中; Masayoshi Sakakibara; 正義榊原
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-03-28
Filing date: 2005-03-28
Publication date: 2006-10-12
Anticipated expiration: 2025-03-28
Also published as: JP4810853B2

Abstract

【課題】異なる書き手による手書き文字に関し、当該手書き文字を示す画像データから、常に高い精度で正しく各々の文字を示す画像データを切り出す手段を提供する。
【解決手段】形状特性特定部１０１４は、升目に書かれた文字の各々を示す文字画像の形状特性を特定し、形状特性データ１０２３として記憶部１０２に記憶する。第２文字画像認識部１０１６は、自由記入欄に書かれた文字列を示す画像から、１文字を示す文字画像の候補をセグメントとして取り出す。第２文字画像認識部１０１６は、取り出したセグメントの形状特性を、形状特性データ１０２３により示される形状特性と比較し、当該セグメントを文字画像として切り出すか否かを判定する。
【選択図】図１

Description

本発明は、文字認識処理に用いられる文字画像の切り出し技術に関する。

文字を示す画像データから抽出した特徴点と、予めデータベースに登録してある文字の特徴点とを比較することにより、画像データにより示される文字を認識し、認識した文字を示すテキストデータを生成する技術がある。

上記のような文字認識処理において、画像データが複数の文字を示す場合、その画像データから各々の文字を示す画像データを切り出すことが必要となる。すなわち、画像データに含まれる連続したオン画素群のいずれが１つの文字を構成するものであるかを特定する必要がある。そのような文字画像の切り出し技術を開示したものとして、例えば特許文献１および２がある。
特開平９−８１６８４号公報特開平１１−２２４３１０号公報

上記の特許文献１および２に開示の技術による場合、画像データにより示される文字の縦横比が所定の範囲内に納まっている場合において、各々の文字を示す画像データが正しく切り出される可能性が高い。しかしながら、手書き文字の形状特性は書き手によってまちまちであるため、従来技術による場合、全ての書き手による文字に関して高い精度で各々の文字を示す画像データを正しく切り出すことは困難である。

上述の事情に鑑み、本発明は異なる書き手による手書き文字に関し、当該手書き文字を示す画像データから、常に高い精度で正しく各々の文字を示す画像データを切り出す手段を提供することを目的とする。

上述の課題を解決するため、本発明は、各々画像を示す第１画像データと第２の画像を示す第２画像データとを取得する画像データ取得手段と、前記第１画像データにより示される画像のうち所定の領域に配置されている部分を１文字を示す文字画像として認識する第１文字画像認識手段と、前記第１文字画像認識手段により認識された文字画像の形状特性を特定する形状特性特定手段と、前記形状特性特定手段により特定された形状特性を用いて、前記第２画像データにより示される画像の一部を１文字を示す文字画像として認識する第２文字画像認識手段と、前記第２文字画像認識手段により認識された文字画像を示す画像データを出力する出力手段とを備えることを特徴とする文字画像切出装置を提供する。

好ましい態様において、前記文字画像切出装置は前記第１文字画像認識手段により認識された文字画像を構成する画素のうち所定の条件を満たす属性を備える画素の配置に基づき、当該文字画像を複数の種別のいずれかに分類する第１分類手段と、前記第２画像データにより示される画像の一部を１文字を示す文字画像の候補として取り出し、当該文字画像の候補を構成する画素のうち所定の条件を満たす属性を備える画素の配置に基づき、当該文字画像の候補を前記複数の種別のいずれかに分類する第２分類手段とをさらに備え、前記第２文字画像認識手段は、前記第２分類手段により取り出された文字画像の候補の形状特性と、前記第２分類手段により当該文字画像の候補が分類された種別と同じ種別に前記第１分類手段により分類された文字画像の形状特性とを比較することにより、当該文字画像の候補を１文字を示す文字画像として認識するか否かを決定するように構成されてもよい。

また、他の好ましい態様において、前記文字画像切出装置の前記形状特性特定手段は、前記第１文字画像認識手段により認識された文字画像の縦横比もしくは当該文字画像を構成する複数の部分の各々の縦横比を前記形状特性として特定するように構成されてもよい。

また、他の好ましい態様において、前記文字画像切出装置の前記形状特性特定手段は、前記第１文字画像認識手段により認識された文字画像の傾斜度もしくは当該文字画像を構成する複数の部分の各々の傾斜度を前記形状特性として特定するように構成されてもよい。

また、他の好ましい態様において、前記文字画像切出装置は標準的な文字の形状特性もしくは標準的な文字の構成部の形状特性を示す標準形状特性データを記憶する記憶手段と、画像により示される文字を認識する文字認識手段とを備え、前記第２文字画像認識手段は、第２画像データにより示される画像の一部を１文字を示す文字画像の候補として取り出し、前記文字認識手段は、前記第２文字画像認識手段により取り出された文字画像により示されると推定される文字を認識し、前記第２文字画像認識手段は、前記記憶手段に記憶されている標準形状特性データのうち、前記文字認識手段により認識された文字、前記文字認識手段により認識された文字と類似した形状を有する文字および文字の構成部であって前記文字認識手段により認識された文字と類似した形状を有する構成部の少なくとも１に関する標準形状特性データにより示される形状特性に対し、前記形状特性特定手段により特定された形状特性に応じた補正を加えたものと、前記文字画像の候補の形状特性とを比較することにより、前記文字画像の候補を１文字を示す文字画像として認識するか否かを決定するように構成されてもよい。

また、本発明は、上記いずれかに記載の前記文字画像切出装置において行われる文字画像切出方法を提供する。さらに本発明は、上記いずれかに記載の前記文字画像切出装置が行う処理と同様の処理をコンピュータに実行させることを特徴とするプログラムを提供する。

本発明によれば、升目のない領域に書かれた手書き文字を示す画像から各々の文字を示す画像が切り出される際に、同じ書き手によって升目に書かれた手書き文字の形状特性が用いられる。その結果、各々の文字を示す画像の切り出しが高い精度で正しく行われる。

［１．第１実施形態］
図１は本発明の第１実施形態にかかる文字認識システム１の構成を示したブロック図である。文字認識システム１は、複数の文字を示す画像データから各々の文字を示す画像データを切り出して送信する文字画像切出装置１０と、紙面に書かれた図形や文字を光学的に読み取ってそれらの図形や文字を白黒で示す画像データを文字画像切出装置１０に送信するスキャナ１１と、文字画像切出装置１０から送信される画像データに対し文字認識処理を行い認識した文字を示すテキストデータを生成する文字認識装置１２を備えている。

図２は、スキャナ１１により読み取り処理の行われる記入用紙を例示した図である。図２に示されるように、記入用紙には升目により各々の文字が書かれるべき領域が指定された氏名欄および住所欄と、升目が付されていない自由記入欄が含まれている。これらの記入欄には、書き手により手書きの文字列が記入されている。スキャナ１１は記入用紙に記載されている図形および文字を示す画像データを生成し、生成した画像データを文字画像切出装置１０に送信する。

文字画像切出装置１０は、文字画像切出装置１０の構成部を制御する制御部１０１と、制御部１０１による各種処理を指示するプログラムおよび各種データを記憶するとともに制御部１０１のワークエリアとして用いられる記憶部１０２を備えている。以下、図３および図４を参照しつつ、制御部１０１により行われる処理を説明する。

制御部１０１は、スキャナ１１から画像データを受信する画像データ入力部１０１１を備えている。画像データ入力部１０１１はスキャナ１１から受信した画像データを記憶部１０２に画像データ１０２１として記憶する（ステップＳ１）。画像データ１０２１は、平面上に等間隔で配置された画素に対応する画素データの集合であり、各画素データは黒を示すオン画素データもしくは白を示すオフ画素データのいずれかである。

制御部１０１は、画像データ１０２１により示される画像から各々の升目が占める領域（以下、「升目領域」と呼ぶ）および自由記入欄の占める領域（以下、「自由記入欄領域」と呼ぶ）を特定する領域特定部１０１２を備えている。領域特定部１０１２は、例えば画像データ１０２１に対し細線化処理を行った後、特徴点の抽出処理を行う。特徴点とは、例えば細線化処理後のオン画素の端点、交点、屈曲点等を意味する。領域特定部１０１２はそのように抽出した特徴点から直線部分を特定し、特定した直線部分により囲まれる領域を、升目領域もしくは自由記入欄領域として認識する。領域特定部１０１２は認識した各々の升目領域および自由記入欄領域を示す領域データ１０２２を記憶部１０２に記憶する（ステップＳ２）。

制御部１０１は、升目領域に含まれる画像を取り出す第１文字画像認識部１０１３を備えている。第１文字画像認識部１０１３は、画像データ１０２１から、領域データ１０２２により示される升目領域の各々に含まれる画素データ群を取り出し、取り出したオン画素データ群を、１文字を示す画像（以下、「文字画像」と呼ぶ）を示す画像データ（以下、「文字画像データ」と呼ぶ）として認識する（ステップＳ３）。

制御部１０１は、文字画像の縦横比および傾斜度を特定する形状特性特定部１０１４を備えている。第１文字画像認識部１０１３は文字画像データを形状特性特定部１０１４に引き渡す。形状特性特定部１０１４は第１文字画像認識部１０１３から文字画像データを受け取ると、水平方向に伸びる上底および下底を有し、文字画像データにより示される文字画像に外接する平行四辺形を特定する。文字画像に外接する平行四辺形が複数存在する場合、形状特性特定部１０１４は、例えば各々の平行四辺形のうち面積が最も小さいものを選択する。図５は升目領域に書かれた文字画像の各々に対し、形状特性特定部１０１４により特定された平行四辺形が外接している様子を示した図である。

形状特性特定部１０１４は、各々の文字画像に外接する平行四辺形の高さｘの上底（もしくは下底）の長さｙに対する比（ｘ／ｙ）の平均値を、升目領域に書かれた文字画像群の縦横比として算出する。また、形状特性特定部１０１４は、各々の文字画像に外接する平行四辺形の左側（もしくは右側）の辺の垂直方向に対する角度の平均値を、升目領域に書かれた文字画像群の傾斜度として算出する。形状特性特定部１０１４は算出した縦横比および傾斜度を示すデータを、形状特性データ１０２３として記憶部１０２に記憶する（ステップＳ４）。

制御部１０１は、自由記入欄領域に含まれる画像から各行の文字列を示す画像（以下、「行画像」と呼ぶ）を切り出す行画像認識部１０１５を備えている。行画像認識部１０１５は、まず画像データ１０２１から、領域データ１０２２により示される自由記入欄領域に含まれるオン画素データを取り出し、取り出した画素データの水平方向の分布を垂直方向に走査し、水平方向のオン画素データが所定の閾値を超える垂直方向の範囲を特定する。そのように特定された範囲に含まれる画素データ群は行画像を示す画像データ（以下、「行画像データ」と呼ぶ）である（ステップＳ５）。

制御部１０１は、行画像から各々の文字を示す文字画像を取り出す第２文字画像認識部１０１６を備えている。行画像認識部１０１５は、行画像データを第２文字画像認識部１０１６に引き渡す。第２文字画像認識部１０１６は行画像データを受け取ると、受け取った行画像データにより示される行画像に含まれるオン画素のうち最も左に位置するものを起点画素とし、起点画素に連続するオン画素群を取り出す。以下、このように取り出されたオン画素群を「第１セグメント」と呼ぶ（ステップＳ６）。

続いて、第２文字画像認識部１０１６は第１セグメントに外接する平行四辺形を、形状特性特定部１０１４が升目領域内の文字画像に対し行う場合と同様の方法で特定し、特定した平行四辺形の縦横比および傾斜度を算出する（ステップＳ７）。第２文字画像認識部１０１６は、算出した縦横比の形状特性データ１０２３により示される縦横比に対する比率および算出した傾斜度の形状特性データ１０２３により示される傾斜度に対する比率が、いずれも所定の範囲内（例えば０．８〜１．２）に含まれているか否かを判定する。以下、この判定を「形状特性判定」と呼ぶ（ステップＳ８）。

第２文字画像認識部１０１６は、第１セグメントに関する形状特性判定において肯定的な結果を得た場合（ステップＳ８：Ｙｅｓ）、第１セグメントに外接する平行四辺形の内側領域の画像が１文字を示す文字画像であると判断し、その文字画像を示す画像データに識別ラベルを付して文字画像データとして記憶部１０２に記憶する（ステップＳ９）。識別ラベルは、例えば（１，１）のように２つの要素を持つ配列であり、第１の要素は行画像の番号、すなわち行番号を示し、第２の要素は行画像における文字画像の番号、すなわち行頭からの文字番号を示す。なお、以下の説明において、セグメントに外接する平行四辺形の内側領域の画像を「セグメント領域画像」のように呼ぶ。

一方、第２文字画像認識部１０１６は、第１セグメントに関する形状特性判定において否定的な結果を得た場合（ステップＳ８：Ｎｏ）、第１セグメント領域画像は１文字を示す文字画像ではなく、１文字を構成する構成部を示す画像であると仮定し、行画像に含まれるオン画素のうち、第１セグメントより右側に位置しかつ最も左に位置するものを起点画素とし、起点画素に連続するオン画素群を取り出す。以下、このように取り出されたオン画素群を「第２セグメント」と呼ぶ（ステップＳ１０）。

第２文字画像認識部１０１６は、第１セグメントと第２セグメントの両方を含むオン画素群（以下、「連結セグメント」と呼ぶ）に対し、形状特性判定を行う（ステップＳ１１）。第２文字画像認識部１０１６は連結セグメントに関する形状特性判定において肯定的な結果を得た場合（ステップＳ１１：Ｙｅｓ）、連結セグメント領域画像が１文字を示す文字画像であると判断し、その文字画像を示す画像データに識別ラベルを付して文字画像データとして記憶部１０２に記憶する（ステップＳ１２）。

一方、第２文字画像認識部１０１６は、連結セグメントに関する形状特性判定において否定的な結果を得た場合（ステップＳ１１：Ｎｏ）、例えば、第１セグメントと連結セグメントのうち、それらの縦横比が形状特性データ１０２３により示される縦横比により近いものを選択し、選択したセグメントに関するセグメント領域画像を１文字を示す文字画像であると判断し、その文字画像を示す画像データに識別ラベルを付して文字画像データとして記憶部１０２に記憶する（ステップＳ１３）。

第２文字画像認識部１０１６は上記のように行画像の一部を文字画像として切り出すと、切り出した文字画像を行画像から除外した後（ステップＳ１４）、行画像から文字画像を切り出す処理（ステップＳ６〜Ｓ１４）を、全てのオン画素が行画像から除外されるまで繰り返す（ステップＳ１５）。

第２文字画像認識部１０１６は、行画像認識部１０１５により複数の行画像が取り出された場合には、残りの全ての行画像に対し上述した文字画像の切り出し処理（ステップＳ６〜Ｓ１５）を繰り返す（ステップＳ１６）。第２文字画像認識部１０１６により切り出された文字画像を示す文字画像データは順次記憶部１０２に記憶される。図１においてそれらの文字画像データは文字画像データ群１０２４として示されている。

制御部１０１は、文字画像データを文字認識装置１２に送信する画像データ出力部１０１７を備えている。第２文字画像認識部１０１６は、全ての行画像に関し文字画像の切り出し処理を完了すると、画像データ出力部１０１７に画像データの送信を指示する。その指示に応じて、画像データ出力部１０１７は記憶部１０２に記憶されている文字画像データ群１０２４に含まれる文字画像データを、識別ラベルの順序に従って順次、文字認識装置１２に送信する（ステップＳ１７）。

文字認識装置１２は、文字画像切出装置１０から文字画像データを受信すると、受信した文字画像データにより示される画像に対し文字認識処理を行い、その画像により示される文字を示す文字データを生成する。

図６は、文字画像切出装置１０により、行画像から正しく文字画像が切り出される様子を例示した図である。例えば、横長の字を書く癖のある書き手である田中太郎により自由記入欄に「今日明日」という文字が書かれた場合（図６（ａ））、従来技術によれば「明」の字が「日」と「月」として切り出される可能性が高かったが（図６（ａ−１））、文字画像切出装置１０によれば正しく「明」として切り出される可能性が高い（図６（ａ−２））。

同様に、縦長の字を書く癖のある書き手である山田次郎により自由記入欄に「除虫工房」という文字が書かれた場合（図６（ｂ））、従来技術によれば「虫」および「工」の字が「虹」として切り出される可能性が高かったが（図６（ｂ−１））、文字画像切出装置１０によれば正しく「虫」および「工」として切り出される可能性が高い（図６（ｂ−２））。

さらに、傾斜の強い字を書く癖のある書き手である鈴木花子により自由記入欄に「春夏秋冬」という文字が書かれた場合（図６（ｃ））、例えばオン画素の垂直方向の分布によりセグメントの切り出しを行う従来技術によれば文字の切り出しが出来ない可能性が高かったが（図６（ｃ−１））、文字画像切出装置１０によれば正しく各々の文字が切り出される可能性が高い（図６（ｃ−２））。

上記のように、文字画像切出装置１０は升目領域に書かれた文字画像の形状特性に基づき、自由記入欄に書かれた文字画像の切り出しを行うため、切り出された文字画像が正しく１文字を示す画像である可能性が高い。従って、文字画像切出装置１０により生成された文字画像データを用いて行われる文字認識装置１２による文字認識の結果は精度の高いものとなる。

ところで、上記の説明において文字画像切出装置１０は画像認識処理により升目領域および自由記入欄領域を特定するものとして説明したが、予め升目領域および自由記入欄領域を示す領域データを記憶部１０２に記憶しておくようにしてもよい。また、記入用紙が複数種類あるような場合、文字画像切出装置１０に予め複数の領域データを記憶させておき、記入用紙に応じた領域データに従い領域の認識を行わせるようにしてもよい。その場合、例えば記入用紙の所定箇所に記入用紙の識別子を記載しておき、また文字画像切出装置１０の記憶部１０２に識別子と領域データとを対応付けて格納する領域ＤＢ（データベース）を準備しておく。そして、文字画像切出装置１０は画像データ１０２１に含まれる識別子を文字認識処理により認識し、認識した識別子に対応する領域データを領域ＤＢから検索して用いるようにすればよい。

また、上記の説明において文字画像切出装置１０は画像の形状特性として画像に外接する平行四辺形の縦横比および傾斜度を用いるものとしたが、文字画像切出装置１０が文字画像の切り出しの判断基準として用いる形状特性は他に様々なものが考えられる。例えば、画像に外接する矩形の縦横比を形状特性として用いてもよいし、画像に外接する台形の上底と下底の比等を形状特性として用いてもよい。

また、上記の説明において第２文字画像認識部１０１６は起点画素から連続するオン画素群を選択することにより第１セグメントおよび第２セグメントを取り出すものとしたが、第１セグメントおよび第２セグメントを取り出す方法は他に様々なものが考えられる。例えば、行画像に含まれるオン画素の垂直方向の分布を水平方向に走査し、その分布が所定の閾値を超える範囲を第１セグメントもしくは第２セグメントの範囲として特定してもよい。

また、上記の説明において第２文字画像認識部１０１６はまず第１セグメントに関する形状特性判定を行い、その判定で否定的な結果を得ると連結セグメントに関する形状特性判定を行い、その判定で否定的な結果を得ると第１セグメント領域画像もしくは連結セグメント領域画像を文字画像として選択するものとして説明した。しかしながら、第２文字画像認識部１０１６がいずれのセグメント領域画像をどのような判定により文字画像と認識するかは様々に変更可能である。例えば、第１セグメントの横方向の長さが所定の長さを超えている場合には、連結セグメントの形状特性判定を行うことなく第１セグメント領域画像を文字画像として取り出すようにしたり、連結セグメントに関する形状特性判定の結果が否定的である場合であっても連結セグメントの横方向の長さが所定の長さに達していない場合には連結セグメントのさらに右側に位置するセグメントを連結した新たな連結セグメントに関し形状特性判定を行うようにしたりしてもよい。

［２．第２実施形態］
図７は本発明の第２実施形態にかかる文字認識システム２の構成を示したブロック図である。文字認識システム２においては、文字画像の切り出しの精度を高めるために、文字を構成する構成部の配置による種別に応じた形状特性が用いられる。文字認識システム２の構成および動作は多くの点で文字認識システム１のそれらと共通しているため、図７において、文字認識システム１の構成部に対応する構成部には図１において用いられたものと同じ符号が付されている。

文字認識システム２は、文字認識システム１の文字画像切出装置１０の代わりに、文字画像切出装置２０を備えている。文字画像切出装置２０の制御部１０１は、文字画像切出装置１０の制御部１０１が備える全ての構成部に加え、第１文字画像認識部１０１３により認識された文字画像により示される文字を種別ごとに分類する第１分類部２０１１と、第２文字画像認識部１０１６により取り出されたセグメントにより示される文字を種別ごとに分類する第２分類部２０１２を備えている。

図８および図９は、文字画像切出装置２０の制御部１０１により行われる処理を示すフロー図である。文字画像切出装置２０の制御部１０１は、まず文字画像切出装置１０の制御部１０１により行われる場合と同様に、スキャナ１１から画像データを受信し（ステップＳ１）、升目領域および自由記入欄領域を特定し（ステップＳ２）、升目領域の文字画像を取り出し（ステップＳ３）、升目領域に含まれる文字画像の形状特性の特定、すなわち各文字画像の縦横比および傾斜度の平均値の算出を行う（ステップＳ４）。

続いて、制御部１０１は文字画像の各々により示される文字を種別ごとに分類する（ステップＳ２０１）。具体的には、まず第１文字画像認識部１０１３は升目領域から取り出した文字画像を示す文字画像データを第１分類部２０１１に引き渡す。第１分類部２０１１は受け取った文字画像データにより示される文字画像に含まれる任意のオン画素を起点画素とし、起点画素に連続するオン画素群を特定する。第１分類部２０１１はそのように特定したオン画素群を文字の構成部を示す画像（以下、「構成部画像」と呼ぶ）として切り出し、文字画像からそれらのオン画素群を除外する。第１分類部２０１１は文字画像からオン画素がなくなるまで、構成部画像の切り出し処理を繰り返す。

第１分類部２０１１は上記のように構成部画像の切り出し処理を１つの文字画像について完了すると、切り出した構成部画像が文字画像において占める領域に基づき、文字画像により示される文字を複数の種別のいずれかに分類する。図１０は、文字認識システム２による分類に用いられる種別を示した図である。種別番号「１」で識別される種別（以下、種別「１」のように呼ぶ）は、１つの構成部で構成される文字の種別を示している。また、例えば種別「２」は、偏（へん）と旁（つくり）で構成される文字の種別を示している。

第１分類部２０１１は、切り出した構成部画像の各々に外接する矩形もしくは矩形の組合せ（例えばＬ字の多角形）を特定する。以下、そのように特定された図形を「外接図形」と呼ぶ。続いて、第１分類部２０１１は占有領域（図１０の斜線部）を示す図形に対し、文字画像のサイズおよび傾斜度に応じた拡大・縮小および変形を加える。第１分類部２０１１は、外接図形と変形後の占有領域の図形との重複部分の面積を、各々の種別について算出する。第１分類部２０１１はそのように算出した面積が最も広い種別を、文字画像により示される文字の種別と判断する。

ただし、第１分類部２０１１が文字を分類する方法は重複部分の面積に基づくものに限られない。例えば、第１分類部２０１１は文字画像の特徴点を抽出し、各種別の占有領域の斜線部で示される図形の特徴点と比較することにより、文字画像により示される文字がいずれの種別に属するかを判断するようにしてもよい。

第１分類部２０１１は上記のように文字画像をいずれかの種別に分類すると、外接図形を示す画像データと、文字画像が分類された種別を示す種別番号を形状特性特定部１０１４に引き渡す。形状特性特定部１０１４は第１分類部２０１１から画像データおよび種別番号を受け取ると、受け取った画像データにより示される外接図形の形状特性を算出し、その結果を示すデータを第１分類部２０１１から受け取った種別番号とともに一時的に記憶部１０２に記憶する。

ここで、外接図形の形状特性は種別により異なる。例えば、種別「２」の場合、文字全体の縦横比、偏の縦横比および旁の縦横比等が形状特性として用いられる。例えば、繞（にょう）と旁からなる種別「３」の場合、文字全体の縦横比、繞の縦、横および幅の比、旁の縦横比が形状特性として用いられる。

第１分類部２０１１は第１文字画像認識部１０１３により認識された全ての文字画像に関し上記の分類処理を繰り返し、形状特性特定部１０１４は第１分類部２０１１により分類された全ての文字画像に関し上記の形状特性の特定処理を繰り返す。形状特性特定部１０１４は、全ての文字画像に関する形状特性の特定処理を終えると、記憶部１０２に一時的に記憶されている各々の文字画像の外接図形の形状特性を示すデータを、ともに記憶されている種別番号ごとに平均して、その結果を種別形状特性データ２０２１として記憶部１０２に記憶する（ステップＳ２０２）。図１１は、種別形状特性データ２０２１の内容を例示した図である。

上記のように形状特性特定部１０１４により種別形状特性データ２０２１が記憶部１０２に記憶されると、文字画像切出装置２０の制御部１０１は文字画像切出装置１０の制御部１０１により行われる場合と同様に、自由記入欄領域から行画像を切り出し（ステップＳ５）、行画像から第１セグメントを取り出し（ステップＳ６）、第１セグメントの形状特性を特定し（ステップＳ７）、第１セグメントに関する形状特性判定を行う（ステップＳ８）。

第１セグメントに関する形状特性判定において肯定的な結果が得られた場合（ステップＳ８：Ｙｅｓ）、制御部１０１は第１セグメント領域画像を文字画像として切り出す（ステップＳ９）。一方、第１セグメントに関する形状特性判定において否定的な結果が得られた場合（ステップＳ８：Ｎｏ）、制御部１０１は行画像から第２セグメントを取り出し（ステップＳ１０）、連結セグメントに関する形状特性判定を行う。ただし、文字画像切出装置２０の制御部１０１は、文字画像切出装置１０の制御部１０１が行う場合と異なり、連結セグメントに関する形状特性判定において形状特性データ１０２３の代わりに種別形状特性データ２０２１を用いる。

すなわち、第２分類部２０１２は、ステップＳ２０１において第１分類部２０１１が行ったものと同様の分類処理を連結セグメント領域画像に対して行う。第２分類部２０１２により連結セグメント領域画像について特定される種別は、連結セグメント領域画像が１文字を示す画像であると仮定した場合における、その１文字の種別を示している。

第２文字画像認識部１０１６は、連結セグメント領域画像に対し特定された種別に基づき、ステップＳ２０２において形状特性特定部１０１４が行ったものと同様の方法で、連結セグメント領域画像の外接図形の形状特性を示すデータを生成する。続いて第２文字画像認識部１０１６は、種別形状特性データ２０２１から、連結セグメント領域画像に対し特定された種別に対応するデータを取り出し、連結セグメント領域画像の外接図形の形状特性の、種別形状特性データ２０２１から取り出したデータにより示される形状特性に対する比率が、いずれも所定の範囲内（例えば０．８〜１．２）に含まれているか否かを判定する（ステップＳ２０３）。

文字画像切出装置２０の制御部１０１は、その後、文字画像切出装置１０の制御部１０１により行われる場合と同様に、ステップＳ２０３の結果等に応じて連結セグメント領域画像もしくは第１セグメント領域画像を文字画像として切り出す（ステップＳ１２、Ｓ１３）。制御部１０１は上記のように文字画像を切り出すと、切り出した文字画像を行画像から除外し（ステップＳ１４）、行画像の残りのオン画素について文字画像の切り出し処理を繰り返す（ステップＳ１５）。さらに、制御部１０１は全ての行画像について文字画像の切り出し処理を繰り返す（ステップＳ１６）。切り出された文字画像を示す文字画像データは、その後、文字画像切出装置２０から文字認識装置１２に送信され（ステップＳ１７）、文字認識処理に利用される。

上記のように、文字認識システム２によれば、升目領域に書かれた文字全体の形状特性のみでなく、文字の構成部の形状特性が文字画像の切り出しにおいて用いられる。そのため、より高い精度で、正しく１文字を示す画像が切り出される。

［３．第３実施形態］
図１２は本発明の第３実施形態にかかる文字認識システム３の構成を示したブロック図である。文字認識システム３においては、文字画像の切り出しの精度を高めるために、予め記憶された標準的な文字もしくは文字の構成部に関する形状特性と、切り出された画像の形状特性との比較が行われる。その際、標準的な文字等の形状特性には、升目領域に書かれた文字の形状特性に応じた補正が加えられるため、高い精度の文字画像の切り出しが実現される。

文字認識システム３の構成および動作は多くの点で文字認識システム１のそれらと共通しているため、以下、文字認識システム３が文字認識システム１と異なる点のみを説明する。また、図１２において、文字認識システム１の構成部に対応する構成部には図１において用いられたものと同じ符号が付されている。

文字認識システム３は、文字認識システム１の文字画像切出装置１０の代わりに、文字画像切出装置３０を備えている。文字画像切出装置３０の制御部１０１は、文字画像切出装置１０の制御部１０１が備える全ての構成部に加え、第２文字画像認識部１０１６により取り出された第１セグメント領域画像および第２セグメント領域画像に対し文字認識処理を行う文字認識部３０１１を備えている。

また、文字画像切出装置３０の記憶部１０２には、標準的な文字もしくは文字の構成部の形状特性を示す標準形状特性データを、それらの形状および文字における占有領域により分類して格納した標準形状特性ＤＢ３０２１が記憶されている。

図１３は、標準形状特性ＤＢ３０２１の内容を例示した図である。標準形状特性ＤＢ３０２１は、文字もしくは文字の構成部（以下、「文字／構成部」と呼ぶ）の各々に対応する標準形状特性データを複数含んでいる。標準形状特性データは、文字／構成部が文字認識処理において認識される可能性の高い文字を示す「認識文字」、文字／構成部が文字の中で占有する領域を示す「占有領域」、文字／構成部の内容を示す「文字／構成部」、文字／構成部の形状特性を示す「形状特性」の各項目を含んでいる。ただし、以下の説明において「形状特性」は文字／構成部に外接する矩形の縦横比であるものとする。

標準形状特性ＤＢ３０２１において、標準形状特性データはまず「認識文字」により分類され、さらに「占有領域」により分類されている。例えば、図１３において、第１行の標準形状特性データは、１文字の「人」についてのデータであり、その縦横比が「１．０」であることを示している。また、第２行の標準形状特性データは、１文字の「ト」についてのデータであり、その縦横比が「１．３」であることを示している。

第１行および第２行のデータはともに「認識文字」が「人」であることから、「文字／構成部」で示される「人」および「ト」の文字は、ともに文字認識処理において「人」と認識される可能性が高いことを示している。第２行のような標準形状特性データは、「ト」が「人」と誤って認識された場合であっても、正しく文字画像の切り出しを行うために標準形状特性ＤＢ３０２１に含まれている。

図１４および図１５は、文字画像切出装置３０の制御部１０１により行われる処理を示すフロー図である。文字画像切出装置３０の制御部１０１は、まず文字画像切出装置１０の制御部１０１と同様に、ステップＳ１〜Ｓ７の処理を行う。ただし、文字画像切出装置３０において第１セグメントは単に「セグメント」と呼ばれる。

続いて、制御部１０１の文字認識部３０１１は、セグメント領域画像に対し文字認識処理を行い、その結果を示すテキストデータを第２文字画像認識部１０１６に引き渡す（ステップＳ３０１）。第２文字画像認識部１０１６は、標準形状特性ＤＢ３０２１から、「認識文字」のデータが文字認識部３０１１から受け取ったデータと一致する標準形状特性データを抽出する（ステップＳ３０２）。そのように抽出された標準形状特性データは、セグメント領域画像により示される文字もしくは構成部の候補を示すデータである。

続いて、第２文字画像認識部１０１６はステップＳ４において形状特性特定部１０１４により生成され記憶部１０２に記憶されている形状特性データ１０２３に応じて、ステップＳ３０２において抽出した標準形状特性データの「形状特性」欄のデータを補正する。例えば、標準的な文字の縦横比の平均値が１．０であり、形状特性データ１０２３により示される手書き文字の縦横比が１．２である場合、第２文字画像認識部１０１６は「形状特性」欄のデータに１．２（＝１．２／１．０）を乗じることにより、それらの値を補正する（ステップＳ３０３）。

続いて、第２文字画像認識部１０１６はステップＳ３０３において補正した標準的な文字／構成部の形状特性の、ステップＳ７において特定したセグメント領域画像の形状特性に対する比率を算出し、その比率が所定の範囲内（例えば０．８〜１．２）に含まれている文字／構成部を抽出する（ステップＳ３０４）。

ところで、文字画像切出装置３０においては、セグメント領域画像が文字認識部３０１１により文字の構成部として認識されることがあるため、第２文字画像認識部１０１６はステップＳ３０４において抽出した文字／構成部のいずれかを文字画像として選択するために、後続のセグメント領域画像について、同様に候補となる文字／構成部の抽出処理（ステップＳ３０１〜Ｓ３０４）を行う必要がある。従って、第２文字画像認識部１０１６はこの場合、ステップＳ３０４の結果を一時的に記憶部１０２に記憶する。このように、いずれの文字／構成部であるかの判定が保留されるセグメント領域画像を、以下、「未確定セグメント領域画像」と呼ぶ。

第２文字画像認識部１０１６は、ステップＳ３０４の処理に続き、先行する未確定セグメント領域画像の有無を判定する（ステップＳ３０５）。この場合、先行する未確定セグメント領域画像はないので（ステップＳ３０５：Ｎｏ）、第２文字画像認識部１０１６は続いて行画像にオン画素が残っているか否かを判定する（ステップＳ１５）。この場合、通常、第２文字画像認識部１０１６はステップＳ１５の判定において肯定的な結果を得て（ステップＳ１５：Ｙｅｓ）、ステップＳ６の処理に戻る。

第２文字画像認識部１０１６はその後、先に述べたように、後続のセグメント領域画像について候補となる文字／構成部の抽出処理（ステップＳ３０１〜Ｓ３０４）を行う。その後、第２文字画像認識部１０１６は未確定セグメント領域画像の有無を判定するが（ステップＳ３０５）、この場合、第２文字画像認識部１０１６は肯定的な結果を得る（ステップＳ３０５：Ｙｅｓ）。第２文字画像認識部１０１６は、先行する未確定セグメント領域画像についての候補となる文字／構成部と、それに後続するセグメント領域画像についての候補となる文字／構成部の組合せのうち、最適なものを選択する。

具体的には、例えば先行する未確定セグメント領域画像についての候補に文字の左側を占有領域とする構成部が含まれ、後続するセグメント領域画像についての候補に文字の右側を占有領域とする構成部が含まれるような場合、第２文字画像認識部１０１６はそれらのセグメント領域画像を連結した連結セグメント領域画像を文字画像として切り出す。また、例えば後続するセグメント領域画像についての候補に、文字全体および文字の左側を占有領域とする構成部しか含まれていないような場合、第２文字画像認識部１０１６は先行する未確定セグメント領域画像を文字画像として切り出し、後続するセグメント領域画像を未確定セグメント領域画像として記憶部１０２に一時的に記憶する。

なお、複数の可能な組合せが存在する場合には、例えば、第２文字画像認識部１０１６は各々のセグメント領域画像の形状特性の、補正後の標準文字／構成部の形状特性に対する比率の平均値を算出して、その平均値が最も１に近いものを最適な組合せとして選択する。ただし、最適な組合せを選択する方法はこれに限られない。

第２文字画像認識部１０１６は、上記のようにいずれかのセグメント領域画像を文字画像として切り出すと、切り出した文字画像を文字画像データ群１０２４として記憶部１０２に記憶した後（ステップＳ３０６）、行画像から切り出したセグメント領域画像を除外する（ステップＳ１４）。続いて、第２文字画像認識部１０１６は行画像にオン画素が残っているか否かを判定し（ステップＳ３０７）、その判定の結果が肯定的であれば（ステップＳ３０７：Ｙｅｓ）、さらに後続のセグメント領域画像について候補となる文字／構成部の抽出処理および文字画像の書き出し処理（ステップＳ３０１〜Ｓ３０７）を繰り返す。

第２文字画像認識部１０１６は、行画像の末尾に位置するセグメント領域画像について候補となる文字／構成部の抽出処理および文字画像の書き出し処理（ステップＳ３０１〜Ｓ３０６）を行った後（ステップＳ３０７：Ｎｏ）、未確定セグメント領域画像の有無を判定する（ステップＳ３０８）。未確定セグメント領域画像がある場合（ステップＳ３０８：Ｙｅｓ）、それは行末のセグメント領域画像であるため、第２文字画像認識部１０１６はそのセグメント領域画像を文字画像として切り出す（ステップＳ３０９）。

その後、第２文字画像認識部１０１６は後続の行画像に関し、ステップＳ６〜Ｓ３０９の処理を繰り返す（ステップＳ１６）。上記のようにして第２文字画像認識部１０１６により切り出された文字画像を示す文字画像データは、その後、文字画像切出装置３０から文字認識装置１２に送信され（ステップＳ１７）、文字認識処理に利用される。

上記のように、文字認識システム３によれば、升目領域に書かれた文字の形状特性に応じて、標準的な文字および文字の構成部の形状特性に補正が施され、補正の施された形状特性に基づき、行画像から取り出されたセグメント領域画像を文字画像として切り出すべきか、文字の構成部として扱うかの判断が行われる。さらに、類似形状の形状特性も文字画像の切り出しの判断において考慮される。そのため、高い精度で、正しく１文字を示す画像が切り出される。

ところで、上述した文字画像切出装置１０ないし文字画像切出装置３０は、いずれも専用のハードウェアにより実現されてもよいし、汎用的なＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）にアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。

また、上述した実施形態においては、本発明にかかる文字認識システムを文字画像切出装置とそれに接続されたスキャナおよび文字認識装置により実現するものとして説明したが、それらの構成要素の配置は任意に変更可能である。例えば、文字認識装置１２を文字画像切出装置１０と同じ筐体内に配置したり、スキャナの筐体内に文字画像切出装置を設けたり、文字画像切出装置とスキャナおよび文字画像切出装置と文字認識装置をネットワークを介して相互に接続するようにしてもよい。

また、上述した実施形態においては、文字画像切出装置に対し、スキャナから文字列を示す画像データが入力されるものとして説明したが、例えば表示部と一体化されたペンタブレットを備えるタブレットＰＣを文字画像切出装置に接続し、ユーザによるペンタブレットに対する筆記動作に応じて生成される画像データをタブレットＰＣから文字画像切出装置に入力させるようにしてもよい。

また、上述した実施形態においては、升目領域の画像の形状特性と、自由記入欄領域から取り出されたセグメント領域画像の形状特性とが比較され、その比較の結果に基づきセグメント領域画像を文字画像として切り出すか否かが判定されるものとして説明した。しかしながら、例えば升目領域の画像の形状特性に応じた形状のセグメントを自由記入欄領域から取り出し、取り出したセグメントに含まれるオン画素に連続するオン画素をセグメントに取り込む等の方法により、文字画像の切り出しを行うようにしてもよい。

また、上述した実施形態においては、手書き文字は横書きであるものとして説明したが、縦書き等の手書き文字にも本発明にかかる文字認識システムが利用可能であることは言うまでもない。

第１実施形態にかかる文字認識システムの構成を示したブロック図である。本発明の実施形態にかかる文字認識システムにおいて処理される記入用紙を例示した図である。第１実施形態にかかる文字画像切出装置により行われる処理を示したフロー図である。第１実施形態にかかる文字画像切出装置により行われる処理を示したフロー図である。本発明の実施形態にかかる文字画像切出装置により文字画像に外接する平行四辺形が特定される様子を示した図である。第１実施形態にかかる文字画像切出装置により正しく文字画像が切り出される様子を例示した図である。第２実施形態にかかる文字認識システムの構成を示したブロック図である。第２実施形態にかかる文字画像切出装置により行われる処理を示したフロー図である。第２実施形態にかかる文字画像切出装置により行われる処理を示したフロー図である。第２実施形態にかかる文字の種別を示した図である。第２実施形態にかかる種別形状特性データの内容を例示した図である。第３実施形態にかかる文字認識システムの構成を示したブロック図である。第３実施形態にかかる標準形状特性ＤＢの内容を例示した図である。第３実施形態にかかる文字画像切出装置により行われる処理を示したフロー図である。第３実施形態にかかる文字画像切出装置により行われる処理を示したフロー図である。

符号の説明

１・２・３…文字認識システム、１０・２０・３０…文字画像切出装置、１１…スキャナ、１２…文字認識装置、１０１…制御部、１０２…記憶部、１０１１…画像データ入力部、１０１２…領域特定部、１０１３…第１文字画像認識部、１０１４…形状特性特定部、１０１５…行画像認識部、１０１６…第２文字画像認識部、１０１７…画像データ出力部、１０２１…画像データ、１０２２…領域データ、１０２３…形状特性データ、１０２４…文字画像データ群、２０１１…第１分類部、２０１２…第２分類部、２０２１…種別形状特性データ、３０１１…文字認識部、３０２１…標準形状特性ＤＢ

Claims

各々画像を示す第１画像データと第２の画像を示す第２画像データとを取得する画像データ取得手段と、
前記第１画像データにより示される画像のうち所定の領域に配置されている部分を１文字を示す文字画像として認識する第１文字画像認識手段と、
前記第１文字画像認識手段により認識された文字画像の形状特性を特定する形状特性特定手段と、
前記形状特性特定手段により特定された形状特性を用いて、前記第２画像データにより示される画像の一部を１文字を示す文字画像として認識する第２文字画像認識手段と、
前記第２文字画像認識手段により認識された文字画像を示す画像データを出力する出力手段と
を備えることを特徴とする文字画像切出装置。
前記第１文字画像認識手段により認識された文字画像を構成する画素のうち所定の条件を満たす属性を備える画素の配置に基づき、当該文字画像を複数の種別のいずれかに分類する第１分類手段と、
前記第２画像データにより示される画像の一部を１文字を示す文字画像の候補として取り出し、当該文字画像の候補を構成する画素のうち所定の条件を満たす属性を備える画素の配置に基づき、当該文字画像の候補を前記複数の種別のいずれかに分類する第２分類手段と
をさらに備え、
前記第２文字画像認識手段は、前記第２分類手段により取り出された文字画像の候補の形状特性と、前記第２分類手段により当該文字画像の候補が分類された種別と同じ種別に前記第１分類手段により分類された文字画像の形状特性とを比較することにより、当該文字画像の候補を１文字を示す文字画像として認識するか否かを決定する
ことを特徴とする請求項１に記載の文字画像切出装置。
前記形状特性特定手段は、前記第１文字画像認識手段により認識された文字画像の縦横比もしくは当該文字画像を構成する複数の部分の各々の縦横比を前記形状特性として特定する
ことを特徴とする請求項１に記載の文字画像切出装置。
前記形状特性特定手段は、前記第１文字画像認識手段により認識された文字画像の傾斜度もしくは当該文字画像を構成する複数の部分の各々の傾斜度を前記形状特性として特定する
ことを特徴とする請求項１に記載の文字画像切出装置。
標準的な文字の形状特性もしくは標準的な文字の構成部の形状特性を示す標準形状特性データを記憶する記憶手段と、
画像により示される文字を認識する文字認識手段と
を備え、
前記第２文字画像認識手段は、第２画像データにより示される画像の一部を１文字を示す文字画像の候補として取り出し、
前記文字認識手段は、前記第２文字画像認識手段により取り出された文字画像により示されると推定される文字を認識し、
前記第２文字画像認識手段は、前記記憶手段に記憶されている標準形状特性データのうち、前記文字認識手段により認識された文字、前記文字認識手段により認識された文字と類似した形状を有する文字および文字の構成部であって前記文字認識手段により認識された文字と類似した形状を有する構成部の少なくとも１に関する標準形状特性データにより示される形状特性に対し、前記形状特性特定手段により特定された形状特性に応じた補正を加えたものと、前記文字画像の候補の形状特性とを比較することにより、前記文字画像の候補を１文字を示す文字画像として認識するか否かを決定する
ことを特徴とする請求項１に記載の文字画像切出装置。
各々画像を示す第１画像データと第２の画像を示す第２画像データとを取得する画像データ取得過程と、
前記第１画像データにより示される画像のうち所定の領域に配置されている部分を１文字を示す文字画像として認識する第１文字画像認識過程と、
前記第１文字画像認識過程において認識された文字画像の形状特性を特定する形状特性特定過程と、
前記形状特性特定過程において特定された形状特性を用いて、前記第２画像データにより示される画像の一部を１文字を示す文字画像として認識する第２文字画像認識過程と、
前記第２文字画像認識過程において認識された文字画像を示す画像データを出力する出力過程と
を備えることを特徴とする文字画像切出方法。
各々画像を示す第１画像データと第２の画像を示す第２画像データとを取得する処理と、
前記第１画像データにより示される画像のうち所定の領域に配置されている部分を１文字を示す文字画像として認識する処理と、
認識した文字画像の形状特性を特定する処理と、
特定した形状特性を用いて、前記第２画像データにより示される画像の一部を１文字を示す文字画像として認識する処理と、
文字画像として認識した前記第２画像データにより示される画像の一部を示す画像データを出力する処理と
をコンピュータに実行させることを特徴とするプログラム。