JP6754120B2

JP6754120B2 - プログラム、情報記憶媒体及び文字分割装置

Info

Publication number: JP6754120B2
Application number: JP2016197893A
Authority: JP
Inventors: グエン・コング・カー; 正樹中川
Original assignee: アイラボ株式会社
Priority date: 2016-10-06
Filing date: 2016-10-06
Publication date: 2020-09-09
Anticipated expiration: 2036-10-06
Also published as: JP2018060389A

Description

本発明は、プログラム、情報記憶媒体及び文字分割装置に関する。

光学文字認識（ＯＣＲ）には長い研究開発の歴史がある。印刷文字の認識から始まり、手書き文字認識や印刷文書（文字だけでなく図や表も含めてレイアウトされたもの）の認識に発展し、特に郵便番号や住所の認識では大きな成功を収めている。郵便番号認識や住所認識の成功の後、研究開発の対象は、様式、語彙、レイアウトなどで制限がある手書き文書の認識に拡大した。しかし、これらの制限がない場合、手書き文書の認識には大きな困難が伴う。これは、手書き文字の変形だけでなく、文字サイズや文字間隔の揺らぎ、文字同士の接触などに起因する。日本語では、漢字や仮名、アルファベット、数字、ギリシャ文字、句読点などが文字区切りの空白なしに筆記される。漢字は偏や旁からなり、それらが文字となり得る。平仮名は語尾として使われ、漢字よりずっと小さく筆記される。このような、筆記される文字の多様性や変形、揺らぎ、文字同士の接触が、手書き文書を認識する際の文字分割を困難にする。

Srihari, S.N., "Computer Text Recognition and Error Correction.", IEEE Computer Society Press, 352 pages (1984). Mori, S., Suen C.Y. and Yamamoto K. : "Historical review of OCR research and development.", Proceedings of IEEE, Vol. 80, Issue 7, pp. 1029-1058 (1992). Plamondon, R. and Srihari, S.N. : "On-Line and Off-Line Handwriting Recognition: A Comprehensive Survey.", IEEE PAMI, vol. 22, No. 1, pp. 63-84, (2000).

手書き文書の認識では、まず、手書き文書を撮像した文書画像を行ごとに分割して行画像（各行の外接矩形で囲まれた画像）を得る。次に、それぞれの行画像を文字ごとに分割する。文字分割の手法としては、射影により分割する手法、ボロノイ図により分割する手法（ボロノイ分割）などがある。射影による手法では、斜め方向には空間があるが縦方向か横方向に空間がない文字の組み合わせを分割することができない。多少の重なりを許容して分割する場合であっても、閾値の設定が難しい。ボロノイ分割では、射影では重なっていても空間的に分離しているものは分割することができるが、重なっているものを分割することは難しく、また、もともと離れている点や部首などを分割してしまう。すなわち、互いに重なりあう（接触する）文字をどのように分割するかが課題となる。

本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、行画像から精度良く文字を分割することが可能なプログラム、情報記憶媒体及び文字分割装置を提供することにある。

（１）本発明は、手書き文書を撮像して得られた文書画像を行ごとに分割して行画像を取得し、前記行画像を文字ごとに分割するためのプログラムであって、前記行画像について文字列の並び方向に垂直な方向の射影ヒストグラムを生成し、生成した前記射影ヒスト
グラムに基づき前記行画像を分割してセグメント画像を生成する第１分割部と、前記第１分割部で分割されたセグメント画像のうち、前記並び方向の幅が所与の閾値よりも大きなセグメント画像を分割する第２分割部としてコンピュータを機能させ、前記第２分割部は、前記セグメント画像を細線化して細線化画像を生成し、前記セグメント画像の前記射影ヒストグラムにおいて、前記セグメント画像の前記並び方向の幅から推定される文字数分の局所ピークを検出し、前記細線化画像における前記局所ピークの位置に、前記並び方向に垂直な線分を描画し、前記線分が描画された前記細線化画像において、隣接する前記線分間を連結する経路を探索し、探索した経路上に存在する分岐点を削除し、前記分岐点が削除された前記細線化画像を領域分割し、領域分割により得られた境界に基づき前記セグメント画像を分割するプログラムに関する。また、本発明は、コンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるためのプログラムを記憶した情報記憶媒体に関係する。また、本発明は、上記各部を含む文字分割装置に関係する。

本発明によれば、第１分割部が、射影を用いて行画像を大まかに分割（粗分割）し、第２分割部が、第１分割部により分割されたセグメント画像のうち、文字列の並び方向の幅が所与の閾値よりも大きなセグメント画像を更に分割（細分割）する。そして、第２分割部が、推定した文字数分の線分を描画した細線化画像において、隣接する線分間を連結する経路上に存在する分岐点を削除し、分岐点が削除された細線化画像を領域分割し、領域分割により得られた境界に基づきセグメント画像を分割することで、文字間の接触による連結を切断して、精度良く文字を分割することができる。

（２）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第１分割部及び前記第２分割部で分割された前記セグメント画像、及び前記並び方向の幅が所与の幅になるまでの範囲で前記セグメント画像を結合した画像に対して文字認識を行って複数の認識候補列を生成し、各認識候補列の確からしさを示すスコアに基づき複数の認識候補列から１つの認識候補列を選択する認識部として更にコンピュータを機能させて（認識部を更に含んで）もよい。

本発明によれば、過分割された部分を結合して、文字認識の精度を向上することができる。

（３）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第１分割部は、前記行画像を、当該行画像の前記射影ヒストグラムにおいて射影値が０となる位置で分割してセグメント画像を生成し、前記行画像の高さに基づき平均文字幅を推定し、前記文書画像から平均筆画幅を推定し、前記並び方向の幅が前記平均文字幅に基づく閾値よりも大きな前記セグメント画像を、当該セグメント画像の前記射影ヒストグラムにおいて射影値が前記平均筆画幅に基づく値未満となる位置で分割してもよい。

本発明によれば、粗分割の段階において接触した文字同士をある程度分割することができ、細分割段階での処理負担を軽減することができる。

（４）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第２分割部は、前記細線化画像において、隣接する前記線分間を連結する最短経路を探索して経路上に存在する分岐点を削除し、次の最短経路を探索して次の分岐点を削除することを繰り返してもよい。

本発明によれば、文字間の接触による複数の連結を切断して、精度良く文字を分割することができる。

（５）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第２分割部は、前記細線化画像において、隣接する前記線分間を連結する最短経路ごとに複数の分岐点を探索し、最短経路ごとに一つずつの分岐点を組み合わせて、当該分岐点の組み合わせを用いて最短経路を切断した前記細線化画像を領域分割してもよい。

（６）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第２分割部は、前記分岐点が削除された前記細線化画像をボロノイ分割し、ボロノイ分割により得られたボロノイ境界に基づき前記セグメント画像を分割してもよい。

（７）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第２分割部は、前記ボロノイ分割により生成されたボロノイ境界のうち、領域を上部と下部に分断するボロノイ境界を除くボロノイ境界に基づいて、前記セグメント画像を分割してもよい。

本発明によれば、文字を構成する点や部首などを分割してしまうことを抑制して、精度良く文字を分割することができる。

（８）また本発明に係るプログラム、情報記憶媒体及び文字分割装置では、前記第２分割部は、前記ボロノイ分割により生成されたボロノイ境界のうち、第１の閾値Ｔ_１よりも小さい領域と第２の閾値Ｔ_２（Ｔ_２＞Ｔ_１）よりも大きい領域に分断するボロノイ境界を除くボロノイ境界に基づいて、前記セグメント画像を分割してもよい。

本実施形態の文字分割装置の機能ブロック図の一例を示す図である。本実施形態処理の流れを示すフローチャートである。第１分割部による粗分割処理の流れを示すフローチャートである。第１の例に対する粗分割の処理例を示す図である。第２の例に対する粗分割の処理例を示す図である。第２分割部による細分割処理の流れを示すフローチャートである。細線化画像に描画された垂直線分の一例を示す図である。分岐点について説明するための図である。図７に示す細線化画像に対して最短経路の探索及び切断を行った場合の処理例を示す図である。ボロノイ分割での２つの追加処理について説明するための図である。第１の例に対する細分割の処理例を示す図である。第２の例に対する細分割の処理例を示す図である。分割・認識候補ラティスの一例を示す図である。正確な接触位置と、許容できる接触位置について説明するための図である。本実施形態の手法による処理例を示す図である。

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明さ
れる構成の全てが、本発明の必須構成要件であるとは限らない。

１．構成
図１に本実施形態の文字分割装置の機能ブロック図の一例を示す。なお本実施形態の文字分割装置は図１の構成要素（各部）の一部を省略した構成としてもよい。

入力部１６０は、紙等に筆記された文書（複数行からなる文字列）を撮像して白黒の２値画像或いは多値画像として読み取り、読み取った画像を文書画像として処理部１００に出力する。入力部１６０の機能はスキャナーなどにより実現できる。

記憶部１７０は、処理部１００の各部としてコンピュータを機能させるためのプログラムや各種データを記憶するとともに、処理部１００のワーク領域として機能し、その機能はハードディスク、ＲＡＭなどにより実現できる。

表示部１９０は、処理部１００で生成された画像を出力するものであり、その機能は、ＬＣＤ或いはＣＲＴなどのディスプレイにより実現できる。

処理部１００（プロセッサ）は、プログラムなどに基づいて各種処理を行う。この処理部１００は記憶部１７０内の主記憶部をワーク領域として各種処理を行う。処理部１００の機能は各種プロセッサ（ＣＰＵ、ＤＳＰ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムにより実現できる。処理部１００は、行分割部１１０、第１分割部１１２、第２分割部１１４、認識部１１６、表示制御部１２０を含む。

行分割部１１０は、入力部１６０で読み取られた（或いは、通信回線等を介して取得した）文書画像を行ごとに分割して行画像を生成する。

第１分割部１１２は、行画像について文字列の並び方向に垂直な方向（横書き文字を処理対象とする場合は垂直方向、縦書き文字を処理対象とする場合は水平方向）の射影ヒストグラムを生成し、生成した射影ヒストグラムに基づき行画像を分割して、セグメント画像を生成する。

第２分割部１１４は、第１分割部１１２で分割されたセグメント画像のうち、前記並び方向の幅が所与の閾値（平均文字幅に基づく閾値）よりも大きなセグメント画像（過大セグメント画像）を分割する。

認識部１１６は、第１分割部１１２及び第２分割部１１４で分割されたセグメント画像、及び前記並び方向の幅が所与の幅（平均文字幅に基づく値）になるまでの範囲でセグメント画像を結合した画像に対して文字認識を行って複数の認識候補列を生成し、各認識候補列の確からしさを示すスコアに基づき複数の認識候補列から１つの認識候補列を選択する。

表示制御部１２０は、認識部１１６で選択された認識候補列を認識結果として表示部１９０に表示させる制御を行う。

２．本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。

図２は、本実施形態における処理の流れを示すフローチャートである。まず、行分割部１１０は、文書画像を既知の手法により行ごとに分割して行画像ＬＩ（各行の外接矩形で囲まれた画像）を生成する（ステップＳ１０）。ここでは、文書画像が白黒の２値画像で
あることを前提とする。多値画像の場合は、多値画像を２値化して以降の処理を行うか、あるいは、以降の処理の途中で、白（画素値は０）以外の多値画素（画素値は1以上）を黒（画素値１）と変換して扱う。カラー画像の場合は、２値化、あるいは、グレースケールの多値画像に変換してから適用すればよい。

ステップＳ２０では、第１分割部１１２が、行画像ＬＩを射影により粗分割してセグメント画像ＳＩを生成し、ステップＳ３０では、第２分割部１１４が、過大セグメント画像ＳＩ’をボロノイ分割（領域分割の一例）により細分割する。

２−１．粗分割
図３は、第１分割部１１２による粗分割処理の流れを示すフローチャートである。第１分割部１１２は、以降の処理を、文書画像を分割して得られた全ての行画像ＬＩに対して行う。

まず、第１分割部１１２は、各行画像ＬＩから行の高さ（文字列の並び方向に垂直な方向の幅）の平均Ｈ_ｔｌを求め、次式（１）により、平均文字幅ＡｖｅＳｉｚｅを推定する（ステップＳ２１）。日本語文字では、文字幅はＨ_ｔｌに依存する。

ここで、αは係数であり、例えば、α＝３／４とする。

次に、第１分割部１１２は、文書画像から平均筆画幅ＡＷを推定する（ステップＳ２２）。ここでは、ＳＷＴ（ＳｔｒｏｋｅＷｉｄｔｈＴｒａｎｓｆｏｒｍ）アルゴリズムを用いて、文書画像から、画素（ｘ，ｙ）における黒画素（筆画）の幅Ｉ’（ｘ，ｙ）を求める。そして、Ｉ’（ｘ，ｙ）を用いて、次式（２）により、平均筆画幅ＡＷを推定する。

ここで、Ｉ（ｘ，ｙ）は、２値画像の場合、画素（ｘ，ｙ）における画素値（黒画素であれば１、白画素であれば０）であり、Ｗは、文書画像の水平方向の画素数、Ｈは、文書画像の垂直方向の画素数である。多値画像の場合、画素（ｘ，ｙ）における画素値は、白以外ならば１、白画素であれば０とする。

次に、第１分割部１１２は、行画像ＬＩに対してスメアリング処理を適用する（ステップＳ２３）。このとき、行数が列数よりも多い（例えば、１５×１ピクセル）縦長の構造要素を用いる。この処理は、文字パターンを縦方向に膨張し、そのあとで縦方向に収縮する。構造要素の大きさ未満の数の白画素が縦方向に並ぶ部分は黒画素で埋められ、それ以外の部分は膨張後に収縮されるため変わらない。ここでは、処理対象が横書き文字であることを前提とするが、縦書き文字を処理対象とする場合には、文字パターンを横方向に膨張し、その後で横方向に収縮するスメアリング処理を適用する。図４の（ａ）に、行画像ＬＩの第１の例を示し、図４の（ｂ）に、スメアリング処理後の行画像ＬＩ’を示す。

次に、第１分割部１１２は、行画像ＬＩ’の垂直方向への射影をとり、射影ヒストグラム（射影プロファイル）を生成する（ステップＳ２４）。図４の（ｃ）に、行画像ＬＩ’
の射影プロファイルを示す。次に、生成した射影ヒストグラムにおいて射影値Ｐｒｏｊ（ｘ）が０となるｘ軸（水平軸）上の位置で、行画像ＬＩを分割する（ステップＳ２５）。この処理により、水平方向に間隔の空いた文字の組み合わせを分割することができる。なお、多値画像の場合は、射影値Ｐｒｏｊ（ｘ）の計算において、画素（ｘ，ｙ）における画素値が白以外ならば１、白画素であれば０とするのは、先と同じである。

次に、第１分割部１１２は、ステップＳ２５で分割されたセグメント画像ＳＩの中に、その幅が平均文字幅ＡｖｅＳｉｚｅよりも大きいセグメント画像（過大セグメント画像ＳＩ’）がある場合に、射影ヒストグラムにおいて射影値Ｐｒｏｊ（ｘ）が平均筆画幅ＡＷ未満となるｘ軸（水平軸）上の位置で、過大セグメント画像ＳＩ’を更に分割する（ステップＳ２６）。ただし、分割によって非常に小さい（画素数が所定値未満の）黒画素群を作る場合には、分割を行わない。なお、平均筆画幅ＡＷをそのまま閾値とせずに、平均筆画幅ＡＷに所与の係数βを掛けた値（平均筆画幅に基づく値）を閾値としてもよい。

図４の（ｄ）に、分割されたセグメント画像ＳＩを示す。この例では、射影値Ｐｒｏｊ（ｘ）が０となる位置での分割（ステップＳ２５の処理）によって、セグメント画像ＳＩ_４とＳＩ_５が分割されている。セグメント画像（ＳＩ_１＋ＳＩ_２＋ＳＩ_３）は過大セグメントであり、射影値Ｐｒｏｊ（ｘ）が平均筆画幅ＡＷ未満となる位置での分割（ステップＳ２６の処理）によって、セグメント画像ＳＩ_１、ＳＩ_２、ＳＩ_３に分割されている。なお、セグメント画像ＳＩ_３、ＳＩ_５は過大セグメントであるが、これらの過大セグメントを、射影値Ｐｒｏｊ（ｘ）が平均筆画幅ＡＷ未満となる位置（図中点線で示す位置）で更に分割すると、非常に小さい画素群（図中丸で示す部分）を作ってしまうため、それ以上は分割されていない。

図５は、粗分割の他の処理例を示す図である。図５の（ａ）に、行画像ＬＩの第２の例を示し、図５の（ｂ）に、行画像ＬＩ（スメアリング処理後の行画像）の射影プロファイルを示し、図５の（ｃ）に、分割されたセグメント画像ＳＩを示す。図中Ａで示す枠で囲まれた文字は隣り合う文字と接触しており、図中Ｂで示す枠で囲まれた文字は、接触しない部首を含んでいる。この例では、射影値Ｐｒｏｊ（ｘ）が０となる位置がないため、射影値Ｐｒｏｊ（ｘ）が平均筆画幅ＡＷ未満となる位置での分割によって、セグメント画像ＳＩ_１、ＳＩ_２、ＳＩ_３、ＳＩ_４に分割されている。セグメント画像ＳＩ_２は過大セグメント画像であるが、この過大セグメントを、射影値Ｐｒｏｊ（ｘ）が平均筆画幅ＡＷ未満となる位置（図中点線で示す位置）で更に分割すると、非常に小さい画素群（図中丸で示す「身」の一部）を作ってしまうため、それ以上は分割されていない。なお、図５の（ｂ）には、セグメント画像ＳＩ_２の射影ヒストグラムにおける局所ピークＬＰを示している。局所ピークＬＰは、後述する細分割処理で用いられる。

２−２．細分割
図６は、第２分割部１１４による細分割処理の流れを示すフローチャートである。第２分割部１１４は、以降の処理を、全ての行画像ＬＩに含まれる全ての過大セグメント画像ＳＩ’に対して行う。

まず、第２分割部１１４は、既知の細線化アルゴリズムを用いて、過大セグメント画像ＳＩ’を細線化（二値画像を幅１ピクセルの線画像に変換）して細線化画像ＴＩを生成する（ステップＳ３１）。

次に、第２分割部１１４は、過大セグメント画像ＳＩ’の幅（文字列の並び方向の幅）と平均文字幅ＡｖｅＳｉｚｅから、過大セグメント画像ＳＩ’における文字数ＷＣを推定する（ステップＳ３２）。次に、過大セグメント画像ＳＩ’の射影ヒストグラムにおいて推定した文字数ＷＣ分の局所ピークＬＰ（射影値の大きな上位ＷＣ個のピーク）を検出す
る（ステップＳ３３）。図５の（ｃ）に示すセグメント画像ＳＩ_２では、文字数ＷＣが４個と推定されたため、図５の（ｂ）に示す射影プロファイルにおいて４個の局所ピークＬＰが検出されている。次に、細線化画像ＴＩにおける局所ピークＬＰの位置に垂直線分ＶＬを描画する（ステップＳ３４）。なお、縦書き文字を処理対象とする場合には、局所ピークＬＰの位置に水平線分を描画する
図７に、図５の（ｃ）に示すセグメント画像ＳＩ_２を細線化した細線化画像ＴＩと、細線化画像ＴＩに描画された垂直線分ＶＬを示す。この例では、細線化画像ＴＩに対して、４個の局所ピークＬＰの位置（文字の凡そ中心位置）に４本の垂直線分ＶＬ_１、ＶＬ_２、ＶＬ_３、ＶＬ_４が描画されている。

次に、第２分割部１１４は、垂直線分ＶＬが描画された細線化画像ＴＩにおいて、隣接する垂直線分ＶＬ間を連結する最短経路ＳＰ（一方の垂直線分ＶＬの中点から黒画素を辿って他方の垂直線分ＶＬの中点に至る最短の経路）を探索する（ステップＳ３５）。ここでは、最短経路ＳＰの探索にＡ^＊（Ａ−Ｓｔａｒ）アルゴリズムを用いるが、これには限らず、ダイクストラ法等を用いてもよい。次に、第２分割部１１４は、最短経路ＳＰが存在する場合（ステップＳ３６のＹ）には、探索した最短経路ＳＰ上に存在する分岐点ＢＰを特定し、特定した分岐点ＢＰを削除する（ステップＳ３７）。すなわち、最短経路ＳＰ上の分岐点ＢＰを白画素に代えて、当該最短経路ＳＰを切断する。但し、垂直線分ＶＬ上に存在する分岐点については削除しない。垂直線分ＶＬは文字の中心に位置することを想定しているからである。なお、特定した分岐点ＢＰの情報は、以降の処理で用いるため、分岐点情報として記憶部１７０に記憶しておく。ここでは、分岐点ＢＰを、図８に示すように、３つ以上の８連結黒画素をもち、それらが互いに４連結しない黒画素と定義する。なお、図８では、分岐点ＢＰの周囲の８連結黒画素を便宜上網掛けで示している。

最短経路ＳＰ上の分岐点ＢＰを削除すると、ステップＳ３５に移行し、隣接する垂直線分ＶＬ間の最短経路ＳＰがなくなるまで、最短経路ＳＰの探索と切断（分岐点ＢＰの削除）を繰り返す。

図９に、図７に示す細線化画像ＴＩに対して最短経路ＳＰの探索及び切断を行った場合の処理例を示す。図９に示す例では、最短経路ＳＰをグレーで示している。まず、図９の（ａ）に示す第１ラウンドでは、垂直線分ＶＬ_１、ＶＬ_２の間において最短経路ＳＰ_１が見つかり、最短経路ＳＰ_１上の分岐点ＢＰ_１が特定されている。この分岐点ＢＰ_１が削除されることで、最短経路ＳＰ_１が切断される。垂直線分ＶＬ_２、ＶＬ_３の間では、最短経路ＳＰは存在しない。また、垂直線分ＶＬ_３、ＶＬ_４の間において最短経路ＳＰ_２が見つかり、最短経路ＳＰ_２上の２つの分岐点ＢＰ_２１、ＢＰ_２２が特定されている。この２つの分岐点ＢＰ_２１、ＢＰ_２２のいずれかが削除されることで、最短経路ＳＰ_２が切断される。特定された分岐点ＢＰ_１、ＢＰ_２１、ＢＰ_２２の情報は分岐点情報として保持される。図９の（ｂ）に示す例では、最短経路ＳＰ_１上の分岐点ＢＰ_１と最短経路ＳＰ_２上の分岐点ＢＰ_２１が削除されている。図９の（ｂ）に示す第２ラウンドでは、垂直線分ＶＬ_１、ＶＬ_２の間において２つ目の最短経路ＳＰ_３が見つかり、最短経路ＳＰ_３上の３つの分岐点ＢＰ_３１、ＢＰ_３２、ＢＰ_３３が特定されている。この３つの分岐点ＢＰ_３１、ＢＰ_３２、ＢＰ_３３のいずれかが削除されることで、最短経路ＳＰ_３が切断される。また、垂直線分ＶＬ_３、ＶＬ_４の間において２つ目の最短経路ＳＰ_４が見つかり、最短経路ＳＰ_４上の２つの分岐点ＢＰ_４１、ＢＰ_４２が特定されている。この２つの分岐点ＢＰ_４１、ＢＰ_４２のいずれかが削除されることで、最短経路ＳＰ_４が切断される。特定された分岐点ＢＰ_３１、ＢＰ_３２、ＢＰ_３３、ＢＰ_４１、ＢＰ_４２の情報は分岐点情報として保持される。図９の（ｃ）に示す例では、最短経路ＳＰ_３上の分岐点ＢＰ_３２と最短経路ＳＰ_４上の分岐点ＢＰ_４１が削除されている。図９の（ｃ）に示す第３ラウンドでは、いずれかの垂直線分ＶＬ間においても最短経路ＳＰは存在しないため、最短経路ＳＰの探索を終了する。

最短経路ＳＰの探索を終了すると、第２分割部１１４は、分岐点ＢＰが削除された（且つ、垂直線分ＶＬが描画されていない）細線化画像ＴＩをボロノイ分割する（ステップＳ３８）。ボロノイ分割は、接触していない（４連結していない）部分間の自然な境界で領域を分割する。ボロノイ分割により生成される境界をボロノイ境界と呼ぶ。

ここで、ボロノイ分割を行う際には、１つの最短経路ＳＰ上の複数の分岐点ＢＰを同時に用いずに、記憶部１７０に記憶された分岐点情報を参照して、１つの最短経路ＳＰ上の複数の分岐点ＢＰを排他的に用いて、当該最短経路ＳＰを切断する。例えば、１対の垂直線分ＶＬ間で、１番目の最短経路にｎ個の分岐点（ｆ_１１，ｆ_１２，．．．ｆ_１ｎ）が特定され、２番目の最短経路にｍ個の分岐点（ｆ_２１，ｆ_２２，．．．ｆ_２ｍ）が特定され、３番目の最短経路にｐ個の分岐点（ｆ_３１，ｆ_３２，．．．ｆ_３ｐ）が特定された場合、１番目の最短経路上の全ての分岐点は、２番目の最短経路上の全ての分岐点のいずれか、及び、３番目の最短経路上の全ての分岐点のいずれかと組み合わされる。すなわち、全ての組み合わせ（ｆ_１１，ｆ_２１，ｆ_３１），（ｆ_１２，ｆ_２１，ｆ_３１），（ｆ_１３，ｆ_２１，ｆ_３１），．．．を考え、それらの組み合わせを用いて最短経路を切断した細線化画像の全てをボロノイ分割する。図９に示す例では、垂直線分ＶＬ_１、ＶＬ_２間では、分岐点ＢＰ_１、ＢＰ_３１を削除したパターンと、分岐点ＢＰ_１、ＢＰ_３２を削除したパターンと、分岐点ＢＰ_１、ＢＰ_３３を削除したパターンが考えられ、垂直線分ＶＬ_３、ＶＬ_４間では、分岐点ＢＰ_２１、ＢＰ_４１を削除したパターンと、分岐点ＢＰ_２１、ＢＰ_４２を削除したパターンと、分岐点ＢＰ_２２、ＢＰ_４１を削除したパターンと、分岐点ＢＰ_２２、ＢＰ_４２を削除したパターンが考えられる。

ステップＳ３８のボロノイ分割では、２つの処理を追加して行っている。１つ目の処理は、領域を上部と下部に分断するボロノイ境界を削除する処理である。例えば、図１０の（ａ）に示す例において、領域Ｓ_１と領域Ｓ_２とを分断するボロノイ境界ＢＢを削除する。２つ目の処理は、領域を相対的に非常に小さい部分と非常に大きい部分に分断するボロノイ境界を削除する処理である。例えば、図１０の（ｂ）に示す例において、領域Ｓ_３と領域Ｓ_４とを分断するボロノイ境界ＢＢと、領域Ｓ_５と領域Ｓ_６とを分断するボロノイ境界ＢＢを削除する。相対的に非常に小さい部分と非常に大きい部分に分断するボロノイ境界とは、例えば、第１の閾値Ｔ_１よりも小さい領域と第２の閾値Ｔ_２（Ｔ_２＞Ｔ_１）よりも大きい領域に分断するボロノイ境界である。これらの追加処理により、文字を構成する点や部首などを分割してしまうことを抑制することができる。

次に、第２分割部１１４は、ステップＳ３８で生成されたボロノイ境界（追加処理により削除したボロノイ境界を除く）に基づいて、過大セグメント画像ＳＩ’（ボロノイ分割した細線化画像に対応する過大セグメント画像ＳＩ’）を分割する（ステップＳ３９）。なお、削除する分岐点ＢＰの組み合わせ毎に細線化画像ＴＩをボロノイ分割して得られた当該組み合わせ毎のボロノイ境界を用いて、過大セグメント画像ＳＩ’を分割する。

図１１に、第１の例の行画像ＬＩにおける過大セグメント画像ＳＩ’に対して細分割を行った場合の処理例を示す。図１１の（ａ）に示すように、過大セグメント画像ＳＩ’は、その細線化画像ＴＩにおいてボロノイ分割され、図１１の（ｂ）に示すように、その分割は元画像である行画像ＬＩに反映される。図４の（ｄ）における過大セグメント画像ＳＩ_３は、図１１の（ｂ）に示すように、細分割処理により３つのセグメント画像ＳＩ_３、ＳＩ_４、ＳＩ_５に分割され、図４の（ｄ）における過大セグメント画像ＳＩ_５は、図１１の（ｂ）に示すように、細分割処理により３つのセグメント画像ＳＩ_７、ＳＩ_８、ＳＩ_９に分割されている。なお、セグメント画像ＳＩ_１、ＳＩ_２、ＳＩ_６は、粗分割処理により分割されたセグメント画像ＳＩである。ここでは、セグメント画像（ＳＩ_２、ＳＩ_３）、（ＳＩ_５、ＳＩ_６）、（ＳＩ_８、ＳＩ_９）のように、１つの文字を過分割してしまってい
る。

図１２に、第２の例の行画像ＬＩにおける過大セグメント画像ＳＩ’に対して細分割を行った場合の処理例を示す。図５の（ｃ）における過大セグメント画像ＳＩ_２は、図１２に示すように、細分割処理により４つのセグメント画像ＳＩ_２、ＳＩ_３、ＳＩ_４、ＳＩ_５に分割されている。なお、セグメント画像ＳＩ_１、ＳＩ_６、ＳＩ_７は、粗分割処理により分割されたセグメント画像ＳＩである。図１２の（ａ）に示す分割候補列では、１文字ごとに正しく分割されている。これは、図１２の（ａ）に示す分割候補列が、図９における垂直線分ＶＬ_１、ＶＬ_２間の分岐点ＢＰ_１、ＢＰ_３２及び垂直線分ＶＬ_３、ＶＬ_４間の分岐点ＢＰ_２１、ＢＰ_４１が削除された細線化画像ＴＩをボロノイ分割することで得られた分割候補列であることによる。一方、図１２の（ｂ）に示す分割候補列では、セグメント画像（ＳＩ_２、ＳＩ_３）、（ＳＩ_４、ＳＩ_５）のように、１文字ごとに正しく分割されておらず誤った分割が行われている。これは、図１２の（ｂ）に示す分割候補列が、図９における垂直線分ＶＬ_１、ＶＬ_２間の分岐点ＢＰ_１、ＢＰ_３１、及び垂直線分ＶＬ_３、ＶＬ_４間の分岐点ＢＰ_２２、ＢＰ_４２が削除された細線化画像ＴＩをボロノイ分割することで得られた分割候補列であることによる。このような誤った分割候補は、後述する文字列認識のための最適経路探索で採用されない。

なお、高速化のために、全ての分割の可能性に対して文字列認識を行うのではなく、１つ１つの分割の可能性に対して、その両隣のセグメント画像ＳＩから幾何学特徴を抽出し、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）によって、より確度の高い分割に対して文字列認識を行うこともできる。この場合、ＳＶＭには、事前に正しい分割と正しくない分割を学習させておく。

２−３．文字列認識
図２のステップＳ４０では、認識部１１６は、行画像ＬＩ（及び過大セグメント画像ＳＩ’）を粗分割して得られたセグメント画像ＳＩと、過大セグメント画像ＳＩ’を細分割して得られたセグメント画像ＳＩ（削除する分岐点ＢＰの組み合わせ毎に分割して得られたセグメント画像を含む）、及び、セグメント画像ＳＩを所与の制限幅になるまでの範囲で結合した画像に対して文字認識を行って、複数の認識候補列を生成する。制限幅は、例えば、平均文字幅ＡｖｅＳｉｚｅに、予め学習した１以上の係数を掛けた値とする。そして、認識部１１６は、複数の認識候補列について複数項目の確からしさを評価し、評価結果に基づき文字列を認識する。行画像ＬＩがｎ個のセグメント画像（ＳＩ_１、ＳＩ_２，．．．ＳＩ_ｎ）に分割されたとすると、それぞれのセグメント画像と、制限幅になるまでの範囲で結合したセグメント画像とを文字認識すると、ある認識候補列Ｃは、Ｃ＝ｃ_１、ｃ_２，．．．ｃ_ｍ（ｍ≦ｎ）で表される。

より詳細には、全ての分割候補（セグメント画像、セグメント画像を結合した画像）と、全ての分割候補のそれぞれを文字認識したときの認識候補と、複数項目の確からしさを示すスコアとを、分割・認識候補ラティスで表現する。分割・認識候補ラティスの一例を図１３に示す。図１３に示す分割・認識候補ラティスは、図１１の（ｂ）に示す例に対応している。すなわち、分割・認識候補ラティスにおけるノードＮＤ_１は、セグメント画像ＳＩ_１及びＳＩ_１の認識候補に対応し、ノードＮＤ_２は、セグメント画像ＳＩ_２及びＳＩ_２の認識候補に対応し、ノードＮＤ_３は、セグメント画像ＳＩ_３及びＳＩ_３の認識候補に対応し、ノードＮＤ_４は、セグメント画像ＳＩ_２とセグメント画像ＳＩ_３を結合した画像及び当該画像の認識候補に対応し、ノードＮＤ_５は、セグメント画像ＳＩ_８及びＳＩ_８の認識候補に対応し、ノードＮＤ_６はセグメント画像ＳＩ_９及びＳＩ_９の認識候補に対応し、ノードＮＤ_７は、セグメント画像ＳＩ_８とセグメント画像ＳＩ_９を結合した画像及び当該画像の認識候補に対応している。

複数項目の確からしさとしては、文字認識の確からしさｆ_ｏｃｒ（文字認識のスコア）、単独文字の幾何特徴（文字のサイズ、部首などの間隔、文字の位置）の確からしさｆ_ｓｇｆ、２文字間の幾何特徴（２文字間の位置）ｆ_ｂｇｆ、言語文脈の確からしさｆ_ｌｃ（バイグラム確率又はトリグラム確率）を求める。なお、文字のサイズに依存する特徴については、平均文字幅ＡｖｅＳｉｚｅで正規化する。

認識部１１６は、分割・認識候補ラティスにおける全ての経路について、認識候補列Ｃに認識される条件付き確率ｆ（Ｃ）を次式（３）により求め、Ｖｉｔｅｒｂｉアルゴリズムを用いて、最適な経路（最適な分割と文字列認識結果）を選択する。

ここで、λ_１、λ_２、λ_３、λ_４は、重みパラメータであり、遺伝的アルゴリズムを用いて学習されたものである。

３．評価実験
本実施形態の手法を評価する実験を行った。まず、手書き日本語文書パターンを収集するために、２５人（うち、２人が左利き、１人が女性）の日本人に青空文庫の文章を筆記してもらった。得られた４５ページ（４２６行、１１，５５０文字）の手書き文書をスキャナーで読み込み、文字同士が接触している箇所ごとに、接触した文字のコード、正確な接触位置、許容できる接触位置の情報を付加した。図１４に、正確な接触位置をグレーで示し、許容できる接触位置を白抜き線で示す。図１４に示すように、許容できる接触位置は、この範囲で分割が行われれば両側の文字を問題なく認識できる領域を示している。この結果、合計で１，８７１個の接触ペア（接触した一対の文字）を収集した。このうち、１，５５２個の接触ペアは１箇所で接触しており、３１９個の接触ペアは２箇所以上で接触している。この標本パターンの集合を「ＯｆｆＴｏｕｃｈＤＢ」と呼ぶ。

ＯｆｆＴｏｕｃｈＤＢを用いて文字分割の分割率と文字認識の認識率を評価した。文字分割が、正確な接触位置、或いは、許容できる接触位置の範囲で行われた場合に、正しく分割されたとする。分割率は、本来分割されるべき総数に対する正しく分割された箇所の比率を示し、認識率は、接触ペアの総数に対する正しく認識された数の比率を示す。

言語文脈（トリグラム）の評価には、新聞データを利用した。単独文字の幾何特徴の学習、２文字間の幾何特徴の学習、及び重みパラメータλ_１、λ_２、λ_３、λ_４の学習には、データベースを用いた。その結果、重みパラメータの値は、λ_１＝０．９６１６、λ_２＝−１４．２３３、λ_３＝−９．１７９、λ_４＝−６．４１５となった。

分割方法として、ＳＷＴを用いない粗分割（射影値が０となる位置での分割）を行う手法、ＳＷＴを用いた粗分割（射影値が０となる位置及び射影値が平均筆画幅未満となる位置での分割）を行う手法、ＳＷＴを用いた粗分割と細分割（ボロノイ分割での２つの追加処理なし）を行う手法、ＳＷＴを用いた粗分割と細分割（ボロノイ分割での２つの追加処理あり）を行う手法の４種類の手法を評価した。

表１に、各分割方法での分割率と認識率の結果を示す。

本実施形態の手法（ＳＷＴを用いた粗分割と、ボロノイ分割での２つの追加処理を含む細分割とを行う手法）での分割率は、１箇所の接触ペアに対して８５．６３％、２箇所以上の接触ペアに対して８０．８８％となり、認識率は、１箇所の接触ペアに対して７６．５１％、２箇所以上の接触ペアに対して６８．１８％となった。

ＳＷＴを用いない粗分割を行う手法では、１箇所の接触ペアについても２箇所以上の接触ペアについても正しく分割できなかった。ＳＷＴを用いることで、１箇所の接触ペアについての分割率は格段に向上したが、２箇所以上の接触ペアについては殆ど効果がなかった。

細分割（追加処理なし）は、１箇所及び２箇所以上の接触ペアの両方に有効であった。しかし、２箇所以上の接触ペアについての認識率については効果が低かった。ボロノイ分割における２つの追加処理は、２箇所以上の接触ペアについての分割率を若干低下させるものの、認識率を大幅に向上させた。このように、２文字間の連結経路の切断とボロノイ分割を用いた細分割処理を行うことの有効性と、ボロノイ分割における２つの追加処理の有効性が確認された。

図１５に、本実施形態の手法による処理例を示す。図１５の（ｂ）は、図１５の（ａ）の行画像ＬＩに対して粗分割処理と細分割処理を行った分割例である。図１５に示す行画像ＬＩは、１箇所及び２箇所以上の接触を多く含んでいるが、本実施形態の手法は、これらの良く分割している。例えば、図１５の（ｂ）に示す（２）と（３）の境界部分は複雑に接触しているが、細分割（ボロノイ境界）によって適切に分割されている。

なお、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

１００処理部、１１０行分割部、１１２第１分割部、１１４第２分割部、１１６
認識部、１２０表示制御部、１６０入力部、１７０記憶部、１９０表示部

Claims

手書き文書を撮像して得られた文書画像を行ごとに分割して行画像を取得し、前記行画像を文字ごとに分割するためのプログラムであって、
前記行画像について文字列の並び方向に垂直な方向の射影ヒストグラムを生成し、生成した前記射影ヒストグラムに基づき前記行画像を分割してセグメント画像を生成する第１分割部と、
前記第１分割部で分割して得られたセグメント画像のうち、前記並び方向の幅が所与の閾値よりも大きなセグメント画像である過大セグメント画像を分割してセグメント画像を生成する第２分割部としてコンピュータを機能させ、
前記第２分割部は、
前記過大セグメント画像を細線化して細線化画像を生成し、
前記過大セグメント画像の前記射影ヒストグラムにおいて、前記過大セグメント画像の前記並び方向の幅から推定される文字数分の局所ピークを検出し、前記細線化画像における前記局所ピークの位置に、前記並び方向に垂直な線分を描画し、
前記線分が描画された前記細線化画像において、隣接する前記線分間を連結する経路を探索し、探索した経路上に存在する分岐点を削除し、
前記分岐点が削除された前記細線化画像を領域分割し、領域分割により得られた境界に基づき前記過大セグメント画像を分割することを特徴とするプログラム。
請求項１において、
前記第１分割部で分割して得られた前記セグメント画像、前記第２分割部で分割して得られた前記セグメント画像、及び前記並び方向の幅が所与の幅になるまでの範囲で前記セグメント画像を結合した画像に対して文字認識を行って複数の認識候補列を生成し、各認識候補列の確からしさを示すスコアに基づき複数の認識候補列から１つの認識候補列を選択する認識部として更にコンピュータを機能させることを特徴とするプログラム。
請求項１又は２において、
前記第１分割部は、
前記行画像を、当該行画像の前記射影ヒストグラムにおいて射影値が０となる位置で分
割してセグメント画像を生成し、前記行画像の高さに基づき平均文字幅を推定し、前記文書画像から平均筆画幅を推定し、前記並び方向の幅が前記平均文字幅に基づく閾値よりも大きな前記セグメント画像である過大セグメント画像を、当該過大セグメント画像の前記射影ヒストグラムにおいて射影値が前記平均筆画幅に基づく値未満となる位置で分割することを特徴とするプログラム。
請求項１乃至３のいずれか１項において、
前記第２分割部は、
前記細線化画像において、隣接する前記線分間を連結する最短経路を探索して経路上に存在する分岐点を削除し、次の最短経路を探索して次の分岐点を削除することを繰り返すことを特徴とするプログラム。
請求項４において、
前記第２分割部は、
前記細線化画像において、隣接する前記線分間を連結する最短経路ごとに複数の分岐点を探索し、最短経路ごとに一つずつの分岐点を組み合わせて、当該分岐点の組み合わせを用いて最短経路を切断した前記細線化画像を領域分割することを特徴とするプログラム。
請求項１乃至５のいずれか１項において、
前記第２分割部は、
前記分岐点が削除された前記細線化画像をボロノイ分割し、ボロノイ分割により得られたボロノイ境界に基づき前記過大セグメント画像を分割することを特徴とするプログラム。
請求項６において、
前記第２分割部は、
前記ボロノイ分割により生成されたボロノイ境界のうち、領域を上部と下部に分断するボロノイ境界を除くボロノイ境界に基づいて、前記過大セグメント画像を分割することを特徴とするプログラム。
請求項６又は７において、
前記第２分割部は、
前記ボロノイ分割により生成されたボロノイ境界のうち、第１の閾値Ｔ_１よりも小さい領域と第２の閾値Ｔ_２（Ｔ_２＞Ｔ_１）よりも大きい領域に分断するボロノイ境界を除くボロノイ境界に基づいて、前記過大セグメント画像を分割することを特徴とするプログラム。
コンピュータ読み取り可能な情報記憶媒体であって、請求項１乃至８のいずれか１項のプログラムを記憶したことを特徴とする情報記憶媒体。
手書き文書を撮像して得られた文書画像を行ごとに分割して行画像を取得し、前記行画像を文字ごとに分割する文字分割装置であって、
前記行画像について文字列の並び方向に垂直な方向の射影ヒストグラムを生成し、生成した前記射影ヒストグラムに基づき前記行画像を分割してセグメント画像を生成する第１分割部と、
前記第１分割部で分割して得られたセグメント画像のうち、前記並び方向の幅が所与の閾値よりも大きなセグメント画像である過大セグメント画像を分割してセグメント画像を生成する第２分割部とを含み、
前記第２分割部は、
前記過大セグメント画像を細線化して細線化画像を生成し、
前記過大セグメント画像の前記射影ヒストグラムにおいて、前記過大セグメント画像の前記並び方向の幅から推定される文字数分の局所ピークを検出し、前記細線化画像における前記局所ピークの位置に、前記並び方向に垂直な線分を描画し、
前記線分が描画された前記細線化画像において、隣接する前記線分間を連結する経路を探索し、探索した経路上に存在する分岐点を削除し、
前記分岐点が削除された前記細線化画像を領域分割し、領域分割により得られた境界に基づき前記過大セグメント画像を分割することを特徴とする文字分割装置。