JP5672003B2

JP5672003B2 - 文字認識処理装置及びプログラム

Info

Publication number: JP5672003B2
Application number: JP2010293539A
Authority: JP
Inventors: 武部　浩明; 浩明武部; 田中　宏; 宏田中; 勇作藤井; 堀田　悦伸; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-28
Filing date: 2010-12-28
Publication date: 2015-02-18
Anticipated expiration: 2030-12-28
Also published as: JP2012141750A

Description

本技術は、文字認識技術に関する。

日本語の文字列には、漢字、ひらがな、カタカナ、英字、数字、記号等様々な文字種の文字が混在しているが、日本語の文字列の画像に対して文字認識を行うと、特に英字や数字の部分で誤認識を起こしてしまうことが多い。例えば、図１の例に示したように、本来は英字であると認識されるべき部分が、漢字等の他の文字に誤認識されてしまうことがある。図１の例では、「当社はImageScannerを」という画像を文字認識したにも関わらず、「当社はIm唱次活nnerを」という誤った認識結果が得られている。このような誤認識が発生するのは、英字や数字の部分で文字間隔が変化するために文字の切り出しに失敗することや、そもそも英字には類似する文字が多いこと等による。

このような問題に対し、以下のような従来技術が存在する。具体的には、日本語の認識に適した第１の文字認識手段で文書画像に対して認識処理を行う一方、アルファベット等であると推定される領域を再認識範囲として抽出し、再認識範囲に対しては英語の認識に適した第２の文字認識手段による再認識を実行する。ここで、再認識範囲となる領域は、第１の文字認識手段によりアルファベット等であると判定された部分の前方及び後方に位置する文字が、アルファベット等であるか、又は認識結果の類似度が所定の閾値より小さい場合に抽出される。しかし、この方法では、たまたまアルファベット等に隣接していて且つ類似度が低い文字が有れば、その文字を誤って再認識領域に統合してしまうことになる。また、文書画像の品質が悪く、全体的に類似度が低ければ、誤って再認識領域に統合してしまう可能性が高くなる。

また、以下のような従来技術も存在する。具体的には、郵便宛名における町域名や丁目番地の認識を行った際、認識結果ラティスをパターン辞書と照合し、パターン辞書に登録されているものが正しい認識結果であると決定する。しかしながら、この技術は、パターン辞書を予め用意しておかなければならず、郵便宛名以外の一般的な日本語の文字列に対してこの技術を適用することは困難である。また、認証結果ラティスにおける文字に切り出し領域が固定されているため、認識精度に問題がある。

このように、従来技術は、日本語の文字列の画像において英数字である領域と他の領域とを適切に切り分けることができず、日本語の文字列の画像に対する文字認識の精度が低いという問題があった。

特許第３９１９６１７号公報特開２０００-１４８９０６号公報

従って、本技術の目的は、一側面においては、日本語の文字列の画像における英数字の領域を特定する精度を向上させるための技術を提供することである。

本実施の形態に係る文字認識処理装置は、（Ａ）英数字を含む日本語の文字列の画像データに対して第１の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が第１の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第１データ格納部と、（Ｂ）第１データ格納部に格納されているデータを用いて、連続する文字領域を含み且つ当該連続する文字領域の各々の認識候補が英数字である第１の領域であって、当該連続する文字領域の少なくとも一部の文字領域の認識候補にフラグが設定されている第１の領域を特定する探索部と、（Ｃ）特定された第１の領域の位置情報を算出し、第２データ格納部に格納する算出部とを有する。

日本語の文字列の画像における英数字の領域を特定する精度を向上させることができるようになる。

図１は、誤認識の一例を示す図である。図２は、本実施の形態に係る文字認識処理装置の機能ブロック図である。図３は、本実施の形態におけるメインの処理フローを示す図である。図４は、画像データ格納部に格納されているデータの一例を示す図である。図５は、全体認識処理部による文字認識処理により得られた認識結果ラティスの一例を示す図である。図６は、全体認識処理部による文字認識処理の結果を示す図である。図７は、全体認識結果格納部に格納されているデータの一例を示す図である。図８は、領域抽出処理の処理フローを示す図である。図９は、セグメントの始点及び終点の定義の仕方について説明するための図である。図１０は、セグメント番号の割り当てについて説明するための図である。図１１は、セグメントデータ格納部に格納されているデータの一例を示す図である。図１２は、座標データ格納部に格納されているデータの一例を示す図である。図１３は、ＳＯの状態とアクセプタブルなＳＧの種類及び新たに生成されるＳＯの状態との関係を説明するための図である。図１４は、ＳＯの状態遷移図である。図１５は、領域候補抽出処理の処理フローを示す図である。図１６は、抽出結果格納部に格納されているデータの一例を示す図である。図１７は、セグメント番号の割り当て及びセグメントの種類について説明するための図である。図１８は、再認識処理部による文字認識処理により得られた認識結果ラティスの一例を示す図である。図１９は、決定部が実行する処理について説明するための図である。図２０は、コンピュータの機能ブロック図である。

本実施の形態に係る文字認識処理装置１の機能ブロック図を図２に示す。文字認識処理装置１は、画像データ格納部１１と、全体認識処理部１２と、全体認識結果格納部１３と、領域抽出部１４と、再認識処理部１５と、再認識結果格納部１６と、決定部１７と、出力データ格納部１８と、出力部１９とを含む。また、領域抽出部１４は、セグメント定義部１４１と、セグメントデータ格納部１４２と、座標データ格納部１４３と、ステートオブジェクト管理部１４４１及び１又は複数のステートオブジェクト１４４２を含む領域探索部１４４とを含む探索部１４０と、フィルタリング処理部１４５と、抽出結果格納部１４６とを含む。

全体認識処理部１２は、画像データ格納部１１に格納部されている画像データに対して、日本語の文字認識のための文字認識処理を行い、認識結果ラティスのデータを含む認識結果を全体認識結果格納部１３に格納する。セグメント定義部１４１は、全体認識結果格納部１３に格納されているデータに対して処理を行い、処理結果をセグメントデータ格納部１４２及び座標データ格納部１４３に格納する。ステートオブジェクト管理部１４４１及びステートオブジェクト１４４２は、セグメントデータ格納部１４２に格納されているデータを用いて英数字である領域を特定する処理を行う。フィルタリング処理部１４５は、ステートオブジェクト管理部１４４１から受け取ったデータ及び座標データ格納部１４３に格納されているデータを用いて英数字である領域の座標を算出する処理等を行い、処理結果を抽出結果格納部１４６に格納する。再認識処理部１５は、抽出結果格納部１４６及び画像データ格納部１１に格納されているデータを用いて、英数字の文字認識のための文字認識処理を行い、処理結果を再認識結果格納部１６に格納する。決定部１７は、全体認識結果格納部１３及び再認識結果格納部１６に格納されているデータを用いて出力データを生成し、出力データ格納部１８に格納する。出力部１９は、出力データ格納部１８に格納されているデータを表示装置等に表示する処理を行う。

図４に、画像データ格納部１１に格納されているデータの一例を示す。図４の例では、「当社はImageScannerを」という日本語の文字列を含む画像データが格納されている。

次に、本実施の形態に係る文字認識処理装置１の処理内容について、図３乃至図２１を用いて説明する。

まず、全体認識処理部１２は、画像データ格納部１１に格納されている画像データに対して、日本語の文字認識に適した文字認識処理を実行し、認識結果ラティスのデータを含む文字認識結果を全体認識結果格納部１３に格納する（図３：ステップＳ１）。なお、ステップＳ１において行われる文字認識処理はよく知られた処理であるので、ここでは詳細な説明を省略する。

図５に、ステップＳ１における文字認識処理により得られる認識結果ラティスの一例を示す。認識結果ラティスは、文字認識処理の過程で生成されるデータであり、文字の切り出し領域のデータと、当該切り出し領域に含まれると推定された認識候補と、当該認識候補の確からしさを表す認識信頼度のデータとを含む。なお、各切り出し領域には複数の認識候補が得られることがあるが、図５の例では最も認識信頼度が高い認識候補しか図示していない。

なお、ステップＳ１においては、文字認識の対象範囲全体を覆うことができ且つ切り出し領域同士が重なることがないような認識候補の組み合わせであって、認識信頼度の総和が最も高い組み合わせを、例えばＤＰ（Dynamic Programming）により特定する。

そして、ステップＳ１における文字認識処理の結果、図６に示すように「当社はIm唱次活nnerを」という誤った認識結果が得られたとする。図６の例では、ステップＳ１の処理により特定された組み合わせに含まれる認識候補に対しては、網掛けが付されている。

図７に、全体認識結果格納部１３に格納されているデータの一例を示す。図７の例では、認識候補と、認識信頼度と、当該認識候補が占める切り出し領域の左上頂点の座標と、当該認識候補が占める切り出し領域の右下頂点の座標と、当該認識候補がステップＳ１における文字認識処理において最も確からしいと判定された認識候補の組み合わせ（図６において網掛けが付されている組み合わせ）に含まれるか否かを表す結果フラグとが格納されている。なお、座標とは、画像データ上における座標である。

図３の説明に戻り、領域抽出部１４は、全体認識結果格納部１３に格納されているデータを用いて領域抽出処理を実施する（ステップＳ３）。領域抽出処理については、図８乃至図１２を用いて説明する。

まず、セグメント定義部１４１は、全体認識結果格納部１３に格納されているデータを用いてセグメントデータを生成し、セグメントデータ格納部１４２に格納する（図８：ステップＳ１１）。

ここで、ステップＳ１１において行われる処理について説明する。本実施の形態においては、各認識候補に対応してセグメント（以下、ＳＧと略す場合がある）を１つ定義する。ＳＧは、種類、始点及び終点の３つの属性を有する。種類は、「Ｅ」、「ｅ」、「Ｊ」及び「対象外」のいずれかが割り当てられる。具体的には、認識候補が英字、数字又は英語記号であり且つ当該認識候補に結果フラグが設定されている場合には「Ｅ」を割り当て、認識候補が英字、数字又は英語記号であり且つ当該認識候補に結果フラグが設定されていない場合には「ｅ」を割り当て、認識候補が漢字、ひらがな、カタカナ又は日本語記号であり且つ当該認識候補に結果フラグが設定されている場合には「Ｊ」を割り当て、認識候補が漢字、ひらがな、カタカナ又は日本語記号であり且つ当該認識候補に結果フラグが設定されていない場合には「対象外」を割り当てる。

ＳＧの始点及び終点は、切り出し領域の左上頂点のｘ座標及び右下頂点のｘ座標に応じて定められる。具体的には、図９に示すように、切り出し領域の左上頂点のｘ座標と右下頂点のｘ座標に対して、ｘ座標が小さい方から順に０から始まる整数値を割り振ることにより定義する。

また、図１０に示すように、各ＳＧに対してセグメント番号を割り当てる。図１０の例では、始点の値が小さい（すなわち、ｘ座標が小さい）ほど小さいセグメント番号を割り当てるようになっている。

図１１に、セグメントデータ格納部１４２に格納されているデータの一例を示す。図１１の例では、セグメント番号と、種類と、始点と、終点とが格納されている。

図８の説明に戻り、セグメント定義部１４１は、ステップＳ１１において定義したＳＧの始点及び終点と画像データ上のｘ座標との対応関係を表す座標データを生成し、座標データ格納部１４３に格納する（ステップＳ１３）。

図１２に、座標データ格納部１４３に格納されているデータの一例を示す。図１２の例では、始点又は終点のデータと、ｘ座標とが格納されている。

そして、探索部１４０は、領域候補抽出処理を実施する（ステップＳ１５）。領域候補抽出処理については、図１３及び図１４を用いて説明する。

まず、ステートオブジェクト（以下、ＳＯと略す場合がある）について説明する。ＳＯは、属性及び機能を有するオブジェクトである。ＳＯは、状態、始点、終点及びＩＤという４つの属性を有する。状態は、「Ｉｎｉｔｉａｌ」、「Ｘ」、「Ａ」、「Ｓ」、「ＳＳ」及び「Ｅｎｄ」のうちいずれかが割り当てられる。始点及び終点には、ステップＳ１１において定義したＳＧの始点及び終点の値のうちいずれかが割り当てられる。但し、例外として「−１」という値が割り当てられることもある。ＩＤは、ＳＯを識別するための識別番号である。

ＳＯの機能は、ＳＯに対してＳＧのデータが入力された場合に当該ＳＧをアクセプトするか否か判定し、アクセプトする場合には自ＳＯ以外のＳＯを新たに生成する、という機能である。

ここで、ＳＯがＳＧをアクセプトする条件は、「ＳＧの始点＝ＳＯの終点＋１」であり且つ「ＳＧの種類がＳＯの状態にアクセプタブル」であることである。なお、前者の条件は、ＳＯに隣接するＳＧであるか判定するための条件である。

図１３に、各ＳＯの状態にアクセプタブルなＳＧの種類を示す。図１３のデータは、ＳＯの状態が「Ｉｎｉｔｉａｌ」である場合には種類「Ｊ」、「ｅ」又は「Ｅ」がアクセプタブルであり、ＳＯの状態が「Ｘ」である場合には種類「Ｊ」、「ｅ」又は「Ｅ」がアクセプタブルであり、ＳＯの状態が「Ａ」である場合には種類「ｅ」又は「Ｅ」がアクセプタブルであり、ＳＯの状態が「Ｓ」である場合には種類「ｅ」又は「Ｅ」がアクセプタブルであり、ＳＯの状態が「ＳＳ」である場合には種類「Ｊ」、「ｅ」又は「Ｅ」がアクセプタブルであり、ＳＯの状態が「Ｅｎｄ」である場合にはアクセプタブルな種類がないことを表している。なお、ＳＧの種類が「対象外」である場合には、ＳＧはいずれのＳＯにもアクセプトされない。

また、ＳＯによるＳＧのアクセプトに関して、以下のような付加ルールを定める。

（α）ＳＧは、既に生成されているいずれのＳＯについてもアクセプトの条件を満たさない場合、無条件にＳＯ［０］にアクセプトされる。
（β）種類が「Ｅ」又は「ｅ」であるＳＧが、状態が「Ｘ」であるＳＯ及び当該ＳＯよりも始点の値が小さいＳＯのいずれについてもアクセプトの条件を満たす場合、状態が「Ｘ」であるＳＯにはアクセプトされない。
（γ）状態が「ＳＳ」であるＳＯが、種類が「Ｅ」又は「ｅ」であるＳＧについてアクセプトの条件を満たす場合、種類が「Ｊ」であるＳＧがアクセプトの条件を満たしているとしても、種類が「Ｊ」であるＳＧをアクセプトしない。

一方、新たに生成されるＳＯの属性は、以下のように決定される。

（１）状態
新たに生成されるＳＯの状態は、図１３の表に示したルールに従い決定される。例えば１行目のデータは、状態が「Ｉｎｉｔｉａｌ」であるＳＯは、種類が「Ｊ」であるＳＧをアクセプトすると新たに状態が「Ｘ」であるＳＯを生成し、種類が「ｅ」であるＳＧをアクセプトすると新たに状態が「Ａ」であるＳＯを生成し、種類が「Ｅ」であるＳＧをアクセプトすると新たに状態が「Ｓ」であるＳＯを生成することを表している。

また、ＳＯの状態に関しては、以下のような付加ルールを定める。

（δ）状態が「ＳＳ」であるＳＯは、処理対象となるＳＧが無くなった場合、状態が「Ｅｎｄ」であるＳＯを新たに生成する。

図１４に、これらのルールに従って決定されるＳＯの状態についての状態遷移図を示す。

（２）始点
新たに生成されるＳＯの始点は、アクセプトするＳＯの始点が「−１」であり且つアクセプトされるＳＧの種類が「Ｅ」又は「ｅ」であるという始点条件が満たされた場合、「アクセプトされるＳＧの始点」であるとする。一方、始点条件が満たされない場合、新たに生成されるＳＯの始点は「アクセプトするＳＯの始点」であるとする。

（３）終点
新たに生成されるＳＯの終点は、新たに生成されるＳＯの状態が「Ｅｎｄ」ではないという終点条件が満たされた場合、「アクセプトされるＳＧの終点」であるとする。一方、終点条件が満たされない場合、新たに生成されるＳＯの終点は「アクセプトするＳＯの終点」であるとする。

次に、図１５を用いて、領域候補抽出処理の処理フローについて説明する。まず、ステートオブジェクト管理部１４４１は、初期化処理を実行する（図１５：ステップＳ２１）。初期化処理では、ｉ＝１及びＮ_SO＝１と設定し、ＳＯ［０］を生成する。ここで、ｉはセグメント番号を表す変数であり、Ｎ_SOは既に生成したＳＯの数である。ＳＯ［０］は、状態が「Ｉｎｉｔｉａｌ」、始点が「−１」、終点が「−１」、ＩＤが「０」とする。

また、ステートオブジェクト管理部１４４１は、ｉ≦Ｎ_SGであるか判断する（ステップＳ２３）。Ｎ_SGは、ステップＳ１１において生成されたセグメントの数である。ｉ≦Ｎ_SGではないと判断された場合（ステップＳ２３：ＮＯルート）、元の処理に戻る。

一方、ｉ≦Ｎ_SGであると判断された場合（ステップＳ２３：Ｙｅｓルート）、ステートオブジェクト管理部１４４１は、ｊ＝０及びｔｍｐ＝Ｎ_SOと設定する（ステップＳ２５）。ここで、ｊはステートオブジェクトのＩＤを表す変数であり、ｔｍｐは生成したＳＯの数を表す変数である。

そして、ステートオブジェクト管理部１４４１は、ｊ＜Ｎ_SOであるか判断する（ステップＳ２７）。すなわち、未処理のステートオブジェクトがあるか判断する。ｊ＜Ｎ_SOではないと判断された場合（ステップＳ２７：Ｎｏルート）、ステップＳ３９に移行する。

一方、ｊ＜Ｎ_SOであると判断された場合（ステップＳ２７：Ｙｅｓルート）、ステートオブジェクト管理部１４４１は、ＳＯ［ｊ］にＳＧ［ｉ］のデータを入力する。そして、ステートオブジェクト１４４２（ここでは、ＳＯ［ｊ］）は、ＳＧ［ｉ］をアクセプトするか判断する（ステップＳ２９）。アクセプトするかの判断は、上で述べたルールに従って行う。ＳＯ［ｊ］がＳＧ［ｉ］をアクセプトしないと判断された場合（ステップＳ２９：Ｎｏルート）、ステップＳ３７に移行する。

これに対し、ＳＯ［ｊ］がＳＧ［ｉ］をアクセプトすると判断された場合（ステップＳ２９：Ｙｅｓルート）、ステートオブジェクト１４４２は、新たに生成するＳＯの属性値を上で述べたルールに従って求め、既に生成されたＳＯと同一のＳＯがあるか判断する（ステップＳ３１）。新たに生成するＳＯと同一のＳＯがあると判断された場合（ステップＳ３１：Ｙｅｓルート）、ステップＳ３７の処理に移行する。

一方、新たに生成するＳＯと同一のＳＯがないと判断された場合（ステップＳ３１：Ｎｏルート）、ステートオブジェクト１４４２は、ステップＳ３１で求めた属性値に基づいて新たにＳＯ［ｊ＋１］を生成する（ステップＳ３３）。また、ステートオブジェクト管理部１４４１は、ｔｍｐを１インクリメントする（ステップＳ３５）。

そして、ステートオブジェクト管理部１４４１は、ｊを１インクリメントする（ステップＳ３７）。また、ステートオブジェクト管理部１４４１は、ｉを１インクリメントし、さらにＮ_SO＝ｔｍｐと設定する（ステップＳ３９）。そしてステップＳ２３の処理に戻る。

図８の説明に戻り、フィルタリング処理部１４５は、状態が「Ｅｎｄ」であるＳＯの始点及び終点のデータをステートオブジェクト管理部１４４１から受け取り、当該ＳＯの始点及び終点のデータをメインメモリ等の記憶装置に格納する（ステップＳ１７）。

また、フィルタリング処理部１４５は、ステップＳ１７において取得した始点及び終点のデータに対応するｘ座標の範囲を座標データ格納部１４３から特定する。また、フィルタリング処理部１４５は、当該ｘ座標の範囲に含まれる切り出し領域を特定し、特定された切り出し領域を覆う外接矩形の頂点の座標を算出する（ステップＳ１９）。そして元の処理に戻る。

図１６に、抽出結果格納部１４６に格納されているデータの一例を示す。図１６の例では、領域番号と、領域の左端のｘ座標と、領域の上端のｙ座標と、領域の右端のｘ座標と、領域の下端のｙ座標とが格納されている。なお、図１６の例では領域が１つしか示されていないが、複数の領域についてのデータが格納されている場合もある。

以上のような処理を実施することにより、日本語の文字列の画像における英数字の領域を高精度で特定することができるようになる。

ここで、上で説明した領域抽出処理（ステップＳ３）を具体例を用いて説明する。前提として、ステップＳ１における文字認識処理の結果、図５に示した認識結果ラティスが得られたとする。但し、説明を簡単にするため、各切り出し領域に含まれる認識候補のうち最も認識信頼度が高い認識候補に対応するセグメントのみを処理対象とする。また、説明のための図として図１３、図１４及び図１７を用いる。図１７において、各セグメントに付された数字はセグメント番号を表しており、各セグメント内の英字はセグメントの種類を表している。セグメント内に英字が無い場合には、当該セグメントの種類が「対象外」であることを表している。

最初に、ステップＳ２１における初期化処理においてＳＯ［０］が生成される。ＳＯ［０］は、ＳＯ［０］＝｛Ｉｎｉｔｉａｌ，−１，−１，０｝となる。括弧内は、左から順に状態、始点、終点及びＩＤを表している。

次に、最初のセグメントであるＳＧ［１］＝｛Ｊ，０，１｝が、生成されたＳＯ［０］に入力される。括弧内は、左から順に種類、始点及び終点を表している。ここで、「ＳＧ［１］の始点＝ＳＯ［０］の終点＋１」且つ「ＳＧ［１］の種類「Ｊ」がＳＯ［０］の状態「Ｉｎｉｔｉａｌ」にアクセプタブル」である。従って、ＳＯ［０］は新たにＳＯ［１］＝｛Ｘ，−１，１，１｝を生成する。

次に、ＳＧ［２］がＳＯに入力されるが、ＳＧ［２］の種類は「対象外」なのでＳＯにアクセプトされることはない。

次に、ＳＧ［３］＝｛Ｊ，２，５｝が、ＳＯ［０］及びＳＯ［１］に入力される。ＳＯ［０］はアクセプトの条件を満たさない。一方、ＳＯ［１］については、「ＳＧ［３］の始点＝ＳＯ［１］の終点＋１」且つ「ＳＧ［３］の種類「Ｊ」がＳＯ［１］の状態「Ｘ」にアクセプタブル」である。従って、ＳＯ［１］は新たにＳＯ［２］＝｛Ｘ，−１，５，２｝を生成する。

次に、ＳＧ［４］及びＳＧ［５］がＳＯに入力されるが、ＳＧ［４］及びＳＧ［５］の種類は「対象外」なのでＳＯにアクセプトされることはない。

次に、ＳＧ［６］＝｛ｅ，６，７｝が、ＳＯ［０］乃至ＳＯ［２］に入力される。ＳＯ［０］及びＳＯ［１］はアクセプトの条件を満たさない。一方、ＳＯ［２］については、「ＳＧ［６］の始点＝ＳＯ［２］の終点＋１」且つ「ＳＧ［６］の種類「ｅ」がＳＯ［２］の状態「Ｘ」にアクセプタブル」である。従って、ＳＯ［２］は新たにＳＯ［３］＝｛Ａ，６，７，３｝を生成する。

次に、ＳＧ［７］＝｛Ｊ，６，９｝が、ＳＯ［０］乃至ＳＯ［３］に入力される。ＳＯ［０］、ＳＯ［１］及びＳＯ［３］はアクセプトの条件を満たさない。一方、ＳＯ［２］については、「ＳＧ［７］の始点＝ＳＯ［２］の終点＋１」且つ「ＳＧ［７］の種類「Ｊ」がＳＯ［２］の状態「Ｘ」にアクセプタブル」である。従って、ＳＯ［２］は新たにＳＯ［４］＝｛Ｘ，−１，９，４｝を生成する。

次に、ＳＧ［８］及びＳＧ［９］がＳＯに入力されるが、ＳＧ［８］及びＳＧ［９］の種類は「対象外」なのでＳＯにアクセプトされることはない。

次に、ＳＧ［１０］＝｛Ｅ，１０，１１｝が、ＳＯ［０］乃至ＳＯ［４］に入力される。ＳＯ［０］乃至ＳＯ［３］はアクセプトの条件を満たさない。一方、ＳＯ［４］については、「ＳＧ［１０］の始点＝ＳＯ［４］の終点＋１」且つ「ＳＧ［１０］の種類「Ｅ」がＳＯ［４］の状態「Ｘ」にアクセプタブル」である。従って、ＳＯ［４］は新たにＳＯ［５］＝｛Ｓ，１０，１１，５｝を生成する。
次に、ＳＧ［１１］がＳＯに入力されるが、ＳＧ［１１］の種類は「対象外」なのでＳＯにアクセプトされることはない。

次に、ＳＧ［１２］＝｛Ｅ，１２，１４｝が、ＳＯ［０］乃至ＳＯ［５］に入力される。ＳＯ［０］乃至ＳＯ［４］はアクセプトの条件を満たさない。一方、ＳＯ［５］については、「ＳＧ［１２］の始点＝ＳＯ［５］の終点＋１」且つ「ＳＧ［１２］の種類「Ｅ」がＳＯ［５］の状態「Ｓ」にアクセプタブル」である。従って、ＳＯ［５］は新たにＳＯ［６］＝｛ＳＳ，１０，１４，６｝を生成する。
次に、ＳＧ［１３］がＳＯに入力されるが、ＳＧ［１３］の種類は「対象外」なのでＳＯにアクセプトされることはない。

次に、ＳＧ［１４］＝｛ｅ，１５，１６｝が、ＳＯ［０］乃至ＳＯ［６］に入力される。ＳＯ［０］乃至ＳＯ［５］はアクセプトの条件を満たさない。一方、ＳＯ［６］については、「ＳＧ［１４］の始点＝ＳＯ［６］の終点＋１」且つ「ＳＧ［１４］の種類「ｅ」がＳＯ［６］の状態「ＳＳ」にアクセプタブル」である。従って、ＳＯ［６］は新たにＳＯ［７］＝｛ＳＳ，１０，１６，７｝を生成する。

次に、ＳＧ［１５］＝｛Ｊ，１５，１８｝が、ＳＯ［０］乃至ＳＯ［７］に入力される。ＳＯ［０］乃至ＳＯ［５］、及びＳＯ［７］はアクセプトの条件を満たさない。一方、ＳＯ［６］については、「ＳＧ［１５］の始点＝ＳＯ［６］の終点＋１」且つ「ＳＧ［１５］の種類「ｅ」がＳＯ［６］の状態「ＳＳ」にアクセプタブル」である。但し、ＳＯ［６］は、種類が「ｅ」であるＳＧ［１４］をアクセプトしており付加ルール（γ）が適用されるため、ＳＧ［１５］はアクセプトされない。

次に、ＳＧ［１６］＝｛ｅ，１７，１８｝が、ＳＯ［０］乃至ＳＯ［７］に入力される。ＳＯ［０］乃至ＳＯ［６］はアクセプトの条件を満たさない。一方、ＳＯ［７］については、「ＳＧ［１６］の始点＝ＳＯ［７］の終点＋１」且つ「ＳＧ［１６］の種類「ｅ」がＳＯ［７］の状態「ＳＳ」にアクセプタブル」である。従って、ＳＯ［７］は新たにＳＯ［８］＝｛ＳＳ，１０，１８，８｝を生成する。

次に、ＳＧ［１７］＝｛ｅ，１７，２１｝が、ＳＯ［０］乃至ＳＯ［８］に入力される。ＳＯ［０］乃至ＳＯ［６］及びＳＯ［８］はアクセプトの条件を満たさない。一方、ＳＯ［７］については、「ＳＧ［１７］の始点＝ＳＯ［７］の終点＋１」且つ「ＳＧ［１７］の種類「ｅ」がＳＯ［７］の状態「ＳＳ」にアクセプタブル」である。従って、ＳＯ［７］は新たにＳＯ［９］＝｛ＳＳ，１０，２１，９｝を生成する。

次に、ＳＧ［１８］＝｛ｅ，１９，２１｝が、ＳＯ［０］乃至ＳＯ［９］に入力される。ＳＯ［０］乃至ＳＯ［７］及びＳＯ［９］はアクセプトの条件を満たさない。一方、ＳＯ［８］については、「ＳＧ［１８］の始点＝ＳＯ［８］の終点＋１」且つ「ＳＧ［１８］の種類「ｅ」がＳＯ［８］の状態「ＳＳ」にアクセプタブル」である。但し、新たにＳＯ［１０］＝｛ＳＳ，１０，２１，１０｝を生成すると、ＳＯ［９］と同一のＳＯが生成されてしまうことになるため、ＳＯ［１０］は生成されない（ステップＳ３１のＹｅｓルート）。

以上のような処理をＳＧ［３５］まで繰り返す。すると、ＳＧ［３５］がＳＯに入力された場合には、状態が「Ｅｎｄ」であり、始点が「１０」、終点が「３５」であるＳＯが生成される。そして、状態が「Ｅｎｄ」であるＳＯに対応する領域の座標をステップＳ１９において算出する。このようにして、英数字の領域が特定される。

図３の処理フローの説明に戻り、再認識処理部１５は、画像データ格納部１１に格納されている画像データにおける、抽出結果格納部１４６に格納されている座標データにより特定される領域に対して、英数字の文字認識に適した文字認識処理を実行する。そして、再認識処理部１５は、認識結果ラティスのデータを含む文字認識結果を再認識結果格納部１６に格納する（ステップＳ５）。図１８に、ステップＳ５における文字認識処理により得られる認識結果ラティスの一例を示す。なお、再認識結果格納部１６に格納されているデータのフォーマットは、結果フラグの列が含まれていないという点を除いて、全体認識結果格納部１３に格納されているデータのフォーマットと同様であるので、ここでは説明を省略する。

そして、決定部１７は、全体認識結果格納部１３及び再認識結果格納部１６から、文字認識の対象範囲全体を覆うことができ且つ切り出し領域同士が重なることがないような認識候補の組み合わせであって、認識信頼度の総和が最も高い組み合わせを特定する。例えば、ＤＰにより特定する。そして、決定部１７は、特定された組み合わせに含まれる認識候補のデータを含む出力データを出力データ格納部１８に格納する（ステップＳ７）。

ステップＳ７において行われる処理について、図１９を用いて説明する。ステップＳ７においては、まず全体認識結果格納部１３及び再認識結果格納部１６に格納されている認識結果ラティスのデータを統合し、メインメモリ等の記憶装置に格納する。そして、統合したデータを解析し、認識信頼度の総和が最も高い認識候補の組み合わせを特定する。図１９の例では、ステップＳ７の処理により特定された組み合わせに含まれる認識候補に対しては、網掛けが付されている。

さらに、出力部１９は、出力データ格納部１８に格納されているデータを表示装置に表示する（ステップＳ９）。そして処理を終了する。

以上のような処理を実施することにより、日本語の文字列の画像に対する文字認識処理を高精度で行うことができるようになる。

以上本技術の一実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、上で説明した文字認識処理装置１の機能ブロック図は必ずしも実際のプログラムモジュール構成に対応するものではない。

また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

また、上では画像における左側の文字から順に処理対象とするような例を示したが、右側の文字から順に処理対象とするようにしてもよい。

また、上で述べた例では、各切り出し領域における認識候補のうち最も認識信頼度が高い認識候補を処理対象とするような例を示したが、最も認識信頼度が高い認識候補以外の認識候補を処理対象とするようにしてもよい。

なお、上で述べた文字認識処理装置１は、コンピュータ装置であって、図２０に示すように、メモリ２５０１とＣＰＵ２５０３とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

なお、図２に示した各処理部は、ＣＰＵ２５０３及びプログラムの組み合わせ、すなわち、ＣＰＵ２５０３がプログラムを実行することにより実現してもよい。より具体的には、ＣＰＵ２５０３は、ＨＤＤ２５０５又はメモリ２５０１に記憶されたプログラムに従った動作を行うことで、上で述べたような処理部として機能してもよい。また、図２に示した各データ格納部は、図２０におけるメモリ２５０１やＨＤＤ２５０５等として実現してもよい。

以上述べた本技術の実施の形態をまとめると以下のようになる。

本実施の形態に係る文字認識処理装置は、（Ａ）英数字を含む日本語の文字列の画像データに対して第１の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が第１の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第１データ格納部と、（Ｂ）第１データ格納部に格納されているデータを用いて、認識候補が英数字であり且つ当該認識候補にフラグが設定されている文字領域を含む第１の文字領域を起点として、当該第１の文字領域から所定の方向に連続する文字領域であり且つ認識候補が英数字である第２の文字領域を探索し、第１及び第２の文字領域を含む第３の文字領域を特定する探索部と、（Ｃ）特定された第３の文字領域の位置情報を算出し、第２データ格納部に格納する算出部とを有する。

英数字を含む日本語の文字列に対する文字認識は、英数字の部分で誤認識を生じることが多く、たとえ第１の文字認識処理において最も確からしい認識結果であると認識された認識候補が英数字以外であっても、本来は英数字である可能性もある。従って、上で述べたような処理を行えば、日本語の文字列における英数字の領域を特定する精度を向上させることができるようになる。

また、上で述べた第１データ格納部には、認識候補の各々について当該認識候補の確からしさを表す確度のデータがさらに格納されるようにしてもよい。そして、上で述べた本装置が、（Ｄ）第２データ格納部に格納されている第３の文字領域の位置情報を用いて、画像データにおける第３の文字領域に対して英数字の文字認識のための第２の文字認識処理を実行し、（Ｅ）当該第２の文字認識処理により得られる認識候補の各々について、当該認識候補と、画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第３データ格納部に格納する再認識処理部と、（Ｆ）確度の総和が最大になるように、第１及び第３データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納する決定部とをさらに有するようにしてもよい。英数字である可能性が高い文字領域に対して英数字の文字認識のための第２の文字認識処理を行えば、適切な認識結果を得られる可能性が高い。そのため、上で述べたような処理を行うことにより、信頼性が高い出力データを生成することができるようになる。

また、上で述べた第１の文字領域には認識候補が英数字であり且つ当該認識候補にフラグが設定されている文字領域が複数含まれ、当該複数の文字領域が隣接しているようにしてもよい。このようにすれば、第３の文字領域に含まれる文字が英数字である可能性がさらに高くなる。

また、上で述べた第２の文字領域についての認識候補は、当該第２の文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補であるようにしてもよい。最も確からしい認識候補を用いることにより、結果の信頼性を高くすることができるようになる。

なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
英数字を含む日本語の文字列の画像データに対して第１の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、前記画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が前記第１の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第１データ格納部と、
前記第１データ格納部に格納されているデータを用いて、連続する文字領域を含み且つ当該連続する文字領域の各々の認識候補が英数字である第１の領域であって、当該連続する文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第１の領域を特定する探索部と、
特定された前記第１の文字領域の位置情報を算出し、第２データ格納部に格納する算出部と、
を有する文字認識処理装置。

（付記２）
前記第１データ格納部には、前記認識候補の各々について当該認識候補の確からしさを表す確度のデータがさらに格納されており、
前記第２データ格納部に格納されている前記第１の領域の位置情報を用いて、前記画像データにおける前記第１の領域に対して英数字の文字認識のための第２の文字認識処理を実行し、当該第２の文字認識処理により得られる認識候補の各々について、当該認識候補と、前記画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第３データ格納部に格納する再認識処理部と、
前記確度の総和が最大になるように、前記第１及び第３データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納する決定部と、
をさらに有する付記１記載の文字認識処理装置。

（付記３）
前記第１の領域には認識候補が英数字であり且つ当該認識候補に前記フラグが設定されている文字領域が複数含まれ、当該複数の文字領域が隣接している
ことを特徴とする付記１又は２記載の文字認識処理装置。

（付記４）
前記第１の領域に含まれる文字領域についての認識候補は、当該文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補である
ことを特徴とする付記１乃至３いずれか１つ記載の文字認識処理装置。

（付記５）
前記探索部が、
前記第１データ格納部に格納されている認識候補のうち、英数字であり且つ前記フラグが設定されている認識候補が占める第１の文字領域を特定し、
特定された前記第１の文字領域の所定の方向側に隣接する第２の文字領域について、認識候補が英数字であり且つ前記フラグが設定されているか判断し、認識候補が英数字であり且つ前記フラグが設定されていると判断された場合には、前記第１及び第２の文字領域を含む第３の文字領域を特定し、
特定された前記文字領域から所定の方向に連続する文字領域について、前記第３の文字領域に近い文字領域から順に認識候補が英数字であるか判断する判断処理を実行し、
前記判断処理を、認識候補が英数字ではないと判断された文字領域が出現するまで実行することにより、前記第１の領域を特定する
ことを特徴とする付記１乃至４いずれか１つ記載の文字認識処理装置。

（付記６）
英数字を含む日本語の文字列の画像データに対して第１の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、前記画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が前記第１の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第１データ格納部に格納されているデータを用いて、連続する文字領域を含み且つ当該連続する文字領域の各々の認識候補が英数字である第１の領域であって、当該連続する文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第１の領域を特定するステップと、
特定された前記第１の文字領域の位置情報を算出し、第２データ格納部に格納するステップと、
を、コンピュータに実行させるための文字認識処理プログラム。

（付記７）
前記第１データ格納部には、前記認識候補の各々について当該認識候補の確からしさを表す確度のデータがさらに格納されており、
前記第２データ格納部に格納されている前記第１の領域の位置情報を用いて、前記画像データにおける前記第１の領域に対して英数字の文字認識のための第２の文字認識処理を実行し、当該第２の文字認識処理により得られる認識候補の各々について、当該認識候補と、前記画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第３データ格納部に格納するステップと、
前記確度の総和が最大になるように、前記第１及び第３データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納するステップと、
をさらに実行させるための付記６記載の文字認識処理プログラム。

（付記８）
前記第１の領域には認識候補が英数字であり且つ当該認識候補に前記フラグが設定されている文字領域が複数含まれ、当該複数の文字領域が隣接している
ことを特徴とする付記６又は７記載の文字認識処理プログラム。

（付記９）
前記第１の領域に含まれる文字領域についての認識候補は、当該文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補である
ことを特徴とする付記６乃至８いずれか１つ記載の文字認識処理プログラム。

（付記１０）
前記探索ステップが、
前記第１データ格納部に格納されている認識候補のうち、英数字であり且つ前記フラグが設定されている認識候補が占める第１の文字領域を特定するステップと、
特定された前記第１の文字領域の所定の方向側に隣接する第２の文字領域について、認識候補が英数字であり且つ前記フラグが設定されているか判断し、認識候補が英数字であり且つ前記フラグが設定されていると判断された場合には、前記第１及び第２の文字領域を含む第３の文字領域を特定するステップと、
特定された前記第３の文字領域から所定の方向に連続する文字領域について、前記第３の文字領域に近い文字領域から順に認識候補が英数字であるか判断する判断ステップと、
前記判断ステップの処理を、認識候補が英数字ではないと判断された文字領域が出現するまで実行することにより、前記第１の領域を特定するステップと、
を含む付記６乃至９いずれか１つ記載の文字認識処理プログラム。

１文字認識処理装置１１画像データ格納部
１２全体認識処理部１３全体認識結果格納部
１４領域抽出部１５再認識処理部
１６再認識結果格納部１７決定部
１８出力データ格納部１９出力部
１４０探索部１４１セグメント定義部
１４２セグメントデータ格納部１４３座標データ格納部
１４４領域探索部１４４１ステートオブジェクト管理部
１４４２ステートオブジェクト１４５フィルタリング処理部
１４６抽出結果格納部

Claims

英数字を含む日本語の文字列の画像データに対する第１の文字認識処理において生成された複数の文字領域の各々について、当該文字領域を占める認識候補と、当該文字領域の開始位置の情報及び終了位置の情報と、当該文字領域を占める認識候補が前記第１の文字認識処理の結果として採用された場合にはフラグとを格納する第１データ格納部と、
前記第１データ格納部に格納されているデータを用いて、或る文字領域と、開始位置が当該或る文字領域の終了位置に最も近い文字領域とを特定する処理を繰り返すことで、連続する複数の文字領域を含む領域を１又は複数生成し、生成された１又は複数の前記領域のうち、前記連続する複数の文字領域の各々の認識候補が英数字であり且つ前記連続する複数の文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第１の領域を特定する探索部と、
特定された前記第１の領域の位置情報を算出し、第２データ格納部に格納する算出部と、
を有する文字認識処理装置。
前記第１の文字認識処理において生成された複数の文字領域は、
前記第１の文字認識処理の結果として採用された認識候補が占める文字領域と、前記第１の文字認識処理の結果として採用されなかった認識候補が占める文字領域とを含む
請求項１記載の文字認識処理装置。
前記第１データ格納部は、前記複数の文字領域の各々について当該文字領域を占める認識候補の確からしさを表す確度のデータをさらに格納し、
前記第２データ格納部に格納されている前記第１の領域の位置情報を用いて、前記画像データにおける前記第１の領域に対して英数字の文字認識のための第２の文字認識処理を実行し、当該第２の文字認識処理により得られる認識候補の各々について、当該認識候補と、前記画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第３データ格納部に格納する再認識処理部と、
前記確度の総和が最大になるように、前記第１及び第３データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納する決定部と、
をさらに有する請求項１又は２記載の文字認識処理装置。
前記第１データ格納部に格納されている前記認識候補の各々は、当該認識候補が占める文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補である
ことを特徴とする請求項１乃至３いずれか１つ記載の文字認識処理装置。
英数字を含む日本語の文字列の画像データに対する第１の文字認識処理において生成された複数の文字領域の各々について、当該文字領域を占める認識候補と、当該文字領域の開始位置の情報及び終了位置の情報と、当該文字領域を占める認識候補が前記第１の文字認識処理の結果として採用された場合にはフラグとを格納する第１データ格納部に格納されているデータを用いて、或る文字領域と、開始位置が当該或る文字領域の終了位置に最も近い文字領域とを特定する処理を繰り返すことで、連続する複数の文字領域を含む領域を１又は複数生成し、生成された１又は複数の前記領域のうち、前記連続する複数の文字領域の各々の認識候補が英数字であり且つ前記連続する複数の文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第１の領域を特定するステップと、
特定された前記第１の領域の位置情報を算出し、第２データ格納部に格納するステップと、
を、コンピュータに実行させるための文字認識処理プログラム。