JP5672003B2 - 文字認識処理装置及びプログラム - Google Patents

文字認識処理装置及びプログラム Download PDF

Info

Publication number
JP5672003B2
JP5672003B2 JP2010293539A JP2010293539A JP5672003B2 JP 5672003 B2 JP5672003 B2 JP 5672003B2 JP 2010293539 A JP2010293539 A JP 2010293539A JP 2010293539 A JP2010293539 A JP 2010293539A JP 5672003 B2 JP5672003 B2 JP 5672003B2
Authority
JP
Japan
Prior art keywords
character
recognition
storage unit
area
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010293539A
Other languages
English (en)
Other versions
JP2012141750A (ja
Inventor
武部 浩明
浩明 武部
田中 宏
宏 田中
勇作 藤井
勇作 藤井
堀田 悦伸
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010293539A priority Critical patent/JP5672003B2/ja
Publication of JP2012141750A publication Critical patent/JP2012141750A/ja
Application granted granted Critical
Publication of JP5672003B2 publication Critical patent/JP5672003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本技術は、文字認識技術に関する。
日本語の文字列には、漢字、ひらがな、カタカナ、英字、数字、記号等様々な文字種の文字が混在しているが、日本語の文字列の画像に対して文字認識を行うと、特に英字や数字の部分で誤認識を起こしてしまうことが多い。例えば、図1の例に示したように、本来は英字であると認識されるべき部分が、漢字等の他の文字に誤認識されてしまうことがある。図1の例では、「当社はImageScannerを」という画像を文字認識したにも関わらず、「当社はIm唱次活nnerを」という誤った認識結果が得られている。このような誤認識が発生するのは、英字や数字の部分で文字間隔が変化するために文字の切り出しに失敗することや、そもそも英字には類似する文字が多いこと等による。
このような問題に対し、以下のような従来技術が存在する。具体的には、日本語の認識に適した第1の文字認識手段で文書画像に対して認識処理を行う一方、アルファベット等であると推定される領域を再認識範囲として抽出し、再認識範囲に対しては英語の認識に適した第2の文字認識手段による再認識を実行する。ここで、再認識範囲となる領域は、第1の文字認識手段によりアルファベット等であると判定された部分の前方及び後方に位置する文字が、アルファベット等であるか、又は認識結果の類似度が所定の閾値より小さい場合に抽出される。しかし、この方法では、たまたまアルファベット等に隣接していて且つ類似度が低い文字が有れば、その文字を誤って再認識領域に統合してしまうことになる。また、文書画像の品質が悪く、全体的に類似度が低ければ、誤って再認識領域に統合してしまう可能性が高くなる。
また、以下のような従来技術も存在する。具体的には、郵便宛名における町域名や丁目番地の認識を行った際、認識結果ラティスをパターン辞書と照合し、パターン辞書に登録されているものが正しい認識結果であると決定する。しかしながら、この技術は、パターン辞書を予め用意しておかなければならず、郵便宛名以外の一般的な日本語の文字列に対してこの技術を適用することは困難である。また、認証結果ラティスにおける文字に切り出し領域が固定されているため、認識精度に問題がある。
このように、従来技術は、日本語の文字列の画像において英数字である領域と他の領域とを適切に切り分けることができず、日本語の文字列の画像に対する文字認識の精度が低いという問題があった。
特許第3919617号公報 特開2000-148906号公報
従って、本技術の目的は、一側面においては、日本語の文字列の画像における英数字の領域を特定する精度を向上させるための技術を提供することである。
本実施の形態に係る文字認識処理装置は、(A)英数字を含む日本語の文字列の画像データに対して第1の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が第1の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第1データ格納部と、(B)第1データ格納部に格納されているデータを用いて、連続する文字領域を含み且つ当該連続する文字領域の各々の認識候補が英数字である第1の領域であって、当該連続する文字領域の少なくとも一部の文字領域の認識候補にフラグが設定されている第1の領域を特定する探索部と、(C)特定された第1の領域の位置情報を算出し、第2データ格納部に格納する算出部とを有する。
日本語の文字列の画像における英数字の領域を特定する精度を向上させることができるようになる。
図1は、誤認識の一例を示す図である。 図2は、本実施の形態に係る文字認識処理装置の機能ブロック図である。 図3は、本実施の形態におけるメインの処理フローを示す図である。 図4は、画像データ格納部に格納されているデータの一例を示す図である。 図5は、全体認識処理部による文字認識処理により得られた認識結果ラティスの一例を示す図である。 図6は、全体認識処理部による文字認識処理の結果を示す図である。 図7は、全体認識結果格納部に格納されているデータの一例を示す図である。 図8は、領域抽出処理の処理フローを示す図である。 図9は、セグメントの始点及び終点の定義の仕方について説明するための図である。 図10は、セグメント番号の割り当てについて説明するための図である。 図11は、セグメントデータ格納部に格納されているデータの一例を示す図である。 図12は、座標データ格納部に格納されているデータの一例を示す図である。 図13は、SOの状態とアクセプタブルなSGの種類及び新たに生成されるSOの状態との関係を説明するための図である。 図14は、SOの状態遷移図である。 図15は、領域候補抽出処理の処理フローを示す図である。 図16は、抽出結果格納部に格納されているデータの一例を示す図である。 図17は、セグメント番号の割り当て及びセグメントの種類について説明するための図である。 図18は、再認識処理部による文字認識処理により得られた認識結果ラティスの一例を示す図である。 図19は、決定部が実行する処理について説明するための図である。 図20は、コンピュータの機能ブロック図である。
本実施の形態に係る文字認識処理装置1の機能ブロック図を図2に示す。文字認識処理装置1は、画像データ格納部11と、全体認識処理部12と、全体認識結果格納部13と、領域抽出部14と、再認識処理部15と、再認識結果格納部16と、決定部17と、出力データ格納部18と、出力部19とを含む。また、領域抽出部14は、セグメント定義部141と、セグメントデータ格納部142と、座標データ格納部143と、ステートオブジェクト管理部1441及び1又は複数のステートオブジェクト1442を含む領域探索部144とを含む探索部140と、フィルタリング処理部145と、抽出結果格納部146とを含む。
全体認識処理部12は、画像データ格納部11に格納部されている画像データに対して、日本語の文字認識のための文字認識処理を行い、認識結果ラティスのデータを含む認識結果を全体認識結果格納部13に格納する。セグメント定義部141は、全体認識結果格納部13に格納されているデータに対して処理を行い、処理結果をセグメントデータ格納部142及び座標データ格納部143に格納する。ステートオブジェクト管理部1441及びステートオブジェクト1442は、セグメントデータ格納部142に格納されているデータを用いて英数字である領域を特定する処理を行う。フィルタリング処理部145は、ステートオブジェクト管理部1441から受け取ったデータ及び座標データ格納部143に格納されているデータを用いて英数字である領域の座標を算出する処理等を行い、処理結果を抽出結果格納部146に格納する。再認識処理部15は、抽出結果格納部146及び画像データ格納部11に格納されているデータを用いて、英数字の文字認識のための文字認識処理を行い、処理結果を再認識結果格納部16に格納する。決定部17は、全体認識結果格納部13及び再認識結果格納部16に格納されているデータを用いて出力データを生成し、出力データ格納部18に格納する。出力部19は、出力データ格納部18に格納されているデータを表示装置等に表示する処理を行う。
図4に、画像データ格納部11に格納されているデータの一例を示す。図4の例では、「当社はImageScannerを」という日本語の文字列を含む画像データが格納されている。
次に、本実施の形態に係る文字認識処理装置1の処理内容について、図3乃至図21を用いて説明する。
まず、全体認識処理部12は、画像データ格納部11に格納されている画像データに対して、日本語の文字認識に適した文字認識処理を実行し、認識結果ラティスのデータを含む文字認識結果を全体認識結果格納部13に格納する(図3:ステップS1)。なお、ステップS1において行われる文字認識処理はよく知られた処理であるので、ここでは詳細な説明を省略する。
図5に、ステップS1における文字認識処理により得られる認識結果ラティスの一例を示す。認識結果ラティスは、文字認識処理の過程で生成されるデータであり、文字の切り出し領域のデータと、当該切り出し領域に含まれると推定された認識候補と、当該認識候補の確からしさを表す認識信頼度のデータとを含む。なお、各切り出し領域には複数の認識候補が得られることがあるが、図5の例では最も認識信頼度が高い認識候補しか図示していない。
なお、ステップS1においては、文字認識の対象範囲全体を覆うことができ且つ切り出し領域同士が重なることがないような認識候補の組み合わせであって、認識信頼度の総和が最も高い組み合わせを、例えばDP(Dynamic Programming)により特定する。
そして、ステップS1における文字認識処理の結果、図6に示すように「当社はIm唱次活nnerを」という誤った認識結果が得られたとする。図6の例では、ステップS1の処理により特定された組み合わせに含まれる認識候補に対しては、網掛けが付されている。
図7に、全体認識結果格納部13に格納されているデータの一例を示す。図7の例では、認識候補と、認識信頼度と、当該認識候補が占める切り出し領域の左上頂点の座標と、当該認識候補が占める切り出し領域の右下頂点の座標と、当該認識候補がステップS1における文字認識処理において最も確からしいと判定された認識候補の組み合わせ(図6において網掛けが付されている組み合わせ)に含まれるか否かを表す結果フラグとが格納されている。なお、座標とは、画像データ上における座標である。
図3の説明に戻り、領域抽出部14は、全体認識結果格納部13に格納されているデータを用いて領域抽出処理を実施する(ステップS3)。領域抽出処理については、図8乃至図12を用いて説明する。
まず、セグメント定義部141は、全体認識結果格納部13に格納されているデータを用いてセグメントデータを生成し、セグメントデータ格納部142に格納する(図8:ステップS11)。
ここで、ステップS11において行われる処理について説明する。本実施の形態においては、各認識候補に対応してセグメント(以下、SGと略す場合がある)を1つ定義する。SGは、種類、始点及び終点の3つの属性を有する。種類は、「E」、「e」、「J」及び「対象外」のいずれかが割り当てられる。具体的には、認識候補が英字、数字又は英語記号であり且つ当該認識候補に結果フラグが設定されている場合には「E」を割り当て、認識候補が英字、数字又は英語記号であり且つ当該認識候補に結果フラグが設定されていない場合には「e」を割り当て、認識候補が漢字、ひらがな、カタカナ又は日本語記号であり且つ当該認識候補に結果フラグが設定されている場合には「J」を割り当て、認識候補が漢字、ひらがな、カタカナ又は日本語記号であり且つ当該認識候補に結果フラグが設定されていない場合には「対象外」を割り当てる。
SGの始点及び終点は、切り出し領域の左上頂点のx座標及び右下頂点のx座標に応じて定められる。具体的には、図9に示すように、切り出し領域の左上頂点のx座標と右下頂点のx座標に対して、x座標が小さい方から順に0から始まる整数値を割り振ることにより定義する。
また、図10に示すように、各SGに対してセグメント番号を割り当てる。図10の例では、始点の値が小さい(すなわち、x座標が小さい)ほど小さいセグメント番号を割り当てるようになっている。
図11に、セグメントデータ格納部142に格納されているデータの一例を示す。図11の例では、セグメント番号と、種類と、始点と、終点とが格納されている。
図8の説明に戻り、セグメント定義部141は、ステップS11において定義したSGの始点及び終点と画像データ上のx座標との対応関係を表す座標データを生成し、座標データ格納部143に格納する(ステップS13)。
図12に、座標データ格納部143に格納されているデータの一例を示す。図12の例では、始点又は終点のデータと、x座標とが格納されている。
そして、探索部140は、領域候補抽出処理を実施する(ステップS15)。領域候補抽出処理については、図13及び図14を用いて説明する。
まず、ステートオブジェクト(以下、SOと略す場合がある)について説明する。SOは、属性及び機能を有するオブジェクトである。SOは、状態、始点、終点及びIDという4つの属性を有する。状態は、「Initial」、「X」、「A」、「S」、「SS」及び「End」のうちいずれかが割り当てられる。始点及び終点には、ステップS11において定義したSGの始点及び終点の値のうちいずれかが割り当てられる。但し、例外として「−1」という値が割り当てられることもある。IDは、SOを識別するための識別番号である。
SOの機能は、SOに対してSGのデータが入力された場合に当該SGをアクセプトするか否か判定し、アクセプトする場合には自SO以外のSOを新たに生成する、という機能である。
ここで、SOがSGをアクセプトする条件は、「SGの始点=SOの終点+1」であり且つ「SGの種類がSOの状態にアクセプタブル」であることである。なお、前者の条件は、SOに隣接するSGであるか判定するための条件である。
図13に、各SOの状態にアクセプタブルなSGの種類を示す。図13のデータは、SOの状態が「Initial」である場合には種類「J」、「e」又は「E」がアクセプタブルであり、SOの状態が「X」である場合には種類「J」、「e」又は「E」がアクセプタブルであり、SOの状態が「A」である場合には種類「e」又は「E」がアクセプタブルであり、SOの状態が「S」である場合には種類「e」又は「E」がアクセプタブルであり、SOの状態が「SS」である場合には種類「J」、「e」又は「E」がアクセプタブルであり、SOの状態が「End」である場合にはアクセプタブルな種類がないことを表している。なお、SGの種類が「対象外」である場合には、SGはいずれのSOにもアクセプトされない。
また、SOによるSGのアクセプトに関して、以下のような付加ルールを定める。
(α)SGは、既に生成されているいずれのSOについてもアクセプトの条件を満たさない場合、無条件にSO[0]にアクセプトされる。
(β)種類が「E」又は「e」であるSGが、状態が「X」であるSO及び当該SOよりも始点の値が小さいSOのいずれについてもアクセプトの条件を満たす場合、状態が「X」であるSOにはアクセプトされない。
(γ)状態が「SS」であるSOが、種類が「E」又は「e」であるSGについてアクセプトの条件を満たす場合、種類が「J」であるSGがアクセプトの条件を満たしているとしても、種類が「J」であるSGをアクセプトしない。
一方、新たに生成されるSOの属性は、以下のように決定される。
(1)状態
新たに生成されるSOの状態は、図13の表に示したルールに従い決定される。例えば1行目のデータは、状態が「Initial」であるSOは、種類が「J」であるSGをアクセプトすると新たに状態が「X」であるSOを生成し、種類が「e」であるSGをアクセプトすると新たに状態が「A」であるSOを生成し、種類が「E」であるSGをアクセプトすると新たに状態が「S」であるSOを生成することを表している。
また、SOの状態に関しては、以下のような付加ルールを定める。
(δ)状態が「SS」であるSOは、処理対象となるSGが無くなった場合、状態が「End」であるSOを新たに生成する。
図14に、これらのルールに従って決定されるSOの状態についての状態遷移図を示す。
(2)始点
新たに生成されるSOの始点は、アクセプトするSOの始点が「−1」であり且つアクセプトされるSGの種類が「E」又は「e」であるという始点条件が満たされた場合、「アクセプトされるSGの始点」であるとする。一方、始点条件が満たされない場合、新たに生成されるSOの始点は「アクセプトするSOの始点」であるとする。
(3)終点
新たに生成されるSOの終点は、新たに生成されるSOの状態が「End」ではないという終点条件が満たされた場合、「アクセプトされるSGの終点」であるとする。一方、終点条件が満たされない場合、新たに生成されるSOの終点は「アクセプトするSOの終点」であるとする。
次に、図15を用いて、領域候補抽出処理の処理フローについて説明する。まず、ステートオブジェクト管理部1441は、初期化処理を実行する(図15:ステップS21)。初期化処理では、i=1及びNSO=1と設定し、SO[0]を生成する。ここで、iはセグメント番号を表す変数であり、NSOは既に生成したSOの数である。SO[0]は、状態が「Initial」、始点が「−1」、終点が「−1」、IDが「0」とする。
また、ステートオブジェクト管理部1441は、i≦NSGであるか判断する(ステップS23)。NSGは、ステップS11において生成されたセグメントの数である。i≦NSGではないと判断された場合(ステップS23:NOルート)、元の処理に戻る。
一方、i≦NSGであると判断された場合(ステップS23:Yesルート)、ステートオブジェクト管理部1441は、j=0及びtmp=NSOと設定する(ステップS25)。ここで、jはステートオブジェクトのIDを表す変数であり、tmpは生成したSOの数を表す変数である。
そして、ステートオブジェクト管理部1441は、j<NSOであるか判断する(ステップS27)。すなわち、未処理のステートオブジェクトがあるか判断する。j<NSOではないと判断された場合(ステップS27:Noルート)、ステップS39に移行する。
一方、j<NSOであると判断された場合(ステップS27:Yesルート)、ステートオブジェクト管理部1441は、SO[j]にSG[i]のデータを入力する。そして、ステートオブジェクト1442(ここでは、SO[j])は、SG[i]をアクセプトするか判断する(ステップS29)。アクセプトするかの判断は、上で述べたルールに従って行う。SO[j]がSG[i]をアクセプトしないと判断された場合(ステップS29:Noルート)、ステップS37に移行する。
これに対し、SO[j]がSG[i]をアクセプトすると判断された場合(ステップS29:Yesルート)、ステートオブジェクト1442は、新たに生成するSOの属性値を上で述べたルールに従って求め、既に生成されたSOと同一のSOがあるか判断する(ステップS31)。新たに生成するSOと同一のSOがあると判断された場合(ステップS31:Yesルート)、ステップS37の処理に移行する。
一方、新たに生成するSOと同一のSOがないと判断された場合(ステップS31:Noルート)、ステートオブジェクト1442は、ステップS31で求めた属性値に基づいて新たにSO[j+1]を生成する(ステップS33)。また、ステートオブジェクト管理部1441は、tmpを1インクリメントする(ステップS35)。
そして、ステートオブジェクト管理部1441は、jを1インクリメントする(ステップS37)。また、ステートオブジェクト管理部1441は、iを1インクリメントし、さらにNSO=tmpと設定する(ステップS39)。そしてステップS23の処理に戻る。
図8の説明に戻り、フィルタリング処理部145は、状態が「End」であるSOの始点及び終点のデータをステートオブジェクト管理部1441から受け取り、当該SOの始点及び終点のデータをメインメモリ等の記憶装置に格納する(ステップS17)。
また、フィルタリング処理部145は、ステップS17において取得した始点及び終点のデータに対応するx座標の範囲を座標データ格納部143から特定する。また、フィルタリング処理部145は、当該x座標の範囲に含まれる切り出し領域を特定し、特定された切り出し領域を覆う外接矩形の頂点の座標を算出する(ステップS19)。そして元の処理に戻る。
図16に、抽出結果格納部146に格納されているデータの一例を示す。図16の例では、領域番号と、領域の左端のx座標と、領域の上端のy座標と、領域の右端のx座標と、領域の下端のy座標とが格納されている。なお、図16の例では領域が1つしか示されていないが、複数の領域についてのデータが格納されている場合もある。
以上のような処理を実施することにより、日本語の文字列の画像における英数字の領域を高精度で特定することができるようになる。
ここで、上で説明した領域抽出処理(ステップS3)を具体例を用いて説明する。前提として、ステップS1における文字認識処理の結果、図5に示した認識結果ラティスが得られたとする。但し、説明を簡単にするため、各切り出し領域に含まれる認識候補のうち最も認識信頼度が高い認識候補に対応するセグメントのみを処理対象とする。また、説明のための図として図13、図14及び図17を用いる。図17において、各セグメントに付された数字はセグメント番号を表しており、各セグメント内の英字はセグメントの種類を表している。セグメント内に英字が無い場合には、当該セグメントの種類が「対象外」であることを表している。
最初に、ステップS21における初期化処理においてSO[0]が生成される。SO[0]は、SO[0]={Initial,−1,−1,0}となる。括弧内は、左から順に状態、始点、終点及びIDを表している。
次に、最初のセグメントであるSG[1]={J,0,1}が、生成されたSO[0]に入力される。括弧内は、左から順に種類、始点及び終点を表している。ここで、「SG[1]の始点=SO[0]の終点+1」且つ「SG[1]の種類「J」がSO[0]の状態「Initial」にアクセプタブル」である。従って、SO[0]は新たにSO[1]={X,−1,1,1}を生成する。
次に、SG[2]がSOに入力されるが、SG[2]の種類は「対象外」なのでSOにアクセプトされることはない。
次に、SG[3]={J,2,5}が、SO[0]及びSO[1]に入力される。SO[0]はアクセプトの条件を満たさない。一方、SO[1]については、「SG[3]の始点=SO[1]の終点+1」且つ「SG[3]の種類「J」がSO[1]の状態「X」にアクセプタブル」である。従って、SO[1]は新たにSO[2]={X,−1,5,2}を生成する。
次に、SG[4]及びSG[5]がSOに入力されるが、SG[4]及びSG[5]の種類は「対象外」なのでSOにアクセプトされることはない。
次に、SG[6]={e,6,7}が、SO[0]乃至SO[2]に入力される。SO[0]及びSO[1]はアクセプトの条件を満たさない。一方、SO[2]については、「SG[6]の始点=SO[2]の終点+1」且つ「SG[6]の種類「e」がSO[2]の状態「X」にアクセプタブル」である。従って、SO[2]は新たにSO[3]={A,6,7,3}を生成する。
次に、SG[7]={J,6,9}が、SO[0]乃至SO[3]に入力される。SO[0]、SO[1]及びSO[3]はアクセプトの条件を満たさない。一方、SO[2]については、「SG[7]の始点=SO[2]の終点+1」且つ「SG[7]の種類「J」がSO[2]の状態「X」にアクセプタブル」である。従って、SO[2]は新たにSO[4]={X,−1,9,4}を生成する。
次に、SG[8]及びSG[9]がSOに入力されるが、SG[8]及びSG[9]の種類は「対象外」なのでSOにアクセプトされることはない。
次に、SG[10]={E,10,11}が、SO[0]乃至SO[4]に入力される。SO[0]乃至SO[3]はアクセプトの条件を満たさない。一方、SO[4]については、「SG[10]の始点=SO[4]の終点+1」且つ「SG[10]の種類「E」がSO[4]の状態「X」にアクセプタブル」である。従って、SO[4]は新たにSO[5]={S,10,11,5}を生成する。
次に、SG[11]がSOに入力されるが、SG[11]の種類は「対象外」なのでSOにアクセプトされることはない。
次に、SG[12]={E,12,14}が、SO[0]乃至SO[5]に入力される。SO[0]乃至SO[4]はアクセプトの条件を満たさない。一方、SO[5]については、「SG[12]の始点=SO[5]の終点+1」且つ「SG[12]の種類「E」がSO[5]の状態「S」にアクセプタブル」である。従って、SO[5]は新たにSO[6]={SS,10,14,6}を生成する。
次に、SG[13]がSOに入力されるが、SG[13]の種類は「対象外」なのでSOにアクセプトされることはない。
次に、SG[14]={e,15,16}が、SO[0]乃至SO[6]に入力される。SO[0]乃至SO[5]はアクセプトの条件を満たさない。一方、SO[6]については、「SG[14]の始点=SO[6]の終点+1」且つ「SG[14]の種類「e」がSO[6]の状態「SS」にアクセプタブル」である。従って、SO[6]は新たにSO[7]={SS,10,16,7}を生成する。
次に、SG[15]={J,15,18}が、SO[0]乃至SO[7]に入力される。SO[0]乃至SO[5]、及びSO[7]はアクセプトの条件を満たさない。一方、SO[6]については、「SG[15]の始点=SO[6]の終点+1」且つ「SG[15]の種類「e」がSO[6]の状態「SS」にアクセプタブル」である。但し、SO[6]は、種類が「e」であるSG[14]をアクセプトしており付加ルール(γ)が適用されるため、SG[15]はアクセプトされない。
次に、SG[16]={e,17,18}が、SO[0]乃至SO[7]に入力される。SO[0]乃至SO[6]はアクセプトの条件を満たさない。一方、SO[7]については、「SG[16]の始点=SO[7]の終点+1」且つ「SG[16]の種類「e」がSO[7]の状態「SS」にアクセプタブル」である。従って、SO[7]は新たにSO[8]={SS,10,18,8}を生成する。
次に、SG[17]={e,17,21}が、SO[0]乃至SO[8]に入力される。SO[0]乃至SO[6]及びSO[8]はアクセプトの条件を満たさない。一方、SO[7]については、「SG[17]の始点=SO[7]の終点+1」且つ「SG[17]の種類「e」がSO[7]の状態「SS」にアクセプタブル」である。従って、SO[7]は新たにSO[9]={SS,10,21,9}を生成する。
次に、SG[18]={e,19,21}が、SO[0]乃至SO[9]に入力される。SO[0]乃至SO[7]及びSO[9]はアクセプトの条件を満たさない。一方、SO[8]については、「SG[18]の始点=SO[8]の終点+1」且つ「SG[18]の種類「e」がSO[8]の状態「SS」にアクセプタブル」である。但し、新たにSO[10]={SS,10,21,10}を生成すると、SO[9]と同一のSOが生成されてしまうことになるため、SO[10]は生成されない(ステップS31のYesルート)。
以上のような処理をSG[35]まで繰り返す。すると、SG[35]がSOに入力された場合には、状態が「End」であり、始点が「10」、終点が「35」であるSOが生成される。そして、状態が「End」であるSOに対応する領域の座標をステップS19において算出する。このようにして、英数字の領域が特定される。
図3の処理フローの説明に戻り、再認識処理部15は、画像データ格納部11に格納されている画像データにおける、抽出結果格納部146に格納されている座標データにより特定される領域に対して、英数字の文字認識に適した文字認識処理を実行する。そして、再認識処理部15は、認識結果ラティスのデータを含む文字認識結果を再認識結果格納部16に格納する(ステップS5)。図18に、ステップS5における文字認識処理により得られる認識結果ラティスの一例を示す。なお、再認識結果格納部16に格納されているデータのフォーマットは、結果フラグの列が含まれていないという点を除いて、全体認識結果格納部13に格納されているデータのフォーマットと同様であるので、ここでは説明を省略する。
そして、決定部17は、全体認識結果格納部13及び再認識結果格納部16から、文字認識の対象範囲全体を覆うことができ且つ切り出し領域同士が重なることがないような認識候補の組み合わせであって、認識信頼度の総和が最も高い組み合わせを特定する。例えば、DPにより特定する。そして、決定部17は、特定された組み合わせに含まれる認識候補のデータを含む出力データを出力データ格納部18に格納する(ステップS7)。
ステップS7において行われる処理について、図19を用いて説明する。ステップS7においては、まず全体認識結果格納部13及び再認識結果格納部16に格納されている認識結果ラティスのデータを統合し、メインメモリ等の記憶装置に格納する。そして、統合したデータを解析し、認識信頼度の総和が最も高い認識候補の組み合わせを特定する。図19の例では、ステップS7の処理により特定された組み合わせに含まれる認識候補に対しては、網掛けが付されている。
さらに、出力部19は、出力データ格納部18に格納されているデータを表示装置に表示する(ステップS9)。そして処理を終了する。
以上のような処理を実施することにより、日本語の文字列の画像に対する文字認識処理を高精度で行うことができるようになる。
以上本技術の一実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、上で説明した文字認識処理装置1の機能ブロック図は必ずしも実際のプログラムモジュール構成に対応するものではない。
また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
また、上では画像における左側の文字から順に処理対象とするような例を示したが、右側の文字から順に処理対象とするようにしてもよい。
また、上で述べた例では、各切り出し領域における認識候補のうち最も認識信頼度が高い認識候補を処理対象とするような例を示したが、最も認識信頼度が高い認識候補以外の認識候補を処理対象とするようにしてもよい。
なお、上で述べた文字認識処理装置1は、コンピュータ装置であって、図20に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
なお、図2に示した各処理部は、CPU2503及びプログラムの組み合わせ、すなわち、CPU2503がプログラムを実行することにより実現してもよい。より具体的には、CPU2503は、HDD2505又はメモリ2501に記憶されたプログラムに従った動作を行うことで、上で述べたような処理部として機能してもよい。また、図2に示した各データ格納部は、図20におけるメモリ2501やHDD2505等として実現してもよい。
以上述べた本技術の実施の形態をまとめると以下のようになる。
本実施の形態に係る文字認識処理装置は、(A)英数字を含む日本語の文字列の画像データに対して第1の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が第1の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第1データ格納部と、(B)第1データ格納部に格納されているデータを用いて、認識候補が英数字であり且つ当該認識候補にフラグが設定されている文字領域を含む第1の文字領域を起点として、当該第1の文字領域から所定の方向に連続する文字領域であり且つ認識候補が英数字である第2の文字領域を探索し、第1及び第2の文字領域を含む第3の文字領域を特定する探索部と、(C)特定された第3の文字領域の位置情報を算出し、第2データ格納部に格納する算出部とを有する。
英数字を含む日本語の文字列に対する文字認識は、英数字の部分で誤認識を生じることが多く、たとえ第1の文字認識処理において最も確からしい認識結果であると認識された認識候補が英数字以外であっても、本来は英数字である可能性もある。従って、上で述べたような処理を行えば、日本語の文字列における英数字の領域を特定する精度を向上させることができるようになる。
また、上で述べた第1データ格納部には、認識候補の各々について当該認識候補の確からしさを表す確度のデータがさらに格納されるようにしてもよい。そして、上で述べた本装置が、(D)第2データ格納部に格納されている第3の文字領域の位置情報を用いて、画像データにおける第3の文字領域に対して英数字の文字認識のための第2の文字認識処理を実行し、(E)当該第2の文字認識処理により得られる認識候補の各々について、当該認識候補と、画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第3データ格納部に格納する再認識処理部と、(F)確度の総和が最大になるように、第1及び第3データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納する決定部とをさらに有するようにしてもよい。英数字である可能性が高い文字領域に対して英数字の文字認識のための第2の文字認識処理を行えば、適切な認識結果を得られる可能性が高い。そのため、上で述べたような処理を行うことにより、信頼性が高い出力データを生成することができるようになる。
また、上で述べた第1の文字領域には認識候補が英数字であり且つ当該認識候補にフラグが設定されている文字領域が複数含まれ、当該複数の文字領域が隣接しているようにしてもよい。このようにすれば、第3の文字領域に含まれる文字が英数字である可能性がさらに高くなる。
また、上で述べた第2の文字領域についての認識候補は、当該第2の文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補であるようにしてもよい。最も確からしい認識候補を用いることにより、結果の信頼性を高くすることができるようになる。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
英数字を含む日本語の文字列の画像データに対して第1の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、前記画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が前記第1の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第1データ格納部と、
前記第1データ格納部に格納されているデータを用いて、連続する文字領域を含み且つ当該連続する文字領域の各々の認識候補が英数字である第1の領域であって、当該連続する文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第1の領域を特定する探索部と、
特定された前記第1の文字領域の位置情報を算出し、第2データ格納部に格納する算出部と、
を有する文字認識処理装置。
(付記2)
前記第1データ格納部には、前記認識候補の各々について当該認識候補の確からしさを表す確度のデータがさらに格納されており、
前記第2データ格納部に格納されている前記第1の領域の位置情報を用いて、前記画像データにおける前記第1の領域に対して英数字の文字認識のための第2の文字認識処理を実行し、当該第2の文字認識処理により得られる認識候補の各々について、当該認識候補と、前記画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第3データ格納部に格納する再認識処理部と、
前記確度の総和が最大になるように、前記第1及び第3データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納する決定部と、
をさらに有する付記1記載の文字認識処理装置。
(付記3)
前記第1の領域には認識候補が英数字であり且つ当該認識候補に前記フラグが設定されている文字領域が複数含まれ、当該複数の文字領域が隣接している
ことを特徴とする付記1又は2記載の文字認識処理装置。
(付記4)
前記第1の領域に含まれる文字領域についての認識候補は、当該文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補である
ことを特徴とする付記1乃至3いずれか1つ記載の文字認識処理装置。
(付記5)
前記探索部が、
前記第1データ格納部に格納されている認識候補のうち、英数字であり且つ前記フラグが設定されている認識候補が占める第1の文字領域を特定し、
特定された前記第1の文字領域の所定の方向側に隣接する第2の文字領域について、認識候補が英数字であり且つ前記フラグが設定されているか判断し、認識候補が英数字であり且つ前記フラグが設定されていると判断された場合には、前記第1及び第2の文字領域を含む第3の文字領域を特定し、
特定された前記文字領域から所定の方向に連続する文字領域について、前記第3の文字領域に近い文字領域から順に認識候補が英数字であるか判断する判断処理を実行し、
前記判断処理を、認識候補が英数字ではないと判断された文字領域が出現するまで実行することにより、前記第1の領域を特定する
ことを特徴とする付記1乃至4いずれか1つ記載の文字認識処理装置。
(付記6)
英数字を含む日本語の文字列の画像データに対して第1の文字認識処理を行った場合に得られる文字の認識候補の各々について、当該認識候補と、前記画像データにおいて当該認識候補が占める文字領域の位置情報と、当該認識候補が前記第1の文字認識処理において最も確からしい認識結果であると認識された場合にはフラグとを格納する第1データ格納部に格納されているデータを用いて、連続する文字領域を含み且つ当該連続する文字領域の各々の認識候補が英数字である第1の領域であって、当該連続する文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第1の領域を特定するステップと、
特定された前記第1の文字領域の位置情報を算出し、第2データ格納部に格納するステップと、
を、コンピュータに実行させるための文字認識処理プログラム。
(付記7)
前記第1データ格納部には、前記認識候補の各々について当該認識候補の確からしさを表す確度のデータがさらに格納されており、
前記第2データ格納部に格納されている前記第1の領域の位置情報を用いて、前記画像データにおける前記第1の領域に対して英数字の文字認識のための第2の文字認識処理を実行し、当該第2の文字認識処理により得られる認識候補の各々について、当該認識候補と、前記画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第3データ格納部に格納するステップと、
前記確度の総和が最大になるように、前記第1及び第3データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納するステップと、
をさらに実行させるための付記6記載の文字認識処理プログラム。
(付記8)
前記第1の領域には認識候補が英数字であり且つ当該認識候補に前記フラグが設定されている文字領域が複数含まれ、当該複数の文字領域が隣接している
ことを特徴とする付記6又は7記載の文字認識処理プログラム。
(付記9)
前記第1の領域に含まれる文字領域についての認識候補は、当該文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補である
ことを特徴とする付記6乃至8いずれか1つ記載の文字認識処理プログラム。
(付記10)
前記探索ステップが、
前記第1データ格納部に格納されている認識候補のうち、英数字であり且つ前記フラグが設定されている認識候補が占める第1の文字領域を特定するステップと、
特定された前記第1の文字領域の所定の方向側に隣接する第2の文字領域について、認識候補が英数字であり且つ前記フラグが設定されているか判断し、認識候補が英数字であり且つ前記フラグが設定されていると判断された場合には、前記第1及び第2の文字領域を含む第3の文字領域を特定するステップと、
特定された前記第3の文字領域から所定の方向に連続する文字領域について、前記第3の文字領域に近い文字領域から順に認識候補が英数字であるか判断する判断ステップと、
前記判断ステップの処理を、認識候補が英数字ではないと判断された文字領域が出現するまで実行することにより、前記第1の領域を特定するステップと、
を含む付記6乃至9いずれか1つ記載の文字認識処理プログラム。
1 文字認識処理装置 11 画像データ格納部
12 全体認識処理部 13 全体認識結果格納部
14 領域抽出部 15 再認識処理部
16 再認識結果格納部 17 決定部
18 出力データ格納部 19 出力部
140 探索部 141 セグメント定義部
142 セグメントデータ格納部 143 座標データ格納部
144 領域探索部 1441 ステートオブジェクト管理部
1442 ステートオブジェクト 145 フィルタリング処理部
146 抽出結果格納部

Claims (5)

  1. 英数字を含む日本語の文字列の画像データに対する第1の文字認識処理において生成された複数の文字領域の各々について、当該文字領域を占める認識候補と、当該文字領域の開始位置情報及び終了位置の情報と、当該文字領域を占める認識候補が前記第1の文字認識処理の結果として採用された場合にはフラグとを格納する第1データ格納部と、
    前記第1データ格納部に格納されているデータを用いて、或る文字領域と、開始位置が当該或る文字領域の終了位置に最も近い文字領域とを特定する処理を繰り返すことで、連続する複数の文字領域を含む領域を1又は複数生成し、生成された1又は複数の前記領域のうち、前記連続する複数の文字領域の各々の認識候補が英数字であり且つ前記連続する複数の文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第1の領域を特定する探索部と、
    特定された前記第1の領域の位置情報を算出し、第2データ格納部に格納する算出部と、
    を有する文字認識処理装置。
  2. 前記第1の文字認識処理において生成された複数の文字領域は、
    前記第1の文字認識処理の結果として採用された認識候補が占める文字領域と、前記第1の文字認識処理の結果として採用されなかった認識候補が占める文字領域とを含む
    請求項1記載の文字認識処理装置。
  3. 前記第1データ格納部、前記複数の文字領域の各々について当該文字領域を占める認識候補の確からしさを表す確度のデータさらに格納
    前記第2データ格納部に格納されている前記第1の領域の位置情報を用いて、前記画像データにおける前記第1の領域に対して英数字の文字認識のための第2の文字認識処理を実行し、当該第2の文字認識処理により得られる認識候補の各々について、当該認識候補と、前記画像データにおける当該認識候補が占める文字領域の位置情報と、当該認識候補の確からしさを表す確度のデータとを第3データ格納部に格納する再認識処理部と、
    前記確度の総和が最大になるように、前記第1及び第3データ格納部から認識候補を抽出し、抽出された当該認識候補を含む出力データを出力データ格納部に格納する決定部と、
    をさらに有する請求項1又は2記載の文字認識処理装置。
  4. 前記第1データ格納部に格納されている前記識候補の各々は、当該認識候補が占める文字領域についての複数の認識候補のうち最も確からしいと判定された認識候補である
    ことを特徴とする請求項1乃至3いずれか1つ記載の文字認識処理装置。
  5. 英数字を含む日本語の文字列の画像データに対する第1の文字認識処理において生成された複数の文字領域の各々について、当該文字領域を占める認識候補と、当該文字領域の開始位置情報及び終了位置の情報と、当該文字領域を占める認識候補が前記第1の文字認識処理の結果として採用された場合にはフラグとを格納する第1データ格納部に格納されているデータを用いて、或る文字領域と、開始位置が当該或る文字領域の終了位置に最も近い文字領域とを特定する処理を繰り返すことで、連続する複数の文字領域を含む領域を1又は複数生成し、生成された1又は複数の前記領域のうち、前記連続する複数の文字領域の各々の認識候補が英数字であり且つ前記連続する複数の文字領域の少なくとも一部の文字領域の認識候補に前記フラグが設定されている第1の領域を特定するステップと、
    特定された前記第1の領域の位置情報を算出し、第2データ格納部に格納するステップと、
    を、コンピュータに実行させるための文字認識処理プログラム。
JP2010293539A 2010-12-28 2010-12-28 文字認識処理装置及びプログラム Active JP5672003B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010293539A JP5672003B2 (ja) 2010-12-28 2010-12-28 文字認識処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010293539A JP5672003B2 (ja) 2010-12-28 2010-12-28 文字認識処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012141750A JP2012141750A (ja) 2012-07-26
JP5672003B2 true JP5672003B2 (ja) 2015-02-18

Family

ID=46677998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010293539A Active JP5672003B2 (ja) 2010-12-28 2010-12-28 文字認識処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5672003B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2671533B2 (ja) * 1989-12-21 1997-10-29 日本電気株式会社 文字列認識方法及びその装置
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
JP3919617B2 (ja) * 2002-07-09 2007-05-30 キヤノン株式会社 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP4759963B2 (ja) * 2004-09-22 2011-08-31 沖電気工業株式会社 複数の認識辞書を利用した文字認識装置

Also Published As

Publication number Publication date
JP2012141750A (ja) 2012-07-26

Similar Documents

Publication Publication Date Title
JP5716328B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP5071914B2 (ja) 認識グラフ
US5943443A (en) Method and apparatus for image based document processing
US6047251A (en) Automatic language identification system for multilingual optical character recognition
JP2734386B2 (ja) 文字列読み取り装置
US9836646B2 (en) Method for identifying a character in a digital image
US9711117B2 (en) Method and apparatus for recognising music symbols
WO2018125926A1 (en) Robust string text detection for industrial optical character recognition
US7162086B2 (en) Character recognition apparatus and method
JP3452774B2 (ja) 文字認識方法
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
US8750571B2 (en) Methods of object search and recognition
Inkeaw et al. Recognition-based character segmentation for multi-level writing style
EP2138959B1 (en) Word recognizing method and word recognizing program
Ghaleb et al. Segmentation of offline handwritten Arabic text
US11551461B2 (en) Text classification
Nguyen et al. A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition
JP5672003B2 (ja) 文字認識処理装置及びプログラム
JP2012098905A (ja) 文字認識装置、文字認識方法及びプログラム
JP4087191B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP2002063197A (ja) 検索装置、記録媒体およびプログラム
KR100919497B1 (ko) 이미지에 포함되는 한글 문자를 인식하기 위하여 자소분할하는 방법 및 컴퓨터 판독 가능한 기록 매체
US20120201420A1 (en) Object Recognition and Describing Structure of Graphical Objects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141208

R150 Certificate of patent or registration of utility model

Ref document number: 5672003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350