JP4141217B2 - Character recognition method, program used for executing the method, and character recognition apparatus - Google Patents

Character recognition method, program used for executing the method, and character recognition apparatus Download PDF

Info

Publication number
JP4141217B2
JP4141217B2 JP2002276582A JP2002276582A JP4141217B2 JP 4141217 B2 JP4141217 B2 JP 4141217B2 JP 2002276582 A JP2002276582 A JP 2002276582A JP 2002276582 A JP2002276582 A JP 2002276582A JP 4141217 B2 JP4141217 B2 JP 4141217B2
Authority
JP
Japan
Prior art keywords
character
morpheme
character recognition
distance
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002276582A
Other languages
Japanese (ja)
Other versions
JP2004118254A (en
Inventor
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002276582A priority Critical patent/JP4141217B2/en
Publication of JP2004118254A publication Critical patent/JP2004118254A/en
Application granted granted Critical
Publication of JP4141217B2 publication Critical patent/JP4141217B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、OCR(光学的文字読み取り装置)等に利用される文字認識処理に関し、より特定すると、文書原稿から読み取った画像データから切り出された文字を認識する処理の一環として、形態素解析を利用することにより高精度な文字認識を行うことを可能にする文字認識方法、該方法の実行に用いるプログラム及び文字認識装置に関する。
【0002】
【従来の技術】
従来より、OCR(光学的文字読み取り装置)等において行われているように、スキャナーにより文書原稿から読み取った画像データに基づいて、原稿に記された文字を認識する処理が行われている。この処理を行う際に、読み取った原稿画像の文字列データから切り出された文字に対する文字認識を高精度に行うために、言語処理が行われている。その中には、単語の切り出し、或いは形態素解析により認識結果の評価を行うものが知られている。
前者の単語の切り出し誤りの検出を行うものの例として、下記特許文献1を示すことができる、ここには「単語間隔度演算方法及び単語間隔度演算装置」として、欧文のような文字間隔と単語間隔に違いがあるような認識対象文字列における文字、単語それぞれの間隔とに着目し、原稿毎に異なる、文字間隔と単語間隔の関係を入力文毎に動的に算出し、高精度な単語切り出しを実現する方法に関して言及したものである。しかしながら、引用文献1の発明は欧文を認識対象として意識したものであり、日本語のような膠着語においては、単語間隔も文字間隔も差がない場合が主であり、このような言語に対しては有効に機能しない。
また、後者の形態素解析により認識結果の評価を行うものの例として、下記特許文献2を示すことができる、ここには「文字認識後処理装置」として、文字認識結果の後処理として行う形態素解析により、文字認識の精度向上を図ることを可能にし、日本語のような膠着語に適用し得る方法が示されている。しかしながら、特許文献2の発明の課題は、未知語に対する処理に係わるもので、未知語の範囲を定める際に、文字種に注目して長さ(文字数)制限を加えるものである。従って、形態素解析に用いる辞書中にある単語を不適切に適用した場合、文字種による未知語長さ制限は、辞書単語の範囲に及ぶことはなく、あくまで辞書で検索できなかった範囲に限られる。つまり、辞書単語の誤った適用を排除することなく、未知語範囲を探すという目的に限定したものである。
【0003】
【特許文献1】
特開平7-28931号公報
【特許文献2】
特開平10-124617号公報
【0004】
【発明が解決しようとする課題】
上記のように、特許文献2の提案は、形態素解析を導入した場合にも、未知語範囲を探すという目的に限定したものである。従って、形態素解析法を適用した場合に正解として得られた形態素に生じる可能性があるエラー(下記[発明の実施の形態]の[0019]項における説明、参照)については、この提案により解決されず、未解決のままになっている。
本発明は、文書原稿の読み取り画像データから切り出された文字列を対象に文字認識を行う上述の従来技術の問題点に鑑みてなされたものであり、その目的は、日本語のような膠着語に適用可能な形態素解析を導入することにより文字認識精度の向上を図り、しかも形態素解析により正解が得られた場合にも、この形態素解析結果にさらにエラーチェックをかけることにより、文字認識精度の向上を図ることを可能にする処理ステップ(或いは処理手段)を備えた文字認識方法、該方法の実行に用いるプログラム及び文字認識装置を提供することにある。
【0005】
【課題を解決するための手段】
請求項1の発明は、処理対象として入力された文字列を有する文書画像から文字を切り出す文字切り出しステップと、切り出された各文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字列を対象にして文字の外接矩形における隣接矩形間距離を算出する矩形間距離算出ステップと、前記文字認識ステップで認識された文字列に対する形態素を解析する形態素解析ステップと、前記矩形間距離算出ステップ及び形態素解析ステップの結果に基づいて得た文字間距離と形態素間距離とを比較するステップと、形態素間距離より大きな文字間距離を含む形態素を検出する形態素解析チェックステップを有することを特徴とする文字認識方法である。
【0006】
請求項2の発明は、請求項1に記載された文字認識方法において、前記形態素解析チェックステップにより検出した形態素間距離より大きな文字間距離を含む形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理ステップを有することを特徴とする方法である。
【0007】
請求項3の発明は、請求項1又は2に記載された文字認識方法において、前記形態素解析ステップに辞書検索を用い、前記形態素解析チェックは、辞書検索できた形態素に限って、形態素解析チェックを行うようにしたことを特徴とする方法である。
【0008】
請求項4の発明は、処理対象として入力された文字列を有する文書画像から文字を切り出す文字切り出し手段と、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識手段有する文字認識装置であって、さらに前記文字認識手段で認識された文字列を対象にして文字の外接矩形における隣接矩形間距離を算出する矩形間距離算出手段と、前記文字認識手段で認識された文字列に対する形態素を解析する形態素解析手段と、前記矩形間距離算出手段及び形態素解析手段の結果に基づいて得た文字間距離と形態素間距離とを比較する比較手段と、形態素間距離より大きな文字間距離を含む形態素を検出する形態素解析チェック手段を有することを特徴とする文字認識装置である。
【0009】
請求項5の発明は、請求項4に記載された文字認識装置において、前記形態素解析チェック手段で検出した形態素間距離より大きな文字間距離を含む形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理手段を有することを特徴とする文字認識装置である。
【0010】
請求項6の発明は、請求項4又は5に記載された文字認識装置において、前記形態素解析に辞書検索手段を用い、前記形態素解析チェックは、辞書検索できた形態素に限って、形態素解析チェックを行うようにしたことを特徴とする文字認識装置である。
【0011】
請求項7の発明は、請求項乃至のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラムである。
【0015】
【発明の実施の形態】
本発明を添付する図面とともに示す以下の実施形態に基づき説明する。
本発明は、入力された処理対象文書の文字列から切り出された文字を認識する処理の一環として、高精度な文字認識を実現するために、認識処理結果に形態素解析を適用し、さらに形態素解析の誤りを検出し、延いては文字認識誤りを訂正することにより、さらに文字認識精度の向上を図ることを特徴とするものである。 以下に、この形態素解析の誤りチェックについて、その実施形態を示すことにより詳細に説明する。下記「実施形態1」〜「実施形態3」は、文字間隔と形態素間隔との関係に着目し、形態素内部における文字間隔の配置の乱れを検出、即ち文字間隔と形態素間隔が所定の関係にあるか、否かをチェックする例を示し、「実施形態4」〜「実施形態8」は、品詞など文法属性に加えて形態素表層の文字種類に基づく接続規則、即ち形態素の両端の文字の種類と、それらに隣接する文字の種類との間の関係が予め定めた接続規則を満足するか、否かをチェックする例を示す。
【0016】
先ず、形態素解析の前に行う文字切り出し及び文字認識処理について概略を説明する。
図1は、処理対象となる文書画像の一例を示す。なお、下記の各実施形態では、日本語文の横書原稿を例に説明するが、特にことわらない限り、本発明は、例示に限定されるものではなく、形態素解析に基づく後処理を実施する際に、品詞などの文法属性以外に、文字間距離、形態素間距離および形態素表層の文字種類に対する制約を設けることによって、高精度に後処理を行うことを示すものであり、特定の言語、文字画像種類(手書き/活字文字など)、書式(縦書き/横書き)に限定されない。
図1に示す対象文書画像から文字単位を含むと見なせる文字候補を切り出す処理を行うが、ここでは、文字行を単位とするので、文字候補の切り出しの前段で、先ず行切り出しの処理を行う。
この行切り出し処理では、対象画像中の黒ランの外接矩形の抽出による切り出し方法を適用する。この切り出し方法では、文字は通常黒で描かれるので、黒値を示す連続画素のかたまりである黒ランを求め、求めた黒ランから文字要素と思われる矩形を統合して外接矩形を抽出する。図2は、この外接矩形を抽出した結果を示す。次いで、抽出された文字要素と思われる黒ランの外接矩形について近隣同士を所定の基準に従い連結していき、行に成長させ、これを目的の行として切り出す処理を行う。図3は、行切り出し処理により得られた結果を示す。
この行切り出しの後に、画像を1文字ずつの範囲に分割し、認識対象の文字候補としての文字切り出しを行い、切り出された文字に認識処理を行う。
文字認識処理は、認識対象の文字を認識辞書を用いて辞書に蓄積された文字と照合し、特徴量の一致度に基づく認識辞書照合スコアや言語的な尤度に基づいて、尤度の高い上位の解が選択され、その解を与える文字に対応するコードが処理結果として求められる。
このような、一般的な文字認識処理に従って、本実施形態においても、対象とする文書画像データに対する文字認識処理を行い、ほぼ認識結果が確定した段階で、形態素解析を行う。
【0017】
「実施形態1」
本実施形態は、文字を認識する処理の一環として、文字認識結果に対して形態素解析を適用し、さらに形態素解析結果をチェックし、解析の誤りを検出する方法に係わり、形態素内部における文字間隔の配置の乱れをチェックすることにより解析結果の形態素に生じる誤りを検出する方法である。
先ず、この形態素解析結果のチェック方法の原理説明をする。
図4に「報告書 (案)」よりなる1行分の原画像(A)と、その読み取り画像データである入力文(B)、その2順位までの認識結果(C)を示す。
この認識結果を対象に、後処理において形態素解析を実施する。形態素解析には、解析用の辞書を用いる。この解析対象に関する形態素について、この辞書には、形態素とその品詞の属性として、
報告 名詞
書(く) 動詞
書 名詞 :「〜書」
案 名詞
が登録されているとすると、文字認識候補の組み合わせから辞書単語、
報告 名詞
書(く) 動詞
書 名詞
案 名詞
を検索する。なお、書(く)については、図4において破線で囲まれた“書く”の組み合わせに当たる。
この結果を受け、形態素の接続を検査した結果、
/報告/書/(/案/)/ ------------ (1.1)
/報告/書く/案/)/ ------------ (1.2)
という2種類の接続が成立する。この結果に対し、かな漢字変換で用いられることの多い、最小文節数優先のヒューリスティクスを適用すると、分割数の少い (1.2) が選択され、次の認識結果が得られる。
報告書く案) ------------ (1.3)
上記(1.3)に示す結果では、「(」→「く」の置換誤りが生じている(このエラーに対し、これまでは有効な解決法がなく、この点が本発明の解決課題となる)。
この誤りが生じる原因は、辞書単語「書く」が誤った辞書検索だからであり、形態素解析において使用すべきではなく、何らかの方法でこの選択を抑制する必要がある。
【0018】
そこで、文字コードのみに基づいた辞書検索でなく、文字間隔をも考慮した形態素検索の制限を行うという方法を採用することが考えられる。
このための手法としては、まず、単に文字間隔に制限を加え、例えば、1文字の外接矩形の幅以上離れた矩形は接続しないで検索する、といった方法が考えられる。例えば、図5に示す文字列「報告書(案)」の場合には、同図中に示すように、文字間距離 a,b,d,e は1文字幅fより小さいので、隣接する文字を結合して(即ち、文字間距離 a,b,d,e <文字幅f :隣接文字は結合可能)、辞書検索を試みてよい。他方、文字間距離c は1文字幅fより大きいので、隣接する文字と分割すべき(即ち、文字間距離 c >文字幅f :隣接文字は結合不可能)であり、「書」と「(」とは結合できないと判断する。
しかしながら、この方法では図6に示す文字列「報告書(案)」ように、図5と同じ文字よりなる文字列であっても、全文字が離れて配置された場合、単語が検索できなくなる(図6では、「報告」といった単語がこの例に当たる)という弊害があり、好ましくない。
【0019】
そこで、本発明においては、この弊害を除いて、次に示す条件により辞書検索の結果に対してチェックをかけ、形態素解析結果が適正であるか、否かを判断する。つまり、日本語のような膠着語の場合、一般には1行において、形態素間距離と形態素内の文字間距離との差はなく、等しいので、
形態素間距離 ≧ 文字間距離 ------------ (1.4)
の関係が成立する。
これは、英文のように単語を分ち書きする言語の場合には、形態素間距離は文字間距離よりも常に大きいという点との特徴的な違いである。よって、上記 (1.4)の関係を形態素内における文字配置の異常を検出する条件とし、この関係を満足しない場合には、不正な辞書検索を行った結果である可能性が高いと判断する。
手順としては、後処理も含めて1行の認識結果が確定した時点で、文字間距離と形態素間距離を求め、上記(1.4)の関係を満足しない形態素を検出する。この形態素内に誤認識が含まれている場合が多い。
図7に、文字間距離と形態素間距離に基づいて、形態素の不正接続を判定する方法を説明するための適用例を示す。
図7の(I)は、上記(1.1)に示した形態素解析結果「/報告/書/(/案/)/」であり、英大文字Aで示された形態素間距離(形態素「報告」,「書」間距離)は、形態素内部の文字間距離 a (形態素「報告」内の文字間距離)とほぼ等しいので、正常な形態素接続であると判定される。
他方、図7の(II)は、上記(1.2)に示した形態素解析結果「/報告/書く/案/)/」であり、英大文字Bで示された形態素間距離(形態素「書く」,「案」間距離)は、形態素内部の文字間距離 c (形態素「書く」内の文字間距離)より小さいので、
形態素間距離 B < 形態素内の文字間距離 c
となり、上記 (1.4)式を満足しない。よって、不正な形態素接続であると判定する。
【0020】
図8は、本実施形態の文字認識処理のフローの一例を示すチャートである。
図8を参照して、文字間距離と形態素間距離に基づいて、形態素の不正接続を判定するステップを含む本実施形態の文字認識処理を説明する。
まず、スキャナーなどの画像入力機器によって、原稿の文書画像を入力する(step S1)。
次に、入力された文書画像から文字認識の対象となる文字候補の切り出す一連のステップとして、行切り出しまでの処理(上記、参照)を行う。即ち、入力画像中の黒ランから文字要素と思われる矩形を統合して外接矩形を抽出し(step S2)、この外接矩形について近隣する矩形同士を所定の基準に従い統合して、行に成長させ、行として切り出す(step S3)。
ここで、切り出した行に対して文字切り出し処理を行う(step S4)。この処理は、前段の処理で切り出された行には長手方向(横書きの場合には横方向)に複数文字が配列されているので、黒画素射影、行高さ、などに基づいて行を1文字だと思われる範囲(文字単位を含むと見なせる文字候補領域)に分割する。文字種等によってサイズが一定ではないので、複数の候補が得られることがあるが、本例では複数の候補があっても構わないような処理方法を採用する。
次に、前段の文字切り出しで求められた文字候補に対して文字認識の処理を行う(step S5)。文字認識の処理は、対象となる文字候補の画像特徴と認識辞書に記載されている文字の画像特徴とを照合し、認識スコアを算出し、認識スコアが予め設定したしきい値以上の解を認識候補として残す。
この後、前段の文字認識処理で求められた認識候補の並びと、言語辞書及び文法と照合して、形態素解析を行い、認識スコアを加味した上、妥当な解を選択する後処理(言語処理)を行う(step S6)。ここでは、文字切り出しで複数の候補が得られた場合や認識処理で複数の候補が得られた場合でも、妥当な解を一つに絞りそれを処理結果とする。
【0021】
次に、前段の後処理における形態素解析結果を受けて、形態素解析の誤りチェック処理を形態素内における文字配置の異常を検出することにより行うが、この処理は、行毎に行うので、一つの行の処理を開始するときに、先ず、処理操作を管理する形態素カウンタを初期状態にするためにクリアする(step S7)。
この後、ループ処理で形態素を一つずつチェックしていくので、形態素が終りか(即ち、行末か)、否かを形態素カウンタで処理の経過を確認する(step S8)。
形態素が終りであれば、この処理フローを終了する。他方、終りでなければ(step S8-NO)、形態素解析の誤りチェック処理を進める。
形態素解析の誤りチェック処理の始めに、注目している形態素間距離を算出する(step S9)。形態素間距離は、注目形態素の端部の文字と隣接する形態素の端部の文字との間隔を文字切り出し(step S4参照)時に得た文字外接矩形データから求める。また、注目している形態素内の文字間距離を全ての文字について算出する(step S10)。この文字矩形間距離も、文字切り出し時に得た文字外接矩形データから求める。
次いで、前段で求めた文字間距離の中に、
形態素間距離 ≧ 文字間距離 (上記 (1.4)式)
を満たさない文字間距離があるか、否かをチェックする(step S11)。
このチェックの結果、上記(1.4)式を満足しない文字間距離あれば、注目している形態素は不正であると判定する(step S13)。他方、上記(1.4)式を満足しない文字間距離が無ければ、注目している形態素は正常であると判定する(step S12)。この判定結果は、この結果により後処理を再度行うようにすることが可能である(後述する実施形態2、参照)し、また、文字認識処理の結果を示すときに、この形態素チェックの判定結果を示す情報を付加して出力する(例えば、不正と判定した形態素にアンダーラインを付す、等)といった対応が可能である。
次いで、形態素カウンタをインクリメントし、注目する形態素を進め(step S14)、ループ処理をするために未処理の形態素の存在を確認するstep S8に戻し、step S8以降の処理を繰り返す。
【0022】
「実施形態2」
本実施形態は、形態素解析誤りチェック(上記実施形態1、参照)の結果を受けて、不正な形態素と見なされた形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理ステップを行い、この見直しにより正解の形態素列に到達できる可能性を探り、認識精度をさらに向上させることをねらいとするものである。
図4の「報告書 (案)」よりなる原画像の例によれば、上記のように、
/報告/書/(/案/)/ ------------ (1.1)
/報告/書く/案/)/ ------------ (1.2)
という接続が成立する場合に、不正な形態素「書く」が選択されることを抑制すれば、上記 (1.2) が選択されることがなく、再判定により上記(1.1)が形態素解析結果となり、最終的な認識結果は、
報告書(案) ------------ (2.1)
と正解になる。本実施形態では、この不正な形態素「書く」の選択を抑制することを目的とする。
【0023】
図9は、本実施形態の文字認識処理のフローの一例を示すチャートである。
図9を参照して、形態素の不正接続の判定結果を受けて後処理を再度実行するステップを含む本例の文字認識処理を説明する。
本処理フローは、実施形態1に示した文字認識の処理フロー(図8)の終了後に引き続いて実行するという形で用いることが適当であり、この処理フローにおいてもそうした手順で行うようにする。即ち、図9では記載を省略しているが、図8に示した後処理までの一連の文字認識処理(図8のstep S1〜step S5の処理)を経て、第1回目の後処理として、形態素解析を含む言語処理を行い(step S21)、形態素解析により得た形態素について、上記(1.4)式を満足しない不正な形態素を検出する(step S22)。なお、図9に示すstep S21,step S22は、図8に示した後処理(step S6),形態素チェック処理(step S7〜14)にそれぞれ相当するので、先の記述を参照することとし、ここでは説明を省略する。
step S22 で不正な形態素を検出したか、否かを確認し(step S23)、不正な形態素がない場合には、この処理フローを終了する。他方、不正な形態素がある場合には、不正な形態素が選択されることを抑制するために、検出した不正な形態素の評価スコアを下げる(step S24)。
形態素の評価スコアを下げた段階で第2回目の後処理として、再び後処理を実行し、評価スコアが最大となる、言語的に接続可能な形態素列を選択する(step S25)。この後処理の後、この処理フローを終了する。
【0024】
「実施形態3」
本実施形態は、上記した形態素の不正接続を検出することによる形態素解析誤りチェック(実施形態1,2)の不要な適用を回避することを可能にするための手順を用意した実施形態に係わる。
形態素解析を行う際、入力文中に解析用辞書にない単語が含まれている場合には、次に辞書検索可能な単語が見つかるまでの範囲に相当する形態素は未知語とみなし、強力な言語的な制約をかけない場合が多い。
文字認識処理の後処理における形態素解析では、認識候補を組み合わせても形態素解析辞書中に該当する単語を検索できない範囲は、認識順位1位の文字を単に連結して未知語の形態素とみなす場合が多い。
このような未知語形態素の場合、これに形態素解析誤りチェックをかけて、不正な形態素として検出しても、対抗する形態素もまた未知語の組み合わせであり、結局のところ認識順位1位のままであり、たとえ別の形態素を選択しても、表層の文字列に変化はなく、認識精度向上に寄与することはない。
よって、認識順位第1位以降を含む可能性のある、辞書検索が成功した形態素のみ、形態素の不正接続を検出することによる形態素解析誤りチェック(実施形態1,2)の方法を適用することで、所期の目的は達成できる。このような判断に従って、余分な形態素解析誤りチェックの処理を回避することにより、効率的な処理が可能になる。
【0025】
「実施形態4」
本実施形態は、文字を認識する処理の一環として、文字認識結果に対して形態素解析を適用し、さらに形態素解析結果をチェックし、解析の誤りを検出する方法に係わるという点では上記各実施形態と同様である。本方法は、品詞など文法属性に加えて形態素表層の文字種類に基づく接続規則、即ち形態素の両端の文字の種類と、それらに隣接する文字の種類との間の関係が予め定めた接続規則を満足するか、否かをチェックすることにより形態素解析結果の誤りを検出するものである。
先ず、この形態素解析結果のチェック方法の原理説明をする。
日本語のような膠着語の場合、単語の範囲を規定するものとして、漢字、ひらがな、カタカナ、英数字など、文字種類がある。つまり文字種類の変化する位置が形態素の分割位置である可能性が高い。
また、一般的に、形態素解析では、入力文中に形態素解析辞書に登録されていない未知語が使用されている場合には、辞書検索が成功した形態素以外の範囲を未知語とする。
例えば、形態素解析の対象となる入力文字列として、
オシロスコープ
を解析する場合、形態素解析用辞書に
「ロス」 :「失う」の意
「コープ」 :「co-op」「生協」の意
が登録されており、
「オシロスコープ」
「スコープ」
は登録されていないとすると、解析結果は、
オシ/ロス/コープ
という分割になり、「オシ」のみが未知語と判定される。
【0026】
ところで、文字認識の後処理で実施される形態素解析の場合、認識候補内に正解文字が含まれていない入力も対象にするので、未知語の種類としては、
(a) 正解文字よりなるが、形態素解析用辞書に登録されていない未知語
(b) 認識候補内に正解文字が含まれていない未知語
の2種類があり、解析処理系は両者を区別できない。
よって、確実な範囲、つまり辞書検索に成功した形態素は正解であると判定し、できるだけ未知語の範囲を狭くしていく、方策がとられる傾向がある。
しかしながら、辞書検索に成功した形態素を無条件に優先しては問題が生じる場合がある。こうしたケースを下記の例示により説明する。
例えば、入力文字列「xylophone」に対する文字認識結果が、
第1位 x y 1 o p h o n e
第2位 × 1 c Γ b c h c
第3位 i ○ 6 ○
であるとする。
形態素解析用辞書には、

Figure 0004141217
が登録されており、
「xylophone」 [名]シロホン(木琴)
は登録されていないとする。
この例の場合、文字認識の後処理における形態素解析は、認識候補を組み合わせて辞書検索し、
「one」
「cpb」
を見つけた結果、以下の形態素解析結果を得る。
/xyl/cpb/one/
この結果では、辞書単語「cpb」を優先したために、
Figure 0004141217
の矢示する“o→c”“h→b”2個所で置換誤りを生じる結果となる。
ここでは、認識結果第1位の文字を連結して「xylophone」全体を未知語と判定すれば正解になる。
【0027】
さらに、別の例として、入力文字列「デノミネーション」に対する文字認識結果が、
第1位 デ ノ ミ ネ ー シ ョ ン
第2位 〒 バ 不 一 ン ヲ ソ
第3位 ノ 三
であるとする。
先の例(「xylophone」)と異るのは、「ノミ」→「バ」という文字切り出し誤りを含んでいる点である。
形態素解析用辞書には、
「デバ」 : 「出刃」の読み
「ネーション」 : nation のカタカナ表記
が登録されており、
「デノミネーション」
は登録されていないとする。
この例の場合、文字認識の後処理における形態素解析は、認識候補を組み合わせて辞書検索し、
「デバ」
「ネーション」
を見つけた結果、以下の形態素解析結果を得る。
/デバ/ネーション/
この結果では辞書単語「デバ」を優先したために、
Figure 0004141217
1箇所で文字切り出し誤りを生じる結果となる。
【0028】
そこで、本発明においては、形態素の両端の文字種に基づいた接続条件により辞書検索の結果に対してチェックをかけ、辞書単語の誤適用を検出することにより、この弊害を除くようにする。この接続条件としては、形態素の両端の文字の種類と該両文字に隣接する文字の種類との間の関係に対して、以下の接続条件1,2を設定し、これらの接続条件を満たす場合に、不正接続と判定する。
接続条件1:隣接する形態素の表層の文字種類が同じで、それらが英文字の場合
接続条件2:隣接する形態素の表層の文字種類が同じで、それらがカタカナの場合
上記接続条件1を、上記で例に引いた入力文字列「xylophone」に適用すると、
Figure 0004141217
となり、↑a−↑b及び↑c−↑d にて矢示するように、隣接する形態素の表層の(形態素の端部で隣接する)文字種類が同一の英文字であるから、この条件が成立する。
又、上記接続条件2を、上記で例に引いた入力文字列「デノミネーション」に適用すると、
Figure 0004141217
となり、↑a−↑bにて矢示するように、隣接する形態素の表層の(形態素の端部で隣接する)文字種類が同一のカタカナであるから、この条件が成立する。
このように、接続条件1,2によるチェックの結果、条件を満足しない形態素列があれば、この形態素は不正であると判定し、この判定結果は、この結果により後処理を再度行うようにすることが可能である(実施形態5、参照)し、また、文字認識処理の結果を示すときに、この形態素チェックの判定結果を示す情報を付加して出力する(例えば、不正と判定した形態素にアンダーラインを付す、等)といった対応が可能である。
なお、形態素の両端の文字種に基づいた接続条件によるこの形態素チェック処理を文字認識処理の処理フローとして実施する場合、先の実施形態1に示した処理フロー(図8)と同様に実施することが可能である。即ち、接続条件を判定する手順として、形態素の両端の文字の種類と該両文字に隣接する文字の種類との間の関係に対して、上記接続条件1,2を適用し、形態素を不正形態素として検出する処理を実行することにより実現可能である。
【0029】
「実施形態5」
本実施形態は、形態素解析誤りチェック(上記実施形態4、参照)の結果を受けて、不正な形態素と見なされた形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理ステップを行い、この見直しにより正解の形態素列に到達できる可能性を探り、認識精度をさらに向上させることをねらいとするものである。
先の入力文字列「xylophone」の例では、認識結果として得られた、
第1位 x y 1 o p h o n e
第2位 × 1 c Γ b c h e
第3位 i ○ 6 ○
を対象に形態素解析を行う過程で、形態素候補として、
「xyl」 :認識順位1位を連結した未知語
「one」 :辞書単語
「cpb」 :辞書単語
「xylophone」:認識順位1位を連結した未知語
が生成され、解析の結果として、
/xyl/cpb/one/
が得られるが、上述のように、「cpb」と「one」が不正接続検出用の接続条件1を満すから、この不正な形態素が選択されることを抑制するために、これらの形態素に対する評価スコアを下げる。
このようにすると、再度、後処理を行う際の形態素解析において、「cpb」と「one」が選択されにくくなっているから、入力文の全範囲をカバーする形態素解析結果は、「xylophone」しかないので、「xylophone」が選択され、下記の正解に到達する。
/xylophone/
もちろん、仮に競合する形態素列が無ければ、再度、「cpb」と「one」が選択される可能性もある。
なお、形態素の両端の文字種に基づいた接続条件によるこの形態素チェック処理の結果を反映した形で行う後処理を文字認識処理の処理フローとして実施する場合、先の実施形態2に示した処理フロー(図9)と同様に実施することが可能である。
【0030】
「実施形態6」
本実施形態は、上記した形態素の不正接続を検出することによる形態素解析誤りチェック(実施形態4,5)を適用する際に、文字形状の類似する異文字種に対して例外的に適用を拡大する(不正接続の条件として同じ文字種であることが必要であった)ことにより、文字認識に起きやすい誤りの影響をカバーすることを可能にするための手順を用意した実施形態に係わる。
適用を拡大する文字形状の類似する異文字種について、説明を加えると、文字認識は文字の形状を認識するものであるから、形の類似する異なる文字種類の認識候補が含まれる場合がある。
例えば、入力文「ブランドカトラリー」を認識した結果が、
第1位 ブ ラ ン ド カ ト ラ リ ー
第2位 づ ヲ ソ 卜 力 卜 ヲ い 一
であるとする。
形態素解析用辞書に
「ブランド」 :例:ブランド品
「ブランド力」 : ぶらんど・りょく
が登録されており、
「カトラリー」 :かとらりー(ナイフ、スプーン、フォーク類の総称)
は登録されていないとする。
文字認識の後処理における形態素解析は、認識候補を組み合わせて辞書検索し、
/ブランド/カトラリー/ ------------ (6.1)
/ブランド力/トラリー/ ------------ (6.2)
/ブランドカトラリー/ ------------ (6.3)
の3種の形態素解析結果を得る。なお、上記(6.3)は認識順位1位の文字を全部連結した未知語である。
未知語の範囲はできるだけ少なくするという選択基準に従えば、上記(6.2)が選ばれ、最終的には、
Figure 0004141217
に矢示する箇所で置換誤りを生じる結果となる。
【0031】
ここで、上記(6.2)は、「力」が漢字で隣接形態素の端部文字「ト」がカタカナであるから、実施形態4で言及した接続条件に合致しないので、不正な形態素接続として検出できないという不都合が生じる。
そこで、文字種類が異なっていても形状が類似しており、認識誤りの生じやすい文字も、接続条件の対象にする。
対象とする形状が類似する異文字種の組み合わせとしては、例えば、以下のような組がある。
Figure 0004141217
【0032】
適用例として、エ(カタカナ):工(漢字)の組の例を引いて、以下に拡大した不正接続条件について説明する。
例えば、入力文「ショウジョウバエ学」を認識した場合で、
形態素解析用辞書に
「工学」
が登録されており、
「ショウジョウバエ」
は登録されていないとする。
解析結果は、
/ショウジョウバ/工学/
に間違う可能性は高い。この場合、エ→工の置換誤りを生じる。
そこで、このような混同を避けるために、実施形態4で言及した接続条件に以下の接続条件3を追加して設定し、これらの接続条件を満たす場合に、不正接続と判定する。
接続条件3:隣接する形態素間で表層の文字種類が異なっており、どちらがカタカナ、英、数で、かつどちらかが 上記(6.4) の形状類似文字の組に含まれ、かつ上記(6.4) の組の対応する類似文字の文字種が隣接文字の文字種と同じである場合。
上記接続条件1を、上記で例に引いた入力文字列「ブランドカトラリー」に適用すると、
Figure 0004141217
に矢示する↑a−↑b の箇所で成立し、置換誤りを検出できる。
【0033】
「実施形態7」
本実施形態は、上記した形態素の不正接続を検出することによる形態素解析誤りチェック(実施形態4,5,6)を適用する際に、形態素が辞書単語であり、語長が長い(文字数が多い)ものについては、不正接続チェックの対象としないようにして、過剰な不正接続チェックの処理を抑制することにより、処理の効率化を図るようにした実施形態に係わる。
辞書単語の誤採用は、比較的短い単語の場合に起こりやすい。例えば、先述した入力文字列「xylophone」の例を引くと、
「one」 :辞書単語
「cpb」 :辞書単語
の2種の辞書単語が適用されており、「cpb」が誤適用という結果であるが、この2種ともに単語長が3文字と短い。短い単語は少数の文字が認識候補の順位内に含まれてさえいれば検索が成功してしまうから、誤適用されやすいのは明らかである。これは、単語長の長い辞書単語の場合には、誤適用の可能性が低いことを意味し、辞書単語を優先する戦略には反しない方が良いと言える。
例えば、入力文「hinterland」への適用を考えると、形態素解析用辞書に、
「land」 [名]土地[動]上陸させる
「inter」 [動]埋葬する :「〜間」の意の接頭辞もあり
が登録されており、
「hinterland」 [名]後背地;奥地;田舎
は登録されていないとする。
【0034】
正しい形態素解析を行うことができれば、必然的に認識結果も正解に至ることは明らかであるから、ここでは、説明を明解にするために認識結果は第1位のみ、かつ正解文字を含むものとする。
文字認識の後処理における形態素解析は、認識候補を組み合わせて辞書検索し、
「land」
「inter」
を見つけ、下記(7.1)(7.2)(7.3)の形態素解析結果を得る。
/h/inter/land/ ------------ (7.1)
「h」 :未知語
「inter」 :辞書語
「land」 :辞書語
/hinter/land/ ------------ (7.2)
「hinter」:未知語
「land」 :辞書語
/hinterland/ ------------ (7.3)
「hinterland」:未知語
これらの形態素に対し、上記実施形態4で言及した接続条件1および2を適用し、不正な形態素接続を検出すると、上記(7.1)及び上記(7.2)が該当し、不正接続と判定する。
ここで、形態素の長さによる制限を加える。ここでは、
接続条件4:隣接する形態素の両者の長さが何れも、4文字以上である場合には、接続は不正接続チェックの対象としない。
を条件として判定を行う。
/h/inter/land/(上記(7.1)) の各接続位置で隣接する形態素の長さを検査すると、
「h」(長さ1文字) −「inter」(長さ5文字)
「inter」(長さ5文字)−「land」(長さ4文字)
となるので、
/h/inter/
の分割は、不正接続チェックの対象となり、接続条件1に合致し、不正であると判断される。
【0035】
一方、/hinter/land/(7.2) の各接続位置で隣接する形態素の長さをチェックすると、
「hinter」(長さ6文字)−「land」(長さ4文字)
となるので、接続条件4に合致し、不正接続チェックの対象とならない。
最終的に、
/hinter/land/ ------------ (7.2)
「hinter」:未知語
「land」 :辞書語
と、
/hinterland/ ------------ (7.3)
「hinterland」:未知語
の競合となり、未知語範囲の狭い 上記(7.2) が選択される。
なお不正接続検査の対象としない形態素の長さの値は設計要件であり、本実施形態で用いた4文字に限定されるものではなく、仕様にしたがって変更可能であることは言うまでもない。
【0036】
「実施形態8」
上記した接続条件1〜3を適用して行う形態素の不正接続の検出(実施形態4,5,6)により、正しい形態素解析結果が棄却されてしまう可能性があり、本実施形態は、この弊害を防止するための手順に係わるものである。
上記実施形態4〜6では、辞書検索成功単語に基づく形態素を無条件に優先することの問題点と、その解決方法について述べた。
しかしながら、上記実施形態4〜6の解決方法によっては逆に正しい形態素解析結果を棄却してしまう弊害もある。
例えば、認識対象としての入力文「ブランド力ランク」への適用において起こるケースを考える。ここでは、形態素解析用辞書に、
「ブランド」
「力」
「ブランド力」
「ランク」
が登録されているとする。
なお、正しい形態素解析を行うことができれば、必然的に認識結果も正解に至ることは明らかであるから、説明を明解にするために認識結果は第1位のみ、かつ正解文字を含むものとする。
【0037】
文字認識の後処理における形態素解析では、認識候補を組み合わせて辞書検索し、
「ブランド」
「力」
「ブランド力」
「ランク」
を見つけ、下記(8.1)(8.2)(8.3)の形態素解析結果を得る。
/ブランド/力/ランク/ ------------ (8.1)
「ブランド」 :辞書語
「力」 :辞書語
「ランク」 :辞書語
/ブランド力/ランク/ ------------ (8.2)
「ブランド力」 :辞書語
「ランク」 :辞書語
/ブランド力ランク/ ------------ (8.3)
「ブランド力ランク」 :未知語
上記(8.1)(8.2)ともに上記接続条件1〜3のすべてに合致するので、棄却され、最終的には上記 (8.3)の形態素解析結果が選択される。
しかしながら、正しい形態素解析結果は上記 (8.2)である。
このような接続条件1〜3の弊害を防止するために、下記の接続条件5を追加する。
接続条件5:隣接する形態素の両方が辞書検索成功単語であるならば、不正接続チェックの対象としない。
なお、この条件は、辞書検索できた形態素と未知語との接続チェックに制限することを意味している。
実際に行う手順としては、
接続条件5→接続条件3→接続条件2→接続条件1
の順に優先順位をつけて適用していく。なお、接続条件1と2の順序は交換可能である。
上記解析結果上記(8.1)(8.2) ともに、すべての接続境界において辞書検索成功単語が隣接しているので、不正接続検査の対象とはならず、文節数最小優先のヒューリスティクスにしたがって、最終的に解析結果として上記(8.2)が選択される。
【0038】
「実施形態9」
本実施形態は、本発明に係わる文字認識装置の実施形態を示すものである。
上記した「実施形態1」〜「実施形態8」に示した形態素解析の結果として得られる形態素の不正接続の検出手順を含む文字認識方法に示した処理ステップを実行する手段として、汎用の処理装置(コンピュータ)を利用して構成される装置を例示するものである。
図10は、本実施形態の文字認識装置の構成を例示する。図10に示すように、本例は、汎用の処理装置(コンピュータ)により実施する例を示すものであり、構成要素としてCPU1と、メモリ2と、ハードディスクドライブ3と、スキャナ、キーボード、マウス等を要素とする入力装置4と、CD−ROMドライブ5と、ディスプレイ6と、フレキシブルディスクドライブ7と、通信装置8などを用意し、これらをバス接続して構成する。
また、記憶手段としてのメモリ2、ハードディスクドライブ3、CD−ROMドライブ5、フレキシブルディスクドライブ7が用いる記憶媒体(図示せず)の一部には、本発明に係わる文字認識処理機能を実現し、上記「実施形態1」〜「実施形態8」に示した形態素の不正接続の検出手順を含む文字認識方法に示した各処理ステップを実行するためのプログラム(ソフトウェア)が記録されている。
処理対象の原稿文書画像は、スキャナー等の入力装置4により入力され、例えばハードディスク3などに格納されているものである。CPU1は、記憶手段が有する記録媒体から上記した処理機能・処理方法を実現するプログラムを読み出し、プログラムに従う処理を対象文書画像に実行し、その処理結果等をディスプレイ6に出力する。
なお、本発明に係わる文字認識装置を図11に示すように、通信装置8によりインターネットなどの通信回線20を介して、外部の装置11〜13と接続して、機能の一部をネットワーク上に持つような形態で実施してもよい。
また、本発明の文字認識方法の各処理ステップの実行プログラムを本実施形態のように汎用コンピュータに搭載することによって実施する以外に、各処理ステップの実行に必要な機能をファームウェアや電気回路の形態によって利用装置に組み込むことにより文字認識装置を構成することも可能である。
【0039】
【発明の効果】
(1) 請求項1乃至6の発明に対応する効果
処理対象の文字列から切り出された文字に文字認識処理を行い、認識結果がほぼ確定した段階で、認識された文字列を対象に形態素解析を行い、解析結果に対して形態素間距離より大きな文字間距離を含む不正な形態素を検出し、形態素解析結果にチェックをかけるようにしたので、文字認識の精度を低下させる要因になる形態素解析の誤りに対応した処理により、性能の向上を図ることが可能になる。
また、検出した不正な形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理を行うようにすることにより、文字認識の精度の向上を具現化することが可能になる。
さらに、辞書検索できた形態素に限って、形態素解析結果にチェックをかけるようにしたので、未知語形態素を対象とする場合のような余分な形態素解析誤りチェックの処理が回避でき、効率的な処理が可能になる。
【0041】
(2) 請求項の発明に対応する効果
請求項1乃至に記載された文字認識方法の各処理ステップを実行するためのプログラムを汎用のコンピュータに搭載することにより、上記(1)効果を容易に具現化し、また、該効果を奏する文字認識装置を提供することが可能になる。
【図面の簡単な説明】
【図1】 処理対象となる文書画像の一例を示す。
【図2】 文書画像の例(図1)における文字と見なせる黒ランの外接矩形を作成した結果を示す。
【図3】 統合処理の結果得られる文字行の矩形と文字外接矩形を示す図である。
【図4】 1行分の原画像と、入力文(読み取り画像データ)、その認識結果(2番目の順位まで)を示す。
【図5】 辞書検索可能な文字間距離に制限を加える例を説明する図である。
【図6】 図5と同じ文字よりなる文字列であっても、全文字が離れて配置された場合を説明する図である。
【図7】 文字間距離と形態素間距離に基づいて、形態素の不正接続を判定する方法を説明するための適用例を示す。
【図8】 「実施形態1」の文字認識処理のフローの一例を示すチャートである。
【図9】 「実施形態2」の文字認識処理のフローの一例を示すチャートである。
【図10】 本発明に係わる文字認識装置の実施形態を示す。
【図11】 本発明に係わる文字認識装置の実施形態の他の例を示す。
【符号の説明】
1…CPU、 2…メモリ、
3…ハードディスクドライブ、 4…入力装置、
5…CD-ROMドライブ、 6…ディスプレイ(表示装置)、
7…FDドライブ、 8…通信装置。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a character recognition process used in an OCR (optical character reader), and more specifically, uses morphological analysis as part of a process for recognizing characters cut out from image data read from a document original. The present invention relates to a character recognition method that enables highly accurate character recognition, a program used to execute the method, and a character recognition device.
[0002]
[Prior art]
Conventionally, as performed in an OCR (optical character reader) or the like, processing for recognizing characters written on a document is performed based on image data read from the document document by a scanner. When this processing is performed, language processing is performed in order to perform character recognition on characters extracted from character string data of the read document image with high accuracy. Among them, one that performs recognition of a recognition result by word segmentation or morphological analysis is known.
As an example of detecting the former word segmentation error, the following Patent Document 1 can be shown. Here, as a “word interval degree calculation method and word interval degree calculator,” a character interval and word such as a European sentence are used. Focusing on the distance between characters and words in the recognition target character strings that have different intervals, the relationship between the character spacing and the word spacing, which is different for each manuscript, is dynamically calculated for each input sentence, and high-precision words References are made to a method for realizing clipping. However, the invention of Cited Document 1 is conscious of recognition of European sentences, and in a sticky word such as Japanese, there is mainly no difference in word spacing and character spacing. Does not function effectively.
Further, as an example of evaluating the recognition result by the latter morphological analysis, the following Patent Document 2 can be shown. Here, as a “character recognition post-processing device”, by morphological analysis performed as post-processing of the character recognition result The method that can improve the accuracy of character recognition and can be applied to a sticky word such as Japanese is shown. However, the subject of the invention of Patent Document 2 relates to processing for unknown words, and is to limit the length (number of characters) by focusing on the character type when determining the range of unknown words. Therefore, when a word in the dictionary used for morphological analysis is improperly applied, the unknown word length restriction by the character type does not reach the range of the dictionary word and is limited to the range that cannot be searched by the dictionary. In other words, it is limited to the purpose of searching for an unknown word range without eliminating erroneous application of dictionary words.
[0003]
[Patent Document 1]
JP 7-28931 A
[Patent Document 2]
Japanese Patent Laid-Open No. 10-124617
[0004]
[Problems to be solved by the invention]
As described above, the proposal of Patent Document 2 is limited to the purpose of searching for an unknown word range even when morphological analysis is introduced. Therefore, errors that may occur in the morpheme obtained as a correct answer when the morpheme analysis method is applied (refer to the description in the paragraph [0019] in [Embodiment of the invention] below) are solved by this proposal. It remains unresolved.
The present invention has been made in view of the above-mentioned problems of the prior art in which character recognition is performed on a character string cut out from read image data of a document document. Character recognition accuracy is improved by introducing morpheme analysis applicable to, and even if a correct answer is obtained by morpheme analysis, further error checking is performed on the result of morpheme analysis. Another object of the present invention is to provide a character recognition method provided with processing steps (or processing means) that can achieve the above, a program used for executing the method, and a character recognition device.
[0005]
[Means for Solving the Problems]
According to the first aspect of the present invention, a character segmentation step of segmenting characters from a document image having a character string input as a processing target, collating each segmented character with a character image feature stored in a dictionary, and character based on the collation result A character recognition method including a character recognition step of recognizing, further comprising a distance between rectangles calculating a distance between adjacent rectangles in a circumscribed rectangle of the character for the character string recognized in the character recognition step; and A morpheme analysis step of analyzing a morpheme for the character string recognized in the character recognition step, a step of comparing a distance between characters and a distance between morphemes obtained based on the results of the inter-rectangular distance calculation step and the morpheme analysis step; A morpheme analysis check step for detecting a morpheme including a distance between characters larger than a distance between morphemes, That is a character recognition method.
[0006]
According to a second aspect of the present invention, in the character recognition method according to the first aspect, the evaluation score of a morpheme including a distance between characters larger than the distance between morphemes detected by the morpheme analysis check step is lowered to improve linguistic validity. It is a method characterized by having a post-processing step for determining again.
[0007]
According to a third aspect of the present invention, in the character recognition method according to the first or second aspect, a dictionary search is used in the morpheme analysis step, and the morpheme analysis check is performed only on a morpheme that can be searched for a morpheme. This is a method characterized by being performed.
[0008]
According to a fourth aspect of the present invention, a character cutout for cutting out a character from a document image having a character string input as a processing target. means And it was cut out each Character recognition that matches characters against character image features stored in a dictionary and recognizes characters based on the matching results means The Have Character recognition apparatus And further said character recognition means Character string recognized by A distance between rectangles for calculating a distance between adjacent rectangles in a circumscribed rectangle of a character, and a character string recognized by the character recognition unit Morphological analysis for analyzing morphemes means And said Rectangle distance calculation means and morpheme analysis means Obtained based on the results of Comparison means for comparing distance between characters and distance between morphemes When, Includes a distance between characters larger than the distance between morphemes Morphological analysis check to detect morphemes means Character recognition characterized by having apparatus It is.
[0009]
The invention according to claim 5 is the character recognition according to claim 4. apparatus In the morphological analysis check Includes a distance between characters larger than the distance between morphemes detected by the means Post-processing to lower morpheme evaluation score and re-determine linguistic validity means It is characterized by having Character recognition device It is.
[0010]
The invention of claim 6 is the character recognition according to claim 4 or 5. apparatus In the above Dictionary search means is used for morpheme analysis, and the morpheme analysis check is performed only for morpheme that can be searched for dictionary. It is characterized by Character recognition device It is.
[0011]
The invention of claim 7 is claimed in claim 1 Thru 3 Character recognition method described in any of For causing a computer to execute each processing step of It is.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
The present invention will be described based on the following embodiments shown with the accompanying drawings.
The present invention applies morphological analysis to recognition processing results in order to realize highly accurate character recognition as part of processing for recognizing characters extracted from a character string of an input processing target document, and further morphological analysis The character recognition accuracy is further improved by detecting the error and correcting the character recognition error. Hereinafter, the error check of the morphological analysis will be described in detail by showing an embodiment thereof. In the following “Embodiment 1” to “Embodiment 3”, attention is paid to the relationship between character spacing and morpheme spacing, and irregular arrangement of the character spacing within the morpheme is detected, that is, the character spacing and morpheme spacing have a predetermined relationship. The “embodiment 4” to “embodiment 8” are connection rules based on the character type of the morpheme surface layer in addition to grammatical attributes such as parts of speech, that is, the character types at both ends of the morpheme. An example of checking whether or not the relationship between the types of characters adjacent to them satisfies a predetermined connection rule is shown.
[0016]
First, an outline of character segmentation and character recognition processing performed before morphological analysis will be described.
FIG. 1 shows an example of a document image to be processed. In each of the following embodiments, a horizontal text manuscript written in Japanese will be described as an example. However, unless otherwise specified, the present invention is not limited to examples, and post-processing based on morphological analysis is performed. In addition to grammatical attributes such as parts of speech, this indicates that post-processing is performed with high accuracy by providing restrictions on the distance between characters, the distance between morphemes and the character type of the morpheme surface layer. It is not limited to image types (handwritten / printed characters, etc.) and formats (vertical writing / horizontal writing).
A character candidate that can be regarded as including a character unit is extracted from the target document image shown in FIG. 1, but here, since a character line is used as a unit, line cutting processing is first performed before character character clipping.
In this line cut-out process, a cut-out method by extracting a circumscribed rectangle of a black run in the target image is applied. In this clipping method, since the character is usually drawn in black, a black run that is a cluster of continuous pixels indicating a black value is obtained, and rectangles that are considered to be character elements are integrated from the obtained black run to extract a circumscribed rectangle. FIG. 2 shows the result of extracting this circumscribed rectangle. Next, with respect to the circumscribed rectangle of the black run that seems to be the extracted character element, the neighbors are connected according to a predetermined standard, grown into a line, and a process of cutting out this as a target line is performed. FIG. 3 shows the result obtained by the row cutout process.
After this line segmentation, the image is divided into character-by-character ranges, character segmentation is performed as character candidates to be recognized, and recognition processing is performed on the segmented characters.
In the character recognition process, a character to be recognized is collated with a character stored in the dictionary using a recognition dictionary, and the likelihood is high based on a recognition dictionary collation score based on a matching degree of feature amounts or a linguistic likelihood. A higher-order solution is selected, and a code corresponding to a character giving the solution is obtained as a processing result.
According to such a general character recognition process, also in this embodiment, the character recognition process is performed on the target document image data, and the morphological analysis is performed when the recognition result is almost confirmed.
[0017]
Embodiment 1”
This embodiment relates to a method of applying morpheme analysis to a character recognition result as a part of character recognition processing, further checking the morpheme analysis result, and detecting an error in the analysis. This is a method of detecting an error that occurs in the morpheme of the analysis result by checking the arrangement disorder.
First, the principle of this morpheme analysis result check method will be described.
FIG. 4 shows an original image (A) of “report (draft)”, an input sentence (B) as the read image data, and recognition results (C) up to two ranks.
For this recognition result, morphological analysis is performed in post-processing. An analysis dictionary is used for morphological analysis. About the morpheme related to this analysis object, this dictionary contains the attribute of the morpheme and its part of speech,
Report noun
Calligraphy verb
Calligraphy noun : "
Noun
Is registered, a dictionary word from a combination of character recognition candidates,
Report noun
Calligraphy verb
Noun
Noun
Search for. Note that writing (書) corresponds to a combination of “writing” surrounded by a broken line in FIG.
In response to this result, the morpheme connection was examined,
/ Report / Document / (/ Draft /) / ------------ (1.1)
/ Report / Write / Draft /) / ------------ (1.2)
Two types of connections are established. Applying the heuristic that gives priority to the minimum number of phrases, which is often used in Kana-Kanji conversion, selects the smaller number (1.2) and obtains the following recognition result.
Report draft) ------------ (1.3)
In the result shown in (1.3) above, a substitution error of “(” → “ku” has occurred (for this error, there has been no effective solution so far, and this is the solution of the present invention). .
The reason why this error occurs is that the dictionary word “write” is an incorrect dictionary search and should not be used in morphological analysis, and it is necessary to suppress this selection in some way.
[0018]
Therefore, it is conceivable to adopt a method of restricting morpheme search in consideration of character spacing instead of dictionary search based only on character codes.
As a method for this purpose, first, a method of simply limiting the character spacing, for example, searching without connecting rectangles that are more than the width of the circumscribed rectangle of one character is conceivable. For example, in the case of the character string “Report (draft)” shown in FIG. 5, the inter-character distances a, b, d, and e are smaller than one character width f as shown in FIG. (Ie, inter-character distances a, b, d, e <character width f: adjacent characters can be combined), and a dictionary search may be attempted. On the other hand, since the inter-character distance c is larger than one character width f, it should be divided from adjacent characters (that is, the inter-character distance c> character width f: adjacent characters cannot be combined). "Cannot be combined.
However, in this method, even if the character string is composed of the same characters as in FIG. 5, as in the character string “report (draft)” shown in FIG. (In FIG. 6, the word “report” corresponds to this example), which is not preferable.
[0019]
Therefore, in the present invention, except for this adverse effect, a dictionary search result is checked under the following conditions to determine whether or not the morphological analysis result is appropriate. In other words, in the case of an agglutinative word like Japanese, there is generally no difference between the distance between morphemes and the distance between characters in a morpheme in one line.
Distance between morphemes ≧ Distance between characters ------------ (1.4)
The relationship is established.
This is a characteristic difference from the point that the distance between morphemes is always larger than the distance between characters in the case of a language in which words are divided and written like English. Therefore, if the relationship (1.4) is used as a condition for detecting an abnormality in the character arrangement in the morpheme and this relationship is not satisfied, it is determined that there is a high possibility that the result is an illegal dictionary search.
As a procedure, when a recognition result of one line including post-processing is determined, a distance between characters and a distance between morphemes are obtained, and a morpheme that does not satisfy the relationship (1.4) is detected. There are many cases where misrecognition is included in this morpheme.
FIG. 7 shows an application example for explaining a method of determining unauthorized connection of morphemes based on the distance between characters and the distance between morphemes.
(I) of FIG. 7 is the morpheme analysis result “/ report / document / (/ plan /) /” shown in (1.1) above, and the morpheme distance (morpheme “report”, Since the distance between the “writing” is substantially equal to the distance between characters a in the morpheme (the distance between the characters in the morpheme “report”), it is determined that the connection is normal.
On the other hand, (II) in FIG. 7 is the morpheme analysis result “/ report / write / plan /) /” shown in (1.2) above, and the morpheme distance (morpheme “write”) indicated by the capital letter B, The distance between “draft” is smaller than the distance between characters c inside the morpheme (the distance between characters in the morpheme “write”)
Distance between morphemes B <distance between characters in morphemes c
Therefore, the above equation (1.4) is not satisfied. Therefore, it is determined that the connection is an illegal morpheme.
[0020]
FIG. 8 is a chart showing an example of the flow of character recognition processing of the present embodiment.
With reference to FIG. 8, the character recognition process of this embodiment including the step which determines the unauthorized connection of a morpheme based on the distance between characters and the distance between morphemes is demonstrated.
First, an original document image is input by an image input device such as a scanner (step S1).
Next, as a series of steps for cutting out character candidates to be subjected to character recognition from the input document image, processing up to line cutting (see above) is performed. In other words, rectangles that are considered to be character elements are extracted from black runs in the input image to extract circumscribed rectangles (step S2), and adjacent rectangles of the circumscribed rectangles are integrated according to a predetermined criterion to grow into a line. And cut out as a line (step S3).
Here, a character cutout process is performed on the cutout line (step S4). In this process, since a plurality of characters are arranged in the longitudinal direction (horizontal direction in the case of horizontal writing) in the line cut out in the preceding process, the line is set to 1 based on the black pixel projection, the line height, and the like. Divide it into a range that seems to be characters (character candidate areas that can be considered to include character units). Since the size is not constant depending on the character type or the like, a plurality of candidates may be obtained, but in this example, a processing method that may have a plurality of candidates is adopted.
Next, a character recognition process is performed on the character candidate obtained by the preceding character cutout (step S5). The character recognition process is performed by comparing the image feature of the target character candidate with the image feature of the character described in the recognition dictionary, calculating a recognition score, and finding a solution whose recognition score is equal to or greater than a preset threshold value. Leave as a recognition candidate.
After this, a list of recognition candidates obtained in the preceding character recognition process is collated with a language dictionary and grammar, morphological analysis is performed, a recognition solution is added, and an appropriate solution is selected (language processing) ) (Step S6). Here, even when a plurality of candidates are obtained by character segmentation or when a plurality of candidates are obtained by the recognition process, an appropriate solution is narrowed down to one and set as a processing result.
[0021]
Next, in response to the morpheme analysis result in the post-processing of the previous stage, the error check process of the morpheme analysis is performed by detecting the abnormality of the character arrangement in the morpheme. When the process is started, first, the morpheme counter that manages the processing operation is cleared to be in the initial state (step S7).
After this, since the morpheme is checked one by one in the loop process, the progress of the process is confirmed by the morpheme counter to determine whether the morpheme ends (that is, the end of the line) or not (step S8).
If the morpheme is over, the process flow ends. On the other hand, if it is not the end (step S8-NO), the morphological analysis error check process proceeds.
At the beginning of the morphological analysis error check process, the distance between the morphemes of interest is calculated (step S9). The distance between morphemes is obtained from the character circumscribed rectangle data obtained at the time of character cutout (see step S4), the distance between the character at the end of the morpheme of interest and the character at the end of the adjacent morpheme. Further, the distance between characters in the morpheme of interest is calculated for all characters (step S10). This distance between character rectangles is also obtained from character circumscribed rectangle data obtained at the time of character cutout.
Next, in the distance between characters obtained in the previous stage,
Distance between morphemes ≧ Distance between characters (Equation (1.4) above)
It is checked whether there is a distance between characters not satisfying (step S11).
As a result of this check, if the distance between the characters does not satisfy the above expression (1.4), it is determined that the focused morpheme is invalid (step S13). On the other hand, if there is no inter-character distance that does not satisfy the above expression (1.4), it is determined that the focused morpheme is normal (step S12). Based on this determination result, it is possible to perform post-processing again (see Embodiment 2 to be described later), and when the result of character recognition processing is shown, the determination result of this morpheme check It is possible to respond by adding information indicating that the morpheme is determined to be illegal (for example, adding an underline to the morpheme).
Next, the morpheme counter is incremented, the morpheme of interest is advanced (step S14), the process returns to step S8 to confirm the presence of an unprocessed morpheme for loop processing, and the processes after step S8 are repeated.
[0022]
Embodiment 2”
In this embodiment, a post-processing step of receiving a result of the morphological analysis error check (see Embodiment 1 above), lowering the evaluation score of the morpheme regarded as an illegal morpheme, and re-determining the linguistic validity. The aim is to further improve the recognition accuracy by searching for the possibility of reaching the correct morpheme string by this review.
According to the example of the original image consisting of “Report (draft)” in FIG.
/ Report / Document / (/ Draft /) / ------------ (1.1)
/ Report / Write / Draft /) / ------------ (1.2)
(1.2) will not be selected, and (1.1) will be the result of morpheme analysis by re-determination. Recognition results
Report (draft) ------------ (2.1)
And become correct. The purpose of this embodiment is to suppress the selection of this illegal morpheme “write”.
[0023]
FIG. 9 is a chart illustrating an example of a flow of character recognition processing according to the present embodiment.
With reference to FIG. 9, the character recognition process of this example including the step of executing the post-processing again in response to the determination result of the illegal connection of the morpheme will be described.
It is appropriate to use this processing flow in such a manner that it is executed after the completion of the character recognition processing flow (FIG. 8) shown in the first embodiment, and this processing flow is also performed in such a procedure. That is, although not shown in FIG. 9, after a series of character recognition processing (steps S1 to S5 in FIG. 8) up to the post-processing shown in FIG. Language processing including morphological analysis is performed (step S21), and an illegal morpheme that does not satisfy the expression (1.4) is detected from the morphemes obtained by morphological analysis (step S22). Note that step S21 and step S22 shown in FIG. 9 correspond to the post-process (step S6) and the morpheme check process (steps S7 to S14) shown in FIG. 8, respectively. Then, explanation is omitted.
In step S22, it is confirmed whether or not an illegal morpheme is detected (step S23). If there is no illegal morpheme, the process flow ends. On the other hand, if there is an illegal morpheme, the evaluation score of the detected illegal morpheme is lowered in order to suppress selection of the incorrect morpheme (step S24).
As the second post-processing at the stage where the evaluation score of the morpheme is lowered, the post-processing is executed again, and the morpheme string that can be connected linguistically with the maximum evaluation score is selected (step S25). After this post-processing, this processing flow ends.
[0024]
“Embodiment 3”
The present embodiment relates to an embodiment in which a procedure for making it possible to avoid unnecessary application of the morphological analysis error check (embodiments 1 and 2) by detecting unauthorized connection of the morphemes described above.
When performing morphological analysis, if the input sentence contains a word that is not in the analysis dictionary, the morpheme corresponding to the range until the next dictionary searchable word is found is considered as an unknown word, and a powerful linguistic In many cases, there are no restrictions.
In the morphological analysis in the post-processing of the character recognition process, the range in which the corresponding word cannot be searched in the morphological analysis dictionary even if the recognition candidates are combined may be regarded as an unknown word morpheme by simply concatenating the characters in the first recognition rank. Many.
In the case of such an unknown word morpheme, even if this is subjected to a morphological analysis error check and detected as an illegal morpheme, the opposing morpheme is also a combination of unknown words, and in the end, it remains at the first recognition rank. Yes, even if another morpheme is selected, there is no change in the character string on the surface layer, and it does not contribute to the improvement of recognition accuracy.
Therefore, by applying the method of the morphological analysis error check (embodiments 1 and 2) by detecting the illegal connection of the morphemes only for the morphemes for which the dictionary search has been successful, which may include the recognition rank 1 and higher. The desired goal can be achieved. Efficient processing is possible by avoiding unnecessary morphological analysis error check processing according to such determination.
[0025]
Embodiment 4”
The present embodiment relates to a method for applying a morphological analysis to a character recognition result as a part of a process for recognizing a character, further checking the morphological analysis result, and detecting an error in the analysis. It is the same. In this method, in addition to grammatical attributes such as part of speech, a connection rule based on the character type of the morpheme surface layer, that is, a connection rule in which the relationship between the character type at both ends of the morpheme and the character type adjacent to them is determined in advance. An error in the result of morphological analysis is detected by checking whether it is satisfied or not.
First, the principle of this morpheme analysis result check method will be described.
In the case of a sticky word such as Japanese, there are character types such as kanji, hiragana, katakana, and alphanumeric characters that define the range of words. That is, the position where the character type changes is highly likely to be a morpheme division position.
In general, in the morphological analysis, when an unknown word that is not registered in the morphological analysis dictionary is used in the input sentence, a range other than the morpheme in which the dictionary search is successful is set as the unknown word.
For example, as an input character string subject to morphological analysis,
oscilloscope
To analyze the morphological analysis dictionary
"Loss": "Lose"
“Coop”: “co-op” “co-op”
Is registered,
"oscilloscope"
"scope"
Is not registered, the analysis result is
oscilloscope
And only “Oshi” is determined as an unknown word.
[0026]
By the way, in the case of morpheme analysis performed in the post-processing of character recognition, input that does not include the correct character in the recognition candidates is also targeted.
(A) An unknown word consisting of correct characters but not registered in the morphological analysis dictionary
(B) Unknown words that do not contain correct characters in recognition candidates
The analysis processing system cannot distinguish between them.
Therefore, there is a tendency that measures are taken to determine that a certain range, that is, a morpheme that has succeeded in dictionary search, is a correct answer, and to narrow the range of unknown words as much as possible.
However, there may be a problem if a morpheme that is successfully searched for a dictionary is given priority unconditionally. Such a case will be explained by the following example.
For example, the character recognition result for the input string “xylophone”
1st place xy 1 o pho hon e
2nd place × 1 c Γ b c h c
3rd place i ○ 6 ○
Suppose that
The dictionary for morphological analysis includes
Figure 0004141217
Is registered,
“Xylophone” [Name] Xylophone
Is not registered.
In this example, the morphological analysis in the post-processing of character recognition performs a dictionary search by combining recognition candidates,
"One"
"Cpb"
As a result, the following morphological analysis results are obtained.
/ Xyl / cpb / one /
In this result, because the dictionary word “cpb” was given priority,
Figure 0004141217
This results in a substitution error at the two points “o → c” and “h → b” indicated by.
Here, if the first character of the recognition result is concatenated and the whole “xylophone” is determined as an unknown word, a correct answer is obtained.
[0027]
Furthermore, as another example, the character recognition result for the input character string “denomination”
No. 1 denomination
2nd place
No. 3
Suppose that
The difference from the previous example (“xylophone”) is that it includes a character cut-out error “Flea” → “B”.
The dictionary for morphological analysis includes
"Deba": Reading of "Blade"
“Nation”: Katakana notation for nation
Is registered,
"denomination"
Is not registered.
In this example, the morphological analysis in the post-processing of character recognition performs a dictionary search by combining recognition candidates,
"Deba"
"Nation"
As a result, the following morphological analysis results are obtained.
/ Deva / nation /
In this result, because the dictionary word “deva” was given priority,
Figure 0004141217
As a result, a character segmentation error occurs at one location.
[0028]
Therefore, in the present invention, this adverse effect is eliminated by checking the result of the dictionary search according to the connection condition based on the character types at both ends of the morpheme and detecting the erroneous application of the dictionary word. As the connection conditions, the following connection conditions 1 and 2 are set for the relationship between the character types at both ends of the morpheme and the character types adjacent to the two characters, and these connection conditions are satisfied. It is determined that the connection is illegal.
Connection condition 1: When the character type of the surface layer of adjacent morphemes is the same and they are English characters
Connection condition 2: When the character types of the surface layers of adjacent morphemes are the same and they are katakana
When the above connection condition 1 is applied to the input character string “xylophone” drawn in the above example,
Figure 0004141217
As indicated by the arrows ↑ a- ↑ b and ↑ c- ↑ d, the character types on the surface layer of adjacent morphemes (adjacent at the end of the morpheme) are the same English character. To establish.
Moreover, when the connection condition 2 is applied to the input character string “denomination” drawn in the above example,
Figure 0004141217
As indicated by arrows ↑ a- ↑ b, this condition is satisfied because the character types of the surface layers of adjacent morphemes (adjacent at the end of the morpheme) are the same katakana.
As described above, if there is a morpheme string that does not satisfy the condition as a result of the check based on the connection conditions 1 and 2, it is determined that the morpheme is invalid, and the determination result is used to perform post-processing again based on the result. In addition, when indicating the result of the character recognition process, information indicating the determination result of the morpheme check is added and output (for example, to the morpheme determined to be illegal). It is possible to handle such as underlining.
When this morpheme check process based on the connection conditions based on the character types at both ends of the morpheme is performed as the process flow of the character recognition process, it can be performed in the same way as the process flow (FIG. 8) shown in the previous embodiment 1. Is possible. That is, as a procedure for determining the connection conditions, the connection conditions 1 and 2 are applied to the relationship between the character types at both ends of the morpheme and the character types adjacent to the two characters, and the morpheme is converted into an illegal morpheme. It is realizable by performing the process detected as.
[0029]
Embodiment 5”
In the present embodiment, a post-processing step of receiving a result of the morphological analysis error check (refer to the above-described embodiment 4), lowering the evaluation score of the morpheme regarded as an illegal morpheme, and determining the linguistic validity again. The aim is to further improve the recognition accuracy by searching for the possibility of reaching the correct morpheme string by this review.
In the example of the previous input character string “xylophone”,
1st place xy 1 o pho hon e
2nd place × 1 c Γ b c h e
3rd place i ○ 6 ○
As a morpheme candidate in the process of morphological analysis for
"Xyl": unknown word concatenated with recognition rank 1
"One": Dictionary word
"Cpb": Dictionary word
“Xylophone”: Unknown word that is connected with recognition rank 1
Is generated and as a result of the analysis,
/ Xyl / cpb / one /
However, as described above, since “cpb” and “one” satisfy the connection condition 1 for detecting unauthorized connection, in order to suppress selection of this unauthorized morpheme, Lower evaluation score.
This makes it difficult to select “cpb” and “one” in the morphological analysis when performing post-processing again, so the only morphological analysis result that covers the entire range of the input sentence is “xylophone”. Since there is not, “xylophone” is selected and the following correct answer is reached.
/ Xylophone /
Of course, if there is no competing morpheme sequence, “cpb” and “one” may be selected again.
Note that when the post-processing performed in a form reflecting the result of the morpheme check process based on the connection condition based on the character type at both ends of the morpheme is performed as the process flow of the character recognition process, the process flow shown in the previous embodiment 2 ( It can be carried out in the same manner as in FIG.
[0030]
Embodiment 6”
This embodiment exceptionally expands the application to different character types with similar character shapes when applying the morphological analysis error check (embodiments 4 and 5) by detecting the illegal connection of the morpheme described above. (It was necessary that the same character type be used as a condition for unauthorized connection), and thus the embodiment relates to an embodiment in which a procedure for making it possible to cover the influence of errors that easily occur in character recognition.
If different character types with similar character shapes whose application is to be expanded are described, character recognition recognizes the character shape, and therefore recognition candidates of different character types with similar shapes may be included.
For example, the result of recognizing the input sentence “brand cutlery”
No. 1 Brand Cutlery
2nd place
Suppose that
To morphological analysis dictionary
"Brand": Example: Brand product
"Brand power": Brand and Ryoku
Is registered,
"Cutlery": Katariri (generic name for knives, spoons, forks)
Is not registered.
The morphological analysis in the post-processing of character recognition is a dictionary search combining recognition candidates,
/ Brand / Cutlery / ------------ (6.1)
/ Brand power / Trary / ------------ (6.2)
/ Brand cutlery / ------------ (6.3)
The following three morphological analysis results are obtained. Note that (6.3) is an unknown word that is formed by concatenating all the characters in the first recognition rank.
According to the selection criteria to minimize the range of unknown words, the above (6.2) is chosen, and finally
Figure 0004141217
This results in a substitution error at the location indicated by the arrow.
[0031]
Here, in (6.2) above, since “force” is kanji and the end character “g” of the adjacent morpheme is katakana, it does not match the connection condition mentioned in the fourth embodiment, and therefore cannot be detected as an illegal morpheme connection. The inconvenience arises.
Therefore, even if the character types are different, the shapes are similar and characters that are likely to cause recognition errors are also subject to connection conditions.
Examples of combinations of different character types with similar target shapes include the following sets.
Figure 0004141217
[0032]
As an application example, an example of a pair of D (Katakana): Engineering (Kanji) will be drawn and the expanded illegal connection condition will be described below.
For example, when the input sentence “Drosophila Studies” is recognized,
To morphological analysis dictionary
"engineering"
Is registered,
"Drosophila"
Is not registered.
The analysis result is
/ Drosophila / Engineering /
There is a high possibility of mistakes. In this case, a replacement error of d → work occurs.
Therefore, in order to avoid such confusion, the following connection condition 3 is added and set to the connection conditions mentioned in the fourth embodiment, and when these connection conditions are satisfied, it is determined that the connection is illegal.
Connection condition 3: The character types on the surface layer are different between adjacent morphemes, which are katakana, English, and numbers, and one of them is included in the set of shape-similar characters in (6.4) above and (6 .4) When the character type of the corresponding similar character in the set of is the same as the character type of the adjacent character.
When the connection condition 1 is applied to the input character string “brand cutlery” drawn in the above example,
Figure 0004141217
It is established at the position of ↑ a- ↑ b indicated by, and a substitution error can be detected.
[0033]
“Embodiment 7”
In this embodiment, when applying the morpheme analysis error check (embodiments 4, 5, and 6) by detecting the illegal connection of the morpheme described above, the morpheme is a dictionary word and the word length is long (the number of characters is large). ) Is not subject to unauthorized connection check, and the present invention relates to an embodiment in which the process of excessive unauthorized connection check is suppressed to improve the efficiency of the process.
Misuse of dictionary words is likely to occur for relatively short words. For example, if the example of the input character string "xylophone" mentioned above is drawn,
"One": Dictionary word
"Cpb": Dictionary word
These two types of dictionary words are applied, and “cpb” is a result of misapplication, but the word length of both of these two types is as short as three characters. Obviously, a short word is likely to be misapplied because a search succeeds as long as a small number of characters are included in the ranks of recognition candidates. This means that in the case of a dictionary word with a long word length, the possibility of misapplication is low, and it can be said that it is better not to violate the strategy of prioritizing dictionary words.
For example, considering application to the input sentence “hinterland”, the morphological analysis dictionary
"Land" [name] land [movement] land
“Inter” [motion] burial: There is also a prefix of “~ between”
Is registered,
“Hinterland” [name] hinterland;
Is not registered.
[0034]
If it is possible to perform a correct morphological analysis, it is clear that the recognition result inevitably leads to a correct answer. Therefore, here, in order to clarify the explanation, the recognition result includes only the first place and includes a correct character.
The morphological analysis in the post-processing of character recognition is a dictionary search combining recognition candidates,
"Land"
"Inter"
And obtain morphological analysis results of (7.1), (7.2) and (7.3) below.
/ H / inter / land / ------------ (7.1)
"H": Unknown word
"Inter": Dictionary word
"Land": Dictionary word
/ Hinter / land / ------------ (7.2)
"Hinter": Unknown word
"Land": Dictionary word
/ Hinterland / ------------ (7.3)
"Hinterland": unknown word
When the connection conditions 1 and 2 referred to in the fourth embodiment are applied to these morphemes and an illegal morpheme connection is detected, the above (7.1) and (7.2) are applicable and it is determined that the connection is illegal.
Here, a limitation due to the length of the morpheme is added. here,
Connection condition 4: If the lengths of both adjacent morphemes are 4 characters or more, the connection is not subject to an unauthorized connection check.
Judgment is made on the condition.
/ H / inter / land / (above (7.1)), the length of adjacent morphemes at each connection position is
“H” (length 1 character) − “inter” (length 5 characters)
"Inter" (5 characters in length)-"land" (4 characters in length)
So,
/ H / inter /
This division is subject to an unauthorized connection check, matches the connection condition 1, and is determined to be unauthorized.
[0035]
On the other hand, when checking the length of adjacent morphemes at each connection position of /hinter/land/(7.2)
"Hinter" (6 characters in length)-"land" (4 characters in length)
Therefore, the connection condition 4 is met and the unauthorized connection check is not performed.
Finally,
/ Hinter / land / ------------ (7.2)
"Hinter": Unknown word
"Land": Dictionary word
When,
/ Hinterland / ------------ (7.3)
"Hinterland": unknown word
The above (7.2), which has a narrow unknown word range, is selected.
Note that the length value of the morpheme that is not subject to unauthorized connection inspection is a design requirement and is not limited to the four characters used in the present embodiment, but can be changed according to the specification.
[0036]
“Eighth embodiment”
There is a possibility that a correct morpheme analysis result may be rejected due to detection of unauthorized connection of morphemes performed by applying the connection conditions 1 to 3 described above (Embodiments 4, 5, and 6). This relates to the procedure for preventing the problem.
In the above-described Embodiments 4 to 6, the problem of unconditionally prioritizing the morpheme based on the dictionary search success word and the solution method thereof have been described.
However, depending on the solutions of the above-described Embodiments 4 to 6, there is also a problem that the correct morphological analysis result is rejected.
For example, consider a case that occurs in application to an input sentence “brand power rank” as a recognition target. Here, in the morphological analysis dictionary,
"brand"
"Power"
"Brand power"
"Rank"
Is registered.
Note that if the correct morphological analysis can be performed, it is clear that the recognition result will inevitably lead to a correct answer. Therefore, in order to clarify the explanation, the recognition result includes only the first place and includes the correct character.
[0037]
In morphological analysis in post-processing of character recognition, a dictionary search is performed by combining recognition candidates,
"brand"
"Power"
"Brand power"
"Rank"
And obtain the morphological analysis results of (8.1), (8.2) and (8.3) below.
/ Brand / Power / Rank / ------------ (8.1)
“Brand”: Dictionary
"Power": Dictionary word
"Rank": Dictionary word
/ Brand power / Rank / ------------ (8.2)
“Brand power”: Dictionary
"Rank": Dictionary word
/ Brand power rank / ------------ (8.3)
"Brand power rank": Unknown language
Since both (8.1) and (8.2) meet all of the above connection conditions 1 to 3, they are rejected, and finally the morphological analysis result of (8.3) above is selected.
However, the correct morphological analysis result is (8.2) above.
In order to prevent such adverse effects of the connection conditions 1 to 3, the following connection condition 5 is added.
Connection condition 5: If both adjacent morphemes are dictionary search success words, they are not subjected to unauthorized connection check.
This condition means that the connection check between the morpheme and the unknown word that can be searched in the dictionary is limited.
As an actual procedure,
Connection condition 5 → Connection condition 3 → Connection condition 2 → Connection condition 1
Prioritize and apply in the order of. The order of the connection conditions 1 and 2 can be exchanged.
In both the above analysis results (8.1) and (8.2), because the dictionary search success word is adjacent to each other at all connection boundaries, it is not subject to an illegal connection check. (8.2) is selected as the analysis result.
[0038]
“Embodiment 9”
This embodiment shows the embodiment of the character recognition apparatus concerning this invention.
General-purpose processing apparatus as means for executing the processing steps shown in the character recognition method including the procedure for detecting unauthorized connection of morphemes obtained as a result of the morpheme analysis shown in the above-mentioned “Embodiment 1” to “Embodiment 8” The apparatus is configured using (computer).
FIG. 10 illustrates the configuration of the character recognition device of this embodiment. As shown in FIG. 10, this example shows an example implemented by a general-purpose processing device (computer). As components, a CPU 1, a memory 2, a hard disk drive 3, a scanner, a keyboard, a mouse, and the like are provided. An input device 4 as a component, a CD-ROM drive 5, a display 6, a flexible disk drive 7, a communication device 8 and the like are prepared and connected by a bus.
A part of a storage medium (not shown) used by the memory 2, the hard disk drive 3, the CD-ROM drive 5, and the flexible disk drive 7 as a storage means realizes the character recognition processing function according to the present invention. A program (software) for executing each processing step shown in the character recognition method including the procedure for detecting unauthorized connection of morphemes shown in the above “Embodiment 1” to “Embodiment 8” is recorded.
An original document image to be processed is input by an input device 4 such as a scanner and is stored in, for example, the hard disk 3. The CPU 1 reads a program for realizing the processing functions and processing methods described above from a recording medium included in the storage unit, executes processing according to the program on the target document image, and outputs the processing result and the like to the display 6.
As shown in FIG. 11, the character recognition apparatus according to the present invention is connected to external apparatuses 11 to 13 via a communication line 20 such as the Internet by a communication apparatus 8 so that a part of the functions is placed on the network. You may carry out with the form which has.
Further, in addition to executing the execution program for each processing step of the character recognition method of the present invention on a general-purpose computer as in this embodiment, functions necessary for execution of each processing step are implemented in the form of firmware or electric circuit. It is also possible to configure a character recognition device by incorporating it into the utilization device.
[0039]
【The invention's effect】
(1) Claim 1 Thru 6 Effects corresponding to the invention
Character recognition processing is performed on characters cut out from the character string to be processed, and when the recognition result is almost confirmed, morphological analysis is performed on the recognized character string, and characters larger than the distance between morphemes are compared with the analysis result. Since illegal morphemes including inter-distances are detected and the morphological analysis results are checked, performance can be improved by processing corresponding to errors in morphological analysis that can reduce the accuracy of character recognition. It becomes possible.
Moreover, it is possible to embody an improvement in the accuracy of character recognition by lowering the evaluation score of the detected illegal morpheme and performing post-processing to determine linguistic validity again.
In addition, the morpheme analysis results are checked only for morphemes that can be searched in the dictionary, so that unnecessary morpheme analysis error check processing for unknown word morphemes can be avoided and efficient processing is possible. Is possible.
[0041]
(2) Claim 7 Effects corresponding to the invention
Claims 1 to 3 By installing a program for executing each processing step of the character recognition method described in the above in a general-purpose computer, the above (1) of It is possible to easily realize the effect and provide a character recognition device that exhibits the effect.
[Brief description of the drawings]
FIG. 1 shows an example of a document image to be processed.
FIG. 2 shows a result of creating a circumscribed rectangle of a black run that can be regarded as a character in the example of the document image (FIG. 1).
FIG. 3 is a diagram illustrating a character line rectangle and a character circumscribing rectangle obtained as a result of integration processing;
FIG. 4 shows an original image for one line, an input sentence (read image data), and a recognition result (up to the second rank).
FIG. 5 is a diagram for explaining an example in which a distance between characters that can be searched for a dictionary is limited.
6 is a diagram illustrating a case where all characters are arranged apart from each other even in a character string made up of the same characters as in FIG.
FIG. 7 shows an application example for explaining a method of determining an illegal connection of morphemes based on a distance between characters and a distance between morphemes.
FIG. 8 is a chart showing an exemplary flow of character recognition processing of “Embodiment 1”;
FIG. 9 is a chart showing an example of a character recognition process flow of “Embodiment 2”;
FIG. 10 shows an embodiment of a character recognition device according to the present invention.
FIG. 11 shows another example of an embodiment of a character recognition device according to the present invention.
[Explanation of symbols]
1 ... CPU, 2 ... memory,
3 ... Hard disk drive 4 ... Input device,
5 ... CD-ROM drive, 6 ... Display (display device),
7 ... FD drive, 8 ... Communication device.

Claims (7)

処理対象として入力された文字列を有する文書画像から文字を切り出す文字切り出しステップと、切り出された各文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字列を対象にして文字の外接矩形における隣接矩形間距離を算出する矩形間距離算出ステップと、前記文字認識ステップで認識された文字列に対する形態素を解析する形態素解析ステップと、前記矩形間距離算出ステップ及び形態素解析ステップの結果に基づいて得た文字間距離と形態素間距離とを比較するステップと、形態素間距離より大きな文字間距離を含む形態素を検出する形態素解析チェックステップを有することを特徴とする文字認識方法。  A character segmentation step for segmenting characters from a document image having a character string input as a processing target, and a character recognition step for collating each segmented character with a character image feature stored in a dictionary and performing character recognition based on the collation result A character recognition method including: a distance calculation between rectangles for calculating a distance between adjacent rectangles in a circumscribed rectangle of a character for the character string recognized in the character recognition step; and the character recognition step A morpheme analysis step for analyzing a morpheme for a character string, a step of comparing a distance between characters obtained based on the results of the inter-rectangular distance calculation step and the morpheme analysis step, and a distance between characters larger than the morpheme distance. A character recognition method comprising a morpheme analysis check step for detecting a morpheme including a distance. 請求項1に記載された文字認識方法において、前記形態素解析チェックステップにより検出した形態素間距離より大きな文字間距離を含む形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理ステップを有することを特徴とする文字認識方法。  2. The character recognition method according to claim 1, further comprising: a post-processing step that lowers an evaluation score of a morpheme including a distance between characters larger than a distance between morphemes detected by the morpheme analysis check step, and re-determines linguistic validity. A character recognition method comprising: 請求項1又は2に記載された文字認識方法において、前記形態素解析ステップに辞書検索を用い、前記形態素解析チェックは、辞書検索できた形態素に限って、形態素解析チェックを行うようにしたことを特徴とする文字認識方法。  3. The character recognition method according to claim 1, wherein a dictionary search is used in the morpheme analysis step, and the morpheme analysis check is performed only on a morpheme that has been dictionary searched. Character recognition method. 処理対象として入力された文字列を有する文書画像から文字を切り出す文字切り出し手段と、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識手段有する文字認識装置であって、さらに前記文字認識手段で認識された文字列を対象にして文字の外接矩形における隣接矩形間距離を算出する矩形間距離算出手段と、前記文字認識手段で認識された文字列に対する形態素を解析する形態素解析手段と、前記矩形間距離算出手段及び形態素解析手段の結果に基づいて得た文字間距離と形態素間距離とを比較する比較手段と、形態素間距離より大きな文字間距離を含む形態素を検出する形態素解析チェック手段を有することを特徴とする文字認識装置Character cutout means for cutting out characters from a document image having a character string input as a processing target, and character recognition means for comparing each cut out character with a character image feature stored in a dictionary and performing character recognition based on the matching result a character recognition apparatus comprising: a rectangular distance calculation means for calculating the adjacent rectangular distance between the further circumscribed rectangle of the by the character string recognized by the recognition means to the target character, recognized by the character recognition means A morpheme analysis unit that analyzes morpheme for a character string, a comparison unit that compares a distance between characters and a distance between morphemes obtained based on the results of the inter-rectangular distance calculation unit and the morpheme analysis unit , and a character larger than the morpheme distance A character recognition apparatus comprising morpheme analysis check means for detecting a morpheme including an inter-distance . 請求項4に記載された文字認識装置において、前記形態素解析チェック手段で検出した形態素間距離より大きな文字間距離を含む形態素の評価スコアを下げて、言語的妥当性を再度判断する後処理手段を有することを特徴とする文字認識装置In the character recognition device described in claim 4, by lowering the evaluation score morpheme containing large distance between characters from morphemes distance detected by the morphological analysis check means, the post-processing means for determining the language validity again A character recognition device comprising: 請求項4又は5に記載された文字認識装置において、前記形態素解析に辞書検索手段を用い、前記形態素解析チェックは、辞書検索できた形態素に限って、形態素解析チェックを行うようにしたことを特徴とする文字認識装置6. The character recognition apparatus according to claim 4, wherein dictionary search means is used for the morpheme analysis, and the morpheme analysis check is performed only for morphemes that can be searched for a dictionary. A character recognition device . 請求項乃至のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラム A program for causing a computer to execute each processing step of the character recognition method according to any one of claims 1 to 3 .
JP2002276582A 2002-09-24 2002-09-24 Character recognition method, program used for executing the method, and character recognition apparatus Expired - Fee Related JP4141217B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002276582A JP4141217B2 (en) 2002-09-24 2002-09-24 Character recognition method, program used for executing the method, and character recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002276582A JP4141217B2 (en) 2002-09-24 2002-09-24 Character recognition method, program used for executing the method, and character recognition apparatus

Publications (2)

Publication Number Publication Date
JP2004118254A JP2004118254A (en) 2004-04-15
JP4141217B2 true JP4141217B2 (en) 2008-08-27

Family

ID=32272410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002276582A Expired - Fee Related JP4141217B2 (en) 2002-09-24 2002-09-24 Character recognition method, program used for executing the method, and character recognition apparatus

Country Status (1)

Country Link
JP (1) JP4141217B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101242142B1 (en) 2011-10-13 2013-03-11 (주) 케이씨넷 Method and system for pre-verification of data

Also Published As

Publication number Publication date
JP2004118254A (en) 2004-04-15

Similar Documents

Publication Publication Date Title
Kissos et al. OCR error correction using character correction and feature-based word classification
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
US8645819B2 (en) Detection and extraction of elements constituting images in unstructured document files
US8131087B2 (en) Program and apparatus for forms processing
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
JP3919617B2 (en) Character recognition device, character recognition method, program, and storage medium
EP2428905A1 (en) Information processing apparatus, information processing method, and computer program product for using composite data of image and text information
EP2328098B1 (en) Apparatus and method for extracting circumscribed rectangles of characters in transplantable electronic document
JP2007122403A (en) Device, method, and program for automatically extracting document title and relevant information
JP2008059527A (en) Image processor and program
JPH0634256B2 (en) Contact character cutting method
US8208685B2 (en) Word recognition method and word recognition program
WO2021230054A1 (en) Sentence extraction device and sentence extraction method
US20110097002A1 (en) Apparatus and method of processing image including character string
JP4686433B2 (en) Word recognition method and word recognition device
Fateh et al. Enhancing optical character recognition: Efficient techniques for document layout analysis and text line detection
US7756872B2 (en) Searching device and program product
JP4141217B2 (en) Character recognition method, program used for executing the method, and character recognition apparatus
JP7315420B2 (en) How to adapt and modify text
JP4194020B2 (en) Character recognition method, program used for executing the method, and character recognition apparatus
JP4087191B2 (en) Image processing apparatus, image processing method, and image processing program
JP2000090117A (en) Method and device for extracting logical element of document image, and recording medium therefor
JPH09274645A (en) Method and device for recognizing character
JP4263928B2 (en) Character recognition device, character recognition method, character recognition program, and recording medium
JP7358838B2 (en) Information processing device and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080610

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees