JP5039659B2 - 文字認識方法及び文字認識装置 - Google Patents

文字認識方法及び文字認識装置 Download PDF

Info

Publication number
JP5039659B2
JP5039659B2 JP2008199477A JP2008199477A JP5039659B2 JP 5039659 B2 JP5039659 B2 JP 5039659B2 JP 2008199477 A JP2008199477 A JP 2008199477A JP 2008199477 A JP2008199477 A JP 2008199477A JP 5039659 B2 JP5039659 B2 JP 5039659B2
Authority
JP
Japan
Prior art keywords
character
width
likelihood
pattern
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008199477A
Other languages
English (en)
Other versions
JP2010039615A (ja
Inventor
峰伸 関
勝美 丸川
広 新庄
健 永崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Terminal Solutions Corp
Original Assignee
Hitachi Omron Terminal Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Omron Terminal Solutions Corp filed Critical Hitachi Omron Terminal Solutions Corp
Priority to JP2008199477A priority Critical patent/JP5039659B2/ja
Publication of JP2010039615A publication Critical patent/JP2010039615A/ja
Application granted granted Critical
Publication of JP5039659B2 publication Critical patent/JP5039659B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P20/00Technologies relating to chemical industry
    • Y02P20/50Improvements relating to the production of bulk chemicals
    • Y02P20/52Improvements relating to the production of bulk chemicals using catalysts, e.g. selective catalysts

Landscapes

  • Character Input (AREA)

Description

本発明は、入力された画像から文字を認識し、テキスト情報を取得する文字認識装置に関する。
文字認識処理では、始めに、文字が並んでいる領域である文字行を入力画像から抽出する文字行抽出処理を実行し、文字行の中から一つ一つの文字を切り出す文字切出処理を実行し、切り出された文字である文字パタンの特徴を抽出する。次に、予め複数の文字種の特徴を辞書として用意しておき、用意された辞書の特徴と認識対象である文字パタンの特徴とをマッチングする文字識別処理を実行し、マッチングの度合いである類似度(識別尤度)が最も高い文字種を認識結果として出力する。
文字切出処理では、黒画素の連なりである連結成分を生成し、連結成分又は連結成分を上下方向にまとめたエレメントを構成要素の単位とし、それらの構成要素を組み合わせることによって文字パタンを生成するプレセグメンテーション処理を行う。以後、構成要素の単位をエレメントとするが、構成要素の単位は連結成分となることもある。文字がつぶれる、又は文字が接近して印刷されることによって、文字同士が接触する場合には、複数の文字が合わさって一つのエレメントとなってしまうことがある。そのため、文字切出処理は、1つのエレメントを切断し、複数のエレメントを生成する強制切断処理を含む。
一般に、印刷される文字には半角、全角、倍角の文字幅がある。従来は、特許文献1に記載されているように、文字認識する場合には、どの文字幅の文字が記載されているかわからないため、印刷された文字がどの文字幅であるかを判定し、判定された文字幅で文字を切り出し、切り出された文字について文字識別処理を実行していた。
また、手書き文字のように文字幅が特定できない場合は、文字切り出し処理において、一つ一つの文字の区切りが必ずしも一意に決められない。そのため複数の文字切り出し候補を生成し、それらのネットワークである切り出しネットワークを構成し、文字識別結果である識別尤度が高くなるように文字識別結果の並びを選択する最適パス探索を実行し、認識結果を得る。
また、予め単語のリストである単語辞書を用意しておき、文字パタンの識別尤度が高い複数の文字種を組み合わせて、単語辞書内の単語と照合し、最適パス探索において照合した文字種の組み合わせを優先して認識結果を得ることもできる(単語照合)。
さらに、予め単語リスト内にある単語Aと単語Bが連続して出現する確率である単語バイグラムを用意しておき、最適パス探索において連続する単語の確率を考慮することもできる。単語照合や単語バイグラムを用いることによって、文字識別結果の第一位の候補が不正解であったとしても、不正解とされた候補を修正した認識結果を得ることができる。これを知識処理と呼ぶ。これらの処理は、国際ワークショップthe 10th International Workshop on Frontiers in Handwriting Recognitionにおいて開示されている。
特開平06−150055号公報 Katsumi Marukawa、外2名,"Online Recognition of Unconstrained Handwritten Japanese Text Using Statistical Information",2006年
しかし、印刷された文字を認識する際、漢字やひらがなは連結成分が左右に分かれる場合があるため、特許文献1に記載された方法を用いたとしても、半角、全角、倍角の判別結果が必ず正しいとは限らない。さらに、つぶれて接触した文字を多く含む場合、及び文字がかすれて連結成分が細かく分かれている場合は、より半角、全角、倍角の判別が難しくなる。もし、半角、全角、倍角の判定を誤った場合、誤った文字認識結果を出力する可能性が高い。これに対し、上記手書き文字認識の方法のように複数の文字切り出しの候補を生成し、最適な文字パタンの組み合わせを選択することにより、精度の高い認識結果が得られる。
しかし、前述した手書き文字認識の方法は、半角、全角、倍角を想定したすべての文字切り出しの候補を生成することになり、生成される文字パタンの数が多くなるため、処理時間が多くなり、誤って切り出した文字パタンを誤認識するという問題が発生する。
本発明は、半角、全角、倍角で印刷された文字を認識する際に、つぶれて接触した文字を多く含む場合、及び文字がかすれて連結成分が細かく分かれている場合にも、処理時間を抑制し、かつ、高精度な文字認識結果を得ることを目的とする。
本発明の代表的な一例を示せば以下の通りである。
すなわち、本発明の一実施形態によると、画像中から文字を認識する文字認識方法であって、文字を含む画像から文字を構成する黒画素の連なりである連結成分を生成する連結成分生成処理と、文字が並んでいる領域となる文字行を抽出する文字行抽出処理と、文字行内にある文字の半角らしさの度合いを示す半角尤度を算出する半角判別処理と、文字行内にある文字の倍角らしさの度合いを示す倍角尤度を算出する倍角判別処理と、文字行内にある文字のかすれ度合いを示す文字かすれ尤度を算出する文字かすれ判別処理と、文字行内にある文字の接触度合いを示す文字接触尤度を算出する文字接触判別処理と、文字行内へのノイズの混入度合いを示すノイズ尤度を算出するノイズ判別処理と、前記文字接触判別処理によって算出された文字接触尤度及び前記倍角判別処理によって算出された倍角文字尤度を用いて、一つ又は複数の連結成分を組み合わせた情報である文字パタンを生成するプレセグメンテーション処理と、前記文字かすれ判別処理によって算出された文字かすれ尤度及び前記半角判別処理によって算出された半角文字尤度を用いて、連結成分を切断する文字パタンを選択し、連結成分の切断する位置を決定する強制切断処理と、前記プレセグメンテーション処理及び前記強制切断処理によって生成された文字パタンの特徴を抽出し、予め用意された識別辞書に存在する各文字種の特徴との類似度を算出する文字識別処理と、を備えることを特徴とする。
本発明の一実施形態によると、半角、全角、倍角で印刷された文字を認識する処理時間を抑制し、かつ、高精度な文字認識結果を得ることが可能となる。
以下、本発明を適用した文字認識方法及び文字認識装置について、図面を用いて詳細に説明する。
図2は、本発明の実施の形態に係る文字認識装置の構成を示すブロック図である。
本発明の実施形態の文字認識装置208は、通信装置201、画像取得装置202、表示装置203、外部記憶装置204、メモリ205、CPU(Central Processing Unit)206、及び、キーボードやマウスなどの入力装置207を備え、これらの各構成はPCIバスなどの通信線で接続されている。
本発明の実施形態の文字認識方法を実行するプログラムは、外部記憶装置204及び/又はメモリ205等の記憶装置に格納され、CPU206によって実行される。CPU206に入力される文字を含む画像は、スキャナ、OCR又はデジタルカメラなどの画像取得装置202又は通信装置201から入力されてもよい。また、文字を含む画像は、外部記憶装置204に記憶されてもよい。
文字認識の結果は、表示装置203に出力される。また、文字認識の結果は、通信装置201を経由して外部に出力されてもよく、文字認識装置208で実行される他のプログラムに用いられてもよい。
図1は、本発明の実施の形態の文字認識処理の全体を示すフローチャートである。
はじめに、文字行抽出処理102において、入力画像101を入力とし、文字が並んでいる領域となる文字行画像が抽出される。
図3は、本発明の実施の形態の文字行抽出処理102の結果の一例を示す説明図である。
以後の説明では、文字行画像上の位置は、文字行画像の左上端を原点とし、左右方向の右をx軸の正の方向、上下方向の下をy軸の正の方向とする。
次に、連結成分/エレメント生成処理103では、入力された文字行画像から、黒画素の連なりである連結成分を生成し、上下方向に重なる連結成分をまとめたもの、例えば外接矩形であるエレメントを生成する。
その後、倍角判別処理104、文字接触判別処理105、半角判別処理106、文字かすれ判別処理107及びノイズ判別処理108を実行する。これらの処理は、並行して独立に実行されることが望ましいが、順に実行されてもよい。
その後、プレセグメンテーション処理109を実行する。プレセグメンテーション処理109では、半角尤度、倍角尤度、文字接触尤度、文字かすれ尤度、ノイズ尤度、エレメント、連結成分及び文字行画像が入力され、基準となるエレメントを決め、基準のエレメントを左端にするように文字パタンが生成される。
その後、強制切断処理110を実行し、一つの文字パタンを数の文字パタンに分離する。強制切断処理110でも、半角尤度、倍角尤度、文字接触尤度、文字かすれ尤度、ノイズ尤度、エレメント、連結成分及び文字行画像が用いられる。
その後、文字識別111が実行される。文字識別111では、プレセグメンテーション処理109及び強制切断処理110によって生成された文字パタンの特徴が抽出され、予め用意された識別辞書にある各文字種の特徴との類似度が算出される。
その後、知識処理112が実行される。知識処理112では、文字切り出しネットワークと文字識別結果が入力され、文字行画像の文字認識結果が出力する。
その後、認識結果利用文字幅検定113を行って、文字認識結果114を得る。
次に、各処理の詳細について説明する。まず、連結成分/エレメント生成処理103の詳細について説明する。
図4は、本発明の実施の形態の連結成分の例を示す図である。
文字行画像の連結画素を囲む外接矩形が、一つの連結成分として生成される。
図4に示す例では、「秋」を示す画像には黒枠の外接矩形で囲われた4つの連結成分が含まれる。
図5は、本発明の実施の形態のエレメントの例を示す図である。
連結成分を垂直方向にまとめた外接矩形が、一つのエレメントとして生成される。
図5に示す例では、「秋」を示す画像には黒枠で囲われた2つのエレメントが含まれる。
次に、倍角判別処理104、文字接触判別処理105、半角判別処理106、文字かすれ判別処理107及びノイズ判別処理108の詳細について説明する。これらの処理の際、文字行の高さCLhと幅CLwを用いる。
CLhとCLwの最も簡単な算出式は、
(式1)CLh = 黒画素のy座標最大値 - y座標最小値 + 1
(式2)CLw = 黒画素のx座標最大値 - x座標最小値 + 1
である。
この文字行の高さと幅の算出方法は文字行の傾きを考慮していないが、文字行の傾きを考慮してCLhとCLwを算出してもよい。
そして、エレメントEの幅をEwとし、文字行画像内にn個のエレメント{E1,…,Ei,…,En}が存在する場合、それぞれのエレメントの幅を{Ew1,…,Ewi,…,Ewn}とする。さらに、連結成分Sの幅をSw及び高さをShとし、文字行画像内にm個の連結成分{S1,…,Si,…,Sm}が存在する場合、それぞれの幅を{Sw1,…,Swi,…,Swm}及び高さを{Sh1,…,Shi,…,Shm}とする。
倍角判別処理104では、文字行画像、連結成分及びエレメントを入力し、文字行画像内の文字が倍角の文字である度合いを示す倍角尤度Ldを算出する。文字行画像、連結成分及びエレメントを利用し、Ldを算出する方法は、様々考えられる。
例えば、以下に示す方法を採用することができる。
設定値Vdを予め定めておき、この設定値Vdを用いて、
(条件式1)Ewi > CLh×Vd
を満たすエレメントのEwiの総和Elwtを算出する。次にElwtを用いて、倍角尤度Ldは、
(式3)Ld = Elwt/ΣEwi
と算出できる。
このとき、Vdを1より大きい値に設定することによって、Ldは文字行中に幅の広いエレメントがどのくらいの割合で存在するかを示す値となる。そのため、Ldが大きいほど文字行内の文字が倍角である可能性が高いことになる。
半角判別処理106では、文字行画像、連結成分及びエレメントを入力し、文字行画像内の文字が半角の文字である度合いを示す半角尤度Lhを算出する。文字行画像、連結成分及びエレメントを利用し、Lhを算出する方法は、様々考えられる。
例えば、以下に示す方法を採用することができる。
CLhとEwi及びエレメント数nを用いて、半角尤度Lhは、
(式4)Lh = CLh×n/ΣEwi
と算出できる。
Lhは、文字行の高さに対する文字幅の割合の平均を算出し、算出された平均の逆数である。そのため、Lhが大きいほど半角である可能性が高いことになる。
文字接触判別処理105では、文字行画像、連結成分及びエレメントを入力し、文字行画像内の文字が接触している度合いを示す文字接触尤度Lcを算出する。文字行画像、連結成分及びエレメントを利用し、Lcを算出する方法は、様々考えられる。
例えば、以下に示す方法を採用することができる。
設定値Vcを予め定めておき、この設定値Vcを用いて、
(条件式2)Ew/CLh > Vc
を満たすエレメントの数Ncを算出する。次にNcを用いて、文字接触尤度Lcは、
(式5)Lc = Nc×CLh/ΣEwi
と算出できる。
例えば、Vcを2.5と設定することによって、倍角文字よりも幅の広い連結成分が文字行内にどのくらいの割合で存在するかを示す値となる。そのため、Lcが大きいほど文字行内の文字の接触している度合いが高いことになる。
文字かすれ判別処理107では、文字行画像、連結成分及びエレメントを入力とし、文字行画像内の文字がかすれている度合いを示す文字かすれ尤度Lbを算出する。文字行画像、連結成分及びエレメントを利用し、Lbを算出する方法は、様々考えられる。
例えば、以下に示す方法を採用することができる。
設定値Vb1、Vb2を予め定めておき、設定値Vb1、Vb2を用いて、
(条件式3)Vb1 < Swi <Vb2 かつ Vb1 < Shi < Vb2
を満たす連結成分の数Nbを算出する。次にNbを用いて、文字かすれ尤度Lbは、
(式6)Lb = Nb×CLh/ΣEwi
と算出できる。
例えば、Vb1の値を1/3、Vb2の値を2/3と調整設定することによって、文字行の高さに対して、連結成分の高さと幅とが1/3から2/3である連結成分が文字行内にどのくらいの割合で存在するかを示す値となる。文字がかすれた場合、本来の文字の連結成分が途切れ途切れになるため、途切れ途切れになった連結成分の存在する割合は、文字行内の文字がかすれている度合いとなる。そのため、Lbが大きいほど文字行内の文字がかすれている度合いが高いことになる。
ノイズ判別処理108では、文字行画像、連結成分及びエレメントを入力し、文字行内にノイズが存在する度合いを示すノイズ尤度Lnを算出する。文字行画像、連結成分及びエレメントを利用し、Lnを算出する方法は、様々考えられる。 例えば、以下に示す方法を採用することができる。
設定値Vnを予め定めておき、設定値Vnを用い、
(条件式4)Shi < Vn かつ Swi < Vn
を満たす連結成分の数Nnを算出する。次にNnを用いて、ノイズ尤度Lnは、
(式7)Ln = Nn×CLh/ΣEwi
と算出できる。
VLnは、文字行の高さに対して、連結成分の高さと幅とがVnより小さい連結成分が文字行内にどのくらいの割合で存在するかを示す値となる。例えば一文字サイズの領域内における小さい連結成分の存在割合では、ノイズがあるか否かの判別は難しい。これに対し、文字行の中における小さい連結成分が存在する割合を用いることで、ノイズが存在しているか否かを判別しやすくなる。そのため、Lnが大きいほど文字行内にノイズが存在している度合いが高いことになる。
次に、プレセグメンテーション処理109の詳細について説明する。プレセグメンテーション処理109では、基準のエレメントの左端から一定距離Px内にあるエレメントが含まれる文字パタンが複数生成される。
図6は、本発明の実施の形態のプレセグメンテーション処理109の一例を示す説明図である。図6に示す例では、「語い」を構成するエレメント四つが存在した場合に、エレメント1を基準のエレメントにして生成された文字パタンを示している。プレセグメンテーション処理109では、エレメント2を基準のエレメントにした文字パタン、エレメント3を基準のエレメントにした文字パタン、エレメント4を基準のエレメントにした文字パタンも生成される。図6に示す例では、文字パタン2が一文字分のエレメントのみを含み、文字パタン1は一部が欠け、文字パタン3と文字パタン4は余計なエレメントを含んでいる。
図7は、本発明の実施の形態の全角文字のプレセグメンテーション処理109の一例を示す説明図、図8は、本発明の実施の形態の倍角文字のプレセグメンテーション処理109の一例を示す説明図、図9は、本発明の実施の形態の半角文字のプレセグメンテーション処理109の一例を示す説明図である。
図7、図8、図9に示すように、全角文字と倍角文字と半角文字とでは一文字分のエレメント間の距離が異なる。必ず倍角文字を生成するようにPxの値を設定した場合には、プレセグメンテーション処理109は、図6の文字パタン3や文字パタン4のような余分な文字パタンを生成してしまう。逆に全角文字を生成するようにPxの値を設定すると、倍角文字を含む文字行において、図6の文字パタン1のような文字パタンが生成される。
このように、Pxが小さすぎると一つの文字を構成するエレメントを含む文字パタンが生成されず、文字認識精度が下がる。また、Pxが大きすぎると余分な文字パタンが増加するため、処理時間が多くなる。さらに、文字のかすれ及び文字接触によって、余分な文字パタンを高い尤度で認識してしまう可能性もあるため、文字認識精度が下がることがある。
本発明の実施の形態では、半角尤度Lh、倍角尤度Ld、文字かすれ尤度Lb、文字接触尤度Lc、ノイズ尤度Lnを用いて、Pxの値を制御することによって、半角、全角、倍角の文字を含む文字行であっても、正しい文字パタンを生成し、余分な文字パタンの増加を抑制する。このとき、Pxの値は、各尤度においてPxがどのように変化するかを示すテーブルを用いて決められる。
具体的には、文字接触が多い文字行では、接触している複数の文字を一つのエレメントと認識し、生成されるエレメントの幅が大きくなり倍角尤度は高くなる。このとき、半角尤度Lhと文字接触尤度Lcとを用いて、(Lh−Lc)の値が一定閾値よりも低い場合にのみPxの値を大きくすることによって、余分な文字パタンの生成が抑制される。また、文字かすれ尤度Lbが一定閾値よりも低い場合にのみPxの値を大きくすることによって、余分な文字パタンの生成が抑制される。また、倍角尤度Ldが所定の閾値よりも高い場合にのみPxの値を大きくすることによって、倍角文字を含む文字行において正しい文字パタンを生成し、かつ全角文字を含む文字行において、余分な文字パタンの生成が抑制される。ここで、ノイズ尤度Lnが一定閾値よりも高い場合は、設定値Vpより幅が小さく、かつ設定値Vpより高さが小さいエレメントを除いて文字パタンを生成すると、さらに余分な文字パタンの生成を抑制することができる。
次に、強制切断処理110の詳細について説明する。
図10は、本発明の実施の形態の全角強制切断処理の一例を示す説明図である。図10に示す例では、「開」と「発」の文字が接触している文字パタンが入力され、それらが分離され、二つの文字パタンが生成されている。
図12は、本発明の実施の形態の強制切断処理110を示すフローチャートである。半角尤度1222、倍角尤度1223、文字接触尤度1224、文字かすれ尤度1225、ノイズ尤度1226及び文字パタン1201が入力される。文字パタン1201は、パタンバッファ1203に格納され、一つずつ倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217及び半角旁接触判定1220に入力される。また、文字行情報生成1227では、文字パタン1201が入力され、文字行の高さや幅などの情報が生成され、生成された文字行の情報は倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217及び半角旁接触判定1220に入力される。
全角接触判定1211では、文字パタン内の左に存在する全角サイズの文字が、右の文字と接触しているか否かを判定する。全角接触判定1211の方法は、様々考えられる。
例えば、以下に示す方法を採用できる。
設定値Vncを予め定めておき、設定値Vncを用い、
(式8)THn=文字行高さ×Vnc
によってThnを求め、入力文字パタンの幅が求められたTHnより大きい場合、全角文字が接触していると判定することができる。例えば、(式8)のVncを1と設定することによって、文字行高さよりも大きいパタンは全角文字が接触している可能性があると判定することができる。
図11は、本発明の実施の形態の全角旁強制切断の一例を示す説明図である。全角旁接触判定1214では、図11に示す例のように、文字パタン内の左に旁のみが存在する全角サイズの文字が、右の文字と接触しているか否かを判定する。全角旁接触判定1214の方法は様々考えられる。
例えば、(式8)のTHnを利用し、入力文字パタンの幅がTHnより大きい場合、全角文字の旁が接触していると判定することができる。例えば、(式8)のVncを1と設定することによって、文字行高さよりも大きいパタンは全角文字の旁が接触している可能性があると判定することができる。
半角接触判定1217では、文字パタン内の左に存在する半角文字が、右の文字と接触しているか否かを判定する。半角接触判定1217の方法は様々考えられる。
例えば、(式8)のTHnを利用し、入力文字パタンの幅がTHnより大きい場合、全角文字が接触していると判定することができる。例えば、(式8)のVncを1/2と設定とすることによって、文字行高さの半分よりも大きいパタンは半角文字が接触している可能性があると判定することができる。
半角旁接触判定1220では、文字パタン内の左に旁のみが存在する半角文字が、右の文字と接触しているか否かを判定する。半角旁接触判定1220の方法は様々考えられる。
例えば(式8)のTHnを利用し、入力文字パタンの幅がTHnより大きい場合、倍角文字の旁が接触していると判定することができる。例えば、(式8)のVncを1/2と設定することによって、文字行高さの半分よりも大きいパタンは半角文字が接触している可能性があると判定することができる。
倍角接触判定1205では,文字パタン内の左に存在する倍角文字が、右の文字と接触しているか否かを判定する。倍角接触判定1205の方法は様々考えられる。
例えば、(式8)のTHnを利用し、入力文字パタンの幅がTHnより大きい場合、倍角文字が接触していると判定することができる。例えば、(式8)のVncを2と設定することによって、文字行高さの2倍よりも大きいパタンは倍角文字が接触している可能性があると判定することができる。
倍角旁接触判定1208では、文字パタン内の左にの旁のみが存在する倍角文字が、右の文字と接触しているか否かを判定する。倍角旁接触判定1208の方法は様々考えられる。
例えば、(式8)のTHnを利用し、入力文字パタンの幅がTHnより大きい場合、倍角文字の旁が接触していると判定することができる。例えば、(式8)のVncを2と設定とすることによって、文字行高さの2倍よりも大きいパタンは倍角文字の旁が接触している可能性があると判定することができる。
図13は、本発明の実施の形態の強制切断処理の概要を示す説明図である。
全角位置強制切断1212では、全角接触判定1211で全角文字が接触している可能性があると判定された文字パタンを入力し、入力された文字パタンの切断位置が決定され、入力された文字パタンが決定された切断位置で切断され、新たに二つの文字パタンが生成される。切断位置の決定する方法は様々考えられる。
例えば、以下に示す方法を採用することができる。はじめに、倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217及び半角旁接触判定1220のいずれかで接触の可能性があると判定された文字パタン1301が入力され、y方向に黒画素を投影した黒画素ヒストグラム1302が生成される。次に、切断位置探索中心を決定するZxを算出し、原点からx軸の正方向にZxの距離を切断位置探索中心として、Zx−hからZx+hの区間で黒画素ヒストグラム1302の度数を探索し、最も度数の低い位置を切断位置とする。
具体的には、設定値Vpcを予め定めておき、設定値Vpcを用い、
(式9)Zx=文字行高さ×Vpc(Vpcは設定値)
によってZxを求める。例えば、Vpcを1と設定することによって、文字パタンの左端から文字行高さと同じx位置付近で文字パタンを切断することができる。すなわち、入力された文字パタン1301の左端から全角文字幅の位置で切断され、全角文字幅の文字パタンが二つ生成される。ただし、切断すべき位置を含む文字パタンが必ず入力されるとは限らない。そのため、Zx−hからZx+h区間内のすべての度数が一定値よりも高い場合は切断を行わない。
全角旁位置強制切断1215では、全角旁接触判定1214で全角文字の旁が接触している可能性があると判定された文字パタンを入力し、入力された文字パタンの切断位置が決定され、入力された文字パタンが決定された切断位置で切断され、新たに二つの文字パタンが生成される。切断位置を決定する方法は様々考えられる。
例えば、全角位置強制切断1212と同じ方法を採用し、例えば、Vpcを1と調整することによって、全角文字の旁に相当する幅を持つ文字パタンを生成することができる。
半角位置強制切断1218では、半角接触判定1217で半角文字が接触している可能性があると判定された文字パタンを入力し、入力された文字パタンの切断位置が決定され、入力された文字パタンが決定された切断位置で切断され、新たに二つの文字パタンが生成される。切断位置を決定する方法は様々考えられる。
例えば、全角位置強制切断1212と同じ方法を採用し、例えば、Vpcを0.5と設定することによって、半角文字に相当する幅を持つ文字パタンを生成することができる。
半角旁位置強制切断1221では、半角旁接触判定1220で半角文字の旁が接触している可能性があると判定された文字パタンを入力し、入力された文字パタンの切断位置が決定され、入力された文字パタンが決定された切断位置で切断され、新たに二つの文字パタンが生成される。切断位置を決定する方法は様々考えられる。
例えば、全角位置強制切断1212と同じ方法を採用し、例えば、Vpcを0.5と設定することによって、半角文字の旁に相当する幅を持つ文字パタンを生成することができる。
倍角位置強制切断1206では、倍角接触判定1205で倍角文字が接触している可能性があると判定された文字パタンを入力し、入力された文字パタンの切断位置が決定され、入力された文字パタンが決定された切断位置で切断され、新たに二つの文字パタンが生成される。切断位置を決定する方法は様々考えられる。
例えば、全角位置強制切断1212と同じ方法を採用し、例えば、Vpcを2と設定することによって、倍角文字に相当する幅を持つ文字パタンを生成することができる。
倍角旁位置強制切断1209では、倍角旁接触判定1208で倍角文字の旁が接触している可能性があると判定された文字パタンを入力し、入力された文字パタンの切断位置が決定され、入力された文字パタンが決定された切断位置で切断され、新たに二つの文字パタンが生成される。切断位置を決定する方法は様々考えられる。
例えば、全角位置強制切断1212と同じ方法を採用し、例えば、Vpcを2と設定することによって、倍角文字の旁に相当する幅を持つ文字パタンを生成することができる。
全角位置強制切断1212、全角旁位置強制切断1215、半角位置強制切断1218、半角旁位置強制切断1221、倍角位置強制切断1206及び倍角旁位置強制切断1209で生成された文字パタンは、パタンバッファ1203に格納され、再度、倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217及び半角旁接触判定1220に入力される。
これは、全角位置強制切断1212、全角旁位置強制切断1215、半角位置強制切断1218、半角旁位置強制切断1221、倍角位置強制切断1206及び倍角旁位置強制切断1209は、一つの文字パタンを入力とし、二つの文字パタンを生成するため、三つ以上の文字が連なって接触している文字パタンが入力されると、生成された二つの文字パタンのどちらかには、接触した複数の文字パタンが含まれるからである。
倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217及び半角旁接触判定1220はパタンバッファ1203内のすべて文字パタンが処理されるまで行われる。
従来技術における強制切断処理では、入力された文字パタンが倍角文字、全角文字及び半角文字か否かは不定であるため、常にすべての入力文字パタンに対し、倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217、半角旁接触判定1220、全角位置強制切断1212、全角旁位置強制切断1215、半角位置強制切断1218、半角旁位置強制切断1221、倍角位置強制切断1206及び倍角旁位置強制切断1209が実行される。このために、倍角文字、全角文字及び半角文字を想定した文字パタンの切断処理がされて、余分な文字パタンが数多く生成されることによって、処理時間が多くかかっていた。
また、余分な文字パタンの増加によって、認識精度が下がるといった問題もあった。例えば、倍角文字を含む文字パタンが入力された場合、全角位置強制切断1212、全角旁位置強制切断1215、半角位置強制切断1218及び半角旁位置強制切断1221において、文字パタンを全角文字幅と半角文字幅で切断することによって、余分な文字パタンが多く生成されてしまう。余分な文字パタンが増加によって、文字識別111、知識処理112、認識結果利用文字幅検定113の処理時間が多くなる。さらに、余分な文字パタンを誤って認識してしまうという問題も発生する。また、半角文字を含む文字が入力された場合、倍角接触判定1205や倍角旁接触判定1208の処理は余分な処理である。
そこで、本発明の実施の形態では倍角接触判定1205、倍角旁接触判定1208、全角接触判定1211、全角旁接触判定1214、半角接触判定1217及び半角旁接触判定1220に、半角尤度1222、倍角尤度1223、文字接触尤度1224、文字かすれ尤度1225及びノイズ尤度1226を入力し、接触判定を制御する。接触判定の制御によって、強制切断処理も制御できる。このように、強制切断の処理を半角尤度1222、倍角尤度1223、文字接触尤度1224、文字かすれ尤度1225及びノイズ尤度1226により制御することによって、余分な文字パタンの生成が抑制されて、処理時間を抑制し、かつ、高精度の文字認識を得ることが可能となる。
具体的には、倍角尤度1223が設定値Vdcよりも高い場合、半角接触判定1217と半角旁接触判定1220を実行しないようにすることによって、倍角文字を含む文字パタンが入力されても、半角文字幅で文字パタンを切断することを抑制することができる。
すわなち、余分な文字パタンの生成を抑制することができる。また、半角尤度1222が設定値Vhc1よりも高い場合、倍角接触判定1205、倍角旁接触判定1208を実行しないようにすることによって、処理時間を短縮できる。また、半角尤度1222が設定値Vhc2よりも低く、かつ文字かすれ尤度1225が設定値Vbcよりも高い場合、半角旁接触判定1220を実行しないようにすることによって、全角文字を含む文字パタンを半角旁幅で切断することが抑制される。また、文字接触尤度1224が設定値Vccよりも低い場合は、倍角接触判定1205、倍角旁接触判定1208、半角接触判定1217、半角旁接触判定1220を実行することによって、文字パタンを切断することを抑制することができ、処理時間を短縮できる。また、ノイズ尤度1226が設定値Vncよりも高い場合は、半角接触判定1217、半角旁接触判定1220を実行することによって、文字パタンを切断することを抑制することができ、処理時間を短縮できる。
図12に戻り、強制切断処理110のフローチャートの説明を続ける。
パタンバッファ1203内に格納されたすべての文字パタンはマージパタン1228に入力される。
切断された文字パタンには、文字の偏のみ又は文字の旁のみを含む文字パタンが存在する。マージパタン1228では、切断された偏のみを含む文字パタンと、対応する旁のみを含む文字パタンとを合わせた文字パタンが生成される。また、切断された旁のみを含む文字パタンと、対応する偏の文字パタンを合わせた文字パタンが生成される。マージパタン1228には、切断偏パタンマージ処理と切断旁パタンマージ処理があり、どちらもプレセグメンテーション処理109と同様の処理がなされる。
切断偏パタンマージ処理では、切断された文字パタンの左端から左右方向の右に設定値Vxの距離内にある文字パタンとあわせた文字パタンを生成する。これにより、偏のみが含まれている文字パタンと対応する旁の文字パタンを合わせた文字パタンが生成される。
切断旁パタンマージ処理では、切断された文字パタンの右端から左右方向の左に設定値Vxの距離内にある文字パタンとあわせた文字パタンを生成する。これにより、切断された文字パタンに旁のみが含まれている場合、この文字パタンとこれに対応する偏の文字パタンを合わせた文字パタンが生成される。
従来技術では、倍角の文字パタンを必ず生成するように前記設定値Vxの値を設定した場合、全角文字を含む文字パタン、半角文字を含む文字パタンが入力されると、余分な文字パタンを生成してしまうという問題があった。また、半角、全角の文字パタンを生成するようにVxの値を設定した場合、倍角文字の文字パタンが生成されない場合があるという問題があった。
本発明の実施の形態では、マージパタン1228に、半角尤度1222、倍角尤度1223、文字接触尤度1224、文字かすれ尤度1225及びノイズ尤度1226が入力され、これらの値によって、余分な文字パタンの生成を抑制し、かつ、半角文字、全角文字及び倍角文字の文字パタンを正しく生成する。例えば、Vxの値を半角文字と全角文字の文字パタンが生成される値に設定しておき、倍角尤度1223の値が設定値Vdmより高い場合のみ、Vxの値を、倍角文字の文字パタンを生成する値に変更して処理をする。これによって、倍角文字を含む文字パタンを正しく生成し、かつ、半角文字、全角文字の文字パタンが入力された場合にも余分な文字パタンの生成を抑制することができる。
このように、プレセグメンテーション処理109、強制切断処理110で生成された文字パタンは、図14に示すように生成された文字パタンの接続関係を持つ文字切り出しネットワークとしてデータ保持される。
文字切り出しネットワークを生成する上述の一連の処理は、日本語以外の言語の文字、例えば、中国語、韓国語(ハングル文字)にも適応することができる。
図16は、本発明の実施の形態の文字切り出しネットワーク(簡体字)の一例を示す説明図である。なお、繁体字でも同様の処理が可能なことは言うまでもない。
図17は、本発明の実施の形態の文字切り出しネットワーク(ハングル文字)の一例を示す説明図である。
このとき、各尤度を算出する際に用いる閾値を調節することで切り出しネットワークを変更できる。これによって、精度と処理速度とを調整することが可能となる。例えば、半角、全角、倍角の文字を含む文字行において、半角尤度が大きい場合に、閾値を調整し半角での強制切断を行わないようにすると、切り出しネットワークは少なくなり処理時間は速くなる。
文字識別111では、プレセグメンテーション処理109、強制切断処理110で生成された文字パタンの特徴が抽出され、予め用意された識別辞書にある各文字種の特徴との類似度が算出される。そして、各文字種の特徴との類似度を文字識別結果とする。
知識処理112では、文字切り出しネットワーク1401と文字識別結果が入力され、文字行画像の文字認識結果1(図15の1501)が出力される。文字認識結果1(図15の1501)の出力方法は様々考えられる。
例えば、以下に示す方法を採用することができる。文字切り出しネットワーク上で、左から右への一方向の経路で、各文字パタンの識別結果で最も類似度の高い値を算出し、算出された値の平均値が最も高くなるような経路を選択する(最適パス探索)。そして、得られた経路上の文字パタンの識別結果で最も類似度の高い値を持つ字種が文字認識結果1として出力される。
また、各文字パタンの識別結果で類似度の高い文字種の組み合わせと予め用意された単語辞書にある単語とが照合され、照合された単語に含まれる文字パタンの字種が優先して認識結果として出力されるようにパス探索を選択する方法もある。この方法は、単語照合と呼ぶことにする。
さらに、予め単語リストを用意しておき、単語リストに登録されている単語と単語リストに登録されている別の単語とが連続して文字行内に出現する確率を単語バイグラムとして保持しておく。最適パス探索時に、単語バイグラムを参照して、文字行内に、連続して出現する確率が高い単語の並びを優先して文字認識結果1として出力する方法もある。これらは非特許文献1に詳細が記載されている。このように単語照合や単語バイグラムを用いることで、文字パタンの識別結果で最も類似度が高い文字種が不正解であったとしても、その他の正しい文字種を文字認識結果として出力することが可能となる。すなわち、より正しい文字認識結果が得ることが可能となる。
しかし、このようにして得られた文字認識結果1(図15の1501)は正しい確率が高いが、それでも認識誤りが含まれる場合がある。
これに対し、本発明の実施の形態では、認識結果利用文字幅検定113を行う。まず、文字認識結果1(図15の1501)に含まれる文字パタンの文字種と、及び文字パタンの幅及び高さから、文字行内の文字パタンが半角又は全角又は倍角であるかを表す文字幅判定結果が算出される。
次に、文字幅判定結果に応じて、前記文字認識結果1内の文字パタンの字種と、及び文字パタンの幅と高さとを用いて、前記文字認識結果1(図15の1501)内に不適切な認識結果が含まれているか否かが判定さる。
不適切な認識結果が含まれている場合には、文字幅判定結果と文字パタンの字種と及び文字パタンの幅と高さとを用いて、プレセグメンテーション処理と強制切断処理により生成された文字パタンから適切な文字パタンと識別結果が選択される。そして、選択された文字パタンと識別結果のみを用いて、知識処理が行われ、修正された文字認識結果が出力される。
図15は、本発明の実施の形態の認識結果利用文字幅検定を示す説明図である。
まず、文字認識結果1(1501)が入力され、認識結果利用文字幅推定処理1502にて、文字認識結果1に含まれる文字パタンの文字種と文字パタンの幅と高さから、文字行内の文字パタンが半角又は全角又は倍角であるかを示す文字幅判定結果が算出される。
そして、文字パタン・識別結果選定処理1504にて、文字パタン・文字幅判定結果に応じて、前記文字認識結果1内の文字パタンの字種と及び文字パタンの幅と高さとを用いて、前記文字認識結果1内に不適切な認識結果が含まれているか否かが判定される。
不適切な認識結果が含まれている場合には、文字幅判定結果、文字パタンの字種と及び文字パタンの幅と高さとを用いて、前記プレセグメンテーション処理と前記強制切断処理とで生成された文字パタンから、適切な文字パタンと識別結果とが選択される。
そして、知識処理1505にて、選択された文字パタンと識別結果とのみを用いて、知識処理112と同様の処理を行い、文字認識結果2(1505)が出力される。
認識結果利用文字幅推定処理1502や文字パタン・識別結果選定処理1504の方法にも様々な方法が考えられる。以下でその例を述べる。
例えば、認識結果利用文字幅推定処理1502では、以下の処理がなされる。
文字認識結果1(1501)の中から特定の文字種の文字パタンを抽出し、抽出した文字パタンの幅と高さとを用いて
(式10)Rwh = 幅/高さ
を算出する。次に、設定値Vrwhを予め定めておき、設定値Vrwhを用いて、
(条件式5)Rwh > Vrwh
を満たす文字パタンの数Nrwhを算出する。さらに、Nrwhと文字識別結果の文字パタンの数を用いて、
(式11)Pwh = Nrwh / (文字識別結果の文字パタンの数)
を算出する。設定値THrwhを予め定めておき、Pwhと設定値THrwhを用いて文字幅の推定を行う。
具体的には、文字認識結果1(1501)の中から、例えば、文字種が漢字である文字パタン(漢字結果文字パタン)を抽出し、(式10)を用いてRwhを算出し、設定値Vrwhを1.1と定めて、(条件式5)を満たす文字パタン(幅広漢字結果文字パタン)の数Nrwhを算出する。さらに(式11)を用いて、Pwhを算出する。このとき、THrwhは0.6と定め、PwhとTHrwhとの関係が、
(条件式6)Pwh < THrwh
を満たす場合は、文字行内の文字は半角又は倍角の文字幅であると判定される。
文字パタン・識別結果選定処理1504では、文字認識結果1(1501)とプレセグメンテーション処理109で生成された文字パタンと強制切断処理110で生成された文字パタンとが入力され、文字行の高さHが推定され、設定値Vvを予めておき、設定値Vvをもちいて、文字認識結果1(1501)の中に、
(条件式7)(文字パタンの幅)> H × Vv
を満たす文字パタンが存在するか否かを判定する。なお、文字行の高さは文字パタンの高さの最大値などで推定する。
該当する文字パタンがあった場合、プレセグメンテーション処理109で生成された文字パタンと強制切断処理110で生成された文字パタンとの中から(条件式7)の背反を満たす文字パタン(非幅広文字パタン)のみが選択される。そして、知識処理1505では、非幅広文字パタンのみを入力として、知識処理が行われ文字認識結果2が決定される。
このように、単純な構成要素の大きさの分布だけでなく、文字識別と知識処理によって得られる文字認識結果の文字種に応じた大きさを考慮した文字幅推定を行って文字パタンを選択し、それらを用いて再度知識処理を行うことで、より高精度な文字認識結果が得られる。
前記知識処理は、他言語の文字、例えば、中国語(簡体字、繁体字)、韓国語(ハングル文字)においても可能である。
本発明の実施の形態の文字認識処理の全体を示すフローチャートである。 本発明の実施の形態の文字認識装置の構成を示すブロック図である。 本発明の実施の形態の文字行抽出処理の結果の一例を示す説明図である。 本発明の実施の形態の連結成分の例を示す図である。 本発明の実施の形態のエレメントの例を示す図である。 本発明の実施の形態のプレセグメンテーション処理の一例を示す説明図である。 本発明の実施の形態の全角文字のプレセグメンテーション処理の一例を示す説明図である。 本発明の実施の形態の倍角文字のプレセグメンテーション処理の一例を示す説明図である。 本発明の実施の形態の半角文字のプレセグメンテーション処理の一例を示す説明図である。 本発明の実施の形態の全角強制切断処理の一例を示す説明図である。 本発明の実施の形態の全角旁強制切断処理の一例を示す説明図である。 本発明の実施の形態の強制切断処理を示すフローチャートである。 本発明の実施の形態の強制切断処理の概要を示す説明図である。 本発明の実施の形態の文字切り出しネットワークの一例を示す説明図である。 本発明の実施の形態の認識結果利用文字幅検定を示す説明図である。 本発明の実施の形態の文字切り出しネットワーク(簡体字)の一例を示す説明図である。 本発明の実施の形態の文字切り出しネットワーク(ハングル文字)の一例を示す説明図である。
符号の説明
101 入力画像
102 文字行抽出処理
103 連結成分/エレメント生成処理
104 倍角判別処理
105 文字接触判別処理
106 半角判別処理
107 文字かすれ判別処理
108 ノイズ判別処理
109 プレセグメンテーション処理
110 強制切断処理
111 文字識別処理
112 知識処理
113 認識結果利用文字幅検定処理
114 文字認識結果

Claims (13)

  1. 画像中から文字を認識する文字認識方法であって、
    文字を含む画像から文字を構成する黒画素の連なりである連結成分を生成する連結成分生成処理と、
    文字が並んでいる領域である文字行を抽出する文字行抽出処理と、
    文字行内にある文字の半角らしさの度合いを示す半角尤度を算出する半角判別処理と、
    文字行内にある文字の倍角らしさの度合いを示す倍角尤度を算出する倍角判別処理と、
    文字行内にある文字のかすれ度合いを示す文字かすれ尤度を算出する文字かすれ判別処理と、
    文字行内にある文字の接触度合いを示す文字接触尤度を算出する文字接触判別処理と、
    文字行内へのノイズの混入度合いを示すノイズ尤度を算出するノイズ判別処理と、
    前記文字接触判別処理によって算出された文字接触尤度及び前記倍角判別処理によって算出された倍角文字尤度を用いて、一つ又は複数の連結成分を組み合わせた情報である文字パタンを生成するプレセグメンテーション処理と、
    前記文字かすれ判別処理によって算出された文字かすれ尤度及び前記半角判別処理によって算出された半角文字尤度を用いて、連結成分を切断する文字パタンを選択し、連結成分の切断する位置を決定する強制切断処理と、
    前記プレセグメンテーション処理及び前記強制切断処理によって生成された文字パタンの特徴を抽出し、予め用意された識別辞書に存在する各文字種の特徴との類似度を算出する文字識別処理と、を備えることを特徴とする文字認識方法。
  2. 前記文字認識方法は、上下方向に重なる連結成分をまとめたエレメントを生成し、
    前記半角判別処理は、前記エレメントの数と、前記エレメントの幅と、前記文字行の高さとを用いて、半角尤度を算出することを特徴とする請求項1に記載の文字認識方法。
  3. 前記文字認識方法は、上下方向に重なる連結成分をまとめたエレメントを生成し、
    前記倍角判別処理は、前記エレメントの幅が所定の条件を満たすエレメントの幅を用いて、倍角尤度を算出することを特徴とする請求項1に記載の文字認識方法。
  4. 前記文字認識方法は、上下方向に重なる連結成分をまとめたエレメントを生成し、
    前記文字かすれ判別処理は、前記連結成分の幅及び高さが所定の条件を満たす連結成分の数と、前記文字行の高さと、前記エレメントの幅とを用いて、文字かすれ尤度を算出することを特徴とする請求項1に記載の文字認識方法。
  5. 前記文字認識方法は、上下方向に重なる連結成分をまとめたエレメントを生成し、
    前記文字接触判別処理は、前記エレメントの幅が所定の条件を満たすエレメントの数と、前記文字行の高さと、前記エレメントの幅とを用いて、文字接触尤度を算出することを特徴とする請求項1に記載の文字認識方法。
  6. 前記文字認識方法は、上下方向に重なる連結成分をまとめたエレメントを生成し、
    前記ノイズ判別処理は、前記連結成分の幅及び高さが所定の条件を満たす連結成分の数と、前記文字行の高さと、前記エレメントの幅とを用いて、ノイズ尤度を算出することを特徴とする請求項1に記載の文字認識方法。
  7. 前記プレセグメンテーション処理は、前記算出された半角尤度、前記算出された倍角尤度、前記算出された文字かすれ尤度、前記算出された文字接触尤度、及び前記算出されたノイズ尤度の五つの尤度のうち、一つ又は複数の尤度を用いて、生成される文字パタンの幅を調整し、一つ又は複数の幅の文字パタンを生成することを特徴とする請求項1に記載の文字認識方法。
  8. 前記強制切断処理は、前記算出された半角尤度、前記算出された倍角尤度、前記算出された文字かすれ尤度、前記算出された文字接触尤度、及び前記算出されたノイズ尤度の五つの尤度のうち、一つ又は複数の尤度を用いて、切断を行うエレメントの幅及び強制切断を行う位置を調整することを特徴とする請求項1に記載の文字認識方法。
  9. プロセッサ、前記プロセッサに接続されるメモリ及び前記プロセッサに接続されるインタフェースを備え、入力された画像中から文字を認識する文字認識装置であって、
    前記入力された画像から文字を構成する黒画素の連なりである連結成分を生成する連結成分生成部と、
    文字が並んでいる領域である文字行を抽出する文字行抽出部と、
    文字行内にある文字の半角らしさの度合いを示す半角尤度を算出する半角判別部と、
    文字行内にある文字の倍角らしさの度合いを示す倍角尤度を算出する倍角判別部と、
    文字行内にある文字のかすれ度合いを示す文字かすれ尤度を算出する文字かすれ判別部と、
    文字行内にある文字の接触度合いを示す文字接触尤度を算出する文字接触判別部と、
    文字行内へのノイズの混入度合いを示すノイズ尤度を算出するノイズ判別部と、
    前記文字接触判別部によって算出された文字接触尤度及び前記倍角判別部によって算出された倍角文字尤度を用いて、一つ又は複数の連結成分を組み合わせた情報である文字パタンを生成するプレセグメンテーション部部と、
    前記文字かすれ判別処理によって算出された文字かすれ尤度及び前記半角判別処理によって算出された半角文字尤度を用いて、連結成分を切断する文字パタンを選択し、連結成分の切断する位置を決定する強制切断部と、
    前記プレセグメンテーション部及び前記強制切断部によって生成された文字パタンの特徴を抽出し、予め用意された識別辞書に存在する各文字種の特徴との類似度を算出する文字識別部と、を備えることを特徴とする文字認識装置。
  10. 前記文字識別部は、
    類似度の高い文字種の組み合わせと前記予め用意された単語辞書にある単語リストと照合する単語照合部と、
    前記文字識別処理の結果である文字種毎の類似度と前記単語照合結果とを用いて、文字行内の文字認識結果1を決定する知識処理部と、
    前記決定された文字認識結果1に含まれる文字パタンの文字種と文字パタンの幅と高さ及び文字パタンの数から、文字行内の文字パタンが半角或いは全角或いは倍角であるかを表す文字幅判定結果を算出し、文字幅判定結果に応じて、前記文字認識結果1内の文字パタンの字種と文字パタンの幅と高さを用いて、前記文字認識結果1内に不適切な認識結果が含まれているか否かを判定し、不適切な認識結果が含まれている場合には、文字幅判定結果と文字パタンの字種と文字パタンの幅と高さとを用いて、前記プレセグメンテーション処理と強制切断処理で生成された文字パタンから適切な文字パタンと識別結果を選択し、選択された文字パタンと識別結果のみを用いて、知識処理を行う認識結果利用文字幅検定部と、を備えることを特徴とする請求項9に記載の文字認識装置。
  11. 前記プレセグメンテーション部は、前記算出された半角尤度、前記算出された倍角尤度、前記算出された文字かすれ尤度、前記算出された文字接触尤度、及び前記算出されたノイズ尤度生成の五つの尤度のうち、一つ又は複数の尤度を用いて、生成される文字パタンの幅を調整し、一つ又は複数の幅の文字パタンを生成することを特徴とする請求項9に記載の文字認識装置。
  12. 前記強制切断部は、前記算出された半角尤度、前記算出された倍角尤度、前記算出された文字かすれ尤度、前記算出された文字接触尤度、及び前記算出されたノイズ尤度生成の五つの尤度のうち、一つ又は複数の尤度を用いて、切断を行うエレメントの幅及び強制切断を行う位置を調整することを特徴とする請求項9に記載の文字認識装置。
  13. プロセッサ、前記プロセッサに接続されるメモリ及び前記プロセッサに接続されるインタフェースを備え、入力された画像中から文字を認識する文字認識装置であって、
    前記入力された画像から文字を構成する黒画素の連なりである連結成分を生成する連結成分生成部と、
    文字が並んでいる領域である文字行を抽出する文字行抽出処理と、
    一つ又は複数の連結成分を組み合わせた情報である文字パタンを生成するプレセグメンテーション部と、
    連結成分を切断する文字パタンを選択し、連結成分の切断する位置を決定する強制切断部と、
    前記プレセグメンテーション部及び前記強制切断部によって生成された文字パタンの特徴を抽出し、予め用意された識別辞書に存在する各文字種の特徴との類似度を算出する文字識別部と、
    前記文字識別処理で類似度の高い文字種の組み合わせと前記予め用意された単語辞書にある単語リストと照合する単語照合処理部と、
    前記文字識別処理の結果である文字種毎の類似度と単語照合結果を用いて、文字行内の文字認識結果1を決定する知識処理部と、
    前記文字認識結果1に含まれる文字パタンの文字種と文字パタンの幅と高さ及び文字パタンの数から、文字行内の文字パタンが半角或いは全角或いは倍角であるかを表す文字幅判定結果を算出し、文字幅判定結果に応じて、前記文字認識結果1内の文字パタンの字種と文字パタンの幅と高さを用いて、前記文字認識結果1内に不適切な認識結果が含まれているか否かを判定し、不適切な認識結果が含まれている場合には、文字幅判定結果と文字パタンの字種と文字パタンの幅と高さを用いて、前記プレセグメンテーションと強制切断処理により生成された文字パタンから適切な文字パタンと識別結果を選択し、選択された文字パタンと識別結果のみを用いて、知識処理を行う認識結果利用文字幅検定処理と、を備えることを特徴とする文字認識装置。
JP2008199477A 2008-08-01 2008-08-01 文字認識方法及び文字認識装置 Expired - Fee Related JP5039659B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008199477A JP5039659B2 (ja) 2008-08-01 2008-08-01 文字認識方法及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008199477A JP5039659B2 (ja) 2008-08-01 2008-08-01 文字認識方法及び文字認識装置

Publications (2)

Publication Number Publication Date
JP2010039615A JP2010039615A (ja) 2010-02-18
JP5039659B2 true JP5039659B2 (ja) 2012-10-03

Family

ID=42012122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008199477A Expired - Fee Related JP5039659B2 (ja) 2008-08-01 2008-08-01 文字認識方法及び文字認識装置

Country Status (1)

Country Link
JP (1) JP5039659B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6327963B2 (ja) * 2014-06-09 2018-05-23 株式会社日立情報通信エンジニアリング 文字認識装置及び文字認識方法
JP7019963B2 (ja) * 2016-05-10 2022-02-16 凸版印刷株式会社 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62169286A (ja) * 1986-01-22 1987-07-25 Toshiba Corp 文字切出方式
JPH01209586A (ja) * 1988-02-17 1989-08-23 Fujitsu Ltd 倍角文字・半角文字混在文章の文字認識方式
JPH03225579A (ja) * 1990-01-31 1991-10-04 Mitsubishi Electric Corp 文字パターン切り出し装置
JPH05182025A (ja) * 1992-01-06 1993-07-23 Omron Corp 文字認識装置
JPH05282492A (ja) * 1992-04-01 1993-10-29 Matsushita Electric Ind Co Ltd 文字サイズ抽出方法
JPH09297817A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文字切り出し方法

Also Published As

Publication number Publication date
JP2010039615A (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
US20180137349A1 (en) System and method of character recognition using fully convolutional neural networks
JP6286866B2 (ja) 画像処理装置および画像処理方法
US10885325B2 (en) Information processing apparatus, control method, and storage medium
CN110569830A (zh) 多语言文本识别方法、装置、计算机设备及存储介质
KR100412317B1 (ko) 문자인식/수정방법및장치
US9977976B2 (en) Path score calculating method for intelligent character recognition
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10140556B2 (en) Arabic optical character recognition method using hidden markov models and decision trees
WO2018090011A1 (en) System and method of character recognition using fully convolutional neural networks
JP2013033416A (ja) 文字認識装置、文字認識方法及びプログラム
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
US9224065B2 (en) Character-recognition method and character-recognition device and program using said method
JP2000315247A (ja) 文字認識装置
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP4686433B2 (ja) 単語認識方法および単語認識装置
JP5039659B2 (ja) 文字認識方法及び文字認識装置
JP7338159B2 (ja) 情報処理装置及びプログラム
US11611678B2 (en) Image processing apparatus and non-transitory computer readable medium
Naz et al. Challenges in baseline detection of cursive script languages
JP2000207495A (ja) 文字認識装置、文字学習装置およびコンピュ―タ可読記録媒体
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JP5830996B2 (ja) 画像処理装置及びプログラム
Satter et al. Open Vocabulary Word Recognition From Transcribed Bangla Texts
JP3662967B2 (ja) 文字ループ候補抽出装置及び文字補完装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees