JP5942361B2 - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP5942361B2 JP5942361B2 JP2011185931A JP2011185931A JP5942361B2 JP 5942361 B2 JP5942361 B2 JP 5942361B2 JP 2011185931 A JP2011185931 A JP 2011185931A JP 2011185931 A JP2011185931 A JP 2011185931A JP 5942361 B2 JP5942361 B2 JP 5942361B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- link
- node
- image
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
これに関連する技術として、例えば、特許文献1では、書式制御情報の字種の指定に正規表現を使用することにより詳細な指定を可能にして、認識率を向上させることを目的とし、用紙に記録された文字等を読み取るために参照される書式制御情報を記憶するためのものであって、書式制御情報中の文字種を指定する情報が正規表現で表されているFC部と、FC部に記憶された書式制御情報中の正規表現を解析する正規表現解析部と、正規表現解析部による解析結果に基づいて認識辞書中の使用する辞書を選択する字種制御部と、字種制御部によって選択された辞書を用いて用紙に記録された文字等のパターンと照合し読み取り結果を求める照合部を備えていることが開示されている。
これに関連する技術として、例えば、特許文献3では、文書に記入された文字列から文字パターンを切り出す文字パターン切り出し装置に関するものであって、用紙などに記入された文字列から1文字ずつ文字パターンを切り出す文字パターン切り出し装置において、用紙上の文字列を光学的に走査し光電変換する走査手段と、光電変換された上記文字列のパターンを記憶する文字列パターン記憶手段と、上記文字列の方向と直交する方向に上記文字列パターンを走査して求めた周辺分布値の連続性に基づいて文字列パターンを分割し、分割して得た基本パターンの左右端と上下端との座標より基本パターン領域を決める基本パターン領域検出手段と、単独の基本パターン領域の文字形状評価値と連続する複数個の基本パターン領域を結合した結合パターン領域の文字形状評価値とを上記基本パターン領域の左右端と上下端の座標から各々算出する文字形状評価値算出手段と、読み取り対象文字の基準パターンを格納した文字認識辞書記憶手段と、単独の基本パターンに対する文字認識評価値と連続する複数個の基本パターンを結合した結合パターンに対する文字認識評価値とを上記文字認識辞書記憶手段に記憶した基準パターンとの整合により求める文字認識評価値算出手段と、上記文字形状評価値算出手段で算出した文字形状評価値と上記文字認識評価値算出手段で算出した文字認識評価値とを加え合わせることにより、すべての基本パターンと結合パターンとに対応する文字評価値を算出する評価値加算手段と、上記基本パターン領域の位置情報に基づいて切り出し候補位置のあらゆる可能な組み合せを求め、各々の切り出し候補位置の組み合せについて、切り出し候補位置で切り出された基本パターンと結合パターンとに対応する上記評価値加算手段で求めた文字評価値に基づいて切り出し評価値を求め、この切り出し評価値に基づいて最適な文字切り出し位置の組み合せを決定する文字切り出し手段と、上記文字切り出し手段の結果に基づいて上記文字列パターン記憶手段に格納した1行の文字列パターンから1文字ずつ文字パターンを切り出して出力する出力手段とを具備することを特徴とする文字パターン切り出し装置が開示されている。
請求項1の発明は、画像から文字画像を切り出す位置を抽出する切出位置抽出手段と、前記切出位置抽出手段によって抽出された位置によって分けられた文字画像に対して文字認識を行った結果である複数の文字候補を抽出する文字候補抽出手段と、前記文字候補抽出手段によって抽出された複数の文字候補の各々をノードとし、隣接する文字画像のノード間にリンクを構築することによってネットワークを生成するネットワーク生成手段と、前記ネットワーク生成手段によって生成されたネットワーク内のノードに先頭方向又は最後尾方向のいずれか一方向から接続するリンクに対して、予め定められた文字列パターンに合致するリンクに限定する限定手段と、前記限定手段によって限定されたリンクによってつながれたパス内の文字候補列を文字認識結果として出力する出力手段を具備し、前記限定手段は、前記予め定められた文字列パターンに合致するリンクに対応する文字列の画像としての長さが最も長いリンクを選択することを特徴とする画像処理装置である。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する画像処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
以下、特許文献1に記載されている技術内容を例にして説明する。なお、以下の説明で用いる用語は、特許文献1で用いる用語とは異なっている場合がある。ただし、内容は特許文献1と同じである。
前述の文字セグメントを統合して、文字画像を決定する。複数の文字セグメントを統合して1つの文字画像を形成する場合もあれば、1つの文字セグメントが1つの文字となる場合もある。文字画像を決定するとは、文字の切り出し位置を決定することと同値であるから、以下では文字切り出し位置の決定という場合もある。
文字セグメントの統合のパターンは複数存在する。複数存在するパターンの中で、最も文字画像として評価の高いものを選択することによって、最終的な文字切り出し位置を決定する。
図31の例に対しては、すべての文字切り出しパターンは、図32に示す例のようになる。つまり、図32(a)の例では、パターン1として3つの文字画像(外接矩形3110、外接矩形3120、外接矩形3130)、図32(b)の例では、パターン2として2つの文字画像(外接矩形3110と3120、外接矩形3130)、図32(c)の例では、パターン3として1つの文字画像(外接矩形3110と3120と3130)、図32(d)の例では、パターン4として2つの文字画像(外接矩形3110、外接矩形3120と3130)を示している。
ここで、どれか1つのアークには、1つの文字画像の候補が対応している。例えば、始点ノード3300と中間ノード3320(ノード2)を結ぶアークには、「化」という文字画像(文字切り出しパターン3304)が対応している。1つのアークに対応する文字に対して、その文字の評価値を決定することができる。これを「アーク評価値」と呼ぶこととする。
アーク評価値は、文字の形状情報や、文字認識における認識確度などから算出する。アーク評価値の算出方法はさまざまある。例えば、(1)特開平9−185681号公報、(2)特開平8−161432号公報、(3)特開平10−154207号公報、(4)特開昭61−175878号公報、(5)特開平3−37782号公報、(6)特開平11−203406号公報等に記載の従来技術に示されている手法等がある。
文字切り出し位置を決定するため、複数のパスの中で、最もパス評価値の高いパスを選択する。パスが選択できれば、文字切り出し位置が確定して、文字を切り出すことができる。そして、切り出した文字(文字画像)を文字認識した結果も確定することになる。
例えば、図34の例で、太線のパスが選択されたとする。この場合、文字切り出し位置は、始点3300と、中間ノード3320(ノード2)と、終点3390の3点となる。そして、確定した文字認識結果は、「化」(文字切り出しパターン3304)、「学」(文字切り出しパターン3322)となる。
そこで、特開平3−225579号公報に記載の技術では、図33の例に示されたようなネットワーク内の複数のパスから最も評価値の高いパスを探索する方法として、ダイナミックプログラミング手法を用いることが述べられている。
ここでは、ダイナミックプログラミング手法の中で、このようなネットワークの最良パスを探索するのに適したビタビ法の説明を行う。
このネットワークにおいて、途中に複数のノード(中間ノード3511、中間ノード3512、中間ノード3513等)を介して始点ノードから終点ノードに達するとする。途中のノードを中間ノードと呼ぶこととする。
各ノードとノードの間にはリンクが張られている。このリンクにはそのリンク固有の評価値(リンク値)が割り当てられている。始点ノード3500から終点ノード3590に向かうパスは複数存在する。パスは、複数のリンクから成り立つことになる。パスが含む複数のリンクのリンク値の和が、パスの評価値となる。
例えば、リンク値は、ノード間の距離であるとする。この場合、パス評価値が最小のパスは、始点ノードから終点ノードに向かうパスの中で、最小距離のパスということになる。あるいは、パス評価値が最大のパスを求める問題とすることも可能である。
例えば、今、ノードx(中間ノード3521)に左から入力されるリンクがすでに、1に限定されているとする。同様に、ノードy(中間ノード3522)、ノードz(中間ノード3523)に関しても1に限定されているとする。このとき、ノードX(中間ノード3531)に左から入力されるリンクを限定する。ノードX(中間ノード3531)には、ノードx(中間ノード3521)、ノードy(中間ノード3522)、ノードz(中間ノード3523)の3つのノードからリンクが張られている。このとき、ノードX(中間ノード3531)を通るパスとして、最適な可能性があるのは、ノードx(中間ノード3521)、ノードy(中間ノード3522)、ノードz(中間ノード3523)からノードX(中間ノード3531)に向かうリンクのいずれかである。この3つのうちで最適なものだけを残し、残りの2つを削除する。このようにして、ノードX(中間ノード3531)に左から入力されるパス(リンク)を1に限定する。ノードY(中間ノード3532)、ノードZ(中間ノード3533)に関しても同様に左から入力されるパスを1に限定する。
このような手順を左のノードA(中間ノード3511)、ノードB(中間ノード3512)、ノードC(中間ノード3513)から順に右の方向に行う。最終的にノードP(中間ノード3581)、ノードQ(中間ノード3582)、ノードR(中間ノード3583)に入る3つのパスに限定する。この3つのパスの中で最適なものを選択すればよい。
このようなビタビ法を用いた最適パス選定方法を、図33に例示のネットワークにも同様に適用し得る。文字切り出し位置をノードとする。また、アーク評価値を前述のリンク値とすればよい。
従来技術では、このような場合に、ビタビ法(又は、一般的にはダイナミックプログラミング手法)を適用して、文字認識結果を得ることはされていない。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等が通信回線(一対一対応、一対多対応、多対一対応、多対多対応の通信接続を含む)で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
切出位置抽出モジュール130が対象とする画像は横書きあるいは縦書きの、1列のみの文字列画像を対象としている。なお、ここで、列とは、横書きの場合は横に並ぶ列であり、縦書きの場合は縦に並ぶ列である。
したがって、文字列抽出モジュール120は、画像受付モジュール110が受け付けた画像が1列のみの文字列画像であれば、そのまま用いればよい。画像受付モジュール110が受け付けた画像が、複数の文字列が存在するものがあり、このような複数文字列を単一の文字列になるように分離する手法としては、従来よりさまざまものが提案されているため、それらを用いればよい。単一の文字列となるように分離する例としてもさまざまな方式があるため、そのうちのいずれかを用いればよい。例えば、(1)特開平4−311283号公報、(2)特開平3−233789号公報、(3)特開平5−73718号公報、(4)特開2000−90194号公報、等を用いればよい。これ以外の方法であってもよい。
また、切出位置抽出モジュール130が複数の切り出し位置を抽出した場合は、パス限定処理モジュール150は、切出位置抽出モジュール130によって抽出された複数の切り出し位置によって分けられた文字画像に対して文字認識を行った結果である複数の文字候補の各々をノードとし、隣接する文字画像のノード間にリンクを構築することによってネットワークを生成するようにしてもよい。
そして、パス限定処理モジュール150は、生成されたネットワーク内のノードに先頭方向又は最後尾方向のいずれか一方向から接続するリンクに対して、予め定められた文字列パターンに合致するリンクに限定する。
また、パス限定処理モジュール150は、限定されたリンクによって接続されたノードの文字候補間の関係による文字列らしさを表す値に基づいて、リンク値を生成してもよい。さらに、リンクを構成しているノードに対する文字らしさを表す値に基づいて、リンク値を生成するようにしてもよい。
そして、パス限定処理モジュール150は、生成されたリンク値に基づいて、ネットワーク内のパスを選択するようにしてもよい。
また、パス限定処理モジュール150は、文字列パターンに合致するリンクがない場合は、その文字列パターン内の一部分の文字列パターンに合致するリンクに限定するようにしてもよい。
このように、枠に記載されるはずの文字、又は単語が限定される場合には、自由に記載可能な場合よりも認識率を上げることができる。例えば、住所などの場合で、図2の例のように、住所枠(市前)220内に市の名前を書くように指定されている場合を考える。市の名前は限定されているので、それに限定すれば、より精度が上がる。ここで、例えば、住所枠(市前)220内に記載される可能性のある市名が、下記3つに限定されているとする。
(1)横浜
(2)川崎
(3)横須賀
ここで、住所枠(市前)220内に記載される文字列は、この3パターンに限定されているということができる。
例えば、前記のように、「横浜」、あるいは、「川崎」、あるいは、「横須賀」のみを対象とする場合、正規表現としては、
「横浜|川崎|横須賀」
と記述すればよい。
前述の市名の例では、
・1文字目には、「横」、「川」のみ
・2文字目には、「浜」、「崎」、「須」のみ
・3文字目には、「賀」のみ
しかあり得ない。この条件を利用する。例えば、1文字目には、「横」と、「川」しかあり得ないので、それのみを出力するように設定する。このようにすることによって、認識率の精度を上げることが可能となる。例えば、「横」は、「黄」と字が似ており、正解は「横」であるのに、「黄」と誤認識する可能性があるが、出力文字を、「横」と「川」に限定することで、「黄」の出力を禁ずることとなっている。
1つの文字を認識する場合、複数の認識候補を得ることができる。複数の文字候補には、第1候補から、第n候補までの、順位が付けられている。第1候補が最も確度の高い候補であり、数値が大きくなるに従って、認識の確度は低下する。特許文献2に記載の技術では、1文字目の第1候補から順に、正規表現にマッチするものを探索していく。ここで、決定するのは1文字目であるとする。1文字目の、第1候補が正規表現にマッチすれば、その候補を選択する。第1候補が正規表現にマッチしない場合、第2候補をチェックする。以降、正規表現にマッチするまで、第2、第3と、順に候補を探索する。正規表現にマッチする候補がない場合は、終了する。正規表現にマッチする候補がある場合その候補を選択する。候補を選択した後では、2文字目の選択を行う。ここではすでに1文字目の選択が行われているため、1文字目と合わせて、2文字の文字列が正規表現にマッチするような文字を選択する必要がある。ここで、1文字目と同様に、2文字目の第1候補から順に探索する。正規表現にマッチした段階で、その候補を選択する。
この方法であれば、複数の文字候補があっても、最終的に正規表現にマッチする文字列を選択することができる。
「横浜|川崎|横須賀」
であるとする。
この例では、1文字目は第2候補、2文字目は第2候補、3文字目は第1候補を選択することで、正解出力を得ることができる。
特許文献1に記載の技術では、予め文字位置に応じて、出力される文字候補を決める。特許文献1に記載の技術での出力候補は、図5の例に示すハッチング部を除いた出力の中で、最も順位の高いもの(第1候補の方が第2候補よりも順位が高いとする)を出力することになる。結局、特許文献1に記載の技術では、「横浜賀」が出力されることとなる。
本実施の形態では、文字認識候補のあり得る文字列のうちから、正規表現に合致するパターンを探索するものである。そして、そのためにビタビ法を用いるようにしてもよい。
ステップS602では、画像受付モジュール110が、対象となる画像を受け付ける。
ステップS604では、文字列抽出モジュール120が、画像から文字列画像を抽出する。
ステップS606では、切出位置抽出モジュール130が、文字列画像を対象として切り出し位置を抽出する。
ステップS608では、文字候補抽出モジュール140が、切り出された文字画像を文字認識する。
ステップS610では、文字候補抽出モジュール140が、複数の文字認識結果を文字画像の文字候補として抽出する。
ステップS612では、パス限定処理モジュール150が、ネットワークを生成し、その中のパスを限定する。
ステップS614では、出力モジュール160が、文字認識結果を出力する。
本実施の形態は、さらに、パス評価値の高いパスを出力することによって、文字切り出し位置の確定、又は文字認識を行うものである。また、パスの探索にダイナミックプログラミングの手法を用いてもよい。
本実施の形態のネットワークにおいては、始点ノード、終点ノード、複数の中間ノードがある。また、各ノード間のリンクには、リンク値を与える。始点ノードから1あるいは複数の中間ノードを介して、終点ノードに至るパスは、介するノードに依存したリンクを通ることになる。始点ノードから終点ノードに至るパスのパス評価値は、そのパスが通ったリンクのリンク値の重み付け和として表すことができる。
本実施の形態のパス限定処理モジュール150は、1つの文字画像に対して、複数の文字認識結果が存在しているときに、前述のノード、リンク、パスの構成(ネットワーク構造)を生成するものである。ネットワーク構造が与えられれば、パス限定処理モジュール150によってビタビ法などの手法を用いて、最適パスを探索することが可能となる。
まず、切出位置抽出モジュール130の抽出する文字切り出し位置が固定(一種類)の場合について説明する。
図7は、記号例を示す説明図である。記号の種類として、長方形710、横棒である接続線720、722、724、727、728、円弧730、丸である文字候補742、744、746がある。
図7の例において、長方形710A、710B、710C、710D(図8に例示する長方形710)は、それぞれ文字セグメントを表す。
また、横棒である接続線720、722、724、726、728は、文字切り出し位置を示す(図9に例示する接続線720、接続線722)。文字セグメントは文字切り出し位置を介して、隣接する文字セグメントにつながっている。
さらに、丸で表されている文字候補742A、744A等は、1つの文字セグメントを1文字として認識したときの、複数の文字候補を示す。円弧730A、730B、730C、730Dは、下の1つの文字セグメントだけを対象に文字認識を行っていることを示している。
本実施の形態では、文字セグメントの複数の文字候補をノードとして捉える。さらに、隣接する文字セグメントの文字候補と、リンクを接続する。図11の例にリンクを太線で記入して示す。
ここでリンク値生成モジュール1810が生成するリンク値としては、リンク左右のノードの相互作用を示すものを使ってもよい。具体的には、リンクの左の文字候補とリンクの右の文字候補が連続して日本語の文章中に出現する確率(バイグラム)を用いる。
このようにノードとリンクを構成することによって、すべてのネットワーク構造が規定できる。ネットワーク構造が規定できれば、ビタビ法等により、最適パスを選択できる。
前述では、リンク値として、ノード間の相互作用を示すもの(文章中に出現する確率)だけを用いたが、さらにノード単独の評価値を用いるようにしてもよい。ここでは、ビタビ法を用いて最適パスを探索するものとする。左から順にノードの左から入るリンクをノード毎に1つだけに限定していく処理を行う。
今、図11の例で文字候補742B、744B、746Bのリンクを限定する段階であるとする。
ここで、文字候補742B、744B、746Bと、左側にある文字候補742A、744A、746A間のリンク値を生成する。リンク値としては、各ノード間の相互作用を表すバイグラムなどの値と、各ノード内部の値の両方を用いる。ノード内部の値とは、例えば、文字候補742Bの文字の認識確度などがある。
つまり、ノード間情報はリンクの内部に存在していて、ノード内情報はリンクの端点に存在する。このような発生位置、又は概念が異なる値を一度に扱う。
本実施の形態では、リンクの評価値として、リンクの内部に存在する値(例えば、バイグラムの値)と、リンクの一方の端点のみに存在する値(例えば、文字候補742Bの文字認識確度)を用いる。他方の端点に存在する値(例えば、文字候補742Aの文字認識確度)は用いない。このようにすることで、リンクの内部の値と、リンクの端点の値をともに用いる評価が可能となる。
最終的には、文字列の評価値(パス評価値)として、(1)式で、すべてのリンクの評価値を加算することになる。そのため、リンクの評価値の中に、リンクの内部の評価値と、リンクの一方の端点の評価値が含まれていれば、パス評価値の中にすべてのリンク内部の評価値とリンク端点の評価値が1つずつ含まれることになる。
なお、複数の値を特徴量ベクトルとして把握し、リンク値は、特徴量ベクトルを対象として、リンク評価値(スカラー値)を出力する関数で実現できる。
前述では、リンク左右のノードの相互情報としてバイグラムを用いていた。この場合、リンク情報として2つのノード間の関係情報を用いていることになる。
ビタビ法を用いる場合、例えば、ノードである文字候補742A、744A、746Aの左側のリンク数はすでに1個に限定されていることになる。この場合には、2以上のノードの情報を用いてリンク情報を構築することが可能となる。
例えば、2つの連続する文字の生起確率であるバイグラムではなく、3つの連続する文字の生起確率であるトライグラムを用いることも可能となる。
今、リンク値生成モジュール1810が、ノードである文字候補742B、744B、746Bの左側のリンク値を生成しようとする。
例えば、文字候補742A−文字候補742B間のリンク値を算出する。バイグラムであれば、文字候補742Aと文字候補742Bが連続する生起確率を求めればよい。ここで、トライグラムを求める場合を説明する。文字候補742Aの左側のリンクは1つに限定されているため、実は、文字候補742Aの左の文字も確定していることになる。この文字を保持するノードをGとする。トライグラムとしては、ノードG−ノード(文字候補742A)−ノード(文字候補742B)の3つの文字に関する生起確率を求めればよい。
以上のように求めたトライグラムをノード(文字候補742A)−ノード(文字候補742B)間のリンク値として生成すればよい。同様に、Ngramであっても、求めることが可能となる。
文字切り出し位置が確定していない場合(つまり、切出位置抽出モジュール130が複数の文字切り出し位置を抽出した場合であり、具体的には、「化」のように、「イ」と「ヒ」、あるいは、「化」のどちらになるか分からない場合)、文字候補の選択と、文字切り出し位置の選択を行うようにしてもよい。文字切り出し位置が確定していない場合、文字候補の選択は、文字切り出し位置の選択となる。
図12は、文字切り出し位置が複数ある場合の処理例を示す説明図である。ここでは、円弧の記号の意味が追加されている。円弧が下にある複数の文字セグメント(長方形)を指し示す場合、その円弧はその複数の文字セグメントを統合した画像を1文字とみなして認識することを示す。円弧1210Aは、長方形710Aと長方形710Bを統合した画像を1文字とみなして文字認識結果として文字候補1222A、1224A、1226Aを有している。また、円弧1210Cは、長方形710A、710B、710C、710Dを統合した画像を1文字とみなして文字認識結果として文字候補1222C、1224C、1226Cを有している。
図13の例に示すように、円弧730Aと円弧730Bの下に2つの文字セグメント(長方形710A、長方形710B)「イ」と「ヒ」がある場合に、その2つを含む円弧1210の上の文字候補(文字候補1222、1224、1226)は、「イ」と「ヒ」を統合した1つの文字セグメント「化」を認識したときの複数の文字候補に相当する。
ここでは、文字切り出し位置に注目する。今、図14の矢印で示す文字切り出し位置に関連するノードのリンクを対象とする。この文字切り出し位置でリンクされるノードには、
(1)左側ノード:矢印の文字切り出し位置に円弧の右側が存在するノード(斜線でハッチングしたノード、文字候補1442A、文字候補1444A、文字候補1462A、文字候補1464A、文字候補1472A、文字候補1474A等)と、
(2)右側ノード:矢印の文字切り出し位置に円弧の左側が存在するノード(内部が白のノード、文字候補1442B、文字候補1444B、文字候補1462B、文字候補1464B、文字候補1472B、文字候補1474B等)
の2種類がある。このとき、左側ノードと、右側ノード間にリンクを形成することによって、グラフ構造を構築することができる。
例えば、すべての左側ノードが、すべての右側ノードに直接接続できるようにリンクを形成すればよい。さらに、すべての文字切り出し位置において、前述のように、左側ノードと右側ノードのリンクを形成し、さらに、左側が文字列の端点の場合には始点ノードに接続し、また、右側が文字列の端点の場合には終端ノードに接続すれば、すべてのグラフ構造を構築することができる。
特に、この場合には、文字切り出し位置が確定していないため、ノード内部の評価値として、文字の形状情報を用いることができる。文字形状情報の例として、文字の縦横比や、文字左右の空白量、等を用いることができる。
そこで、ビタビ法を用いて高速化する。
前述したように、あるノードに左から接続されるリンクの本数を1本に限定するようにしていく。もちろんのことながら、あるノードに右から接続されるリンクの本数を1本に限定するようにしてもよいが、以下の例では、左から接続されるリンクについて説明する。
ここで、あるノードに左から接続されるリンクを決定すれば、そのノードに至る出力文字列が確定できる。この出力文字列が正規表現に部分一致しているかどうかをチェックすればよい。
例えば、ノードD(文字候補「会」)に左から3本のリンクが接続されているとする。そして、そのリンクはそれぞれノードA(文字列候補「ヒ学」)、ノードB(文字列候補「化学」)、ノードC(文字列候補「ト学」)から接続されているとする。ここで、正規表現が、「化学会議」とされているとする。
ノードA、B、Cには、さらに左からノードが接続されているが、その部分は説明では省略している。ノードA、B、Cに関しては、すでに、左側のノードが1本に限定されているため、それらのノードに至るパスが確定している。そのため、それらのノードに至る文字列も確定している。ノードAの文字列候補は「ヒ学」、ノードBの文字列候補は「化学」、ノードCの文字列候補は「ト学」となっている。
ここで、ノードDに左から接続されるリンクを確定させる。ノードAからのパスであれば、文字列は「ヒ学会」であり、ノードBからのパスであれば、文字列は「化学会」であり、ノードCからのパスであれば、文字列は「ト学会」となる。この中で、正規表現である文字列パターンに部分一致するものを選択する。
したがって、部分一致とは、文字列がXであるとき、Xの後ろに任意の文字が続くとみなして、後ろに任意の文字が続く文字列が先頭から正規表現に一致しているかどうかを判断するとしてもよい。
さらに、部分一致しているものがない場合には、すべての候補の中から、正規表現とは別のやり方で最も評価値の高いものを選択すればよい。
以上のようにして、各ノードにおいて、左側のリンクを1つに絞る。最終的に、左端から右端に向かう複数のパスが残るので、その中から出力すべきパスを得ればよい。
図15は、パス限定処理モジュール150内のモジュール構成例を示す説明図である。パス限定処理モジュール150は、ネットワーク構築処理モジュール1510、ノード数限定処理モジュール1520、制御モジュール1530、出力決定処理モジュール1540を有している。
図16は、パス限定処理モジュール150による処理例を示すフローチャートである。
ステップS1602では、ネットワーク構築処理モジュール1510が、ネットワークを構築する。
ステップS1604では、ノード数限定処理モジュール1520が、制御モジュール1530による制御によって、ネットワーク内のノードを限定する。
ステップS1606では、出力決定処理モジュール1540が、出力すべきパスを決定する。
ノード数限定処理モジュール1520は、ネットワーク構築処理モジュール1510、制御モジュール1530、出力決定処理モジュール1540と接続されている。ノード数限定処理モジュール1520は、ネットワーク構築処理モジュール1510によって生成されたネットワーク内のノードに先頭方向又は最後尾方向のいずれか一方向から接続するリンクに対して、予め定められた文字列パターンに合致するリンクに限定する。つまり、前述したように、各ノードにおいて、例えば左から接続されるノード数を限定する処理を行う。例えば、限定するノード数として1つである。
本実施の形態では、制御モジュール1530において、右端の終点ノードにおけるノード数を1本に限定する処理は行わない。すなわち、右端の終点ノードに入るリンク数(アーク数)が、M本であれば、最終的にM本のパスが残ることになる。M本のパスは、M個の文字列に相当している。
このようにするのは、途中の部分一致では、文字列の後ろ側に一致していない文字数を評価することができないためである。文字列全体として、文字列の前側と後ろ側の不一致数を合わせて不一致数の最も少ないものを選択するため、M個の文字列に関して、評価を行う。
また、制御モジュール1530において、右端の終点ノードにおける入力ノード数を1本になるまで選択してもよい。出力決定処理モジュール1540では、その1本化した文字列の中から、正規表現にマッチする最も長い部分がある文字列を選択する。
(1)評価尺度1
正規表現に最長一致するものを選ぶ。
最長一致するものが複数ある場合には、最もパス評価値の高い文字列を選ぶ。
変形例として、最長一致するものの文字数が所定の文字数未満である場合は、リジェクトとする。
(1.1)変形例(その1)
文字列の左端や右端が正規表現に一致しない場合、その一致しない左端や右端を除いた部分を抜き出して、その部分のみを正規表現に一致したとして、出力する。例えば、正規表現が「化学会議」で、文字列が「AB化学会議C」の場合、「AB」と「C」を取り除いた「化学会議」を出力する。このとき、取り除いた左端「AB」と右端「C」の文字数は計3文字となる。この取り除いた文字数が最も少ない文字列を選択する。
(1.2)変形例(その2)
前述の例で、「化学会議」となっている画像中の文字列の長さ(例えば、画像の画素数や、スキャン前の紙におけるセンチ数など)が最も長いものを選択してもよい。つまり、除去するノイズの量が画像中で最も小さいものを選択する。
正規表現に合致する文字列の長さは規定せず、正規表現に合致するものの中で、最もパス評価値の高い文字列を選ぶ。
出力文字列の中に、正規表現にマッチする部分があればよい。例えば、正規表現が「化学会議」であるとして、文字列が、「前化学会議A」であって、最もパス評価値の高い文字列であるとき、1文字目と6文字目を省いて、「化学会議」という部分だけを出力することになる。
また、正規表現に完全に一致するときのみ採用するとしてもよい。
左端から右端までの全文字列が正規表現に一致すれば、その文字列を出力する。複数のパスが合致する場合は、最もパス評価値の高い文字列を選ぶ。ただし、左端から右端までの全文字列の中で、正規表現に一致するものがない場合は、出力がない(リジェクト)とする。
前述のパス限定処理モジュール150の例1では、文字列の左端から、部分一致するノードを選択することになる。
ところが、部分一致では、文字列の先頭から、正規表現に一致する必要がある。
文字列の先頭部分には、ノイズが発生する場合が多い。ノイズが発生した場合には、文字列の最初から部分一致する文字列が存在しない場合がある。例えば、文字列の最初に縦棒のノイズが存在している場合、多くの出力文字列の1文字目に、「1」という文字が入ってしまう場合がある。
このような場合、ネットワーク構築処理で構築されたすべてのパスが部分一致しないことになってしまい、正規表現のマッチングが不可能となる。部分一致とは、文字列の先頭から一致することであるためである。
そこで、文字列の最初にノイズが混入した場合の不安定性を排除することを行う。
(1)I=1とする。
(2)文字列のI文字目から部分一致しているかどうかをチェックする。
(3)部分一致していれば終了。
(4)Iが文字列の最後であれば終了。
(5)部分一致していなければ、I=I+1として(2)に戻る。
そして、変数Iの値を用いて、各リンクに対して、何文字目から部分一致したかを計測する。その計測したIを用いて、ノード数限定処理モジュール1520における処理では、下記の方法によって入力ノード数を限定する。
・部分一致しているパスの中で、Iの値が最も小さい入力ノードを選ぶ。
・部分一致しているパスの中で、最も小さいIの値が複数ある場合、パス評価値が最も大きなノードを選ぶ。
・部分一致しているパスがない場合、パス評価値が最も大きなノードを選ぶ。
また、パス限定処理モジュール150は、正規表現に完全に一致する文字列がない場合、部分一致文字列を出力するようにしてもよい。
前述のパス限定処理モジュール150の例1、2では、与えられた文字列パターン(正規表現)に一致するパス(文字列)を出力していた。ただし、一部でもよいから、一致するものを出力したいという場合もあり得る。例えば、前述の市名の例で、図17の例のような認識結果が得られたとする。また、正解は「横浜」であるとする。
文字認識後に、人間が認識結果を修正する場合がある。出力されない場合(リジェクトされる場合)、人間は「横浜」と2文字を入力する必要がある。ところが、「横」という文字は文字認識結果として存在している。「横」だけでも出力できれば、人間は、「浜」の1字だけを入力すればよいことになる。
パス限定処理モジュール150は以下の処理を行う。
(1)部分一致を検証するときに、部分一致する文字列の文字長が最長になる場合を記録しておく。文字列そのものか、パスの位置を記録しておけばよい。
(2)出力決定処理モジュール1540における処理において、正規表現にマッチする文字列があれば、それを出力する。
(3)出力決定処理モジュール1540における処理において、正規表現にマッチする文字列がない場合、部分一致文字長が最長となる文字列を出力する。
そして、文字認識結果を確認、修正する操作者には、部分一致でも出力するか否かの判断を表示装置に提示し、部分一致でも出力するが選択された場合は、(3)の処理を行うようにしてもよい。
図18は、出力決定処理モジュール1540内のモジュール構成例を示す説明図である。出力決定処理モジュール1540は、リンク値生成モジュール1810、パス選択モジュール1820を有している。
リンク値生成モジュール1810は、パス選択モジュール1820と接続されている。リンク値生成モジュール1810は、ノード数限定処理モジュール1520によって限定されたリンクによって接続されたノードの文字候補間の関係による文字列らしさを表す値に基づいて、リンク値を生成する。また、リンク値生成モジュール1810は、リンクを構成しているノードに対する文字らしさを表す値に基づいて、リンク値を生成するようにしてもよい。
パス選択モジュール1820は、リンク値生成モジュール1810と接続されている。パス選択モジュール1820は、リンク値生成モジュール1810によって生成されたリンク値に基づいて、ネットワーク構築処理モジュール1510によって生成されたネットワーク内のパスを選択する。パス選択モジュール1820は、ダイナミックプログラミング手法を用いて処理途中のパスを削減しながら、リンク値の和に基づいてパスを選択するようにしてもよい。
Nグラム値算出モジュール1910は、リンク値算出モジュール1930と接続されており、リンクによって接続されたノードの文字候補間の関係による文字列らしさを表す値に基づいて、リンク値を生成する。例えば、そのノードに対応する文字候補によって構成される文字列が、日本語の文章中に出現する確率をリンク値として用いる。例えば、リンクの左にあるノードと右にあるノードに対応する文字によって構成される文字列の確率は、バイグラムといわれる。また、2文字に限られず、リンクによってN文字以上の文字列の確率は、Nグラム(N>2)といわれる。
ノード値算出モジュール1920は、リンク値算出モジュール1930と接続されており、文字候補抽出モジュール140からリンクの片方のノードに対応する文字候補の文字らしさを表す値である認識確度をノード値として抽出する。前述のように、ノードに対応する文字認識結果に含まれている認識確度を抽出すればよい。
リンク値算出モジュール1930は、Nグラム値算出モジュール1910、ノード値算出モジュール1920と接続されており、Nグラム値算出モジュール1910によって算出された文字列らしさを表す値をリンク値として算出してもよいし、Nグラム値算出モジュール1910によって算出された文字列らしさを表す値及びノード値算出モジュール1920によって算出された認識確度に基づいて(例えば、2つの値の加算等)リンク値として算出してもよい。
重み決定モジュール2010は、リンク重み量乗算モジュール2020と接続されており、切出位置抽出モジュール130によって抽出された文字切り出し位置によって定められる距離に基づいて、重みを決定する。
また、重み決定モジュール2010は、切出位置抽出モジュール130によって抽出された文字切り出し位置の間にある画像の外接矩形の大きさに基づいて重みを決定するようにしてもよい。
また、重み決定モジュール2010は、切出位置抽出モジュール130によって抽出された文字切り出し位置の間に複数の画像がある場合は、その画像の外接矩形の大きさの和に基づいて重みを決定するようにしてもよい。なお、重み決定モジュール2010内のモジュール構成、処理については、図22から図27の例を用いて後述する。
加算モジュール2030は、リンク重み量乗算モジュール2020と接続されており、リンク重み量乗算モジュール2020によって算出されたリンク値と重みの乗算結果を加算する。加算処理の結果は、対象としている文字列画像内の一連の文字切り出し位置毎(パス単位)となる。
したがって、リンク重み量乗算モジュール2020、加算モジュール2030の処理は、重み決定モジュール2010によって決定された重みに基づいて、リンク値生成モジュール1810によって生成されたリンク値の重み付き和を算出することとなる。
ステップS2102では、リンク値生成モジュール1810が、リンク値を生成する。
ステップS2104では、パス選択モジュール1820が、重みを決定する。
ステップS2106では、パス選択モジュール1820が、重み付け線形和を算出する。
ステップS2108では、パス選択モジュール1820が、ネットワーク内のパスを選択する。
<B1>
図22は、重み付けの例を示す説明図である。
ここでは、図29に例示した「化学」という文字列画像を対象として説明する。なお、重みは画素数とする。図22(a)、(b)、(c)に例示するように、「イ」の幅は10画素、「ヒ」の幅は20画素、「学」の幅は40画素、「化」の幅は40画素であるとする。また、文字セグメント間の空白の幅は10画素であるとする。このとき、各パターンにおけるアーク評価値に対する重みは、図22(d)から(g)の例のようになる。つまり、文字切り出し位置決定モジュール110によって設定された位置の候補(以下、「切り出し位置候補」ともいう)によって定められる距離が重みとなっている。なお、切り出し位置候補によって定められる距離とは、この例の場合、隣り合う切り出し位置候補の間には1つの文字画像があるとして、その文字画像の外接矩形の幅である。また、切り出し位置候補によって定められる距離を、隣り合う切り出し位置候補間の距離としてもよい。
なお、図22(e)の例に示す重みよりも、図22(f)の例に示す重みが大きくなっているが、アーク評価値(「化」、「学」のそれぞれを1つの文字とした場合の文字らしさ評価値と、「化学」を1つの文字とした場合の文字らしさ評価値)によって、図22(e)の例のパス評価値が高くなることが多い。
重み決定モジュール2010は、文字切り出し間距離算出モジュール2310を有している。文字切り出し間距離算出モジュール2310は、隣り合う切り出し位置候補の間にある1つの文字画像の外接矩形の幅に基づいて、重みを決定する。また、隣り合う切り出し位置候補間の距離に基づいて、重みを決定するようにしてもよい。
前述の<B1>では、文字画像の外接矩形の幅又は隣り合う切り出し位置候補間の距離をそのまま、重みとした。この場合には、内部で空白の大きな文字が必要以上に大きな重みを持つことになってしまう。
例えば、図24に例示するように、文字切り出し間距離2410の内部に大きな空白を持つ文字を選択してしまうと、この重みが必要以上に大きな値となってしまう。図24の例では、文字切り出し間距離2410内の画像「1 1」を文字認識した結果が「い」となる場合がある。この場合の重みの値は大きくなるので、「1 1」を1つの文字(つまり、文字認識結果が「い」)として選択されてしまうことがある。
又は、文字セグメントが重なっている場合には、必要以上に小さな重みになってしまう。図25の例のように、文字セグメントの外接矩形が重なってしまっている場合、2つに分割した方が重みの値が大きくなってしまうため、「II」(ローマ数字の2)ではなくて、「I」、「I」となってしまう可能性が高くなる。つまり、外接矩形幅2510と外接矩形幅2520の和は、文字切り出し間距離2530より大きくなってしまうので、各文字セグメントの切り出し位置が文字切り出し位置として採用されてしまうことになってしまう可能性が高いことになる。
そして、文字内部に複数の文字セグメントがある場合は、その文字セグメントの外接矩形の大きさの和に基づいて重みを決定するようにしてもよい。
図26(a)、(b)、(c)に例示するように、「イ」の幅は10画素、「ヒ」の幅は20画素、「学」の幅は40画素、「化」の幅は40画素であるとする。また、文字セグメント間の空白の幅は10画素であるとする。このとき、各パターンにおけるアーク評価値に対する重みは、図26(d)から(g)の例のようになる。つまり、文字セグメントの外接矩形の幅(文字セグメントが複数ある場合は、その和)が重みとなっている。
重み決定モジュール2010は、文字塊抽出モジュール2710、文字塊幅算出モジュール2720を有している。
文字塊抽出モジュール2710は、文字塊幅算出モジュール2720と接続されており、隣り合う切り出し位置候補の間にある文字セグメント(画素塊)を抽出する。例えば、4連結又は8連結の画素塊を文字セグメントとして抽出してもよい。また、横方向に文字のプロファイルをとるようにしてもよい。すなわち、横方向に黒画素数のヒストグラムを算出する。そして、その黒画素ヒストグラムを用いて、文字セグメントを抽出するようにしてもよい。
文字塊幅算出モジュール2720は、文字塊抽出モジュール2710と接続されており、文字塊抽出モジュール2710によって抽出された文字セグメントの外接矩形の大きさを算出して、重みを決定する。
前述の実施の形態においては、横書きの文字列を前提として、左が始点で右が終点であるような記述の仕方を行ってきた。しかし、前述の説明は、縦書きや、右から左に記述する文字列でも同様に成り立つ。例えば、縦書きの場合は、「左」を「上」、「右」を「下」とする変換を行えばよい。右から左に記述する文字列の場合は、「左」を「右」、「右」を「左」とする変換を行えばよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合せ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…文字列抽出モジュール
130…切出位置抽出モジュール
140…文字候補抽出モジュール
150…パス限定処理モジュール
160…出力モジュール
1510…ネットワーク構築処理モジュール
1520…ノード数限定処理モジュール
1530…制御モジュール
1540…出力決定処理モジュール
1810…リンク値生成モジュール
1820…パス選択モジュール
Claims (7)
- 画像から文字画像を切り出す位置を抽出する切出位置抽出手段と、
前記切出位置抽出手段によって抽出された位置によって分けられた文字画像に対して文字認識を行った結果である複数の文字候補を抽出する文字候補抽出手段と、
前記文字候補抽出手段によって抽出された複数の文字候補の各々をノードとし、隣接する文字画像のノード間にリンクを構築することによってネットワークを生成するネットワーク生成手段と、
前記ネットワーク生成手段によって生成されたネットワーク内のノードに先頭方向又は最後尾方向のいずれか一方向から接続するリンクに対して、予め定められた文字列パターンに合致するリンクに限定する限定手段と、
前記限定手段によって限定されたリンクによってつながれたパス内の文字候補列を文字認識結果として出力する出力手段
を具備し、
前記限定手段は、前記予め定められた文字列パターンに合致するリンクに対応する文字列の画像としての長さが最も長いリンクを選択する
ことを特徴とする画像処理装置。 - 前記限定手段によって限定されたリンクによって接続されたノードの文字候補間の関係による文字列らしさを表す値に基づいて、リンク値を生成するリンク値生成手段と、
前記リンク値生成手段によって生成されたリンク値に基づいて、前記ネットワーク生成手段によって生成されたネットワーク内のパスを選択するパス選択手段
を具備し、
前記出力手段は、前記パス選択手段によって選択されたパス内の文字候補列を文字認識結果として出力する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記リンク値生成手段は、前記リンクを構成しているノードに対する文字らしさを表す値に基づいて、前記リンク値を生成する
ことを特徴とする請求項2に記載の画像処理装置。 - 前記切出位置抽出手段は、複数の切り出し位置を抽出し、
前記ネットワーク生成手段は、前記切出位置抽出手段によって抽出された複数の切り出し位置によって分けられた文字画像に対して文字認識を行った結果である複数の文字候補の各々をノードとし、隣接する文字画像のノード間にリンクを構築することによってネットワークを生成する
ことを特徴とする請求項2又は3に記載の画像処理装置。 - 前記限定手段は、最初のリンクから前記文字列パターンに合致していない場合、該合致していないリンクの次のリンクから該文字列パターンに合致するリンクに限定する
ことを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。 - 前記限定手段は、前記文字列パターンに合致するリンクがない場合は、該文字列パターン内の一部分の文字列パターンに合致するリンクに限定する
ことを特徴とする請求項1から5のいずれか一項に記載の画像処理装置。 - コンピュータを、
画像から文字画像を切り出す位置を抽出する切出位置抽出手段と、
前記切出位置抽出手段によって抽出された位置によって分けられた文字画像に対して文字認識を行った結果である複数の文字候補を抽出する文字候補抽出手段と、
前記文字候補抽出手段によって抽出された複数の文字候補の各々をノードとし、隣接する文字画像のノード間にリンクを構築することによってネットワークを生成するネットワーク生成手段と、
前記ネットワーク生成手段によって生成されたネットワーク内のノードに先頭方向又は最後尾方向のいずれか一方向から接続するリンクに対して、予め定められた文字列パターンに合致するリンクに限定する限定手段と、
前記限定手段によって限定されたリンクによってつながれたパス内の文字候補列を文字認識結果として出力する出力手段
として機能させ、
前記限定手段は、前記予め定められた文字列パターンに合致するリンクに対応する文字列の画像としての長さが最も長いリンクを選択する
ことを特徴とする画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011185931A JP5942361B2 (ja) | 2011-08-29 | 2011-08-29 | 画像処理装置及び画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011185931A JP5942361B2 (ja) | 2011-08-29 | 2011-08-29 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013047887A JP2013047887A (ja) | 2013-03-07 |
JP5942361B2 true JP5942361B2 (ja) | 2016-06-29 |
Family
ID=48010847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011185931A Active JP5942361B2 (ja) | 2011-08-29 | 2011-08-29 | 画像処理装置及び画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5942361B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6303531B2 (ja) | 2014-01-22 | 2018-04-04 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP6260350B2 (ja) * | 2014-03-04 | 2018-01-17 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP6675831B2 (ja) * | 2015-03-27 | 2020-04-08 | 株式会社日立産機システム | 印字検査方法及びそれを用いた印字検査装置及び印字検査装置本体 |
CN111753047B (zh) * | 2020-05-19 | 2024-06-07 | 北京捷通华声科技股份有限公司 | 一种文本处理方法及装置 |
WO2022070422A1 (ja) * | 2020-10-02 | 2022-04-07 | 株式会社日立製作所 | 計算機システム及び文字認識方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59112367A (ja) * | 1982-12-18 | 1984-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 文字読取方式 |
JPH10198761A (ja) * | 1997-01-09 | 1998-07-31 | Oki Electric Ind Co Ltd | 文字認識方法および文字認識装置 |
JP3893013B2 (ja) * | 2000-06-05 | 2007-03-14 | 独立行政法人科学技術振興機構 | 文字認識方法、文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び文字認識装置 |
JP2007219867A (ja) * | 2006-02-17 | 2007-08-30 | Hitachi Ltd | 文字列読取り方法 |
-
2011
- 2011-08-29 JP JP2011185931A patent/JP5942361B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013047887A (ja) | 2013-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
KR101114135B1 (ko) | 카메라 입력된 문서들을 위한 저해상 ocr | |
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2012118650A (ja) | 画像処理装置及び画像処理プログラム | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
EP2553625B1 (en) | Detecting position of word breaks in a textual line image | |
CN110178139B (zh) | 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法 | |
JP6119952B2 (ja) | 画像処理装置及び画像処理プログラム | |
KR101235226B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 기록 매체 | |
JP5942361B2 (ja) | 画像処理装置及び画像処理プログラム | |
US10438097B2 (en) | Recognition device, recognition method, and computer program product | |
US8787676B2 (en) | Image processing apparatus, computer readable medium storing program, and image processing method | |
JP2022035594A (ja) | 表構造認識装置及び表構造認識方法 | |
US20120050295A1 (en) | Image processing apparatus, computer readable medium for image processing and computer data signal for image processing | |
US11972208B2 (en) | Information processing device and information processing method | |
KR101790544B1 (ko) | 정보 처리 장치, 정보 처리 방법, 및 기억 매체 | |
JP7322468B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5942661B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6260350B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2014109810A (ja) | 情報処理装置及び情報処理プログラム | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
US10515297B2 (en) | Recognition device, recognition method, and computer program product | |
JP5636691B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2016009235A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160509 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5942361 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |