JP2012118649A - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP2012118649A JP2012118649A JP2010265964A JP2010265964A JP2012118649A JP 2012118649 A JP2012118649 A JP 2012118649A JP 2010265964 A JP2010265964 A JP 2010265964A JP 2010265964 A JP2010265964 A JP 2010265964A JP 2012118649 A JP2012118649 A JP 2012118649A
- Authority
- JP
- Japan
- Prior art keywords
- character
- module
- evaluation value
- image
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【解決手段】画像処理装置の設定手段は、画像から文字を切り出す位置の候補を設定し、評価値決定手段は、前記設定手段によって設定された位置の候補によって切り出される画像の文字らしさを評価した値を決定し、重み決定手段は、前記設定手段によって設定された位置の候補によって定められる距離に基づいて、重みを決定し、算出手段は、前記重み決定手段によって決定された重みに基づいて、前記評価値決定手段によって決定された評価値の重み付き和を算出し、切り出し手段は、前記算出手段によって算出された値に基づいて、前記画像から文字を切り出す。
【選択図】図1
Description
これに関連する技術として、例えば、特許文献1には、文書に記載された文字の画像を読取り、その読み取り画像に基づいて文字を認識する文書読取り装置において、1つの文字を構成する文字要素を基本パターンとして検出する基本パターン検出手段と、この基本パターン検出手段で検出した基本パターンが単独の文字として成立するか否かを定量的に示す文字評価値を求める文字評価値演算手段と、この演算手段で算出された文字評価値に基づき文字要素を単独の文字として切り出したときと複数の文字要素を結合して切り出したときの切り出し評価値を求める切り出し評価値演算手段と、切り出し評価値が最大となる文字要素の組み合わせを1つの文字として切り出す文字切り出し手段とを備えてなる文書読取り装置が開示されている。
請求項1の発明は、画像から文字を切り出す位置の候補を設定する設定手段と、前記設定手段によって設定された位置の候補によって切り出される画像の文字らしさを評価した値を決定する評価値決定手段と、前記設定手段によって設定された位置の候補によって定められる距離に基づいて、重みを決定する重み決定手段と、前記重み決定手段によって決定された重みに基づいて、前記評価値決定手段によって決定された評価値の重み付き和を算出する算出手段と、前記算出手段によって算出された値に基づいて、前記画像から文字を切り出す切り出し手段とを具備することを特徴とする画像処理装置である。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する画像処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
以下、特許文献3に記載されている技術内容を例にして説明する。なお、以下の説明で用いる用語は、特許文献3で用いる用語とは異なっている場合がある。
前述の文字セグメントを統合して、文字画像を決定する。複数の文字セグメントを統合して1つの文字画像を形成する場合もあれば、1つの文字セグメントが1つの文字となる場合もある。文字画像を決定するとは、文字の切り出し位置を決定することと同値であるから、以下では文字切り出し位置の決定という場合もある。
文字セグメントの統合のパターンは複数存在する。複数存在するパターンの中で、最も文字画像として評価の高いものを選択することによって、最終的な文字切り出し位置を決定する。
図20の例に対しては、すべての文字切り出しパターンは、図21に示す例のようになる。つまり、図21(a)の例では、パターン1として3つの文字画像(外接矩形2010、外接矩形2020、外接矩形2030)、図21(b)の例では、パターン2として2つの文字画像(外接矩形2010と2020、外接矩形2030)、図21(c)の例では、パターン3として1つの文字画像(外接矩形2010と2020と2030)、図21(d)の例では、パターン4として2つの文字画像(外接矩形2010、外接矩形2020と2030)を示している。
ここで、どれか1つのアークには、1つの文字画像の候補が対応している。例えば、始点ノード2200と中間ノード2220(ノード2)を結ぶアークには、「化」という文字画像(文字切り出しパターン2204)が対応している。1つのアークに対応する文字に対して、その文字の評価値を決定することができる。これを「アーク評価値」と呼ぶこととする。
アーク評価値は、文字の形状情報や、文字認識における認識確度などから算出する。この詳細に関しては後述する。
文字切り出し位置を決定するため、複数のパスのなかで、最もパス評価値の高いパスを選択する。パスが選択できれば、文字切り出し位置が確定して、文字を切り出すことができる。そして、切り出した文字(文字画像)を文字認識することができる。また、後述するように、文字らしさを評価するのに文字認識を行っていた場合は、その文字認識の結果を確定することになる。
例えば、図23の例で、太線のパスが選択されたとする。この場合、文字切り出し位置は、始点2200と、中間ノード2220(ノード2)と、終点2290の3点となる。そして、文字認識結果は、「化」(文字切り出しパターン2204)、「学」(文字切り出しパターン2222)となる。
また、例えば、特開昭61−175878号公報、特開平11−203406号公報に記載の技術では、「重みwi=1/N」として、アーク評価値の平均値をパス評価値としている。
また、例えば、特開平9−185681号公報、特開平8−161432号公報、特開平10−154207号公報、特開平3−37782号公報に記載の技術では、「重みwi=文字セグメントの数」としている。例えば、図21(d)の例に示すパターン4は左右二つの文字から構成される。左側の文字「イ」は、ひとつだけの文字セグメントから構成されているので、「重みwi=1」となる。右側の文字「ヒ学」は、2つの文字セグメントから構成されているので、「重みwi=2」となる。
次に、特開昭61−175878号公報、特開平11−203406号公報に記載の技術のように、アーク評価値の平均値を用いる場合は、列内のすべての文字切り出し位置を確定しないと、パス評価値を計算できないこととなる。平均値を算出するためには、文字数Nを確定する必要があるためである。
この場合、いったん、すべてのパスに関して始点から終点まで確定してから、パス評価値を計算する必要がある。文字列が長くなると、すべてのパスの本数は莫大になるため、このような計算手法は非現実的なものとなる。
ここでは、ダイナミックプログラミング法の一例としてビタビ手法の説明を行う。
まず、始点とあるノード間を結ぶ部分パスの評価値を部分パス評価値と呼ぶこととする。
例えば、図22の例に示すグラフにおいて、始点から終点に向かうパスを対象とする。中間ノード2210(ノード1)に左から入るアークは、ひとつに限定されている。中間ノード2220(ノード2)に左から入るアークは、2本ある。このうち、最も始点2200からの部分パス評価値が最もよいものだけを生き残らせておく。ノードがさらに続く場合は、同様に、中間ノード毎に左から入るアークが複数ある場合に、その複数のアークの中で、始点からの部分パス評価値が最もよいものだけを生き残らせておく。そして、最終的に、終点2290に入るパスの中で、パス評価値が最もよいものを選択する。
このようなビタビ法を用いた選択手法において、途中のノードにおける部分パス評価値を算出する必要がある。このとき、途中のノードまでのパスしか確定していないため、最終的な文字数は分からない。よって、特開昭61−175878号公報、特開平11−203406号公報に記載の技術のように、アーク評価値の平均値を用いる場合は、ビタビ法のような、高速化させるためのダイナミックプログラミング法を用いることができないこととなる。
ただし、特開平9−185681号公報、特開平8−161432号公報、特開平10−154207号公報に記載の技術の場合、幅の大きな文字セグメントと、幅の小さな文字セグメントを同様に扱っている。
例えば、図24に例示した文字列画像を対象とする。この場合、分割時のアーク評価値が図25の例のようになると仮定する。つまり、図25(a)に例示する左側の文字セグメント(「奈」の文字画像)のアークに対する重みが100、右側の文字セグメント(「川」の文字画像)のアークに対する重みが50、図25(b)に例示する左側の文字セグメント(「奈1」(なお、「川」の各線を「1」と表現する)の文字画像)のアークに対する重みが90、右側の文字セグメント(「11」の文字画像)のアークに対する重みが50である。この場合、図25(a)では、パス評価値は、100+50×3=250となる。図25(b)では、パス評価値は、90×2+50×2=280となる。つまり、図25(b)が文字切り出し結果として採用されてしまうことになる。
このように、文字セグメント数を重みとしてパス評価値を算出する場合、幅の小さなゴミのような文字セグメントと共に一つの文字となった場合、そのアークの評価値が必要以上に大きな値となって、文字切り出し位置を誤ってしまうということが生じる。
図1は、第A1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
文字切り出し位置決定モジュール110が行う文字の切り出す位置候補の設定は例えば次のように行う。
1列の文字列である文字列画像を対象として、複数の文字セグメントに分割する。この文字セグメント分割方式としてもさまざまな方式があるため、そのうちのいずれかを用いればよい。例えば、(1)特開平5−114047号公報、(2)特開平4−100189号公報、(3)特開平4−92992号公報、(4)特開平4−68481号公報、(5)特開平9−54814号公報、(6)特開平9−185681の0021段落に記載の文字の境界候補抽出方式、(7)特開平5−128308の0005段落に記載の文字切り出し位置決定方式、等を用いればよい。これ以外の方法であってもよい。
アーク評価値決定モジュール120が行う文字らしさの評価値の決定は例えば次のように行う。
文字切り出し位置を設定したときの、1文字分の評価値(アーク評価値)に関しても、さまざまな方式があるため、そのうちのいずれかを用いればよい。例えば、前述した(1)特開平9−185681号公報、(2)特開平8−161432号公報、(3)特開平10−154207号公報、(4)特開昭61−175878号公報、(5)特開平3−37782号公報、(6)特開平11−203406号公報、等を用いればよい。これ以外の方法であってもよい。なお、これらの特徴量を用いて、アーク評価値を決定する処理の詳細については、図9から図16を用いて後述する。
また、重み決定モジュール130は、文字切り出し位置決定モジュール110によって設定された位置の候補の間にある画像の外接矩形の大きさに基づいて重みを決定するようにしてもよい。
また、重み決定モジュール130は、文字切り出し位置決定モジュール110によって設定された位置の候補の間にある画像が複数である場合は、その画像の外接矩形の大きさの和に基づいて重みを決定するようにしてもよい。
なお、重み決定モジュール130が行う処理の詳細については、図3から図8を用いて後述する。
加算モジュール150は、アーク重み量乗算モジュール140と接続されている。加算モジュール150は、アーク重み量乗算モジュール140によって算出された評価値と重みの乗算結果を加算する。加算処理の結果は、対象としている文字列画像内の一連の文字切り出し位置毎(パス単位)となる。
したがって、アーク重み量乗算モジュール140、加算モジュール150の処理は、重み決定モジュール130によって決定された重みに基づいて、アーク評価値決定モジュール120によって決定された評価値の重み付き和を算出することとなる。
又は、前述の(1)式のwiを重み決定モジュール130で算出してもよい。つまり、すべての切り出し位置を設定したうえで、(1)式を用いたパス評価値算出を行ってもよい。
なお、これまでの説明では、始点方向から終点方向にビタビ法の部分パス評価値を算出していく説明をしていたが、終点から始点に向かってもよいことは自明である。
パス評価値決定モジュール100は、対象とする画像は横書きあるいは縦書きの、1列のみの文字列画像を対象としている。なお、ここで、列とは、横書きの場合は横に並ぶ列であり、縦書きの場合は縦に並ぶ列である。
文字列抽出モジュール220は、画像受付モジュール210が受け付けた画像が1列のみの文字列画像であれば、そのまま用いればよい。画像受付モジュール210が受け付けた画像が、複数の文字列が存在するものがあり、このような複数文字列を単一の文字列になるように分離する手法としては、従来よりさまざまものが提案されているため、それらを用いればよい。単一の文字列となるように分離する例としてもさまざまな方式があるため、そのうちのいずれかを用いればよい。例えば、(1)特開平4−311283号公報、(2)特開平3−233789号公報、(3)特開平5−73718号公報、(4)特開2000−90194号公報、等を用いればよい。これ以外の方法であってもよい。
文字切り出しモジュール240は、パス評価値決定モジュール100、文字認識モジュール250と接続されている。文字切り出しモジュール240は、パス評価値決定モジュール100の加算モジュール150によって算出された値に基づいて、文字列画像から文字画像を切り出す。パス評価値決定モジュール100によって決定されたパス評価値が最も大きいものであるパスの文字切り出し位置を採用して、文字列画像から文字画像を1文字ずつ切り出す。
文字認識モジュール250は、文字切り出しモジュール240と接続されている。文字切り出しモジュール240によって切り出された文字画像を文字認識する。なお、パス評価値決定モジュール100内のアーク評価値決定モジュール120が文字認識を行った場合は、その文字認識結果のうち、文字切り出しモジュール240によって採用されたパスの文字認識結果を採用すればよい。
<A1>
図3は、重み付けの例を示す説明図である。
ここでは、図18に例示した「化学」という文字列画像を対象として説明する。なお、重みは画素数とする。図3(a)、(b)、(c)に例示するように、「イ」の幅は10画素、「ヒ」の幅は20画素、「学」の幅は40画素、「化」の幅は40画素であるとする。また、文字セグメント間の空白の幅は10画素であるとする。このとき、各パターンにおけるアーク評価値に対する重みは、図3(d)から(g)の例のようになる。つまり、文字切り出し位置決定モジュール110によって設定された位置の候補(以下、「切り出し位置候補」ともいう)によって定められる距離が重みとなっている。なお、切り出し位置候補によって定められる距離とは、この例の場合、隣り合う切り出し位置候補の間には1つの文字画像があるとして、その文字画像の外接矩形の幅である。また、切り出し位置候補によって定められる距離を、隣り合う切り出し位置候補間の距離としてもよい。
なお、図3(e)の例に示す重みよりも、図3(f)の例に示す重みが大きくなっているが、アーク評価値(「化」、「学」のそれぞれをひとつの文字とした場合の文字らしさ評価値と、「化学」をひとつの文字とした場合の文字らしさ評価値)によって、図3(e)の例のパス評価値が高くなることが多い。
重み決定モジュール130は、文字切り出し間距離算出モジュール410を有している。文字切り出し間距離算出モジュール410は、隣り合う切り出し位置候補の間にある1つの文字画像の外接矩形の幅に基づいて、重みを決定する。また、隣り合う切り出し位置候補間の距離に基づいて、重みを決定するようにしてもよい。
前述の<A1>では、文字画像の外接矩形の幅又は隣り合う切り出し位置候補間の距離をそのまま、重みとした。この場合には、内部で空白の大きな文字が必要以上に大きな重みを持つことになってしまう。
例えば、図5に例示するように、文字切り出し間距離510の内部に大きな空白を持つ文字を選択してしまうと、この重みが必要以上に大きな値となってしまう。図5の例では、文字切り出し間距離510内の画像「1 1」を文字認識した結果が「い」となる場合がある。この場合の重みの値は大きくなるので、「1 1」をひとつの文字(つまり、文字認識結果が「い」)として選択されてしまうことがある。
又は、文字セグメントが重なっている場合には、必要以上に小さな重みになってしまう。図6の例のように、文字セグメントの外接矩形が重なってしまっている場合、二つに分割したほうが重みの値が大きくなってしまうため、「II」(ローマ数字の2)ではなくて、「I」、「I」となってしまう可能性が高くなる。つまり、外接矩形幅610と外接矩形幅620の和は、文字切り出し間距離630より大きくなってしまうので、各文字セグメントの切り出し位置が文字切り出し位置として採用されてしまうことになってしまう可能性が高いことになる。
そして、文字内部に複数の文字セグメントがある場合は、その文字セグメントの外接矩形の大きさの和に基づいて重みを決定するようにしてもよい。
図7(a)、(b)、(c)に例示するように、「イ」の幅は10画素、「ヒ」の幅は20画素、「学」の幅は40画素、「化」の幅は40画素であるとする。また、文字セグメント間の空白の幅は10画素であるとする。このとき、各パターンにおけるアーク評価値に対する重みは、図7(d)から(g)の例のようになる。つまり、文字セグメントの外接矩形の幅(文字セグメントが複数ある場合は、その和)が重みとなっている。
重み決定モジュール130は、文字塊抽出モジュール810、文字塊幅算出モジュール820を有している。
文字塊抽出モジュール810は、文字塊幅算出モジュール820と接続されており、隣り合う切り出し位置候補の間にある文字セグメント(画素塊)を抽出する。例えば、4連結又は8連結の画素塊を文字セグメントとして抽出してもよい。また、横方向に文字のプロファイルをとる。すなわち、横方向に黒画素数のヒストグラムを算出する。そして、その黒画素ヒストグラムを用いて、文字セグメントを抽出するようにしてもよい。
文字塊幅算出モジュール820は、文字塊抽出モジュール810と接続されており、文字塊抽出モジュール810によって抽出された文字セグメントの外接矩形の大きさを算出して、重みを決定する。
<第B1の実施の形態>
図9は、第B1の実施の形態のアーク評価値決定モジュール120内の構成例についての概念的なモジュール構成図である。アーク評価値決定モジュール120は、線形重み付け加算モジュール910、非線形関数モジュール920を有している。線形重み付け加算モジュール910と非線形関数モジュール920は接続されている。
なお、線形重み付け加算モジュール910は、図示していないアーク特徴量抽出モジュールから特徴ベクトルとして、特徴量1〜N(画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量)を受け取る。アーク特徴量抽出モジュールが抽出するアークの特徴量ベクトルの内容としては、文字らしさを評価するための特徴量であればよい。例えば、前述した文字の形状情報や、文字認識における認識確度等がある。また、文字を切り出した後に文字認識を行い、その文字認識確度をアークの特徴量の1つとして用いる場合の具体例に関して補足する。これは、特開平9−185681号公報に記載の技術では文字類似度として示していた量である。
文字認識確度としては、文字認識時に出力した文字コードの確信度合いあるいは尤度のようなものを得ることができればよい。このような文字認識確度を得る手法としても、従来よりさまざまな手法が提案されているため、そのうちのいずれかを用いればよい。例えば、特開平9−185681号公報の0024段落に記載の方式、特開平8−161432号公報の0051段落に記載の認識評価値取得方式等を用いてもよい。その他の手法を用いてもよい。
非線形関数モジュール920は、線形重み付け加算モジュール910から計算結果を引数として受け取り、その引数が極限の値の場合に予め定められた値に収束するようになる、又はその引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又はその非線形単調関数に近似する関数によって、1つの文字画像を切り出す位置の候補の評価値(アーク評価値)を計算する。つまり、アーク評価関数によって計算する。
図22に示した例で、文字切り出しパターン2202の特徴量が1、文字切り出しパターン2204の特徴量が10、文字切り出しパターン2206の特徴量が1、文字切り出しパターン2212の特徴量が100、文字切り出しパターン2222の特徴量が10、文字切り出しパターン2214の特徴量が1であるとする。このように、文字切り出しパターン2212の特徴量が100となり、他の比べると特徴量が極端に大きな値となっている。ここで、非線形関数(線形重み付け加算モジュール910)の入出力を、例えば、下記のような場合について説明する。
入力:1 出力:1
入力:10 出力:2
入力:100 出力:3
このようにすると、
パス1:「化(文字切り出しパターン2204)」「学(文字切り出しパターン2222)」の場合のパス評価値は、2×2+2=6
パス2:「イ(文字切り出しパターン2206)」「ヒ(文字切り出しパターン2212)」「学(文字切り出しパターン2222)」の場合のパス評価値は、1+3+2=6となって、値100の影響を小さくすることができて、パス1とパス2の評価値が同程度の値となる。
教師用データテーブル1000は、データ番号欄1010、特徴量1欄1020、特徴量2欄1030、特徴量N欄1080、正解/非正解欄1090等を有している。データ番号欄1010は、アークを一意に識別するデータ番号を記憶する。例えば、各アークに対して個別のデータ番号を1から順に与えることにする。特徴量1欄1020から特徴量N欄1080は、アーク特徴量抽出モジュールが抽出した特徴量を記憶する。つまり、あるアークの特徴量をアーク特徴量抽出モジュールが抽出し、それを教師用データテーブル1000の表の横に並べて入力する。さらに、そのアークが正解の文字の切れ目を表している場合には正解/非正解欄1090に例えば1と入力する。そのアークが正解の文字の切れ目を表していない場合には正解/非正解欄1090に例えば0と入力する。
できるだけ近い値の評価方法としては、以下のような手法がある。まず、各アークに番号を与えるデータ番号をkとする。データ番号kのアークに対して、アーク評価値決定モジュール120を用いて算出したアーク評価値をVkとする。また、番号kのアークの教師データをtkとする。ここでは、例えば、
・正解のとき tk=1
・不正解のとき tk=0
とする。
このとき、(3)式を最小とするように重みを決定すればよい。
重み決定方式としては、一般的なロジスティック回帰の回帰係数決定方式や、単層パーセプトロンの重み決定方式を利用すればよい。
第B1の実施の形態では、非線形関数を単調関数としたため、出力のアーク評価値の大きさは変わるが、その相対的な順番を変えることはない。
第B2の実施の形態は、アーク評価値決定モジュール120が線形重み付け加算と非線形関数の組による処理を2度繰り返す構成を採る。
アーク評価値決定モジュール120は、線形重み付け加算モジュール1−1:1111、線形重み付け加算モジュール1−2:1112、・・・、線形重み付け加算モジュール1−M:111M、非線形関数σ1−1モジュール1121、非線形関数σ1−2モジュール1122、・・・、非線形関数σ1−Mモジュール112M、線形重み付け加算モジュール2:1130、非線形関数σ2モジュール1140を有している。図11において、複数の特徴量(特徴量1〜特徴量N)を特徴量ベクトルとして1本の線で記述している。
線形重み付け加算モジュール1−1:1111は、非線形関数σ1−1モジュール1121と接続されている。
線形重み付け加算モジュール1−2:1112は、非線形関数σ1−2モジュール1122と接続されている。
線形重み付け加算モジュール1−M:111Mは、非線形関数σ1−Mモジュール112Mと接続されている。
非線形関数σ1−1モジュール1121は、線形重み付け加算モジュール1−1:1111、線形重み付け加算モジュール2:1130と接続されている。
非線形関数σ1−2モジュール1122は、線形重み付け加算モジュール1−2:1112、線形重み付け加算モジュール2:1130と接続されている。
非線形関数σ1−Mモジュール112Mは、線形重み付け加算モジュール1−M:111M、線形重み付け加算モジュール2:1130と接続されている。
線形重み付け加算モジュール1−1:1111と非線形関数σ1−1モジュール1121の組み合わせ、線形重み付け加算モジュール1−2:1112と非線形関数σ1−2モジュール1122の組み合わせ、線形重み付け加算モジュール1−M:111Mと非線形関数σ1−Mモジュール112Mの組み合わせは、第B1の実施の形態における線形重み付け加算モジュール910と非線形関数モジュール920の組み合わせに該当する。
線形重み付け加算モジュール2:1130は、非線形関数σ1−1モジュール1121、非線形関数σ1−2モジュール1122、非線形関数σ1−Mモジュール112M、非線形関数σ2モジュール1140と接続されている。
非線形関数σ2モジュール1140は、線形重み付け加算モジュール2:1130と接続されている。
線形重み付け加算モジュール2:1130は第B1の実施の形態における線形重み付け加算モジュール910に該当し、非線形関数σ2モジュール1140は第B1の実施の形態における非線形関数モジュール920に該当する。
第B2の実施の形態においては、その構成が3層のパーセプトロンと同等となる。そのため、正解アークと非正解アークが非線形な分離面を持っていても対応が可能となる。また、通常の誤差逆伝播方式を用いて重み係数を決定するようにしてもよい。その際の教師データとしては、図10の例に示した教師用データテーブル1000を用いればよい。第B2の実施の形態のアーク評価値決定モジュール120を用いて算出したアーク評価値yiと教師データtiの値の差が小さいとき小さくなるような評価値の例も、第B1の実施の形態と同等である。
第B3の実施の形態は、アーク評価値決定モジュール120内で、第B2の実施の形態のアーク評価値決定モジュール120を複数用いて、その和を取るものである。
1つの推定器であるアーク評価値決定モジュール120の性能が悪くても、複数の推定器を用いることによって、性能を上げることが可能である。例えば、3つの推定器があるとする。そのうち、1つの推定器が不正解で、残り2つの推定器が正解であるとする。この3つの多数決を取って、正解のほうを採用することによって、正解の推定を行うことが可能となる。
本実施の形態の例では、多数決の演算を加算によって行う。
アーク評価値決定モジュール120は、アーク評価値算出モジュール1:1211、アーク評価値算出モジュール2:1212、アーク評価値算出モジュールK:121K、アーク評価値加算モジュール1220を有している。
アーク評価値算出モジュール1:1211、アーク評価値算出モジュール2:1212、アーク評価値算出モジュールK:121Kは、それぞれアーク評価値加算モジュール1220と接続されている。
第B3の実施の形態では、複数のアーク評価値算出モジュール(アーク評価値算出モジュール1〜アーク評価値算出モジュールK)を用いる。アーク評価値算出モジュールjの出力は、Vjとする。
図13は、第B3の実施の形態のアーク評価値算出モジュール内の構成例についての概念的なモジュール構成図である。
線形重み付け加算モジュールj−1−1:1311、線形重み付け加算モジュールj−1−2:1312、線形重み付け加算モジュールj−1−Mj:131M、非線形関数σj−1−1モジュール1321、非線形関数σj−1−2モジュール1322、非線形関数σj−1−Mjモジュール132M、線形重み付け加算モジュールj−2:1330、非線形関数σj−2モジュール1340を有している。
線形重み付け加算モジュールj−1−1:1311は、非線形関数σj−1−1モジュール1321と接続されている。
線形重み付け加算モジュールj−1−2:1312は、非線形関数σj−1−2モジュール1322と接続されている。
線形重み付け加算モジュールj−1−Mj:131Mは、非線形関数σj−1−Mjモジュール132Mと接続されている。
非線形関数σj−1−1モジュール1321は、線形重み付け加算モジュールj−1−1:1311、線形重み付け加算モジュールj−2:1330と接続されている。
非線形関数σj−1−2モジュール1322は、線形重み付け加算モジュールj−1−2:1312、線形重み付け加算モジュールj−2:1330と接続されている。
非線形関数σj−1−Mjモジュール132Mは、線形重み付け加算モジュールj−1−Mj:131M、線形重み付け加算モジュールj−2:1330と接続されている。
線形重み付け加算モジュールj−2:1330は、非線形関数σj−1−1モジュール1321、非線形関数σj−1−2モジュール1322、非線形関数σj−1−Mjモジュール132M、非線形関数σj−2モジュール1340と接続されている。
非線形関数σj−2モジュール1340は、線形重み付け加算モジュールj−2:1330と接続されている。
アーク評価値算出モジュールjは、各構成要素に添え字jが付与されていることを除いて、第B2の実施の形態と動作は同等である。以下、動作を示す。線形重み付け加算器j−1−iと非線形関数σj−1−iの組み合わせでは(ただし、i=1,2,…,Mj)、(9)式による演算を行って、出力値Uj−iを得る。wj−1−i及びcj−1−iは、線形重み付け加算モジュールj−1−iが用いる重みである。Mjは、1段目の線形重み付け加算モジュールの数である。
前記の重み決定方法としては、文献「J. Friedman, T. Hastie, R. Tibshirani著 “Additive Logistic Regression: a Statistical View of Boosting”、Annals of Statistics、Vol. 28, No. 2, pp. 337−407, 2000」に記載のジェントルアダブースト方式と呼ばれる方式を用いるようにしてもよい。
以下、ここでは、説明の都合上、非線形関数σとして、例えば、入力がマイナス無限大で0、プラス無限大で1になる関数を用いることとする。実際にはマイナス無限大やプラス無限大で収束する値に応じて線形変換を行えば、入力がマイナス無限大で−1、プラス無限大で1になる関数などに変更してもよい。
次に、教師用データとして、図14の例に示す教師用データテーブル1400を用意する。教師用データテーブル1400は、データ番号欄1410、特徴量1欄1420、特徴量2欄1430、特徴量N欄1470、正解/非正解欄1480、ウエイト欄1490等を有している。これは、図10の例に示す教師用データテーブル1000にウエイト欄1490を追加したものである。ここで、「ウエイト」と「重み」は、意味的には同じである。しかし、これまで、線形重み付け加算モジュールにおける係数に対して「重み」という用語を用いていたため、その用語と区別をするため、教師データの重みに関しては「ウエイト」という用語を用いることとする。また、データの量をGとする。
ここで、データ番号kに対して、正解/非正解を表す記号をykとする。第B3の実施の形態においては、例えば、
・正解のとき yk=+1
・不正解のとき yk=−1
とする。
さらに、非線形関数σとして、ロジスティックシグモイド関数を採用する。このとき、Vjは0〜1までの値を取る。
1.まず、図14の例に示した教師用データテーブル1400内のデータのウエイトを全て等しく1/Gとする。
2.j=1とする。
(ア)各教師データのウエイトを用いて、その重み付け2乗誤差を最小とするように、アーク評価値算出モジュールjの重みを決定する。決定方法は、第B2の実施の形態の説明で記載したものと同等である。通常は単なる2乗誤差を最小化するように重みを決定するのに対して、ウエイトで重み付けした重み付け2乗誤差を最小とするように重みを決定する点が異なる。
つまり、第B1の実施の形態又は第B2の実施の形態では、(13)式を最小とするように重みを決定していたのに対し、ここでは、(14)式を最小とするように重みを決定する。ただし、ここで、tk=(yk+1)/2の関係がある。
(イ−1)k番目のデータに対するアーク評価値をVjkとする。
(イ−2)ウエイトを(15)式で更新する。これは、アーク評価値の推定が間違ったデータのウエイトを大きくして、合っていたデータのウエイトを小さくする操作を示している。
(エ)jを1増大させて、(ア)に戻る。
すなわち、
・アーク評価値算出モジュール1の入力を、文字セグメント外接矩形の高さのみとする。
・アーク評価値算出モジュール2の入力を、全ての特徴量とする。
・アーク評価値算出モジュール3の入力を、文字セグメント外接矩形の幅のみとする。
・ …
等としてもよい。
・アーク評価値算出器1が第B2の実施の形態のアーク評価値決定モジュール120の構成
・アーク評価値算出器2が第B1の実施の形態のアーク評価値決定モジュール120の構成
・アーク評価値算出器3が第B2の実施の形態のアーク評価値決定モジュール120の構成
・ …
としてもよいし、
・アーク評価値算出器1が第B1の実施の形態のアーク評価値決定モジュール120の構成
・アーク評価値算出器2が第B1の実施の形態のアーク評価値決定モジュール120の構成
・アーク評価値算出器3が第B1の実施の形態のアーク評価値決定モジュール120の構成
・ …
としてもよいし、
・アーク評価値算出器1が第B2の実施の形態のアーク評価値決定モジュール120の構成
・アーク評価値算出器2が第B2の実施の形態のアーク評価値決定モジュール120の構成
・アーク評価値算出器3が第B2の実施の形態のアーク評価値決定モジュール120の構成
・ …
としてもよい。
前述の第B1の実施の形態〜第B3の実施の形態では、アーク評価値決定モジュール120において、アーク評価値を推定していることになる。
推定するアーク評価値の教師データとしては、例えば、そのアークが文字の正解切り出し位置に相当している場合は1として、不正解切り出し位置に相当している場合は0としていた。
その場合、以下の2通りの最適化(重み決定)となっていることになる。
・クラス0とクラス1の2クラス分類問題として、クラス分類の誤りができるだけ小さくなるように重みを決定する。
・0〜1の間に存在する推定値と、教師データ(0又は1)との2乗誤差(絶対値誤差、クロスエントロピー等の誤差を示すような評価値であってもよい)を最小化するように重みを決定する。
アーク評価値と、文字切り出し位置の正確さは、複雑な関係になっており、単調な関係ではない。図15に、アーク候補決定モジュール1510、アーク評価値決定モジュール1520、文字切り出し位置決定モジュール1530の関係例を示す。
アーク候補決定モジュール1510は、アーク評価値決定モジュール1520と接続されている。
アーク評価値決定モジュール1520は、アーク候補決定モジュール1510、文字切り出し位置決定モジュール1530と接続されている。
文字切り出し位置決定モジュール1530は、アーク評価値決定モジュール1520と接続されている。
文字認識の処理において、まずアーク候補決定モジュール1510において、画像を受け付け、前述したように複数のアーク候補が抽出される。さらに、アーク評価値決定モジュール1520において、アークの評価値が決定され、文字切り出し位置決定モジュール1530において、複数のアーク候補の集合としての複数のパスの中から、最適なパスを選択されることによって、文字切り出し位置が確定する。なお、図1、図2の例に示したモジュール構成と比較すると、アーク候補決定モジュール1510は画像受付モジュール210、文字列抽出モジュール220、パス評価値決定モジュール100内の文字切り出し位置設定モジュール110、パス評価値決定モジュール100内の図示していないアーク特徴量抽出モジュールに該当し、アーク評価値決定モジュール1520はアーク評価値決定モジュール120に該当し、文字切り出し位置決定モジュール1530はパス評価値決定モジュール100内のアーク重み量乗算モジュール140、パス評価値決定モジュール100内の重み決定モジュール130、パス評価値決定モジュール100内の加算モジュール150、文字切り出しモジュール240に該当する。
第B1の実施の形態〜第B3の実施の形態では、アーク評価値決定モジュール120におけるアーク評価値決定を、アークの中だけを参照して行っていたが、第B4の実施の形態では、アーク評価値決定モジュール1520で用いられる重みを決定する例を示す。
以下、アーク評価値決定モジュール1520の構成は、第B1の実施の形態〜第B3の実施の形態の説明で述べたもののいずれかであるとする。
図16は、第B4の実施の形態の構成例についての概念的なモジュール構成図である。
第B4の実施の形態の画像処理装置は、図16の例に示すように、アーク候補決定モジュール1610、重み変更モジュール1620、アーク評価値決定モジュール1630、文字切り出し位置決定モジュール1640、切り出し位置正解個数算出モジュール1650を有している。なお、アーク候補決定モジュール1610は図15の例に示したアーク候補決定モジュール1510に該当し、アーク評価値決定モジュール1630は図15の例に示したアーク評価値決定モジュール1520に該当し、文字切り出し位置決定モジュール1640は図15の例に示した文字切り出し位置決定モジュール1530に該当する。
重み変更モジュール1620は、アーク評価値決定モジュール1630、切り出し位置正解個数算出モジュール1650と接続されており、切り出し位置正解個数算出モジュール1650によって算出された切り出し位置の正解個数に基づいて、1文字分の文字切り出し位置におけるアーク評価値決定モジュール1630で用いる重みを変更する。そして、現在の重みでの場合の正解個数から変更後の重みでの正解個数への変更量から次の重みを決定する。
文字切り出し位置決定モジュール1640は、アーク評価値決定モジュール1630、切り出し位置正解個数算出モジュール1650と接続されており、アーク評価値決定モジュール1630からのアーク評価値に基づいて、画像内に存在する文字画像を切り出す位置を決定し、その決定された切り出し位置を切り出し位置正解個数算出モジュール1650へ渡す。
切り出し位置正解個数算出モジュール1650は、重み変更モジュール1620、文字切り出し位置決定モジュール1640と接続されており、文字切り出し位置決定モジュール1640から切り出し位置と文字画像を切り出す位置の教師データを受け付け、文字切り出し位置決定モジュール1640からの切り出し位置と教師データを比較して、切り出し位置の正解個数を算出する。
まず、アーク候補決定モジュール1610は画像を受け付け、アーク候補を決定する。
アーク評価値決定モジュール1630が用いる初期の重みは、乱数であってもよいし、第B1の実施の形態〜第B3の実施の形態の説明に記載した手法で定めた重みであってもよい。いずれにせよ、重み変更モジュール1620では、初期の重みを保持する。
次に、アーク評価値決定モジュール1630はアーク評価値を決定する。そして、文字切り出し位置決定モジュール1640が、そのアーク評価値を用いて、文字切り出し位置を決定する。
決定後の文字切り出し位置は、切り出し位置正解個数算出モジュール1650に渡される。それとは別に、文字切り出し教師データが切り出し位置正解個数算出モジュール1650に入力される。
ここで、文字切り出し結果とは、例えば、画像中の文字の外接矩形の位置、サイズと、文字コードのペアからなっている。文字切り出し教師データも同様である。
切り出し位置正解個数算出モジュール1650では、
・教師文字:文字切り出し教師データ内に存在する、複数の文字(外接矩形の位置、サイズと、文字コードを持っている)
と、
・推定文字:文字切り出し位置決定モジュール1640で決定した文字
との比較を行う。
教師文字と推定文字の文字切り出し位置、サイズと文字コードが一致した個数を、切り出し位置正解個数算出モジュール1650では算出する。ここで、文字切り出し位置、サイズの一致の判定に関しては、微小なずれを許容するようにしてもよい。なお、文字コードの一致を判定せずに、文字切り出し位置、サイズの一致だけを判定してもよい。
重み変更モジュール1620では、正解個数と、重み変更モジュール1620内で保持している過去の重みを用いて、次の重みを決定する。
ここで、アーク評価値決定モジュール1630で用いる重み(すなわち全てのwやc)を並べた重みベクトルをWとする。Wの要素を(W1,W2,…)とする。
また、初期重みをW0とする。次の重みをW1とする。このように次々に重みを更新していく。正解個数が増加しなくなった時点や、正解個数の増加率が所定の値以下になった時点、又は、繰り返し回数が予め定められた回数となった時点で重み変更の処理を終了して、その時点の重みをアーク評価値決定モジュール1630に出力する。
まず、文字切り出し正解個数をAとする。Aは、Wの関数である。すなわち、A(W)と記すことができる。Aを最大化するようにWを決定すればよい。さて、現在の重みをWmとする。また、変更後の重みをWm+1とする。
重みの更新式は、(18)式となる。
<<1>>
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段
を具備することを特徴とする画像処理装置。
<<1>>の画像処理装置によれば、画像内に存在する文字画像を切り出す位置を決定する場合にあって、切り出す位置の候補の評価値が特異の値となった場合に、その特異な評価値だけによって切り出す位置が決定されてしまうことを防ぐことができる。
<<1>>に記載の前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
を具備し、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する
ことを特徴とする<<1>>に記載の画像処理装置。
<<2>>の画像処理装置によれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。
<<1>>に記載の前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段
を具備し、
前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する
ことを特徴とする<<1>>に記載の画像処理装置。
<<3>>の画像処理装置によれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。
<<2>>に記載の前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、
前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段
を具備し、
前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する
ことを特徴とする<<2>>に記載の画像処理装置。
<<4>>の画像処理装置によれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。
<<1>>に記載の前記第2の計算手段によって計算された評価値、<<2>>に記載の前記第4の計算手段によって計算された評価値、<<3>>に記載の前記第5の計算手段によって計算された評価値の和、又は<<4>>に記載の前記第6の計算手段によって計算された評価値の和に基づいて、画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における<<1>>に記載の前記第1の計算手段、又は<<2>>に記載の前記第3の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする<<1>>から<<4>>のいずれか一項に記載の画像処理装置。
<<5>>の画像処理装置によれば、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
コンピュータを、
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段
として機能させることを特徴とする画像処理プログラム。
<<6>>の画像処理プログラムによれば、画像内に存在する文字画像を切り出す位置を決定する場合にあって、切り出す位置の候補の評価値が特異の値となった場合に、その特異な評価値だけによって切り出す位置が決定されてしまうことを防ぐことができる。
また、収縮演算等を行って、ノイズを除去してから、外接矩形の大きさ(幅、高さ)を算出してもよい。
また、距離、大きさ(幅、高さ)の数値としては、画素数の他に、実際の長さ(m、cm、mm、inch等)を用いてもよい。
なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に追加する、入れ替えをする等も含む)、また、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…文字切り出し位置決定モジュール
120…アーク評価値決定モジュール
130…重み決定モジュール
140…アーク重み量乗算モジュール
150…加算モジュール
210…画像受付モジュール
220…文字列抽出モジュール
240…文字切り出しモジュール
250…文字認識モジュール
410…文字切り出し間距離算出モジュール
810…文字塊抽出モジュール
820…文字塊幅算出モジュール
910…線形重み付け加算モジュール
920…非線形関数モジュール
1111…線形重み付け加算モジュール1−1
1112…線形重み付け加算モジュール1−2
1121…非線形関数σ1−1モジュール
1122…非線形関数σ1−2モジュール
1130…線形重み付け加算モジュール2
1140…非線形関数σ2モジュール
111M…線形重み付け加算モジュール1−M
112M…非線形関数σ1−Mモジュール
1211…アーク評価値算出モジュール1
1212…アーク評価値算出モジュール2
121K…アーク評価値算出モジュールK
1220…アーク評価値加算モジュール
1311…線形重み付け加算モジュールj−1−1
1312…線形重み付け加算モジュールj−1−2
131M…線形重み付け加算モジュールj−1−Mj
1321…非線形関数σj−1−1モジュール
1322…非線形関数σj−1−2モジュール
132M…非線形関数σj−1−Mjモジュール
1330…線形重み付け加算モジュールj−2
1340…非線形関数σj−2モジュール
1510…アーク候補決定モジュール
1520…アーク評価値決定モジュール
1530…文字切り出し位置決定モジュール
1610…アーク候補決定モジュール
1620…重み変更モジュール
1630…アーク評価値決定モジュール
1640…文字切り出し位置決定モジュール
1650…切り出し位置正解個数算出モジュール
Claims (4)
- 画像から文字を切り出す位置の候補を設定する設定手段と、
前記設定手段によって設定された位置の候補によって切り出される画像の文字らしさを評価した値を決定する評価値決定手段と、
前記設定手段によって設定された位置の候補によって定められる距離に基づいて、重みを決定する重み決定手段と、
前記重み決定手段によって決定された重みに基づいて、前記評価値決定手段によって決定された評価値の重み付き和を算出する算出手段と、
前記算出手段によって算出された値に基づいて、前記画像から文字を切り出す切り出し手段と
を具備することを特徴とする画像処理装置。 - 前記重み決定手段は、前記設定手段によって設定された位置の候補の間にある画像の外接矩形の大きさに基づいて重みを決定する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記重み決定手段は、前記設定手段によって設定された位置の候補の間にある画像が複数である場合は、該画像の外接矩形の大きさの和に基づいて重みを決定する
ことを特徴とする請求項1又は2に記載の画像処理装置。 - コンピュータを、
画像から文字を切り出す位置の候補を設定する設定手段と、
前記設定手段によって設定された位置の候補によって切り出される画像の文字らしさを評価した値を決定する評価値決定手段と、
前記設定手段によって設定された位置の候補によって定められる距離に基づいて、重みを決定する重み決定手段と、
前記重み決定手段によって決定された重みに基づいて、前記評価値決定手段によって決定された評価値の重み付き和を算出する算出手段と、
前記算出手段によって算出された値に基づいて、前記画像から文字を切り出す切り出し手段
として機能させるための画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010265964A JP5673033B2 (ja) | 2010-11-30 | 2010-11-30 | 画像処理装置及び画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010265964A JP5673033B2 (ja) | 2010-11-30 | 2010-11-30 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118649A true JP2012118649A (ja) | 2012-06-21 |
JP5673033B2 JP5673033B2 (ja) | 2015-02-18 |
Family
ID=46501421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010265964A Expired - Fee Related JP5673033B2 (ja) | 2010-11-30 | 2010-11-30 | 画像処理装置及び画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5673033B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62190575A (ja) * | 1986-02-18 | 1987-08-20 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
JPH09161010A (ja) * | 1995-12-13 | 1997-06-20 | Nippon Telegr & Teleph Corp <Ntt> | オンライン手書き文字切り出し方法および装置 |
JPH11238098A (ja) * | 1997-12-19 | 1999-08-31 | Fujitsu Ltd | 文字列抽出装置及びパターン抽出装置 |
US6128606A (en) * | 1997-03-11 | 2000-10-03 | At&T Corporation | Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph |
US20040146216A1 (en) * | 2003-01-29 | 2004-07-29 | Lockheed Martin Corporation | Fine segmentation refinement for an optical character recognition system |
-
2010
- 2010-11-30 JP JP2010265964A patent/JP5673033B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62190575A (ja) * | 1986-02-18 | 1987-08-20 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
JPH09161010A (ja) * | 1995-12-13 | 1997-06-20 | Nippon Telegr & Teleph Corp <Ntt> | オンライン手書き文字切り出し方法および装置 |
US6128606A (en) * | 1997-03-11 | 2000-10-03 | At&T Corporation | Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph |
JPH11238098A (ja) * | 1997-12-19 | 1999-08-31 | Fujitsu Ltd | 文字列抽出装置及びパターン抽出装置 |
US20040146216A1 (en) * | 2003-01-29 | 2004-07-29 | Lockheed Martin Corporation | Fine segmentation refinement for an optical character recognition system |
Also Published As
Publication number | Publication date |
---|---|
JP5673033B2 (ja) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5699570B2 (ja) | 画像処理装置及び画像処理プログラム | |
US9280725B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
Ramirez et al. | Automatic recognition of square notation symbols in western plainchant manuscripts | |
US8787676B2 (en) | Image processing apparatus, computer readable medium storing program, and image processing method | |
JP5942361B2 (ja) | 画像処理装置及び画像処理プログラム | |
RU2613847C2 (ru) | Выявление китайской, японской и корейской письменности | |
JP5673033B2 (ja) | 画像処理装置及び画像処理プログラム | |
WO2023093124A1 (zh) | 一种车道线跟踪方法、装置、计算机设备、存储介质和计算机程序产品 | |
JP6303671B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5636766B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6260350B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2023188362A1 (ja) | 表画像認識装置、プログラム及び表画像認識方法 | |
JP6187307B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2010039810A (ja) | 画像処理装置及び画像処理プログラム | |
JP5949248B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6003375B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN116563869B (zh) | 页面图像文字处理方法、装置、终端设备和可读存储介质 | |
US20230111393A1 (en) | Information processing apparatus and method, and non-transitory computer-readable storage medium | |
JP2024006813A (ja) | 文字列検出装置及び文字列検出方法 | |
JP2016009235A (ja) | 情報処理装置及び情報処理プログラム | |
Plateau-Holleville et al. | French vital records data gathering and analysis through image processing and machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131024 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5673033 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |