JP2015166940A - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP2015166940A JP2015166940A JP2014041101A JP2014041101A JP2015166940A JP 2015166940 A JP2015166940 A JP 2015166940A JP 2014041101 A JP2014041101 A JP 2014041101A JP 2014041101 A JP2014041101 A JP 2014041101A JP 2015166940 A JP2015166940 A JP 2015166940A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- recognition
- character string
- cutout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 74
- 238000000605 extraction Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 238000000926 separation method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 235000002789 Panax ginseng Nutrition 0.000 description 1
- 240000004371 Panax ginseng Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
請求項1の発明は、画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、前記切り出し候補を対象として、文字認識を行う文字認識手段と、前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段を具備することを特徴とする画像処理装置である。
図2は、文字認識器210の処理例を示す説明図である。文字認識器210は、認識辞書220を有している。文字認識器210は、画像205を受け付け、文字コード295を出力する。つまり、文字認識器210は、文字が記入された画像205を入力して、文字コード295を出力する機能を持つ。例えば、図2の例に示すように、「あ」という文字が書かれた画像205を入力して、「あ」という文字に対応する文字コード295「0×3042」を出力する。
文字認識器210の内部では、認識辞書220を保持している。文字認識器210はこの認識辞書220を用いて認識を行う。認識辞書220の中には、「あ」という文字がどのような特徴を持っているかという情報を保持している。文字認識器210は、画像205の持つ特徴が最も合致する文字を選択して、その文字コード295を出力する。
具体的な文字認識器210や文字学習器310として、特許文献3等を挙げることができる。これに限らず、上記は一般の文字認識器、文字学習器でも同様である。
上記のように学習を行う場合、学習用データ、すなわち、文字が一つだけ記載された文字画像(以降、単文字画像ともいう)と、文字コードのペアを大量に準備する必要がある。図4は学習用データの例である。文字「あ」について、文字画像・文字コードペア402、文字画像・文字コードペア404等があり、文字「い」について、文字画像・文字コードペア406、文字画像・文字コードペア408等があり、文字「う」について、文字画像・文字コードペア410、文字画像・文字コードペア412等があるように、各文字について、単文字画像と文字コードの対応付けされたデータが必要である。
図5(a)に示す例は、ユーザーが統合処理を指定するものである。「認」という文字に対して、文字切り出し処理が「言」と「忍」とを誤って分離してしまった場合、この2つの文字画像を1つの単文字画像とするために、ユーザーの指示によって統合する。そして、統合後の文字に対し、「認」の文字コードを指定する。
図5(b)に示す例は、ユーザーが分離処理を指定するものである。「認識」という文字列に対して、文字切り出し処理が単文字画像「認識」と誤って統合してしまった場合、この1つの単文字画像を2つの単文字画像とするために、ユーザーの指示によって分離する。そして、分離後の個々の単文字画像に対し、「認」「識」の文字コードを指定する。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
図7の例に示す分割の例では、図8の例に示すように、4つのパターンで文字の切り出し位置を決定することができる。例えば、パターンAでは、図9の例に示す3つの文字画像に分割されることとなる。また、パターンBでは、文字分割画像710と文字分割画像720を1つの文字画像として、2つの文字画像に分割し、パターンCでは、文字分割画像710と文字分割画像720と文字分割画像730を1つの文字画像として分割し、パターンDでは、文字分割画像720と文字分割画像730を1つの文字画像として、2つの文字画像に分割する。
前述の例を用いて説明する。単文字認識モジュール120では、上記の4パターン全てに対して、文字認識を行う。このとき、文字認識候補を複数出力する。例えば、パターンAの一番左側の画像である図9(a)の例に示す文字分割画像710に対して、「言」「官」等の文字認識候補が出力される。
このように、画像105に対して、全文字切り出しパターンと各文字切り出し位置に対応する文字認識候補を出力する。各文字分割位置に対応する文字認識候補を図10に示す。図10に示す例では、一番左が文字分割位置に対応する文字画像であり、その右が第1文字認識候補、第2文字認識候補である。例えば、文字画像1010に対しては、第1文字認識候補「言」の文字コード、第2文字認識候補「官」の文字コードが対応している。例えば、これらを文字列パターンテーブル1100として生成する。図11は、文字列パターンテーブル1100のデータ構造例を示す説明図である。文字列パターンテーブル1100は、ID欄1110、文字切り出し画像数欄1120、文字切り出し画像(1)欄1130、文字認識候補数欄1140、第1文字画像認識候補(1)欄1150、第2文字画像認識候補(1)欄1160等を有している。ID欄1110は、文字切り出しのパターンを、本実施の形態で一意に識別するための情報(ID:IDentification)を記憶している。文字切り出し画像数欄1120は、文字切り出し画像数を記憶している。文字切り出し画像(1)欄1130は、文字切り出し画像(1)を記憶している。文字認識候補数欄1140は、文字認識候補数を記憶している。第1文字画像認識候補(1)欄1150は、第1文字画像認識候補(1)を記憶している。第2文字画像認識候補(1)欄1160は、第2文字画像認識候補(1)を記憶している。文字切り出し画像数欄1120に記憶された数をNとすると、文字切り出し画像(1)欄1130の欄がN個続き、文字認識候補数欄1140に記憶された数をMとすると、第1文字画像認識候補(1)欄1150の欄がM個、第2文字画像認識候補(1)欄1160の欄がM個続き、以下、同様に第N文字画像認識候補の欄の組が続く。
この文字列パターンテーブル1100が各文字の認識候補125として、文字列出力パターン作成モジュール130に渡される。
前述の例を用いて説明する。文字列出力パターン作成モジュール130では、文字列候補を作成する。
例えば、パターンAに対して、あり得る文字列パターンは、下記の8通りとなる。
(A1)言忍識
(A2)言忍繊
(A3)言志識
(A4)言志繊
(A5)官忍識
(A6)官忍繊
(A7)官志識
(A8)官志繊
パターンBでは、下記の4通りである。
(B1)認識
(B2)認繊
(B3)誌識
(B4)誌繊
パターンCでは、下記の2通りである。
(C1)認
(C1)語
パターンDでは、下記の4通りである。
(D1)言織
(D2)言繊
(D3)官織
(D4)官繊
文字切り出し候補が十分多くて、かつ、単文字認識候補が十分多ければ、全ての文字列パターンの中に、正解文字列が含まれる可能性は高まる。
文字切り出し位置決定モジュール140では、正解文字列138を入力し、正解文字列138と一致する文字列パターンを検索する。そして、その文字列パターンに対応する文字切り出し位置145を決定する。
前述の例では、正解文字列138は、「認識」である。(A1)から(D4)までの文字列パターンの中から、「認識」となるものを抽出する。
「認識」という文字列パターンを出力したときの、文字分割位置のパターンは、「パターンB」であることが分かる。もちろんのことながら、各文字列パターンに対して、文字分割位置のパターンを対応させておけばよい。
文字画像切り出しモジュール150では、文字切り出し位置145を用いて、画像105から単文字画像155を切り出す。こうして切り出された単文字画像155と、それに対応する文字コードを、認識辞書の学習用データとして使うことができる。
前述の例では、パターンBとなるような文字分割位置で、単文字画像155を切り出せばよい。図12は、切り出し結果の例を示す説明図である。切り出した結果は、単文字画像1210と単文字画像1220になる。単文字画像1210は、図7の例に示した文字分割画像710と文字分割画像720を組み合わせたものであり、単文字画像1220は、文字分割画像730と同じである。このようにして、文字画像切り出しモジュール150では、一文字単位で文字を切り出すことを行って、単文字画像1210に文字コード「認」を対応付け、単文字画像1220に文字コード「識」を対応付けて、それぞれ単文字画像155として出力する。ここで対応付ける文字コードは、正解文字列138から抽出したものであってもよいし、正解文字列138と合致する単文字認識モジュール120による認識結果であってもよい。
第1の実施の形態では、文字列出力パターン作成モジュール130では、全ての文字列パターンを作成した例を示したが、第2の実施の形態では、全てを作成する必要はない例を示す。
第2の実施の形態は、第1の実施の形態における文字列出力パターン作成モジュール130が作成する認識結果を要素とする文字列のデータ構造を、トレリス構造として、文字切り出し位置決定モジュール140は、ダイナミックプログラミング又はビタビ法を用いて、トレリス構造の中から、正解文字列に合致するパターンを抽出するものである。
図13は、文字切り出し候補位置の例を示す説明図である。画像「化学」を単文字画像候補1310、単文字画像候補1320、単文字画像候補1330に分割した例を示している。つまり、始点1305と文字切り出し候補位置(1)1315によって単文字画像候補1310が生成され、文字切り出し候補位置(1)1315と文字切り出し候補位置(2)1325によって単文字画像候補1320が生成され、文字切り出し候補位置(2)1325と終点1335によって単文字画像候補1330が生成される。この図13に示す例のような文字切り出し位置候補がある画像に対して、文字列の左端(始点1305)から右端(終点1335)につなげるパスを考える。図14の例に示すように、あらゆる文字切り出しパターンを通って、始点1305から終点1335につながるパスの全体を形成することができる。図14は、文字列内の文字切り出し候補パスの例を示す説明図である。単文字画像候補1410の文字コードは、始点1305から文字切り出し候補位置(1)1315までの単文字画像の文字コードであり、単文字画像候補1420の文字コードは、文字切り出し候補位置(1)1315から文字切り出し候補位置(2)1325までの単文字画像の文字コードであり、単文字画像候補1430の文字コードは、始点1305から文字切り出し候補位置(2)1325までの単文字画像の文字コードであり、単文字画像候補1440の文字コードは、始点1305から終点1335までの単文字画像の文字コードであり、単文字画像候補1450の文字コードは、文字切り出し候補位置(1)1315から終点1335までの単文字画像の文字コードであり、単文字画像候補1460の文字コードは、文字切り出し候補位置(2)1325から終点1335までの単文字画像の文字コードである。このように、図13に示す例は、グラフ構造で表すことができる。
図14に示す例において、始点1305から終点1335に向かうパスを全て抽出することができている。
図14に示す例において、「イ」(単文字画像候補1410)のように文字が切り出されている場合を考える。この切り出しパターンに対して、複数の文字候補を得ることができる。他の切り出し文字に対しても同様である。全ての文字候補を、ノードとして考える。図14の例に示す各文字「イ」(単文字画像候補1410)とか、「ヒ」(単文字画像候補1420)とか、「化」(単文字画像候補1430)とか、それぞれに対し複数のノードが存在していることになる。ノードとノードを間を結ぶ線をリンクと呼ぶこととする。
各ノードにおいて、左側に向かうリンクを一つに限定していけばよい。限定の方法は、「正解文字列」に合致するリンクのみを限定する。
今、始点ノードからノードx,y,zまでのパスが確定しているとする。この場合、始点ノードからノードx,y,zまでのパスに対応する文字列も決定していることになる。次に、例えば、ノードXに左側に向かうリンクを一つに限定する。
ノードXには、ノードx,y,zからのリンクがある。これらを一つずつ試す。例えば、x−Xのリンクとする。この場合に、始点からノードXまでのパスに対応する文字列が決定される。この文字列が、「正解文字列」の一部になっているかどうかを検証する。
ノードx,y,zからのパスのうち、正解文字列の一部になっているものが一つだけあれば、そのノードに向かうリンクを採用する。
ノードx,y,zからのパスのうち、正解文字列の一部になっているものが複数あれば、最も正解文字列との合致文字数が多いリンクを採用する。
このようにすることによって、全ての文字列パターンを生成することなく、ノードを決定できる。ノードを決定できれば、そのノードに対応する文字切り出し位置(文字分割位置)も決定できる。
図16は、文字列内の文字切り出し候補パスの例を示す説明図である。例えば、図16の例に示す太線のように、始点1305から終点1335までのノードを決定できれば(始点1305、文字切り出し候補位置(2)1325、終点1335の各ノードを通るパス)、文字分割位置を、図17の例に示すように、単文字画像候補1430と単文字画像候補1460に決定できて、文字を一文字毎に切り取ることができる。
以上のような方法をダイナミックプログラミング又はビタビ法という。
図18は、第3の実施の形態の構成例についての概念的なモジュール構成図である。
第1の実施の形態、第2の実施の形態では、文字列出力パターンの中に正解文字列138を含ませるためには、各文字切り出し候補に対する文字認識候補として、非常に多くの文字候補数を出力する必要がある。
単文字認識モジュール120では複数の候補を出力するが、その候補の100番目の候補として、やっと正解文字列138に存在する文字が出現するとする。
そのような場合に対しても、文字画像を切り出すことができるようにするためには、各文字切り出し位置に対して、100個のノードを生成しなければならない(第2の実施の形態の場合)。第1の実施の形態の場合は、極めて多くの文字列パターンを生成しなければならなくなる。
例えば、図19の例に示すように、単文字認識モジュール120に正解文字列138を入れない場合には、各文字切り出し位置に対応する文字候補が複数ある。例えば、始点1305から終点1335のパスにあるものは、単文字画像候補1440Aの文字コード、・・・、単文字画像候補1440Zの文字コードのように複数あることになる。この文字候補(文字コード)の一つ一つがノードとなるため、パスを設定する処理量が多い。図20の例に示されるように、各文字切り出し位置に対応する文字候補(つまり、単文字認識モジュール1820による認識結果)を2個(この場合は、単文字認識モジュール1820に入力される正解文字列1838は「化学」(文字コード列)であるため、「化」と「学」のみ)に限定することによって、評価を行うパスの数が減少して、処理量を減らすことができる。
文字切り出し候補決定モジュール110は、単文字認識モジュール1820と接続されている。文字切り出し候補決定モジュール110は、画像105を受け付け、単文字認識モジュール1820に文字切り出しパターンに対応する画像115を渡す。
単文字認識モジュール1820は、文字切り出し候補決定モジュール110、文字列出力パターン作成モジュール130と接続されている。単文字認識モジュール1820は、正解文字列1838を受け付け、文字切り出し候補決定モジュール110より文字切り出しパターンに対応する画像115を受け取り、文字列出力パターン作成モジュール130に各文字の認識候補125を渡す。単文字認識モジュール1820は、認識結果を、正解文字列1838に存在する文字に限定する。具体的には、単文字認識モジュール1820に対して、正解文字列1838を与える。そして、正解文字列1838に存在する文字だけを単文字認識モジュール1820から出力するようにする。
例えば、正解文字列1838が「認識」の場合、単文字認識モジュール1820では、「認」と「識」のみを出力するようにする。もちろんのことながら、その正解文字列1838内の文字が、文字認識候補に含まれていない場合は、出力なしとする。
このようにすることで、ノード数(第2の実施の形態に適用する場合)の数や、文字列パターン数(第1の実施の形態に適用する場合)を減らすこととなる。
文字切り出し位置決定モジュール140は、文字列出力パターン作成モジュール130、文字画像切り出しモジュール150と接続されている。文字切り出し位置決定モジュール140は、正解文字列1838を受け付け、文字列出力パターン作成モジュール130より文字列と、その文字列に対応する文字切り出し位置135を受け取り、文字画像切り出しモジュール150へ文字切り出し位置145を渡す。
文字画像切り出しモジュール150は、文字切り出し位置決定モジュール140と接続されている。文字画像切り出しモジュール150は、画像105を受け付け、文字切り出し位置決定モジュール140より文字切り出し位置145を受け取り、単文字画像155を出力する。
複数のパスで正解文字列1838と合致する場合には、最も文字列として妥当なパスを選択すればよい。
正解文字列1838と合致するパスが複数ある場合には、複数のパスの中から、パスの評価値を算出して、最大評価値となるパスを選択すればよい。
そのような方式として、例えば、特許文献4、特許文献5、特許文献6を用いればよい。
図21は、第4の実施の形態の構成例についての概念的なモジュール構成図である。
画像処理装置2100は、文字切り出し候補決定モジュール110、単文字認識モジュール2120、文字列出力パターン作成モジュール130、文字切り出し位置決定モジュール140、文字画像切り出しモジュール150を有している。第3の実施の形態に、さらに認識確度閾値2138を与え、単文字認識モジュール2120は、その認識確度閾値2138と正解文字列1838を用いて、各文字の認識候補125を出力する。
文字切り出し候補決定モジュール110は、単文字認識モジュール2120と接続されている。文字切り出し候補決定モジュール110は、画像105を受け付け、単文字認識モジュール2120に文字切り出しパターンに対応する画像115を渡す。
例えば、第3の実施の形態では、全ての文字分割位置に対して、文字候補が、「認」と「識」の2種類だけとなる。図22の例に示すような文字認識結果となる。このように、文字画像候補に対して、文字認識結果が「認」と「識」の2種類だけとなる場合には、文字認識結果が正解文字列と一致、すなわち、「認識」となる文字分割パターンが多く存在してしまうことになる。このようなパターンの中から、予め極端に文字切り出し位置が失敗した場合等を取り除くことで、最終的な文字切り出し位置精度を高め、かつ、文字列パターン数を減らすこととなる。
例えば、認識確度が低い文字候補を除いた結果が図23の例に示すようになり、あり得る文字列パターン数を削減できる。図23に示す例では、認識確度閾値2138以上の認識確度が無い場合を「×」と記載している。
文字切り出し位置決定モジュール140は、文字列出力パターン作成モジュール130、文字画像切り出しモジュール150と接続されている。文字切り出し位置決定モジュール140は、正解文字列1838を受け付け、文字列出力パターン作成モジュール130より文字列と、その文字列に対応する文字切り出し位置135を受け取り、文字画像切り出しモジュール150へ文字切り出し位置145を渡す。
文字画像切り出しモジュール150は、文字切り出し位置決定モジュール140と接続されている。文字画像切り出しモジュール150は、画像105を受け付け、文字切り出し位置決定モジュール140より文字切り出し位置145を受け取り、単文字画像155を出力する。
なお、図21に示す例では、正解文字列1838と認識確度閾値2138を用いているが、認識確度閾値2138だけでもよい。つまり、第1の実施の形態、第2の実施の形態に認識確度閾値2138を与えるようにしてもよい。この場合、認識確度閾値2138以上の認識確度を持つ文字認識結果を用いることとなる。
図24は、第5の実施の形態の構成例についての概念的なモジュール構成図である。第5の実施の形態では、以上に述べた第1〜第4の実施の形態を用いて、実際の運用として学習用の文字画像切り出しを行う例を示す。
画像処理装置2400は、スキャナ2410、文字認識モジュール2420、認識結果表示モジュール2430、修正文字列受付モジュール2440、学習用画像作成モジュール2450、文字認識学習モジュール2460を有している。
スキャナ2410は、紙文書2405を受け付け、文字認識モジュール2420、学習用画像作成モジュール2450と接続されている。スキャナ2410は、文字(手書き文字、活字文字等)が記載された紙文書2405をスキャナ2410で電子化する。ここで、電子化とはビットマップの画像情報となっていることを示す。スキャナ2410の他にカメラであってもよい。
文字認識モジュール2420は、スキャナ2410、認識結果表示モジュール2430と接続されている。文字認識モジュール2420は、電子化された画像データを文字認識する。
修正文字列受付モジュール2440は、学習用画像作成モジュール2450と接続されている。修正文字列受付モジュール2440は、認識結果表示モジュール2430による表示を見た操作者の操作によって、正解文字列(前述の正解文字列138、正解文字列1838)を受け付ける。つまり、表示装置に表示された文字認識結果が誤っていた場合、操作者は、画像処理装置2400のキーボード(タッチパネル等であってもよい)を用いて、正しい結果になるように修正を行う。この修正結果を、正解文字列(前述の正解文字列138、正解文字列1838)とする。
学習用画像作成モジュール2450は、スキャナ2410、修正文字列受付モジュール2440、文字認識学習モジュール2460と接続されている。学習用画像作成モジュール2450は、修正文字列受付モジュール2440が受け付けた正解文字列と電子化された画像データを入力して、学習用画像を作成する。学習用画像作成モジュール2450として、前述の第1〜4の実施の形態を用いる。
文字認識学習モジュール2460は、学習用画像作成モジュール2450と接続されており、認識辞書2465を出力する。文字認識学習モジュール2460は、作成した結果の学習用画像と文字コードのペアを用いて、文字認識学習を行う。文字認識学習の結果、認識辞書2465が出力される。
この場合にあっては、操作者の操作は、正解文字列の入力であって、図5を用いて前述した統合処理、分離処理の確認、指示は不要である。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
105…画像
110…文字切り出し候補決定モジュール
115…文字切り出しパターンに対応する画像
120…単文字認識モジュール
125…各文字の認識候補
130…文字列出力パターン作成モジュール
135…文字列と、その文字列に対応する文字切り出し位置
138…正解文字列
140…文字切り出し位置決定モジュール
145…文字切り出し位置
150…文字画像切り出しモジュール
155…単文字画像
1800…画像処理装置
1820…単文字認識モジュール
1838…正解文字列
2100…画像処理装置
2120…単文字認識モジュール
2138…認識確度閾値
2400…画像処理装置
2405…紙文書
2410…スキャナ
2420…文字認識モジュール
2430…認識結果表示モジュール
2440…修正文字列受付モジュール
2450…学習用画像作成モジュール
2460…文字認識学習モジュール
2465…認識辞書
Claims (8)
- 画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、
前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
を具備することを特徴とする画像処理装置。 - 画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する切り出し候補の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる切り出し候補を決定する決定手段と、
文字認識用辞書の要素として、前記決定手段によって決定された切り出し候補の単文字画像と該切り出し候補に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
を具備することを特徴とする画像処理装置。 - 前記作成手段が作成する認識結果を要素とする文字列のデータ構造は、トレリス構造であって、
前記位置決定手段は、ダイナミックプログラミング又はビタビ法を用いて、トレリス構造の中から、正解文字列に合致するパターンを抽出する
ことを特徴とする請求項1又は2に記載の画像処理装置。 - 前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定する
ことを特徴とする請求項1から3のいずれか一項に記載の画像処理装置。 - 前記文字認識手段は、認識結果を、認識確度が閾値より高い又は以上の文字に限定する
ことを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。 - 前記文字認識手段による認識結果を表示する表示手段と、
前記表示手段による表示を見た操作者の操作による前記正解文字列を受け付ける受付手段
をさらに具備することを特徴とする請求項1から5のいずれか一項に記載の画像処理装置。 - コンピュータを、
画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、
前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
として機能させるための画像処理プログラム。 - コンピュータを、
画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する切り出し候補の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる切り出し候補を決定する決定手段と、
文字認識用辞書の要素として、前記決定手段によって決定された切り出し候補の単文字画像と該切り出し候補に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
として機能させるための画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014041101A JP6260350B2 (ja) | 2014-03-04 | 2014-03-04 | 画像処理装置及び画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014041101A JP6260350B2 (ja) | 2014-03-04 | 2014-03-04 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015166940A true JP2015166940A (ja) | 2015-09-24 |
JP6260350B2 JP6260350B2 (ja) | 2018-01-17 |
Family
ID=54257780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014041101A Expired - Fee Related JP6260350B2 (ja) | 2014-03-04 | 2014-03-04 | 画像処理装置及び画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6260350B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021056750A (ja) * | 2019-09-30 | 2021-04-08 | キヤノン株式会社 | データ入力支援装置、データ入力支援方法及びプログラム |
CN112712084A (zh) * | 2019-10-24 | 2021-04-27 | 富士施乐株式会社 | 信息处理装置、存储介质及信息处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218918A (ja) * | 1996-02-14 | 1997-08-19 | Canon Inc | 文字認識装置及びその制御方法 |
JP2007004584A (ja) * | 2005-06-24 | 2007-01-11 | Toshiba Corp | 情報処理装置 |
JP2013047887A (ja) * | 2011-08-29 | 2013-03-07 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
-
2014
- 2014-03-04 JP JP2014041101A patent/JP6260350B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218918A (ja) * | 1996-02-14 | 1997-08-19 | Canon Inc | 文字認識装置及びその制御方法 |
JP2007004584A (ja) * | 2005-06-24 | 2007-01-11 | Toshiba Corp | 情報処理装置 |
JP2013047887A (ja) * | 2011-08-29 | 2013-03-07 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021056750A (ja) * | 2019-09-30 | 2021-04-08 | キヤノン株式会社 | データ入力支援装置、データ入力支援方法及びプログラム |
JP7387363B2 (ja) | 2019-09-30 | 2023-11-28 | キヤノン株式会社 | データ入力支援装置、データ入力支援方法及びプログラム |
CN112712084A (zh) * | 2019-10-24 | 2021-04-27 | 富士施乐株式会社 | 信息处理装置、存储介质及信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6260350B2 (ja) | 2018-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6119952B2 (ja) | 画像処理装置及び画像処理プログラム | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
RU2641225C2 (ru) | Способ выявления необходимости обучения эталона при верификации распознанного текста | |
US20120134591A1 (en) | Image processing apparatus, image processing method and computer-readable medium | |
US9280725B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
US9626738B2 (en) | Image processing apparatus, image processing method, and storage medium | |
US20150213332A1 (en) | Image processing apparatus, non-transitory computer readable medium, and image processing method | |
JP5942361B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6260350B2 (ja) | 画像処理装置及び画像処理プログラム | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
JP5357711B2 (ja) | 文書処理装置 | |
JP7021496B2 (ja) | 情報処理装置及びプログラム | |
US9009026B2 (en) | Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
US11972208B2 (en) | Information processing device and information processing method | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
US20150043832A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP2022003446A (ja) | 情報処理装置 | |
JP2014081867A (ja) | 情報処理装置及び情報処理プログラム | |
JP6187307B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6575158B2 (ja) | 情報処理装置及び情報処理プログラム | |
US11574490B2 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program | |
JP6003677B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6003375B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6260350 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |