JP7215242B2 - 画像処理装置及びプログラム - Google Patents

画像処理装置及びプログラム Download PDF

Info

Publication number
JP7215242B2
JP7215242B2 JP2019042188A JP2019042188A JP7215242B2 JP 7215242 B2 JP7215242 B2 JP 7215242B2 JP 2019042188 A JP2019042188 A JP 2019042188A JP 2019042188 A JP2019042188 A JP 2019042188A JP 7215242 B2 JP7215242 B2 JP 7215242B2
Authority
JP
Japan
Prior art keywords
image
generated
processing
input
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019042188A
Other languages
English (en)
Other versions
JP2020144735A (ja
Inventor
真太郎 安達
聡之 山口
邦和 上野
洋 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019042188A priority Critical patent/JP7215242B2/ja
Publication of JP2020144735A publication Critical patent/JP2020144735A/ja
Application granted granted Critical
Publication of JP7215242B2 publication Critical patent/JP7215242B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置及びプログラムに関する。
画像に対して文字認識等の処理を行う場合に、その画像から、その処理の妨げとなる要素(以下、妨げ要素と呼ぶ)を除去する前処理を行うことがある。妨げ要素は、前処理に対する本体の処理(例えば文字認識)の精度(すなわち正解率)を低下させる要素である。
例えばFAX送信やコピー等の繰り返し、筆記具等による記入の重なり、透かしやステガノグラフィ等の地紋の重なり、あるいはそれらの混合等により、本来の処理の対象である画像が激しく劣化する場合がある。このような劣化により、本来の画像から変化した部分が妨げ要素の一例である。
また、帳票のように記入枠や罫線等を含んだ文書から、人間が記入した文字のみを文字認識するシステムでは、記入枠や罫線等が文字と重なる等により、文字認識の精度の低下をもたらす場合がある。この場合、記入枠や罫線等が妨げ要素となる。
妨げ要素を除く前処理としては、例えば画像の二値化、画像から特定の色の部分を除去する処理(カラードロップアウトとも呼ばれる)等が知られている。二値化やカラードロップアウトにより、薄い地紋や罫線等、あるいは特定色の地紋や罫線等が除去又は低減される。
また、前処理にニューラルネットワーク等の機械学習技術を用いることも行われている。
特許文献1には、撮影した文書に対するOCR(光学文字認識)処理において、前処理、レイアウト分析、文字認識処理等を、ニューラルネットワークを利用して行うシステムが開示されている。
特開2011-008802号公報
妨げ要素を含む入力画像が入力され、この入力画像から妨げ要素を低減された生成画像を生成するよう学習した生成手段を考える。このような生成手段を構成するには、妨げ要素を含まない正解画像と、その正解画像に妨げ要素を加えた入力画像と、のペアを学習データとして生成手段に与え、生成手段が入力画像から生成する生成画像が正解画像に近くなるよう生成手段を学習させるという方法が考えられる。この学習の処理では、生成手段がターゲットとしている種類の文書のサンプル群を学習データとして生成手段に学習させる。
このように学習させた生成手段に対して、ターゲットとは別の種類の文書の画像が入力される場合があり得る。このような場合、生成手段は、その別の種類の文書について学習していないので、生成手段が生成する生成画像が、本体処理に適さないものになる可能性がある。例えば、A社の発注伝票を学習した生成手段にB社の発注伝票の画像が入力された場合、B社の発注伝票からの罫線や汚れ等の妨げ要素の除去がうまくなされず、本体処理の一例である文字認識に誤りをもたらす可能性がある。
本発明は、主たる生成手段が学習していない種類の入力画像が入力される可能性がある場合に、入力画像をその主たる生成手段に入力して生成画像を生成させる方式よりも、その入力画像から本体処理に適した生成画像を生成できる蓋然性を高めることを目的とする。
請求項1に係る発明は、入力画像から主たる生成画像を生成する主生成手段と、前記入力画像から前記主生成手段とは異なる方法で従たる生成画像を生成する、少なくとも1つの従生成手段と、処理対象として入力された画像に対して本体処理を実行する本体処理手段と、前記主たる生成画像及び前記少なくとも1つの従生成手段の各々が生成した前記従たる生成画像からなる一群の生成画像のうちの少なくとも1つの生成画像が入力され、当該生成画像が前記本体処理に適しているか否かの識別を実行し、前記一群の生成画像のうち前記本体処理に適していると識別した1つの生成画像を前記処理対象として前記本体処理手段に入力する識別手段と、を含み、前記主生成手段と前記識別手段との組は、敵対的生成ネットワークとして構成されており、前記主生成手段は、正解画像と前記正解画像に前記本体処理の妨げとなる妨げ要素が加わった学習用画像とのペア群を用いて、前記学習用画像から前記正解画像を前記主たる生成画像として生成する学習を済ませており、前記識別手段は、前記ペア群を用いて、前記主生成手段が前記学習用画像から生成した前記主たる生成画像と前記正解画像とを識別する学習を済ませており、前記識別手段は、入力された前記生成画像が前記正解画像であると識別した場合に、当該生成画像が前記本体処理に適していると識別する、画像処理装置である。
請求項2に係る発明は、前記入力画像を解析することにより、前記主生成手段及び前記少なくとも1つの従生成手段からなる一群の生成手段を動作させる順序のうち少なくとも最初から所定番目までの順序を求め、求めた順序に従って動作させた前記生成手段に対して前記入力画像を入力し、この入力に応じて当該生成手段が生成した前記生成画像が前記識別手段に入力されるようにし、この入力に応じて前記識別手段が前記処理対象を前記本体処理手段に入力した場合には、前記一群の生成手段のうち、前記順序において当該生成手段の後の生成手段は動作させずに前記入力画像についての処理を終了する制御を行う順序制御手段、を更に含む請求項1に記載の画像処理装置である。
請求項3に係る発明は、前記ペア群に含まれる前記学習用画像は、所定の種類の文書の様々なサンプルを読み取ることにより得られた画像であり、前記順序制御手段は、前記所定の種類の文書の画像と、別の種類の文書の画像とを識別する学習を行ったものであり、前記入力画像が前記所定の種類の文書の画像であると識別した場合には、前記順序において、前記主生成手段を最初のものとする、請求項2に記載の画像処理装置である。
請求項4に係る発明は、前記本体処理手段が前記処理対象として入力された前記生成画像に対して実行した前記本体処理の結果をユーザに提示すると共に、前記ユーザから前記結果に対する修正の入力を受け付ける修正受付手段と、前記識別手段を追加的に学習させる追加学習手段と、を含み、前記追加学習手段は、前記修正受付手段が前記結果に対して受け付けた前記修正が所定の条件を満たす場合に、前記処理対象として入力された前記生成画像が前記正解画像ではないと識別するよう前記識別手段を学習させる、請求項1~3のいずれか1項に記載の画像処理装置である。
請求項5に係る発明は、前記所定の条件は、前記修正受付手段が受け付けた前記修正が、前記本体処理の誤りを原因として起こりやすいものとして予め登録されている種類の修正に該当しない、という条件である、請求項4に記載の画像処理装置である。
請求項6に係る発明は、コンピュータを、入力画像から主たる生成画像を生成する主生成手段、前記入力画像から前記主生成手段とは異なる方法で従たる生成画像を生成する、少なくとも1つの従生成手段、処理対象として入力された画像に対して本体処理を実行する本体処理手段、前記主たる生成画像及び前記少なくとも1つの従生成手段の各々が生成した前記従たる生成画像からなる一群の生成画像のうちの少なくとも1つの生成画像が入力され、当該生成画像が前記本体処理に適しているか否かの識別を実行し、前記一群の生成画像のうち前記本体処理に適していると識別した1つの生成画像を前記処理対象として前記本体処理手段に入力する識別手段、として機能させるためのプログラムであって、前記主生成手段と前記識別手段との組は、敵対的生成ネットワークとして構成されており、前記主生成手段は、正解画像と前記正解画像に前記本体処理の妨げとなる妨げ要素が加わった学習用画像とのペア群を用いて、前記学習用画像から前記正解画像を前記主たる生成画像として生成する学習を済ませており、前記識別手段は、前記ペア群を用いて、前記主生成手段が前記学習用画像から生成した前記主たる生成画像と前記正解画像とを識別する学習を済ませており、前記識別手段は、入力された前記生成画像が前記正解画像であると識別した場合に、当該生成画像が前記本体処理に適していると識別する、プログラムである。
請求項1又は6に係る発明によれば、主生成手段が学習していない種類の入力画像が入力される可能性がある場合に、入力画像をその主生成手段に入力して生成画像を生成させる方式よりも、その入力画像から本体処理に適した生成画像を生成できる蓋然性を高めることができる。
請求項2に係る発明によれば、主生成手段及び少なくとも1つの従生成手段からなる一群の生成手段を固定的な順序で動作させる方式と比べて、入力画像に対して本体処理手段による本体処理が実行されるのを早めることができる。
請求項3に係る発明によれば、主生成手段が学習した学習用画像に類似する画像をいずれかの従生成手段に先に処理させる場合よりも、入力画像に対して本体処理手段による本体処理が実行されるのを早めることができる。
請求項4に係る発明によれば、識別手段に追加的に学習させない場合に比べて、学習用画像群に類似しない入力画像が入力された場合の識別手段の識別を、本体処理の結果が修正を受けにくい方向に学習させることができる。
請求項5に係る発明によれば、本体処理の誤りを原因とする処理結果の修正により識別手段が誤った方向に学習することを防ぐことができる。
第1の実施形態の画像処理装置の構成を例示する図である。 第1前処理部及び識別部として用いられる生成器及び識別器を学習させるためのGANの構成を例示する図である。 第2の実施形態の画像処理装置の構成を例示する図である。 第3の実施形態の画像処理装置の構成を例示する図である。
<第1の実施形態>
この実施形態の画像処理装置を、図1に示す。
図1に示す画像処理装置は、入力画像に対して本体処理部110により何らかの本体処理を行うための装置である。本体処理は、例えばOCR(光学文字認識)や顔認識等といった処理である。本体処理部110は、本体処理手段の一例である。入力画像の中には、そのままでは本体処理部110の処理に適さないもの、言い換えればそのままその処理を適用すると十分な精度の処理結果が得られないものが少なくない。これは、入力画像の中に、本体処理部110の行う処理に対する妨げ要素が含まれているからであると考えられる。すなわち、妨げ要素は、入力画像が含む要素のうち、本体処理部110の処理の精度を低下させる要素のことである。なお、ここでいう「要素」は、入力画像を構成する様々な形態の部分又は成分等のことである。例えば、入力画像中の特定の一以上の画素からなる部分や、入力画像の各画素が持っている色成分、入力画像が含む周波数成分等が、要素の例である。
このような妨げ成分の影響を低減して本体処理部110の処理の精度を向上させるために、図1に例示するシステムでは、入力画像を、N個(Nは2以上の整数)の前処理部100のいずれか、すなわち第1前処理部100-1、第2前処理部100-2、第3前処理部100-3、・・・、又は第N前処理部100-Nで前処理することで、入力画像中に含まれる妨げ要素を除去又は低減する。第1前処理部100-1、第2前処理部100-2、第3前処理部100-3、・・・、第N前処理部100-Nは、互いを区別する必要がない場合には、前処理部100と呼ぶこととする。それらN個の前処理部100は、それぞれ前処理結果の画像である生成画像を出力する。生成画像が含む妨げ要素は、入力画像の妨げ成分よりも少ない又は弱い。本体処理部110は、その生成画像に対して、自身の処理を実行することにより、処理結果を生成し出力する。
N個の前処理部100のうち、第1前処理部100-1は、GAN(Generative adversarial networks:敵対的生成ネットワーク)を用いて構成されている。すなわち、GANに、あらかじめ用意した学習データ群を学習させ、この学習が済んだGANの生成器を第1前処理部100-1として用いる。
ここで、GANの学習により第1前処理部100-1を構成する仕組みについて、図2を参照して説明する。図2に示すGANは、生成器(ジェネレータ)10と識別器(ディスクリミネータ)20とを含む。
このGANは、あらかじめ用意した学習データ50のセットを用いて学習する。このセットに含まれる個々の学習データ50は、学習用画像52と正解画像54のペアを含む。学習用画像52は妨げ要素を含んだ画像である。学習用画像52とペアになる正解画像54は、その学習用画像52から妨げ要素群を除去して得られる画像である。言い換えれば、正解画像54は、本体処理部110の処理の妨げとなる妨げ要素を含まない画像であり、これに対応する学習用画像52は、その正解画像54に対して何らかの妨げ要素を加えることにより得られる画像である。例えば、実際の帳票を読み取ることにより得られる画像が学習用画像52の一例であり、その学習用画像52から文字認識の妨げとなる罫線や汚れ等を除去することで得られる画像が正解画像54の一例である。
生成器10は、学習用画像52から生成画像56を生成するニューラルネットワークである。生成画像56は、学習用画像52に対応する正解画像54を推定した画像である。すなわち、生成器10は、妨げ要素を含んだ学習用画像52から、妨げ要素を含まない正解画像54に近い生成画像56を生成する。生成器10は、多数の学習用画像52を用いて学習することで、より正解画像54に近い生成画像56を生成できるようになる。
識別器20は、入力された画像が、学習用画像52に対応する正解画像54、及び学習用画像52から生成器10が生成した生成画像56、のうちのいずれであるかを識別するニューラルネットワークである。学習制御部40は、正解画像54又は生成画像56を識別器20に入力する。これに応じて、識別器20は、入力された画像が正解画像54(言い換えれば、本物:real)又は生成画像56(言い換えれば偽物:fake)のいずれであるかを識別し、その識別結果を示す信号を出力する。また、識別器20は、その識別結果の確信度を出力してもよい。確信度とは、その識別結果が正解である蓋然性(すなわち確からしさの度合い)を示す評価値である。
識別結果判定部22は、識別器20の識別結果が正しいか誤りかを判定する。例えば、識別器20に入力された画像が正解画像54であり、これに対する識別器20の識別結果が「正解画像」である場合には、その識別結果は正しい。また例えば、識別器20に入力された画像が生成画像56であり、これに対する識別器20の識別結果が「正解画像」である場合には、その識別結果は誤りである。識別結果判定部22には、識別器20に入力された画像が正解画像54と生成画像56のいずれであるかを示す解答情報が与えられ、その解答情報を参照することで、識別器20の識別結果が正しいか誤りかを判定する。識別結果判定部22の判定結果(すなわち、正しいか誤りかを示す情報)から求められる損失信号が識別器20及び生成器10にフィードバックされる。識別器20及び生成器10は、この損失信号に基づいて学習を行う。また、損失信号に加え、又はその代わりに、確信度の情報を、学習のために識別器20及び生成器10にフィードバックしてもよい。なお、識別結果判定部22の判定結果のフィードバックによる識別器20及び生成器10の学習の手法は、従来のGANで用いられているものと同様のものでよい。
画像比較部30は、正解画像54と、この正解画像54に対応する学習用画像52から生成器10が生成した生成画像56とを比較し、比較結果を示す信号を生成器10にフィードバックする。比較結果を示す信号は、例えば正解画像54と生成画像56の差分を示す信号である。生成器10は、前述した識別結果判定部22からの損失信号と、この画像比較部30からの比較結果の信号とに基づいて学習を行う。この学習も従来技術を用いればよい。
学習制御部40は、生成器10及び識別器20の学習を制御する。学習制御部40は、学習データ50を読み込み、これに含まれる学習用画像52を生成器10に、学習用画像52及び正解画像54を識別器20に入力する。また学習制御部40は、この入力に応じて識別結果判定部22及び画像比較部30が出力する信号を、生成器10及び識別器20にフィードバックすることで、生成器10及び識別器20を学習させる。生成器10及び識別器20は、フィードバックされた信号に応じて、各々のニューラルネットワークのノード間の結合の重みパラメータを更新することにより、学習を行う。
GANを構成する生成器10及び識別器20は、前者が教師データ(正解画像54)になるべく近い偽物(生成画像56)を生成しようとし、後者がその偽物を正しく識別しようとするという形で、いわば互いに切磋琢磨しながら学習を進める。
この画像処理装置の学習には、例えば「pix2pix」というアルゴリズム(Phillip Isola他による論文「Image-to-Image Translation with Conditional Adversarial Networks」、Berkeley AI Research (BAIR) Laboratory, UC Berkeley参照)と同様の方式を用いてもよい。また、他の例として、Cycle GANと呼ばれるGANと同様の仕組みを用いてもよい。Cycle GANを用いた場合、入力画像のすべてに正解画像が用意されていない場合でも学習が可能である。
図2に例示した画像処理装置により学習した生成器10は、入力される学習用画像52から、正解画像54に近い生成画像56を生成することができる。同様に、学習に用いた学習データ50のセットに含まれる学習用画像52群に対して傾向がある程度近い画像が入力された場合には、生成器10は、その画像から、妨げ要素群が除去又はよく低減された生成画像を生成する。この生成画像は、本体処理部110が行う本体処理に適したものとなっている。
学習データ50は、例えばある企業のある帳票というように所定の種類の紙文書をスキャナ等で光学的に読み取ることにより得られた画像である。
しかし、生成器10がそのように品質のよい生成画像56を生成できるのは、学習した範囲内、すなわち学習に用いた学習データ50のセットに含まれる学習用画像52群にある程度近い画像が入力された場合、に限られる。
逆に、学習した範囲からある程度以上外れた画像が入力された場合には、生成器10は、予期できない画像を生成する。この場合に生成器10が生成する生成画像は、妨げ要素が十分に除去又は低減されていない。それどころか、その生成画像は、その入力された画像が含んでいる画像内容(すなわち妨げ要素でない画像の本体)自体が変化している場合すらある。このような生成画像は、本体処理部110が実行する本体処理には適さない。
例えば、ある企業の業務に用いる紙の伝票を読み取って、その記入内容を電子化する画像処理装置を構築する場合を考える。この場合、伝票をスキャンした画像を文字認識することとなる。ここで、伝票には、罫線やロゴマークなどのように電子化の対象でない画像が含まれたり、汚れが含まれたりしている。これらは、本体処理である文字認識に対する妨げ要素となる。そこで、GANに対して、例えば、その企業のその業務の伝票のサンプルの画像群を学習用画像52とし、それら伝票中の認識対象の文字の部分のみを抽出した画像群を正解画像54として入力することで、そのGANを学習させる。学習したGANの生成器10は、同じ企業の同じ業務の伝票をスキャンした画像が入力された場合、その画像から妨げ要素をよく除去又は低減した生成画像を生成する。
その生成器10を用いる画像処理装置が、例えば更に別の1以上の企業や別の1以上の業務の新たな伝票群を処理することとなった場合を考える。この場合、それら新たに処理することとなった伝票群について、生成器10に学習させるか、または、それら新たな伝票群用に学習した新たな生成器10を用意し、画像形成装置に追加することが望ましい。しかし、このような追加の学習のためには、新たな伝票群についてのサンプル画像と正解画像を大量に用意する必要があるため、少なくとも急には対応することができない。
このように、GANの仕組みで学習した生成器10を前処理部(図1では第1前処理部100-1)は、学習したサンプルの範囲からある程度傾向が離れた画像に適切に対応できないという問題がある。
そこで、図1に示した本実施形態の画像処理装置は、第1前処理部100-1(すなわち、学習済みの生成器10)の他に、第2前処理部100-2、第3前処理部100-3、・・・、第N前処理部100-Nと、識別部120と、制御部130とを備える。
第2前処理部100-2、第3前処理部100-3、・・・、第N前処理部100-Nは、第1前処理部100-1とは異なる方法で、妨げ要素群の少なくとも一部に対して除去又は低減の効果が見込める前処理を実行する。また、第2前処理部100-2、第3前処理部100-3、・・・、第N前処理部100-Nが実行する前処理の方向は、互いに異なるものとする。
画像処理装置が、紙の帳票に記入された文字を認識して電子化する装置である場合を例に取ると、第2前処理部100-2、・・・、第N前処理部100-Nは、帳票の文字認識に用いられている既存の前処理技術を用いたものであってもよい。例えば、第2前処理部100-2が実行する前処理は、入力画像の二値化であってもよい。二値化により、帳票の薄い色のついた罫線や地紋が除去される場合がある。また、第3前処理部100-3が実行する前処理は、入力画像を第2前処理部100-2とは別の濃度閾値で二値化する処理であってもよい。また、第4前処理部100-4が行う前処理は、例えばカラードロップアウト処理であってもよい。カラードロップアウト処理により、帳票の色付きの地紋などが除去される場合がある。また、第5前処理部100-5は、第1前処理部100-1とは異なるサンプル画像のセットを用いて、それらサンプル画像内の妨げ要素の除去又は低減を学習したニューラルネットワーク(例えばGANの生成器)であってもよい。以上、第2前処理部100-2、・・・、第N前処理部100-Nの例をいくつか挙げたが、それらはあくまで例示的なものにすぎない。
図1の画像処理装置において、第1前処理部100-1は、主生成手段の一例であり、これが生成する生成画像は、主たる生成画像の一例である。これに対し、第2前処理部100-2、・・・、第N前処理部100-Nは、従生成手段の一例であり、それらが生成する生成画像は従たる生成画像の一例である。
識別部120は、第1前処理部100-1である生成器10とGANを構成していた識別器20を含む。すなわち、本実施形態では、生成器10と識別器20とを含むGANを学習データのセットで学習させた後、生成器10を第1前処理部100-1として画像処理装置に搭載すると共に、識別器20をその画像処理装置内の識別部120に組み込むのである。また、識別部120は、入力された画像を記憶し、内蔵する識別器20の識別結果に応じてその記憶した画像を後段の本体処理部110に出力するか破棄するかを制御するための手段を含む。
識別部120は、与えられた学習データのセットを用いて、入力された画像が本物(すなわち正解画像54)か、偽物(すなわち生成画像56)かを識別するよう学習済みである。正解画像54は妨げ要素を含んでいない画像なので、識別部120が本物であると識別した画像は、妨げ要素が除去又はよく低減されている蓋然性が高い。すなわち、識別部120が本物と識別した画像は、本体処理部110の処理に適した画像である可能性が高い。そこで、識別部120は、入力された画像が本物であると識別した場合に、その画像を後段の本体処理部110に入力する。
制御部130は、第1前処理部100-1、・・・、第N前処理部100-Nを制御することで、第k前処理部100-kがそれぞれ生成した第kの生成画像が順に1つずつ識別部120に入力されるようにする。
第1の例では、制御部130は、第1前処理部100-1から順に、第k前処理部100-kをkの値の小さい順に起動し、起動した第k前処理部100-kに入力画像を渡す。起動した第k前処理部100-kは、その入力画像に対して前処理を行うことにより第kの生成画像を生成し、その第kの生成画像を識別部120に入力する。識別部120は、入力された第kの生成画像が本物(すなわち本体処理部110の処理に適している)か偽物(すなわち適していない)かを識別する。そして、本物と識別した場合には、その第kの生成画像を本体処理部110に入力する。本体処理部110は、入力された第kの生成画像に対して本体処理(例えばOCR処理)を実行し、その処理結果を出力する。また識別部120は、第kの生成画像を偽物と識別した場合、その第kの生成画像を破棄する。また識別部120は、入力された第kの生成画像に対する識別の結果を制御部130に通知する。制御部130は、通知された識別の結果が「偽物」である場合、制御変数kを1増加させ、次の前処理部100に前処理を実行させ、その前処理部100が生成した生成画像を識別部120に識別させる。逆に、通知された識別の結果が「本物」である場合、制御部130は、次の前処理部100は起動せず、今回の入力画像についての処理を終了する。この場合、識別部120で本物と識別された生成画像を出力した第k前処理部100-kより順番が後の前処理部100は、起動されず、したがってその入力画像に対して前処理を行わない。例えば個々の前処理部100をソフトウエアとして実装する場合、この例の制御を用いることにより、N個の前処理部100のうち起動するものが最小限で済む。
また、第2の例として、第1前処理部100-1、・・・、第N前処理部100-Nの全てを動作させ、入力画像をそれら全ての前処理部100に前処理させる方式を用いてもよい。この方式では、第1前処理部100-1、・・・、第N前処理部100-Nは、前処理の結果である生成画像を、制御部130からの出力指示があるまで保持する。制御部130は、k=1から順に、第k前処理部100-kに対して保持している生成画像を識別部120に出力するよう指示する。この指示に応じて、第k前処理部100-kに保持された第kの生成画像が識別部120に入力され、識別部120はその第kの生成画像を識別する。識別部120が第kの生成画像が本物であると判定した場合は、第1の例と同様、その生成画像が本体処理部110に渡され、これによりその入力画像についての処理は終了する。この場合、第k前処理部100-kよりも順番が後の前処理部100が保持している生成画像は破棄される。識別部120が第kの生成画像が偽物であると判定した場合は、制御部130は、kを1増加させ、次の前処理部100が保持する生成画像を識別部120に供給する。例えば、N個の前処理部100をハードウエアとして内蔵している装置の場合、第2の例の制御を用いることにより、第1の例よりも、入力画像が入力されてから本体処理部110の処理結果が得られるまでの時間が短くなる。
<第2の実施形態>
以上、第1の実施形態について説明した。次に図3を参照して第2の実施形態を説明する。
図3に示す第2の実施形態の画像処理装置は、第1の実施形態の画像処理装置に対して解析部132を追加したものである。
解析部132は、入力画像を解析する。制御部130aは、解析部132の解析結果に従って、第1前処理部100-1、・・・・、第N前処理部100-Nを動作させる順序を決定し、その順序に従って、それら前処理部100に前処理を実行させる。特に制御部130aは、それらN個の前処理部100のうち最初から所定番目(すなわちn番目(n<N))までの順序を少なくとも決定する。もっとも単純には、制御部130aは、それらN個の前処理部100のうち、最初に動作させるもの(すなわち最初に前処理を実行させるもの)を決定する。解析部132と制御部130aの組が、順序制御手段の一例である。
この制御の第1の例では、解析部132は、入力画像を解析することにより、第1前処理部100-1と識別部120内の識別器20の学習に用いた学習データ50のセット(以下、第1セットと呼ぶ)の学習用画像52と同種の画像であるかを判定する。このような解析部132は、例えば、ニューラルネットワークにそれら学習用画像52群を学習させることで構築すればよい。例えば、そのニューラルネットワークに第1セットの学習用画像52と、第1セット内の学習用画像52とは異なる画像(例えばランダムに生成した画像)と例えばランダムに解析部132に入力し、両者を判別できるようそのニューラルネットワークを学習させればよい。すなわち、解析部132のニューラルネットワークが、入力画像を処理して、その入力画像が第1セットの学習用画像に該当するか否かを示す出力を生成する処理が、解析部132が行う解析の例である。入力画像が第1セットの学習用画像52であると解析部132が判定した場合、入力画像は第1セットの学習用画像52群と類似した画像であるといえる。この例では、入力画像が第1セットの学習用画像52に該当すると解析部132が判定した場合、制御部130aは、入力画像を最初に第1前処理部100-1に入力する。入力画像は、第1セットの学習用画像52に似ているため、第1前処理部100-1により妨げ要素群を十分に低減できる蓋然性が高い。一方、入力画像が第1前処理部100-1の学習した学習用画像52に該当しないと解析部132が判定した場合、制御部130aは、入力画像を、第2前処理部100-2、・・・・、第N前処理部100-Nのうちの所定の前処理部100に最初に入力する。
このように、第1の例では、入力画像に対して最初に動作させる前処理部を、第1前処理部100-1とするか、それ以外の所定の前処理部100とするかという順序を決定する。例えば、入力画像が第1セットの学習用画像に該当すると解析部132が判定した場合、第1前処理部100-1がその入力画像から生成した生成画像は、かなり高い確率で、識別部120により本物として識別され、本体処理部110に送られる。したがって、その他の前処理部100を動作させる必要が出てくる確率は低い。
次に第2の例を説明する。この例では、画像処理装置は、第1前処理部100-1、第2前処理部100-2、第3前処理部100-3の3つの前処理部100を含み、それらのうちどれを最初に実行するかという順序を決定する。またこの例では、第2前処理部100-2が、第1前処理部100-1とは別の学習データのセットで妨げ要素の除去又は低減を学習したものであるとする。例えば、第1前処理部100-1がA社の帳票からの妨げ要素の除去を学習したものであり、第2前処理部100-2がB社の帳票からの妨げ要素の除去を学習したものである場合である。第1前処理部100-1が学習した学習データのセットを第1セットと呼び、第2前処理部100-2が学習した学習データのセットを第2セットと呼ぶこととする。また、第3前処理部100-3は既存のカラードロップアウト処理を実行するものであるとする。この例では、解析部132は、入力画像が、(a)第1セットの学習用画像に該当する、(b)第2セットの学習用画像に該当する、(c)そのどちらでもない、のいずれであるかを判定する。このために、解析部132としては、例えばニューラルネットワークに、その3つのケースを識別するための学習を行わせたものを用いる。これには、第1セットの学習用画像、第2セットの学習用画像、その他の画像を解析部132に例えばランダムに入力し、それら三者を判別できるようそのニューラルネットワークを学習させればよい。制御部130aは、解析部132の解析の結果が(a)であれば入力画像を最初に第1前処理部100-1に処理させ、(b)であれば入力画像を最初に第2前処理部100-2に処理させ、(c)であれば入力画像を最初に第3前処理部100-3に処理させる。すなわち、入力画像から最も質のよい(すなわち妨げ要素の除去又は低減の度合いが高い)生成画像を生成できると期待される前処理部100に、最初に入力画像を入力するのである。これにより、最初の前処理部100の生成する生成画像が識別部120により本物と識別される確率が高くなり、2番目以降の前処理部100を動作させる必要性が少なくなる。なお、最初の前処理部100の前処理結果が識別部120で偽物と識別された場合、2番目にどの前処理部100に入力画像を入力するかは、例えば予め定めておけばよい。
第3の例は、第2の例と同じ3つの前処理部100を持つ画像処理装置において、制御部130aが、解析部132の解析の結果に従い、入力画像に対してそれら3つをどの順で適用するかを決定する。このために、解析部132は、入力画像が上述した第2の例において挙げた(a)、(b)、(c)のそれぞれにどの程度の確率(確信度とも呼ばれる)で該当するかを求める。このためには、解析部132に、上述した第2の例の場合と同様の学習を行わせる。また、その学習の結果に基づき、解析部132が、入力画像が(a)、(b)、(c)のそれぞれに該当する確率を出力するよう設定する。そして、このように学習及び設定した解析部132に入力画像が入力され、これに応じて入力画像が(a)、(b)、(c)のそれぞれに該当する確率を解析部132が出力する。制御部130aは、その確率が高い順に、入力画像を入力する。例えば、確率の高い順に(b)、(a)、(c)である場合、制御部130aは、まず第2前処理部100-2に入力画像を入力する。これに応じて第2前処理部100-2が生成した生成画像が識別部120で本物と識別された場合には、他の前処理部100は用いられない。逆にその生成画像が偽物と識別された場合は、次に制御部130aは、第1前処理部100-1に入力画像を入力させる。これにより生成された生成画像を識別部120が偽物と判定した場合、制御部130aは、入力画像を第3前処理部100-3に入力する。なお、識別部120が、それら3つすべての前処理部100の生成画像を偽物と判定した場合には、制御部130aは、所定の例外処理を実行する。この例外処理は、例えば、ユーザに対してエラーを通知する処理であってもよいし、解析部132が最も確率が高いと判定した前処理部100が生成した画像を本体処理部110に処理させる処理であってもよい。
このように、第3の例は、入力画像がどの前処理部100に処理させると成功する確率が高いかを解析部132が判定し、その確率が高い順に従って、それら3つの前処理部100に順に入力画像を処理させるものである。なお、ここでいう成功とは、前処理部100が入力画像から生成した生成画像が、識別部120により本物と識別されることである。
<第3の実施形態>
次に、図4を参照して、第3の実施形態を説明する。
図3に示す第2の実施形態の画像処理装置は、第1の実施形態の画像処理装置に対して修正受付部140及び学習制御部150を追加したものである。
修正受付部140は、修正受付手段の一例であり、本体処理部110が出力した処理結果に対して、チェック者(人間)から修正の入力を受け付ける。例えば、修正受付部140は、入力画像と、その入力画像に対応して本体処理部110が出力した処理結果とを画面に表示する。チェック者は、その画面で、例えば入力画像と処理結果とを見比べて、その処理結果が正しいかどうかを判断する。そして、その処理結果に誤りがあれば、チェック者は、修正受付部140に対して修正の入力を行う。例えば、本体処理部110がOCR処理を行うものである場合、修正受付部140は、そのOCR処理の処理結果の文字列に対する文字の修正を受け付ける。チェック者のチェック、及び修正(もしあれば)を受けた後の処理結果が、この画像処理装置の最終的な処理結果として出力される。
世の中には、帳票に記入された文字列を電子化するデータエントリのためのシステムとして、その帳票の画像と、その画像のOCR結果とを人間に提示し、人間に確認、及び必要に応じて修正を求めることで、正確な電子化を期するものがある。第3の実施形態の画像処理装置は、そのようなシステムとして利用することも可能である。
学習制御部150は、追加学習手段の一例であり、修正受付部140が受け付けた修正に従って、識別部120内のニューラルネットワーク(すなわち識別器20)を追加的に学習させるための制御を行う。上述のように、そのニューラルネットワークは、GAN内の識別器20として、生成器10(=第1前処理部100-1)と競合的に学習を済ませたものであるが、このニューラルネットワークを更に追加的に学習させるのである。学習制御部150は、修正受付部140が受け付けた修正が所定の条件を満たす場合に、その修正の対象である処理結果の元になった生成画像を本物(すなわち正解画像)でないと識別するよう、識別部120内のニューラルネットワークを学習させる。この追加的な学習の基本的な考え方は、以下の通りである。
すなわち、この考え方では、修正受付部140がチェック者から修正を受け付けた場合、修正された処理結果の元になった生成画像は、本体処理部110の処理にとって適切でなかったと考える。その生成画像は、識別部120で本物(すなわち本体処理部110の処理にとって適切)と識別されたため、本体処理部110で処理されたのである。しかし、その処理結果は誤っていたから修正されたのであり、その生成画像は結果として本体処理部110の処理には適していなかったと考える。そして、その誤りの原因の一つが、識別部120の識別結果が誤りであったことだと考えるのである。
このような考え方に基づき、学習制御部150は、修正された処理結果の元になった生成画像を、識別部120内のニューラルネットワークが本物と判定しないよう(すなわち、例えばそれを偽物と判定するよう)、そのニューラルネットワークを学習させる。すなわち、この例では、処理結果に対して修正がなされたこと自体が、識別部120にその処理結果の元となった生成画像が正解画像でないとの学習をさせるための所定の条件である。なお、追加的な学習では、修正がなされなかった処理結果の元となった生成画像を本物と識別するよう、その生成画像と本物を示すラベルとを更に識別部120内のニューラルネットワークに学習させてもよい。
例えば、第1前処理部100-1の出力した生成画像を識別部120が本物と識別し、その生成画像を本体処理部110が処理したところ、その処理結果に対してチェック者が修正受付部140に対して修正を入力したとする。この場合、学習制御部150は、例えば、その生成画像を入力信号とし、「偽物」とのラベルを教師信号としてそのニューラルネットワークに与えることで、そのニューラルネットワークを追加的に学習させる。
この追加的な学習は、処理結果に対して修正が行われる都度行ってもよいし、学習用のサンプル(すなわち修正された処理結果の元になった生成画像)がある程度蓄積されるごとに行ってもよい。後者の例における追加的な学習の実行のタイミングとしては、例えば、この画像処理装置を用いて業務が行われる業務時間の終了後のある時刻のように、予め定められた時刻であってもよいし、サンプルの量が所定量まで蓄積されたタイミングであってもよい。
このように識別部120に追加的な学習を行わせることで、識別部120が識別を誤る確率が低くなり、これにより本体処理部110の処理結果の正解率の向上が期待される。
以上の例では、チェック者が処理結果を修正した場合、直ちに、その処理結果の元となった生成画像を本物と識別した識別部120が誤りであるとしたが、これはあくまで一例に過ぎない。処理結果が修正される原因には、識別部120の識別の誤り以外に、本体処理部110が行う本体処理の誤りもある。また、入力された修正の内容から、その修正が本体処理の誤りによるものである確率が高いと判断できる場合がある。例えば、本体処理がOCR処理である場合、OCR処理で起こりやすい誤認識のパターンはよく知られている。例えば、アルファベットの大文字の「O」と数字の「0」、アルファベットの小文字の「l」と数字の「1」は、互いに誤認識されやすい。また、句読点や記号の中にも別の句読点や記号と誤認識されやすいものがいくつか知られている。修正受付部140が受け付けた修正が、このような誤認識のパターンに対応するもの(例えば大文字の「O」が数字の「0」に修正された場合)のみである場合、その修正は本体処理部110のOCR処理が原因である確率が高い。
そこで、学習制御部150に、本体処理部110の本体処理の誤りを原因として起こりやすい修正のパターンを登録しておく。そして、ある入力画像に対応する処理結果について修正受付部140が受け付けた修正がそのパターンに該当するものだけである場合は、その修正を、識別部120の追加的な学習の材料にしない。逆に、修正受付部140が受け付けた修正の中に、そのパターンに該当しないものが含まれている場合には、その修正の対象の処理結果の元となった生成画像を偽物と識別するよう、識別部120に追加的な学習を行わせる。この例では、処理結果に対してなされた修正が、本体処理部110の本体処理の誤りを原因として起こりやすい修正のパターンに該当しないことが、識別部120にその処理結果の元となった生成画像が正解画像でないとの学習をさせるための所定の条件である。
また、本体処理がOCR処理である場合において、修正受付部140が受け付けた修正が、OCR処理の指定言語と異なる言語での修正である場合は、学習制御部150は、その修正を識別部120の追加的な学習の材料としない。ここで、OCR処理の指定言語とは、認識対象の文字列をどの言語の文字列として認識するかを示す指定である。この指定言語が誤りである場合、OCR処理の結果も誤りとなりやすいので、修正が起こりやすい。指定言語と異なる言語で行われた修正は、OCR処理に起因する修正であって、識別部120の識別の誤りによるものではないと考えられるので、その修正は識別部120の追加的な学習には用いない。また、修正受付部140が受け付けた修正が、アルファベットの大文字を小文字に直すものやその逆、又は全角文字を半角文字に直すものやその逆の修正である場合にも、学習制御部150は、その修正を識別部120の追加的な学習には用いない。この例では、処理結果に対してなされた修正が、本体処理部110のOCR処理の指定言語とは異なる言語でなされたものでないこと、又は大文字と小文字、全角と半角、との間での相互の修正ではないことが、識別部120にその処理結果の元となった生成画像が正解画像でないとの学習をさせるための所定の条件である。
仮に第1前処理部100-1(すなわち生成器10)に追加的な学習を行わせようとすると、サンプル画像とそれに対応する正解画像とを用意する必要があるが、これには手間が掛かる。これに対し、本実施形態では、データエントリのシステムで採用されるケースが多い人間による修正、を利用して識別部120に追加的な学習を行わせるので、第1前処理部100-1に追加的な学習を行わせる場合よりも手間が掛からない。
以上に説明した各実施形態の画像処理装置は、コンピュータに上述のその画像処理装置を構成する要素群の機能を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、CPU等のマイクロプロセッサ、ランダムアクセスメモリ(RAM)及びリードオンリメモリ(ROM)等のメモリ(一次記憶)、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)等の固定記憶装置を制御するコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバス等を介して接続された回路構成を有する。それら各機能の処理内容が記述されたプログラムがネットワーク等の経由でフラッシュメモリ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAMに読み出されCPU等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、それら画像処理装置の要素のうち、ニューラルネットワークにより構成される要素等の一部の要素は、ハードウエア回路として構成されてもよい。
10 生成器、20 識別器、22 識別結果判定部、30 画像比較部、40 学習制御部、100 前処理部、100-1 第1前処理部、110 本体処理部、120 識別部、130,130a 制御部、132 解析部、140 修正受付部、150 学習制御部。

Claims (6)

  1. 入力画像から主たる生成画像を生成する主生成手段と、
    前記入力画像から前記主生成手段とは異なる方法で従たる生成画像を生成する、少なくとも1つの従生成手段と、
    処理対象として入力された画像に対して本体処理を実行する本体処理手段と、
    前記主たる生成画像及び前記少なくとも1つの従生成手段の各々が生成した前記従たる生成画像からなる一群の生成画像のうちの少なくとも1つの生成画像が入力され、当該生成画像が前記本体処理に適しているか否かの識別を実行し、前記一群の生成画像のうち前記本体処理に適していると識別した1つの生成画像を前記処理対象として前記本体処理手段に入力する識別手段と、
    を含み、
    前記主生成手段と前記識別手段との組は、敵対的生成ネットワークとして構成されており、前記主生成手段は、正解画像と前記正解画像に前記本体処理の妨げとなる妨げ要素が加わった学習用画像とのペア群を用いて、前記学習用画像から前記正解画像を前記主たる生成画像として生成する学習を済ませており、前記識別手段は、前記ペア群を用いて、前記主生成手段が前記学習用画像から生成した前記主たる生成画像と前記正解画像とを識別する学習を済ませており、
    前記識別手段は、入力された前記生成画像が前記正解画像であると識別した場合に、当該生成画像が前記本体処理に適していると識別する、
    画像処理装置。
  2. 前記入力画像を解析することにより、前記主生成手段及び前記少なくとも1つの従生成手段からなる一群の生成手段を動作させる順序のうち少なくとも最初から所定番目までの順序を求め、求めた順序に従って動作させた前記生成手段に対して前記入力画像を入力し、この入力に応じて当該生成手段が生成した前記生成画像が前記識別手段に入力されるようにし、この入力に応じて前記識別手段が前記処理対象を前記本体処理手段に入力した場合には、前記一群の生成手段のうち、前記順序において当該生成手段の後の生成手段は動作させずに前記入力画像についての処理を終了する制御を行う順序制御手段、
    を更に含む請求項1に記載の画像処理装置。
  3. 前記ペア群に含まれる前記学習用画像は、所定の種類の文書の様々なサンプルを読み取ることにより得られた画像であり、
    前記順序制御手段は、前記所定の種類の文書の画像と、別の種類の文書の画像とを識別する学習を行ったものであり、前記入力画像が前記所定の種類の文書の画像であると識別した場合には、前記順序において、前記主生成手段を最初のものとする、
    請求項2に記載の画像処理装置。
  4. 前記本体処理手段が前記処理対象として入力された前記生成画像に対して実行した前記本体処理の結果をユーザに提示すると共に、前記ユーザから前記結果に対する修正の入力を受け付ける修正受付手段と、
    前記識別手段を追加的に学習させる追加学習手段と、
    を含み、
    前記追加学習手段は、前記修正受付手段が前記結果に対して受け付けた前記修正が所定の条件を満たす場合に、前記処理対象として入力された前記生成画像が前記正解画像ではないと識別するよう前記識別手段を学習させる、
    請求項1~3のいずれか1項に記載の画像処理装置。
  5. 前記所定の条件は、前記修正受付手段が受け付けた前記修正が、前記本体処理の誤りを原因として起こりやすいものとして予め登録されている種類の修正に該当しない、という条件である、請求項4に記載の画像処理装置。
  6. コンピュータを、
    入力画像から主たる生成画像を生成する主生成手段、
    前記入力画像から前記主生成手段とは異なる方法で従たる生成画像を生成する、少なくとも1つの従生成手段、
    処理対象として入力された画像に対して本体処理を実行する本体処理手段、
    前記主たる生成画像及び前記少なくとも1つの従生成手段の各々が生成した前記従たる生成画像からなる一群の生成画像のうちの少なくとも1つの生成画像が入力され、当該生成画像が前記本体処理に適しているか否かの識別を実行し、前記一群の生成画像のうち前記本体処理に適していると識別した1つの生成画像を前記処理対象として前記本体処理手段に入力する識別手段、
    として機能させるためのプログラムであって、
    前記主生成手段と前記識別手段との組は、敵対的生成ネットワークとして構成されており、前記主生成手段は、正解画像と前記正解画像に前記本体処理の妨げとなる妨げ要素が加わった学習用画像とのペア群を用いて、前記学習用画像から前記正解画像を前記主たる生成画像として生成する学習を済ませており、前記識別手段は、前記ペア群を用いて、前記主生成手段が前記学習用画像から生成した前記主たる生成画像と前記正解画像とを識別する学習を済ませており、
    前記識別手段は、入力された前記生成画像が前記正解画像であると識別した場合に、当該生成画像が前記本体処理に適していると識別する、
    プログラム。
JP2019042188A 2019-03-08 2019-03-08 画像処理装置及びプログラム Active JP7215242B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019042188A JP7215242B2 (ja) 2019-03-08 2019-03-08 画像処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019042188A JP7215242B2 (ja) 2019-03-08 2019-03-08 画像処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020144735A JP2020144735A (ja) 2020-09-10
JP7215242B2 true JP7215242B2 (ja) 2023-01-31

Family

ID=72354337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019042188A Active JP7215242B2 (ja) 2019-03-08 2019-03-08 画像処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7215242B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850367B (zh) * 2021-08-31 2022-08-26 荣耀终端有限公司 网络模型的训练方法、图像处理方法及其相关设备
JP7166506B1 (ja) * 2022-02-15 2022-11-07 三菱電機株式会社 画像フィルタ生成システム、画像フィルタ生成装置、学習装置、学習方法及びプログラム
WO2023157092A1 (ja) * 2022-02-15 2023-08-24 三菱電機株式会社 画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム
WO2024057543A1 (ja) * 2022-09-16 2024-03-21 日本電信電話株式会社 画像データ生成装置、画像データ生成方法、および、画像データ生成プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229317A (ja) 2013-05-24 2014-12-08 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
WO2018207334A1 (ja) 2017-05-12 2018-11-15 日本電気株式会社 画像認識装置、画像認識方法および画像認識プログラム
WO2019008752A1 (ja) 2017-07-07 2019-01-10 三菱電機株式会社 データ処理装置、データ処理方法および圧縮データ
JP6465427B1 (ja) 2018-08-15 2019-02-06 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
JP2020170261A (ja) 2019-04-01 2020-10-15 富士ゼロックス株式会社 画像処理装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7251078B2 (ja) * 2018-09-14 2023-04-04 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229317A (ja) 2013-05-24 2014-12-08 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
WO2018207334A1 (ja) 2017-05-12 2018-11-15 日本電気株式会社 画像認識装置、画像認識方法および画像認識プログラム
WO2019008752A1 (ja) 2017-07-07 2019-01-10 三菱電機株式会社 データ処理装置、データ処理方法および圧縮データ
JP6465427B1 (ja) 2018-08-15 2019-02-06 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
JP2020170261A (ja) 2019-04-01 2020-10-15 富士ゼロックス株式会社 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP2020144735A (ja) 2020-09-10

Similar Documents

Publication Publication Date Title
JP7215242B2 (ja) 画像処理装置及びプログラム
JP6831480B2 (ja) テキスト検出分析方法、装置及びデバイス
JP7298223B2 (ja) 画像処理装置及びプログラム
WO2011128777A2 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US20230134169A1 (en) Text-based document classification method and document classification device
US20170124390A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
CN110674876A (zh) 一种字符检测方法、装置、电子设备及计算机可读介质
JP2021502628A (ja) 画像処理方法及び画像処理システム
CN110866238A (zh) 基于对抗样本的验证码图像的生成方法
CA2601144C (en) Method and system for adaptive recognition of distorted text in computer images
CN115661836A (zh) 一种自动批改方法、装置、系统及可读存储介质
US11200450B2 (en) Information processing apparatus and non-transitory computer readable medium for selecting a proper version of a recognition dictionary that is not necessarily a latest version
US10915799B2 (en) Image processing apparatus and image recognition apparatus
US11126883B2 (en) Character string recognition apparatus, and non-transitory computer readable medium
CN112686263B (zh) 文字识别方法、装置、电子设备及存储介质
JP7251078B2 (ja) 画像処理装置及びプログラム
CN110032716B (zh) 文字编码方法和装置、可读存储介质及电子设备
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN112750067B (zh) 图像处理系统及其训练方法
US20210019554A1 (en) Information processing device and information processing method
JP7326753B2 (ja) 情報処理装置及びプログラム
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
JP2022024541A (ja) 画像生成装置、画像検査システム、画像生成方法、及びプログラム
JP3930466B2 (ja) 文字認識装置、文字認識プログラム
JP6260350B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230102

R150 Certificate of patent or registration of utility model

Ref document number: 7215242

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150