JP2021068202A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021068202A JP2021068202A JP2019193249A JP2019193249A JP2021068202A JP 2021068202 A JP2021068202 A JP 2021068202A JP 2019193249 A JP2019193249 A JP 2019193249A JP 2019193249 A JP2019193249 A JP 2019193249A JP 2021068202 A JP2021068202 A JP 2021068202A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- result
- accuracy
- threshold value
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 45
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims description 251
- 238000012015 optical character recognition Methods 0.000 abstract description 264
- 101100027898 Homo sapiens OCR1 gene Proteins 0.000 description 18
- 102100026725 Ovarian cancer-related protein 1 Human genes 0.000 description 18
- 238000012790 confirmation Methods 0.000 description 16
- 238000007796 conventional method Methods 0.000 description 16
- 238000012937 correction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
- G06F18/41—Interactive pattern learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19113—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
【課題】2つの認識器の認識結果が合致した場合でも、認識確度が低い場合は、その合致した認識結果が正解でない場合が少なくなく、装置の正解率が下がる可能性がある。【解決手段】突合部10は、2つのOCR1及び2による入力画像データ50に対するOCR結果1及び2を突合する。突合にて、OCR結果1と2が合致したことが分かった場合、突合部10は、OCR1からOCR結果1に対応づけて取得した認識確度1を閾値比較部12に渡す。閾値比較部12は、認識確度1を所定の閾値1と比較する。後段処理部16は、認識確度1が閾値1より大きければ、OCR結果1を最終結果として出力し、そうでなければOCR結果1をリジェクトする。【選択図】図1
Description
本発明は、情報処理装置及びプログラムに関する。
対象データを第1の認識器と第2の認識器に認識させ、それら2つの認識器の認識結果同士を突合し、両者が合致した場合にはその合致した認識結果を最終的なものとして出力とし、両者が合致しなかった場合には、人が介入して確認作業や修正作業を行うことにより最終的な認識結果として出力する装置がある。
特許文献1に記載された装置は、データの記入されたフォーム(帳票)を電子画像フォームとして読み取る画像読取手段と、読み取った電子画像フォームを性質の異なる、すなわち、誤認識を共通にしない或いは共通にすることの少ない2種類(以上)のOCRエンジンでOCR認識するOCR認識手段と、認識結果が一致した文字は自動的にデータベースへ保存し、一致しない文字及び一致してもいずれか一方のOCRエンジンの認識の信頼性の低い文字は確認修正後にデータベースへ保存するデータベース保存手段と、を備える。
また、紙帳票に手書き記入または印刷された文字列をデジタルデータ化するデータ入力システムがある。データ入力システムは、帳票中を人間が読み取ってキー入力する方式、光学文字認識(OCR)技術を用いた文字認識器により帳票中の画像に対して文字認識処理を行う方式、あるいはこれらの組合せにより帳票中の文字列をデジタル化する。
文字認識器は、実行した認識処理の処理結果がどの程度信頼できるかを示す度合いを出力する機能を持つことが多い。この度合いは認識の確度又は確信度(以下、認識確度、又は単に、確度、という)と呼ばれる。
文字認識器以外にも、入力画像に対して何らかの自動判定を行う手段はあり、そのような自動判定手段の中には、実行した判定の確度を出力するものがある。
特許文献2に開示された方法は、入力された帳票上の画像に対し文字認識を行ない、その文字認識結果としての類似度を得て、この得られた類似度とあらかじめ登録された当該文字認識に要求する確信度とを比較し、この比較の結果に基づき文字認識結果に対し人手によるベリファイ処理を必要としない出力を行なうか、あるいは、上記比較の結果に基づき文字認識結果に対し文字認識候補の選択肢を提示して人手によるベリファイ処理を促す出力を行なうか、あるいは、上記比較の結果に基づき文字認識結果に対し人手による新規入力および確定を提示して手入力処理を促す出力を行なう。
また、認識器の確度を用いる従来技術として、更に特許文献3及び4がある。
また、複数の認識器の突合を用いて認識を制御する従来技術として、更に特許文献5がある。
1つの対象画像を2つの認識器で認識した結果が合致した場合でも、認識した結果の認識確度が低い場合は、その合致した認識結果を出力した出力結果は人が確認した場合である正解とは異なる場合があり、認識器の認識結果を正解と認めてよいかがわからない。その場合に全ての出力結果を人が確認すればよいが、人の作業量が増えてしまう。
このため、本発明では、人の作業量を抑制しつつ、情報処理装置が出力する出力結果の正解を増加させることを目的とする。
このため、本発明では、人の作業量を抑制しつつ、情報処理装置が出力する出力結果の正解を増加させることを目的とする。
請求項1に係る発明は、プロセッサを備え、前記プロセッサは、第1の認識器から、対象データに対する第1の認識結果及び第1の認識確度を取得し、第2の認識器から、前記対象データに対する第2の認識結果及び第2の認識確度を取得し、前記第1の認識結果と前記第2の認識結果との突合を実行し、前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致した場合に第1制御を実行し、前記第1制御は、前記第1の認識確度及び前記第2の認識確度の少なくとも一方に基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力する処理であり、前記第1の処理のために必要な人の作業量は、前記第2の処理のために必要な人の作業量よりも少ないことを特徴とする、情報処理装置である。
請求項2に係る発明は、前記第1制御では、前記第1の認識確度が閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
請求項1に記載の情報処理装置である。
請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記プロセッサは、更に、前記突合を実行する前に、前記第1の認識確度が、前記閾値より高い第2の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、前記突合は、前記第1の認識確度が前記第2の閾値以下の場合に実行される、請求項2に記載の情報処理装置である。
請求項4に係る発明は、前記第1制御では、前記第1の認識確度が第3の閾値より高く且つ前記第2の認識確度が第4の閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が第3の閾値以下又は前記第2の認識確度が第4の閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、請求項1に記載の情報処理装置である。
請求項5に係る発明は、前記第3の閾値は、前記第1制御において前記第2の認識確度を用いない場合において、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかの制御に用いる前記第1の認識確度についての前記閾値、よりも低い、請求項4に記載の情報処理装置である。
請求項6に係る発明は、前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致しなかった場合に第2制御を実行し、前記第2制御は、前記第1の認識確度が前記閾値より高い第2の閾値より高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記第2の閾値以下の場合には、前記第1の認識結果に対して前記第2の処理を実行する制御である、請求項2、4又は5に記載の情報処理装置である。
請求項7に係る発明は、前記第1制御では、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかを、前記第1の認識確度と前記第2の認識確度の両方に基づいて制御する、請求項1に記載の情報処理装置である。
請求項8に係る発明は、前記プロセッサは、更に、前記突合を実行する前に、前記第1の認識確度が、第5の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、前記突合を実行する前に、前記第2の認識確度が、第6の閾値よりも高い場合には、前記第2の認識結果に対して前記第1の処理を実行し、前記突合は、前記第1の認識確度が前記第5の閾値以下であり且つ前記第2の認識確度が前記第6の閾値以下の場合に実行される、請求項7に記載の情報処理装置である。
請求項9に係る発明は、前記プロセッサは、更にk=3からk=N(Nは3以上の整数)までの各kについて、第kの認識器から、前記対象データに対する第kの認識結果及び第kの認識確度を取得し、前記突合では、k=1からk=Nまでの各kについての前記第kの認識結果同士の突合を実行し、前記突合の結果、k=1からk=Nまでの各kについての前記第kの認識結果のすべてが合致した場合に、前記第1制御に代えて第3制御を実行し、前記第3制御は、k=1からk=Nまでの各kについての前記第kの認識確度のうちの少なくとも一つに基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力することである、請求項1に記載の情報処理装置である。
請求項10に係る発明は、コンピュータに、第1の認識器から、対象データに対する第1の認識結果及び第1の認識確度を取得し、第2の認識器から、前記対象データに対する第2の認識結果及び第2の認識確度を取得し、前記第1の認識結果と前記第2の認識結果との突合を実行し、前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致した場合に第1制御を実行する、処理を実行させるためのプログラムであって、前記第1制御は、前記第1の認識確度及び前記第2の認識確度の少なくとも一方に基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力、することであり、前記第1の処理のために必要な人の作業量は、前記第2の処理のために必要な人の作業量よりも少ない、ことを特徴とするプログラムである
請求項1、2又は10に係る発明によれば、2つの認識器の認識結果が合致すればその認識結果を正解として採用する方式と比べて、人の作業量を抑制しつつ、情報処理装置が出力する出力結果の正解を増加させることができる。
請求項3又は8に係る発明によれば、出力結果の正解が低減しないようにしつつも、突合を行う頻度を少なくすることができる。
請求項4、5又は7に係る発明によれば、第1制御において第1の認識確度と閾値との比較で第1の処理と第2の処理のいずれを実行するかを制御する方式よりも、人間の作業量が少ない第1の処理が選ばれる可能性を高くすることができる。
請求項6に係る発明によれば、合致しなかった場合に必ず第2の処理を実行する方式よりも、人間の作業量を減らすことができる。
請求項9に係る発明によれば、N個の認識器の認識結果が合致すればその認識結果を採用する方式と比べて、の作業量を抑制しつつ、情報処理装置が出力する出力結果の正解を増加させることができる。
<2つOCRを用いる実施形態>
図1に、データ入力システムの一実施形態を説明する。
図1に、データ入力システムの一実施形態を説明する。
このシステムでは、1つの対象画像に対する2つ文字認識器の認識結果が合致したとしても、直ちにその認識結果をシステムの最終的な出力として採用することはしない。それら2つのうち少なくとも一方の認識確度が条件を満たすかどうか確認し、満たした場合にはじめてその合致した認識結果をシステムの最終的な出力として採用する。
このシステムでは、文字認識の対象である入力画像データ50が2つの文字認識器、すなわちOCR1とOCR2、に入力される。OCR1及びOCR2は、互いに異なる特性の文字認識処理を実行する。すなわち、OCR1とOCR2とは、例えば、使用する文字認識のプログラムが互いに異なっていたり、文字認識の学習に用いた学習データ集合が互いに異なっていたりする。OCR1と2とに十分大きい数のサンプル画像群を処理させた場合、サンプル画像群に対するOCR結果の正解(すなわち正認識)と不正解(すなわち誤認識)の分布は、OCR1と2とで異なる。
OCR1は、入力画像データ50に対して文字認識処理を行い、その結果であるOCR結果1と、そのOCR結果1についての認識の確度である認識確度1(以下「確度1」とも表記する)と、を出力する。OCR結果1は、典型的には、その入力画像データ50から認識した文字列を示すテキストデータである。OCR2は、同じ入力画像データ50に対して文字認識処理を行い、OCR結果2と、そのOCR結果2についての認識確度2と、を出力する。
図1のシステムでは、一例としてOCR1と2のうち、前者が基準OCRとして選択されているものとする。基準OCRは、OCR1と2のうち、入力画像データ50に対する文字認識に適していると想定されている方である。基準OCRは、例えば固定的に定められていてもよい。例えば、OCR1が十分な利用実績があり認識正解率が全般的に高いことが分かっている主として用いるものであり、OCR2が未だ利用実績が少ない補助用のものであるため、前者が固定的に基準に定められている場合がその一例である。また、入力画像データ50についての既知の属性に応じて基準OCRを選択することも考えられる。例えば、OCR1が氏名の認識用に最適化されたものであり、OCR2が住所の認識用に最適化されたものである場合において、入力画像データ50が氏名を示していることが分かっている場合には、OCR1が基準OCRに選ばれる。なお、入力画像データ50の属性は、1ページの画像中でのその入力画像データ50の位置等から判別可能な場合がある。例えば、ある帳票の画像のうち、氏名欄として既知である範囲を切り出した画像が入力画像データ50である場合、その入力画像データ50の属性は氏名であることが分かる。ここでいう「正解率」とは、システムが最終的な認識結果として出力した情報の全体の数に対する、出力した情報が本当に正しかった和の割合のことである。
突合部10は、OCR結果1とOCR結果2の突合処理を行う。この突合処理では、OCR結果1の文字列とOCR結果2の文字列とを比較(すなわち突合)し、それら両者が合致(すなわち文字列同士が一致)するか否(すなわち非合致)かを判定する。両者が合致した場合、突合部10は、確度1を閾値比較部12に出力する。両者が非合致の場合、突合部10は、確度1を、閾値比較部12とは別の閾値比較部14に出力する。
閾値比較部12は、確度1を予め定めた閾値1と比較し、確度1が閾値1より大きいか否かを示す比較結果を出力する。
閾値比較部14は、確度1を閾値2と比較し、確度1が閾値2より大きいか否かを示す比較結果を出力する。ここで、閾値2は、閾値1より大きい、予め定めた閾値である。
後段処理部16は、基準OCRの処理結果であるOCR結果1と、閾値比較部12の比較結果を受け取る。そして、後段処理部16は、受け取った比較結果が、確度1が閾値1より大きいことを示すものである場合、OCR結果1を、このシステムの最終的な認識結果として出力する。これに対し、受け取った比較結果が、確度1が閾値1以下であることを示す場合には、後段処理部16は、OCR結果1をリジェクトする。リジェクトとは、対象のOCR結果(この場合はOCR結果1)を不採用とする処理である。OCR結果1をリジェクトした場合、システムは、入力画像データ50に対するシステムとしての認識結果を求めるために、人間の作業者に介入を求める。作業者の介入によりシステムの最終的な認識結果を求める方式は、特に限定されない。作業者の介入方式の1つが、確認したり修正したりする「確認・修正」の処理である。「確認・修正」の処理では、作業者の端末の画面に入力画像データ50とOCR結果1とを表示し、作業者がそれら両者を見比べて、OCR結果1が正しいかどうか確認し、正しければ正しいと確認したことを示す情報を入力する。正しくなければ、作業者は、OCR結果1の間違っている部分を修正するための入力を行う。このような「確認・修正」の作業により確認または修正された処理結果を、システムの最終的な認識結果の出力とする。
後段処理部18は、基準OCRの処理結果であるOCR結果1と、閾値比較部14の比較結果を受け取る。そして、後段処理部18は、受け取った比較結果が、確度1が閾値2より大きいことを示すものである場合、OCR結果1を、このシステムの最終的な認識結果として出力する。これに対し、受け取った比較結果が、確度1が閾値2以下であることを示す場合には、後段処理部18は、OCR結果1をリジェクトし、「確認・修正」の処理を行い、最終的な認識結果として出力する。また、後段処理部16または18において、リジェクトとした場合に「認識・修正」の処理を行わず「認識できなかった」ことを示す情報を出力するようにしてもよい。
図1に示したシステムの主要部は、一つの例では、コンピュータを用いて実現される。
このコンピュータは、例えば、図2に示すように、ハードウエアとして、プロセッサ102、ランダムアクセスメモリ(RAM)等のメモリ(主記憶装置)104、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)等の補助記憶装置106を制御するコントローラ、各種の入出力装置108とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース110等が、例えばバス112等のデータ伝送路を介して接続された回路構成を有する。突合部10、閾値比較部12及び14,並びに後段処理部16及び18の機能を規定するプログラム群が、ネットワーク等を経由してコンピュータにインストールされ、補助記憶装置106に保存される。補助記憶装置106に保存されたそれらプログラム群が、プロセッサ102によりメモリ104を用いて実行されることにより、それら各部の機能が実現される。
ここでプロセッサ102とは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、 ASIC:Application Specific Integrated Circuit、 FPGA:Field Programmable Gate Array、 プログラマブル論理デバイス、等)を含むものである。
また、プロセッサ102の動作は、1つのプロセッサ102によってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサ102が協働してなすものであってもよい。また、プログラム実行時のプロセッサ102の各動作は、以下の実施形態において説明する順序のみに限定されるものではなく、適宜に変更してもよい。
図1のシステム構成のうち、突合部10、閾値比較部12及び14、後段処理部16及び18は、プロセッサ102がそれら各部の機能を表すプログラムを実行することにより実現される。OCR1及び2は、そのプロセッサ102が各々の文字認識処理を表すプログラムを実行することにより実現してもよいし、プロセッサ102の外部のOCRシステムとして実現されたものであってもよい。
図3に、図1のシステムの処理を実行するプロセッサ102の処理手順を例示する。この手順では、プロセッサ102は、まずOCR1及び2から、入力画像データ50に対するOCR結果1及び2を取得すると共に、OCR1から確度1を取得する(S10)。次にプロセッサ102は、OCR結果1と2を突合し(S12)、突合の結果が合致、非合致のいずれであるかを判定する(S14)。突合結果が合致の場合、プロセッサ102は、確度1を閾値1と比較する(S16)。そして、プロセッサ102は、比較の結果、確度1が閾値1より高ければ、第1処理を実行し(S18)、そうでなければ第2処理を実行する(S20)。また、S14で突合結果が非合致であれば、プロセッサ102は、確度1を閾値1より高い閾値2と比較し(S22)、確度1が閾値2より高ければ、第1処理を実行し(S18)、そうでなければ第2処理を実行する(S20)。
第1処理は、第2処理よりも、人間の作業者の作業量が相対的に少ない処理である。例えば、図1に例示した、OCR結果1を人間の作業者の介入無くそのまま最終的な処理結果として採用する処理が第1処理の例であり、OCR結果をリジェクトして作業者による「確認・修正」を受ける処理が第2処理の例である。
第1処理の別の例としては、作業者にOCR結果1の確認のみを求める処理がある。この処理では、プロセッサ102は、作業者の端末の画面上に入力画像データ50とOCR結果1とを表示し、OCR結果1が正しいかどうかの確認結果の入力を作業者に求める。また、作業者による「確認・修正」に代わる第2処理の別の例としては、作業者に入力画像データ50を提示し、入力画像データ50に含まれる文字列のテキストデータを作業者に入力させる処理がある。
第1処理は、必要とする人間の作業量が第2処理と同じ程度か、または、第2処理よりも少ない。このため、OCR結果1と2との合致や確度1が閾値より高いという特定の条件が満たされる場合に第1処理を選択することで、認識結果の正解率を確保しつつも、人間の作業量が抑えられる。
図3に例示した手順と同様の結果が得られる別の手順を、図4に例示する。図4の手順は、突合処理(S12)の前に、確度1と閾値2との比較(S22)を実行することにより、OCR2の認識処理を省略できる場合を作り出す。
この手順では、プロセッサ102は、まずOCR1から入力画像データ50に対するOCR結果1と確度1を取得する(S10a)。この時点では、OCR2は、入力画像データ50に対する文字認識を実行していなくてよい。次にプロセッサ102は、確度1が閾値2より高いか否かを判定する(S22)。S22の判定結果がYesの場合、プロセッサ102は、第1処理を実行する(S18)。
S22の判定結果がNoの場合、プロセッサ102は、OCR2に入力画像データ50に対する文字認識を実行させてOCR結果2を取得する(S10b)。次にプロセッサ102は、OCR結果1と2とを突合し(S12)、その突合の結果が合致、非合致のいずれであるかを判定する(S14)。突合結果が合致の場合、プロセッサ102は、確度1を閾値1と比較する(S16)。そして、プロセッサ102は、比較の結果、確度1が閾値1より高ければ、第1処理を実行し(S18)、そうでなければ第2処理を実行する(S20)。一方、S14で非合致と判定した場合は、プロセッサ102は、第2処理を実行する(S20)。
図4の手順では、S22の判定結果がYesとなった場合、OCR結果2は不要なので、OCR2は文字認識を行わないままでよい。したがって、OCR2をプロセッサ102の処理により実現している場合は、OCR2が文字認識を行わない分だけプロセッサ102の負荷が低減される。また、OCR2として外部のOCRサービスを用いている場合は、その外部サービスを利用しない分だけ、システム全体の処理量や処理に要する人的または物理的な費用が下がる。
以上、図1〜図4を用いて説明したシステム又は処理手順では、OCR結果1と2との突合結果が合致の場合でも、更に確度1が閾値1より高いという条件を満たして初めて、その合致したOCR結果をシステムの最終的な認識結果として採用する。したがって、信頼性が低い(すなわち確度が低い)OCR結果同士が偶然合致したことにより最終的な認識結果として採用されてしまうという事態が防がれる。
また、図1のシステムでは、OCR結果1と2の突合結果が非合致の場合でも、ただちにそれらOCR結果をリジェクトすることはしない。この場合、システムは、確度1が、上述した合致の場合よりも厳しい条件である、確度1が閾値1より高い閾値2より高いこと、を満たすかどうか調べ、満たせば、OCR結果1を最終的な処理結果として採用する。このように、非合致の場合でも、OCR結果1の確度1が非常に高ければOCR結果1を採用するのである。これにより、非合致ならば直ちにOCR結果をリジェクトする従来方式よりも、人間の介入による作業工数が低減される。
単一のOCRを用い、そのOCRが求めたOCR結果についての確度が閾値より高い場合、そのOCR結果を採用する方式は従来も存在する。しかし、この従来方式は、単独のOCRによるOCR結果に対して適用されるものである。このときに用いられる閾値は、かなり高い値である。これに対して、図1のシステムの閾値比較部14が用いる閾値1は、OCR結果1と2が合致した場合に適用されるものであり、従来方式の閾値よりも低い値としてもよい。異なる認識方式で求められた2つのOCR結果が一致していることで、OCR結果1が正解である可能性がある程度高いものと考えられるので、最終的な採否を判定する閾値1がある程度低くても、従来方式と同程度の正解率が達成される。
一方、閾値2としては従来方式で用いた閾値と同じ値を用いれば、従来方式と同程度の正解率が実現される。
このことを、図5を参照して説明する。図5に示すグラフ(a)は、単一のOCRを用いる従来方式において、多数の入力画像についてのOCR結果のうち正認識であったものの頻度分布と、誤認識であったものの頻度分布を示す。横軸は確度である。グラフ(a)から分かるように、確度がある程度以上高いと誤認識はほぼ無くなるが、確度がある程度低い範囲の中には、正認識と誤認識とが混在する区間がある。このような分布では、OCRの正解率(すなわち全体に対する正認識の率)を従来方式と同程度以上とするには、図中に示す閾値Aを採用する必要がある。
これに対し、図5に示すグラフ(b)は、図1〜図4を用いて説明したシステムでの、多数の入力画像について得られた正認識と誤認識の頻度分布を示す。この頻度分布は、OCR結果1と2の突合の結果が合致である場合についての、確度を横軸とした場合の、正認識の頻度分布と誤認識の頻度分布である。グラフ(b)は突合結果が合致の場合についてのものなので、正認識の割合が合致と非合致の両方を含む一般的な場合よりも高くなる。その結果、従来方式と同程度以上の正解率を得るためには、従来方式の閾値Aよりも低い閾値Bで十分となる。低い閾値を用いた分だけ、非リジェクトとなるOCR結果(すなわち人間の作業量が少ない第1処理が適用されるOCR結果)が多くなり、人間の作業量が削減される。すなわち、突合結果が合致したケースについては、人間の作業量の削減が見込まれる。
一方、突合結果が非合致の場合の閾値2として、従来方式と閾値Aと同程度の値を用いれば、従来方式と同程度の正解率が期待される。この非合致の場合に必要となる人間の作業量は、従来方式と同程度と見込まれる。
したがって、合致と非合致の両方を総合した場合、本実施形態のシステムは、合致の場合の作業量削減の分だけ、従来方式よりも人間の作業量が少なくて済む。
<合致の場合に確度1及び2を考慮する例>
<合致の場合に確度1及び2を考慮する例>
図6を参照して、図3の処理手順の変形例を説明する。図6の処理手順のうち、図3の処理手順のステップと同様の処理を表すステップには、同一符号を付して、重複した説明は省略する。
図6の処理手順では、S14でOCR結果1と2とが合致したと判定した場合、プロセッサ102は、確度1を閾値1−1と比較する(S24)と共に、確度2を閾値1-2と比較する(S26)。そして、プロセッサ102は、S24及びS26の判定結果が共にYesの場合に第1処理を実行し(S18)、S24及びS26の判定結果のいずれか一方でもNoであれば第2処理を実行する(S20)。
図3の処理手順ではOCR結果1と2が合致した場合に確度1のみを検査していた。これに対して、図6の処理手順では同様の場合に確度1と2の両方を検査し、それら両方が対応する閾値1−1及び閾値1−2より高い場合にのみ、第1処理(S18)を選択する。このため、閾値1−1は、図3の処理手順で確度1と比較していた閾値1よりも低い値でよい。
図6の処理手順では、図3の処理手順の閾値1より低い閾値1−1を用いることにより、非リジェクトとなるOCR結果が少なくなり、ひいては人間の作業量が低減される。このことを、図7を参照して説明する。
図7は、多数のサンプル入力画像をそれぞれOCR1及び2で認識させたときのOCR結果の散布図500を示し、縦軸は確度1、横軸は確度2である。確度1は上に行くほど高い値であり、確度2は左に行くほど高い値である。濃色の菱形のプロット502は正認識のサンプルを示し、淡色の正方形及び三角形のプロット504及び506は誤認識のサンプルを示す。
図7に示す分布では、確度1のみを用いて正解率を100%とするには、確度1が図示の閾値1より高くなる必要がある。これに対して、確度1と2の両方を用いる場合、確度1が図示の閾値1−1より高く、且つ確度2が閾値1−2より高ければ、正解率100%となる。確度1が閾値1より高い範囲と、確度1が閾値1−1より高く且つ確度2が閾値1−2より高い範囲とを比較した場合、後者の範囲の方が、内包する正認識のプロット502の数が多い。したがって、後者の方が、人間の作業量が相対的に少ない第1処理が適用されるOCR結果の数が多い分だけ、システム全体として必要となる人間の作業量が少なくなる。
なお、図6の処理手順についても、図3の処理手順の場合と同様、突合の前にS22を実行する変形例(図4参照)と同様の変形例が考えられる。
<確度1と2の両方を用いる例>
<確度1と2の両方を用いる例>
次に、合致と非合致の両方で、確度1と2の両方を用いる処理手順の例を説明する。
この手順では、図8に例示する閾値曲線201及び202を用いる。図8の(a)及び(b)は、横軸に確度1、縦軸に確度2をとった2次元の座標空間を示す。閾値曲線201及び202は、その2次元空間における閾値を示す曲線である。
閾値曲線201は、OCR結果1と2の突合結果が合致の場合に用いる閾値曲線である。OCR結果に対する確度1と2の組が示す座標が閾値曲線201以下の位置にある場合、そのOCR結果はリジェクトされる(すなわち第2処理が適用される)。逆にその座標が閾値曲線201より上にある場合には、そのOCR結果は非リジェクトとなる、すなわち、そのOCR結果に対して第1処理が適用される。
閾値曲線202は、OCR結果1と2の突合結果が非合致の場合に用いる閾値曲線である。確度1と2からなる座標と閾値曲線202との上限関係と、対応するOCR結果のリジェクト・非リジェクトの関係は、閾値曲線201の場合と同様である。
非合致の場合に用いる閾値曲線202は、合致の場合に用いる閾値曲線201よりも上に位置する。すなわち、非合致の場合の方が、合致の場合よりも、OCR結果に対して第1処理が適用されるために必要な確度は高くなる。
図9に、この例におけるプロセッサの処理手順を例示する。図9の手順では、プロセッサ102は、まず、OCR1からOCR結果1と確度1を、OCR2からOCR結果2と確度2を、それぞれ取得する(S10c)。次にプロセッサ102は、OCR結果1と2とを突合し(S12)、両者が合致したか否かを判定する(S14)。S14の判定結果がYesの場合、プロセッサ102は補助記憶装置106に記憶されている閾値曲線1(すなわち図8の閾値曲線201)を選択する(S30)。一方、S14の判定結果がNoの場合、プロセッサ102は補助記憶装置106に記憶されている閾値曲線2(図8の閾値曲線202)を選択する(S32)。次に、プロセッサ102は、S10cで取得した確度1と2の組が示す座標(確度1,確度2)が、先に選択した閾値曲線より上に位置するか否かを判定する(S34)。その座標と座標原点(すなわち確度1=0且つ確度2=0の点)とを結ぶ線分が閾値曲線と交わる場合、その座標は閾値曲線より上に位置し、そうでない場合はその座標はその閾値曲線以下の位置にある。
S34の判定結果がYesの場合、プロセッサ102はOCR結果に対して第1処理を適用し(S18a)、そうでない場合はOCR結果に対して第2処理を適用する(S20a)。ここで、OCR1及び2のうちの一方が基準OCRに選択されている場合は、S18a及びS20aでは、基準OCRのOCR結果を第1処理及び第2処理の対象とすればよい。また、基準OCRを定めない場合には、OCR結果1と2が非合致であれば、S18a及びS20aでは、OCR結果1と2のうち、対応する確度1と2のうち相対的に高い方に対応するOCR結果を処理対象としてもよい。
確度1と2の組が示す座標と閾値曲線との比較により非リジェクトと判定され第1処理が適用されるか、リジェクトと判定され第2処理が適用されることにより、図1及び図3の例よりも、非リジェクトとなるケースが多くなる。このことは、人間の作業量の低減に繋がる。
なお、閾値曲線といった場合の「曲線」は、数学的な意味での曲線である。したがって、閾値曲線は、直線であってもよいし、折れ線であってもよい。例えば、図10に例示する閾値曲線203は、確度1=閾値1の直線分と、確度2=閾値2の直線分とからなる。
<確度1と2の両方を用いる第2の例>
<確度1と2の両方を用いる第2の例>
次に、合致と非合致の両方で、確度1と2の両方を用いる処理手順の第2の例を、図11を参照して説明する。
図11の手順では、T1−1、T1−2、T2−1、T2−2という4つの閾値を用いる。T1−1とT1−2は共に確度1についての閾値であり、T1−1はT1−2より大きい。一方、T2−1とT2−2は共に確度2についての閾値であり、T2−1はT2−2より大きい。
この手順では、プロセッサ102は、まず、OCR1からOCR結果1と確度1を、OCR2からOCR結果2と確度2を、それぞれ取得する(S10c)。次にプロセッサ102は、確度1がT1−1より高いか否かを判定する(S40)。S40の判定結果がYesの場合、プロセッサ102は、OCR結果1に対して第1処理を実行する(S42)。図示例では、第1処理は、対象であるOCR結果をそのままシステムの最終的な認識結果として出力する処理である。S40の判定結果がNoの場合、プロセッサ102は、確度2がT2−1より高いか否かを判定する(S44)。S4の判定結果がYesの場合、プロセッサ102は、OCR結果2に対して第1処理を実行する(S46)。S40及びS42と、S44及びS46とのどちらを先に実行するかは、OCR1と2のどちらを重視するかによる。図11の例は、OCR1を重視する場合の例である。
S44の判定結果がNoの場合、プロセッサ102は、確度1がT1−2より高いか否かを判定し(S48)、この判定結果がYesの場合、S52の処理に進む。S48の判定結果がNoの場合、プロセッサ102は、確度2がT2−2より高いか否かを判定し(S50)、この判定結果がYesの場合、S52の処理に進む。
S48及びS50の判定結果がともにNoの場合、プロセッサ102は、OCR結果1及び2に対して第2処理(例えばリジェクト)を適用する(S58)。この場合、例えば、人間による「確認・修正」処理を求める。
一方、S52では、プロセッサ102はOCR結果1と2を突合し、続くS54でプロセッサ102はその突合の結果が合致か非合致かを判定する。この突合にてそれら両者が合致した場合、プロセッサ102は、合致したOCR結果に対して第1処理(例えばそのOCR結果をシステムの最終的な認識結果として出力)を実行する(S56)。S54で突合結果が非合致と判定した場合、プロセッサ102は、合致したOCR結果に対して第2処理(例えばリジェクト)を適用する(S58)。
なお、図11の手順では、S10cにて、OCR1からOCR結果1等を取得するのと同時にOCR2からOCR結果2等を取得したが、OCR2からのOCR結果2等の取得は、S40の判定結果がNoとなった後、S44の判定を実行する前の時点まで繰り下げてもよい。
図11の手順では、第1処理と第2処理のいずれを選択するかを確度1又は2のうちの一方と閾値との比較のみに基づいて決める方式、よりも、第1処理が適用される割合が高くなる。
<3つのOCRを用いる例>
<3つのOCRを用いる例>
上述の図8及び図9を用いて説明した例は、2つのOCRの確度の組が表す2次元座標が閾値曲線の上下のいずれに位置するかにより、OCR結果に対して第1処理及び第2処理のいずれを適用するかを判定した。これに対し、以下では、3つのOCRを用いるシステムを例示する。3つのOCRは、互いに異なる文字認識処理を実行するものである。
図示は省略するが、この例のシステムは、3つのOCR、すなわちOCR1、OCR2及びOCR3を有する。OCR3は、入力画像データ50に対してOCR処理を実行することにより、OCR結果3及び確度3を求めて出力する。OCR1及び2については、上述の例と同様である。
確度1、2及び3をそれぞれ座標軸とする3次元空間内に、閾値曲面が規定できる。また、同じ入力画像データ50に対応する確度1、2及び3の組は、その3次元空間内の1つの3次元座標を表す。この例ではその3次元座標が閾値曲面の上下のいずれに位置するかにより、OCR結果に対して第1処理及び第2処理のいずれを適用するかを判定する。
また、この例では、OCR結果1〜3を突合し、その突合の結果に応じて閾値曲面を選択する。例えば、突合の結果、OCR結果1〜3が互いに合致する場合(すなわちOCR結果1=OCR結果2=OCR結果3の場合)には、図12の分図(A)に示す閾値曲面210Aを選択する。図では表現できないが、閾値曲面210Aは、その3次元空間内の0≦確度1≦1、0≦確度2≦1、且つ0≦確度3≦1である範囲内の曲面である。また、OCR結果1=OCR結果2≠OCR結果3の場合は図12の分図(B)に示す閾値曲面210Bを、OCR結果1≠OCR結果2=OCR結果3の場合は図12の分図(C)に示す閾値曲面210Cを、OCR結果2≠OCR結果3=OCR結果1=の場合は図12の分図(D)に示す閾値曲面210Dを、それぞれ選択する。分図(B)〜(D)は、合致した2つのOCR結果に対応する2つの確度の座標軸からなる平面に対して閾値曲面を射影した状態を示している。またOCR結果1〜3が全て非合致(すなわちどの2つを取っても合致しない)場合は、図12の分図(E)に示す閾値曲面210Eを選択する。
閾値曲面210Aは、閾値曲面210B、C及びDのいずれよりも上に位置する。すなわち、閾値曲面210A上のどの点をついてもその点とその3次元空間の原点を結ぶ線分は閾値曲面210B、C及びDと交わるが、閾値曲面210B、C又はD上のどの点についてもその点とその原点を結ぶ線分は閾値曲面210Aと交わらない。また、閾値曲面210B、C及びDは、閾値曲面210Eよりも上に位置する。当然、閾値曲面210Aは閾値曲面310Eよりも上にある。
図13に、この例の処理手順を例示する。この手順では、まずプロセッサ102は、OCR1〜3からOCR結果1〜3及び確度1〜3を取得する(S100c)。次にプロセッサ102は、OCR結果1〜3を突合する(S102)。プロセッサ102は、その突合の結果、OCR結果1〜3の全てが互いに合致したか否かを判定し(S104)、この判定の結果がYesの場合は、補助記憶装置106に記憶されている閾値曲線210A(図12参照)を選択する(S106)。S104の判定結果がNoの場合、プロセッサ102は、OCR結果1と2が合致したか否かを判定し(S108)、この判定の結果がYesの場合は、補助記憶装置106に記憶されている閾値曲線210Bを選択する(S110)。S108の判定結果がNoの場合、プロセッサ102は、OCR結果2と3が合致したか否かを判定し(S112)、この判定の結果がYesの場合は、補助記憶装置106に記憶されている閾値曲線210Cを選択する(S114)。S112の判定結果がNoの場合、プロセッサ102は、OCR結果3と1が合致したか否かを判定し(S116)、この判定の結果がYesの場合は、補助記憶装置106に記憶されている閾値曲線210Dを選択する(S118)。S116の判定結果がNoの場合は、OCR結果1〜3が全て非合致である。この場合、プロセッサ102は、補助記憶装置106に記憶されている閾値曲線210Eを選択する(S120)。S106、S110、S114、S118又はS120の後、プロセッサ102は、S122の処理を実行する。S112では、プロセッサ102は、確度1〜3の組が表す3次元座標が、S106、S110、S114、S118又はS120で選択された閾値曲線より上に位置するか否かを判定する。そしてプロセッサ102は、S122の判定の結果がYesの場合は第1処理を実行し(S124)、Noの場合はその第1処理より人間の作業量が多い第2処理を実行する(S126)。第1処理は、例えば、対象とするOCR結果をシステムの最終的な認識結果として出力する処理である。また、第2処理は、例えば、人間の作業者からOCR結果の「確認・修正」を受ける処理である。
S104、S108、S112又はS116の判定結果がYesであった場合、S124及びS126では、合致したOCR結果を対象として第1処理及び第2処理を行えばよい。また、S116の判定結果がNoの場合は、あらかじめ選ばれている基準のOCRのOCR結果、又は確度1〜3のうち最も高い確度に対応するOCR結果、を対象として第1処理及び第2処理を行えばよい。
この例で用いる閾値曲面は、数学的な意味での曲面である。したがって、閾値曲面が平面である場合もあり得る。
<3つのOCRを用いる第2の例>
<3つのOCRを用いる第2の例>
次に、3つのOCRを用いる第2の例を、図14を参照して説明する。
図14に示す手順では、まずプロセッサ102は、OCR1〜3からOCR結果1〜3及び確度1〜3を取得する(S100c)。次にプロセッサ102は、確度1、2、3の順に、確度1、2、3が、それぞれに対応する予め定められた閾値T1−1、T2−1、T3−1より高いかどうかを判定する(S150)。対応する閾値よりも高い確度が見つかった時点で、S150の判定結果はYesとなり、S152に進む。例えば、確度1が閾値T1−1より高ければ、S150の判定結果はYesとなり、確度2及び3については閾値との比較は行わず、S152に進む。S152では、対応する閾値よりも高い確度に対応するOCR結果に対して第1処理(例えばそのOCR結果をシステムの認識結果として出力する処理)を実行する。この例は、OCR1を最も重視し、その次にOCR2を重視し、OCR3は最も重視しない場合のものである。
確度1、2、3のすべてが、それぞれ、対応する閾値T1−1、T2−1、T3−1以下であれば、S150の判定結果がNoとなる。この場合、プロセッサ102は、確度1が閾値T1−12より高いこと、又は確度2が閾値T2−12より高いこと、の少なくとも一方が成立するか判定する(S154)。T1−12は、上述したT1−1より低い予め定められた値であり、T2−12は、上述したT2−1より低い予め定められた値である。S154の判定の結果がYesであれば、プロセッサ102はOCR結果1と2を突合し(S156)、両者が合致したか否かを判定する(S170)。合致した場合、プロセッサ102は、合致したOCR結果を対象として第1処理(例えばそのOCR結果を出力する処理)を実行し(S172)、非合致の場合は、第2処理(例えば合致したOCR結果に対して作業者の「確認・修正」を受ける処理)を実行する(S174)。
S154の判定結果がNoの場合、プロセッサ102は、確度1が閾値T1−13より高いこと、又は確度3が閾値T3−13より高いこと、の少なくとも一方が成立するか判定する(S158)。T1−13は、上述したT1−1より低い予め定められた値であり、T3−13は、上述したT3−1より低い予め定められた値である。S158の判定の結果がYesであれば、プロセッサ102はOCR結果1と3を突合し(S160)、その後S170〜S174の処理を実行する。
S158の判定結果がNoの場合、プロセッサ102は、確度2が閾値T2−23より高いこと、又は確度3が閾値T3−23より高いこと、の少なくとも一方が成立するか判定する(S162)。T2−23は、上述したT2−1より低い予め定められた値であり、T3−23は、上述したT3−1より低い予め定められた値である。S162の判定の結果がYesであれば、プロセッサ102はOCR結果2と3を突合し(S164)、その後S170〜S174の処理を実行する。
S162の判定結果がNoの場合、プロセッサ102は、確度1が閾値T1−123より高いこと、確度2が閾値T2−123より高いこと、又は確度3が閾値T3−123より高いこと、の少なくとも1つが成立するか判定する(S166)。T1−123は、上述したT1−1、T1−12、及びT1−13のいずれよりも低い、予め定められた値である。T2−123は、上述したT2−1、T2−12、及びT2−23のいずれよりも低い、予め定められた値である。またT3−123は、上述したT3−1、T3−13、及びT3−23のいずれよりも低い、予め定められた値である。S166の判定の結果がYesであれば、プロセッサ102はOCR結果1〜3を突合し(S168)、OCR結果1〜3の全てが互いに合致したか否かを判定する(S170)。そして、S170の判定結果がYesであればS172を、NoであればS175を実行する。
S166の判定結果がNoの場合は、プロセッサ102は、第2処理(例えばOCR結果を作業者に提示して、「確認・修正」を求める処理)を実行する(S174)。この第2処理は、例えば、最も重視されるOCR1のOCR結果1を対象として行えばよい。また別の例として、第2処理は、確度1〜3のうち最も高い確度に対応するOCR結果を対象として行ってもよい。
<N個のOCRを用いる例>
<N個のOCRを用いる例>
以上、2つのOCRを用いるシステム、及び3つのOCRを用いるシステムの例を説明してきた。次に、より一般的にN個のOCRを用いるシステムの例を説明する。Nは2以上の整数である。N個のOCRは、互いに異なる文字認識処理を実行するものである。
図15に、このシステムの構成を例示する。このシステムは、入力画像データ50を、N個のOCR1、OCR2、OCR3、・・・、OCR(N−1)、OCRNに処理させる。突合部20は、それらN個のOCRから、それぞれOCR結果と確度とを取得し、それらOCR結果同士を突合する。閾値選択部22は、突合部20の突合結果に従って閾値(例えば後述する閾値超曲面)を選択する。閾値比較部24は、N個のOCRから得た確度と、閾値選択部22が選択した閾値とを比較し、その比較の結果に基づいて、第1処理及び第2処理のいずれを実行するかを選択する。図示例では、第1処理は、N個のOCRから得たOCR結果のうち所定の基準に従って選ばれたOCR結果を、システムの最終的な認識結果として出力する処理である。また、第2処理では、「確認・修正」部26が、同様に選ばれたOCR結果を人間の作業者に提示し、確認及び修正を受ける。作業者により確認又は修正を受けた後のOCR結果が、システムの最終的な認識結果として出力される。
ここで、閾値選択部22は、N個のOCRの中から、所定の基準に従って、対象とするOCRグループ(以下「対象グループ」という)を選択する。
この選択に用いる所定の基準は、例えば、同じOCR結果を出力したOCRからなるグループのうち、当該グループに属するOCRの数が最大のものを対象グループに選択する、というものである。例えば、OCR結果Aを出力したOCRが4つあり、OCR結果Bを出力したOCRが2つあり、その他のOCRは互いに異なるOCR結果を出力したとすると、OCR結果Aを出力した4つのOCRからなるグループが対象グループに選ばれる。なお、グループに属するOCRの数が最大のものが複数ある場合は、例えばそれらグループのうち、予め定められた優先順位が最も高いOCRを含むグループを対象グループに選べばよい。
また、別の例として、N個のOCRの中から選ばれた基準のOCRと同じOCR結果を出力したOCRからなるグループを対象グループに選ぶという基準を用いてもよい。
選ばれた対象グループに含まれるOCRのことを、採用されたOCRと呼ぶ。言い換えれば、N個のOCRの中からその所定の基準に従って採用したOCRの集合が、対象グループである。
閾値選択部22は、N個のOCRのうちの1以上のOCRからなる全てのグループについて、そのグループに対応する閾値情報を記憶している。これら各グループに対応する閾値情報は、補助記憶装置106に記憶されている。例えば、図16に示すように、N個のOCRにそれぞれ通し番号を割り振り、それら各OCRの番号に対応づけて、そのOCRが対象グループに採用されたか否かを1(採用)と0(非採用)とで表すとする。このようにしてできるNビットの二値コードは、個々のグループを一意に識別する識別コードとなる。補助記憶装置106には、例えばこの識別コードに対応付けて、閾値情報を記憶しておく。
閾値情報としては、例えば、N個のOCRが出力する確度1、2、・・・、Nをそれぞれ座標成分とするN次元空間における超曲面である、閾値超曲面を用いる。Nが2の場合の閾値超曲面は2次元平面内の曲線であり、Nが3の場合の閾値超曲面は3次元空間内の曲面である。
ここで、グループに属するOCRの数nが小さいほど、そのグループに対応する閾値超曲面はN次元空間内で上に位置する。例えば、OCR1と2のOCR結果のみが合致する組合せ(すなわちOCR1と2〜なるグループ)に対応する閾値超曲面は、OCR1,2,3のOCR結果が合致する組合せに対応する閾値超曲面よりも上に位置する。これにより、合致するOCR結果の数が少ないほど、そのOCR結果に第1処理が適用されるための条件、すなわち閾値超曲面が示す閾値、が厳しいものとなる。
閾値選択部22は、補助記憶装置106から、さきに選択した対象グループに対応する閾値情報(例えば閾値超曲面)を読み出し、閾値比較部24に渡す。
閾値比較部24は、その閾値情報を用いて、N個のOCRから取得したN個の確度の組が閾値より高いか否かを判定する。具体的な例では、それらN個の確度の組が示すN次元座標が、対象グループに対応する閾値超曲面より上に位置するか否かを判定する。そして閾値比較部24は、この判定の結果がYesならば第1処理を選択し、そうでなければ第2処理を選択する。
図17を参照して、この例におけるプロセッサ102の処理手順の一例を説明する。この例では、プロセッサ102は、まずN個のOCR1〜NからOCR結果1〜N及び確度1〜Nを取得する(S100d)。次にプロセッサ102は、OCR結果1〜Nを突合し(S140)、その突合の結果に基づき、所定の基準に従って対象グループを判定する(S141)。更にプロセッサ102は、その判定グループに対応する閾値超曲面を選択し(S142)、確度1〜Nが表すN次元座標がその閾値超曲面より上に位置するか否かを判定する(S144)。例えば、そのN次元座標と座標原点とを結ぶ線分がその閾値超曲面と交われば、そのN次元座標はその閾値超曲面より上に有ると判定される。プロセッサ102は、S144の判定結果がYesであれば、その対象グループに対応する合致したOCR結果に対して第1処理を適用し(S146)、そうでなければ第2処理を適用する(S148)。
以上に説明したN個のOCRを用いるシステムでは、OCR結果の全てが合致した場合でも、直ちにそのOCR結果を採用することとはせず、更にそれらOCRの確度が閾値の条件を満たしてはじめてそのOCR結果を採用する。したがって、誤ったOCR結果同士が偶然合致した結果、最終的な認識結果として採用されてしまう、という事態が生じにくくなる。
<閾値設定>
<閾値設定>
本実施形態のシステムは、判定に用いる閾値の設定をユーザから受け付けるUI(ユーザインタフェース)画面を提供していてもよい。
図18に、このUI画面600を例示する。このUI画面600は、図6に例示した手順で用いる閾値1−1、閾値1−2、閾値2を設定するためのものである。
このUI画面600は、図7に例示したのと同様の散布図500を表示する。この散布図500上で、確度1に対する閾値1−1及び閾値2と、確度2に対する閾値1−2の設定を受け付ける。閾値1−1及び閾値2は、それぞれ散布図500を横切る水平な線で示され、閾値1−2は散布図500と交わる縦方向の線として示される。閾値1−1の入力欄602、閾値1−2の入力欄604、閾値2の入力欄606に対して、ユーザはそれぞれ閾値の値を入力する。散布図500上に示される各閾値の線は、それら入力欄602〜606内の閾値に応じた位置に表示される。
またUI画面600内には、認識率表示欄610と割合表示欄620とが示される。認識率表示欄610には、ユーザが設定した閾値群により実現される認識率が示される。この認識率は、図6の手順において第1処理(S18)を実行した場合の認識率すなわち正解率である。この例では第1処理はOCR結果1をシステムの最終的な認識結果として出力するものとする。この場合に表示される認識率は、設定された閾値群のもとで、S24及びS26の判定結果が共にYesとなるサンプル画像群、及びS22の判定結果がYesとなるサンプル画像群の総数のうち、対応するOCR結果1が正認識であるものの割合である。また、割合表示欄620は、サンプル画像の総数のうち、設定された閾値群のもとで第1処理(S18)が適用されるものの割合を表示する。この割合が高い程、必要な人間の作業量が少なくなる。ユーザは、各閾値をそれぞれ変えながら、認識率表示欄610及び割合表示欄620に表示される値を確認し、所望の性能が得られる閾値の組合せを決定する。
<次元圧縮>
<次元圧縮>
以上の例では、N個の確度からなるN次元空間上で閾値処理を行っていたが、そのN次元の空間をより次元数の少ない空間に圧縮してから閾値処理を行ってもよい。
例えば、OCR1と2の2つを用いるシステムにおいて、
X=min(確度1,確度2)
となるXを求め、Xが閾値より高いか否かにより、リジェクトか非リジェクトか、すなわち第2処理を選択するか第1処理を選択するか、を判定してもよい。この例は2次元を1次元に圧縮する例である。
X=min(確度1,確度2)
となるXを求め、Xが閾値より高いか否かにより、リジェクトか非リジェクトか、すなわち第2処理を選択するか第1処理を選択するか、を判定してもよい。この例は2次元を1次元に圧縮する例である。
より一般化すると、u<N(uは2以上の整数)とし、ある関数funcを用いて
(x1,x2,・・・、xu)=func(確度1,確度2,・・・,確度N)
となるu次元のベクトル(x1,x2,・・・、xu)を求める。そして、u次元空間内に規定された閾値超曲面とベクトル(x1,x2,・・・、xu)との位置関係に基づき、リジェクトか非リジェクトかを判定する。
(x1,x2,・・・、xu)=func(確度1,確度2,・・・,確度N)
となるu次元のベクトル(x1,x2,・・・、xu)を求める。そして、u次元空間内に規定された閾値超曲面とベクトル(x1,x2,・・・、xu)との位置関係に基づき、リジェクトか非リジェクトかを判定する。
以上に説明した実施形態はあくまで例示的なものにすぎない。本発明の範囲内で、様々な変形が可能である。
<補遺>
以上に説明した実施形態は、例えば以下に列挙する技術的な構成を示している。
[構成(1)]
プロセッサを備え、
前記プロセッサは、
第1の認識器から、対象データに対する第1の認識結果及び第1の認識確度を取得し、
第2の認識器から、前記対象データに対する第2の認識結果及び第2の認識確度を取得し、
前記第1の認識結果と前記第2の認識結果との突合を実行し、
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致した場合に第1制御を実行し、
前記第1制御は、前記第1の認識確度及び前記第2の認識確度の少なくとも一方に基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力する処理であり、
前記第1の処理のために必要な人の作業量は、前記第2の処理のために必要な人の作業量よりも少ないことを特徴とする、
情報処理装置。
以上に説明した実施形態は、例えば以下に列挙する技術的な構成を示している。
[構成(1)]
プロセッサを備え、
前記プロセッサは、
第1の認識器から、対象データに対する第1の認識結果及び第1の認識確度を取得し、
第2の認識器から、前記対象データに対する第2の認識結果及び第2の認識確度を取得し、
前記第1の認識結果と前記第2の認識結果との突合を実行し、
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致した場合に第1制御を実行し、
前記第1制御は、前記第1の認識確度及び前記第2の認識確度の少なくとも一方に基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力する処理であり、
前記第1の処理のために必要な人の作業量は、前記第2の処理のために必要な人の作業量よりも少ないことを特徴とする、
情報処理装置。
[構成(2)]
前記第1の認識器及び前記第2の認識器のうち前記第1の認識器が基準の認識器として選ばれている場合に、
前記第1制御では、前記第1の認識確度が閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(1)に記載の情報処理装置。
前記第1の認識器及び前記第2の認識器のうち前記第1の認識器が基準の認識器として選ばれている場合に、
前記第1制御では、前記第1の認識確度が閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(1)に記載の情報処理装置。
[構成(3)]
前記プロセッサは、更に、
前記突合を実行する前に、前記第1の認識確度が、前記閾値より高い第2の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記突合は、前記第1の認識確度が前記第2の閾値以下の場合に実行される、
構成(2)に記載の情報処理装置。
前記プロセッサは、更に、
前記突合を実行する前に、前記第1の認識確度が、前記閾値より高い第2の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記突合は、前記第1の認識確度が前記第2の閾値以下の場合に実行される、
構成(2)に記載の情報処理装置。
[構成(4)]
前記第1制御では、前記第1の認識確度が第3の閾値より高く且つ前記第2の認識確度が第4の閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が第3の閾値以下又は前記第2の認識確度が第4の閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(1)に記載の情報処理装置。
前記第1制御では、前記第1の認識確度が第3の閾値より高く且つ前記第2の認識確度が第4の閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が第3の閾値以下又は前記第2の認識確度が第4の閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(1)に記載の情報処理装置。
[構成(5)]
前記第3の閾値は、前記第1制御において前記第2の認識確度を用いない場合において、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかの制御に用いる前記第1の認識確度についての閾値、よりも低い、
構成(4)に記載の情報処理装置。
前記第3の閾値は、前記第1制御において前記第2の認識確度を用いない場合において、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかの制御に用いる前記第1の認識確度についての閾値、よりも低い、
構成(4)に記載の情報処理装置。
[構成(6)]
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致しなかった場合に第2制御を実行し、
前記第2制御は、前記第1の認識確度が前記閾値より高い第2の閾値より高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記第2の閾値以下の場合には、前記第1の認識結果に対して前記第2の処理を実行する制御である、
構成(2)、(4)又は(5)に記載の情報処理装置。
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致しなかった場合に第2制御を実行し、
前記第2制御は、前記第1の認識確度が前記閾値より高い第2の閾値より高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記第2の閾値以下の場合には、前記第1の認識結果に対して前記第2の処理を実行する制御である、
構成(2)、(4)又は(5)に記載の情報処理装置。
[構成(7)]
前記第1制御では、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかを、前記第1の認識確度と前記第2の認識確度の両方に基づいて制御する、
構成(1)に記載の情報処理装置。
前記第1制御では、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかを、前記第1の認識確度と前記第2の認識確度の両方に基づいて制御する、
構成(1)に記載の情報処理装置。
[構成(8)]
前記プロセッサは、更に、
前記突合を実行する前に、前記第1の認識確度が、第5の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記突合を実行する前に、前記第2の認識確度が、第6の閾値よりも高い場合には、前記第2の認識結果に対して前記第1の処理を実行し、
前記突合は、前記第1の認識確度が前記第5の閾値以下であり且つ前記第2の認識確度が前記第6の閾値以下の場合に実行される、
構成(7)に記載の情報処理装置。
前記プロセッサは、更に、
前記突合を実行する前に、前記第1の認識確度が、第5の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記突合を実行する前に、前記第2の認識確度が、第6の閾値よりも高い場合には、前記第2の認識結果に対して前記第1の処理を実行し、
前記突合は、前記第1の認識確度が前記第5の閾値以下であり且つ前記第2の認識確度が前記第6の閾値以下の場合に実行される、
構成(7)に記載の情報処理装置。
[構成(9)]
第1座標軸が前記第1の認識確度を表し第2座標軸が前記第2の認識確度を表す2次元空間、の中に閾値曲線が規定され、
前記第1制御では、前記対象データについて前記第1の認識器及び前記第2の認識器から取得した前記第1の認識確度及び前記第2の認識確度をそれぞれ座標成分とする前記2次元空間内での座標が、前記閾値曲線より上に位置する場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記座標が前記閾値曲線上又は前記閾値曲線より下に位置する場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(7)に記載の情報処理装置。
第1座標軸が前記第1の認識確度を表し第2座標軸が前記第2の認識確度を表す2次元空間、の中に閾値曲線が規定され、
前記第1制御では、前記対象データについて前記第1の認識器及び前記第2の認識器から取得した前記第1の認識確度及び前記第2の認識確度をそれぞれ座標成分とする前記2次元空間内での座標が、前記閾値曲線より上に位置する場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記座標が前記閾値曲線上又は前記閾値曲線より下に位置する場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(7)に記載の情報処理装置。
[構成(10)]
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致しなかった場合に第2制御を実行し、
前記第2制御は、前記座標が第2閾値曲線より上に位置する場合には、前記第1の認識結果又は前記第2の認識結果に対して前記第1の処理を実行し、前記座標が前記第2閾値曲線上又は前記第2閾値曲線より下に位置する場合には、前記第1の認識結果又は前記第2の認識結果に対して前記第2の処理を実行する制御であり、
前記第2閾値曲線は、前記第1制御に用いられる前記閾値曲線より前記2次元空間内で上に位置する、
構成(8)に記載の情報処理装置。
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致しなかった場合に第2制御を実行し、
前記第2制御は、前記座標が第2閾値曲線より上に位置する場合には、前記第1の認識結果又は前記第2の認識結果に対して前記第1の処理を実行し、前記座標が前記第2閾値曲線上又は前記第2閾値曲線より下に位置する場合には、前記第1の認識結果又は前記第2の認識結果に対して前記第2の処理を実行する制御であり、
前記第2閾値曲線は、前記第1制御に用いられる前記閾値曲線より前記2次元空間内で上に位置する、
構成(8)に記載の情報処理装置。
[構成(11)]
前記第2の制御において前記第1の処理又は前記第2の処理の対象とする認識結果は、前記第1の認識確度及び前記第2の認識確度のうちの高い方に対応する認識結果である、構成(10)に記載の情報処理装置。
前記第2の制御において前記第1の処理又は前記第2の処理の対象とする認識結果は、前記第1の認識確度及び前記第2の認識確度のうちの高い方に対応する認識結果である、構成(10)に記載の情報処理装置。
[構成(12)]
前記プロセッサは、更に
第3の認識器から、前記対象データに対する第3の認識結果及び第3の認識確度を取得し、
前記突合では、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果と、の突合を実行し、
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのすべてが合致した場合に、前記第1制御に代えて第3制御を実行し、
前記第3制御は、前記第1の認識確度と前記第2の認識確度と前記第3の認識確度とのうちの少なくとも一つに基づいて、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれかを実行して処理結果を出力することである、
構成(1)に記載の情報処理装置。
前記プロセッサは、更に
第3の認識器から、前記対象データに対する第3の認識結果及び第3の認識確度を取得し、
前記突合では、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果と、の突合を実行し、
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのすべてが合致した場合に、前記第1制御に代えて第3制御を実行し、
前記第3制御は、前記第1の認識確度と前記第2の認識確度と前記第3の認識確度とのうちの少なくとも一つに基づいて、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれかを実行して処理結果を出力することである、
構成(1)に記載の情報処理装置。
[構成(13)]
第1座標軸が前記第1の認識確度を表し第2座標軸が前記第2の認識確度を表し第3座標軸が前記第3の認識確度を表す3次元空間、の中に閾値曲面が規定され、
前記第3制御では、前記対象データについて前記第1の認識器及び前記第2の認識器及び前記第3の認識器から取得した前記第1の認識確度及び前記第2の認識確度及び前記第3の認識確度に対応する前記3次元空間内での座標が、前記閾値曲面より上に位置する場合には、合致した前記認識結果を出力し、前記座標が前記閾値曲面上又は前記閾値曲面より下に位置する場合には、合致した前記認識結果を出力しない、
構成(12)に記載の情報処理装置。
第1座標軸が前記第1の認識確度を表し第2座標軸が前記第2の認識確度を表し第3座標軸が前記第3の認識確度を表す3次元空間、の中に閾値曲面が規定され、
前記第3制御では、前記対象データについて前記第1の認識器及び前記第2の認識器及び前記第3の認識器から取得した前記第1の認識確度及び前記第2の認識確度及び前記第3の認識確度に対応する前記3次元空間内での座標が、前記閾値曲面より上に位置する場合には、合致した前記認識結果を出力し、前記座標が前記閾値曲面上又は前記閾値曲面より下に位置する場合には、合致した前記認識結果を出力しない、
構成(12)に記載の情報処理装置。
[構成(14)]
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのうち2つが合致し、残りの1つがそれら2つと合致しなかった場合に第4制御を実行し、
前記第4制御は、前記座標が第2閾値曲面より上に位置する場合には、合致した前記認識結果を出力し、前記座標が前記第2閾値曲面上又は前記第2閾値曲面より下に位置する場合には、合致した前記認識結果を出力しない制御であり、
前記第2閾値曲面は、前記第1制御に用いられる前記閾値曲面より前記3次元空間内で上に位置する、
構成(13)に記載の情報処理装置。
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのうち2つが合致し、残りの1つがそれら2つと合致しなかった場合に第4制御を実行し、
前記第4制御は、前記座標が第2閾値曲面より上に位置する場合には、合致した前記認識結果を出力し、前記座標が前記第2閾値曲面上又は前記第2閾値曲面より下に位置する場合には、合致した前記認識結果を出力しない制御であり、
前記第2閾値曲面は、前記第1制御に用いられる前記閾値曲面より前記3次元空間内で上に位置する、
構成(13)に記載の情報処理装置。
[構成(15)]
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのうちどの2つが合致したかに応じて、前記第2閾値曲面として異なる曲面を用いる、
構成(14)に記載の情報処理装置。
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのうちどの2つが合致したかに応じて、前記第2閾値曲面として異なる曲面を用いる、
構成(14)に記載の情報処理装置。
[構成(16)]
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのうちのどの2つも合致しなかった場合に第5制御を実行し、
前記第5制御は、前記座標が第3閾値曲面より上に位置する場合には、合致した前記認識結果を出力し、前記座標が前記第3閾値曲面上又は前記第2閾値曲面より下に位置する場合には、合致した前記認識結果を出力しない制御であり、
前記第3閾値曲面は、前記第2閾値曲面より前記3次元空間内で上に位置する、
構成(14)又は(15)に記載の情報処理装置。
前記突合の結果、前記第1の認識結果と前記第2の認識結果と前記第3の認識結果とのうちのどの2つも合致しなかった場合に第5制御を実行し、
前記第5制御は、前記座標が第3閾値曲面より上に位置する場合には、合致した前記認識結果を出力し、前記座標が前記第3閾値曲面上又は前記第2閾値曲面より下に位置する場合には、合致した前記認識結果を出力しない制御であり、
前記第3閾値曲面は、前記第2閾値曲面より前記3次元空間内で上に位置する、
構成(14)又は(15)に記載の情報処理装置。
[構成(17)]
前記プロセッサは、更に
k=3からk=N(Nは3以上の整数)までの各kについて、第kの認識器から、前記対象データに対する第kの認識結果及び第kの認識確度を取得し、
前記突合では、k=1からk=Nまでの各kについての前記第kの認識結果同士の突合を実行し、
前記突合の結果、k=1からk=Nまでの各kについての前記第kの認識結果のすべてが合致した場合に、前記第1制御に代えて第3制御を実行し、
前記第3制御は、k=1からk=Nまでの各kについての前記第kの認識確度のうちの少なくとも一つに基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力することである、
構成(1)に記載の情報処理装置。
前記プロセッサは、更に
k=3からk=N(Nは3以上の整数)までの各kについて、第kの認識器から、前記対象データに対する第kの認識結果及び第kの認識確度を取得し、
前記突合では、k=1からk=Nまでの各kについての前記第kの認識結果同士の突合を実行し、
前記突合の結果、k=1からk=Nまでの各kについての前記第kの認識結果のすべてが合致した場合に、前記第1制御に代えて第3制御を実行し、
前記第3制御は、k=1からk=Nまでの各kについての前記第kの認識確度のうちの少なくとも一つに基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力することである、
構成(1)に記載の情報処理装置。
[構成(18)]
k=1からk=Nまでの各kについて第k座標軸が前記第kの認識確度をそれぞれ表すN次元空間、の中に閾値超曲面が規定され、
前記第3制御では、k=1からk=Nまでの各kについての前記第kの認識確度をそれぞれ座標成分とするN次元座標が、前記閾値超曲面より上に位置する場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記N次元座標が前記閾値超曲面上又は前記閾値超曲面より下に位置する場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(17)に記載の情報処理装置。
k=1からk=Nまでの各kについて第k座標軸が前記第kの認識確度をそれぞれ表すN次元空間、の中に閾値超曲面が規定され、
前記第3制御では、k=1からk=Nまでの各kについての前記第kの認識確度をそれぞれ座標成分とするN次元座標が、前記閾値超曲面より上に位置する場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記N次元座標が前記閾値超曲面上又は前記閾値超曲面より下に位置する場合には、合致した前記認識結果に対して前記第2の処理を実行する、
構成(17)に記載の情報処理装置。
[構成(19)]
n=1からNまでの各nについて、n個の前記認識器からなるグループごとに前記閾値超曲面が規定されており、
前記プロセッサは、
前記突合の結果、互いに合致した認識結果を出力した1以上の前記認識器からなるグループの中から所定の基準に従って対象グループを選択し、前記N次元座標が前記対象グループに対して規定された前記閾値超曲面より上に位置する場合には、前記対象グループ内で合致した前記認識結果に対して前記第1の処理を実行し、前記N次元座標が前記閾値超曲面上又は前記閾値超曲面より下に位置する場合には、前記対象グループ内で合致した前記認識結果に対して前記第2の処理を実行する、
ことを特徴とする構成(18)に記載の情報処理装置。
n=1からNまでの各nについて、n個の前記認識器からなるグループごとに前記閾値超曲面が規定されており、
前記プロセッサは、
前記突合の結果、互いに合致した認識結果を出力した1以上の前記認識器からなるグループの中から所定の基準に従って対象グループを選択し、前記N次元座標が前記対象グループに対して規定された前記閾値超曲面より上に位置する場合には、前記対象グループ内で合致した前記認識結果に対して前記第1の処理を実行し、前記N次元座標が前記閾値超曲面上又は前記閾値超曲面より下に位置する場合には、前記対象グループ内で合致した前記認識結果に対して前記第2の処理を実行する、
ことを特徴とする構成(18)に記載の情報処理装置。
[構成(20)]
前記所定の基準は、互いに合致した認識結果を出力した1以上の前記認識器からなるグループのうち、当該グループに属する前記認識器の数が最大であるグループを前記対象グループに選択するという基準である、
構成(19)に記載の情報処理装置。
前記所定の基準は、互いに合致した認識結果を出力した1以上の前記認識器からなるグループのうち、当該グループに属する前記認識器の数が最大であるグループを前記対象グループに選択するという基準である、
構成(19)に記載の情報処理装置。
[構成(21)]
前記n個の前記認識器からなるグループごとに規定された前記閾値超曲面は、前記nが小さいほど前記N次元空間において上に位置する、
構成(19)又は(20)に記載の情報処理装置。
前記n個の前記認識器からなるグループごとに規定された前記閾値超曲面は、前記nが小さいほど前記N次元空間において上に位置する、
構成(19)又は(20)に記載の情報処理装置。
10,20 突合部、12,14,24 閾値比較部、16,18 後段処理部、22 閾値選択部、26 確認修正部、50 入力画像データ、102 プロセッサ、104 メモリ、106 補助記憶装置、108 入出力装置、110 ネットワークインタフェース、112 バス。
Claims (10)
- プロセッサを備え、
前記プロセッサは、
第1の認識器から、対象データに対する第1の認識結果及び第1の認識確度を取得し、
第2の認識器から、前記対象データに対する第2の認識結果及び第2の認識確度を取得し、
前記第1の認識結果と前記第2の認識結果との突合を実行し、
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致した場合に第1制御を実行し、
前記第1制御は、前記第1の認識確度及び前記第2の認識確度の少なくとも一方に基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力する処理であり、
前記第1の処理のために必要な人の作業量は、前記第2の処理のために必要な人の作業量よりも少ないことを特徴とする、
情報処理装置。 - 前記第1制御では、前記第1の認識確度が閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が前記閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
請求項1に記載の情報処理装置。 - 前記プロセッサは、更に、
前記突合を実行する前に、前記第1の認識確度が、前記閾値より高い第2の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記突合は、前記第1の認識確度が前記第2の閾値以下の場合に実行される、
請求項2に記載の情報処理装置。 - 前記第1制御では、前記第1の認識確度が第3の閾値より高く且つ前記第2の認識確度が第4の閾値より高い場合には、合致した前記認識結果に対して前記第1の処理を実行し、前記第1の認識確度が第3の閾値以下又は前記第2の認識確度が第4の閾値以下の場合には、合致した前記認識結果に対して前記第2の処理を実行する、
請求項1に記載の情報処理装置。 - 前記第3の閾値は、前記第1制御において前記第2の認識確度を用いない場合において、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかの制御に用いる前記第1の認識確度についての前記閾値、よりも低い、
請求項4に記載の情報処理装置。 - 前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致しなかった場合に第2制御を実行し、
前記第2制御は、前記第1の認識確度が前記閾値より高い第2の閾値より高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記第1の認識確度が前記第2の閾値以下の場合には、前記第1の認識結果に対して前記第2の処理を実行する制御である、
請求項2、4又は5に記載の情報処理装置。 - 前記第1制御では、合致した認識結果に対して前記第1の処理と前記第2の処理のいずれを実行するかを、前記第1の認識確度と前記第2の認識確度の両方に基づいて制御する、
請求項1に記載の情報処理装置。 - 前記プロセッサは、更に、
前記突合を実行する前に、前記第1の認識確度が、第5の閾値よりも高い場合には、前記第1の認識結果に対して前記第1の処理を実行し、
前記突合を実行する前に、前記第2の認識確度が、第6の閾値よりも高い場合には、前記第2の認識結果に対して前記第1の処理を実行し、
前記突合は、前記第1の認識確度が前記第5の閾値以下であり且つ前記第2の認識確度が前記第6の閾値以下の場合に実行される、
請求項7に記載の情報処理装置。 - 前記プロセッサは、更に
k=3からk=N(Nは3以上の整数)までの各kについて、第kの認識器から、前記対象データに対する第kの認識結果及び第kの認識確度を取得し、
前記突合では、k=1からk=Nまでの各kについての前記第kの認識結果同士の突合を実行し、
前記突合の結果、k=1からk=Nまでの各kについての前記第kの認識結果のすべてが合致した場合に、前記第1制御に代えて第3制御を実行し、
前記第3制御は、k=1からk=Nまでの各kについての前記第kの認識確度のうちの少なくとも一つに基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力することである、
請求項1に記載の情報処理装置。 - コンピュータに、
第1の認識器から、対象データに対する第1の認識結果及び第1の認識確度を取得し、
第2の認識器から、前記対象データに対する第2の認識結果及び第2の認識確度を取得し、
前記第1の認識結果と前記第2の認識結果との突合を実行し、
前記突合の結果、前記第1の認識結果と前記第2の認識結果とが合致した場合に第1制御を実行する、
処理を実行させるためのプログラムであって、
前記第1制御は、前記第1の認識確度及び前記第2の認識確度の少なくとも一方に基づいて、合致した認識結果に対して第1の処理と第2の処理のいずれかを実行して処理結果を出力、することであり、
前記第1の処理のために必要な人の作業量は、前記第2の処理のために必要な人の作業量よりも少ない、ことを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019193249A JP2021068202A (ja) | 2019-10-24 | 2019-10-24 | 情報処理装置及びプログラム |
US16/847,627 US11537812B2 (en) | 2019-10-24 | 2020-04-13 | Information processing apparatus and non-transitory computer readable medium storing program |
CN202010484345.4A CN112712083A (zh) | 2019-10-24 | 2020-06-01 | 信息处理装置、存储介质及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019193249A JP2021068202A (ja) | 2019-10-24 | 2019-10-24 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021068202A true JP2021068202A (ja) | 2021-04-30 |
Family
ID=75541227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019193249A Pending JP2021068202A (ja) | 2019-10-24 | 2019-10-24 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11537812B2 (ja) |
JP (1) | JP2021068202A (ja) |
CN (1) | CN112712083A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11961316B2 (en) * | 2022-05-10 | 2024-04-16 | Capital One Services, Llc | Text extraction using optical character recognition |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259847A (ja) | 1999-03-05 | 2000-09-22 | Ricoh Co Ltd | 情報検索方法、装置および記録媒体 |
JP3467437B2 (ja) | 1999-09-16 | 2003-11-17 | 富士通株式会社 | 文字認識装置及びその方法とプログラム記録媒体 |
JP2003346080A (ja) | 2002-05-22 | 2003-12-05 | Toshiba Corp | 文字認識方法 |
JP5464474B2 (ja) | 2008-08-20 | 2014-04-09 | 株式会社 ハンモック | Ocrシステム |
US8331739B1 (en) * | 2009-01-21 | 2012-12-11 | Google Inc. | Efficient identification and correction of optical character recognition errors through learning in a multi-engine environment |
WO2015175824A1 (en) * | 2014-05-16 | 2015-11-19 | AppCard, Inc. | Method and system for improved optical character recognition |
JP2018513495A (ja) * | 2015-04-20 | 2018-05-24 | スリーエム イノベイティブ プロパティズ カンパニー | デュアル埋め込み型光学文字認識(ocr)エンジン |
JP6575132B2 (ja) | 2015-05-14 | 2019-09-18 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2019
- 2019-10-24 JP JP2019193249A patent/JP2021068202A/ja active Pending
-
2020
- 2020-04-13 US US16/847,627 patent/US11537812B2/en active Active
- 2020-06-01 CN CN202010484345.4A patent/CN112712083A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210124991A1 (en) | 2021-04-29 |
US11537812B2 (en) | 2022-12-27 |
CN112712083A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4727732B2 (ja) | 車両番号認識装置 | |
WO2018166116A1 (zh) | 车损识别方法、电子装置及计算机可读存储介质 | |
US20190138780A1 (en) | Palm print image matching techniques | |
CA2575229C (en) | Modified levenshtein distance algorithm for coding | |
US10225431B2 (en) | System and method for importing scanned construction project documents | |
US20100296736A1 (en) | Image search apparatus and method thereof | |
JPH10105655A (ja) | 光学文字認識のための検証および訂正の方法およびシステム | |
US20140219569A1 (en) | Image recognition system and method for identifying similarities in different images | |
CN112906823B (zh) | 目标对象识别模型训练方法、识别方法及识别装置 | |
WO2007026948A1 (ja) | 画像検索方法及び装置 | |
JP6690089B2 (ja) | 帳票認識方法、帳票認識装置、及び帳票認識プログラム | |
CN115240213A (zh) | 表格图像识别方法、装置、电子设备及存储介质 | |
JP2021068202A (ja) | 情報処理装置及びプログラム | |
JP4665764B2 (ja) | パターン識別システム、パターン識別方法、及びパターン識別プログラム | |
WO2017104805A1 (ja) | プログラム、情報記憶媒体及び文字列認識装置 | |
US20130044943A1 (en) | Classifier Combination for Optical Character Recognition Systems | |
US8472719B2 (en) | Method of stricken-out character recognition in handwritten text | |
US20220222486A1 (en) | Data Source Evaluation Platform for Improved Generation of Supervised Learning Models | |
US20220222568A1 (en) | System and Method for Ascertaining Data Labeling Accuracy in Supervised Learning Systems | |
CN115359302A (zh) | 硬币识别方法、系统及存储介质 | |
KR101056307B1 (ko) | 다양한 응용을 위한 다기준 신뢰도 지원 하이브리드 온라인 서명검증 시스템 및 그 방법 | |
CN110188748B (zh) | 图像内容识别方法、装置以及计算机可读存储介质 | |
US11410408B2 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
CN113837129B (zh) | 手写签名错别字识别方法、装置、设备及存储介质 | |
WO2022104552A1 (zh) | 一种基于指静脉图像的认证方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240416 |