JP2019164687A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2019164687A
JP2019164687A JP2018053024A JP2018053024A JP2019164687A JP 2019164687 A JP2019164687 A JP 2019164687A JP 2018053024 A JP2018053024 A JP 2018053024A JP 2018053024 A JP2018053024 A JP 2018053024A JP 2019164687 A JP2019164687 A JP 2019164687A
Authority
JP
Japan
Prior art keywords
range
correct
accuracy rate
accuracy
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018053024A
Other languages
English (en)
Other versions
JP7206605B2 (ja
Inventor
宋 一憲
Kazunori So
一憲 宋
拓也 桜井
Takuya Sakurai
拓也 桜井
久美 藤原
Kumi Fujiwara
久美 藤原
木村 俊一
Shunichi Kimura
俊一 木村
越 裕
Yutaka Koshi
裕 越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2018053024A priority Critical patent/JP7206605B2/ja
Priority to US16/100,556 priority patent/US20190279041A1/en
Publication of JP2019164687A publication Critical patent/JP2019164687A/ja
Application granted granted Critical
Publication of JP7206605B2 publication Critical patent/JP7206605B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】すべての入力について判定手段の判定結果の正解不正解を別の方法で判定することでその判定手段の正解率を求める方式よりも、より低いコストでその判定手段の正解率を求める。【解決手段】選択部16は、OCR10の認識確度が閾値以上であれば、OCR10の文字認識結果をこの装置の最終的な認識結果として出力し、閾値未満であれば確認処理部18に確認を求める。確認処理部18は、OCR10の文字認識結果を例えば人間が確認し、間違っていれば正しい文字列に修正し、正しいと確認された文字列をこの装置の最終的な認識結果として出力する。低確度域正解率算出部22は、確認処理部18により得られる文字認識結果の正解、不正解の情報に基づき、認識確度が閾値未満の場合のOCR10の正解率を算出する。高確度域正解率推定部24は、認識確度が閾値未満の正解率から、線形補間等により認識確度が閾値以上の範囲の正解率を推定する。【選択図】図1

Description

本発明は、情報処理装置に関する。
特許文献1に開示された方法は、入力された帳票上の画像に対し文字認識を行ない、その文字認識結果としての類似度を得て、この得られた類似度とあらかじめ登録された当該文字認識に要求する確信度とを比較し、この比較の結果に基づき文字認識結果に対し人手によるベリファイ処理を必要としない出力を行なうか、あるいは、上記比較の結果に基づき文字認識結果に対し文字認識候補の選択肢を提示して人手によるベリファイ処理を促す出力を行なうか、あるいは、上記比較の結果に基づき文字認識結果に対し人手による新規入力および確定を提示して手入力処理を促す出力を行なう。
特許文献2に開示された方法は、旧版の文字認識ソフトウェアから新版の文字認識ソフトウェアに変更するに際し、旧版ソフトウェアから新版ソフトウェアへの移行時における期間、実システムにおいて、新版及び旧版の双方のソフトウェアにより文字の認識を行う。その結果、新版及び旧版双方のソフトウェアの認識精度に関する情報を統計的に収集し、両者の認識精度を比較する。そして新版の精度が旧版の精度よりも高い場合に、新版ソフトウェアの導入を確定するようにするものである。一方、旧版ソフトウェアの認識精度の方が良かった場合には、新版ソフトウェアへの全面的な変更は行わず、旧版及び新版双方のソフトウェアの良い所を用いて並行的に運用することもできる。
特許文献3に開示された方法は、入力原稿より文字情報をOCRで読み取り、認識処理部で認識処理する。オペレータによって入力原稿上の文字情報をキーボードよりキー入力させ、キー入力された文字データと文字認識された認識データとをCPUで比較し、誤りの可能性があるキー入力データの部分をCRT15にて異常表示させることで、ベリファイ入力を行う構成とする。たとえばキー入力された文字データが入力原稿と一致し、認識データに誤りがあると判断される文字データ、および認識データだけでなくキー入力された文字データにも誤りがあると判断される文字データを反転(しろ抜き)により異常表示し、入力ミスの可能性が高い入力データを自動的に検出できる。
特許文献4に開示された装置は、データの記入されたフォーム(帳票)を電子画像フォームとして読み取る画像読取手段と、読み取った電子画像フォームを性質の異なる、すなわち、誤認識を共通にしない或いは共通にすることの少ない2種類(以上)のOCRエンジンでOCR認識するOCR認識手段と、認識結果が一致した文字は自動的にデータベースへ保存し、一致しない文字及び一致してもいずれか一方のOCRエンジンの認識の信頼性の低い文字は確認修正後にデータベースへ保存するデータベース保存手段と、を備える。
特許文献5に開示された情報処理装置の分類手段は、文字認識対象を3種類のいずれかに分類し、抽出手段は、前記分類手段によって第1の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、第1の制御手段は、前記分類手段によって第2の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、該文字認識対象を人手で入力させるように制御し、第2の制御手段は、前記分類手段によって第3の種類に分類された場合に、前記文字認識対象を複数人の人手で入力させるように制御する。
特許文献6〜11には、文字認識の認識確度についての様々な算出方式が示されている。
特開2003−346080号公報 特開2004−171326号公報 特開平05−274467号公報 特開2010−073201号公報 特開2016−212812号公報 特開平5−40853号公報 特開平5−20500号公報 特開平5−290169公報 特開平8−101880号公報 特開平9−134410号公報 特開平9−259226号公報
判定手段により入力を判定する場合において、その判定手段の判定の正解率を求めるには、例えば、各入力についての判定手段による判定結果を、より判定精度が高い方法(例えば人間によるチェック)で正解か否か判定し、それら入力の全てに対する正解の判定結果の割合を求める方法がある。しかし、その判定精度の高い方法での判定は、判定手段の判定よりも高コストである。そうでなければ、判定手段の代わりにその判定精度の高い方法を最初から用いればよいからである。したがって、全入力について、その方法による判定を行うのは、コスト的な負担が大きい。
本発明は、すべての入力について判定手段の判定結果の正解不正解を別の方法で判定することでその判定手段の正解率を求める方式よりも、より低いコストでその判定手段の正解率を求めることを目的とする。
請求項1に係る発明は、入力について判定し、判定結果を求める判定手段と、前記判定結果が正解か誤りかを確認し、判定結果が正解の場合はその判定結果を採用し、誤りの場合に前記入力についての正しい判定結果を求め、求めた判定結果を採用する確認手段、各入力について、前記判定手段が正解する可能性を示す度合いを求める手段と、前記度合いが閾値以上である入力については前記確認手段を介在させずに前記判定手段の判定結果を出力し、閾値未満であれば前記確認手段が採用した判定結果を出力する制御を行う出力制御手段と、前記度合いが前記閾値未満の範囲のうちの第1範囲内である入力のうち前記確認手段で正解と確認されたものの比率を、前記第1範囲における前記判定手段の正解率として算出する正解率算出手段と、前記第1範囲における前記正解率に基づき、前記閾値以上の範囲のうちの第2範囲における前記判定手段の正解率を推定する推定手段と、を含む情報処理装置である。
請求項2に係る発明は、前記第1範囲は、所定基準に従い決まる0より大きい値から前記閾値までの範囲である、請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記推定手段は、前記正解率算出手段が算出した前記正解率が前記第1範囲における前記度合いの第1の代表値に対応するものであるとし、前記第2範囲における前記度合いの第2の代表値に対応する正解率を、前記第1の代表値に対応する正解率と、前記度合いが取り得る最大値における所定の最大正解率と、の間の線形補間により推定する、請求項1又は2に記載の情報処理装置である。
請求項4に係る発明は、前記正解率算出手段は、前記度合いが前記閾値未満である複数の範囲についてそれぞれ前記正解率を求め、前記推定手段は、前記複数の範囲の各々の前記正解率の前記度合いに応じた変化の傾向に基づき、前記第2範囲における前記正解率を推定する、請求項1又は2に記載の情報処理装置である。
請求項5に係る発明は、前記正解率算出手段は、前記度合いが前記閾値未満である複数の範囲についてそれぞれ前記正解率を求め、前記推定手段は、前記複数の範囲の各々の前記正解率と前記度合いとの関係から、前記度合いに対応する前記正解率を求める関数を推定し、推定した関数を用いて前記第2範囲における前記正解率を推定する、請求項1又は2に記載の情報処理装置である。
請求項6に係る発明は、前記推定手段は、前記度合いの発生頻度の分布から前記度合いの確率密度関数を求め、前記確率密度関数を用いて前記第2範囲における前記正解率を推定する請求項1に記載の情報処理装置である。
請求項7に係る発明は、入力について判定し、判定結果を求める判定手段と、前記判定結果が正解か誤りかを確認し、判定結果が正解の場合はその判定結果を採用し、誤りの場合に前記入力についての正しい判定結果を求め、求めた判定結果を採用する確認手段と、各入力について、前記判定手段が正解する可能性を示す度合いを求める手段と、前記度合いが閾値以上である入力については前記確認手段を介在させずに前記判定手段の判定結果を出力し、閾値未満であれば前記確認手段が採用した判定結果を出力する制御を行う出力制御手段と、前記度合いが前記閾値未満の範囲のうちの第1範囲内である入力のうち前記確認手段で正解と確認されたものの比率を、前記第1範囲における前記判定手段の正解率として算出する正解率算出手段、前記第1範囲における前記正解率に基づき、前記閾値以上の範囲のうちの第2範囲における前記判定手段の正解率を推定する推定手段と、を含む情報処理装置である。
請求項1、3又は7に係る発明によれば、すべての入力について判定手段の判定結果の正解不正解を別の方法で判定することでその判定手段の正解率を求める方式よりも、より低いコストでその判定手段の正解率を求めることができる。
請求項2に係る発明によれば、0から閾値までの全範囲についての正解率を算出してこれに基づいて第2範囲の正解率を推定する場合よりも、より妥当性が高い第2範囲の正解率を推定することができる。
請求項4、5又は6に係る発明によれば、第2範囲の正解率を線形補間により推定する場合よりも、より妥当性が高い正解率を推定することができる。
実施形態の情報処理装置の機能構成を例示する図である。 認識確度が閾値以上の領域における正解率の推定の方法の一例を説明するための図である。 認識確度の確率密度関数の算出の仕方を説明するための図である。 認識確度が閾値以上の領域における正解率の推定の方法の別の例を説明するための図である。 認識確度が閾値以上の領域における正解率の推定の方法の更に別の例を説明するための図である。 確認処理部の内部構成を例示する図である。
図1に、本発明に係る情報処理装置の一実施形態例を示す。
この情報処理装置は、入力される画像データ(「入力画像データ」)に含まれる文字列を、OCR10と確認処理部18により判定する。
OCR10は、認識処理部12と認識確度算出部14を備える。認識処理部12は、入力画像データに対して公知のOCR(光学文字認識)処理を行うことで、その入力画像データ内に含まれる文字列を認識する。認識処理部12は、認識した文字列を示すテキストコードを出力する。認識確度算出部14は、入力画像データから認識したテキストコードについての認識確度を算出する。認識確度は、認識結果のテキストコードがその入力画像データに含まれる文字列(手書きの場合もある)を正しく表している確からしさを示す度合いである。認識確度が高いほど、認識結果のテキストコードが正解である(すなわち入力画像データ中の文字列を正しく表している)可能性が高い。認識結果が正解である可能性を以下では、認識率又は正解率と呼ぶ。OCR10は、入力画像データについての異なる複数の認識結果を、認識確度が高い順に、認識確度と対応付けて出力してもよい。なお、OCR10が文字認識を行う単位(すなわち認識結果を出力する単位)は、特に限定されず、例えば、文字単位、行又は列(横書き又は縦書き)単位、帳票の欄単位、ページ単位、文書単位等のいずれであってもよい。
なお,OCR10が用いる文字認識の手法や認識確度の算出方法は特に限定されず、特許文献6〜11に例示したものを初めとする従来手法や今後開発される手法のうちいずれを用いてもよい。
選択部16は、認識処理部12の文字認識結果(テキストコード)について認識確度算出部14が算出した認識確度に基づいて、文字認識結果の出力の制御を行う。すなわち、選択部16は、認識確度がある閾値以上であれば、その文字認識結果を情報処理装置自体の最終的な文字認識結果として出力する。認識確度が閾値以上であれば、認識処理部12の認識が正確であると信頼するのである。
一方、認識確度がその閾値未満であれば、選択部16は、その文字認識結果とこれに対応する入力画像データとを確認処理部18に渡し、その文字認識結果が正しいかどうか確認する処理を実行する。
一つの例では、確認処理部18は、人間である確認担当者に、その入力画像データと文字認識結果を提示し、その文字認識結果が入力画像データ内の文字列として正しいかどうか確認させる。確認担当者は、この情報処理装置に対してインターネット等のネットワークを介して接続された端末を操作しているものであってもよく、この場合確認処理部18は、入力画像データと文字認識結果を表示した画面情報(例えばウェブページ)をその端末に送り、その画面情報に対する確認担当者の入力を受け付ける。確認担当者は、正しいと判断した場合はその旨を示す入力を確認処理部18に対して行い、これに応じ確認処理部18は、選択部16から受け取った文字認識結果を情報処理装置自体の最終的な文字認識結果として出力する。またこのとき確認処理部18は、認識処理部12の文字認識結果が正解である旨を示す確認結果情報を蓄積部20に蓄積する。
また確認担当者は、選択部16から受け取った文字認識結果が入力画像データ内の文字列として正しくないと判断した場合は、その文字認識結果を修正するための入力を確認処理部18に行う。これに応じて確認処理部18は、修正後の文字認識結果を、情報処理装置自体の最終的な文字認識結果として出力する。またこのとき確認処理部18は、認識処理部12の文字認識結果が不正解である旨を示す確認結果情報を蓄積部20に蓄積する。
以上では、OCR10の文字認識結果の確認を人間が行う場合を例示したが、この他に、例えばOCR10よりも正確ではあるが文字認識のためのコストが高い別のOCR(例えば、情報処理装置の利用者とは別の運営主体が運営するインターネット上の有料の高精度OCRサービス)を用いて確認を行ってもよい。この場合、確認処理部18は、入力画像データをその別のOCRに認識させて認識結果を受け取り、受け取った認識結果を当該情報処理装置自体の最終的な文字認識結果として出力する。また、確認処理部18は、選択部16から受け取った認識処理部12の文字認識結果と、別のOCRから受け取ったその認識結果とを比較し、両者が一致する場合には、認識処理部12の文字認識結果が正解である旨を示す確認結果情報を、両者が不一致の場合は不正解である旨を示す確認結果情報を、蓄積部20に蓄積する。
このように、確認処理部18は、認識処理部12の文字認識結果の正解・不正解を示す確認結果情報を蓄積部20に蓄積する。ここで、認識処理部12の文字認識結果について確認処理部18による正解・不正解の判定が行われるのは、その文字認識結果に対応する認識確度が閾値未満である場合である。したがって、蓄積部20に蓄積される確認結果情報は、認識確度がその閾値未満である文字認識結果についての正解・不正解の判定結果である。
低確度域正解率算出部22は、蓄積部20に蓄積されている確認結果情報群、すなわち認識確度が閾値未満である文字認識結果についての正解・不正解の情報に基づいて、低確度域すなわち閾値未満の認識確度範囲についての、認識処理部12の正解率を算出する。例えば、この正解率は、正解率算出の対象とする確認結果情報の総数で、そのうちの正解を示す確認結果情報の数を割ることで算出すればよい。
高確度域正解率推定部24は、低確度域正解率算出部22が算出した低確度域の正解率に基づき、高確度域すなわち閾値以上の認識確度範囲についての認識処理部12の正解率を推定する。以下、高確度域正解率推定部24が行う推定の例を説明する。
第1の例を、図2を参照して説明する。
認識確度を0から1までの実数値とし、低確度域の代表値をU、高確度域の代表値をVとする。各領域の代表値として、その領域の中央値を用いる場合、選択部16が用いる閾値をTとすると、U=T/2、V=(T+1)/2である。図2の例では、認識確度が1のときの正解率(認識率)が1であり、低確度域正解率算出部22が算出した低確度域の正解率αが低確度域の代表値Uでの正解率であるとして、高確度域の代表値Vでの正解率δを線形補間により推定する。すなわち、高確度域正解率推定部24は、次の式(1)を用いて正解率δを求める。
以上では、低確度域及び高確度域の代表値U及びVとして、それら各領域自体の中央値を用いたが、これは一例に過ぎない。この代わりに、それら各領域における認識確度の度数分布(あるいは、これから求めた確率密度関数)の代表値をU及びVとして用いてもよい。すなわち、認識確度算出部14が各入力画像データについて求めた認識確度を蓄積しておき、この蓄積した情報を用いて、認識確度の区間ごとに当該区間に属する認識確度の度数(発生頻度)を求め、これにより生成できる度数の分布(ヒストグラム)から高確度域及び低確度域の代表値を求めればよい。なお、蓄積部20には低確度域の情報しか蓄積されないので、全範囲の認識確度の分布を得るためには、これとは別に認識確度算出部14の出力を蓄積しておく。度数分布の代表値としては、例えば、平均値、中央値、最頻値を用いてもよい。
また認識確度の確率密度関数p(x)を用い、次式(2)を用いて、平均値としての代表値U及びVを求めてもよい。
ここで、確率密度関数p(x)は次のように求めればよい。
すなわち、図3に示すように、まず認識確度xを複数の区間に分割する。区間の数をZ個とし、区間の幅をWとする。各区間のインデクスをkとする。kは1以上Z以下の整数である。区間kの中央の値(すなわち区間の下限と上限を足して2で割った値)を区間代表値xkとする。認識確度算出部14が各入力画像データについて求めた認識確度を蓄積しておき、この蓄積した情報から、各区間kに入る認識確度の発生頻度(度数)Ykを求める。入力画像データの個数(すなわち認識確度の個数)をN個とすると、区間代表値における確率密度値p(x)は、次式で求められる。
p(xk)=Yk/NW
これは離散的な確率密度関数である。これを公知の補間法で補間して連続関数としたものを確率密度関数p(x)として用いてもよい。
図2を用いて説明した高確度域正解率推定部24の推定方法を改良したものを、図4を参照して次に説明する。
図2の例では、低確度域全体における正解率を用いて高確度域における正解率を算出した。しかし、認識確度が非常に低い領域での正解率は、高確度域での正解率に対する関連性が低い。そこで、この改良方法では、低確度域全体ではなく、そのうちの閾値Tに近い領域のみについての正解率に基づいて高確度域の正解率を推定する。
すなわち、1<S<Tを満たす領域下限値Sをあらかじめ定めておき、低確度域正解率算出部22は、蓄積部20に蓄積された確認結果情報のうち認識確度xがS≦x≦Tを満たすもののみから正解率αを計算する。Sの値の定め方は特に限定されない。例えば、閾値Tに対して1未満の固定の割合となる値をSとして定めておいてもよい。また、蓄積部20内のデータ(確認結果情報)を、認識確度xの値が閾値Tから小さくなる方向に順に選んでいき、選んだデータの個数が、閾値T以下のデータの総数のうちの所定割合になったときの認識確度xを下限値Sとしてもよい。
高確度域正解率推定部24は、認識確度がSからTまでの領域において認識確度の代表値Uを上記実施形態と同様の方法で求める。そして、その領域の正解率αがその代表値Uでの値であるとして、上記式(1)を用いて高確度域の正解率δを計算する。
この改良方法では、低確度域のうちの高確度域に近い領域の正解率から高確度域の正解率を推定するので、低確度域全域の正解率から推定するよりも、高確度域の正解率がより正確に推定できる。
図5を参照して、更なる変形例を説明する。
この変形例では、低確度域正解率算出部22は、図5に示すように、低確度域をN個(Nは2以上の整数)の小領域に分割し、小領域ごとに、蓄積部20に蓄積されたその小領域に属する認識確度に対応する確認結果情報から正解率を計算する。図5の例では、低確度域を4つの小領域に分割しているが、これは一例に過ぎない。そして、低確度域正解率算出部22は、小領域の正解率αをその小領域の代表値x(例えば小領域の上限と下限の中央の確度)における正解率(図5中ではX印で示す)とする。
高確度域正解率推定部24は、正解率αが認識確度xの関数α(x)となるとの仮定の下、多項式近似や曲線フィッティング等の公知の手法により関数α(x)を推定する。そして、この関数α(x)を用いて、次式(3)により高確度域の正解率δを推定する。
また、高確度域正解率推定部24は、式(3)の代わりに次の式(4)を用いて高確度域の正解率δを推定してもよい。
式(4)においてp(x)は、上述の確率密度関数p(x)である。逆に言えば、式(3)は、確率密度関数p(x)が一様分布であると仮定した場合の式である。
また、式(3)または(4)は、高確度域、すなわち認識確度xが閾値Tから1までの範囲全体についての正解率を求めるものである。これを一般化し、高確度域正解率推定部24は、高確度域内のT1≦x≦T2(ただしT≦T1<T2)の範囲についての正解率を次の式(5)により推定してもよい。
図6を参照して、更なる変形例を説明する。
図6には、この変形例の情報処理装置のうち、確認処理部18の内部構成の例と、蓄積部20、低確度域正解率算出部22及び高確度域正解率推定部24を示している。この変形例の情報処理装置は、図1に示すのと同様のOCR10及び選択部16を更に備えている。
入力画像データに対して認識確度算出部14が算出した認識確度が閾値未満である場合、選択部16は、確認処理部18に対して処理の実行を指示する。このとき選択部16は、その入力画像データと、その入力画像データに対する認識処理部12の文字認識結果とを確認処理部18に入力する。文字認識結果は突合部184に渡され、入力画像データは人手入力部182に渡される。
人手入力部182は、渡された入力画像データが示す画像を人である入力者に提示し、その入力者がその画像から読み取った文字列の入力を受け付ける。人手入力部182は、人間を文字認識エンジンとした文字認識部と捉えることができる。文字認識を行う入力者は、この情報処理装置に対してインターネット等のネットワークを介してリモートの位置にいてもよく、この場合人手入力部182は、入力者が操作する端末に対してネットワーク経由で入力画像データが示す画像を例えばウェブページの形で提供し、それに対してユーザが入力した認識結果の文字列をネットワーク経由で受け取る。人手入力部182が入力者から受け取った文字列は、突合部184に入力される。
突合部(X)184は、OCR10の認識処理部12の文字認識結果と、人手入力部182が入力者から受け取った文字列とを突き合わせて(すなわち照合して)、両者が合致(すなわち一致)するか否(非合致)かを判定する。両者が合致する場合、突合部184は、その合致した判定結果を当該情報処理装置の最終的な文字認識結果として出力する。両者が非合致の場合、突合部184は、人手入力部186に処理を実行させる。また突合部184は、その突き合わせの結果である突合結果(すなわち「合致」か「非合致」かを示す値)Xを、蓄積部20へと蓄積する。突合結果Xの値は、合致が非合致かを示す二値の値である。以下では、一例として、計算の便宜のために、突合結果Xの値は合致の場合は「1」、非合致の場合は「0」とする(後述する突合部188A及び188Bの場合も同様)。蓄積部20に蓄積する突合結果Xには、入力画像データの識別情報i(例えば各入力データに順に付与される通し番号)が対応付けられており、どの入力画像データに対応する突合結果であるかが識別可能となっている。
人手入力部186は、突合部184からの上記非合致の場合のトリガを受けると、入力画像データの示す画像を人手入力部182の入力者は別の第2の入力者に提示し、第2の入力者がその画像から読み取った文字列の入力を受け付ける。そして、第2の入力者から人手入力部186が受け付けた文字列が、入力画像データに対する当該情報処理装置の最終的な文字認識結果として出力される。
人手入力部186は、OCR10及び人手入力部182と並行に、同じ入力画像データについて常に第2の入力者からの文字列の入力を受け付ける処理を行ってもよいが、この処理を突合部184の判定結果が非合致の場合にのみ行うようにしてもよい。これにより、人手入力部186の処理のためのコスト(例えば第2の入力者のためのコスト)が低減される。
OCR10、人手入力部182、突合部184、及び人手入力部186が、低確度域、すなわち認識確度が閾値未満の領域についての、入力画像データに対する文字認識を担う認識機構である。
一方、以下に説明する突合部188A及び188B、蓄積部20及び低確度域正解率算出部22は、上記認識機構が行った判定の結果を多数蓄積し、蓄積した情報に基づいて、低確度域におけるOCR10及び人手入力部182の正解率をそれぞれ計算する。更に低確度域についての上記認識機構の正解率を計算してもよい。
すなわち、まず突合部188Aは、OCR10の文字認識結果と人手入力部186が受け付けた文字列とを突き合わせ、その突き合わせの結果(突合結果A)を、入力画像データの識別情報iと対応付けて蓄積部20に蓄積する。突合部188Bは、人手入力部182の判定結果と人手入力部186の判定結果を突き合わせ、その突き合わせの結果(突合結果B)を、入力画像データの識別情報iと対応付けて蓄積部20に蓄積する。
蓄積部20には、入力データiごとに、突合部184、188A、188Bによる3つの突合結果Xi、Ai、Biが蓄積される。
低確度域正解率算出部22は、蓄積部20に蓄積されている突合結果Xi、Ai、Biを用いて、OCR10、人手入力部182、及び上記認識機構の低確度域での正解率を算出する。
低確度域正解率算出部22による正解率の算出方法を説明する。まず、OCR12aの正解率αと、人手入力部182の正解率βの算出方法を説明する。
この算出方法は、以下の2つの前提(a)、(b)及び(c)に基づいて正解率α及びβを計算する。
(a)突合部184の突合結果Xが「合致」の場合、OCR10及び人手入力部182の認識結果は共に正解である。
(b)突合部188Aの突合結果Aが「合致」の場合、OCR10の認識結果が正解である。
(c)突合部188Bの突合結果Bが「合致」の場合、人手入力部182が受け付けた入力者の入力正解である。
すなわち、ここでは、OCRの認識結果は、人手入力部182又は人手入力部186に入力された文字列と合致する場合に正解であり、人手入力部182に入力された文字列は、OCR10の認識結果又は人手入力部186に入力された文字列と合致する場合に正解であるとみなして、正解率α及びβを求める。これらの前提に基づいて、低確度域正解率算出部22は、次式(6)に従って正解率α及びβを算出する。
ここで、iは入力画像データの識別情報である通し番号であり、Nは入力データの総数である。また「P|Q」は、P又はQが1であれば値が1となり、P及びQの両方が0であれば値が0となる演算である。
なお、突合部184の突合結果が「合致」の場合、人手入力部186に判定を行わせないようにしてもよい。この場合、人手入力部186の判定結果が得られないので、これを用いる突合部188A及び188Bの突合結果は共に「0」となるようにしてもよい。このようにした場合、低確度域正解率算出部22は、上述の式(6)の代わりに、次の式(7)により正解率を計算してもよい。
次に、この情報処理装置の低確度域についての認識機構(すなわちOCR10、人手入力部182、突合部184及び人手入力部186からなる部分)の正解率γを求める処理について説明する。ここでは、人手入力部182と人手入力部186と同じ特性を持つものとする。すなわち、人手入力部182と人手入力部186は、統計的に見て正解率が等しいとみなす。
OCR10及び人手入力部182の低確度域における正解率α及びβは、上述の方法で既に計算済みであるとする。この例では、上述の通り、人手入力部186は、入力データの数が十分多い場合、人手入力部182と同じ正解率αを持つとみなすことができる。したがって、低確度域正解率算出部22は、正解率γを次式により計算することができる。
γ=αβ+(1−αβ)α
より詳しく説明すると、判定機構全体としての正解となるケースは、(a)OCR10の認識結果が正解、かつ、人手入力部182が受け付けた入力が正解となるケースと、(b)これ以外かつ人手入力部186が正解となるケースの2つである。(a)のケースが生じる確率はαβ、(b)のケースが生じる確率は、上記(a)以外の確率(1−αβ)と人手入力部186が正解となる確率αの積(1−αβ)αなので、(a)と(b)の確率の和が最終的な正解率γとなる。
高確度域正解率推定部24は、低確度域正解率算出部が算出したOCR10の低確度域における正解率αを用いて、上述の実施形態又は各変形例に示した方法で、OCR10の高確度域(すなわち認識確度が閾値以上)での正解率を推定する。また、このシステム全体の正解率を推定する場合には、低確度域の正解率として上述のγを用い、このγから述の実施形態又は各変形例に示した方法で、高確度域におけるシステム全体の正解率を推定してもよい。
図6に例示した確認処理部18は、OCR10の文字認識結果を一人の人が確認する(すなわちその一人の人の認識結果を必ず正解とする)方式よりも、低確度域における文字認識結果(すなわち確認処理部18の出力)の正確さを高くすることができ、ひいては低確度域におけるOCR10の正解率の正確さを高めることができる。
図6の例では、OCR10の文字認識結果を人により確認したが、人以外の手段で確認してもよい。人以外の確認手段としては、例えばOCR10よりも文字認識の正解率が高いと期待される文字認識システムを用いてもよい。この文字認識システムの利用コストが高く、OCR10で十分な正解率が見込める場合にはその文字認識システムを利用しないことでコスト削減を図るといった目的で、この仕組みは利用できる。
以上に説明した実施形態及び変形例は、いずれも、入力画像データ中の文字列を認識するものであったが、上記実施形態及び変形例の手法は、文字認識に限らず、入力されたデータの内容を判定してその判定結果を出力する情報処理装置全般に適用可能である。すなわち、入力されたデータの内容を判定する判定手段(その一例がOCR10)の判定の確度、すなわちその判定の結果が正解である可能性の高さの度合い、が閾値以上であればその判定手段の判定結果をそのまま出力し、閾値未満であればその判定結果を別の手段で確認し、誤りの場合は修正するシステムにおいて、確度が閾値以上の範囲における判定手段の正解率を求めるのに、上記実施形態及び変形例の方式が適用可能である。
以上に例示した情報処理装置は、一つの例ではハードウェアの論理回路として構成可能である。また、別の例として、この情報処理装置は、例えば、内蔵されるコンピュータにそれらシステムまたは装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウェアとして、CPU等のプロセッサ、ランダムアクセスメモリ(RAM)およびリードオンリメモリ(ROM)等のメモリ(一次記憶)、HDD(ハードディスクドライブ)を制御するHDDコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばI/Oインタフェース経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAMに読み出されCPU等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、情報処理装置は、ソフトウェアとハードウェアの組合せで構成されてもよい。
10 OCR、12 認識処理部、14 認識確度算出部、16 選択部、18 確認処理部、20 蓄積部、22 低確度域正解率算出部、24 高確度域正解率推定部、182,186 人手入力部、184,188A,188B 突合部。

Claims (7)

  1. 入力について判定し、判定結果を求める判定手段と、
    前記判定結果が正解か誤りかを確認し、判定結果が正解の場合はその判定結果を採用し、誤りの場合に前記入力についての正しい判定結果を求め、求めた判定結果を採用する確認手段と、
    各入力について、前記判定手段が正解する可能性を示す度合いを求める手段と、
    前記度合いが閾値以上である入力については前記確認手段を介在させずに前記判定手段の判定結果を出力し、閾値未満であれば前記確認手段が採用した判定結果を出力する制御を行う出力制御手段と、
    前記度合いが前記閾値未満の範囲のうちの第1範囲内である入力のうち前記確認手段で正解と確認されたものの比率を、前記第1範囲における前記判定手段の正解率として算出する正解率算出手段と、
    前記第1範囲における前記正解率に基づき、前記閾値以上の範囲のうちの第2範囲における前記判定手段の正解率を推定する推定手段と、
    を含む情報処理装置。
  2. 前記第1範囲は、所定基準に従い決まる0より大きい値から前記閾値までの範囲である、請求項1に記載の情報処理装置。
  3. 前記推定手段は、前記正解率算出手段が算出した前記正解率が前記第1範囲における前記度合いの第1の代表値に対応するものであるとし、前記第2範囲における前記度合いの第2の代表値に対応する正解率を、前記第1の代表値に対応する正解率と、前記度合いが取り得る最大値における所定の最大正解率と、の間の線形補間により推定する、請求項1又は2に記載の情報処理装置。
  4. 前記正解率算出手段は、前記度合いが前記閾値未満である複数の範囲についてそれぞれ前記正解率を求め、
    前記推定手段は、前記複数の範囲の各々の前記正解率の前記度合いに応じた変化の傾向に基づき、前記第2範囲における前記正解率を推定する、請求項1又は2に記載の情報処理装置。
  5. 前記正解率算出手段は、前記度合いが前記閾値未満である複数の範囲についてそれぞれ前記正解率を求め、
    前記推定手段は、前記複数の範囲の各々の前記正解率と前記度合いとの関係から、前記度合いに対応する前記正解率を求める関数を推定し、推定した関数を用いて前記第2範囲における前記正解率を推定する、請求項1又は2に記載の情報処理装置。
  6. 前記推定手段は、前記度合いの発生頻度の分布から前記度合いの確率密度関数を求め、前記確率密度関数を用いて前記第2範囲における前記正解率を推定する請求項1に記載の情報処理装置。
  7. 入力について判定し、判定結果を求める判定手段と、
    前記判定結果が正解か誤りかを確認し、判定結果が正解の場合はその判定結果を採用し、誤りの場合に前記入力についての正しい判定結果を求め、求めた判定結果を採用する確認手段と、
    各入力について、前記判定手段が正解する可能性を示す度合いを求める手段と、
    前記度合いが閾値以上である入力については前記確認手段を介在させずに前記判定手段の判定結果を出力し、閾値未満であれば前記確認手段が採用した判定結果を出力する制御を行う出力制御手段と、
    前記度合いが前記閾値未満の範囲のうちの第1範囲内である入力のうち前記確認手段で正解と確認されたものの比率を、前記第1範囲における前記判定手段の正解率として算出する正解率算出手段と、
    前記第1範囲における前記正解率に基づき、前記閾値以上の範囲のうちの第2範囲における前記判定手段の正解率を推定する推定手段と、
    を含む情報処理装置。
JP2018053024A 2018-03-07 2018-03-20 情報処理装置 Active JP7206605B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018053024A JP7206605B2 (ja) 2018-03-20 2018-03-20 情報処理装置
US16/100,556 US20190279041A1 (en) 2018-03-07 2018-08-10 Information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018053024A JP7206605B2 (ja) 2018-03-20 2018-03-20 情報処理装置

Publications (2)

Publication Number Publication Date
JP2019164687A true JP2019164687A (ja) 2019-09-26
JP7206605B2 JP7206605B2 (ja) 2023-01-18

Family

ID=68066194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018053024A Active JP7206605B2 (ja) 2018-03-07 2018-03-20 情報処理装置

Country Status (1)

Country Link
JP (1) JP7206605B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712083A (zh) * 2019-10-24 2021-04-27 富士施乐株式会社 信息处理装置、存储介质及信息处理方法
WO2022044067A1 (ja) * 2020-08-24 2022-03-03 三菱電機ビルテクノサービス株式会社 文書画像認識システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263587A (ja) * 1995-03-20 1996-10-11 Matsushita Electric Ind Co Ltd 文書入力方法および文書入力装置
JPH0981730A (ja) * 1995-09-18 1997-03-28 Canon Inc パターン認識方法及び装置及びコンピュータ制御装置
JP2003346080A (ja) * 2002-05-22 2003-12-05 Toshiba Corp 文字認識方法
JP2010073201A (ja) * 2008-08-20 2010-04-02 Hammock:Kk Ocrシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263587A (ja) * 1995-03-20 1996-10-11 Matsushita Electric Ind Co Ltd 文書入力方法および文書入力装置
JPH0981730A (ja) * 1995-09-18 1997-03-28 Canon Inc パターン認識方法及び装置及びコンピュータ制御装置
JP2003346080A (ja) * 2002-05-22 2003-12-05 Toshiba Corp 文字認識方法
JP2010073201A (ja) * 2008-08-20 2010-04-02 Hammock:Kk Ocrシステム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712083A (zh) * 2019-10-24 2021-04-27 富士施乐株式会社 信息处理装置、存储介质及信息处理方法
WO2022044067A1 (ja) * 2020-08-24 2022-03-03 三菱電機ビルテクノサービス株式会社 文書画像認識システム
JPWO2022044067A1 (ja) * 2020-08-24 2022-03-03
JP7134380B2 (ja) 2020-08-24 2022-09-09 三菱電機ビルソリューションズ株式会社 文書画像認識システム
CN116569225A (zh) * 2020-08-24 2023-08-08 三菱电机楼宇解决方案株式会社 文档图像识别系统
CN116569225B (zh) * 2020-08-24 2024-04-30 三菱电机楼宇解决方案株式会社 文档图像识别系统

Also Published As

Publication number Publication date
JP7206605B2 (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
US6470336B1 (en) Document image search device and recording medium having document search program stored thereon
US20080240515A1 (en) Method of adjusting reference information for biometric authentication and apparatus
EP2657884A2 (en) Identifying multimedia objects based on multimedia fingerprint
US9385868B2 (en) Methods and systems for testing performance of biometric authentication systems
US20200210459A1 (en) Method and apparatus for classifying samples
US20020114515A1 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
JP2019164687A (ja) 情報処理装置
CN111985519B (zh) 文本相似度量化方法、设备及系统
US20190279041A1 (en) Information processing apparatus
CN115147847A (zh) 文本识别结果的确定方法、装置、存储介质及计算机设备
US11972208B2 (en) Information processing device and information processing method
US10817756B2 (en) Information processing apparatus and non-transitory computer readable medium
US7341184B2 (en) Method and system for performing security on multiple unresolved objects in a self checkout
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP7147208B2 (ja) 情報処理装置及びプログラム
JP3526821B2 (ja) 文書検索装置
KR102507534B1 (ko) 인공지능 기반의 ocr 인식을 이용한 회계 관리 방법 및 장치
JP2019159374A (ja) 情報処理装置及びプログラム
US20210192317A1 (en) Information processing device, information processing method, and program
US11321955B2 (en) Information processing apparatus and non-transitory computer readable medium
US11875109B1 (en) Machine learning (ML)-based system and method for facilitating correction of data in documents
JP4221960B2 (ja) 帳票識別装置及びその識別方法
KR20190078846A (ko) 인트론과 엑손 구분에 기반한 이상 서열 식별 방법
US20160267611A1 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
JP2000123174A (ja) 帳票書式識別装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7206605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150