JP2019215747A

JP2019215747A - 情報処理装置及びプログラム

Info

Publication number: JP2019215747A
Application number: JP2018113013A
Authority: JP
Inventors: 木村　俊一; Shunichi Kimura; 俊一木村; 関野　雅則; Masanori Sekino; 雅則関野; 宋　一憲; Kazunori So; 一憲宋; 久保田　聡; Satoshi Kubota; 聡久保田; 拓也桜井; Takuya Sakurai; 久美藤原; Kumi Fujiwara; 上野　邦和; Kunikazu Ueno; 邦和上野; 越　裕
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2019-12-19
Also published as: US20190385008A1; CN110598683B; US10817756B2; CN110598683A

Abstract

【課題】自動判定の確度で第１突合処理と第２突合処理を使い分ける方式と比べて、人手による判定の工数を低減できる方式を提供する。【解決手段】文字認識器１２による入力画像の認識処理の確度の値によらず、その文字認識器１２による認識結果と、キー入力部１４が受け取ったＡさんによるその入力画像の認識結果とを第１突合部１６で突合する。この突合の結果、それら２つの認識結果同士が合致した場合は、その合致した認識結果を装置の最終的な認識結果として出力する。それら２つの認識結果同士が非合致の場合は、キー入力部１４及び２２が受け取った２人の認識結果を用いて最終的な認識結果を決定する。【選択図】図１

Description

本発明は、情報処理装置及びプログラムに関する。

紙帳票に手書き記入または印刷された文字列をデジタルデータ化するデータ入力システムがある。データ入力システムは、帳票中を人間が読み取ってキー入力する方式、光学文字認識（ＯＣＲ）技術を用いた文字認識器により帳票中の画像に対して文字認識処理を行う方式、あるいはこれらの組合せにより帳票中の文字列をデジタル化する。

文字認識器は、実行した認識処理の処理結果がどの程度信頼できるかを示す度合いを出力する機能を持つことが多い。この度合いは認識の確度と呼ばれる。

文字認識器以外にも、入力画像に対して何らかの自動判定を行う手段はあり、そのような自動判定手段の中には、実行した判定の確度を出力するものがある。

特許文献１に開示された方法は、入力された帳票上の画像に対し文字認識を行ない、その文字認識結果としての類似度を得て、この得られた類似度とあらかじめ登録された当該文字認識に要求する確信度とを比較し、この比較の結果に基づき文字認識結果に対し人手によるベリファイ処理を必要としない出力を行なうか、あるいは、上記比較の結果に基づき文字認識結果に対し文字認識候補の選択肢を提示して人手によるベリファイ処理を促す出力を行なうか、あるいは、上記比較の結果に基づき文字認識結果に対し人手による新規入力および確定を提示して手入力処理を促す出力を行なう。

特許文献２に開示された文字認識装置は、手書き入力された文字の座標点列を認識して認識候補文字群を出力する文字認識手段と、文字認識手段より出力される判定対象認識候補文字群の信頼度を算出するための特徴量として、手書き入力された文字の座標点列の平均筆記速度を算出する特徴抽出手段と、特徴抽出手段からの特徴量と、サンプルデータの統計的傾向とに基づいて、判定対象認識候補文字群の信頼度を算出する信頼度算出手段と、信頼度算出手段からの信頼度に基づいて判定対象認識候補文字群の後処理を制御する後処理制御手段とを有する。

特許文献３に開示された方法は、入力された文書画像から論理要素を抽出し、抽出された論理要素が文字列領域であるかを識別し、識別された文字列領域を文字認識し、認識結果の確信度がしきい値以上であるときテキストとして表示し、しきい値未満であるとき部分画像として表示する。

特許文献１に開示された情報処理装置の分類手段は、文字認識対象を３種類のいずれかに分類し、抽出手段は、前記分類手段によって第１の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、第１の制御手段は、前記分類手段によって第２の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、該文字認識対象を人手で入力させるように制御し、第２の制御手段は、前記分類手段によって第３の種類に分類された場合に、前記文字認識対象を複数人の人手で入力させるように制御する。

特許文献２には、人手によるデータ入力システムに、ＯＣＲによる文字認識器を組み合わせたシステムが開示されている。

特許文献３には、ＯＣＲの認識結果と認識の確度とを組み合わせた処理を行う例が示されている。

特許文献４〜９には、文字認識の認識確度についての様々な算出方式が示されている。

特開２０１６−２１２８１２号公報特開２０１１−２３７９０５号公報特開２００８−２０５０６号公報特開平５−４０８５３号公報特開平５−２０５００号公報特開平５−２９０１６９公報特開平８−１０１８８０号公報特開平９−１３４４１０号公報特開平９−２５９２２６号公報

文字認識器等の自動判定の結果をそのままシステムの最終出力とする場合をいったん考慮から除き、自動判定と人間の判定の結果同士を突合する第１突合処理と、異なる二人の判定の結果同士を突合する第２突合処理とを、自動判定の確度に応じて使い分ける場合を考える。この場合、確度が相対的に高い範囲にある入力は第１突合処理に振り分けられ、相対的に低い範囲にある入力は第２突合処理に振り分けられる。

ここで、確度が低いために第２突合処理に振り分けられる場合の中には、自動判定の結果が正解である場合も存在する。これは確度が推定値であるための誤差に起因する。自動判定の結果が正解であるにもかかわらず、確度が低いために第２突合処理に振り分けられてしまった場合、自動判定の結果が利用されず、その代わりに１人分の判定のコストが無駄にかかってしまう。このように、自動判定の確度で第１突合処理と第２突合処理を使い分ける方式には、人手による判定の工数が余計に係ってしまう場合がある。

本発明は、自動判定の確度で第１突合処理と第２突合処理を使い分ける方式と比べて、人手による判定の工数を低減できる方式を提供する。

請求項１に係る発明は、入力情報に対して判定を行って判定結果を出力する判定手段と、前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段と、前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段と、前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段と、前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段と、前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段と、前記入力情報が入力された場合に、前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合、更に、前記第２受付手段及び前記第２突合手段からなる組と、前記第３受付手段と、のうちの一方を選択的に動作させるよう制御する制御手段と、を含む情報処理装置である。

請求項２に係る発明は、入力情報に対する前記判定手段の判定確度を算出する手段を更に含み、前記制御手段は、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合、前記判定確度が第１閾値以上であれば前記第３受付手段を動作させ、前記判定確度が前記第１閾値未満であれば前記第２受付手段及び前記第２突合手段を動作させる、ことを特徴とする請求項１に記載の情報処理装置である。

請求項３に係る発明は、前記制御手段は、前記判定確度が前記第１閾値より大きい第２閾値以上である場合は前記判定手段の判定結果を最終的な出力とし、前記判定確度が前記第２閾値未満である場合は、前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合には、前記判定確度が前記第２閾値未満かつ前記第１閾値以上であれば前記第３受付手段を動作させ、前記判定確度が前記第１閾値未満であれば前記第２受付手段及び前記第２突合手段を動作させる制御を行う、ことを特徴とする請求項２に記載の情報処理装置である。

請求項４に係る発明は、コンピュータを、入力情報に対して判定を行って判定結果を出力する判定手段、前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段、前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段、前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段、前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段、前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段、前記入力情報が入力された場合に、前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合、更に、前記第２受付手段及び前記第２突合手段からなる組と、前記第３受付手段と、のうちの一方を選択的に動作させるよう制御する制御手段、として機能させるためのプログラムである。

請求項５に係る発明は、入力情報に対して判定を行って判定結果を出力する判定手段と、前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段と、前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段と、前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段と、前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段と、前記入力情報が入力された場合に前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において、前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合に、前記第２受付手段及び前記第２突合手段を更に動作させる制御を行う制御手段と、を含む情報処理装置である。

請求項６に係る発明は、前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段、を更に含み、前記制御手段は、前記第２突合手段による突合において、前記第１受付手段が受け付けた前記判定結果と前記第２受付手段が受け付けた前記判定結果とが合致しない場合に、前記第２受付手段が受け付けた前記判定結果を最終的な出力として出力する処理と、前記第３受付手段を動作させる処理と、を選択的に実行する、請求項５に記載の情報処理装置である。

請求項７に係る発明は、前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段、を更に含み、前記制御手段は、前記第２突合手段による突合において、前記第１受付手段が受け付けた前記判定結果と前記第２受付手段が受け付けた前記判定結果とが合致しない場合に、前記第３受付手段を動作させる、請求項５に記載の情報処理装置である。

請求項８に係る発明は、コンピュータを、入力情報に対して判定を行って判定結果を出力する判定手段、前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段、前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段、前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段、前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段、前記入力情報が入力された場合に前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において、前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合に、前記第２受付手段及び前記第２突合手段を更に動作させる制御を行う制御手段、として機能させるためのプログラムである。

請求項１、２、４、５又は８に係る発明によれば、自動判定の確度で第１突合処理と第２突合処理を使い分ける方式と比べて、人手による判定の工数を低減できる。

請求項３に係る発明によれば、判定手段の判定確度が第２閾値以上であってもその判定手段の判定結果を人間の判定結果と突合する場合と比べて、人手による判定の工数を低減できる。

請求項６又は７に係る発明によれば、第１突合手段による突合の結果が非合致の場合に前記第２受付手段及び前記第２突合手段を動作させるか、別の人の判定結果を受け取るかを選択的に実行する方式よりも、人手による判定の工数を低減することができる。

実施形態のデータ入力システムにおける処理の仕組みを説明するための図である。実施形態の仕組みを実現する装置構成を例示する図である。第１の変形例の装置構成を例示する図である。第２の変形例の装置構成を例示する図である。第３の変形例の装置構成を例示する図である。既存のデータ入力システムにおける処理の仕組みを説明するための図である。

本実施形態を説明する前に、本実施形態の比較対象となる既存のデータ入力システムの仕組みについて、図６を参照して説明する。

このシステムには、文字列が記載された画像が入力画像として入力される。文字列分類器６０は、内蔵する文字認識器６２によりその入力画像に対して文字認識を行い、そのとき文字認識器が出力する認識確度Ｐを用いて、その入力画像の分類を行う。認識確度は、文字認識器６２の認識結果のテキストコードがその入力画像に含まれる文字列（手書きの場合もある）を正しく表している確からしさを示す度合いである。認識確度が高いほど、認識結果のテキストコードが正解である（すなわち入力画像中の文字列を正しく表している）蓋然性が高い。ある閾値Ｔ１を設定し、認識確度Ｐがその閾値Ｔ１より高いとき（Ｐ＞Ｔ１）は、このシステムは、文字認識器６２の認識結果をそのままこのシステムの最終的な認識結果として出力する。これは、図６中に符号Ｘで示しているパス（処理経路）である。なお、図６には、文字認識器６２が３つ表示されているが、これらはすべて同じ１つの文字認識器を示している。図６では、文字列分類器６０の分類により分かれる３つのパスでの処理を分かりやすくするために、それらパスでそれぞれ用いられる処理要素をすべて図示した。このため、同一の文字認識器６２が複数表示される形となっている。

またこのシステムではＴ１より低いある閾値Ｔ２を設定し、認識確度ＰがＴ２以下であるとき（Ｐ≦Ｔ２）は、パスＺに進む。パスＺでは、二人のオペレータ（Ｂさん、Ｃさん）がその入力画像を読んで認識した文字列をキー入力し、それら入力をシステムのキー入力部７２及び７４が受け取る。そして、それらＢさん、Ｃさんの入力結果(テキストデータ)を第２突合部７６で突合（突き合わせ）し、この突合で両者が合致（一致）すれば、その合致した入力結果を本システムの最終的な認識結果として出力する。その突合でそれら両者が非合致であれば、Ｂ、Ｃ両名とは別のＥさんにその入力画像が示す文字列の入力を求め、その入力をキー入力部７８により受け取る。そして、そのＥさんの入力を本システムの最終的な認識結果として出力する。

また、認識確度Ｐが中くらい、すなわちＴ２≦Ｐ＜Ｔ１の場合は、パスＹに進みＡさんによる入力画像の認識結果のキー入力をキー入力部６４で受け付ける。そして、文字認識器６２の認識結果とＡさんのキー入力結果を第１突合部６６で突合する。突合の結果それら両者が合致すれば、その合致した認識結果をシステムの最終的な認識結果として出力する。両者が非合致（不一致）であれば、Ａさんとは別のＤさんにその入力画像が示す文字列の入力を求め、その入力をキー入力部６８により受け取る。そして、そのＤさんの入力を本システムの最終的な認識結果として出力する。

このように、入力画像はＸ、Ｙ、Ｚの３つのパスのいずれかにより認識され、入力画像中に含まれる文字列コード”ＡＢＣ”が得られる。

なお、この仕組みでは、人間の入力者としてＡ〜Ｅさんの５人を示しているが、別々の５人が必ずしも必要なわけではない。ＡさんとＤさんは別人、ＢさんとＣさんとＥさんとは別人、という条件を満たすならば、５人よりも少なくてもよい。

このように既存システムは、文字認識器６２の認識確度が低くなるほど、文字認識器６２の認識結果の信頼性が低くなるため、より人間の関与を強くする方式を採っている。

ここで、認識確度はあくまで文字認識器６２が行った文字認識の信頼性の推定値にすぎないので、誤差が含まれる。例えば認識確度Ｐが下の閾値Ｔ２以下となると、そのシステムではパスＺに進み、文字認識器６２の認識結果は用いずに人間の入力のみでデータエントリを行う。しかし、認識確度Ｐはあくまで推定値なので、認識確度ＰがＴ２以下であっても、文字認識器６２の認識結果が正解している場合がままある。この場合、文字認識器６２の認識結果を用いずその代わりに人間一人の入力を用いるパスＺの方式は、人間による入力コストが無駄にかかっていることとなる。

そこで、本実施形態では、文字認識器の認識結果が正解しているにもかかわらずその認識結果がデータ入力に用いられないことによる無駄をなるべく減らす仕組みを提案する。

図１にこの実施形態のデータ入力システムにおける処理の仕組みを示す。図１は、上述の既存システム（図６）との対比で本実施形態の特徴を説明するためのものである。ただし、図１に示した仕組みは、図６の既存例におけるパスＹ及びＺの部分（図６中で破線で囲んだ部分６００）に対する改善を示すものであり、パスＸは考慮に入れていない。したがって、図１の仕組みにパスＸを追加した仕組みも考えられる（これについては後で説明する）。また、図１の仕組みは、文字認識器の認識結果のみをシステムの最終出力とはせず、文字認識器の認識結果は必ず人の認識結果と突合することとしたシステムと捉えてもよい。

このシステムでは、文字認識器１２とキー入力部１４と第１突合部１６とからなる組を文字列分類器１０として用いる。すなわち、パスＹ（特にパスＹ１）とパスＺとの振り分けを、文字認識器１２の認識結果と人間の認識結果との突合結果に基づいて行う。人間による文字認識は、一般にＯＣＲ技術を用いた文字認識器よりもはるかに認識精度が高いので、両者の認識結果が合致（一致）すれば、それら認識結果は正解である蓋然性が非常に高い。逆に、利用者が非合致であれば、文字認識器が誤っている蓋然性が高い。図１には、文字列分類器１０として、破線のブロックと実線のブロックの２つが示されているが、これらは同じ１つのものである。

すなわち、このシステムでは、入力画像を必ず文字認識器１２と一人の人間（仮にＡさんとする）に提示し、文字認識器１２によるその入力画像の文字認識結果を得ると共に、その入力画像に対するＡさんの認識結果をキー入力部１４にて受け取る。そして、それら両者の認識結果を第１突合部１６で突合し、この突合の結果それら両者の一致（合致）が見られた場合には、その一致した認識結果を本システムの最終的に認識結果として出力する（図中のパスＹ１）。

一方、第１突合部１６の突合で、文字認識器１２の認識結果とキー入力部１４に入力されたＡさんの認識結果が不一致（非合致）の場合は、以降の処理を所定の基準に従って図示のパスＹ２又はパスＺに割り振る。

図１に示す仕組みのポイントは、パスＹ（特にＹ１）とパスＺとの間の割り振り（分類）の基準に文字認識器１２の認識確度Ｐを用いず、その代わりに第１突合部１６の突合結果を用いた点にある。すなわち、図１の仕組みでは、認識確度Ｐが非常に低い（Ｐ≦Ｔ２）場合でも、第１突合部１６の突合で文字認識器１２の認識結果とＡさんの認識結果とが一致していれば、その一致した認識結果を最終出力する。すなわち、認識確度Ｐが低くても、文字認識器１２の認識結果が正しい場合には、人間の入力は一人分で済む。これに対し、図６に示した既存システムでは、認識確度Ｐが非常に低い場合、文字認識器の認識結果を用いずに、必ず二人の人の認識結果を突合するので、図１の仕組みよりも人手の工数が余計にかかる。このように、図１の仕組みでは、図６の既存システムでは認識確度に応じてパスＺ（人間二人必要）に割り振っていた入力画像の一部をパスＹ（人間は一人でよい）に割り振ることで、人手工数の削減がなされる。

また、図１の仕組みでは、文字列分類器１０の役割のために、少なくとも一人の人（Ａさん）の認識結果の入力を必ず受け付けることとしているので、この一人の入力をパスＺで突合する二人の認識結果のうちの一つとして流用する。すなわち、第２突合部２４は、キー入力部１４が受け取ったＡさんの認識結果と、キー入力部２２が受け取ったＡさんとは別のＢさんの認識結果とを突合する。そして、第２突合部２４は、その突合処理でＡさんとＢさんの認識結果が合致した場合には、その認識結果をシステムの最終的な処理結果として出力する。ＡさんとＢさんの認識結果が第２突合部２４で非合致であった場合は、ＡさんともＢさんとも異なるＤさんによるその入力画像の認識結果をキー入力部２６で受け取り、そのＤさんの認識結果をシステムの最終的な認識結果として出力する。

以上では、第１突合部１６で非合致となった場合の、パスＹ２とパスＺとの間での認識処理の割り振り（分類）については説明しなかったが、これにはいくつかの方式がある。一つの例は、その入力画像に対する文字認識器１２の認識確度Ｐを用いて割り振りを行う方式であり、これは図６の既存システムの考え方に似ている。すなわち、この方式では、文字列分類器１０は、認識確度Ｐがある閾値Ｔ２より大きい場合には認識処理をパスＹ２に割り振り、認識確度ＰがＴ２以下の場合は認識処理をパスＺに割り振る。パスＹ２では、Ａさんとは異なるＣさんのその入力画像に対する認識結果をキー入力部１８により受け取り、この認識結果をシステムの最終的な認識結果として出力する。

このように文字認識器１２の認識確度Ｐに基づいてパスの割り振りを行うことが有効な理由は以下の通りである。

まず「前提」として、図６の既存誌システムではパスＸ、Ｙ、Ｚへの割り振りを決定する閾値Ｔ１、Ｔ２を、人と文字認識器６２の出力を含めた最終的な認識精度が所定の精度以上となるように設定しているとする。すなわち、これら閾値は、第２突合部７６の突合が非合致となった場合のＤさんやＥさんの誤入力率も勘案して決められている。

図１のシステムで、第１突合部１６にて文字認識器とＡさんの認識結果同士の突合結果が非合致となった場合を考える。

まず、第１突合部１６の突合結果が非合致の場合に全てパスＹ２に進むとしたケースを取り上げる。パスＹ２では、Ｃさんの入力がそのままシステムの最終出力となる。このとき、文字認識器の認識精度は人一人分より悪いので、Ｃさんが入力する割合がパスＺよりも多くなる。Ｃさんの誤入力率が存在しているので、全てパスＺに行ったとき（すなわち人のダブルエントリ時）よりも、最終的な入力精度が悪くなる。

次に、第１突合部１６の突合結果が非合致の場合に全てパスＺに行くケースを考える。このとき、文字認識器１２の認識精度が人のシングルエントリより良い場合（すなわちパスＹで済む場合）も、パスＺに行くことになるので、所定の精度を実現する工数を必要以上に要することになる。

上記２つのケースを考えると、所定の精度を実現するように、上記２つのケース（すなわち、全部パスＹ２に行くケースと全部パスＺに行くケース)の中間の割合で、パスＹ２とパスＺとにパスを振り分けるところに最適解が存在することになる。最適解は、最終的な入力精度を所定の精度以上にするという条件下で、できるだけパスＹ２が多くなるように配分するケースである。

上述した「前提」より、認識確度ＰがパスＹへ振り分ける範囲の値である場合（すなわち認識確度Ｐ＞Ｔ２の場合）、閾値Ｔ２はパスＹの精度が所定の精度以上になるように設定されている。したがって、文字認識器１２とＡさんの認識結果同士の突合の結果が非合致となった場合に、認識確度Ｐ＞Ｔ２のときにパスＹ２に配分することで、最終的な入力精度を所定の精度以上にすることができる。

このように、システム全体として所定の精度を達成するには、既存システム（図６）でパスＹとＺとの間での振り分けに用いた閾値Ｔ２を、パスＹ２とＺとの振り分けにもちいればよいことが分かる。

ただし、パスＹ２もパスＺも文字認識器１２の認識結果を用いないことからも分かるように、パスＹ２とパスＺとの振り分けを文字認識器１２の認識確度Ｐと閾値Ｔ２との比較に基づき行うことは、技術的にみて本質的なことではない。上に例示した認識確度Ｐと閾値Ｔ２との比較に基づく振り分けと同じ割合でパスＹ２もパスＺとの間で振り分けができるのであれば、別の方法を用いてもよい。

例えば上に例示した認識確度Ｐと閾値Ｔ２との比較に基づき振り分ける方式でのパスＹ２とパスＺとの振り分けの割合が統計的に分かるのであれば、その割合が達成されるようそれら両者間の振り分けを行えばよい。これには、例えば、第１突合部１６で非合致と判定された入力画像をある程度の数になるまでいったん蓄積しておき、その蓄積した入力画像を、パスＹ２とパスＺにその割合で振り分ければよい。また別の方法として、パスＹ２とパスＺとの間の振り分けがその割合となるように、第１突合部１６で非合致と判定されるごとに乱数を用いて振り分けを行ってもよい。

また、認識確度Ｐと閾値Ｔ２との比較に基づく場合と同じ割合で振り分けを行う代わりに、ユーザが予め定めた割合でパスＹ２とＺの振り分けを行ってもよい。

また、システム全体の誤り率の目標値を達成する振り分け方式として、次の方式を用いてもよい。

すなわち、この方式では、パスＹ２のＣさんの誤り率がαであるとし、パスＺ全体の場合の誤り率をβとする。また、図１のシステムに入力される（すなわちパスＹかＺのいずれかに進む）入力画像の総数をＮとする（あるいは、入力の数がＮ個溜まった時点で振り分けを行うとする）。ここで入力画像の数とは、認識する文字列の数、あるいは、認識する文字枠の数などを考える。またここでは、第１突合部１６、第２突合部２４の突合で合致した認識結果には誤りが無いと仮定する。

入力画像の総数Ｎの中で、第１突合部１６の突合結果が非合致となる認識結果の個数がＭ個であるとする。またシステム全体の最終的な誤り率の目標値をγとする。この場合、システム全体の最終の誤り個数の目標値は最大でγＮ個となる。

ここで、第１突合部１６の突合結果が非合致となる認識結果Ｍ個のうち、パスＹ２に配分される数をＱ個とする。Ｃさんの誤り率がαなので、パスＹ２の誤り数はαＱとなる。第１突合部１６の突合結果が合致の場合は全て正解とカウントされるので、パスＹ１とＹ２をあわせたパスＹ全体の誤り数もαＱである。またパスＺ全体の誤り率はβなので、パスＺ全体の誤り数はβ（Ｍ−Ｑ）となる。

システム全体での誤り率を目標値γ以下とするには、次の関係式が成り立てばよい

αＱ＋β（Ｍ−Ｑ）≦γＮ・・・（１）

この式（１）をＱについて解くと以下のようになる。

Ｑ≦（γＮ−βＭ）／（α−β）・・・（２）

式（２）を満たすよう、第１突合部１６の突合結果が非合致となったＭ個のうちパスＹ２に振り分ける入力画像の数を制御することで、システム全体の目標認識率が達成される。なお、式（２）でＱが右辺と等しくなる場合が、システム全体の人手工数が最小となる最適解である。

次に、図１の方式を実現する装置構成の一例を、図２を参照して説明する。図２に示す例は、パスＹ２とＺの振り分けを文字認識器１２の認識確度Ｐに基づき行う場合の例である。

その装置構成では、まず認識対象である入力画像が、文字認識器１２とＡさんの端末とに入力される。文字認識器１２は、その入力画像に対して文字認識処理を実行し、これにより得られた認識結果Ｒと認識確度Ｐを第１突合部１６に渡す。文字認識器１２が行う文字認識の手法や認識確度の算出方法は特に限定されず、特許文献４〜９に例示したものを初めとする従来手法や今後開発される手法のうちいずれを用いてもよい。

またＡさんの端末は、図２に示した装置と例えばインターネットを介して接続されているものでよく、この場合、入力画像を表示したり、その入力画像の認識結果の入力を受け付けたりする機構は、例えばウェブサービスの形でキー入力部１４からその端末に提供される。Ａさんは、端末に表示された入力画像を認識し、その入力画像が示す文字列を端末のキーボードから入力する。キー入力部１４は、Ａさんが入力した文字列データをその端末から受け取り、第１突合部１６に渡す。

第１突合部１６は、文字認識器１２の認識結果ＲとＡさんの入力した文字列とを突合する。この突合処理でそれら両者が合致した場合、その認識結果Ｒ（これはＡさんの認識結果でもある）を、この装置の最終的な認識結果として出力する。また、突合処理でそれら両者が非合致であった場合、第１突合部１６は、振り分け処理部１７に、今回の認識対象の入力画像の識別情報、その入力画像に対するＡさんの入力データ、及び認識確度Ｐを渡して、処理の振り分けを依頼する。

振り分け処理部１７は、認識確度Ｐが予め設定された閾値Ｔ２より大きい場合、処理をパスＹ２に振り分ける。すなわち、振り分け処理部１７は、文字列分類器１０の分類機能を担う。

図２の例では、振り分け処理部１７は、認識確度Ｐが閾値Ｔ２より大きい場合、パスＹ２を選択し、キー入力部１８に入力画像の識別情報を渡す。キー入力部１８は、予め登録されているＣさんの端末にその識別情報に対応する入力画像を提供し、これに対してＣさんが入力した文字列のデータを受け取り、そのデータをその入力画像に対する本システムの最終的な認識結果として出力する。

また振り分け処理部１７は、認識確度Ｐが閾値Ｔ２以下の場合は、パスＺを選択し、キー入力部２２に入力画像の識別情報を渡すと共に、第２突合部２４にＡさんの入力データを渡す。キー入力部２２は、予め登録されているＢさんの端末にその識別情報に対応する入力画像を提供し、これに対してＢさんが入力した文字列データを受け取り、そのデータを第２突合部２４に渡す。第２突合部２４は、Ａさんの入力データとＢさんの入力データを突合し、その結果両者が合致していれば、その合致した入力データをその入力画像に対する本システムの最終的な認識結果として出力する。一方、第２突合部２４の突合で両者が非合致であった場合、キー入力部２６が、Ａさん及びＢさんのいずれとも異なる予め登録されたＤさんの端末にその識別情報に対応する入力画像を提供し、これに対してＤさんが入力した文字列のデータを受け取り、そのデータを本システムの最終的な認識結果として出力する。

図２の例では、振り分け処理部１７は後段のパスの振り分けを認識確度Ｐに対する閾値処理に基づき行ったが、上述したように認識確度Ｐを用いずにある割合でパスの振り分けを行ってもよい。

次に図３を参照して、図２の装置構成の変形例を説明する。

上述した図２の例において、キー入力部１８に登録されたＣさんの満たすべき条件はＡさんと異なる人であるということであり、キー入力部２２に登録されたＢさんの満たすべき条件は、Ａさんと異なる（かつＤさんとも異なる）人であるということである。したがって、ＢさんとＣさんが同一人であっても、それら条件は満たされる。図３の変形例は、ＢさんとＣさんを同一人とした場合に採用可能な、簡略化された装置構成の例である。

以下、図３の例において、図２の例と異なる部分を説明する。この例では、第１突合部１６は、自分が行った突合結果が非合致の場合、第２突合部２４にＡさんの入力データを渡すと共に、キー入力部２２Ａに入力画像の識別情報を渡す。キー入力部２２Ａは、予め登録されているＢさんの端末にその識別情報に対応する入力画像を提供し、これに対してＢさんが入力した文字列のデータ（このデータは図２の例でのＣさんの入力データも兼ねる）を受け取る。キー入力部２２Ａは、そのデータを第２突合部２４に渡す。

第２突合部２４は、第１突合部１６から受け取ったＡさんの入力データと、キー入力部２２Ａから受け取ったＢさんの入力データとを突合する。この突合の結果、それら両者の入力データが合致した場合、その合致した入力データがこのシステムの最終的な認識結果として出力される。一方、その突合の結果が非合致であった場合、第２突合部２４は、入力画像の識別情報及びＢさんの入力データ（必要ならば更に認識確度Ｐ）を振り分け処理部１７Ａに渡す。

振り分け処理部１７Ａは、後段のパスＹ２とパスＺの振り分けを行う。この振り分けは、図２の例と同様認識確度Ｐに基づいて行ってもよいし、上述したようにある割合を満たすように行ってもよい。例えば認識確度Ｐに基づき振り分ける場合は、認識確度Ｐが閾値Ｔ２より大きければパスＹ２を選択し、Ｂさんの入力データ（これは図２の例のＣさんの入力データに該当）を最終的な認識結果として出力し（パスＹ２）、認識確度Ｐが閾値Ｔ２以下であれば、キー入力部２６でＤさんの入力データを受け取り、この入力データを最終的な認識結果として出力する（パスＺ）。

図３の例では、第１突合部１６の突合結果が非合致の場合、必ず第２突合部２４で入力データの突合が行われるので、２回の突合を行う分、入力データが正しいかどうかより正確に判定でき、パスＺに進む数が減る可能性がある。パスＺに進む数が減れば、その分Ｄさんの入力のためのコストが削減される。

次に、図４を参照して、更なる変形例を説明する。図４の例は、図２の例からパスＹ２をなくし、第１突合部１６の突合結果が非合致の場合に必ずパスＺに進むこととした構成である。

以下、図４の例において、図２の例と異なる部分を説明する。この例では、第１突合部１６は、自分が行った突合結果が非合致の場合、第２突合部２４にＡさんの入力データを渡すと共に、キー入力部２２に入力画像の識別情報を渡す。キー入力部２２は、予め登録されているＢさんの端末にその識別情報に対応する入力画像を提供し、これに対してＢさんが入力した文字列のデータを受け取る。キー入力部２２は、そのデータを第２突合部２４に渡す。

第２突合部２４は、第１突合部１６から受け取ったＡさんの入力データと、キー入力部２２から受け取ったＢさんの入力データとを突合する。この突合の結果、それら両者の入力データが合致した場合、その合致した入力データがこのシステムの最終的な認識結果として出力される。一方、その突合の結果が非合致であった場合、第２突合部２４は、キー入力部２６に入力画像の識別情報を渡す。キー入力部２６は、Ａさん及びＢさんのいずれとも異なる予め登録されたＤさんの端末にその識別情報に対応する入力画像を提供し、これに対してＤさんが入力した文字列のデータを受け取り、そのデータを本システムの最終的な認識結果として出力する。

上述した図２の例でのＣさん及びＤさんの入力は、他の認識結果との突合を経ることなく、そのままシステムの最終的な認識結果として出力される。このためＣさん及びＤさんの入力のシステム全体の認識率（正解率）に与える影響は、ＡさんやＢさん（これらの入力は、他の認識結果と突合される）より高い。システム全体の認識率の目標値を達成するためには、Ｃさん及びＤさんは、ＡさんやＢさんより時間を掛けて慎重に入力を行うか、あるいはＡさんやＢさんより熟練度が高い人である必要がある。このように、ＣさんやＤさんの入力コストは、ＡさんやＢさんより高いといえる。

図４の例では、第１突合部１６の突合結果が非合致の場合、Ｃさんが入力するパス（パスＹ２）を省いたが、その代わりに必ずＢさんが入力することとなる。この場合でも、Ｂさんの入力コストはＣさんのそれより低いので、システム全体の人手入力コストは図２の例より低くなる。

次に、図５を参照して、更なる変形例を説明する。図５の例は、図２の例に対して、図６の既存システムにおけるパスＸに対応する構成、すなわち振り分け処理部１３を追加したものである。

図５の例では、文字認識器１２が出力した認識結果Ｒと認識確度Ｐは、振り分け処理部１３に入力される。振り分け処理部１３は、受け取った認識確度Ｐが閾値Ｔ１（ただしＴ１＞Ｔ２）より大きい場合、文字認識器１２の認識結果Ｒをシステムの最終的な認識結果として出力する。また、振り分け処理部１３は、認識確度Ｐが閾値Ｔ１以下である場合、その認識結果Ｒを第１突合部１６に入力する。第１突合部１６以降の処理の流れ及びそのための装置構成は、図２に示したものと同じである。

このように、図１及び図２に示した構成は、認識確度Ｐが非常に高い範囲では文字認識器１２の認識結果をそのまま最終的な出力とする装置構成にも適用可能である。

以上、本発明の実施形態及びその変形例について説明したが、これら実施形態及び変形例はあくまで例示的なものにすぎず、本発明の範囲内で様々な変更が可能である。

例えば、以上に説明した実施形態及び変形例は、いずれも、入力画像中の文字列を認識するものであったが、上記実施形態及び変形例の手法は、文字認識に限らず、入力されたデータの内容を判定してその判定結果を出力する情報処理装置又はシステム全般に適用可能である。すなわち、入力されたデータの内容に対して、機械の判定手段（その一例が文字認識器１２）及び人間が何らかの判定を行い、それら判定手段及び人間の判定の結果を総合して装置またはシステム全体の判定結果を決定するもの一般に、上記実施形態及び変形例の手法は適用可能である。

以上に例示した実施形態及び変形例の装置又はシステムは、一つの例ではハードウエアの論理回路として構成可能である。また、別の例として、実施形態及び変形例の装置又はシステムは、例えば、内蔵されるコンピュータにそれらシステムまたは装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウエアとして、ＣＰＵ等のプロセッサ、ランダムアクセスメモリ（ＲＡＭ）およびリードオンリメモリ（ＲＯＭ）等のメモリ（一次記憶）、ＨＤＤ（ハードディスクドライブ）を制御するＨＤＤコントローラ、各種Ｉ／Ｏ（入出力）インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばＩ／Ｏインタフェース経由で、ＣＤやＤＶＤなどの可搬型ディスク記録媒体に対する読み取り及び／又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び／又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがＣＤやＤＶＤ等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがＲＡＭに読み出されＣＰＵ等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、実施形態及び変形例の装置又はシステムは、ソフトウエアとハードウエアの組合せで構成されてもよい。

１０文字列分類器、１２文字認識器、１３，１７，１７Ａ振り分け処理部、１４，１８，２２，２２Ａ，２６キー入力部、１６第１突合部、２４第２突合部、６０文字列分類器、６２文字認識器、６４，７２，７４，７８キー入力部、６６第１突合部、７６第２突合部。

Claims

入力情報に対して判定を行って判定結果を出力する判定手段と、
前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段と、
前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段と、
前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段と、
前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段と、
前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段と、
前記入力情報が入力された場合に、前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合、更に、前記第２受付手段及び前記第２突合手段からなる組と、前記第３受付手段と、のうちの一方を選択的に動作させるよう制御する制御手段と、
を含む情報処理装置。
入力情報に対する前記判定手段の判定確度を算出する手段を更に含み、
前記制御手段は、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合、前記判定確度が第１閾値以上であれば前記第３受付手段を動作させ、前記判定確度が前記第１閾値未満であれば前記第２受付手段及び前記第２突合手段を動作させる、ことを特徴とする請求項１に記載の情報処理装置。
前記制御手段は、
前記判定確度が前記第１閾値より大きい第２閾値以上である場合は前記判定手段の判定結果を最終的な出力とし、
前記判定確度が前記第２閾値未満である場合は、前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、
前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合には、前記判定確度が前記第２閾値未満かつ前記第１閾値以上であれば前記第３受付手段を動作させ、前記判定確度が前記第１閾値未満であれば前記第２受付手段及び前記第２突合手段を動作させる制御を行う、
ことを特徴とする請求項２に記載の情報処理装置。
コンピュータを、
入力情報に対して判定を行って判定結果を出力する判定手段、
前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段、
前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段、
前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段、
前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段、
前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段、
前記入力情報が入力された場合に、前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合、更に、前記第２受付手段及び前記第２突合手段からなる組と、前記第３受付手段と、のうちの一方を選択的に動作させるよう制御する制御手段、
として機能させるためのプログラム。
入力情報に対して判定を行って判定結果を出力する判定手段と、
前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段と、
前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段と、
前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段と、
前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段と、
前記入力情報が入力された場合に前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において、前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合に、前記第２受付手段及び前記第２突合手段を更に動作させる制御を行う制御手段と、
を含む情報処理装置。
前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段、を更に含み、
前記制御手段は、前記第２突合手段による突合において、前記第１受付手段が受け付けた前記判定結果と前記第２受付手段が受け付けた前記判定結果とが合致しない場合に、前記第２受付手段が受け付けた前記判定結果を最終的な出力として出力する処理と、前記第３受付手段を動作させる処理と、を選択的に実行する、請求項５に記載の情報処理装置。
前記入力情報に対する第３の人による判定結果の入力を受け付け、当該判定結果を最終的な出力として出力する第３受付手段、を更に含み、
前記制御手段は、前記第２突合手段による突合において、前記第１受付手段が受け付けた前記判定結果と前記第２受付手段が受け付けた前記判定結果とが合致しない場合に、前記第３受付手段を動作させる、請求項５に記載の情報処理装置。
コンピュータを、
入力情報に対して判定を行って判定結果を出力する判定手段、
前記入力情報に対する第１の人による判定結果の入力を受け付ける第１受付手段、
前記入力情報に対する第２の人による判定結果の入力を受け付ける第２受付手段、
前記判定手段が出力した判定結果と前記第１受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に当該合致する判定結果を最終的な出力として出力する第１突合手段、
前記第１受付手段が受け付けた判定結果と前記第２受付手段が受け付けた判定結果とを突合し、それら判定結果同士が合致する場合に、当該合致する判定結果を最終的な出力として出力する第２突合手段、
前記入力情報が入力された場合に前記判定手段、前記第１受付手段及び前記第１突合手段を動作させ、前記第１突合手段による突合において、前記判定手段による前記判定結果と前記第１受付手段が受け付けた前記判定結果とが合致しない場合に、前記第２受付手段及び前記第２突合手段を更に動作させる制御を行う制御手段、
として機能させるためのプログラム。