JP7338158B2

JP7338158B2 - 情報処理装置及びプログラム

Info

Publication number: JP7338158B2
Application number: JP2019010052A
Authority: JP
Inventors: 俊一木村; 雅則関野; 拓也桜井
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2023-09-05
Anticipated expiration: 2039-01-24
Also published as: CN111476240B; US20200242387A1; JP2020119290A; US10997452B2; CN111476240A

Description

本発明は、情報処理装置及びプログラムに関する。

紙帳票に手書き記入又は印刷された文字列をデジタルデータ化するデータ入力システムがある。データ入力システムは、帳票中を人間が読み取ってキー入力する方式、光学文字認識（ＯＣＲ）技術を用いた文字認識器により帳票中の画像に対して文字認識処理を行う方式、あるいはこれらの組合せにより帳票中の文字列をデジタル化する。

特許文献１に開示された情報処理装置の分類手段は、文字認識対象を３種類のいずれかに分類し、抽出手段は、前記分類手段によって第１の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、第１の制御手段は、前記分類手段によって第２の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、該文字認識対象を人手で入力させるように制御し、第２の制御手段は、前記分類手段によって第３の種類に分類された場合に、前記文字認識対象を複数人の人手で入力させるように制御する。また、特許文献１には、文字認識モジュールが文字認識結果の確度（すなわちその文字認識結果が正しいと確信する度合い）を出力し、その確度の値に応じて、文字認識対象を第１～第３の種類に分類すること、更に、その確度が最も高い範囲に属する場合には文字認識モジュールによる文字認識結果を最終的な結果として抽出すること、が記載されている。

また、郵便番号欄のように記入される文字種が限定されている記入欄に対する文字認識において、記入されている文字がその文字種に属するものとして文字認識を行う文字認識器を用いることが行われている。

例えば、特許文献２には、ユーザから文字種の指定を受け付け、指定された文字種に限定して、入力される手書き文字の軌跡を、予め登録されている複数の登録文字と照合し、上記手書き文字の軌跡との類似度が高い登録文字を認識候補として抽出する方式が開示されている。

また、文字認識器による文字認識結果が正しくないと判断される場合に、その文字認識結果を棄却することが行われている。

例えば特許文献３には、文字認識器の文字認識の信頼度（確度に相当）が低い場合や、文字の画像に取消線等が含まれる場合に、文字認識器の文字認識結果を棄却することが記載されている。

また特許文献４には、劣化の種類ごとに文字画像の劣化度を計算し、計算した劣化度に基づいてその文字画像についての文字認識結果を棄却するか否かを判定することが開示されている。

文字認識結果を棄却することによって、人に確認を促したり、スキャンや文字認識のやり直しを促したり等、精度を高める施策を実施することが可能になる。

また特許文献５には、認識方式が異なる複数の文字認識部の文字認識結果を総合評価することにより、最終的な文字認識結果を決定する方法が開示されている。

特開２０１６－２１２８１２号公報特開２０１３－２１４１８８号公報特開２０１２－１８５７１３号公報特開２０１３－０７３４３９号公報特開２０００－０８２１１０号公報特開平１１－２９６６１９号公報

特定の文字種（例えば数字）を記入すべき記入欄に、記入者の誤りにより別の文字種（例えばアルファベット）の文字が記入される場合がある。そして、そのように誤って記入された文字の形状が、本来記入されるべき特定の文字種の特定の文字の形状に似ている場合などには、文字認識手段が、その記入された文字をその特定の文字として認識してしまうことが起こり得る。この認識の結果は本来ならば誤りであるが、文字認識手段が高い確度と共に、その認識の結果を出力することも少なくない。

文字認識結果が誤りである蓋然性が高い場合にその文字認識結果を棄却するという方式では、そのようなタイプの誤った文字認識結果を正しく棄却できない場合がある。例えば、文字認識結果の確度が低い場合にその文字認識結果を棄却するという方式では、そのようなタイプの誤った文字認識結果は棄却されない。

本発明は、本来記入されるべきでない文字種の文字を、記入されるべき文字種の似た文字として認識するというタイプの誤った文字認識結果を、文字認識結果が誤りである蓋然性が高い場合にその文字認識結果を棄却するという方式よりも適切に棄却できるようにすることを目的とする。

請求項１に係る発明は、入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力する第１文字認識手段と、前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段と、前記第１文字認識結果と前記第２文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第２文字認識結果とが合致することが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力し、前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力しない突合手段と、を含む情報処理装置である。

請求項２に係る発明は、前記第２文字認識手段は、１つの前記入力画像について、確度が上位の異なる複数の前記第２文字認識結果を出力し、前記突合手段は、それら異なる複数の前記第２文字認識結果の各々を前記第１文字認識結果と突合し、この突合によりそれら異なる複数の前記第２文字認識結果の中に前記第１文字認識結果と合致するものがあれば、前記第１文字認識結果を最終的な文字認識結果として出力し、それら異なる複数の前記第２文字認識結果のすべてが前記第１文字認識結果と非合致であることが分かった場合には、前記第１文字認識結果を最終的な文字認識結果として出力しない、請求項１に記載の情報処理装置である。

請求項３に係る発明は、前記入力画像に対して、第３文字種の文字の集合に属する文字を認識対象とする第３文字認識を実行し、この文字認識の結果である第３文字認識結果を出力する第３文字認識手段であって、前記第３文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合にも前記第２文字種の文字の集合にも属さない文字を少なくとも１以上加えた集合である、第３文字認識手段、を更に含み、前記突合手段は、前記第１文字認識結果と前記第２文字認識結果との突合、及び、前記第１文字認識結果と前記第３文字認識結果との突合を行い、これら突合により、前記第２文字認識結果及び前記第３文字認識結果の中に前記第１文字認識結果が合致するものがあれば、前記第１文字認識結果を最終的な文字認識結果として出力し、前記第１文字認識結果が、前記第２文字認識結果及び前記第３文字認識結果のいずれとも非合致であることが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力しない、請求項１に記載の情報処理装置である。

請求項４に係る発明は、入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力すると共に、前記第１文字認識結果の確度を出力する第１文字認識手段と、前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段と、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と、前記第１文字認識結果と前記第２文字認識結果との突合を行う第１突合手段と、前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段と、前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第２突合処理を実行する第２突合手段であって、前記第２突合処理は、前記入力画像に対する第１の人による文字認識結果を前記受付手段に受け付けさせ、前記第１文字認識結果と前記第１の人による文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第１の人による文字認識結果とが合致していることが分かった場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第１文字認識結果と前記第１の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第２の人による文字認識結果を前記受付手段に受け付けさせ、前記第２の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第２突合手段と、を含む情報処理装置である。

請求項５に係る発明は、コンピュータを、入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力する第１文字認識手段、前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段、前記第１文字認識結果と前記第２文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第２文字認識結果とが合致することが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力し、前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力しない突合手段、として機能させるためのプログラムである。

請求項６に係る発明は、コンピュータを、入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力すると共に、前記第１文字認識結果の確度を出力する第１文字認識手段、前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段と、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段、前記第１文字認識結果と前記第２文字認識結果との突合を行う第１突合手段、前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段、前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第２突合処理を実行する第２突合手段であって、前記第２突合処理は、前記入力画像に対する第１の人による文字認識結果を前記受付手段に受け付けさせ、前記第１文字認識結果と前記第１の人による文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第１の人による文字認識結果とが合致していることが分かった場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第１文字認識結果と前記第１の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第２の人による文字認識結果を前記受付手段に受け付けさせ、前記第２の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第２突合手段、として機能させるためのプログラムである。

請求項１又は５に係る発明によれば、本来記入されるべきでない文字種の文字を、記入されるべき文字種の似た文字として認識するというタイプの誤った文字認識結果を、文字認識結果が誤りである蓋然性が高い場合にその文字認識結果を棄却するという方式よりも適切に棄却できる。

請求項２に係る発明によれば、第２文字認識手段が単一の第２文字認識結果のみを出力する場合と比べて、第１文字認識手段が第１文字種に属する文字を正しく文字認識していた場合の第１文字認識結果を誤って棄却してしまう蓋然性を低下させることができる。

請求項３に係る発明によれば、第２文字種に属する文字と第３文字種に属する文字の両方を含んだ文字の集合を認識する単一の文字認識手段を用いる場合と比べて、突合手段における棄却の精度を向上させることができる。

請求項４又は６に係る発明によれば、本来記入されるべきでない文字種の文字を、記入されるべき文字種の似た文字として認識するというタイプの誤った文字認識結果が、そのまま装置の最終的な文字認識結果として出力することを防ぐことができる。また、突合手段の突合の結果が非合致の場合にその文字認識結果を単に捨ててしまう方式と比べ、その文字認識結果は正しいのにも関わらず第２文字認識手段の誤認識により非合致となった場合、その文字認識結果を生かし、より少ないコストで最終的な文字認識結果を求めることができる。

実施形態の装置構成の主要部を例示する図である。第１の変形例の主要部を例示する図である。第２の変形例の主要部を例示する図である。第３の変形例の主要部を例示する図である。第３の変形例において、第２突合部の突合結果が非合致の場合の処理のための構成を例示する図である。第３の変形例において、第２突合部の突合結果が非合致の場合の処理のための別の構成を例示する図である。第３の変形例に対応する別の装置構成の主要部を例示する図である。

図１に、本発明に係る情報処理装置の一実施形態の構成例を示す。

この情報処理装置には、文字列の画像を含んだ入力画像が入力される。入力画像は、例えば、帳票等の紙面をスキャナでスキャンすることにより得られる画像である。あるいは、紙面をスキャンすることにより得られた画像から、認識対象の文字列を含む領域（例えば特定の記入欄）の画像が切り出され、入力画像として情報処理装置に入力される。入力画像に含まれる文字列は、手書き文字からなる文字列であってもよいし、活字の文字列であってもよいし、手書き文字と活字が混じった文字列であってもよい。文字列は、１以上の文字からなる列である。また、認識の対象となる文字の中には、各種のアルファベットやひらがな、カタカナなどの表音文字、漢字等の表意文字、ロゴマーク等の各種マーク等が含まれてもよい。

本実施形態での認識の対象となる入力画像は、予め指定された文字種（以下、指定文字種と呼ぶ）に属する文字のみを記入するものと定められた記入欄の画像である。例えば、帳票をスキャンして得られた画像から郵便番号の記入欄を切り出すことにより得られる画像が、入力画像の例である。

ここで、この明細書及び特許請求の範囲において、文字種とは、複数の文字からなる文字の集合のことである。文字種という用語は、一般的には、アラビア数字、ラテン文字アルファベット、キリル文字アルファベット、ひらがな、カタカナ、日本の漢字、簡体漢字、繁体漢字、などといった文字の種類を指す場合が多いが、このような文字の種類も、本明細書における文字種の概念に含まれる。例えば、「アラビア数字」（以下単に数字という）という文字種は、０，１，２，３，４，５，６，７，８，９の１０個の文字からなる集合であり、「ラテン文字アルファベット」（以下単にアルファベットという）という文字種は、ａ，ｂ，ｃ，・・・，ｚ，Ａ，Ｂ，Ｃ，・・・，Ｚという５２個の文字からなる集合である。また、アルファニューメリック（すなわち数字、アルファベット、算術記号からなる集合）のように、複数の文字種からなる集合も１つの文字種として定義し得る。また、１０個の数字のうち１，２，３，４，５の５個から集合のように、ある文字種の部分集合が新たな文字種として定義される場合もある。また、１０個の数字に対し、数字４と字形が似ているアルファベットＡ，数字８と字形が似ているアルファベットＢを加えた１２文字の集合が新たな文字種として定義される場合もある。このように、任意の文字からなる集合が文字種として定義可能である。

文字種限定認識器１０２及び文字種非限定認識器１０４は、共に、ＯＣＲ（光学文字認識）の技術を用いて、入力画像に対する文字認識を行うモジュールである。

このうち文字種限定認識器１０２は、入力画像に含まれる文字が指定文字種に属する文字であるとして文字認識を行う。すなわち、文字種限定認識器１０２は、指定文字種に限定した文字認識、更に言い換えれば、指定文字種を認識対象とする文字認識、を実行する。文字種限定認識器１０２は、この情報処理装置における主たる文字認識器であり、「第１文字認識手段」の一例である。また、指定文字種は、「第１文字認識手段」の認識対象である「第１文字種」の一例である。また、文字種限定認識器１０２の認識結果Ｒは「第１文字認識結果」の一例である。

例えば、文字種限定認識器１０２は、その指定文字種に属する各文字の様々な字形のサンプル（例えば多くの人による手書きサンプル）を学習することで、指定文字種に属する文字を高精度に認識するよう学習した文字認識器である。また、別の例として、文字種限定認識器１０２は、指定文字種に属する各文字についてそれぞれ代表的な字形を登録した認識辞書を用いて文字認識を行うものであってもよい。この例では、入力画像に含まれる認識対象の文字について、認識辞書に含まれる文字の中からその認識対象の文字に対して字形の類似度が高い文字を探し、そのような文字が見つかれば、見つかった文字を、認識対象の文字の認識結果として採用する。郵便番号用の文字認識器のように従来から文字種限定の文字認識器は各種開発され利用されている。文字種限定認識器１０２としては、指定文字種に対応したそのような既存の文字認識器を用いてもよい。

文字種非限定認識器１０４は、主たる文字認識器である文字種限定認識器１０２の誤認識を判別するための補助的な文字認識器であり、「第２文字認識手段」の一例である。文字種非限定認識器１０４は、入力画像に含まれる文字が、指定文字種を含む指定文字種よりも大きい文字集合、に属する文字であるものとして文字認識を行う文字認識器である。すなわち、文字種限定認識器１０２の認識対象は指定文字種に属する文字の集合であるのに対し、文字種非限定認識器１０４の認識対象は、指定文字種に属する文字群と指定文字種に属さない所定の（すなわち予め定められた）１以上の文字とからなる文字の集合である。文字種非限定認識器１０４については、後で更に詳細に説明する。ここでいう「指定文字種に属する文字群と指定文字種に属さない所定の１以上の文字とからなる文字の集合」は、「第２文字認識手段」の認識対象である「第２文字種」の一例である。また、文字種非限定認識器１０４の認識結果ｒは「第２文字認識結果」の一例である。

文字種非限定認識器１０４は、認識対象とする文字の集合に属する文字を認識できるよう、文字種限定認識器１０２と同様の方法（例えば学習又は認識辞書の利用）で構成すればよい。

文字種限定認識器１０２及び文字種非限定認識器１０４は、１文字単位で文字認識を行うものであってもよいし、入力画像に含まれる文字列全体を単位として文字認識を行うものであってもよいし、入力画像から切り出された１以上の文字列のそれぞれを単位として文字認識を行うものであってもよい。文字種限定認識器１０２及び文字種非限定認識器１０４は、入力画像中の同じ文字又は同じ文字列を対象として文字認識を行い、その結果得られる文字認識結果を突合部１０６へと出力する。同じ対象についての文字種限定認識器１０２及び文字種非限定認識器１０４の文字認識結果を、それぞれ、認識結果Ｒ及び認識結果ｒと表記する。

突合部１０６は、「突合手段」及び「第１突合手段」の一例であり、同じ対象に対する文字種限定認識器１０２の認識結果Ｒと文字種非限定認識器１０４の認識結果ｒとの突合（突き合わせ）を行う。この突合の処理では、認識結果Ｒとｒとが合致（すなわち一致）するか否かを判定する。認識結果Ｒとｒとが合致しない事象のことを非合致（すなわち不一致）と呼ぶ。突合部１０６による突合の処理は、１文字単位で行ってもよいし、文字列単位（例えば認識結果Ｒ及びｒの文字列全体を単位するなど）で行ってもよい。

そして突合部１０６は、認識結果Ｒとｒとが合致した場合には主たる文字認識器である文字種限定認識器１０２の認識結果Ｒを採用し、認識結果Ｒとｒとが非合致の場合はその認識結果Ｒを棄却する。ここで「認識結果Ｒを採用する」とは、文字種限定認識器１０２と文字種非限定認識器１０４とで合意した文字認識結果としてその認識結果Ｒを出力することを意味する。この場合の出力先は、文字認識結果の出力先となるファイルであってもよいし、後段の別の処理であってもよい。一方、「認識結果Ｒを棄却する」とは、その認識結果Ｒを、文字種限定認識器１０２と文字種非限定認識器１０４とで合意した文字認識結果としては出力しない、ことを意味する。「認識結果Ｒを棄却する」という概念の中には、認識結果Ｒを出力せずに捨ててしまう場合だけでなく、認識結果Ｒを非合意（すなわち認識結果Ｒとｒとが非合致であること）の旨の示す情報と対応付けて出力する場合も含まれる。

以上説明したように、文字種非限定認識器１０４は、指定文字種を含む、指定文字種より大きい文字の集合を対象として文字認識を行う。また、文字種限定認識器１０２も文字種非限定認識器１０４も、それぞれ自分の認識対象である文字の集合に属する文字については十分に高い認識率で認識できるものであると想定してよい。したがって、認識対象の文字が指定文字種に属する文字であれば、文字種限定認識器１０２も文字種非限定認識器１０４も高い確率でその文字を正しく認識するので、文字種限定認識器１０２の認識結果Ｒと文字種非限定認識器１０４の認識結果ｒとが合致する確率が高い。認識結果Ｒと認識結果ｒとが非合致になるのは、文字種非限定認識器１０４ならば正しく認識可能な指定文字種以外の文字を、文字種限定認識器１０２が指定文字種内の文字と誤認識している場合が多いと考えられる。

このようなことから、本実施形態では、突合部１０６での突合の結果、認識結果Ｒと認識結果ｒとが合致する場合は認識結果Ｒを採用し、非合致の場合は認識結果Ｒを棄却するのである。

次に、上述した文字種非限定認識器１０４について、更に詳しい例を説明する。

一つの例では、文字種非限定認識器１０４は、文字種を限定せずに文字認識を行うものである。文字種を限定しないというのは、言い換えれば、想定する全ての文字を認識対象とするということである。すなわち、この場合の文字種非限定認識器１０４は、本実施形態の情報処理装置が認識対象として想定しているすべての文字からなる集合を文字認識処理の認識対象とする。例えば、数字、アルファベット、算術記号、ひらがな、及びカタカナを文字認識の対象として想定している情報処理装置の場合、文字種限定認識器１０２はそのうちの一部の文字の集合（例えば数字のみ）を認識対象とするのに対し、文字種非限定認識器１０４は、数字、アルファベット、算術記号、ひらがな、及びカタカナに属する文字の全てを認識対象とする。

別の例では、文字種非限定認識器１０４が認識対象とする文字の集合には、文字種限定認識器１０２が指定文字種の中のいずれかの文字と誤認識しやすい文字が含まれる。この例（以下では、第２例と呼ぶ）では、例えば、指定文字種が数字である場合、数字以外の文字のうち文字種限定認識器１０２が数字と誤認識しやすい文字のいくつかをその指定文字種に追加したものが、文字種非限定認識器１０４の認識対象となる。具体例を挙げると、アルファベットＡは、数字４と字形がある程度似通っており、対象が数字であるとの仮定の下に認識を行う文字種限定認識器１０２にとっては、数字４と誤認識しやすい文字である。同様に、アルファベットＴやｑは、認識対象を数字に限定した文字種限定認識器１０２にとっては、数字７や９とそれぞれと誤認識しやすい。そこで、１０個の数字にアルファベットＡ、Ｔ、ｑを追加することにより得られる１３個の文字からなる集合を、文字種非限定認識器１０４の認識対象としてもよい。アルファベットＡ、Ｔ、ｑは、認識対象が数字に限定された文字種限定認識器１０２ならば数字４、７、９とそれぞれ認識してしまう確率が高いが、数字に加えてアルファベットＡ、Ｔ、ｑも文字認識するように構成された文字種非限定認識器１０４ならば、アルファベットＡ、Ｔ、ｑと正しく認識する確率が高い。そこで、本実施形態では、例えばある文字を文字種限定認識器１０２は数字４と認識し、文字種非限定認識器１０４はアルファベットＡと認識した場合、突合部１０６は、両者が非合致なので、文字種限定認識器１０２の認識結果である数字４を棄却する。

指定文字種以外の文字の中で、文字種限定認識器１０２が指定文字種に属する文字と誤認識しやすい文字は、過去の知見から分かっている場合が多いので、そのような文字を、文字種非限定認識器１０４の認識対象の文字の集合に含めればよい。

なお、上述した第２例において、文字種非限定認識器１０４の認識対象として追加する文字は、文字種限定認識器１０２が指定文字種の中のいずれかの文字と誤認識しやすいと分かっている文字だけに限定しなくてもよく、他の文字を更に含めてもよい。例えば、数字限定の文字種限定認識器１０２に対する文字種非限定認識器１０４の認識対象には、数字に加え、数字と誤認識しやすいアルファベットＡ、Ｔ、ｑを含む５２個のアルファベット全部を含めてもよい。

ここで、第２例において、文字種非限定認識器１０４の認識対象として指定文字種に追加される指定文字種以外の文字は、当該文字と字形が似ている指定文字種内の文字と弁別して認識しやすい文字に限定してもよい。例えば、アルファベットｏ及びＯは、数字０と字形が非常に似ており、数字のみを認識対象とする文字認識器だけでなく、数字とアルファベットの両方を認識対象とする文字認識器にとっても、数字０と誤認識しやすい。したがって、認識対象を数字に限定した文字種限定認識器１０２に対して、文字種非限定認識器１０４を、数字とアルファベットの両方を含むものとして構成したとしても、文字種非限定認識器１０４がアルファベットｏ又はＯを数字０と誤認識することが少なからずある。特に手書き文字の場合、このような弁別は困難である。このように認識対象の文字種を限定しようがしまいが弁別して認識することが困難な文字は、文字種非限定認識器１０４の認識対象に加えても、文字種限定認識器１０２の誤認識の検出には寄与しない。そこで、このような文字は、文字種非限定認識器１０４の認識対象に含めない方が効率的である。

これに対して、上に例示したアルファベットＡ、Ｔ、又はｑは、それぞれ数字４、７、又は９とある程度字形は似通っているが、アルファベットを認識可能な文字認識器であれば、数字４、７、又は９と誤認識する確率は低い。したがって、文字種非限定認識器１０４の認識対象にアルファベットＡ、Ｔ、又はｑを含めれば、文字種限定認識器１０２がアルファベットＡ、Ｔ、又はｑを数字４、７、又は９と誤認識した場合、その誤認識を検出するのに役立つ。

次に、図２を参照して、上記実施形態の第１の変形例を説明する。図２において、図１に示した装置の要素と同一機能を持つ要素には同一符号を付し、類似した機能を持つ要素には同一符号に添え字「ａ」を加えた符号を付す。

文字種非限定認識器１０４ａは、図１の実施形態の文字種非限定認識器１０４と同じ認識対象の文字を認識するものであるが、文字種非限定認識器１０４とは異なり、複数の認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎ（ｎは２以上の整数）を出力する。

一般に、文字認識器は、複数の候補文字のうち認識対象の文字又は文字列に最も類似度が高い（言い換えれば確度が最も高い）候補文字又は候補文字列を認識結果として出力する。また、文字認識器の中には、認識対象の文字又は文字列に対する類似度（又は確度）が第２位や第３位の候補文字又は候補文字列を、次候補、第３位候補等として提示するものもある。ここで確度は、文字認識器が入力画像に対して文字認識を行って得た認識結果がその入力画像に含まれる文字列を正しく表している確からしさを示す度合いである。確度が高いほど、認識結果のテキストコードが正解である蓋然性が高い。

文字種非限定認識器１０４ａは、入力画像の文字認識結果として、類似度（又は確度）が最高位の候補文字又は候補文字列だけでなく、第２位、第３位、・・・第ｎ位の候補文字列も併せて出力するのである。例えば、認識結果ｒｋ（ｋは、１以上ｎ以下の整数）は、類似度（又は確度）が第ｋ位である候補文字又は候補文字列である。

突合部１０６ａは、文字種限定認識器１０２の認識結果Ｒを、文字種非限定認識器１０４ａの認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎとそれぞれ突合する。そして、認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎの中に認識結果Ｒと合致するものがあれば、突合部１０６ａは、突合の結果を「合致」とし、文字種限定認識器１０２の認識結果Ｒを採用する。一方、認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎの中に認識結果Ｒと合致するものがない場合には、突合部１０６ａは、突合の結果を「非合致」とし、文字種限定認識器１０２の認識結果Ｒを棄却する。

図１の例の文字種非限定認識器１０４は、認識対象の文字の集合の中に指定文字種を含んでいるが、指定文字種に属する文字を認識したときに、その文字が類似度又は確度が最高位の文字認識結果になるとは限らない。その代わりに、指定文字種には属さない、その文字に類似した文字が、最高位の文字認識結果となる場合もある。例えば、数字１を数字限定の文字種限定認識器１０２で認識すると認識結果Ｒは数字１となるが、数字の他にアルファベットも認識対象に含む文字種非限定認識器１０４で認識した場合、類似度又は確度においてアルファベットｌ（すなわちＬの小文字）が数字１を上回り、アルファベットｌが認識結果ｒとして出力される場合もある。この場合、文字種非限定認識器１０４は、内部的には、数字１を認識結果の候補として考慮しているが、このことは突合部１０６には伝わらない。その結果、突合部１０６は、認識結果Ｒである数字１と、認識結果ｒであるアルファベットｌとを突合し、その結果認識結果Ｒである数字１を棄却してしまう。このように、図１の例のように、文字種非限定認識器１０４が単一の認識結果ｒのみを出力する場合、文字種限定認識器１０２の認識結果Ｒが指定文字種に属する文字を正しく認識したものであるにもかかわらず、その認識結果Ｒを棄却してしまうという認識の漏れが生じる場合がある。

これに対し、図２に示した変形例では、最高位の認識結果ｒ１だけでなく第ｎ位までの複数の認識結果ｒｋを文字種限定認識器１０２の認識結果Ｒと突合するので、図１の例と比べて、そのような認識の漏れが生じにくい。

なお、文字種非限定認識器１０４ａは、必ずしも、あらかじめ定められた数の認識結果ｒｎを出力しなくてよい。その代わりに、類似度又は確度が閾値以上である１以上の認識結果ｒｋのみを出力するようにしてもよい。閾値は、あらかじめ定めておく。

次に、図３を参照して、上記実施形態の第２の変形例を説明する。図２において、図１又は図３に示した装置の要素と同一機能を持つ要素には同一符号を付す。

図１の装置が単一の文字種非限定認識器１０４を持つのに対して、図３の装置は第１から第ｎ（ｎは２以上の整数）までのｎ個の第ｋ非限定認識器１０４－ｋ（ｋは１からｎまでの整数）を有する。個々の第ｋ非限定認識器１０４－ｋは、それぞれ文字種非限定認識器１０４と同様、指定文字種とこれ以外の一以上の文字とを含む文字の集合を認識対象とする文字認識処理を実行する。ただし、認識対象とする文字の集合に含まれる指定文字種以外の文字の部分集合は、第ｋ非限定認識器１０４－ｋごとに異なる。例えば、文字種限定認識器１０２が数字に限定した文字認識処理を実行するものである場合に、第１非限定認識器１０４－１は数字に加えてアルファベットも認識対象とし、第２非限定認識器１０４－２は数字に加えてアルファベット及びカタカナも認識対象とし、第３非限定認識器１０４－３は数字に加えて算術記号も認識対象とする、等である。認識対象のうち指定文字種を除く文字の集合は、ｋが異なる第ｋ非限定認識器１０４－ｋ同士の間で共通の文字を含んでいてもよいし、含んでいなくてもよい。

第ｋ非限定認識器１０４－ｋのうちの１つが「第２文字認識手段」の一例であり、他の１つ以上が「第３文字認識手段」の一例である。

突合部１０６ａには、各第ｋ非限定認識器１０４－ｋの認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎが入力される。突合部１０６ａは、文字種限定認識器１０２の認識結果Ｒを、それら第ｋ非限定認識器１０４－ｋの認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎとそれぞれ突合する。そして、認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎの中に認識結果Ｒと合致するものがあれば、突合部１０６ａは、突合の結果を「合致」とし、文字種限定認識器１０２の認識結果Ｒを採用する。一方、認識結果ｒ１，ｒ２，ｒ３，・・・ｒｎの中に認識結果Ｒと合致するものがない場合には、突合部１０６ａは、突合の結果を「非合致」とし、文字種限定認識器１０２の認識結果Ｒを棄却する。

ｎ個の第ｋ非限定認識器１０４－ｋの認識対象の文字の全てを認識対象とする単一の文字種非限定認識器を想定する。この単一の文字種非限定認識器は、ｎ個の第ｋ非限定認識器１０４－ｋの認識対象の全てを認識可能ではあるが、認識対象の文字数が多い分だけ認識精度は個々の第ｋ非限定認識器１０４－ｋよりも劣る。このため、第ｋ非限定認識器１０４－ｋならば、指定文字種以外で自分が認識対象とする文字を正しく認識できる場合であっても、その単一の文字種非限定認識器はその文字を正しく認識できず、例えばその文字と似た指定文字種内の文字と誤認識する可能性がある。したがって、そのような単一の文字種非限定認識器を用いるよりも、この変形例のようにｎ個の第ｋ非限定認識器１０４－ｋを用いた方が、文字種限定認識器１０２の誤認識（すなわち指定文字種以外の文字を指定文字種の文字と認識してしまう誤認識）を検出する能力が高くなると期待される。

次に、図４を参照して、第３の変形例を説明する。この第３の変形例は、図１の実施形態の装置に対して、突合部１０６の後段の処理のための構成を追加したものである。なお、以下の説明から分かるように、第３変形例の構成は、図２及び図３に示した第１及び第２の変形例にも適用可能である。

第３の変形例の情報処理装置は、図１に示した要素群に加え、認識制御部１０８、キー入力部１４及び第２突合部１６を有する。

第３の変形例では、文字種限定認識器１０２は、入力画像に対する認識結果Ｒに加えて、その認識結果Ｒの確度Ｐを突合部１０６に対して出力する。確度Ｐは、文字種限定認識器１０２が求めた認識結果Ｒがその入力画像に含まれる文字列を正しく表している確からしさを示す度合いである。確度Ｐが高いほど、認識結果Ｒのテキストコードが正解である（すなわち入力画像中の文字列を正しく表している）蓋然性が高い。

文字種非限定認識器１０４は、図１の例と同様、入力画像に対する認識結果ｒを突合部１０６に出力する。

突合部１０６は、認識結果Ｒと認識結果ｒの突合を行い、その突合の結果、すなわちそれら両者が合致したか非合致であるかを示す情報を認識制御部１０８に出力する。また突合部１０６は、文字種限定認識器１０２から受け取った認識結果Ｒと確度Ｐを認識制御部１０８に出力する。

認識制御部１０８は、突合部１０６から入力された突合の結果と認識結果Ｒ及び確度Ｐとに基づいて、入力画像についての最終的な文字認識結果を求めるための制御を行う。以下、認識制御部１０８が実行する制御について説明する。

従来、入力画像に対する文字認識器の認識結果Ｒの確度Ｐがある閾値Ｔ１より高い場合に、その認識結果Ｒを当該情報処理装置の最終的な文字認識結果として出力する情報処理装置は存在する。この種の情報処理装置は、確度Ｐが閾値Ｔ１以下の場合は、人間から同じ入力画像に対する文字認識結果の入力を受け取り、受け取った入力をその認識結果Ｒと突合（すなわち突き合わせ）する。この突合で、それら両者が合致（すなわち一致）していると判定された場合は、その認識結果Ｒが情報処理装置の最終的な文字認識結果として出力される。一方、その突合でそれら両者が非合致であると判定された場合、その従来の情報処理装置は、他の人間からその入力画像の文字認識結果の入力を受け取り、この入力を考慮に入れて最終的な文字認識結果を求める。一つの例では、最初の人の文字認識結果と、今回新たに入力された他の人の文字認識結果とを突合し、これら両者が一致すれば、その文字認識結果を最終的な文字認識結果とする。

これに対し、本実施形態の認識制御部１０８は、入力画像に対する文字種限定認識器１０２の認識結果Ｒの確度Ｐがその閾値Ｔ１より高くても、それだけではその認識結果Ｒを情報処理装置の最終的な文字認識結果とはしない。その代わりに、認識制御部１０８は、突合の結果を更に参照し、確度Ｐがその閾値Ｔ１より高く、かつ突合の結果が合致を示している場合に、その認識結果Ｒを情報処理装置の最終的な文字認識結果として出力する。

一方、突合の結果が非合致である場合は、認識制御部１０８は、確度Ｐが閾値Ｔ１より高くても、その認識結果Ｒを最終的な文字認識結果として採用することはしない。非合致の場合、文字種限定認識器１０２の認識結果Ｒは、指定文字種以外の文字を指定文字種内の文字と誤認識したものである蓋然性が高いからである。この場合、認識制御部１０８は、認識結果Ｒを第２突合部１６に入力する。第２突合部１６は、入力された認識結果Ｒを、キー入力部１４に入力された人間（図示例では「Ａ」という名前の人）によるその入力画像についての文字認識結果と突合する。第２突合部１６は、「第２突合手段」の一例である。なお、キー入力部１４は、ユーザ（人間）からのキー入力を受け付けるソフトウエアモジュールであり、「受付手段」の一例である。Ａさんの端末は、図１に示した情報処理装置と例えばインターネットを介して接続されているものでよい。この場合、入力画像を表示したり、その入力画像の認識結果の入力を受け付けたりする機構は、例えばウェブサービスの形でキー入力部１４からその端末に提供される。Ａさんは、端末に表示された入力画像を認識し、その入力画像が示す文字列を端末のキーボードから入力する。キー入力部１４は、Ａさんが入力した文字列データをその端末から受け取り、第２突合部１６に渡す。

また、認識制御部１０８は、確度Ｐが閾値Ｔ１以下の場合、上述した従来方式と同様、認識結果Ｒを第２突合部１６にて、人間による文字認識結果と突合する。

このように、本実施形態では、確度Ｐが閾値Ｔ１以下の場合に加え、突合部１０６の突合の結果が非合致の場合にも、文字種限定認識器１０２の認識結果Ｒと人間の文字認識結果との突合が行われる。突合部１０６の突合の結果が非合致の場合、文字種限定認識器１０２の認識結果Ｒは誤認識の蓋然性が高いといえるが、必ず誤認識であるとはいえない。文字種限定認識器１０２の認識結果Ｒは正解であるが、文字種非限定認識器１０４が誤認識を起こした結果、突合部１０６の突合の結果が非合致となる場合もあり得る。この変形例では、そのような場合を考慮に入れて、第２突合部１６で人間の入力と突合するのである。人間の場合、指定文字種以外の文字を指定文字種の文字と誤認する確率は低いので、文字種限定認識器１０２の認識結果Ｒが正解であるにもかかわらず突合部１０６の突合結果が非合致となっている場合には、人間の認識結果と突き合わせることで、文字種限定認識器１０２の認識結果Ｒが正解であることが分かる。

すなわち、第２突合部１６は、文字種限定認識器１０２の認識結果Ｒと、キー入力部１４に入力された人間の文字認識結果とが合致した場合には、その認識結果Ｒを、情報処理装置の最終的な文字認識結果として出力する。一方、第２突合部１６による突合結果が非合致の場合は、Ａさん以外の他の人からその入力画像の文字認識結果の入力を受け取り、受け取った入力を利用して、情報処理装置の最終的な文字認識結果を求める。突合結果が非合致の場合に対する処理については、後で図５及び図６を参照して具体的な例を説明する。

突合部１０６の突合の結果が非合致の場合、文字種限定認識器１０２の認識結果Ｒは誤認識の蓋然性が高いので、後段に出力せずに捨ててしまう方式も考えられる。しかし、この方式では、突合の結果が非合致の場合に、人間による文字認識結果に頼るしかない。この場合、キー入力部１４からのＡさんの入力をそのまま情報処理装置の最終的な文字認識結果として採用することが考えられる。しかし、人間は往々にしてミスをするので、一人の認識結果だけでは信頼性が十分でないと判断される場合も少なくない。そこで信頼性を高めるために、二人以上の人間の文字認識結果を突合し、その突合の結果に基づいて最終的な文字認識結果を求めることも考えられる。しかし、二人以上の人間を従事させることによりコストは高くなる。

これに対し、本実施形態では、突合部１０６の突合の結果が非合致の場合、文字種限定認識器１０２の認識結果Ｒは第２突合部１６で人間であるＡさんの文字認識結果と突合され、両者が合致した場合には認識結果Ｒが最終的な認識結果として採用される。この場合の最終的な認識結果は、２つの独立した認識結果が合致したものなので、Ａさん単独の文字認識結果よりも信頼性が高い。また、第２突合部１６の突合の結果、文字種限定認識器１０２の認識結果ＲとＡさんの文字認識結果とが合致した場合、２人目の人間の入力が不要になるため、突合部１０６の突合の結果が非合致の場合に必ず２人以上の入力の突合を行う方式よりも必要コストが低くなる。

次に、図５を参照して、第２突合部１６での突合結果が非合致の場合の処理のための構成の一例を説明する。図５において、図４に示した要素と同様の要素には同一符号を付し、重複する説明は省略する。

図５に示す情報処理装置は、図４に示した情報処理装置の要素群に加え、キー入力部２２、第３突合部２４及びキー入力部２６を有する。

キー入力部２２は、Ａさんとは別の人であるＢさんから、入力画像の文字認識結果の入力を受け付ける。第３突合部２４は、第２突合部１６から入力されるＡさんの入力と、キー入力部２２から入力されるＢさんの入力とを突合する。キー入力部２６は、ＡさんともＢさんとも異なるＣさんから、入力画像の文字認識結果の入力を受け付ける。

図５の例では、第２突合部１６は、文字種限定認識器１０２の認識結果ＲとＡさんの文字認識結果との突合結果が非合致の場合、Ａさんの文字認識結果を第３突合部２４に入力する。またこの場合、キー入力部２２がＢさんの端末に入力画像を提供し、これに応じてＢさんが入力した文字認識結果を第３突合部２４に入力する。第３突合部２４は、Ａさんの文字認識結果とＢさんの文字認識結果との突合を行い、それら両者が合致する場合、その合致した文字認識結果を情報処理装置の最終的な文字認識結果として出力する。また、突合の結果が非合致の場合、第３突合部２４はキー入力部２６を起動する。キー入力部２６は、Ｃさんの端末に入力画像を提供し、これに応じたＣさんからの文字認識結果の入力を受け付け、その文字認識結果を最終的な文字認識結果として採用する。Ｃさんとして、例えばＡさんやＢさんよりも過去に入力した文字認識結果の正解率が高い人を採用することで、最終的な文字認識結果の精度がある程度担保される。

次に、図６を参照して、第２突合部１６での突合結果が非合致の場合の処理のための構成の別の一例を説明する。図６には、情報処理装置の構成のうち、第２突合部１６による突合処理以降の処理を担う部分が示される。

図６の例では、第２突合部１６の突合結果が非合致である場合、第２突合部１６は、振り分け処理部１８に、今回の認識対象の入力画像と、その入力画像に対するＡさんの入力データ、及び確度Ｐを渡して、処理の振り分けを依頼する。

振り分け処理部１８は、確度Ｐが、予め設定された閾値Ｔ２（ただしＴ２＜Ｔ１）より大きい場合、キー入力部２８にその入力画像を渡す。キー入力部２８は、予め登録されているＤさんの端末にその入力画像を提供し、これに対してＤさんが入力した文字認識結果を受け取り、その文字認識をその入力画像に対する最終的な認識結果として出力する。ここでＤさんはＡさんとは異なる人であればよい。

また振り分け処理部１８は、確度Ｐが閾値Ｔ２以下の場合は、キー入力部２２に入力画像を渡すと共に、第３突合部２４にＡさんの入力データを渡す。キー入力部２２は、予め登録されているＢさんの端末にその入力画像を提供し、これに対してＢさんが入力した文字認識結果を受け取り、その文字認識結果を第３突合部２４に渡す。第３突合部２４は、Ａさんの文字認識結果とＢさんの文字認識結果を突合し、その結果両者が合致していれば、その合致した文字認識結果をその入力画像に対する最終的な文字認識結果として出力する。一方、第３突合部２４の突合で両者が非合致であった場合、キー入力部２６が、Ａさん及びＢさんのいずれとも異なるＣさんの端末にその入力画像を提供し、これに対してＤさんが入力した文字認識結果を受け取り、その文字認識結果を最終的な認識結果として出力する。

次に、図７を参照して、第４の変形例を説明する。図７において、図４の構成における要素と同様の要素には同一符号を付し、重複説明を省略する。

図７の構成は、図４の構成のうちの認識制御部１０８を、確度調整部１１０と振り分け処理部１３とに置き換えたものである。

確度調整部１１０は、突合部１０６から、突合の結果と、認識結果Ｒ及び確度Ｐと、を受け取る。確度調整部１１０は、突合の結果が非合致である場合には、確度Ｐを、閾値Ｔ１未満の値に調整した上で、振り分け処理部１３に出力する。一方、入力画像から取消線が検出されなかった場合は、確度調整部１１０は、受け取った確度Ｐを、変更せずにそのまま振り分け処理部１３に出力する。確度調整部１１０が出力する確度の値を確度Ｐ′と表現する。

振り分け処理部１３は、確度調整部１１０から入力された確度Ｐ′に応じて、以降の処理経路を制御する。より詳しくは、振り分け処理部１３は、確度Ｐ′が閾値Ｔ１より大きい場合には、文字種限定認識器１０２の認識結果Ｒを情報処理装置の最終的な文字認識結果として出力する。一方、確度Ｐ′が閾値Ｔ１以下の場合は、認識結果Ｒと確度Ｐ′を第２突合部１６に入力する。第２突合部１６が行う処理は、図４の例の場合と同様である。また、第２突合部１６の突合結果が非合致の場合に処理構成としては、図５又は図６に例示したものを採用してもよい。

以上に例示した実施形態の情報処理装置は、一つの例ではハードウエアの論理回路として構成可能である。また、別の例として、実施形態の情報処理装置は、内蔵されるコンピュータにそれらシステム又は装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウエアとして、ＣＰＵ等のプロセッサ、ランダムアクセスメモリ（ＲＡＭ）及びリードオンリメモリ（ＲＯＭ）等のメモリ（一次記憶）、ＨＤＤ（ハードディスクドライブ）を制御するＨＤＤコントローラ、各種Ｉ／Ｏ（入出力）インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばＩ／Ｏインタフェース経由で、ＣＤやＤＶＤなどの可搬型ディスク記録媒体に対する読み取り及び／又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び／又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがＣＤやＤＶＤ等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがＲＡＭに読み出されＣＰＵ等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、実施形態の情報処理装置は、ソフトウエアとハードウエアの組合せで構成されてもよい。

１３，１８振り分け処理部、１４，２２，２６，２８キー入力部、１６第２突合部、２４第３突合部、１０２文字種限定認識器、１０４，１０４ａ文字種非限定認識器、１０６，１０６ａ突合部、１０８認識制御部、１１０確度調整部。

Claims

入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力する第１文字認識手段と、
前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段と、
前記第１文字認識結果と前記第２文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第２文字認識結果とが合致することが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力し、前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力しない突合手段と、
を含む情報処理装置。
前記第２文字認識手段は、１つの前記入力画像について、確度が上位の異なる複数の前記第２文字認識結果を出力し、
前記突合手段は、それら異なる複数の前記第２文字認識結果の各々を前記第１文字認識結果と突合し、この突合によりそれら異なる複数の前記第２文字認識結果の中に前記第１文字認識結果と合致するものがあれば、前記第１文字認識結果を最終的な文字認識結果として出力し、それら異なる複数の前記第２文字認識結果のすべてが前記第１文字認識結果と非合致であることが分かった場合には、前記第１文字認識結果を最終的な文字認識結果として出力しない、
請求項１に記載の情報処理装置。
前記入力画像に対して、第３文字種の文字の集合に属する文字を認識対象とする第３文字認識を実行し、この文字認識の結果である第３文字認識結果を出力する第３文字認識手段であって、前記第３文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合にも前記第２文字種の文字の集合にも属さない文字を少なくとも１以上加えた集合である、第３文字認識手段、
を更に含み、
前記突合手段は、前記第１文字認識結果と前記第２文字認識結果との突合、及び、前記第１文字認識結果と前記第３文字認識結果との突合を行い、これら突合により、前記第２文字認識結果及び前記第３文字認識結果の中に前記第１文字認識結果が合致するものがあれば、前記第１文字認識結果を最終的な文字認識結果として出力し、前記第１文字認識結果が、前記第２文字認識結果及び前記第３文字認識結果のいずれとも非合致であることが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力しない、
請求項１に記載の情報処理装置。
入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力すると共に、前記第１文字認識結果の確度を出力する第１文字認識手段と、
前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段と、
前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と、
前記第１文字認識結果と前記第２文字認識結果との突合を行う第１突合手段と、
前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段と、
前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第２突合処理を実行する第２突合手段であって、前記第２突合処理は、前記入力画像に対する第１の人による文字認識結果を前記受付手段に受け付けさせ、前記第１文字認識結果と前記第１の人による文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第１の人による文字認識結果とが合致していることが分かった場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第１文字認識結果と前記第１の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第２の人による文字認識結果を前記受付手段に受け付けさせ、前記第２の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第２突合手段と、
を含む情報処理装置。
コンピュータを、
入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力する第１文字認識手段、
前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段、
前記第１文字認識結果と前記第２文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第２文字認識結果とが合致することが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力し、前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合に、前記第１文字認識結果を最終的な文字認識結果として出力しない突合手段、
として機能させるためのプログラム。
コンピュータを、
入力画像に対して、第１文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第１文字認識結果を出力すると共に、前記第１文字認識結果の確度を出力する第１文字認識手段、
前記入力画像に対して、第２文字種の文字の集合に属する文字を認識対象とする文字認識を実行し、この文字認識の結果である第２文字認識結果を出力する第２文字認識手段であって、前記第２文字種の文字の集合とは、前記第１文字種の文字の集合に対して、前記第１文字種の文字の集合に属さない文字を少なくとも１以上加えた集合である、第２文字認識手段と、
前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段、
前記第１文字認識結果と前記第２文字認識結果との突合を行う第１突合手段、
前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段、
前記第１突合手段の突合により前記第１文字認識結果と前記第２文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第２突合処理を実行する第２突合手段であって、前記第２突合処理は、前記入力画像に対する第１の人による文字認識結果を前記受付手段に受け付けさせ、前記第１文字認識結果と前記第１の人による文字認識結果との突合を行い、この突合により前記第１文字認識結果と前記第１の人による文字認識結果とが合致していることが分かった場合には、前記第１文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第１文字認識結果と前記第１の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第２の人による文字認識結果を前記受付手段に受け付けさせ、前記第２の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第２突合手段、
として機能させるためのプログラム。