JP7338158B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7338158B2
JP7338158B2 JP2019010052A JP2019010052A JP7338158B2 JP 7338158 B2 JP7338158 B2 JP 7338158B2 JP 2019010052 A JP2019010052 A JP 2019010052A JP 2019010052 A JP2019010052 A JP 2019010052A JP 7338158 B2 JP7338158 B2 JP 7338158B2
Authority
JP
Japan
Prior art keywords
character recognition
recognition result
character
characters
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019010052A
Other languages
English (en)
Other versions
JP2020119290A (ja
Inventor
俊一 木村
雅則 関野
拓也 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019010052A priority Critical patent/JP7338158B2/ja
Priority to US16/521,549 priority patent/US10997452B2/en
Priority to CN201910829036.3A priority patent/CN111476240B/zh
Publication of JP2020119290A publication Critical patent/JP2020119290A/ja
Application granted granted Critical
Publication of JP7338158B2 publication Critical patent/JP7338158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
紙帳票に手書き記入又は印刷された文字列をデジタルデータ化するデータ入力システムがある。データ入力システムは、帳票中を人間が読み取ってキー入力する方式、光学文字認識(OCR)技術を用いた文字認識器により帳票中の画像に対して文字認識処理を行う方式、あるいはこれらの組合せにより帳票中の文字列をデジタル化する。
特許文献1に開示された情報処理装置の分類手段は、文字認識対象を3種類のいずれかに分類し、抽出手段は、前記分類手段によって第1の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、第1の制御手段は、前記分類手段によって第2の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、該文字認識対象を人手で入力させるように制御し、第2の制御手段は、前記分類手段によって第3の種類に分類された場合に、前記文字認識対象を複数人の人手で入力させるように制御する。また、特許文献1には、文字認識モジュールが文字認識結果の確度(すなわちその文字認識結果が正しいと確信する度合い)を出力し、その確度の値に応じて、文字認識対象を第1~第3の種類に分類すること、更に、その確度が最も高い範囲に属する場合には文字認識モジュールによる文字認識結果を最終的な結果として抽出すること、が記載されている。
また、郵便番号欄のように記入される文字種が限定されている記入欄に対する文字認識において、記入されている文字がその文字種に属するものとして文字認識を行う文字認識器を用いることが行われている。
例えば、特許文献2には、ユーザから文字種の指定を受け付け、指定された文字種に限定して、入力される手書き文字の軌跡を、予め登録されている複数の登録文字と照合し、上記手書き文字の軌跡との類似度が高い登録文字を認識候補として抽出する方式が開示されている。
また、文字認識器による文字認識結果が正しくないと判断される場合に、その文字認識結果を棄却することが行われている。
例えば特許文献3には、文字認識器の文字認識の信頼度(確度に相当)が低い場合や、文字の画像に取消線等が含まれる場合に、文字認識器の文字認識結果を棄却することが記載されている。
また特許文献4には、劣化の種類ごとに文字画像の劣化度を計算し、計算した劣化度に基づいてその文字画像についての文字認識結果を棄却するか否かを判定することが開示されている。
文字認識結果を棄却することによって、人に確認を促したり、スキャンや文字認識のやり直しを促したり等、精度を高める施策を実施することが可能になる。
また特許文献5には、認識方式が異なる複数の文字認識部の文字認識結果を総合評価することにより、最終的な文字認識結果を決定する方法が開示されている。
特開2016-212812号公報 特開2013-214188号公報 特開2012-185713号公報 特開2013-073439号公報 特開2000-082110号公報 特開平11-296619号公報
特定の文字種(例えば数字)を記入すべき記入欄に、記入者の誤りにより別の文字種(例えばアルファベット)の文字が記入される場合がある。そして、そのように誤って記入された文字の形状が、本来記入されるべき特定の文字種の特定の文字の形状に似ている場合などには、文字認識手段が、その記入された文字をその特定の文字として認識してしまうことが起こり得る。この認識の結果は本来ならば誤りであるが、文字認識手段が高い確度と共に、その認識の結果を出力することも少なくない。
文字認識結果が誤りである蓋然性が高い場合にその文字認識結果を棄却するという方式では、そのようなタイプの誤った文字認識結果を正しく棄却できない場合がある。例えば、文字認識結果の確度が低い場合にその文字認識結果を棄却するという方式では、そのようなタイプの誤った文字認識結果は棄却されない。
本発明は、本来記入されるべきでない文字種の文字を、記入されるべき文字種の似た文字として認識するというタイプの誤った文字認識結果を、文字認識結果が誤りである蓋然性が高い場合にその文字認識結果を棄却するという方式よりも適切に棄却できるようにすることを目的とする。
請求項1に係る発明は、入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力する第1文字認識手段と、前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段と、前記第1文字認識結果と前記第2文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第2文字認識結果とが合致することが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力し、前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない突合手段と、を含む情報処理装置である。
請求項2に係る発明は、前記第2文字認識手段は、1つの前記入力画像について、確度が上位の異なる複数の前記第2文字認識結果を出力し、前記突合手段は、それら異なる複数の前記第2文字認識結果の各々を前記第1文字認識結果と突合し、この突合によりそれら異なる複数の前記第2文字認識結果の中に前記第1文字認識結果と合致するものがあれば、前記第1文字認識結果を最終的な文字認識結果として出力し、それら異なる複数の前記第2文字認識結果のすべてが前記第1文字認識結果と非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない、請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記入力画像に対して、第3文字種の文字の集合に属する文字を認識対象とする第3文字認識を実行しの文字認識の結果である第3文字認識結果を出力する第3文字認識手段であって、前記第3文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合にも前記第2文字種の文字の集合にも属さない文字を少なくとも1以上加えた集合である、第3文字認識手段、を更に含み、前記突合手段は、前記第1文字認識結果と前記第2文字認識結果との突合、及び、前記第1文字認識結果と前記第3文字認識結果との突合を行い、これら突合により、前記第2文字認識結果及び前記第3文字認識結果の中に前記第1文字認識結果が合致するものがあれば、前記第1文字認識結果を最終的な文字認識結果として出力し、前記第1文字認識結果が、前記第2文字認識結果及び前記第3文字認識結果のいずれとも非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない、請求項1に記載の情報処理装置である。
請求項4に係る発明は、入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力すると共に、前記第1文字認識結果の確度を出力する第1文字認識手段と、前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段と、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と、前記第1文字認識結果と前記第2文字認識結果との突合を行う第1突合手段と、前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段と、前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第2突合処理を実行する第2突合手段であって、前記第2突合処理は、前記入力画像に対する第1の人による文字認識結果を前記受付手段に受け付けさせ、前記第1文字認識結果と前第1の人による文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第1の人による文字認識結果とが合致していることが分かった場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第1文字認識結果と前記第1の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第2の人による文字認識結果を前記受付手段に受け付けさせ、前記第2の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第2突合手段と、を含む情報処理装置である。
請求項5に係る発明は、コンピュータを、入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力する第1文字認識手段、前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段、前記第1文字認識結果と前記第2文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第2文字認識結果とが合致することが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力し、前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない突合手段、として機能させるためのプログラムである。
請求項6に係る発明は、コンピュータを、入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力すると共に、前記第1文字認識結果の確度を出力する第1文字認識手段、前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段と、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段、前記第1文字認識結果と前記第2文字認識結果との突合を行う第1突合手段、前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段、前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第2突合処理を実行する第2突合手段であって、前記第2突合処理は、前記入力画像に対する第1の人による文字認識結果を前記受付手段に受け付けさせ、前記第1文字認識結果と前第1の人による文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第1の人による文字認識結果とが合致していることが分かった場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第1文字認識結果と前記第1の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第2の人による文字認識結果を前記受付手段に受け付けさせ、前記第2の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第2突合手段、として機能させるためのプログラムである。
請求項1又は5に係る発明によれば、本来記入されるべきでない文字種の文字を、記入されるべき文字種の似た文字として認識するというタイプの誤った文字認識結果を、文字認識結果が誤りである蓋然性が高い場合にその文字認識結果を棄却するという方式よりも適切に棄却できる。
請求項2に係る発明によれば、第2文字認識手段が単一の第2文字認識結果のみを出力する場合と比べて、第1文字認識手段が第1文字種に属する文字を正しく文字認識していた場合の第1文字認識結果を誤って棄却してしまう蓋然性を低下させることができる。
請求項3に係る発明によれば、第2文字種に属する文字と第3文字種に属する文字の両方を含んだ文字の集合を認識する単一の文字認識手段を用いる場合と比べて、突合手段における棄却の精度を向上させることができる。
請求項4又は6に係る発明によれば、本来記入されるべきでない文字種の文字を、記入されるべき文字種の似た文字として認識するというタイプの誤った文字認識結果が、そのまま装置の最終的な文字認識結果として出力することを防ぐことができる。また、突合手段の突合の結果が非合致の場合にその文字認識結果を単に捨ててしまう方式と比べ、その文字認識結果は正しいのにも関わらず第2文字認識手段の誤認識により非合致となった場合、その文字認識結果を生かし、より少ないコストで最終的な文字認識結果を求めることができる。
実施形態の装置構成の主要部を例示する図である。 第1の変形例の主要部を例示する図である。 第2の変形例の主要部を例示する図である。 第3の変形例の主要部を例示する図である。 第3の変形例において、第2突合部の突合結果が非合致の場合の処理のための構成を例示する図である。 第3の変形例において、第2突合部の突合結果が非合致の場合の処理のための別の構成を例示する図である。 第3の変形例に対応する別の装置構成の主要部を例示する図である。
図1に、本発明に係る情報処理装置の一実施形態の構成例を示す。
この情報処理装置には、文字列の画像を含んだ入力画像が入力される。入力画像は、例えば、帳票等の紙面をスキャナでスキャンすることにより得られる画像である。あるいは、紙面をスキャンすることにより得られた画像から、認識対象の文字列を含む領域(例えば特定の記入欄)の画像が切り出され、入力画像として情報処理装置に入力される。入力画像に含まれる文字列は、手書き文字からなる文字列であってもよいし、活字の文字列であってもよいし、手書き文字と活字が混じった文字列であってもよい。文字列は、1以上の文字からなる列である。また、認識の対象となる文字の中には、各種のアルファベットやひらがな、カタカナなどの表音文字、漢字等の表意文字、ロゴマーク等の各種マーク等が含まれてもよい。
本実施形態での認識の対象となる入力画像は、予め指定された文字種(以下、指定文字種と呼ぶ)に属する文字のみを記入するものと定められた記入欄の画像である。例えば、帳票をスキャンして得られた画像から郵便番号の記入欄を切り出すことにより得られる画像が、入力画像の例である。
ここで、この明細書及び特許請求の範囲において、文字種とは、複数の文字からなる文字の集合のことである。文字種という用語は、一般的には、アラビア数字、ラテン文字アルファベット、キリル文字アルファベット、ひらがな、カタカナ、日本の漢字、簡体漢字、繁体漢字、などといった文字の種類を指す場合が多いが、このような文字の種類も、本明細書における文字種の概念に含まれる。例えば、「アラビア数字」(以下単に数字という)という文字種は、0,1,2,3,4,5,6,7,8,9の10個の文字からなる集合であり、「ラテン文字アルファベット」(以下単にアルファベットという)という文字種は、a,b,c,・・・,z,A,B,C,・・・,Zという52個の文字からなる集合である。また、アルファニューメリック(すなわち数字、アルファベット、算術記号からなる集合)のように、複数の文字種からなる集合も1つの文字種として定義し得る。また、10個の数字のうち1,2,3,4,5の5個から集合のように、ある文字種の部分集合が新たな文字種として定義される場合もある。また、10個の数字に対し、数字4と字形が似ているアルファベットA,数字8と字形が似ているアルファベットBを加えた12文字の集合が新たな文字種として定義される場合もある。このように、任意の文字からなる集合が文字種として定義可能である。
文字種限定認識器102及び文字種非限定認識器104は、共に、OCR(光学文字認識)の技術を用いて、入力画像に対する文字認識を行うモジュールである。
このうち文字種限定認識器102は、入力画像に含まれる文字が指定文字種に属する文字であるとして文字認識を行う。すなわち、文字種限定認識器102は、指定文字種に限定した文字認識、更に言い換えれば、指定文字種を認識対象とする文字認識、を実行する。文字種限定認識器102は、この情報処理装置における主たる文字認識器であり、「第1文字認識手段」の一例である。また、指定文字種は、「第1文字認識手段」の認識対象である「第1文字種」の一例である。また、文字種限定認識器102の認識結果Rは「第1文字認識結果」の一例である。
例えば、文字種限定認識器102は、その指定文字種に属する各文字の様々な字形のサンプル(例えば多くの人による手書きサンプル)を学習することで、指定文字種に属する文字を高精度に認識するよう学習した文字認識器である。また、別の例として、文字種限定認識器102は、指定文字種に属する各文字についてそれぞれ代表的な字形を登録した認識辞書を用いて文字認識を行うものであってもよい。この例では、入力画像に含まれる認識対象の文字について、認識辞書に含まれる文字の中からその認識対象の文字に対して字形の類似度が高い文字を探し、そのような文字が見つかれば、見つかった文字を、認識対象の文字の認識結果として採用する。郵便番号用の文字認識器のように従来から文字種限定の文字認識器は各種開発され利用されている。文字種限定認識器102としては、指定文字種に対応したそのような既存の文字認識器を用いてもよい。
文字種非限定認識器104は、主たる文字認識器である文字種限定認識器102の誤認識を判別するための補助的な文字認識器であり、「第2文字認識手段」の一例である。文字種非限定認識器104は、入力画像に含まれる文字が、指定文字種を含む指定文字種よりも大きい文字集合、に属する文字であるものとして文字認識を行う文字認識器である。すなわち、文字種限定認識器102の認識対象は指定文字種に属する文字の集合であるのに対し、文字種非限定認識器104の認識対象は、指定文字種に属する文字群と指定文字種に属さない所定の(すなわち予め定められた)1以上の文字とからなる文字の集合である。文字種非限定認識器104については、後で更に詳細に説明する。ここでいう「指定文字種に属する文字群と指定文字種に属さない所定の1以上の文字とからなる文字の集合」は、「第2文字認識手段」の認識対象である「第2文字種」の一例である。また、文字種非限定認識器104の認識結果rは「第2文字認識結果」の一例である。
文字種非限定認識器104は、認識対象とする文字の集合に属する文字を認識できるよう、文字種限定認識器102と同様の方法(例えば学習又は認識辞書の利用)で構成すればよい。
文字種限定認識器102及び文字種非限定認識器104は、1文字単位で文字認識を行うものであってもよいし、入力画像に含まれる文字列全体を単位として文字認識を行うものであってもよいし、入力画像から切り出された1以上の文字列のそれぞれを単位として文字認識を行うものであってもよい。文字種限定認識器102及び文字種非限定認識器104は、入力画像中の同じ文字又は同じ文字列を対象として文字認識を行い、その結果得られる文字認識結果を突合部106へと出力する。同じ対象についての文字種限定認識器102及び文字種非限定認識器104の文字認識結果を、それぞれ、認識結果R及び認識結果rと表記する。
突合部106は、「突合手段」及び「第1突合手段」の一例であり、同じ対象に対する文字種限定認識器102の認識結果Rと文字種非限定認識器104の認識結果rとの突合(突き合わせ)を行う。この突合の処理では、認識結果Rとrとが合致(すなわち一致)するか否かを判定する。認識結果Rとrとが合致しない事象のことを非合致(すなわち不一致)と呼ぶ。突合部106による突合の処理は、1文字単位で行ってもよいし、文字列単位(例えば認識結果R及びrの文字列全体を単位するなど)で行ってもよい。
そして突合部106は、認識結果Rとrとが合致した場合には主たる文字認識器である文字種限定認識器102の認識結果Rを採用し、認識結果Rとrとが非合致の場合はその認識結果Rを棄却する。ここで「認識結果Rを採用する」とは、文字種限定認識器102と文字種非限定認識器104とで合意した文字認識結果としてその認識結果Rを出力することを意味する。この場合の出力先は、文字認識結果の出力先となるファイルであってもよいし、後段の別の処理であってもよい。一方、「認識結果Rを棄却する」とは、その認識結果Rを、文字種限定認識器102と文字種非限定認識器104とで合意した文字認識結果としては出力しない、ことを意味する。「認識結果Rを棄却する」という概念の中には、認識結果Rを出力せずに捨ててしまう場合だけでなく、認識結果Rを非合意(すなわち認識結果Rとrとが非合致であること)の旨の示す情報と対応付けて出力する場合も含まれる。
以上説明したように、文字種非限定認識器104は、指定文字種を含む、指定文字種より大きい文字の集合を対象として文字認識を行う。また、文字種限定認識器102も文字種非限定認識器104も、それぞれ自分の認識対象である文字の集合に属する文字については十分に高い認識率で認識できるものであると想定してよい。したがって、認識対象の文字が指定文字種に属する文字であれば、文字種限定認識器102も文字種非限定認識器104も高い確率でその文字を正しく認識するので、文字種限定認識器102の認識結果Rと文字種非限定認識器104の認識結果rとが合致する確率が高い。認識結果Rと認識結果rとが非合致になるのは、文字種非限定認識器104ならば正しく認識可能な指定文字種以外の文字を、文字種限定認識器102が指定文字種内の文字と誤認識している場合が多いと考えられる。
このようなことから、本実施形態では、突合部106での突合の結果、認識結果Rと認識結果rとが合致する場合は認識結果Rを採用し、非合致の場合は認識結果Rを棄却するのである。
次に、上述した文字種非限定認識器104について、更に詳しい例を説明する。
一つの例では、文字種非限定認識器104は、文字種を限定せずに文字認識を行うものである。文字種を限定しないというのは、言い換えれば、想定する全ての文字を認識対象とするということである。すなわち、この場合の文字種非限定認識器104は、本実施形態の情報処理装置が認識対象として想定しているすべての文字からなる集合を文字認識処理の認識対象とする。例えば、数字、アルファベット、算術記号、ひらがな、及びカタカナを文字認識の対象として想定している情報処理装置の場合、文字種限定認識器102はそのうちの一部の文字の集合(例えば数字のみ)を認識対象とするのに対し、文字種非限定認識器104は、数字、アルファベット、算術記号、ひらがな、及びカタカナに属する文字の全てを認識対象とする。
別の例では、文字種非限定認識器104が認識対象とする文字の集合には、文字種限定認識器102が指定文字種の中のいずれかの文字と誤認識しやすい文字が含まれる。この例(以下では、第2例と呼ぶ)では、例えば、指定文字種が数字である場合、数字以外の文字のうち文字種限定認識器102が数字と誤認識しやすい文字のいくつかをその指定文字種に追加したものが、文字種非限定認識器104の認識対象となる。具体例を挙げると、アルファベットAは、数字4と字形がある程度似通っており、対象が数字であるとの仮定の下に認識を行う文字種限定認識器102にとっては、数字4と誤認識しやすい文字である。同様に、アルファベットTやqは、認識対象を数字に限定した文字種限定認識器102にとっては、数字7や9とそれぞれと誤認識しやすい。そこで、10個の数字にアルファベットA、T、qを追加することにより得られる13個の文字からなる集合を、文字種非限定認識器104の認識対象としてもよい。アルファベットA、T、qは、認識対象が数字に限定された文字種限定認識器102ならば数字4、7、9とそれぞれ認識してしまう確率が高いが、数字に加えてアルファベットA、T、qも文字認識するように構成された文字種非限定認識器104ならば、アルファベットA、T、qと正しく認識する確率が高い。そこで、本実施形態では、例えばある文字を文字種限定認識器102は数字4と認識し、文字種非限定認識器104はアルファベットAと認識した場合、突合部106は、両者が非合致なので、文字種限定認識器102の認識結果である数字4を棄却する。
指定文字種以外の文字の中で、文字種限定認識器102が指定文字種に属する文字と誤認識しやすい文字は、過去の知見から分かっている場合が多いので、そのような文字を、文字種非限定認識器104の認識対象の文字の集合に含めればよい。
なお、上述した第2例において、文字種非限定認識器104の認識対象として追加する文字は、文字種限定認識器102が指定文字種の中のいずれかの文字と誤認識しやすいと分かっている文字だけに限定しなくてもよく、他の文字を更に含めてもよい。例えば、数字限定の文字種限定認識器102に対する文字種非限定認識器104の認識対象には、数字に加え、数字と誤認識しやすいアルファベットA、T、qを含む52個のアルファベット全部を含めてもよい。
ここで、第2例において、文字種非限定認識器104の認識対象として指定文字種に追加される指定文字種以外の文字は、当該文字と字形が似ている指定文字種内の文字と弁別して認識しやすい文字に限定してもよい。例えば、アルファベットo及びOは、数字0と字形が非常に似ており、数字のみを認識対象とする文字認識器だけでなく、数字とアルファベットの両方を認識対象とする文字認識器にとっても、数字0と誤認識しやすい。したがって、認識対象を数字に限定した文字種限定認識器102に対して、文字種非限定認識器104を、数字とアルファベットの両方を含むものとして構成したとしても、文字種非限定認識器104がアルファベットo又はOを数字0と誤認識することが少なからずある。特に手書き文字の場合、このような弁別は困難である。このように認識対象の文字種を限定しようがしまいが弁別して認識することが困難な文字は、文字種非限定認識器104の認識対象に加えても、文字種限定認識器102の誤認識の検出には寄与しない。そこで、このような文字は、文字種非限定認識器104の認識対象に含めない方が効率的である。
これに対して、上に例示したアルファベットA、T、又はqは、それぞれ数字4、7、又は9とある程度字形は似通っているが、アルファベットを認識可能な文字認識器であれば、数字4、7、又は9と誤認識する確率は低い。したがって、文字種非限定認識器104の認識対象にアルファベットA、T、又はqを含めれば、文字種限定認識器102がアルファベットA、T、又はqを数字4、7、又は9と誤認識した場合、その誤認識を検出するのに役立つ。
次に、図2を参照して、上記実施形態の第1の変形例を説明する。図2において、図1に示した装置の要素と同一機能を持つ要素には同一符号を付し、類似した機能を持つ要素には同一符号に添え字「a」を加えた符号を付す。
文字種非限定認識器104aは、図1の実施形態の文字種非限定認識器104と同じ認識対象の文字を認識するものであるが、文字種非限定認識器104とは異なり、複数の認識結果r1,r2,r3,・・・rn(nは2以上の整数)を出力する。
一般に、文字認識器は、複数の候補文字のうち認識対象の文字又は文字列に最も類似度が高い(言い換えれば確度が最も高い)候補文字又は候補文字列を認識結果として出力する。また、文字認識器の中には、認識対象の文字又は文字列に対する類似度(又は確度)が第2位や第3位の候補文字又は候補文字列を、次候補、第3位候補等として提示するものもある。ここで確度は、文字認識器が入力画像に対して文字認識を行って得た認識結果がその入力画像に含まれる文字列を正しく表している確からしさを示す度合いである。確度が高いほど、認識結果のテキストコードが正解である蓋然性が高い。
文字種非限定認識器104aは、入力画像の文字認識結果として、類似度(又は確度)が最高位の候補文字又は候補文字列だけでなく、第2位、第3位、・・・第n位の候補文字列も併せて出力するのである。例えば、認識結果rk(kは、1以上n以下の整数)は、類似度(又は確度)が第k位である候補文字又は候補文字列である。
突合部106aは、文字種限定認識器102の認識結果Rを、文字種非限定認識器104aの認識結果r1,r2,r3,・・・rnとそれぞれ突合する。そして、認識結果r1,r2,r3,・・・rnの中に認識結果Rと合致するものがあれば、突合部106aは、突合の結果を「合致」とし、文字種限定認識器102の認識結果Rを採用する。一方、認識結果r1,r2,r3,・・・rnの中に認識結果Rと合致するものがない場合には、突合部106aは、突合の結果を「非合致」とし、文字種限定認識器102の認識結果Rを棄却する。
図1の例の文字種非限定認識器104は、認識対象の文字の集合の中に指定文字種を含んでいるが、指定文字種に属する文字を認識したときに、その文字が類似度又は確度が最高位の文字認識結果になるとは限らない。その代わりに、指定文字種には属さない、その文字に類似した文字が、最高位の文字認識結果となる場合もある。例えば、数字1を数字限定の文字種限定認識器102で認識すると認識結果Rは数字1となるが、数字の他にアルファベットも認識対象に含む文字種非限定認識器104で認識した場合、類似度又は確度においてアルファベットl(すなわちLの小文字)が数字1を上回り、アルファベットlが認識結果rとして出力される場合もある。この場合、文字種非限定認識器104は、内部的には、数字1を認識結果の候補として考慮しているが、このことは突合部106には伝わらない。その結果、突合部106は、認識結果Rである数字1と、認識結果rであるアルファベットlとを突合し、その結果認識結果Rである数字1を棄却してしまう。このように、図1の例のように、文字種非限定認識器104が単一の認識結果rのみを出力する場合、文字種限定認識器102の認識結果Rが指定文字種に属する文字を正しく認識したものであるにもかかわらず、その認識結果Rを棄却してしまうという認識の漏れが生じる場合がある。
これに対し、図2に示した変形例では、最高位の認識結果r1だけでなく第n位までの複数の認識結果rkを文字種限定認識器102の認識結果Rと突合するので、図1の例と比べて、そのような認識の漏れが生じにくい。
なお、文字種非限定認識器104aは、必ずしも、あらかじめ定められた数の認識結果rnを出力しなくてよい。その代わりに、類似度又は確度が閾値以上である1以上の認識結果rkのみを出力するようにしてもよい。閾値は、あらかじめ定めておく。
次に、図3を参照して、上記実施形態の第2の変形例を説明する。図2において、図1又は図3に示した装置の要素と同一機能を持つ要素には同一符号を付す。
図1の装置が単一の文字種非限定認識器104を持つのに対して、図3の装置は第1から第n(nは2以上の整数)までのn個の第k非限定認識器104-k(kは1からnまでの整数)を有する。個々の第k非限定認識器104-kは、それぞれ文字種非限定認識器104と同様、指定文字種とこれ以外の一以上の文字とを含む文字の集合を認識対象とする文字認識処理を実行する。ただし、認識対象とする文字の集合に含まれる指定文字種以外の文字の部分集合は、第k非限定認識器104-kごとに異なる。例えば、文字種限定認識器102が数字に限定した文字認識処理を実行するものである場合に、第1非限定認識器104-1は数字に加えてアルファベットも認識対象とし、第2非限定認識器104-2は数字に加えてアルファベット及びカタカナも認識対象とし、第3非限定認識器104-3は数字に加えて算術記号も認識対象とする、等である。認識対象のうち指定文字種を除く文字の集合は、kが異なる第k非限定認識器104-k同士の間で共通の文字を含んでいてもよいし、含んでいなくてもよい。
第k非限定認識器104-kのうちの1つが「第2文字認識手段」の一例であり、他の1つ以上が「第3文字認識手段」の一例である。
突合部106aには、各第k非限定認識器104-kの認識結果r1,r2,r3,・・・rnが入力される。突合部106aは、文字種限定認識器102の認識結果Rを、それら第k非限定認識器104-kの認識結果r1,r2,r3,・・・rnとそれぞれ突合する。そして、認識結果r1,r2,r3,・・・rnの中に認識結果Rと合致するものがあれば、突合部106aは、突合の結果を「合致」とし、文字種限定認識器102の認識結果Rを採用する。一方、認識結果r1,r2,r3,・・・rnの中に認識結果Rと合致するものがない場合には、突合部106aは、突合の結果を「非合致」とし、文字種限定認識器102の認識結果Rを棄却する。
n個の第k非限定認識器104-kの認識対象の文字の全てを認識対象とする単一の文字種非限定認識器を想定する。この単一の文字種非限定認識器は、n個の第k非限定認識器104-kの認識対象の全てを認識可能ではあるが、認識対象の文字数が多い分だけ認識精度は個々の第k非限定認識器104-kよりも劣る。このため、第k非限定認識器104-kならば、指定文字種以外で自分が認識対象とする文字を正しく認識できる場合であっても、その単一の文字種非限定認識器はその文字を正しく認識できず、例えばその文字と似た指定文字種内の文字と誤認識する可能性がある。したがって、そのような単一の文字種非限定認識器を用いるよりも、この変形例のようにn個の第k非限定認識器104-kを用いた方が、文字種限定認識器102の誤認識(すなわち指定文字種以外の文字を指定文字種の文字と認識してしまう誤認識)を検出する能力が高くなると期待される。
次に、図4を参照して、第3の変形例を説明する。この第3の変形例は、図1の実施形態の装置に対して、突合部106の後段の処理のための構成を追加したものである。なお、以下の説明から分かるように、第3変形例の構成は、図2及び図3に示した第1及び第2の変形例にも適用可能である。
第3の変形例の情報処理装置は、図1に示した要素群に加え、認識制御部108、キー入力部14及び第2突合部16を有する。
第3の変形例では、文字種限定認識器102は、入力画像に対する認識結果Rに加えて、その認識結果Rの確度Pを突合部106に対して出力する。確度Pは、文字種限定認識器102が求めた認識結果Rがその入力画像に含まれる文字列を正しく表している確からしさを示す度合いである。確度Pが高いほど、認識結果Rのテキストコードが正解である(すなわち入力画像中の文字列を正しく表している)蓋然性が高い。
文字種非限定認識器104は、図1の例と同様、入力画像に対する認識結果rを突合部106に出力する。
突合部106は、認識結果Rと認識結果rの突合を行い、その突合の結果、すなわちそれら両者が合致したか非合致であるかを示す情報を認識制御部108に出力する。また突合部106は、文字種限定認識器102から受け取った認識結果Rと確度Pを認識制御部108に出力する。
認識制御部108は、突合部106から入力された突合の結果と認識結果R及び確度Pとに基づいて、入力画像についての最終的な文字認識結果を求めるための制御を行う。以下、認識制御部108が実行する制御について説明する。
従来、入力画像に対する文字認識器の認識結果Rの確度Pがある閾値T1より高い場合に、その認識結果Rを当該情報処理装置の最終的な文字認識結果として出力する情報処理装置は存在する。この種の情報処理装置は、確度Pが閾値T1以下の場合は、人間から同じ入力画像に対する文字認識結果の入力を受け取り、受け取った入力をその認識結果Rと突合(すなわち突き合わせ)する。この突合で、それら両者が合致(すなわち一致)していると判定された場合は、その認識結果Rが情報処理装置の最終的な文字認識結果として出力される。一方、その突合でそれら両者が非合致であると判定された場合、その従来の情報処理装置は、他の人間からその入力画像の文字認識結果の入力を受け取り、この入力を考慮に入れて最終的な文字認識結果を求める。一つの例では、最初の人の文字認識結果と、今回新たに入力された他の人の文字認識結果とを突合し、これら両者が一致すれば、その文字認識結果を最終的な文字認識結果とする。
これに対し、本実施形態の認識制御部108は、入力画像に対する文字種限定認識器102の認識結果Rの確度Pがその閾値T1より高くても、それだけではその認識結果Rを情報処理装置の最終的な文字認識結果とはしない。その代わりに、認識制御部108は、突合の結果を更に参照し、確度Pがその閾値T1より高く、かつ突合の結果が合致を示している場合に、その認識結果Rを情報処理装置の最終的な文字認識結果として出力する。
一方、突合の結果が非合致である場合は、認識制御部108は、確度Pが閾値T1より高くても、その認識結果Rを最終的な文字認識結果として採用することはしない。非合致の場合、文字種限定認識器102の認識結果Rは、指定文字種以外の文字を指定文字種内の文字と誤認識したものである蓋然性が高いからである。この場合、認識制御部108は、認識結果Rを第2突合部16に入力する。第2突合部16は、入力された認識結果Rを、キー入力部14に入力された人間(図示例では「A」という名前の人)によるその入力画像についての文字認識結果と突合する。第2突合部16は、「第2突合手段」の一例である。なお、キー入力部14は、ユーザ(人間)からのキー入力を受け付けるソフトウエアモジュールであり、「受付手段」の一例である。Aさんの端末は、図1に示した情報処理装置と例えばインターネットを介して接続されているものでよい。この場合、入力画像を表示したり、その入力画像の認識結果の入力を受け付けたりする機構は、例えばウェブサービスの形でキー入力部14からその端末に提供される。Aさんは、端末に表示された入力画像を認識し、その入力画像が示す文字列を端末のキーボードから入力する。キー入力部14は、Aさんが入力した文字列データをその端末から受け取り、第2突合部16に渡す。
また、認識制御部108は、確度Pが閾値T1以下の場合、上述した従来方式と同様、認識結果Rを第2突合部16にて、人間による文字認識結果と突合する。
このように、本実施形態では、確度Pが閾値T1以下の場合に加え、突合部106の突合の結果が非合致の場合にも、文字種限定認識器102の認識結果Rと人間の文字認識結果との突合が行われる。突合部106の突合の結果が非合致の場合、文字種限定認識器102の認識結果Rは誤認識の蓋然性が高いといえるが、必ず誤認識であるとはいえない。文字種限定認識器102の認識結果Rは正解であるが、文字種非限定認識器104が誤認識を起こした結果、突合部106の突合の結果が非合致となる場合もあり得る。この変形例では、そのような場合を考慮に入れて、第2突合部16で人間の入力と突合するのである。人間の場合、指定文字種以外の文字を指定文字種の文字と誤認する確率は低いので、文字種限定認識器102の認識結果Rが正解であるにもかかわらず突合部106の突合結果が非合致となっている場合には、人間の認識結果と突き合わせることで、文字種限定認識器102の認識結果Rが正解であることが分かる。
すなわち、第2突合部16は、文字種限定認識器102の認識結果Rと、キー入力部14に入力された人間の文字認識結果とが合致した場合には、その認識結果Rを、情報処理装置の最終的な文字認識結果として出力する。一方、第2突合部16による突合結果が非合致の場合は、Aさん以外の他の人からその入力画像の文字認識結果の入力を受け取り、受け取った入力を利用して、情報処理装置の最終的な文字認識結果を求める。突合結果が非合致の場合に対する処理については、後で図5及び図6を参照して具体的な例を説明する。
突合部106の突合の結果が非合致の場合、文字種限定認識器102の認識結果Rは誤認識の蓋然性が高いので、後段に出力せずに捨ててしまう方式も考えられる。しかし、この方式では、突合の結果が非合致の場合に、人間による文字認識結果に頼るしかない。この場合、キー入力部14からのAさんの入力をそのまま情報処理装置の最終的な文字認識結果として採用することが考えられる。しかし、人間は往々にしてミスをするので、一人の認識結果だけでは信頼性が十分でないと判断される場合も少なくない。そこで信頼性を高めるために、二人以上の人間の文字認識結果を突合し、その突合の結果に基づいて最終的な文字認識結果を求めることも考えられる。しかし、二人以上の人間を従事させることによりコストは高くなる。
これに対し、本実施形態では、突合部106の突合の結果が非合致の場合、文字種限定認識器102の認識結果Rは第2突合部16で人間であるAさんの文字認識結果と突合され、両者が合致した場合には認識結果Rが最終的な認識結果として採用される。この場合の最終的な認識結果は、2つの独立した認識結果が合致したものなので、Aさん単独の文字認識結果よりも信頼性が高い。また、第2突合部16の突合の結果、文字種限定認識器102の認識結果RとAさんの文字認識結果とが合致した場合、2人目の人間の入力が不要になるため、突合部106の突合の結果が非合致の場合に必ず2人以上の入力の突合を行う方式よりも必要コストが低くなる。
次に、図5を参照して、第2突合部16での突合結果が非合致の場合の処理のための構成の一例を説明する。図5において、図4に示した要素と同様の要素には同一符号を付し、重複する説明は省略する。
図5に示す情報処理装置は、図4に示した情報処理装置の要素群に加え、キー入力部22、第3突合部24及びキー入力部26を有する。
キー入力部22は、Aさんとは別の人であるBさんから、入力画像の文字認識結果の入力を受け付ける。第3突合部24は、第2突合部16から入力されるAさんの入力と、キー入力部22から入力されるBさんの入力とを突合する。キー入力部26は、AさんともBさんとも異なるCさんから、入力画像の文字認識結果の入力を受け付ける。
図5の例では、第2突合部16は、文字種限定認識器102の認識結果RとAさんの文字認識結果との突合結果が非合致の場合、Aさんの文字認識結果を第3突合部24に入力する。またこの場合、キー入力部22がBさんの端末に入力画像を提供し、これに応じてBさんが入力した文字認識結果を第3突合部24に入力する。第3突合部24は、Aさんの文字認識結果とBさんの文字認識結果との突合を行い、それら両者が合致する場合、その合致した文字認識結果を情報処理装置の最終的な文字認識結果として出力する。また、突合の結果が非合致の場合、第3突合部24はキー入力部26を起動する。キー入力部26は、Cさんの端末に入力画像を提供し、これに応じたCさんからの文字認識結果の入力を受け付け、その文字認識結果を最終的な文字認識結果として採用する。Cさんとして、例えばAさんやBさんよりも過去に入力した文字認識結果の正解率が高い人を採用することで、最終的な文字認識結果の精度がある程度担保される。
次に、図6を参照して、第2突合部16での突合結果が非合致の場合の処理のための構成の別の一例を説明する。図6には、情報処理装置の構成のうち、第2突合部16による突合処理以降の処理を担う部分が示される。
図6の例では、第2突合部16の突合結果が非合致である場合、第2突合部16は、振り分け処理部18に、今回の認識対象の入力画像と、その入力画像に対するAさんの入力データ、及び確度Pを渡して、処理の振り分けを依頼する。
振り分け処理部18は、確度Pが、予め設定された閾値T2(ただしT2<T1)より大きい場合、キー入力部28にその入力画像を渡す。キー入力部28は、予め登録されているDさんの端末にその入力画像を提供し、これに対してDさんが入力した文字認識結果を受け取り、その文字認識をその入力画像に対する最終的な認識結果として出力する。ここでDさんはAさんとは異なる人であればよい。
また振り分け処理部18は、確度Pが閾値T2以下の場合は、キー入力部22に入力画像を渡すと共に、第3突合部24にAさんの入力データを渡す。キー入力部22は、予め登録されているBさんの端末にその入力画像を提供し、これに対してBさんが入力した文字認識結果を受け取り、その文字認識結果を第3突合部24に渡す。第3突合部24は、Aさんの文字認識結果とBさんの文字認識結果を突合し、その結果両者が合致していれば、その合致した文字認識結果をその入力画像に対する最終的な文字認識結果として出力する。一方、第3突合部24の突合で両者が非合致であった場合、キー入力部26が、Aさん及びBさんのいずれとも異なるCさんの端末にその入力画像を提供し、これに対してDさんが入力した文字認識結果を受け取り、その文字認識結果を最終的な認識結果として出力する。
次に、図7を参照して、第4の変形例を説明する。図7において、図4の構成における要素と同様の要素には同一符号を付し、重複説明を省略する。
図7の構成は、図4の構成のうちの認識制御部108を、確度調整部110と振り分け処理部13とに置き換えたものである。
確度調整部110は、突合部106から、突合の結果と、認識結果R及び確度Pと、を受け取る。確度調整部110は、突合の結果が非合致である場合には、確度Pを、閾値T1未満の値に調整した上で、振り分け処理部13に出力する。一方、入力画像から取消線が検出されなかった場合は、確度調整部110は、受け取った確度Pを、変更せずにそのまま振り分け処理部13に出力する。確度調整部110が出力する確度の値を確度P′と表現する。
振り分け処理部13は、確度調整部110から入力された確度P′に応じて、以降の処理経路を制御する。より詳しくは、振り分け処理部13は、確度P′が閾値T1より大きい場合には、文字種限定認識器102の認識結果Rを情報処理装置の最終的な文字認識結果として出力する。一方、確度P′が閾値T1以下の場合は、認識結果Rと確度P′を第2突合部16に入力する。第2突合部16が行う処理は、図4の例の場合と同様である。また、第2突合部16の突合結果が非合致の場合に処理構成としては、図5又は図6に例示したものを採用してもよい。
以上に例示した実施形態の情報処理装置は、一つの例ではハードウエアの論理回路として構成可能である。また、別の例として、実施形態の情報処理装置は、内蔵されるコンピュータにそれらシステム又は装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウエアとして、CPU等のプロセッサ、ランダムアクセスメモリ(RAM)及びリードオンリメモリ(ROM)等のメモリ(一次記憶)、HDD(ハードディスクドライブ)を制御するHDDコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばI/Oインタフェース経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAMに読み出されCPU等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、実施形態の情報処理装置は、ソフトウエアとハードウエアの組合せで構成されてもよい。
13,18 振り分け処理部、14,22,26,28 キー入力部、16 第2突合部、24 第3突合部、102 文字種限定認識器、104,104a 文字種非限定認識器、106,106a 突合部、108 認識制御部、110 確度調整部。

Claims (6)

  1. 入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力する第1文字認識手段と、
    前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段と、
    前記第1文字認識結果と前記第2文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第2文字認識結果とが合致することが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力し、前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない突合手段と、
    を含む情報処理装置。
  2. 前記第2文字認識手段は、1つの前記入力画像について、確度が上位の異なる複数の前記第2文字認識結果を出力し、
    前記突合手段は、それら異なる複数の前記第2文字認識結果の各々を前記第1文字認識結果と突合し、この突合によりそれら異なる複数の前記第2文字認識結果の中に前記第1文字認識結果と合致するものがあれば、前記第1文字認識結果を最終的な文字認識結果として出力し、それら異なる複数の前記第2文字認識結果のすべてが前記第1文字認識結果と非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない
    請求項1に記載の情報処理装置。
  3. 前記入力画像に対して、第3文字種の文字の集合に属する文字を認識対象とする第3文字認識を実行しの文字認識の結果である第3文字認識結果を出力する第3文字認識手段であって、前記第3文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合にも前記第2文字種の文字の集合にも属さない文字を少なくとも1以上加えた集合である、第3文字認識手段、
    を更に含み、
    前記突合手段は、前記第1文字認識結果と前記第2文字認識結果との突合、及び、前記第1文字認識結果と前記第3文字認識結果との突合を行い、これら突合により、前記第2文字認識結果及び前記第3文字認識結果の中に前記第1文字認識結果が合致するものがあれば、前記第1文字認識結果を最終的な文字認識結果として出力し、前記第1文字認識結果が、前記第2文字認識結果及び前記第3文字認識結果のいずれとも非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない
    請求項1に記載の情報処理装置。
  4. 入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力すると共に、前記第1文字認識結果の確度を出力する第1文字認識手段と、
    前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段と、
    前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と、
    前記第1文字認識結果と前記第2文字認識結果との突合を行う第1突合手段と、
    前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段と、
    前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第2突合処理を実行する第2突合手段であって、前記第2突合処理は、前記入力画像に対する第1の人による文字認識結果を前記受付手段に受け付けさせ、前記第1文字認識結果と前第1の人による文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第1の人による文字認識結果とが合致していることが分かった場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第1文字認識結果と前記第1の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第2の人による文字認識結果を前記受付手段に受け付けさせ、前記第2の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第2突合手段と、
    を含む情報処理装置。
  5. コンピュータを、
    入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力する第1文字認識手段、
    前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段、
    前記第1文字認識結果と前記第2文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第2文字認識結果とが合致することが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力し、前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合に、前記第1文字認識結果を最終的な文字認識結果として出力しない突合手段、
    として機能させるためのプログラム。
  6. コンピュータを、
    入力画像に対して、第1文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第1文字認識結果を出力すると共に、前記第1文字認識結果の確度を出力する第1文字認識手段、
    前記入力画像に対して、第2文字種の文字の集合に属する文字を認識対象とする文字認識を実行しの文字認識の結果である第2文字認識結果を出力する第2文字認識手段であって、前記第2文字種の文字の集合とは、前記第1文字種文字の集合に対して、前記第1文字種の文字の集合に属さない文字を少なくとも1以上加えた集合である、第2文字認識手段と、
    前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段、
    前記第1文字認識結果と前記第2文字認識結果との突合を行う第1突合手段、
    前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが合致していることが分かり、かつ前記確度が閾値以上である場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力する手段、
    前記第1突合手段の突合により前記第1文字認識結果と前記第2文字認識結果とが非合致であることが分かった場合、又は前記確度が閾値未満である場合に、第2突合処理を実行する第2突合手段であって、前記第2突合処理は、前記入力画像に対する第1の人による文字認識結果を前記受付手段に受け付けさせ、前記第1文字認識結果と前第1の人による文字認識結果との突合を行い、この突合により前記第1文字認識結果と前記第1の人による文字認識結果とが合致していることが分かった場合には、前記第1文字認識結果を前記入力画像に対する最終的な文字認識結果として出力し、前記第1文字認識結果と前記第1の人による文字認識結果とが非合致であることが分かった場合には、前記入力画像に対する第2の人による文字認識結果を前記受付手段に受け付けさせ、前記第2の人による文字認識結果に基づき最終的な文字認識結果を求めて出力する、第2突合手段、
    として機能させるためのプログラム。
JP2019010052A 2019-01-24 2019-01-24 情報処理装置及びプログラム Active JP7338158B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019010052A JP7338158B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム
US16/521,549 US10997452B2 (en) 2019-01-24 2019-07-24 Information processing apparatus and non-transitory computer readable medium storing program
CN201910829036.3A CN111476240B (zh) 2019-01-24 2019-09-03 信息处理装置、记录媒体及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019010052A JP7338158B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020119290A JP2020119290A (ja) 2020-08-06
JP7338158B2 true JP7338158B2 (ja) 2023-09-05

Family

ID=71732475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019010052A Active JP7338158B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US10997452B2 (ja)
JP (1) JP7338158B2 (ja)
CN (1) CN111476240B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766892A (zh) * 2021-01-11 2021-05-07 北京来也网络科技有限公司 结合rpa和ai的资金配比的方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019168857A (ja) 2018-03-22 2019-10-03 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02103690A (ja) * 1988-10-11 1990-04-16 Nec Corp 文字読取り装置
JPH11203406A (ja) * 1998-01-20 1999-07-30 Ricoh Co Ltd 文字切り出し方法、文字認識方法、文字認識装置および記録媒体
JP3092576B2 (ja) * 1998-01-22 2000-09-25 日本電気株式会社 文字認識装置
JPH11296619A (ja) 1998-04-09 1999-10-29 Oki Electric Ind Co Ltd 文字認識装置
JP2000082110A (ja) 1998-07-02 2000-03-21 Ricoh Co Ltd 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
WO2002048953A1 (en) * 2000-12-15 2002-06-20 United States Postal Service Method and apparatus for alphanumeric recognition
JP2010217996A (ja) * 2009-03-13 2010-09-30 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法
US8401293B2 (en) * 2010-05-03 2013-03-19 Microsoft Corporation Word recognition of text undergoing an OCR process
JP5677139B2 (ja) 2011-03-07 2015-02-25 三菱電機株式会社 帳票文字認識装置
JP5674615B2 (ja) 2011-09-28 2015-02-25 株式会社日立情報通信エンジニアリング 文字認識装置及び文字認識方法
CN103186940B (zh) * 2011-12-28 2016-03-16 光荣株式会社 号码识别装置以及号码识别方法
JP5982844B2 (ja) * 2012-02-06 2016-08-31 オムロン株式会社 文字読取用のプログラムおよび文字読取装置
JP2013214188A (ja) 2012-04-02 2013-10-17 Sharp Corp 文字認識処理装置、文字認識処理方法、文字認識処理プログラム、および、コンピュータ読み取り可能な記録媒体
US8983211B2 (en) * 2012-05-14 2015-03-17 Xerox Corporation Method for processing optical character recognizer output
US9047528B1 (en) * 2013-02-19 2015-06-02 Amazon Technologies, Inc. Identifying characters in grid-based text
US9798943B2 (en) * 2014-06-09 2017-10-24 I.R.I.S. Optical character recognition method
JP6575132B2 (ja) 2015-05-14 2019-09-18 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN108170658A (zh) * 2018-01-12 2018-06-15 山西同方知网数字出版技术有限公司 一种可灵活配置、灵活定义的文字识别编改校对系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019168857A (ja) 2018-03-22 2019-10-03 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム

Also Published As

Publication number Publication date
CN111476240B (zh) 2023-07-25
US20200242387A1 (en) 2020-07-30
JP2020119290A (ja) 2020-08-06
US10997452B2 (en) 2021-05-04
CN111476240A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
US8340425B2 (en) Optical character recognition with two-pass zoning
US8340429B2 (en) Searching document images
Yamada et al. Cursive handwritten word recognition using multiple segmentation determined by contour analysis
US5881172A (en) Hierarchical character recognition system
JP7338158B2 (ja) 情報処理装置及びプログラム
US9378414B2 (en) Chinese, Japanese, or Korean language detection
US11551461B2 (en) Text classification
US11100356B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
US8472719B2 (en) Method of stricken-out character recognition in handwritten text
JP2008084105A (ja) 文字切出方法及び文字認識装置
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
Al-Barhamtoshy et al. Arabic OCR segmented-based system
JP2019215747A (ja) 情報処理装置及びプログラム
da Silva et al. An Optical Character Recognition Post-processing Method for technical documents
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP2903779B2 (ja) 文字列認識方法及びその装置
Lee et al. Rapid analytical verification of handwritten alphanumeric address fields
US20240257549A1 (en) Information processing system, document type identification method, and model generation method
Leishman Shape-free statistical information in optical character recognition
Choudhary et al. An efficient algorithm for characters recognition of printed oriya script
Zhang Construction of handwriting databases using transcript-based mapping
JPH04318687A (ja) 文字認識装置
Chaudhuri On OCR of major indian scripts: Bangla and Devanagari
Nagy Rensselaer Polytechnic Institute

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R150 Certificate of patent or registration of utility model

Ref document number: 7338158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150