JP7326753B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7326753B2
JP7326753B2 JP2019010051A JP2019010051A JP7326753B2 JP 7326753 B2 JP7326753 B2 JP 7326753B2 JP 2019010051 A JP2019010051 A JP 2019010051A JP 2019010051 A JP2019010051 A JP 2019010051A JP 7326753 B2 JP7326753 B2 JP 7326753B2
Authority
JP
Japan
Prior art keywords
character recognition
recognition result
input image
accuracy
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019010051A
Other languages
English (en)
Other versions
JP2020119289A (ja
Inventor
俊一 木村
雅則 関野
拓也 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019010051A priority Critical patent/JP7326753B2/ja
Priority to US16/518,994 priority patent/US11100356B2/en
Priority to CN201910831163.7A priority patent/CN111476073B/zh
Publication of JP2020119289A publication Critical patent/JP2020119289A/ja
Application granted granted Critical
Publication of JP7326753B2 publication Critical patent/JP7326753B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
紙帳票に手書き記入又は印刷された文字列をデジタルデータ化するデータ入力システムがある。データ入力システムは、帳票中を人間が読み取ってキー入力する方式、光学文字認識(OCR)技術を用いた文字認識器により帳票中の画像に対して文字認識処理を行う方式、あるいはこれらの組合せにより帳票中の文字列をデジタル化する。
特許文献1に開示された情報処理装置の分類手段は、文字認識対象を3種類のいずれかに分類し、抽出手段は、前記分類手段によって第1の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、第1の制御手段は、前記分類手段によって第2の種類に分類された場合に、前記文字認識対象の文字認識結果を抽出し、該文字認識対象を人手で入力させるように制御し、第2の制御手段は、前記分類手段によって第3の種類に分類された場合に、前記文字認識対象を複数人の人手で入力させるように制御する。また、特許文献1には、文字認識モジュールが文字認識結果の確度(すなわちその文字認識結果が正しいと確信する度合い)を出力し、その確度の値に応じて、文字認識対象を第1~第3の種類に分類すること、更に、その確度が最も高い範囲に属する場合には文字認識モジュールによる文字認識結果を最終的な結果として抽出すること、が記載されている。
さて、手書き記入又は印刷された文字列の上にユーザが取消線を引く場合がある。取消線が引かれた文字列はユーザが取り消す旨を指示しているものなので、文字認識処理では、仮にその文字列が認識できたとしてもその認識結果を棄却することが望ましい。しかし、文字列を構成する文字やその上に引かれた取消線の態様によっては、文字認識モジュールはその文字列を認識でき、しかもその文字認識の結果の確度が高い値となる場合もある。そのような場合、取消線があるにもかかわらず、その確度の高い文字認識結果が最終的な結果として採用されてしまう可能性がある。
そこで、文字認識とは別に取消線の検知処理を行い、取消線が検知された部分に対応する文字認識結果を棄却することが行われている。
例えば特許文献2に開示されるシステムでは、スコアによる棄却判定部は、文字パターン認識部で得た認識結果の信頼度の値を元に認識結果の棄却判定を行う。文字・枠線接触数検出部は、文字記入欄内の画像から1文字分の非文字枠画像を取り出し、非文字枠画像に接触している文字枠線の数を計測する。罫線接触棄却判定部は、非文字枠画像に接触している文字枠線数が所定の閾値を越える場合に、文字枠線に対応した文字の認識結果を棄却する。棄却処理統合部は、スコアによる棄却判定部の結果と罫線接触棄却判定部の結果の両方を元に、最終的に出力する文字認識結果の棄却判定を行う。
特開2016-212812号公報 特開2012-185713号公報
取消線の自動検出では入力画像に含まれるスキャンノイズ等のように取消線でないものが取消線として検出される場合がある。入力画像から取消線が検出されると文字認識手段の文字認識結果を棄却することとすると、文字認識手段が正しい文字認識結果を求めている場合でも、入力画像中のノイズが取消線として検出されれば、その文字認識結果が利用されないことになる。
本発明は、入力画像に含まれるノイズ等の取消線でないものが取消線として検出された場合に、その入力画像に対する文字認識手段の文字認識結果が正しければその文字認識結果が利用される蓋然性を高める仕組みを提供する。
請求項1に係る発明は、入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段と、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段と、画像中の取消線を検出する取消線検出装置前記入力画像中から前記取消線を検出した場合に、前記処理手段に前記処理を行わせ、前記取消線検出装置が前記入力画像中から前記取消線を検出しなかった場合は、前記確度が閾値より高ければ前記文字認識手段が出力した前記文字認識結果を前記最終的な文字認識結果とし、前記確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段と、を含む情報処理装置である。
請求項に係る発明は、入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段と、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段と、前記文字認識手段が出力した前記文字認識結果に対応する判定用確度が閾値より高ければ、当該文字認識結果を前記入力画像に対する最終的な文字認識結果とし、前記判定用確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段と、画像中の取消線を検出する取消線検出装置前記入力画像中から前記取消線を検出しなかった場合は、前記文字認識手段が出力した前記確度を前記判定用確度として採用し、前記取消線検出装置が前記入力画像中から前記取消線を検出した場合には前記文字認識手段が出力した前記確度を前記閾値以下の値に変更し、この変更の後の確度を前記判定用確度として採用した上で、前記制御手段に前記制御を行わせる手段と、を含む情報処理装置である。
請求項に係る発明は、コンピュータを、入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段、画像中の取消線を検出する取消線検出装置前記入力画像中から前記取消線を検出した場合に、前記処理手段に前記処理を行わせ、前記取消線検出装置が前記入力画像中から前記取消線を検出しなかった場合は、前記確度が閾値より高ければ、前記文字認識手段が出力した前記文字認識結果を前記最終的な文字認識結果とし、前記確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段、として機能させるためのプログラムである。
請求項4に係る発明は、コンピュータを、入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段、前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段、前記文字認識手段が出力した前記文字認識結果に対応する判定用確度が閾値より高ければ、当該文字認識結果を前記入力画像に対する最終的な文字認識結果とし、前記判定用確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段、画像中の取消線を検出する取消線検出装置が前記入力画像中から前記取消線を検出しなかった場合は、前記文字認識手段が出力した前記確度を前記判定用確度として採用し、前記取消線検出装置が前記入力画像中から前記取消線を検出した場合には前記文字認識手段が出力した前記確度を前記閾値以下の値に変更し、この変更の後の確度を前記判定用確度として採用した上で、前記制御手段に前記制御を行わせる手段、として機能させるためのプログラムである。
請求項1又は3に係る発明によれば、入力画像に含まれるノイズ等の取消線でないものが取消線として検出された場合に、その入力画像に対する文字認識手段の文字認識結果が正しければその文字認識結果が利用される蓋然性を高めることができる。
請求項2又は4に係る発明によれば、判定用確度が閾値より大きい場合は文字認識手段の認識結果を最終的な文字認識結果とし、閾値以下の場合には突合手段の突合の結果に基づき最終的な文字認識結果を求める、という構成を生かして、文字認識手段の文字認識結果が正しければその文字認識結果が利用される蓋然性を高めることができる。
実施形態の装置構成の主要部を例示する図である。 取消線の様々なパターンを例示する図である。 取消線検出方法の一例を説明するための図である。 突合部の突合結果が非合致の場合の処理のための構成を例示する図である。 突合部の突合結果が非合致の場合の処理のための別の構成を例示する図である。 別の例の装置構成の主要部を例示する図である。
図1に、本発明に係る情報処理装置の一実施形態の構成例を示す。
この情報処理装置には、文字列の画像を含んだ入力画像が入力される。入力画像は、例えば、帳票等の紙面をスキャナでスキャンすることにより得られる画像である。あるいは、紙面をスキャンすることにより得られた画像から、認識対象の文字列を含む領域(例えば特定の記入欄)の画像が切り出され、入力画像として情報処理装置に入力される。入力画像に含まれる文字列は、手書き文字からなる文字列であってもよいし、活字の文字列であってもよいし、手書き文字と活字が混じった文字列であってもよい。文字列は、1以上の文字からなる列である。また、認識の対象となる文字の中には、各種のアルファベットや仮名などの表音文字、漢字等の表意文字、ロゴマーク等の各種マーク等が含まれてもよい。
文字認識器12は、その入力画像に対して文字認識を行い、その入力画像に含まれる文字列の認識結果Rを求めて出力する。出力される認識結果Rは、その文字列を構成する各文字の文字コードの列である。文字認識器12は「文字認識手段」の一例である。
また文字認識器12は、その認識結果Rについての文字認識の確度Pを出力する。確度Pは、文字認識器12が求めた認識結果Rがその入力画像に含まれる文字列を正しく表している確からしさを示す度合いである。確度Pが高いほど、認識結果Rのテキストコードが正解である(すなわち入力画像中の文字列を正しく表している)蓋然性が高い。文字認識器12が出力した認識結果Rと確度Pは認識制御部52に入力される。
取消線検出部50は、その入力画像から取消線を検出する。取消線検出部50は、「検出手段」の一例である。
取消線は、文字列を取り消すために手書きで又はアプリケーションによりその文字列の上に引かれる1つ又は複数の線である。取消線には様々なパターンがある。例えば図2の(a)に例示するのは、入力画像100内にある手書きの文字列「ABC」を取り消すために、それら文字列の横幅全域にわたって延びるほぼ直線上の2本の線からなる取消線102aである。また、図2の(b)に示すように、ジグザグ状の手書きの取消線102bや、図2の(c)に示すように、文字列「ABC」の個々の文字について個別に取消線102cが引かれる場合もある。取消線検出部50は、それらパターンの全てを検出できるものであってもよいし、そのうちの一部のものを検出できるものであってもよい。なお、図2の(a)や(c)の例のように、文字列に対して重なる取消線の密度が薄く、取消線が文字認識の邪魔になりにくい場合には、文字認識器12によるその文字列の認識結果Rの確度Pが高い値となることがある。
画像中から取消線を検出する手法には従来様々なものが提案されている。取消線検出部50は、それら従来手法を用いるものであってもよい。また取消線検出部50は、これから開発される取消線検出手法を用いるものであってもよい。
また図3に示すように、1文字単位の単位枠110を1以上配列してなる記入枠115中に文字が記入された帳票を読み取ることにより得られた入力画像が対象である場合、取消線検出部50は、2以上の単位枠110と重なる連続した線分104(直線でも曲線でもよい)を検出すれば、その線分を取消線と判定してもよい。図3に示した記入枠115は、隣り合う単位枠110同士が接している(すなわち一辺を共有している)「はしご枠」形式のものであったが、記入枠115中の隣り合う単位枠110同士の間に間隔が空いている場合も、同様の取消線検出手法が適用可能である。
なお、入力画像には、帳票等の紙面をスキャンしたスキャナに起因する読み取りノイズや、紙面の折り目や線状の汚れ等が画像として含まれることがある。取消線検出部50はそのようなノイズ、折り目、汚れ等の画像を取消線として検出してしまう場合がある。
取消線検出部50は、入力画像中から取消線を検出したか否か、すなわち入力画像中の取消線の有無、を示す情報を認識制御部52に対して出力する。
認識制御部52は、文字認識器12から入力された認識結果R及び確度Pと、取消線検出部50から入力された取消線の有無の情報とに基づいて、入力画像についての最終的な文字認識結果を求めるための制御を行う。認識制御部52は、「制御手段」の一例である。以下、認識制御部52が実行する制御について説明する。
従来、入力画像に対する文字認識器の認識結果Rの確度Pがある閾値T1より高い場合に、その認識結果Rを当該情報処理装置の最終的な文字認識結果として出力する情報処理装置は存在する。この種の情報処理装置は、確度Pが閾値T1以下の場合は、人間から同じ入力画像に対する文字認識結果の入力を受け取り、受け取った入力をその認識結果Rと突合(すなわち突き合わせ)する。この突合で、それら両者が合致(すなわち一致)していると判定された場合は、その認識結果Rが情報処理装置の最終的な文字認識結果として出力される。一方、その突合でそれら両者が非合致であると判定された場合、その従来の情報処理装置は、他の人間からその入力画像の文字認識結果の入力を受け取り、この入力を考慮に入れて最終的な文字認識結果を求める。一つの例では、最初の人の文字認識結果と、今回新たに入力された他の人の文字認識結果とを突合し、これら両者が一致すれば、その文字認識結果を最終的な文字認識結果とする。
これに対し、本実施形態の認識制御部52は、入力画像に対する文字認識器12の認識結果Rの確度Pがその閾値T1より高くても、それだけではその認識結果Rを情報処理装置の最終的な文字認識結果とはしない。その代わりに、認識制御部52は、その入力画像に対する取消線検出部50からの情報を更に参照し、確度Pがその閾値T1より高く、かつその入力画像に取消線がない場合に、その認識結果Rを情報処理装置の最終的な文字認識結果として出力する。
一方、取消線検出部50がその入力画像から取消線を検出した場合には、認識制御部52は、文字認識器12の認識結果Rの確度Pが閾値T1より高くても、その認識結果Rを突合部16に入力する。突合部16は、入力された認識結果Rを、キー入力部14に入力された人間(図示例では「A」という名前の人)によるその入力画像についての文字認識結果と突合する。突合部16は、「突合手段」の一例である。なお、キー入力部14は、ユーザ(人間)からのキー入力を受け付けるソフトウエアモジュールであり、「受付手段」の一例である。Aさんの端末は、図1に示した情報処理装置と例えばインターネットを介して接続されているものでよい。この場合、入力画像を表示したり、その入力画像の認識結果の入力を受け付けたりする機構は、例えばウェブサービスの形でキー入力部14からその端末に提供される。Aさんは、端末に表示された入力画像を認識し、その入力画像が示す文字列を端末のキーボードから入力する。キー入力部14は、Aさんが入力した文字列データをその端末から受け取り、突合部16に渡す。
従来、入力画像から取消線が検出された場合、その入力画像に対する文字認識器の認識結果を棄却する手法が存在する。本実施形態は、そのような従来手法とは異なり、取消線が検出された場合でも、文字認識器12の認識結果Rは棄却せず、その認識結果Rを人間の文字認識結果と突合することにより再利用する。
また、認識制御部52は、文字認識器12の認識結果Rの確度Pが閾値T1以下の場合、上述した従来方式と同様、文字認識器12の認識結果Rを突合部16にて、人間による文字認識結果と突合する。
このように、本実施形態では、確度Pが閾値T1以下の場合に加え、取消線が検出された場合にも、文字認識器12の認識結果Rと人間の文字認識結果との突合が行われる。
突合部16は、文字認識器12の認識結果Rと、キー入力部14に入力された人間の文字認識結果とが合致(すなわち一致)した場合には、その認識結果Rを、情報処理装置の最終的な文字認識結果として出力する。一方、突合部16による突合結果が非合致(すなわち不一致)の場合は、Aさん以外の他の人からその入力画像の文字認識結果の入力を受け取り、受け取った入力を利用して、情報処理装置の最終的な文字認識結果を求める。突合結果が非合致の場合に対する処理については、後で図4及び図5を参照して具体的な例を説明する。
以上に説明したように、図1に示す情報処理装置によれば、取消線検出部50が入力画像から取消線を検出した場合、文字認識器12の認識結果Rは人間の文字認識結果と突合される。入力画像に含まれる読み取りノイズや紙面の折り目、汚れ等の画像を取消線検出部50が取消線として誤検出した場合でも、人間の目で見ればその画像が取消線でないと分かるケースは非常に多い。このようなケースでは、人間は、取消線がないものとして入力画像中の文字列を認識し、認識結果をキー入力部14に入力する。したがって、入力画像中の取消線ではない画像が取消線として誤検出された場合であっても、文字認識器12の認識結果Rが正しい場合には、その認識結果Rは突合部16で人間の文字認識結果と合致したと判定され、最終的な認識結果として出力されることとなる。
一方、取消線検出部50が検出した取消線が本当の取消線である場合、Aさんはその取消線を認識し、取消線があることを示す所定の入力(例えば空白のまま確定する等の入力)をキー入力部14に対して行う。この入力の値は、文字認識器12の認識結果Rとは異なる値なので、突合部16での突合結果は必ず非合致となる。したがって、入力画像中に本当の取消線がある場合に文字認識器12の認識結果Rが最終的な文字認識結果として出力されることはない。
取消線が検出されると文字認識器の認識結果Rを棄却してしまう従来方式では、取消線が検出された場合には、人間による文字認識結果に頼るしかない。この場合、キー入力部14からのAさんの入力をそのまま情報処理装置の最終的な文字認識結果として採用することが考えられる。しかし、人間は往々にしてミスをするので、一人の認識結果だけでは信頼性が十分でないと判断される場合も少なくない。そこで信頼性を高めるために、二人以上の人間の文字認識結果を突合し、その突合の結果に基づいて最終的な文字認識結果を求めることも考えられる。しかし、二人以上の人間を従事させることによりコストは高くなる。
これに対し、本実施形態では、取消線が検出された場合、文字認識器12の認識結果Rは人間であるAさんの文字認識結果と突合され、両者が合致した場合には認識結果Rが最終的な認識結果として採用される。この場合の最終的な認識結果は、2つの独立した認識結果が合致したものなので、Aさん単独の文字認識結果よりも信頼性が高い。また、突合の結果文字認識器12の認識結果RとAさんの文字認識結果とが合致した場合、2人目の人間の入力が不要になるため、取消線が検出されると必ず2人以上の入力の突合を行う方式よりも必要コストが低くなる。
次に、図4を参照して、突合部16での突合結果が非合致の場合の処理のための構成の一例を説明する。図4において、図1に示した要素と同様の要素には同一符号を付し、重複する説明は省略する。
図4に示す情報処理装置は、図1に示した情報処理装置の要素群に加え、キー入力部22、第2突合部24及びキー入力部26を有する。
キー入力部22は、Aさんとは別の人であるBさんから、入力画像の文字認識結果の入力を受け付ける。第2突合部24は、突合部16から入力されるAさんの入力と、キー入力部22から入力されるBさんの入力とを突合する。キー入力部26は、AさんともBさんとも異なるCさんから、入力画像の文字認識結果の入力を受け付ける。
図4の例では、突合部16は、文字認識器12の認識結果RとAさんの文字認識結果との突合結果が非合致の場合、Aさんの文字認識結果を第2突合部24に入力する。またこの場合、キー入力部22がBさんの端末に入力画像を提供し、これに応じてBさんが入力した文字認識結果を第2突合部24に入力する。第2突合部24は、Aさんの文字認識結果とBさんの文字認識結果との突合を行い、それら両者が合致する場合、その合致した文字認識結果を情報処理装置の最終的な文字認識結果として出力する。また、突合の結果が非合致の場合、第2突合部24はキー入力部26を起動する。キー入力部26は、Cさんの端末に入力画像を提供し、これに応じたCさんからの文字認識結果の入力を受け付け、その文字認識結果を最終的な文字認識結果として採用する。Cさんとして、例えばAさんやBさんよりも過去に入力した文字認識結果の正解率が高い人を採用することで、最終的な文字認識結果の精度がある程度担保される。
次に、図5を参照して、突合部16での突合結果が非合致の場合の処理のための構成の別の一例を説明する。図5には、情報処理装置の構成のうち、突合部16による突合処理以降の処理を担う部分が示される。
図5の例では、突合部16の突合結果が非合致である場合、突合部16は、振り分け処理部18に、今回の認識対象の入力画像、その入力画像に対するAさんの入力データ、及び確度Pを渡して、処理の振り分けを依頼する。
振り分け処理部18は、確度Pが、予め設定された閾値T2(ただしT2<T1)より大きい場合、キー入力部28にその入力画像を渡す。キー入力部28は、予め登録されているDさんの端末にその入力画像を提供し、これに対してDさんが入力した文字認識結果を受け取り、その文字認識をその入力画像に対する最終的な認識結果として出力する。ここでDさんはAさんとは異なる人であればよい。
また振り分け処理部18は、確度Pが閾値T2以下の場合は、キー入力部22に入力画像を渡すと共に、第2突合部24にAさんの入力データを渡す。キー入力部22は、予め登録されているBさんの端末にその入力画像を提供し、これに対してBさんが入力した文字認識結果を受け取り、その文字認識結果を第2突合部24に渡す。第2突合部24は、Aさんの文字認識結果とBさんの文字認識結果を突合し、その結果両者が合致していれば、その合致した文字認識結果をその入力画像に対する最終的な文字認識結果として出力する。一方、第2突合部24の突合で両者が非合致であった場合、キー入力部26が、Aさん及びBさんのいずれとも異なるCさんの端末にその入力画像を提供し、これに対してDさんが入力した文字認識結果を受け取り、その文字認識結果を最終的な認識結果として出力する。
次に、図6を参照して、本実施形態の情報処理装置の別の構成を例示する。図6において、図1の構成における要素と同様の要素には同一符号を付し、重複説明を省略する。
図6の構成は、図1の構成のうちの認識制御部52を、確度調整部54と振り分け処理部13とに置き換えたものである。
確度調整部54は、文字認識器12からの入力画像に対する認識結果Rと確度Pと、取消線検出部50からの、その入力画像中から取消線が検出されたか否かを示す情報と、を受け取る。確度調整部54は、入力画像中から取消線が検出された場合には、文字認識器12から受け取った確度Pを、閾値T1未満の値に調整した上で、振り分け処理部13に出力する。一方、入力画像から取消線が検出されなかった場合は、確度調整部54は、文字認識器12から受け取った確度Pを、変更せずにそのまま振り分け処理部13に出力する。確度調整部54が出力する確度の値を確度P′と表現する。確度調整部54が出力する確度P′は、「判定用確度」の一例である。
振り分け処理部13は、確度調整部54から入力された確度P′に応じて、以降の処理経路を制御する。より詳しくは、振り分け処理部13は、確度P′が閾値T1より大きい場合には、文字認識器12の認識結果Rを情報処理装置の最終的な文字認識結果として出力する。一方、確度P′が閾値T1以下の場合は、認識結果Rと確度P′を突合部16に入力する。突合部16が行う処理は、図1の実施形態の場合と同様である。また、突合部16の突合結果が非合致の場合に処理構成としては、図4又は図5に例示したものを採用してもよい。
図6の構成から取消線検出部50と確度調整部54を除き、文字認識器12の出力を振り分け処理部13に直接入力すると、この「発明を実施するための形態」の欄の中で上述した従来の情報処理装置と同様の構成となる。
図6の例は、この従来構成の各要素の機能に変更を加えることなく、取消線検出部50及び確度調整部54を追加することで、図1の例と同様の機能を実現している。
以上に例示した実施形態の情報処理装置は、一つの例ではハードウエアの論理回路として構成可能である。また、別の例として、実施形態の情報処理装置は、内蔵されるコンピュータにそれらシステム又は装置内の各機能モジュールの機能を表すプログラムを実行させることにより実現してもよい。ここで、コンピュータは、例えば、ハードウエアとして、CPU等のプロセッサ、ランダムアクセスメモリ(RAM)及びリードオンリメモリ(ROM)等のメモリ(一次記憶)、HDD(ハードディスクドライブ)を制御するHDDコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばI/Oインタフェース経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAMに読み出されCPU等のプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。また、実施形態の情報処理装置は、ソフトウエアとハードウエアの組合せで構成されてもよい。
12 文字認識器、13,18 振り分け処理部、14,22,26,28 キー入力部、16 突合部、24 第2突合部、50 取消線検出部、52 認識制御部、54 確度調整部。

Claims (4)

  1. 入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段と、
    前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と
    前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段と、
    画像中の取消線を検出する取消線検出装置前記入力画像中から前記取消線を検出した場合に、前記処理手段に前記処理を行わせ、前記取消線検出装置が前記入力画像中から前記取消線を検出しなかった場合は、前記確度が閾値より高ければ前記文字認識手段が出力した前記文字認識結果を前記最終的な文字認識結果とし、前記確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段と、
    を含む情報処理装置。
  2. 入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段と、
    前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段と、
    前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段と、
    前記文字認識手段が出力した前記文字認識結果に対応する判定用確度が閾値より高ければ、当該文字認識結果を前記入力画像に対する最終的な文字認識結果とし、前記判定用確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段と、
    画像中の取消線を検出する取消線検出装置前記入力画像中から前記取消線を検出しなかった場合は、前記文字認識手段が出力した前記確度を前記判定用確度として採用し、前記取消線検出装置が前記入力画像中から前記取消線を検出した場合には前記文字認識手段が出力した前記確度を前記閾値以下の値に変更し、この変更の後の確度を前記判定用確度として採用した上で、前記制御手段に前記制御を行わせる手段と
    を含む情報処理装置。
  3. コンピュータを、
    入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段、
    前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段
    前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段、
    画像中の取消線を検出する取消線検出装置前記入力画像中から前記取消線を検出した場合に、前記処理手段に前記処理を行わせ、前記取消線検出装置が前記入力画像中から前記取消線を検出しなかった場合は、前記確度が閾値より高ければ、前記文字認識手段が出力した前記文字認識結果を前記最終的な文字認識結果とし、前記確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段、
    として機能させるためのプログラム。
  4. コンピュータを、
    入力画像に対して文字認識を行うことにより文字認識結果を出力すると共に、当該文字認識結果の確度を出力する文字認識手段、
    前記入力画像に対する人による文字認識結果の入力を受け付ける受付手段、
    前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とに基づき前記入力画像に対する最終的な文字認識結果を求める処理、を行う処理手段であって、前記処理では、前記文字認識手段が出力した文字認識結果と前記受付手段が受け付けた前記人による文字認識結果とが合致する場合はその合致する文字認識結果を前記最終的な文字認識結果とし、合致しない場合は、前記受付手段が受け付けた文字認識結果に基づき前記最終的な文字認識結果を求める、処理手段、
    前記文字認識手段が出力した前記文字認識結果に対応する判定用確度が閾値より高ければ、当該文字認識結果を前記入力画像に対する最終的な文字認識結果とし、前記判定用確度が前記閾値以下であれば、前記処理手段に前記処理を行わせる、という制御を行う制御手段、
    画像中の取消線を検出する取消線検出装置が前記入力画像中から前記取消線を検出しなかった場合は、前記文字認識手段が出力した前記確度を前記判定用確度として採用し、前記取消線検出装置が前記入力画像中から前記取消線を検出した場合には前記文字認識手段が出力した前記確度を前記閾値以下の値に変更し、この変更の後の確度を前記判定用確度として採用した上で、前記制御手段に前記制御を行わせる手段、
    として機能させるためのプログラム。
JP2019010051A 2019-01-24 2019-01-24 情報処理装置及びプログラム Active JP7326753B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019010051A JP7326753B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム
US16/518,994 US11100356B2 (en) 2019-01-24 2019-07-23 Information processing apparatus and non-transitory computer readable medium storing program
CN201910831163.7A CN111476073B (zh) 2019-01-24 2019-09-04 信息处理装置、记录媒体及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019010051A JP7326753B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020119289A JP2020119289A (ja) 2020-08-06
JP7326753B2 true JP7326753B2 (ja) 2023-08-16

Family

ID=71732483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019010051A Active JP7326753B2 (ja) 2019-01-24 2019-01-24 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11100356B2 (ja)
JP (1) JP7326753B2 (ja)
CN (1) CN111476073B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248449A1 (ja) * 2022-06-23 2023-12-28 株式会社東芝 文字認識装置、文字認識方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280266A (ja) 2006-04-11 2007-10-25 Konica Minolta Business Technologies Inc 画像処理装置、原稿訂正方法および原稿訂正プログラム
JP2012185713A (ja) 2011-03-07 2012-09-27 Mitsubishi Electric Corp 帳票文字認識装置
JP2017102915A (ja) 2015-11-20 2017-06-08 キヤノンマーケティングジャパン株式会社 情報処理装置、その処理方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3345246B2 (ja) * 1996-01-09 2002-11-18 富士通株式会社 文字認識装置及び文字認識方法
JP2000082110A (ja) 1998-07-02 2000-03-21 Ricoh Co Ltd 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
JP3646547B2 (ja) * 1998-12-25 2005-05-11 松下電器産業株式会社 ファクシミリ装置
US6295387B1 (en) * 1999-05-27 2001-09-25 Lockheed Martin Corporation Method and apparatus for determination of verified data
RU2251736C2 (ru) * 2002-12-17 2005-05-10 "Аби Софтвер Лтд." Способ идентификации зачеркнутых символов при распознавании рукописного текста
JP2009199102A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
JP5357612B2 (ja) * 2009-04-13 2013-12-04 株式会社日立ソリューションズ 下線除去装置
JP2011237993A (ja) * 2010-05-10 2011-11-24 Fuji Xerox Co Ltd 情報入力装置及び情報入力プログラム
JP5601948B2 (ja) * 2010-09-16 2014-10-08 株式会社東芝 文字認識装置、区分装置、区分制御装置、及び文字認識方法
JP5640645B2 (ja) 2010-10-26 2014-12-17 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5647919B2 (ja) * 2011-03-07 2015-01-07 株式会社Nttドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN107533652B (zh) * 2015-05-11 2021-01-12 株式会社东芝 识别装置、识别方法及记录介质
JP6575132B2 (ja) 2015-05-14 2019-09-18 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10095946B2 (en) * 2016-07-07 2018-10-09 Lockheed Martin Corporation Systems and methods for strike through detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280266A (ja) 2006-04-11 2007-10-25 Konica Minolta Business Technologies Inc 画像処理装置、原稿訂正方法および原稿訂正プログラム
JP2012185713A (ja) 2011-03-07 2012-09-27 Mitsubishi Electric Corp 帳票文字認識装置
JP2017102915A (ja) 2015-11-20 2017-06-08 キヤノンマーケティングジャパン株式会社 情報処理装置、その処理方法及びプログラム

Also Published As

Publication number Publication date
CN111476073A (zh) 2020-07-31
US20200242390A1 (en) 2020-07-30
JP2020119289A (ja) 2020-08-06
CN111476073B (zh) 2023-07-18
US11100356B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
US7162086B2 (en) Character recognition apparatus and method
US20080063278A1 (en) Shape clustering and cluster-level manual identification in post optical character recognition processing
US20110243445A1 (en) Detecting position of word breaks in a textual line image
Bukhari et al. High performance layout analysis of Arabic and Urdu document images
US20020114515A1 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
JP7326753B2 (ja) 情報処理装置及びプログラム
WO2008031063A1 (en) Shape clustering in post optical character recognition processing
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP5677139B2 (ja) 帳票文字認識装置
JP5041775B2 (ja) 文字切出方法及び文字認識装置
US10997452B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP6624120B2 (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体
CN110598683B (zh) 信息处理装置、信息处理方法
JPH10207978A (ja) 文字等パターン照合方法及び装置
JP3428504B2 (ja) 文字認識装置
KR102627591B1 (ko) 문서로부터 정보를 추출하기 위한 장치의 동작 방법 및 그 장치
EP4318413A1 (en) Machine learning (ml)-based system and method for correcting image data
JP2022128348A (ja) 認識方法及び認識装置
JP2988412B2 (ja) 光学式文字読取装置
JP2002074262A (ja) 認識文字修正方法
JP2002074269A (ja) 文字認識方法
Raza Algorithms for the recognition of poor quality documents
JPH04280392A (ja) 文字認識方式
JPH09218921A (ja) 一般文書読取装置
JPH08194779A (ja) 文字および単語の認識方式、並びに文字認識方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230717

R150 Certificate of patent or registration of utility model

Ref document number: 7326753

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150