JP2006259830A - 光学的文字認識装置および光学的文字認識結果確認方法 - Google Patents

光学的文字認識装置および光学的文字認識結果確認方法 Download PDF

Info

Publication number
JP2006259830A
JP2006259830A JP2005072813A JP2005072813A JP2006259830A JP 2006259830 A JP2006259830 A JP 2006259830A JP 2005072813 A JP2005072813 A JP 2005072813A JP 2005072813 A JP2005072813 A JP 2005072813A JP 2006259830 A JP2006259830 A JP 2006259830A
Authority
JP
Japan
Prior art keywords
character recognition
information
optical character
ocr
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2005072813A
Other languages
English (en)
Inventor
Koichi Mase
浩一 間瀬
Hiroki Miyachi
裕樹 宮地
Yoshiko Suenaga
美子 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba TEC Corp
Original Assignee
Toshiba Corp
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba TEC Corp filed Critical Toshiba Corp
Priority to JP2005072813A priority Critical patent/JP2006259830A/ja
Priority to US11/289,950 priority patent/US7570842B2/en
Publication of JP2006259830A publication Critical patent/JP2006259830A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】光学的文字認識(以下、OCRとする)処理後に得られるOCR処理結果を確認する手間の軽減化を図ったOCR装置およびOCR結果確認方法を提供する。
【解決手段】OCR装置10は、確認対象となる範囲の指定等の入力操作を受け付ける操作部11と、情報を視覚的に提示する表示部12と、読み出し可能に格納された画像情報を光学的文字認識処理して得られる文字情報に光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成する光学的文字認識処理部14と、画像情報をOCR処理得られる文字情報にOCRの正確さを評価した結果を付加して新たな文字情報を生成するOCR処理部14と、OCR処理部14が生成した新たな文字情報からOCR処理結果の正確さを評価した音声情報を生成する音声変換部15と、取得した音声情報を音声出力する音声出力部16と、操作部11、表示部12、スキャナ部13、OCR処理部14、音声データ変換部15および音声出力部16を制御する制御部17とを具備する。
【選択図】 図1

Description

本発明は、光学的文字認識装置および光学的文字認識結果の特定部分確認方法に係り、特に、光学的文字認識結果を確認する手間の軽減化を図った光学的文字認識装置および光学的文字認識結果確認方法に関する。
従来の光学的文字認識(以下、OCR:Optical Character Recognitionとする)装置およびOCR結果確認方法では、例えば、特許文献1に記載されるように、OCR処理した結果を音声により出力することができる。従って、ユーザは出力された音声からOCR処理結果を確認することができる。
特開2000−10755号公報
しかしながら、近年のOCR装置の文字認識率は、かなり高い確率となっているものの100%ではない。従って、ユーザがOCR処理した結果を確認する作業が生じる。
上述したOCR装置およびOCR結果確認方法では、OCR処理した結果を音声で確認するが、紛らわしい数字や文字(例えば、1と7等)が誤って認識されたとしても気付かないことがある。また、上述したOCR装置は、OCRの正確さ(マッチング)については、判定していないため、実際は「7」と「1」がどの程度の正確さで判定なされているのかをユーザは知る由もない。従って、実際は正確さが低く、「7万円」の箇所を「1万円」と認識していたとしても、間違いに気付き難い。
一方、OCR(光学的文字認識)処理した結果を確認する際に、OCR処理を行う原データと、OCR処理により得られたOCRデータとを共に表示するOCR装置もあるが、このようなOCR装置では、ユーザが、表示装置に対比表示された原本データとOCRデータとを比較することによって認識結果の確認を行っている。
しかし、対比表示された原本データとOCRデータとを確認する作業でも、OCRの認識率が100%ではない(全体に対する誤認識箇所は少ないが0ではない)ため、相違する箇所がないかを確認する際には、より神経を集中させる必要があると同時に、目への負担も大きく、確認作業を行うユーザの負担は少なくない。
本発明は上述した課題を解決するためになされたものであり、OCR処理後に得られるOCR結果を確認する手間の軽減化を図ったOCR装置およびOCR結果確認方法を提供することを目的とする。
本発明に係る光学的文字認識装置は、上述した課題を解決するため、請求項1に記載したように、入力操作を受け付ける操作部と、情報を視覚的に提示する表示部と、読み出し可能に格納された画像情報を光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成する光学的文字認識処理部と、前記光学的文字認識処理部が生成した新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成する音声変換部と、取得した音声情報を音声出力する音声出力部と、前記操作部、表示部、光学的文字認識処理部、音声データ変換部および音声出力部を制御する制御部とを具備することを特徴とする。
一方、本発明に係る光学的文字認識結果確認方法は、上述した課題を解決するため、請求項11に記載したように、光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成し、生成された新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成し、生成された音声情報を音声出力することを特徴とする。
また、本発明に係る光学的文字認識結果確認方法は、上述した課題を解決するため、請求項12に記載したように、光学的文字認識処理結果の確認対象を認識する確認対象認識ステップと、前記確認対象認識ステップで認識した確認対象のうちnページ目の確認対象について光学的文字認識の平均マッチング率を算出する光学的文字認識マッチング率算出ステップと、前記確認対象認識ステップで認識した確認対象のうちnページ目の確認対象について光学的文字認識内容および前記平均マッチング率と対応した音声を出力する音声変換出力ステップとを具備することを特徴とする。
本発明に係る光学的文字認識装置および光学的文字認識結果確認方法によれば、スキャン対象となった原稿の文字を音声として読み上げるので、ユーザは、スキャン対象となる原稿のみを見れば光学的文字認識結果の確認ができ、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。
また、光学的文字認識処理を実行する際に、マッチング基準情報および原稿情報を取得するので、光学的文字認識結果を音声出力する際、光学的文字認識の正確さに対応した音声を出力することができ、ユーザは、音声の違いから光学的文字認識の精度(正確さ)を含めて光学的文字認識結果を判断することができる。
さらに、同一種類(定型文書)の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すことができるので、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。
以下、本発明に係る光学的文字認識(以下、OCR:Optical Character Recognitionとする)装置およびOCR結果確認方法について、添付の図面を参照して説明する。
図1に、本発明に係るOCR装置の一実施例であるOCR装置10の基本的な機能構成を概略的に表した概略図を示す。
OCR装置10は、確認対象となる範囲の指定等の入力操作をユーザから受け付ける操作部11と、ユーザへ情報を視覚的に提示する表示部12と、原稿に記載された文字情報を画像情報に変換するスキャナ部13と、画像情報をOCR処理得られる文字情報にOCRの正確さを評価した結果を付加して新たな文字情報を生成するOCR処理部14と、OCR処理部14が生成した新たな文字情報からOCR結果の正確さを評価した音声情報に生成する音声変換部15と、取得した音声情報を音声出力する音声出力部16と、上記処理部11,12,13,14,15,16を制御する制御部17とを具備する。
操作部11は、ユーザの入力操作を受け付ける機能を有する。ユーザが確認対象となる範囲の指定等の入力操作を行った内容は、操作部11が受け付ける。操作部11が受け付けた操作内容は、入力操作情報として制御部17に送られる。
表示部12は、制御部17から表示情報を受け取り、受け取った表示情報に基づく表示する機能を有する。従って、表示部12は、表示情報を受け取ると、受け取った表示情報に基づく表示を行うことができる。
尚、操作部11および表示部12は、実際のシステムにおいて、それぞれが独立した処理部として設けられている必要はなく、一体的に構成された操作/表示部として構成されていても構わない。
スキャナ部13は、原稿(紙面)に記載された情報を画像情報に変換する機能を有する。従って、スキャナ部13は、画像情報を取得すると、取得した画像情報を制御部17へ送ることができる。
OCR処理部14は、画像情報から文字情報を得るOCR機能を有する。従って、OCR処理部14は、OCR処理を行い、画像情報から文字情報を得ることができる。
また、OCR処理部14は、OCR処理時の各文字がどの程度正確に認識されたかを数値化する機能(以下、OCR正確度算出機能とする)を有する。このOCR正確度算出機能とは、より詳細に説明すると、OCRする基礎となる文字型(以下、基本文字とする)とOCRした文字とを照合してどの程度合致しているかを表すマッチング率を算出する機能である。従って、OCR処理部14は、OCR処理した各文字についてのマッチング率を算出、すなわち、OCRの精度を評価することができる。また、各文字のマッチング率から指定された特定範囲に含まれる文字の平均マッチング率を算出することができる。
さらに、OCR処理部14は、マッチング率を認識する機能を有する。従って、OCR処理を事前に済ませておき、事後的にOCR処理結果の確認のみを行う場合であっても、各文字のマッチング率についての情報(以下、マッチング率情報とする)を取得して、指定された特定範囲に含まれる文字の平均マッチング率を算出することができる。
一方、OCR処理部14は、OCR処理結果を確認する際にマッチング基準情報および原稿情報を取得する。ここで、マッチング基準情報とは、マッチング率がどの範囲にある場合にどのような処理を実行するかを決定するための情報である。従って、OCR処理部14は、マッチング率の数値に応じて、例えば、新たな文字情報を生成する等の予め設定された所定の実行処理内容を実行することができる。マッチング基準情報の一例は、後述する表1のように表される。
原稿情報とは、例えば、伝票、見積書、請求書等のスキャン対象となる原稿のフォーム(定型)に関する情報である。具体的には、伝票の右上方(原稿を通常に見る向きを基準とする。以下、同様である。)には、日付欄があり、中央には金額欄があるといった原稿種類と項目とを関連付けた情報である。従って、原稿情報を取得すれば、指定された確認範囲がどんな原稿種類におけるどんな項目なのか(例えば、伝票における金額等)を判断することが可能となる。
マッチング基準情報および原稿情報は、OCR装置10内の所定のデータ記録領域または図に示されない外部機器内のデータ記録領域等のアクセス可能なデータ記録領域に、例えば、マッチング基準設定ファイル20および原稿情報ファイル21等の電子情報として格納される。従って、OCR処理部14は、マッチング基準設定ファイル20および原稿情報ファイル21を参照することで、OCR処理結果を確認する際に必要となるマッチング基準情報および原稿情報を取得することができる。
また、OCR処理部14は、OCR処理結果を確認する際に、OCR処理を行ったスキャン対象の全ページ数および確認を行っているページをカウントして認識する機能(前者を確認対象ページ数カウント機能とし、後者を現ページカウント機能とする。)を有する。例えば、OCR処理部14は、メモリ(図を省略)に確認対象ページ数m(m:任意の自然数)および現ページn(nはm以下の任意の自然数)の値を格納ことができる。
従って、OCR処理部14は、メモリ内のmおよびnの値を認識することで、確認対象が何ページあるのか、または、何ページ目のマッチング率を計算しているのかを知ることができる。
音声変換部15は、例えば、テキストデータ等の文字情報を音声データ等の音声情報に変換する文字−音声変換機能を有する。従って、音声変換部15は、取得した文字情報から音声情報へ変換することができる。
また、音声変換部15は、文字−音声変換処理を実行する際に、音声設定情報を取得する。ここで、音声設定情報とは、音声出力する音声についての設定情報である。より詳細には、出力する音声の種類および音声種類の選択に関する情報である。例えば、音声の種類は、成人男性の声(周波数が低い)および成人女性の声(周波数が高い)という種類が考えられる。また、選択に関する情報とは、複数用意された音声種類のいずれを選択しているかという情報である。
音声設定情報は、OCR装置10内の所定のデータ記録領域または図に示されない外部機器内のデータ記録領域等のアクセス可能なデータ記録領域に、例えば、音声設定ファイル25等の電子情報として格納される。音声変換部15は、音声設定ファイル25を参照することで、音声設定ファイル25に記録される音声設定情報を取得することができる。
音声出力部16は、取得した音声データ等の音声情報に基づく音声を出力する機能を有する。従って、音声出力部16は、音声変換部15が変換した音声情報に基づく音声を出力することができる。
制御部17は、操作部11、表示部12、スキャナ部13、OCR処理部14、音声データ変換部15および音声出力部16を制御する処理部制御機能を有し、操作部11、表示部12、スキャナ部13、OCR処理部14、音声データ変換部15および音声出力部16間で情報のやり取りを行うことができる。
具体的に説明すると、制御部17は、操作部11からユーザが入力した入力操作情報を受け取る。そして、制御部17は、入力された操作の内容に応じて、操作部11、表示部12、スキャナ部13、OCR処理部14、音声データ変換部15および音声出力部16を制御する。そして、制御部17により制御される操作部11、表示部12、スキャナ部13、OCR処理部14、音声データ変換部15および音声出力部16のいずれかの処理部が入力操作の内容に対応する必要な処理を実行する。
また、制御部17は、スキャナ部13からスキャンした画像情報を受け取ると、表示部12およびOCR処理部14に受け取った画像情報を送る。さらに、OCR処理部14から文字情報を受け取ると、受け取った文字情報を音声データ変換部15に送る。さらにまた、音声データ変換部15から音声情報を受け取ると、音声出力部16に送る。
一方、制御部17は、処理部制御機能に加え、過去にスキャンした画像情報およびOCRした文字情報を保存し、読み出し可能な状態で管理するジョブ管理機能を有する。また、ジョブ管理機能には、ログ作成機能も含まれ、少なくともOCRした文字情報を保存する際に各文字のマッチング率を記録し、例えば、ログファイル等のログ(電子情報)として保存することができる。
従って、ユーザは、スキャン直後の画像情報のみならず、操作部11から入力操作を行うことで過去に作成された画像情報についても参照してOCR処理を実行して、OCR処理結果を確認することができる。また、過去にOCR処理した文字情報からでも、各文字のマッチング率をログから参照して取得することができるので、事後的にOCR処理結果を確認することができる。
このように構成されるOCR装置10は、マッチング基準情報を取得するOCR処理部14、音声変換部15および音声出力部16を具備するので、OCR処理部14が認識した文字情報を音声変換部15が音声情報に変換して音声出力部16から音声出力することができる。すなわち、スキャン対象となった原稿の文字を音声として読み上げることができる。
従って、ユーザはスキャン対象となる原稿のみを見ればOCR処理結果の確認ができ、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。
また、OCR処理部14は、OCR処理を実行する際に、マッチング基準情報および原稿情報を取得するので、OCR処理結果を音声出力する際、OCRの正確さに対応した音声を出力することができる。従って、音声の違いにより、ユーザは認識の精度(正確さ)を含めてOCR処理結果を判断することができる。
さらに、同一種類(定型文書)の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すことができる。従って、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。
尚、OCR装置10に外部機器との接続インターフェイス(以下、I/F)となるI/F部を具備させて、電子データ保存用のサーバ、他のOCR処理装置、複数のOCR処理装置を管理する管理用コンピュータ等を接続して新たな機能を付加しても構わない。
また、OCR装置10は、OCR処理部14が、OCR処理結果確認時にマッチング基準設定情報を取得して所定の処理を実行しているが、マッチング基準設定情報を取得しなくても構わない。すなわち、マッチング基準設定ファイル20は必ずしも必要ではない。OCR処理部14が、OCR処理結果確認時にマッチング基準設定情報を取得しない場合には、OCRで得られた文字情報が音声出力される。
さらに、OCR装置10は、OCR処理部14が、OCR処理結果確認時に原稿情報を取得しているが、原稿情報を取得しなくても構わない。すなわち、原稿情報ファイル21は必ずしも必要ではない。OCR処理部14が、OCR処理結果確認時に原稿情報を取得しない場合には、OCRで得られた文字情報のみが音声出力される。
一方、OCR処理結果の確認範囲を指定する操作入力があった場合、制御部17は、指定された確認範囲についてハイライト表示する表示情報を生成して表示部12に送るようにOCR装置10を構成し、当該確認範囲を表示部12にハイライト表示するようにしても良い。
また、OCR処理結果の確認範囲を指定する操作入力があった場合における他の実施例として、制御部17が音声出力部16へ音声情報を送るタイミングに合わせてハイライト表示する表示情報を表示部12に順次送信するようにOCR装置10を構成し、読み上げる部分を順次ハイライト表示するようにしても良い。
さらに、OCR処理結果の確認範囲を指定する操作入力があった場合における他の実施例として、制御部17が指定された確認範囲のみを表示する表示情報を生成して表示部12に当該確認範囲のみを表示するようにOCR装置10を構成しても良い。
次に、本発明に係るOCR結果確認方法について説明する。
本発明に係るOCR結果確認方法は、本発明に係るOCR装置が選択された範囲(選択がない場合には全範囲)についてOCR処理結果を確認する特定部分確認手順を実行することでなされる。
図2に、OCR装置が実行する特定部分確認手順について、処理順序を追って説明した処理フロー図を示す。
図2によれば、特定部分確認手順は、取得した条件でスキャンを行うスキャンステップ(ステップS1)と、スキャンステップで取得した画像情報をOCR処理するOCR処理ステップ(ステップS2)と、OCR処理結果の確認対象を認識する確認対象認識ステップ(ステップS3)と、nページ目の確認対象についてOCRの平均マッチング率を算出するOCRマッチング率算出ステップ(ステップS5)と、nページ目の確認対象についてOCRの内容および平均マッチング率と対応した音声を出力する音声変換出力ステップ(ステップS6)とを具備する。
特定部分確認手順は、操作部11がユーザからのスキャンを実行する旨の要求を受け付けると、処理ステップを開始する(START)。
特定部分確認手順では、まず、ステップS1で、スキャンステップがなされる。スキャンステップ(ステップS1)では、スキャナ部13がスキャン条件を取得して取得した条件でスキャンを実行する。スキャナ部13は、セットされた原稿等のスキャン対象についてスキャンすると、取得した画像情報を制御部17へ送る。スキャン対象について取得された画像情報が制御部17へ送られると、スキャンステップを完了し、続いてステップS2でOCR処理ステップがなされる。
OCR処理ステップ(ステップS2)では、OCR処理部14が、制御部17から受け取ったスキャン対象の画像情報をOCR処理し、スキャン対象の記載を文字情報として認識する。従って、OCR処理部14は、OCR処理を行うことで、スキャン対象についての文字情報を取得することができる。
また、OCR処理ステップでは、OCR処理部14がOCRした各文字について予め登録された基本文字に対するマッチング率を算出している。算出された各文字のマッチング率情報は、OCR処理部14が有するメモリに一時的に格納されるとともに、制御部17へ送られる。
OCR処理部14がOCR処理を行い、OCRした各文字についてマッチング率を算出してマッチング率情報をメモリに一時的に格納するとともに制御部17へ送ると、OCR処理ステップは完了し、続いてステップS3で、スキャン対象確認ステップがなされる。
確認対象認識ステップ(ステップS3)では、OCR処理部14がマッチング基準情報、原稿情報および確認範囲情報を取得してOCR処理結果の確認対象を認識する。ここで、確認範囲情報とは、ユーザが操作部11から指定したOCR処理結果の確認範囲についての情報をいう。
確認範囲を指定する方法としては、スキャンステップを行ったスキャン対象の全ページのうち特定のページを指定する、スキャンステップを行ったスキャン対象のグループで指定する、あるいは、確認範囲の始点および終点を指定するといった方法が考えられる。
また、確認対象認識ステップでは、OCR処理部14が、確認対象ページ数カウント機能を用いて認識した確認対象のページ数mをメモリに記憶する。
OCR処理部14がマッチング基準情報、原稿情報および確認範囲情報を取得してOCR処理結果の確認対象を認識し、確認対象のページ数mを記憶すると、確認対象認識ステップを完了し、ステップS4に進む。そして、ステップS4では、OCR処理部14が、現在、確認しているページ数をカウントするために、現ページカウント機能を用いてメモリ内のnの値を1(n=1)とする。OCR処理部14が、nの値を1とすると、ステップS4の処理ステップを完了し、続いて、ステップS5で、OCRマッチング率算出ステップがなされる。
OCRマッチング率算出ステップ(ステップS5)では、OCR処理部14が、マッチング率情報を用いてnページ目の確認対象についてOCRの平均マッチング率を算出する。OCR処理部14が、nページ目の確認対象についてOCRの平均マッチング率を算出すると、OCR平均マッチング率算出ステップを完了する。OCR平均マッチング率算出ステップが完了すると、続いて、ステップS6で音声変換出力ステップがなされる。
音声変換出力ステップ(ステップS6)では、まず、OCR処理部14が、確認対象認識ステップで取得した原稿情報から原稿の種類を特定し指定された確認範囲がどんな項目であるかを認識する。例えば、確認範囲が金額(円)の項目であるとOCR処理部14が認識した場合には、OCR処理で認識した文字情報の直後に「円」の文字情報を付加した新たな文字情報を付加する。
原稿情報に基づく、文字情報の付加がなされると、続いて、nページ目の確認対象について平均マッチング率算出ステップで算出された平均マッチング率と確認対象認識ステップで取得したマッチング基準情報に基づきOCR処理部14が予めマッチング基準設定ファイル20に設定された所定の処理内容を実行する。マッチング基準設定ファイル20に設定される処理内容の一例を表1に示す。
Figure 2006259830
上記表1によれば、平均マッチング率が0〜20%の場合には、「認識できません」という文字情報の生成を行う。また、平均マッチング率が21〜50%の場合には、文字情報の文末に「かも知れません」という文字情報を付加した新たな文字情報を生成する。平均マッチング率が51〜80%および81〜100%の場合には、平均マッチング率が21〜50%の場合と同様に、文字情報の文末に「と思います」および「です」という文字情報を付加した新たな文字情報を生成する。
OCR処理部14が生成した新たな文字情報は、制御部17が受け取り、制御部17から音声データ変換部15に送られる。次に、新たな文字情報を受け取った音声データ変換部15は、文字−音声情報変換機能を用いて、受け取った文字情報を音声情報に変換する文字−音声情報変換処理を行う。音声データ変換部15が、文字−音声情報変換処理を行う際には、音声設定情報に基づき選択された種類の音声で音声情報を生成する。
音声データ変換部15が、文字−音声情報変換処理により得た音声情報は、制御部17が受け取り、制御部17から音声出力部16に送られる。次に、音声情報を受け取った音声出力部16は、音声情報に対応する音声を出力する。音声出力部16が、nページ目の確認対象についてOCR処理した文字情報の内容および平均マッチング率と対応した音声を出力すると音声変換出力ステップを完了し、続いて、ステップS7に進む。
ステップS7では、制御部17が音声変換出力ステップで音声出力した音声を繰り返すかユーザに問い合わせる表示情報を生成して表示部12へ送る。そして、生成された表示情報を受け取った表示部12が音声変換出力ステップで音声出力した音声を繰り返すかユーザに問い合わせる表示をする。
音声出力を繰り返さない旨の操作入力を操作部11が受け付けた場合(ステップS7でNOの場合)、ステップ8に進み、ステップS8でOCR処理部14が、メモリに格納されるmの値とnの値とを比較する。そして、nがm以上となる(n<mでない)場合(ステップS8でNOの場合)、ステップS9に進む。
ステップS9では、制御部17が他のスキャン対象があるか、すなわち、スキャンを継続するかユーザに問い合わせる表示情報を生成して表示部12へ送る。そして、生成された表示情報を受け取った表示部12がスキャンを継続するかをユーザに問い合わせる表示をする。
スキャンを継続しない旨の操作入力を操作部11が受け付けた場合(ステップS9でNOの場合)、ステップS9の処理ステップを完了して特定部分確認手順の全処理ステップを完了する(END)。
一方、ステップS7で音声出力を繰り返す旨の操作入力を操作部11が受け付けた場合(ステップS7でYESの場合)、ステップS6に進み、ステップS6以降の処理ステップを実行する。
また、ステップS8でOCR処理部14が、mの値とnの値とを比較して、nがmよりも小さい(n<m)場合(ステップS8でNOの場合)、ステップS10に進み、ステップS10でOCR処理部14がnの現在値に1を加えた新たなnの値をメモリに格納する。OCR処理部14がnの現在値に1を加えて新たなnの値を格納し終えると、ステップS10の処理ステップを完了し、続いて、ステップS5に進み、ステップS5以降の処理ステップを実行する。
さらに、ステップS9でスキャンを継続する旨の操作入力を操作部11が受け付けた場合(ステップS9でYESの場合)、ステップS1に進み、ステップS1以降の処理ステップを実行する。
尚、声変換出力ステップにおいて、OCR処理部14が実行する実行処理内容は、表1に示す場合の例に限られない。例えば、平均マッチング率が低い場合(50%未満の場合)には、男性の声を選択するものとし、平均マッチング率が高い(50%以上の場合)場合には、女性の声を選択するという具合に、平均マッチング率に応じて音声の種類を変化させることもできる。
平均マッチング率に応じて音声の種類を変化させる場合、OCR処理部14は、予め設定された音声のいずれを選択するかを表す音声選択情報の生成を実行する。そして、OCR処理で認識した文字情報とともに音声選択情報を併せて制御部17に送るようにすれば良い。すると、制御部17からOCR処理で認識した文字情報と併せて音声選択情報を受け取った音声データ変換部15は、受け取った文字情報に対して文字−音声情報変換処理を行い、音声設定ファイル25を参照して得られた音声設定情報と制御部17から受け取った音声選択情報に基づき、出力する音声種類を選択して音声情報の生成を行うことができる。
また、声変換出力ステップにおいて、OCR処理部14は、算出した平均マッチング率の数値を文字情報として文末に付加した新たな文字情報を生成するようにしても良い。
一方、図2に示す特定部分確認手順は、スキャンからOCR処理結果の確認までを連続して行う場合を表しているが、もちろん、過去にOCR処理して得られた文字情報に対しても特定部分確認手順を行うことができる。過去にOCR処理して得られた文字情報に対して特定部分確認手順を行う場合には、確認したい文字情報(OCRデータ)を読み出した後、ステップS3以降の処理ステップを実行することになる。
さらに、事前にスキャンした画像情報を読み出してステップS2以降の処理ステップを実行することもできる。事前にスキャンした画像情報を読み出してステップS2以降の処理ステップを実行する場合、OCR処理結果の確認を行う範囲の指定は、画像情報としての画像ファイルが保存されるフォルダまたは画像ファイルのファイル名で指定することができる。
他方、特定部分確認手順において、原稿情報およびマッチング基準設定情報の少なくともいずれかを取得できない場合があっても良い。原稿情報を取得できない場合、すなわち、原稿情報ファイル21がない場合、音声変換出力ステップにおいて、原稿の項目に対応する文字情報の付加はなされない。また、マッチング基準設定情報、すなわち、マッチング基準設定ファイル20がない場合、音声変換出力ステップにおいて、OCR処理後の文字情報あるいはOCR処理後の文字情報に原稿の項目に対応した文字情報を付加した新たな文字情報を制御部17に送る。
本発明に係るOCR結果確認方法は、確認対象認識ステップ、OCRマッチング率算出ステップおよび音声変換出力ステップを具備するので、確認対象認識ステップで確認した確認対象についてOCR処理結果を確認する場合、OCRマッチング率算出ステップで算出した平均マッチング率と対応した音声が音声変換出力ステップで出力される。
従って、ユーザは、スキャン対象となる原稿のみを見ればOCR処理結果の確認ができばかりでなく、音声の違いからOCRの精度(正確さ)を含めてOCR処理結果を判断することができる。また、併せて、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。
さらに、同一種類(定型文書)の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すので、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。さらにまた、音声出力を繰り返すか否かについてユーザに確認するので、ユーザは聞き漏らしや聞き間違いを防止することができる。
上述したOCR装置およびOCR結果確認方法によれば、スキャン対象となった原稿の文字を音声として読み上げるので、ユーザは、スキャン対象となる原稿のみを見ればOCR処理結果の確認ができ、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。
また、OCR処理を実行する際に、マッチング基準情報および原稿情報を取得するので、OCR処理結果を音声出力する際、OCRの正確さに対応した音声を出力することができ、ユーザは、音声の違いからOCRの精度(正確さ)を含めてOCR処理結果を判断することができる。
さらに、同一種類(定型文書)の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すことができるので、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。
本発明に係るOCR装置の基本的な機能構成を概略的に表した概略図。 本発明に係るOCR装置が実行する特定部分確認手順について、処理順序を追って説明した処理フロー図。
符号の説明
10 OCR装置
11 操作部
12 表示部
13 スキャナ部
14 OCR処理部
15 音声データ変換部
16 音声出力部
17 制御部
20 マッチング基準設定ファイル
21 原稿情報ファイル
25 音声設定ファイル

Claims (13)

  1. 入力操作を受け付ける操作部と、
    情報を視覚的に提示する表示部と、
    読み出し可能に格納された画像情報を光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成する光学的文字認識処理部と、
    前記光学的文字認識処理部が生成した新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成する音声変換部と、
    取得した音声情報を音声出力する音声出力部と、
    前記操作部、表示部、光学的文字認識処理部、音声データ変換部および音声出力部を制御する制御部とを具備することを特徴とする光学的文字認識装置。
  2. 原稿に記載された文字情報を画像情報に変換するスキャナ部をさらに具備することを特徴とする請求項1記載の光学的文字認識装置。
  3. 前記光学的文字認識処理部は、光学的文字認識の正確さを数値化して得られる数値の大小で評価するように構成されたことを特徴とする請求項1または2記載の光学的文字認識装置。
  4. 前記光学的文字認識処理部は、光学的文字認識処理により得られた文字が事前に登録された基本文字と合致する割合の大小に基づいて光学的文字認識の正確さを評価するように構成されたことを特徴とする請求項1または2記載の光学的文字認識装置。
  5. 前記光学的文字認識処理部は、光学的文字認識の結果を確認する際に予め設定された原稿情報から原稿種類および項目を取得し指定された確認範囲が該当する項目に対応した単位の文字情報を文末に付加した新たな文字情報を生成するように構成されたことを特徴とする請求項1または2記載の光学的文字認識装置。
  6. 前記光学的文字認識処理部は、事前に設定されたマッチング基準設定情報を取得して光学的文字認識処理により得られた文字と予め登録された基本文字とが合致する割合と対応する新たな文字情報の生成を行うように構成されており、
    前記マッチング基準設定情報は、前記合致する割合の取り得る範囲を複数に分割して得られる複数の割合範囲と、個々の割合範囲について新たに生成する文字情報の内容を関連付けた情報を有することを特徴とする請求項1または2記載の光学的文字認識装置。
  7. 前記光学的文字認識処理部は、光学的文字認識の結果を確認する際に、光学的文字認識処理により得られた文字が予め登録された基本文字と合致する割合および予め設定されたマッチング基準設定情報を取得した結果に応じて音声出力する音声種類を選択するように構成されたことを特徴とする請求項1または2記載の光学的文字認識装置。
  8. 前記制御部は、光学的文字認識の結果を確認する際に指定された確認範囲をハイライト表示するように前記表示部を制御する構成としたことを特徴とする請求項1または2記載の光学的文字認識装置。
  9. 前記制御部は、光学的文字認識の結果を確認する際に指定された確認範囲を音声出力のタイミングに合わせて順次ハイライト表示するように前記表示部および音声出力部を制御する構成としたことを特徴とする請求項1または2記載の光学的文字認識装置。
  10. 前記制御部は、光学的文字認識の結果を確認する際に指定された確認範囲のみを表示するように前記表示部を制御する構成としたことを特徴とする請求項1または2記載の光学的文字認識装置。
  11. 光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成し、生成された新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成し、生成された音声情報を音声出力することを特徴とする光学的文字認識結果確認方法。
  12. 光学的文字認識処理結果の確認対象を認識する確認対象認識ステップと、
    前記確認対象認識ステップで認識した確認対象のうちnページ目の確認対象について光学的文字認識の平均マッチング率を算出する光学的文字認識マッチング率算出ステップと、
    前記確認対象認識ステップで認識した確認対象のうちnページ目の確認対象について光学的文字認識内容および前記平均マッチング率と対応した音声を出力する音声変換出力ステップとを具備することを特徴とする光学的文字認識結果確認方法。
  13. 取得した条件でスキャンを行うスキャンステップと、
    このスキャンステップで取得した画像情報を光学的文字認識する光学的文字認識処理ステップとをさらに具備することを特徴とする請求項12に記載の光学的文字認識結果確認方法。
JP2005072813A 2005-03-15 2005-03-15 光学的文字認識装置および光学的文字認識結果確認方法 Abandoned JP2006259830A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005072813A JP2006259830A (ja) 2005-03-15 2005-03-15 光学的文字認識装置および光学的文字認識結果確認方法
US11/289,950 US7570842B2 (en) 2005-03-15 2005-11-29 OCR apparatus and OCR result verification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005072813A JP2006259830A (ja) 2005-03-15 2005-03-15 光学的文字認識装置および光学的文字認識結果確認方法

Publications (1)

Publication Number Publication Date
JP2006259830A true JP2006259830A (ja) 2006-09-28

Family

ID=37010415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005072813A Abandoned JP2006259830A (ja) 2005-03-15 2005-03-15 光学的文字認識装置および光学的文字認識結果確認方法

Country Status (2)

Country Link
US (1) US7570842B2 (ja)
JP (1) JP2006259830A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009579A (ja) * 2008-06-27 2010-01-14 National Taiwan Univ Of Science & Technology 書類内容即時検出システム及び方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008020508A1 (fr) * 2006-08-14 2008-02-21 Kabushiki Kaisha Toshiba dispositif ET PROCÉDÉ de traitement de feuilles
US7873069B2 (en) * 2007-03-12 2011-01-18 Avaya Inc. Methods and apparatus for controlling audio characteristics of networked voice communications devices
US8094976B2 (en) * 2007-10-03 2012-01-10 Esker, Inc. One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data
JP4626777B2 (ja) * 2008-03-14 2011-02-09 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US8103132B2 (en) * 2008-03-31 2012-01-24 International Business Machines Corporation Fast key-in for machine-printed OCR-based systems
WO2010032335A1 (ja) * 2008-09-22 2010-03-25 グローリー株式会社 紙葉類管理装置、紙葉類管理方法及び紙葉類管理プログラム
US8655075B2 (en) 2012-07-05 2014-02-18 Sureprep, Llc Optical character recognition verification and correction system
CN104143084A (zh) * 2014-07-17 2014-11-12 武汉理工大学 一种针对视力障碍人群的辅助阅读眼镜
US11087409B1 (en) 2016-01-29 2021-08-10 Ocrolus, LLC Systems and methods for generating accurate transaction data and manipulation
CN106341549A (zh) * 2016-10-14 2017-01-18 努比亚技术有限公司 一种移动终端有声阅读装置及方法
CN107885430B (zh) * 2017-11-07 2020-07-24 Oppo广东移动通信有限公司 一种音频播放方法、装置、存储介质及电子设备
US11238540B2 (en) 2017-12-05 2022-02-01 Sureprep, Llc Automatic document analysis filtering, and matching system
US11544799B2 (en) 2017-12-05 2023-01-03 Sureprep, Llc Comprehensive tax return preparation system
US11314887B2 (en) 2017-12-05 2022-04-26 Sureprep, Llc Automated document access regulation system
JP7452060B2 (ja) * 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN114564141A (zh) * 2020-11-27 2022-05-31 华为技术有限公司 文本提取方法及装置
US11860950B2 (en) 2021-03-30 2024-01-02 Sureprep, Llc Document matching and data extraction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143893A (ja) * 1997-11-07 1999-05-28 Matsushita Electric Ind Co Ltd 単語照合装置
JP2000222527A (ja) * 1999-02-04 2000-08-11 Fujitsu Ltd 手書き文字入力装置とその記録媒体
JP2002032704A (ja) * 2000-07-17 2002-01-31 Toshiba Corp 帳票処理システム、帳票処理方法、記憶媒体、帳票
JP2002279353A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 文字認識装置、その方法、および記録媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
US5912986A (en) * 1994-06-21 1999-06-15 Eastman Kodak Company Evidential confidence measure and rejection technique for use in a neural network based optical character recognition system
US6175663B1 (en) * 1998-02-24 2001-01-16 Paravision Imaging, Inc. Method and apparatus for preserving background continuity in images
JP2000010755A (ja) 1998-06-24 2000-01-14 Toshiba Corp コンピュータシステムおよびファクスデータ読み上げ方法
US7428569B1 (en) * 1999-05-14 2008-09-23 Sony Corporation Information processing apparatus, information processing method, and provision medium
JP2000353215A (ja) * 1999-06-11 2000-12-19 Nec Corp 文字認識装置および文字認識プログラムを記録した記録媒体
US6628808B1 (en) * 1999-07-28 2003-09-30 Datacard Corporation Apparatus and method for verifying a scanned image
US20030050803A1 (en) * 2000-07-20 2003-03-13 Marchosky J. Alexander Record system
US6850652B1 (en) * 2000-09-07 2005-02-01 Intel Corporation Tactile kinesthetic assistant
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US20020152169A1 (en) * 2001-04-12 2002-10-17 Rabindranath Dutta Method and apparatus for facilitating transactions at an automatic teller machine
US7013045B2 (en) * 2001-07-24 2006-03-14 International Business Machines Corporation Using multiple documents to improve OCR accuracy
US6965862B2 (en) * 2002-04-11 2005-11-15 Carroll King Schuller Reading machine
US6913199B2 (en) * 2002-12-18 2005-07-05 Symbol Technologies, Inc. System and method for verifying optical character recognition of optical code reads
US7703002B2 (en) * 2003-03-31 2010-04-20 Ricoh Company, Ltd. Method and apparatus for composing multimedia documents
JP4019063B2 (ja) * 2003-04-18 2007-12-05 光雄 中山 光学端末装置、画像処理方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143893A (ja) * 1997-11-07 1999-05-28 Matsushita Electric Ind Co Ltd 単語照合装置
JP2000222527A (ja) * 1999-02-04 2000-08-11 Fujitsu Ltd 手書き文字入力装置とその記録媒体
JP2002032704A (ja) * 2000-07-17 2002-01-31 Toshiba Corp 帳票処理システム、帳票処理方法、記憶媒体、帳票
JP2002279353A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 文字認識装置、その方法、および記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009579A (ja) * 2008-06-27 2010-01-14 National Taiwan Univ Of Science & Technology 書類内容即時検出システム及び方法

Also Published As

Publication number Publication date
US7570842B2 (en) 2009-08-04
US20060210197A1 (en) 2006-09-21

Similar Documents

Publication Publication Date Title
JP2006259830A (ja) 光学的文字認識装置および光学的文字認識結果確認方法
US20210209359A1 (en) Image processing apparatus, control method for image processing apparatus, and non-transitory storage medium
EP3355211A1 (en) Image processing apparatus, control method therefor, and storage medium
US8169469B2 (en) Information processing device, information processing method and computer readable medium
US10142499B2 (en) Document distribution system, document distribution apparatus, information processing method, and storage medium
US9767388B2 (en) Method and system for verification by reading
US11647139B2 (en) Image processing apparatus, image processing system, control method thereof, and storage medium
JP2016528594A (ja) 電子文書の作成および検索方法と非一時的コンピュータ可読記録媒体
US20080193051A1 (en) Image forming processing apparatus and method of processing image for the same
US20050071738A1 (en) Scan document identification-send scanning using a template so that users can handwrite the destination and identification information
JP2015090623A (ja) 帳票読取装置、プログラムおよび帳票読取システム
US11042695B2 (en) Information processing apparatus and non-transitory computer readable medium for generating input screen information
US20060209362A1 (en) Scanner system and scanned data storing method
JP7206740B2 (ja) 情報処理装置及びプログラム
JP2021064123A (ja) データ入力支援システム、データ入力支援方法、及びプログラム
JP2018028717A (ja) 情報処理装置、プログラム及び情報処理システム
KR101192320B1 (ko) 의료검사결과데이터 관리시스템
JP2021068306A (ja) 情報処理装置およびプログラム
JP5340689B2 (ja) データベース生成装置、データベース生成方法及びコンピュータプログラム
JP2009187352A (ja) 文書データ検証方法及び文書データ検証支援システム
KR101659886B1 (ko) 명함 주문 시스템 및 방법
US11588945B2 (en) Data input support apparatus that displays a window with an item value display area, an overview image display area, and an enlarged image display area
JP2007201686A (ja) 画像読取装置
US20220197445A1 (en) Information processing apparatus and non-transitory computer readable medium
US20230368555A1 (en) Information processing apparatus, information processing method, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20100706