JP2006259830A

JP2006259830A - 光学的文字認識装置および光学的文字認識結果確認方法

Info

Publication number: JP2006259830A
Application number: JP2005072813A
Authority: JP
Inventors: Koichi Mase; 浩一間瀬; Hiroki Miyachi; 裕樹宮地; Yoshiko Suenaga; 美子末永
Original assignee: Toshiba Corp; Toshiba TEC Corp
Current assignee: Toshiba Corp; Toshiba TEC Corp
Priority date: 2005-03-15
Filing date: 2005-03-15
Publication date: 2006-09-28
Also published as: US7570842B2; US20060210197A1

Abstract

【課題】光学的文字認識（以下、ＯＣＲとする）処理後に得られるＯＣＲ処理結果を確認する手間の軽減化を図ったＯＣＲ装置およびＯＣＲ結果確認方法を提供する。
【解決手段】ＯＣＲ装置１０は、確認対象となる範囲の指定等の入力操作を受け付ける操作部１１と、情報を視覚的に提示する表示部１２と、読み出し可能に格納された画像情報を光学的文字認識処理して得られる文字情報に光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成する光学的文字認識処理部１４と、画像情報をＯＣＲ処理得られる文字情報にＯＣＲの正確さを評価した結果を付加して新たな文字情報を生成するＯＣＲ処理部１４と、ＯＣＲ処理部１４が生成した新たな文字情報からＯＣＲ処理結果の正確さを評価した音声情報を生成する音声変換部１５と、取得した音声情報を音声出力する音声出力部１６と、操作部１１、表示部１２、スキャナ部１３、ＯＣＲ処理部１４、音声データ変換部１５および音声出力部１６を制御する制御部１７とを具備する。
【選択図】図１

Description

本発明は、光学的文字認識装置および光学的文字認識結果の特定部分確認方法に係り、特に、光学的文字認識結果を確認する手間の軽減化を図った光学的文字認識装置および光学的文字認識結果確認方法に関する。

従来の光学的文字認識（以下、ＯＣＲ：Optical Character Recognitionとする）装置およびＯＣＲ結果確認方法では、例えば、特許文献１に記載されるように、ＯＣＲ処理した結果を音声により出力することができる。従って、ユーザは出力された音声からＯＣＲ処理結果を確認することができる。
特開２０００−１０７５５号公報

しかしながら、近年のＯＣＲ装置の文字認識率は、かなり高い確率となっているものの１００％ではない。従って、ユーザがＯＣＲ処理した結果を確認する作業が生じる。

上述したＯＣＲ装置およびＯＣＲ結果確認方法では、ＯＣＲ処理した結果を音声で確認するが、紛らわしい数字や文字（例えば、１と７等）が誤って認識されたとしても気付かないことがある。また、上述したＯＣＲ装置は、ＯＣＲの正確さ（マッチング）については、判定していないため、実際は「７」と「１」がどの程度の正確さで判定なされているのかをユーザは知る由もない。従って、実際は正確さが低く、「７万円」の箇所を「１万円」と認識していたとしても、間違いに気付き難い。

一方、ＯＣＲ（光学的文字認識）処理した結果を確認する際に、ＯＣＲ処理を行う原データと、ＯＣＲ処理により得られたＯＣＲデータとを共に表示するＯＣＲ装置もあるが、このようなＯＣＲ装置では、ユーザが、表示装置に対比表示された原本データとＯＣＲデータとを比較することによって認識結果の確認を行っている。

しかし、対比表示された原本データとＯＣＲデータとを確認する作業でも、ＯＣＲの認識率が１００％ではない（全体に対する誤認識箇所は少ないが０ではない）ため、相違する箇所がないかを確認する際には、より神経を集中させる必要があると同時に、目への負担も大きく、確認作業を行うユーザの負担は少なくない。

本発明は上述した課題を解決するためになされたものであり、ＯＣＲ処理後に得られるＯＣＲ結果を確認する手間の軽減化を図ったＯＣＲ装置およびＯＣＲ結果確認方法を提供することを目的とする。

本発明に係る光学的文字認識装置は、上述した課題を解決するため、請求項１に記載したように、入力操作を受け付ける操作部と、情報を視覚的に提示する表示部と、読み出し可能に格納された画像情報を光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成する光学的文字認識処理部と、前記光学的文字認識処理部が生成した新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成する音声変換部と、取得した音声情報を音声出力する音声出力部と、前記操作部、表示部、光学的文字認識処理部、音声データ変換部および音声出力部を制御する制御部とを具備することを特徴とする。

一方、本発明に係る光学的文字認識結果確認方法は、上述した課題を解決するため、請求項１１に記載したように、光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成し、生成された新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成し、生成された音声情報を音声出力することを特徴とする。

また、本発明に係る光学的文字認識結果確認方法は、上述した課題を解決するため、請求項１２に記載したように、光学的文字認識処理結果の確認対象を認識する確認対象認識ステップと、前記確認対象認識ステップで認識した確認対象のうちｎページ目の確認対象について光学的文字認識の平均マッチング率を算出する光学的文字認識マッチング率算出ステップと、前記確認対象認識ステップで認識した確認対象のうちｎページ目の確認対象について光学的文字認識内容および前記平均マッチング率と対応した音声を出力する音声変換出力ステップとを具備することを特徴とする。

本発明に係る光学的文字認識装置および光学的文字認識結果確認方法によれば、スキャン対象となった原稿の文字を音声として読み上げるので、ユーザは、スキャン対象となる原稿のみを見れば光学的文字認識結果の確認ができ、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。

また、光学的文字認識処理を実行する際に、マッチング基準情報および原稿情報を取得するので、光学的文字認識結果を音声出力する際、光学的文字認識の正確さに対応した音声を出力することができ、ユーザは、音声の違いから光学的文字認識の精度（正確さ）を含めて光学的文字認識結果を判断することができる。

さらに、同一種類（定型文書）の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すことができるので、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。

以下、本発明に係る光学的文字認識（以下、ＯＣＲ：Optical Character Recognitionとする）装置およびＯＣＲ結果確認方法について、添付の図面を参照して説明する。

図１に、本発明に係るＯＣＲ装置の一実施例であるＯＣＲ装置１０の基本的な機能構成を概略的に表した概略図を示す。

ＯＣＲ装置１０は、確認対象となる範囲の指定等の入力操作をユーザから受け付ける操作部１１と、ユーザへ情報を視覚的に提示する表示部１２と、原稿に記載された文字情報を画像情報に変換するスキャナ部１３と、画像情報をＯＣＲ処理得られる文字情報にＯＣＲの正確さを評価した結果を付加して新たな文字情報を生成するＯＣＲ処理部１４と、ＯＣＲ処理部１４が生成した新たな文字情報からＯＣＲ結果の正確さを評価した音声情報に生成する音声変換部１５と、取得した音声情報を音声出力する音声出力部１６と、上記処理部１１，１２，１３，１４，１５，１６を制御する制御部１７とを具備する。

操作部１１は、ユーザの入力操作を受け付ける機能を有する。ユーザが確認対象となる範囲の指定等の入力操作を行った内容は、操作部１１が受け付ける。操作部１１が受け付けた操作内容は、入力操作情報として制御部１７に送られる。

表示部１２は、制御部１７から表示情報を受け取り、受け取った表示情報に基づく表示する機能を有する。従って、表示部１２は、表示情報を受け取ると、受け取った表示情報に基づく表示を行うことができる。

尚、操作部１１および表示部１２は、実際のシステムにおいて、それぞれが独立した処理部として設けられている必要はなく、一体的に構成された操作／表示部として構成されていても構わない。

スキャナ部１３は、原稿（紙面）に記載された情報を画像情報に変換する機能を有する。従って、スキャナ部１３は、画像情報を取得すると、取得した画像情報を制御部１７へ送ることができる。

ＯＣＲ処理部１４は、画像情報から文字情報を得るＯＣＲ機能を有する。従って、ＯＣＲ処理部１４は、ＯＣＲ処理を行い、画像情報から文字情報を得ることができる。

また、ＯＣＲ処理部１４は、ＯＣＲ処理時の各文字がどの程度正確に認識されたかを数値化する機能（以下、ＯＣＲ正確度算出機能とする）を有する。このＯＣＲ正確度算出機能とは、より詳細に説明すると、ＯＣＲする基礎となる文字型（以下、基本文字とする）とＯＣＲした文字とを照合してどの程度合致しているかを表すマッチング率を算出する機能である。従って、ＯＣＲ処理部１４は、ＯＣＲ処理した各文字についてのマッチング率を算出、すなわち、ＯＣＲの精度を評価することができる。また、各文字のマッチング率から指定された特定範囲に含まれる文字の平均マッチング率を算出することができる。

さらに、ＯＣＲ処理部１４は、マッチング率を認識する機能を有する。従って、ＯＣＲ処理を事前に済ませておき、事後的にＯＣＲ処理結果の確認のみを行う場合であっても、各文字のマッチング率についての情報（以下、マッチング率情報とする）を取得して、指定された特定範囲に含まれる文字の平均マッチング率を算出することができる。

一方、ＯＣＲ処理部１４は、ＯＣＲ処理結果を確認する際にマッチング基準情報および原稿情報を取得する。ここで、マッチング基準情報とは、マッチング率がどの範囲にある場合にどのような処理を実行するかを決定するための情報である。従って、ＯＣＲ処理部１４は、マッチング率の数値に応じて、例えば、新たな文字情報を生成する等の予め設定された所定の実行処理内容を実行することができる。マッチング基準情報の一例は、後述する表１のように表される。

原稿情報とは、例えば、伝票、見積書、請求書等のスキャン対象となる原稿のフォーム（定型）に関する情報である。具体的には、伝票の右上方（原稿を通常に見る向きを基準とする。以下、同様である。）には、日付欄があり、中央には金額欄があるといった原稿種類と項目とを関連付けた情報である。従って、原稿情報を取得すれば、指定された確認範囲がどんな原稿種類におけるどんな項目なのか（例えば、伝票における金額等）を判断することが可能となる。

マッチング基準情報および原稿情報は、ＯＣＲ装置１０内の所定のデータ記録領域または図に示されない外部機器内のデータ記録領域等のアクセス可能なデータ記録領域に、例えば、マッチング基準設定ファイル２０および原稿情報ファイル２１等の電子情報として格納される。従って、ＯＣＲ処理部１４は、マッチング基準設定ファイル２０および原稿情報ファイル２１を参照することで、ＯＣＲ処理結果を確認する際に必要となるマッチング基準情報および原稿情報を取得することができる。

また、ＯＣＲ処理部１４は、ＯＣＲ処理結果を確認する際に、ＯＣＲ処理を行ったスキャン対象の全ページ数および確認を行っているページをカウントして認識する機能（前者を確認対象ページ数カウント機能とし、後者を現ページカウント機能とする。）を有する。例えば、ＯＣＲ処理部１４は、メモリ（図を省略）に確認対象ページ数ｍ（ｍ：任意の自然数）および現ページｎ（ｎはｍ以下の任意の自然数）の値を格納ことができる。

従って、ＯＣＲ処理部１４は、メモリ内のｍおよびｎの値を認識することで、確認対象が何ページあるのか、または、何ページ目のマッチング率を計算しているのかを知ることができる。

音声変換部１５は、例えば、テキストデータ等の文字情報を音声データ等の音声情報に変換する文字−音声変換機能を有する。従って、音声変換部１５は、取得した文字情報から音声情報へ変換することができる。

また、音声変換部１５は、文字−音声変換処理を実行する際に、音声設定情報を取得する。ここで、音声設定情報とは、音声出力する音声についての設定情報である。より詳細には、出力する音声の種類および音声種類の選択に関する情報である。例えば、音声の種類は、成人男性の声（周波数が低い）および成人女性の声（周波数が高い）という種類が考えられる。また、選択に関する情報とは、複数用意された音声種類のいずれを選択しているかという情報である。

音声設定情報は、ＯＣＲ装置１０内の所定のデータ記録領域または図に示されない外部機器内のデータ記録領域等のアクセス可能なデータ記録領域に、例えば、音声設定ファイル２５等の電子情報として格納される。音声変換部１５は、音声設定ファイル２５を参照することで、音声設定ファイル２５に記録される音声設定情報を取得することができる。

音声出力部１６は、取得した音声データ等の音声情報に基づく音声を出力する機能を有する。従って、音声出力部１６は、音声変換部１５が変換した音声情報に基づく音声を出力することができる。

制御部１７は、操作部１１、表示部１２、スキャナ部１３、ＯＣＲ処理部１４、音声データ変換部１５および音声出力部１６を制御する処理部制御機能を有し、操作部１１、表示部１２、スキャナ部１３、ＯＣＲ処理部１４、音声データ変換部１５および音声出力部１６間で情報のやり取りを行うことができる。

具体的に説明すると、制御部１７は、操作部１１からユーザが入力した入力操作情報を受け取る。そして、制御部１７は、入力された操作の内容に応じて、操作部１１、表示部１２、スキャナ部１３、ＯＣＲ処理部１４、音声データ変換部１５および音声出力部１６を制御する。そして、制御部１７により制御される操作部１１、表示部１２、スキャナ部１３、ＯＣＲ処理部１４、音声データ変換部１５および音声出力部１６のいずれかの処理部が入力操作の内容に対応する必要な処理を実行する。

また、制御部１７は、スキャナ部１３からスキャンした画像情報を受け取ると、表示部１２およびＯＣＲ処理部１４に受け取った画像情報を送る。さらに、ＯＣＲ処理部１４から文字情報を受け取ると、受け取った文字情報を音声データ変換部１５に送る。さらにまた、音声データ変換部１５から音声情報を受け取ると、音声出力部１６に送る。

一方、制御部１７は、処理部制御機能に加え、過去にスキャンした画像情報およびＯＣＲした文字情報を保存し、読み出し可能な状態で管理するジョブ管理機能を有する。また、ジョブ管理機能には、ログ作成機能も含まれ、少なくともＯＣＲした文字情報を保存する際に各文字のマッチング率を記録し、例えば、ログファイル等のログ（電子情報）として保存することができる。

従って、ユーザは、スキャン直後の画像情報のみならず、操作部１１から入力操作を行うことで過去に作成された画像情報についても参照してＯＣＲ処理を実行して、ＯＣＲ処理結果を確認することができる。また、過去にＯＣＲ処理した文字情報からでも、各文字のマッチング率をログから参照して取得することができるので、事後的にＯＣＲ処理結果を確認することができる。

このように構成されるＯＣＲ装置１０は、マッチング基準情報を取得するＯＣＲ処理部１４、音声変換部１５および音声出力部１６を具備するので、ＯＣＲ処理部１４が認識した文字情報を音声変換部１５が音声情報に変換して音声出力部１６から音声出力することができる。すなわち、スキャン対象となった原稿の文字を音声として読み上げることができる。

従って、ユーザはスキャン対象となる原稿のみを見ればＯＣＲ処理結果の確認ができ、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。

また、ＯＣＲ処理部１４は、ＯＣＲ処理を実行する際に、マッチング基準情報および原稿情報を取得するので、ＯＣＲ処理結果を音声出力する際、ＯＣＲの正確さに対応した音声を出力することができる。従って、音声の違いにより、ユーザは認識の精度（正確さ）を含めてＯＣＲ処理結果を判断することができる。

さらに、同一種類（定型文書）の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すことができる。従って、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。

尚、ＯＣＲ装置１０に外部機器との接続インターフェイス（以下、Ｉ／Ｆ）となるＩ／Ｆ部を具備させて、電子データ保存用のサーバ、他のＯＣＲ処理装置、複数のＯＣＲ処理装置を管理する管理用コンピュータ等を接続して新たな機能を付加しても構わない。

また、ＯＣＲ装置１０は、ＯＣＲ処理部１４が、ＯＣＲ処理結果確認時にマッチング基準設定情報を取得して所定の処理を実行しているが、マッチング基準設定情報を取得しなくても構わない。すなわち、マッチング基準設定ファイル２０は必ずしも必要ではない。ＯＣＲ処理部１４が、ＯＣＲ処理結果確認時にマッチング基準設定情報を取得しない場合には、ＯＣＲで得られた文字情報が音声出力される。

さらに、ＯＣＲ装置１０は、ＯＣＲ処理部１４が、ＯＣＲ処理結果確認時に原稿情報を取得しているが、原稿情報を取得しなくても構わない。すなわち、原稿情報ファイル２１は必ずしも必要ではない。ＯＣＲ処理部１４が、ＯＣＲ処理結果確認時に原稿情報を取得しない場合には、ＯＣＲで得られた文字情報のみが音声出力される。

一方、ＯＣＲ処理結果の確認範囲を指定する操作入力があった場合、制御部１７は、指定された確認範囲についてハイライト表示する表示情報を生成して表示部１２に送るようにＯＣＲ装置１０を構成し、当該確認範囲を表示部１２にハイライト表示するようにしても良い。

また、ＯＣＲ処理結果の確認範囲を指定する操作入力があった場合における他の実施例として、制御部１７が音声出力部１６へ音声情報を送るタイミングに合わせてハイライト表示する表示情報を表示部１２に順次送信するようにＯＣＲ装置１０を構成し、読み上げる部分を順次ハイライト表示するようにしても良い。

さらに、ＯＣＲ処理結果の確認範囲を指定する操作入力があった場合における他の実施例として、制御部１７が指定された確認範囲のみを表示する表示情報を生成して表示部１２に当該確認範囲のみを表示するようにＯＣＲ装置１０を構成しても良い。

次に、本発明に係るＯＣＲ結果確認方法について説明する。

本発明に係るＯＣＲ結果確認方法は、本発明に係るＯＣＲ装置が選択された範囲（選択がない場合には全範囲）についてＯＣＲ処理結果を確認する特定部分確認手順を実行することでなされる。

図２に、ＯＣＲ装置が実行する特定部分確認手順について、処理順序を追って説明した処理フロー図を示す。

図２によれば、特定部分確認手順は、取得した条件でスキャンを行うスキャンステップ（ステップＳ１）と、スキャンステップで取得した画像情報をＯＣＲ処理するＯＣＲ処理ステップ（ステップＳ２）と、ＯＣＲ処理結果の確認対象を認識する確認対象認識ステップ（ステップＳ３）と、ｎページ目の確認対象についてＯＣＲの平均マッチング率を算出するＯＣＲマッチング率算出ステップ（ステップＳ５）と、ｎページ目の確認対象についてＯＣＲの内容および平均マッチング率と対応した音声を出力する音声変換出力ステップ（ステップＳ６）とを具備する。

特定部分確認手順は、操作部１１がユーザからのスキャンを実行する旨の要求を受け付けると、処理ステップを開始する（ＳＴＡＲＴ）。

特定部分確認手順では、まず、ステップＳ１で、スキャンステップがなされる。スキャンステップ（ステップＳ１）では、スキャナ部１３がスキャン条件を取得して取得した条件でスキャンを実行する。スキャナ部１３は、セットされた原稿等のスキャン対象についてスキャンすると、取得した画像情報を制御部１７へ送る。スキャン対象について取得された画像情報が制御部１７へ送られると、スキャンステップを完了し、続いてステップＳ２でＯＣＲ処理ステップがなされる。

ＯＣＲ処理ステップ（ステップＳ２）では、ＯＣＲ処理部１４が、制御部１７から受け取ったスキャン対象の画像情報をＯＣＲ処理し、スキャン対象の記載を文字情報として認識する。従って、ＯＣＲ処理部１４は、ＯＣＲ処理を行うことで、スキャン対象についての文字情報を取得することができる。

また、ＯＣＲ処理ステップでは、ＯＣＲ処理部１４がＯＣＲした各文字について予め登録された基本文字に対するマッチング率を算出している。算出された各文字のマッチング率情報は、ＯＣＲ処理部１４が有するメモリに一時的に格納されるとともに、制御部１７へ送られる。

ＯＣＲ処理部１４がＯＣＲ処理を行い、ＯＣＲした各文字についてマッチング率を算出してマッチング率情報をメモリに一時的に格納するとともに制御部１７へ送ると、ＯＣＲ処理ステップは完了し、続いてステップＳ３で、スキャン対象確認ステップがなされる。

確認対象認識ステップ（ステップＳ３）では、ＯＣＲ処理部１４がマッチング基準情報、原稿情報および確認範囲情報を取得してＯＣＲ処理結果の確認対象を認識する。ここで、確認範囲情報とは、ユーザが操作部１１から指定したＯＣＲ処理結果の確認範囲についての情報をいう。

確認範囲を指定する方法としては、スキャンステップを行ったスキャン対象の全ページのうち特定のページを指定する、スキャンステップを行ったスキャン対象のグループで指定する、あるいは、確認範囲の始点および終点を指定するといった方法が考えられる。

また、確認対象認識ステップでは、ＯＣＲ処理部１４が、確認対象ページ数カウント機能を用いて認識した確認対象のページ数ｍをメモリに記憶する。

ＯＣＲ処理部１４がマッチング基準情報、原稿情報および確認範囲情報を取得してＯＣＲ処理結果の確認対象を認識し、確認対象のページ数ｍを記憶すると、確認対象認識ステップを完了し、ステップＳ４に進む。そして、ステップＳ４では、ＯＣＲ処理部１４が、現在、確認しているページ数をカウントするために、現ページカウント機能を用いてメモリ内のｎの値を１（ｎ＝１）とする。ＯＣＲ処理部１４が、ｎの値を１とすると、ステップＳ４の処理ステップを完了し、続いて、ステップＳ５で、ＯＣＲマッチング率算出ステップがなされる。

ＯＣＲマッチング率算出ステップ（ステップＳ５）では、ＯＣＲ処理部１４が、マッチング率情報を用いてｎページ目の確認対象についてＯＣＲの平均マッチング率を算出する。ＯＣＲ処理部１４が、ｎページ目の確認対象についてＯＣＲの平均マッチング率を算出すると、ＯＣＲ平均マッチング率算出ステップを完了する。ＯＣＲ平均マッチング率算出ステップが完了すると、続いて、ステップＳ６で音声変換出力ステップがなされる。

音声変換出力ステップ（ステップＳ６）では、まず、ＯＣＲ処理部１４が、確認対象認識ステップで取得した原稿情報から原稿の種類を特定し指定された確認範囲がどんな項目であるかを認識する。例えば、確認範囲が金額（円）の項目であるとＯＣＲ処理部１４が認識した場合には、ＯＣＲ処理で認識した文字情報の直後に「円」の文字情報を付加した新たな文字情報を付加する。

原稿情報に基づく、文字情報の付加がなされると、続いて、ｎページ目の確認対象について平均マッチング率算出ステップで算出された平均マッチング率と確認対象認識ステップで取得したマッチング基準情報に基づきＯＣＲ処理部１４が予めマッチング基準設定ファイル２０に設定された所定の処理内容を実行する。マッチング基準設定ファイル２０に設定される処理内容の一例を表１に示す。

上記表１によれば、平均マッチング率が０〜２０％の場合には、「認識できません」という文字情報の生成を行う。また、平均マッチング率が２１〜５０％の場合には、文字情報の文末に「かも知れません」という文字情報を付加した新たな文字情報を生成する。平均マッチング率が５１〜８０％および８１〜１００％の場合には、平均マッチング率が２１〜５０％の場合と同様に、文字情報の文末に「と思います」および「です」という文字情報を付加した新たな文字情報を生成する。

ＯＣＲ処理部１４が生成した新たな文字情報は、制御部１７が受け取り、制御部１７から音声データ変換部１５に送られる。次に、新たな文字情報を受け取った音声データ変換部１５は、文字−音声情報変換機能を用いて、受け取った文字情報を音声情報に変換する文字−音声情報変換処理を行う。音声データ変換部１５が、文字−音声情報変換処理を行う際には、音声設定情報に基づき選択された種類の音声で音声情報を生成する。

音声データ変換部１５が、文字−音声情報変換処理により得た音声情報は、制御部１７が受け取り、制御部１７から音声出力部１６に送られる。次に、音声情報を受け取った音声出力部１６は、音声情報に対応する音声を出力する。音声出力部１６が、ｎページ目の確認対象についてＯＣＲ処理した文字情報の内容および平均マッチング率と対応した音声を出力すると音声変換出力ステップを完了し、続いて、ステップＳ７に進む。

ステップＳ７では、制御部１７が音声変換出力ステップで音声出力した音声を繰り返すかユーザに問い合わせる表示情報を生成して表示部１２へ送る。そして、生成された表示情報を受け取った表示部１２が音声変換出力ステップで音声出力した音声を繰り返すかユーザに問い合わせる表示をする。

音声出力を繰り返さない旨の操作入力を操作部１１が受け付けた場合（ステップＳ７でＮＯの場合）、ステップ８に進み、ステップＳ８でＯＣＲ処理部１４が、メモリに格納されるｍの値とｎの値とを比較する。そして、ｎがｍ以上となる（ｎ＜ｍでない）場合（ステップＳ８でＮＯの場合）、ステップＳ９に進む。

ステップＳ９では、制御部１７が他のスキャン対象があるか、すなわち、スキャンを継続するかユーザに問い合わせる表示情報を生成して表示部１２へ送る。そして、生成された表示情報を受け取った表示部１２がスキャンを継続するかをユーザに問い合わせる表示をする。

スキャンを継続しない旨の操作入力を操作部１１が受け付けた場合（ステップＳ９でＮＯの場合）、ステップＳ９の処理ステップを完了して特定部分確認手順の全処理ステップを完了する（ＥＮＤ）。

一方、ステップＳ７で音声出力を繰り返す旨の操作入力を操作部１１が受け付けた場合（ステップＳ７でＹＥＳの場合）、ステップＳ６に進み、ステップＳ６以降の処理ステップを実行する。

また、ステップＳ８でＯＣＲ処理部１４が、ｍの値とｎの値とを比較して、ｎがｍよりも小さい（ｎ＜ｍ）場合（ステップＳ８でＮＯの場合）、ステップＳ１０に進み、ステップＳ１０でＯＣＲ処理部１４がｎの現在値に１を加えた新たなｎの値をメモリに格納する。ＯＣＲ処理部１４がｎの現在値に１を加えて新たなｎの値を格納し終えると、ステップＳ１０の処理ステップを完了し、続いて、ステップＳ５に進み、ステップＳ５以降の処理ステップを実行する。

さらに、ステップＳ９でスキャンを継続する旨の操作入力を操作部１１が受け付けた場合（ステップＳ９でＹＥＳの場合）、ステップＳ１に進み、ステップＳ１以降の処理ステップを実行する。

尚、声変換出力ステップにおいて、ＯＣＲ処理部１４が実行する実行処理内容は、表１に示す場合の例に限られない。例えば、平均マッチング率が低い場合（５０％未満の場合）には、男性の声を選択するものとし、平均マッチング率が高い（５０％以上の場合）場合には、女性の声を選択するという具合に、平均マッチング率に応じて音声の種類を変化させることもできる。

平均マッチング率に応じて音声の種類を変化させる場合、ＯＣＲ処理部１４は、予め設定された音声のいずれを選択するかを表す音声選択情報の生成を実行する。そして、ＯＣＲ処理で認識した文字情報とともに音声選択情報を併せて制御部１７に送るようにすれば良い。すると、制御部１７からＯＣＲ処理で認識した文字情報と併せて音声選択情報を受け取った音声データ変換部１５は、受け取った文字情報に対して文字−音声情報変換処理を行い、音声設定ファイル２５を参照して得られた音声設定情報と制御部１７から受け取った音声選択情報に基づき、出力する音声種類を選択して音声情報の生成を行うことができる。

また、声変換出力ステップにおいて、ＯＣＲ処理部１４は、算出した平均マッチング率の数値を文字情報として文末に付加した新たな文字情報を生成するようにしても良い。

一方、図２に示す特定部分確認手順は、スキャンからＯＣＲ処理結果の確認までを連続して行う場合を表しているが、もちろん、過去にＯＣＲ処理して得られた文字情報に対しても特定部分確認手順を行うことができる。過去にＯＣＲ処理して得られた文字情報に対して特定部分確認手順を行う場合には、確認したい文字情報（ＯＣＲデータ）を読み出した後、ステップＳ３以降の処理ステップを実行することになる。

さらに、事前にスキャンした画像情報を読み出してステップＳ２以降の処理ステップを実行することもできる。事前にスキャンした画像情報を読み出してステップＳ２以降の処理ステップを実行する場合、ＯＣＲ処理結果の確認を行う範囲の指定は、画像情報としての画像ファイルが保存されるフォルダまたは画像ファイルのファイル名で指定することができる。

他方、特定部分確認手順において、原稿情報およびマッチング基準設定情報の少なくともいずれかを取得できない場合があっても良い。原稿情報を取得できない場合、すなわち、原稿情報ファイル２１がない場合、音声変換出力ステップにおいて、原稿の項目に対応する文字情報の付加はなされない。また、マッチング基準設定情報、すなわち、マッチング基準設定ファイル２０がない場合、音声変換出力ステップにおいて、ＯＣＲ処理後の文字情報あるいはＯＣＲ処理後の文字情報に原稿の項目に対応した文字情報を付加した新たな文字情報を制御部１７に送る。

本発明に係るＯＣＲ結果確認方法は、確認対象認識ステップ、ＯＣＲマッチング率算出ステップおよび音声変換出力ステップを具備するので、確認対象認識ステップで確認した確認対象についてＯＣＲ処理結果を確認する場合、ＯＣＲマッチング率算出ステップで算出した平均マッチング率と対応した音声が音声変換出力ステップで出力される。

従って、ユーザは、スキャン対象となる原稿のみを見ればＯＣＲ処理結果の確認ができばかりでなく、音声の違いからＯＣＲの精度（正確さ）を含めてＯＣＲ処理結果を判断することができる。また、併せて、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。

さらに、同一種類（定型文書）の原稿を確認する場合には、最初に範囲を指定すれば、以降は、同じ範囲の確認を自動的に繰り返すので、大量の定型文書を確認する場合、確認作業の負担をより軽減化することができる。さらにまた、音声出力を繰り返すか否かについてユーザに確認するので、ユーザは聞き漏らしや聞き間違いを防止することができる。

上述したＯＣＲ装置およびＯＣＲ結果確認方法によれば、スキャン対象となった原稿の文字を音声として読み上げるので、ユーザは、スキャン対象となる原稿のみを見ればＯＣＲ処理結果の確認ができ、確認作業時におけるユーザの緊張緩和および目への負担軽減が期待できる。

また、ＯＣＲ処理を実行する際に、マッチング基準情報および原稿情報を取得するので、ＯＣＲ処理結果を音声出力する際、ＯＣＲの正確さに対応した音声を出力することができ、ユーザは、音声の違いからＯＣＲの精度（正確さ）を含めてＯＣＲ処理結果を判断することができる。

本発明に係るＯＣＲ装置の基本的な機能構成を概略的に表した概略図。本発明に係るＯＣＲ装置が実行する特定部分確認手順について、処理順序を追って説明した処理フロー図。

符号の説明

１０ＯＣＲ装置
１１操作部
１２表示部
１３スキャナ部
１４ＯＣＲ処理部
１５音声データ変換部
１６音声出力部
１７制御部
２０マッチング基準設定ファイル
２１原稿情報ファイル
２５音声設定ファイル

Claims

入力操作を受け付ける操作部と、
情報を視覚的に提示する表示部と、
読み出し可能に格納された画像情報を光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成する光学的文字認識処理部と、
前記光学的文字認識処理部が生成した新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成する音声変換部と、
取得した音声情報を音声出力する音声出力部と、
前記操作部、表示部、光学的文字認識処理部、音声データ変換部および音声出力部を制御する制御部とを具備することを特徴とする光学的文字認識装置。
原稿に記載された文字情報を画像情報に変換するスキャナ部をさらに具備することを特徴とする請求項１記載の光学的文字認識装置。
前記光学的文字認識処理部は、光学的文字認識の正確さを数値化して得られる数値の大小で評価するように構成されたことを特徴とする請求項１または２記載の光学的文字認識装置。
前記光学的文字認識処理部は、光学的文字認識処理により得られた文字が事前に登録された基本文字と合致する割合の大小に基づいて光学的文字認識の正確さを評価するように構成されたことを特徴とする請求項１または２記載の光学的文字認識装置。
前記光学的文字認識処理部は、光学的文字認識の結果を確認する際に予め設定された原稿情報から原稿種類および項目を取得し指定された確認範囲が該当する項目に対応した単位の文字情報を文末に付加した新たな文字情報を生成するように構成されたことを特徴とする請求項１または２記載の光学的文字認識装置。
前記光学的文字認識処理部は、事前に設定されたマッチング基準設定情報を取得して光学的文字認識処理により得られた文字と予め登録された基本文字とが合致する割合と対応する新たな文字情報の生成を行うように構成されており、
前記マッチング基準設定情報は、前記合致する割合の取り得る範囲を複数に分割して得られる複数の割合範囲と、個々の割合範囲について新たに生成する文字情報の内容を関連付けた情報を有することを特徴とする請求項１または２記載の光学的文字認識装置。
前記光学的文字認識処理部は、光学的文字認識の結果を確認する際に、光学的文字認識処理により得られた文字が予め登録された基本文字と合致する割合および予め設定されたマッチング基準設定情報を取得した結果に応じて音声出力する音声種類を選択するように構成されたことを特徴とする請求項１または２記載の光学的文字認識装置。
前記制御部は、光学的文字認識の結果を確認する際に指定された確認範囲をハイライト表示するように前記表示部を制御する構成としたことを特徴とする請求項１または２記載の光学的文字認識装置。
前記制御部は、光学的文字認識の結果を確認する際に指定された確認範囲を音声出力のタイミングに合わせて順次ハイライト表示するように前記表示部および音声出力部を制御する構成としたことを特徴とする請求項１または２記載の光学的文字認識装置。
前記制御部は、光学的文字認識の結果を確認する際に指定された確認範囲のみを表示するように前記表示部を制御する構成としたことを特徴とする請求項１または２記載の光学的文字認識装置。
光学的文字認識処理して得られる文字情報に前記光学的文字認識の正確さを評価した結果を反映した新たな文字情報を生成し、生成された新たな文字情報から光学的文字認識処理結果の正確さを評価した音声情報を生成し、生成された音声情報を音声出力することを特徴とする光学的文字認識結果確認方法。
光学的文字認識処理結果の確認対象を認識する確認対象認識ステップと、
前記確認対象認識ステップで認識した確認対象のうちｎページ目の確認対象について光学的文字認識の平均マッチング率を算出する光学的文字認識マッチング率算出ステップと、
前記確認対象認識ステップで認識した確認対象のうちｎページ目の確認対象について光学的文字認識内容および前記平均マッチング率と対応した音声を出力する音声変換出力ステップとを具備することを特徴とする光学的文字認識結果確認方法。
取得した条件でスキャンを行うスキャンステップと、
このスキャンステップで取得した画像情報を光学的文字認識する光学的文字認識処理ステップとをさらに具備することを特徴とする請求項１２に記載の光学的文字認識結果確認方法。