JP2008181383A - 文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム - Google Patents
文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム Download PDFInfo
- Publication number
- JP2008181383A JP2008181383A JP2007014910A JP2007014910A JP2008181383A JP 2008181383 A JP2008181383 A JP 2008181383A JP 2007014910 A JP2007014910 A JP 2007014910A JP 2007014910 A JP2007014910 A JP 2007014910A JP 2008181383 A JP2008181383 A JP 2008181383A
- Authority
- JP
- Japan
- Prior art keywords
- character
- processing
- character recognition
- characters
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】処理の効率を上げることができる文字認識装置を提供する。
【解決手段】文字形態判別部502は、文書510中の文字の形態を判別する。活字文字の部分は、装置内の第1文字認識処理部503で高速に処理する。手書き文字の部分は、一定レベル以上の処理精度が期待できないため、第2文字認識処理部504へ送り、(1)処理を行なわない、(2)バックグラウンドで認識処理を実行し、処理後にマージする、(3)サーバにアップロードしてサーバに処理させ、処理後にマージする、のいずれかの処理を行なう。
【選択図】図3
【解決手段】文字形態判別部502は、文書510中の文字の形態を判別する。活字文字の部分は、装置内の第1文字認識処理部503で高速に処理する。手書き文字の部分は、一定レベル以上の処理精度が期待できないため、第2文字認識処理部504へ送り、(1)処理を行なわない、(2)バックグラウンドで認識処理を実行し、処理後にマージする、(3)サーバにアップロードしてサーバに処理させ、処理後にマージする、のいずれかの処理を行なう。
【選択図】図3
Description
この発明は文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラムに関し、特に形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラムに関する。
MFP(Multi Function Peripheral)、複合機などの画像形成装置のスキャン機能を用いて光学的に読取られた文書画像に対して、文字認識処理を実行し、テキストデータとして出力する技術が広く知られている。
また文字認識処理において、複数の文字認識エンジンや、文字認識処理に用いる複数の辞書を保持させることが考えられている。文字形態の違いやユーザによる選択によって、使用する文字認識エンジンや文字認識処理に用いる辞書を切替えて使用するものである。
たとえば手書き文字部分には精度優先の文字認識エンジンを用い、活字印刷部分には速度優先の文字認識エンジンを使用することで、一度の文字認識処理で誤判別を最小限に抑えることが可能となる。
図8は、本発明の背景技術となる文字認識装置の概略を示すブロック図である。
文字認識装置300は、複合機などでスキャンされた文書画像310を入力する文書画像入力部301と、文字形態の違いに基づき実行する文字認識処理を判別する文字形態判別部302と、標準の文字認識処理エンジンを用いて文字認識処理を実行する標準文字認識処理部303と、手書き文字等の高度な処理が求められる部分に対して文字認識処理を実行する手書き用文字認識処理部304と、実行された文字認識処理結果をテキストデータ320として出力する処理結果出力部305とから構成されている。
文字認識装置300は、複合機などでスキャンされた文書画像310を入力する文書画像入力部301と、文字形態の違いに基づき実行する文字認識処理を判別する文字形態判別部302と、標準の文字認識処理エンジンを用いて文字認識処理を実行する標準文字認識処理部303と、手書き文字等の高度な処理が求められる部分に対して文字認識処理を実行する手書き用文字認識処理部304と、実行された文字認識処理結果をテキストデータ320として出力する処理結果出力部305とから構成されている。
図9は、文字認識装置が文字認識処理結果を出力するまでの処理の概略を示すフローチャートである。
文書画像310が画像入力部301に入力されると、初めにステップS401で文書画像310が文字認識方法のプロセスに入力される。入力された文書画像310に対しては、ステップS402で文字形態の判別が実行される。入力される文書画像をブロックごとに分け、各ブロックごとに文字形態を判別してもよいし、ページごとに判別をしてもよい。
ステップS403では、それぞれのブロック(またはページ。以下同じ。)に対して、ステップS402での判別結果に基づき、実行する処理が標準文字認識処理であるかを判別する。標準文字認識処理である場合はステップS404へ、手書き文字認識処理である場合はステップS405に進む。
ステップS404とS405のそれぞれのステップでは、入力されたブロックに対して、判別された文字認識処理方法で処理が実行される。
ステップS406では、全てのブロックに対して処理が実行されたかを判別し、未処理のブロックが存在する場合は、ステップS403に戻り処理を継続する。ステップS406で全てのブロックに対して処理が完了したと判断されたとき、ステップS407に処理が進み、全ての文字認識処理結果をテキスト形式にまとめて出力する。これによって、入力された文書画像に対する文字認識処理が完了する。
下記特許文献1は、手書き文字と活字文字が混在している文書において、「手書き文字」、「活字文字」、「手書き活字両用」などと属性を割り当て、属性に応じた認識辞書を選択して文字認識を行なう技術を開示している。
特開2001−307020号公報
手書き文字や活字文字といった異なる文字形態が混在している場合に、同じ文字認識エンジンを用いて処理を実行すると、精度が期待されない部分に対しても時間をかけた処理が実行されるという問題がある。また、多くの誤判別を含む結果となり、修正作業を行なう必要性が生じていた。
また上記のように、複数の文字認識エンジンや文字認識処理に用いる複数の辞書を保持して、文字形態の違いによって異なる文字認識処理を実行することも考えられる。
しかしながら、一般的に精度の高い処理を実行するには通常以上の処理時間が必要となる。また、ユーザによっては、文字認識処理に必要以上の時間をかけるのではなく、一定以上の精度が保証できる部分に対してのみ文字認識処理を実行して処理時間を短縮したい場合がある。
たとえば、新聞や雑誌の記事に対して文字認識処理を実行する場合において、記事に手書きで落書きやメモが記入されていたときを想定する。これらの手書き文字は、本来文字認識を行ないたい部分ではなく、一般的に処理したくないと考えられる対象である。しかしながら、上記の方法ではこのような手書き文字部分に対しても通常以上の処理時間をかけて文字認識処理が行なわれてしまう。従って、上記方法ではこのような処理時間の問題を解決することができないという問題がある。
この発明は上記問題点を解決するためになされたものであり、処理の効率を上げることができる文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラムを提供することを目的としている。
上記目的を達成するためこの発明のある局面に従うと、文字認識装置は、形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置であって、文書画像を入力する画像入力部と、画像入力部により入力された文書画像の文字部分における文字の形態を判別する文字形態判別部と、文字形態判別部により文字が第1の形態であると判別されたときに、第1の種類の認識処理を行なう第1の文字認識処理部と、文字形態判別部により文字が第2の形態であると判別されたときに、第2の種類の認識処理を行なう第2の文字認識処理部とを備え、第2の文字認識処理部は、処理を実行しない、バックグラウンドで処理を実行する、または外部装置で処理を実行する。
好ましくは文字認識装置は、第1および第2の文字認識処理部での認識処理結果をまとめる処理結果マージ部と、処理結果マージ部のマージ結果を出力する出力部とを備える。
好ましくは文字形態判別部は、自動またはユーザ入力により文字の形態を判別する。
好ましくは第1の形態は、文字の活字の形態であり、第2の形態は、文字の手書きの形態である。
好ましくは第1の形態は、文字の活字の形態であり、第2の形態は、文字の手書きの形態である。
好ましくは第1の文字認識処理部は、処理速度優先である文字を処理し、第2の文字認識処理部は、処理精度優先である文字を処理する。
好ましくは第1の形態は、アルファベット文字の形態であり、第2の形態は、日本語の文字の形態である。
好ましくは第1および第2の文字認識処理部の一方が、高解像度の文字を処理し、他方が、低解像度の文字を処理する。
好ましくは第1および第2の文字認識処理部は、それぞれ異なる文字認識エンジンを用いて処理を行なう。
好ましくは文字形態判別部は、画像入力部により入力された文書画像のブロックごとに、またはページごとに文字の形態を判別する。
この発明の他の局面に従うと、形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置の制御方法は、文書画像を入力する画像入力ステップと、画像入力ステップにより入力された文書画像の文字部分における文字の形態を判別する文字形態判別ステップと、文字形態判別ステップにより文字が第1の形態であると判別されたときに、第1の種類の認識処理を行なう第1の文字認識処理ステップと、文字形態判別ステップにより文字が第2の形態であると判別されたときに、第2の種類の認識処理を行なう第2の文字認識処理ステップとを備え、第2の種類の認識処理ステップでは、処理を実行しない、バックグラウンドで処理を実行する、または外部装置で処理を実行する。
この発明のさらに他の局面に従うと、形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置の制御プログラムは、文書画像を入力する画像入力ステップと、画像入力ステップにより入力された文書画像の文字部分における文字の形態を判別する文字形態判別ステップと、文字形態判別ステップにより文字が第1の形態であると判別されたときに、第1の種類の認識処理を行なう第1の文字認識処理ステップと、文字形態判別ステップにより文字が第2の形態であると判別されたときに、第2の種類の認識処理を行なう第2の文字認識処理ステップとをコンピュータに実行させ、第2の種類の認識処理ステップでは、処理を実行しない、バックグラウンドで処理を実行する、または外部装置で処理を実行する。
上記構成によると、処理の効率を上げることができる文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラムを提供することができる。
以下、本発明の実施の形態の1つにおける文字認識装置について説明する。
文字認識装置は、文書画像に対して文字認識(OCR)処理を実行する際に、動作する文字認識エンジンでは認識の精度が期待できない部分(またはページ)を、ユーザの指定もしくは自動で判別する。その部分に対しては、以下のいずれかの処理を行なう。
文字認識装置は、文書画像に対して文字認識(OCR)処理を実行する際に、動作する文字認識エンジンでは認識の精度が期待できない部分(またはページ)を、ユーザの指定もしくは自動で判別する。その部分に対しては、以下のいずれかの処理を行なう。
(1) 判別された該当部分(またはページ)の文字認識処理をスキップする。
(2) 第2の文字認識エンジンを選択して、該当部分以外の部分の文字認識処理が終了した後に、バックグラウンドで認識処理を行なう。
(2) 第2の文字認識エンジンを選択して、該当部分以外の部分の文字認識処理が終了した後に、バックグラウンドで認識処理を行なう。
(3) 第2の文字認識エンジンを搭載したサーバに、該当部分のデータをアップロードし、サーバで文字認識処理を行なう。
このようにして、OCR処理を選択的に変更する。特に上記(2)および(3)では、複数種類の領域のそれぞれを時間をずらして処理する。これにより、判別された該当部分以外の部分の処理が遅延することが防止される。
図1は、文字認識装置が搭載された、パーソナルコンピュータ(PC)と複合機(MFP)とによって構成されるネットワークを示す図である。
ネットワークには、文字認識方法を実行するパーソナルコンピュータ100a,100bと、複数の複合機200a〜200cとが接続されている。
文字認識処理は、MFPなど他の電子機器で実行してもよい。
図2は、図1のパーソナルコンピュータ100aまたは100bの概略構成を示すブロック図である。
図2は、図1のパーソナルコンピュータ100aまたは100bの概略構成を示すブロック図である。
パーソナルコンピュータ100は、装置全体の制御を行なうための制御部101と、データを入力するための入力部105と、データを記憶するための記憶部103と、データを出力するための出力部107と、制御部101で実行するためのプログラムなどを記憶する外部記憶装置109と、ネットワークに接続するためのローカルエリアネットワーク(LAN)カード113とを備えている。
制御部101は、中央演算装置(CPU)と、このCPUで実行するためのプログラムを記憶するための読出専用メモリ(ROM)と、CPUでプログラムを実行する際に必要となる変数などを記憶するためのランダムアクセスメモリ(RAM)などを有している。
入力部105は、キーボードまたはマウスなどであり、文字もしくは数字の入力、または、所定の指示コマンドの入力が可能となっている。
記憶部103は、文書または画像などのデータを格納する。これらのデータは、たとえばワードプロセッサのアプリケーションプログラムにより作成されたデータファイル、表計算ソフトのアプリケーションにより作成されたデータファイル、複合機などのイメージスキャナなどで読取られた画像を記憶するためのデータファイル、または、他の種々のアプリケーションプログラムで作成されるデータファイルである。
出力部107は、ディスプレイであり、制御部101の指示に従ってデータファイルを表示する。これにより、複数のデータファイルを同時に表示することができる。
外部記憶装置109は、コンピュータ読取可能な記録媒体111に記録されたプログラムやデータを読込み、制御部101に送信する。また、制御部101からの指示により、コンピュータ読取可能な記録媒体111に必要なデータを書込む。
コンピュータ読取可能な記録媒体111としては、磁気テープやカセットテープなどのテープ系、磁気ディスク(フレキシブルディスク、ハードディスク装置など)や光ディスク(CD-ROM/MO/MD/DVDなど)などのディスク系、ICカード(メモリカードを含む)や光カードなどのカード系、あるいはマスクROM、EPROM、フラッシュメモリなどの半導体メモリなどの固定的にプログラムを担持する媒体が挙げられる。また、記録媒体111を、ネットワークからプログラムがダウンロードされるように流動的にプログラムを担持する媒体とすることもできる。
制御部101は、記録媒体111に記録された文字認識プログラムを外部記憶装置109で読取ることにより、読取ったプログラムを実行することができる。
文字認識装置は、文書画像に対して文字認識処理を行なう際、文字形態により文字認識処理の内容を変更する。より詳しくは、一定レベル以上の処理精度が期待できない部分に対して、以下のいずれかの処理を行なう。
(1) 該当部分の処理を行なわない。
(2) 該当部分のみバックグラウンドで後に処理を実行し、処理後に通常の文字認識処理の結果とマージして出力する。
(2) 該当部分のみバックグラウンドで後に処理を実行し、処理後に通常の文字認識処理の結果とマージして出力する。
(3) 該当部分をサーバにアップロードしてサーバに処理させ、処理後に通常の文字認識処理の結果とマージして出力する。
これにより、文字の誤判別を最小限に抑えつつ、処理時間を短縮することが可能となる。なお、(1)〜(3)のどの処理を行なうかは、ユーザが選択することとしてもよいし、(3)の方法を採用し、サーバと通信ができない場合に(1)または(2)の処理をするなど、状況に応じて自動選択してもよい。
本実施の形態における文字認識装置では、活字文字と手書き文字とが混合した文書の文字認識を行なうこととしている。
図3は、文字認識装置の概略を示すブロック図である。
当該装置は、PCまたはMFP中に備えられる。
当該装置は、PCまたはMFP中に備えられる。
文字認識装置500は、複合機などでスキャンされた文書画像510を入力する文書画像入力部501と、文字形態の違いに基づいて実行する文字認識処理を判別する文字形態判別部502と、第1の文字認識処理エンジンを用いて文字認識処理を実行する第1文字認識処理部503と、第1の文字認識処理エンジンとは異なる第2の文字認識エンジンを用いて文字認識処理を実行する第2文字認識処理部504と、第2文字認識処理としてバックグラウンドで文字認識を実行するバックグラウンド文字認識処理部505と、サーバにより文字認識を実行する外部サーバ文字認識処理部506と、第2の文字認識処理で実行された文字認識処理結果を取得する第2文字認識処理結果取得部507と、第1の文字認識処理結果と第2の文字認識処理結果とをマージする処理結果マージ部508と、マージ結果をテキストデータ(文字コード)520として出力する処理結果出力部509とから構成されている。
図4は、文字認識装置に文書画像を入力して文字認識処理結果を出力するまでの処理の概略を示すフローチャートである。
文書画像510が画像入力部501に入力されると、初めにステップS601で文書画像510が文字認識方法のプロセスに入力される。入力された文書画像510に対しては、ステップS602で文字形態の判別が実行される。入力される文書画像をブロックごとに分け、各ブロックごとに文字形態判別を実行してもよいし、ページごとに判別を実行してもよい。
ステップS603では、それぞれのブロック(またはページ。以下同じ。)に対して、ステップS602で判別された文字形態に基づいて、第1の文字認識処理(ここでは、活字文字用の文字認識処理を例として挙げる)を行なうか否かを判別し、第1の文字認識処理を行なう場合はステップS604へ、第2の文字認識処理(ここでは、手書き用文字認識処理を例として挙げる)を行なう場合はステップS605に進む。
ステップS604とS605のそれぞれのステップでは、入力されたブロックに対して、判別された文字認識処理方法で処理が実行される。
上記の「(1)該当部分の処理を行なわない」処理が選択されているときは、第2の文字認識処理(手書き文字認識処理)では何も実行しない。具体的にはステップS605では、手書き文字のように判別にかかる処理時間が長くなったり、誤判別を多く含む可能性のあるものに対しては処理をスキップし、文字認識処理を実行しない。
次にステップS606では全てのブロックに対して処理が実行されたかを判別し、未処理のブロックが存在する場合は、ステップS603に戻り処理を継続する。ステップS606で全てのブロックに対して処理が完了したと判断されたとき、ステップS607に処理が進み、活字文字認識処理結果のみをテキスト形式にまとめて出力する。
上記のとおり、「(1)該当部分の処理を行なわない」処理が選択されているときは、入力された文書画像に対する文字認識処理を活字文字に対してのみ実行する。処理時間や誤判別の増加につながる手書き文字に対しては処理を実行しないことにより、処理時間の短縮と誤判別文字列の修正にかかる時間を節約することができる。
上記の「(2)該当部分のみバックグラウンドで後に処理を実行し、処理後に通常の文字認識処理の結果とマージして出力する」処理が選択されているときは、第2文字認識処理は、図5のようにバックグラウンドで実行される。
図5は、ステップS605の第2文字認識処理をバックグラウンドで実行する際のフローチャートである。
ステップS701で、手書き文字ブロックに対する文字認識処理をバックグラウンドで処理する。この処理は第1の文字認識処理とは独立して実行される。第1の文字認識処理後にバックグラウンドで処理を開始してもいいし、第1の文字認識処理と並列して処理することとしてもよい。
処理が終了するとステップS702に進み、処理結果を本件文字認識方法のプロセスに出力する。
図6は、処理結果が本件文字認識方法のプロセスに出力されて以降の処理を示すフローチャートである。
文字認識方法のプロセスに入力された処理結果は、第2の文字認識結果取得部507で取得され(図6のステップS801)、別途取得してある第1の文字認識結果(ステップS802)とのマージを実行する(ステップS803)。その結果をテキストデータとして出力する(ステップS804)。
上記処理のように、手書き文字に対してはバックグラウンドで処理することで、活字文字に対する処理時間に影響を及ぼすことがなくなる。また、手書き文字の処理が終了した時点で活字文字の処理結果とマージして最終的な結果を出力することが可能となる。
上記の「(3)該当部分をサーバにアップロードしてサーバに処理させ、処理後に通常の文字認識処理の結果とマージして出力する」処理が選択されているときは、第2文字認識処理は、図7のようにサーバで実行される。
図7は、ステップS605の第2文字認識処理をサーバで実行する際のフローチャートである。
ステップS703で、手書き文字ブロックをサーバにアップロードする。次にアップロードされたデータに対して、ステップS704でサーバに搭載されている文字認識処理装置で文字認識処理を実行する。この処理は第1の文字認識処理とは独立して実行され、第1の文字認識処理と並列して処理することが可能である。また、第2の文字認識処理の実際の作業はサーバで行なうため、処理負担の軽減にもつながる。
処理が終了するとステップS705に進み、処理結果をサーバからダウンロードする。その後ステップS706に進み、本件文字認識方法のプロセスに処理結果を出力する。本件文字認識方法のプロセスに入力された処理結果は、第2文字認識結果取得部507で取得され(図6のステップS801)、別途取得してある第1の文字認識結果(ステップS802)とのマージを実行し(ステップS803)、その結果をテキストデータとして出力する(ステップS804)。
上記処理のように、手書き文字に対してはサーバの文字認識処理装置で処理することで、バックグラウンドで処理するのと同様の効果を得ることが可能となる。
[変形例1]
第1の文字認識処理が処理速度優先の処理であり、第2の文字認識処理が処理精度優先の処理である場合についても、上記実施の形態と同様の構成で同様の効果を達成することが可能である。
第1の文字認識処理が処理速度優先の処理であり、第2の文字認識処理が処理精度優先の処理である場合についても、上記実施の形態と同様の構成で同様の効果を達成することが可能である。
具体的には、処理精度優先の処理に対しては、(1)その処理を実行しないことや、(2)バックグラウンドで文字認識処理を実行することや、(3)サーバに搭載されている文字認識装置で処理を実行することで、誤判別を最小限に抑え、処理時間を短縮することができる。
[変形例2]
第1の文字認識処理がアルファベット文字を対象とした処理であり、第2の文字認識処理が日本語文字を対象とした処理である場合についても、上記実施の形態と同様の構成で同様の効果を達成することが可能である。日本語文字は種類が多く画数が多い上に非常によく似た字形も多く存在する。このため、正しく認識するためにはアルファベット認識以上の精度と処理時間が必要とされている。
第1の文字認識処理がアルファベット文字を対象とした処理であり、第2の文字認識処理が日本語文字を対象とした処理である場合についても、上記実施の形態と同様の構成で同様の効果を達成することが可能である。日本語文字は種類が多く画数が多い上に非常によく似た字形も多く存在する。このため、正しく認識するためにはアルファベット認識以上の精度と処理時間が必要とされている。
そこで、このような日本語文字を対象にした処理に対しては、(1)その処理を実行しないことや、(2)バックグラウンドで文字認識処理を実行することや、(3)サーバに搭載されている文字認識装置で処理を実行することで、誤判別を最小限に抑え、処理時間を短縮することができる。
[変形例3]
第1の文字認識処理が低解像度画像に対する処理であり、第2の文字認識処理が高解像度画像に対する処理である場合についても、上記実施の形態と同様の構成で同様の効果を達成することが可能である。一般に高解像度画像はデータ量が膨大になるため、データハンドリングに時間がかかってしまう。
第1の文字認識処理が低解像度画像に対する処理であり、第2の文字認識処理が高解像度画像に対する処理である場合についても、上記実施の形態と同様の構成で同様の効果を達成することが可能である。一般に高解像度画像はデータ量が膨大になるため、データハンドリングに時間がかかってしまう。
そこで、高解像度画像に対する処理は、(1)その処理を実行しないことや、(2)バックグラウンドで文字認識処理を実行することや、(3)サーバに搭載されている文字認識装置で実行することで、誤判別を最小限に抑え、処理時間を短縮することができる。
また、この場合第1と第2の処理を逆にして、第1の文字認識処理が高解像度画像に対する処理であり、第2の文字認識処理が低解像度画像に対する処理である場合でも同様の効果が得られる。
低解像度画像では、一文字に対するデータ量が小さく文字認識には高い精度が必要とされるため、その処理時間は高解像度画像に比べて比較的長くなる場合があると考えられる。そこで、そのような処理に対して上記(1)〜(3)の処理を適用することで、誤判別を最小限に抑え、処理時間を短縮することができる。
[実施の形態における効果]
本件文字認識装置および方法によると、文書画像に対して文字認識処理を行なう際、文字形態により文字認識処理の内容を変更する。一定レベル以上の処理精度が期待できない部分に対して、該当部分の処理を行わない、または該当部分のみバックグラウンドやサーバで別に処理することで処理を2段階に切り分ける。精度が確保できる部分については短い処理時間で正確な結果のみを得ることができ、精度の確保できない部分については別途処理後に通常の文字認識処理の結果とマージして出力することができる。
本件文字認識装置および方法によると、文書画像に対して文字認識処理を行なう際、文字形態により文字認識処理の内容を変更する。一定レベル以上の処理精度が期待できない部分に対して、該当部分の処理を行わない、または該当部分のみバックグラウンドやサーバで別に処理することで処理を2段階に切り分ける。精度が確保できる部分については短い処理時間で正確な結果のみを得ることができ、精度の確保できない部分については別途処理後に通常の文字認識処理の結果とマージして出力することができる。
これにより、文字の誤判別を最小限に抑えつつ、処理時間を短縮することが可能となり、処理の効率を上げることができる。
また、活字文字と手書き文字などのような文字形態の違いによって異なる文字認識エンジンを使用することで、高い精度の処理結果を得ることが可能になる。さらに、手書き文字のように正確な文字認識処理に時間のかかる処理は実行しないこととすると、処理時間を短縮することが可能となる。
また手書き文字の処理は、通常の文字認識処理とは切り離してバックグラウンド(またはサーバ)で実行し、処理後に通常処理結果とマージして処理結果を出力することで、文字認識処理の失敗による誤判別文字列の発生確率を抑えつつ、処理時間を短縮することが可能となる。
すなわち、通常の文字認識処理でも十分に精度を確保できる活字文字に対しての処理と、通常の文字認識処理では十分な精度が確保できない手書き文字に対して実行する処理とを分けることで、ユーザにとって利便性の高い文字認識装置および方法を提供することができる。
[その他]
図4のステップS602の判別は、自動で行なうこととしてもよいし、ユーザが手入力でブロック(ページでもよい)やそのブロック中の文字の形態を入力し、装置はそれに基づいて判別するようにしてもよい。
図4のステップS602の判別は、自動で行なうこととしてもよいし、ユーザが手入力でブロック(ページでもよい)やそのブロック中の文字の形態を入力し、装置はそれに基づいて判別するようにしてもよい。
上述の実施の形態における処理は、ソフトウエアによって行なっても、ハードウエア回路を用いて行なってもよい。
また、上述の実施の形態における処理を実行するプログラムを提供することもできるし、そのプログラムをCD−ROM、フレキシブルディスク、ハードディスク、ROM、RAM、メモリカードなどの記録媒体に記録してユーザに提供することにしてもよい。また、プログラムはインターネットなどの通信回線を介して、装置にダウンロードするようにしてもよい。
なお、上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
500 文字認識装置、501 文書画像入力部、502 文字形態判別部、503 第1文字認識処理部、504 第2文字認識処理部、505 バックグラウンド文字認識処理部、506 外部サーバ文字認識処理部、507 第2文字認識処理結果取得部、508 処理結果マージ部、509 処理結果出力部。
Claims (11)
- 形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置であって、
文書画像を入力する画像入力部と、
前記画像入力部により入力された文書画像の文字部分における文字の形態を判別する文字形態判別部と、
前記文字形態判別部により文字が第1の形態であると判別されたときに、第1の種類の認識処理を行なう第1の文字認識処理部と、
前記文字形態判別部により文字が第2の形態であると判別されたときに、第2の種類の認識処理を行なう第2の文字認識処理部とを備え、
前記第2の文字認識処理部は、処理を実行しない、バックグラウンドで処理を実行する、または外部装置で処理を実行する、文字認識装置。 - 前記第1および第2の文字認識処理部での認識処理結果をまとめる処理結果マージ部と、
前記処理結果マージ部のマージ結果を出力する出力部とを備えた、請求項1に記載の文字認識装置。 - 前記文字形態判別部は、自動またはユーザ入力により文字の形態を判別する、請求項1または2に記載の文字認識装置。
- 前記第1の形態は、文字の活字の形態であり、前記第2の形態は、文字の手書きの形態である、請求項1から3のいずれかに記載の文字認識装置。
- 前記第1の文字認識処理部は、処理速度優先である文字を処理し、前記第2の文字認識処理部は、処理精度優先である文字を処理する、請求項1から4のいずれかに記載の文字認識装置。
- 前記第1の形態は、アルファベット文字の形態であり、前記第2の形態は、日本語の文字の形態である、請求項1から5のいずれかに記載の文字認識装置。
- 前記第1および第2の文字認識処理部の一方が、高解像度の文字を処理し、他方が、低解像度の文字を処理する、請求項1から6のいずれかに記載の文字認識装置。
- 前記前記第1および第2の文字認識処理部は、それぞれ異なる文字認識エンジンを用いて処理を行なう、請求項1から7のいずれかに記載の文字認識装置。
- 前記文字形態判別部は、前記画像入力部により入力された文書画像のブロックごとに、またはページごとに文字の形態を判別する、請求項1から8のいずれかに記載の文字認識装置。
- 形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置の制御方法であって、
文書画像を入力する画像入力ステップと、
前記画像入力ステップにより入力された文書画像の文字部分における文字の形態を判別する文字形態判別ステップと、
前記文字形態判別ステップにより文字が第1の形態であると判別されたときに、第1の種類の認識処理を行なう第1の文字認識処理ステップと、
前記文字形態判別ステップにより文字が第2の形態であると判別されたときに、第2の種類の認識処理を行なう第2の文字認識処理ステップとを備え、
前記第2の種類の認識処理ステップでは、処理を実行しない、バックグラウンドで処理を実行する、または外部装置で処理を実行する、文字認識装置の制御方法。 - 形態の異なる文字が含まれる文書画像の文字を認識して文字コード化する文字認識装置の制御プログラムであって、
文書画像を入力する画像入力ステップと、
前記画像入力ステップにより入力された文書画像の文字部分における文字の形態を判別する文字形態判別ステップと、
前記文字形態判別ステップにより文字が第1の形態であると判別されたときに、第1の種類の認識処理を行なう第1の文字認識処理ステップと、
前記文字形態判別ステップにより文字が第2の形態であると判別されたときに、第2の種類の認識処理を行なう第2の文字認識処理ステップとをコンピュータに実行させ、
前記第2の種類の認識処理ステップでは、処理を実行しない、バックグラウンドで処理を実行する、または外部装置で処理を実行する、文字認識装置の制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007014910A JP2008181383A (ja) | 2007-01-25 | 2007-01-25 | 文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007014910A JP2008181383A (ja) | 2007-01-25 | 2007-01-25 | 文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008181383A true JP2008181383A (ja) | 2008-08-07 |
Family
ID=39725234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007014910A Withdrawn JP2008181383A (ja) | 2007-01-25 | 2007-01-25 | 文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008181383A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016009318A (ja) * | 2014-06-24 | 2016-01-18 | コニカミノルタ株式会社 | 画像処理装置、文字認識処理方法および文字認識処理プログラム |
JP2020135296A (ja) * | 2019-02-18 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および情報処理システム |
-
2007
- 2007-01-25 JP JP2007014910A patent/JP2008181383A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016009318A (ja) * | 2014-06-24 | 2016-01-18 | コニカミノルタ株式会社 | 画像処理装置、文字認識処理方法および文字認識処理プログラム |
JP2020135296A (ja) * | 2019-02-18 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および情報処理システム |
JP7298178B2 (ja) | 2019-02-18 | 2023-06-27 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および情報処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8131081B2 (en) | Image processing apparatus, and computer program product | |
JP5915628B2 (ja) | 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム | |
US8201084B2 (en) | Image processing apparatus and computer readable medium | |
US20060285748A1 (en) | Document processing device | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
JP2003259112A (ja) | 透かし情報抽出装置及びその制御方法 | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
JP2010218249A (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
US9218327B2 (en) | Optimizing the layout of electronic documents by reducing presentation size of content within document sections so that when combined a plurality of document sections fit within a page | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
US11146705B2 (en) | Character recognition device, method of generating document file, and storage medium | |
JP2008181383A (ja) | 文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム | |
RU2571379C2 (ru) | Интеллектуальная обработка электронного документа | |
US20220309227A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
US11972208B2 (en) | Information processing device and information processing method | |
JP4001446B2 (ja) | 画像背景色特定のための方法、装置及びコンピュータ読み取り可能な記録媒体 | |
US11657632B2 (en) | Image processing device, image reading device, image processing method, and non-transitory computer readable medium, using two pieces of image data | |
JP2010105191A (ja) | 画像処理装置 | |
JP4862942B2 (ja) | 画像処理装置、画像処理方法およびそのプログラム | |
JP4823049B2 (ja) | 文書画像検索装置及びプログラム | |
US11394845B2 (en) | Image forming apparatus, method of controlling the same, and storage medium | |
US20230325126A1 (en) | Information processing apparatus and method and non-transitory computer readable medium | |
JP2008210327A (ja) | 文字画像出力システム及び文字画像出力方法 | |
US20230137350A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100406 |