JP2008276677A

JP2008276677A - 文字認識支援装置、文字認識装置及びプログラム

Info

Publication number: JP2008276677A
Application number: JP2007122285A
Authority: JP
Inventors: Etsuko Ito; 悦子伊藤; Katsuhiko Itonori; 勝彦糸乘; Hironari Konno; 裕也今野; Masahiro Kato; 雅弘加藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-05-07
Filing date: 2007-05-07
Publication date: 2008-11-13

Abstract

【課題】原稿の原本性を確保しつつ、原稿が多くなっても、文字認識装置によって文字列が認識される対象となる、原稿内の領域を、効率よく指定することができるようにするための文字認識支援装置及びプログラムを提供する。
【解決手段】文字列が記入されている記入済原稿とレイアウトが共通する作業用原稿１２に、所定の目印１４を付す。この作業用原稿１２をスキャンすることによって、生成される基準画像が生成される。この基準画像内の前記目印１４の位置に基づいて、前記記入済原稿内の、文字列が記入された領域を示す、認識位置データを生成する。
【選択図】図２

Description

本発明は、文字認識支援装置、文字認識装置及びプログラムに関する。

近年、例えば、商品名、会社名、金額などの文字列が配置されている帳票などの原稿を読み取って生成した帳票画像から、所望の文字列だけ、例えば、会社名を示す文字列だけを文字認識装置により認識し、その文字列を帳票画像と関連付けて、ハードディスクなどの記憶装置に蓄積することがよく行われている。

こうすれば、原稿に記入された、例えば会社名などの文字列をキーとして画像の検索が行えるので、記憶装置に蓄積された画像が有効に活用されることが期待できる。

文字認識装置が所望の文字列を認識する対象となる、原稿内の領域を指定する方法は既にいくつか提案されている。

例えば、特許文献１には、紙原稿上に直接マーカーなどで目印を付すことによって当該領域を指定する方法が開示されている。

また、特許文献２には、紙原稿とは別の領域指定シートにマーカーなどで目印を付すことによって当該領域を指定する方法が開示されている。
特開２００４−８２４７３号公報特開昭６１−１３８６７号公報

前記特許文献１に開示されている方法によれば、所望の文字列を認識する対象となる領域を容易に指定することができる。しかし、この方法によれば、原稿の原本性が確保されない。また、原稿毎に目印を付す必要があるため、処理の対象となる原稿が多くなるに従って手間がかかることとなる。

一方、前記特許文献２に開示されている方法によれば、原稿の原本性は確保されるが、原稿毎に領域指定シートを作成する手間がかかるため、処理の対象となる原稿が多くなるに従って、やはり手間がかかることとなる。

本発明は上記課題に鑑みてなされたものであって、その目的は、原稿の原本性を確保しつつ、原稿が多くなっても、文字認識装置によって文字列が認識される対象となる、原稿内の領域を、効率よく指定することができるようにするための文字認識支援装置及びプログラムを提供することにある。

上記目的を達成するために、請求項１に記載の文字認識支援装置は、文字列が記入されている記入済原稿とレイアウトが共通する原稿であって、所定の目印が付されている作業用原稿を読み取って生成される画像を取得する手段と、前記作業用原稿に付されている前記目印を識別する識別手段と、前記識別手段により識別される前記目印の位置に基づいて、前記記入済原稿内の、文字列が記入された領域を示す、認識位置データを生成する認識位置データ生成手段と、を含むことを特徴とする。

請求項２に記載の文字認識支援装置は、請求項１に記載の文字認識支援装置であって、前記作業用原稿には複数の種類の目印が付されており、前記識別手段は、前記作業用原稿に付された複数の種類の目印を識別し、前記認識位置データ生成手段は、前記識別手段により識別されたそれぞれの目印の位置に基づいて、前記記入済原稿内の、文字列が記入された複数の領域を示す、認識位置データを生成する、ことを特徴とする。

請求項３に記載の文字認識支援装置は、請求項１又は２に記載の文字認識支援装置であって、前記作業用原稿のレイアウトを解析する手段をさらに含む、ことを特徴とする。

請求項４に記載の文字認識支援装置は、請求項１乃至３に記載の文字認識支援装置であって、前記識別手段により識別される目印を示す目印データ生成用原稿を読み取って生成される目印データ生成用画像を取得する手段と、前記目印データ生成用画像に基づいて、前記識別手段により識別される前記目印を示す目印データを生成する目印データ生成手段をさらに含み、前記識別手段は、前記目印データが示す前記目印に基づいて、前記作業用原稿に付されている前記目印を識別する、ことを特徴とする。

請求項５に記載の文字認識支援装置は、請求項１乃至４に記載の文字認識支援装置であって、前記認識位置データ生成手段により生成される前記認識位置データが示す、前記記入済原稿内の、文字列が記入された領域が、前記作業用原稿内における位置によって表現される、ことを特徴とする。

請求項６に記載の文字認識装置は、請求項１に記載の文字認識支援装置において生成される認識位置データに基づいて、前記記入済原稿内の、文字列が記入されている領域を特定する手段と、前記記入済原稿内の前記文字列を認識する手段と、を含むことを特徴とする。

請求項７に記載のプログラムは、文字列が記入されている記入済原稿とレイアウトが共通する原稿であって、所定の目印が付されている作業用原稿を読み取って生成される画像を取得する手段、前記作業用原稿に付されている前記目印を識別する識別手段、前記識別手段により識別される前記目印の位置に基づいて、前記記入済原稿内の、文字列が記入された領域を示す、認識位置データを生成する認識位置データ生成手段、としてコンピュータを機能させることを特徴とする。

また、上記のプログラムはコンピュータ読み取り可能な情報記憶媒体に格納することもできる。

請求項１に記載の発明によれば、原稿の原本性を確保しつつ、原稿が多くなっても、文字認識装置によって文字列が認識される対象となる、原稿内の領域を、効率よく指定することができる。

請求項２に記載の発明によれば、文字認識装置によって文字列が認識される対象となる、原稿内の複数の領域を、それぞれ区別して指定できる。

請求項３に記載の発明によれば、原稿が微調整されたり、原稿から生成される画像に歪みや傾きが生じたりする場合でも、文字認識装置によって文字列が認識される対象となる、原稿内の領域を、精度よく指定することができる。

請求項４に記載の発明によれば、目印データ生成用原稿に基づいて、目印データを生成することができるので、目印データを容易に生成することができる。

請求項５に記載の発明によれば、文字認識装置において記入済原稿内の文字列を認識する際に、作業用原稿内の領域の位置の情報を利用することができる。

請求項６に記載の発明によれば、請求項１に記載の文字認識支援装置によって所定の目印が付されている作業用原稿を用いて生成された認識位置データに基づいて、文字列が認識される対象となる、原稿内の領域に、記入されている文字列を認識することができる。

請求項７に記載の発明によれば、原稿の原本性を確保しつつ、原稿が多くなっても、文字認識装置によって文字列が認識される対象となる、原稿内の領域を、効率よく指定するようコンピュータを機能させることができる。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

まず、本発明の概要を説明する。

図１は、本発明の実施形態に係る文字認識支援装置と文字認識装置における文字認識処理の対象となる文字列が記入された記入済原稿１０の一例である。

まず、図１に示した複数の記入済原稿１０のうちの一枚の記入済原稿１０を、本文字認識支援装置の利用者がコピーする。このコピーを作業用原稿と呼ぶこととする。そして、この作業用原稿内の所定の文字列に対して目印を付すことにより、文字列を認識する対象となる領域を利用者が指定する。例えば、図２に示すように、作業用原稿１２にカラーマーカーなどにより、ラインを引くなどして、目印１４を付すことにより領域を指定する。図２では白黒の模様により目印１４が表現されているが、実際には、それぞれの目印１４について、異なる色のカラーマーカーによる目印１４（例えば、起票日は青、請求元は赤、金額は黄色）が付されている。

そして、本文字認識支援装置において、利用者がこの作業用原稿１２をスキャンすることによって、図３に示す基準画像１６が生成される。

そして、この基準画像１６に基づいて、認識位置データが生成される。認識位置データの詳細は後述する。

そして、文字認識支援装置において生成された認識位置データは自動的に文字認識装置に入力される。文字認識支援装置と文字認識装置とは同一筐体で構成することができ、その場合は、上記の認識位置データの入力は不要となる。

最後に、文字認識装置において、図１に示す処理対象となる記入済原稿１０を利用者が次々とスキャンすることによって、図４に示すように、各記入済原稿１０に記入されている、例えば、起票日、請求元、金額を示す認識対象文字列１８が、各記入済原稿１０をスキャンすることによって生成された画像、及び、属性名２０と関連付けられて文字認識装置内、またはデータベース内にデータとして蓄積される。

以下、本発明の実施形態に係る文字認識支援装置、及び、文字認識装置の詳細について説明する。

本発明の実施形態に係る文字認識支援装置は、例えば、スキャナとしての機能などを複合的に有するいわゆる複合機と一体的に構成される。また、文字認識装置も同様の構成である。先に述べたとおり、これらの文字認識支援装置と文字認識装置は一つの筐体で構成しても、複数の筐体で構成してもよい。図５に示す情報処理装置３０は、一つの筐体で文字認識支援装置の機能と文字認識装置の機能を兼ね備えている。

図５に示すように、この情報処理装置３０は、制御部３２、ユーザインタフェース（ＵＩ）部３４、スキャナ部３６、記憶部３８を含んで構成される。

制御部３２は、ＣＰＵ等のプログラム制御デバイスであり、記憶部３８に格納されているプログラムに従って動作している。

ＵＩ部３４は、液晶タッチパネルや、ディスプレイ、テンキーなどのキーパッドなどであり、利用者が行った操作の内容を制御部３２に出力する。また、このＵＩ部３４は、制御部３２から入力される指示に従って情報を表示出力する。

スキャナ部３６は、フラットベッドスキャナなどであり、例えば、読み取り面に置かれた紙原稿を光学的に読み取って、その画像を生成し、制御部３２に出力する。

記憶部３８は、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などの記憶素子を含んで構成される。また、この記憶部３８は、例えばＳＲＡＭ（static RAM）や、ハードディスク装置など、電源切断時にも記憶している情報を保持できる不揮発性の記憶手段を含んでもよい。この記憶部３８には、制御部３２によって実行されるプログラムが格納され、また、制御部３２のワークメモリとしても動作する。記憶部３８には、目印データなどのデータが記憶される。記憶されるデータの詳細は後述する。

次に、図６を参照しながら、文字認識支援装置４０の制御部で実現される各機能を説明する。

図６は、文字認識支援装置４０の制御部で実現される各機能の関係を示す機能ブロック図である。図６に示すように、文字認識支援装置４０は、機能的には、目印データ生成部４２、基準画像取得部４４、目印分離部４６、基準認識対象領域特定部４８、認識位置データ生成部５０、認識位置データ出力部５２から構成される。

これらの要素は、コンピュータである文字認識支援装置４０にインストールされた文字認識支援プログラムを、文字認識支援装置４０に含まれるＣＰＵ等の制御部３２で実行することにより実現されている。なお、この文字認識支援プログラムは、例えば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の情報伝達媒体を介して、あるいは、インターネット等の通信ネットワークを介して文字認識支援装置４０に供給される。

以下、各機能ブロックによって行われる処理を説明する。

目印データ生成部４２では、例えば、図７に示す目印データ５４が生成される。目印データ５４は、カラーマーカーなどにより付された目印１４と、この目印１４に関連する関連文字列、例えば、属性名２０とが関連付けられたデータである。この、属性名２０は、例えばキーワードなどでもよい。図７では、複数の目印データ５４をまとめた目印データ表５６による表形式で目印データ５４を表現している。もちろん、目印データ５４の表現形式は表形式には限られない。

ここで、目印データ５４の生成方法の一例を以下に示す。

まず、例えば、図８に示す、属性名２０と、目印１４とが関連付けられた表が記入された目印データ生成用原稿５８を、スキャナ部３６でカラースキャンして、目印データ生成用画像を生成する。図８では、白黒の模様により目印１４が表現されているが、実際には、それぞれの目印１４について、異なる色のカラーマーカーによる目印１４（例えば、起票日は青、請求元は赤、金額は黄色）が付されている。このように、複数の種類の目印１４について、目印データ５４を生成しても構わない。

そして、この目印データ生成用画像を目印データ生成部４２が取得する。そして、目印データ生成部４２が、この目印データ生成用画像内の罫線で区切られた各領域の相対的な位置を示すレイアウトを解析して、その結果に基づいて、図７に示す、属性名２０と目印１４とが関連付けられた目印データ５４を含む目印データ表５６を生成する。

このようにして生成された目印データ５４は文字認識支援装置４０内の記憶部３８に出力される。なお、目印データ５４の生成方法は上記方法に限られない。

基準画像取得部４４では、処理対象となる記入済原稿１０（図１参照）のうちの一枚のコピー（すなわち、作業用原稿１２（図２参照））をスキャナ部３６において読み取って生成される基準画像１６（図３参照）が取得される。図２に示すように、この作業用原稿１２にはカラーマーカーにより目印１４が付されている。

目印分離部４６では、図９に示すように、例えば、限定色化や指定色抽出を使用することによって特定される、マーカー色が付された位置を示す目印画像６０が基準画像１６から分離される。なお、複数色のマーカーによって基準画像１６に目印１４が付されている（図３参照）場合は、それぞれの色毎に目印画像６０を生成してもよい。このようにして、基準画像１６から目印画像６０が分離されることによって、図１０に示す目印分離後基準画像６２が生成される。このようにして、作業用原稿１２（図２参照）に付された複数の種類の目印１４を識別することができる。また、特に、本実施形態のように、異なる色のカラーマーカーによって各目印１４が作業用原稿１２に付されている場合には、各目印１４を容易に識別することができる。

基準認識対象領域特定部４８では、図９に示す目印画像６０のレイアウト解析が行われ、図１１に示すように、目印画像６０内において目印が付されている目印領域６４の座標が認識される。

また、図１０に示す目印分離後基準画像６２のレイアウト解析が行われ、目印分離後基準画像６２内において文字列が記入されているそれぞれの領域（以下、基準領域６６と呼ぶ）の座標が図１２に示すように認識される。

そして、各基準領域６６について、目印画像６０内の目印領域６４と交差している（例えば、一方の領域がもう一方の領域を包含している場合なども含む）か否かが判定され、交差していると判断された基準領域６６が基準認識対象領域６８として特定される。例えば、目印領域６４と基準領域６６とが重なっている面積の、目印領域６４の面積に占める割合が閾値以上となっている基準領域６６が基準認識対象領域６８として特定される。

認識位置データ生成部５０では、前記基準認識対象領域６８を含む各前記基準領域６６の位置を示す、図１３に示す認識位置データ７０が生成される。そして、認識位置データ生成部５０において、認識位置データ７０が示す基準認識対象領域６８に、この基準認識対象領域６８に対応する目印１４と関連付けられた属性名２０が関連付けられる。なお、図１３に示す認識位置データ７０は、各基準領域６６の相対的な位置を示す表形式で表現されているが、表現方法はこの限りではない。例えば、各基準領域６６の位置を示す他の方法を用いることができる。具体的には、表形式ではなく、例えばツリー構造など、各基準領域６６の相対的な位置を示す論理構造により表現してもよい。また、各基準領域６６の位置を絶対座標により表現してもよい。

認識位置データ出力部５２では、基準認識対象領域６８に属性名２０が関連付けられた認識位置データ７０が記憶部３８に出力される。

次に、図６に示した、文字認識支援装置４０の各機能により行われる処理のうち、基準画像１６が取得されてから認識位置データ７０が生成されるまでの処理の流れを図１４に示すフロー図を参照しながら説明する。ここでは、目印データ生成部４２において生成された目印データ５４は、既に記憶部３８に記憶されていることとする。

まず、基準画像取得部４４が基準画像１６を取得する（Ｓ１０１）。

次に、目印分離部４６が、基準画像１６を、目印画像６０と目印分離後基準画像６２に分離する（Ｓ１０２）。

次に、基準認識対象領域特定部４８が、目印分離後基準画像６２のレイアウトを解析し、目印分離後基準画像６２内の基準領域６６の座標を認識する（Ｓ１０３）。

並行して、基準認識対象領域特定部４８が、目印画像６０内の、目印１４が付されている目印領域６４の座標を認識する（Ｓ１０４）。もちろん、Ｓ１０３の処理とＳ１０４の処理の前後は問わず、並行に処理しても、順次処理しても構わない。

そして、基準認識対象領域特定部４８が、基準領域６６のうちから基準認識対象領域６８を特定する（Ｓ１０５）。

基準認識対象領域６８が特定されたら、認識位置データ生成部５０が、認識位置データ７０を生成する（Ｓ１０６）。

最後に、認識位置データ出力部５２が、認識位置データを記憶部３８に出力する（Ｓ１０７）。

ここで、Ｓ１０５における基準認識対象領域特定部４８による処理の詳細を図１５に示すフロー図を参照しながら説明する。

まず、目印領域６４を一つ選択する（Ｓ２０１）。

次に、基準画像１６に含まれる基準領域６６のうちから一つを選択する（Ｓ２０２）。

次に、選択された基準領域６６と選択された目印領域６４とが重なっている部分の面積の、目印領域６４の面積に対する割合を計算する（Ｓ２０３）。

次に、この割合が所定の閾値以上であるかどうかを判定する（Ｓ２０４）。

この割合が所定の閾値以上である場合は（Ｓ２０４：Ｙ）、この基準領域６６を基準認識対象領域６８として特定する（Ｓ２０５）。

この割合が所定の閾値未満である場合には（Ｓ２０４：Ｎ）、まだ選択されていない基準領域６６のうちから一つの基準領域６６を選択（Ｓ２０６）して、Ｓ２０３の処理を再び行う。

Ｓ２０５において基準認識対象領域６８が特定された場合は、まだ選択されていない目印領域６４があるか否かの確認を行う（Ｓ２０７）。

まだ選択されていない目印領域６４がある場合は（Ｓ２０７：Ｙ）、まだ選択されていない目印領域６４のうちから一つの目印領域６４を選択して（Ｓ２０８）、Ｓ２０２の処理を再び行う。

まだ選択されていない目印領域６４がない場合は（Ｓ２０７：Ｎ）、処理を終了する。

このようにして、基準領域６６のうちから基準認識対象領域６８が特定された後、Ｓ１０６の処理が行われることとなる。なお、上記の基準認識対象領域６８を特定する方法は、一つの例にすぎず、他の方法によって基準認識対象領域６８を特定しても構わない。

以上説明した文字認識支援装置４０によれば、原稿の原本性を確保しつつ、原稿が多くなっても、文字認識装置が原稿内の文字列を認識する対象となる領域を効率よく指定することができる。

また、上記方法によって、複数の種類の帳票などについて、作業用原稿１２に基づいて認識位置データ７０を生成し、記憶部３８に出力しても構わない。

次に、図１６を参照しながら、文字認識装置７２の制御部で実現される各機能を説明する。

図１６は、文字認識装置７２の制御部で実現される各機能の関係を示す機能ブロック図である。図１６に示すように、文字認識装置７２は、機能的には、読取画像取得部７４、読取領域特定部７６、読取領域データ生成部７８、認識位置特定部８０、認識対象文字列認識部８２、認識対象文字列出力部８４から構成される。

これらの要素は、コンピュータである文字認識装置７２にインストールされた文字認識支援プログラムを、文字認識装置７２に含まれるＣＰＵ等の制御部３２で実行することにより実現されている。なお、この文字認識支援プログラムは、例えば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の情報伝達媒体を介して、あるいは、インターネット等の通信ネットワークを介して文字認識装置７２に供給される。

以下、各機能ブロックによって行われる処理のフローを図１７に示すフロー図を参照しながら説明する。

なお、本実施形態では、レイアウトが異なる複数の認識位置データ７０が記憶部３８に記憶されていることとする。

まず、読取画像取得部７４が、処理対象となる記入済原稿１０（図１参照）をスキャナ部３６において読み取って生成される読取画像８６を取得する（Ｓ３０１）。図１８に読取画像の一例を示す。

次に、読取領域特定部７６が、図１９に示す、読取画像８６内の、文字列が記入されているそれぞれの領域（以下、読取領域８８と呼ぶ）のレイアウトを解析し、読取領域８８の座標を認識する（Ｓ３０２）。

次に、読取領域データ生成部７８が、図２０に示すように、前記読取領域８８の位置を示す読取領域データ９０を生成する（Ｓ３０３）。本実施形態では、各読取領域８８の相対的な位置を示すよう表形式で表現するが、表現方法はこの限りではない。

次に、認識位置特定部８０において、記憶部３８に記憶されている認識位置データ７０のうちから、この読取領域データ９０にレイアウトが対応する認識位置データ７０を特定する（Ｓ３０４）。

このように、レイアウトが異なる複数の認識位置データ７０が記憶部３８に記憶されており、Ｓ３０４において、読取領域データ９０に対応するレイアウトを選択するようにすると、レイアウトが異なる複数の種類の記入済原稿１０（例えば、帳票）に対しても、利用者はそれらの記入済原稿１０を次々とスキャンして、まとめて処理することができるので、利用者の利便性はさらに向上する。

なお、本実施形態では、文字認識装置７２と文字認識支援装置４０は一つの筐体である情報処理装置３０によって構成されているため、文字認識支援装置４０において記憶部３８に出力された認識位置データ７０は、文字認識装置７２において取得することができる。文字認識支援装置４０と文字認識装置７２が別々の筐体で構成されている場合は、事前に文字認識装置７２に含まれる記憶部３８に、前記認識位置データ７０を入力しておく必要がある。

次に、認識位置特定部８０が、図２０に示すように、Ｓ３０４において特定された認識位置データ７０が示す基準認識対象領域６８の相対的な位置に対応する、読取領域データ９０内の認識位置９２を特定する（Ｓ３０５）。

次に、認識位置特定部８０が、それぞれの認識位置９２に対応する、基準認識対象領域６８と関連付けられている属性名２０を記憶部３８から取得して、認識位置９２に関連付ける（Ｓ３０６）。

次に、認識対象文字列認識部８２が、認識位置９２によって示される領域内の文字列を認識する（Ｓ３０７）。

次に、認識対象文字列出力部８４において認識された文字列と、Ｓ３０６において取得した属性名２０と、読取画像８６を関連付けて記憶部３８に出力する（Ｓ３０８）。本実施形態では、図４に示す表の「処理Ｎｏ．１」の行に示すように、「２００６／０８／２３」という文字列が「起票日」という属性名２０と、「（株）ｄｅｆｇＨ」という文字列が「請求元」という属性名２０と、「￥２１，０００」という文字列が「金額」という属性名２０と関連付けられて記憶部３８に出力される。

そして、すべての記入済原稿１０について上記の処理を行ったか否かについて確認し（Ｓ３０９）、まだすべての記入済原稿１０について上記の処理を行っていない場合は（Ｓ３０９：Ｎ）、まだ処理を行っていない記入済原稿１０を読み取ることにより生成される読取画像８６を取得する（Ｓ３０１）。すべての原稿について画像処理が完了している場合は（Ｓ３０９：Ｙ）、処理を終了する。

ここで、Ｓ３０４における認識位置特定部８０の処理の詳細を図２１に示すフロー図を参照しながら説明する。

まず、記憶部３８に記憶されている認識位置データ７０のうちの一つを選択する（Ｓ４０１）。

そして、この選択された認識位置データ７０が示す各基準領域６６の配置と、読取領域データ９０が示す各読取領域８８の配置が対応しているかどうかを所定の基準に従って判断する（Ｓ４０２）。例えば、基準領域６６と読取領域８８の行数が等しく、基準領域６６と読取領域８８の列数が等しく、領域が連結されている箇所が対応している場合には、配置は対応していると判断するなどとすることができる。

領域の配置が対応していると判断した場合は（Ｓ４０２：Ｙ）、この認識位置データ７０が、読取領域データ９０に対応する認識位置データ７０として特定されたこととなるので、Ｓ３０４の処理を終了し、Ｓ３０５の処理へ進む。

領域の配置が対応していないと判断した場合は（Ｓ４０２：Ｎ）、領域の配置の比較を行っていない認識位置データ７０を選択し（Ｓ４０３）、Ｓ４０２の処理を行う。

このようにして、読取領域データ９０にレイアウトが対応する認識位置データ７０が特定された後に、Ｓ３０５の処理が行われることとなる。なお、上記の認識位置データ７０を特定する方法は、一つの例にすぎず、他の方法によって認識位置データ７０を特定しても構わない。

以上説明した文字認識装置７２によれば、文字認識支援装置４０によって、所定の目印が付されている作業用原稿を用いて生成された認識位置データ７０に基づいて、原稿内の領域に記入されている文字列を認識することができる。

また、上記の実施形態では、認識位置データ７０が示す基準認識対象領域６８の相対的な位置に対応する、読取領域データ９０内の認識位置９２を特定している。例えば文書作成ソフトウェアなどには、原稿内の各領域に記載される文字数に応じて、文字列を認識する対象となる領域が微調整されるものがある。また、紙原稿を読み取って生成された画像に歪みや傾きが生じることがある。このように原稿が微調整されたり、原稿から生成される画像に歪みや傾きが生じたりする場合には、文字列を認識する対象となる領域内に文字列が正しく示されない場合がある。このような場合においても、上記の実施形態では、認識位置９２を精度よく指定できるため、所望の文字列を精度よく認識することができ、利用者の利便性が向上する。

また、上記の実施形態では、パーソナルコンピュータ等の機器を併用することなく、処理を行うことができる。

なお、本発明は上記実施形態に限定されるものではない。

例えば、上記実施形態の文字認識支援装置４０では、カラーマーカーによる目印１４を示す目印データ５４を用いたが、四角や丸などの図形や、チェックマークなど、領域を特定しうる他の目印１４を用いてもよい。この場合、目印分離部４６において、公知のパターン認識技術などを用いて目印画像６０を基準画像１６から分離する必要がある。一方、カラーマーカーによって目印１４を付すと、限定色化や指定色抽出などにより、基準画像１６を、目印画像６０と目印分離後基準画像６２とに容易に分離できるので、基準認識対象領域特定部４８が目印分離後基準画像６２のレイアウト解析を容易に行うことができる。

上記実施形態の文字認識支援装置４０の目印データ生成部４２において、目印データ生成用原稿５８をスキャナ部３６で読み取ることによって目印データ５４を生成したが、この方法は目印データ５４を生成する方法の一例にすぎない。例えば、目印データ生成用原稿５８内の属性名２０を記した文字の近辺、（例えば、文字の上）に目印１４を付す方法、目印データ生成用原稿５８に属性名２０を示す文字列を目印１４のマーカーの色によって記入する方法、予め目印データ生成用原稿５８内の定められた位置に属性名２０を対応付けておき、その定められた位置にマーカーによって目印１４を付す方法などの他の方法が挙げられる。

また、各目印１４を示すＲＧＢ値や、Ｌａｂ値などを、利用者がＵＩ部３４を介して入力して、その入力された値に基づいて目印データ生成部４２において目印データ５４が生成されるようにしてもよい。

また、各目印１４を、一つの値（ＲＧＢ値、Ｌａｂ値など）によって示さず、値（ＲＧＢ値、Ｌａｂ値など）の範囲によって示すことも考えられる。

また、利用者がＵＩ部３４を介して色相を入力しておき、その後、利用者がスキャナ部３６を介して目印データ生成用原稿５８をスキャンして得られた画像に基づいて、前記色相を調整して求められた色値に基づいて目印データ５４を生成してもよい。

上記実施形態では、文字認識支援装置４０の基準画像取得部４４において、作業用原稿１２をカラースキャンすることによって基準画像１６を生成したが、白黒多値スキャンによってそれぞれの目印１４が識別可能な場合などは、白黒多値スキャンによって基準画像１６を生成しても構わない。

上記実施形態において生成された目印データ５４を記憶部３８に記憶して、再利用することも考えられる。こうすれば、目印データ生成部４２における目印データ５４の生成処理の手間を省くことができる。

上記実施形態では、文字認識支援装置４０の基準認識対象領域特定部４８、及び、文字認識装置７２の読取領域特定部７６においてレイアウト解析処理を行ったが、これらの処理を行わず、目印領域６４の絶対座標と読取領域８８の絶対座標を比較して、認識位置９２を特定する構成も考えられる。

上記実施形態では、文字認識支援装置４０の目印分離部４６において、基準画像１６から目印画像６０を分離したが、基準画像１６から目印画像６０を分離しないで、基準認識対象領域特定部４８において、基準画像１６のレイアウト解析を行う構成も考えられる。

上記実施形態において、文字認識支援装置４０の目印分離部４６において、基準画像１６から目印１４を識別することができず、目印画像６０が生成できない場合も考えられる。この場合、目印画像６０が生成できない旨を、ＵＩ部３４を介して利用者に通知する構成や、目印データ５４が示す目印１４と色相が対応する目印を識別して、目印画像６０を生成するという構成などが考えられる。

上記実施形態では、文字認識装置７２の認識位置特定部８０において、記憶部３８に記憶されている認識位置データ７０のうちから、この読取領域データ９０にレイアウトが対応する認識位置データ７０を特定する（Ｓ３０４）処理を行っているが、この処理において、読取領域データ９０にレイアウトが対応する認識位置データ７０が特定できない場合が考えられる。この場合、認識位置データ７０が特定できない旨を利用者にＵＩ部３４を介して通知する構成や、所与の方法によって計算されるレイアウト類似度に基づいて、認識位置データ７０を特定する構成も考えられる。

また、各認識位置データ７０内の各基準領域６６を、作業用原稿１２において各基準領域６６内に記入されている文字列と関連付けて記憶部３８に記憶しておき、記入済原稿１０内の各読取領域８８内に記入されている文字列の形式（日付、英字、漢字、数字など）と、基準領域６６内に記入されている文字列の形式が対応する認識位置データ７０を特定するという構成も考えられる。

上記実施形態では、文字認識装置７２の認識位置特定部８０での、読取領域データ９０にレイアウトが対応する認識位置データ７０を特定する（Ｓ３０４）処理において、一つの認識位置データ７０が特定された時点で処理を終了している。しかし、実際には、読取領域データ９０にレイアウトが対応する認識位置データ７０が複数特定されうる場合が考えられる。この場合、読取領域８８内の文字列の形式が、記入済原稿１０内の基準認識対象領域６８と関連付けられている属性名２０として適した形式となっているか否かを判断することなどによって、認識位置データ７０を特定することができる。例えば、基準認識対象領域６８と関連付けられている属性名２０が「起票日」である読取領域８８に、日付形式の文字列が記入されていればこの基準認識対象領域６８を含む認識位置データ７０が、読取領域データ９０に対応する認識位置データ７０として特定されるといったことができる。

あるいは、例えば、あらかじめ定められた指定方向（左右、あるいは、上下など）の行数（列数）が対応している認識位置データ７０を優先して読取領域データ９０に対応する認識位置データ７０として特定するということも考えられる。

また、読取領域データ９０内の各読取領域８８の面積と対応する認識位置データ７０を優先して読取領域データ９０に対応する認識位置データ７０として特定することも考えられる。この場合は、文字認識支援装置４０の認識位置データ生成部５０において認識位置データ７０を生成する際に、認識位置データ７０内の各基準領域６６の面積を各基準領域６６と関連付けておくことが必要となる。

記入済原稿の一例を示す図である。作業用原稿の一例を示す図である。基準画像の一例を示す図である。文字認識装置内に蓄積されるデータの一例を示す図である。本発明の一実施形態に係る情報処理装置を示す図である。本発明の一実施形態に係る文字認識支援装置の機能ブロック図である。目印データの一例を示す図である。目印データ生成用原稿の一例を示す図である。目印画像の一例を示す図である。目印分離後基準画像の一例を示す図である。目印領域の座標が認識された目印画像の一例を示す図である。基準領域の座標が認識された目印分離後基準画像の一例を示す図である。認識位置データの一例を示す図である。基準画像を取得してから認識位置データを生成するまでの処理のフローを示す図である。図１４内のＳ１０５の処理の詳細のフローを示す図である。本発明の一実施形態に係る文字認識装置の機能ブロック図である。文字認識装置おいて行われる処理のフローを示す図である。読取画像の一例を示す図である。読取領域の座標が認識された読取画像の一例を示す図である。読取領域データの一例を示す図である。図１７内のＳ３０４の処理の詳細のフローを示す図である。

符号の説明

１０記入済原稿、１２作業用原稿、１４目印、１６基準画像、１８認識対象文字列、２０属性名、３０情報処理装置、３２制御部、３４ＵＩ部、３６スキャナ部、３８記憶部、４０文字認識支援装置、４２目印データ生成部、４４基準画像取得部、４６目印分離部、４８基準認識対象領域特定部、５０認識位置データ生成部、５２認識位置データ出力部、５４目印データ、５６目印データ表、５８目印データ生成用原稿、６０目印画像、６２目印分離後基準画像、６４目印領域、６６基準領域、６８基準認識対象領域、７０認識位置データ、７２文字認識装置、７４読取画像取得部、７６読取領域特定部、７８読取領域データ生成部、８０認識位置特定部、８２認識対象文字列認識部、８４認識対象文字列出力部、８６読取画像、８８読取領域、９０読取領域データ、９２認識位置。

Claims

文字列が記入されている記入済原稿とレイアウトが共通する原稿であって、所定の目印が付されている作業用原稿を読み取って生成される画像を取得する手段と、
前記作業用原稿に付されている前記目印を識別する識別手段と、
前記識別手段により識別される前記目印の位置に基づいて、前記記入済原稿内の、文字列が記入された領域を示す、認識位置データを生成する認識位置データ生成手段と、
を含むことを特徴とする文字認識支援装置。
請求項１に記載の文字認識支援装置であって、
前記作業用原稿には複数の種類の目印が付されており、
前記識別手段は、前記作業用原稿に付された複数の種類の目印を識別し、
前記認識位置データ生成手段は、前記識別手段により識別されたそれぞれの目印の位置に基づいて、前記記入済原稿内の、文字列が記入された複数の領域を示す、認識位置データを生成する、
ことを特徴とする文字認識支援装置。
請求項１又は２に記載の文字認識支援装置であって、
前記作業用原稿のレイアウトを解析する手段をさらに含む、
ことを特徴とする文字認識支援装置。
請求項１乃至３に記載の文字認識支援装置であって、
前記識別手段により識別される目印を示す目印データ生成用原稿を読み取って生成される目印データ生成用画像を取得する手段と、
前記目印データ生成用画像に基づいて、前記識別手段により識別される前記目印を示す目印データを生成する目印データ生成手段をさらに含み、
前記識別手段は、前記目印データが示す前記目印に基づいて、前記作業用原稿に付されている前記目印を識別する、
ことを特徴とする文字認識支援装置。
請求項１乃至４に記載の文字認識支援装置であって、
前記認識位置データ生成手段により生成される前記認識位置データが示す、前記記入済原稿内の、文字列が記入された領域が、前記作業用原稿内における位置によって表現される、
ことを特徴とする文字認識支援装置。
請求項１に記載の文字認識支援装置において生成される認識位置データに基づいて、前記記入済原稿内の、文字列が記入されている領域を特定する手段と、
前記記入済原稿内の前記文字列を認識する手段と、
を含むことを特徴とする文字認識装置。
文字列が記入されている記入済原稿とレイアウトが共通する原稿であって、所定の目印が付されている作業用原稿を読み取って生成される画像を取得する手段、
前記作業用原稿に付されている前記目印を識別する識別手段、
前記識別手段により識別される前記目印の位置に基づいて、前記記入済原稿内の、文字列が記入された領域を示す、認識位置データを生成する認識位置データ生成手段、
としてコンピュータを機能させることを特徴とするプログラム。