JP2010134833A

JP2010134833A - 文書処理装置、文書処理方法、プログラムおよび記録媒体

Info

Publication number: JP2010134833A
Application number: JP2008312221A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-12-08
Filing date: 2008-12-08
Publication date: 2010-06-17

Abstract

【課題】異体字を含む文書画像から電子化テキストを利用するまでを通じて、異体字を含む文書処理の不都合を解消し、利用者が所望する異体字処理を容易に実現できる装置を提供する。
【解決手段】この文書処理装置は、文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部６１を備える文書処理装置である。この装置は、さらに、異体字の有無により少なくとも２つにグループ分けされた文字セットの１つの指定を受け付ける指定受付部６３と、出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する判定部６４と、判定部６４がいずれかに一致すると判定した場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換する変換部６５とを備える。
【選択図】図５

Description

本発明は、異体字を含む文書に対して高い認識精度を達成し、認識結果を利用する環境が異体字を表示できない等の環境であっても不都合が生じない認識結果を出力することが可能な文書処理装置、文書処理方法、その方法を実現するためのコンピュータ可読なプログラムおよび記録媒体に関する。

文書画像を読み取り、文書ファイルとして記憶したり、編集したりするために、その文書画像を読み取る装置としてイメージスキャナが用いられている。このイメージスキャナは、OCR（光学文字認識）を利用して、画像情報を文字コード化する場合にも使用される。なお、OCRは、文書画像をコンピュータで編集可能な形式、すなわち文字コードの列に変換するソフトウェアである。

文字コードへの変換は、キーボードからの入力を受け付けてかな文字を表示し、そのかな文字を変換して漢字を表示する際にも利用されている。このかな文字から漢字への変換には、JISコード等が使用されている。

漢字には、多種類の字体を有するものがあり、こういった字体は、時代とともに変化していく。このため、文字コードは、随時改訂されるが、その改訂において、旧字体から新字体へと変更されたり、新たに追加されることが行われる。

文字には、現在使用される標準字体の文字以外に、旧字、略字等の異体字がある。異体字は、人名等で使用される場合が多いが、これらの異体字を使用したい場合、外字として登録することが一般的に行われている。

文字コードは、装置機種によって異なり、異なる機種では上記異体字が全く異なる文字に変換されたり、上記異字体の文字コードに対応する文字がなかったりすることがある。これでは文書の表現する意味が変化してしまう可能性があり、異体字を含む文書の内容の変動等をきたしてしまう。

そこで、異体字を含む文書の内容の変動等をきたすことなく受信することができる装置が提案されている（特許文献１参照）。この装置では、異体字の文字コードを削除し、普及文字コードのみに限定して変換する。このため、文書内容の変動等の恐れなくデータ交換を行うことが可能とされている。

また、入力語に対して、最も適切な異表記正規化処理を施し、文書検索時に検索漏れの発生を防止する技術も提案されている（特許文献２参照）。この技術は、データを利用する前に異体字を正規化するもので、入力テキストを１文字単位に抽出し、異表記正規化規則に基づいて、抽出した原表記に異表記正規化する。
特開平９−１３４３４８号公報特開２００７−１０２３２１号公報

上述した従来の技術は、異体字を含む電子テキストを変換することで、異体字の表示機能のない環境で生じる不都合を避けるための発明であり、異体字を含む文書画像を認識し、電子テキストへ変換する過程での異体字の取扱いを考慮したものではない。

そこで、異体字を含む文書画像から電子化テキストを利用するまでを通じて、異体字を含む文書処理の不都合を解消し、利用者が所望する異体字処理を容易に実現できる装置や方法の提供が望まれていた。

本発明は、上記課題に鑑み、ユーザが、認識結果を利用する環境で使用される、異体字の有無によりグループ分けされた文字セットの１つを指定し、その指定を受け付け、文字化け等するおそれのある文字コードか否かを判定し、するおそれのある文字コードである場合、その文字コードを、指定した文字セットの対応する文字の文字コードへ変換するように構成する。このようにして、利用環境で使用される文字セットに対応する文字コードへ変換されるため、文字化け等するおそれはなくなり、認識結果の流通上の不都合を避けることができる。

本発明では、これを実現するために、文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部を備える文書処理装置を提供することができ、その装置は、さらに、異体字の有無により少なくとも２つにグループ分けされた文字セットの１つの指定を受け付ける指定受付部と、出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する判定部と、判定部がいずれかに一致すると判定した場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換する変換部とを備える。

文字認識部は、文字画像の特徴に基づいて画像から文字コードへ変換するため、旧字体から新字体等のように文字の形状が変化すると、その認識精度に大きく影響を及ぼす。文字認識は、画像特徴辞書を使用して行うが、旧字体を使用して作成された文書の文字を認識する際、旧字体の文字セットに対応した画像特徴辞書が使用できれば、高い認識精度を実現することができる。

そこで、文書処理装置は、各文字セットに対応した画像特徴辞書を備える。この場合、文字認識部は、指定受付部による文字セットの指定に応じて、画像特徴辞書に切り替えて使用する。

文字セットの指定により、画像特徴辞書を切り替え、高い認識精度を実現することができるが、その文字セットと認識結果の利用環境で使用される文字セットが異なる場合、文字化け等するおそれが生じ、認識結果の流通上の不都合を生じる場合がある。

そこで、指定受付部は、文字認識部が画像特徴辞書を切り替えるための文字セットの指定と、出力先で使用される文字セットの指定とを別々に受け付けることができる。これにより、高い認識精度を実現することができるとともに、認識結果の流通上の不都合を避けることができる。

本発明では、上記文書処理装置のほか、当該文書処理装置が備える各部で実行される処理ステップを含む文書処理方法を提供することもできる。すなわち、文書処理方法は、異体字の有無により少なくとも２つにグループ分けされた文字セットの１つの指定を受け付けるステップと、出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定するステップと、いずれかに一致すると判定された場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換するステップとを含む。

また、本発明では、上記の文書処理方法を実行するためのコンピュータ可読なプログラムおよびそのプログラムが記録された記録媒体を提供することもできる。

日本語の代表的な文字コード規格として、JIS X 0213:2004(以下、JIS2004という。)と、JIS X 0208:1990(以下、JIS90という。)とがあり、これらを例にして実施形態を詳細に説明する。なお、本発明は、これらの文字コード規格で規定される字形セットに限定されるものではなく、異体字の有無を考慮した字形セットであれば、同様に成立するものである。ここで、文字コードは、コンピュータ上で文字を利用するために各文字に割り当てられる識別情報であり、バイト表現されたものである。

PCに実装されるOSとして、Windows（登録商標）XP、Windows（登録商標）Vista等があるが、前者のOSに対しては、「JIS90」規格の例示字体に準拠するフォントが使用され、後者のOSに対しては、「JIS2004」規格の例示字体に準拠するフォントが使用されている。これらの違いは、一部の文字について字形が変わり、利用可能な文字が増えたことである。

現在では、上記Windows（登録商標）Vistaがまだ広く普及するに至っていないが、これが広く普及すると、新しい字形で作成された印刷物が増え、その新しい字形が認識可能なOCRシステムが要求される機会が増加するものと考えられる。

本発明を説明する前に、JIS90からJIS2004への変更に伴う問題点について説明する。問題点としては２つある。１つは、１６８字の字形が変更されることによる互換性の問題である。例えば、「芦」、「逗」、「祇」等である。これらの変更は、これまでのWindows（登録商標）XPが対応していたJIS90の字形が日本語本来の形ではなかったものを、本来の形に変更することを目的とするものである。この変更で字形が変更されるものの、文字コードは変わらないので、Windows（登録商標）XPで作成した文書をWindows（登録商標）Vistaで開いたり、その逆の操作を行ったとしても、文字が消えてしまうことはない。これらの場合、画面へ表示される文字や印刷される文字の形状が異なるだけである。

２つ目は、JIS2004で使用できる文字が１０字追加された点である。これらの１０字は、主にJIS第３水準とJIS第４水準のあまり一般的に使用されない文字が中心であるが、その中には通常使用される文字も含まれる。これらは、新たに追加された文字で、具体的には「倶」、「剥」、「叱」、「呑」、「嘘」、「妍」、「屏」、「并」、「痩」、「繋」の１０字である。JIS90では、略字として、JIS2004では、正字として存在し、これらは別々の文字コードとなる。したがって、Windows（登録商標）Vistaが広く普及し、これらの文字が正字として使用されるようになると、これまでに使用されていた略字とは別の文字コードとなるため、略字と正字の両方を考慮して検索する必要がある。また、これらの文字を使用してWindows（登録商標）Vistaで作成した文書をJIS2004に対応していないWindows（登録商標）XPで開くと、「・」や「■」などで文字化けして表示されるおそれがある。

具体的な字形の変化を、図１に実例として示す。図１に示すように、大部分の文字がその変化はわずかなものであり、目視では差違に気づきにくいものであるが、一部の文字の形状は大きく異なっている。例えば、JIS2004でいう「溢」等である。

文字を文字コードに変換するシステムとして、上記OCRシステムが知られている。このOCRシステムは、印刷物の文字画像を認識し、文字コードに変換するシステムである。JIS90の字形（旧字）で印刷された印刷物を、JIS90に対応したOCRシステムで変換する場合は、その認識精度に影響を与えることはない。しかしながら、旧字からJIS2004の字形（正字）へと変更されることは認識精度に影響を与え、文字コードが追加されることは認識結果が利用環境によって文字化けしてしまうおそれがある。利用環境に、対応する文字コードがないからである。

例えば、印刷物が、字形変更された上記の１６８字と追加された上記の１０字のいずれかの文字と、その他の変更のない文字とを含む文書であるとする。これらの文字は、OCRシステムによって、１字ずつ光学的に読み取られて文字認識が行われ、対応する文字コードへ変換される。OCRシステムは、変換された文字コードを表示装置や印刷装置等の出力環境へ送る。これらの装置へ出力するための制御をOSが行うため、OSが文字コードを受け取り、その文字コードに対応する文字を画面に表示し、あるいは印刷するように指示する。

OCRシステムには、JIS90対応のものと、JIS2004対応のものが存在し、また、表示装置や印刷装置へ出力するための制御を行うOS、表示装置や印刷装置等の出力環境にも、JIS90対応のものと、JIS2004対応のものとが存在する。これらの組み合わせによって出力結果が異なったものとなる。

図２は、組み合わせによって出力される結果を例示した図である。なお、大部分の変更のない文字については、いずれにおいても同じ字形であり、同じ文字コードであるため、図２には記載していない。

正字で印刷された印刷物については、OCRおよびOS等の両方がJIS2004対応のものである場合、何ら問題なく、正字で文字認識され、表示等される。OCRがJIS2004対応であるが、OS等がJIS90対応のものである場合、正字として文字認識され、その文字コードに変換されるが、上記の１６８字については正字と旧字の文字コードが同じであるため、OS等で旧字が表示等される。ただし、追加された上記の１０字に対しては、その文字コードに対応する旧字がないため、文字化けして表示等される。したがって、このケースについては、重大な問題がある。

OCRがJIS90対応で、OS等がいずれかに対応するものである場合、上記の１６８字に対して全く同じ字形のものが存在しないので、OCRでの認識精度が下がるおそれがあるが、最も類似する字形として適切に認識できれば、旧字として文字認識される。OS等がJIS2004対応のものである場合、上記１６８文字については文字コードに対応する正字が表示等される。一方、OS等がJIS90対応のものである場合、上記１６８文字については文字コードに対応する旧字が表示等される。上記１０字についてはいずれも、旧字で文字認識され、旧字のまま表示等される。JIS90とJIS2004の両方に同じ文字コードとして同じ文字があるからである。

これまで印刷物が正字で印刷されたものとして説明してきたが、旧字で印刷されたものである場合もある。この場合についても説明すると、OCRおよびOS等の両方がJIS2004対応のものである場合、上記の１６８字に対して全く同じ字形のものが存在しないので、OCRでの認識精度が下がるおそれがあるが、最も類似する字形として適切に認識できれば、正字として認識され、正字として表示等される。

OCRがJIS2004対応であるが、OS等がJIS90対応のものである場合、正字として文字認識され、その文字コードに変換されるが、OS等によりその文字コードに対応する旧字が表示等される。追加された上記の１０字に対しても、その文字コードに対応する旧字が表示等される。

OCRがJIS90対応で、OS等がいずれかに対応するものである場合、上記の１６８字および追加の１０字は、旧字に対応する文字コードへ変換され、OS等によりその文字コードに対応する旧字が表示等される。

OCRについては動作OSがJIS2004対応か否かが問題ではなく、OCRが認識対象とする文字セットがJIS90か、JIS2004かに依存するものである。上述したように、文字認識結果を利用する環境に応じて認識結果の文字セットを変更しなければ、文字化けとなる場合がある。しかしながら、認識結果の文字セットをユーザが指定することができれば、この文字化けを回避することができる。

したがって、本発明では、ユーザによる文字セットの指定を受け付け、出力環境に応じて認識結果の文字セットを変更することを可能にした装置を提供する。

まず、具体的なシステム構成としては、図３に示すように、ユーザが利用したい文書画像を読み取るスキャナ装置１０と、スキャナ装置１０により読み取られた文書画像を文書データとして読み込むPC２０と、文書データを受信して表示するノートPC３０とを含む。スキャナ装置１０とPC２０は、直接ケーブル等により接続され、PC２０、ノートPC３０、MFP４０が互いにインターネットやイントラネット等のネットワーク５０により接続されている。

スキャナ装置１０は、印刷された文書等に光を当て、撮像素子により文書からの反射光あるいは透過光を受光し、電気信号に変換して出力する。出力された電気信号は、PC２０へと送られ、PC２０が備えるOCRにより文字認識が行われ、認識された文字を文字コードへ変換する。変換された文字コードは、PC２０全体を制御するOSにより文字として表示装置へ出力されたり、通信装置によりノートPC３０やMFP４０へ送られ、表示や印刷等が行われる。

PC２０は、MFP４０を制御するためにプリンタドライバを実装し、描画を指示するためのPDL(Page Description Language)へ変換し、そのPDLをMFP４０へ送信することができる。MFP４０は、PDLを受け取ると、印刷ジョブを実行する。

これらの機器は、読み込む文書を含めてすべてがJIS90またはJIS2004に対応するものであればよいが、まだJIS2004が広く普及していない現在において、異なる場合が多い。すると、上記のような文字化けを生じる可能性があり、また、異なる文字として認識される場合もあり得る。そこで、PC２０は、認識結果の文字セットを、ユーザからの指定を受け付け、出力環境であるノートPC３０やMFP４０に応じて変更する。文字セットは、文字を重複なく集めた文字集合である。

図３では、スキャナ装置１０、PC２０、ノートPC３０、MFP４０のみが示されているが、これに限られるものではなく、他のプリンタ、他のPCやサーバ装置等がネットワーク５０に接続されていてもよい。また、ここでは、PC２０を本発明の文書処理装置としているが、ノートPC３０やMFP４０等を文書処理装置とすることもできる。

図４に、PC２０のハードウェア構成を例示する。PC２０は、ノートPC３０やMFP４０との間で通信を行うために通信装置２１を備える。通信装置２１は、HTTP、FTP、SMTP、POP等のプロトコルを使用して通信を行うことができる。また、PC２０は、文書データを読み込み、文字認識を行い、文字コードへ変換するために、プログラムを格納したメモリ２２とそのプログラムを読み出し実行するCPU２３とを備える。また、PC２０は、その文字コードに対応する文字を表示するための表示装置２４も備える。

文字セットは、異体字により、JIS90の文字からなる文字セット、JIS2004の文字からなる文字セット、JIS90とJIS2004の両方の文字を含む文字セットにグループ分けすることができる。異体字は、文字の意味や字音が等しい同一の字種であるが、互いに異なる字体を有する文字である。すなわち、字の形（字形）が異なる文字である。グループ分けされた文字セットは、JIS90の文字と文字コードとの対応表、JIS2004の文字と文字コードとの対応表、それら両方の文字と文字コードを含む対応表として、メモリ２２に格納される。これらのプログラムおよび文字セットは、メモリ２２に格納されるが、HDD２５に格納され、CPU２３に適宜メモリ２２に読み出されて実行および使用される。したがって、プログラムや文字セットを格納するためのHDD２５をさらに備える。

文字認識の対象となる文字は、スキャナ装置１０から読み取られる場合に限らず、キーボード２６を使用してユーザ自身が入力することもできる。この場合、かな文字を漢字へと変換するが、ユーザが選択した漢字の入力を受け付けて文字を認識し、それを文字コードへ変換し、表示装置２４に表示することができる。文字を入力して文書を作成する際、文書作成アプリケーションを使用することができるが、このアプリケーションもHDD２５に格納し、適宜メモリ２２に読み出してCPU２３が実行することができる。

HDD２５には、これらのプログラムやアプリケーションを格納することができるが、これらのソフトウェアは、CD-ROMやFD等からインストールすることができ、このため、CD-ROMドライブ２７、FDドライブ２８をさらに備えることができる。

PC２０は、上記OCRのほか、通信装置２１や表示装置２４等の周辺デバイスへの入出力の制御やメモリ管理等を行うOSを実装する。OSとしては、上記のWindows（登録商標）XP、Windows（登録商標）Vistaを挙げることができる。

本発明の文書処理装置は、上記ハードウェア構成からなるPC２０として実現することができるが、その機能および具体的に行われる処理について、図５に示す機能ブロック図および図６に示す処理フロー図を参照して詳細に説明する。

この文書処理装置は、スキャナ装置１０から送られてきた文書画像内の文字を１文字ずつ読み込む文字読込部６０と、読み込まれた文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部６１と、上記画像特徴辞書を格納する辞書格納部６２とを備える。また、文書処理装置は、出力環境に応じて文字コードを変換するために、指定受付部６３と、判定部６４と、変換部６５と、変換表を格納する変換表格納部６６とを備える。

文字認識部６１は、文字読込部６０が読み込んだ１つの文字画像の特徴を照合するために、辞書格納部６２から画像特徴辞書を読み出し、その辞書に登録されているどの文字画像とその特徴が一致あるいは最も近似しているかを判断する。特徴は、字種、字体、字形、書体から判断することができ、テンプレート等を使用して判断することができる。テンプレートを使用する場合、テンプレートと読み込まれた文字とを重ね合わせ、光を当て、一致する場合は光が遮られて真っ黒に見える等のパターンマッチングを行うことにより判断することができる。

指定受付部６３は、異体字の有無により少なくとも２つにグループ分けされた文字セットの１つの指定を受け付ける。具体的には、JIS90の文字からなる文字セット、JIS2004の文字からなる文字セット、それらの両方の文字を含む文字セットのうちの１つの指定を、ユーザから受け付ける。例えば、これらの文字セットを表示させ、ユーザに選択させることにより、１つの指定を受け付けることができる。ユーザは、読み込む文書がJIS90で作成されたものである場合は、JIS90の文字セットを、JIS2004で作成されたものである場合は、JIS2004の文字セットを、どちらか不明である場合は、両方の文字を含む文字セットを指定することができる。

判定部６４は、文字認識部６１から出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する。具体的には、文字化けするおそれのある上記の１０字に対応する文字コードあるいはその文字コードに対応する旧字の文字コードに一致するかを判定する。これについては後述するが、JIS90からJIS2004の字形へ変換するか、その逆かによって判断基準となる文字コードが変わるからである。

変換部６５は、判定部６４がいずれかに一致すると判定した場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換する。この変換には、変換表格納部６６に格納されている変換表が使用される。

図６および図７を参照して、図５に示す文書処理装置が行う処理を詳細に説明する。図６は、JIS90の字形で作成された文書をJIS2004の字形に変換する処理の流れを示した図で、図７は、JIS2004の字形で作成された文書をJIS90の字形に変換する処理の流れを示した図である。すなわち、図６に示す処理では、ユーザによりJIS90の文字セットが指定され、図７に示す処理では、ユーザによりJIS2004の文字セットが指定される。

まず、図６を参照すると、この処理は、ステップ６００から開始し、ステップ６１０において、文字読込部６０が１文字ずつ文字を読み込み、文字認識部６１が文字認識を行うが、その認識結果があるか否かを判定する。ない場合、ステップ６５０へ進み、この処理を終了する。

一方、認識結果がある場合、ステップ６２０で１文字ずつ読み進め、ステップ６３０で判定部６４がJIS2004にて追加された正字の文字コードに対応する旧字の文字コードであるか否かを判定する。この旧字の文字コードであるかの判定は、指定受付部６３でJIS90の文字セットの指定を受け付けることにより行われる。JIS2004の文字セットの指定を受け付けた場合は、後述するように、正字の文字コードであるか否かの判定が行われる。

ここでは、追加された正字は、上記の１０字であるので、そのいずれかの文字の文字コードに対応する旧字の文字コードであるかを判定する。対応する旧字の文字コードでない場合は、ステップ６１０へ戻り、認識結果があるか否かを判定する。これに対し、対応する旧字の文字コードである場合は、ステップ６４０へ進む。

ステップ６４０では、その旧字の文字コードを、変換表格納部６６に格納されている変換表を用いて、変換部６５が正字の文字コードへ変換する。変換後、ステップ６１０へ戻り、再び認識結果があるか否かを判定する。変換表は、上記の１０字につき予め設定されており、各文字につきJIS90における文字コードとJIS2004における文字コードとが対応付けて格納される。したがって、変換部６５は、ユーザからの指定がJIS90であれば、JIS90の文字コードになるように変換され、その指定がJIS2004であれば、JIS2004の文字コードになるように変換される。

次に、図７を参照すると、この処理は、上記と同様に、ステップ７００から開始し、ステップ７１０において、文字読込部６０が１文字ずつ文字を読み込み、文字認識部６１が文字認識を行うが、認識結果があるか否かを判定する。ない場合、ステップ７５０へ進み、この処理を終了する。

一方、認識結果がある場合、ステップ７２０で１文字ずつ読み進め、ステップ７３０で判定部６４がJIS2004にて追加された正字の文字コードか否かを判定する。追加された正字は、上記の１０字であり、この１０字のいずれかの文字の文字コードであるか否かを判定する。

追加された正字の文字コードでない場合は、ステップ７１０へ戻り、追加された正字の文字コードである場合には、ステップ７４０へ進む。ステップ７４０では、変換部６５が、変換表格納部６６から読み出した変換表を用いて、追加された正字の文字コードを、対応する旧字の文字コードへ変換し、ステップ７１０へ戻る。

上記１６８字については、JIS90からJIS2004への変更に伴い、字形が変更されているが、大部分はわずかに字形が変更されたものであるから、大部分は対応する字形の文字コードへ変換することができる。したがって、上記のようにして追加された１０字のコード変換を行うことで、文字化け等することなく、表示や印刷を行うことができる。

これまで説明してきた処理では、大部分が対応する字形の文字コードへ変換されることを前提としている。しかしながら、文字の字形が変化することは認識精度に大きく影響を及ぼす。つまり、JIS2004に対応していないOCRでJIS2004の字形を認識すると、認識精度が低下するおそれがある。

また、JIS2004の字形で作成された文書に含まれる字種を文字セットに追加して精度を高めようとしても、認識すべき字種が増加することは、他の文字と混同する可能性が高くなり、認識精度を低下させる要因にもなる。

これを解消するために、JIS2004の字形で作成された文書に対しては、OCRシステムが採用する文字セットとしてJIS2004の字形に基づいて作成された画像特徴辞書を、JIS90の字形で作成された文書に対しては、その文字セットとしてJIS90の字形に基づいて作成された画像特徴辞書を使用するように指定する。文書によっては、どちらの字形で作成された文書であるかわからない場合もあり得る。このような場合に対しては、JIS90およびJIS2004の両方の字形に基づいて作成された画像特徴辞書を使用するように指定する。

画像特徴辞書は、上述したように、重複することなく集められた各文字のテンプレートを含むことができ、各文字のテンプレートを、文書内の各文字と照合し、一致する文字を見つけるために使用することができる。

このようにして、文字認識において適切な文字セットを使用することで、認識精度の低下を防止することができる。これらの画像特徴辞書は、辞書格納部６２に格納することができ、文字認識部６１は、ユーザによる文字セットの指定に応じて、使用する文字セットを決定し、それを辞書格納部６２から読み出して使用する。

異体字を含む文書画像に対して、上記処理により、高い認識結果を得ることができるが、その認識結果を利用する環境が、その異体字に対応していない場合には、電子データを流通する上で問題となる。例えば、異体字を含む認識結果データを送信し、受信環境がその異体字を扱うことができない場合、異体字を表示したり、印刷したりすることができない。また、異体字を入力することもできないので、異体字を含む電子データを検索することもできない。これでは、認識結果を広く利用することはできない。

そこで、高い認識精度を実現するために指定される認識対象の文字セットとは別に、出力先で使用される出力対象の文字セットも指定できるように構成する。図８は、それを実現するための機能ブロック図である。この構成では、文字読込部６０、文字認識部６１、辞書格納部６２、判定部６４、変換部６５、変換表格納部６６を備え、図５に示す指定受付部６３が、文字認識部６１で使用される文字セットの指定を受け付ける第１指定受付部７０と、出力先で使用される文字セットの指定を受け付ける第２指定受付部７１とから構成されている。ここでは、第１指定受付部７０と、第２指定受付部７１とが別々に示しているが、指定受付部６３として１つで構成されていてもよい。

文字認識部６１は、第１指定受付部７０が受け付けた文字セットに基づき、所定の画像特徴辞書を読み出し、それを使用して文字認識を行い、判定部６４は、第２指定受付部７１が受け付けた文字セットに基づき、出力先に応じて追加された文字の文字コードか、あるいは追加された文字の文字コードに対応する旧字の文字コードかを判定し、変換部６５が、出力先に応じ、変換表を用いて対応する文字の文字コードへ変換する。

このようにして２つの文字セットを使用して文字認識および変換することで、高い文字認識精度を得ることができるとともに、所望の字形で出力することができ、これにより、認識結果の流通上の不都合を避けることができ、文書処理装置の使用感を著しく改善することができる。

これまで本発明を上述した実施の形態をもって説明してきたが、本発明は上述した実施の形態に限定されるものではなく、他の実施の形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。したがって、上記文書処理装置で実行される処理を、文書処理方法として、また、その処理は、コンピュータ可読なプログラムとして実現することができることから、プログラムとして、さらに、そのプログラムを格納した記録媒体として提供することも可能である。

実例として、具体的な字形の変化を示した図。組み合わせによって出力される結果を例示した図。本発明の文書処理装置を含むシステム構成を例示した図。文書処理装置としてのPCのハードウェア構成を例示した図。文書処理装置の１つの実施形態を示した機能ブロック図。 JIS90の字形で作成された文書をJIS2004の字形に変換する処理の流れを示した図。 JIS2004の字形で作成された文書をJIS90の字形に変換する処理の流れを示した図。文書処理装置の別の実施形態を示した機能ブロック図。

符号の説明

１０…スキャナ装置、２０…PC、２１…通信装置、２２…メモリ、２３…CPU、２４…表示装置、２５…HDD、２６…キーボード、２７…CD-ROMドライブ、２８…FDドライブ、３０…ノートPC、４０…MFP、５０…ネットワーク、６０…文字読込部、６１…文字認識部、６２…辞書格納部、６３…指定受付部、６４…判定部、６５…変換部、６６…変換表格納部、７０…第１指定受付部、７１…第２指定受付部

Claims

文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部を備える文書処理装置であって、
異体字の有無により少なくとも２つにグループ分けされた文字セットの１つの指定を受け付ける指定受付部と、
出力された前記文字コードが、指定された前記文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する判定部と、
前記判定部がいずれかに一致すると判定した場合に、前記出力された文字コードを、前記指定された文字セットに含まれる対応する文字の文字コードへ変換する変換部とをさらに備える、文書処理装置。
各前記文字セットに対応した画像特徴辞書を備えており、前記文字認識部は、前記指定受付部による前記文字セットの指定に応じて、当該文字セットに対応する前記画像特徴辞書に切り替えて使用する、請求項１に記載の文書処理装置。
前記指定受付部は、前記文字認識部が前記画像特徴辞書を切り替えるための文字セットの指定と、出力先で使用される文字セットの指定とを別々に受け付ける、請求項２に記載の文書処理装置。
文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文書処理装置により実行される文書処理方法であって、
異体字の有無により少なくとも２つにグループ分けされた文字セットの１つの指定を受け付けるステップと、
出力された前記文字コードが、指定された前記文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定するステップと、
前記いずれかに一致すると判定された場合に、前記出力された文字コードを、前記指定された文字セットに含まれる対応する文字の文字コードへ変換するステップとを含む、文書処理方法。
前記文書処理装置は、各前記文字セットに対応した画像特徴辞書を備えており、前記文字セットの指定に応じて、当該文字セットに対応する画像特徴辞書に切り替えるステップをさらに含む、請求項４に記載の文書処理方法。
前記受け付けるステップは、前記切り替えるステップにおいて前記画像特徴辞書を切り替えるための文字セットの指定と、出力先で使用される文字セットの指定とを別々に受け付ける、請求項５に記載の文書処理方法。
請求項４〜６のいずれか１項に記載の文書処理方法を実行するためのコンピュータ可読なプログラム。
請求項７に記載のプログラムが記録された記録媒体。