JP2010134833A - 文書処理装置、文書処理方法、プログラムおよび記録媒体 - Google Patents

文書処理装置、文書処理方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2010134833A
JP2010134833A JP2008312221A JP2008312221A JP2010134833A JP 2010134833 A JP2010134833 A JP 2010134833A JP 2008312221 A JP2008312221 A JP 2008312221A JP 2008312221 A JP2008312221 A JP 2008312221A JP 2010134833 A JP2010134833 A JP 2010134833A
Authority
JP
Japan
Prior art keywords
character
image
characters
code
designation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008312221A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008312221A priority Critical patent/JP2010134833A/ja
Publication of JP2010134833A publication Critical patent/JP2010134833A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】 異体字を含む文書画像から電子化テキストを利用するまでを通じて、異体字を含む文書処理の不都合を解消し、利用者が所望する異体字処理を容易に実現できる装置を提供する。
【解決手段】 この文書処理装置は、文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部61を備える文書処理装置である。この装置は、さらに、異体字の有無により少なくとも2つにグループ分けされた文字セットの1つの指定を受け付ける指定受付部63と、出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する判定部64と、判定部64がいずれかに一致すると判定した場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換する変換部65とを備える。
【選択図】 図5

Description

本発明は、異体字を含む文書に対して高い認識精度を達成し、認識結果を利用する環境が異体字を表示できない等の環境であっても不都合が生じない認識結果を出力することが可能な文書処理装置、文書処理方法、その方法を実現するためのコンピュータ可読なプログラムおよび記録媒体に関する。
文書画像を読み取り、文書ファイルとして記憶したり、編集したりするために、その文書画像を読み取る装置としてイメージスキャナが用いられている。このイメージスキャナは、OCR(光学文字認識)を利用して、画像情報を文字コード化する場合にも使用される。なお、OCRは、文書画像をコンピュータで編集可能な形式、すなわち文字コードの列に変換するソフトウェアである。
文字コードへの変換は、キーボードからの入力を受け付けてかな文字を表示し、そのかな文字を変換して漢字を表示する際にも利用されている。このかな文字から漢字への変換には、JISコード等が使用されている。
漢字には、多種類の字体を有するものがあり、こういった字体は、時代とともに変化していく。このため、文字コードは、随時改訂されるが、その改訂において、旧字体から新字体へと変更されたり、新たに追加されることが行われる。
文字には、現在使用される標準字体の文字以外に、旧字、略字等の異体字がある。異体字は、人名等で使用される場合が多いが、これらの異体字を使用したい場合、外字として登録することが一般的に行われている。
文字コードは、装置機種によって異なり、異なる機種では上記異体字が全く異なる文字に変換されたり、上記異字体の文字コードに対応する文字がなかったりすることがある。これでは文書の表現する意味が変化してしまう可能性があり、異体字を含む文書の内容の変動等をきたしてしまう。
そこで、異体字を含む文書の内容の変動等をきたすことなく受信することができる装置が提案されている(特許文献1参照)。この装置では、異体字の文字コードを削除し、普及文字コードのみに限定して変換する。このため、文書内容の変動等の恐れなくデータ交換を行うことが可能とされている。
また、入力語に対して、最も適切な異表記正規化処理を施し、文書検索時に検索漏れの発生を防止する技術も提案されている(特許文献2参照)。この技術は、データを利用する前に異体字を正規化するもので、入力テキストを1文字単位に抽出し、異表記正規化規則に基づいて、抽出した原表記に異表記正規化する。
特開平9−134348号公報 特開2007−102321号公報
上述した従来の技術は、異体字を含む電子テキストを変換することで、異体字の表示機能のない環境で生じる不都合を避けるための発明であり、異体字を含む文書画像を認識し、電子テキストへ変換する過程での異体字の取扱いを考慮したものではない。
そこで、異体字を含む文書画像から電子化テキストを利用するまでを通じて、異体字を含む文書処理の不都合を解消し、利用者が所望する異体字処理を容易に実現できる装置や方法の提供が望まれていた。
本発明は、上記課題に鑑み、ユーザが、認識結果を利用する環境で使用される、異体字の有無によりグループ分けされた文字セットの1つを指定し、その指定を受け付け、文字化け等するおそれのある文字コードか否かを判定し、するおそれのある文字コードである場合、その文字コードを、指定した文字セットの対応する文字の文字コードへ変換するように構成する。このようにして、利用環境で使用される文字セットに対応する文字コードへ変換されるため、文字化け等するおそれはなくなり、認識結果の流通上の不都合を避けることができる。
本発明では、これを実現するために、文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部を備える文書処理装置を提供することができ、その装置は、さらに、異体字の有無により少なくとも2つにグループ分けされた文字セットの1つの指定を受け付ける指定受付部と、出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する判定部と、判定部がいずれかに一致すると判定した場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換する変換部とを備える。
文字認識部は、文字画像の特徴に基づいて画像から文字コードへ変換するため、旧字体から新字体等のように文字の形状が変化すると、その認識精度に大きく影響を及ぼす。文字認識は、画像特徴辞書を使用して行うが、旧字体を使用して作成された文書の文字を認識する際、旧字体の文字セットに対応した画像特徴辞書が使用できれば、高い認識精度を実現することができる。
そこで、文書処理装置は、各文字セットに対応した画像特徴辞書を備える。この場合、文字認識部は、指定受付部による文字セットの指定に応じて、画像特徴辞書に切り替えて使用する。
文字セットの指定により、画像特徴辞書を切り替え、高い認識精度を実現することができるが、その文字セットと認識結果の利用環境で使用される文字セットが異なる場合、文字化け等するおそれが生じ、認識結果の流通上の不都合を生じる場合がある。
そこで、指定受付部は、文字認識部が画像特徴辞書を切り替えるための文字セットの指定と、出力先で使用される文字セットの指定とを別々に受け付けることができる。これにより、高い認識精度を実現することができるとともに、認識結果の流通上の不都合を避けることができる。
本発明では、上記文書処理装置のほか、当該文書処理装置が備える各部で実行される処理ステップを含む文書処理方法を提供することもできる。すなわち、文書処理方法は、異体字の有無により少なくとも2つにグループ分けされた文字セットの1つの指定を受け付けるステップと、出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定するステップと、いずれかに一致すると判定された場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換するステップとを含む。
また、本発明では、上記の文書処理方法を実行するためのコンピュータ可読なプログラムおよびそのプログラムが記録された記録媒体を提供することもできる。
日本語の代表的な文字コード規格として、JIS X 0213:2004(以下、JIS2004という。)と、JIS X 0208:1990(以下、JIS90という。)とがあり、これらを例にして実施形態を詳細に説明する。なお、本発明は、これらの文字コード規格で規定される字形セットに限定されるものではなく、異体字の有無を考慮した字形セットであれば、同様に成立するものである。ここで、文字コードは、コンピュータ上で文字を利用するために各文字に割り当てられる識別情報であり、バイト表現されたものである。
PCに実装されるOSとして、Windows(登録商標)XP、Windows(登録商標)Vista等があるが、前者のOSに対しては、「JIS90」規格の例示字体に準拠するフォントが使用され、後者のOSに対しては、「JIS2004」規格の例示字体に準拠するフォントが使用されている。これらの違いは、一部の文字について字形が変わり、利用可能な文字が増えたことである。
現在では、上記Windows(登録商標)Vistaがまだ広く普及するに至っていないが、これが広く普及すると、新しい字形で作成された印刷物が増え、その新しい字形が認識可能なOCRシステムが要求される機会が増加するものと考えられる。
本発明を説明する前に、JIS90からJIS2004への変更に伴う問題点について説明する。問題点としては2つある。1つは、168字の字形が変更されることによる互換性の問題である。例えば、「芦」、「逗」、「祇」等である。これらの変更は、これまでのWindows(登録商標)XPが対応していたJIS90の字形が日本語本来の形ではなかったものを、本来の形に変更することを目的とするものである。この変更で字形が変更されるものの、文字コードは変わらないので、Windows(登録商標)XPで作成した文書をWindows(登録商標)Vistaで開いたり、その逆の操作を行ったとしても、文字が消えてしまうことはない。これらの場合、画面へ表示される文字や印刷される文字の形状が異なるだけである。
2つ目は、JIS2004で使用できる文字が10字追加された点である。これらの10字は、主にJIS第3水準とJIS第4水準のあまり一般的に使用されない文字が中心であるが、その中には通常使用される文字も含まれる。これらは、新たに追加された文字で、具体的には「倶」、「剥」、「叱」、「呑」、「嘘」、「妍」、「屏」、「并」、「痩」、「繋」の10字である。JIS90では、略字として、JIS2004では、正字として存在し、これらは別々の文字コードとなる。したがって、Windows(登録商標)Vistaが広く普及し、これらの文字が正字として使用されるようになると、これまでに使用されていた略字とは別の文字コードとなるため、略字と正字の両方を考慮して検索する必要がある。また、これらの文字を使用してWindows(登録商標)Vistaで作成した文書をJIS2004に対応していないWindows(登録商標)XPで開くと、「・」や「■」などで文字化けして表示されるおそれがある。
具体的な字形の変化を、図1に実例として示す。図1に示すように、大部分の文字がその変化はわずかなものであり、目視では差違に気づきにくいものであるが、一部の文字の形状は大きく異なっている。例えば、JIS2004でいう「溢」等である。
文字を文字コードに変換するシステムとして、上記OCRシステムが知られている。このOCRシステムは、印刷物の文字画像を認識し、文字コードに変換するシステムである。JIS90の字形(旧字)で印刷された印刷物を、JIS90に対応したOCRシステムで変換する場合は、その認識精度に影響を与えることはない。しかしながら、旧字からJIS2004の字形(正字)へと変更されることは認識精度に影響を与え、文字コードが追加されることは認識結果が利用環境によって文字化けしてしまうおそれがある。利用環境に、対応する文字コードがないからである。
例えば、印刷物が、字形変更された上記の168字と追加された上記の10字のいずれかの文字と、その他の変更のない文字とを含む文書であるとする。これらの文字は、OCRシステムによって、1字ずつ光学的に読み取られて文字認識が行われ、対応する文字コードへ変換される。OCRシステムは、変換された文字コードを表示装置や印刷装置等の出力環境へ送る。これらの装置へ出力するための制御をOSが行うため、OSが文字コードを受け取り、その文字コードに対応する文字を画面に表示し、あるいは印刷するように指示する。
OCRシステムには、JIS90対応のものと、JIS2004対応のものが存在し、また、表示装置や印刷装置へ出力するための制御を行うOS、表示装置や印刷装置等の出力環境にも、JIS90対応のものと、JIS2004対応のものとが存在する。これらの組み合わせによって出力結果が異なったものとなる。
図2は、組み合わせによって出力される結果を例示した図である。なお、大部分の変更のない文字については、いずれにおいても同じ字形であり、同じ文字コードであるため、図2には記載していない。
正字で印刷された印刷物については、OCRおよびOS等の両方がJIS2004対応のものである場合、何ら問題なく、正字で文字認識され、表示等される。OCRがJIS2004対応であるが、OS等がJIS90対応のものである場合、正字として文字認識され、その文字コードに変換されるが、上記の168字については正字と旧字の文字コードが同じであるため、OS等で旧字が表示等される。ただし、追加された上記の10字に対しては、その文字コードに対応する旧字がないため、文字化けして表示等される。したがって、このケースについては、重大な問題がある。
OCRがJIS90対応で、OS等がいずれかに対応するものである場合、上記の168字に対して全く同じ字形のものが存在しないので、OCRでの認識精度が下がるおそれがあるが、最も類似する字形として適切に認識できれば、旧字として文字認識される。OS等がJIS2004対応のものである場合、上記168文字については文字コードに対応する正字が表示等される。一方、OS等がJIS90対応のものである場合、上記168文字については文字コードに対応する旧字が表示等される。上記10字についてはいずれも、旧字で文字認識され、旧字のまま表示等される。JIS90とJIS2004の両方に同じ文字コードとして同じ文字があるからである。
これまで印刷物が正字で印刷されたものとして説明してきたが、旧字で印刷されたものである場合もある。この場合についても説明すると、OCRおよびOS等の両方がJIS2004対応のものである場合、上記の168字に対して全く同じ字形のものが存在しないので、OCRでの認識精度が下がるおそれがあるが、最も類似する字形として適切に認識できれば、正字として認識され、正字として表示等される。
OCRがJIS2004対応であるが、OS等がJIS90対応のものである場合、正字として文字認識され、その文字コードに変換されるが、OS等によりその文字コードに対応する旧字が表示等される。追加された上記の10字に対しても、その文字コードに対応する旧字が表示等される。
OCRがJIS90対応で、OS等がいずれかに対応するものである場合、上記の168字および追加の10字は、旧字に対応する文字コードへ変換され、OS等によりその文字コードに対応する旧字が表示等される。
OCRについては動作OSがJIS2004対応か否かが問題ではなく、OCRが認識対象とする文字セットがJIS90か、JIS2004かに依存するものである。上述したように、文字認識結果を利用する環境に応じて認識結果の文字セットを変更しなければ、文字化けとなる場合がある。しかしながら、認識結果の文字セットをユーザが指定することができれば、この文字化けを回避することができる。
したがって、本発明では、ユーザによる文字セットの指定を受け付け、出力環境に応じて認識結果の文字セットを変更することを可能にした装置を提供する。
まず、具体的なシステム構成としては、図3に示すように、ユーザが利用したい文書画像を読み取るスキャナ装置10と、スキャナ装置10により読み取られた文書画像を文書データとして読み込むPC20と、文書データを受信して表示するノートPC30とを含む。スキャナ装置10とPC20は、直接ケーブル等により接続され、PC20、ノートPC30、MFP40が互いにインターネットやイントラネット等のネットワーク50により接続されている。
スキャナ装置10は、印刷された文書等に光を当て、撮像素子により文書からの反射光あるいは透過光を受光し、電気信号に変換して出力する。出力された電気信号は、PC20へと送られ、PC20が備えるOCRにより文字認識が行われ、認識された文字を文字コードへ変換する。変換された文字コードは、PC20全体を制御するOSにより文字として表示装置へ出力されたり、通信装置によりノートPC30やMFP40へ送られ、表示や印刷等が行われる。
PC20は、MFP40を制御するためにプリンタドライバを実装し、描画を指示するためのPDL(Page Description Language)へ変換し、そのPDLをMFP40へ送信することができる。MFP40は、PDLを受け取ると、印刷ジョブを実行する。
これらの機器は、読み込む文書を含めてすべてがJIS90またはJIS2004に対応するものであればよいが、まだJIS2004が広く普及していない現在において、異なる場合が多い。すると、上記のような文字化けを生じる可能性があり、また、異なる文字として認識される場合もあり得る。そこで、PC20は、認識結果の文字セットを、ユーザからの指定を受け付け、出力環境であるノートPC30やMFP40に応じて変更する。文字セットは、文字を重複なく集めた文字集合である。
図3では、スキャナ装置10、PC20、ノートPC30、MFP40のみが示されているが、これに限られるものではなく、他のプリンタ、他のPCやサーバ装置等がネットワーク50に接続されていてもよい。また、ここでは、PC20を本発明の文書処理装置としているが、ノートPC30やMFP40等を文書処理装置とすることもできる。
図4に、PC20のハードウェア構成を例示する。PC20は、ノートPC30やMFP40との間で通信を行うために通信装置21を備える。通信装置21は、HTTP、FTP、SMTP、POP等のプロトコルを使用して通信を行うことができる。また、PC20は、文書データを読み込み、文字認識を行い、文字コードへ変換するために、プログラムを格納したメモリ22とそのプログラムを読み出し実行するCPU23とを備える。また、PC20は、その文字コードに対応する文字を表示するための表示装置24も備える。
文字セットは、異体字により、JIS90の文字からなる文字セット、JIS2004の文字からなる文字セット、JIS90とJIS2004の両方の文字を含む文字セットにグループ分けすることができる。異体字は、文字の意味や字音が等しい同一の字種であるが、互いに異なる字体を有する文字である。すなわち、字の形(字形)が異なる文字である。グループ分けされた文字セットは、JIS90の文字と文字コードとの対応表、JIS2004の文字と文字コードとの対応表、それら両方の文字と文字コードを含む対応表として、メモリ22に格納される。これらのプログラムおよび文字セットは、メモリ22に格納されるが、HDD25に格納され、CPU23に適宜メモリ22に読み出されて実行および使用される。したがって、プログラムや文字セットを格納するためのHDD25をさらに備える。
文字認識の対象となる文字は、スキャナ装置10から読み取られる場合に限らず、キーボード26を使用してユーザ自身が入力することもできる。この場合、かな文字を漢字へと変換するが、ユーザが選択した漢字の入力を受け付けて文字を認識し、それを文字コードへ変換し、表示装置24に表示することができる。文字を入力して文書を作成する際、文書作成アプリケーションを使用することができるが、このアプリケーションもHDD25に格納し、適宜メモリ22に読み出してCPU23が実行することができる。
HDD25には、これらのプログラムやアプリケーションを格納することができるが、これらのソフトウェアは、CD-ROMやFD等からインストールすることができ、このため、CD-ROMドライブ27、FDドライブ28をさらに備えることができる。
PC20は、上記OCRのほか、通信装置21や表示装置24等の周辺デバイスへの入出力の制御やメモリ管理等を行うOSを実装する。OSとしては、上記のWindows(登録商標)XP、Windows(登録商標)Vistaを挙げることができる。
本発明の文書処理装置は、上記ハードウェア構成からなるPC20として実現することができるが、その機能および具体的に行われる処理について、図5に示す機能ブロック図および図6に示す処理フロー図を参照して詳細に説明する。
この文書処理装置は、スキャナ装置10から送られてきた文書画像内の文字を1文字ずつ読み込む文字読込部60と、読み込まれた文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部61と、上記画像特徴辞書を格納する辞書格納部62とを備える。また、文書処理装置は、出力環境に応じて文字コードを変換するために、指定受付部63と、判定部64と、変換部65と、変換表を格納する変換表格納部66とを備える。
文字認識部61は、文字読込部60が読み込んだ1つの文字画像の特徴を照合するために、辞書格納部62から画像特徴辞書を読み出し、その辞書に登録されているどの文字画像とその特徴が一致あるいは最も近似しているかを判断する。特徴は、字種、字体、字形、書体から判断することができ、テンプレート等を使用して判断することができる。テンプレートを使用する場合、テンプレートと読み込まれた文字とを重ね合わせ、光を当て、一致する場合は光が遮られて真っ黒に見える等のパターンマッチングを行うことにより判断することができる。
指定受付部63は、異体字の有無により少なくとも2つにグループ分けされた文字セットの1つの指定を受け付ける。具体的には、JIS90の文字からなる文字セット、JIS2004の文字からなる文字セット、それらの両方の文字を含む文字セットのうちの1つの指定を、ユーザから受け付ける。例えば、これらの文字セットを表示させ、ユーザに選択させることにより、1つの指定を受け付けることができる。ユーザは、読み込む文書がJIS90で作成されたものである場合は、JIS90の文字セットを、JIS2004で作成されたものである場合は、JIS2004の文字セットを、どちらか不明である場合は、両方の文字を含む文字セットを指定することができる。
判定部64は、文字認識部61から出力された文字コードが、指定された文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する。具体的には、文字化けするおそれのある上記の10字に対応する文字コードあるいはその文字コードに対応する旧字の文字コードに一致するかを判定する。これについては後述するが、JIS90からJIS2004の字形へ変換するか、その逆かによって判断基準となる文字コードが変わるからである。
変換部65は、判定部64がいずれかに一致すると判定した場合に、出力された文字コードを、指定された文字セットに含まれる対応する文字の文字コードへ変換する。この変換には、変換表格納部66に格納されている変換表が使用される。
図6および図7を参照して、図5に示す文書処理装置が行う処理を詳細に説明する。図6は、JIS90の字形で作成された文書をJIS2004の字形に変換する処理の流れを示した図で、図7は、JIS2004の字形で作成された文書をJIS90の字形に変換する処理の流れを示した図である。すなわち、図6に示す処理では、ユーザによりJIS90の文字セットが指定され、図7に示す処理では、ユーザによりJIS2004の文字セットが指定される。
まず、図6を参照すると、この処理は、ステップ600から開始し、ステップ610において、文字読込部60が1文字ずつ文字を読み込み、文字認識部61が文字認識を行うが、その認識結果があるか否かを判定する。ない場合、ステップ650へ進み、この処理を終了する。
一方、認識結果がある場合、ステップ620で1文字ずつ読み進め、ステップ630で判定部64がJIS2004にて追加された正字の文字コードに対応する旧字の文字コードであるか否かを判定する。この旧字の文字コードであるかの判定は、指定受付部63でJIS90の文字セットの指定を受け付けることにより行われる。JIS2004の文字セットの指定を受け付けた場合は、後述するように、正字の文字コードであるか否かの判定が行われる。
ここでは、追加された正字は、上記の10字であるので、そのいずれかの文字の文字コードに対応する旧字の文字コードであるかを判定する。対応する旧字の文字コードでない場合は、ステップ610へ戻り、認識結果があるか否かを判定する。これに対し、対応する旧字の文字コードである場合は、ステップ640へ進む。
ステップ640では、その旧字の文字コードを、変換表格納部66に格納されている変換表を用いて、変換部65が正字の文字コードへ変換する。変換後、ステップ610へ戻り、再び認識結果があるか否かを判定する。変換表は、上記の10字につき予め設定されており、各文字につきJIS90における文字コードとJIS2004における文字コードとが対応付けて格納される。したがって、変換部65は、ユーザからの指定がJIS90であれば、JIS90の文字コードになるように変換され、その指定がJIS2004であれば、JIS2004の文字コードになるように変換される。
次に、図7を参照すると、この処理は、上記と同様に、ステップ700から開始し、ステップ710において、文字読込部60が1文字ずつ文字を読み込み、文字認識部61が文字認識を行うが、認識結果があるか否かを判定する。ない場合、ステップ750へ進み、この処理を終了する。
一方、認識結果がある場合、ステップ720で1文字ずつ読み進め、ステップ730で判定部64がJIS2004にて追加された正字の文字コードか否かを判定する。追加された正字は、上記の10字であり、この10字のいずれかの文字の文字コードであるか否かを判定する。
追加された正字の文字コードでない場合は、ステップ710へ戻り、追加された正字の文字コードである場合には、ステップ740へ進む。ステップ740では、変換部65が、変換表格納部66から読み出した変換表を用いて、追加された正字の文字コードを、対応する旧字の文字コードへ変換し、ステップ710へ戻る。
上記168字については、JIS90からJIS2004への変更に伴い、字形が変更されているが、大部分はわずかに字形が変更されたものであるから、大部分は対応する字形の文字コードへ変換することができる。したがって、上記のようにして追加された10字のコード変換を行うことで、文字化け等することなく、表示や印刷を行うことができる。
これまで説明してきた処理では、大部分が対応する字形の文字コードへ変換されることを前提としている。しかしながら、文字の字形が変化することは認識精度に大きく影響を及ぼす。つまり、JIS2004に対応していないOCRでJIS2004の字形を認識すると、認識精度が低下するおそれがある。
また、JIS2004の字形で作成された文書に含まれる字種を文字セットに追加して精度を高めようとしても、認識すべき字種が増加することは、他の文字と混同する可能性が高くなり、認識精度を低下させる要因にもなる。
これを解消するために、JIS2004の字形で作成された文書に対しては、OCRシステムが採用する文字セットとしてJIS2004の字形に基づいて作成された画像特徴辞書を、JIS90の字形で作成された文書に対しては、その文字セットとしてJIS90の字形に基づいて作成された画像特徴辞書を使用するように指定する。文書によっては、どちらの字形で作成された文書であるかわからない場合もあり得る。このような場合に対しては、JIS90およびJIS2004の両方の字形に基づいて作成された画像特徴辞書を使用するように指定する。
画像特徴辞書は、上述したように、重複することなく集められた各文字のテンプレートを含むことができ、各文字のテンプレートを、文書内の各文字と照合し、一致する文字を見つけるために使用することができる。
このようにして、文字認識において適切な文字セットを使用することで、認識精度の低下を防止することができる。これらの画像特徴辞書は、辞書格納部62に格納することができ、文字認識部61は、ユーザによる文字セットの指定に応じて、使用する文字セットを決定し、それを辞書格納部62から読み出して使用する。
異体字を含む文書画像に対して、上記処理により、高い認識結果を得ることができるが、その認識結果を利用する環境が、その異体字に対応していない場合には、電子データを流通する上で問題となる。例えば、異体字を含む認識結果データを送信し、受信環境がその異体字を扱うことができない場合、異体字を表示したり、印刷したりすることができない。また、異体字を入力することもできないので、異体字を含む電子データを検索することもできない。これでは、認識結果を広く利用することはできない。
そこで、高い認識精度を実現するために指定される認識対象の文字セットとは別に、出力先で使用される出力対象の文字セットも指定できるように構成する。図8は、それを実現するための機能ブロック図である。この構成では、文字読込部60、文字認識部61、辞書格納部62、判定部64、変換部65、変換表格納部66を備え、図5に示す指定受付部63が、文字認識部61で使用される文字セットの指定を受け付ける第1指定受付部70と、出力先で使用される文字セットの指定を受け付ける第2指定受付部71とから構成されている。ここでは、第1指定受付部70と、第2指定受付部71とが別々に示しているが、指定受付部63として1つで構成されていてもよい。
文字認識部61は、第1指定受付部70が受け付けた文字セットに基づき、所定の画像特徴辞書を読み出し、それを使用して文字認識を行い、判定部64は、第2指定受付部71が受け付けた文字セットに基づき、出力先に応じて追加された文字の文字コードか、あるいは追加された文字の文字コードに対応する旧字の文字コードかを判定し、変換部65が、出力先に応じ、変換表を用いて対応する文字の文字コードへ変換する。
このようにして2つの文字セットを使用して文字認識および変換することで、高い文字認識精度を得ることができるとともに、所望の字形で出力することができ、これにより、認識結果の流通上の不都合を避けることができ、文書処理装置の使用感を著しく改善することができる。
これまで本発明を上述した実施の形態をもって説明してきたが、本発明は上述した実施の形態に限定されるものではなく、他の実施の形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。したがって、上記文書処理装置で実行される処理を、文書処理方法として、また、その処理は、コンピュータ可読なプログラムとして実現することができることから、プログラムとして、さらに、そのプログラムを格納した記録媒体として提供することも可能である。
実例として、具体的な字形の変化を示した図。 組み合わせによって出力される結果を例示した図。 本発明の文書処理装置を含むシステム構成を例示した図。 文書処理装置としてのPCのハードウェア構成を例示した図。 文書処理装置の1つの実施形態を示した機能ブロック図。 JIS90の字形で作成された文書をJIS2004の字形に変換する処理の流れを示した図。 JIS2004の字形で作成された文書をJIS90の字形に変換する処理の流れを示した図。 文書処理装置の別の実施形態を示した機能ブロック図。
符号の説明
10…スキャナ装置、20…PC、21…通信装置、22…メモリ、23…CPU、24…表示装置、25…HDD、26…キーボード、27…CD-ROMドライブ、28…FDドライブ、30…ノートPC、40…MFP、50…ネットワーク、60…文字読込部、61…文字認識部、62…辞書格納部、63…指定受付部、64…判定部、65…変換部、66…変換表格納部、70…第1指定受付部、71…第2指定受付部

Claims (8)

  1. 文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文字認識部を備える文書処理装置であって、
    異体字の有無により少なくとも2つにグループ分けされた文字セットの1つの指定を受け付ける指定受付部と、
    出力された前記文字コードが、指定された前記文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定する判定部と、
    前記判定部がいずれかに一致すると判定した場合に、前記出力された文字コードを、前記指定された文字セットに含まれる対応する文字の文字コードへ変換する変換部とをさらに備える、文書処理装置。
  2. 各前記文字セットに対応した画像特徴辞書を備えており、前記文字認識部は、前記指定受付部による前記文字セットの指定に応じて、当該文字セットに対応する前記画像特徴辞書に切り替えて使用する、請求項1に記載の文書処理装置。
  3. 前記指定受付部は、前記文字認識部が前記画像特徴辞書を切り替えるための文字セットの指定と、出力先で使用される文字セットの指定とを別々に受け付ける、請求項2に記載の文書処理装置。
  4. 文書画像に含まれる文字画像の特徴を、画像特徴辞書に登録された文字画像の特徴と照合して文字認識を行い、文字コードへ変換して出力する文書処理装置により実行される文書処理方法であって、
    異体字の有無により少なくとも2つにグループ分けされた文字セットの1つの指定を受け付けるステップと、
    出力された前記文字コードが、指定された前記文字セットに応じて予め指定された文字コードのいずれかに一致するか否かを判定するステップと、
    前記いずれかに一致すると判定された場合に、前記出力された文字コードを、前記指定された文字セットに含まれる対応する文字の文字コードへ変換するステップとを含む、文書処理方法。
  5. 前記文書処理装置は、各前記文字セットに対応した画像特徴辞書を備えており、前記文字セットの指定に応じて、当該文字セットに対応する画像特徴辞書に切り替えるステップをさらに含む、請求項4に記載の文書処理方法。
  6. 前記受け付けるステップは、前記切り替えるステップにおいて前記画像特徴辞書を切り替えるための文字セットの指定と、出力先で使用される文字セットの指定とを別々に受け付ける、請求項5に記載の文書処理方法。
  7. 請求項4〜6のいずれか1項に記載の文書処理方法を実行するためのコンピュータ可読なプログラム。
  8. 請求項7に記載のプログラムが記録された記録媒体。
JP2008312221A 2008-12-08 2008-12-08 文書処理装置、文書処理方法、プログラムおよび記録媒体 Pending JP2010134833A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008312221A JP2010134833A (ja) 2008-12-08 2008-12-08 文書処理装置、文書処理方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008312221A JP2010134833A (ja) 2008-12-08 2008-12-08 文書処理装置、文書処理方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2010134833A true JP2010134833A (ja) 2010-06-17

Family

ID=42346048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008312221A Pending JP2010134833A (ja) 2008-12-08 2008-12-08 文書処理装置、文書処理方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2010134833A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133654A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 文字認識システムおよび文字認識プログラム
JP2012133653A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 文字認識システムおよび文字認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133654A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 文字認識システムおよび文字認識プログラム
JP2012133653A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 文字認識システムおよび文字認識プログラム

Similar Documents

Publication Publication Date Title
US10528679B2 (en) System and method for real time translation
JP2006276911A (ja) 電子機器およびプログラム
JP7159608B2 (ja) 操作画面の表示装置、画像処理装置及びプログラム
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
US20030227640A1 (en) Universal printing system
US20060242593A1 (en) Printer emoticon detector & converter
US20060170685A1 (en) System and method for using device dependent fonts in a graphical display interface
JP2007253598A (ja) 印刷装置
JP2006309471A (ja) 情報処理装置及びそのカラー/モノクロ判定方法、並びにプログラム
JP2006331258A (ja) 訳振り装置、画像処理装置、プログラム、及び記録媒体
JP2010134833A (ja) 文書処理装置、文書処理方法、プログラムおよび記録媒体
CN102685347B (zh) 图像处理装置和图像处理方法
JP6780380B2 (ja) 画像処理装置及びプログラム
JP2006270589A (ja) 情報処理装置、情報処理方法、プログラムおよび記録媒体
JP2008181485A (ja) 画像形成装置、電子文書データ作成方法、および電子文書データ作成プログラム
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JP7147544B2 (ja) 情報処理装置、及び情報処理方法
KR20130045695A (ko) 다이렉트 인쇄를 수행하는 방법 및 장치
JP6205973B2 (ja) 変更履歴出力装置、プログラム
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP2006235935A (ja) 印刷システム
US20040122655A1 (en) Natural language input apparatus and storage medium which stores natural input program therein
JP2015103114A (ja) テキストデータの埋め込み装置、該装置を備えた画像処理装置、テキストデータの埋め込み方法及び埋め込みプログラム
JP2005326940A (ja) グラフ作成装置、プログラムおよび記録媒体
US20070153003A1 (en) Font-size changing and printing method, and host and printer therefor