JP2006259795A - 文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法 - Google Patents

文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法 Download PDF

Info

Publication number
JP2006259795A
JP2006259795A JP2005072216A JP2005072216A JP2006259795A JP 2006259795 A JP2006259795 A JP 2006259795A JP 2005072216 A JP2005072216 A JP 2005072216A JP 2005072216 A JP2005072216 A JP 2005072216A JP 2006259795 A JP2006259795 A JP 2006259795A
Authority
JP
Japan
Prior art keywords
character recognition
image
digital watermark
form definition
definition data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005072216A
Other languages
English (en)
Inventor
Kazuaki Yokota
和章 横田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2005072216A priority Critical patent/JP2006259795A/ja
Publication of JP2006259795A publication Critical patent/JP2006259795A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】帳票毎に帳票定義を管理する必要がないよう帳票定義を帳票に印刷する上で、見た目に違和感がないようにする。
【解決手段】この文字認識装置は、帳票の画像を取得するスキャナ1とPC2とからなる。PC2は、スキャナ1により取得された帳票の画像に埋め込まれている電子透かしを解読して帳票の形式を特定するための帳票定義を取り出す電子透かし解読部5と、電子透かし解読部5により取り出された帳票定義を基に画像に対し文字認識処理を実行する文字認識部7とを備える。
【選択図】図1

Description

本発明は、文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法に関する。
従来の文字認識装置は、帳票の形式(文字記入位置に関する情報、文字ピッチ、文字数、字種など)を帳票定義データ、つまりフォーマットコントロール(データ)としてあらかじめ設け、この帳票定義データに基づいて、帳票より得られた画像を切り出して文字認識する装置である。
通常、1種類の帳票に対して1つの帳票定義が対応する。従って、帳票に記載されている文字を認識するためには、その帳票に対応する帳票定義データを予め記憶装置に記憶、つまり用意しておく必要がある。
どの帳票に対してどの帳票定義データが対応するのかは、通常、人手による管理が必要であり、誤った帳票定義データが指定されることで、誤った文字認識結果が得られることがしばしばあった。
また、記憶装置が故障しそこに記憶されていた帳票定義データが失われた場合、再び帳票定義データを作成するためには大変な労力とコストがかかっていた。
そこで、帳票自体に帳票定義を印刷しておき、文字認識の際に帳票から帳票定義を読み取って帳票に記載されている文字の文字認識を実行することが考えられる。
この種の先行技術としては、例えば帳票定義を2次元コードの形態にして帳票に印刷しておき、帳票より読み取った画像より2次元コードを抽出して帳票定義を得る技術が既にある(例えば特許文献1参照)。
特開平11-25209号公報
このように上述した従来の文字認識装置では、帳票定義データを予め記憶装置に記憶しておくため、記憶装置が故障した場合、帳票定義データを新たに作成する必要があった。
また、帳票定義データを2次元コードの形態にして帳票に印刷しておく先行技術があるが、帳票上に印字される2次元コードは、人が一見して電子情報と分かるため、例えば名刺などの場合、受け取る側に違和感が生じるという問題点があった。
本発明はこのような課題を解決するためになされたもので、帳票毎に帳票定義を管理する必要がないよう帳票定義を帳票に印刷する上で、見た目に違和感がないようにできる文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法を提供することを目的としている。
上記した目的を達成するために、本発明の文字認識装置は、帳票の画像を取得する画像取得手段と、前記画像取得手段により取得された帳票の画像に埋め込まれている電子透かしを解読して前記帳票の形式を特定するための帳票定義データを取り出す電子透かし解読手段と、前記電子透かし解読手段により取り出された帳票定義データに基づいて前記画像に対し文字認識処理を実行する文字認識手段とを具備したことを特徴とする。
上記文字認識装置において、前記電子透かし解読手段は、前記帳票上に設けられた画素の配列により帳票定義データの位置を特定して帳票定義データを取り出す手段を備える。
本発明の帳票は、帳票定義データを特定するための画素列を設けたことを特徴とする。
本発明の文字認識プログラムは、文字認識装置に文字認識処理を実行させる文字認識プログラムであって、前記文字認識装置を、帳票の画像を取得する画像取得手段と、前記画像取得手段により取得された帳票の画像に埋め込まれている電子透かしを解読して前記帳票の形式を特定するための帳票定義データを取り出す電子透かし解読手段と、前記電子透かし解読手段により取り出された帳票定義データに基づいて前記画像に対し文字認識処理を実行する文字認識手段として機能させることを特徴とする。
本発明の文字認識方法は、帳票の画像を取得するステップと、前記帳票の画像に埋め込まれている電子透かしを解読して前記帳票の形式を特定するための帳票定義データを取り出すステップと、取り出した帳票定義データに基づいて前記画像に対し文字認識処理を実行するステップとを有することを特徴とする。
本発明では、文字の記入位置が線によって予め定められた帳票の画像を取得し、帳票の画像に埋め込まれている電子透かしを解読して帳票の形式を特定するための帳票定義データを取り出し、取り出した帳票定義データを基に画像に対し文字認識処理を実行するので、帳票全体として自然なデザインを保持しつつ、帳票毎に帳票定義を管理する必要がなくなる。
以上説明したように本発明によれば、帳票毎に帳票定義を管理する必要がないよう帳票定義を帳票に印刷する上で見た目に違和感がないようにすることができる。
以下、本発明の実施の形態を図面を参照して詳細に説明する。
図1は本発明に係る一つの実施形態の文字認識装置の構成を示す図、図2は文字認識対象の帳票の一例である申込書を示す図である。
図1に示すように、この文字認識装置は、ハードウェア構成としては、スキャナ1とパーソナルコンピュータ2(以下PC2と称す)とから構成されている。スキャナ1は、文字認識対象の帳票の表面の画像を読み取る画像読取手段として機能する。
PC2は、制御部3、画像記憶部4、電子透かし解読部5、帳票定義記憶部6、文字認識部7、認識結果記憶部8などを有している。これら各部は必要に応じてその機能を用いるものであり、すべての構成が必須とは限らない。例えば電子透かし解読部5が解読した帳票定義を文字認識部7がそのまま利用すれば帳票定義記憶部6などは不要である。またスキャナ1を用いずに帳票の画像をファイルの形態でネットワークや記憶媒体などを介してPC2に直接入力し画像記憶部4に保存しても良い。
PC2の機能は、CPU、RAM、ROMなどのメモリ、ハードディスク装置などの補助記憶装置、キーボードなどの入力装置およびマウスなどの指示装置、モニタなどの表示装置、スキャナ1とのインターフェースボードなどのハードウェアと、オペレーティングシステム(以下OSと称す)および文字認識アプリケーションソフトウェアなどのプログラムとが協動して実現される。
制御部3は、OSおよび文字認識アプリケーションソフトウェアなどにより実現される。画像記憶部4および帳票定義記憶部6は、RAMなどに設けられる記憶領域であり、情報を一時的に記憶しておくための領域である。認識結果記憶部8は、ハードディスク装置などの記憶領域であり、情報を保存しておくための領域である。
スキャナ1は、読み取り台にセットされた帳票の表面をCCDセンサなどでイメージスキャンして帳票の表面の画像を取得し制御部3へ出力する。
制御部3は、スキャナ1より入力された帳票の表面の画像を画像記憶部4に記憶する。その後、画像記憶部4に記憶された画像は、電子透かし解読部5に渡される。
電子透かし解読部5は、画像記憶部4に記憶された帳票の表面の画像を読み出してその画像より帳票に予め埋め込まれている電子透かしを読み取り解読することによりその帳票の帳票定義を取り出す。電子透かし解読部5は、スキャナ1により取得された帳票の画像に埋め込まれている電子透かしを解読して帳票の形式を特定するための帳票定義を取り出す電子透かし解読手段として機能する。電子透かしの解読方法については下記図2で詳述する。
電子透かし解読部5は、帳票の枠線に沿って並べられた白と黒の画素の配列より帳票定義の位置を特定し、帳票の画像から帳票定義のデータを取り出す。
文字認識部7は、電子透かし解読部5により取り出された帳票定義に基づき、画像の該当箇所を切り出して文字を認識し文字認識結果(テキストデータや対応する切り出し部分画像など)を認識結果記憶部8に記憶する。文字認識処理としては、予め登録されている文字認識用の辞書を参照して、切り出した文字のイメージデータと辞書のイメージデータとのパターンマッチングを行うものである。文字認識用の辞書には、文字のテキストデータとイメージデータが対応して記憶されている。
この文字認識装置に用いる帳票としては、例えば申込書などの帳票がある。
図2に示すように、申込書には、申込者が名前や住所、電話番号などの必要事項(文字)を記入する欄(枠線21)が黒い線(連続する黒画素)で印刷されている。枠線21は文字の記入位置を定めるものである。枠線21の外側に、1または数ドット分はみ出す形で黒画素と白画素とから構成される画素列が設けられている。この画素列が電子透かしである。なおこの例では、枠線21の外側にはみ出させる形で電子透かしを設けたが、枠線21の内側であっても良い。
この電子透かしは、その部分を拡大すると、例えば黒画素0.3mm,白画素0.3mm、黒画素0.9mm,白画素0.3mm、黒画素0.9mmなどのような所定の間隔の探索パターン22と、その後に続けて設けられた黒画素と白画素とを組み合わせた画素列から成るデータ本体23とで構成されている。
つまり、この申込書は、帳票表面の文字記入用の枠線の部分に、枠線21からはみ出す方向にほんのわずかな凹(白画素が構成する空白部分)、凸(黒画素)を印刷したものであり、電子透かし解読部5は、帳票から取得した画像を横方向に走査したときの白画素と黒画素の並び具合で帳票定義の探索パターン22を特定し、探索パターン22に続く帳票定義データであるデータ本体23を取り出す。データ本体23において、黒画素は2値の「1」に対応付けられ、白画素は2値の「0」に対応づけられている。従って、データ本体23は、黒画素と白画素とで表現される複数の2値データであり、これにより帳票定義データが設けられることになる。この帳票定義データは、ヘッダー情報や帳票定義データ名及び帳票定義データとから構成される。この帳票定義データの設け方は、任意に決めればよく、特に限定されない。要するに、帳票定義データとして、黒画素と白画素とで表現される2値データで構成されれば、どのようなデータ構成でも良い。
すなわち、この例は、帳票定義としての電子情報(画素列)を文字記入用の枠線21に沿って配置することで、人が見た目に分からない電子透かしとしたものである。なお、この例では、電子透かしを埋め込む対象を、記入される文字が入る枠線21部分としたが、必ずしも枠である必要はなく、例えばアンダーラインなどのように一本の線を最低限設けておけば良い。
この他にも電子透かしにはさまざまな方法があり、多くの方法で、図2同様に違和感の少ない状態で帳票定義を印刷しておくことができる。帳票としては、この例の申込書以外に、例えば名刺、配達用の伝票などでもよい。
以下、図3のフローチャートを参照して、この文字認識装置の動作を説明する。図3は図1の文字認識装置の動作を示すフローチャートである。
この文字認識装置では、帳票をスキャナ1にセットしてPC2のキーボードまたはマウスにて読み取り操作を行うと、スキャナ1は、帳票の表面をCCDセンサなどでスキャニングして帳票の画像を取得し(S101)、その画像ファイルを制御部3へ入力する。
制御部3は、入力された画像ファイルを画像記憶部4に一時的に記憶する。
電子透かし解読部5は、画像記憶部4より画像ファイルを読み出して画像に埋め込まれている電子透かしを解読し(S102)、この申込書の帳票定義を取り出し、帳票定義記憶部6へ一時的に記憶する。
文字認識部7は、帳票定義記憶部6より帳票定義を読み出し、読み出した帳票定義に基づいて画像記憶部4の画像に対して文字認識処理を実行し(S103)、認識結果を認識結果記憶部8に記憶する。
ここで、電子透かし解読部5の電子透かしの解読(S102の処理)について詳述する。
電子透かし解読部5は、画像記憶部4より読み出した画像ファイルのデータを、例えば横方向などの一定の方向に走査して(S201)、まず、白・黒の画素列を取得し、黒画素が一定数連続する部分を検出する(S202)。つまり、文字記入枠の横線を検出する。
黒画素が一定数連続する部分を検出すると、電子透かし解読部5は、続いて、その線の上または下の画素列を走査して、予め自身に設定されている探索パターンと比較して一致する画素パターンの有無を確認する(S203)。(探索パターンについて図2を参照)
この結果、探索パターンと一致した画素パターンが存在した場合、電子透かし解読部5は、それが電子透かしと特定し(S204)、その後に続く画素パターンを帳票定義のデータ本体として取り出し(S205)、帳票定義記憶部6に記憶する。
帳票定義は、帳票上の文字記入位置に関する情報、つまり文字枠に関する情報であり、具体的には、X座漂、Y座漂、文字ピッチ、文字数、字種などである。
なお、電子透かしが帳票のどこにあるか分からないような場合、文字記入枠の横線の検出処理を始めに行う方が処理速度としては速いが、S201の横方向の走査を画像全体に対して行い、一列毎に順に探索パターンと比較し電子透かしを特定するようにすれば、S202の文字記入枠の横線の検出処理は省略しても良い。
ここで、文字認識処理部7の文字認識処理(S103の処理)について詳述する。
文字認識処理部7は、帳票定義記憶部6より帳票定義を読み出し、読み出した帳票定義より文字記入枠の位置を特定し、文字単位に文字画像を切り出し(S301)、切り出した文字画像と辞書の文字画像とを比較、つまりイメージマッチングを行い(S302)、合致または類似した文字画像に対応するテキストデータを、辞書より呼び出して認識結果として出力(S303)、つまり認識結果記憶部8に記憶する。
このようにこの実施形態の文字認識装置によれば、帳票定義を電子透かしとして帳票に印刷したことにより、人の目に違和感のない形態で帳票定義を帳票に埋め込むことができる。
また、帳票に印刷された電子透かしを画像より抽出して解読し帳票定義を取り出す機能を備えたことで、個々の帳票に対応する帳票定義をユーザが管理することなく、それぞれの帳票に合致した文字認識を実現できる。
なお、本発明は上記実施形態のみに限定されるものではない。
上記実施形態では、罫線の縁に沿って定型配列の白黒のドット情報を電子透かしとして埋め込んだが、図6に示すように、申込書90の表面、つまり背景全体に白黒の画素を印字しその中の一部領域に定型配列の白黒の画素情報91、つまり電子透かしを埋め込むようにしても良い。
この場合、申込書90は、その背景が一見して灰色に着色されているだけで電子情報が埋め込まれているようには見えないため、帳票全体として自然なデザインとなっており帳票を見る人に違和感を感じさせなくできる。
本発明の一つの実施形態の文字認識装置の構成を示す図。 文字認識対象の申込書の一例を示す図。 この文字認識装置の動作を示すフローチャート。 この文字認識装置の電子透かし解読動作を示すフローチャート。 この文字認識装置の文字認識処理を示すフローチャート。 電子透かしを埋め込んだ申込書の他の例を示す図。
符号の説明
1…スキャナ、2…パーソナルコンピュータ(PC)、3…制御部、4…画像記憶部、5…解読部、6…帳票定義記憶部、7…文字認識処理部、7…文字認識部、8…認識結果記憶部、21…枠線、22…探索パターン、23…データ本体、90…申込書。

Claims (5)

  1. 帳票の画像を取得する画像取得手段と、
    前記画像取得手段により取得された帳票の画像に埋め込まれている電子透かしを解読して前記帳票の形式を特定するための帳票定義データを取り出す電子透かし解読手段と、
    前記電子透かし解読手段により取り出された帳票定義データに基づいて前記画像に対し文字認識処理を実行する文字認識手段と
    を具備したことを特徴とする文字認識装置。
  2. 前記電子透かし解読手段は、
    前記帳票上に設けられた画素の配列により帳票定義データの位置を特定して帳票定義データを取り出す手段を具備したことを特徴とする請求項1記載の文字認識装置。
  3. 帳票定義データを特定するための画素列を設けたことを特徴とする文字認識用の帳票。
  4. 文字認識装置に文字認識処理を実行させる文字認識プログラムであって、
    前記文字認識装置を、
    帳票の画像を取得する画像取得手段と、
    前記画像取得手段により取得された帳票の画像に埋め込まれている電子透かしを解読して前記帳票の形式を特定するための帳票定義データを取り出す電子透かし解読手段と、
    前記電子透かし解読手段により取り出された帳票定義データに基づいて前記画像に対し文字認識処理を実行する文字認識手段
    として機能させることを特徴とする文字認識プログラム。
  5. 帳票の画像を取得するステップと、
    前記帳票の画像に埋め込まれている電子透かしを解読して前記帳票の形式を特定するための帳票定義データを取り出すステップと、
    取り出した帳票定義データに基づいて前記画像に対し文字認識処理を実行するステップと
    を有することを特徴とする文字認識方法。
JP2005072216A 2005-03-15 2005-03-15 文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法 Pending JP2006259795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005072216A JP2006259795A (ja) 2005-03-15 2005-03-15 文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005072216A JP2006259795A (ja) 2005-03-15 2005-03-15 文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法

Publications (1)

Publication Number Publication Date
JP2006259795A true JP2006259795A (ja) 2006-09-28

Family

ID=37099033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005072216A Pending JP2006259795A (ja) 2005-03-15 2005-03-15 文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法

Country Status (1)

Country Link
JP (1) JP2006259795A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085920A (ja) * 2006-09-28 2008-04-10 Fujitsu Ltd 電子透かし埋め込み装置および検出装置
JP2010079711A (ja) * 2008-09-26 2010-04-08 Ricoh Co Ltd 多角形型コード、情報登録装置及び情報出力装置
WO2014006726A1 (ja) * 2012-07-05 2014-01-09 株式会社 東芝 オブジェクトにデータを埋め込む装置及び方法、並びに埋め込まれたデータを抽出する装置及び方法
JP2014236290A (ja) * 2013-05-31 2014-12-15 株式会社リコー 画像形成装置、プログラム及び審査システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085920A (ja) * 2006-09-28 2008-04-10 Fujitsu Ltd 電子透かし埋め込み装置および検出装置
JP2010079711A (ja) * 2008-09-26 2010-04-08 Ricoh Co Ltd 多角形型コード、情報登録装置及び情報出力装置
WO2014006726A1 (ja) * 2012-07-05 2014-01-09 株式会社 東芝 オブジェクトにデータを埋め込む装置及び方法、並びに埋め込まれたデータを抽出する装置及び方法
CN104396225A (zh) * 2012-07-05 2015-03-04 株式会社东芝 向对象嵌入数据的装置及方法、以及抽取所嵌入的数据的装置及方法
US9569810B2 (en) 2012-07-05 2017-02-14 Kabushiki Kaisha Toshiba Apparatus and method for embedding data in object and apparatus and method for extracting embedded data
CN104396225B (zh) * 2012-07-05 2017-05-31 株式会社东芝 向对象嵌入数据的装置及方法、以及抽取所嵌入的数据的装置及方法
JP2014236290A (ja) * 2013-05-31 2014-12-15 株式会社リコー 画像形成装置、プログラム及び審査システム

Similar Documents

Publication Publication Date Title
US8316425B2 (en) Method and apparatus for authenticating printed documents
US8379261B2 (en) Creation and placement of two-dimensional barcode stamps on printed documents for storing authentication information
US7426284B2 (en) Method, apparatus, and program for image processing capable of effectively preventing and detecting tampering, and a medium storing the program
US8595503B2 (en) Method of self-authenticating a document while preserving critical content in authentication data
JP2011147114A (ja) 階層的バーコードスタンプを用いてバーコードの改変を検出する文書認証
US20070153303A1 (en) Image processing device, image processing method, image processing system, and information recording medium
JP2007251929A (ja) 画像の選択的エンコーディングと置換
CN108076243B (zh) 图像形成系统、图像形成方法以及记录介质
US10462326B2 (en) Machine readable security mark and process for generating same
JP2006254299A (ja) 画像生成装置若しくは画像読取装置、方法、プログラム及び記憶媒体
JP6122988B1 (ja) 画像処理装置、画像処理方法、および、プログラム
EP1770977B1 (en) Image processing apparatus, control method therefor, computer program, and computer-readable storage medium for encrypting data.
JP2006259795A (ja) 文字認識用の帳票、文字認識装置、文字認識プログラムおよび文字認識方法
JP4557875B2 (ja) 画像処理方法及び装置
JP5436402B2 (ja) メッセージを構造化された形状内に埋め込む方法およびシステム
JP2021114192A (ja) 情報処理装置及びプログラム
JP2009177618A (ja) 検出方法および検出装置
JP2000181988A (ja) 光学文字読取装置
KR100988309B1 (ko) 문서식별자의 삽입방법 및 그의 해독방법
JP2010211470A (ja) 文書データ生成装置と文書データ生成方法
JP4158681B2 (ja) 画像処理システム
JP4144511B2 (ja) 画像処理システム
JP4083723B2 (ja) 画像処理装置
JP2007081472A (ja) 画像処理装置、画像形成装置、及び画像形成システム
JP2009205209A (ja) 文書画像処理装置、及び文書画像処理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108