JP2005107679A - 書式情報生成方法及び書式情報生成装置 - Google Patents

書式情報生成方法及び書式情報生成装置 Download PDF

Info

Publication number
JP2005107679A
JP2005107679A JP2003337814A JP2003337814A JP2005107679A JP 2005107679 A JP2005107679 A JP 2005107679A JP 2003337814 A JP2003337814 A JP 2003337814A JP 2003337814 A JP2003337814 A JP 2003337814A JP 2005107679 A JP2005107679 A JP 2005107679A
Authority
JP
Japan
Prior art keywords
image data
format
information
color
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003337814A
Other languages
English (en)
Inventor
Masaru Tanaka
大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2003337814A priority Critical patent/JP2005107679A/ja
Publication of JP2005107679A publication Critical patent/JP2005107679A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】 記入欄の書式を指定するための書式情報の検出率を向上すること。
【解決手段】 帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成方法において、記入欄の書式を示す記号である書式指定記号を帳票用紙の各記入欄に記入した後に、その帳票用紙の画像データをイメージスキャナで生成し、その画像データから固定文字の色と異なる色であるという外観的特徴に基づいて前記記号の画像データを抽出し(ステップS101〜S103)、その画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出し(ステップS106)、その検出結果に基づいて各記入欄の書式の情報を生成するようにした(ステップS107)。
【選択図】 図2

Description

本発明は、帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成方法及び、その方法の実施に好適な書式情報生成装置に関する。
近年、固定文字の情報と記入欄の書式の情報と(書式情報)を参照し、固定文字と記入欄の内容とを同時に印刷する書式オーバレイ方式が広く採用されるようになっている。
ところで、この書式情報は、従来次のような手順で生成されていた。つまり、記入欄の書式を示す記号である書式指定記号を帳票用紙の各記入欄に記載した後に、その帳票用紙の画像データをイメージスキャナで生成し、その画像データから予め登録されている固定文字或いは書式指定記号に一致する記号を検出し、その検出結果に基づいて前記書式情報を生成するようになっていた(例えば、特許文献1参照。)。
特開平7−37005号公報
しかしながら、上記従来の技術にあっては、単に、帳票用紙の画像データ全体から固定文字或いは書式指定記号に一致する記号を検出するようになっていたため、例えば、書式指定記号として固定文字と重複する記号が使用されると、固定文字が書式指定記号として誤検出されたり、書式指定記号が固定文字として誤検出されたりし、その結果、書式情報の検出率が悪化してしまう恐れがあった。
そこで、本発明は、上記従来技術の未解決の問題を解決することを目的としてなされたものであって、書式情報の検出率を向上することができる書式情報抽出方法を提供することを課題とする。
上記課題を解決するために、第1の発明である書式情報抽出方法は、帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成方法において、記入欄の書式を示す記号である書式指定記号を帳票用紙の各記入欄に記入した後に、その帳票用紙の画像データを生成し、その生成された画像データから前記固定文字と異なる所定の外観的特徴を有する記号の画像データをその外観的特徴に基づいて抽出し、その抽出された画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出し、その検出結果に基づいて各記入欄の書式の情報を生成することを特徴とする。なお、書式指定記号としては、数字、アルファベット、ひらがな、カタカナ、半角、全角等の文字種を示す記号、複数項目選択可能なチェックボックス、単一項目のみ選択可能なラジオボタン等の記入方法を示す記号、右寄せ、左寄せ、改行等のレイアウトを示す記号を挙げることができる。また、書式指定記号の表記方法としては、マーク等の図形、漢字やアルファベット等の文字等を用いる方法を挙げることができる。
また、第2の発明である書式情報抽出方法は、帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成方法において、記入欄の書式を示す記号である書式指定記号を帳票用紙の各記入欄に記入した後に、その帳票用紙の画像データを生成し、その生成された画像データから未記入の帳票用紙の画像データを除いた差分画像データを抽出し、その抽出された差分画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出し、その検出結果に基づいて各記入欄の書式の情報を生成することを特徴とする。
一方、第3の発明である書式情報抽出装置は、帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成装置において、記入欄の書式を示す記号である書式指定記号が各記入欄に記入されている帳票用紙の画像データを生成する画像データ生成手段と、その画像データ生成手段で生成された画像データから固定文字と異なる所定の外観的特徴を有する記号の画像データをその外観的特徴に基づいて抽出する画像データ抽出手段と、その画像データ抽出手段で抽出された画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出する書式指定記号検出手段と、その書式指定記号検出手段の検出結果に基づいて各記入欄の書式の情報を生成する書式情報生成手段とを備えたことを特徴とする。
この第1〜第3の発明によれば、帳票用紙の画像データから書式指定記号の画像データだけがその外観的特徴に基づいて抽出され、その抽出された画像データから記入欄に対する書式指定記号の位置及び内容が検出されるため、書式指定記号以外の記号が書式指定記号と誤検出されることや、書式指定記号が書式指定記号以外の記号と誤検出されることが抑制防止され、書式情報の検出率を向上することができる。
また、第4の発明である書式情報抽出装置は、前記画像データ抽出手段は、前記画像データ生成手段で生成された画像データから固定文字の色と異なる色であるという外観的特徴に基づいて前記記号の画像データを抽出することを特徴とする。
さらに、第5の発明である書式情報抽出装置は、前記画像データ抽出手段は、前記画像データ生成手段で生成された画像データから帳票用紙の地の色、固定文字の色及び書式指定記号の色を検出する色情報検出手段と、その色情報検出手段で検出された書式指定記号の色を前記外観的特徴として前記記号の画像データを抽出する特定色画像データ抽出手段を備えたことを特徴とする。
この第4及び第5の発明によれば、書式指定記号を固定文字の色と異なる色で記入すると、帳票用紙の画像データから書式指定記号の画像データだけがその色に基づいて抽出され、その抽出された画像データから記入欄に対する書式指定記号の位置及び内容が検出されるため、書式情報の検出率を容易に向上することができる。
さらに、第6の発明である書式情報抽出装置は、利用者に前記書式指定記号の色を設定させる色設定手段を備え、前記画像データ抽出手段は、前記色設定手段で設定された色を前記外観的特徴として前記記号の画像データを抽出することを特徴とする。
この第6の発明によれば、書式指定記号の画像データの抽出をより適切に行うことができ、書式情報の検出率をより向上することができる。
また、第7の発明である書式情報抽出方法は、帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成装置において、未記入の帳票用紙の画像データを生成する未記入画像データ生成手段と、記入欄の書式を示す記号である書式指定記号が各記入欄に記入されている帳票用紙の画像データを生成する画像データ生成手段と、その画像データ生成手段で生成された画像データから前記未記入画像データ生成手段で生成された画像データを除いた差分画像データを抽出する差分画像データ抽出手段と、その差分画像データ抽出手段で抽出された差分画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出する書式指定記号検出手段と、その書式指定記号検出手段の検出結果に基づいて各記入欄の書式の情報を生成する書式情報生成手段とを備えたことを特徴とする。
この第7の発明によれば、帳票用紙の画像データから書式指定記号の画像データだけが抽出され、その抽出された画像データから記入欄に対する書式指定記号の位置及び内容が検出されるため、書式指定記号以外の記号が書式指定記号と誤検出されることや、書式指定記号が書式指定記号以外の記号と誤検出されることが抑制防止され、書式情報の検出率を向上することができる。
さらに、第8の発明である書式情報抽出方法は、前記未記入画像データ生成手段は、複数の使用済み帳票用紙の画像データを生成する複数画像データ生成手段と、その複数画像データ生成手段で生成された複数の画像データを平均化して平均画像データを生成する画像平均化手段と、その画像平均化手段で生成された平均画像データを所定閾値に基づいてフィルタリングすることにより前記未記入の帳票用紙の画像データを生成するフィルタリング手段とを備えたことを特徴とする。
この第8の発明によれば、使用済みの帳票用紙から未記入の帳票用紙の画像データを生成することができ、未記入の帳票用紙の画像データを容易に生成することができる。
以下に、本発明に係る書式情報生成装置の一実施形態を図面に基づいて説明する。
図1は、本発明の第1実施形態であるコンピュータシステム1の概略構成を示すブロック図である。この図1に示すように、コンピュータシステム1は、CPU(Central Processing Unit )2、RAM(Random Access Memory)3、記憶装置4が有する記憶媒体5及びイメージスキャナ6で構成され、記憶媒体5を除く各部はバス7で互いにデータ授受可能に接続されている。
これらのうちCPU2は、後述する記憶装置4に格納されている基本制御プログラム等の各種プログラム及びデータを読み込み、それらをRAM3内に設けられるワークエリアに展開して実行し、コンピュータシステム1が備える各部を制御する。
また、CPU2は、イメージスキャナ6から帳票用紙の画像データが出力されると、後述する書式情報生成処理を実行し、その出力された画像データから固定文字の色及び書式指定記号の色を検出し、それらの色に対応する画像データを個別に抽出し、それら抽出された画像データからそれぞれ固定文字及び書式指定記号を検出し、その検出結果に基づいて固定文字の情報及び書式指定記号の情報を生成するようになっている。
さらに、RAM3は、CPU2が各種プログラムに従って各種処理を実行するときに、各種プログラムを展開するワークエリアを形成するとともに、CPU2により実行される各種処理に係るデータを展開するためのメモリ領域を形成する。
また、記憶装置4は、磁気的、光学的記録媒体、或いは半導体メモリ等によってなる記憶媒体5を有する。この記憶媒体5は、CPU2により実行される基本制御プログラム、各種アプリケーション及びこれら各プログラムに係るデータ等を格納する。そして、記憶装置4は、CPU2からの読み出し要求に従って、記憶媒体5内に格納されている各種プログラムやデータをCPU2に出力する。なお、記憶媒体5内の各種プログラム及びデータは、いずれもCPU2により読み取り及び実行可能な形式で格納される。
また、イメージスキャナ6は、利用者によって帳票用紙が給紙口にセットされると、その帳票用紙のグレースケール画像データ(以下、単に画像データとも呼ぶ。)を生成し、その生成された画像データをCPU2に出力する。
次に、上記のように構成されるコンピュータシステム1で実行される書式情報生成処理を、図2のフローチャートに基づいて説明する。この書式情報生成処理は、イメージスキャナ6から帳票用紙の画像データが出力されると実行される処理であって、図2に示すように、まずそのステップS101で、書式指定記号が各記入欄に記入されている帳票用紙の画像データをイメージスキャナ6から取得する。
次にステップS102に移行して、前記ステップS101で取得された帳票用紙の画像データに基づいて、帳票用紙の地の色、固定文字の色及び書式指定記号の色を検出する後述する色情報検出処理を実行する。
次にステップS103に移行して、前記ステップS102の検出結果に基づき、前記ステップS101で取得された帳票用紙の画像データから固定文字の情報及び書式指定記号の情報を生成する。具体的には、前記ステップS102で検出された帳票用紙の固定文字の色に対応する画像データを抽出し、その抽出された画像データから固定文字の情報(帳票用紙における固定文字の座標や大きさの情報)を生成する。また、前記ステップS102で検出された書式指定記号の色に対応する画像データを抽出し、その抽出された画像データから書式指定記号の情報(帳票用紙における書式指定記号の座標や大きさ、内容の情報)を生成する。
次にステップS104に移行して、前記ステップS102で検出された帳票用紙の固定文字の色に対応する画像データを抽出し、その抽出された画像データから罫線の情報(帳票用紙における罫線の座標の情報)を生成する。
次にステップS105に移行して、前記ステップS103で検出された座標や大きさ、内容、前記ステップS104で検出された罫線の座標等から帳票用紙の記入欄の情報を生成する。具体的には、記入欄等のレイアウトの整合性が向上するように固定文字や書式指定記号の検出結果を他の属性のものに置き換えたり、帳票用紙の地の色、固定文字の色及び書式指定記号の色を判別する閾値の大きさを変更したりし、変更後の固定文字や書式指定記号、罫線によって定まる記入欄の情報を生成する。
次にステップS106に移行して、前記ステップS103で検出された書式指定記号の前記ステップS105で検出された記入欄に対する位置及び内容を検出し、その書式指定記号に最も近い記入欄、つまりその書式指定記号が記入されている記入欄の書式の情報を当該内容に基づいて生成する。例えば、書式指定記号「文字列」又は「string」は記入欄の書式を文字列とすることを示し、書式指定記号「数字」又は「num」は記入欄の書式を数字列とすることを示す。
また、書式指定記号「TITLE」は記入欄の書式を文字列とすることを示し、書式指定記号「sub_Y」は記入欄の書式を数字列とすることを示す。また、丸で囲まれた書式指定記号「sign」は記入欄の書式を電子署名による捺印とすることを示し、書式指定記号「fr_D」、「to_D」、「dur_D」は記入欄の書式を数字列とすることを示す。
さらに、書式指定記号「|←」や「→|」は記入欄の書式を左揃えタブ、右揃えタブとすることを示し、書式指定記号「<┘」は記入欄の書式を改行とすることを示す。また、書式指定記号「○」は記入欄の書式を択一選択可能な「ラジオボタン」とすることを示し、書式指定記号「□」は記入欄の書式を選択の有無を判別する「チェックボックス」とすることを示す。
次にステップS107に移行して、前記ステップS103で生成された固定文字の情報及び書式指定記号の情報と、前記ステップS104で生成された罫線の情報と、前記ステップS105で生成された記入欄の情報と、前記ステップS106で生成された記入欄の書式の情報とを含む書式情報を生成し、その書式情報をXML(eXtensible Markup Language)やHTML(Hyper Text Markup Language)といったタグ付きの言語の形式で記述して記憶媒体5に格納してから、この演算処理を終了する。
次に、前記書式情報生成処理のステップS102で実行される色判別処理を、図3のフローチャートに基づいて説明する。この書式情報生成処理は、図3に示すように、まずそのステップS201で、前記ステップS101で取得された帳票用紙の画像データに対応する画像の中央部に横方向に延びている輝度検出領域を設定する。
次にステップS202に移行して、図4に示すように、前記ステップS201で設定された輝度検出領域にある画像を構成する複数の画素の輝度をそれぞれ検出し、それらの検出結果に基づいて輝度分布ヒストグラムを生成する。
次にステップS203に移行して、前記ステップS202で生成された輝度分布ヒストグラムから3つのピーク、つまり帳票用紙の地の色、固定文字の色及び書式指定記号の色それぞれに対応するピークを検出し、それらのピーク間の中間値を小さいものから順に第1閾値及び第2閾値とする。そして、前記ステップS101で取得された帳票用紙の画像データから輝度が第1閾値以下である画像に対応する第1画像データを抽出し、以下同様に、輝度が第1閾値より大きく且つ第2閾値以下である画像に対応する第2画像データを抽出し、輝度が第2閾値より大きい画像に対応する第3画像データを抽出する。
次にステップS204に移行して、前記ステップS203で抽出された第1画像データに対応する画像の色が帳票用紙の固定文字の色であると仮定し、第2画像データに対応する画像の色が書式指定記号の色であると仮定し、第3画像データに対応する画像の色が帳票用紙の地の色であると仮定する。
次にステップS205に移行して、帳票用紙の固定文字の色であると仮定されている色の画像に罫線が含まれているか否かを判定し、罫線が含まれている場合には(Yes)ステップS207に移行し、そうでない場合には(No)ステップS206に移行する。
前記ステップS206では、仮定が誤りであることを示す仮定誤りフラグFを「1」のセット状態としてから、前記ステップS207に移行する。ちなみに、初期状態にあっては、仮定誤りフラグFを「0」のリセット状態とする。
前記ステップS207に移行して、帳票用紙の固定文字の色であると仮定されている色の画像に文字が含まれているか否かを判定し、文字が含まれている場合には(Yes)ステップS209に移行し、そうでない場合には(No)ステップS208に移行する。
前記ステップS208では、仮定誤りフラグFを「1」のセット状態としてから、前記ステップS209に移行する。
前記ステップS209では、帳票用紙の書式指定記号の色であると仮定されている色の画像に書式指定記号が含まれているか否かを判定し、書式指定記号が含まれている場合には(Yes)ステップS211に移行し、そうでない場合には(No)ステップS210に移行する。
前記ステップS210では、仮定誤りフラグFを「1」のセット状態としてから、前記ステップS211に移行する。
前記ステップS211では、帳票用紙の地の色であると仮定されている色の画像の面積が他の色の画像の面積より大きいか否かを判定し、大きい場合には(Yes)ステップS213に移行し、そうでない場合には(No)ステップS212に移行する。
前記ステップS212では、仮定誤りフラグFを「1」のセット状態としてから、前記ステップS213に移行する。
前記ステップS213では、帳票用紙の地の色であると仮定されている色の画像が他の色の画像より帳票用紙の外側に多く分布しているか否かを判定し、帳票用紙の外側に多く分布している場合には(Yes)ステップS215に移行し、そうでない場合には(No)ステップS214に移行する。
前記ステップS214では、仮定誤りフラグFを「1」のセット状態としてから、前記ステップS215に移行する。
前記ステップS215では、仮定誤りフラグFが「1」のセット状態であるか否かを判定し、「1」のセット状態である場合には(Yes)ステップS216に移行し、そうでない場合には(No)ステップS218に移行する。
前記ステップS216では、仮定誤りフラグFを「0」のリセット状態とする。
次にステップS217に移行し、帳票用紙の固定文字の色、書式指定記号の色及び帳票用紙の地の色の少なくとも2つがそれまでと異なる色となるように、それらの色がそれぞれ当該第1〜第3画像データに対応する画像の色であると仮定してから、前記ステップS205に移行する。例えば、それまで第1画像データに対応する画像の色が帳票用紙の固定文字の色であると仮定され、第2画像データに対応する画像の色が書式指定記号の色であると仮定され、第3画像データに対応する画像の色が帳票用紙の地の色であると仮定されていたとすると、ここでは第1画像データに対応する画像の色が帳票用紙の地の色であると仮定され、第2画像データに対応する画像の色が帳票用紙の固定文字の色であると仮定され、第3画像データに対応する画像の色が書式指定記号の色であると仮定される。
一方、前記ステップS218では、前記ステップS204又はS217で最後に仮定された色(第1〜第3画像データに対応する画像の色)を帳票用紙の固定文字の色、書式指定記号の色、帳票用紙の地の色であると検出してから、この演算処理を終了する。
次に、本実施形態の動作を具体的状況に基づいて詳細に説明する。
まず、図5に示すように、利用者が既存の帳票用紙の各記入欄に帳票用紙の地の色や固定文字の色と異なる色で書式指定記号を記入した後に、その帳票用紙をイメージスキャナ6の給紙口にセットしたとする。すると、そのイメージスキャナ6で、帳票用紙の画像データが生成され、その生成された帳票用紙の画像データがCPU2に出力され、CPU2で、書式情報生成処理が実行され、図2に示すように、まずそのステップS101で、帳票用紙の画像データが取得され、ステップS102で、色情報検出処理が実行される。
この色情報検出処理が実行されると、図3に示すように、まずそのステップS201で、帳票用紙の画像データに対応する画像に輝度検出領域が設定され、ステップS202で、図4に示すように、その輝度検出領域にある画像の輝度が画素毎に検出され、ステップS203で、それらの輝度に基づいて第1〜第3画像データが生成され、ステップS204で、その第1画像データに対応する画像の色が帳票用紙の固定文字の色であると仮定され、第2画像データに対応する画像の色が書式指定記号の色であると仮定され、第3画像データに対応する画像の色が帳票用紙の地の色であると仮定される。
ここで、帳票用紙の地の色が白色であり、罫線や固定文字が黒色であり、書式指定記号の色が灰色であるとする。すると、ステップS205、S207、S209、S211、S213及びS215の判定が「Yes」となり、ステップS218で、前記ステップS204で仮定された色(第1〜第3画像データに対応する画像の色)が帳票用紙の固定文字の色、書式指定記号の色、帳票用紙の地の色であると検出され、この演算処理が終了され、もとの書式情報生成処理に復帰する。
もとの書式情報生成処理に復帰すると、そのステップS103で、図6(a)に示すように、帳票用紙の固定文字の色に対応する画像データが抽出され、その画像データから固定文字の情報が生成され、また図6(b)に示すように、書式指定記号の色に対応する画像データが抽出され、その画像データから書式指定記号の情報が生成され、ステップS104で、図6(a)に示すように、帳票用紙の固定文字の色に対応する画像データが抽出され、その画像データから罫線の情報が生成され、ステップS105で、検出された固定文字の情報や書式指定記号の情報、罫線の情報によって定まる記入欄の情報が生成され、ステップS106で、検出された書式指定記号の記入欄に対する位置及び内容が検出され、その書式指定記号が記入されている記入欄の書式の情報が生成され、ステップS107で、固定文字の情報と書式指定記号の情報と罫線の情報と記入欄の情報と記入欄の書式の情報とを含む書式情報が生成され、その書式情報がタグ付きの言語の形式で記述して記憶媒体5に格納される。
このように、本実施形態のコンピュータシステム1によれば、帳票用紙の画像データから書式指定記号の画像データをその色に基づいて抽出し、その抽出された画像データから記入欄に対する書式指定記号の位置及び内容を検出するようにしたため、書式指定記号以外の記号が書式指定記号と誤検出されることや、書式指定記号が書式指定記号以外の記号と誤検出されることが抑制防止され、書式情報の検出率を向上することができる。
次に、本発明の書式情報生成装置の第2実施形態について説明する。この第2実施形態は、帳票用紙の記入欄の書式を示す記号である書式指定記号に変数としての機能を持たせる外部定義ファイルを生成するようにした点が前記第1実施形態と異なる。具体的には、前記第1実施形態のCPU2で行われる図2の演算処理のステップS106とS107との間に、図7の演算処理のステップS301が追加されている。この図7の演算処理は、前記第1実施形態の図2の演算処理と同等のステップを多く含んでおり、同等のステップには同等の符号を付して、その詳細な説明を省略する。
このステップS301では、書式指定記号「sub_Y」、「sub_M」、「sub_D」に正の整数値の変数としての機能を持たせ、書式指定記号「TITLE」に文字列の変数としての機能を持たせる情報を生成し、その情報をSGML(Standard Generalized Markup Language)やXMLで用いられるDTD(Document Type Definition)の形式で以下に示すように記述して外部定義ファイルとして記憶媒体5に格納する。
<!ELEMENT sub_Y (#NUMBERS)>
<!ELEMENT sub_M (#NUMBERS)>
<!ELEMENT sub_D (#NUMBERS)>
<!ELEMENT TITLE (#PCDATA)>
このように、本実施形態のコンピュータシステム1によれば、書式指定記号に変数としての機能を持たせる外部定義ファイルを生成するようにしたため、例えば、書式情報に基づいて帳票用紙の画像をディスプレイに表示し、利用者に、書式指定記号「sub_Y」、「sub_M」及び「sub_D」に対応する記入欄に数値(例えば、2003年5月23日)を入力させ、書式指定記号「TITLE」に対応する記入欄に文字列(例えば、特許講演会)を入力させたときに、書式指定記号「dur_D」、「sub_M」、「sub_D」及び「TITLE」に対応する変数それぞれを「2003」、「5」、「23」及び「特許講演会」とし、それらの変数をタグ付きの言語の形式で以下に示すように記述して記憶媒体5に格納することができる。
<?xml version="1.0" encoding="Shift_JIS"?>
<sub_Y>2003</sub_Y>
<sub_M>5</sub_M>
<sub_D>23</sub_D>
<TITLE>特許講演会</TITLE>
次に、本発明の書式情報生成装置の第3実施形態について説明する。この第3実施形態は、書式指定情報が記入されている帳票用紙の画像データから未記入の帳票用紙の画像データを除いた差分画像データを抽出し、その抽出された差分画像データを書式指定記号の画像データとした点が前記第1実施形態とは異なる。具体的には、前記第1実施形態のCPU2で行われる図2の演算処理が図8の演算処理に変更されている。
まずそのステップS401では、未記入の帳票用紙の画像データをイメージスキャナ6から取得する。
次にステップS402に移行して、前記ステップS401で取得された帳票用紙の画像データを記憶装置4が有する記憶媒体5に格納させる。
次にステップS403に移行して、前記ステップS402で記憶媒体5に格納された帳票用紙の画像データから固定文字の情報(帳票用紙における固定文字の座標や大きさ)を生成する。
次にステップS404に移行して、前記ステップS402で記憶媒体5に格納された帳票用紙の画像データから罫線の情報(帳票用紙における罫線の座標や大きさ、内容)を生成する。
次にステップS405に移行して、前記ステップS403で検出された座標や大きさの固定文字、前記ステップS404で検出された罫線の座標等から帳票用紙の記入欄の情報を生成する。具体的には、記入欄等のレイアウトの整合性が向上するように固定文字を他の属性のものに置き換え、置き換え後の固定文字や罫線によって定まる記入欄の情報を生成する。
次にステップS406に移行して、新たな帳票用紙の画像データがイメージスキャナ6で生成されたか否かを判定し、生成された場合には(Yes)ステップS406に移行し、そうでない場合には(No)この判定を繰り返し実行する。
次にステップS407に移行して、書式指定記号が記入されている帳票用紙の画像データをイメージスキャナ6から取得する。
次にステップS408に移行して、前記ステップS407で取得された帳票用紙の画像データを記憶装置4が有する記憶媒体5に格納させる。
次にステップS409に移行して、前記ステップS408で記憶装置4に格納された帳票用紙の画像データ(書式指定記号が記入されている帳票用紙の画像データ)に対応する画像と前記ステップS402で記憶装置4に格納された帳票用紙の画像データ(未記入の帳票用紙の画像データ)に対応する画像との相関が最も大きい位置関係となるようにそれらの画像データを補正する。
次にステップS410に移行して、前記ステップS408で記憶装置4に格納された帳票用紙の画像データ(書式指定記号が記入されている帳票用紙の画像データ)から、前記ステップS408で補正された画像データを除いた差分画像データを抽出し、その抽出された差分画像データを書式指定記号の画像データとする。
次にステップS411に移行して、前記ステップS410で抽出された画像データから書式指定記号を検出し、それらの書式指定記号の前記ステップS405で検出された記入欄に対する位置及び内容を検出し、その書式指定記号に最も近い記入欄、つまり書式指定記号が記入されている記入欄の書式の情報を生成する。
次にステップS412に移行して、前記ステップS403で生成された固定文字の情報及び書式指定記号の情報と、前記ステップS404で生成された罫線の情報と、前記ステップS405で生成された記入欄の情報と、前記ステップS411で生成された記入欄の書式の情報とを含む書式情報を生成し、その書式情報をXML( eXtensible Markup Language)やHTML(Hyper Text Markup Language)といったタグ付きの言語の形式で記述して記憶媒体5に格納してから、この演算処理を終了する。
次に、本実施形態の動作を具体的状況に基づいて詳細に説明する。
まず、利用者が未記入の帳票用紙をイメージスキャナ6の給紙口にセットしたとする。すると、そのイメージスキャナ6で、帳票用紙の画像データが生成され、その生成された帳票用紙の画像データがCPU2に出力され、CPU2で、書式情報生成処理が実行され、図8に示すように、まずそのステップS401で、未記入の帳票用紙の画像データが取得され、ステップS402で、帳票用紙の画像データが記憶装置4の記憶媒体5に格納され、ステップS403で、帳票用紙の画像データから固定文字の情報が検出され、ステップS404で、帳票用紙の画像データから罫線の情報が検出され、ステップS405で、検出された固定文字や罫線によって定まる記入欄の情報が生成され、ステップS406の判定が「No」となり、そのステップS406の判定が繰り返し実行される。
ここで、利用者が既存の帳票用紙の各記入欄に書式指定記号を記入した後に、その帳票用紙をイメージスキャナ6の給紙口にセットしたとする。すると、そのイメージスキャナ6で、帳票用紙の画像データが生成され、その生成された帳票用紙の画像データがCPU2に出力され、前記ステップS406の判定が「Yes」となり、ステップS407で、帳票用紙の画像データが取得され、ステップS408で、帳票用紙の画像データが記憶装置4の記憶媒体5に格納され、ステップS409で、書式指定記号が記入されている帳票用紙の画像データに対応する画像と未記入の帳票用紙の画像データに対応する画像との相関が最も大きい位置関係となるようにそれらの画像データが補正され、ステップS410で、それらの帳票用紙の画像データの差分に基づいて書式指定記号の画像データが抽出され、ステップS411で、抽出された画像データから書式指定記号が検出され、それらの書式指定記号の記入欄に対する位置及び内容が検出され、その書式指定記号が記入されている記入欄の書式情報が生成され、ステップS412で、固定文字の情報と書式指定記号の情報と罫線の情報と記入欄の情報と記入欄の書式の情報とを含む書式情報が生成され、その書式情報がタグ付きの言語の形式で記述して記憶媒体5に格納される。
このように、本実施形態のコンピュータシステム1によれば、書式指定記号が記入されている帳票用紙の画像データから未記入の帳票用紙の画像データを除いた差分画像データを抽出し、その抽出された差分画像データを書式指定記号の画像データとし、その書式指定記号の画像データから記入欄に対する書式指定記号の位置及び内容を検出するようにしたため、書式指定記号以外の記号が書式指定記号と誤検出されることや、書式指定記号が書式指定記号以外の記号と誤検出されることが抑制防止され、書式情報の検出率が向上する。
次に、本発明の書式情報生成装置の第4実施形態について説明する。この第4実施形態は、使用済みの帳票用紙の画像データから未記入の帳票用紙の画像データを生成するようにした点が前記第3実施形態とは異なる。具体的には、前記第3実施形態のCPU2で行われる図8の演算処理のステップS401が図9の演算処理のステップS501〜S505に変更されている。
まずそのステップS501では、複数枚の使用済みの帳票用紙の画像データをイメージスキャナ6からそれぞれ取得する。
次にステップS502に移行して、前記ステップS501で取得された複数枚の帳票用紙の画像データを記憶装置4が有する記憶媒体5にそれぞれ格納させる。
次にステップS503に移行して、前記ステップS502で記憶装置4に格納された複数枚の帳票用紙の画像データ(使用済みの帳票用紙の画像データ)それぞれに対応する画像間の相関が最も大きい位置関係となるようにそれらの画像データを補正する。
次にステップS504に移行して、前記ステップS503で補正された複数枚の帳票用紙画像データ(使用済みの帳票用紙の画像データ)を平均化する。ここで画像データの平均化とは、対象となる複数の画像データに対応する画像を構成する複数の画素のうち、同じ位置にある画素間で輝度の平均値をそれぞれ算出し、それらの算出結果を当該位置における輝度とした画像に対応する画像データを生成することをいう。
次にステップS505に移行して、前記ステップS504で生成された画像データから輝度が所定閾値以下である画像に対応する画像データ(帳票用紙の固定文字や罫線の画像データ)を抽出し、その抽出された画像データを未記入の帳票用紙の画像データとする。
次に、本実施形態の動作を具体的状況に基づいて詳細に説明する。
まず、利用者が複数枚の使用済みの帳票用紙をイメージスキャナ6の給紙口にセットしたとする。すると、そのイメージスキャナ6で、それらの帳票用紙の画像データが生成され、その生成された帳票用紙の画像データがCPU2に出力され、CPU2で、書式情報生成処理が実行され、図9に示すように、まずそのステップS501で、複数枚の帳票用紙の画像データがそれぞれ取得され、ステップS502で、複数枚の帳票用紙の画像データが記憶装置4の記憶媒体5にそれぞれ格納され、ステップS503で、複数枚の帳票用紙の画像データそれぞれに対応する画像間の相関が最も大きい位置関係となるようにそれらの画像データが補正され、ステップS504で、図10に示すように、補正された複数の画像データ間で画像の平均化が行われ、ステップS505で、平均化された画像の画像データに基づいて帳票用紙の固定文字や罫線の画像データが抽出され、その抽出された画像データが未記入の帳票用紙の画像データとされる。
このように、本実施形態のコンピュータシステム1によれば、使用済みの帳票用紙から未記入の帳票用紙の画像データを生成するようにしたため、未記入の帳票用紙の画像データを容易に生成することができる。
なお、上記実施形態では、図1のイメージスキャナ6が画像データ生成手段及び複数画像データ生成手段を構成し、以下同様に、図2及び図7のステップS102及びS103、図8及び図9のステップS409及びS410が画像データ抽出手段を構成し、図2及び図7のステップS103〜S106、図8及び図9のステップS411が書式指定記号検出手段を構成し、図2及び図7のステップS107、図8及び図9のステップS412が書式情報生成手段を構成し、図2及び図7のステップS102が色情報検出手段を構成し、図2のステップS103が特定色画像データ抽出手段に対応し、図1のイメージスキャナ6及び図9のステップS501〜S505が未記入画像データ生成手段を構成し、図9のステップS504が画像平均化手段を構成し、ステップS505がフィルタリング手段に対応する。
また、上記実施形態は、本発明に係る書式情報生成装置の一例を示したものであり、その構成等を限定するものではない。
例えば、上記実施の形態では、グレースケール画像データを生成するイメージスキャナ6を用いる例を示したが、これに限られるものではなく、例えばカラー画像データを生成するイメージスキャナを用いるようにしてもよい。このとき書式指定記号は、帳票用紙の地の色、固定文字の色とは色相や彩度などが大きく異なる色を用いて記入することで書式情報の検出率を向上することができる。
また、固定文字や書式指定記号の色として1色のみを用いる例を示したが、これに限られるものではなく、それぞれ比較的似通った複数の色を用いるようにしてもよい。
さらに、帳票用紙の地の色、固定文字の色及び書式指定記号の色をコンピュータシステム1に自動的に判別させる例を示したが、これに限られるものではなく、例えば帳票用紙の画像データに対応する画像をディスプレイに表示させ、その表示から利用者に色を指定させるようにしてもよい。利用者に色を指定させる方法としては、例えば、帳票用紙の地の色、固定文字の色及び書式指定記号の色それぞれをマウスポインタで選択させる方法を挙げることができる。そのようにすれば、帳票用紙に記入されている書式指定記号の色をコンピュータシステム1側で検出させる場合に比べ、書式指定記号の画像データの抽出をより適切に行うことができ、書式情報の検出率をより向上することができる。
また、輝度分布ヒストグラムのピーク間の中間値を第1閾値及び第2閾値とする例を示したが、これに限られるものではなく、例えば図11に示すように、輝度分布ヒストグラムの画像と第1閾値及び第2閾値を設定するためのスライダーバーの画像とをディスプレイに表示させ、そのスライダーバーをマウスポインタで操作させるようにしてもよい。
さらに、XMLやHTML等のタグ付き言語の形式で書式情報を記憶媒体5に格納する例を示したが、これに限られるものではなく、例えば、ワードプロセッサソフトのテンプレート、フォーム、雛型の形式で記憶媒体5に格納するようにしてもよい。
本発明の実施の形態の概略構成を示すブロック図である。 書式情報生成処理を示すフローチャートである。 色情報検出処理を示すフローチャートである。 輝度分布領域における輝度分布ヒストグラムである。 書式指定記号が記載された帳票用紙を説明するための説明図である。 固定文字及び書式指定記号の抽出を説明するための説明図である。 第2実施形態の書式情報生成処理を示すフローチャートである。 第3実施形態の書式情報生成処理を示すフローチャートである。 第4実施形態の書式情報生成処理を示すフローチャートである。 第4実施形態の動作を説明するための説明図である。 本発明の変形例を説明するための説明図である。
符号の説明
1はコンピュータシステム、2はCPU、3はRAM、4は記憶装置、5は記憶媒体、6はイメージスキャナ、7はバス

Claims (8)

  1. 帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成方法において、
    記入欄の書式を示す記号である書式指定記号を帳票用紙の各記入欄に記入した後に、その帳票用紙の画像データを生成し、その生成された画像データから前記固定文字と異なる所定の外観的特徴を有する記号の画像データをその外観的特徴に基づいて抽出し、その抽出された画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出し、その検出結果に基づいて各記入欄の書式の情報を生成することを特徴とする書式情報生成方法。
  2. 帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成方法において、
    記入欄の書式を示す記号である書式指定記号を帳票用紙の各記入欄に記入した後に、その帳票用紙の画像データを生成し、その生成された画像データから未記入の帳票用紙の画像データを除いた差分画像データを抽出し、その抽出された差分画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出し、その検出結果に基づいて各記入欄の書式の情報を生成することを特徴とする書式情報生成方法。
  3. 帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成装置において、
    記入欄の書式を示す記号である書式指定記号が各記入欄に記入されている帳票用紙の画像データを生成する画像データ生成手段と、その画像データ生成手段で生成された画像データから固定文字と異なる所定の外観的特徴を有する記号の画像データをその外観的特徴に基づいて抽出する画像データ抽出手段と、その画像データ抽出手段で抽出された画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出する書式指定記号検出手段と、その書式指定記号検出手段の検出結果に基づいて各記入欄の書式の情報を生成する書式情報生成手段とを備えたことを特徴とする書式情報生成装置。
  4. 前記画像データ抽出手段は、前記画像データ生成手段で生成された画像データから固定文字の色と異なる色であるという外観的特徴に基づいて前記記号の画像データを抽出することを特徴とする請求項3に記載の書式情報生成装置。
  5. 前記画像データ抽出手段は、前記画像データ生成手段で生成された画像データから帳票用紙の地の色、固定文字の色及び書式指定記号の色を検出する色情報検出手段と、その色情報検出手段で検出された書式指定記号の色を前記外観的特徴として前記記号の画像データを抽出する特定色画像データ抽出手段を備えたことを特徴とする請求項4に記載の書式情報生成装置。
  6. 利用者に前記書式指定記号の色を設定させる色設定手段を備え、前記画像データ抽出手段は、前記色設定手段で設定された色を前記外観的特徴として前記記号の画像データを抽出することを特徴とする請求項3に記載の書式情報生成装置。
  7. 帳票用紙の画像データを生成し、その画像データに基づいて固定文字の情報と記入欄の情報とを含む書式情報を生成する書式情報生成装置において、
    未記入の帳票用紙の画像データを生成する未記入画像データ生成手段と、記入欄の書式を示す記号である書式指定記号が各記入欄に記入されている帳票用紙の画像データを生成する画像データ生成手段と、その画像データ生成手段で生成された画像データから前記未記入画像データ生成手段で生成された画像データを除いた差分画像データを抽出する差分画像データ抽出手段と、その差分画像データ抽出手段で抽出された差分画像データから前記記入欄に対する前記書式指定記号の位置及び内容を検出する書式指定記号検出手段と、その書式指定記号検出手段の検出結果に基づいて各記入欄の書式の情報を生成する書式情報生成手段とを備えたことを特徴とする書式情報生成装置。
  8. 前記未記入画像データ生成手段は、複数の使用済み帳票用紙の画像データを生成する複数画像データ生成手段と、その複数画像データ生成手段で生成された複数の画像データを平均化して平均画像データを生成する画像平均化手段と、その画像平均化手段で生成された平均画像データを所定閾値に基づいてフィルタリングすることにより前記未記入の帳票用紙の画像データを生成するフィルタリング手段とを備えたことを特徴とする請求項7に記載の書式情報生成装置。
JP2003337814A 2003-09-29 2003-09-29 書式情報生成方法及び書式情報生成装置 Withdrawn JP2005107679A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003337814A JP2005107679A (ja) 2003-09-29 2003-09-29 書式情報生成方法及び書式情報生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003337814A JP2005107679A (ja) 2003-09-29 2003-09-29 書式情報生成方法及び書式情報生成装置

Publications (1)

Publication Number Publication Date
JP2005107679A true JP2005107679A (ja) 2005-04-21

Family

ID=34533523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003337814A Withdrawn JP2005107679A (ja) 2003-09-29 2003-09-29 書式情報生成方法及び書式情報生成装置

Country Status (1)

Country Link
JP (1) JP2005107679A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182459A (ja) * 2012-03-02 2013-09-12 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
JP2018195077A (ja) * 2017-05-17 2018-12-06 富士通株式会社 文書変換プログラム、文書変換方法および文書変換装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182459A (ja) * 2012-03-02 2013-09-12 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
JP2018195077A (ja) * 2017-05-17 2018-12-06 富士通株式会社 文書変換プログラム、文書変換方法および文書変換装置

Similar Documents

Publication Publication Date Title
US20150205773A1 (en) Emphasizing a portion of the visible content elements of a markup language document
JP6878034B2 (ja) 情報処理装置、制御方法、およびプログラム
US7447361B2 (en) System and method for generating a custom font
US8515176B1 (en) Identification of text-block frames
CN109685870B (zh) 信息标注方法及装置、标注设备及存储介质
CN102693425A (zh) 图像处理设备和图像处理方法
JP2004158036A (ja) 機械可読フォームのインスタンス上の領域を識別するコンピュータ・システム
US8712166B2 (en) Difference detecting apparatus, difference output apparatus, and medium
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US20100287187A1 (en) Method for query based on layout information
JP6531738B2 (ja) 画像処理装置
US20170132484A1 (en) Two Step Mathematical Expression Search
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2009087270A (ja) 画像処理装置及びプログラム
JP2005107679A (ja) 書式情報生成方法及び書式情報生成装置
JP2008140158A (ja) 文書編集装置およびプログラム
JP2010102734A (ja) 画像処理装置及びプログラム
JP5724286B2 (ja) 帳票作成装置、帳票作成方法、プログラム
JP2011090524A (ja) 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム
JP2020099031A (ja) 情報処理装置、及び情報処理方法
JP4501731B2 (ja) 画像処理装置
JP2020099030A (ja) 情報処理装置、及び情報処理方法
JP2020119152A (ja) 情報処理装置、及び情報処理プログラム
JP2006134079A (ja) 画像処理装置及びプログラム
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061205