本発明は、帳票に記入された内容を読み取ってデータ化する帳票処理装置に関し、特に、帳票の記入領域の位置情報を予め設定せずとも、記入内容を自動的に検出してデータ化可能な帳票処理装置に関する。
アンケート調査の回答用紙や各種申請書等の帳票に対して読取処理を行って、記入された内容のデータ化を行う帳票処理装置が知られている。このような帳票処理装置には、帳票のフォーマットに対応して、各記入欄の座標位置を示すフォーマット情報が、位置情報として予め記憶される。帳票処理装置は、この位置情報に基づいて、記入済の帳票における各記入欄の領域を特定し、特定された各領域に対して読取処理を行って、記入内容のデータ化を行う。
また、下記特許文献1に開示された技術では、帳票のフォーマットに対応して、
各記入欄の座標位置を示すレイアウト情報が、位置情報として予め帳票に埋め込まれ、そして、この位置情報に基づいて、記入済の帳票に対する読取処理が行われ、記入内容がデータ入力される。
特開2005−157536号公報
しかしながら、上記従来技術では、異なる帳票毎に位置情報を人的に設定する必要がある。また、記入欄が追加され或いは記入欄の配置が変更され、帳票のフォーマットが変更されると、設定作業を再度行わなければならず、手間がかかっていた。
したがって、位置情報を予め設定しなくても、記入済の帳票から記入情報を自動的に検出してデータ化可能な帳票処理装置が望まれていた。
本発明は、以上の点を解決するために、次の構成を採用する。
〈構成1〉
本発明に係る帳票処理装置は、元帳票イメージから複数の位置に対応する各特徴データを取得して、該特徴データに基づいて生成された透かしイメージを元帳票イメージに埋め込んで印刷された帳票から記入内容を読み取るために、何らかの記入がなされた帳票を読み取って全体イメージを取得するイメージ取得部と、取得された全体イメージから、透かしイメージと、記入内容及び元帳票イメージを含む記入帳票イメージとを分離して取得する分離取得部と、取得された透かしイメージを解析して、複数の特徴データをそれぞれ元特徴データとして取得する解析取得部と、取得された記入帳票イメージから複数の位置に対応する各特徴データをそれぞれ現特徴データとして取得する特徴取得部と、各元特徴データ及び各現特徴データを比較することにより記入内容の有無を判定する判定部とを備えることを特徴とする。
本発明の帳票処理装置によれば、記入内容が記入された帳票の全体イメージから、透かしイメージと記入帳票イメージとが分離され、該透かしイメージを解析して取得された特徴データと、記入帳票イメージから取得された特徴データとを比較することにより、記入内容の有無が判定されるので、記入領域の位置情報を予め設定しなくても、記入内容を自動的に検出可能となる。これにより、位置情報の人的な設定作業が不要となる。したがって、帳票のフォーマットが変更されても、自動的に記入内容を検出してデータ化可能な帳票処理装置が実現される。
以下、本発明の実施形態を図を用いて詳細に説明する。
図1は、本発明の実施例1に係る帳票処理装置の構成を示すブロック図である。
この帳票処理装置10を利用して、帳票から記入内容を検出して読み取ることができる。
本実施例の帳票処理装置10は、図1に示されるように、イメージ取得部11、分離取得部12、画素数取得部13、解析取得部14、判定部15、追記内容記憶部16、領域生成部17、ノイズ検出部18、分析取出部19、一時記憶部20、出力部21及び制御部22を備えている。
イメージ取得部11は、帳票を読み取って、該帳票のイメージを全体イメージとして取得する。本実施例では、イメージ取得部11は、全体イメージとして、256階調の多値グレイ画像を取得するものとする。取得された全体イメージは、一時記憶部20に記憶される。
図2は、帳票の一例を示す図である。
図2(a)は、帳票のフォーマットのイメージ、即ち元帳票イメージ31を示し、図2(b)は、元帳票イメージ31に透かしイメージを埋め込んで印刷された記入前の帳票32を示している。イメージ取得部11は、記入内容が記入された帳票を読み取って、図2(c)に示されるような全体イメージ33を取得する。
分離取得部12は、一時記憶部20から全体イメージ33を読み出して、該全体イメージ33から記入内容及び元帳票イメージ31を含む記入帳票イメージと、透かしイメージとを分離して取得する。
図2(b)に示される帳票32の紙面上には、元帳票イメージ31との分離を可能とすべく、フォーマットの罫線や文字と比較して淡い階調濃度の透かしイメージが埋め込まれて印刷されている。つまり、透かしイメージの濃度は、本実施例では、所定の濃度閾値よりも低く設定されている。更に、透かしイメージとの分離を可能とすべく、記入内容の記入手段には、記入内容の階調濃度が上記した所定の濃度閾値と比較して濃くなるような制限が課せられているものとする。分離取得部12は、上記した所定の濃度閾値を予め記憶しており、該濃度閾値に基づいて、記入帳票イメージ及び透かしイメージの分離を実施する。分離取得部12には、本実施例では、濃度閾値として「5」が記憶されているものとする。
以下に、分離取得部12による記入帳票イメージ及び透かしイメージの分離処理の手順について、図3を用いて簡単に説明する。
図3は、記入帳票イメージ及び透かしイメージの分離処理の説明図である。
分離取得部12は、まず、全体イメージ33(図2(c))を構成する各画素の濃度データ、即ち画素濃度値を取得して、この画素濃度値を、該画素の位置を特定する座標データと対応させて、一時記憶部20に記憶させる。
図3(a)に、分離取得部12により全体イメージ33から取得された各画素濃度値の一例を示す。例えば、分離取得部12は、全体イメージ33における画素35aに対して、画素濃度値「2」を取得する。また、分離取得部12は、画素36aに対して、画素濃度値「6」を取得する。
続いて、分離取得部12は、全体イメージ33の各画素について、取得した画素濃度値と、記憶されている濃度閾値とを比較して、画素濃度値が濃度閾値未満となる画素を特定する。そして、分離取得部12は、特定された各画素の画素濃度値を、透かしイメージの画素濃度値とする。また、画素濃度値が濃度閾値以上となる各画素の画素濃度値を、記入帳票イメージの画素濃度値とする。例えば、画素35aの画素濃度値「2」は、濃度閾値「5」未満であるため、透かしイメージの画素濃度値とされ、画素36aの画素濃度値「6」は、濃度閾値「5」以上であるため、記入帳票イメージの画素濃度値とされる。このように、分離取得部12は、全体イメージから透かしイメージと記入帳票イメージとを分離する。分離された各画素濃度値は、該画素の位置を示す位置データと対応させて、一時記憶部20に記憶される。
全体イメージから分離された透かしイメージ及び記入帳票イメージの各画素濃度値を、図3(b)及び図3(c)に示す。上記したように、全体イメージ(図3(a))において、画素濃度値が「2」である画素35aは、透かしイメージとして分離されるので、図3(b)に示される透かしイメージでは、該画素35bの画素濃度値は「2」となっており、図3(c)に示される記入帳票イメージでは、該画素35cの画素濃度値は「0」となっている。また、全体イメージ(図3(a))において、画素濃度値が「6」である画素36aは、記入帳票イメージとして分離されるので、記入帳票イメージ図3(c))では、該画素36cの画素濃度値は「6」となっており、透かしイメージ(図3(b))では、該画素36bの画素濃度値は「0」となっている。
分離取得部12により分離して取得された記入帳票イメージ34を、図2(d)に示す。全体イメージ33(図2(c))から透かしイメージが除去された記入帳票イメージ34には、図2(d)に示されるように、記入内容及び元帳票イメージ31が含まれる。
画素数取得部13は、特徴取得部として、一時記憶部20から記入帳票イメージ34を読み出して、該記入帳票イメージ34から、特徴データとしての現画素数を取得する。
図4は、記入帳票イメージにおける現画素数取得処理の説明図である。
画素数取得部13は、まず、記入帳票イメージ34(図2(d))を所定サイズの格子状に分割して、図4(a)に示されるように、複数のブロックを得る。図4では、画素数取得部13は、一例として、各ブロックが幅3画素×高さ3画素の大きさとなるように、記入帳票イメージ34の分割を行っている。画素数取得部13は、制御部22の制御に基づいて、所定サイズのブロックに記入帳票イメージ34を分割する。分割された各ブロックには、該ブロックの位置を識別するためのブロック識別データが付与される。本実施例では、各ブロックには、記入帳票イメージ34における左上を原点位置とし、帳票の左端部をx軸、上端部をy軸とする座標系における原点位置からのブロック数を示すデータ(x,y)が、ブロック識別データとして付与されるものとする。例えば、図4(b)において、ブロック37bにはブロック識別データ(1,1)が付与される。また、ブロック38bにはブロック識別データ(1,2)が付与される。
続いて、画素数取得部13は、各ブロック内に含まれる黒画素数を、該ブロックにおける特徴データ、即ち現画素数として取得し、該ブロックのブロック識別データと対応させて一時記憶部20に記憶させる。ここで、画素数取得部13により取得される黒画素数とは、各ブロックに含まれる複数の画素のうち、画素濃度値が「0」でない画素の数を示している。
記入帳票イメージの各ブロックから取得された現画素数を、図4(b)に示す。例えば、図4(a)に示される記入帳票イメージにおいて、左上のブロック37aに含まれる各画素の画素濃度値は、全て「0」となっているため、画素数取得部13は、図4(b)に示されるように、該ブロック37bの現画素数として「0」を取得する。また、ブロック38a(図4(a))では、画素濃度値が「0」でない画素が2つ含まれるので、図4(b)に示されるように、該ブロック38bの現画素数として、「2」が取得される。
解析取得部14は、一時記憶部20から透かしイメージを読み出して、該透かしイメージに対する解析処理を行う。
元帳票イメージ31に埋め込まれている透かしイメージは、元帳票イメージ31の特徴データとしての元画素数に基づいて生成されている。この元画素数は、元帳票イメージ31を所定サイズの格子状に分割して得られた各ブロックにおける黒画素数に対応している。例えば、元帳票イメージ31は幅3画素×高さ3画素の大きさの各ブロックに分割され、これら各ブロックに対して、該ブロックを識別するブロック識別データと共に、元画素数が取得される。各ブロックには、本実施例では、元帳票イメージ31における左上を原点位置とし、元帳票イメージの左端部をx軸、上端部をy軸とする座標系における原点位置からのブロック数を示すデータが、ブロック識別データとして付与されるものとする。
各ブロック識別データ及び対応する元画素数は、各ブロックのサイズ、即ち元帳票イメージ31の分割サイズと共に、元帳票イメージ31の特徴情報として、透かしイメージにより表現される。透かしイメージは、複数のドットパターンから構成されており、各ドットパターンは、ドットの配列に応じて異なる信号を表現している。透かしイメージは、これらの信号、即ちドットパターンを、ある規則に従って配置することにより、上記した特徴情報を表現している。
解析取得部14は、このように生成された透かしイメージに対してフィルタリング処理を行うことにより、各ドットパターンを読み出す。そして、読み出されたドットパターンの配置に基づいて、透かしイメージが表現している特徴情報を取得する。取得された特徴情報に含まれる元帳票イメージ31における各ブロック識別データ及び該ブロックの元画素数は、一時記憶部20に記憶され、分割サイズは、制御部22に通知される。
判定部15は、現画素数及び元画素数に基づいて、記入帳票イメージ34の各ブロックにおける記入内容の有無を判定する。
判定部15は、各ブロックに付与されたブロック識別データに基づいて、同一のブロックにおける現画素数と元画素数とを一時記憶部20から読み出して、これらの差分を示す差分データとしての画素数差を計算する。この画素数差は、記入内容及び元帳票イメージ31を含む記入帳票イメージ34から取得された現画素数と、元帳票イメージ31から取得された元画素数との差を示すため、各ブロックにおける記入内容の黒画素数に相当すると考えられる。判定部15は、所定の差分閾値としての画素数差閾値を予め記憶しており、計算された画素数差と記憶されている画素数差閾値とを比較することにより、該ブロックにおける記入内容の有無を判定する。即ち、画素数差が画素数差閾値以上である場合、該ブロックが記入内容を有する記入有りブロックであると判定する。本実施例では、判定部15には、画素数差閾値として「6」が記憶されているものとする。
また、判定部15は、記入内容が新たに記入された新規追加内容であるか、或いはフォーマットを改竄した改竄内容であるかの判定を行う。判定部15は、各記入有りブロックにおいて、元帳票イメージ31から取得された元画素数が「0」である場合、該記入有りブロックにおける記入内容が新規追加内容であると判定し、元画素数が「0」でない場合、該記入有りブロックにおける記入内容がフォーマットを改竄した改竄内容であると判定する。そして、判定部15は、新規追加内容を有する記入有りブロックを追記有りブロックと判定し、追記有りブロックのブロック識別データを制御部22に通知する。また、改竄内容を有する記入有りブロックを改竄有りブロックと判定し、該判定結果を制御部22に通知する。
図5は、記入帳票イメージの一例を示す図(その1)である。
図5に示される記入帳票イメージ34において、各記入有りブロック40−1、40−2は、元帳票イメージ31(図2(a))における元画素数が「0」でないため、判定部15は、フォーマットが改竄された改竄内容を含む改竄有りブロックであると判定する。
追記内容記憶部16は、判定部15により追記有りブロックであると判定されたブロックのブロック識別データが記憶される記憶部である。
領域生成部17は、記入帳票イメージ34における追記領域の生成を行う。領域生成部17は、追記内容記憶部16を参照して、ブロック識別データの記憶の有無に基づいて、記入帳票イメージ34における追記有りブロックの有無を判断する。追記有りブロックが有る場合、即ち、追記内容記憶部16にブロック識別データが記憶されている場合、領域生成部17は、該ブロック識別データに基づいて、隣接する各追記有りブロックを追記領域として生成し、生成された追記領域に領域識別番号を付与すると共に、該追記領域の位置を示す位置データを取得し、領域識別番号及び位置データを制御部22に通知する。また、追記有りブロックが無い場合、即ち、追記内容記憶部16にブロック識別データが記憶されていない場合、領域生成部17は、該判断結果を制御部22に通知する。
例えば、領域生成部17は、記入帳票イメージ34(図5)において、各追記有りブロックから追記領域39−1〜7を生成する。そして、領域生成部17は、それぞれの追記領域39−1〜7に領域識別番号1〜7を付与する。また、領域生成部17は、追記内容記憶部16に記憶されているブロック識別データに基づいて、各追記領域39−1〜7を囲む輪郭線上の最大及び最小のx座標データ及びy座標データを、それぞれ取得する。取得された各座標データは、該追記領域の位置を示す位置データとして、領域識別番号と対応させて追記内容記憶部16に記憶される。
ノイズ検出部18は、領域生成部17により生成された各追記領域について、この追記領域の面積、即ち領域サイズを検出する。本実施例では、ノイズ検出部18は、各追記領域に含まれるブロック数を、領域サイズとして検出する。そして、ノイズ検出部18は、検出された領域サイズに基づいて、該追記領域がノイズ領域であるか否かの判定を行う。ノイズ検出部18は、所定のサイズ閾値を予め記憶しており、検出された領域サイズが記憶されているサイズ閾値以下である場合、その追記領域がゴミや汚れ等の付着したノイズ領域であると判定する。ノイズ領域であると判定された領域は、追記領域から除外される。ノイズ検出部18には、本実施例では、サイズ閾値として「4」が記憶されているものとする。
例えば、ノイズ検出部18は、記入帳票イメージ34(図5)において、複数の追記領域39−1〜7のうち、追記領域39−1の領域サイズが「3」であることから、該追記領域39−1がノイズ領域であると判定する。その結果、追記領域39−1は追記領域から除外される。
分析取出部19は、記入帳票イメージ34に対して分析処理を行って、ノイズ領域ではない各追記領域39−2〜7から新規追加内容としての記入内容を取り出す。分析取出部19は、OCR(Optical Character Reading)処理や画像切出処理等を行って、新規追加内容を取り出して、追記内容記憶部16に領域識別番号と対応させて記憶させる。
一時記憶部20は、処理中に発生した各種データを一時的に記憶する記憶部である。
出力部21は、分析取出部19により取り出され追記内容記憶部16に記憶された各新規追加内容の出力を行う。出力部21は、追記内容記憶部16から各追記領域39−2〜7に含まれる新規追加内容及び対応する位置データを読み出して、出力する。出力部21により出力された出力データは、例えば図示されないデータベースに入力して記憶される。
制御部22は、上記した各部11〜21を制御する。
続いて、本実施例の帳票処理装置10の動作について、図を用いて説明する。ここでは、図5に示される記入帳票イメージ34に対応する帳票を読み取って、記入内容を出力する処理の流れについて、説明する。
図6は、本発明に係る帳票処理装置の実施例1における動作を示すフローチャート(その1)であり、図7は、本発明に係る帳票処理装置の実施例1における動作を示すフローチャート(その2)である。
帳票処理装置10において、帳票処理が開始されると、制御部22の制御により、まず、イメージ取得部11が帳票を読み取って全体イメージ33(図2(c))を取得する(ステップS101)。取得された全体イメージ33は、一時記憶部20に記憶される。
続いて、制御部22は、分離取得部12を制御して、透かしイメージ及び記入帳票イメージ34の分離処理を実行させる。分離取得部12は、一時記憶部20から全体イメージ33(図2(c))を読み出して、全体イメージ33を構成する各画素の画素濃度値を取得し、画素濃度値が濃度閾値未満である画素を透かしイメージとして、画素濃度値が濃度閾値以上である各画素を記入帳票イメージとして、それぞれ分離する(ステップS102)。分離された透かしイメージ及び記入帳票イメージ34(図2(d))は、一時記憶部20に記憶される。
次に、制御部22は、解析取得部14を制御して、透かしイメージの解析処理を実施させる。解析取得部14は、一時記憶部20から透かしイメージを読み出して、該透かしイメージに対するフィルタリング処理を行う。そして、解析取得部14は、透かしイメージに含まれている元帳票イメージ31の特徴情報を取得する。読み出された特徴情報には、元帳票イメージ31の分割サイズや、元帳票イメージ31から分割された各ブロックのブロック識別データ及び対応する元画素数が含まれており、解析取得部14は、この分割サイズを制御部22に通知すると共に、取得した各ブロック識別データ及び元画素数を一時記憶部20に記憶させる(ステップS103)。
分割サイズの通知を受けると、制御部22は、画素数取得部13を制御して、記入帳票イメージ34(図2(d))から現画素数を取得させる。画素数取得部13は、一時記憶部20から記入帳票イメージ34を読み出して、制御部22から通知された分割サイズの各ブロックに該記入帳票イメージ34を分割すると共に、これらのブロックにブロック識別データを付与する。そして、画素数取得部13は、各ブロックに含まれる黒画素数を現画素数として取得する(ステップS104)。取得された各現画素数は、該ブロックのブロック識別データと対応させて一時記憶部20に記憶される。
続いて、制御部22は、判定部15を制御して、各ブロックにおける記入内容の有無を判定させる。判定部15は、各ブロック識別データに基づいて、同一のブロックに対する現画素数と元画素数とを一時記憶部20から一つずつ読み出して、画素数差を計算する。そして、判定部15は、計算された画素数差と記憶されている画素数差閾値とを比較する(ステップS105)。
画素数差が画素数差閾値以上である場合、判定部15は、該ブロックが記入内容を有する記入有りブロックであると判定する(ステップS105)。そして、該ブロックに対応する元画素数が0であるか否かを判定する(ステップS106)。
元画素数が0である場合(ステップS106)、判定部15は、該記入有りブロックに含まれる記入内容が新規追加内容であると判定すると共に、該記入有りブロックが追記有りブロックであると判定する(ステップS107)。そして、判定部15は、該判定結果と共に、追記有りブロックのブロック識別データを制御部22に通知する。
制御部22は、判定部15からブロック識別データを受けると、これを追記内容記憶部16に記憶させる(ステップS108)。
ステップS106において、元画素数が0でない場合、判定部15は、該記入有りブロックに含まれる記入内容が改竄内容であると判定すると共に、該記入有りブロックが改竄有りブロックであると判定する(ステップS109)。そして、判定部15は、該判定結果を制御部22に通知する。
また、ステップS105において、画素数差が画素数差閾値未満である場合、判定部15は、該ブロックが記入無しブロックであると判定し(ステップS110)、該判定結果を制御部22に通知する。
判定部15から判定結果を通知された制御部22は、未判定のブロックの有無を判断する(ステップS111)。未判定のブロックが有る場合、制御部22は、判定部15により、該ブロックに対するステップS105以降の処理を実施する。
未判定のブロックが無いと判断される(ステップS111)と、制御部22は、領域生成部17を制御して、追記有りブロックの有無を判断させる(ステップS112)。領域生成部17は、追記内容記憶部16におけるブロック識別データの記憶の有無に基づいて、追記有りブロックの有無を判断する。追記有りブロックが無いと判断されると、帳票処理装置10は、処理を終了する。
追記有りブロックが有ると判断される(ステップS112)と、領域生成部17は、追記内容記憶部16に記憶されている各ブロック識別データに基づいて、隣接する追記有りブロックを追記領域として生成し、生成された各追記領域に領域識別番号を付与すると共に、各追記領域の位置データを取得する(ステップS113)。領域生成部17は、記入帳票イメージ34(図5)において、追記領域39−1〜7を生成し、領域識別番号1〜7を付与すると共に、各追記領域39−1〜7の位置データを取得して、各領域識別番号及び対応する位置データを追記内容記憶部16に記憶させる。
続いて、制御部22は、ノイズ検出部18を制御して、追記領域の領域サイズを検出し、該領域サイズとサイズ閾値とを比較する(ステップS114)。ノイズ検出部18は、まず、領域識別番号「1」が付与された追記領域39−1の領域サイズ「3」を検出し、サイズ閾値「4」と比較する。検出された領域サイズは、サイズ閾値以下であるため、ノイズ検出部18は、該追記領域39−1がノイズ領域であると判定する(ステップS115)。判定結果は制御部22に通知され、制御部22は、該追記領域39−1を追記領域から除外する。
続いて、制御部22は、残りの追記領域の有無を判断する(ステップS118)。そして、残りの追記領域が有る場合、制御部22は、ノイズ検出部18による領域サイズの検出を実行する(ステップS114)。ノイズ検出部18は、次に、領域識別番号「2」が付与された追記領域39−2の領域サイズ「9」を検出し、サイズ閾値「4」と比較する(ステップS114)。検出された領域サイズはサイズ閾値より大きいため、ノイズ検出部18は、該追記領域39−2がノイズ領域ではないと判定し、該判定結果を制御部22に通知する。
通知を受けた制御部22は、分析取出部19により、該追記領域39−2に対して分析処理を行って、新規追加内容を取り出す(ステップS116)。分析取出部19は、追記領域39−2(図5)に対して、OCR処理を行って、新規追加内容の文字認識を行い、新規追加内容として文字データ「18」を認識して取り出す。取り出された新規追加内容は、領域識別番号「2」と対応させて、追記内容記憶部16に記憶される(ステップS116)。
そして、制御部22は、出力部21により、追記内容記憶部16から新規追加内容「18」と対応する位置データとを読み出して、出力する(ステップS117)。
次に、制御部22は、残りの追記領域の有無を判断する(ステップS118)。そして、残りの追記領域39−3〜39−7に対しても、同様の処理を行う(ステップS116〜S117)。分析取出部19は、追記領域39−3、4から、新規追加内容として文字データ「2」、「27」を、それぞれ認識して取り出す。また、分析取出部19は、追記領域39−5に対して、文字認識が不可であると判断し、画像切出処理を行う。そして、分析取出部19は、印鑑イメージを新規追加内容として取り出す。更に、追記領域39−6、7からは、文字データ「沖太郎」、「(1)」が、それぞれ認識して取り出される。各追記領域39−2〜7から取り出された新規追加内容は、領域識別番号と対応させて追記内容記憶部16に記憶された(ステップS116)後、出力部21により、対応する位置データと共に読み出して出力される(ステップS117)。これにより、帳票処理装置10による帳票処理は終了する。
以上のように、本実施例の帳票処理装置は、記入内容が記入された帳票を読み取って取得した全体イメージから、透かしイメージ及び記入帳票イメージを分離し、透かしイメージを解析して元帳票イメージの元画素数を取得すると共に、記入帳票イメージから現画素数を取得する。そして、現画素数と元画素数との差分に基づいて、記入内容の有無を判定するので、記入領域の位置情報を予め設定しなくても、記入内容を自動的に検出可能となる。これにより、位置情報の人的な設定作業が不要となる。したがって、帳票のフォーマットが変更されても、すべて自動的に処理可能な帳票処理装置が実現される。また、異なるフォーマットの帳票が混在する帳票束に対しても、すべて自動的に処理可能となるので、適用範囲が拡大される。また、元画素数や領域サイズに基づいて、検出された記入内容から改竄内容やノイズを除外できるので、信頼度の高いデータを取得可能となる。
なお、本実施例では、新規追加内容であると判定された記入内容のみを出力する構成をとっているが、これに限定されない。例えば、改竄内容であると判定された記入内容に対して、改竄されたことを示すフラグデータを付与しておき、検出された記入内容を全て出力する構成をとることも可能である。また、改竄内容が検出された帳票の処理結果に対して、フラグデータを付与してもよい。更に、改竄内容を含む記入帳票イメージを画面に表示して、オペレータに警告する構成を追加しても良い。これについては、次の実施例2で詳しく説明する。
また、本実施例では、記入内容及び位置データを出力する構成をとっているが、記入内容の属性を示す属性情報と組み合わせて出力する構成をとることもできる。これにより、大量の帳票から自動的に記入内容を読み取ってデータ化し、集計処理を実施することが可能となる。記入内容に属性情報を付与する方法については、実施例3において詳しく説明する。
図8は、本発明の実施例2に係る帳票処理装置の構成を示すブロック図である。
実施例2の帳票処理装置50は、形状データ取得部51、改竄内容記憶部54、印鑑検出部56及び表示部58を追加する構成が、実施例1とは異なる。
なお、本実施例において、実施例1と同一の構成については同一の符号で示し、これらについての詳しい説明を省略する。
本実施例の帳票処理装置50は、図8に示されるように、イメージ取得部11、分離取得部12、画素数取得部13、形状データ取得部51、解析取得部52、判定部53、追記内容記憶部16、改竄内容記憶部54、領域生成部55、印鑑検出部56、分析取出部57、一時記憶部20、出力部21、表示部58及び制御部59を備えている。
形状データ取得部51は、特徴取得部として、画素数取得部13により所定サイズのブロックに分割された記入帳票イメージに対して、形状抽出フィルタを用いて特徴データとしての形状データを計算し、現形状データとして取得する。
形状抽出フィルタは、特定の形状を抽出するためのフィルタリング処理であり、例えば、特定の向きや幅の輪郭線を抽出するために使用される。本実施例では、特開2006−157831号公報に開示された技術を用いて、形状データを取得することとする。
形状データ取得部51は、制御部59の制御に基づいて、記入帳票イメージを所定サイズの格子状に分割して得られた各ブロックに対して、上記したフィルタリング処理を行って、それぞれのブロックに対応する現形状データを取得する。取得された現形状データは、該ブロックのブロック識別データと共に、制御部59に通知される。
解析取得部52は、一時記憶部20から透かしイメージを読み出して、該透かしイメージに対する解析処理を行う。本実施例では、元帳票イメージ31(図2(a))に埋め込まれている透かしイメージは、元帳票イメージ31の各ブロックから取得された元画素数に加えて、更に複数の元形状データに基づいて生成されている。この元形状データは、元帳票イメージ31を所定サイズの格子状に分割して得られた各ブロックに対して、形状抽出フィルタを用いて計算された形状データに対応している。本実施例では、元帳票イメージ31は、元画素数の取得時と同一サイズの各ブロックに分割され、該ブロックに対して、特開2006−157831号公報に開示された技術を適用することにより、元形状データが取得されることとする。
上記のように各ブロックから取得されたそれぞれの元形状データは、ブロック識別データと対応づけられる。そして、各ブロック識別データと、対応する元画素数及び元形状データは、元帳票イメージ31の分割サイズと共に、元帳票イメージ31の特徴情報として、透かしイメージにより表現される。解析取得部52は、この透かしイメージに対してフィルタリング処理を行うことにより、透かしイメージが表現している特徴情報を取得する。取得された特徴情報に含まれる元帳票イメージ31における各ブロック識別データ、該ブロックの元画素数及び元形状データは、一時記憶部20に記憶され、分割サイズは、制御部59に通知される。
判定部53は、現画素数及び元画素数に基づいて、記入帳票イメージの各ブロックにおける記入内容の有無の判定を行う。そして、記入内容が有ると判定された場合、判定部53は、更に元画素数が「0」であるか否かに基づいて、該記入内容が新規追加内容であるか或いは改竄内容であるかの判定を行う。判定部53は、新規追加内容を有する記入有りブロックを追記有りブロックと判定し、追記有りブロックのブロック識別データを制御部59に通知する。また、改竄内容を有する記入有りブロックを改竄有りブロックと判定し、改竄有りブロックのブロック識別データを制御部59に通知する。
また、判定部53は、現形状データ及び元形状データに基づいて、記入帳票イメージの各ブロックにおける改竄内容の有無を判定する。
判定部53は、画素数差が画素数差閾値未満となる各ブロックに対して、対応する現形状データ及び元形状データを一時記憶部20から読み出して、これらの差分を示す差分データとして、形状差を計算する。この形状差は、記入帳票イメージから取得された現形状データと、元帳票イメージ31から取得された元形状データとの差を示している。該ブロックの画素数差は、上記したように、画素数差閾値未満であることから、該ブロックにおいてフォーマットの改竄が行われたと考えられる。判定部53は、所定の差分閾値としての形状差閾値を予め記憶しており、計算された形状差と記憶されている形状差閾値とを比較することにより、該ブロックにおける改竄内容の有無を判定する。即ち、形状差が形状差閾値以上である場合、該ブロックが改竄内容を有する改竄有りブロックであると判定する。そして、判定部53は、改竄有りブロックのブロック識別データを制御部59に通知する。
図9は、記入帳票イメージの一例を示す図(その2)である。
図9に示される記入帳票イメージ60において、62で示される各ブロックは、元帳票イメージ31(図2(a))との画素数差が画素数差閾値未満であるが、形状差が形状差閾値以上となる。そのため、判定部53は、該ブロックが改竄内容を含む改竄有りブロック62であると判定する。
改竄内容記憶部54は、判定部53により改竄有りブロックであると判定されたブロックのブロック識別データが記憶される記憶部である。
領域生成部55は、記入帳票イメージにおける追記領域の生成を行い、各追記領域の領域識別番号及び位置データを制御部59に通知する。
また、領域生成部55は、改竄内容記憶部54を参照して、ブロック識別データの記憶の有無に基づいて、記入帳票イメージにおける改竄有りブロックの有無を判断する。改竄有りブロックが有る場合、即ち、改竄内容記憶部54にブロック識別データが記憶されている場合、領域生成部55は、該ブロック識別データに基づいて、隣接する各改竄有りブロックを改竄領域として生成し、生成された改竄領域に領域識別番号を付与すると共に、該改竄領域の位置を示す位置データを取得し、領域識別番号及び位置データを制御部59に通知する。また、改竄有りブロックが無い場合、即ち、改竄内容記憶部54にブロック識別データが記憶されていない場合、領域生成部55は、該判断結果を制御部59に通知する。
例えば、記入帳票イメージ60(図9)において、領域生成部55は、各改竄有りブロック62を改竄領域とし、領域識別番号1を付与する。
印鑑検出部56は、所定のサイズ閾値及び所定の円形度閾値を記憶しており、記入帳票イメージにおいて生成された各追記領域から、印鑑が押捺された印鑑領域を検出する。印鑑検出部56は、まず、領域生成部55により生成された各追記領域について、この追記領域の面積、即ち領域サイズを検出する。本実施例では、印鑑検出部56は、各追記領域に含まれるブロック数を、領域サイズとして検出する。そして、印鑑検出部56は、検出された領域サイズと記憶しているサイズ閾値とを比較する。そして、領域サイズがサイズ閾値未満である場合、該追記領域が印鑑領域ではないと判断する。
印鑑検出部56は、更に、領域サイズがサイズ閾値以上である追記領域に対して、該追記領域の円形度eを、計算式
に基づき計算する。ここで、πは円周率、Sは追記領域の領域サイズであり、lは追記領域の周囲の長さである。印鑑検出部56は、計算した円形度eを記憶している円形度閾値と比較し、円形度eが円形度閾値以上である場合、該領域が印鑑領域であると判定する。本実施例では、印鑑検出部56は、サイズ閾値として「16」、円形度閾値として「0.5」を記憶しているものとする。
例えば、記入帳票イメージ60(図9)において、追記領域61−5の領域サイズは32、円形度は0.74である。したがって、印鑑検出部56は、この追記領域61−5が印鑑領域であると判定する。
なお、印鑑領域の検出については、印鑑の形状が円形以外にも、楕円形や角形の場合もあるため、上記した円形度の計算以外にも、例えば、パターンマッチングによる図形の一致度に基づいて判定を行う方法や、追記領域の円形度ではなく、新規追加内容としての記入内容の円形度を計算する方法等も適用可能である。
分析取出部57は、記入帳票イメージ60に対して分析処理を行って、各追記領域から新規追加内容としての記入内容を取り出す。また、分析取出部57は、印鑑領域と判定された追記領域に対して、画像切出処理を行って、新規追加内容としての印鑑イメージを取り出す。取り出された各新規追加内容は、追記内容記憶部16に該追記領域の領域識別番号と対応させて記憶される。
表示部58は、例えばディスプレイを含み、制御部59の制御に基づいて、改竄有りブロック62が検出された記入帳票イメージ60における改竄内容の表示を行う。
制御部59は、帳票処理装置50の各部を制御する機能を有する。
続いて、本実施例の帳票処理装置50の動作について、図を用いて説明する。ここでは、図9に示される記入帳票イメージ60に対応する帳票処理の流れについて、説明する。
図10は、本発明に係る帳票処理装置の実施例2における動作を示すフローチャート(その1)であり、図11は、本発明に係る帳票処理装置の実施例2における動作を示すフローチャート(その2)である。
帳票処理装置50において、帳票処理が開始されると、制御部59の制御により、まず、イメージ取得部11が帳票を読み取って全体イメージを取得する(ステップS101)。取得された全体イメージは、一時記憶部20に記憶される。
続いて、制御部59は、分離取得部12を制御して、透かしイメージ及び記入帳票イメージの分離処理を実行させる。分離取得部12は、一時記憶部20から全体イメージを読み出して、画素濃度閾値に基づき透かしイメージ及び記入帳票イメージの分離を行う(ステップS102)。分離された透かしイメージ及び記入帳票イメージ60(図9)は、一時記憶部20に記憶される。
次に、制御部59は、解析取得部52を制御して、透かしイメージの解析処理を実施させる。解析取得部52は、一時記憶部20から透かしイメージを読み出して、該透かしイメージに対するフィルタリング処理を行う。そして、解析取得部52は、透かしイメージに含まれている元帳票イメージ31(図2(a))の特徴情報を取得する。取得された特徴情報には、元帳票イメージ31の分割サイズや、元帳票イメージ31から分割された各ブロックのブロック識別データ、対応する元画素数及び元形状データが含まれており、解析取得部52は、この分割サイズを制御部59に通知すると共に、取得した各ブロック識別データと、対応する元画素数及び元形状データとを一時記憶部20に記憶させる(ステップS201)。
分割サイズの通知を受けると、制御部59は、画素数取得部13を制御して、記入帳票イメージ60(図9)から現画素数を取得させる。画素数取得部13は、一時記憶部20から記入帳票イメージ60を読み出して、制御部59から通知された分割サイズの各ブロックに該記入帳票イメージ60を分割すると共に、これらのブロックにブロック識別データを付与する。そして、画素数取得部13は、各ブロックに含まれる黒画素数を現画素数として取得する(ステップS104)。取得された各現画素数は、該ブロックのブロック識別データに対応させて一時記憶部20に記憶される。
続いて、制御部59は、判定部53を制御して、各ブロックにおける記入内容の有無を判定させる。判定部53は、画素数差及び画素数差閾値に基づいて、記入有りブロックであるか否かの判定を行う(ステップS105)。
画素数差が画素数差閾値以上である場合、判定部53は、該ブロックが記入内容を有する記入有りブロックであると判定する(ステップS105)。そして、該ブロックに対応する元画素数が0であるか否かを判定する(ステップS106)。
元画素数が0である場合(ステップS106)、判定部53は、該記入有りブロックに含まれる記入内容が新規追加内容であると判定すると共に、該記入有りブロックが追記有りブロックであると判定する(ステップS107)。そして、判定部53は、該判定結果と共に、追記有りブロックのブロック識別データを制御部59に通知する。
制御部59は、判定部53からブロック識別データを受けると、これを追記内容記憶部16に記憶させる(ステップS108)。
ステップS106において、元画素数が0でない場合、判定部53は、該記入有りブロックに含まれる記入内容が改竄内容であると判定すると共に、該記入有りブロックが改竄有りブロックであると判定する(ステップS202)。そして、判定部53は、該判定結果と共に、改竄有りブロックのブロック識別データを制御部59に通知する。
制御部59は、判定部53からブロック識別データを受けると、これを改竄内容記憶部54に記憶させる(ステップS203)。
また、ステップS105において、画素数差が画素数差閾値未満である場合、判定部53は、該判定結果を制御部59に通知する。通知を受けた制御部59は、形状データ取得部51を制御して、該ブロックに対応する現形状データを取得させる(ステップS204)。
続いて、制御部59は、該ブロックのブロック識別データ及び現形状データを判定部53に通知して、該ブロックにおける改竄の有無を判定させる。判定部53は、制御部59から通知されたブロック識別データに基づいて、対応する元形状データを一時記憶部20から読み出す。そして、判定部53は、該元形状データ及び制御部59から通知された現形状データに基づいて、形状差を計算し、計算された形状差と記憶されている形状差閾値とを比較する(ステップS205)。
形状差が形状差閾値以上である場合、判定部53は、該ブロックが改竄有りブロックであると判定する(ステップS202)。そして、判定部53は、該判定結果と共に、改竄有りブロックのブロック識別データを制御部59に通知する。
制御部59は、判定部53からブロック識別データを受けると、これを改竄内容記憶部54に記憶させる(ステップS203)。
ステップS202において、形状差が形状差閾値未満である場合、判定部53は、該ブロックが記入無しブロックであると判定し(ステップS206)、該判定結果を制御部59に通知する。
判定部53から判定結果を通知された制御部59は、未判定のブロックの有無を判断する(ステップS111)。未判定のブロックが有る場合、制御部59は、判定部53により、該ブロックに対するステップS105以降の処理を実施する。
未判定のブロックが無いと判断される(ステップS111)と、制御部59は、領域生成部55を制御して、追記有りブロックの有無を判断させる(ステップS112)。領域生成部55は、追記内容記憶部16におけるブロック識別データの記憶の有無に基づいて、追記有りブロックの有無を判断する。
追記有りブロックが有ると判断される(ステップS112)と、領域生成部55は、追記内容記憶部16に記憶されている各ブロック識別データに基づいて、隣接する追記有りブロックを追記領域として生成し、各追記領域に領域識別番号を付与すると共に、各追記領域の位置データを取得する(ステップS113)。領域生成部55は、記入帳票イメージ60(図9)において、追記領域61−1〜6を生成し、領域識別番号1〜6を付与すると共に、各追記領域61−1〜6の位置データを取得して、各領域識別番号及び対応する位置データを追記内容記憶部16に記憶させる。
続いて、制御部59は、印鑑検出部56を制御して、追記領域の領域サイズとサイズ閾値とを比較させる(ステップS207)。印鑑検出部56は、まず、追記領域61−1の領域サイズ「9」を検出し、サイズ閾値「16」未満であると判断する。
検出された領域サイズがサイズ閾値未満である場合(ステップS207)、印鑑検出部56は、該追記領域61−1が印鑑領域ではないと判定し、判定結果を制御部59に通知する。
通知を受けた制御部59は、分析取出部57に追記領域61−1からの新規追加内容の取り出しを実施させる。分析取出部57は、追記領域61−1を分析して、新規追加内容「18」を取り出して、該新規追加内容を領域識別番号「1」と対応させて追記内容記憶部16に記憶させる(ステップS116)。
そして、制御部59は、出力部21により、追記内容記憶部16から新規追加内容「18」と対応する位置データとを読み出して、出力する(ステップS117)。
次に、制御部59は、残りの追記領域の有無を判断する(ステップS118)。残りの追記領域が有ると判断されると、帳票処理装置50は、残りの追記領域に対して、ステップS207以降の処理を実施する。追記領域61−2、3に対する処理の流れは、追記領域61−1に対する処理の流れと同一なので、説明を省略する。
続いて、帳票処理装置50は、追記領域61−4に対する処理を実施する。印鑑検出部56は、追記領域61−4に対して、領域サイズ「32」を検出し、該領域サイズがサイズ閾値「16」以上であると判断する(ステップS207)。
追記領域の領域サイズがサイズ閾値以上である場合(ステップS207)、印鑑検出部56は、更に、該追記領域の円形度を計算し、該円形度と円形度閾値とを比較する(ステップS208)。印鑑検出部56は、追記領域61−4の円形度「0.74」が円形度閾値「0.5」以上となることから、該追記領域61−4が印鑑領域であると判定する(ステップS209)。そして、印鑑検出部56は、判定結果を制御部59に通知する。
通知を受けた制御部59は、分析取出部57に追記領域61−4からの印鑑イメージの取り出しを実施させる。分析取出部57は、追記領域61−4から印鑑イメージを切り出して、該印鑑イメージを領域識別番号「4」と対応させて追記内容記憶部16に記憶させる(ステップS210)。
そして、制御部59は、出力部21により、追記内容記憶部16から印鑑イメージと対応する位置データとを読み出して、出力する(ステップS211)。
次に、制御部59は、残りの追記領域の有無を判断し(ステップS118)、印鑑検出部56に、追記領域61−5の領域サイズを検出してサイズ閾値と比較させる(ステップS207)。印鑑検出部56は、追記領域61−5の領域サイズ「24」を検出し、該領域サイズがサイズ閾値以上であると判断する(ステップS207)。
更に、印鑑検出部56は、該追記領域61−5の円形度を計算し、該円形度と円形度閾値とを比較する(ステップS208)。追記領域61−5から計算される円形度は、円形度閾値未満となるため、印鑑検出部56は、該追記領域61−5が印鑑領域ではないと判定し、該判定結果を制御部59に通知する。
通知を受けた制御部59は、分析取出部57による追記領域61−4からの新規追加内容「沖太郎」の取り出しを実行させると、該新規追加内容を領域識別番号「5」と対応させて追記内容記憶部16に記憶させる(ステップS116)。
そして、制御部59は、出力部21により、追記内容記憶部16から新規追加内容「沖太郎」と対応する位置データとを読み出して、出力する(ステップS117)。
続いて、制御部59は、残りの追記領域の有無を判断する(ステップS118)。残りの追記領域が有ると判断されると、帳票処理装置50は、該追記領域61−6に対して、ステップS207以降の処理を実施する。追記領域61−6に対する処理の流れは、追記領域61−1に対する処理の流れと同一なので、説明を省略する。
出力部21により、追記内容記憶部16から追記領域61−6から取り出された新規追加内容「(3)」と対応する位置データとが出力される(ステップS117)と、更に、制御部59は、残りの追記領域の有無を判断する(ステップS118)。
ステップS118において残りの追記領域が無いと判断されると、或いは、ステップS112において追記有りブロックが無いと判断されると、制御部59は、続いて、領域生成部55を制御して、改竄有りブロックの有無を判断させる(ステップS212)。領域生成部55は、改竄内容記憶部54におけるブロック識別データの有無に基づいて、改竄有りブロックの有無を判断する。
改竄有りブロックが有ると判断される(ステップS212)と、領域生成部55は、改竄内容記憶部54に記憶されている各ブロック識別データに基づいて、隣接する改竄有りブロックを改竄領域として生成し、生成された各改竄領域に領域識別番号を付与すると共に、各改竄領域の位置データを取得する(ステップS213)。領域生成部55は、記入帳票イメージ60(図9)において、各改竄有りブロック62から改竄領域を生成し、領域識別番号1を付与すると共に、該改竄領域の位置データを取得して、領域識別番号及び対応する位置データを改竄内容記憶部54に記憶させる。
続いて、制御部59は、改竄内容が検出されたことを警告するために、一時記憶部20から記入帳票イメージ60(図9)を読み出すと共に、まず、領域識別番号「1」に対応する位置データを改竄内容記憶部54から読み出して、表示部58に改竄内容を含む記入帳票イメージ60を表示させる(ステップS214)。その際、表示部58は、読み出された位置データに基づいて、記入帳票イメージ60の改竄領域部分の表示色を変える等の強調表示を行う。
表示部58を見たオペレータにより、改竄領域に対する所定の処理が行われた後、帳票処理が再開されると、制御部59は、残りの改竄領域の有無を判断する(ステップS215)。残りの改竄領域が有ると判断されると、帳票処理装置50は、該改竄領域に対してステップS214の処理を行う。残りの改竄領域が無いと判断されると、帳票処理装置50は、帳票処理を終了する。
また、ステップS212において、改竄有りブロックが無いと判断された場合、帳票処理装置50による帳票処理は終了する。
以上のように、本実施例の帳票処理装置では、画素数差に加えて、更に形状差に基づいて記入内容の有無が判定されるので、より高精度にフォーマットの改竄を検出可能となる。そして、改竄が検出された場合、改竄部分の画像の表示が実施され、オペレータによる処理が可能となるので、例えば申請書帳票への改竄による不正な申請処理の実行が防止される。また、追記領域として検出された領域の円形度を計算することにより、印鑑が押捺された印鑑領域を検出可能となるので、印鑑押捺欄を含む有印帳票の処理への適用により、上記した不正処理を防止可能な帳票処理装置が実現される。
図12は、本発明の実施例3に係る帳票処理装置の構成を示すブロック図である。
実施例3の帳票処理装置70は、罫線探索部71、文字探索部72及び設定部73を追加する構成が、実施例1及び実施例2とは異なる。
なお、本実施例において、実施例1或いは実施例2と同一の構成については同一の符号で示し、これらについての詳しい説明を省略する。
本実施例の帳票処理装置70は、図12に示されるように、イメージ取得部11、分離取得部12、画素数取得部13、形状データ取得部51、解析取得部52、判定部53、追記内容記憶部16、改竄内容記憶部54、領域生成部55、罫線探索部71、文字探索部72、設定部73、分析取出部74、出力部75、一時記憶部20及び制御部76を備えている。
罫線探索部71は、追記内容記憶部16に記憶されている各追記領域の位置データに基づいて、追記領域を囲む罫線枠を探索し、領域罫線枠として検出する。そして、罫線探索部71は、検出された領域罫線枠の位置や各罫線の線幅等の領域罫線枠データを、該追記領域の領域識別番号と共に制御部76に通知する。通知された領域罫線枠データは、通知された領域識別番号と対応させて追記内容記憶部16に記憶される。
また、罫線探索部71は、記入帳票イメージにおいて領域罫線枠に隣接する罫線枠を、隣接罫線枠として検出して、該隣接罫線枠の位置や各罫線の線幅などの隣接罫線枠データを、該追記領域の領域識別番号と共に制御部76に通知する。通知された隣接罫線枠データは、通知された領域識別番号と対応させて追記内容記憶部16に記憶される。
罫線探索部71は、例えばパターンマッチング等により、上記した罫線枠の検出を行う。
図13は、記入帳票イメージの一例を示す図(その3)である。
記入帳票イメージ80は、図13に示されるように、追記領域81−1〜6と改竄領域82とを含んでいる。
罫線探索部71は、例えば、図13に示される記入帳票イメージ80において、追記領域81−1〜3を囲む罫線枠として、領域罫線枠83を探索する。また、罫線探索部71は、該領域罫線枠83に隣接する罫線枠として、隣接罫線枠84を検出する。
更に、罫線探索部71は、改竄内容記憶部54に記憶されている各改竄領域の位置データに基づいて、改竄領域を囲む罫線枠を探索し、領域罫線枠として検出する。そして、罫線探索部71は、記入帳票イメージにおいて領域罫線枠に隣接する罫線枠を、隣接罫線枠として検出する。罫線探索部71は、領域罫線枠データおよび隣接罫線枠データを、該改竄領域の領域識別番号と共に制御部76に通知する。通知された領域罫線枠データおよび隣接罫線枠データは、通知された領域識別番号と対応させて改竄内容記憶部54に記憶される。
例えば、記入帳票イメージ80(図13)において、罫線探索部71は、改竄領域82に対して、領域罫線枠85及び隣接罫線枠86を検出する。
文字探索部72は、記入帳票イメージにおいて、追記内容記憶部16に記憶されている各罫線枠データに基づいて、罫線枠に囲まれる領域を探索範囲として設定し、該探索範囲内に含まれる文字データを探索する。文字探索部72は、まず、各追記領域を囲む領域罫線枠内を探索範囲として、該追記領域に含まれる記入内容に近隣する文字データ、即ち枠内文字データを探索する。また、文字探索部72は、隣接罫線枠内を探索範囲として、文字データ、即ち枠外文字データを探索する。探索された文字データは、領域識別番号と共に制御部76に送られ、追記内容記憶部16に記憶される。
例えば、記入帳票イメージ80(図13)において、文字探索部72は、追記領域81−1に対して、まず、領域罫線枠83内から、新規追加内容「18」に近隣する枠内文字データ「平成」及び「年」を検出する。更に、文字探索部72は、隣接罫線枠84内から、枠外文字データ「申請日」を検出する。
同様に、追記領域81−2に対して、枠内文字データ「年」及び「月」と、枠外文字データ「申請日」とが検出され、追記領域81−3に対して、枠内文字データ「月」及び「日」と、枠外文字データ「申請日」とが検出される。
一方、追記領域81−4に対して、文字探索部72は、隣接罫線枠88内から、枠外文字データ「捺印欄」を検出する。領域罫線枠87内からは、枠内文字データは検出されない。
また、文字探索部72は、記入帳票イメージにおいて、改竄内容記憶部54に記憶されている隣接罫線枠データに基づいて、隣接罫線枠内を探索範囲として設定し、該探索範囲内における枠外文字データを探索する。探索された枠外文字データは、領域識別番号と共に制御部76に送られ、改竄内容記憶部54に記憶される。
例えば、記入帳票イメージ80(図13)において、文字探索部72は、改竄領域82に対して、隣接罫線枠86内から、枠外文字データ「申請額(1〜3の番号を記入してください)」を検出する。
設定部73は、各追記領域に対して、該追記領域に含まれる記入内容の属性を示す属性情報を設定する。設定部73は、まず、追記内容記憶部16から領域識別番号に対応して記憶されている枠内文字データ及び枠外文字データを読み出す。複数の枠内文字データが記憶されている場合、設定部73は、所定の優先条件に基づいて、属性情報として設定すべき枠内文字データを、選択枠内文字データとして選択する。そして、設定部73は、属性情報「枠外文字データ:選択枠内文字データ」を設定する。枠内文字データ或いは枠外文字データの何れかが記憶されていない場合、設定部73は、記憶されている文字データのみを、属性情報として設定する。また、枠内文字データ及び枠外文字データが何れも記憶されていない場合、設定部73は、属性情報「未設定」を設定する。設定された属性情報は、領域識別番号に対応させて追記内容記憶部16に記憶される。
本実施例では、設定部73には、「年」、「月」及び「日」の各文字データを優先して選択すべく優先条件が設定されているものとする。また、各文字データ「年」、「月」及び「日」には、順に高い優先条件が設定されているものとする。即ち、「年」よりも「月」、「月」よりも「日」が、選択枠内文字データとして選択されるべく優先条件が設定されている。
例えば、記入帳票イメージ80(図13)において、設定部73は、追記領域81−1に対して、追記内容記憶部16に記憶されている枠内文字データ「平成」及び「年」から、優先条件に基づいて、「年」を選択枠内文字データとして選択する。そして、設定部73は、追記領域81−1に対して属性情報「申請日:年」を設定する。同様に、設定部73は、追記領域81−2に対して属性情報「申請日:月」を、追記領域81−3に対して属性情報「申請日:日」を、それぞれ設定する。また、設定部73は、追記領域81−4に対して属性情報「捺印欄」を設定する。
また、設定部73は、改竄領域に対しても、同様に、属性情報の設定を行う。設定部73は、改竄内容記憶部54から領域識別番号に対応して記憶されている枠外文字データを読み出して、属性情報「枠外文字データ」を設定する。
例えば、記入帳票イメージ80(図13)において、設定部73は、改竄領域82に対して、属性情報「申請額(1〜3の番号を記入してください)」を設定する。
分析取出部74は、記入帳票イメージに対して分析処理を行って、各追記領域から新規追加内容としての記入内容を取り出す。分析取出部74は、追記内容記憶部16に記憶されている属性情報を参照して、「捺印欄」や「印鑑押捺欄」等の属性情報が設定されている追記領域を、印鑑が押捺された印鑑領域であると判定して、該追記領域に対して画像切出処理を行い、新規追加内容としての印鑑イメージを取り出す。他の追記領域に対しては、OCR処理を行って、新規追加内容を取り出す。取り出された新規追加内容は、追記内容記憶部16に領域識別番号と対応させて記憶される。
また、分析取出部74は、改竄領域から改竄内容としての記入内容を取り出す。分析取出部74は、改竄内容記憶部54に記憶されている領域罫線枠データに基づいて、領域罫線枠内に対して画像切出処理を行って、改竄内容を含む画像を改竄イメージとして取り出す。取り出された改竄イメージは、改竄内容記憶部54に領域識別番号と対応させて記憶される。
出力部75は、各記入帳票イメージに対して、帳票識別番号を付与し、該帳票識別番号と共に、該記入帳票イメージから読み出された記入内容及び対応する属性情報を出力する。出力部75は、追記内容記憶部16から新規追加内容及び対応する属性情報を読み出して、出力データとして出力する。また、出力部75は、改竄内容記憶部54から改竄内容及び対応する属性情報を読み出して、出力データとして出力する。
図14は、出力データの一例を示す図である。
図14(a)には、新規追加内容及び対応する属性情報の出力例が示され、図14(b)には、改竄イメージ及び対応する属性情報の出力例が示されている。
続いて、本実施例の帳票処理装置70の動作について、図を用いて説明する。ここでは、図13に示される記入帳票イメージ80に対応する帳票処理の流れについて、説明する。
図15は、本発明に係る帳票処理装置の実施例3における動作を示すフローチャート(その1)であり、図16は、本発明に係る帳票処理装置の実施例3における動作を示すフローチャート(その2)である。
帳票処理装置70において、帳票処理が開始されると、イメージ取得部11が帳票を読み取って全体イメージを取得した(ステップS101)後、各ブロックを追記有りブロック(ステップS107)、改竄有りブロック(ステップS202)、或いは記入無しブロック(ステップS206)と判定する。そして、未判定のブロックが無いと判断される(ステップS111)までの処理の流れは、実施例2(図10)と同一なので、説明を省略する。
ステップS111(図15)において、未判定のブロックが無いと判断されると、制御部76は、領域生成部55を制御して、追記有りブロックの有無を判断させる(ステップS112)。領域生成部55は、追記内容記憶部16におけるブロック識別データの記憶の有無に基づいて、追記有りブロックの有無を判断する。
追記有りブロックが有ると判断される(ステップS112)と、領域生成部55は、追記内容記憶部16に記憶されている各ブロック識別データに基づいて、隣接する追記有りブロックを追記領域として生成し、生成された各追記領域に領域識別番号を付与すると共に、各追記領域の位置データを取得する(ステップS113)。領域生成部55は、記入帳票イメージ80(図13)において、追記領域81−1〜6を生成し、領域識別番号1〜6を付与すると共に、各追記領域81−1〜6の位置データを取得して、各領域識別番号及び対応する位置データを追記内容記憶部16に記憶させる。
制御部76は、続いて、罫線探索部71を制御して、追記領域の領域罫線枠及び隣接罫線枠を探索させる(ステップS301)。罫線探索部71は、まず、追記領域81−1に対応する領域罫線枠及び隣接罫線枠を探索すべく、追記内容記憶部16に記憶されている追記領域81−1の位置データを読み出す。そして、この位置データに基づいて、罫線探索部71は、領域罫線枠83及び隣接罫線枠84を探索し、領域罫線枠データ及び隣接罫線枠データを、領域識別番号「1」と共に制御部76に通知する。制御部76は、通知された領域罫線枠データ及び隣接罫線枠データを、領域識別番号「1」と対応させて追記内容記憶部16に記憶させる。
次に、制御部76は、文字探索部72を制御して、追記領域の枠内文字データ及び枠外文字データを探索させる(ステップS302)。文字探索部72は、追記領域81−1に対応する領域罫線枠83内において枠内文字データを探索し、該追記領域81−1の近隣から枠内文字データ「平成」及び「年」を検出する。また、文字探索部72は、隣接罫線枠84内において枠外文字データを探索し、枠外文字データ「申請日」を検出する。そして、文字探索部72は、検出された枠内文字データ「平成」及び「年」と、枠外文字データ「申請日」とを、領域識別番号「1」と共に制御部76に通知する。制御部76は、通知された枠内文字データ及び枠外文字データを、領域識別番号と対応させて追記内容記憶部16に記憶させる。
続いて、制御部76は、設定部73を制御して、追記領域に対して属性情報を設定させる(ステップS303)。設定部73は、追記内容記憶部16から領域識別番号「1」に対応する枠内文字データ「平成」及び「年」を読み出して、所定の優先条件に基づいて、選択枠内文字データ「年」を選択する。また、設定部73は、追記内容記憶部16から領域識別番号「1」に対応する枠外文字データ「申請日」を読み出す。そして、設定部73は、追記領域81−1への記入内容の属性を示す属性情報として「申請日:年」を設定して、領域識別番号「1」に対応させて追記内容記憶部16に記憶させる。
次に、制御部76は、分析取出部74を制御して、追記領域からの新規追加内容の取り出しを実行させる。分析取出部74は、追記内容記憶部16に領域識別番号「1」に対応して記憶されている属性情報「申請日:年」を参照した後、追記領域81−1から新規追加内容「18」を取り出して、該新規追加内容を領域識別番号「1」と対応させて追記内容記憶部16に記憶させる(ステップS304)。
続いて、制御部76は、残りの追記領域の有無を判断する(ステップS118)。残りの追記領域が有ると判断されると、帳票処理装置70は、残りの追記領域に対して、ステップS301以降の処理を実施する。追記領域81−2、3に対する処理の流れは、追記領域81−1に対する処理の流れと同一なので、説明を省略する。
続いて、帳票処理装置70は、追記領域81−4に対して、ステップS301以降の処理を実施する。即ち、罫線探索部71が追記領域81−4に対応する領域罫線枠87及び隣接罫線枠88を探索し、領域罫線枠データ及び隣接罫線枠データが、領域識別番号「4」と対応して追記内容記憶部16に記憶される(ステップS301)。
次に、文字探索部72が、領域罫線枠87及び隣接罫線枠88において文字データを探索し、隣接罫線枠88内から枠外文字データ「捺印欄」を検出する(ステップS302)。そして、設定部73が、該追記領域81−4の属性情報「捺印欄」を設定する(ステップS303)。
続いて、制御部76は、分析取出部74により、追記領域81−4からの新規追加内容の取り出しを実行する。分析取出部74は、追記内容記憶部16に記憶されている追記領域81−4の属性情報を参照して、属性情報「捺印欄」が設定された追記領域81−4が印鑑領域であると判定し、追記領域81−4に対して画像切出処理を行って、新規追加内容として印鑑イメージを取り出し、領域識別番号「4」と対応させて追記内容記憶部16に記憶させる(ステップS304)。
続いて、制御部76は、残りの追記領域の有無を判断し(ステップS118)、残りの追記領域が有ると判断されると、帳票処理装置70は、残りの追記領域81−5、6に対して、ステップS301以降の処理を実施する。
ステップS118において、残りの追記領域が無いと判断されると、制御部76は、出力部75により、追記内容記憶部16から新規追加内容と対応する属性情報とを読み出して、図14(a)に示されるように、該帳票の帳票識別番号と共に、各新規追加内容と属性情報とを関連づけて出力する(ステップS305)。出力された帳票識別番号、新規追加内容及び属性情報は、図示されないデータベースに記憶される。
ステップS305において新規追加内容が出力されると、或いは、ステップS112において追記有りブロックが無いと判断されると、制御部76は、領域生成部55を制御して、改竄有りブロックの有無を判断させる(ステップS212)。領域生成部55は、改竄内容記憶部54におけるブロック識別データの記憶の有無に基づいて、改竄有りブロックの有無を判断する。
改竄有りブロックが有ると判断される(ステップS212)と、領域生成部55は、改竄内容記憶部54に記憶されている各ブロック識別データに基づいて、隣接する改竄有りブロックを改竄領域として生成し、生成された各改竄領域に領域識別番号を付与すると共に、各改竄領域の位置データを取得する(ステップS213)。領域生成部55は、記入帳票イメージ80(図13)において、改竄領域82を生成し、領域識別番号1を付与すると共に、改竄領域82の位置データを取得して、領域識別番号及び対応する位置データを改竄内容記憶部54に記憶させる。
続いて、制御部76は、罫線探索部71を制御して、改竄領域に対応する領域罫線及び隣接罫線枠を探索させる(ステップS306)。罫線探索部71は、改竄内容記憶部54に記憶されている改竄領域82の位置データに基づいて、領域罫線枠85及び隣接罫線枠86を探索し、領域罫線枠データ及び隣接罫線枠データを、領域識別番号「1」と共に制御部76に通知する。制御部76は、領域罫線枠データ及び隣接罫線枠データを、領域識別番号と対応させて改竄内容記憶部54に記憶させる。
次に、制御部76は、文字探索部72を制御して、改竄領域に対応する枠外文字データを探索させる(ステップS307)。文字探索部72は、改竄領域82に対応する隣接罫線枠86内において、枠外文字データを探索し、検出された枠外文字データ「申請額(1〜3の番号を記入してください)」を、領域識別番号「1」と共に、制御部76に通知する。制御部76は、通知された枠外文字データを、領域識別番号と対応させて改竄内容記憶部54に記憶させる。
続いて、制御部76は、設定部73を制御して、改竄領域に対して属性情報を設定させる(ステップS308)。設定部73は、改竄内容記憶部54から改竄領域82に対応する枠外文字データを読み出して、属性情報「申請額(1〜3の番号を記入してください)」を設定する。設定された属性情報は、領域識別番号「1」と対応させて改竄内容記憶部54に記憶される。
次に、制御部76は、分析取出部74を制御して、改竄領域からの改竄内容の取り出しを実行させる。分析取出部74は、改竄内容記憶部54から改竄領域82に対応する領域罫線枠データを読み出して、領域罫線枠85内に対して画像切出処理を行って、改竄内容を含む改竄イメージを取り出す。そして、分析取出部74は、取り出された改竄イメージを、領域識別番号「1」と対応させて、改竄内容記憶部54に記憶させる(ステップS309)。
続いて、制御部76は、残りの改竄領域の有無を判断する(ステップS215)。残りの改竄領域が有ると判断されると、帳票処理装置70は、残りの改竄領域に対して、ステップS306以降の処理を実施する。
残りの改竄領域が無いと判断される(ステップS215)と、制御部76は、出力部75により、改竄内容記憶部54から改竄内容を含む改竄イメージと対応する属性情報とを読み出して、図14(b)に示されるように、該帳票の帳票識別番号と共に、改竄イメージと属性情報とを関連づけて出力する(ステップS310)。出力された帳票識別番号、改竄イメージ及び属性情報は、図示されないデータベースに記憶される。これにより、帳票処理装置70は帳票処理を終了する。
また、ステップS212において、改竄有りブロックが無いと判断された場合、帳票処理装置70による帳票処理は終了する。
以上のように、本実施例の帳票処理装置は、記入内容の属性を示す属性情報を検出して、記入内容と関連づけて出力するので、大量の帳票から複数の記入内容を自動的に読み取った後、該記入内容を属性情報毎に集計処理可能な形態でデータ化して出力可能となり、適用範囲が拡大される。また、改竄内容を含む改竄イメージと、該改竄内容の属性情報とが出力されるので、改竄内容の検出時に、わざわざ帳票処理を停止させて人的処理を実施しなくても、大量の帳票を処理した後に、出力結果を参照して、改竄内容を含む帳票に対する処理を改めて実施することが可能となり、効率的な帳票処理が実現される。
なお、本実施例では、属性情報は、帳票における記入内容の近隣から読み取って設定されたが、これに限定されない。例えば、属性情報を設定不可能な帳票に対して、該帳票のイメージを表示して、属性情報を選択或いは入力させる構成をとることも可能である。
本発明の実施例1に係る帳票処理装置の構成を示すブロック図である。
帳票の一例を示す図である。
記入帳票イメージ及び透かしイメージの分離処理を説明する図である。
記入帳票イメージにおける現画素数取得処理の説明図である。
記入帳票イメージの一例を示す図(その1)である。
本発明に係る帳票処理装置の実施例1における動作を示すフローチャート(その1)である。
本発明に係る帳票処理装置の実施例1における動作を示すフローチャート(その2)である。
本発明の実施例2に係る帳票処理装置の構成を示すブロック図である。
記入帳票イメージの一例を示す図(その2)である。
本発明に係る帳票処理装置の実施例2における動作を示すフローチャート(その1)である。
本発明に係る帳票処理装置の実施例2における動作を示すフローチャート(その2)である。
本発明の実施例3に係る帳票処理装置の構成を示すブロック図である。
記入帳票イメージの一例を示す図(その3)である。
出力データの一例を示す図である。
本発明に係る帳票処理装置の実施例3における動作を示すフローチャート(その1)である。
本発明に係る帳票処理装置の実施例3における動作を示すフローチャート(その2)である。
符号の説明
10、50、70 帳票処理装置
11 イメージ取得部
12 分離取得部
13 画素数取得部
14、52 解析取得部
15、53 判定部
19、57、74 分析取出部
21、75 出力部
51 形状データ取得部
72 文字探索部