JP2009200794A - 文書の改竄検出プログラム及び改竄検出装置 - Google Patents

文書の改竄検出プログラム及び改竄検出装置 Download PDF

Info

Publication number
JP2009200794A
JP2009200794A JP2008040071A JP2008040071A JP2009200794A JP 2009200794 A JP2009200794 A JP 2009200794A JP 2008040071 A JP2008040071 A JP 2008040071A JP 2008040071 A JP2008040071 A JP 2008040071A JP 2009200794 A JP2009200794 A JP 2009200794A
Authority
JP
Japan
Prior art keywords
image data
falsification
character recognition
detection program
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008040071A
Other languages
English (en)
Inventor
Masayuki Hisatake
真之 久武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008040071A priority Critical patent/JP2009200794A/ja
Publication of JP2009200794A publication Critical patent/JP2009200794A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】文書に加えられた改竄を適切に検出する。
【解決手段】画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化ステップS12と、画素のグループの画像データ毎を処理単位として文字認識を行う文字認識ステップS14と、文字認識ステップS14における処理結果に応じて画像データに改竄が加えられているか否かを判定する改竄判定ステップS16と、をコンピュータに実行させる。
【選択図】図3

Description

本発明は、文書の改竄検出プログラム及び改竄検出装置に関する。
従来、紙等の印刷媒体に印刷された画像の改竄を検出する技術が知られている。
例えば、スキャナ等によって読み込まれた画像データを解析し、改竄のために原稿に貼られた紙片の端部に生じる細い筋を検出し、その検出部で囲まれる部分を改竄部とする技術が知られている(特許文献1)。
また、修正液を用いて原稿を改竄した場合、読み込まれた原稿の画像データの用紙の輝度と修正液を用いた部分の輝度との差に基づいて改竄を検出する技術が開示されている(特許文献2及び3)。
また、文字情報等からなる文書画像と所定のコードパターンからなるコード画像を含む原稿の画像データよりコード画像を抽出し、当該コード画像の欠落状態から改ざんを検出する技術も開示されている(特許文献4)。
特開平11−41450号公報 特開2007−124616号公報 特開2007−207184号公報 特開2007−28324号公報
原稿に残る紙片の縁や修正液の痕を検出する技術では、原稿に直接書き加えた改竄を適切に検出することができない。また、改竄検出用の付加情報を埋め込む技術では付加情報を原稿に埋め込んでおく必要があり、既に印刷されている紙文書には適用することができない。
本発明の一態様は、画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化ステップと、前記画素のグループの画像データ毎を処理単位として文字認識を行う文字認識ステップと、前記文字認識ステップにおける処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定ステップと、をコンピュータに実行させることを特徴とする改竄検出プログラムである。
ここで、前記文字認識ステップは、さらに前記画像データ全体を処理単位として文字認識を行い、前記改竄判定ステップは、前記画素のグループの画像データ毎を処理単位として文字認識を行ったときの認識結果と、前記画像データ全体を処理単位として文字認識を行ったときの認識結果と、が異なる場合に前記画像データに改竄が加えられていると判定してもよい。
また、本発明の別の態様は、画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化ステップと、前記画素のグループを重ね合わせた画像データを処理単位として文字認識を行う文字認識ステップと、前記文字認識ステップにおける処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定ステップと、をコンピュータに実行させることを特徴とする改竄検出プログラムである。
ここで、前記文字認識ステップは、前記画素のグループの異なる組み合わせについて文字認識を行い、前記改竄判定ステップは、前記文字認識ステップにおいて前記画素のグループの異なる組み合わせにおいて文字認識の結果が異なる場合に前記画像データに改竄が加えられていると判定してもよい。
また、前記文字認識ステップは、前記画素のグループに含まれるグループ化された画素の画素数が多い順に順次前記画素のグループを重ね合わせた画像データについて文字認識を行ってもよい。
また、前記改竄判定ステップは、前記画素のグループを重ね合わせた第1の画像データに対する文字認識の結果と、前記第1の画像データとは異なる前記画素のグループを重ね合わせた第2の画像データに対する文字認識の結果と、が異なる場合に、前記第1の画像データに含まれる画素の代表値と前記第2の画像データに含まれる画素の代表値との差が所定値以上である場合に前記画像データに改竄が加えられていると判定してもよい。
また、コンピュータに、前記画像データ内において改竄検出が必要な検出対象領域をユーザから取得する検出対象領域取得ステップを実行させ、前記文字認識ステップは、前記検出対象領域のみについて文字認識を行ってもよい。
また、コンピュータに、前記画像データ全体を文字認識して、その認識結果に基づいて改竄検出が必要な検出対象領域を抽出する検出対象領域抽出ステップを実行させ、前記文字認識ステップは、前記検出対象領域のみについて文字認識を行ってもよい。
また、前記検出対象領域抽出ステップは、前記画像データ全体の文字認識の結果において数字として認識された領域を含む検出対象領域を抽出してもよい。
また、前記改竄判定ステップにおいて改竄が検出された場合、前記検出対象領域のみ画素値を多値データとして記憶部に保存してもよい。
また、前記改竄判定ステップにおいて改竄が検出された場合、前記画像データを多値データとして記憶部に保存してもよい。
また、コンピュータに、前記改竄判定ステップにおいて改竄が検出された場合にユーザに対して警告を呈示する警告ステップを行わせてもよい。
また、前記警告ステップは、前記改竄判定ステップにおいて改竄として検出された領域を強調表示してユーザに呈示してもよい。
また、前記画素値は、輝度又は色差としてもよい。
また、本発明の別の態様は、画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化手段と、前記画素のグループの画像データ毎を処理単位として文字認識を行う文字認識手段と、前記文字認識手段における処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定手段と、を備えることを特徴とする改竄検出装置である。
また、本発明の別の態様は、画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化手段と、前記画素のグループを重ね合わせた画像データを処理単位として文字認識を行う文字認識手段と、前記文字認識手段における処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定手段と、を備えることを特徴とする改竄検出装置である。
これらの装置は、上記改竄検出プログラムをコンピュータによって実行することによって実現することができる。また、上記各ステップを実行する改竄検出プログラムをコンピュータによって実行することによって、それらの機能を実現する改竄検出装置を実現することもできる。
請求項1及び15に記載の構成によれば、画素の画素値の範囲に応じてグループ化された画素毎に文字認識処理を行うことで改竄検出の精度をより高めることができる。
請求項2の記載の構成によれば、画像データ全体の文字認識結果と、グループ化された画素毎の文字認識結果と、を比較することによって改竄検出の精度をより高めることができる。
請求項3及び16に記載の構成によれば、画素の画素値の範囲に応じてグループ化された画素群を組み合わせて得られる画像データに対して文字認識処理を行うことで改竄検出の精度をより高めることができる。
請求項4に記載の構成によれば、画素の画素値の範囲に応じてグループ化された画素群を組み合わせて得られる画像データ間で文字認識処理結果が異なる場合に改竄と検出することによって改竄検出の精度をより高めることができる。
請求項5に記載の構成によれば、画素数が多いグループの画像データから順に重ね合わせて文字認識処理を行い、文字認識処理の結果を比較することによって効率よく改竄検出を行うことができる。
請求項6に記載の構成によれば、文字認識結果が異なると共に、重ね合わせた画像データの画素値の代表値が異なる場合のみ改竄有りと判定することで改竄判定の精度をより高めることができる。
請求項7に記載の構成によれば、改竄の検出処理が必要な領域をユーザが指定できるようにすることによって、改竄検出を効率的に行うことができる。
請求項8に記載の構成によれば、改竄の検出処理が必要な領域を自動的に抽出することによって、改竄検出を効率的に行うことができる。
請求項9に記載の構成によれば、数字であると認識された画像領域を改竄の検出処理が必要な領域として抽出することによって、改竄検出を効率的に行うことができる。
請求項10に記載の構成によれば、改竄有りと検出された領域のみ画像データを多値データとして保存することによってメモリの使用効率を向上させることができる。
請求項11に記載の構成によれば、改竄有りと検出された場合に画像データを多値データとして保存することによってメモリの使用効率を向上させることができる。
請求項12に記載の構成によれば、改竄が検出された場合にユーザに対して警告を呈示することによって、ユーザは改竄を知ることができる。
請求項13に記載の構成によれば、改竄が検出された場合にユーザに対して改竄が検出された領域を強調して表示することによって、原稿中の改竄を調査し易くできる。
請求項14に記載の構成によれば、画像データのグループ分けをする場合の基準となる画素値を輝度又は色差とすることによって、グループ分けの処理をより簡易に行うことができる。
<第1の実施の形態>
本発明の第1の形態における改竄検出装置100は、図1に示すように、一般的な構成を有するコンピュータにおいて改竄検出プログラムを実行することによって実現することができる。
ただし、本実施の形態では1台のコンピュータによって改竄検出プログラムによる処理を総て行う態様について説明するが、一般的な分散処理システムの技術により、各処理を複数のコンピュータに分散させて行わせてもよい。
本発明の実施の形態における改竄検出装置100は、中央処理部10、記憶部12、入力部14、表示部16及びインターフェース部18を含んで構成される。これらの構成部は、バスやネットワーク等の情報伝達手段によって相互に情報伝達可能に接続される。
中央処理部10は、CPU(中央制御装置)を含んで構成される。中央処理部10は、記憶部12、入力部14及びインターフェース部18から情報を受け取り、その情報に対してプログラムに従って演算等の処理を施し、表示部16及びインターフェース部18へ出力することによって情報処理を行う。本実施の形態では、中央処理部10は、記憶部12に予め格納されている改竄検出プログラムを実行することによって、処理対象となる画像データに含まれる改竄を検出する処理を実現する。
記憶部12は、半導体メモリ、ハードディスク装置、光ディスク装置等の情報記憶装置を含んで構成される。記憶部12は、改竄検出装置100で実行される改竄検出プログラムや改竄検出装置100での処理に供されるデータを格納及び保持する。
入力部14は、キーボード等の文字データ入力装置、マウス等のポインティングデバイス等の情報入力装置を含んで構成される。入力部14は、改竄検出処理を行うユーザによって操作され、改竄検出処理に対するユーザからの指示や処理のためのデータを受け付けるために用いられる。また、入力部14は、紙等の印刷媒体に画像形成された画像を読み取り、電子データである画像データに変換するスキャナ等の画像読取装置を含んでもよい。入力部14から入力されたデータは記憶部12に格納及び保持される。
表示部16は、ディスプレイ等の表示装置を含んで構成される。表示部16は、アプリケーションでの処理を行う際にユーザにユーザインターフェース画像や処理対象である情報を呈示するために用いられる。例えば、ユーザに対してユーザインターフェース画像を呈示し、改竄検出処理に必要な情報の入力を促すために用いられる。
インターフェース部18は、改竄検出装置100をLAN、WAN、インターネット等の通信手段を介して他の装置へ情報伝達可能に接続するための装置を含んで構成される。本実施の形態において、改竄検出装置100は、インターフェース部18を用いて改竄の検出対象となる画像データや改竄検出処理に必要なデータを外部の装置から取得してもよい。インターフェース部18は、例えば、TCP/IP等の既存のプロトコルに則って情報伝達を実現する装置としてもよい。
図2は、本実施の形態における改竄検出装置100を機能ブロック図として示したものである。
改竄検出装置100は、図2に示すように、画像取得手段20、グループ化手段22、文字認識手段24、改竄判定手段26及び警告表示手段28を含んで構成される。
以下、改竄検出装置100において図2の機能ブロック図に示す機能を実現する際の処理について説明する。以下の処理は、改竄検出装置100において改竄検出プログラムを実行することによって実現される。
<改竄検出処理>
改竄検出処理は、図3に示すフローチャートに沿って実行される。中央処理部10は、記憶部12に記憶されている改竄検出プログラムの実行を開始すると、ステップS10からの処理を行う。ここでは、図4〜図6を参照して説明を行うが、説明を分かりやすくするために処理対象となる画像データは簡略化されたものとしている。実際には改竄の検出対象となる原稿はさらに複雑なものであってもよい。
ステップS10では、改竄検出の処理対象となる画像データを取得する。このステップS10が図2における画像取得手段20に相当する。画像データは、入力部14に含まれる画像読取装置によって紙などの印刷媒体に画像形成されている原稿を読み取ることによって取得することができる。また、インターフェース部18を介して、外部の装置から画像データを取得してもよい。取得された画像データは記憶部12に格納及び保持される。このステップS10で取得する画像データは多値データであるものとする。
ステップS12では、改竄検出の処理対象となる画像データに含まれる画素を画素値に基づいてグループ化する。このステップが図2におけるグループ化手段22に相当する。
まず、中央処理部10は、記憶部12から改竄検出の処理対象となる画像データを読み出し、画像データに対してラベリング処理を行う。各々の画素を注目画素として注目画素の画素値と注目画素から所定の距離内(画素数内)にある近傍の画素の画素値とを比較し、それらの画素値が所定の範囲内に収まる画素同士に同一のラベルを付す。すなわち、ラベリング処理では、近い画素値を有する画素であって、画素同士が繋がり合っている画素群に分ける処理を行う。各画素のラベル情報は記憶部12に格納及び保持される。
図4にラベリング処理の例を示す。図4において、画像データ全体における画像の画素値の違いはハッチングの濃さでの違いで示している。また、各ラベルはアルファベット小文字で示しており、異なるラベルが付された画素には異なるアルファベットを付して示している。図4では、画像データに含まれる画素にa〜eの5つのラベルが付されている(図を見やすくするために背景部分にはラベルを付していない)。
例えば、画像データの輝度によってラベリング処理を行う場合、画像データの輝度が0〜255までの256階調で表されているとすると、注目画素と注目画素から2画素以内にある画素との輝度の差が5階調以内である場合にそれらの画素に同一のラベルを付すという処理を行う。
また、画像データの色差によってラベリング処理を行う場合、画像データの赤の強度R、緑の強度G、青の強度Bがそれぞれ0〜255までの256階調で表されているとすると、注目画素と注目画素から2画素以内にある画素とのいずれかの色の強度の差が5階調以内である場合にそれらの画素に同一のラベルを付すという処理を行う。また、赤、緑及び青の強度の二乗平均(R2+G2+B21/2/3の差が所定値以内である場合にそれらの画素に同一のラベルを付すという処理を行うものとしてもよい。
なお、各画像についてのラベルの付し方はこれらの例に限定されるものではなく、画素の画素値に基づいて互いに近傍(所定の距離内又は所定の画素数内)にあり画素値が近い特徴を有する画素同士に同じラベルが付されるものであればよい。
次に、中央処理部10は、ラベリングされた画素をグループ化する。同じラベルが付された画素群の画素値の代表値を決定し、その代表値が所定の画素値の範囲内にある異なるラベルが付された画素群同士を同一のグループとして指定する。すなわち、グループ化処理では、近い画素値を有する画素であって、画素同士が繋がり合っている画素群としてラベル付けされた画素について、互いに近い画素値を有する画素群をさらに纏める処理を行う。各画素のグループ情報は記憶部12に格納及び保持される。
図5にグループ化処理の例を示す。図5において、各グループはアルファベット大文字で示しており、異なるグループに分けられた画素には異なるアルファベットを付して示している。図5では、ラベルa及びdが付された画素群の画素値の代表値が同じ画素値の範囲内にあり、ラベルb,c及びeが付された画素群の画素値の代表値が同じ画素値の範囲内にあり、それぞれグループA及びグループBに分けられている(図を見やすくするために背景部分はグループの符号を付していない)。
例えば、画像データの輝度によってグループ化を行う場合、画像データの輝度が0〜255までの256階調で表されているとすると、256階調を0〜49(背景グループ),50〜149(第1グループ)及び150〜255(第2グループ)の3グループに分け、上記ラベリング処理によって同一のラベルが付された画素群の輝度の平均値を代表値として、その代表値が含まれるグループにそのラベルが付された画素群をグループ分けしてもよい。
また、画像データの色差によってグループ化を行う場合、画像データの赤の強度R、緑の強度G、青の強度Bがそれぞれ0〜255までの256階調で表されているとすると、いずれかの色の強度の階調を0〜49(背景グループ),50〜149(第1グループ)及び150〜255(第2グループ)の3グループに分け、上記ラベリング処理によって同一のラベルが付された画素群のその色の強度の平均値を代表値として、その代表値が含まれるグループにそのラベルが付された画素群をグループ分けしてもよい。
また、階調を0〜49(背景グループ),50〜149(第1グループ)及び150〜255(第2グループ)の3グループに分け、上記ラベリング処理によって同一のラベルが付された画素群に含まれる各画素の色の強度の二乗平均(R2+G2+B21/2/3の平均値を代表値として、その代表値が含まれるグループにそのラベルが付された画素群をグループ分けしてもよい。
なお、各画像についてのグルーピングの方法はこれらの例に限定されるものではなく、互いに近い画素値を有する画素が同一のグループに分けられる方法であればよい。また、グループ分けの基準となる階調の範囲は上記例に限定されるものではなく、グループの数も3つに限定されるものではない。
ステップS14では、文字認識処理を行う。このステップS14が図2における文字認識手段24に相当する。中央処理部10は、処理対象となる画像データ全体及びステップS12においてグループ化された画素群毎の画像データについて文字認識処理を施す。文字認識処理は、既存のアルゴリズムを適用することができる。
ここでは、まず同一のグループに分けられた画素のみを含む画像データ毎に文字認識処理を行う。具体的な処理を例として挙げれば、同一のグループに分けられた画素のみを含む画像データを各グループに分けられた画像が明確となるように2値化する。そして2値化された画像データに含まれる画像を連続する画素群毎のブロックに切り分けて、それぞれの画像ブロック毎に文字認識処理を施す。
例示として、図5に示すグループ分けの例では、第1グループ(階調50〜149)の画像について階調50〜149の画素値を有する画素を“1”、その他の画素値を有する画素を“0”とした2値化画像データを生成し(図6(a):ただし“0”は示していない)、その第1グループの2値化画像データに含まれる画素値“1”の画素を連続する画素群毎に切り分けて、その連続する画素群を包含する画像領域を画像ブロック54,56とし(図6(b))、それぞれの画像ブロック54,56毎に文字認識処理を行う。ここでは、画像ブロック54は文字「1」と判定され、画像ブロック56は文字「6」と判定されたものとする。同様に、第2グループ(階調150〜255)については、階調150〜255の画素値を有する画素を“1”、その他の画素値を有する画素を“0”とした2値化画像データを生成し(図6(a):ただし“0”は示していない)、その第2グループの2値化画像データに含まれる画素値“1”のうち連続する画素毎に切り分けて(図6(b))、その連続する画素群を包含する画像領域を画像ブロック58,60とし、それぞれの画像ブロック58,60毎に文字認識処理を行う。ここでは、画像ブロック58,60共に文字としては認識されなかったものとする。
さらに、改竄検出の処理対象とする画像データ全体に対しても文字認識処理を施す。具体的な処理を例として挙げれば、改竄検出の処理対象とする画像データ全体に含まれる画素をそれらの画素値に応じて所定の閾値を基準に2値化する。そして2値化された画像データに含まれる画像を連続する画素群毎のブロックに切り分けて、それぞれの画像ブロック毎に文字認識処理を施す。すなわち、グループ化などを施す前の画像データ全体についての文字認識結果を得る。
例示として、図5に示す画像データの例では、階調50〜255の画素値を有する画素を“1”、その他の画素値を有する画素を“0”とした2値化画像データを生成し(図6(a):ただし“0”は示していない)、その第1グループの2値化画像データに含まれる画素値“1”の画素を連続する画素群毎に切り分けて、その連続する画素群を包含する画像領域を画像ブロック50,52とし(図6(b))、それぞれの画像ブロック50,52毎に文字認識処理を行う。ここでは、画像ブロック50は文字「4」と判定され、画像ブロック52は文字「8」と判定されたものとする。
ステップS16では、処理対象となる画像データの改竄の検出処理が行われる。ステップS14において得られた画像データ全体についての文字認識結果と各グループ毎の画像データについての文字認識結果とが相違するか否かに基づいて改竄の有無を判定する。このステップS16が図2における改竄判定手段26に相当する。
すなわち、画像データ全体についての文字認識結果に対して、各グループの画像データについての文字認識結果が一致するか否かをグループ毎に順次調べ、いずれかのグループに画像データ全体についての文字認識結果と一致しない文字が含まれていた場合には改竄があったものと判定する。一方、総てのグループに画像データ全体についての文字認識結果と一致しない文字が含まれていなかった場合、直ちに改竄がなかったものと判定できるものではないが、ある程度の確からしさにおいて改竄がなかったものと判定してもよい。
より具体的な処理の例を示すと、ステップS14において各グループの画像データから得られた画像ブロック毎に、その画像ブロックと重複する領域を有する画像データ全体から得られた画像ブロックを求め、それらの画像ブロックについての文字認識結果が一致するか否かを調査する。両方の画像ブロックの文字認識結果が一致した場合、又は、少なくとも一方の画像ブロックが文字として認識されていなかった場合には文字マッチング結果は「一致」と判定する。一方、両方の画像ブロックが文字として認識されており、その認識結果が一致していなかった場合には文字マッチング結果は「不一致」と判定する。不一致と判定された場合、その判定対象となった画像ブロックが不一致であることを特定する不一致特定情報を記憶部12に保存しておいてもよい。
このような判定処理を画像データ全体と全グループの画像データとの組み合わせについて行い、いずれかのグループに画像データ全体についての文字認識結果と一致しない文字が含まれていた場合には改竄があったものと判定する。
図5及び図6の例では、第1グループの画像データの画像ブロック54は画像データ全体の画像ブロック50に対応するので、画像ブロック54の文字認識結果と画像ブロック50の文字認識結果とを比較する。それらは各々「1」及び「4」であるので文字マッチング結果は「不一致」と判定される。同様に、第1グループの画像データの画像ブロック56は画像データ全体の画像ブロック52に対応するので、画像ブロック56の文字認識結果と画像ブロック52の文字認識結果とを比較する。それらは各々「6」及び「8」であるので文字マッチング結果は「不一致」と判定する。また、第2グループの画像データの画像ブロック58は画像データ全体の画像ブロック50に対応するので、画像ブロック58の文字認識結果と画像ブロック50の文字認識結果とを比較する。画像ブロック58は文字として認識できていないので、文字マッチング結果は「一致」と判定される。同様に、第2グループの画像データの画像ブロック60は画像データ全体の画像ブロック52に対応するので、画像ブロック60の文字認識結果と画像ブロック52の文字認識結果とを比較する。画像ブロック60は文字として認識できていないので、文字マッチング結果は「一致」と判定される。文字マッチング結果が「不一致」となるグループが存在するので改竄判定は「改竄有り」となる。
ステップS18では、ユーザに対して改竄の検出結果を呈示する。このステップS18が図2における警告表示手段28に相当する。
中央処理部10は、ステップS16における改竄判定処理において改竄があったものと判定された場合にはその旨を示す警告情報を表示部16に表示させる。
例えば、表示部16に「処理対象の画像データは改竄された可能性があります。」といった警告を表示させる。また、処理対象となった画像データ全体を表示部16に表示させ、不一致特定情報で特定される画像ブロックの領域を枠で囲む、色を変えて表示する等して強調表示してもよい。
また、図7に示すように、改竄検出装置100は改竄記録手段30を含む構成としてもよい。図8に示すように、ステップS20において、画像データ全体については2値化されたデータのみを記憶部12に格納及び保持させ、不一致特定情報で特定される画像ブロックの画像領域のみ多値データを記憶部12に格納及び保持させる処理を行う。この処理が改竄記録手段30に相当する。なお、図8におけるステップS20以外の処理は上記実施の形態と同様であるので説明を省略する。
また、本実施の形態では、改竄を検出する領域は画像データの全領域としたが、ユーザに改竄を検出する領域を指定させてもよい。この場合、図9に示すように、改竄検出装置100に検出領域取得手段32が付加される。図10に示すように、ステップS22において、ステップS10で取得した画像データのうち改竄検出の対象とする領域をユーザに選択させる。例えば、中央処理部10は、ステップS10で取得した画像データ及び入力部14を用いて改竄検出の対象とする領域を指定させるユーザインターフェース画面を表示部16に表示させる。ユーザは入力部14(ポインティングデバイス等)を用いて改竄検出の対象とする領域を選択する。中央処理部10は、選択された領域を入力部14から取得し、画像データのうち選択された領域のみをステップS12以降の処理対象とする。ステップS12以降では、選択された領域のみを処理対象とする以外は同様の処理を行うので説明を省略する。この処理が検出領域取得手段32に相当する。
この検出領域取得処理は、改竄検出処理前に予め行っておいてもよい。例えば、改竄検出の対象となる原稿の定型フォーマット毎に改竄検出の対象となる領域を予め設定して記憶部12に保存しておくことによって、ステップS10で取得した画像データの原稿のフォーマットに応じて改竄検出の対象を変更する処理としてもよい。
また、取得した画像データから改竄を検出する領域を自動的に抽出する処理を行ってもよい。この場合、図11に示すように、改竄検出装置100に検出領域抽出手段34が付加される。図12に示すように、ステップS24において、ステップS10で取得した画像データから改竄検出の対象とする領域を自動的に抽出する。例えば、中央処理部10は、ステップS10で取得した画像データについて文字認識処理を施し、改竄される可能性が高い文字を含む領域を検出対象領域として抽出する。改竄される可能性が高い領域とは、アラビア数字を含む領域、漢数字を含む領域、金銭等に関する情報を含む領域(「振り込み額」等の文字から所定の範囲の画像領域等)等が挙げられる。このとき、予め記憶部12に登録された文字列や画像等を含む領域を検出対象領域として抽出するものとしてもよい。
また、画像データのフォーマットに応じて改竄される可能性が高い領域を抽出してもよい。例えば、振り込み用紙、請求書等の定型フォーマットと、それらにおいて改竄される可能性が高い領域を予め記憶部12に登録しておき、ステップS10で取得した画像データが登録された定型フォーマットのいずれかに該当する場合には該当するフォーマットの改竄される可能性が高い領域を抽出する。
中央処理部10は、抽出された領域を入力部14から取得し、画像データのうち抽出された領域のみをステップS12以降の処理対象とする。ステップS12以降では、抽出された領域のみを処理対象とする以外は同様の処理を行うので説明を省略する。この処理が検出領域抽出手段34に相当する。
なお、本実施の形態では、全グループの画像データについて文字認識処理を行った後に改竄判定処理を行う例を示したが、これに限定されるものではない。例えば、1つのグループについて文字認識処理を行う毎に、画像データ全体についての文字認識処理の結果と比較し、「不一致」となるグループが存在した時点で改竄が有るものとして警告等を行う処理としてもよい。
<第2の実施の形態>
第2の実施の形態における改竄検出装置200も図1に示すコンピュータによって改竄検出プログラムを実行することによって実現される。
図13は、本実施の形態における改竄検出装置200を機能ブロック図として示したものである。改竄検出装置200は、図13に示すように、画像取得手段20、グループ化手段22、文字認識手段36、改竄判定手段38及び警告表示手段28を含んで構成される。なお、図13において第1の実施の形態と同様の機能を有する手段については図2と同じ符号を付して説明を省略する。
<改竄検出処理>
改竄検出処理は、図14に示すフローチャートに沿って実行される。中央処理部10は、記憶部12に記憶されている改竄検出プログラムの実行を開始すると、ステップS10からの処理を行う。ここでは、図15〜図16を参照して説明を行うが、説明を分かりやすくするために処理対象となる画像データは簡略化されたものとしている。実際には改竄の検出対象となる原稿はさらに複雑なものであってもよい。
ステップS10では、改竄検出の処理対象となる画像データを取得する。また、ステップS12では、改竄検出の処理対象となる画像データに含まれる画素を画素値に基づいてグループ化する。これらのステップは第1の実施の形態と同様であるので説明を省略する。
ステップS26では、文字認識処理を行う。このステップS26が図13における文字認識手段36に相当する。中央処理部10は、ステップS12においてグループ化された画素群を順次重ね合わせた画像データについて文字認識処理を施す。文字認識処理は、既存のアルゴリズムを適用することができる。
まず、各グループのうちラベルが付された画素が多い順にグループ化された画素群を順次重ね合わせた画像データを生成する。
例示として、図15に画像データ(図15(a))、ラベリング処理結果(図15(b))及びグルーピング処理結果(図15(c))を示す。図15(a)に示す画像データに対して、第1グループ(階調50〜149)、第2のグループ(階調150〜199)、第3のグループ(階調200〜255)の各画像データについてラベリング処理を施し(図15(b))、さらに同一ラベルが付された画素の代表値(平均値)が各グループの階調に属する画素を纏めて各グループに振り分ける(図15(c))。
さらに、それぞれ階調50〜149,階調150〜199,階調200〜255の画素値を有する画素を“1”、その他の画素値を有する画素を“0”とした2値化画像データを生成する(図16(a):ただし“0”は示していない)。
次に、このようにして2値化された画像データのうち画素値“1”の画素が多い順に画像データを選択し、選択された画像データを順次重ね合わせた画像データを生成して文字認識処理を行う。
図15の例では、第1グループが最も画素値“1”の画素の数が多い画像データであるので、第1グループの画像データについて文字認識処理を行う(図16(b)の第1グループ)。このとき、第1の実施の形態と同様に、2値化画像データに含まれる画素値“1”の画素を連続する画素群毎に切り分けて、その連続する画素群を包含する画像領域を画像ブロックとして、それぞれの画像ブロック毎に文字認識処理を行う。ここでは、画像ブロック60は文字「1」と判定され、画像ブロック62は文字「0」と判定されたものとする。
次に画素値“1”の画素が多いグループは第2グループであるので、既に選択されている第1グループの画像データと第2グループの画像データとを重畳させた画像データについて文字認識処理を行う(図16(b)の第1+第2グループ)。より具体的には、第1グループの画像データ及び第2グループの画像データをそれぞれ2値化し、それらを重ね合わせた画像データを生成し、その画像データに含まれる画素値“1”の画素を連続する画素群毎に切り分けて、その連続する画素群を包含する画像領域を画像ブロックとして、それぞれの画像ブロック毎に文字認識処理を行う。ここでは、画像ブロック64は文字として認識されず、画像ブロック66は文字「6」として認識されたものとする。
次に画素値“1”の画素が多いグループは第3グループであるので、既に選択されている第1グループ,第2グループの画像データと第3グループの画像データとを重畳させた画像データについて文字認識処理を行う(図16(b)の第1+第2+第3グループ)。より具体的には、第1グループの画像データ,第2グループの画像データ及び第3グループの画像データをそれぞれ2値化し、それらを重ね合わせた画像データを生成し、その画像データに含まれる画素値“1”の画素を連続する画素群毎に切り分けて、その連続する画素群を包含する画像領域を画像ブロックとして、それぞれの画像ブロック毎に文字認識処理を行う。ここでは、画像ブロック68は文字「4」として認識され、画像ブロック70は文字「8」として認識されたものとする。
グループがさらに存在する場合であっても同様に画像データを順に重ね合わせて文字認識処理を行う。
ステップS28では、処理対象となる画像データの改竄の検出処理が行われる。ステップS26において得られた画素群を順次重ね合わせた画像データについての文字認識結果に基づいて改竄の有無を判定する。このステップS28が図2における改竄判定手段38に相当する。
より具体的には、各グループの重ね合わせの組み合わせが異なる複数の画像データについて文字として認識された画像ブロックが存在する場合、互いに対応する画像ブロックの文字認識結果が不一致であれば、互いに領域が重なり合う画像ブロックの画素値の代表値を求め、その代表値の差が所定の範囲以上であれば改竄が有るものと判定し、そうでなければ改竄がないものと判定する。
図16の例では、第1グループのみからなる画像データについては、画像ブロック60は文字「1」と認識され、画像ブロック62は文字「0」と認識されている。第1グループの画像データと第2グループの画像データとを重畳させた画像データについては、画像ブロック64は文字として認識されず、画像ブロック66は文字「6」として認識されている。
そこで、画像ブロック60と、画像ブロック60と画像領域が重なる画像ブロック64と、の文字認識結果を比較し、一致するか否かを判定する。両方の画像ブロックの文字認識結果が一致した場合、又は、少なくとも一方の画像ブロックが文字として認識されていなかった場合には文字マッチング結果は「一致」と判定する。一方、両方の画像ブロックが文字として認識されており、その認識結果が一致していなかった場合には文字マッチング結果は「不一致」と判定する。したがって、画像ブロック60と画像ブロック64についての文字マッチング結果は「一致」となる。
次に、画像ブロック62と、画像ブロック62と画像領域が重なる画像ブロック66と、の文字認識結果を比較し、一致するか否かを判定する。画像ブロック62は文字「0」と認識され、画像ブロック66は文字「6」として認識されているので文字マッチング結果は「不一致」となる。そこで、画像ブロック60に含まれる画素値“1”の画素について2値化する前の元の画像データの画素値の平均値を代表値として算出し、画像ブロック64に含まれる画素値“1”の画素について2値化する前の元の画像データの画素値の平均値を代表値として算出し、それらの代表値が所定の範囲以上であるか否かを判定する。代表値の差が所定の範囲未満であれば改竄はないと判定し、そうでなければ改竄が有ったものと判定する。
第1グループの画像データと第2グループの画像データとを重畳させた画像データについては、画像ブロック64は文字として認識されず、画像ブロック66は文字「6」として認識されている。第1グループ〜第3グループを重畳させた画像データについては、画像ブロック68は文字「4」と認識され、画像ブロック70は文字「8」と認識されている。
そこで、画像ブロック64と、画像ブロック64と画像領域が重なる画像ブロック68と、の文字認識結果を比較し、一致するか否かを判定する。画像ブロック64と画像ブロック68についての文字マッチング結果は「一致」となる。
次に、画像ブロック66と、画像ブロック66と画像領域が重なる画像ブロック70と、の文字認識結果を比較し、一致するか否かを判定する。画像ブロック66は文字「6」と認識され、画像ブロック70は文字「8」として認識されているので文字マッチング結果は「不一致」となる。そこで、画像ブロック66に含まれる画素値“1”の画素について2値化する前の元の画像データの画素値の平均値を代表値として算出し、画像ブロック70に含まれる画素値“1”の画素について2値化する前の元の画像データの画素値の平均値を代表値として算出し、それらの代表値が所定の範囲以上であるか否かを判定する。代表値の差が所定の範囲未満であれば改竄はないと判定し、そうでなければ改竄が有ったものと判定する。
ステップS18では、ユーザに対して改竄の検出結果を呈示する。このステップS18が図13における警告表示手段28に相当する。ここでの処理は第1の実施の形態と同様であるので説明を省略する。
なお、第2の実施の形態においても改竄記録手段30、検出領域取得手段32、検出領域抽出手段34を組み合わせる構成としてもよい。
また、本実施の形態では、グループの画像データを順に重ね合わせて生成される画像データの総てについて文字認識処理を行った後に改竄判定処理を行う例を示したが、これに限定されるものではない。例えば、1つのグループをさらに重ね合わせた画像データを生成する毎に文字認識処理を行い、その文字認識結果に基づいて改竄検出処理を行い、改竄が検出された時点で警告等を行う処理としてもよい。
本発明の実施の形態における改竄検出装置の構成を示す図である。 第1の実施の形態における改竄検出装置の機能ブロック図である。 第1の実施の形態における改竄検出処理のフローチャートである。 画像データの画素のラベリング処理の例を示す図である。 画像データの画素のグループ化処理の例を示す図である。 画像データに対する文字認識処理の例を示す図である。 第1の実施の形態の変形例における改竄検出装置の機能ブロック図である。 第1の実施の形態の変形例における改竄検出処理のフローチャートである。 第1の実施の形態の変形例における改竄検出装置の機能ブロック図である。 第1の実施の形態の変形例における改竄検出処理のフローチャートである。 第1の実施の形態の変形例における改竄検出装置の機能ブロック図である。 第1の実施の形態の変形例における改竄検出処理のフローチャートである。 第2の実施の形態における改竄検出装置の機能ブロック図である。 第2の実施の形態における改竄検出処理のフローチャートである。 第2の実施の形態におけるラベリング処理及びグルーピング処理の例を示す図である。 第2の実施の形態における文字認識処理の例を示す図である。
符号の説明
10 中央処理部、12 記憶部、14 入力部、16 表示部、18 インターフェース部、20 画像取得手段、22 グループ化手段、24 文字認識手段、26 改竄判定手段、28 警告表示手段、30 改竄記録手段、32 検出領域取得手段、34 検出領域抽出手段、36 文字認識手段、38 改竄判定手段、50−70 画像ブロック、100,200 改竄検出装置。

Claims (16)

  1. 画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化ステップと、
    前記画素のグループの画像データ毎を処理単位として文字認識を行う文字認識ステップと、
    前記文字認識ステップにおける処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定ステップと、
    をコンピュータに実行させることを特徴とする改竄検出プログラム。
  2. 請求項1に記載の改竄検出プログラムであって、
    前記文字認識ステップは、さらに前記画像データ全体を処理単位として文字認識を行い、
    前記改竄判定ステップは、前記画素のグループの画像データ毎を処理単位として文字認識を行ったときの認識結果と、前記画像データ全体を処理単位として文字認識を行ったときの認識結果と、が異なる場合に前記画像データに改竄が加えられていると判定することを特徴とする改竄検出プログラム。
  3. 画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化ステップと、
    前記画素のグループを重ね合わせた画像データを処理単位として文字認識を行う文字認識ステップと、
    前記文字認識ステップにおける処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定ステップと、
    をコンピュータに実行させることを特徴とする改竄検出プログラム。
  4. 請求項3に記載の改竄検出プログラムであって、
    前記文字認識ステップは、前記画素のグループの異なる組み合わせについて文字認識を行い、
    前記改竄判定ステップは、前記文字認識ステップにおいて前記画素のグループの異なる組み合わせにおいて文字認識の結果が異なる場合に前記画像データに改竄が加えられていると判定することを特徴とする改竄検出プログラム。
  5. 請求項3又は4に記載の改竄検出プログラムであって、
    前記文字認識ステップは、前記画素のグループに含まれるグループ化された画素の画素数が多い順に順次前記画素のグループを重ね合わせた画像データについて文字認識を行うことを特徴とする改竄検出プログラム。
  6. 請求項5に記載の改竄検出プログラムであって、
    前記改竄判定ステップは、前記画素のグループを重ね合わせた第1の画像データに対する文字認識の結果と、前記第1の画像データとは異なる前記画素のグループを重ね合わせた第2の画像データに対する文字認識の結果と、が異なる場合に、前記第1の画像データに含まれる画素の代表値と前記第2の画像データに含まれる画素の代表値との差が所定値以上である場合に前記画像データに改竄が加えられていると判定することを特徴とする改竄検出プログラム。
  7. 請求項1から6のいずれか1つに記載の改竄検出プログラムであって、
    コンピュータに、前記画像データ内において改竄検出が必要な検出対象領域をユーザから取得する検出対象領域取得ステップを実行させ、
    前記文字認識ステップは、前記検出対象領域のみについて文字認識を行うことを特徴とする改竄検出プログラム。
  8. 請求項1から6のいずれか1つに記載の改竄検出プログラムであって、
    コンピュータに、前記画像データ全体を文字認識して、その認識結果に基づいて改竄検出が必要な検出対象領域を抽出する検出対象領域抽出ステップを実行させ、
    前記文字認識ステップは、前記検出対象領域のみについて文字認識を行うことを特徴とする改竄検出プログラム。
  9. 請求項8に記載の改竄検出プログラムであって、
    前記検出対象領域抽出ステップは、前記画像データ全体の文字認識の結果において数字として認識された領域を含む検出対象領域を抽出することを特徴とする改竄検出プログラム。
  10. 請求項7から9のいずれか1つに記載の改竄検出プログラムであって、
    前記改竄判定ステップにおいて改竄が検出された場合、前記検出対象領域のみ画素値を多値データとして記憶部に保存することを特徴とする改竄検出プログラム。
  11. 請求項1から10のいずれか1つに記載の改竄検出プログラムであって、
    前記改竄判定ステップにおいて改竄が検出された場合、前記画像データを多値データとして記憶部に保存することを特徴とする改竄検出プログラム。
  12. 請求項1から11のいずれか1つに記載の改竄検出プログラムであって、
    コンピュータに、前記改竄判定ステップにおいて改竄が検出された場合にユーザに対して警告を呈示する警告ステップを行わせることを特徴とする改竄検出プログラム。
  13. 請求項12に記載の改竄検出プログラムであって、
    前記警告ステップは、前記改竄判定ステップにおいて改竄として検出された領域を強調表示してユーザに呈示することを特徴とする改竄検出プログラム。
  14. 請求項1から14に記載の改竄検出プログラムであって、
    前記画素値は、輝度又は色差であることを特徴とする改竄検出プログラム。
  15. 画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化手段と、
    前記画素のグループの画像データ毎を処理単位として文字認識を行う文字認識手段と、
    前記文字認識手段における処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定手段と、
    を備えることを特徴とする改竄検出装置。
  16. 画像データに含まれる画素を画素値の範囲毎にグループ化するグループ化手段と、
    前記画素のグループを重ね合わせた画像データを処理単位として文字認識を行う文字認識手段と、
    前記文字認識手段における処理結果に応じて前記画像データに改竄が加えられているか否かを判定する改竄判定手段と、
    を備えることを特徴とする改竄検出装置。
JP2008040071A 2008-02-21 2008-02-21 文書の改竄検出プログラム及び改竄検出装置 Pending JP2009200794A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008040071A JP2009200794A (ja) 2008-02-21 2008-02-21 文書の改竄検出プログラム及び改竄検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008040071A JP2009200794A (ja) 2008-02-21 2008-02-21 文書の改竄検出プログラム及び改竄検出装置

Publications (1)

Publication Number Publication Date
JP2009200794A true JP2009200794A (ja) 2009-09-03

Family

ID=41143827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008040071A Pending JP2009200794A (ja) 2008-02-21 2008-02-21 文書の改竄検出プログラム及び改竄検出装置

Country Status (1)

Country Link
JP (1) JP2009200794A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095753A (ja) * 2014-11-17 2016-05-26 株式会社日立情報通信エンジニアリング 文字認識システム及び文字認識方法
JP2020046819A (ja) * 2018-09-18 2020-03-26 富士ゼロックス株式会社 情報処理装置及びプログラム
CN112839141A (zh) * 2019-11-25 2021-05-25 佳能株式会社 图像处理系统、图像处理方法和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095753A (ja) * 2014-11-17 2016-05-26 株式会社日立情報通信エンジニアリング 文字認識システム及び文字認識方法
JP2020046819A (ja) * 2018-09-18 2020-03-26 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7206729B2 (ja) 2018-09-18 2023-01-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN112839141A (zh) * 2019-11-25 2021-05-25 佳能株式会社 图像处理系统、图像处理方法和存储介质
US11797857B2 (en) 2019-11-25 2023-10-24 Canon Kabushiki Kaisha Image processing system, image processing method, and storage medium

Similar Documents

Publication Publication Date Title
JP5616308B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
JP5085349B2 (ja) 分散型微小セキュリティ・マークを埋め込むためのシステム及び方法
JP2008225764A (ja) 文字ノイズ除去装置、文字ノイズ除去方法、文字ノイズ除去プログラム
US10424039B2 (en) Digital watermarks
US7844080B2 (en) Image processing system and image processing method, and computer program
US8478035B2 (en) Method and apparatus for engaging functionality with a color tag
US10936837B1 (en) 2D barcode overlays
RU2758666C1 (ru) Способ и система защиты цифровой информации, отображаемой на экране электронных устройств, с помощью динамических цифровых меток
JP2004280334A (ja) 画像読み取り装置
JP2009200794A (ja) 文書の改竄検出プログラム及び改竄検出装置
US20110170133A1 (en) Image forming apparatus, method of forming image and method of authenticating document
JP2017521011A (ja) シンボルの光学的検出方法
JP2009027243A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
TWI222035B (en) Verifying results of automatic image recognition
US20100134851A1 (en) Image processing apparatus, method for performing image processing and computer readable medium
US7792324B2 (en) System and method for embedding miniature security marks
JP4958868B2 (ja) 文書特徴量抽出装置及び方法
CN111626244A (zh) 图像识别方法、装置、电子设备和介质
JP2014206836A (ja) バーコード位置検出装置
JP2005150837A (ja) 帳票処理装置
JP5277750B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
US8792714B2 (en) Detecting anti-aliased text in digital images
JP2015046001A (ja) 文字認識装置、文字認識システム、文字認識方法および文字認識プログラム
JP2008186256A (ja) 文書処理装置、文書処理方法、コンピュータプログラム