JP4958868B2

JP4958868B2 - 文書特徴量抽出装置及び方法

Info

Publication number: JP4958868B2
Application number: JP2008246170A
Authority: JP
Inventors: 由泰高橋; 隆亮山田; 篤史平尾
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2012-06-20
Anticipated expiration: 2028-09-25
Also published as: JP2010081214A

Description

本発明は、文書の改ざんの検知が可能な文書を作成及び文書の改ざんの検知を支援する技術に関する。

プリンタを用いて文書を印刷する前に文書の特徴を文書特徴量として抽出し、抽出した文書特徴量を電子透かし又はバーコード等を用いて紙面に埋め込む技術が知られている。一方、紙面の改ざんを検証する場合、紙面をスキャンすることによって、紙面に埋め込まれている電子透かしやバーコードから文書特徴量を読み取る。また、スキャンされた画像から、文書の文書特徴量を抽出する。そして、電子透かし又はバーコードから読み取った文書特徴量と、検証する紙面の文書から抽出された文書特徴量とを比較することによって、紙面の改ざん、偽造、変造等を検知する。

特許文献１に記載された技術では、まず、透かし画像形成部は、文書画像を参照して、機密情報に基づいて透かし画像を作成する。次に、所定のフィルタを用いて、所定のシンボルを識別可能なドットパターンを埋め込む埋め込み領域を文書画像から算出し、埋め込み領域に対する文字領域の割合が所定の閾値以下であるか否かを判定する。埋め込み領域に対する文字領域の割合が所定の閾値以下である場合、文字領域と重ならない埋め込み領域に、少なくとも一部の機密情報を含むシンボルを識別可能なドットパターン（シンボルユニット）を、所定の数埋め込む。

特許文献１に記載された技術は、文書画像を参照し、文字領域に重ならない領域に機密情報を埋め込むため、元の文書に関わらず、確実に機密情報を埋め込むことができるとしている。
米国特許出願公開第２００５／００１８８４５号明細書

前記したように、特許文献１に記載された技術では、埋め込み領域に対する文字領域の割合が所定の閾値以下であるか否かを判定し、埋め込み領域に対する文字領域の割合が所定の閾値以下である場合に処理を行うため、埋め込み領域に対する文字領域の割合が印刷後に変化しないことが要求される。しかし、家庭用インクジェットプリンタ等では、文書を印刷した場合にインクのにじみが発生し、埋め込み領域に対する文字領域の割合が大きくなる可能性がある。また、オフィス用のページプリンタでも、文書を印刷した場合にトナーの飛び散りが発生し、埋め込み領域に対する文字領域の割合が大きくなる可能性がある。

また、文書をスキャンする場合に、レンズ等の光学系によって発生するぼけの影響によって、埋め込み領域に対する文字領域の割合が変化する可能性がある。このため、印刷後の文書を再びスキャンし、紙面の改ざんを検知する場合、埋め込み領域に対する文字領域の割合が増大するため、改ざんされていない部分も改ざんであると検知されてしまう可能性があった。

また、文書をスキャンする場合に、２階調、６４階調、２５６階調などといった階調画像としてスキャンするが、その際の量子化誤差によって、スキャン画像が変化する。また、特に２階調の場合、階調の閾値を決定して、画素ごとに明るい画素と暗い画素とに分けるが、閾値をどの明るさにするかによって、暗い画素の数が変化する。その結果、埋め込み領域に対する文字領域の割合も変化するため、改ざんされていない部分も改ざんであると検知されてしまう可能性があった。

また、特許文献１に記載された技術では、埋め込み領域に対する文字領域の割合で改ざんを検知するため、例えば写真領域における濃度変化など、必ずしも改ざんと検出しなくても良い場合でも、改ざんと検出してしまう可能性があった。よって、印刷媒体が改ざんされた場合に、改ざんされた事実が確認できない課題がある。

前記事情を鑑みて、本発明は、文書における改ざんの誤認識を防ぐことを目的とする。

本発明は、印刷時及びスキャン時に発生するインクにじみ、トナーの飛び散り、及び光学系のぼけの影響や、写真領域における濃度変化など、必ずしも改ざんと検出しなくても良い場合には、改ざんされていると誤って認識する可能性が低いシステムを提供する。

具体的には、インクのにじみ及びトナーの飛び散りに対しあまり変化が大きくならないよう、文書を構成する画素の位置情報を加味した量を、文書の文書特徴量の一つとして用いる。画素の位置情報を加味することにより、インクのにじみ及びトナーの飛び散りが発生しても、文書の文書特徴量の変化があまり大きくなく、改ざんと区別することができる。これは、インクのにじみ及びトナーの飛び散りは、インクやトナーが本来印刷されるべき位置に依存して発生するため、文書のインクやトナーが本来印刷されるべき位置を加味することによって、インクのにじみ及びトナーの飛び散りが発生しても、あまり変化が大きくないような量を定義できる、という性質によっている。文書を構成する画素の位置情報を加味した量として、より具体的には、重心を用いることが可能である。

そして、本発明では、改ざん検出対象領域に対し複数の文書特徴量計算アルゴリズムを適用して複数の文書特徴量を算出する。また、改ざん検出対象領域に対し濃度変化等の画像処理を計算機上で行った後に、複数の文書特徴量計算アルゴリズムを適用して複数の文書特徴量を算出する。そして、画像処理前の文書特徴量と画像処理後の文書特徴量との距離を計算する。そして、許される処理（ぼかし、圧縮、濃度変化など）で文書特徴量があまり変化せず、許されない処理（切り取り、塗りつぶしなど）で文書特徴量が大きく変化した文書特徴量を選択するようにしている。
これにより、文書の領域ごとに適した文書特徴量を選択することができる。
詳細は、後記する。

本発明によれば、文書における改ざんの誤認識を防ぐことができる。より具体的には、インクのにじみ及びトナーの飛び散りが発生しても、改ざんと区別することが可能になり、また、写真領域や文書領域などが混在する文書においても、改ざん検出対象領域ごとに適した文書特徴量計算アルゴリズムを選択することが可能になる。

以下、本発明の実施の形態について、図面を参照して説明する。

図１Ａは、本発明の実施の形態の文書作成支援システム１０１の構成を示すブロック図である。

文書作成支援システム１０１は、文書の作成を支援するシステムであり、文書作成端末１０２、文書特徴量抽出装置１０３、透かしデータ作成装置１０６、地紋透かし埋込装置１０７、及び改ざん検出対象ＤＢ（Data Base）装置１０８を備える。文書作成端末１０２、文書特徴量抽出装置１０３、透かしデータ作成装置１０６、地紋透かし埋込装置１０７、及び改ざん検出対象ＤＢ装置１０８は、それぞれネットワーク１１０によって接続され、ネットワーク１１０を介して情報を送受信する。

文書作成端末１０２は、文書作成支援システム１０１を制御する端末であり、例えば、図２を用いて後記するような一般的な計算機によって実現することができる。

文書特徴量抽出装置１０３は文書特徴量を抽出する装置であり、例えば、図２を用いて後記するような一般的な計算機によって実現することができる。ここで文書特徴量とは、後記する文書特徴量抽出プログラム群のプログラムを用いて文書から作成される数値もしくはデータである。文書特徴量は、ある文書の文書特徴量と、その文書に改ざん等の変更を加えた文書、の文書特徴量とが、多くの場合異なるという性質を持つ。

文書特徴量抽出装置１０３は、文書特徴量抽出メインプログラム１０４、文書特徴量抽出プログラム群１２６（タイプ１文書特徴量抽出プログラム、タイプ２文書特徴量抽出プログラム、タイプ３文書特徴量抽出プログラム、・・・の総称）、文書特徴量比較プログラム群１２７（タイプ１文書特徴量比較プログラム、タイプ２文書特徴量比較プログラム、タイプ３文書特徴量比較プログラム、・・・の総称）、文書画像変換プログラム群１２８（タイプ１文書画像変換プログラム、タイプ２文書画像変換プログラム、タイプ３文書画像変換プログラム、・・・の総称）、文書特徴量タイプテーブル１２９、及び文書画像変換タイプテーブル１３０を含み、各プログラム（アルゴリズム）を実行することによって、文書特徴量抽出装置１０３の機能を実現することができる。

文書特徴量抽出メインプログラム１０４は、文書特徴量抽出装置１０３の機能を実現するためのメインプログラムである。なお、プログラムの詳細については、後記する。

文書特徴量抽出プログラム群１２６とは、入力された文書から文書特徴量を抽出するために実行されるプログラムであり、タイプ１文書特徴量抽出プログラムは重心利用タイプであり、タイプ２文書特徴量抽出プログラムは細線化重心利用タイプであり、タイプ３文書特徴量抽出プログラムは面積利用タイプであり、タイプ４文書特徴量抽出プログラムはラン数利用タイプである。
重心利用タイプのタイプ１文書特徴量抽出プログラムは、入力された文書から、画像の重心を用いて文書特徴量を抽出する。また、細線化重心利用タイプのタイプ２文書特徴量抽出プログラムは、入力された文書から、画像を細線化し、細線化された画像の重心を用いて文書特徴量を抽出する。また、面積利用タイプのタイプ３文書特徴量抽出プログラムは、入力された文書から、画像内の黒画素あるいは白画素の数を用いて文書特徴量を抽出する。また、ラン数利用タイプのタイプ４文書特徴量抽出プログラムは、入力された文書から、画像内のラン数を計算し、求められたラン数を用いて文書特徴量を抽出する。なお、これらプログラムの詳細については、後記する。

文書特徴量比較プログラム群１２７とは、文書特徴量タイプに対応する文書特徴量を比較し、差を計算するプログラムである。例えば、タイプ１文書特徴量比較プログラムは重心利用タイプであり、タイプ２文書特徴量比較プログラムは細線化重心利用タイプであり、タイプ３文書特徴量比較プログラムは面積利用タイプであり、タイプ４文書特徴量比較プログラムはラン数利用タイプである。なお、これらプログラムの詳細については、後記する。

文書画像変換プログラム群１２８とは、指定された文書画像に対し、文書画像変換タイプに対応する文書画像変換を施すプログラムである。例えば、タイプ１文書画像変換プログラムはぼかしタイプであり、タイプ２文書画像変換プログラムは輝度変化タイプであり、タイプ３文書画像変換プログラムは切り取りタイプであり、タイプ４文書画像変換プログラムは圧縮タイプである。なお、これらプログラムの詳細については、後記する。

文書特徴量タイプテーブル１２９は、文書特徴量のタイプと、各タイプの文書特徴量抽出プログラムとを対応付けて管理する。なお、文書特徴量タイプテーブル１２９は、図６を用いて後記する。

文書画像変換タイプテーブル１３０は、文書画像変換のタイプと、各タイプの文書画像変換プログラムとを対応付けて管理する。なお、文書画像変換タイプテーブル１３０は、図７を用いて後記する。

透かしデータ作成装置１０６は、透かしデータを作成する装置である。なお詳細については後記する。

地紋透かし埋込装置１０７は、後記する地紋透かしの技術を用いて、文書に情報（例えば、透かしデータ）を埋め込む（記録する）装置である。なお詳細については後記する。

改ざん検出対象ＤＢ装置１０８は、改ざん検出対象ＤＢ１０９を格納する。改ざん検出対象ＤＢ１０９は、改ざんを検出する対象となる領域が規定されるデータベースである。改ざん検出対象ＤＢ１０９に格納されるデータについては、図５Ａを用いて後記する。

なお、文書作成端末１０２、文書特徴量抽出装置１０３、透かしデータ作成装置１０６、地紋透かし埋込装置１０７、及び改ざん検出対象ＤＢ装置１０８は、それぞれ別装置として記載したが、任意の複数の装置が一つのハードウェアに実装されてもよい。

図２は、本発明の実施の形態の文書特徴量抽出装置１０３のハードウェアの構成を示すブロック図である。

文書特徴量抽出装置１０３は、ＣＰＵ２０１、メモリ２０２、インターフェース２０３、ネットワークインターフェース２０４、キーボード２０５、画面２０６、スキャナ２０７、プリンタ２０８、ハードディスク２０９、及び時計２１０を備える。

ＣＰＵ（プロセッサ）２０１は、中央処理装置（Central Processing Unit）であり、メモリ２０２に格納されているプログラム、又はハードディスク２０９からメモリ２０２に読み出されたプログラムを実行する。なお、プログラムは、必要に応じて、計算機が利用可能であり、着脱可能な記憶媒体によって導入されてもよい。この場合、前記記憶媒体を読み取るための装置をインターフェース２０３に接続する。なお、このような前記記憶媒体及びそれを読み取るための装置としては、光ディスクを用いるものが一般に知られており、これを用いることができる。また、プログラムは、必要に応じて、ネットワークインターフェース２０４によって、通信媒体（通信回線又は通信回線上の搬送波）を介して、計算機に導入されてもよい。メモリ２０２は、ＣＰＵ２０１に実行されるプログラム及びデータを一時的に格納する。インターフェース２０３は、文書特徴量抽出装置１０３内の各構成を接続するインターフェースである。ネットワークインターフェース２０４は、ネットワーク１１０を介して外部と通信するインターフェースである。キーボード２０５は、文書作成支援システム１０１への指示及びデータを入力するために、管理者が操作する入力装置である。画面２０６は、処理結果等を表示する装置である。スキャナ２０７は、印刷物等を光学的に読み取り、読み取った結果を画像として文書作成支援システム１０１内に入力する装置である。プリンタ２０８は、文書作成支援システム１０１の処理結果等を印刷媒体（例えば、紙面）に印刷する装置である。ハードディスク２０９は、プログラム及びデータを格納する装置であり、例えば、不揮発性メモリ等によって構成することができる。この場合、ハードディスク２０９に格納されたプログラム及びデータは、電源がＯＦＦとなった後にＯＮになった場合でも、保持される。時計２１０は、ＣＰＵ２０１が現在の時刻を検出する装置である。

なお、ハードディスク２０９には、予めオペレーティングシステムが導入されていても良い。このようにすることで、ファイル名を用いてプログラムを指定することなどができるようになる。ここで、オペレーティングシステムとは、計算機の基本ソフトウェアのことであり、一般に広く知られたオペレーティングシステムを用いることができる。

また、ネットワークインターフェース２０４、キーボード２０５、画面２０６、スキャナ２０７、プリンタ２０８、ハードディスク２０９、及び時計２１０は、それぞれ必要に応じて省略されてもよい。

また、文書作成端末１０２、透かしデータ作成装置１０６、地紋透かし埋込装置１０７、及び改ざん検出対象ＤＢ装置１０８も、図２に示すハードウェアの構成と同じ構成を備える。

次に、文書作成支援システムで実行される文書作成処理を、図３を用いて説明する。
図３は、本発明の実施の形態の文書作成処理のフローチャートである。図３に示される文書作成フローは、文書作成支援システム１０１に備わる各装置のメモリ２０２に格納されているプログラムをＣＰＵ２０１が実行することによって実行される。

まず、文書作成端末１０２は、文書作成者から、文書データ、及び改ざん検出対象領域レコード番号の入力を受け付ける（３０１）。文書データは、例えば、一般のワープロソフト及びテキストエディタ等、計算機上で動作可能なソフトウェアで作成されるデータである。また、改ざん検出対象領域レコード番号は、改ざん検出対象ＤＢ１０９に格納されているデータ（レコード）を識別する番号であり、改ざんを検出する対象となる領域が決定される。なお、文書作成端末１０２は、文書作成者に改ざん検出領域レコード番号の上限を、画面２０６などを用いて通知しても良い。この場合、文書作成端末１０２は、予め後記する改ざん検出対象ＤＢ装置１０８にアクセスして、改ざん検出対象ＤＢ１０９のエントリがいくつあるか把握しておく。なお、一般のデータベース装置において、エントリがいくつあるかを調査することはごく一般の操作であり、方法が広く知られている。本実施の形態ではこのような方法を用いることができる。

次に、文書作成端末は、ステップ３０１で受け付けた文書データ、及び改ざん検出対象領域レコード番号を文書特徴量抽出装置１０３に送信する（３０２）。

次に、文書特徴量抽出装置１０３は、ステップ３０２で受け付けた改ざん検出対象領域レコード番号に従って、ステップ３０２で受け付けた文書データから文書特徴量を抽出し、文書作成端末１０２に送信する（３０５）。なお、この処理は、具体的には文書特徴量抽出メインプログラム１０４を、文書特徴量抽出装置１０３のＣＰＵ２０１が実行することによって行われる。ステップ３０５の具体的な処理は、図４を用いて後記する。

次に、文書作成端末１０２は、ステップ３０５で送信された文書特徴量を透かしデータ作成装置１０６に送信する（３０６）。

次に、透かしデータ作成装置１０６は、ステップ３０６で送信された文書特徴量から透かしデータを作成し、作成された透かしデータを文書作成端末１０２に送信する（３０７）。透かしデータには、文書特徴量がそのまま用いられてもよい。また、一般的な暗号アルゴリズムにしたがって、暗号化された文書特徴量が用いられてもよい。また、一般的な電子署名アルゴリズムにしたがって、電子署名が付与された文書特徴量が用いられてもよい。また、タイムスタンプが付与された文書特徴量が用いられてもよい。

次に、文書作成端末１０２は、文書データ及びステップ３０７で作成された透かしデータを地紋透かし埋込装置１０７に送信する（３０８）。

次に、地紋透かし埋込装置１０７は、ステップ３０８で送信された透かしデータを文書データに埋め込むことによって、透かし入り文書データを作成し、作成された透かし入り文書データを文書作成端末１０２に送信する（３０９）。具体的には、まず、地紋透かし埋込装置１０７は、文書データを画像化する。文書データの画像化には、市販のワープロソフトから特定の仮想プリンタに印刷し、印刷された文書データがＰＤＦ（Portable Document Format）データに変換される公知技術、及び、ＰＤＦデータから画像データに変換する公知技術を用いることができる。
次に、画像化された文書データに透かしデータを埋め込む。画像化された文書データに透かしデータを埋め込む方法は、例えば、特開２００６−２７９６４０号公報に開示されている技術を用いることができる。特開２００６−２７９６４０号公報に開示された情報埋め込み装置２０１に、埋め込み情報として透かしデータを入力し、画像化された文書データを文書画像として入力する。そして、特開２００６−２７９６４０号公報の図２に示す情報埋め込み装置２０１の情報点群決定処理部２２５は、文書画像２１２に埋め込み情報２１１を埋め込んでいるため、埋め込み情報２１１が埋め込まれた文書画像２１２をハードディスク等に出力することによって、透かし入り文書データである画像が作成される。

次に、ステップ３１０では、文書作成端末１０２は、ステップ３０９で作成された透かし入り文書データを表示し、文書作成者の要求に応じて、透かし入り文書データを印刷又は送信する。本実施の形態では、透かし入り文書データは画像であるため、従来技術を用いて画像を表示することが可能であり、文書作成者の要求に応じて印刷又は送信することが可能である。

なお、ステップ３０１では、文書作成端末１０２は、文書データを直接受け付けているが、文書データを識別する識別子を受け付けてもよい。この場合、受け付けた識別子に基づいて、文書データが読み出される。読み出される文書データは、例えば、文書作成端末１０２に備わるハードディスク２０９及び文書作成端末１０２に接続されるハードディスク２０９等に格納されてもよい。ここで、文書データを識別する識別子の例としては、例えばファイル名などが挙げられる。

また、ステップ３０５では、文書特徴量抽出装置１０３は、抽出された文書特徴量を文書作成端末１０２に送信しているが、抽出された文書特徴量を透かしデータ作成装置１０６に送信してもよい。この場合、処理はステップ３０６を省略し、ステップ３０７に進む。

また、ステップ３０７では、透かしデータ作成装置１０６は、作成された透かしデータを文書作成端末１０２に送信しているが、作成された透かしデータを地紋透かし埋込装置１０７に送信してもよい。この場合、処理はステップ３０８を省略し、ステップ３０９に進む。

図４Ａおよび図４Ｂは文書特徴量抽出メインプログラムの処理フローを示す図である。これは、本発明の実施の形態の文書特徴量抽出処理のフローチャートであり、図３のステップ３０５で実行される処理の説明を示す。なお、説明の便宜上、図４Ａおよび図４Ｂをまとめて「図４」と称する場合がある。

まず、文書特徴量抽出装置１０３は、文書作成端末１０２から文書データ、及び改ざん検出対象領域レコード番号を受信する（２１０１）。

次に、文書特徴量抽出装置１０３は、改ざん検出対象ＤＢ装置１０８に改ざん検出対象領域レコード番号を送信し、改ざん検出対象ＤＢ１０９から改ざん検出対象領域レコード６００を取得する（２１０２）。

ここで、改ざん検出対象ＤＢ１０９に格納されるレコード（改ざん検出対象領域レコード６００）の例を図５Ａに示す。改ざん検出対象領域レコード６００には、文書データから文書特徴量を抽出する領域が規定されている。図５Ａに示す例は、改ざん検出対象ＤＢ１０９に格納されている改ざん検出対象領域レコード番号３の内容が示されている。他のレコード番号には異なる内容のレコードが格納されており、改ざんを検出する対象の領域（改ざん検出対象領域）を適宜変更することが可能である。図５Ａに示す改ざん検出対象領域レコード６００は、改ざん検出対象領域ＩＤ（Identification）７０１、始点７０２、及び終点７０３を含む。なお、改ざん検出対象領域レコード６００の１行分のデータを一つのエントリとする。改ざん検出対象領域ＩＤ７０１は、改ざん検出対象領域を識別する識別子である。始点７０２は、領域の始点を指定する座標である。終点７０３は、領域の終点を指定する座標である。なお、座標は文書に対して付与されており、左上を（０、０）とし、ｘ軸方向が右、ｙ軸方向が下の座標であり、単位は例えば画素、ｃｍや、非ＳＩ単位ではあるがインチなどを用いることができる。

図５Ｂに示す例は、図５Ａに示す改ざん検出対象領域レコード６００によって特定される改ざん検出対象領域であり、領域７０４、領域７０５、領域７０６、及び領域７０７を含む。図５Ｂに示す領域７０４は、改ざん検出対象領域ＩＤ７０１が「１」である領域に対応する。すなわち、領域７０４は、始点７０２が（２、３）であり、終点７０３が（８、６）である領域を示す。以下、同様に、図５Ｂに示す領域７０５は、改ざん検出対象領域ＩＤ７０１が「２」である領域に対応し、図５Ｂに示す領域７０６は、改ざん検出対象領域ＩＤ７０１が「３」である領域に対応し、図５Ｂに示す領域７０７は、改ざん検出対象領域ＩＤ７０１が「１０」である領域に対応する。
このように、ステップ２１０２では、改ざん検出対象ＤＢ１０９から、指定されたレコードを取得することによって、改ざん検出対象領域が決定される。

なお、図５Ｂでは領域７０４と領域７０５と領域７０６が重複した領域を持った例を示している。このようにすることで、より文書の改ざんを成功しにくくすることができる。これは、例えばある改ざん検出対象領域に対し、攻撃者が改ざんを試みる場合、例えば改ざん対象の領域が１つの改ざん検出対象領域のみに含まれていたとすると、攻撃者はその改ざん検出対象領域の文書特徴量だけを保存するように改ざんすれば、改ざんが発覚する恐れが小さくなる。しかし、攻撃者が改ざんしようとする領域が複数の改ざん検出対象領域に含まれている場合、攻撃者は複数の改ざん検出対象領域の文書特徴量を保存するように改ざんを行う必要があり、より難しくなるからである。

次に、文書特徴量抽出装置１０３は、未処理の改ざん検出対象領域があるか否かを判定し、その領域がある場合（２１０３でＹｅｓ）、改ざん検出対象領域レコード内の各エントリについて、ステップ２１０４からステップ２１１８までの処理を繰り返し、その領域がない場合（２１０３でＮｏ）、ステップ２１１９に進む（２１０３）。

未処理の改ざん検出対象領域がある場合、文書特徴量抽出装置１０３は、改ざん検出対象領域レコードから未処理改ざん検出対象領域の一つのエントリを処理対象として選択し、改ざん検出対象領域ＩＤ、始点、終点を取得する（２１０４）。

次に、文書特徴量抽出装置１０３は、文書データから、始点と終点が規定する矩形領域の画像を作成し、処理対象画像として保存する（２１０５）。なお、処理対象画像を生成する処理は、前記したように、文書データから画像を取得する公知技術を用いることができる。例えば、予め文書データ全体の画像を生成し、生成された画像から、改ざん検出対象領域に対応する矩形領域の画像を切り出すことによって、処理対象画像を生成することができる。

次に、文書特徴量変化ＤＢを初期化する（２１０６）。なお、文書特徴量変化ＤＢの詳細については、図８を用いて後記する。この文書特徴量変化ＤＢは、例えば、文書特徴量抽出装置１０３のメモリ２０２に記憶されている。

次に、文書特徴量抽出装置１０３は、文書特徴量タイプテーブル１２９内の各文書特徴量について、以下ステップ２１０８からステップ２１１７までの処理を行う（２１０７）。その文書特徴量の文書特徴量タイプがあれば（２１０７で「要素あり」）、ステップ２１０８に進む。各文書特徴量に対する処理が一通り済めば（２１０７で「繰り返し後」）、処理する文書特徴量タイプがないということでステップ２１１８へ進む。

次に、文書特徴量抽出装置１０３は、文書特徴量タイプを用いて文書特徴量タイプテーブルから文書特徴量抽出プログラムと文書特徴量比較プログラムを取得する（２１０８）。

ここで、文書特徴量タイプについて、図６を用いて説明する。図６は、本発明の実施の形態の文書特徴量タイプテーブル１２９の説明図である。文書特徴量タイプテーブル１２９は、例えば図６に示すようなテーブルであり、文書特徴量タイプフィールド４０１、説明フィールド４０２、文書特徴量抽出プログラムフィールド名４０３、文書特徴量比較プログラム名フィールド４０４を含んでいる。文書特徴量タイプフィールド４０１に示されている文書特徴量タイプは、文書特徴量を抽出するタイプを識別する識別子であり、例えば、図６に示すように番号を用いることができる。説明フィールド４０２は、文書特徴量タイプの内容であり、例えば、重心利用タイプ、細線化重心利用タイプ、面積利用タイプ、及びラン数利用タイプである。なお、図６に示されている以外の文書特徴量タイプがあってもよい。文書特徴量抽出プログラム名フィールド４０３は、文書特徴量タイプに対応する文書特徴量抽出プログラム名を示している。文書特徴量比較プログラム名フィールド４０４は、文書特徴量タイプに対応する文書特徴量比較プログラム名を示している。よって、文書特徴量タイプテーブル１２９を参照することにより、文書特徴量タイプから文書特徴量抽出プログラム名と文書特徴量比較プログラム名を参照できる。なお、説明フィールド４０２は省略することもできる。なお、プログラム名を参照するときは、そのプログラムを格納されているディレクトリを特定し、ＣＰＵ２０１は特定されたディレクトリに格納されたプログラムを実行する。

次に、文書特徴量抽出装置１０３は、文書特徴量抽出プログラム名を用いて文書特徴量抽出プログラムを起動し、処理対象画像の文書特徴量を処理対象画像文書特徴量として抽出する（２１０９）。なお、文書特徴量抽出プログラムの動作の詳細については、後記する。

次に、文書特徴量抽出装置１０３は、文書特徴量変化評価点に０を代入する（２１１０）。ここで、文書特徴量変化評価点とは、文書特徴量抽出装置１０３のメモリ２０２上に置かれる変数である。

次に、文書特徴量抽出装置１０３は、文書画像変換タイプテーブル１３０内の各文書画像変換タイプについて、以下ステップ２１１２からステップ２１１６までの処理を行う（２１１１）。その文書画像変換タイプがあれば（２１１１で「要素あり」）、ステップ２１１２に進む。各文書画像変換タイプに対する処理が一通り済めば（２１１１で「繰り返し後」）、処理する文書画像変換タイプがないということでステップ２１１７へ進む。

ここで、文書画像変換タイプテーブル１３０とは、例えば図７に示すようなテーブルであり、文書画像変換タイプフィールド２３０１、説明フィールド２３０２、文書画像変換プログラム名フィールド２３０３、文書画像変換評価関数フィールド２３０４を含んでいる。なお、説明フィールド２３０２は省略することもできる。文書画像変換タイプテーブル１３０を参照することにより、文書画像変換タイプから文書画像変換プログラム名や文書画像変換評価関数を参照できる。

次に、文書特徴量抽出装置１０３は、文書画像変換タイプを用いて文書画像変換タイプテーブル１３０から文書画像変換プログラム名と文書画像変換評価関数を取得する（２１１２）。

次に、文書特徴量抽出装置１０３は、文書画像変換プログラム名を用いて文書画像変換プログラムを起動し、処理対象画像の変換画像を制作する（２１１３）。
なお、文書画像変換プログラムの動作の詳細については、後記する。

次に、文書特徴量抽出装置１０３は、文書特徴量抽出プログラムを起動し、変換画像の文書特徴量を抽出する（２１１４）。

次に、文書特徴量抽出装置１０３は、文書特徴量比較プログラムを起動し、処理対象画像文書特徴量と、変化画像文書特徴量との差である文書特徴量差を計算する（２１１５）。
なお、文書特徴量比較プログラムの動作の詳細については、後記する。

次に、文書特徴量抽出装置１０３は、文書特徴量差を文書画像変換評価関数（単に、「評価関数」と称する場合がある。）に代入し（あてはめて）、得られた（算出した）数値を文書特徴量変化評価点に足しこみ、ステップ２１１１に戻る（２１１６）。

なお、文書画像変換評価関数は、例えば図７の２３０４に示すような関数である。例えば、文書画像変換タイプ１のぼかし処理の場合、通常、改ざんとは考えられない処理である。むしろ、印刷時のインクのにじみや、あるいはスキャン時のぼけの結果として、画像がぼけることの方が多いと考えられ、この文書画像変換はそのようなぼけを模式的に行う想定のものである。よって、この文書画像変換に対しては、文書特徴量は変化しないほうが好ましい。よって、例えば１００ｅｘｐ（−ｘ×ｘ）のように、ｘ（文書特徴量差）が０に近いほうが、値が大きくなるような関数が適している。
また、輝度変化についても、印刷時とスキャン時の光学系の違い等によるものであって、通常、改ざんとは考えられない。よって、例えば１００ｅｘｐ（−ｘ×ｘ）のように、ｘ（文書特徴量差）が０に近いほうが、値が大きくなるような関数が適している。
一方、文書画像変換タイプ３の切り取り処理の場合、改ざんと考えた方が良い処理である。よって、この文書画像変換に対しては、文書特徴量は変化したほうが好ましい。よって、例えば−１００＜ｘ＜１００のとき｜ｘ｜、そうでないときは１００、のように、ｘ（文書特徴量差）が０に近いと値が小さくなり、ｘが大きくなると値も大きくなるような関数が適している。
最終的に選択する文書特徴量を適切なものとするには、文書画像変換タイプテーブル１３０には、改ざんとは考えられない（改ざんに相当する変換には及ばない程度の変換の）処理を実行する文書画像変換プログラムと、改ざんと考えた方が良い（改ざんに相当する変換と同程度の変換の）処理を実行する文書画像変換プログラムとが含まれていることが好ましい。

各文書画像変換タイプに対する処理が終わると（２１１１で「繰り返し後」）、文書特徴量抽出装置１０３は、処理対象画像文書特徴量と文書特徴量変化評価点を文書特徴量変化ＤＢに登録し、一つの文書特徴量に関する処理を終わり、ステップ２１０７に戻る（２１１７）。

ここで、図８を用いて文書特徴量変化ＤＢを説明する。図８は、本発明の実施の形態の文書特徴量変化ＤＢの例の説明図である。

この図において、符号２２０１は文書特徴量タイプフィールド、符号２２０２は文書特徴量フィールド、符号２２０３は文書特徴量変化評価点フィールドであり、符号２２０４〜符号２２０７はエントリである。図８では、文書特徴量タイプ１、２、３、４について、処理対象画像文書特徴量と文書特徴量変化評価点（単に、「評価点」と称する場合がある。）が登録された場面を例示している。エントリ２２０４はタイプ１の文書特徴量を用いてステップ２１０８からステップ２１１７までの処理を行った結果の一例を示すエントリである。エントリ２２０５、エントリ２２０６、エントリ２２０７はそれぞれタイプ２、タイプ３、タイプ４の文書特徴量を用いてステップ２１０８からステップ２１１７までの処理を行った結果の一例を示すエントリである。
なお、文書特徴量変化評価点フィールド２２０３に登録された評価点は、文書特徴量差を評価関数に入力して得られる値であり、さらに言えば、各文書画像変換タイプに対応する評価関数に入力して得られた値の合計値である。この合計値は、指定した改ざん検出対象領域における文書特徴量の性能を示した値といえる。

そして、各文書特徴量に対する処理が終わると（２１０７で「繰り返し後」）、文書特徴量抽出装置１０３は、文書特徴量変化ＤＢに登録されている処理対象画像文書特徴量のうち、文書特徴量変化評価点が最大のものを選択し、改ざん検出対象領域ＩＤ、文書特徴量タイプ、処理対象画像文書特徴量を文書特徴量リストに登録する（２１１８）。図８の例では、タイプ４の文書特徴量変化評価点が８６０と一番高くなっており、文書特徴量タイプ４を選択することになり、改ざん検出対象領域ＩＤとともに文書特徴量タイプ４の文書特徴量を文書特徴量リストに登録することになる。
なお、ここで、文書特徴量変化評価点が最大のものを選択することに代えて、文書特徴量変化評価点が予め定められた閾値を超えた文書特徴量の中から、乱数で一つの文書特徴量を定めても良い。このようにすることで、適用されている文書特徴量が攻撃者に分かりにくくなるという効果が得られ、より改ざんされにくい文書を作ることが可能となる。なお、このとき、予め定められた閾値を超えた文書特徴量がなかった場合、文書特徴量変化評価点が最大のものを選択する。

文書特徴量リストは、改ざん検出対象領域ＩＤごとに、選択された文書特徴量タイプと処理対象画像文書特徴量が記録されたリストである。その一例を図９に示す。文書特徴量リストには、改ざん検出対象領域ＩＤフィールド２９０１、文書特徴量タイプフィールド２９０２、処理対象画像文書特徴量フィールド２９０３があり、図９の例では、２９０４から２９０７まで４つのエントリが存在する。エントリ２９０４は、改ざん検出対象領域ＩＤ１に関するエントリであり、文書特徴量タイプとして３、すなわちタイプ３文書特徴量である面積利用タイプの文書特徴量が選ばれており、その処理対象画像文書特徴量が記録されている。

最後に、文書特徴量抽出装置１０３は、文書特徴量リストから文書特徴量を生成する（２１１９）。文書特徴量生成処理は、図１０のように行われる。まず、改ざん検出対象領域レコード番号を計算機内部表現で表現する。図１０の例ではその番号が３なので（（ａ）参照）、０００３となる（（ｂ）参照））。次に、処理対象画像文書特徴量の数を計算機内部表現で表現する。図１０の例ではその数が４なので（（ａ）参照））、０００４である（（ｂ）参照））。次に文書特徴量リストを計算機内部表現で表現する（（ｂ）参照））。図１０の例では文書特徴量リストとして図９に示すものを使っている（（ａ）参照））。
まず、エントリ２９０４では、改ざん検出対象領域ＩＤが１なので、０００１となる。次に処理対象画像文書特徴量のバイト数が６なので、０６となる。次に処理対象画像文書特徴量０００３００・・・が来る。これを文書特徴量リストの全てのエントリについて繰り返し、最後にエンドマークとしてＦＦＦＦを置いておく。文書特徴量は、図１０に示すように、上記をつなげたものである（（ｃ）参照））。

以上、図４に関する説明を終わる。次に、文書特徴量抽出プログラム群１２６について説明する。

図１１は、本発明の実施の形態の、タイプ１文書特徴量（重心利用タイプ）抽出プログラムの処理のフローチャートであり、図４のステップ２１０９や、ステップ２１１４で実行される処理（文書特徴量抽出プログラムによる処理）の説明を示す。文書特徴量抽出処理では、入力として処理対象画像を受け取り、出力として文書特徴量を出力する。

まず、タイプ１文書特徴量抽出プログラムは、処理対象画像の重心を計算する（６０４）。重心の計算方法について、図１２を用いて説明する。図１２は、本発明の実施の形態の重心の計算例を示す説明図である。ここで、画素８０１は文書中の黒画素であり、座標が（１、９）である。また、画素８０２は文書中の黒画素であり、座標が（２、１）である。また、画素８０３は文書中の黒画素であり、座標が（６、８）である。また、画素８０４は、文書中の黒画素であり、座標が（７、２）である。ここで、文書中の黒画素とは、文書中の文字及び絵を構成する画素である。図１２に示す例では、文書中の文字及び絵を構成する画素として、黒画素と表現しているが、赤い画素のように色が付いた画素であってもよい。

図１２に示すように、黒画素が四つ存在する場合、重心のｘ座標は、計算対象となる黒画素のｘ座標の総和を、計算対象となる黒画素の数で除算した結果である。図１２に示す例では、重心のｘ座標は４である。また、重心のｙ座標は、計算対象となる黒画素のｙ座標の総和を、計算対象となる黒画素の数で除算した結果である。図１２に示す例では、重心のｙ座標は５である。よって、重心の座標は（４、５）である。図１２に示す例では、重心の座標が整数であるが、重心の座標が小数であってもよい。この場合、計算機で表現可能な浮動小数点数表現を用いて、計算結果の数を近似して表現する。
なお、ステップ６０４では、処理対象画像中の全ての黒画素に基づいて重心を計算しているが、文書中の黒画素のうち、黒画素以外の画素と接している画素のみを計算対象として重心を計算してもよい。これによって、にじみの影響をより少なくすることができる。

次に、タイプ１文書特徴量抽出プログラムは、計算された重心から文書特徴量を生成する（６０５）。文書特徴量の生成は、図１３に示すように行われる。まず、重心利用タイプは、計算機内部の表現（１６進数）で表すと、０００１となる（（ｂ）参照）。また、計算された重心（図１３の例では（４、５）（（ａ）参照））を計算機内部の表現（１６進数）で表すと、４０８０００００と４０Ａ０００００となる（（ｂ）参照）。これらを繋げた０００１４０８０００００４０Ａ０００００が文書特徴量となる（（ｃ）参照）。
なお、本例では重心を１６進数８桁（３２ビット）で表現しているが、他のビット長で表現しても良い。また、たとえば、固定小数点表現や、有理数表現（分子と分母の二つの整数で表現）などの他の表現形式で表現しても良い。これらの表現ごとに、重心利用タイプの表現を変更することで、使い分けることも可能である。

なお、重心を文書特徴量として用いると、ぼけやにじみの影響を受けにくいという利点がある。図１４Ａ及び図１４Ｂは、本発明の実施の形態のタイプ１文書特徴量（重心利用タイプ）の例を示す説明図であり、文字「４」の重心を示す。図１４Ａに示す例では、計算機内での文字を模式的に表現しており、重心９０１は、文字「４」の重心である。図１４Ｂに示す例では、印刷された文書がスキャンされた後の文字を模式的に表現しており、文字「４」がにじんでいることを示す。しかし、重心９０２で表現される文字「４」の重心は、図１４Ａの重心９０１と比較して、大きく変化していないことを示す。これは、文書特徴量に重心を用いることによって実現することができる。

最後にタイプ１文書特徴量抽出プログラムは、文書特徴量を返す（６０６）。これは、例えば文書特徴量抽出装置１０３のハードディスク２０９に、あらかじめ決められた（タイプ１文書特徴量抽出プログラム内にハードコーディングされた）ファイル名にて結果をセーブしても良いし、文書特徴量抽出メインプログラム１０４から指定されたファイル名にて結果をセーブしても良いし、文書特徴量抽出メインプログラム１０４から指定されたメモリ領域に書き込んでも良い。なお、文書特徴量抽出メインプログラム１０４からファイル名を指定する場合、文書特徴量抽出メインプログラム１０４はタイプ１文書特徴量抽出プログラムを起動する際に、ファイル名を指定しても良い。また、文書特徴量抽出メインプログラム１０４からメモリ領域を指定する場合、文書特徴量抽出メインプログラム１０４はタイプ１文書特徴量抽出プログラムを起動する際に、メモリ領域を指定しても良い。

図１５は、本発明の実施の形態の、タイプ２文書特徴量（細線化重心利用タイプ）抽出プログラムの処理のフローチャートであり、図４のステップ２１０９や、ステップ２１１４で実行される処理（文書特徴量抽出プログラムによる処理）の説明を示す。文書特徴量抽出処理では、入力として処理対象画像を受け取り、出力として文書特徴量を出力する。

タイプ２文書特徴量抽出プログラムの処理は、タイプ１文書特徴量抽出プログラムの処理（図１１参照）と比較すると、ステップ２５０１において、処理対象画像を細線化する点と、ステップ２５０３における文書特徴量生成において、重心利用タイプを表す０００１の代わりに、細線化重心利用タイプを表す０００２を用いる点が異なる。他の処理はタイプ１文書特徴量抽出プログラムの処理と同様であり、またステップ２５０３の変更は重心利用タイプを表す０００１の代わりに、細線化重心利用タイプを表す０００２を用いるだけであるので、これらについては説明を省略する。また、ステップ２５０１の処理では、タイプ２文書特徴量抽出プログラムは、画像の細線化を行うが、画像の細線化処理は、例えば、C.J.Hilditchによる“Linear skelton from square cupboards,”Machine Intelligence, 4, B, Edinbourgh Univ. Press, 1967, pp. 403-420.に開示されているHilditchの方式を用いて実現することができる。

図１６は、本発明の実施の形態の、タイプ３文書特徴量（面積利用タイプ）抽出プログラムの処理のフローチャートであり、図４のステップ２１０９や、ステップ２１１４で実行される処理（文書特徴量抽出プログラムによる処理）の説明を示す。文書特徴量抽出処理では、入力として処理対象画像を受け取り、出力として文書特徴量を出力する。

タイプ３文書特徴量抽出プログラムの処理では、まず、処理対象画像中の黒画素の面積を計算する（２６０１）。黒画素の面積計算に当たっては、処理対象画像中の各画素の輝度を計算し、輝度５０％と比較して暗い画素の数を数えれば良い。ここで、各画素の輝度は、白黒のグレー画像であれば、各画素の値を、取りうる最大の値で除することによって計算できる。例えば８ビットグレー画像であれば、最低輝度が値０、最高輝度が値２５５で表されるため、画素の値を２５５で割ることによって、輝度を計算できる。なお、最低輝度が値２５５、最高輝度が値０で表されている場合は、値を２５５で割った後、１００％から減算すれば良い。また、２４ビットＲＧＢカラー画像であれば、各画素のRGBの値から、輝度Yは、下式のようにして計算できる。

なお、上記では輝度５０％と比較して黒画素を決定し、その数を数えていたが、処理対象画像中の輝度を反転した数値の総和をとっても良い。こうすることによって、文書印刷時と文書検証時で、輝度５０％付近の画素が白から黒、あるいは黒から白に反転するということがなくなり、輝度５０％付近の画素の安定性が増すという効果が得られる。また、この場合、さらに文書印刷時に最大輝度と最小輝度とを用いて輝度の値を正規化しておいても良い。このようにしておき、文書検証時にもスキャン画像の最大輝度と最小輝度を用いて輝度の値を正規化することによって、文書印刷時と文書検証時とで、改ざんされていない場合の特徴量変化をより小さくすることができ、安定した文書検証が可能となる。

次に、面積から文書特徴量を生成する（２６０２）。面積からの文書特徴量の生成は、図１７の例のように行われる。面積利用タイプの計算機内部表現は０００３（１６進数）と表される。これと、面積を計算機内部表現で表現した値と連続させたものが文書特徴量となる。例えば図１７の場合、面積が３４５であり（（ａ）参照）、この計算機内部表現が４３ＡＣ８０００なので（（ｂ）参照）、文書特徴量は０００３４３ＡＣ８０００である（（ｃ）参照）。
なお、図１７の例では面積の計算機内部表現として、３２ビットの浮動小数点表現を用いたが、重心利用タイプ文書特徴量の説明のところで触れたように、他の計算機内部表現を用いても良い。
また、タイプ４文書特徴量（ラン数利用タイプ）抽出処理は、大田らによる「漢字パターン列の特徴パラメータによる検索」電子情報通信学会論文誌Ｖｏｌ．Ｊ６４−Ｄ、Ｎｏ．１１、ｐｐ．９９７−１００４、に開示されている方式で実行できる。

以上、文書特徴量抽出プログラム群１２６についての説明を終わる。次に、文書画像変換プログラム群１２８について説明する。

図１８は、本発明の実施の形態の、タイプ１文書画像変換プログラムの処理フローである。タイプ１文書画像変換は、画像をぼかす処理である。これは、平滑化処理（３１０１）によって実現できる。具体的には、元画像の座標(i、j)における画素値をf(i、j)、変換画像の座標(i、j)における画素値をg(i、j)とすると、下の式に示すような式で実行できる。

ただし、f(-1、0)など存在しない座標の画素値は0としてよいし、f(0、0)など、存在する近くの座標の画素値としても良い。

また、重み付け行列Wは、例えば以下のような行列を用いることができる。

また、24ビットRGBカラー画像のように、画像を構成するプレーンが複数枚ある場合、プレーンごとに上式を実行する。

次に、平滑化された処理後の画像を返す（３１０２）。

図１９は、本発明の実施の形態の、タイプ２文書画像変換プログラムの処理フローである。これは、輝度を変換する処理である（３２０１）。これは、「東京大学出版会新編画像解析ハンドブック」ｐ．５７２−５７７で述べられているような、ガンマの値を変更することで実行される。

次に、輝度が変換された処理後の画像を返す（３２０２）。

図２０は、本発明の実施の形態の、タイプ３文書画像変換プログラムの処理のフローチャートであり、図４のステップ２１１３で実行される処理（文書画像変換プログラムによる処理）の説明を示す。文書画像変換処理では、入力として処理対象画像を受け取り、出力として変換画像を出力する。

タイプ３文書画像変換処理では、文書画像を一部切り取り、別の部分と交換する。まず、対象領域１を決定する（３１０１）。ここでは、例えば乱数で対象領域の開始部分や大きさを決定する。他には、例えば対象領域のｘ座標ｙ座標それぞれ４／１０の位置から、６／１０の位置までを対象領域とするなど、定数を用いることもできる。このとき定数は、ハードディスクにteisu.txtなど決まったファイル名で書き込んでおくこともでき、このようにすると後から定数を変更することも可能である。

次に、対象領域２を決定する（３１０２）。対象領域２は、対象領域１と大きさは同一である必要がある。開始位置は、例えば乱数で決めても良いし、対象領域１同様、定数で決めても良い。

次に、対象領域１と対象領域２の画像を交換する（３１０３）。具体的には、対象領域１に含まれる画素の値と対象領域２に含まれる画素の値とを交換する。これは、対象領域１と同じ大きさの画像ｘと画像ｙを新たに作成し、対象領域１に含まれる画素の値を画像ｘにコピーし、対象領域２に含まれる画素の値を画像ｙにコピーし、画像ｘの画素の値を対象領域２に含まれる画素にコピーし、画像ｙの画素の値を対象領域１に含まれる画素にコピーすれば良い。

最後に、処理後の画像を返す（３１０４）。返し方は、予め決められたファイル名でハードディスクにセーブしても良いし、予め決められたメモリに書き込んでも良い。

また、タイプ４文書画像変換プログラムの処理は圧縮処理であり、ＪＰＥＧ圧縮など一般に広く知られている圧縮法で実行できる。

なお、上記文書画像変換プログラムは、入力パラメータを持たすことができる。例えばタイプ１文書画像変換プログラムに関しては、重み付け行列の個々のパラメータであり、タイプ２文書画像変換プログラムに関しては、ガンマの変換割合であり、タイプ３文書画像変換プログラムに関しては、入れ替える画像の大きさであり、タイプ４文書画像変換プログラムに関しては、圧縮の度合いである。これら入力パラメータを、文書画像変換評価関数２３０４の入力としても良い。このようにすると、例えばタイプ３文書画像変換プログラムに関して、ガンマの変換割合が小さいときや大きいときで評価を変更することができるようになる。
以上、文書画像変換プログラム群１２８について説明した。次に、文書特徴量比較プログラム群１２７について説明する。

図２１は、本発明の実施の形態の、タイプ１文書特徴量（重心利用タイプ）比較プログラムの処理のフローチャートであり、図４のステップ２１１５で実行される処理（文書特徴量比較プログラムによる処理）の説明を示す。文書特徴量比較処理では、入力として二つの文書特徴量を受け取り、出力としてその差を出力する。

まず、文書特徴量Ａに含まれる重心と、文書特徴量Ｂに含まれる重心との距離（重心距離）を算出する（１７０１）。ここで、算出される距離は、例えば、ユークリッド距離であり、文書特徴量Ａに含まれる重心を（ｘ０、ｙ０）、文書特徴量Ｂに含まれる重心を（ｘ１、ｙ１）とする場合、距離ｄ＝ｓｑｒｔ（（ｘ１−ｘ０）×（ｘ１−ｘ０）＋（ｙ１−ｙ０）×（ｙ１−ｙ０））によって距離が算出される。ここで、ｓｑｒｔ（ｘ）は、ｘの二乗根である。また、距離ｄは、ｄ＝｜ｘ１−ｘ０｜＋｜ｙ１−ｙ０｜によって算出されてもよい。ここで、｜ｘ｜はｘの絶対値である。

次に、ステップ１７０１で算出された距離を定数Ｎ１で除算し、定数Ｎ２を乗算することによって算出された距離を標準化する（１７０２）。Ｎ１及びＮ２は、文書特徴量Ａに含まれる重心と、文書特徴量Ｂに含まれる重心との差を、所定の値（例えば、１００）に標準化するために設定される定数であり、例えば、Ｎ１＝２及びＮ２＝１００に設定することができる。

次に、標準化した距離を結果として返す（１７０３）。

タイプ２文書特徴量（細線化重心利用タイプ）比較プログラムの処理は、タイプ１文書特徴量（重心利用タイプ）比較プログラムの処理と同一のものを用いることができるので、説明は省略する。

図２２は、タイプ３文書特徴量（面積利用タイプ）比較プログラムの処理のフローチャートであり、図４のステップ２１１５で実行される処理（文書特徴量比較プログラムによる処理）の説明を示す。文書特徴量比較処理では、入力として二つの文書特徴量を受け取り、出力としてその差を出力する。

まず、文書特徴量Ａに含まれる面積と、文書特徴量Ｂに含まれる面積の差である面積差を算出する（２８０１）。ここで、算出される面積差ｄは、例えば、ｄ＝｜ｘ１−ｘ０｜によって算出されてもよい。ここで、｜ｘ｜はｘの絶対値である。

次に、ステップ２８０１で算出された面積差を定数Ｎ３で除算し、定数Ｎ４を乗算することによって算出された面積差を標準化する（２８０２）。Ｎ３及びＮ４は、文書特徴量Ａに含まれる面積と、文書特徴量Ｂに含まれる面積との差を、所定の値（例えば、１００）に標準化するために設定される定数であり、例えば、Ｎ３＝５及びＮ４＝１００に設定することができる。

次に、標準化した面積差を結果として返す（２８０３）。
以上、本実施の形態の文書作成支援システム１０１について説明した。本実施の形態の文書作成支援システム１０１を用いることによって、文書作成端末１０２の操作者（文書作成者）は、文書特徴量が地紋透かしによって埋め込まれた文書を取得することができる。しかし、取得した文書が流通する間に改ざんされる危険が存在する。そこで、次に、文書が流通する間に改ざんが行われたかどうかを検証する文書検証システム１１１について説明する。

図１Ｂは、本発明の実施の形態の文書検証システム１１１の構成を示すブロック図である。

文書検証システム１１１は、文書の改ざんを検証するシステムであり、文書検証端末１１２、地紋透かし読取装置１１３、文書画像修正装置１１４、改ざん検出装置１１５、及び改ざん検出対象ＤＢ装置１０８を備える。文書検証端末１１２、地紋透かし読取装置１１３、文書画像修正装置１１４、改ざん検出装置１１５、及び改ざん検出対象ＤＢ装置１０８は、それぞれネットワーク１１８によって接続され、ネットワーク１１８を介して情報を送受信する。

文書検証端末１１２は、文書検証システム１１１を制御する端末であり、例えば、図２に示すような一般的な計算機によって実現することができる。

地紋透かし読取装置１１３は、印刷された文書の地紋透かしを読み取り、埋め込まれている情報を読み取る装置である。

文書画像修正装置１１４は、地紋透かし読取装置１１３が読み取った情報と、印刷された文書をスキャンした画像（文書画像）とを用いて、文書画像を修正する装置である。

改ざん検出装置１１５は、文書の改ざんを検出する装置であり、例えば、図２に示すような一般的な計算機によって実現することができる。改ざん検出装置１１５は、改ざん検出プログラム１１６、文書特徴量抽出プログラム群１２６（タイプ１文書特徴量抽出プログラム、タイプ２文書特徴量抽出プログラム、・・・の総称）、文書特徴量比較プログラム群１２７（タイプ１文書特徴量比較プログラム、タイプ２文書特徴量比較プログラム、・・・の総称）、及び文書特徴量タイプテーブル１２９を含み、各プログラムを実行することによって、改ざん検出装置１１５の機能を実現することができる。

改ざん検出プログラム１１６は、改ざん検出装置１１５を制御する。文書特徴量抽出プログラム群１２６、文書特徴量比較プログラム群１２７、及び文書特徴量タイプテーブル１２９は、文書特徴量抽出装置１０３内のプログラム群、テーブルと同じであるため、説明を省略する。
なお、改ざん検出装置１１５の構成が文書検証端末１１２に実装され、文書検証端末１１２が改ざん検出装置１１５の機能を実現してもよい。

改ざん検出対象ＤＢ装置１０８及び改ざん検出対象ＤＢ１０９は、図１Ａに示す改ざん検出対象ＤＢ装置１０８及び改ざん検出対象ＤＢ１０９と同じ構成であるため、説明を省略する。
なお、文書検証端末１１２、地紋透かし読取装置１１３、文書画像修正装置１１４、文書特徴量抽出装置１０３、改ざん検出装置１１５、及び改ざん検出対象ＤＢ装置１０８は、図２に示すハードウェアの構成と同じ構成を備える。
また、文書検証端末１１２、地紋透かし読取装置１１３、文書画像修正装置１１４、文書特徴量抽出装置１０３、改ざん検出装置１１５、及び改ざん検出対象ＤＢ装置１０８は、それぞれ別装置として記載したが一つのハードウェアに実装されてもよい。

図２３は、本発明の実施の形態の文書検証処理のフローチャートである。図２３に示される文書検証処理は、文書検証システム１１１に備わる各装置のメモリ２０２に格納されているプログラムをＣＰＵ２０１が実行することによって実行される。

まず、文書検証端末１１２は、文書検証者から、改ざんを検証する文書（検証対象文書）を受け付ける。そして、受け付けた検証対象文書をスキャンして検証対象文書画像を生成する（１１０１）。なお、検証対象文書のスキャンには、文書検証端末１１２に備わるスキャナ２０７が用いられる。

次に、文書検証端末１１２は、文書検証者から、閾値の設定及び改ざん検出の指示を受け付ける（１１０２）。ここで、設定される閾値は、後記する改ざんの有無を判定する処理に用いられる値であり、例えば、「１００」等の値が設定される。改ざん検出の指示は、例えば、文書検証端末１１２のキーボード２０５から入力される。

次に、文書検証端末１１２は、ステップ１１０１で生成された検証対象文書画像を地紋透かし読取装置１１３に送信する（１１０３）。

次に、地紋透かし読取装置１１３は、ステップ１１０３で送信された検証対象文書画像から透かしデータ及び領域規定情報１１００（図２４Ａ参照）を抽出し、抽出された透かしデータ及び領域規定情報１１００を文書検証端末１１２に送信する（１１０４）。具体的には、地紋透かし読取装置１１３は、特開２００６−２７９６４０号公報に開示されている情報読み取り装置６０１を用いることによって、本実施の形態の透かしデータ及び領域規定情報１１００を抽出することができる。特開２００６−２７９６４０号公報の図６には、情報読み取り装置６０１の処理が開示されており、印刷文書画像データ６２１が印刷文書入力処理部６１１の出力として記載されている。

本実施の形態の検証対象文書画像は、特開２００６−２７９６４０号公報に開示されている印刷文書画像データ６２１と同じである。すなわち、特開２００６−２７９６４０号公報の情報読み取り装置６０１のメモリ又はハードディスクに、本実施の形態の検証対象文書画像が格納される。特開２００６−２７９６４０号公報の情報読み取り装置６０１は、格納された本実施の形態の検証対象文書画像を印刷文書画像データ６２１として扱うことができる。また、本実施の形態の透かしデータは、特開２００６−２７９６４０号公報の情報読み取り装置６０１から出力される読み取り情報６２３と同じである。また、本実施の形態の領域規定情報１１００は、特開２００６−２７９６４０号公報の領域規定情報構成処理部９０４から出力される領域規定情報７１３と同じである。本実施の形態の透かしデータ及び領域規定情報１１００がメモリ又はハードディスクに格納されるようにプログラムが追加された、特開２００６−２７９６４０号公報の情報読み取り装置６０１が用いられる。なお、特開２００６−２７９６４０号公報に開示されている領域規定情報７１３は、情報埋め込み装置２０１によって領域規定点群領域３１１に配置された情報に基づいて抽出される。領域規定点群領域３１１には、横方向（Ｘ軸方向）に規則正しく並んだ複数の微小点（所定の間隔の画素に配置された微小点）と、縦方向（Ｙ軸方向）に規則正しく並んだ複数の微小点（所定の間隔の画素に配置された微小点）とが領域規定点３２１として配置される。配置された領域規定点３２１の情報は、メモリ又はハードディスク等に保持される。保持されている領域規定点３２１の情報と、印刷文書画像データ６２１から読み取られる領域規定点群領域３１１内の微小点の情報とを対応付けることによって、領域規定情報７１３が抽出される。

領域規定情報１１００について、図２４Ａを用いて説明する。図２４Ａは、本発明の実施の形態の領域規定情報１１００の例を示した説明図である。領域規定情報１１００は、領域座標１２０１及び検証対象文書画像座標１２０２を含む。
領域座標１２０１は、検証対象文書の所定の領域に予め配置された複数の点の座標であり、予め配置された複数の点の相対的な座標が用いられる。また、領域座標１２０１は、予め複数の点が配置される画素の座標が用いられてもよい。
検証対象文書画像座標１２０２は、検証対象文書画像の所定の領域から読み取られた点の座標であり、実際にスキャンされた検証対象文書画像から抽出される。なお、領域規定情報１１００の１行分のデータを一つのエントリとする。

図２４Ｂは、領域座標１２０１の各座標を模式的に表現した説明図である。図２４Ｃは、検証対象文書画像座標１２０２の各座標を模式的に表現した説明図である。すなわち、理想的には図２４Ｂのように印刷された文書が、流通後に文書のしわ等の影響を受けて、図２４Ｃのように検証対象文書画像がスキャンされたことを示す。

ステップ１１０５では、文書検証端末１１２は、検証対象文書画像及びステップ１１０４で抽出された領域規定情報１１００を文書画像修正装置１１４に送信する。

次に、文書画像修正装置１１４は、ステップ１１０５で送信された領域規定情報１１００を用いて検証対象文書画像を修正し、修正された検証対象文書画像を修正画像として文書検証端末１１２に送信する（１１０６）。ステップ１１０６では、図２４Ｃに示すようにスキャンされた検証対象文書画像を、図２４Ｂに示すように修正し、修正された検証対象文書画像を修正画像として送信する。なお、ステップ１１０６の処理は、図２５を用いて後記する。

次に、文書検証端末１１２は、ステップ１１０４で抽出された透かしデータから埋め込み文書特徴量を抽出する（１１０７）。ここでは、透かしデータが、暗号化されている場合には、透かしデータを復号化することによって埋め込み文書特徴量を取得する。また、透かしデータに電子署名が付与されている場合には、電子署名を検証することによって埋め込み文書特徴量を取得する。また、透かしデータにタイムスタンプが付与されている場合には、タイムスタンプを検証することによって埋め込み文書特徴量を取得する。

次に、文書検証端末１１２は、ステップ１１０４で抽出された透かしデータと修正画像を改ざん検出装置に送信する（１１０８）。なお、透かしデータはステップ３０９で埋め込まれたデータであり、問題なく読み取れていれば、文書に埋め込まれていた文書特徴量である。以降、この文書特徴量を「埋め込み文書特徴量」と呼ぶ。

次に、改ざん検出装置は、改ざんを検出し、改ざん検出結果データを文書検証端末１１２に送信する（１１０９）。なお、この処理の詳細は図２７を用いて後記する。

次に、文書検証端末１１２は、改ざん検出結果データから判定される判定結果を画面２０６に表示する（１１１２）。なお、ステップ１１１２の処理は、図２９を用いて後記する。

なお、ステップ１１０１では、文書検証端末１１２は、検証対象文書を直接受け付けているが、検証対象文書を識別する識別子を受け付けてもよい。この場合、受け付けた識別子に基づいて、検証対象文書が読み出される。読み出される検証対象文書は、例えば、文書検証端末１１２に備わるハードディスク２０９及び文書検証端末１１２に接続される装置のハードディスク２０９等に格納される。
また、ステップ１１０４では、地紋透かし読取装置１１３は、抽出された透かしデータ及び領域規定情報１１００を文書検証端末１１２に送信しているが、抽出された透かしデータ及び領域規定情報１１００と、検証対象文書画像とを文書画像修正装置１１４に送信しても良い。この場合、処理はステップ１１０５を省略し、ステップ１１０６に進む。

図２５は、本発明の実施の形態の文書画像修正装置１１４による処理のフローチャートであり、図２３のステップ１１０６で実行される処理の説明を示す。

まず、文書画像修正装置１１４は、領域規定情報１１００中の領域座標１２０１のｘ座標の最大値ｘｍ及びｙ座標の最大値ｙｍとを求める（１３０１）。例えば、図２４Ａに示す領域規定情報１１００の場合、ｘ座標の最大値ｘｍは「２」であり、ｙ座標の最大値ｙｍは「２」である。

次に、文書画像修正装置１１４は、予め設定された値ｇｘ及び値ｇｙを用いて、横（ｘｍ×ｇｘ＋１）画素及び縦（ｙｍ×ｇｙ＋１）画素の修正中画像を作成する（１３０２）。ここで、値ｇｘ及び値ｇｙは、例えば、ｇｘ＝６０及びｇｙ＝６０に設定することができる。また、値ｇｘ及び値ｇｙは、領域規定情報１１００に基づいて設定されてもよい。図２４Ａに示す検証対象文書画像座標１２０２の場合、特開２００６−２７９６４０号公報に開示されている情報埋め込み装置２０１によって配置された領域規定点３２１の所定の画素の間隔に基づいて設定することができる。このように、修正中画像を作成する処理は、計算機内のメモリ２０２に所定の大きさの領域を確保し、修正中画像の大きさ等の情報を格納する処理である。

次に、文書画像修正装置１１４は、ステップ１３０２で作成された修正中画像の各画素のうち、処理が終了していない画素があるか否かを判定する（１３０３）。修正中画像の少なくとも一つの画素について処理が終了していないと判定された場合（１３０３でＹｅｓ）、修正中画素内で処理が終了していない画素（処理対象画素）を取り出し、処理はステップ１３０４に進む。一方、修正中画像の全ての画素について処理が終了したと判定された場合（１３０３でＮｏ）、処理はステップ１３０５に進む。

次に、文書画像修正装置１１４は、領域規定情報１１００に基づいて、ステップ１３０３で取り出された処理対象画素の内部補間処理を行い、検証対象文書画像内の対応する画素を修正中画像内の処理対象画素にコピーする（１３０４）。内部補間処理について、図２６Ａ及び図２６Ｂを用いて説明する。

図２６Ａ及び図２６Ｂは、本発明の実施の形態の内部補間処理の例を示す説明図である。
図２６Ａに示す処理対象画素１４０１は、修正中画像内で処理の対象となる画素であり、図２６Ｂに示す対応画素１４０２は、検証対象文書画像内で処理対象画素１４０１に対応する画素である。処理対象画素１４０１と対応画素１４０２との対応は以下のように特定する。

まず、処理対象画素１４０１の周りの領域座標１２０１を求める。図２６Ａに示す例では、処理対象画素１４０１の周囲に模式的に示した四つの領域座標１２０１の点が対応する。次に、処理対象画素１４０１が、領域座標１２０１をどのように内分しているかを調べる。図２６Ａに示す例では、処理対象画素１４０１は、領域座標１２０１をＸ軸方向に１：１−ｓ、Ｙ軸方向にｔ：１−ｔに内分している。

次に、領域規定情報１１００を用いて、領域座標１２０１に対応する検証対象文書画像座標１２０２を求める。例えば、図２６Ｂに示す例では、検証対象文書画像が少しゆがんでいるとする。次に、求めた四つの検証対象文書画像座標１２０２によってつくられる４辺を、領域座標１２０１の内分比と同じ比で内分する。そして、四つの内分点のうち、隣り合わない辺に属する二つの内分点を直線で結び、二つの直線の交点の画素を検証対象文書画像の対応画素１４０２とする。そして、対応画素１４０２の色及び濃度と同等になるよう、対応画素１４０２を処理対象画素１４０１に複製する。

次に、ステップ１３０５では、文書画像修正装置１１４は、ステップ１３０４で内部補間処理が行われた修正中画像を修正画像として文書検証端末１１２に送信する。

図２７は、本発明の実施の形態の改ざん検出処理のフローチャートであり、図２３のステップ１１０９で実行される処理の説明を示す。

まず、改ざん検出装置１１５は、埋め込み特徴量から、改ざん検証対象領域レコード番号と、文書特徴量リストを読み取る（１５０１）。なお、この処理は、埋め込み特徴量は図１０（ｃ）のようにして作られているため、最初の２バイトから改ざん検証対象領域レコード番号を読み取り、次の２バイトから処理対象画像文書特徴量の数を読み取り、次に読み取った処理対象画像文書特徴量の数分、文書特徴量リストのエントリを読み取っていけばよい。文書特徴量リストのエントリは、最初の２バイトが改ざん検出対象領域ＩＤを示し、次の１バイトが文書特徴量の長さを示し、次から読み取った文書特徴量の長さ分、文書特徴量が続いていることを利用してデータを読み取る。さらに、文書特徴量が、例えば図１３（ｃ）のように、最初の２バイトが文書特徴量タイプを示していることを利用して、文書特徴量タイプを読み取れる。この結果、図９に示すような文書特徴量リストを読み取ることができる。

次に、改ざん検出装置１１５は、改ざん検出対象領域レコード番号を用いて、改ざん検出対象領域ＤＢ１０９から改ざん検出対象領域レコードを取得する（１５０２）。なお、改ざん検出対象領域レコードは、例えば図５Ａに示したようなもの（６００）である。

次に、改ざん検出装置１１５は、文書特徴量リスト内に処理が終了していないエントリがあるか否か判定する。そのようなエントリがある場合（１５０３でＹｅｓ）、文書特徴量リストに含まれる一つ一つのエントリについて、以下ステップ１５０４から１５１０の処理を行い、そのようなエントリがない場合（１５０３でＮｏ）、処理が終了したということでステップ１５１１に進む（１５０３）。

次に、改ざん検出装置１１５は、改ざん検出対象領域レコードから、文書特徴量リストに含まれる改ざん検出対象領域ＩＤを用いて、始点、終点を取得する（１５０４）。始点、終点は、図５Ａ、図５Ｂを使って既に説明したとおりである。

次に、改ざん検出装置１１５は、修正画像から始点、終点が規定する矩形領域の画像を作成し、検証対象画像として保存する（１５０５）。この処理は部分的な画像のコピーであって、既に説明したとおりである。

次に、改ざん検出装置１１５は、文書特徴量タイプテーブル１２９から、文書特徴量リストに含まれる文書特徴量タイプを用いて、文書特徴量抽出プログラムと文書特徴量比較プログラムを取得する（１５０６）。この処理は、ステップ２１０８と同様である。

次に、改ざん検出装置１１５は、文書特徴量抽出プログラムを用いて、検証対象画像の文書特徴量を検証対象画像文書特徴量として抽出する（１５０７）。この処理は、ステップ２１０９と同様である。

次に、改ざん検出装置１１５は、文書特徴量比較プログラムを用いて、検証対象画像文書特徴量と、埋め込み特徴量の差を計算し、文書特徴量差を取得する（１５０８）。この処理は、ステップ２１１５と同様である。

次に、改ざん検出装置１１５は、取得した文書特徴量差（差）が閾値より大きいか否か判定する（１５０９）。閾値より大きければ（１５０９でＹｅｓ）、ステップ１５１０に進む。そうでなければ（１５０９でＮｏ）、文書特徴量リストに含まれる現在のエントリに関する処理を終了し、ステップ１５０３に戻る。

文書特徴量差が閾値より大きければ（１５０９でＹｅｓ）、改ざん検出対象領域ＩＤと文書特徴量差を、改ざん検出結果データに追記する（１５１０）。ここで、改ざん検出結果データの例を図２８に示す。

図２８は、本発明の実施の形態の改ざん検出結果データ１７００の例を示す説明図である。
改ざん検出結果データ１７００は、改ざん検出対象領域ＩＤ１８０１及び文書特徴量差１８０２を含む。改ざん検出対象領域ＩＤ１８０１は、改ざんが検出されたと判定された改ざん検出対象領域の識別子であり、図５Ａに示す改ざん検出対象領域ＩＤ７０１に対応する。文書特徴量差１８０２は、埋め込み文書特徴量と修正画像文書特徴量との差の大きさである。なお、改ざん検出結果データ１７００の１行分のデータを一つのエントリとする。
図２８に示す例では、三つの改ざん検出対象領域で改ざんが検出されており、改ざん検出対象領域ＩＤ１８０１が「２」、「３」、及び「１０」の埋め込み文書特徴量と修正画像文書特徴量との差は、それぞれ「１２０」、「１２５」、及び「１１０」である。

次に、ステップ１５１１では、改ざん検出装置１１５は、ステップ１５１０で格納された改ざん検出結果データ１７００を文書検証端末１１２に送信する。

図２９は、本発明の実施の形態の改ざん検出結果表示処理のフローチャートであり、図２３のステップ１１１２で実行される処理の説明を示す。

まず、文書検証端末１１２は、改ざん検出結果データ１７００に格納されている改ざん検出対象領域ＩＤ１８０１及び改ざん検出対象領域レコード番号に基づいて、改ざん検出対象ＤＢ装置１０８にアクセスし、改ざん検出対象領域ＩＤ１８０１に対応するエントリを取得する（１９０１）。

次に、文書検証端末１１２は、ステップ１９０１で取得したエントリのうち、処理が終了していないエントリがあるか否かを判定する（１９０２）。少なくとも一つのエントリについて処理が終了していない場合（１９０２でＹｅｓ）、処理が終了していないエントリ（改ざん検出対象領域）を取り出し、処理はステップ１９０３に進む。一方、ステップ１９０１で取得した全てのエントリについて処理が終了したと判定された場合（１９０２でＮｏ）、処理は終了する。

次に、文書検証端末１１２は、ステップ１９０２で取り出された改ざん検出対象領域の始点及び終点を、改ざん検出対象領域レコード（ステップ１５０２で取得したもの）から取得する（１９０３）。

次に、文書検証端末１１２は、ステップ１９０３で取得した改ざん検出対象領域の始点及び終点に基づいて、検証対象文書の修正画像の改ざん検出対象領域（該当領域）を強調して表示する（１９０４）。そして、処理はステップ１９０２に戻り、次のエントリを処理する。

改ざん検出対象領域を強調して表示する例を、図３０に示す改ざん検出結果画面を用いて説明する。
改ざん検出結果画面は、表示部２００１及び警告表示部２００４を含む。表示部２００１は、修正画像を表示する部分であり、検出領域２００２及び検出領域２００３を含む。検出領域２００２及び検出領域２００３は、改ざんが検出された改ざん検出対象領域である。警告表示部２００４は、改ざんが検出されたことを警告する表示部分である。
図３０に示す例では、納税証明書に記載されている金額の改ざんが検出されたことを示している。また、警告表示部２００４には、「改ざんが検出されました」という警告を表示している。

本実施の形態では、文書検証システム１１１を用いることによって、文書検証端末１１２の操作者（管理者）は、文書が流通している間に改ざんが行われたか否かを検証することが可能である。
また、本発明の文書検証システムは、文書から抽出する文書特徴量を適宜プログラムとして選択可能であるため、システムの動作中に動的にシステムを変更することができる。

なお、本実施の形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することが可能である。

例えば、本実施の形態では、改ざん検出対象領域の形状は矩形とし、矩形領域の始点および終点を定めた（図５Ａ参照）。しかし、その形状は矩形でなくても良く、文書に記載された文字または画像に応じて変形させても良い。変形させたときには、改ざん検出対象領域レコード６００において、その形状を特定することが可能なフィールドを設定するようにする。例えば、中心点の座標値を登録するフィールドと、半径の値を登録するフィールドを設定し、円形状の改ざん検出対象領域を設定しても良い。

また、本実施の形態では、改ざん検出対象領域は入力装置から指定するようにした。しかし、文書の内容に合わせて改ざん検出対象領域を自動的に設定するようなプログラムを文書特徴量抽出装置に導入しても良い。例えば、改ざんを検出したい改ざんの精度を高めたい箇所に対しては改ざん検出領域を重複して指定するように処理させても良い。図３０に示したように、金額が記載されている箇所は改ざんされる可能性が高い。それゆえ、改ざんされやすい箇所はある程度予想できる。文書特徴量抽出装置に文字認識機能を備えたプログラムを導入し、金額のような重要部分を認識して特定し、特定した重要部分に対しては改ざん検出領域を重複して設定するように処理させる。

その他、ハードウェア、ソフトウェア、各フローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

本発明の実施の形態の文書作成支援システムの構成を示すブロック図である。本発明の実施の形態の文書検証システムの構成を示すブロック図である。本発明の実施の形態の文書特徴量抽出装置のハードウェアの構成を示すブロック図である。本発明の実施の形態の文書作成処理のフローチャートである。本発明の実施の形態の文書特徴量抽出処理のフローチャートである。本発明の実施の形態の文書特徴量抽出処理のフローチャートである。本発明の実施の形態の改ざん検出対象ＤＢに格納されるレコードの例の説明図である。本発明の実施の形態の検出対象領域レコードによって特定される改ざん検出対象領域の説明図である。本発明の実施の形態の文書特徴量タイプテーブルの説明図である。本発明の実施の形態の文書画像変換タイプテーブルの説明図である。本発明の実施の形態の文書特徴量変化ＤＢの説明図である。本発明の実施の形態の文書特徴量リストの説明図である。本発明の実施の形態の文書特徴量作成処理の説明図である。本発明の実施の形態の重心利用タイプの文書特徴量の抽出処理のフローチャートである。本発明の実施の形態の重心の計算例を示す説明図である。本発明の実施の形態の重心座標から文書特徴量を算出する方法を示す説明図である。本発明の実施の形態の重心利用タイプ文書特徴量の例を示す説明図である。本発明の実施の形態の重心利用タイプ文書特徴量の例を示す説明図である。本発明の実施の形態の細線化重心利用タイプの文書特徴量抽出処理のフローチャートである。本発明の実施の形態の面積利用タイプの文書特徴量抽出処理のフローチャートである。本発明の実施の形態の面積から文書特徴量を算出する方法を示す説明図である。本発明の実施の形態のタイプ１文書画像変換処理のフローチャートである。本発明の実施の形態のタイプ２文書画像変換処理のフローチャートである。本発明の実施の形態のタイプ３文書画像変換処理のフローチャートである。本発明の実施の形態のタイプ１文書特徴量比較処理のフローチャートである。本発明の実施の形態のタイプ３文書特徴量比較処理のフローチャートである。本発明の実施の形態の文書検証処理のフローチャートである。本発明の実施の形態の領域規定情報の例を示した説明図である。本発明の実施の形態の領域座標を模式的に表現した説明図である。本発明の実施の形態の検証対象文書画像座標を模式的に表現した説明図である。本発明の実施の形態の文書画像修正装置による処理のフローチャートである。本発明の実施の形態の内部補間処理の例を示す説明図である。本発明の実施の形態の内部補間処理の例を示す説明図である。本発明の実施の形態の改ざん検出処理のフローチャートである。本発明の実施の形態の改ざん検出結果データの例を示す説明図である。本発明の実施の形態の改ざん検出結果表示処理のフローチャートである。本発明の実施の形態の改ざん検出結果画面の例を示す説明図である。

符号の説明

１０１文書作成支援システム
１０２文書作成端末
１０３文書特徴量抽出装置
１０４文書特徴量抽出メインプログラム
１０６透かしデータ作成装置
１０７地紋透かし埋込装置
１０８改ざん検出対象ＤＢ装置
１０９改ざん検出対象ＤＢ
１１０（文書作成支援システム内）ネットワーク
１１１文書検証システム
１１２文書検証端末
１１３地紋透かし読取装置
１１４文書画像修正装置
１１５改ざん検出装置
１１６改ざん検出プログラム
１１８（文書検証システム内）ネットワーク
１２６文書特徴量抽出プログラム群
１２７文書特徴量比較プログラム群
１２８文書画像変換プログラム群
１２９文書特徴量タイプテーブル
１３０文書画像変換タイプテーブル
２０１ＣＰＵ
２０２メモリ
２０３インターフェース
２０４ネットワークインターフェース
２０５キーボード
２０６画面
２０７スキャナ
２０８プリンタ
２０９ハードディスク
２１０時計

Claims

改ざんの検出対象である文書画像から文書特徴量を抽出する領域を定めた改ざん検出対象領域と、
前記文書画像の変換のアルゴリズムと、前記文書画像の変換において、変換前の文書画像から抽出される文書特徴量である変換前文書特徴量と変換後の文書画像から抽出される文書特徴量である変換後文書特徴量との差である文書特徴量差に対して当該文書特徴量の性能を示す評価点を算出する評価関数と、を対応付けて含む文書画像変換タイプテーブルと、
前記文書特徴量の抽出のアルゴリズムと、当該抽出により取得される前記変換前文書特徴量および前記変換後文書特徴量とを比較して前記文書特徴量差を求める比較のアルゴリズムと、を対応付けて含む文書特徴量タイプテーブルと、
を記憶する記憶部と、
変換前の文書画像に定められた前記改ざん検出対象領域における前記変換前文書特徴量を、前記文書特徴量タイプテーブルに含まれる抽出のアルゴリズムの種類ごとに抽出し、
前記改ざん検出対象領域における文書画像を、前記文書画像変換タイプテーブルに含まれる変換のアルゴリズムの種類ごとに変換し、
変換後の文書画像に定められた前記改ざん検出対象領域における前記変換後文書特徴量を、当該抽出のアルゴリズムにより抽出し、
前記抽出された、変換前文書特徴量と変換後文書特徴量とを、前記文書特徴量タイプテーブルにより当該抽出のアルゴリズムに対応付けられた比較のアルゴリズムにより比較し、
前記比較により、前記変換前文書特徴量と前記変換後文書特徴量との差である前記文書特徴量差を算出し、
前記算出した文書特徴量差を、前記文書画像変換タイプテーブルにより当該変換のアルゴリズムに対応付けられた評価関数にあてはめて前記評価点を算出し、
前記評価点に基づいて、前記改ざん検出領域において抽出する文書特徴量を選択する
制御部と、を有する
ことを特徴とする文書特徴量抽出装置。
前記制御部は、
前記改ざん検出対象領域において、前記変換のアルゴリズムのそれぞれについて算出した前記評価点の合計が最大となる文書特徴量を選択する
ことを特徴とする請求項１に記載の文書特徴量抽出装置。
前記文書画像変換タイプテーブルに含まれる変換のアルゴリズムには少なくとも、
文書画像の改ざんに相当する変換と同程度となる変換のアルゴリズムと、文書画像の改ざんに相当する変換には及ばない程度となる変換のアルゴリズムと
が含まれる
ことを特徴とする請求項１に記載の文書特徴量抽出装置。
改ざんの検出対象である文書画像から文書特徴量を抽出する領域を定めた改ざん検出対象領域と、
前記文書画像の変換のアルゴリズムと、前記文書画像の変換において、変換前の文書画像から抽出される文書特徴量である変換前文書特徴量と変換後の文書画像から抽出される文書特徴量である変換後文書特徴量との差である文書特徴量差に対して当該文書特徴量の性能を示す評価点を算出する評価関数と、を対応付けて含む文書画像変換タイプテーブルと、
前記文書特徴量の抽出のアルゴリズムと、当該抽出により取得される前記変換前文書特徴量および前記変換後文書特徴量とを比較して前記文書特徴量差を求める比較のアルゴリズムと、を対応付けて含む文書特徴量タイプテーブルと、
を記憶する記憶部を有する文書特徴量抽出装置における文書特徴量抽出方法において、
前記文書特徴量抽出装置の制御部は、
変換前の文書画像に定められた前記改ざん検出対象領域における前記変換前文書特徴量を、前記文書特徴量タイプテーブルに含まれる抽出のアルゴリズムの種類ごとに抽出するステップと、
前記改ざん検出対象領域における文書画像を、前記文書画像変換タイプテーブルに含まれる変換のアルゴリズムの種類ごとに変換するステップと、
変換後の文書画像に定められた前記改ざん検出対象領域における前記変換後文書特徴量を、当該抽出のアルゴリズムにより抽出するステップと、
前記抽出された、変換前文書特徴量と変換後文書特徴量とを、前記文書特徴量タイプテーブルにより当該抽出のアルゴリズムに対応付けられた比較のアルゴリズムにより比較するステップと、
前記比較により、前記変換前文書特徴量と前記変換後文書特徴量との差である前記文書特徴量差を算出するステップと、
前記算出した文書特徴量差を、前記文書画像変換タイプテーブルにより当該変換のアルゴリズムに対応付けられた評価関数にあてはめて前記評価点を算出するステップと、
前記評価点に基づいて、前記改ざん検出領域において抽出する文書特徴量を選択するステップと、
を実行する
ことを特徴とする文書特徴量抽出方法。