JP2007150606A - 文書処理装置および文書処理方法 - Google Patents

文書処理装置および文書処理方法 Download PDF

Info

Publication number
JP2007150606A
JP2007150606A JP2005341139A JP2005341139A JP2007150606A JP 2007150606 A JP2007150606 A JP 2007150606A JP 2005341139 A JP2005341139 A JP 2005341139A JP 2005341139 A JP2005341139 A JP 2005341139A JP 2007150606 A JP2007150606 A JP 2007150606A
Authority
JP
Japan
Prior art keywords
information
sequence
parameter value
partial
code sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005341139A
Other languages
English (en)
Other versions
JP4613807B2 (ja
Inventor
Kagenori Nagao
景則 長尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005341139A priority Critical patent/JP4613807B2/ja
Publication of JP2007150606A publication Critical patent/JP2007150606A/ja
Application granted granted Critical
Publication of JP4613807B2 publication Critical patent/JP4613807B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Record Information Processing For Printing (AREA)
  • Storage Device Security (AREA)
  • Image Processing (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】紙文書に対する不可視性およびコンテンツとの不可分性を向上させるとともに、繰り返しコピーに対してロバストな付加情報を記録する。
【解決手段】入力された文書データから文字列における文書体裁に関するパラメータ値系列をパラメータ値系列抽出部301にて抽出し、文書データに埋め込む付加情報をシフト量として、符号系列生成部302で生成された所定の符号系列をかかるシフト量だけシフトさせた符号化情報系列を情報符号化部303にて生成し、修正パラメータ値系列生成部304にてパラメータ値系列に符号化情報系列を合成した修正パラメータ値系列を生成し、文書修正部305にてかかる修正パラメータ値系列により文書データを修正する。
【選択図】図2

Description

本発明は、複写機、プリンタ、ファクシミリ装置、またはこれらの機能を複合的に備えた複合機等の画像形成装置等に用いられる文書処理装置等に関する。
近年、オフィスでは、文書を電子データにより保存する所謂「電子化」が一般化し、さらには、電子データを紙文書化する複写機・プリンタ等も広く普及している。それに伴い、顧客名簿や開発中の製品の情報等といった機密性の高い情報が企業外部に流出する事件が発生するなど、企業内部からの機密情報の漏洩が深刻な問題となっている。特に、電子文書(電子データ)は原本と完全に同一の複製が容易に作成でき、外部への持ち出しもネットワークを使用すれば極めて容易に行なえるため、予てより企業における文書管理上の大きな問題となっていた。しかし、近年の暗号化技術、認証技術、アクセス制限技術等の進歩により、適切な対策を講じれば電子文書の持ち出しは比較的困難になってきている。
それに対して、電子文書は一旦紙の上に印刷され、紙文書化されてしまうと、その複写や社外への持ち出しを防止する術が無い。そのため、電子文書に比べると紙文書の機密漏洩対策の進展は遅れが目立っているのが現状である。
紙文書に対する機密漏洩対策の一つとして、紙文書に予め追跡情報を付加しておく技術がある。この技術は、電子文書をプリント出力して紙文書化した際の出力者情報や出力機器情報、出力日時等の情報を紙文書上に記録しておくものである。この技術により、機密情報を印刷した紙文書が社外に流出しても、紙文書上に記録された追跡情報から流出元を特定することが可能となる。
このような追跡情報においては、不可視性およびコンテンツとの不可分性が高いことが望まれる。例えば、追跡情報をバーコードのような可視性の高い記録方法で記録すると、紙文書上のどこに追跡情報が記録されているかが明らかであるため、記録情報を解読・改ざんされる恐れが高くなる。また、バーコードはコンテンツと可分であるため、バーコード部を切り取ったり塗りつぶしたりすることにより、流出元の特定を容易に妨害することが可能である。
また、追跡情報は繰り返しコピーに対する耐性が高いものであることも望まれる。流出した機密情報は原本のまま流通するだけでなく、それをコピーしたものや、さらに二次コピー、三次コピーが出回ることも考えられるからである。
ここで、紙文書に対して追跡情報等の付加情報を記録する方法の中で不可視性の高いものとしては、以下のような方法が提案されている。
例えば、文字位置をシフトして文字の前後の空白長を変化させることにより情報を埋め込む方法が存在する(例えば、特許文献1参照)。この方法では、情報ビットを埋め込む対象となる文字の前後の空白長をP、Sとした場合、情報ビットが1ならP>S、ゼロならP<Sとなるよう文字位置をシフトさせることにより情報を埋め込む。この操作を、埋め込み情報のビット数に相当する数の文字に対して行なうことにより、文書に付加情報を埋め込む。埋め込みの際、句読点前後の文字位置をシフトさせると目に付きやすいため、句読点周辺の文字は情報埋め込みに使用しないなどの工夫もなされている。
また、文字パターンのサイズやフォント種別など、文字パターンの形状を変更することで情報を埋め込む方法が存在する(例えば、特許文献2参照)。この方法では、通常の文書において出現頻度の高い、「の」や「は」などの文字を情報埋め込み対象文字とする。情報は対象文字に対して文書の先頭から順番に埋め込んでいく。情報ビットが1の場合のみ、別のフォントに置き換えたり、文字幅を10%程度広げたりすることで埋め込み情報を表現し、情報ビットがゼロの場合は何もしない。埋め込んだ情報を復元する際は、情報埋め込み前の元文書と比較し、文字パターンが異なる場合は1、同一の場合はゼロが埋め込まれているものと解釈する。
特開2003−230001号公報(第5−7頁) 特開2001−251490号公報(第4−6頁)
しかしながら、上記した特許文献1や特許文献2に開示された付加情報の埋め込み方法では、何度もコピーを繰り返した紙文書に対して、情報追跡効果を充分に機能させることができない。これは、何度もコピーを繰り返した紙文書では、文字の太りや細り、あるいは文字上のノイズや荒れといった画質劣化が生じるからである。
例えば、特許文献1のような文字位置のシフト量に情報を埋め込む方法では、繰り返しコピーによる画質劣化によって文字間の空白長が変化してしまい、埋め込んだ情報が正しく復元できない場合が生じる。これを避けるには文字位置のシフト量を大きくして、空白長が多少変化しても文字前後の空白長の大小関係が維持されるようにする必要がある。ところが、文字位置のシフト量を大きくすると、文書に加えた変更が視覚的に明らかになってしまい、埋め込み情報の不可視性が損なわれることとなる。
また、文字列が見た目に自然に見えるように前後の文字に合わせて文字間隔を調節した、所謂カーニングの施された文書では、文字間隔が一定ではないために、元々P>Sの関係にあった文字前後の空白長を、P<Sとなるように変更しようとすると文字位置を大きくシフトする必要があり、やはり不可視性を損なうという問題が生じる。
同様に、特許文献2で開示されている方法においても、繰り返しコピーによる画質劣化に対する耐性が低いという問題がある。すなわち、画質が劣化した紙文書からも文字パターンのサイズやフォント種別などの形状の違いを判別するためには、文字サイズを大きく変更したり、形状が大きく異なるフォントを使用したりする必要がある。ところが、文字パターンの形状を大きく変更すると、文書に加えた変更が視覚的に明らかになってしまい、埋め込み情報の不可視性が損なわれることとなる。
また、「の」、「は」などの埋め込み対象文字の出現頻度が小さい文書には情報を埋め込むことができないという問題もある。
そこで本発明は、以上のような技術的課題を解決するためになされたものであり、その目的とするところは、紙文書に対して不可視性およびコンテンツとの不可分性が高い付加情報を記録可能とすることにある。
また他の目的は、繰り返しコピーに対するロバスト性の高い付加情報の記録を可能とすることにある。
かかる目的のもと、本発明の文書処理装置は、文字列からなる文書データに付加情報を埋め込むことが可能な文書処理装置であって、入力された文書データから文字列における文書体裁に関するパラメータ値系列を抽出するパラメータ系列抽出部と、文書データに埋め込む付加情報を入力する情報入力部と、所定の符号系列を生成する符号系列生成部と、情報入力部から入力された付加情報をシフト量として、符号系列生成部により生成された所定の符号系列をかかるシフト量だけシフトさせた符号化情報系列を生成する情報符号化部と、パラメータ値系列に符号化情報系列を合成した修正パラメータ値系列を生成する修正パラメータ系列生成部と、生成された修正パラメータ値系列により文書データを修正する文書修正部とを備えたことを特徴としている。
なお、ここでの文書データには、PostScript等のページ記述言語やワードプロセッサ出力形式の電子文書データ、スキャナやデジタルカメラにより撮影された文書のラスタデータ等が含まれる。また、文字列における文書体裁には、文字間隔、文字位置、単語間隔、行間隔、文字高さ、文字幅、文字の傾き等が含まれる。以下、同様である。
ここで、符号系列生成部で生成された所定の符号系列と同一の符号系列とかかる符号系列のシフトバージョンとを生成する符号系列群生成部と、パラメータ系列抽出部により抽出されたパラメータ値系列と、符号系列群生成部により生成された符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、文書データに埋め込まれた付加情報を復元する情報復元部とをさらに備えたことを特徴とすることができる。
また、情報入力部から入力された付加情報を分割して複数の部分付加情報を生成する部分情報生成部をさらに備え、情報符号化部は、部分情報生成部で生成された部分付加情報毎の部分符号化情報系列を生成し、さらに部分符号化情報系列を連結して符号化情報系列を生成することを特徴とすることもできる。
この場合に、符号系列生成部で生成された所定の符号系列と同一の符号系列とかかる符号系列のシフトバージョンとを生成する符号系列群生成部と、パラメータ系列抽出部にて抽出されたパラメータ値系列を分割して複数の部分パラメータ値系列を生成する部分パラメータ値系列生成部と、部分パラメータ値系列生成部にて生成された部分パラメータ値系列と、符号系列群生成部により生成された符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、部分パラメータ値系列毎に埋め込まれた付加情報を復元し、さらに復元された部分パラメータ値系列毎の付加情報を連結して文書データに埋め込まれた情報を復元する情報復元部とをさらに備えたことを特徴とすることもできる。
さらに、情報入力部から入力された付加情報を分割して複数の部分付加情報を生成する部分情報生成部をさらに備え、符号系列生成部は、部分情報生成部により生成された部分付加情報毎に固有の符号系列を生成し、情報符号化部は、部分付加情報毎の固有の符号系列により部分付加情報毎の部分符号化情報系列を生成し、さらにかかる部分符号化情報系列を多重化して符号化情報系列を生成することを特徴とすることができる。
この場合に、符号系列生成部で生成された部分付加情報毎の固有の符号系列と同一の符号系列と、符号系列のシフトバージョンとを生成する符号系列群生成部と、パラメータ系列抽出部にて抽出されたパラメータ値系列を分割して複数の部分パラメータ値系列を生成する部分パラメータ値系列生成部と、部分パラメータ値系列生成部で生成された部分パラメータ値系列と、符号系列群生成部で生成された符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、部分パラメータ値系列毎に埋め込まれた付加情報を復元し、さらにかかる部分パラメータ値系列毎に埋め込まれた付加情報を連結して文書データに埋め込まれた情報を復元する情報復元部とをさらに備えたことを特徴とすることもできる。
加えて、情報入力部から入力された付加情報を分割して複数の部分付加情報を生成する部分情報生成部をさらに備え、情報符号化部は、部分情報系列生成部で生成された部分付加情報毎の部分符号化情報系列を周期的に反復して生成し、さらにかかる部分符号化情報系列を連結して符号化情報系列を生成するとともに、符号化情報系列に同期させた同期用符号を生成し、修正パラメータ系列生成部は、同期用符号を修正パラメータ値系列に多重化させることを特徴とすることができる。
この場合に、入力された文書データから文字列における文書体裁に関するパラメータ値系列を抽出するパラメータ系列抽出部と、パラメータ系列抽出部にて抽出されたパラメータ値系列を分割して複数の部分パラメータ値系列を生成する部分パラメータ値系列生成部と、符号系列生成部で生成された所定の符号系列と同一の符号系列とかかる符号系列のシフトバージョン、および符号化情報系列に同期させた同期用符号と同一の符号系列とかかる符号系列のシフトバージョンとを生成する符号系列群生成部と、部分パラメータ値系列生成部で生成された部分パラメータ値系列と、符号系列群生成部で生成された符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、部分パラメータ値系列毎に埋め込まれた付加情報を復元するとともに、パラメータ値系列と、同期用符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、パラメータ値系列毎に埋め込まれた同期用符号系列の位置を検出し、検出された同期用符号系列位置と部分パラメータ値系列との位置関係を検出して部分パラメータ値系列の付加情報の順番を決定し、部分パラメータ値系列の付加情報をかかる順番に従って連結して文書データに埋め込まれた付加情報を復元する情報復元部とをさらに備えたことを特徴とすることもできる。
また、本発明を文書処理方法として捉え、本発明の文書処理方法は、文字列からなる文書データに付加情報を埋め込むことが可能な文書処理方法であって、文字列からなる文書データを入力し、入力された文書データから文字列における文書体裁に関するパラメータ値系列を抽出し、文書データに埋め込む付加情報をシフト量として、所定の符号系列をかかるシフト量だけシフトさせた符号化情報系列を生成し、パラメータ値系列に符号化情報系列を合成した修正パラメータ値系列を生成し、かかる修正パラメータ値系列により文書データを修正することを特徴としている。
ここで、付加情報を分割して複数の部分付加情報を生成し、部分付加情報毎の部分符号化情報系列を生成し、さらにかかる部分符号化情報系列を連結して符号化情報系列を生成し、かかる符号化情報系列を用いて文書データを修正することを特徴とすることもできる。
さらに、本発明の文書処理方法は、付加情報が埋め込まれた文書データから付加情報を復元することが可能な文書処理方法であって、文字列からなる文書データを入力し、入力された文書データから文字列における文書体裁に関するパラメータ値系列を抽出し、付加情報が埋め込まれた際に使用された符号系列と同一の符号系列とかかる符号系列のシフトバージョンとを生成し、パラメータ値系列と、符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、文書データに埋め込まれた付加情報を復元することを特徴としている。
ここで、抽出されたパラメータ値系列を分割して複数の部分パラメータ値系列を生成し、生成された部分パラメータ値系列と、符号系列およびかかる符号系列のシフトバージョンとの相関値に基づき、部分パラメータ値系列毎の付加情報を復元し、さらに復元された部分パラメータ値系列毎の付加情報を連結して文書データに埋め込まれた付加情報を復元することを特徴とすることもできる。
本発明によれば、埋め込まれた付加情報の解読・改ざん・除去を困難とすることが可能となる。また、カーニング処理された文書や繰り返しコピーが施された紙文書からも埋め込まれた付加情報を安定して復元することが可能となる。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
[実施の形態1]
図1は本実施の形態が適用される文書処理装置1の構成を示したブロック図である。図1に示す文書処理装置1は、付加情報の埋め込み対象となる文書データ等を処理部30に入力する第1文書入力部10、付加情報の埋め込まれたラスタデータ等を処理部30に入力する第2文書入力部20、第1文書入力部10から入力された文書データ等に埋め込むべき付加情報を入力する埋め込み情報入力部40、第1文書入力部10から入力された文書データ等に対して、埋め込み情報入力部40から入力された付加情報を埋め込む処理、または第2文書入力部20から入力されたラスタデータ等から埋め込まれた付加情報を復元する処理を実行する処理部30、処理部30により付加情報の埋め込み処理が施された文書データ等を所定の形式で出力する文書出力部50、処理部30により復元された付加情報を出力する情報出力部60を備えている。
第1文書入力部10は、付加情報の埋め込み対象となる文書データを処理部30に入力するためのものである。文書データとしては、PostScript等のページ記述言語やワードプロセッサ出力形式の電子文書データ、あるいはスキャナやデジタルカメラにより撮影された文書のラスタデータがある。第1文書入力部10は、例えば、文書データが蓄積されたハードディスクドライブ(HDD)、DVD(Digital Video Disc)−RAM/±RW/±Rドライブ等の大容量記憶装置、ネットワーク等を介してデータの授受を行なうデータ転送装置、あるいはスキャナ装置とその制御装置、デジタルカメラのメモリ(カード)に蓄積された画像を取り出すメモリリーダ装置とその制御装置等によって実現することが可能である。
第2文書入力部20は、付加情報の埋め込まれた文書のラスタデータを入力するものである。文書のラスタデータとしては、スキャナやデジタルカメラにより撮影された紙文書の画像データがある。なお、第2文書入力部20は、後段で述べる情報埋め込み処理部300と同一の構成をとることもできる。
埋め込み情報入力部40は、第1文書入力部10から入力された文書データに埋め込むべき付加情報を処理部30に入力するためのものである。入力される付加情報としては、数字や文字、URL、音声や画像等のマルチメディアデータなど、デジタルデータであればいずれも使用することができる。埋め込み情報入力部40は、例えば、文字等を入力するためのキーボードや、マルチメディアデータ等を入力するためのハードディスクドライブ(HDD)、DVD(Digital Video Disc)−RAM/±RW/±Rドライブ等の大容量記憶装置、ネットワーク等を介して情報の授受を行うデータ転送装置等によって実現することが可能である。
文書出力部50は、処理部30により文書体裁が修正された文書データ等を、所定の形式で出力するものである。文書出力部50からは、例えば、紙に印刷された文書、またはPostScript等のページ記述言語やワードプロセッサ出力形式の電子文書データ、あるいは文書のラスタデータ形式のファイルが、出力結果として出力される。そのため、文書出力部50は、例えば、プリンタ装置とその制御装置、磁気ディスクやメモリカード等のリード/ライト装置とその制御装置、またはネットワーク等を介してデータの授受を行うデータ転送装置等によって実現される。
情報出力部60は、復元された付加情報を出力するためのものである。情報出力部60は、例えば、CRT(Cathode Ray Tube)や液晶ディスプレイ等の表示装置とその制御装置、プリンタ装置とその制御装置、磁気ディスクやメモリカード等のリード/ライト装置とその制御装置、またはネットワーク等を介してデータの授受を行うデータ転送装置等によって実現される。
また、処理部30は、演算処理を行うCPU(Central Processing Unit:中央処理装置)31、第1文書入力部10、第2文書入力部20や埋め込み情報入力部40、さらには文書出力部50や情報出力部60といった周辺機器との入出力を管理するI/O回路32、処理プログラムが格納されたROM33、DRAM(Dynamic Random Access Memory)等からなる一次記憶装置としてのRAM34、CPU31で処理された文書データを記憶するハードディスクドライブ装置(HDD)35を含んで構成されている。
次に、本実施の形態の文書処理装置1において実行される情報埋め込み処理について説明する。
文書処理装置1における情報埋め込み処理は、処理部30内に構築された情報埋め込み処理部300で実行される。図2は、情報埋め込み処理部300の機能構成を説明するブロック図である。図2に示したように、情報埋め込み処理部300は、パラメータ値系列抽出部301、符号系列生成部302、情報符号化部303、修正パラメータ値系列生成部304、文書修正部305を備えて構成されている。
パラメータ値系列抽出部301は、第1文書入力部10から入力された電子文書データや文書のラスタデータを解析し、文書上の文字列から得られる文字間隔、文字位置、単語間隔、行間隔、文字高さ、文字幅、文字の傾き等の文書体裁に関するパラメータ値の系列を求めるものである。
符号系列生成部302は、埋め込み情報入力部40から入力される付加情報を符号化した符号化情報を生成するためのものであり、単一の符号系列を生成する。
情報符号化部303は、埋め込み情報入力部40から入力された付加情報を、符号系列生成部302により生成された符号系列によって符号化した符号化情報系列を生成するものである。ここでは、入力された情報に応じて符号系列のシフト量を変えたものを符号化情報系列とする。
修正パラメータ値系列生成部304は、パラメータ値系列抽出部301により求められた入力文書に関するパラメータ値系列の修正を行なうものである。修正パラメータ値系列は、パラメータ値系列の各シンボル値を、情報符号化部303により求められた符号化情報系列の対応するシンボル値に応じて修正することにより得られる。
文書修正部305は、第1文書入力部10から入力された文書の体裁を、修正パラメータ値系列生成部304により求められた修正パラメータ値系列の各シンボル値に応じて修正するものである。そして、ここでは、修正後の文書上の文字列から得られる文字間隔、文字位置、単語間隔、行間隔、文字高さ、文字幅、文字の傾き等の、文書体裁に関するパラメータ値が、修正パラメータ値系列の各シンボル値に等しくなるよう修正される。
続いて、本実施の形態の文書処理装置1で用いられる情報埋め込み処理方法について述べる。図3は、文書処理装置1で実行される情報埋め込み処理の手順の一例を示したフローチャートである。以下に示した例では、埋め込むべき付加情報はnビットの2値データ、情報を埋め込むための文書体裁に関するパラメータとして文字間隔を用いる場合について説明する。
まず、文書入力ステップ(S101)において、第1文書入力部10からパラメータ値系列抽出部301に対して、付加情報の埋め込み対象となる電子文書データが入力される。
次のパラメータ値系列抽出ステップ(S102)において、パラメータ値系列抽出部301は、第1文書入力部10から入力された電子文書データや文書のラスタデータを解析し、文書上の文字列を構成する各文字間の間隔を求め、これを文書体裁に関するパラメータ値の系列とする。
具体的には、図4に示したように、第1文書入力部10から入力された文書上の文字列を構成する各文字間の間隔を並べた系列を、この文書のパラメータ値系列a(k)、(k=0,1,2,・・・,L−1)とする。文字間隔としては文書上のどの位置における文字間隔を用いても良いが、本実施の形態では、文書先頭からL個分(L≧2)の文字間隔を用いるものとする。また、文書上の1行から得られる文字間隔数がL個に満たない場合は、続く複数行から得られる文字間隔パラメータを連結して系列長Lのパラメータ値系列を得るものとする。
ここで、パラメータ値系列抽出ステップ(S102)において、入力される電子文書データがPostScript等のページ記述言語やワードプロセッサ出力形式である場合は、電子文書データを解析することにより文字間隔を直接求めることができる。電子文書データを解析する方法については特定の方法に限定されるものではなく、電子文書データのフォーマットに応じて適当な方法を用いることが可能である。
また、電子文書データがスキャナやデジタルカメラにより撮影された文書のラスタデータである場合は、文字認識の前処理として一般的に行われる文字の切り出し処理を行い、切り出された各文字矩形間の距離を文字間隔とすることができる。文字の切り出し処理についても特定の方法に限定されるものではなく、一般に用いられる適当な手法を用いることが可能である。
なお、本実施の形態では、情報を埋め込むための文書体裁に関するパラメータとして文字間隔を用いるが、パラメータ値としては文字位置、単語間隔、行間隔、文字高さ、文字幅、文字の傾き、さらにはこれらのいくつかを組み合わせたものを利用することも可能である。
次の埋め込み情報符号化ステップ(S103)では、埋め込み情報入力部40から入力されたnビットの2値データを、情報符号化部303にて、符号系列生成部302により生成される符号系列により符号化し、符号化情報系列を求める。ここでは、埋め込み情報入力部40から入力されたnビットの2値データをbで表すこととする。
以下に、埋め込み情報符号化ステップ(S103)において符号化情報系列を求める処理の詳細について説明する。
符号系列生成部302により生成される符号系列は、シンボル値の平均が小さな値で、ランダム性を有するものが用いられる。また、生成される符号系列は図5に示すような鋭い自己相関特性を持つものとする。このような性質を有する公知の符号系列としてはm系列があるが、符号系列生成部302により生成される符号系列はこれらに限るものではなく、上記の性質を有するものであれば良い。
ここでは、符号系列生成部302により生成される符号系列として、1周期の系列長がLのm系列を用いる例について記す。ただし、系列長Lは2以上とする。また、符号系列をpn(k)で表し、そのシンボル値は±1のいずれかをとるものとする。すなわち、符号系列pn(k)は、次式(1)で表される。なお、以下の記載において、式(1)から式(26)は、[数1]から[数26]に対応するものとする。
Figure 2007150606
この符号系列pn(k)を用いてnビットの埋め込み情報bを情報符号化部303にて符号化する。本実施の形態では、図6に示したように、情報の符号化法として、符号系列pn(k)のシフト量で情報を表現する。系列長Lの符号は、シフトゼロからシフトL−1までの、都合L通りの状態を表現し得る。したがって、系列長Lの符号系列pn(k)を用いてlogLビットの情報を符号化できることになる。この原理を利用して埋め込み情報bを符号化した符号化情報系列c(k)を求める。すなわち、符号化情報系列c(k)は、次式(2)で表される。ただし、次式(2)において、符号系列pn(k)は周期Lの周期符号系列(pn(k+L)=pn(k))とみなす。
Figure 2007150606
次の修正パラメータ値系列生成ステップ(S104)では、修正パラメータ値系列生成部304にて、パラメータ値系列抽出ステップ(S102)にて求められた文字間隔の系列a(k)を、埋め込み情報符号化ステップ(S103)で得られた符号化情報系列c(k)に応じて修正した、修正パラメータ値系列d(k)を求める。すなわち、修正パラメータ値系列生成部304において、次式(3)の演算が行なわれる。
Figure 2007150606
式(3)におけるδは情報の埋め込み強度を示す定数であり、小さな値にするほど埋め込み情報の不可視性が高まる。後述するように、本実施の形態では、系列長Lが数百から数千の符号系列を用いた場合、式(3)のδはa(k)の各シンボル値に比べてはるかに小さな値とすることができる。すなわち、整列長の長い符号系列を用いれば、埋め込み情報がほとんど目視により判別することができない程度にまで不可視性を高めることができる。
また、ここで注目すべきは、本実施の形態では、nビットの情報を埋め込むに際して、文字間隔の系列a(k)の変動幅を [−δ,δ]に納めることができることである。つまり、nビットの情報を埋め込むに際して、それに対応したn個の符号化情報系列を多重化する従来の方法では、文字間隔の系列a(k)を[−nδ,nδ]の範囲で変動させる必要があった。これに対して、本実施の形態では文字間隔の系列a(k)の変動幅を従来の1/nにすることができるため、埋め込み情報の不可視性を大幅に改善することが可能となる。
次の文書修正ステップ(S105)では、文書修正部305にて、修正パラメータ値系列生成ステップ(S104)にて求められた修正パラメータ値系列d(k)を用いて、第1文書入力部10から入力された文書データの体裁を修正する。ここでは、図7に示したように、修正後の文書上の文字列から得られる文字間隔が、修正パラメータ値系列d(k)の各シンボル値に等しくなるよう修正される。
文書修正ステップ(S105)においては、元の文書データがPostScript等のページ記述言語やワードプロセッサ出力形式の電子文書データである場合は、文字間隔が修正パラメータ値系列d(k)の各シンボル値に等しくなるよう、電子文書データの記述を修正する。
一方、文書データがスキャナやデジタルカメラにより撮影された文書のラスタデータである場合は、パラメータ値系列抽出ステップ(S102)で行なった文字の切り出し処理の結果を利用し、切り出された各文字矩形間の距離が修正パラメータ値系列d(k)の各シンボル値に等しくなるよう、各文字画像を再配置する。
そして、次の文書出力ステップ(S106)において、文書出力部50から、修正パラメータ値系列d(k)を用いて文字間隔を修正した文書データが紙文書や電子文書データの形式で出力される。
このようにして付加情報が埋め込まれた文書が得られる。本実施の形態の文書処理方法では、情報はバーコードなどで文書に併記されるものと異なり、文字列の文字間隔として文書コンテンツと不可分の形式で埋め込まれる。したがって、機密文書の追跡情報などを埋め込み情報として文書に埋め込んだ場合、流出元の特定を妨害するために埋め込み情報を取り除こうとすると文書コンテンツそのものを失うことになり、高いセキュリティ性が得られる。
また上述したように、本実施の形態で用いられる符号系列は、シンボル値の平均が小さな値で、ランダム性を有するものである。このことを前提に式(3)を眺めると、各文字の間隔a(k)はランダムに広げられたり狭められたりし、かつ、ある一定の範囲(例えば1行)を見れば、修正量の和は小さな値になることがわかる。つまり、修正後の各行の長さは元文書の行の長さとほとんど変わらないため、情報埋め込み処理の不可視性を高めることが可能となる。
さらに本実施の形態の情報埋め込み処理方法は、文字画像そのものに情報を埋め込むものである。そのため、繰り返しコピーをとった場合でも、文字そのものが消えてしまわない限り埋め込み情報が保存され、繰り返しコピーによる画質劣化に対して堅牢である(ロバスト性が高い)という特長も併せ持っている。
ここで、上述した本実施の形態の文書処理装置1での情報埋め込み処理を具体例に基づき説明する。なお、本実施の形態の情報埋め込み処理はかかる具体例に限定されるものではない。
本具体例では、埋め込むべき情報bを3ビットの情報、その値を(b=5)とし、符号系列の系列長Lを15とする簡単な例を示す。なお、本来、埋め込み情報の不可視性を高めるためには、符号系列の系列長Lを数百から数千に設定する必要があるが、ここでは理解を容易にするために、L=15とする。すなわち、本具体例では次式(4)を用いるものとする。
Figure 2007150606
この符号系列pn(k)と埋め込み情報bから、符号化情報系列c(k)は式(2)に従って次式(5)のようになる。
Figure 2007150606
求められた符号化情報系列c(k)を用いて、入力文書に対するパラメータ値系列である文字間隔a(k)を式(3)に従って修正する。文字間隔a(k)は例えば次式(6)のようなものであるとする。
Figure 2007150606
このように、文字間隔は等間隔である必要はなく、文字列が見た目に自然に見えるように前後の文字に合わせて文字間隔を調節した、所謂カーニングの施されたものであっても良い。
また、情報の埋め込み強度は、δ=2とする。符号系列の系列長Lを数百から数千とすれば、情報の埋め込み強度として小さな値を設定し、埋め込み情報の不可視性を高めることができる。しかし、この例では系列長L=15と小さいので、情報の埋め込み強度はある程度大きな値にする必要がある。
これらの前提の下に、修正パラメータ値系列d(k)を式(3)に従って求めると次式(7)のようになる。
Figure 2007150606
最後に、文書の文字間隔が上記の式(7)のd(k)となるように対応する文字の配置を修正し、紙文書や電子文書データの形式で出力する。なお、付加情報が埋め込まれた文書から元の3ビットの情報を復元する処理の具体例は後述する。
続いて、本実施の形態の文書処理装置1において実行される埋め込み情報復元処理について説明する。
文書処理装置1における埋め込み情報復元処理は、処理部30内に構築された埋め込み情報復元処理部350で実行される。図8は、埋め込み情報復元処理部350の機能構成を説明するブロック図である。図8に示したように、埋め込み情報復元処理部350は、パラメータ値系列抽出部301、符号系列群生成部307、埋め込み情報復元部306を備えて構成されている。
パラメータ値系列抽出部301は、第2文書入力部20(図1も参照)から入力された、付加情報の埋め込まれた文書のラスタデータや電子文書データを解析し、文書上の文字列から得られる文字間隔、文字位置、単語間隔、行間隔、文字高さ、文字幅、文字の傾き、等の文書体裁に関するパラメータ値の系列を求めるものである。
符号系列群生成部307は、上述した情報埋め込み処理部300で生成されたものと同一の符号系列と、そのシフトバージョンを生成するためのものであり、符号系列の生成部は情報埋め込み処理部300と同一の構成をとることができる。
埋め込み情報復元部306は、パラメータ値系列抽出部301により抽出された、付加情報の埋め込まれた文書の文書体裁に関するパラメータ値系列から、埋め込み情報を復元するためのものである。このパラメータ値系列に対して、符号系列群生成部307により生成されたそれぞれの符号系列との間で復号処理を行うことにより、埋め込まれた付加情報を復元する。
ここで、本実施の形態の埋め込み情報復元処理部350は、付加情報が埋め込まれ、紙に出力された文書の画像から、埋め込み情報を復元することを目的とするが、紙に出力する前のPostScript等のページ記述言語やワードプロセッサ出力形式の電子文書データからも埋め込み情報を復元することができる。したがって、第2文書入力部20から入力される文書データはラスタデータに限るものではなく、ページ記述言語やワードプロセッサ出力形式の電子文書データであっても良い。
続いて、本実施の形態の文書処理装置1で用いられる埋め込み情報復元処理方法について述べる。図9は、文書処理装置1で実行される埋め込み情報復元処理の手順の一例を示したフローチャートである。以下では、上述した情報埋め込み処理手順で紙文書に埋め込まれたnビットの埋め込み情報bを復元する場合を例にとり説明する。入力となる紙文書は繰り返しコピーによる画質劣化を含むものとする。
まず、文書入力ステップ(S201)において、情報埋め込み済みの紙文書を、スキャナやデジタルカメラのような第2文書入力部20から入力する。
次のパラメータ値系列抽出ステップ(S202)において、第2文書入力部20から得られた文書のラスタデータを解析し、文書上の文字列を構成する各文字間の間隔を求め、これを文書体裁に関するパラメータ値の系列とする。
本実施の形態では、付加情報の埋め込まれた紙に出力された文書の画像から埋め込み情報を復元する場合について説明するが、紙に出力する前のPostScript等のページ記述言語やワードプロセッサ出力形式の電子文書データを入力データとしても良い。いずれの場合についても、文字間隔系列の抽出方法は上述した情報埋め込み時と同様であるため、説明は省略する。
パラメータ値系列抽出ステップ(S202)で得られた文字間隔の系列a’(k)は、上記した式(3)を用いて次式(8)のように書くことができる。
Figure 2007150606
式(8)におけるe(k)は繰り返しコピーによる文字の太りや細り、あるいは文字上のノイズや荒れによる誤差成分、および文字間隔検出処理の検出誤差成分を表す。
次の符号系列群生成ステップ(S203)において、情報埋め込み時に使用されたものと同一の符号系列と、そのシフトバージョンが、符号系列群生成部307により生成される。生成される符号系列は上記した式(1)に示したものと同一であるため説明は省略する。
次の埋め込み情報復元ステップ(S204)では、文字間隔の系列a’(k)から埋め込んだnビットの埋め込み情報bが復元される。ここでの埋め込み情報復元処理の詳細を、図10(埋め込み情報復元ステップ(S204)における処理の手順の一例を示したフローチャート)を用いて説明する。
図10のフローチャートに示したように、符号系列群生成部307では、初期設定が行われた後(S301)、上述した情報埋め込み処理部300で生成されたものと同一の符号系列と、そのシフトバージョンが生成され、その各々と文字間隔の系列a’(k)との相関値が求められる(S302)。文字間隔の系列a’(k)とシフト量iを持つ符号系列pn(k+i)との相関値R(i)は次式(9)のように書ける。
Figure 2007150606
この相関値R(i)が最大値となるシフト量imaxを求めれば(S303〜S306)、そのシフト量imaxが埋め込んだ情報bに相当する。
このことを説明するため、式(9)を式(2)と式(8)とを用いて次式(10)のように書き換える。
Figure 2007150606
ここで、上記した式(10)の最終行の第2項に着目する。第2項は符号系列pn(k)の自己相関値である。符号系列としては、図5に示すような鋭い自己相関特性を持つものを使用することは既に述べた。つまり、式(10)の最終行の第2項が大きな値をとるのはi=bの時のみであり、それ以外の場合は非常に小さな値になることを意味する。実際、本実施の形態において符号系列群として使用したm系列とそのシフトバージョンの間の相互相関値は、次のような性質を持つことが知られている。すなわち、式(10)の最終行の第2項は、次式(11)のように表される。
Figure 2007150606
符号系列の系列長Lは数百から数千のものを用いるため、情報の埋め込み強度δの値を適切に設定すれば、式(11)の最終行の第2項はi=bのときのみ非常に大きな値をとる(図11参照)。
それに対して、式(11)の最終行の第1項と第3項とはそれぞれ、文字間隔の系列および誤差成分と、符号系列との相互相関値を表しており、第2項と比較するとその絶対値ははるかに小さな値となる。なぜなら既に述べたように、符号系列はシンボル値の平均が小さな値で、ランダム性を有するため、自身以外のいかなる信号とも低相関となるからである。
さらに第1項は、情報埋め込みの対象となる元文書の文字間隔が等間隔である必要はなく、文字列が見た目に自然に見えるように前後の文字に合わせて文字間隔を調節した、所謂カーニングの施されたものであっても良いことを示している。第1項におけるa(k)は元文書の文字間隔の系列を表しているが、これがkにより様々な値をとるものであっても、符号系列の持つ上記の性質により低相関となるためである。
以上から、符号系列の系列長Lが十分大きく、情報の埋め込み強度δが適切に設定されていれば、式(9)の相関値R(i)は、シフト量b(=imax)の符号系列に対してのみ大きな値となることがわかる。これにより埋め込み情報の復元値はb=imaxとなる。
このようにして埋め込み情報復元部306により復元された埋め込み情報は、情報出力部60から出力される(S205)。
ここで、上述した本実施の形態の文書処理装置1での埋め込み情報復元処理を具体例に基づき説明する。なお、本実施の形態の埋め込み情報復元処理はかかる具体例に限定されるものではない。
本具体例では、上述した情報埋め込み処理の具体例で得られた情報埋め込み済みの文書を繰り返しコピーし、画質劣化の発生した文書から、元の3ビットの情報を復元する手順を示す。
上述した情報埋め込み処理の具体例では、情報が埋め込まれた文書の文字間隔系列d(k)は、上記した式(7)に示されるものであった。この文書を繰り返しコピーしたものから文字間隔を検出した系列a’(k)には、繰り返しコピーによる文字の太りや細り、あるいは文字上のノイズや荒れによる誤差成分、および文字間隔検出処理の検出誤差成分を表す成分e(k)が含まれることは式(8)で説明した。
そこで、この誤差成分e(k)が次のようなものであったとする。
Figure 2007150606
そうすると、繰り返しコピーした文書から検出される文字間隔の系列a’(k)は、式(8)に式(7)と式(12)を代入して次式(13)のようになる。
Figure 2007150606
検出された文字間隔の系列a’(k)と、様々なシフト量を持つ符号系列との相互相関値を式(9)により求めると、最大相関値を持つ符号系列のシフト量imaxが埋め込んだ情報bとなる。図12に式(13)の文字間隔の系列a’(k)と式(5)の符号系列、およびそのシフトバージョンとの間の相互相関値を示す。
図12に示した結果より、シフト量が5の時に最大相関値が得られ、3ビットの埋め込み情報b=5が復元された。
以上説明したように、本実施の形態の文書処理装置1では、情報埋め込みの対象となる電子文書データ、または文書画像を入力し、入力された文書上の文字列から文書体裁に関するパラメータ値の系列を求める。次に、埋め込み情報をシフト量として、所定の符号系列をシフトさせた符号系列を生成し、これを符号化情報系列とする。そして、この符号化情報系列とパラメータ値系列を合成した、修正パラメータ値系列を求め、電子文書データ、または文書画像の文書体裁を、修正パラメータ値系列に応じて変更することにより、文書に情報を埋め込んでいる。
また、情報が埋め込まれた文書画像、または電子文書データを入力し、入力された文書上の文字列から文書体裁に関するパラメータ値系列を求める。次に、このパラメータ値系列と、所定の符号系列およびそのシフトバージョンとの間の相関値を求める。そして、最大相関値が得られた符号系列のシフト量を埋め込んだ情報とし、情報を復元している。
それにより、本実施の形態の文書処理装置1では、文書のデジタルデータだけでなく、紙に印刷された文字文書中にも追跡情報などの付加情報を埋め込むことができる。
また、付加情報は文書上の文字列から得られる文字間隔、文字位置、単語間隔、行間隔、文字高さ、文字幅等、文書体裁に関する文書コンテンツ自体のパラメータ値に直接埋め込まれるため、文書コンテンツと不可分であり、情報の改ざん・除去を困難にすることができる。
特に、本実施の形態の文書処理装置1では、nビットの付加情報を文字列に埋め込む際に、1個の符号化情報系列のみを用いている。それにより、符号化後の付加情報の振幅を極めて小さくすることができる。そのため、埋め込み情報の不可視性が高く、情報の解読・改ざん・除去を困難にすることが可能となる。
さらに、符号系列による復号処理の結果、文書体裁に関するパラメータ値や繰り返しコピーに起因する画像劣化成分など、付加情報以外の成分は大幅に低減される。したがって、カーニング処理の施された文書や、繰り返しコピーした紙文書からも安定して埋め込み情報を復元することができる。
[実施の形態2]
実施の形態1では、情報埋め込み処理部300において、nビットの埋め込み情報bを1つの符号系列pn(k)で符号化した符号化情報系列c(k)を生成し、これを修正パラメータ値系列生成部304により文書体裁に関するパラメータ値の系列a(k)に埋め込む処理を行なう場合について説明した。実施の形態2では、より多ビットの情報を埋め込む場合であって、埋め込み情報bを複数の部分埋め込み情報系列に分割し、それぞれの部分埋め込み情報系列を符号化し、これを連結したものを符号化情報系列c(k)として情報埋め込み処理を行なう場合について説明する。なお、実施の形態1と同様な構成については同様な符号を用い、ここではその詳細な説明を省略する。
本実施の形態の情報埋め込み処理について図13を用いて説明する。本実施の形態では、入力される埋め込むべき情報がm×nビット長であるとしたとき、埋め込み情報入力部40はこれをnビットの部分埋め込み情報系列bに分割して、情報符号化部303に出力する。すなわち、部分埋め込み情報系列bは、次式(14)で表される。なお、ここでは、埋め込み情報入力部40が部分情報生成部としても機能する。
Figure 2007150606
このようにして求めた部分埋め込み情報系列bを、情報符号化部303にて、上記した式(2)と同様の方法により、符号系列生成部302により生成された符号系列により符号化し、部分符号化情報系列c(k)を求める。すなわち、部分符号化情報系列c(k)は次式(15)のように表される。
Figure 2007150606
上記した式(15)におけるLは、符号系列pn(k)の系列長である。したがって、部分符号化情報系列c(k)の系列長もそれぞれLとなる。このようにして求めた部分符号化情報系列c(k)を連結して、系列長m×Lの符号化情報系列c(k)を構成する。すなわち、符号化情報系列c(k)は次式(16)のように表される。
Figure 2007150606
そして、修正パラメータ値系列生成部304にて、上記した式(16)の符号化情報系列c(k)を、系列長m×Lの文書体裁に関するパラメータ値の系列a(k)に埋め込み(式(3)参照)、修正パラメータ値系列d(k)を求める。さらに、文書修正部305においては、修正パラメータ値系列d(k)を用いて、第1文書入力部10から入力された文書データの体裁を修正する。その後、修正された文書データは、文書出力部50から出力される。
一方、本実施の形態において埋め込まれた情報を復元するには、情報埋め込み済の文書から文書体裁に関するパラメータ値の系列a’(k)を求め、これを長さLの部分パラメータ値系列a’(k)に分割する。すなわち、部分パラメータ値系列a’(k)は、次式(17)のように表される。なお、ここでは、パラメータ値系列抽出部301が部分パラメータ値系列抽出部として機能する。
Figure 2007150606
次に、それぞれの部分パラメータ値系列a’(k)に対して実施の形態1と同様の埋め込み情報復元処理を行い、nビットの部分埋め込み情報系列bを復元する。これらを連結して、系列長m×nの埋め込み情報b(式(18))を復元することができる。
Figure 2007150606
本実施の形態の情報埋め込み処理方法においては、系列長Lの符号系列をm個利用して、系列長m×Lの文書体裁に関するパラメータ値系列へ情報を埋め込んでいる。系列長Lの符号系列は最大logLビットの情報を表現できるから、系列長Lの符号系列m個を用いて系列長m×Lのパラメータ値系列へ情報を埋め込んだ場合、最大mlogLビットの情報を埋め込むことができる。
これに対して、実施の形態1のように単一の符号系列を用いる場合は、系列長m×Lのパラメータ値系列に対して用いることのできる符号系列の長さはm×Lとなるため、この符号系列が表現できる情報は最大logm×L=logm+logLビットとなる。
m≧2に対しては常にmlogL≧(logm+logL)となるため、本実施の形態のように埋め込み情報を部分系列に分解することにより、同じ長さのパラメータ値系列に、より多くの情報を埋め込むことが可能となる。
[実施の形態3]
実施の形態2では、情報埋め込み処理部300において、埋め込み情報bを複数の部分埋め込み情報系列に分割して、それぞれの部分符号化情報系列c(k)を求め、これらを連結して得た系列長m×Lの符号化情報系列c(k)をパラメータ値の系列a(k)に埋め込む処理を行なう場合について説明した。実施の形態3では、部分符号化情報系列を連結する代わりに、部分符号化情報系列を多重化することにより系列長Lの符号化情報系列c(k)を生成して、情報埋め込み処理を行なう場合について説明する。なお、実施の形態1と同様な構成については同様な符号を用い、ここではその詳細な説明を省略する。
本実施の形態の情報埋め込み処理では、情報符号化部303において、生成した部分符号化情報系列を多重化するために、部分埋め込み情報系列bの符号化にそれぞれ異なる符号系列pn(k)を使用する。それにより、部分符号化情報系列c(k)は、次式(19)のように表される。
Figure 2007150606
上記した式(19)における符号系列pn(k)は、シンボル値の平均が小さな値で、ランダム性を有するものが用いられる。また、生成される符号系列は図5に示すような鋭い自己相関特性を持つものとする。さらに使用される符号系列群は互いに直交性を有するものとする。情報符号化部303では、このようにして求めた部分符号化情報系c(k)を多重化して、系列長Lの符号化情報系列c(k)を構成する。すなわち、符号化情報系列c(k)は次式(20)のように表される。
Figure 2007150606
そして、上記した式(20)の符号化情報系列c(k)を、系列長Lの文書体裁に関するパラメータ値の系列a(k)に埋め込み(式(3)参照)、修正パラメータ値系列d(k)を求める。さらに、文書修正部305においては、修正パラメータ値系列d(k)を用いて、第1文書入力部10から入力された文書データの体裁を修正する。その後、修正された文書データは、文書出力部50から出力される。
一方、埋め込まれた情報を復元するには、情報埋め込み済の文書から文書体裁に関するパラメータ値の系列a’(k)を求め、シフト量を変えながら各符号系列との相関値を求める。パラメータ値の系列a’(k)におけるシフト量iを持つq番目の符号系列との相関値をR(q,i)と表記することとすると、以下の式(21)のようになる。
Figure 2007150606
上記した式(21)は、さらに次式(22)のように書き換えられる。
Figure 2007150606
ここで、上記した式(22)の最終行の第2項に着目する。符号系列群としては、互いに直交性を有するものを使用し、かつ各々の符号系列は図5に示すような鋭い自己相関特性を持つことは既に述べた。つまり、上記した式(23)の第2項が大きな値をとるのはj=qかつb=iの時のみであり、それ以外の場合は非常に小さな値になることを意味する。
したがって、パラメータ値の系列a’(k)と符号系列群内の各符号系列との相関値を、シフト量を変えながら求め、最大相関が得られるシフト量imaxを求めれば、b=imaxとして部分埋め込み情報系列bを復元することができる。これらを連結して、系列長m×nの埋め込み情報b(式(23))を復元することができる。
Figure 2007150606
符号系列のシフト量として情報を埋め込む本実施の形態の情報埋め込み処理方法では、生成される部分符号化情報系列c(k)の振幅が小さいため、それらを多重化して符号化情報系列c(k)を構成しても高い不可視性を維持することができる。上述した実施の形態2の場合と比較して、多重化をすることにより符号化情報系の系列長を短くすることができるので、短い文字列中により多くの情報を、不可視性を大きく損なうことなく埋め込むことが可能となる。
[実施の形態4]
実施の形態2では、情報埋め込み処理部300において、埋め込み情報bを複数の部分埋め込み情報系列に分割して、それぞれの部分符号化情報系列c(k)を求め、これらを連結して得た系列長m×Lの符号化情報系列c(k)をパラメータ値の系列a(k)に埋め込む処理を行なう場合について説明した。本実施の形態では、実施の形態2のようにして求めた系列長m×Lの符号化情報系列c(k)を、さらに周期的に繰り返して、文書体裁に関するパラメータ値の系列a(k)に埋め込む処理を行なう場合について説明する。なお、実施の形態1と同様な構成については同様な符号を用い、ここではその詳細な説明を省略する。
本実施の形態では、情報符号化部303にて複数の部分符号化情報系列を連結して符号化情報系列c(k)を生成し、修正パラメータ値系列生成部304にて符号化情報系列c(k)を周期的に繰り返して文書体裁に関するパラメータ値の系列a(k)に埋め込む。ここでは、一例として、3つの部分符号化情報系列c、c、cを連結して符号化情報系列c(k)を生成し、これを周期的に繰り返して文書体裁に関するパラメータ値の系列a(k)に埋め込む場合について示す。すなわち、符号化情報系列c(k)は、情報符号化部303にて次式(24)のように形成される。
Figure 2007150606
一方、部分パラメータ値系列から埋め込んだ情報を復元するためには、最低3Lの長さの部分パラメータ値系列が得られれば良い。本実施の形態では系列長6Lの部分パラメータ値系列が得られた場合について述べる。この場合には、この部分パラメータ値系列には、図14に示すように、2周期分の符号化情報系列c(k)が埋め込まれていることになる。
実施の形態2での手順に従えば、ここから3種類の部分埋め込み情報系列b、b、bを復元することができるが、それらが部分埋め込み情報系列b、b、bのどれに対応するかを判別することはできない。したがって、埋め込んだ情報bは次式(25)に示すように3通りの可能性を持つ。
Figure 2007150606
埋め込んだ情報bの正しい順番を知るために、埋め込み情報bに誤り検出符号などを適用することができるが、その場合には、誤り検出ビットとして数ビットを割り当てる必要があるため、埋め込むことのできる情報ビット数が減少してしまう。
そこで、本実施の形態では、図14に示すような同期用符号を、周期的に符号化情報系列c(k)に多重化してパラメータ値系列に埋め込む。同期用符号はシンボル値の平均が小さな値で、ランダム性を有し、かつ図5に示すような鋭い自己相関特性を持つものとする。
埋め込み情報bを復元する際には、まず実施の形態2での埋め込み情報復元処理方法により、部分埋め込み情報系列b、b、bを復元する。
次に、同期用符号のシフト量を変えながら最大相関が得られる位置を検出する。同期用符号は図5に示すような鋭い自己相関特性を持つため、シフトゼロの位置でのみ大きな相関値を発生する。従って、この位置からc、c、cの順に部分符号化情報系列が配置されていることがわかるため、次のようにして埋め込み情報b(式(26))を復元することができる。
Figure 2007150606
本実施の形態の情報埋め込み処理方法によれば、文書全体を入手できず、文書の一部しか入手できない場合でも、符号化情報系列c(k)の1周期が検出できるだけの長さのパラメータ値系列が得られれば、そこから埋め込んだ情報を復元することが可能となる。
また、検出される部分埋め込み情報系列の正しい順序を、誤り検出ビット等を付加することなく知ることができるため、より多くの情報を埋め込むことができる。
本発明が適用される文書処理装置の構成を示したブロック図である。 情報埋め込み処理部の機能構成を説明するブロック図である。 文書処理装置で実行される情報埋め込み処理の手順の一例を示したフローチャートである。 文書上の文字列を構成する各文字間の間隔を用いた文書のパラメータ値系列a(k)を説明する図である。 符号系列群生成部により生成される符号系列の自己相関特性を示した図である。 情報符号化部にて符号化される符号系列pn(k)において、埋め込み情報をシフト量により表現することを説明する図である。 修正後の文書上の文字列から得られる文字間隔が、修正パラメータ値系列d(k)の各シンボル値に等しくなるよう修正された状態を示す図である。 埋め込み情報復元処理部の機能構成を説明するブロック図である。 文書処理装置で実行される埋め込み情報復元処理の手順の一例を示したフローチャートである。 埋め込み情報復元ステップにおける処理の手順の一例を示したフローチャートである。 式(11)最終行の第2項はi=bのときのみ非常に大きな値をとることを説明する図である。 式(13)の文字間隔の系列a’(k)と式(5)の符号系列、およびそのシフトバージョンとの間の相互相関値を示した図である。 実施の形態2での情報埋め込み処理を説明する図である。 実施の形態4にて、同期用符号が周期的に多重化された符号化情報系列c(k)をパラメータ値系列に埋め込む状態を説明する図である。
符号の説明
1…文書処理装置、10…第1文書入力部、20…第2文書入力部、30…処理部、31…CPU(中央処理装置)、32…I/O回路、33…ROM、34…RAM、35…ハードディスクドライブ装置(HDD)、40…埋め込み情報入力部、50…文書出力部、60…情報出力部、300…情報埋め込み処理部、301…パラメータ値系列抽出部、302…符号系列生成部、303…情報符号化部、304…修正パラメータ値系列生成部、305…文書修正部、306…埋め込み情報復元部、307…符号系列群生成部、350…埋め込み情報復元処理部

Claims (12)

  1. 文字列からなる文書データに付加情報を埋め込むことが可能な文書処理装置であって、
    入力された前記文書データから前記文字列における文書体裁に関するパラメータ値系列を抽出するパラメータ系列抽出部と、
    前記文書データに埋め込む付加情報を入力する情報入力部と、
    所定の符号系列を生成する符号系列生成部と、
    前記情報入力部から入力された前記付加情報をシフト量として、前記符号系列生成部により生成された前記所定の符号系列を当該シフト量だけシフトさせた符号化情報系列を生成する情報符号化部と、
    前記パラメータ値系列に前記符号化情報系列を合成した修正パラメータ値系列を生成する修正パラメータ系列生成部と、
    生成された前記修正パラメータ値系列により前記文書データを修正する文書修正部と
    を備えたことを特徴とする文書処理装置。
  2. 前記符号系列生成部で生成された前記所定の符号系列と同一の符号系列と当該符号系列のシフトバージョンとを生成する符号系列群生成部と、
    前記パラメータ系列抽出部により抽出された前記パラメータ値系列と、前記符号系列群生成部により生成された前記符号系列および当該符号系列のシフトバージョンとの相関値に基づき、前記文書データに埋め込まれた付加情報を復元する情報復元部とをさらに備えたことを特徴とする請求項1記載の文書処理装置。
  3. 前記情報入力部から入力された前記付加情報を分割して複数の部分付加情報を生成する部分情報生成部をさらに備え、
    前記情報符号化部は、前記部分情報生成部で生成された前記部分付加情報毎の部分符号化情報系列を生成し、さらに当該部分符号化情報系列を連結して前記符号化情報系列を生成することを特徴とする請求項1記載の文書処理装置。
  4. 前記符号系列生成部で生成された前記所定の符号系列と同一の符号系列と当該符号系列のシフトバージョンとを生成する符号系列群生成部と、
    前記パラメータ系列抽出部にて抽出された前記パラメータ値系列を分割して複数の部分パラメータ値系列を生成する部分パラメータ値系列生成部と、
    前記部分パラメータ値系列生成部にて生成された前記部分パラメータ値系列と、前記符号系列群生成部により生成された前記符号系列および当該符号系列のシフトバージョンとの相関値に基づき、当該部分パラメータ値系列毎に埋め込まれた付加情報を復元し、さらに復元された当該部分パラメータ値系列毎の付加情報を連結して前記文書データに埋め込まれた情報を復元する情報復元部とをさらに備えたことを特徴とする請求項3記載の文書処理装置。
  5. 前記情報入力部から入力された前記付加情報を分割して複数の部分付加情報を生成する部分情報生成部をさらに備え、
    前記符号系列生成部は、前記部分情報生成部により生成された前記部分付加情報毎に固有の前記符号系列を生成し、前記情報符号化部は、当該部分付加情報毎の当該符号系列により当該部分付加情報毎の部分符号化情報系列を生成し、さらに当該部分符号化情報系列を多重化して前記符号化情報系列を生成することを特徴とする請求項1記載の文書処理装置。
  6. 前記符号系列生成部で生成された前記部分付加情報毎の固有の前記符号系列と同一の符号系列と、当該符号系列のシフトバージョンとを生成する符号系列群生成部と、
    前記パラメータ系列抽出部にて抽出された前記パラメータ値系列を分割して複数の部分パラメータ値系列を生成する部分パラメータ値系列生成部と、
    前記部分パラメータ値系列生成部で生成された前記部分パラメータ値系列と、前記符号系列群生成部で生成された前記符号系列および当該符号系列のシフトバージョンとの相関値に基づき、当該部分パラメータ値系列毎に埋め込まれた付加情報を復元し、さらに当該部分パラメータ値系列毎に埋め込まれた付加情報を連結して前記文書データに埋め込まれた情報を復元する情報復元部とをさらに備えたことを特徴とする請求項5記載の文書処理装置。
  7. 前記情報入力部から入力された前記付加情報を分割して複数の部分付加情報を生成する部分情報生成部をさらに備え、
    前記情報符号化部は、前記部分情報系列生成部で生成された前記部分付加情報毎の部分符号化情報系列を周期的に反復して生成し、さらに当該部分符号化情報系列を連結して前記符号化情報系列を生成するとともに、当該符号化情報系列に同期させた同期用符号を生成し、前記修正パラメータ系列生成部は、当該同期用符号を前記修正パラメータ値系列に多重化させることを特徴とする請求項1記載の文書処理装置。
  8. 入力された前記文書データから前記文字列における文書体裁に関するパラメータ値系列を抽出するパラメータ系列抽出部と、
    前記パラメータ系列抽出部にて抽出された前記パラメータ値系列を分割して複数の部分パラメータ値系列を生成する部分パラメータ値系列生成部と、
    前記符号系列生成部で生成された前記所定の符号系列と同一の符号系列と当該符号系列のシフトバージョン、および前記符号化情報系列に同期させた同期用符号と同一の符号系列と当該符号系列のシフトバージョンとを生成する符号系列群生成部と、
    前記部分パラメータ値系列生成部で生成された前記部分パラメータ値系列と、前記符号系列群生成部で生成された前記符号系列および当該符号系列のシフトバージョンとの相関値に基づき、当該部分パラメータ値系列毎に埋め込まれた付加情報を復元するとともに、前記パラメータ値系列と、前記同期用符号系列と当該符号系列のシフトバージョンとの相関値に基づき、当該パラメータ値系列毎に埋め込まれた同期用符号系列の位置を検出し、検出された当該同期用符号系列位置と前記部分パラメータ値系列との位置関係を検出して当該部分パラメータ値系列の当該付加情報の順番を決定し、当該部分パラメータ値系列の当該付加情報を当該順番に従って連結して前記文書データに埋め込まれた付加情報を復元する情報復元部とをさらに備えたことを特徴とする請求項7記載の文書処理装置。
  9. 文字列からなる文書データに付加情報を埋め込むことが可能な文書処理方法であって、
    文字列からなる文書データを入力し、
    入力された前記文書データから前記文字列における文書体裁に関するパラメータ値系列を抽出し、
    前記文書データに埋め込む付加情報をシフト量として、所定の符号系列を当該シフト量だけシフトさせた符号化情報系列を生成し、
    前記パラメータ値系列に前記符号化情報系列を合成した修正パラメータ値系列を生成し、
    前記修正パラメータ値系列により前記文書データを修正することを特徴とする文書処理方法。
  10. 前記付加情報を分割して複数の部分付加情報を生成し、
    前記部分付加情報毎の部分符号化情報系列を生成し、さらに当該部分符号化情報系列を連結して前記符号化情報系列を生成し、当該符号化情報系列を用いて前記文書データを修正することを特徴とする請求項9記載の文書処理方法。
  11. 付加情報が埋め込まれた文書データから当該付加情報を復元することが可能な文書処理方法であって、
    文字列からなる文書データを入力し、
    入力された前記文書データから前記文字列における文書体裁に関するパラメータ値系列を抽出し、
    前記付加情報が埋め込まれた際に使用された符号系列と同一の符号系列と当該符号系列のシフトバージョンとを生成し、
    前記パラメータ値系列と、前記符号系列および当該符号系列のシフトバージョンとの相関値に基づき、前記文書データに埋め込まれた付加情報を復元することを特徴とする文書処理方法。
  12. 抽出された前記パラメータ値系列を分割して複数の部分パラメータ値系列を生成し、
    生成された前記部分パラメータ値系列と、前記符号系列および当該符号系列のシフトバージョンとの相関値に基づき、当該部分パラメータ値系列毎の付加情報を復元し、さらに復元された当該部分パラメータ値系列毎の付加情報を連結して前記文書データに埋め込まれた付加情報を復元することを特徴とする請求項11記載の文書処理方法。
JP2005341139A 2005-11-25 2005-11-25 文書処理装置および文書処理方法 Expired - Fee Related JP4613807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005341139A JP4613807B2 (ja) 2005-11-25 2005-11-25 文書処理装置および文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005341139A JP4613807B2 (ja) 2005-11-25 2005-11-25 文書処理装置および文書処理方法

Publications (2)

Publication Number Publication Date
JP2007150606A true JP2007150606A (ja) 2007-06-14
JP4613807B2 JP4613807B2 (ja) 2011-01-19

Family

ID=38211500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005341139A Expired - Fee Related JP4613807B2 (ja) 2005-11-25 2005-11-25 文書処理装置および文書処理方法

Country Status (1)

Country Link
JP (1) JP4613807B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118327A (ja) * 2007-11-08 2009-05-28 Fuji Xerox Co Ltd 画像形成装置、プログラム、および媒体
JP2010044559A (ja) * 2008-08-12 2010-02-25 Chugoku Electric Power Co Inc:The ファイルアクセス管理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11145840A (ja) * 1997-09-02 1999-05-28 Sony Corp 送信及び/又は記録装置、受信及び/又は再生装置、送受信/記録再生装置、送受信システム、送信及び/又は記録方法、受信及び/又は再生方法、伝送方法、並びに、記録媒体
JP2002101397A (ja) * 2000-06-28 2002-04-05 Sony Corp 付加情報埋め込み装置及び付加情報埋め込み方法、並びに記録媒体
JP2004104494A (ja) * 2002-09-10 2004-04-02 Canon Inc 電子透かし埋め込み装置及びその制御方法
JP2004522384A (ja) * 2001-07-27 2004-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号への補助データの埋め込み

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11145840A (ja) * 1997-09-02 1999-05-28 Sony Corp 送信及び/又は記録装置、受信及び/又は再生装置、送受信/記録再生装置、送受信システム、送信及び/又は記録方法、受信及び/又は再生方法、伝送方法、並びに、記録媒体
JP2002101397A (ja) * 2000-06-28 2002-04-05 Sony Corp 付加情報埋め込み装置及び付加情報埋め込み方法、並びに記録媒体
JP2004522384A (ja) * 2001-07-27 2004-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号への補助データの埋め込み
JP2004104494A (ja) * 2002-09-10 2004-04-02 Canon Inc 電子透かし埋め込み装置及びその制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118327A (ja) * 2007-11-08 2009-05-28 Fuji Xerox Co Ltd 画像形成装置、プログラム、および媒体
JP2010044559A (ja) * 2008-08-12 2010-02-25 Chugoku Electric Power Co Inc:The ファイルアクセス管理システム

Also Published As

Publication number Publication date
JP4613807B2 (ja) 2011-01-19

Similar Documents

Publication Publication Date Title
JP3628312B2 (ja) 透かし情報埋め込み装置,及び,透かし情報検出装置
US8427509B2 (en) Method for embedding messages into documents using distance fields
JP4277800B2 (ja) 透かし情報検出方法
US20040001606A1 (en) Watermark fonts
US8014559B2 (en) Information embedding apparatus, information embedding method, information extracting apparatus, information extracting method, computer program product
JP4400565B2 (ja) 透かし情報埋め込み装置及び、透かし情報検出装置
JP2007226678A (ja) 同定機能付き印刷物、画像生成装置、画像処理装置及びその方法
KR20070052332A (ko) 화상 처리 방법 및 화상 처리 장치
JP4613807B2 (ja) 文書処理装置および文書処理方法
Varna et al. Data hiding in hard-copy text documents robust to print, scan and photocopy operations
JP2007088693A (ja) 画像処理システム,改ざん検証装置,改ざん検証方法およびコンピュータプログラム
KR100467930B1 (ko) 텍스트 문서로/로부터 워터마크를 삽입 및 추출하는방법과 그 장치
JP2008085579A (ja) 情報埋め込み装置、情報読み取り装置、情報埋め込み方法、情報読み取り方法、およびコンピュータプログラム
WO2015038063A1 (en) Method and system for embedding data in a text document
JP2007174181A (ja) 文書処理装置、文書処理方法および文書処理プログラム
CN110378829B (zh) 信息提供和水印提取的方法、装置及设备
JP2006261974A (ja) 情報埋め込み方法、情報復元方法、情報埋め込み装置及び情報復元装置
Pamboukian et al. Reversible data hiding and reversible authentication watermarking for binary images
JP4192906B2 (ja) 透かし情報検出装置及び透かし情報検出方法
KR100938539B1 (ko) 정보 처리 장치 및 그 방법
JP2005142969A (ja) 画像処理システム
JP4260076B2 (ja) 文書作成装置、文書検証装置、文書作成方法、文書検証方法、文書作成プログラム、文書検証プログラム、文書作成プログラムを格納した記録媒体、および文書検証プログラムを格納した記録媒体
JP4575873B2 (ja) 画像処理装置
JP2006270434A (ja) 情報埋め込み方法、情報復元方法、情報埋め込み装置及び情報復元装置
Garg et al. Identifying the Leak Sources of Hard Copy Documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101004

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees