JP4164458B2

JP4164458B2 - 情報処理装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体

Info

Publication number: JP4164458B2
Application number: JP2004064492A
Authority: JP
Inventors: 貴巳江口
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-03-08
Filing date: 2004-03-08
Publication date: 2008-10-15
Anticipated expiration: 2024-03-08
Also published as: JP2005253004A

Description

本発明は、文書画像への情報の埋め込み、並びに、埋め込まれた情報を抽出する技術に関するものである。

近年、文字データ、画像データ、音声データなどメディアの電子化やネットワーク化が促進されていくなかで、デジタルデータそのものの不正コピー防止や、デジタルデータとメタデータの関連付けが求められている。

一方、文書・画像において配布形態は依然として印刷物で行われることが多い。このように、デジタルデータと印刷物とが併用されているので、デジタルデータを印刷物として配布する際の配布先の形態や、印刷物とデジタルデータとをリンクさせるような何らかの手段が求められてきている。

このような状況において、静止画などの多値画像や文書画像については、電子透かしによって透かし情報を埋め込む手法が提案されてきており、注目されている。電子透かしによる埋め込みとは、ディジタルの画像データや音声データ、文字データなどに人に知覚出来ないようにオリジナルデータの一部を変更して透かし情報を埋め込む技術のことを言う。

多値画像に対する電子透かし技術としては、一般的に画素の濃度の冗長性を利用した種々の方法が知られている。例えば、各画素値を変化させて埋め込む方法である（非特許文献１）。

一方、文字等で構成される文書画像のような二値画像は冗長度が少なく、電子透かし技術を実現するのが難しいが、文書画像特有の特徴を利用した電子透かし方法がいくつか知られている。例えば、行のベースラインを動かす方法（特許文献１）、単語間空白長を操作する方法（特許文献２、特許文献３）、文字間の空白長を操作する方法（非特許文献２）、文字を回転して傾斜を変化させる方法（非特許文献３）などが挙げられる。

ここでは、文字間の空白長を操作して情報を埋め込む方法を図１９と図２０を用いて説明する。

図１９は、透かし情報の埋め込み前の文書画像の一部を示している。また、図２０は、図１９の文書画像の一部に対して透かし情報を埋め込んだ後の文書画像の一部を示す図である。

図１９に示される各文字間の空白長Ｐ0、Ｓ0、Ｐ1、Ｓ1は、透かし情報が埋め込まれると、図２０に示される各文字間の空白長Ｐ0’、Ｓ0’、Ｐ1’、Ｓ1’になる。図１９及び図２０では、文字が５文字、文字間の空白が４つある。埋め込む情報１ビットに対して２つの空白長を割り当てることになるので、４つの空白によって２ビットの情報を埋め込むことが可能である。

従って、今、バイナリ（二進）の「０１」を埋め込む場合には、図１９においてＰ0とＳ0との間の「子」という文字画像を左に、Ｐ1とＳ1との間の「か」という文字画像を右にシフト（移動）させて、図２０に示す様な文書画像を生成することになる。

図２２は、文字を回転して傾斜を変化させることによる電子透かしによって透かし情報が埋め込まれた場合の文字画像を示している。例えば，時計回りに回転された場合に「１」が埋め込まれ（図２２における１）、反時計回りに回転された場合に「０」が埋め込まれるものとする（図２２における２）。図２２では，「透」の文字画像が時計回りに回転され、また「し」の文字画像が反時計回りに回転されているので、この場合にはバイナリで「１０」という情報が埋め込まれていることになる。
Techniques for data hiding W. Bender, D. Gruhl, N. Morimoto, A. Lu IBM Systems Journal, vol.35, nos.3&4, 1996. King Mongkut大学による"Electronic document data hiding technique using inter-character space", The 1998 IEEE Asia-Pacific Conf. On Circuits and Systems,1998,pp.419-422.） "和文書へのシール画像による電子透かし"（中村康弘，松井甲子雄），情報処理学会論文誌 Vol.38 No.11 Nov. 1997. 特許第３１３６０６１号公報米国特許第６０８６７０６号公報特開平９−１８６６０３号公報

上記のように、文書用電子透かしにおいて、外接矩形の回転や、前後の空白の大小関係や、非隣接の大小関係、行をまたがる外接矩形間距離の大小関係など、さまざまな情報を利用して情報を埋め込む方法が提案されている。しかしながら、あらかじめ外接矩形が傾いていたり、文字間の空白長を操作する方法では、外接矩形間の位置関係から、どうしても情報を埋め込めない場所が生じてしまう。例えば、文字画像をシフトする場合を考察する。このとき、図２１に示す如く、注目文字画像とその隣接する文字画像との距離が１画素の場合、注目文字画像の位置をいずれに移動したとしても、その移動方向にある隣接文字と接してしまう。これでは、外接矩形が正しく認識されなくなるので、埋め込まれた情報を抽出する側で正しく情報抽出を行うことができない。これは、文字回転の場合も同様である。

本発明はかかる問題点に鑑みなされたものであり、文書画像中に、文字間が狭い部分に対する埋め込み可能性を高くし、以って、より多くの情報埋め込みを可能にする技術を提供しようとするものである。

この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、
文書画像に情報を埋め込む情報処理装置であって、
入力した文書画像中の各文字画像の外接矩形の位置とサイズに関する情報を抽出する抽出手段と、
抽出した各文字画像の位置と外接矩形のサイズを示す情報を、文字の並び方向である行を単位に記憶する記憶手段と、
該記憶手段に記憶された情報に基づき、前記文書画像中の各文字画像の位置を、行を単位に正規化する正規化手段と、
該正規化手段の正規化後の文書画像中の着目行中の着目文字画像を挟む両隣の文字画像の位置を固定にし、前記着目文字画像の位置を行頭若しくは行末の方向に移動することで、前記着目文字画像に１ビットの透かし情報を埋め込む埋め込み手段と、
該埋め込み手段による埋め込み後の文字画像で構成される出力用の文書画像を生成する画像生成手段とを備え、
前記正規化手段は、
前記記憶手段に記憶された情報を参照して、着目行の各文字画像間の総空白長を算出し、前記着目行の平均文字間隔を算出する算出手段と、
前記着目行の各文字画像間の空白長が前記算出手段で算出した前記平均空白長となるように、前記記憶手段に記憶された前記着目行の各文字画像の位置の情報を更新すると共に、前記更新後の各文字画像の位置情報に従って前記文書画像中の着目行の各文字画像の位置を更新する手段とを備える。

本発明によれば、文書画像内の行単位に、その行中に含まれる文字画像の文字間隔を正規化するので、情報の埋め込み可能な箇所を多くでき、もって、埋め込み情報量を稼ぐことが可能になる。

以下、添付図面に従って本発明に係る実施形態を詳細に説明する。

＜第１の実施形態＞
図１は、第１の実施形態における電子透かし埋め込み装置の構成概念図である。なお、本第１の実施形態では、各文字の回転によって情報を埋め込む技術を例にして説明することとする。

本第１の実施形態による電子透かし情報埋め込み装置は、入力部１０１（イメージスキャナ等）から入力された文書画像１００内の文書解析を行って文字の大きさおよび位置情報を認識する文書解析部１０２と、文字認識を行って文字コード情報、フォント情報を認識する認識処理部１０３と、認識処理部１０３における文字認識に用いられる辞書である認識辞書１０５と、文字認識結果に基づいて、文書画像を正規化する正規化部１０４と、入力された検証画像１００及び正規化された文書画像１０６を利用して透かし情報１０７（予めユーザによって入力もしくは登録された情報）を埋め込む透かし情報埋め込み部１０８と、電子透かし埋め込み済み画像１１０を生成する画像出力部１０９から構成される。

図２は、実施形態における電子透かし抽出する側の装置（以下、電子透かし抽出装置）の構成概念図である。この電子透かし情報抽出装置は、入力部２０１から入力された検証画像２００内の文書解析を行って文字の大きさおよび位置情報を認識する文書解析部２０２と、透かし情報２０４を抽出する透かし情報抽出部２０３から構成される。

図１、図２は文書用電子透かし抽出装置および埋め込み装置の構成概念図を示したが、その具体的構成を示すのであれば図２３のようになる。

図２３において，コンピュータ２３０１は、一般に普及しているパーソナルコンピュータ等の汎用の情報処理装置であり、スキャナ等の画像入力装置２３１７から読み取られた画像を入力し、編集や保管を行うことが可能である。また、画像入力装置２３１７で得られた画像をプリンタ２３１６から印刷させることができる。尚、ユーザからの各種指示等は、マウス（登録商標）２３１３、キーボード２３１４からの入力操作により行われる。コンピュータ２３０１の内部では、バス２３０７により後述する各ブロックが接続され、種々のデータの受け渡しが可能である。

図２３において、ＭＰＵ２３０２は、コンピュータ２３０１内部の各ブロックの動作を制御し、あるいは内部に記憶されたプログラムを実行することができる。主記憶装置（ＲＡＭで構成される）２３０３は、ＭＰＵ２３０２において行われる処理のために、一時的にプログラムや処理対象の画像データを格納しておく装置である。ハードディスク（ＨＤＤ）２３０４は、主記憶装置２３０３等に転送されるＯＳ、アプリケーションプログラムや画像データをあらかじめ格納したり、処理後の画像データを保存することのできる装置である。

スキャナインタフェース（Ｉ／Ｆ）２３１５は、原稿やフィルム等を読み取って、画像データを生成するスキャナ２３１７と接続され、スキャナ２３１７で得られた画像データを入力することのできるＩ／Ｆである。プリンタインタフェース２３０８は、画像データを印刷するプリンタ２３１６と接続され、印刷する画像データをプリンタ２３１６に送信することのできるＩ／Ｆである。

ＣＤドライブ２３０９は、外部記憶媒体の一つであるＣＤ（ＣＤ−Ｒ／ＣＤ−ＲＷ）に記憶されたデータを読み込んだり、あるいは書き出すことができる装置である。ＦＤＤドライブ２３１１は、ＣＤドライブ２３０９と同様にＦＤＤからの読み込みや、ＦＤＤへの書き出しをすることができる装置である。ＤＶＤドライブ２３１０は、ＦＤＤドライブ２３１１と同様に、ＤＶＤからの読み込みや、ＤＶＤへの書き出しをすることができる装置である。尚、ＣＤ、ＦＤＤ、ＤＶＤ等に画像編集用のプログラム、あるいはプリンタドライバが記憶されている場合には、これらプログラムをＨＤＤ２３０４上にインストールし、必要に応じて主記憶装置２３０３に転送されるようになっている。

インタフェース（Ｉ／Ｆ）２３１２は、マウス２３１３やキーボード２３１４からの入力指示を受け付けるために、これらと接続されるＩ／Ｆである。また、モニタ２３０６は、透かし情報の抽出処理結果や処理過程を表示することのできる表示装置である。さらに、ビデオコントローラ２３０５は、表示データをモニタ２３０６に送信するための装置である。

尚、実施形態における装置は、複数の機器（例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置等）に適用してもよい。

上記構成において、マウス２３１３やキーボード２３１４からの入力指示により主記憶装置２３０３にロードしたプログラムを２３０２のＭＰＵなどを用いて実行することによって電子透かしの埋め込み装置、或いは、抽出装置として機能することになる。このとき、モニタ２３０６により実行状況や、その結果をモニタすることも可能である。

以上、実施形態の装置構成を説明したが、図１の構成にける文書解析部１０２、認識処理部１０３、正規化部１０４、透かし情報埋め込み部１０８等は、ＭＰＵ２３０２が実行するプログラムによって実現しているものとし、図１の各構成部分について詳しく説明する。

文書解析部１０２においては、入力された文書画像から外接四角形（矩形）の抽出が行われる。文字の外接矩形は、文字に外接する矩形であって、本来は、文字認識を行う領域を指す情報であるが、電子透かしにおいては、埋め込み操作の対象となる文字領域を示すものである。文書画像の各画素値を垂直座標軸に対して射影し、空白部分（黒色である文字のない部分）を探索して行を判別して行分割を行う。その後、行単位で文書画像を水平座標軸に対して射影し、空白部分を探索して文字単位に分割する。これによって、各文字を外接矩形で切り出すことが可能となる。文字解析部１０２での解析結果と、入力部１０１より入力した文書画像データは認識処理部１０３に渡されることになる。

文字解析部１０２が認識処理部１０３に渡す解析結果は、例えば図２４に示すような形式であり、記憶手段である主記憶装置２３０３（もしくはＨＤＤ２３０４）に格納される。図示の如く、行単位の情報であって、先頭には何行目かを示す情報、該当する行内にいくつの外接矩形があるかを示す情報、そして、各外接矩形に関するデータがその個数分だけ後続し、最後に行末を示す情報（EOL(=End Of Line)）で構成される。最終行の行末には１ページの終わりであることを示す情報（EOP(End Of Page)）が付加される。ここで、１つの外接矩形に関するデータは、図示のように、外接矩形の位置（実施形態では矩形の左下隅の座標位置）、外接矩形のサイズ（高さと幅）、並びに、文字コード、フォン種別を格納するフィールドで構成される。ただし、この段階では、文字コード、フォント種別は不明であるので、該当するフィールドは確保するに留める。なお、図２４に示されるデータを、以後、文書画像属性データと呼ぶことにする。

図３は、認識処理部１０３の細部構成を示すブロック図である。本実施形態では、認識処理部１０３は、光学的文字認識（ＯＣＲ）によって文字認識が行われるものとする。ＯＣＲ技術を用いることによって、文字の微小な回転等を施した文書画像からでも文字を識別することが可能である。また、文字情報（文字コード）だけではなく、マルチフォントの識別も可能である。なお、フォント識別に関する技術は、例えば、「橋本新一郎編著、「文字認識概論」電子通信協会刊」を参照されたい。

さて、認識処理部１０３における特徴抽出部１０３ａは、文書解析部１０２からの解析結果である文書画像属性データ（図２４参照）に基づき、入力した文書画像から該当する外接矩形を切り出し、その切り出した文字画像の特徴量を抽出する。認識部１０３ｂは、特徴抽出部１０３ａで得られた特徴量と、認識辞書１０５（図２３でのＨＤＤ２３０４等に予め格納されている）で保持している標準的な各フォントセット（字体）毎の文字の特徴量とを比較して文字認識を行うと共にフォント種別をも識別する。そして、文書画像造成データを、文字認識結果を反映させるために更新する。すなわち、文書画像属性データ内の各「外接矩形データ」中の文字コード及びフォント種別のフィールドに、認識した結果を格納する処理を行うことになる。

図４は、正規化部１０４の細部構成を示すブロック図である。正規化部１０４は、図示のように、フォント記憶部１０４ｅ（実施形態ではスケーラブルなアウトラインベクトルフォントデータがＨＤＤ２３０４に記憶されているとする）、画像生成部１０４ｆ、文字間スペース得算出部１０４ｇ、ピッチ判定部１０４ｉで構成される。

画像生成部１０４ｆは、文字認識処理後の文書画像属性データから、１行分のデータを読み出す。すなわち、或る行の文字コード情報１０４ａ、フォント情報１０４ｂ、文字画像（外接矩形）の位置及びサイズ情報を、その行中に含まれる外接矩形の数だけ入力する。文字間スペース算出部１０４ｇは、注目行に含まれる全文字の空白長を合算する。ピッチ判定部１０４ｉは、文字間スペース算出部１０４ｇにて算出された全空白長を、その行に含まれる「文字数−１」で除算することで、平均文字ピッチ、すなわち、隣接する文字間の平均空白長を算出する。そして、算出された平均文字ピッチに基づき、文書画像属性データ内の該当する行に含まれる全「外接矩形データ」中の「位置」フィールドを更新し正規化する。この結果、原画像の注目行中に、極端に文字間隔が狭い箇所があったとしても、或る程度の長さの空白長さが割り当てられることになり、文字間操作による情報埋め込みが可能にすることを可能にしている。

正規化部１０４は、この更新されたデータに従い、フォント記憶部１０４ｅから文字コードに応じたフォントデータを読出し、外接矩形サイズに合致する文字パターンを生成し、正規化後の位置に従ってその発生した文字パターンを主記記憶装置２３０３に確保された領域に展開する。そして、この処理を注目行に含まれる全文字について繰り返し行う。１行分の文字パターンの展開処理が終わると、次の行の文字パターンの展開を行い、最終行の行末文字まで繰り返すことになる。

こうして正規化後の１ページ分の文書画像が生成されると、その結果及び図２４の文書画像属性データを透かし情報埋め込み部１０８に渡す。透かし情報埋め込み部１０８は、最終的な文書画像属性データ（図２４参照）、及び、埋め込もうとする情報に基づいて、正規化後の文書画像中の各文字画像を微小角だけ回転させる。回転処理後の文書画像は、画像出力部１０９を介して出力されることになる。なお、画像出力部１０９は、プリンタであるとするが、記憶媒体に画像データとして記憶保存する手段であっても構わない。

以上であるが、実施形態における電子透かし埋め込み装置の動作処理手順を整理するため、図５のフローチャートに従って説明することとする。同図は、図２３に示すＭＰＵ２３０２が実行する処理手順（主記憶装置２３０３にロードされるプログラム）である。

まず、透かし情報の埋め込み対象となる文書原稿１００が図２３のスキャナ２３１７に代表される画像入力部１０１で読取られ、文書画像データとして文書解析部１０２に入力される（ステップＳ６０１）。なお、ここでは、この文書画像データは印刷物をスキャナ２３１７などから入力し、それをビットマップ化したものとなるが、文書編集アプリケーションプログラムを利用して作成された電子データ、またはハードディスク２３０４やＣＤドライブ２３０９、ＤＶＤドライブ２３１０、ＦＤＤドライブ２３１１などに接続された各記憶媒体に格納されたアプリケーションプログラム固有の形式、テキスト形式などをはじめとする種々の電子データを画像処理ソフトなどによって変換し、ビットマップ化したものでも勿論構わない。

次に、文書解析部１０２では、入力された文書画像データから外接矩形の抽出が行われ、第１段階の文書画像属性データを生成する（ステップＳ６０２）。

次いで、認識処理部１０３により文字認識が行われ、文書画像属性データを更新する（ステップＳ６０３）。

図６はこの文字認識処理の動作手順を示すフローチャートである。まず、文書解析部１０２で得られた文書画像属性データにおける外接矩形の位置及びサイズに従い、１文字画像単位に切り出し、特徴抽出部部１０３ａにおいて、文字の特徴が抽出される（ステップＳ６０３ａ）。ここで、文字の特徴抽出とは、切り出された文字を具体的に判別するために、文字に含まれる所定の特徴量を取り出す操作のことである。本実施形態における特徴量としては、例えば、各文字の外接矩形領域をさらに小領域に分割し、その小領域内の方向成分のヒストグラムをとって文字の特徴量としたり、画素値の分布の偏りを特徴量とすることができる。また、外接矩形の中心等を当該文字の位置情報とする。

そして、識別部１０３ｂにおいて、抽出された特徴量と認識辞書１０５で保持されている文字やフォントが有する特徴量とが比較され、文字の特定（文字コードの生成）やフォントの識別が行われる（ステップＳ６０３ｂ）。得られた文字コード、フォント種別で文書画像属性データを更新することは既に説明した通りである。

図５の説明に戻る。上記のようにして得られた各外接矩形に関する情報（位置、サイズ、文字コード、フォント種別）に基づいて、正規化部１０４は正規化文書画像１０６を生成する（ステップＳ６０４）。

図７は、実施形態における正規化部１０４が処理するステップＳ６０４の詳細フローチャートである。

先ず、文書画像属性データから１行分の属性データを入力する（ステップＳ６０４ａ）。そして、文字間スペース算出部１０４ｇにて、注目行のスペース長（各文字間スペースの合算）を算出する（ステップＳ６０４ｂ）。このあと、ピッチ判定部１０４ｉにて、注目行に含まれる「文字数−１」で、スペース長を除算することで、各文字間の平均ピッチ（平均空白長）を算出する。そして、入力した属性データを算出した平均ピッチに従って更新し（ステップＳ６０４ｄ）、注目行の文字画像イメージをフォントデータを利用して生成する（ステップＳ６０４ｅ）。そして、全行に対して処理したか否かを判断し（ステップＳ６０４ｆ）、全行に対する処理が完了していないと判断した場合には、ステップＳ６０４ａ以降の処理を繰り返すことになる。

再び図５の説明に戻る。上記のようにして正規化処理が行われ、正規化後の文書画像の生成、及び、その際の文書画像属性データが求められると、処理はステップＳ６０５に進み、透かし情報（例えば、ＰＣ等に適用する場合にはキーボードより入力した文字列（ユーザ名等）、或いは、予め記憶された情報等でも良いが、複写機等に適用する場合には、その複写機を特定する情報等でも良い）を埋め込む。実施形態の場合、文書画像属性データが既に用意されているので、この情報に従い、正規化後の文書画像中の各文字画像を回転させて、情報の埋め込みを行う。

そして、埋め込み後の文書画像を出力し（ステップＳ６０６）、原稿１枚に対する埋め込み処理を終了する。

ここで、ステップＳ６０５における埋め込み処理を、図８のフローチャートに従って説明する。

埋め込まれる透かし情報は予め二進（バイナリ）で用意されているものとする。

先ず、情報を埋め込む外接矩形を文書画像属性情報を参照して決定する（ステップＳ６０５ａ）。次に、透かし情報の先頭から未埋め込みの１ビットを選択する（ステップＳ６０５ｂ）。そして、埋め込まれる透かし情報のビットが「１」であるか否かが判断される（ステップＳ６０５ｃ）。その結果、当該ビットが「１」の場合（Ｙｅｓ）、正規化後の文書画像内の注目外接矩形内の文字イメージを、その外接矩形中心位置の回りに時計回りに所定角度θだけ回転させる（ステップＳ６０５ｄ）。一方、当該ビットが「０」の場合（Ｎｏ）には、反時計周りにθ角だけ回転させる（ステップＳ６０５ｅ）。そして、埋め込んだビットが、透かし情報の最終ビットであるか否かが判断される（ステップＳ６０５ｆ）。その結果、まだ透かし情報の最終ビットではない場合（Ｎｏ）、ステップＳ６０５ａに戻って次の外接矩形を選択する。一方、透かし情報の末尾の場合（Ｙｅｓ）、透かし情報のビットの埋め込み処理を終了する。

なお、埋め込みは、文字画像が存在する限り、繰り返し行ってよい。また、埋め込み後の文書画像の出力先はプリンタに限らず、記憶装置、或いは、ネットワーク上の他の装置であっても構わない。

次に、本実施形態における電子透かし抽出装置について説明する。装置構成は図２、図２３で示した通りであるので、ここでは処理手順を図９に従って説明することとする。

まず、透かし情報の抽出対象となる検証画像２００が図２３のスキャナ２３１７に代表される画像入力手段２０１を介して、文書解析手段２０２に入力される（ステップＳ９０１）。なお、この検証画像は印刷物を２３１７のスキャナに限らない。例えば、ネットワーク上からダウンロードしてもよいし、ＣＤＲＯＭ等の記憶媒体に格納されているのであれば、そこから読み出すようにしてもよい。

次に、文書解析部２０２で、情報埋め込み時と同様に、文書解析を行う(ステップＳ９０２)。そして、文書解析部２０２で得られた外接矩形情報に基づいて、透かし情報抽出部２０３において電子透かし抽出を行う(ステップＳ９０３)。

この電子透かし処理を更に詳しく説明すると、図１０のような処理になる。

まず、外接矩形が選択される（ステップＳ９０３ａ）。次に、選択した外接矩形の重心を算出する（ステップＳ９０３ｂ）。次に、選択した外接矩形内の文字画像の回転角度を判断する。

もし時計回りθ角だけ回転していれば(Ｙｅｓ)、透かし情報を「１」として主記憶装置に格納する（ステップＳ９０３ｄ）。また、反時計回りにθだけ回転していれば、透かし情報を「０」として記憶する（ステップＳ９０３ｅ）。更に、そのいずれでもない（回転していない）と判断した場合には、埋め込まれていないと判断する。

処理は、いずれの場合にも、ステップＳ９０３ｆに進み、検証画像にまだ処理すべき外接矩形が残っていないかどうか判定する。もしまだ残っている場合（Ｎｏ）、ステップＳ９０３ａ以降の処理を繰り返す。文書の終わりに達している場合（Ｎｏ）、抽出された「０」「１」の値を透かし情報２０４として決定する。なお、透かし情報は、ユーザに報知するため、表示処理を行ってもよいし、文字コードであるのであれば、そのビット配列ではなく文字（文字列）を表示させてもよい。

以上であるが、本実施形態によれば、埋め込み対象の文書画像中に文字間が狭い箇所があったとしても、その文字が存在する行中の許容範囲で文字間を空けることが可能となり、文字回転による隣接する文字と接触しにくくすることができ、より多くの情報を埋め込むことが可能になる。

なお、正規化部１０４では正規化した文書画像を生成するものとして説明したが、正規化部１０４では文書画像属性データの更新に留め、透かし情報埋め込み部１０８にて埋め込む情報に応じて各文字の角度を決定し、その後で実際に文字パターンの展開処理を行っても構わない。

また、実施形態では出力する文書画像中の文字画像は、文字認識して得られた文字コード、並びに、フォント種別に応じて生成するものとしたが、入力した文書画像における角外接矩形内の文字イメージをそのまま採用しても構わない。この場合、認識処理が存在しない分だけ処理が単純化されるので、最終的に出力画像を得るまでにかかる時間はごく短時間になり、複写機等に適用したとしても、普通に原稿を読み取り、複写するかの如く処理することが可能になる。

なお、上記実施形態では、文字画像の回転角θを特に限定していないが、違和感を抱かず、且つ、ある程度の埋め込み抽出精度となる値が望ましいので、上限は１０度程度であろう。

また、上記説明からも理解できるように、正規化すると、行中の文字間の空白長は適度な間隔になるが、オリジナルの原稿画像中の全文字の文字間スペースがそもそも小さい場合には、正規化したとしても、文字画像回転によって隣接する文字画像と接触してしまうことも起こり得る。このような状況の場合、残念ながら上記実施形態の埋め込みは正常にできないことになる。従って、正規化した際の各行の文字間スペースが、予め設定された閾値以下の場合には、埋め込みが行えない旨のメッセージを表示し、それ以上の処理を行わないようにしてもよい。

＜変形例の説明＞
上記実施形態では、正規化部１０４では、１行の文字画像群の文字間隔を等間隔にすることで、埋め込み可能とする箇所を増やすものであったが、無条件に文字間を等間隔にすると不自然なものとなる場合がある。例えば、１行中に全角文字列と半角文字列が混在している場合、上記処理によると、半角文字、全角文字を問わず、各文字間が平均化してしまい、結果的に、全角文字で構成される文字間隔は狭く、半角文字で構成される文字間隔は広くなってしまう。これは、固定ピッチの文字と、プロポーショナル文字についても言えることである。

そこで、正規化する際、注目行を構成する各文字の間隔を抽出し、その分布（ヒストグラム）を求め、ピークが２つ存在する場合（もしくは、文字サイズ（幅）の分布のピークが２つ存在する場合でもよい）、それぞれに属する文字毎にピッチを求めるようにすれば、違和感のない文書画像を生成することが可能となる。ただし、この場合には半角文字（もしくはプロポーショナル文字）と全角文字（もしくは固定ピッチ文字）とが隣接する場合の空白部分は、埋め込み対象外にすることが望まれる。

なお、半角文字と全角文字の識別は、上記のように、文字幅（外接矩形幅）の分布を求めればよいし、固定ピッチ、プロポーショナル文字の識別に関する技術は例えば特開平８−５０６３３号公報に記載の技術を用いればよいであろう。

＜第２の実施形態＞
上記実施形態では、文字画像の回転により、付加情報を埋め込む例であるが、文字間を変更すること埋め込む例を第２の実施形態として説明する。

図１１は、本第２の実施形態における電子透かし埋め込み装置の構成概念図である。本第２の実施形態では、認識処理部１０３を不要にしている。また、正規化部１１０３、透かし情報埋め込み部１１０６以外は上記第１の実施形態と同じである。

図１２は、第２の実施形態における電子透かし埋め込み装置の動作手順を説明するためのフローチャートである。

先ず、スキャナ２３１７等から検証しようとする文書原稿を画像データとして入力し（ステップＳ１２０１）、原稿画像を解析して文字画像の外接矩形の位置及びサイズを得る（ステップＳ１２０２）。このとき、図２４に示す文書画像属性データを生成するが、本第２の実施形態の場合、文字認識処理を行わないので、図２４に示すデータ構造において「文字コード」、並びに、「フォント種別」のフィールドは存在しない。

次に、正規化部１１０３にて、正規化処理を行う（ステップＳ１２０３）。この正規化処理は、先の第１の実施形態の図７と略同じであるが、文書画像を新規に作成するのではなく、読取った原稿画像内の、外接矩形内の文字画像をそのまま移動することになる。

図１３は、第２の実施形態における正規化処理の詳細を示すフローチャートである。この正規化処理は、第１の実施形態における図７とほぼ同じであるが、本第２の実施形態では文字認識を行わず、ステップＳ１２０１で入力した文書画像中の各文字画の位置を変更することになる。

先ず、文書画像属性データから１行分の属性データを入力する（ステップＳ１２０３ａ）。そして、文字間スペース算出部１０４ｇにて、注目行のスペース長（各文字間スペースの合算）を算出する（ステップＳ１２０３ｂ）。このあと、ピッチ判定部１０４ｉにて、注目行に含まれる「文字数−１」で、スペース長を除算することで、各文字間の平均ピッチ（平均空白長）を算出する。そして、入力した属性データを、算出した平均ピッチに従って更新し（ステップＳ１２０３ｄ）、注目行内の全文字画像の位置を、更新後の文書画像属性データに従って調整（文字の並び方向に沿って移動）する。そして、全行に対して処理したか否かを判断し（ステップＳ１２０３ｆ）、全行に対する処理が完了していないと判断した場合には、ステップＳ１２０３ａ以降の処理を繰り返すことになる。

次いで、正規化処理で更新された文書画像属性データに従い、正規化して得た文書画像中の各文字画像の位置を調整して、透かし情報の埋め込みを行う（ステップＳ１２０４）。最後に、埋め込まれた文書画像を出力する（ステップＳ１２０５）。

図１２に説明を戻す。上記のようにして、正規化処理が行われると、処理はステップＳ１２０４に進んで、透かし情報の埋め込みを行う。この埋め込み処理を図１４のフローチャートに従って説明する。

先ず、透かし情報が埋め込まれる先頭の外接矩形から偶数番目の文字画像を選択する（ステップＳ１２０４ａ）。次に、透かし情報の先頭ビットを選択する（ステップＳ１２０４ｂ）。例えば、０１０１１１１・・・という情報が透かし情報として入力されていた場合、先頭の文字は「０」である。次に、埋め込まれる透かし情報のビットが「１」であるか否かが判断される（ステップＳ１２０４ｃ）。その結果、当該ビットが「１」の場合（Ｙｅｓ）、注目文字画像の左側の空白長Ｐ、右側の空白長Ｓに対して、Ｐ＞Ｓとなるように注目文字画像の位置を変更する（ステップＳ１２０４ｄ）。ただし、もし位置変更しなくてもＰ＞Ｓが成り立つならば移動をする必要はない。一方、埋め込むビットが「０」の場合（Ｎｏ）、Ｐ＜Ｓとなるように変更する（ステップＳ１２０４ｅ）。ただし、この場合にも、既にＰ＜Ｓが成り立つならば移動をする必要はない。

そして、当該ビットが末尾か否かが判断される（ステップＳ１２０４ｆ）。その結果、最終ビットの場合（Ｙｅｓ）、透かし情報のビットの埋め込み処理を終了する。一方、まだ最終ビットではない場合（Ｎｏ）、ステップＳ１２０４ａに戻って埋め込みを続行する。

以上の結果、或る行に着目したとき、その２番目、４番目、６番目…と偶数番目に出現する文字画像の位置が調整され、埋め込みが行われることになる。

埋め込み処理が終わると、図１２のステップＳ１２０５に進み、文字画像位置変更後の文書画像の出力処理が行われることになる。

以上、本第２の実施形態における電子透かし埋め込み装置について説明したが、埋め込まれた情報を抽出する側の装置では、基本的に既に説明した第１の実施形態における図９の処理手順に従って処理することになる。但し、同図のステップＳ９０３での処理内容は、図１５のようになる。以下、同図に従って説明する。

まず、抽出対象の外接矩形を選択する(ステップＳ９０３ａ−２)。この選択する外接矩形は、各行の先頭から遇数番目に出現する外接矩形となる。そして、外接矩形パラメータの比較を行う(ステップＳ９０３ｂ−２)。すなわち、注目外接矩形の左側の空白長Ｐが、右側の空白長Ｓより大きければ、透かし情報を「１」と判断し(ステップＳ９０３ｃ−２)、Ｐ＜Ｓであれば（小）透かし情報を「０」と判断する（ステップＳ９０３ｄ−２）。等しい場合には、埋め込まれていないと判断する。そして、選択した外接矩形が最終外接矩形であれば（ステップＳ９０３ｅ−２でＹｅｓ）、終了し、ＮｏであればステップステップＳ９０３ａ−２に戻り処理を継続する。

以上説明したように本第２の実施形態によれば、第１の実施形態と同様の効果を奏することが可能となる。ただし、埋め込み対象の文字画像が１つ置きになるので、文書画像中の全文字数の１／２が埋め込む情報の最大量となる。

なお、位置調整する文字画像は各行の偶数番目としたが、行頭の文字画像を除く（行末の文字画像も除く）奇数番目であっても構わないのは明らかである。

また、埋め込んだ文書画像を印刷出力する場合、その文書画像中に埋め込まれた情報を抽出するためにはイメージスキャナ等で読取ることが必要になろう。昨今のイメージスキャナはその読取り解像度は１０００ｄｐｉを越えるものも珍しくないが、写真等を読取る場合と違って、文書を読取るイメージスキャナの場合は２００ｄｐｉ程度の解像度で十分であることを鑑みた場合、上記Ｐ、Ｓの関係は２００ｄｐｉ程度のイメージスキャナで読取った際に、十分に識別できる程度にすることが望ましい。換言すれば、電子透かし情報を埋め込む際にも、単純にＰ＞Ｓや、Ｐ＜Ｓとするのではなく、Ｐ＞Ｓ＋Δ、Ｐ＜Ｓ＋Δなる関係を満たすように埋め込むことが望まれる。

＜第３の実施形態＞
上記第１、第２の実施形態での正規化処理は、行中の文字画像の全空白長を等分、もしくは、半角・全角、固定ピッチ・プロポーショナル文字の２種類に分けてそれぞれの空白帳を等分にするものであった。すなわち、文字ピッチを入力した文書画像に依存して決定した。

しかし、標準ピッチを定め、各文字画像を標準ピッチでそろえることにより正規化を行うようにしても構わない。標準ピッチとは、文字の大きさの平均から定まる文字ピッチである。文字の大きさに対し１対１で対応するテーブルを読み出して定めることにする。ここで、画質を保つために、文字ピッチがあまりに大きいときは文字ピッチを変更しないようにする。この閾値をＬとする。その他は全て第１、第２の実施形態と同様である。

図１６は、本第３の実施形態における正規化部の動作手順を示したフローチャートである。

まず、文書解析部１１０２で生成された文字の大きさおよび位置情報を示す文書画像属性データを入力する（ステップＳ１２０３ａ−２）。次に、標準ピッチを算出する（ステップＳ１２０３ｂ−２）。次に、位置変更対象の文字を選択する（ステップＳ１２０３ｃ−２）。次に、選択した文字のピッチが閾値Ｌより小さいかどうか判定する（ステップＳ１２０３ｄ−２）。もし大きければ（Ｎｏ）、ステップＳ１２０３ｃ−２にもどり、次の文字を選択する。もし小さければ（Ｙｅｓ）、文字がこの平均ピッチになるように、文字の位置を変更する（ステップＳ１２０３ｅ−２）。続いて、文字がまだ残っているか確認する（ステップＳ１２０３ｆ−２）。もし残っていれば（Ｙｅｓ）、ステップＳ１２０３ｃ−２にもどり、次の文字を選択する。もし全ての文字について処理が終わっていれば（Ｎｏ）、変更後文字位置にもとづいて、正規化文書画像を生成する（ステップＳ１２０３ｇ−２）。

埋め込み・抽出方法は第１、第２の実施形態と同じであるが、閾値Ｌより大きなピッチには埋め込まないし、抽出も行わない。例えば、第２の実施形態に適用する場合には、図１４の代わりに図１７のような処理を行うことになる。すなわち、ピッチがＬ以上ある場合には埋め込み対象外にするため、図１７におけるステップＳ１２０４ｂ−２を新に設ける。

一方、透かし情報抽出する側の処理では、図１５の代わりに、図１８のような処理を行えばよい。すなわち、すなわち、ピッチがＬ以上ある場合には埋め込み情報の抽出対象とするため、図１８におけるステップＳ９０３ｂ−３を新に設ける。これ以外は、第２の実施形態と同様である。

本第３の実施形態は、単語をスペースで区切る英語もしくはそれに類する構造を持つ文書に適したものとなる。

＜その他の実施形態＞
上記各実施形態では、文字間空白長、回転に適合する例を説明した。また、対象となる文書画像は、横書きを前提にして説明した。縦書きの場合には、文字画像の並び方向が横書きに対して９０度回転したものとなり、外接矩形の高さと幅の関係も入れ代わる。また、文字間の空白長を調整する場合には、文字画像の上下移動となるだけであるので、同様に適用できるのは明らかである。

更に、実施形態におけるそのほとんどの機能は、パーソナルコンピュータ上で実行されるコンピュータプログラムによって実現できるのは明らかであるから、本発明は当然、そのようなコンピュータプログラムをも範疇とする。また、通常、コンピュータプログラムは、ＣＤＲＯＭ等のコンピュータ可読記憶媒体に記憶されていて、コンピュータにセットしてシステムにコピー、もしくはインストールすることで実行可能となるから、このようなコンピュータ可読記憶媒体も本発明の範疇に含まれる。

第１の実施形態における電子透かし埋め込み装置の構成概念図である。第１乃至第３の実施形態における電子透かし抽出装置の構成概念図である。図１における認識処理部のブロック構成図である。図１における正規化部１０４のブロック構成図である。第１の実施形態における電子透かし埋め込み手順を示すフローチャートである。図５における認識処理の処理内容を示すフローチャートである。図５における正規化処理の処理内容を示すフローチャートである。図５における埋め込み処理の処理内容を示すフローチャートである。第１乃至第３の実施形態における電子透かし抽出手順を示すフローチャートである。図９における情報抽出処理の第１の実施形態の処理手順を示すフローチャートである。第２及び第３の実施形態における電子透かし埋め込み装置の構成概念図である。第２及び第３の実施形態における電子透かし埋め込み手順を示すフローチャートである。図１２の正規化処理に相当する第２の実施形態の処理手順を示すフローチャートである。図１２の埋め込み処理に相当する第２の実施形態の処理手順を示すフローチャートである。第２の実施形態における透かし情報抽装置の動作手順を示すフローチャートである。図１２の正規化処理に相当する第３の実施形態の処理手順を示すフローチャートである。図１２の埋め込み処理に相当する第３の実施形態の処理手順を示すフローチャートである。第３の実施形態における透かし情報抽出装置の動作手順を示すフローチャートである。文字の間隔を利用した電子透かし埋め込みを行う場合の原画像の例を示す図である。文字の間隔を利用した電子透かし埋め込みを行った後の画像を示す図である。文字配置位置変更での埋め込みの問題点を説明するための図である。文字の傾きを利用した電子透かし埋め込み方法を説明するための概要図である。実施形態における装置の具体的なブロック構成図である。第１の実施形態で生成する文書画像属性データの構造を示す図である。

Claims

文書画像に情報を埋め込む情報処理装置であって、
入力した文書画像中の各文字画像の外接矩形の位置とサイズに関する情報を抽出する抽出手段と、
抽出した各文字画像の位置と外接矩形のサイズを示す情報を、文字の並び方向である行を単位に記憶する記憶手段と、
該記憶手段に記憶された情報に基づき、前記文書画像中の各文字画像の位置を、行を単位に正規化する正規化手段と、
該正規化手段の正規化後の文書画像中の着目行中の着目文字画像を挟む両隣の文字画像の位置を固定にし、前記着目文字画像の位置を行頭若しくは行末の方向に移動することで、前記着目文字画像に１ビットの透かし情報を埋め込む埋め込み手段と、
該埋め込み手段による埋め込み後の文字画像で構成される出力用の文書画像を生成する画像生成手段とを備え、
前記正規化手段は、
前記記憶手段に記憶された情報を参照して、着目行の各文字画像間の総空白長を算出し、前記着目行の平均文字間隔を算出する算出手段と、
前記着目行の各文字画像間の空白長が前記算出手段で算出した前記平均空白長となるように、前記記憶手段に記憶された前記着目行の各文字画像の位置の情報を更新すると共に、前記更新後の各文字画像の位置情報に従って前記文書画像中の着目行の各文字画像の位置を更新する手段とを備える
ことを特徴とする情報処理装置。
前記正規化手段は、行に含まれる文字画像の半角／全角、或いは、固定ピッチ／プロポーショナル文字で外接矩形を分類し、分類された外接矩形毎に平均文字間隔間隔を設定することを特徴とする請求項１に記載の情報処理装置。
前記正規化手段は、前記記憶手段に記憶された情報に基づき、行中の着目する文字画像とその左隣の文字画像の間の空白長が所定長より大きい場合、前記着目文字を正規化対象外とし、且つ、前記着目文字は前記透かし情報の埋め込み対象外とすることを特徴とする請求項１に記載の情報処理装置。
文書画像に情報を埋め込む情報処理方法であって、
入力した文書画像中の各文字画像の外接矩形の位置とサイズに関する情報を抽出する抽出工程と、
抽出した各文字画像の位置と外接矩形のサイズを示す情報を、文字の並び方向である行を単位に記憶手段に格納する格納工程と、
該記憶手段に記憶された情報に基づき、前記文書画像中の各文字画像の位置を、行を単位に正規化する正規化工程と、
該正規化工程の正規化後の文書画像中の着目行中の着目文字画像を挟む両隣の文字画像の位置を固定にし、前記着目文字画像の位置を行頭若しくは行末の方向に移動することで、前記着目文字画像に１ビットの透かし情報を埋め込む埋め込み工程と、
該埋め込み工程による埋め込み後の文字画像で構成される出力用の文書画像を生成する画像生成工程とを備え、
前記正規化工程は、
前記記憶手段に記憶された情報を参照して、着目行の各文字画像間の総空白長を算出し、前記着目行の平均文字間隔を算出する算出工程と、
前記着目行の各文字画像間の空白長が前記算出工程で算出した前記平均空白長となるように、前記記憶手段に記憶された前記着目行の各文字画像の位置の情報を更新すると共に、前記更新後の各文字画像の位置情報に従って前記文書画像中の着目行の各文字画像の位置を更新する工程とを備える
ことを特徴とする情報処理方法。
請求項１乃至３のいずれか１項に記載の情報処理装置の機能をコンピュータに実行させるためのコンピュータプログラム。
請求項５に記載のコンピュータプログラムを格納したことを特徴とするコンピュータ可読記憶媒体。