JP5338586B2

JP5338586B2 - 画像処理装置、画像処理システムおよび画像処理プログラム

Info

Publication number: JP5338586B2
Application number: JP2009213800A
Authority: JP
Inventors: 酉華木原; 浩久稲本; 多聞貞末
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-09-15
Filing date: 2009-09-15
Publication date: 2013-11-13
Anticipated expiration: 2029-09-15
Also published as: JP2011065292A

Description

この発明は、コンテンツのレイアウトを生成する画像処理装置、画像処理システムおよび画像処理プログラムに関する。

紙による文書を電子データ化してコンテンツ情報を生成し、コンテンツ単位の情報を登録および管理する技術が特許文献１に記載されている。特許文献１によれば、電子化文書の作成の際に、画像に対してレイアウト解析を行って当該画像を所定の属性の領域に分割し、分割された領域毎のコンテンツを登録しておく。登録されたコンテンツを再利用する際は、一覧表示したコンテンツの中から、所望のコンテンツを取り出して利用する。

また、特許文献２には、コンテンツを抽出する際に、コンテンツに関する情報とコンテンツのレイアウトを変更するためのレイアウト制御情報とを結合することにより、統合電子データを生成、出力する技術が開示されている。特許文献２によれば、紙文書の体裁を保ったまま電子化したコンテンツ情報に対して、データ変換やレイアウト設定を行うためのスクリプト情報を付加した統合電子データが生成される。そして、オリジナルの文書画像の体裁を保持し、そこからユーザの簡単な指示に応じて画像変換などを行う。そのため、統合電子データと紙文書との相関が取り易く、またデータ自体の再利用性も高い。

ここで、レイアウト制御情報とは、分割された各コンテンツ領域の幅、高さ、ページ全体での位置などである。レイアウト制御情報を用いて、予め用意されたコンテンツの大まかな配置（テンプレート）に基づいてコンテンツの変倍率などを調整する。

上述した特許文献１では、所望の文書を得ようとすると、コンテンツを一覧表示させ、その中から必要なコンテンツをユーザが一々選択してレイアウトする必要があり、手間がかかるという問題点があった。

一方、上述した特許文献２によれば、コンテンツ情報とレイアウト制御情報とをユーザ側に提示することで、文書構成作業を支援することが可能となる。しかしながら、特許文献２では、提示されたコンテンツ情報とレイアウト制御情報とをどのようにレイアウト決定に活かすかは、基本的にユーザ側に委ねられている。そのため、特に操作に対する熟練度の低いユーザなどにとってレイアウト作業が大きな負担になるおそれがあるという問題点があった。

また、オリジナル文書におけるレイアウト以外に、新しく生成する文書におけるレイアウトに依存して、コンテンツ加工に施すべき処理が異なる場合が考えられる。このような場合の例として、２の類似したコンテンツを異なるページにそれぞれレイアウトする場合は、それぞれのページにレイアウトされるコンテンツの視覚的な類似性を特に考慮しないが、これら２のコンテンツを同一ページ内にレイアウトする場合には、当該２のコンテンツ間で視覚的類似性が求められることが考えられる。上述の特許文献１および特許文献２では、このような場合に対する対応がなされていないという問題点があった。

具体的な例として、日常の業務で発生した領収書などの経理関係の書面をスキャナで読み込んで電子データ化する場合について考える。この場合、用いるスキャナの機種の違いやデフォルト設定の違いなどにより、設定が異なる状態で読み込まれたデータとして蓄積される場合が起こり得る。このようにして蓄積された各々のデータから必要なコンテンツを切り出して並べてレイアウトした新しい文書を構成する場合、上述した読み込み時の設定の違いなどにより、コンテンツ毎にサイズや色調が大きく異なってしまう可能性がある。

この場合、この新しく生成された文書内のあるコンテンツが一見してフォーマットの同一性を視認し難くなってしまう可能性があるという問題点があった。また、複数のコンテンツについてフォーマットの同一性を保とうとすると、ユーザが手動でコンテンツのサイズを合わせたり、トリミング処理を行う必要が生じ、ユーザの作業負荷が大きくなるという問題点があった。その一方で、精度の高い加工処理を行うには相応の熟練度が必要となり、一般のユーザでは高い完成度が望めないという問題点があった。

本発明は、上記に鑑みてなされたものであって、複数のコンテンツのレイアウトを容易に行うことができる画像処理装置、画像処理システムおよび画像処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、高さ及び幅の異なる複数のコンテンツを、コンテンツの幅と、コンテンツを配置するページの幅とに基づき、ページの幅を超えずに１以上のページに配置した場合の複数のコンテンツのレイアウトを示すレイアウト情報を生成するレイアウト生成手段と、レイアウト情報を取得するレイアウト情報取得手段と、コンテンツを解析した解析情報を取得する解析情報取得手段と、解析情報取得手段でそれぞれ取得された第１のコンテンツの解析情報と第２のコンテンツの解析情報とに基づき、第１のコンテンツと第２のコンテンツとが類似しているか否かを判定する判定手段と、解析情報とレイアウト情報とに基づきコンテンツに対して加工処理を施す加工手段と、加工手段で加工されたコンテンツを、レイアウト情報に従い配置した出力データを生成する生成手段とを有し、レイアウト情報取得手段は、第１のコンテンツに対する第２のコンテンツの距離をレイアウト情報に基づき求め、加工手段は、判定手段によって類似していると判定され、且つ、距離が閾値以下である場合に、第１のコンテンツに対する第２のコンテンツの類似度を高める加工処理を、第２のコンテンツに対して施すことを特徴とする。

また、本発明は、画像によるコンテンツを取得するコンテンツ取得手段と、コンテンツを解析して解析情報を得る解析手段とを備える画像取得装置と、高さ及び幅の異なる複数のコンテンツを、コンテンツの幅と、コンテンツを配置するページの幅とに基づき、ページの幅を超えずに１以上のページに配置した場合の複数のコンテンツのレイアウトを示すレイアウト情報を生成するレイアウト生成手段と、レイアウト情報を取得するレイアウト情報取得手段と、コンテンツを解析した解析情報を取得する解析情報取得手段と、解析情報取得手段でそれぞれ取得された第１のコンテンツの解析情報と第２のコンテンツの解析情報とに基づき、第１のコンテンツと第２のコンテンツとが類似しているか否かを判定する判定手段と、解析情報とレイアウト情報とに基づきコンテンツに対して加工処理を施す加工手段と、加工手段で加工されたコンテンツを、レイアウト情報に従い配置した出力データを生成する生成手段とを備え、レイアウト情報取得手段は、第１のコンテンツに対する第２のコンテンツの距離をレイアウト情報に基づき求め、加工手段は、判定手段によって類似していると判定され、且つ、距離が閾値以下である場合に、第１のコンテンツに対する第２のコンテンツの類似度を高める加工処理を、第２のコンテンツに対して施す画像処理装置と、生成手段で生成された出力データに基づき画像を形成する画像形成手段を備える画像形成装置とを有することを特徴とする。

また、本発明は、高さ及び幅の異なる複数のコンテンツを、コンテンツの幅と、コンテンツを配置するページの幅とに基づき、ページの幅を超えずに１以上のページに配置した場合の複数のコンテンツのレイアウトを示すレイアウト情報を生成するレイアウト生成ステップと、レイアウト情報を取得するレイアウト情報取得ステップと、コンテンツを解析した解析情報を取得する解析情報取得ステップと、解析情報取得ステップでそれぞれ取得された第１のコンテンツの解析情報と第２のコンテンツの解析情報とに基づき、第１のコンテンツと第２のコンテンツとが類似しているか否かを判定する判定ステップと、解析情報とレイアウト情報とに基づきコンテンツに対して加工処理を施す加工ステップと、加工ステップで加工されたコンテンツを、レイアウト情報に従い配置した出力データを生成する生成ステップとを有し、レイアウト情報取得ステップは、第１のコンテンツに対する第２のコンテンツの距離をレイアウト情報に基づき求め、加工ステップは、判定ステップによって類似していると判定され、且つ、距離が閾値以下である場合に、第１のコンテンツに対する第２のコンテンツの類似度を高める加工処理を、第２のコンテンツに対して施すことを特徴とする画像処理方法をコンピュータに実行させることを特徴とする。

本発明によれば、複数のコンテンツのレイアウトを容易に行うことができるという効果を奏する。

図１は、本発明に適用可能な画像処理システムの一例の構成を示すブロック図である。図２は、本発明に適用可能なレイアウト生成方法について説明するための略線図である。図３は、本レイアウト生成方法による画像処理を概念的に示す一例のフローチャートである。図４は、ＦＦＤＨによるコンテンツの一例の配置方法を概略的に示すフローチャートである。図５は、ＦＦＤＨにより生成した最密充填レイアウトの一例を示す略線図である。図６は、ブロックおよび行を説明するための略線図である。図７−１は、ブロックがページを跨いで配置される例を説明するための略線図である。図７−２は、ブロックがページを跨がないで配置される例を説明するための略線図である。図８は、本発明の第１の実施形態によるページレイアウトの生成方法の一例の処理を示すフローチャートである。図９−１は、効率的な配置であっても適当なページ区切りが見つからない例を説明するための略線図である。図９−２は、本発明の第１の実施形態によるコンテンツの配置方法の効果を説明するための略線図である。図１０は、本発明の第２の実施形態によるページレイアウトの生成方法の一例の処理を示すフローチャートである。図１１は、ブロック自体の位置を調整する処理を示す一例のフローチャートである。図１２は、ブロック内でコンテンツの位置を調整する処理を示す一例のフローチャートである。図１３は、本第１の実施形態による画像処理装置の機能を示す一例の機能ブロック図である。図１４は、本第１の実施形態による基本的なデータ生成処理を示す一例のフローチャートである。図１５−１は、コンテンツの例を示す略線図である。図１５−２は、コンテンツの例を示す略線図である。図１５−３は、コンテンツの例を示す略線図である。図１６は、本第２の実施形態に適用可能な画像処理装置の機能を示す一例の機能ブロック図である。図１７は、本第２の実施形態に係る一例の処理を示すフローチャートである。図１８は、本第３の実施形態に係る一例の処理を示すフローチャートである。図１９は、本第４の実施形態による一例のレイアウト生成処理を示すフローチャートである。

以下に添付図面を参照して、この発明にかかる画像処理装置の一実施の形態を詳細に説明する。図１は、本発明に適用可能な画像処理システムの一例の構成を示す。図１に例示されるように、本発明に適用可能な画像処理システムは、画像入力装置１１、画像処理装置１００および画像形成装置１２を有する。

画像入力装置１１は、例えばスキャナ、複写機、スキャン機能や印刷機能を複合的に備える複合機といった、画像を取り込んで画像データとして出力する機能を備える。画像入力装置１１がＡＤＦ(Auto Document Feeder)を備え、複数の画像を連続して自動的に取り込み出力できるようにしてもよい。これに限らず、画像入力装置１１がインターネットやＬＡＮ(Local Area Network)といったネットワークを介して通信を行う通信機能を備え、ネットワークに接続された記憶媒体から画像データを取り込むようにしてもよい。

また、画像入力装置１１は、取り込んだ画像データに対してトリミングなどの加工を施し、当該画像データの所定領域を切り取ってコンテンツデータとして出力する機能を有する。

さらに、画像入力装置１１は、原稿を読み取った画像データまたは当該画像データに対してトリミングを行ったコンテンツデータを解析し、解析結果を解析情報として出力する機能を有する。画像入力装置１１は、この解析情報として、例えば、コンテンツデータの属性、コンテンツに含まれるオブジェクト、コンテンツデータの背景画像に関する情報、コンテンツデータがテキストを含む場合、そのテキストを表示させるフォントやテキストにより構成される文書の構造のうち少なくとも１を出力することができる。コンテンツデータの解析の詳細については、後述する。

画像処理装置１００は、画像入力装置１１から出力されたコンテンツデータおよび解析結果が入力される。画像処理装置１００は、入力されたコンテンツデータの１または複数をページ単位に配置したレイアウト情報を生成することができる。

このとき、画像処理装置１００は、コンテンツデータの配置を示すレイアウト情報や画像入力装置１１から入力された解析結果に基づき、配置されたコンテンツに対して加工処理（詳細は後述する）を施すことができる。画像処理装置１００は、配置および加工処理されたコンテンツデータと、当該コンテンツデータに対するレイアウト情報を含む出力データを生成する。

画像形成装置１２は、例えばプリンタやディスプレイといった、コンテンツデータから画像を形成して出力する機能を備える。画像形成装置１２は、画像処理装置１００から供給された出力データに従い、コンテンツデータのページ単位での印刷や表示出力を行う。

画像処理装置１００の構成について、より詳細に説明する。画像処理装置１００において、内部バス１１０に対してＣＰＵ(Central Processing Unit)１０１、Ｉ／Ｏ(Input/Output)部１０２、ＲＯＭ(Read Only Memory)１０３、ＲＡＭ(Random Access Memory)１０４およびハードディスクドライブ（ＨＤＤ）１０５が接続される。内部バス１１０に接続される各部は、内部バス１１０を介して互いにデータのやりとりを行うことができるようになっている。

ＨＤＤ１０５は、各種のプログラムやデータが格納される。例えばＯＳ(Operating System)や、この発明に係る画像処理方法を実行するための画像処理プログラムなどがＨＤＤ１０５に格納される。また、画像入力装置１１から入力された画像データがＨＤＤ１０５に格納される。ＣＰＵ１０１は、ＲＯＭ１０３に予め記憶されたプログラムや、ＨＤＤ１０５に格納されたプログラムに従い、ＲＡＭ１０４をワークメモリとして用いて、この画像処理装置１００の全体の動作を制御する。Ｉ／Ｏ部１０２は、画像入力装置１１および画像形成装置１２などを含む、この画像処理装置１００に接続される外部機器との間でのデータの入出力を管理する。

この画像処理装置１００で処理されるコンテンツデータとしての画像データは、画像入力装置１１から画像処理装置１００に対して入力され、Ｉ／Ｏ部１０２を介してＨＤＤ１０５に格納されたり、ＣＰＵ１０１に供給される。

なお、画像処理装置１００は、コンテンツデータとしてテキストデータを処理することもできる。テキストデータは、例えば、画像処理装置１００に接続されたキーボード（図示しない）や、外部機器からＩ／Ｏ部１０２を介して画像処理装置１００に入力される。

この画像処理装置１００で生成された出力データは、Ｉ／Ｏ部１０２を介して画像形成装置１２に対して出力される。

なお、上述では、本発明に適用可能な画像処理システムを構成する画像入力装置１１、画像処理装置１００および画像形成装置１２がそれぞれ独立した機器であるように説明したが、これはこの例に限定されない。例えば、画像入力装置１１と画像形成装置１２とを一体的に構成し、複合機としてもよい。さらに、画像入力装置１１、画像処理装置１００および画像形成装置１２を一体的に構成することもできる。

＜本発明に適用可能なレイアウト生成方法＞
ここで、理解を容易とするために、本発明に適用可能なレイアウト生成方法について説明する。本レイアウト生成方法では、図２に例示されるように、様々な大きさ（幅×高さ）を有する複数の矩形コンテンツを、幅Ｗ、高さＨの配置領域２００上に配置する際のレイアウトを生成する。ここで、幅Ｗは有限の値を持ち、高さＨは、無限大の値を持つものとする。また、レイアウトとは、配置領域２００上におけるコンテンツの配置を示し、レイアウト情報は、レイアウトにおけるコンテンツの配置を示す情報（例えば座標情報）からなるものとする。また、ページとは、一度に表示を行うための領域をいい、以下では、幅Ｗを持つ配置領域を、一度に表示を行う所定の高さｈ毎に区切った各領域をページと呼ぶ。

図３は、本レイアウト生成方法による画像処理を概念的に示す一例のフローチャートである。この図３のフローチャートにおける各処理は、ＣＰＵ１０１により、本第１の実施形態による画像処理プログラムに従い実行される。

ステップＳ１で複数のコンテンツデータが画像処理装置１００に取得される。次のステップＳ２で、画像処理装置１００は、ステップＳ１で取得された複数のコンテンツデータに基づき、最密充填レイアウトを生成する。そして、次のステップＳ３で、ステップＳ２で生成された最密充填レイアウトに基づきページ毎の最終レイアウトを決定する。そして、このステップＳ３で決定された最終レイアウトを示すレイアウト情報が生成される。

＜最密充填レイアウトの生成＞
図３のステップＳ２における最密充填レイアウトの生成処理について、より詳細に説明する。なお、実際に入力されるコンテンツデータは、様々な形状が想定されるが、以下では、説明のため、コンテンツデータによる画像が矩形であるものとする。ここで、コンテンツデータによる画像を含む最小の矩形を想定してもよいし、コンテンツデータによる画像に対してマージンなどを考慮した矩形を想定してもよい。以下では、煩雑さを避けるため、「コンテンツデータによる画像」を単に「コンテンツ」と呼ぶ。

ステップＳ２の最密充填レイアウトでは、予め決められた幅を持ち、高さが無限の領域に対して、下記の条件を満たし、且つ、高さを最小にするように複数のコンテンツを配置する問題として考えて、各コンテンツのレイアウトを決める。
（１）コンテンツの形状が矩形であって、幅および高さが有理数値である。
（２）回転を許容しない。
（３）各コンテンツが互いに重ならない。

ここで、（３）の各コンテンツが互いに重ならないという条件は、２つのコンテンツＣ_ｉおよびＣ_ｊについて、下記の式(１)〜式（４）のうち少なくとも１つが成立することと等価である。なお、式(１)〜式（４）において、値ｗおよび値ｈは、それぞれコンテンツの幅および高さ、値ｘおよび値ｙは、それぞれコンテンツの一端（例えば左下隅）のｘ座標およびｙ座標である。
ｘ_ｉ＋ｗ_ｉ≦ｘ_ｊ …（１）
ｘ_ｊ＋ｗ_ｊ≦ｘ_ｉ …（２）
ｙ_ｉ＋ｈ_ｉ≦ｙ_ｊ …（３）
ｙ_ｊ＋ｈ_ｊ≦ｙ_ｉ …（４）

各コンテンツに対して、式(１)〜式(４)のうち何れを採用するかを決める場合、単純に見積もって４^(n(n-1)/2)通りの可能性があるといえる。この問題は、一般的に箱詰め問題と称され、ＮＰ困難に属しており、実用的な演算時間で解決することが極めて困難であると考えられる。そこで、本実施形態では、最適解に近似する最適近似解をできるだけ簡単な手順で求める手法を用いて、最密充填レイアウトの生成を行う。

このような問題を解決するために、上述の各条件を満たし、且つ、評価値すなわち最適解からの外れ度が定まっている基本的なアルゴリズムとして、ＦＦＤＨ(First-Fit Decreasing-Height)やＮＦＤＨ(Next-Fit Decreasing-Height)などが知られている。本発明の第１の実施形態では、ＦＦＤＨを用いて最密充填レイアウトの生成を行う。ＦＦＤＨについては、「E.G.Coffman, JR., M.R.Garey, D.S.Johonson, R.E.Tarjan(Bell Lab.&Stanford Univ.) "Performance bounds for level-oriented two-dimensional packing algorithms", SIAM J. Comput, vol.9., pp808-826, No.4, 1980.」（非特許文献１）に記載がある。

図４は、ＦＦＤＨによるコンテンツの一例の配置方法を概略的に示すフローチャートである。この図４のフローチャートにおける各処理は、ＣＰＵ１０１により所定のプログラムに従い実行される。ＦＦＤＨによれば、先ず、コンテンツを高さの大きい順にソートして、ソート順で１番目のコンテンツ（すなわち最も高さの高いコンテンツ）を、配置領域の配置開始位置に配置して、処理を開始する。以下では、説明のため、配置開始位置を配置領域の左上隅とする。

図４のフローチャートによる処理の開始に先立って、何らかのコンテンツ（例えばソート順で１番目のコンテンツ）が配置領域に配置されているものとする。これを最後に配置されたコンテンツとして、図４のフローチャートによる処理が開始される。ステップＳ１０で、全てのコンテンツについて配置が完了したか否かが判定され、完了していないと判定されたら、処理がステップＳ１１に移行される。

ステップＳ１１で、直前に選択したコンテンツに対してソート順で次のコンテンツを選択する。次のステップＳ１２で、ステップＳ１１で選択されたコンテンツがソート順で最後のコンテンツか否かが判定される。若し、最後のコンテンツではないと判定されたら、処理はステップＳ１３に移行される。

ステップＳ１３では、ステップＳ１１で選択されたコンテンツが、最後に配置したコンテンツの右隣に配置可能な否かが判定される。すなわち、最後に配置したコンテンツの右端から配置領域の右端までの幅が、ステップＳ１１で選択されたコンテンツの幅以上であれば、当該選択されたコンテンツが配置可能であると判定される。若し、配置不可であると判定されたら、処理はステップＳ１０に戻され、全てのコンテンツについて配置が完了していなければソート順でさらに次のコンテンツが選択され（ステップＳ１１）、処理が繰り返される。

一方、ステップＳ１３で配置可能であると判定されたら、処理はステップＳ１４に移行され、最後に配置したコンテンツの右隣にステップＳ１１で選択されたコンテンツが配置される。コンテンツの配置位置を示す情報は、例えばＲＡＭ１０４に記憶される。そして、処理がステップＳ１０に戻される。

上述のステップＳ１２で、ステップＳ１１で選択されたコンテンツがソート順で最後のコンテンツであると判定されたら、処理はステップＳ１５に移行される。ステップＳ１５では、未配置のコンテンツのうち、ソート順が最も早い（すなわち高さが最も高い）コンテンツを、最後に配置したコンテンツに対して幅方向の左端に配置されるコンテンツの下に、配置領域に対して左詰めで配置する。コンテンツの配置位置を示す情報は、例えばＲＡＭ１０４に記憶される。そして、処理はステップＳ１１に戻される。

図５は、上述のようにしてＦＦＤＨにより生成した最密充填レイアウトの一例を示す。この例では、幅が「１０」の配置領域に、８個のコンテンツが配置されている。この、図３のステップＳ２において生成された最密充填レイアウトを、初期ページレイアウトと呼ぶ。

図５および図４のフローチャートによる処理で分かるように、ＦＦＤＨによる最密充填レイアウトでは、コンテンツの右隣には、当該コンテンツと高さが同じかまたは低いコンテンツが配置される。また、左端のコンテンツについては、コンテンツの下には当該コンテンツと高さが同じかまたは低いコンテンツが配置される。以下、配置領域の幅を持ち、左端のコンテンツの上下端で高さおよび配置領域における高さ方向の位置が規定される領域を、「ブロック」と呼び、ブロックとブロックとの区切りを、「行」と呼ぶ（図６参照）。

ここで、図５の例では、各コンテンツは、上端を揃えて一列に配置されている。これに限らず、左端のブロックに対して右方向に一列に配置される一連のブロックは、上下端が左端のブロックの上端および下端からなる範囲を越えなければ、他の配置でもよい。

なお、ＦＦＤＨでは、最適解に対する評価値が下記の式(５)のようになることが知られている。式(５)は、コンテンツの高さと幅とをそれぞれ「１」に正規化した場合の例である。また、式(５)において、値Ｈ_algはＦＦＤＨにより求められる高さ、値Ｈ_optは最適解を表す。
Ｈ_alg≦１.７×Ｈ_opt＋１ …（５）

＜第１のレイアウト生成方法＞
次に、上述した図３のステップＳ３における、ページ毎の最終レイアウトの生成について説明する。図３のステップＳ２において、図４を用いて説明した手順に従い最密充填レイアウトによる初期ページレイアウトを生成した後に、配置領域を、幅が配置領域の幅と一致し、所定の高さを持つページ単位に分割する。このとき、図７−１に例示されるように、あるブロックがページに跨って配置されてしまうことがある。図７−１の例では、配置領域３００に配置されたブロック３０１〜３０４のうち、ブロック３０３がページを跨いで配置されてしまっている。このままでは、コンテンツが途中で分断されてしまう結果となり、好ましくない。そこで、この第１のレイアウト生成方法では、各ブロックがページを跨がないようにレイアウトを調整して、ページ毎の最終レイアウトを生成する。

本第１のレイアウト方法では、ページを跨いで配置されたブロックを、次のページの先頭に移動させる。ここで、次のページとは、ページを跨いで配置されたブロックの上端が属するページから見た次のページをいう。すなわち、図７−１の例では、ページを跨いで配置されているブロック３０３を次ページの先頭に移動させ、当該ブロック３０３より下に配置された各ブロックも、当該ブロック３０３の移動に伴い下方に位置をずらす。以降、この処理をページ毎に順次、繰り返して行うことで、最終的には全てのコンテンツがページを跨がないように配置されたレイアウトを生成することができる。

図８は、本第１のレイアウト生成方法によるページレイアウトの生成方法の一例の処理を示すフローチャートである。この図８のフローチャートにおける各処理は、ＣＰＵ１０１により、所定のプログラムに従い実行される。先ず、ステップＳ２０で、対象ページのページレイアウトを取得する。なお、ステップＳ２０で取得されるページレイアウトは、処理の対象となる対象ページに係るブロックからなるレイアウトである。対象ページが第１ページ目の場合は、初期ページレイアウトから対象ページのページレイアウトを取得することになる。

次のステップＳ２１で、対象ページのページレイアウトにページを跨るブロックがあるか否かを判定する。若し、ページを跨るブロックが無いと判定されたら、処理はステップＳ２３に移行される。

一方、ステップＳ２１で、対象ページのレイアウトにページを跨るブロックがあると判定されたら、処理はステップＳ２２に移行される。ステップＳ２２では、対象ページのレイアウト中においてページを跨って配置されたブロックが、対象ページの次のページの先頭に配置されるように、当該ブロックおよび当該ブロックの下に配置される各ブロックを下方へずらして再配置する。ブロックの再配置が終了すると、処理はステップＳ２３に移行される。

ステップＳ２３では、現在のブロックの配置状態に従い、対象ページにおけるページレイアウトを生成し、当該対象ページのページレイアウトを決定する。そして、処理はステップＳ２４に移行され、全てのページについてページレイアウトが決定されたか否かが判定される。若し、ページレイアウトが決定されていないページが存在すると判定されたら、処理はステップＳ２０に戻され、ステップＳ２３でページレイアウトが決定された次のページを対象ページとして、処理が繰り返される。

一方、ステップＳ２４で、全てのページについてページレイアウトが決定されたと判定されたら、一連の処理が終了される。この場合、未配置のブロックが存在しない場合に、全てのページについてページレイアウトが決定されたと判定する。

このように、本第１のレイアウト生成方法によれば、様々なサイズのコンテンツを複数ページに亘る配置領域に配置する場合に、出力ページ数がなるべく小さくなり、且つ、コンテンツがページで分断されないようなレイアウトを自動的に生成できる。

また、配置領域に対して様々なサイズのコンテンツを配置する場合、全てのコンテンツがページを跨がないようにページ区切りを設けることができる保証が無く、ページを跨いで配置されるコンテンツが発生する可能性が高い。すなわち、コンテンツが配置された状態でコンテンツを区切らないように幅方向の線（ページ区切り）を引くためには、幅方向に見たときに、コンテンツの上辺または下辺が揃っているなどの条件が必要となる。図９−１は、効率的な配置であっても、適当なページ区切りが見つからない例を示す。

本第１のレイアウト生成方法によれば、コンテンツを配置する際に、配置領域の幅方向については、図９−２に例示されるように、左端に配置されたコンテンツ２０１の高さからはみ出ない範囲２０２に収まるコンテンツを探索していくため、ブロック単位での配置の入れ替えが可能となる。したがって、ページ間でコンテンツが分断されないような各ページのレイアウトを、最密充填レイアウトによる初期ページレイアウトの配置から容易に決定することが可能となる。

＜第２のレイアウト生成方法＞
次に、第２のレイアウト生成方法について説明する。本第２のレイアウト生成方法では、上述した第１のレイアウト生成方法に対し、さらに、ページに跨るブロックが存在する場合に、当該ブロック以降のブロックから対象ページ内に収まるブロックを探索する。そして、探索されたブロックとページに跨るブロックとを入れ替えて再配置を行う。これにより、効率的なページレイアウトを簡易に生成することができる。

図４を用いて説明した最密充填レイアウトの生成方法によれば、新しいブロックの形成時には、その時点で未配置のコンテンツの中で高さが最大のコンテンツが当該ブロックの左端に配置されることになる。そのため、ブロックは、下方に配置されるに従い高さが単調に減少（または非増加）する。したがって、あるブロックがページを跨いで配置された場合、当該ブロックの下に、当該ブロックと配置を交換することでブロックがページを跨ぐ事態を解消可能な高さのブロックが存在している可能性がある。

そこで、本第２のレイアウト生成方法では、あるブロックがページを跨いで配置された場合、当該ブロックの下に位置するブロックから順次、対象ブロックと配置を交換した際にページ内に収まるか否かを判定する。そして、ページ内に収まる高さのブロックが存在したら、そのブロックの配置と、ページを跨るブロックの配置とを入れ替える。ブロックがページを跨いで配置される毎に同様の処理を繰り返すことで、最終的には、全てのコンテンツがページを跨がないようなページレイアウトを生成することができる。

図７を用いて、より具体的に説明する。図７−１に示される例では、配置領域３００に対してブロック３０１〜３０４が配置され、それらのうち、ブロック３０３がページを跨いで配置されブロック３０３に含まれるコンテンツがページ区切りで分断されてしまっている。このようなコンテンツの分断は、特にコンテンツの内容が図や表などの場合、好ましくない。

ここで、上述した処理により、ページを跨いで配置されたブロック３０３の直下に配置されるブロックから順次、ブロック３０３との配置交換を試みる。図７−１の例では、１ページの高さ「１１」に対して上から高さがそれぞれ「６」、「３」および「３」のブロック３０１〜３０３が配置され、ブロック３０３が高さ「１」だけページからはみ出している。ブロック３０３を取り去ると、ブロック３０３の直上のブロック３０２とページ下端との間に高さ「２」の余裕が生じる。一方、ブロック３０３の１つ下に配置されるブロック３０４は、高さが「２」であるため、ブロック３０３とブロック３０４とを入れ替えて再配置を行うことで、ブロックがページを跨ぐ事態が解消されることが分かる。

図７−２は、図７−１の状態から、ブロック３０３とブロック３０４とを入れ替えて再配置した場合の例を示す。対象ページに対して、ブロック３０３がページを跨がずに配置されていることが分かる。このような再配置を行うことで、効率性を保持しつつ、ブロックがページを跨いでしまう事態を解消することができる。

図１０は、本第２のレイアウト生成方法によるページレイアウトの生成方法の一例の処理を示すフローチャートである。この図１０のフローチャートにおける各処理は、ＣＰＵ１０１により、本第２の実施形態による画像処理プログラムに従い実行される。先ず、ステップＳ３０で、上述したステップＳ２０と同様にして、対象ページのページレイアウトを取得する。そして、次のステップＳ３１で、対象ページのページレイアウトにページを跨るブロックがあるか否かを判定する。若し、ページを跨るブロックが無いと判定されたら、処理はステップＳ３７に移行される。

一方、ステップＳ３１で、対象ページのレイアウトにページを跨るブロックがあると判定されたら、処理はステップＳ３２に移行される。ステップＳ３２では、ページを跨ると判定されたブロックの直上に配置されるブロックの下端から、対象ページの下端までの高さｙが求められる。

次のステップＳ３３で、対象ブロックの下にさらにブロックが配置されているか否かが判定される。ステップＳ３３による判定が、ステップＳ３１でページを跨るブロックがあると判定された直後の判定であれば、当該ページを跨るブロックが対象ブロックとされる。若し、対象ブロックの直下にさらにブロックが配置されていると判定されたら、処理はステップＳ３４に移行される。

ステップＳ３４では、対象ブロックの直下に配置されたブロックをページを跨るブロックと入れ替えて配置した場合に、ブロックが対象ページ内に収まるか否かが判定される。例えば、ステップＳ３２で求められた高さｙと、対象ブロックの直下に配置されたブロックの高さｈとを比較し、高さｙが高さｈ_b以上であれば、当該ブロックが対象ページ内に収まると判定される。

若し、ステップＳ３４で、高さｈ_bが高さｙよりも高く、対象ブロックとページを跨ぐブロックとを入れ替えて配置した際に、対象ブロックがページ内に収まらないと判定されたら、処理はステップＳ３３に戻される。そして、直前にページを跨ぐブロックとの入れ替えを試みられたブロックを新たな対象ブロックとして、当該対象ブロックの直下に配置されているブロックについて、同様にして判定が行われる。

一方、ステップＳ３４で、高さｈ_bが高さｙ以内であって、対象ブロックとページを跨ぐブロックとを入れ替えて配置した際に、対象ブロックがページ内に収まると判定されたら、処理はステップＳ３５に移行される。ステップＳ３５では、当該対象ブロックとページを跨ぐブロックとが入れ替えられて、ブロックの再配置がなされる。この場合、当該対象ブロックがページを跨ぐブロックの直上のブロックの直下に配置されると共に、ページを跨ぐブロックが対象ページの次ページの先頭に配置される。そして、このブロックの直下から、当該対象ブロックの直下から配置されていた各ブロックが、順序を変えずに配置される。ステップＳ３５でブロックの再配置が行われると、処理はステップＳ３７に移行される。

上述のステップＳ３３で、対象ブロックの下にブロックが配置されていないと判定されたら、処理はステップＳ３６に移行される。この場合には、対象ページ内に収まるようにページを跨ぐブロックと入れ替え可能なブロックが存在しないことを意味する。そこで、ステップＳ３６では、当該ページを跨ぐブロックを対象ページの次ページの先頭に配置されるように、当該ブロックおよび当該ブロックの下に配置される各ブロックを下方にずらして再配置する。ブロックの再配置が終了すると、処理はステップＳ３７に移行される。

ステップＳ３７では、現在のブロックの配置状態に従い、対象ページにおけるページレイアウトを生成し、当該対象ページのページレイアウトを決定する。そして、処理はステップＳ３８に移行され、全てのページについてページレイアウトが決定されたか否かが判定される。若し、ページレイアウトが決定されていないページが存在すると判定されたら、処理はステップＳ３０に戻され、ステップＳ３７でページレイアウトが決定された次のページを対象ページとして、処理が繰り返される。

一方、ステップＳ３８で、全てのページについてページレイアウトが決定されたと判定されたら、一連の処理が終了される。この場合、未配置のブロックが存在しない場合に、全てのページについてページレイアウトが決定されたと判定する。

このように、本第２のレイアウト生成方法によれば、様々なサイズのコンテンツを複数ページに亘る配置領域に配置する場合に、出力ページ数がなるべく小さくなり、且つ、コンテンツがページで分断されないようなレイアウトを自動的に生成できる。

また、本第２のレイアウト生成方法によれば、最密充填レイアウト生成により、新しいブロックの形成時には、その時点で未配置のコンテンツの中で高さが最大のコンテンツが当該ブロックの左端に配置されることになる。そのため、ブロックは、下方に配置されるに従い高さが単調に減少（または非増加）する。したがって、ブロックがページを跨いで配置されてしまった場合、直下のブロックから順次、ブロックの高さを調べていき、ページ内に収まる高さのブロックがあれば、そのブロックとページを跨ぐブロックとを入れ替えて再配置を行うことで、簡易に効率的なページレイアウトを生成することができる。

＜第３のレイアウト生成方法＞
次に、第３のレイアウト生成方法について説明する。本第３のレイアウト生成方法では、上述した第１または第２のレイアウト生成方法で生成された最終的なページレイアウトに対して、さらに調整を加えることで、より好ましいページレイアウトを生成する。この場合、ブロック自体の位置を調整する方法と、ブロック内でコンテンツの位置を調整する方法とが考えられる。

先ず、第１の方法として、ブロック自体の位置をページ内で調整する方法について説明する。すなわち、上述した第１および第２のレイアウト生成方法により生成されるページレイアウトでは、最終ページに対して１つのブロックのみが配置され、そのページの残り全ての領域が空白という事態が起こり得る。そこで、上述した第１または第２のレイアウト生成方法で説明した方法でページレイアウトを生成し、全ページ数が決定された後に、ブロック自体の位置をページ内およびページ間で調整する。

図１１は、ブロック自体の位置を調整する処理を示す一例のフローチャートである。この図１１のフローチャートにおける各処理は、ＣＰＵ１０１により、本第３のレイアウト生成方法による画像処理プログラムに従い実行される。先ず、ステップＳ４０で、図４を用いて説明したようにして最密充填レイアウトを取得し、次のステップＳ４１で、最密充填レイアウトから初期ページレイアウトを生成する。この初期ページレイアウトでは、既に説明したように、ページを跨いで配置されるブロックが存在する可能性がある。次のステップＳ４２で、初期ページレイアウトに基づきブロック単位で再配置を行い、ページを跨ぐブロックが全ページに亘って存在しないようにする。ステップＳ４２での処理は、図８または図１０を用いて説明した手順に従い、ページを跨ぐブロックを次のページの先頭に移動させたり、他のブロックとの入れ替えを行うことで、ブロックがページを跨いで配置される事態を解消する。

ステップＳ４２までの処理により全ページのレイアウトが決定し、レイアウトに必要な全ページ数が確定すると、処理はステップＳ４３に移行される。ステップＳ４３では、ブロックの位置調整を行う。

ステップＳ４３での処理として、例えばページ下部の空白部分のページ間でのバラツキが小さくなるように、ブロックを再配置することが考えられる。一例として、ステップＳ４２の処理が終了した時点で、全ブロックの高さの合計をページ数で除して、１ページに配置されるブロックの合計高さの平均値ｈ_avgを算出する。そして、最終ページに配置されるブロックの合計高さが平均値ｈ_avgに近くなるように、各ページから１つずつ、ブロックを最終ページに移動させる。

また、ページ内でブロックの再配置を行ってページ毎のレイアウトを調整することもできる。例えば、ページ内の下部に生じた空白を、ブロック間のマージンとして割り当てることが考えられる。一例として、下記の式（６）に例示されるように、各ページにおいて、下部の空白領域の高さＭをブロック数ｎ−１で除して、ブロック間に対して等分にブロック間マージンＢＭを割り当てる。
ＢＭ＝Ｍ／(ｎ−１) …（６）

勿論、このページ内でのブロック再配置と、上述したページ間でのブロックの移動とを組み合わせて実行してもよい。すなわち、ページ下部の空白部分のページ間でのバラツキが小さくなるようにブロックを再配置した後に、ページ内でのブロックの再配置を行い空白部分を均一化する。

次に、第２の方法として、ブロック内でコンテンツの位置を調整する方法について説明する。ブロック内でコンテンツを移動させても、ブロック自体を移動させない限りはページ数が増加することはない。そこで、ブロック内で例えば水平方向にコンテンツを移動させて、左右のバランスを調整する方法が考えられる。このとき、ブロック内に配置されるコンテンツのサイズや形状（アスペクト比）などを考慮してコンテンツの移動を行うと好ましい。

図１２は、ブロック内でコンテンツの位置を調整する処理を示す一例のフローチャートである。この図１２のフローチャートにおける各処理は、ＣＰＵ１０１により、本第３の実施形態による画像処理プログラムに従い実行される。先ず、ステップＳ５０で、図４を用いて説明したようにして最密充填レイアウトを取得し、次のステップＳ５１で、最密充填レイアウトから初期ページレイアウトを生成する。この初期ページレイアウトでは、既に説明したように、ページを跨いで配置されるブロックが存在する可能性がある。次のステップＳ５２で、初期ページレイアウトに基づきブロック単位で再配置を行い、ページを跨ぐブロックが全ページに亘って存在しないようにする。ステップＳ５２での処理は、図８または図１０を用いて説明した手順に従い、ページを跨ぐブロックを次のページの先頭に移動させたり、他のブロックとの入れ替えを行うことで、ブロックがページを跨いで配置される事態を解消する。

ステップＳ５２までの処理により全ページのレイアウトが決定すると、処理がステップＳ５３に移行される。ステップＳ５３では、ブロック内でのコンテンツの位置調整を行う。

ステップＳ５３において、ブロックの視覚的な中心や、コンテンツの視覚的な中心は、例えば「Steven J.Harrington, J.Femando Naveda, Rhys Price Jones, Paul Roetling, Nishant Thakker, "Aesthetic Measures for Automated Document Layout"」（非特許文献２）に示される方法で算出可能である。例えば、ブロック内コンテンツ全体の水平方向の位置は下記の式(７)〜式(９)で、ブロック内コンテンツの左右のバランス度は下記の式（１０）でそれぞれ算出することができる。

なお、上述の式（７）〜式（１０）で用いられる各変数の意味は、次の通りである。
(ｘ_i,ｙ_i)：コンテンツ_iのｘｙ座標
(ｘ_c,ｙ_c)：ブロックの視覚的な中心
Ｍ_i：コンテンツの視覚的中心
(ｄ_x,ｄ_y)：ブロックの視覚的中心からの最大距離
ｄ_h：ブロックの高さ

また、ブロック内ではコンテンツを自由に移動させることができるため、例えば、ステップＳ５３において、ブロック内のコンテンツの中心位置がブロックの中央に近付くように、コンテンツの位置調整を行うこともできる。ブロック内コンテンツの中心位置は例えば下記の式（１１）および式（１２）により、バランス度は式（１３）により、それぞれ算出することができる。

ブロックおよびコンテンツのレイアウト調整方法は、上述の例に限定されるものではない。例えば、上述した非特許文献２に記載されている幾つかの指標を用いてブロック間のコンテンツの配置を調整することもできる。

上述した最密充填レイアウトでは、コンテンツは基本的に左詰め（または右詰め）で配置される。一方、レイアウトとしては、幅方向のバランスがとれた方が一般的に見やすいとされている。本第３のレイアウト生成方法によれば、ブロック内部でコンテンツの左右のバランスを調整する事で、レイアウトの効率性は保持しつつ、より美しいレイアウトを実現することができる。

また、上述した最密充填レイアウトでは、ブロック単位で見ると、基本的にコンテンツが左上詰め（または右上詰め）で配置される。一方、レイアウトとしては、コンテンツの重心がブロックの中央付近に位置していた方がバランスが良く、一般的に見やすいとされている。本第３のレイアウト生成方法によれば、ブロック内部でコンテンツの重心位置を調整することで、レイアウトの効率性を保持しつつ、より美しいレイアウトを実現することができる。

＜第１の実施形態＞
次に、本発明の第１の実施形態について説明する。本第１の実施形態では、予めページへのレイアウトが生成されたコンテンツについて、当該コンテンツを解析した解析情報を取得する。そして、コンテンツのレイアウト情報と解析情報とに基づき、レイアウト上のコンテンツに対して所定の加工処理を施して、出力データを生成する。

ここで、コンテンツのレイアウト生成は、上述した、最密充填レイアウトを利用した第１、第２および第３のレイアウト生成方法を用いて行うことができる。これに限らず、画像処理装置１００に設けられた図示されない表示部および入力部からなるＧＵＩ(Graphical User Interface)を用いて、ユーザが手動でレイアウトを指示してもよい。例えば、表示部にページ領域と取得されたコンテンツのサムネイル画像を表示させ、ユーザがタッチパネルやマウスなどのポインティングデバイスを用いて当該サムネイル画像をページ領域に移動させることで、レイアウトを生成することが考えられる。

さらに、この手動によるレイアウト生成方法と、上述した第１、第２および第３のレイアウト生成方法とを組み合わせて、レイアウトを生成することも考えられる。例えば、第１、第２および第３のレイアウト生成方法で生成されたレイアウトに対して、ユーザが手動で変更を加える。変更が加えられたレイアウトに対して、さらに第１、第２および第３のレイアウト生成方法を利用してレイアウトの調整を行うことも可能である。

図１３は、本第１の実施形態による画像処理装置１００の機能を示す一例の機能ブロック図である。この画像処理装置１００は、図１を用いて説明したＣＰＵ１０１上で動作する画像処理プログラムにより実現されるものである。例えば、画像処理装置１００の各部は、当該画像処理プログラムにおけるモジュールとして実現される。

図１３において、画像処理装置１００は、レイアウト情報取得部４０１、解析情報取得部４０２、加工処理部４０３、出力データ生成部４０４、レイアウト生成部４０５およびコンテンツ取得部４０６を有する。

コンテンツ取得部４０６は、画像入力装置１１から出力されたコンテンツを取得する。レイアウト生成部４０５は、上述したレイアウト生成方法を用い、コンテンツ取得部４０６により取得されたコンテンツをページに対して配置し、レイアウト情報を生成する。レイアウト情報取得部４０１は、レイアウト生成部４０５で生成されたレイアウト情報を取得する。解析情報取得部４０２は、画像入力装置１１からコンテンツと共に出力される解析情報を取得する。

加工処理部４０３は、レイアウト情報取得部４０１および解析情報取得部４０２でそれぞれ取得されたレイアウト情報および解析情報に基づき、レイアウト生成部４０５でページに配置されたコンテンツに対して加工処理を施す。出力データ生成部４０４は、加工処理部４０３で加工処理されたコンテンツと、レイアウト生成部４０５で生成されたレイアウト情報とに基づき、画像形成装置１２に対する出力データを生成する。画像形成装置１２がプリンタ装置であれば、出力データは、例えばＰＤＬ(Page Description Language)で記述されたデータとなる。

＜第１の実施形態による処理＞
図１４は、本第１の実施形態による基本的なデータ生成処理を示す一例のフローチャートである。先ず、ステップＳ１００で、コンテンツ取得部４０６が画像入力装置１１から出力されたコンテンツを取得する。取得されたコンテンツに対し、例えばレイアウト生成部４０５でレイアウト情報が生成される。次のステップＳ１０１で、解析情報取得部４０２が、画像入力装置１１から出力された、当該コンテンツの解析情報を取得する。次のステップＳ１０２で、レイアウト情報取得部４０１が、レイアウト生成部４０５で生成されたレイアウト情報を取得する。次のステップＳ１０３で、加工処理部４０３が、解析情報取得部４０２で取得された解析情報と、レイアウト情報取得部４０１で取得されたレイアウト情報とに基づき、コンテンツに対して適切な加工処理を施す。そして、ステップＳ１０４で、出力データ生成部４０４が、レイアウト情報とコンテンツとに基づき出力データを生成する。

ここで、ステップＳ１０３で加工処理部４０３により行われる加工処理は、例えば、コンテンツの拡大／縮小やトリミング、特にコンテンツが画像の場合には色変換や画像補正などの画像処理である。この加工処理部４０３で行われる加工処理の詳細は、後述する。

なお、上述では、コンテンツの解析を画像入力装置１１が行うように説明したが、これはこの例に限定されない。例えば、コンテンツの解析を、この画像処理装置１００において行ってもよい。

図１５−１〜図１５−３は、コンテンツの例を示す。ここでいうコンテンツとは、新しく文書を作成する時に素材とするデータ全般を指す。例えば、コンピュータなどにローカルに保存されているデータや、新聞や雑誌などの紙原稿をスキャンして取得される画像などである。

図１５−１は、コンピュータのフォルダ１０に格納されるデータ１１Ａ、１１Ｂの例を示す。図１５−２は、新聞２０をスキャンおよびトリミングして得られた画像２１Ａおよび２１Ｂの例を示す。また、図１５−３は、雑誌３０のあるページをスキャンおよびトリミングして得られた画像３１Ａおよび３１Ｂの例を示す。この例では、画像３１Ａおよび３１Ｂは、テキストから構成されている。また、これら以外にも、例えばＷｅｂデータの一部をコピーしたデータもコンテンツに含まれる。

これらコンテンツは、ユーザが手動で指定してもよいが、画像に対する領域分割処理によってコンテンツを抽出してもよい。領域分割の技術としては、射影を利用する方法、黒画素の統合による方法、空白セパレータと射影を利用する方法等、様々な手法が提案されており、これら従来より知られている領域分割方法を適用可能である。

例えば、特許第３１８７８９５号公報には、文書画像から文字列を含む複数の小領域を抽出し、該複数の小領域から空白部または罫線を検出し、該検出された空白部または罫線を基に、１段組、複数段組、自由段組を含む段組種類を判別し、該段組種類に応じて該空白部を用いて前記小領域を統合し、前記文書画像を所定の領域に分割する文書画像の領域分割方法が提案されている。

本第１の実施形態によれば、コンテンツを解析した解析結果と、コンテンツのレイアウトを示すレイアウト情報とに基づき各コンテンツを画像処理により加工するようにしている。そのため、各コンテンツに対して、コンテンツのレイアウトを考慮した適切な加工処理を施すことができる。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。本第２の実施形態は、レイアウトされるコンテンツのうち類似度の高いコンテンツを判定し、この類似度の高いコンテンツに対して画像処理により適切な加工を施すようにしている。

すなわち、性質の似通ったコンテンツがレイアウト上で近くに配置されている場合、元データのサイズや色調が異なっていても適切に加工してコンテンツの類似性が容易に視認できるようにする。例えばコンテンツとしてスキャンデータの一部を利用する場合など、類似コンテンツがスキャナ設定や性能の違いによりサイズや色調の異なる画像として蓄積されるケースが起こり得る。その際、手動でサイズを合わせたり画像処理を行うとユーザの作業負荷は大きくなる。本第２の実施形態では、これら一連の作業を自動化することで、ユーザの作業負荷が大きく軽減される。

図１６は、本第２の実施形態に適用可能な画像処理装置１００の機能を示す一例の機能ブロック図である。なお、この図１６において、上述した図１３と共通する部分には同一の符号を付し、詳細な説明を省略する。図１６に示す画像処理装置１００は、上述した図１３で説明した画像処理装置１００に対して類似度判定部４１０が追加されている。類似度判定部４１０は、解析情報取得部４０２で取得された解析情報と、レイアウト情報取得部４０１で取得されたレイアウト情報とに基づき、第１のコンテンツに対する第２のコンテンツの類似度を求める。

図１７は、本第２の実施形態に係る一例の処理を示すフローチャートである。この図１７のフローチャートによる処理は、上述した図１４におけるステップＳ１０３の処理を拡張した処理であり、類似性の高いコンテンツを判定し、適切な加工処理を施す。

まず、ステップＳ１１０で、コンテンツ取得部４０６が未処理コンテンツＡを取得すると共に、解析情報取得部４０２が当該未処理コンテンツＡの解析情報を取得する。次のステップＳ１１１で、解析情報取得部４０２がその他の未処理コンテンツ（コンテンツＢとする）の解析情報を取得する。次のステップＳ１１２で、類似度判定部４１０が、取得された解析情報に基づきコンテンツＢがコンテンツＡと類似しているか否かを判定する。何を以て類似しているか否かを判断するかについては、後述する。若し、コンテンツＢがコンテンツＡと類似していないと判定されたら、処理はステップＳ１１５に移行される。

一方、ステップＳ１１２で、コンテンツＢがコンテンツＡに対して類似していると判定されたら、処理はステップＳ１１３に移行される。ステップＳ１１３では、類似度判定部４１０は、レイアウト情報取得部４０１で取得されたコンテンツＡおよびコンテンツＢのレイアウト情報に基づき、コンテンツＢのコンテンツＡに対する配置距離が閾値α未満であるか否かを判定する。若し、配置距離が閾値α以上であると判定されたら、処理はステップＳ１１５に移行される。

一方、ステップＳ１１３で、配置距離が閾値α未満であると判定されたら、処理はステップＳ１１４に移行される。ステップＳ１１４では、加工処理部４０３がコンテンツＢに対して適切な加工処理を施す。この加工処理は、コンテンツＢのコンテンツＡに対する視覚的な類似度を高めるような画像処理である。

コンテンツの加工処理が行われると、処理はステップＳ１１５に移行され、コンテンツＡ以外の全ての未処理コンテンツに対する処理が行われたか否かが判定される。若し、未だ処理を行っていない未処理コンテンツがあると判定されたら、処理はステップＳ１１１に戻され、次の未処理コンテンツに対してステップＳ１１１〜ステップＳ１１４の処理が行われる。

一方、ステップＳ１１５で、未処理コンテンツＡ以外の全ての未処理コンテンツに対してステップＳ１１１〜ステップＳ１１４の処理が行われたと判定されたら、処理はステップＳ１１６に移行され、未処理コンテンツＡを処理済みコンテンツＡとして、処理を終了する。

なお、上述した未処理コンテンツＡに対する処理は、予め重要度の高いコンテンツとして指定された所定のコンテンツのみに実施してもよいし、全てのコンテンツに実施してもよい。

ここで、上述のステップＳ１１１で取得される解析情報は、例えばコンテンツの属性情報である。すなわち、類似度を判定するための手段の１つとして、コンテンツの属性が一致しているか否かを用いる。この場合、コンテンツＡの属性とコンテンツＢの属性とが一致している場合に、類似しているとする。これに限らず、２つの解析情報の差分を数値化して類似度とし、数値化された類似度に対して閾値判定することも考えられる。

生成されたデータを文書として利用するケースを考えると、属性が一致するコンテンツ同士が文書上で互いに隣接して配置されている場合、コンテンツ内のオブジェクトのサイズや背景色などにばらつきがあると、視認性や可読性に影響を及ぼす。コンテンツの元となるデータのサイズや色調が異なっている場合に、コンテンツに対して類似度を高めるような加工処理を適切に施すことで、コンテンツが新しく生成される文書上で容易に視認可能となり、統一感のある文書を生成することができる。

ここでいうコンテンツの属性とは、概略的は、例えばテキスト、自然画像、人工画像といった類別情報を示す。より詳細には、テキストであれば、さらに、帳票、一般文書、記事などのテキスト種類を属性とすることが考えられる。また、自然画像であれば、人物、植物、建築物、風景、その他の物体などの、表現対象の種類を属性とすることが考えられる。

これらコンテンツを解析して属性を判定する方法として、例えば、特開２００７−１６６５４１号公報に開示される方法を適用することができる。特開２００７−１６６５４１号公報には、画像上に混在する文字、写真、表、線画などをそれぞれ解析し、コンテンツの属性に合わせた画像処理を施したり出力形式にあったデータに変換する技術が開示されており、画像中の黒画素塊、白画素塊の集合を抽出し、その形状、大きさ、集合状態などの特徴量から文字、写真、図形、表、枠、線画といった属性、およびその領域を抽出する方法が開示されている。

ステップＳ１１１で取得される解析情報の別の例として、コンテンツ内レイアウトが挙げられる。１つのコンテンツ内に複数の小コンテンツが含まれる場合、その小コンテンツの属性と相対位置関係の組み合わせによって類似しているか否かを判定することができる。レイアウト構成を把握し、その類似度を評価する方法として、例えば特開２００７−３１０５０３号公報に開示される方法を適用することができる。特開２００７−３１０５０３号公報には、文書中の非テキスト情報の領域、非テキスト情報、またはその構成要素を高精度に検索するための方法として、レイアウト解析により文書中の非テキスト情報領域とその構成要素である個々の非テキスト情報との関係を推定する方法が開示されている。

ステップＳ１１４における加工処理は、元のデータにおいて類似と判定される複数のコンテンツが、レイアウト上でも容易にその類似性を知覚できるようにすることを目的とする。この場合、何を以て類似と見做すかによって、適用される加工処理が適応的に判断されるべきである。以下、その一例を示す。

コンテンツをレイアウトしたデータに基づいて文書を作成して利用するケースを想定した場合、類似コンテンツの統一感に影響を及ぼす要因が幾つか考えられる。第１の要因として、コンテンツ内のオブジェクトのサイズが考えられる。

コンテンツからオブジェクトを抽出し、その情報を取得する方法としては、従来より知られるいかなる方法を利用してもよく、例えば特開２００８−１７６７６４号公報に開示される方法を用いることができる。特開２００８−１７６７６４号公報によれば、画像からオブジェクトを抽出した上で、所定の判定ルールに基づいてオブジェクトのレイアウト中における意味を判定し、オブジェクト情報を取得することができる。

ステップＳ１１４で、加工処理部４０３は、抽出されたオブジェクト情報に基づき、コンテンツＡのオブジェクトサイズに対してコンテンツＢのオブジェクトサイズが近似するように、コンテンツＢを拡大／縮小する加工処理を施す。

一例として、オブジェクトとしてそれぞれ「家」を撮影した画像をコンテンツＡ、Ｂとし、それらコンテンツＡ、Ｂを１つのページ内に集めて文書を作成する場合について考える。この場合、撮影条件の違いによって、コンテンツＡ内の「家」の画像によるオブジェクトと、コンテンツＢ内の「家」の画像によるオブジェクトで、オブジェクトのサイズにバラツキが生じる可能性がある。オブジェクトのサイズにバラツキがあると、「家」を撮影したコンテンツＡ、Ｂを、コンテンツ自体のサイズを合わせて隣接させて配置すると、これらコンテンツＡ、Ｂ内のオブジェクトのサイズを比較したい場合に不便である。そこで、オブジェクトのサイズを合わせるように、コンテンツに対して拡大／縮小処理を施すことで、文書としての利用価値を高めることができる。

オブジェクトのサイズは、予め定められたレイアウトにおける相対的な位置関係を保ち、且つ、レイアウト上でコンテンツ同士が重複しないように拡大／縮小することが好ましい。例えば、対象となる２つのコンテンツにおいて、より小さいサイズのオブジェクトに合わせて、コンテンツの縮小を行うことが考えられる。このとき、例えば、特開２００７−１３３７８０号公報に開示されている方法により、コンテンツデータの量に基づいて縮小限界サイズを設定し、変倍処理の閾値として用いてもよい。

コンテンツが類似しているか否かを、上述したコンテンツ内レイアウトに基づき判定する場合にも、コンテンツ同士のサイズの違いが類似コンテンツの統一感に影響を及ぼす可能性がある。一例として、１つのコンテンツ内の右半分にグラフ、左半分にテキストのように、２つのコンテンツがレイアウトされている場合について考える。この場合、２つのコンテンツのコンテンツ内レイアウトを比較し、類似しているか否かを判定する。

その際、例えばコンテンツＡに対して縦横のサイズが２倍のコンテンツＢが隣接して配置されている場合、コンテンツＡが２つの異なるコンテンツ（グラフおよびテキスト）から構成されているかのような錯覚を招く可能性がある。つまり、コンテンツ内レイアウトが一致するコンテンツであっても、コンテンツのサイズが大きく異なると、類似性の視認が困難になる可能性がある。

そこで、コンテンツ内レイアウト情報が一致するか否かで、コンテンツが類似しているか否かを判定し、レイアウトの一致（類似）したコンテンツ同士を、そのサイズを一致させて文書上へ配置することで、各コンテンツの類似性の視認を容易とすることができる。

類似コンテンツの統一感に影響を及ぼす第２の要因として、背景色の統一感が考えられる。背景が有色（白色以外）のページをスキャナから読み込むと、スキャン設定や機種による違いによって、背景の「見え」に違いが生じる場合がある。背景の「見え」が異なる複数のコンテンツを１の文書上で並べて配置すると、色調の違いが目立ち、不自然な印象を与える可能性がある。このような場合、ステップＳ１１４で、加工処理部４０３により背景の「見え」が類似するように加工処理を施すことで、ユーザの意図に沿ったコンテンツデータを生成することが可能となる。

「見え」の違いを招く要因は様々に考えられる。例えば背景の輝度ムラに起因して「見え」の違いが生じた場合、この輝度ムラを補正することによって「見え」の違いが改善される。その場合、例えば、特開２００２−１１７４００号公報に開示されるような処理を用いることができる。特開２００２−１１７４００号公報によれば、画像の背景色を検出し、背景画素の輝度が均一になるように入力画像の輝度を補正することで、カラー画像を色ムラの無い自然な画像に補正することができる。

また、特許第４１６９６７４号公報には、多様な画像入力機器から入力されてテキストと写真とが混在するデジタル画像において、テキストと写真との割合や背景の色などのコンテンツに応じて最適な階調補正を行うための方法が開示されている。例えばこの特許第４１６９６７４号公報に開示される方法を用いて、類似したコンテンツから最適な階調補正方法を決定して補正処理を行ってもよい。

＜第３の実施形態＞
次に、本発明の第３の実施形態について説明する。本第３の実施形態は、コンテンツの属性がテキストの場合に、類似コンテンツ間のフォントサイズが等しくなるようにコンテンツのサイズを調整する例である。類似コンテンツの属性がテキストである場合、コンテンツ内に含まれるフォントサイズが互いに一致するように両コンテンツを変倍することで類似性がより明確になり、視認性を向上させる事ができる。なお、本第３の実施形態では、図１６を用いて説明した画像処理装置１００の構成をそのまま適用できる。

図１８は、本第３の実施形態に係る一例の処理を示すフローチャートである。この図１８のフローチャートによる処理は、上述した図１４におけるステップＳ１０３の処理を拡張した処理であり、類似度の高いテキストコンテンツを判定し、適切な加工処理を施す。

先ず、ステップＳ１２０で、コンテンツ取得部４０６が、テキストによるコンテンツＡ（以下、テキストコンテンツＡ）を取得する。例えば、コンテンツ取得部４０６は、解析情報取得部４０２で解析情報として取得されたコンテンツの属性に基づき、テキストコンテンツを判別し、取得する。

次のステップＳ１２１で、類似度判定部４１０は、レイアウト情報に基づきテキストコンテンツＡに対する配置距離が第１の閾値以下であるコンテンツの中で、当該テキストコンテンツＡに類似しているテキストコンテンツＢが存在するか否かを判定する。若し、存在しないと判定されたら、一連の処理が終了される。

一方、テキストコンテンツＡに対する配置距離が閾値α以下であって、当該テキストコンテンツＡに類似しているテキストコンテンツＢが存在すると判定されたら、処理はステップＳ１２２に移行される。ステップＳ１２２では、解析情報取得部４０２がテキストコンテンツＡおよびテキストコンテンツＢそれぞれのフォントサイズを解析情報として取得する。

類似度判定部４１０は、ステップＳ１２２で取得されたテキストコンテンツＡおよびテキストコンテンツＢそれぞれのフォントサイズの差分が閾値βを超えているか否かを判定する。若し、超えていないと判定されたら、一連の処理が終了される。

一方、当該フォントサイズの差分が閾値βを超えていると判定されたら、処理はステップＳ１２４に移行される。ステップＳ１２４では、加工処理部４０３が、テキストコンテンツＢのフォントサイズをテキストコンテンツＡのフォントサイズに近付けるように、テキストコンテンツＢに対して拡大／縮小処理を施す。

なお、上述では、フォントサイズを合わせる処理について説明したが、これはこの例に限定されない。すなわち、コンテンツの視覚的な類似性を強調するために、たとえはフォントタイプといった他のフォント情報を一致させるよう加工処理を施してもよい。

また、テキストコンテンツに関しては、文書構造に基づきコンテンツが類似しているか否かを判定することが有効であると考えられる。コンテンツの属性がテキストである場合に、文書構造を比較してコンテンツが類似しているか否かを判定する。必要に応じて、例えば類似の度合が所定以下の場合に、比較対象のコンテンツに対して類似度を向上させる加工処理を施す。これにより、同様の構造を有するコンテンツを隣接させて配したレイアウト情報上で、２つのコンテンツの類似性を容易に視認可能となる。

テキストコンテンツの文書構造を解析してコンテンツが類似しているか否かを判定する方法は、従来より知られているいかなる方法を用いてもよい。上述したテキストコンテンツが文書画像の場合、例えば特開２００４−３４８７０６号公報に開示される技術を適用させることができる。すなわち、特開２００４−３４８７０６号公報によれば、オリジナル文書を属性毎に複数のブロックに分割し、各ブロックの位置、サイズ、属性を含むレイアウト情報をオリジナル文書のインデックス情報として保存する。そして、入力画像を属性毎に複数のブロックに分割し、入力画像とオリジナル文書とで、ブロックの位置、サイズ、属性を比較してレイアウトの類似率を求める。

＜第４の実施の形態＞
次に、本発明の第４の実施形態について説明する。複数ページに亘るレイアウトの場合、レイアウトにおけるコンテンツ間の配置距離ではなく、複数のコンテンツが同一ページ内に配置されるか否かが、視認性に大きな影響を及ぼすと考えられる。本第４の実施形態は、類似しているコンテンツを同一ページ内に配置する例である。なお、本第４の実施形態では、図１６を用いて説明した画像処理装置１００の構成をそのまま適用できる。

図１９は、本第４の実施形態による一例のレイアウト生成処理を示すフローチャートである。この図１９のフローチャートによる処理は、上述した図１４におけるステップＳ１０３の処理を拡張した処理であり、類似度の高いコンテンツを判定し、適切な加工処理を施す。

まず、ステップＳ１３０で、コンテンツ取得部４０６が未処理コンテンツＡを取得すると共に、解析情報取得部４０２が当該未処理コンテンツＡの解析情報を取得する。次のステップＳ１３１で、解析情報取得部４０２がその他の未処理コンテンツ（コンテンツＢとする）の解析情報を取得する。次のステップＳ１３２で、類似度判定部４１０が、取得された解析情報に基づきコンテンツＢがコンテンツＡと類似しているか否かを判定する。類似しているか否かの判定基準については、後述する。若し、コンテンツＢがコンテンツＡと類似していないと判定されたら、処理はステップＳ１３５に移行される。

一方、ステップＳ１３２で、コンテンツＢがコンテンツＡに対して類似していると判定されたら、処理はステップＳ１３３に移行される。ステップＳ１３３では、類似度判定部４１０は、レイアウト情報取得部４０１で取得されたコンテンツＡおよびコンテンツＢのレイアウト情報に基づき、コンテンツＢがコンテンツＡと同一のページに属するか否かを判定する。若し、同一のページに属しないと判定されたら、処理はステップＳ１３５に移行される。

一方、ステップＳ１３３で、コンテンツＢがコンテンツＡと同一のページに属すると判定されたら、処理はステップＳ１３４に移行される。ステップＳ１３４では、加工処理部４０３がコンテンツＢに対して適切な加工処理を施す。この加工処理は、コンテンツＢのコンテンツＡに対する視覚的な類似度を高めるような画像処理である。

コンテンツの加工処理が行われると、処理はステップＳ１３５に移行され、コンテンツＡ以外の全ての未処理コンテンツに対する処理が行われたか否かが判定される。若し、未だ処理を行っていない未処理コンテンツがあると判定されたら、処理はステップＳ１３１に戻され、次の未処理コンテンツに対してステップＳ１３１〜ステップＳ１３４の処理が行われる。

一方、ステップＳ１３５で、未処理コンテンツＡ以外の全ての未処理コンテンツに対してステップＳ１３１〜ステップＳ１３４の処理が行われたと判定されたら、処理はステップＳ１３６に移行され、未処理コンテンツＡが処理済みコンテンツＡとして、処理を終了する。

１ページ内に配置された類似コンテンツは、同時に視界に入る領域であるため、その出力データ上で類似性を保持していることが文書全体の理解に大きく貢献すると考えられる。一方、類似コンテンツが配置されたページが異なる場合は特に考慮する必要性が高くないと考えられる。このように、類似するコンテンツが同一ページ内に配置された場合だけを処理対象とすることで、無駄な加工処理を省くことができる。

なお、上述では、第１〜第４の実施形態による処理がそれぞれ独立的に行われるように説明したが、これはこの例に限定されず、各実施形態による処理は互いに組み合わせて実行することができる。

＜他の実施形態＞
上述した各実施形態による画像処理装置１００で実行される画像処理プログラムは、インストール可能な形式または実行可能な形式のファイルでフレキシブルディスク（ＦＤ）、ＣＤ(Compact Disk)、ＤＶＤ(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、上述した各実施形態による画像処理装置１００で実行される画像処理プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した各実施形態による画像処理装置１００で実行される画像処理プログラムをインターネットなどのネットワーク経由で提供または配布するように構成しても良い。

また、上述した各実施形態による画像処理装置１００で実行される画像処理プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

上述した各実施形態による画像処理装置１００で実行される画像処理プログラムは、図１３または図１６を用いて説明した画像処理装置１００の各部をそれぞれ生成するモジュールを含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ１０１（プロセッサ）が例えばＨＤＤ１０５から画像処理プログラムを読み出して実行することにより、上述の各モジュールが主記憶装置（ＲＡＭ１０４）上にロードされ、各モジュールが主記憶装置上に生成されるようになっている。

１１画像入力装置
１２画像形成装置
１００画像処理装置
１０１ＣＰＵ
４０１レイアウト情報取得部
４０２解析情報取得部
４０３加工処理部
４０４出力データ生成部
４０５レイアウト生成部
４０６コンテンツ取得部
４１０類似度判定部

特開２００２−０７３５９８号公報特開２００７−１３５５０号公報

Claims

高さ及び幅の異なる複数のコンテンツを、前記コンテンツの幅と、前記コンテンツを配置するページの幅とに基づき、前記ページの幅を超えずに１以上の前記ページに配置した場合の前記複数のコンテンツのレイアウトを示すレイアウト情報を生成するレイアウト生成手段と、
前記レイアウト情報を取得するレイアウト情報取得手段と、
前記コンテンツを解析した解析情報を取得する解析情報取得手段と、
前記解析情報取得手段でそれぞれ取得された第１のコンテンツの前記解析情報と第２のコンテンツの前記解析情報とに基づき、該第１のコンテンツと該第２のコンテンツとが類似しているか否かを判定する判定手段と、
前記解析情報と前記レイアウト情報とに基づき前記コンテンツに対して加工処理を施す加工手段と、
前記加工手段で加工された前記コンテンツを、前記レイアウト情報に従い配置した出力データを生成する生成手段と
を有し、
前記レイアウト情報取得手段は、
前記第１のコンテンツに対する前記第２のコンテンツの距離を前記レイアウト情報に基づき求め、
前記加工手段は、
前記判定手段によって類似していると判定され、且つ、前記距離が閾値以下である場合に、前記第１のコンテンツに対する前記第２のコンテンツの類似度を高める前記加工処理を、該第２のコンテンツに対して施す
ことを特徴とする画像処理装置。
前記レイアウト生成手段は、
前記コンテンツの高さと、前記ページの高さとに基づき、前記コンテンツを前記ページを跨ぐことなく配置する
ことを特徴とする請求項１記載の画像処理装置。
前記レイアウト生成手段は、
前記複数のコンテンツのうち、まだ配置していない前記コンテンツの高さが高い順に、前記ページの幅方向に一以上の前記コンテンツを配置し、かつ、前記ページの幅方向に配置した前記一以上のコンテンツの幅の合計が、前記ページの幅を超えないように前記一以上のコンテンツを配置し、
前記ページの幅と同じ大きさの幅を持ち、前記ページの幅方向に配置した前記一以上のコンテンツのうち左端の前記コンテンツの高さを持つ領域であるブロックを、はじめの前記ページの上端から、前記ページの高さ方向に、１つ前に配置した前記ブロックの下端と次の前記ブロックの上端が接するように順次配置し、かつ、前記複数のコンテンツが全て配置された際の全ての前記ブロックの高さの合計が近似的に最小となるように前記複数のコンテンツを配置したレイアウトである最密充填レイアウトを生成し、
前記ブロックが前記ページを跨いで配置されている場合に、前記ページを跨いだブロックの後に配置されたブロックから、前記ページを跨いだブロックの１つ前に配置されたブロックの下端と、該ページの下端との間の高さ以下の高さを有するブロックを検索し、検索された該ブロックと、該ページを跨いだブロックとを入れ替えてブロックの再配置を行うことを特徴とする請求項１または請求項２に記載の画像処理装置。
前記解析情報取得手段は、前記解析情報としてコンテンツの属性を取得し、
前記判定手段は、
前記解析情報取得手段により前記第１のコンテンツおよび前記第２のコンテンツについてそれぞれ取得された前記属性が互いに一致する場合に、該第１のコンテンツと該第２のコンテンツとが類似していると判定する
ことを特徴とする請求項１乃至請求項３の何れか１項に記載の画像処理装置。
前記解析情報取得手段は、コンテンツから抽出されたオブジェクトを前記解析情報として取得し、
前記加工手段は、
前記類似度を高める加工処理として、前記判定手段により類似していると判定された前記第１のコンテンツおよび前記第２のコンテンツのそれぞれについて前記解析情報として取得された、該第１のコンテンツに含まれるオブジェクトのサイズに該第２のコンテンツに含まれるオブジェクトのサイズを近似させる加工処理を、該第２のコンテンツに対して施す
ことを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記解析情報取得手段は、コンテンツの背景となる背景画像の色調を示す背景情報を前記解析情報として取得し、
前記加工手段は、
前記類似度を高める加工処理として、前記判定手段により類似していると判定された前記第１のコンテンツおよび前記第２のコンテンツについて前記解析情報としてそれぞれ取得された前記背景情報に基づき、該第１のコンテンツの背景の色調に該第２のコンテンツの背景の色調を近似させる加工処理を、該第２のコンテンツに対して施す
ことを特徴とする請求項１乃至請求項５の何れか１項に記載の画像処理装置。
前記解析情報取得手段は、コンテンツが含むテキストを表示させるフォントを示すフォント情報を前記解析情報として取得し、
前記加工手段は、
前記類似度を高める加工処理として、前記判定手段により類似していると判定された前記第１のコンテンツおよび前記第２のコンテンツについて、前記解析情報としてそれぞれ取得された前記フォント情報に基づき、該第１のコンテンツのフォントのサイズに該第２のコンテンツのフォントのサイズを近似させる加工処理を、該第２のコンテンツに対して施す
ことを特徴とする請求項１乃至請求項６の何れか１項に記載の画像処理装置。
前記解析情報取得手段は、テキストによる文書情報を含むコンテンツについて、該コンテンツの文書構造を前記解析情報として取得し、
前記判定手段は、
前記解析情報取得手段によりそれぞれ取得された前記第１のコンテンツの文書構造に対して前記第２のコンテンツの文書構造が類似しているか否かを判定する
ことを特徴とする請求項１乃至請求項７の何れか１項に記載の画像処理装置。
前記解析情報取得手段は、コンテンツ内のレイアウトを示すコンテンツ内レイアウト情報を前記解析情報として取得し、
前記判定手段は、
前記解析情報取得手段によりそれぞれ取得された前記第１のコンテンツのコンテンツ内レイアウト情報に対して前記第２のコンテンツのコンテンツ内レイアウト情報が類似しているか否かを判定する
ことを特徴とする請求項１乃至請求項８の何れか１項に記載の画像処理装置。
前記レイアウト情報取得手段が取得する前記レイアウト情報は、前記ページ単位でコンテンツの配置を示し、
前記加工手段は、
前記レイアウト情報取得手段により取得された前記レイアウト情報に基づき、複数の前記ページに亘ってコンテンツが配置されている場合に、該ページ単位で前記加工処理を施す
ことを特徴とする請求項１乃至請求項９の何れか１項に記載の画像処理装置。
画像によるコンテンツを取得するコンテンツ取得手段と、
前記コンテンツを解析して解析情報を得る解析手段と
を備える画像取得装置と、
高さ及び幅の異なる複数の前記コンテンツを、前記コンテンツの幅と、前記コンテンツを配置するページの幅とに基づき、前記ページの幅を超えずに１以上の前記ページに配置した場合の前記複数のコンテンツのレイアウトを示すレイアウト情報を生成するレイアウト生成手段と、
前記コンテンツのレイアウト情報を取得するレイアウト情報取得手段と、
前記コンテンツを解析した解析情報を取得する解析情報取得手段と、
前記解析情報取得手段でそれぞれ取得された第１のコンテンツの前記解析情報と第２のコンテンツの前記解析情報とに基づき、該第１のコンテンツと該第２のコンテンツとが類似しているか否かを判定する判定手段と、
前記解析情報と前記レイアウト情報とに基づき前記コンテンツに対して加工処理を施す加工手段と、
前記加工手段で加工された前記コンテンツを、前記レイアウト情報に従い配置した出力データを生成する生成手段と
を備え、
前記レイアウト情報取得手段は、前記第１のコンテンツに対する前記第２のコンテンツの距離を前記レイアウト情報に基づき求め、
前記加工手段は、前記判定手段によって類似していると判定され、且つ、前記距離が閾値以下である場合に、前記第１のコンテンツに対する前記第２のコンテンツの類似度を高める前記加工処理を、該第２のコンテンツに対して施す画像処理装置と、
前記生成手段で生成された前記出力データに基づき画像を形成する画像形成手段を備える画像形成装置と
を有する
ことを特徴とする画像処理システム。
高さ及び幅の異なる複数のコンテンツを、前記コンテンツの幅と、前記コンテンツを配置するページの幅とに基づき、前記ページの幅を超えずに１以上の前記ページに配置した場合の前記複数のコンテンツのレイアウトを示すレイアウト情報を生成するレイアウト生成ステップと、
前記レイアウト情報を取得するレイアウト情報取得ステップと、
前記コンテンツを解析した解析情報を取得する解析情報取得ステップと、
前記解析情報取得ステップでそれぞれ取得された第１のコンテンツの前記解析情報と第２のコンテンツの前記解析情報とに基づき、該第１のコンテンツと該第２のコンテンツとが類似しているか否かを判定する判定ステップと、
前記解析情報と前記レイアウト情報とに基づき前記コンテンツに対して加工処理を施す加工ステップと、
前記加工ステップで加工された前記コンテンツを、前記レイアウト情報に従い配置した出力データを生成する生成ステップと
を有し、
前記レイアウト情報取得ステップは、
前記第１のコンテンツに対する前記第２のコンテンツの距離を前記レイアウト情報に基づき求め、
前記加工ステップは、
前記判定ステップによって類似していると判定され、且つ、前記距離が閾値以下である場合に、前記第１のコンテンツに対する前記第２のコンテンツの類似度を高める前記加工処理を、該第２のコンテンツに対して施す
ことを特徴とする画像処理方法をコンピュータに実行させるための画像処理プログラム。