以下に、本発明の実施の形態について図を参照して詳細に説明する。本発明の実施の形態における印象評価装置は、図1のように、制御部10、内部記憶部12、大容量記憶部14、出力部16、標準入力部18及びドキュメント入力部20から基本的に構成される。制御部10、内部記憶部12、大容量記憶部14、出力部16、標準入力部18及びドキュメント入力部20はバス24を介して情報(データ)伝達可能に接続される。
印象評価装置は、さらに、インターフェース部22を含んでなることが好適である。インターフェース部22は、他の構成要素とバス24を介して情報(データ)伝達可能に接続される。インターフェース部22は、ネットワーク26を介して、印象評価装置の外部のサーバからウェブページ等のドキュメントデータを読み込むために用いることができる。
制御部10は、内部記憶部12に保持されているドキュメント印象評価プログラムを実行し、大容量記憶部14に格納されているドキュメントデータ又はネットワーク26を介してドキュメントデータを適宜読み込んで、そのドキュメントデータにより表現されるドキュメントの印象評価を行う。印象評価の結果は、出力部16又は内部記憶部12へ出力される。制御部10には、一般的なコンピュータのCPUを用いることができる。
内部記憶部12は、制御部10で実行される印象評価プログラム、評価処理に用いられる各パラメータ及び処理結果である印象評価値等を格納及び保持する。内部記憶部12に保持されたデータは、バス24を介して、制御部10から適宜参照することができる。内部記憶部12は、一般的な半導体メモリ、ハードディスク装置、光磁気ディスク装置等を適宜選択して用いることができる。
大容量記憶部14は、制御部10での印象評価の対象となるドキュメント(以下、被評価ドキュメントという)のドキュメントデータを格納及び保持する。ドキュメントデータは、ビットマップ形式、jpeg形式、tiff形式、HTML形式などの様々なデータ形式で保持される。大容量記憶部14に保持されたドキュメントデータは、バス24を介して、制御部10から適宜参照することができる。大容量記憶部14は、一般的なハードディスク装置、光磁気ディスク装置等の大容量の記憶装置を選択して用いることができる。
出力部16は、制御部10から出力された処理結果をユーザが確認可能な情報として出力する。また、印象評価の処理に必要な制御コマンドやパラメータをユーザが入力する際のユーザインターフェースとしても用いられる。出力部16は、ディスプレイ装置、プリンタ又はタッチパネル等を適宜選択して用いることができる。
標準入力部18は、ドキュメントの評価を行う際の制御コマンドやパラメータをユーザが入力するために用いられる。例えば、制御部10に対して、内部記憶部12に保持された印象評価プログラムの実行開始を命令する制御コマンドを入力する際に用いられる。標準入力部18は、キーボード、マウス又はタッチパネル等を適宜選択して用いることができる。
ドキュメント入力部20は、印象評価の対象となるドキュメントデータの入力を行う。ドキュメント入力部20から入力されたドキュメントデータは、大容量記憶部14又は内部記憶部12に格納及び保持される。ドキュメント入力部20は、スキャナ、デジタルカメラ又はデジタルビデオなどの一般的なドキュメント入力装置を適宜選択して用いることができる。
本実施の形態の印象評価装置は、一般的なコンピュータによって基本的に構成することができる。また、上記構成に限定されるものではなく、適宜構成要素を付加、削除又は変更することが好適である。
<ドキュメント印象評価方法>
以下に、上記印象評価装置を用いたドキュメントの印象評価の処理方法について、図を参照して説明する。図2に、第1のドキュメントの印象評価方法におけるフローチャートを示す。
本印象評価方法は、図2のように、被評価ドキュメントの入力(ステップS1)、被評価ドキュメントの領域の分割(ステップS2)、コンテンツの種別の判別(ステップS3)、各分割ドキュメント領域から物理的特徴量を取得するサブルーチン(ステップS4)、印象評価の抽出(ステップS5)及び評価結果の出力(ステップS6)を含み、各ステップを順次行うことによって実行される。具体的には、各ステップをコンピュータで実行可能な印象評価プログラムとして内部記憶部12に格納及び保持し、制御部10によってその印象評価プログラムを実行することによって行われる。
ユーザが、標準入力部18から印象評価プログラムの実行開始の制御コマンドを入力することによって、制御部10は内部記憶部12に保持された印象評価プログラムを実行する。その結果、直ちにステップS1へ処理が移行される。
ステップS1では、ドキュメント入力部20を用いて、印象の評価対象となるドキュメントのドキュメントデータが取得される。例えば、ネットワーク26を介して、ウェブページ等のディスプレイ上に表示されるドキュメントデータが取得される。また、ドキュメント入力部20を用いて、紙等の印刷媒体上に表示されるドキュメントデータを取得してもよい。ドキュメントデータは、大容量記憶部14又は内部記憶部12に格納及び保持され、制御部10によって適宜読み出されて処理に供される。
ステップS2では、被評価ドキュメントが複数の領域に分割される。ドキュメント領域への分割は、一般的な画像リタッチャ方法を用いて行うことができる。このとき、出力部16を用いて被評価ドキュメントを表示し、ユーザはそのドキュメントを確認しながら標準入力部18を用いて、ドキュメント中の任意の領域を選択して分割することができる。また、被評価ドキュメントがビットマップ形式のドキュメントデータである場合には、良く知られたK平均アルゴリズムによるクラスタリング等に代表される画像領域分割アルゴリズムを適用した画像処理方法を用いて、ドキュメントを自動的に領域分割することも好適である。分割されたドキュメント領域は、それぞれ大容量記憶部14又は内部記憶部12に格納及び保持される。
例えば、図3に示すように、被評価ドキュメントがウェブページから取り込まれたドキュメントである場合には、ドキュメントデータはヘッダ部30、タイトル部31、見出し部32、リンクボタン部33、イメージ画像部34及びテキスト部35等に領域分割される。
ステップS3では、各分割ドキュメント領域に含まれるコンテンツの種別(タイプ)が判別される。すなわち、各分割ドキュメント領域(ドキュメント)の表現形態に応じて各分割ドキュメント領域を分類する。具体的には、ドキュメントの階調が連続性に応じてドキュメントのコンテンツの種別を判別することが好適である。すなわち、写真等の連続階調を有するコンテンツ、イラスト(絵柄)等の半連続階調を有するコンテンツ、文字や図形等の離散階調を有するコンテンツに分類することが好適である。ここで、離散階調には、単階調を含むものとする。
本実施の形態では、各分割ドキュメント領域に対して既存のテキスト/イメージ分離処理法を適用して各分割ドキュメント領域内に含まれる離散階調を有するコンテンツ(テキストや図形等)が占める領域と連続階調を有するコンテンツ(写真やイラスト等)が占める領域を分離し、各領域の面積を算出して、面積が最大である領域を占めるコンテンツの種別をその分割ドキュメント領域のコンテンツの種別とする。これによって、各分離ドキュメント領域のコンテンツの種別を自動的に判別することができる。
なお、標準入力部18を用いて被評価ドキュメントから抽出された分離ドキュメント領域についてそれぞれコンテンツの種別をユーザが入力することによって、各分離ドキュメント領域のコンテンツの種別を手動で設定してもよい。
ステップS4では、分離ドキュメント領域毎に物理的な特徴量が算出される。ステップS4は、図4に示すように、サブルーチンとして処理される。
ここで、物理的な特徴量とは、ドキュメント領域の面積、ドキュメント領域の幅w及び高さh、左上の位置x,y、ドキュメント領域全体の色平均、L*成分の平均値、a*成分の平均値、b*成分の平均値、分割ドキュメント領域内の背景とテキストとのコントラスト、ドキュメント全体の色平均とドキュメント領域全体の色平均の色差ΔL*a*b*、ドキュメント領域と近接するドキュメント領域との色平均の色差ΔnL*a*b*、背景とドキュメント領域との色平均の色差ΔbL*a*b*、ドキュメント領域内における色の分散、同色数などのドキュメントの特徴をいう。
以下、各特徴量の算出方法について説明するが、本実施の形態では総ての特徴量について算出する必要はなく、ステップS4以降においてドキュメントの評価に使用される特徴量のみについて算出すればよい。
ステップS31では、分割された各ドキュメント領域のドキュメントデータの色空間がRGB空間からL*a*b*空間に変換される。通常、コンピュータで利用されるドキュメントデータは、不均等色空間であるRGB色空間によって表現されていることが多く、人の感覚に近い分析ができない。そこで、不均等色空間であるRGB色空間から均等色空間であるL*a*b*色空間に変換することによって、ドキュメントをより人の感性に近い印象として分析・評価することができる。また、L*a*b*空間はドキュメントのダイナミックレンジを表現できる点からも好適である。勿論、ドキュメントデータが既にL*a*b*色空間で表現されている場合には変換をする必要はない。
図5に、均等色空間を一般的なマンセル色相環として表現した例を示す(図面上において、異なる色は、異なるハッチングによって表現する)。通常、マンセル色相環はさらに多色の色分類を行っているが、図5にはその一部を示した。以下、色空間を色相及び明度ともに10分割したマンセル色相環を用いて説明する。勿論、さらに色空間を細分化したカラーパレットを用いることが好適である。
ステップS32では、色空間変換された各ドキュメント領域のドキュメントデータを大容量記憶部14又は内部記憶部12に格納及び保持する。
ステップS33では、各ドキュメント領域に対して位置、面積、色平均、色の分散及び色数の特徴量の抽出を行う。大容量記憶部14又は内部記憶部12に保持されている各ドキュメント領域のドキュメントデータを順次選択し、それぞれのドキュメント領域に対する各特徴量を求める。このとき、全ドキュメント領域の中において最大面積を有するドキュメント領域を背景領域と定義する。
例えば、位置は、各ドキュメント領域に対して左上の画素の位置x,yを求めることにより決定する。面積は、各ドキュメント領域の幅w及び高さhを抽出することによって決定する。色平均及び色の分散は、各ドキュメント領域内の全画素のL*成分、a*成分及びb*成分に対して、それぞれ算術平均及び分散値を求めることによって決定する。また、色数は、各ドキュメント領域内の全画素に対して、L*成分、a*成分及びb*成分の全てが異なる色の数を累積することによって決定する。同様に、ドキュメント全体及び背景領域の色平均、色の分散及び色数を求めることができる。
ステップS34では、各ドキュメント領域とドキュメント全体及び背景領域との色差を求める。まず、各ドキュメント領域についてドキュメント全体との各色成分の差ΔLi *,Δai *及びΔbi *を求める。各色成分の差ΔLi *,Δai *及びΔbi *は数式(1)で表される。
(数1)
ΔLi *=ドキュメント領域iのL*成分の色平均−ドキュメント全体のL*成分の色平均
Δai *=ドキュメント領域iのa*成分の色平均−ドキュメント全体のa*成分の色平均
Δbi *=ドキュメント領域iのb*成分の色平均−ドキュメント全体のb*成分の色平均
ここで、iはドキュメント領域の識別符号 ・・・・・・・・・・・・・(1)
同様に、各ドキュメント領域について背景領域との各色成分の差ΔLj *,Δaj *及びΔbj *を求める。各色成分の差ΔLj *,Δaj *及びΔbj *は数式(2)で表される。
(数2)
ΔLj *=ドキュメント領域jのL*成分の色平均−背景領域のL*成分の色平均
Δaj *=ドキュメント領域jのa*成分の色平均−背景領域のa*成分の色平均
Δbj *=ドキュメント領域jのb*成分の色平均−背景領域のb*成分の色平均
ここで、jはドキュメント領域の識別符号 ・・・・・・・・・・・・(2)
各ドキュメント領域とドキュメント全体との色差ΔiL*a*b*及び各ドキュメント領域と背景領域との色差ΔbjL*a*b*は数式(3)を用いて求めることができる。
(数3)
ΔiL*a*b*={ΔLi *2+Δai *2+Δbi *2}1/2
ΔbjL*a*b*={ΔLj *2+Δaj *2+Δbj *2}1/2
ここで、i,jはドキュメント領域の識別子 ・・・・・・・・・・・・・(3)
ステップS35では、各ドキュメント領域とその領域に隣接するドキュメント領域との色差を求める。ドキュメント領域iがドキュメント領域jと隣接していた場合には、数式(4)を用いて各色成分の差ΔLij *,Δaij *及びΔbij *を求める。
(数4)
ΔLij *=ドキュメント領域iのL*成分の色平均−ドキュメント領域jのL*成分の色平均
Δaij *=ドキュメント領域iのa*成分の色平均−ドキュメント領域jのa*成分の色平均
Δbij *=ドキュメント領域iのb*成分の色平均−ドキュメント領域jのb*成分の色平均
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・(4)
ドキュメント領域iとドキュメント領域jとの色差ΔniL*a*b*は、数式(5)を用いて求めることができる。
(数5)
ΔniL*a*b*={ΔLij *2+Δaij *2+Δbij *2}1/2
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・(5)
ドキュメント領域が複数のドキュメント領域と隣接していた場合には、隣接する全てのドキュメント領域に対する各色成分の差ΔLij *,Δaij *及びΔbij *を求め、それらの算術平均を行うことによって色差を求めることが好適である。また、これらの処理に基づいて背景とテキストとのコントラストを算出することができる。
図6に、各ドキュメント領域に対して各特徴量を求めた結果を例示する。これらの特徴量は、各ドキュメント領域と対応付けられて大容量記憶部14又は内部記憶部12に格納及び保持される。各特徴量の抽出を終了すると、メインルーチンのステップS4に処理を移行する。
ステップS5では、ステップS4で抽出された各特徴量に基づいてドキュメントの印象に対する評価を求める。具体的には、ドキュメントの特徴量の値とドキュメントの印象を表現する表現情報とを関連付けた表現情報データベースを予め準備しておき、ステップS4で抽出された特徴量に対応する表現情報を抽出する。表現情報は、テキスト情報のみならず、ドキュメント情報や音声情報とすることも好適である。
このとき、本実施の形態では、各分離ドキュメント領域のコンテンツの種別に応じて、同じ特徴量の値に対して異なる表現情報を関連付けた表現情報データベースを用いて評価を行う。表現情報データベースは、内部記憶部12又は大容量記憶部14に格納及び保持される。表現情報データベースには、すくなくとも1つの特徴量に関する条件と、ドキュメントのタイプ毎にドキュメントを見た人間が感じる印象に関する表現情報とが関連付けられて登録される。
本実施の形態では、例として、図7に示す2つの表現情報データベースを用いて説明を行う。図7(a)に示す第1の表現情報データベースは連続階調のコンテンツを主とするドキュメントに対するものであり、図7(b)に示す第2の表現情報データベースは離散階調のコンテンツを主とするドキュメントに対するものである。第1の表現情報データベースには、ドキュメント内の平均色のL*成分、a*成分及びb*成分の組み合わせに対してそれぞれ表現情報が登録されている。第2の表現情報データベースには、L*成分が5以下の領域の面積率、L*成分が5以下の領域の分散値が所定の閾値以上であるか否か及びテキストと背景とのコントラストが所定の閾値以上であるか否かを組み合わせた条件に対してそれぞれ表現情報が登録されている。
例えば、ステップS3において着目する分割ドキュメント領域のコンテンツの種別が連続階調型であると判別され、平均色のL*成分が6、a*成分が20及びb*成分が10である場合、第1の表現情報データベースが参照されて「伝統的な」という表現情報が抽出される。一方、ステップS3において着目する分割ドキュメント領域のコンテンツの種別が離散階調型であると判別され、平均色のL*成分が5以下の領域の面積率が5%以下、L*成分が5以下の領域の分散値が大(所定の分散閾値以上)及びテキストと背景のコントラストが大(所定のコントラスト閾値以上)である場合、第2の表現情報データベースが参照されて「シャープな」という表現情報が抽出される。同様に、取得された特徴量が他の条件に合致する場合には、その条件に関連付けられた表現情報を抽出することができる。
なお、ドキュメントの印象に関する情報を抽出するために用いることができる特徴量は、背景領域の色平均(L*成分、a*成分及びb*成分)、背景領域からの色差が所定値以上で面積が最も大きいドキュメント領域(メイン領域)の色成分に関する特徴量、面積が所定値以下で背景領域からの色差が最も大きいドキュメント領域(アクセント領域)の色成分であってもよい。また、特徴量としてはドキュメント領域の面積、ドキュメント領域の幅w及び高さh、左上の位置x,y、ドキュメント領域全体の色平均、L*成分の平均値、a*成分の平均値、b*成分の平均値、ドキュメント全体の色平均とドキュメント領域全体の色平均の色差ΔL*a*b*、ドキュメント領域と近接するドキュメント領域との色平均の色差ΔnL*a*b*、背景とドキュメント領域との色平均の色差ΔbL*a*b*、ドキュメント領域内における色の分散、同色数を用いてもよい。
また、これらの特徴量を組み合わせた条件とドキュメントの印象に関する表現情報とを関連付けた多次元の表現情報データベースを用いてもよい。このように、出来る限り多くの特徴量を組み合わせることにより、ドキュメントが人間に与える印象をより詳細なものとすることができる。特に、ドキュメント領域間の色差など、異なるドキュメント領域間の特徴量の差異を含んだ条件を用いることにより、被評価ドキュメントの中で強いコントラストを持つ箇所等から受ける印象を表す表現情報を抽出することも可能となる。
ステップS6では、出力部16において、取得された特徴量に関する情報及び抽出された表現情報を表示する。出力は、ドキュメントに関する情報がユーザに把握し易い態様で行うことが好適である。
例えば、図8に示すように、被評価ドキュメント90、被評価ドキュメントに含まれる各ドキュメント領域の面積及び平均色の分布を示すドキュメント色彩情報表示部91、特徴量に基づいて抽出された表現情報を示すカラーイメージ92及び主なドキュメント領域の平均色を示す表示部93を含むことが好適である。
ドキュメント色彩情報表示部91は、図9に示すように、被評価ドキュメントに含まれる分割ドキュメント領域毎に、各分割ドキュメント領域の平均色に最も近似するカラーパレット上の色を求め、カラーパレットの色毎に、その色に近似する平均色を有するドキュメント領域の合計面積を求め、その面積に比例した領域をそのカラーパレットの色で塗り潰して表示する。
具体的には、図10に示すように、ドキュメント色彩情報表示部91の画面位置とカラーパレットに含まれる色成分範囲の条件とを関連付けたデータベースを内部記憶部12又は大容量記憶部14に格納及び保持しておき、内部記憶部12又は大容量記憶部14に保持された各分割ドキュメント領域の平均色の各色成分(L*成分、a*成分及びb*成分)及び面積を参照して、各色成分範囲の条件と一致する平均色を有するドキュメント領域の合計面積を求め、その色成分範囲の条件に関連付けられた画面位置に、その合計面積に比例する領域をそのカラーパレットの色で塗り潰したドキュメント情報を表示する。このドキュメント色彩情報表示部91によって、ユーザは、評価対象となった各分割ドキュメント領域に含まれる色(平均色)の分布を一見して確認することができる。
カラーイメージ92は、図11に示すように、出力画面の領域を複数の分割画面領域95として分割し、分割画面領域95毎にステップ4の表現情報データベースに含まれる特徴量に対する条件を予め割り当てておき、ステップ4においてドキュメントの印象に関する情報を抽出する際に用いた条件が割り当てられた分割画面領域95に、その条件から抽出された表現情報を表示する。
具体的には、図12(a)及び図12(b)に示すように、ドキュメントのコンテンツの種別毎に各分割画面領域95の位置情報と、図7に示す表現情報データベースに含まれる特徴量に対する条件と、を対応付けた表示用データベースを予め内部記憶部12又は大容量記憶部14に保持しておき、この表示用データベースを参照して、一致する条件の画面の位置に表現情報を表示する。このとき、分割画面領域95に条件を割り当てる際に、人間がドキュメントから感じる印象が近い条件ほど、互いに近接する分割画面領域95に割り当てることが好適である。
例えば、図11のカラーイメージ92では、“暖かい”印象を与える条件ほどカラーイメージ92の左側に割り当て、逆に、“冷たい”印象を与える条件ほどカラーイメージ92の右側に割り当てている。また、“柔らかい”印象を与える条件ほどカラーイメージ92の上側に割り当て、逆に、“硬い”印象を与える条件ほどカラーイメージ92の下側に割り当てている。但し、これらに限られるものではなく、ユーザが必要とする情報に応じて割り当てを変更しても良い。
例えば、画面領域の左側から右側に向けてa*成分が増加し、画面領域の下側から上側に向けてb*成分が増加するような条件を割り当てることによって、人間に与える印象が近い条件を、より近接する分割画面領域95に割り当てることができる。他の特徴量についても同様である。このように、条件を傾向付けて割り当てることによって、カラーイメージ92に表示された情報の位置や集中度から評価対象となったドキュメントの印象に対する傾向を知ることができる。
また、本実施の形態では、ドキュメントのコンテンツの種別毎に表示用データベースを登録し、ステップS3で判別された被評価ドキュメントに含まれる各分割ドキュメント領域のコンテンツの種別に応じて参照する表示用データベースを変更して処理を行う。具体的には、図12(a)のように連続階調型のドキュメント領域に対する表示用データベースと、図12(b)のように離散階調型のドキュメント領域に対する表示用データベースとをそれぞれ準備する。
例えば、分割ドキュメント領域の1つであるドキュメント2が連続階調型(写真やイラスト等)のドキュメントであって、ドキュメント2から取得された特徴量が図7の条件P2に合致して「伝統的な」という表現情報が抽出された場合、図12(a)の表示用データベースを参照して、図8及び図13のように、カラーイメージ92における条件P2が割り当てられた表示領域96に表現情報である「伝統的な」という文字を表示させる。なお、図8及び図13には、被評価ドキュメントであるドキュメント1及びドキュメント3については、離散階調型(図形やテキスト等)のドキュメントであって、ドキュメント1及び3から取得された特徴量が図7の条件T3及びT1に合致して「ダンディな」及び「シャープな」という表現情報が抽出されたものとしてそれぞれの表現情報を表示させている。
さらに、条件に合致した特徴量を示す情報を同時に表示することが好適である。例えば、図8及び図13に示すように、ドキュメント2について条件P2に合致した分割ドキュメント領域の面積に比例した領域96を分割ドキュメント領域の平均色で塗り潰して表示する。このように、カラーイメージ92上にドキュメントの印象を示すテキスト情報と特徴量を示す情報とを同時に表示することによって、ユーザは、どのような特徴量に基づいてドキュメントの印象が評価されたかを、その特徴量に対応付けて容易に認識することが可能となる。なお、図8及び図13には、分割ドキュメント領域であるドキュメント1及びドキュメント3についても同様にそれぞれ表現情報(「風格がある」、「平和な」)と共に平均色をカラーイメージ92上に表示させている。
なお、ステップS5において、複数の特徴量の組合せからなる条件を用いて表現情報を抽出した場合には、図11の各分割画面領域95に割り当てる条件を複数の特徴量の組合せからなる条件とすることが好適である。この場合、組み合わされた特徴量の抽出元のドキュメント領域の平均色を一緒に表示しても良い。例えば、被評価ドキュメントの背景領域、メイン領域及びアクセント領域の平均色を組み合わせた条件から表現情報を抽出した場合、図14のように、抽出された表現情報(ここでは「風格がある」)と、その抽出に用いられた背景領域、メイン領域及びアクセント領域の平均色をカラーイメージ92上に同時に表示することが好適である。また、主なドキュメント領域の平均色を示す表示部93には、背景領域、メイン領域及びアクセント領域の各々の平均色を表示することが好適である。
このように、被評価ドキュメントの主要なドキュメント領域の特徴量を抽出した結果を提示することにより、ユーザは、カラーイメージ92の表示と比較し、各ドキュメント領域の特徴量によってどのような印象が与えられるかを明確に知ることができる。
また、上記本実施の形態では、ドキュメントのコンテンツの種別毎に異なる表現情報データベース及び表示用データベースを用いたが、ドキュメントのコンテンツの種別によらず同じ表現情報データベース及び表示用データベースを用いて処理を行うこともできる。例えば、ステップS4で抽出された特徴量をドキュメントのコンテンツの種別に応じて補正し、表現情報データベースを参照して補正された特徴量が満たす条件に対応付けられた表現情報を抽出し、また、表示用データベースを参照して補正された特徴量が満たす条件に対応付けられたカラーイメージ上の分割画面領域に表現情報等を表示させる。
なお、本実施の形態では、1つの被評価ドキュメントを複数の分割ドキュメント領域に分割し、分割ドキュメント領域毎にドキュメントのコンテンツの種別を決定し、ドキュメントのコンテンツの種別に基づいて各分割ドキュメント領域の印象の評価を行ったが、これに限定されるものではない。例えば、被評価ドキュメントを分割することなく、被評価ドキュメント毎にドキュメントのコンテンツの種別を判別し、ドキュメントのコンテンツの種別に基づいて被評価ドキュメント毎に印象の評価を行ってもよい。
また、本実施の形態では、ドキュメントのコンテンツの種別を連続階調型と離散階調型の2つに分類したがこれに限定されるものではない。被評価ドキュメントの階調の度合いに応じてドキュメントのコンテンツの種別をさらに細かく分類してもよい。例えば、被評価ドキュメントを写真、イラスト、図形、テキストのいずれか1つに分類すると共に、表現情報データベース及び表示用データベースを写真、イラスト、図形、テキストのそれぞれについて登録し、抽出されたコンテンツの種別に応じた表現情報データベース及び表示用データベースを参照して被評価ドキュメントの特徴量が満たす条件に関連付けられた表現情報及びカラーイメージ上の分離画面領域を抽出してもよい。
また、ドキュメントのコンテンツの種別を明度(輝度)の階調で分類する代わりに、色調の階調に応じて分類して処理を行うことも好適である。色調の階調とは、ドキュメントのコンテンツの色味(ヒュー)の変化の度合いを意味する。例えば、ドキュメントのコンテンツが連続的に変化する連続色調型及び段階的に変化する離散色調型のいずれかに分類すると共に、表現情報データベース及び表示用データベースをそれぞれの型について登録し、抽出されたコンテンツの種別に応じたデータベースを参照して被評価ドキュメントの特徴量が満たす条件に関連付けられた表現情報及びカラーイメージ上の分離画面領域を抽出する。もちろん、色味の変化に応じてドキュメントをさらに細かく分類して、それぞれについてデータベースを設けて処理を行ってもよい。
<第2のドキュメント印象評価方法>
第2のドキュメント印象評価方法を以下に説明する。第2のドキュメント印象評価方法では、予め複数の色を含んだカラーパレットを準備し、そのカラーパレットに含まれる各色を組み合わせた条件にドキュメントの印象を表す表現情報を割り当てたデータベースを準備し、分割ドキュメント領域から色に関する特徴量を抽出し、その特徴量に対応するカラーパレット上の色に割り当てられた表現情報を選択して表示する。
以下に、カラーパレットを用いたドキュメントの印象評価の処理方法について、図を参照して説明する。上記第1のドキュメント印象評価方法と同様に、図2に示すように、被評価ドキュメントの入力(ステップS1)、被評価ドキュメントの領域の分割(ステップS2)、各分割ドキュメント領域におけるコンテンツの種別の判別(ステップS3)、各分割ドキュメント領域から物理的特徴量を取得するサブルーチン(ステップS4)、印象評価の抽出(ステップS5)及び評価結果の出力(ステップS6)を含み、各ステップを順次行うことによって実行される。
ステップS1及びS2では、上記第1のドキュメント印象評価方法と同様に処理が行われるため、説明を省略する。
ステップS3では、被評価ドキュメントのコンテンツの種別(タイプ)が判別される。ここでは、各分割ドキュメント領域ではなく、被評価ドキュメント全体の表現形態に応じてコンテンツの種別を決定する。具体的には、ドキュメントの階調の連続性に応じてドキュメントのコンテンツの種別を判別することが好適である。本実施の形態では、被評価ドキュメントに対して既存のテキスト/イメージ分離処理法を適用して被評価ドキュメント内に含まれる離散階調を有するコンテンツ(テキストや図形等)が占める領域と連続階調を有するコンテンツ(写真やイラスト等)が占める領域を分離し、各領域の面積を算出して、面積が最大である領域を占めるコンテンツの種別を被評価ドキュメントのコンテンツの種別とする。これによって、被評価ドキュメントのコンテンツの種別を自動的に判別することができる。
なお、標準入力部18を用いて被評価ドキュメントについてコンテンツの種別をユーザが入力することによって、被評価ドキュメントのコンテンツの種別を手動で設定してもよい。
ステップS4では、分割ドキュメント領域毎に特徴量が算出され、その中の色に関する特徴量とカラーパレット上の色への対応付けが行われる。ステップS4は、図15に示すように、サブルーチンとして処理される。
ステップS31では、各分割ドキュメント領域のドキュメントデータの色空間がRGB空間からL*a*b*空間に変換される。ステップS32では、色空間変換された各分割ドキュメント領域のドキュメントデータを大容量記憶部14又は内部記憶部12に格納及び保持する。これらの処理は、上記第1のドキュメント印象評価方法と同様であるため、説明は省略する。
ステップS37では、各分割ドキュメント領域に対して位置、面積、色の分散及び色数の特徴量の抽出を行うと共に、さらに各分割ドキュメント領域の色平均の特徴量に最も近似するカラーパレット上の色を特徴量として求める。
各分割ドキュメント領域の位置、面積、色の分散及び色数についての特徴量の算出方法は、上記第1のドキュメント印象評価方法と同様であるので、説明は省略する。
カラーパレット上の色の特徴量は、上記第1のドキュメント印象評価方法と同様に算出した各分割ドキュメント領域の色平均に基づいてパターンマッチングを行うことによって、その色平均に最も近似するカラーパレット上の色を求める。
ステップS38では、分割ドキュメント領域毎に求められたカラーパレット上の色と、そのドキュメント領域の面積に基づいて、ベースカラー、サブカラー及びアクセントカラーを算出する。ここで、ベースカラーとは、被評価ドキュメントの中で最大面積用いられている色をいう。サブカラーとは、ベースカラーからの色差が所定値以上であり、かつ、より広い面積に用いられている色を順に2色選択したものをいう。アクセントカラーとは、用いられている面積が被評価ドキュメントの面積に対して所定割合以下であり、かつベースカラーからのより色差が大きいものから順に2色選択したものをいう。図16に、選択されたベースカラー1色、サブカラー2色及びアクセントカラー2色を例示する。但し、色の選択条件はこれらに限られるものではなく、被評価ドキュメントの特徴を明確に示す色であれば良い。
ステップS5では、選択された色、すなわちベースカラー、サブカラー及びアクセントカラーに基づいて、被評価ドキュメントが人間に与える印象に関する情報を抽出する。具体的には、予めベースカラー、サブカラー又はアクセントカラーを組み合わせた条件と、その組合せから人間が受ける印象に関する表現情報とを関連付けた表現情報データベースを作成しておき、選択されたベースカラー、サブカラー及びアクセントカラーの組合せと一致する条件に関連付けられた表現情報を抽出する。
このとき、本実施の形態においても、ベースカラー、サブカラー又はアクセントカラーを組み合わせた条件に対して被評価ドキュメントのコンテンツの種別に応じて異なる表現情報を関連付けた表現情報データベースを用いて評価を行う。
例として、図17に示すデータベースを用いて説明する。本データベースでは、ベースカラーとサブカラー2色の組合せを条件としてデータベースと、アクセントカラー2色の組合せを条件としたデータベースを含んでいる。但し、ベースカラー、サブカラー及びアクセントカラーの組合せの条件はこれらに限られるものではなく、その他の組合せを条件としても良い。
これらのデータベースを参照すると、例えば、ステップS2において被評価ドキュメントが連続階調型ドキュメントと判別され、図16のように被評価ドキュメントから選択されたベースカラー、サブカラー及びアクセントカラーが抽出された場合には、「クラシックな」及び「明瞭な」というテキスト情報を抽出することができる。
ステップS6では、出力部16において、選択されたベースカラー、サブカラー及びアクセントカラーや抽出された表現情報を表示する。出力は、ドキュメントに関する情報がユーザに把握し易い態様で行うことが好適である。
例えば、図18のように、被評価ドキュメント160、被評価ドキュメントに含まれるカラーパレット上の色の面積を示すドキュメント色彩情報表示部161、選択されたカラーから抽出された表現情報を表示するカラーイメージ162及び選択されたカラーを表示する表示部163を含むことが好適である。
ドキュメント色彩情報表示部161は、上記第1のドキュメント印象評価方法と同様に、被評価ドキュメント内に含まれるカラーパレット上の色の面積を、その面積に比例した画面領域をそのカラーパレット上の色で塗り潰して表示される。
カラーイメージ162は、出力画面の領域を複数の分割画面領域に分割し、分割画面領域毎にベースカラー、サブカラー及びアクセントカラーの組合せからなる条件を割り当て、表現情報を抽出するときに用いた条件と一致する条件が割り当てられた領域に、その条件から抽出された表現情報を表示する。また、併せて、表現情報の抽出に用いられたベースカラー、サブカラー及びアクセントカラーを表示することも好適である。
このとき、第1の実施の形態と同様に、ドキュメントのコンテンツの種別毎に表示用データベースを準備して、ステップS2で決定された被評価ドキュメントのコンテンツの種別に応じた表示用データベースを参照して表現情報やカラーを表示する画面位置を決定する。具体的な方法については、上記第1のドキュメント印象評価方法と同様であるので、ここでの説明は省略する。
以上のように、第1及び第2のドキュメント印象評価方法によれば、ドキュメントが人間に与える印象を評価するために適した特徴量及びその組合せが満たす条件から、ドキュメントが人間に与える印象に関する情報を自動で提示することができる。したがって、ドキュメント作成の経験が少ないユーザであっても、ドキュメントデータを入力するだけで、的確な印象に関する情報を得ることができる。また、ドキュメントが人間に与える印象に関する情報のみならず、評価に用いられた特徴量等を、ユーザが把握し易い態様で提示することができ、ユーザはドキュメントに関する全般的な情報を容易に把握することができる。
さらに、ドキュメントのコンテンツの種別に応じて各種別に適したデータベースを用いたり、ドキュメントのコンテンツの種別に応じて特徴量を補正したりすることによって、ドキュメントのコンテンツの種別に応じてドキュメントの印象を適切に評価することができる。
<第3のドキュメント印象評価方法>
ハイパーテキスト形式等のコンテンツが構造化されたドキュメントの場合には、それらを構成しているテキスト情報の構文を解析することによって、ドキュメントの領域分割及び特徴量の抽出を自動で行うことができる。
以下に、構造化されたドキュメントの印象評価の処理方法について、図を参照して説明する。上記第1のドキュメント印象評価方法と同様に、被評価ドキュメントの入力(ステップS1)、被評価ドキュメントの領域の分割(ステップS2)、コンテンツの種別の判別(ステップS3)、各分割ドキュメント領域から物理的特徴量を取得するサブルーチン(ステップS4)、印象評価の抽出(ステップS5)及び評価結果の出力(ステップS6)を含み、各ステップを順次行うことによって実行される。
ステップS1では、第1のドキュメント印象評価方法と同様に評価ドキュメントが取得される。ステップS2では、被評価ドキュメントを複数の領域に分割する際に、構造化されたドキュメントデータを解析し、構造化されているコンテンツ毎に分割ドキュメント領域として分割する。例えば、ネットワーク26から読み込まれたHTML形式で記述されたドキュメントが評価対象である場合は、そのドキュメントデータに含まれる各タグで括られるコンテンツを1つの分割ドキュメント領域とする。例えば、<head>タグと</head>タグの間をヘッダ部として分割することができる。
ステップS3では、各分割ドキュメント領域のコンテンツの種別が判別される。ここでの処理は、第1の実施の形態と同様であるので説明を省略する。
ステップS4では、ステップS2で分割された各ドキュメント領域から特徴量を抽出する。すなわち、各ドキュメント領域として分割されたコンテンツ毎の色、大きさ、配置等の情報を特徴量として抽出する。
以下、ステップS5及びステップS6では、第1のドキュメント印象評価方法と同様に処理を行うため、説明を省略する。
以上のように、第3のドキュメント印象評価方法によれば、ハイパーテキスト形式等の構造化されたドキュメントデータから特徴量を抽出し、そのドキュメントが人間に与える印象に関する情報を提示することができる。さらに、被評価ドキュメントのビットマップ形式のドキュメントデータと、上記構文解析を組み合わせることによって、より正確な領域分割を行うこともできる。
もちろん、第2及び第3のドキュメント印象評価方法においても、第1のドキュメント印象評価方法と同様に、ドキュメントのコンテンツを色味の階調に応じて分類して処理することもできる。
10 制御部、12 内部記憶部、14 大容量記憶部、16 出力部、18 標準入力部、20 ドキュメント入力部、22 インターフェース部、24 バス、26 ネットワーク、30 ヘッダ部、31 タイトル部、32 見出し部、33 リンクボタン部、34 イメージ画像部、35 テキスト部、90 被評価ドキュメント、91 ドキュメント色彩情報表示部、92 カラーイメージ、93 平均色表示部、95 分割画面領域、96 表示領域、160 被評価ドキュメント、161 ドキュメント色彩情報表示部、162 カラーイメージ、163 カラー表示部。