JP2005316897A

JP2005316897A - 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体

Info

Publication number: JP2005316897A
Application number: JP2004136588A
Authority: JP
Inventors: Yoshiyo Ikeda; 佳代池田; Yoshihide Sato; 吉秀佐藤; Shinji Abe; 伸治安部; Masakatsu Okubo; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-04-30
Filing date: 2004-04-30
Publication date: 2005-11-10

Abstract

【課題】本発明は、多次元の概念ベースを不要とし、大量の多次元ベクトルを保持する必要をなくし、計算時間を短縮する。
【解決手段】本発明は、多次元キーワードベクトル（概念ベクトル）を各々の概念ベクトル間の距離に基づいて２次元上で配置座標を算出することで、分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化・細分化し、多次元上のクラスタの重心と分類カテゴリの単語情報の２次元座標を算出し、各クラスタの概念ベクトルの２次元座標を算出することで概念２次元マップを作成し、未配置のコンテンツが入力される毎に、未配置のコンテンツの持つメタ情報と、概念２次元マップに含まれるキーワードやカテゴリ情報との距離を両者の情報の一致度合に応じて算出し、未配置のコンテンツの概念２次元化マップ上における配置座標を算出する。
【選択図】図１

Description

本発明は、視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体に係り、特に、予め特徴的な単語で表された分類カテゴリ情報が付与された大量の情報において、各々の情報間の内容的類似特性に基づいて、その情報を２次元平面上に視覚的に分類配置する視覚的情報分類方法及び装置と、その視覚的情報分類方法の現実に用いられる視覚的情報分類プログラム及びそのプログラムを格納した記憶媒体に関する。

詳しくは、本発明は、ユーザが大量の情報について、その構造を概観または観察しながら、少しずつ情報要求を明確化し、興味のある情報に到達できるようにするためのブラウジングインタフェースに適用するために有効な技術に関する。

近年では、電子化された情報の分類方法について様々な方法が行われている。その中でも代表的なのは、ディレクトリ形式のリスト表示であるが、情報が大量になると単なるディレクトリ形式の分類では階層構造が深くならざるを得なくなり、ユーザにとって使い勝手が悪いものになってしまう。また、階層構造を深くしない場合でも、ディレクトリの最下層に多量の情報が属することとなり、リスト形式表示では、欲しい情報を探しにくいという欠点がある。その上、その分類方法がユーザの感覚と合っていない場合は、欲しい情報に辿り着きにくくなってしまう。

そこで、扱う情報が大量にある場合は、その情報を視覚的に分類配置し、ユーザに見える形で提供するコンテンツナビゲーションの方法が提案されている。

従来、大量コンテンツを２次元上に視覚的に分類する配置技術が提案されている（例えば、非特許文献１参照）。

この技術では、コンテンツがテキスト文書である場合を対象として、テキスト文書からのキーワード、ならびにキーワードの文書中の出現頻度を抽出して、キーワードベクトル（概念ベクトル）を生成し、これに多次元尺度法を適用してコンテンツの２次元配置及びそれを用いたブラウジングインタフェースを実現している。

また、ここで扱う概念ベクトルに関して、概要説明文からの概念ベクトル（事前に定められた語彙に関する重みベクトルとして与えられる）の算出方法が示されている（例えば、非特許文献２参照）。

また、概念ベース（概念ベクトルの集まりの辞書のようなもの）に分類カテゴリの代表語が入力されると、その代表語から連想される語彙や説明文から概念ベクトルを算出するという方法が示されている（例えば、非特許文献３参照）。

また、概念ベース（概念ベクトルの集まりで辞書のようなもの）を基に多次元尺度法を用いて、予め決められた特徴的な単語で表された分類カテゴリの単語情報を基準マップと呼ばれる２次元マップ上に落とし込み、そのマップ上にコンテンツを配置するという方法が提案されている（例えば、非特許文献４参照）。この場合、コンテンツには予め付与された分類カテゴリと概要説明文などのテキストもしくは、キーワード（語彙）などのメタ情報があり、そのメタ情報と概念ベースや基準マップとの類似性、即ち、距離を算出し、コンテンツの概念ベクトルを計算し、多次元尺度法を用いて２次元平面上にコンテンツを分類配置することが行われる。
James A. Wise, et.al. Visualizing the non-visual: Spatial analysis and interaction with information from text documents Proc. Of IEEE Information Visualization ’95, pp.51-58(1995) 熊本睦他、「概念ベースの情報検索への適用・概念ベースを用いた検索の特徴評価」、信学技報AI98-63(1999) 笠原要他、「国語辞書を利用した日常語の類似性判別]、情処論、Vol.138,No7,pp.1272-1283,(1997) 藤田悦郎他、「分類情報と言語情報の統合利用に基づくコンテンツ空間の可視化」、DEWS2003, 1-P-03(2003,Mar.)http://www.ieice.org/iss/de/DEWS/proc/2003/program.html#1st-1-P

ある情報にメタ情報が付与されている場合、これをその情報の検索に利用することは効果的である。例えば、その情報をウェブページとした場合、ウェブページの検索では、多くのポータルサイトなどが提供している、各々のウェブページに付与されているメタ情報を利用した、ディレクトリサービスを用いることで、目的のウェブページを効率的に絞り込むといったことができる。

図１４は従来の概念を説明するための図である。

予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、同様の分類カテゴリによって分類された大量の語彙情報（概念ベクトル）によって作られた概念ベース（概念ベクトルの集まりで辞書のようなもの）で作られた概念マップ上に、コンテンツの持つキーワード（語彙）を基に分類配置しようとする時、従来技術では、概念マップとして最初に２次元化されているのは、基準マップと呼ばれる特徴的な単語で表された分類カテゴリ情報の単語のみであり、コンテンツを分類配置するための２次元コンテンツマップを作成する際には、その基準マップと配置したいコンテンツに付属するメタ情報（概要説明文等のテキスト情報やキーワードなど）を用いて、予め持っている概念ベース（大量文書とそれにより抽出されたキーワードの概念ベクトルからなる）をもとに再度多次元空間において、そのコンテンツの位置を計算しなければならない。

また、この方法では、多次元で表された概念ベースという大量な情報を常に保持していなければならない。

もし、２次元基準マップとして、概念ベースに含まれる全ての概念ベクトルを２次元化したとしても、上記の方法では、概念ベースに含まれる全ての多次元概念ベクトル同士の関係を計算しながら、各概念ベクトルの２次元配置座標を算出することとなり、基準マップ生成に膨大な時間を要してしまう。

以上のことから、コンテンツを追加する毎に多次元の計算のための時間がかかること、常に概念ベースのような多次元の大量な情報を保持していなければならないということ、全ての概念ベクトルを２次元化した場合であっても、基準マップ生成に時間がかかるということの３つの問題がある。

本発明は、上記の点に鑑みなされたもので、多次元の概念ベース、つまり、概念ベクトルを不要とし、大量の多次元ベクトルを保持する必要のない視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明は、大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類方法において、
予め特徴的な単語で表された分類カテゴリ情報（単語）が付与された大量の文書データから抽出されたキーワード（語彙）をもとに作られる多次元キーワードベクトル（概念ベクトル）が蓄積された概念ベクトルデータベースから概念ベクトルを読み込み、メタ情報データベースから該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成ステップ（ステップ１）と、
概念ベクトルクラスタ生成ステップにおいて作成された多次元上のクラスタの重心と分類カテゴリの単語情報の２次元座標を算出する第１の２次元座標算出ステップ（ステップ２）と、
各クラスタの該概念ベクトルの２次元座標を算出することで、概念２次元マップを作成する第２の２次元座標算出ステップ（ステップ３）と、
未配置のコンテンツが入力される毎に、メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、概念２次元マップに含まれる情報であるキーワード（語彙）やカテゴリ情報（単位）との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念２次元化マップ上における配置座標を算出し、配置座標データベースに出力するコンテンツ２次元座標算出ステップ（ステップ４）と、からなる。

また、本発明の第２の２次元座標算出ステップにおいて、
概念２次元マップにおいて、分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、分類カテゴリ情報の最下層の同一カテゴリの中で、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出ステップ（ステップ３−１）と、
クラスタセット抽出ステップで選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正ステップ（ステップ３−２）と、からなる。

図２は、本発明の原理構成図である。

本発明は、大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類装置であって、
予め特徴的な単語で表された分類カテゴリ情報（単語）が付与された大量の文書データから抽出されたキーワード（語彙）をもとに作られる多次元キーワードベクトル（概念ベクトル）が蓄積された概念ベクトルデータベース２２と、
分類カテゴリ情報が蓄積されたメタ情報データベース２１と、
処理対象となるコンテンツと、該コンテンツの内容を表すテキストやキーワード、該コンテンツが所属するカテゴリ情報が蓄積されたコンテンツデータベース２０と、
配置座標が蓄積される配置座標データベース２３と、
概念ベクトルデータベース２２から概念ベクトルを読み込み、メタ情報データベース２１から該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成手段３００と、
概念ベクトルクラスタ生成手段３００において作成された多次元上のクラスタの重心と分類カテゴリの単語情報の２次元座標を算出するクラスタと分類カテゴリの単語情報の２次元座標算出手段３１０と、
各クラスタの該概念ベクトルの２次元座標を算出することで、概念２次元マップを作成するクラスタ内概念ベクトル２次元座標算出手段３２０と、
未配置のコンテンツが入力される毎に、メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、概念２次元マップに含まれる情報であるキーワード（語彙）やカテゴリ情報（単位）との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念２次元化マップ上における配置座標を算出し、配置座標データベース２３に出力するコンテンツ２次元座標算出手段３３０と、を有する。

また、本発明のクラスタ内概念ベクトル２次元座標算出手段３２０は、
概念２次元マップにおいて、分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、分類カテゴリ情報の最下層の同一カテゴリの中で、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出手段３２１と、
クラスタセット抽出手段３２１で選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正手段３２２と、を含む。

本発明は、大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類プログラムであって、上記の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させる視覚的情報分類プログラムである。

本発明は、大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類プログラムを格納した記憶媒体であって、上記の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させるプログラムを格納した記憶媒体である。

上記のように、本発明によれば、概念２次元化マップを作成することで、多次元の概念ベース、つまり、概念ベクトルは不要となり、大量の多次元ベクトルを保持する必要がなくなる。

そして、大量の概念ベクトルを２次元上へ配置するには時間がかかるため、分類カテゴリ情報の最下層のカテゴリ配下に付属する概念ベクトルをクラスタ化し、適度な単位にまとめ、このクラスタを最下層のカテゴリ配下に、１階層追加したものと同じように、階層構造の一部として扱い、２次元上に配置し、そのクラスタ内を展開するという２つの過程を通して２次元化していく。これによって、全ての概念ベクトルを２次元化する際に、従来の技術で述べた、概念ベース（概念ベクトルの集まりで辞書のようなもの）を基に多次元尺度法を用いて、予め決められた特徴的な単語で表された分類カテゴリの単語情報を基準マップと呼ばれる２次元マップ上に落とし込み、そのマップ上にコンテンツを配置するという方法を利用して、全ての概念ベクトルの類似性、即ち距離を計算することよりも、細分化されたクラスタ内の概念ベクトル同士の類似性（距離）を計算するのみとなり、時間を削減できる。

また、新たなコンテンツが追加された場合においても、従来のように、概念ベクトルを用いてコンテンツの多次元上で配置座標を算出した後に、２次元上での座標を算出するという過程が不要となり、常に、２次元上での計算で座標が確定することになる。よって、計算時間も削減できる。

以下、図面と共に、本発明の実施の形態を説明する。

最初に本発明の概念を説明する。

図３は、本発明の概念を説明するための図である。

本発明は、予め分類カテゴリ情報が付与された大量の情報を、各々の情報間の内容的類似性に基づいて２次元平面上に分類配置する方法において、コンテンツの配置に必要な概念ベクトルを全て２次元化し、概念２次元化マップを作成することによって、コンテンツを分類配置するための２次元コンテンツマップを作成する際にも、多次元上の計算ではなく、２次元上の距離計算を行えばよいこととなり、短い時間で分配配置を行えるようになる。

また、概念２次元化マップを作成することで、多次元の概念ベクトルが不要になり、情報量の削減を行うことができる。そして、概念２次元化マップ作成方法についても概念ベクトルをクラスタ化して、より短時間で作成できる。

以下に、前述の図２に基づいて、本発明の装置の概要を説明する。

概念ベクトルクラスタ生成手段３００は、概念２次元化マップを構築するために、予め特徴的な単語で表された分類カテゴリ情報が付与された大量の文書データから抽出されたキーワード（語彙）を基に作られる多次元キーワードベクトル（概念ベクトル）を概念ベクトルデータベース（概念ベクトルＤＢ）２２から取得し、それらの概念ベクトルが持つ分類カテゴリ情報をメタ情報データベース（メタ情報ＤＢ）２１から取得し、その２つを利用して分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する。ここで、最下層の各カテゴリは、それぞれ複数個のクラスタをもつことになる。クラスタ化は、概念ベクトル間のユークリッド距離に基づいて、K-Means法などにより行う。

クラスタと分類カテゴリの単語情報の２次元座標算出手段３１０は、上記の概念ベクトルクラスタ生成手段３００でクラスタ化された、クラスタ自身の重心をクラスタ内に含まれる概念ベクトルから算出し、そのクラスタ重心の２次元座標と分類カテゴリの単語情報の２次元座標を算出する。

クラスタ内概念ベクトル２次元座標算出部３２０は、クラスタ化された概念ベクトルを各々の所属するクラスタ重心の周囲に配置されるように、また、他のクラスタと重ならないようにクラスタ同士の外円間の距離を調整することで、配置領域（クラスタ半径）を定めた上で、概念ベクトルの２次元座標を算出し、全ての概念ベクトルを２次元化することで、概念ベクトル２次元化マップを作成する。

コンテンツ２次元座標算出部３３０は、クラスタ内概念ベクトル２次元座標算出手段３２０で概念２次元化マップを作成後に、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報をコンテンツデータベース（コンテンツDB）２０から取得し、上位概念２次元化マップの情報とコンテンツのメタ情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念２次元化マップ上における配置座標を算出し、配置座標データベース（配置座標ＤＢ）２３に格納する。

また、クラスタ内概念ベクトル２次元座標算出手段３２０は、クラスタセット抽出手段３２１と、クラスタ補正手段３２２とを有する。

クラスタセット抽出手段３２１は、分類カテゴリ情報の再下層の同一カテゴリの中で、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶ。

クラスタ補正手段３２２は、上記で選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げる。

次に、上記の構成における動作の概要を前述の図１に基づいて説明する。

本発明は、予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、同様の分類カテゴリによって分類された大量の語彙情報（概念ベクトル）によって作られた概念ベース（概念ベクトルの集まりで辞書のようなもの）を基に、各々の情報間の内容的類似性によって２次元平面上に分類配置する視覚的情報分類方法であり、以下の４つのステップからなる。

ステップ１）概念ベクトルクラスタ生成手段３００において、概念ベクトルをクラスタ化する。概念２次元化マップを構築するために、予め特徴的な単語で表された分類カテゴリ情報が付与された大量の文書データから抽出されたキーワード（語彙）を基に作られる多次元キーワードベクトル（概念ベクトル）を概念ベクトルデータベース２２から取得し、取得した概念ベクトルと、メタ情報データベース２１から取得したそれらの概念ベクトルが持つ分類カテゴリ情報とを利用して分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する。ここで、最下層の各カテゴリは、それぞれ複数個のクラスタを持つことになる。クラスタ化は、概念ベクトル間のユークリッド距離に基づいて、K-means法などにより行う。

ステップ２）クラスタと分類カテゴリの単語情報の２次元座標算出手段３１０において、（多次元上の）クラスタの重心と分類カテゴリの単語情報の２次元座標を算出する。上記のステップ１でクラスタ化されたクラスタ自身の重心をクラスタ内に含まれる概念ベクトルから算出し、そのクラスタ重心の２次元座標と分類カテゴリの単語情報の２次元座標を算出する。

ステップ３）クラスタ内概念ベクトル２次元座標算出手段３２０において、クラスタ内の概念ベクトルの２次元座標を算出する。クラスタ化された概念ベクトルを各々の所属するクラスタ重心の周囲に配置されるように、また、他のクラスタと重ならないように、各クラスタの半径を変化させ、クラスタ同士の外円周の距離を調整することで、配置領域（クラスタ半径）を定め、概念ベクトルの２次元座標を算出し、全ての概念ベクトルを２次元化することで、概念２次元化マップを作成する。

ステップ４）コンテンツ２次元座標算出手段３３０において、新規コンテンツの２次元座標を算出する。ステップ１０３で概念２次元化マップを作成後に、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報をコンテンツデータベース２０から取得し、取得したメタ情報と上位概念２次元化マップの情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念２次元化マップ上における配置座標を算出して配置座標データベース２３に格納する。

なお、上記のステップ１〜３によって概念２次元化マップを作成した後、ステップ４は、コンテンツ登録要求が入力される毎に繰り返し行われるステップである。

また、上記のステップ３において、概念ベクトルを２次元化する際に、概念２次元化マップにおいて、分類カテゴリ情報の最下層のカテゴリの範囲内にその配下の全てのクラスタが収められるように、また、そのカテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、以下の処理を行う。

ステップ３−１）クラスタセット抽出手段３２１において、クラスタ間の外円同士の距離が最も近い組み合わせを選択する。分類カテゴリ情報の最下層の同一カテゴリの中で、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶ。

ステップ３−２）クラスタ補正処理手段３２２において、クラスタ間の外円同士の距離の総和が最も短くなり、属する最下層のカテゴリの範囲を超えないような各々のクラスタの半径を広げる。上記で選んだクラスタの組み合わせすべてにおいて、外円同士の距離の総和が最も短くなり、しかも最下層のカテゴリの範囲を超えないように、各々のクラスタの範囲を広げる。

以下に、本発明の実施の形態を詳細に説明する。

本実施の形態では、２次元上にキーワードが配置された概念マップ上にメタ情報を持つようなコンテンツを配置するために、コンテンツ座標を求めることを目的とする。

図４は、本発明の一実施の形態における視覚的情報分類装置の構成を示す。

同図に示す視覚的情報分類装置は、コンピュータ１０と当該コンピュータ１０にネットワーク４０を介して接続されるコンテンツデータベース（コンテンツDB）２０、メタ情報データベース（メタ情報ＤＢ）２１、概念ベクトルデータベース（概念ベクトルDB）２２、及び、配置座標データベース（配置座標DB）２３から構成されている。

コンピュータ１０は、ＲＡＭ、ＲＯＭ、磁気ディスク等からなるメモリ、ＣＰＵ、ディスプレイによる表示部１１、及びマウスやキーボード等からなる指示入力部１２から構成されており、ＣＰＵが実行するソフトウェアプログラムによって実現される概念ベクトルクラスタ生成部３００、クラスタと分類カテゴリ情報の２次元座標算出処理部３１０と、クラスタ内概念ベクトル２次元座標算出処理部３２０、コンテンツ２次元座標算出処理部３３０とを備えている。

また、クラスタ内概念ベクトル２次元座標算出処理部３２０は、クラスタセット抽出処理部３２１とクラスタ補正処理部３２２を備えている。

コンテンツＤＢ２０には、処理対象となるコンテンツと、その内容を表すテキスト（概要説明文等）やキーワード、コンテンツが所属するカテゴリ情報などのメタ情報が格納されている。

メタ情報ＤＢ２１には、分類カテゴリ情報が格納されている。この分類カテゴリの情報は事前に与えられており、コンテンツ毎に付与される。本実施の形態では、分類カテゴリ情報は、深さＮ（Ｎは正の整数）の階層構造を有しているものとする。

図５は、本発明の一実施の形態におけるコンテンツを分類するための分類カテゴリの体系例を示す。この分類カテゴリ体系に従う場合、メタ情報ＤＢ２１に、このカテゴリ情報が格納されている。また、コンテンツＤＢ２０に格納されている、各コンテンツには、図５に示すＬ_ｉｊ（ｉ，ｊ＝１〜４）のいずれかの適切な分類カテゴリが事前に割り当てられており、その情報は、コンテンツのメタ情報として、コンテンツＤＢ２０にも格納されている。図５において、例えば、二階層目のカテゴリＬ１１の「１１」は、Ｌ_ｉｊの、ｉ，ｊに対応する添え字である。

概念ベクトルＤＢ２２には、利用するサービスや分野に合わせて、指定された分類カテゴリによって分類されたキーワード（語彙）が、キーワードベクトル（概念ベクトル）として格納されている。このキーワードベクトル（概念ベクトル）は、分類カテゴリに適する情報源の内容的類似性（ＴＦ／ＩＤＦ等により算出されるキーワードの出現頻度等を利用）を基に算出される多次元または、２次元の概念ベクトルである。このベクトルは、全て統一された次元数を持つ次数値ベクトルとして表される。

なお、このような概念ベクトルの算出方法については、前述の非特許文献２，３，４に記述されているような方法を用いてもよい。また、予め指定された分類カテゴリに合わせて、Ｗｅｂページなどの外部情報を収集し、その情報から語彙を切り出し、その語彙をすべての対象文章における出現頻度によって算出した概念ベクトルを集めて概念ベースを作成するという方法でもよい。

配置座標ＤＢ２３には、以降に説明する処理によって算出される、各々のコンテンツの２次元配置座標が格納される。

概念ベクトルクラスタ生成部３００、クラスタと分類カテゴリ情報の２次元座標算出部３１０、クラスタ内概念ベクトル２次元座標算出処理部３２０、クラスタセット抽出処理部３２１、クラスタ補正処理部３２２、及び、コンテンツ２次元座標算出処理部３３０は、このように構成される視覚的情報分類システムの下で、以降に説明する処理を実行することで本発明を実現するように動作する。

概念２次元化マップは、概念ベクトルクラスタ生成部３００、クラスタと分類カテゴリ情報の２次元座標算出処理部３１０、クラスタ内概念ベクトル２次元座標算出処理部３２０、クラスタセット抽出処理部３２１、クラスタ補正処理部３２２によって生成される。概念２次元化マップは、コンテンツを配置するための地図であり、コンテンツの持つメタ情報と概念２次元化マップの情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念２次元化マップ上における配置座標を算出することにより、似たコンテンツが近い場所へ配置することができる。

以下に各処理部の動作を説明する。

［１］概念ベクトルクラスタ生成部３００の処理：
図６は、本発明の一実施の形態における概念ベクトルクラスタ生成部の処理のフローチャートである。

概念ベクトルクラスタ生成部３００は、メタ情報ＤＢ２１から分類カテゴリ情報を取得する（ステップ４０１）。その分類カテゴリの中から、１つの最下層のカテゴリの配下に属する概念ベクトルを概念ベクトルＤＢ２２から取得する（ステップ４０２）。その概念ベクトルをクラスタ化することで、カテゴリを細分化し、クラスタ情報を概念ベクトルＤＢ２２に追加する（ステップ４０３）。ここで、概念ベクトルＤＢ２２には、概念ベクトルそれぞれが、どのクラスタに属しているのかという情報が格納されることになる。

クラスタ化は、概念ベクトル間のユークリッド距離に基づいて、K-means法などにより行う。

これらのクラスタ化処理を分類カテゴリ情報の全ての最下層のカテゴリに対して行う（ステップ４０４）。

［２］クラスタと分類カテゴリ情報の２次元座標算出処理部３１０の処理：
図７は、本発明の一実施の形態におけるクラスタと分類カテゴリ情報の２次元座標算出処理部の処理のフローチャートである。

クラスタと分類カテゴリ情報の２次元座標算出処理部３１０は、概念ベクトルクラスタ生成部３００により細分化されたクラスタそれぞれの重心ベクトルを算出する（ステップ４０５）。算出された重心ベクトルを付属する最下層のカテゴリ情報へ加え、その情報をメタ情報ＤＢ２１へ追加する（ステップ４０６）。図８に、本発明の一実施の形態における分類カテゴリとクラスタとの関係の例を示す。

メタ情報ＤＢ２１からクラスタベクトルを取得し、各クラスタの属する上位階層のカテゴリのベクトル全てを算出する。全てのカテゴリ情報（クラスタを含む）のベクトルを算出した後、それらの情報から２次元座標を算出し、その情報をメタ情報ＤＢ２１へ追加する（ステップ４０７）。２次元座標の算出方法は、図５に示すような分類カテゴリ情報を持つ場合、２次元平面上において、Ｌ１の周りにＬ１１，Ｌ１２，Ｌ１３が、Ｌ２の周りにＬ２１，Ｌ２２，Ｌ２３が、そして、Ｌ３の周りにＬ３１，Ｌ３２，Ｌ３３が配置されるように、また、Ｌ１，Ｌ２，Ｌ３やその配下の同一カテゴリ配下のカテゴリ同士、例えば、Ｌ１１，Ｌ１２，Ｌ１３との間には、適度な距離を持ち、それぞれのカテゴリが、視覚的に区分されて見えることが望ましい。この際、クラスタは、その上位階層のカテゴリ配下に属するカテゴリとして計算することとする。

この算出方法としては、一般的に用いられる方法として多次元尺度構成法によって多次元ベクトルを２次元にする方法を利用してもよい。また、前述の非特許文献４のような方法を用いてもよい。

これで、２次元平面上の分類カテゴリ座標が算出されたこととなる。

［３］クラスタ内概念ベクトル２次元座標算出処理部３２０の処理：
図９は、本発明の一実施の形態におけるクラスタ内概念ベクトル２次元座標算出処理部の処理のフローチャートである。

この処理は、次の２つの処理によって成り立っている。

・クラスタセット抽出部３２１の処理：
クラスタセット抽出部３２１は、分類カテゴリのある１つの最下層のカテゴリに含まれる全ての概念ベクトルを概念ベクトルＤＢ２２から取得する（ステップ４０８）。そして、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶ（ステップ４０９）。

・クラスタ補正処理部３２２の処理：
クラスタ補正処理部３２２は、クラスタセット抽出部３２１の処理で選んだクラスタの組み合わせすべてにおいて、外円同士の距離の総和が最も短くなり、しかも最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げる（ステップ４１０）。

ここでのクラスタ間の補正方法は、例えば、次のように行う。図１０は、本発明の一実施の形態におけるクラスタ２次元配置のための変数を説明するための図である。

該当クラスタ：Ｃ_ｉｊｘ；
Ｃ_ｉｊｘに含まれる語彙：Ｋ_ｉｊｙ；
Ｃ_ｉｊｘの重心ベクトル：Ｇ_ｘ；
多次元空間上でのＧ_ｘとＫ_ｉｊｙの距離：ｄ_ｘｙとした時、Ｃ_ｉｊｘに含まれる全てのＫ_ｉｊｙとＧ_ｘの距離ｄ_ｘｙから標準偏差σ_ｘを算出する（例では、ｉ，ｊ＝１〜３、ｘ，ｙ＝１〜５）；
Ｃ_ｉｊｘの半径：Ｒ_ｘ；
とすると、半径Ｒは、以下の式を満たす。

Ｒ_１：Ｒ_２：Ｒ_３：Ｒ_４：Ｒ_５＝σ_１：σ_２：σ_３：σ_４：σ_５
よって、
Ｒ_ｘ＝σ_ｘ ^＊ _ｔｔ：任意の変数；
クラスタ間の重心座標の距離をＤ_ｘｚ（例では、ｚ=１〜５）とすると、Ｃ_ｉｊｘ，Ｃ_ｉｊｚとの外円からの距離は
Ｐ_ｘｚ＝｜Ｄ_ｘｚ−（Ｒ_ｘ＋Ｒ_ｚ）｜
となる。このことから、クラスタ同士の組み合わせにおける外円同士の距離Ｐは、
Ｐ＝Σ_ｉｊ｜Ｄ_ｉｊ−（Ｒ_ｘ＋Ｒ_ｚ）｜=Σ_ｉｊ｜Ｄ_ｉｊ−（σ_ｘ+σ_ｚ）ｔ｜
ここでのクラスタ同士の組み合わせは、該当クラスタと最も近いＰ_ｘｚを持つこととする。よって、それぞれのクラスタにおける組み合わせは１つとなる。

これから、Ｐを最小にするようなｔを算出することで、半径Ｒ_ｘを決定でき、クラスタ間の補正が完了する。

その後、クラスタ半径の範囲に概念ベクトルが配置されるように概念ベクトルを２次元化する（ステップ４１１）。クラスタＣ_ｉｊｘにおけるＧ_ｘから半径Ｒ_ｘの円の中に語彙の配置方法は、正規分布における配置や、多次元尺度構成法によって多次元ベクトルを２次元にする方法を利用してもよい。また、前述の非特許文献４のような方法を用いてもよい。

そして、算出された各々の概念ベクトルの２次元座標を概念ベクトルＤＢ２２の多次元ベクトルと置き換える（ステップ４１２）。

これらステップ４０８からステップ４１２までの処理を分類カテゴリ情報の全ての最下層のカテゴリに対して行う（ステップ４１３）。

これで、概念ベクトルＤＢ２２の中には２次元化座標を持つ概念ベクトルが格納され、また、メタ情報ＤＢ２１には、２次元座標を持つ分類カテゴリとクラスタが格納され、概念２次元化マップが作成されたこととなる。この結果、分類カテゴリやクラスタ、キーワード（語彙）の概念ベクトルは図１１、図１２のように２次元平面上に配置されることになる。

［４］コンテンツ２次元座標算出処理部３３０の処理：
コンテンツ２次元座標算出処理部３３０は、作成した概念２次元化マップをもとに、コンテンツの登録要求により、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報をコンテンツＤＢ２０から取得し、上記概念２次元化マップの情報とコンテンツのメタ情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念２次元化マップ上における配置座標を算出し、配置座標ＤＢ２３に格納する。複数のメタ情報が概念２次元化マップ上のキーワード（語彙）と一致した場合には、そのキーワードの座標の重心を取る等により、コンテンツの２次元座標が確定する。

このようにして、２次元コンテンツマップ上にコンテンツが配置される。図１３は、本発明の一実施の形態におけるコンテンツマップの例を示す。また、この表示方法は、前述の非特許文献４のような表示方法を利用してもよい。

これらのマップは、Ｗｅｂブラウザなどを利用してコンピュータのディスプレイ上に表示することや、印刷して表示することができる。また、このコンテンツの表示方法については２次元や３次元等様々な表現方法に適用することができる。

また、図１，６，７，９に示すフローチャートの動作をプログラムとして構築し、視覚的情報分類装置として利用されるコンピュータにインストールし、ＣＰＵ等で実行させる、または、ネットワークを介して取得し、インストールすることも可能である。

また、構築されたプログラムを視覚的情報分類装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、ユーザが大量の情報について、その構造を概観または観察しながら、少しずつ情報要求を明確化し、興味のある情報に到達できるようにするためのブラウジングインタフェースの技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の概念を説明するための図である。本発明の一実施の形態における視覚的情報分類装置の構成図である。本発明の一実施の形態におけるコンテンツを分類するための分類カテゴリの体系例である。本発明の一実施の形態における概念ベクトルクラスタ生成部の処理のフローチャートである。本発明の一実施の形態におけるクラスタと分類カテゴリ情報の２次元座標算出処理部の処理のフローチャートである。本発明の一実施の形態における分類カテゴリとクラスタとの関係の例である。本発明の一実施の形態におけるクラスタ内概念ベクトル２次元座標算出処理部の処理のフローチャートである。本発明の一実施の形態におけるクラスタ２次元配置のための変数を説明するための図である。本発明の一実施の形態における分類カテゴリとクラスタオ２次元化の例である。本発明の一実施の形態における分類カテゴリと概念ベクトル２次元化の例である。本発明の一実施の形態におけるコンテンツマップの例である。従来の技術の概念を説明するための図である。

符号の説明

２０コンテンツＤＢ
２１メタ情報ＤＢ
２２概念ベクトルＤＢ
２３配置座標ＤＢ
３００概念ベクトルクラスタ生成手段、概念ベクトルクラスタ生成部
３１０クラスタと分類カテゴリの単語情報の２次元座標算出手段、クラスタと分類カテゴリの単語情報の２次元座標算出部
３２０クラスタ内概念ベクトル２次元座標算出手段、クラスタ内概念ベクトル２次元座標算出部
３２１クラスタセット抽出手段、クラスタセット抽出部
３２２クラスタ補正手段、クラスタ補正部
３３０コンテンツ２次元座標算出手段、コンテンツ２次元座標算出部

Claims

大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類方法において、
予め特徴的な単語で表された分類カテゴリ情報（単語）が付与された大量の文書データから抽出されたキーワード（語彙）をもとに作られる多次元キーワードベクトル（概念ベクトル）が蓄積された概念ベクトルデータベースから概念ベクトルを読み込み、メタ情報データベースから該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成ステップと、
前記概念ベクトルクラスタ生成ステップにおいて作成された多次元上のクラスタの重心と前記分類カテゴリの単語情報の２次元座標を算出する第１の２次元座標算出ステップと、
各クラスタの該概念ベクトルの２次元座標を算出することで、概念２次元マップを作成する第２の２次元座標算出ステップと、
未配置のコンテンツが入力される毎に、メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、前記概念２次元マップに含まれる情報であるキーワード（語彙）やカテゴリ情報（単位）との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念２次元化マップ上における配置座標を算出し、配置座標データベースに出力するコンテンツ２次元座標算出ステップと、
からなることを特徴とする視覚的情報分類方法。
前記第２の２次元座標算出ステップにおいて、
前記概念２次元マップにおいて、前記分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、前記分類カテゴリ情報の最下層の同一カテゴリの中で、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出ステップと、
前記クラスタセット抽出ステップで選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正ステップと、からなる請求項１記載の視覚的情報分類方法。
大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類装置であって、
予め特徴的な単語で表された分類カテゴリ情報（単語）が付与された大量の文書データから抽出されたキーワード（語彙）をもとに作られる多次元キーワードベクトル（概念ベクトル）が蓄積された概念ベクトルデータベースと、
分類カテゴリ情報が蓄積されたメタ情報データベースと、
処理対象となるコンテンツと、該コンテンツの内容を表すテキストやキーワード、該コンテンツが所属するカテゴリ情報が蓄積されたコンテンツデータベースと、
配置座標が蓄積される配置座標データベースと、
前記概念ベクトルデータベースから概念ベクトルを読み込み、前記メタ情報データベースから該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成手段と、
前記概念ベクトルクラスタ生成手段において作成された多次元上のクラスタの重心と前記分類カテゴリの単語情報の２次元座標を算出するクラスタと分類カテゴリの単語情報の２次元座標算出手段と、
各クラスタの該概念ベクトルの２次元座標を算出することで、概念２次元マップを作成するクラスタ内概念ベクトル２次元座標算出手段と、
未配置のコンテンツが入力される毎に、前記メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、前記概念２次元マップに含まれる情報であるキーワード（語彙）やカテゴリ情報（単位）との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念２次元化マップ上における配置座標を算出し、配置座標データベースに出力するコンテンツ２次元座標算出手段と、
を、有することを特徴とする視覚的情報分類装置。
前記クラスタ内概念ベクトル２次元座標算出手段は、
前記概念２次元マップにおいて、前記分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、前記分類カテゴリ情報の最下層の同一カテゴリの中で、全ての２つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出手段と、
前記クラスタセット抽出手段で選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正手段と、を含む請求項３記載の視覚的情報分類装置。
大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類プログラムであって、
前記請求項１または、２記載の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させることを特徴とする視覚的情報分類プログラム。
大量の情報を情報間の内容的類似性に基づいて２次元平面上に配置する視覚的情報分類プログラムを格納した記憶媒体であって、
前記請求項または、２記載の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させるプログラムを格納したことを特徴とする視覚的情報分類プログラムを格納した記憶媒体。