JP2005316897A - 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体 - Google Patents

視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2005316897A
JP2005316897A JP2004136588A JP2004136588A JP2005316897A JP 2005316897 A JP2005316897 A JP 2005316897A JP 2004136588 A JP2004136588 A JP 2004136588A JP 2004136588 A JP2004136588 A JP 2004136588A JP 2005316897 A JP2005316897 A JP 2005316897A
Authority
JP
Japan
Prior art keywords
information
category
cluster
dimensional
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004136588A
Other languages
English (en)
Inventor
Yoshiyo Ikeda
佳代 池田
Yoshihide Sato
吉秀 佐藤
Shinji Abe
伸治 安部
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004136588A priority Critical patent/JP2005316897A/ja
Publication of JP2005316897A publication Critical patent/JP2005316897A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 本発明は、多次元の概念ベースを不要とし、大量の多次元ベクトルを保持する必要をなくし、計算時間を短縮する。
【解決手段】 本発明は、多次元キーワードベクトル(概念ベクトル)を各々の概念ベクトル間の距離に基づいて2次元上で配置座標を算出することで、分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化・細分化し、多次元上のクラスタの重心と分類カテゴリの単語情報の2次元座標を算出し、各クラスタの概念ベクトルの2次元座標を算出することで概念2次元マップを作成し、未配置のコンテンツが入力される毎に、未配置のコンテンツの持つメタ情報と、概念2次元マップに含まれるキーワードやカテゴリ情報との距離を両者の情報の一致度合に応じて算出し、未配置のコンテンツの概念2次元化マップ上における配置座標を算出する。
【選択図】 図1

Description

本発明は、視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体に係り、特に、予め特徴的な単語で表された分類カテゴリ情報が付与された大量の情報において、各々の情報間の内容的類似特性に基づいて、その情報を2次元平面上に視覚的に分類配置する視覚的情報分類方法及び装置と、その視覚的情報分類方法の現実に用いられる視覚的情報分類プログラム及びそのプログラムを格納した記憶媒体に関する。
詳しくは、本発明は、ユーザが大量の情報について、その構造を概観または観察しながら、少しずつ情報要求を明確化し、興味のある情報に到達できるようにするためのブラウジングインタフェースに適用するために有効な技術に関する。
近年では、電子化された情報の分類方法について様々な方法が行われている。その中でも代表的なのは、ディレクトリ形式のリスト表示であるが、情報が大量になると単なるディレクトリ形式の分類では階層構造が深くならざるを得なくなり、ユーザにとって使い勝手が悪いものになってしまう。また、階層構造を深くしない場合でも、ディレクトリの最下層に多量の情報が属することとなり、リスト形式表示では、欲しい情報を探しにくいという欠点がある。その上、その分類方法がユーザの感覚と合っていない場合は、欲しい情報に辿り着きにくくなってしまう。
そこで、扱う情報が大量にある場合は、その情報を視覚的に分類配置し、ユーザに見える形で提供するコンテンツナビゲーションの方法が提案されている。
従来、大量コンテンツを2次元上に視覚的に分類する配置技術が提案されている(例えば、非特許文献1参照)。
この技術では、コンテンツがテキスト文書である場合を対象として、テキスト文書からのキーワード、ならびにキーワードの文書中の出現頻度を抽出して、キーワードベクトル(概念ベクトル)を生成し、これに多次元尺度法を適用してコンテンツの2次元配置及びそれを用いたブラウジングインタフェースを実現している。
また、ここで扱う概念ベクトルに関して、概要説明文からの概念ベクトル(事前に定められた語彙に関する重みベクトルとして与えられる)の算出方法が示されている(例えば、非特許文献2参照)。
また、概念ベース(概念ベクトルの集まりの辞書のようなもの)に分類カテゴリの代表語が入力されると、その代表語から連想される語彙や説明文から概念ベクトルを算出するという方法が示されている(例えば、非特許文献3参照)。
また、概念ベース(概念ベクトルの集まりで辞書のようなもの)を基に多次元尺度法を用いて、予め決められた特徴的な単語で表された分類カテゴリの単語情報を基準マップと呼ばれる2次元マップ上に落とし込み、そのマップ上にコンテンツを配置するという方法が提案されている(例えば、非特許文献4参照)。この場合、コンテンツには予め付与された分類カテゴリと概要説明文などのテキストもしくは、キーワード(語彙)などのメタ情報があり、そのメタ情報と概念ベースや基準マップとの類似性、即ち、距離を算出し、コンテンツの概念ベクトルを計算し、多次元尺度法を用いて2次元平面上にコンテンツを分類配置することが行われる。
James A. Wise, et.al. Visualizing the non-visual: Spatial analysis and interaction with information from text documents Proc. Of IEEE Information Visualization ’95, pp.51-58(1995) 熊本睦他、「概念ベースの情報検索への適用・概念ベースを用いた検索の特徴評価」、信学技報AI98-63(1999) 笠原要他、「国語辞書を利用した日常語の類似性判別]、情処論、Vol.138,No7,pp.1272-1283,(1997) 藤田悦郎他、「分類情報と言語情報の統合利用に基づくコンテンツ空間の可視化」、DEWS2003, 1-P-03(2003,Mar.)http://www.ieice.org/iss/de/DEWS/proc/2003/program.html#1st-1-P
ある情報にメタ情報が付与されている場合、これをその情報の検索に利用することは効果的である。例えば、その情報をウェブページとした場合、ウェブページの検索では、多くのポータルサイトなどが提供している、各々のウェブページに付与されているメタ情報を利用した、ディレクトリサービスを用いることで、目的のウェブページを効率的に絞り込むといったことができる。
図14は従来の概念を説明するための図である。
予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られた概念マップ上に、コンテンツの持つキーワード(語彙)を基に分類配置しようとする時、従来技術では、概念マップとして最初に2次元化されているのは、基準マップと呼ばれる特徴的な単語で表された分類カテゴリ情報の単語のみであり、コンテンツを分類配置するための2次元コンテンツマップを作成する際には、その基準マップと配置したいコンテンツに付属するメタ情報(概要説明文等のテキスト情報やキーワードなど)を用いて、予め持っている概念ベース(大量文書とそれにより抽出されたキーワードの概念ベクトルからなる)をもとに再度多次元空間において、そのコンテンツの位置を計算しなければならない。
また、この方法では、多次元で表された概念ベースという大量な情報を常に保持していなければならない。
もし、2次元基準マップとして、概念ベースに含まれる全ての概念ベクトルを2次元化したとしても、上記の方法では、概念ベースに含まれる全ての多次元概念ベクトル同士の関係を計算しながら、各概念ベクトルの2次元配置座標を算出することとなり、基準マップ生成に膨大な時間を要してしまう。
以上のことから、コンテンツを追加する毎に多次元の計算のための時間がかかること、常に概念ベースのような多次元の大量な情報を保持していなければならないということ、全ての概念ベクトルを2次元化した場合であっても、基準マップ生成に時間がかかるということの3つの問題がある。
本発明は、上記の点に鑑みなされたもので、多次元の概念ベース、つまり、概念ベクトルを不要とし、大量の多次元ベクトルを保持する必要のない視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類方法において、
予め特徴的な単語で表された分類カテゴリ情報(単語)が付与された大量の文書データから抽出されたキーワード(語彙)をもとに作られる多次元キーワードベクトル(概念ベクトル)が蓄積された概念ベクトルデータベースから概念ベクトルを読み込み、メタ情報データベースから該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成ステップ(ステップ1)と、
概念ベクトルクラスタ生成ステップにおいて作成された多次元上のクラスタの重心と分類カテゴリの単語情報の2次元座標を算出する第1の2次元座標算出ステップ(ステップ2)と、
各クラスタの該概念ベクトルの2次元座標を算出することで、概念2次元マップを作成する第2の2次元座標算出ステップ(ステップ3)と、
未配置のコンテンツが入力される毎に、メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、概念2次元マップに含まれる情報であるキーワード(語彙)やカテゴリ情報(単位)との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念2次元化マップ上における配置座標を算出し、配置座標データベースに出力するコンテンツ2次元座標算出ステップ(ステップ4)と、からなる。
また、本発明の第2の2次元座標算出ステップにおいて、
概念2次元マップにおいて、分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、分類カテゴリ情報の最下層の同一カテゴリの中で、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出ステップ(ステップ3−1)と、
クラスタセット抽出ステップで選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正ステップ(ステップ3−2)と、からなる。
図2は、本発明の原理構成図である。
本発明は、大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類装置であって、
予め特徴的な単語で表された分類カテゴリ情報(単語)が付与された大量の文書データから抽出されたキーワード(語彙)をもとに作られる多次元キーワードベクトル(概念ベクトル)が蓄積された概念ベクトルデータベース22と、
分類カテゴリ情報が蓄積されたメタ情報データベース21と、
処理対象となるコンテンツと、該コンテンツの内容を表すテキストやキーワード、該コンテンツが所属するカテゴリ情報が蓄積されたコンテンツデータベース20と、
配置座標が蓄積される配置座標データベース23と、
概念ベクトルデータベース22から概念ベクトルを読み込み、メタ情報データベース21から該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成手段300と、
概念ベクトルクラスタ生成手段300において作成された多次元上のクラスタの重心と分類カテゴリの単語情報の2次元座標を算出するクラスタと分類カテゴリの単語情報の2次元座標算出手段310と、
各クラスタの該概念ベクトルの2次元座標を算出することで、概念2次元マップを作成するクラスタ内概念ベクトル2次元座標算出手段320と、
未配置のコンテンツが入力される毎に、メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、概念2次元マップに含まれる情報であるキーワード(語彙)やカテゴリ情報(単位)との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念2次元化マップ上における配置座標を算出し、配置座標データベース23に出力するコンテンツ2次元座標算出手段330と、を有する。
また、本発明のクラスタ内概念ベクトル2次元座標算出手段320は、
概念2次元マップにおいて、分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、分類カテゴリ情報の最下層の同一カテゴリの中で、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出手段321と、
クラスタセット抽出手段321で選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正手段322と、を含む。
本発明は、大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類プログラムであって、上記の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させる視覚的情報分類プログラムである。
本発明は、大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類プログラムを格納した記憶媒体であって、上記の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
上記のように、本発明によれば、概念2次元化マップを作成することで、多次元の概念ベース、つまり、概念ベクトルは不要となり、大量の多次元ベクトルを保持する必要がなくなる。
そして、大量の概念ベクトルを2次元上へ配置するには時間がかかるため、分類カテゴリ情報の最下層のカテゴリ配下に付属する概念ベクトルをクラスタ化し、適度な単位にまとめ、このクラスタを最下層のカテゴリ配下に、1階層追加したものと同じように、階層構造の一部として扱い、2次元上に配置し、そのクラスタ内を展開するという2つの過程を通して2次元化していく。これによって、全ての概念ベクトルを2次元化する際に、従来の技術で述べた、概念ベース(概念ベクトルの集まりで辞書のようなもの)を基に多次元尺度法を用いて、予め決められた特徴的な単語で表された分類カテゴリの単語情報を基準マップと呼ばれる2次元マップ上に落とし込み、そのマップ上にコンテンツを配置するという方法を利用して、全ての概念ベクトルの類似性、即ち距離を計算することよりも、細分化されたクラスタ内の概念ベクトル同士の類似性(距離)を計算するのみとなり、時間を削減できる。
また、新たなコンテンツが追加された場合においても、従来のように、概念ベクトルを用いてコンテンツの多次元上で配置座標を算出した後に、2次元上での座標を算出するという過程が不要となり、常に、2次元上での計算で座標が確定することになる。よって、計算時間も削減できる。
以下、図面と共に、本発明の実施の形態を説明する。
最初に本発明の概念を説明する。
図3は、本発明の概念を説明するための図である。
本発明は、予め分類カテゴリ情報が付与された大量の情報を、各々の情報間の内容的類似性に基づいて2次元平面上に分類配置する方法において、コンテンツの配置に必要な概念ベクトルを全て2次元化し、概念2次元化マップを作成することによって、コンテンツを分類配置するための2次元コンテンツマップを作成する際にも、多次元上の計算ではなく、2次元上の距離計算を行えばよいこととなり、短い時間で分配配置を行えるようになる。
また、概念2次元化マップを作成することで、多次元の概念ベクトルが不要になり、情報量の削減を行うことができる。そして、概念2次元化マップ作成方法についても概念ベクトルをクラスタ化して、より短時間で作成できる。
以下に、前述の図2に基づいて、本発明の装置の概要を説明する。
概念ベクトルクラスタ生成手段300は、概念2次元化マップを構築するために、予め特徴的な単語で表された分類カテゴリ情報が付与された大量の文書データから抽出されたキーワード(語彙)を基に作られる多次元キーワードベクトル(概念ベクトル)を概念ベクトルデータベース(概念ベクトルDB)22から取得し、それらの概念ベクトルが持つ分類カテゴリ情報をメタ情報データベース(メタ情報DB)21から取得し、その2つを利用して分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する。ここで、最下層の各カテゴリは、それぞれ複数個のクラスタをもつことになる。クラスタ化は、概念ベクトル間のユークリッド距離に基づいて、K-Means法などにより行う。
クラスタと分類カテゴリの単語情報の2次元座標算出手段310は、上記の概念ベクトルクラスタ生成手段300でクラスタ化された、クラスタ自身の重心をクラスタ内に含まれる概念ベクトルから算出し、そのクラスタ重心の2次元座標と分類カテゴリの単語情報の2次元座標を算出する。
クラスタ内概念ベクトル2次元座標算出部320は、クラスタ化された概念ベクトルを各々の所属するクラスタ重心の周囲に配置されるように、また、他のクラスタと重ならないようにクラスタ同士の外円間の距離を調整することで、配置領域(クラスタ半径)を定めた上で、概念ベクトルの2次元座標を算出し、全ての概念ベクトルを2次元化することで、概念ベクトル2次元化マップを作成する。
コンテンツ2次元座標算出部330は、クラスタ内概念ベクトル2次元座標算出手段320で概念2次元化マップを作成後に、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報をコンテンツデータベース(コンテンツDB)20から取得し、上位概念2次元化マップの情報とコンテンツのメタ情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念2次元化マップ上における配置座標を算出し、配置座標データベース(配置座標DB)23に格納する。
また、クラスタ内概念ベクトル2次元座標算出手段320は、クラスタセット抽出手段321と、クラスタ補正手段322とを有する。
クラスタセット抽出手段321は、分類カテゴリ情報の再下層の同一カテゴリの中で、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶ。
クラスタ補正手段322は、上記で選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げる。
次に、上記の構成における動作の概要を前述の図1に基づいて説明する。
本発明は、予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)を基に、各々の情報間の内容的類似性によって2次元平面上に分類配置する視覚的情報分類方法であり、以下の4つのステップからなる。
ステップ1) 概念ベクトルクラスタ生成手段300において、概念ベクトルをクラスタ化する。概念2次元化マップを構築するために、予め特徴的な単語で表された分類カテゴリ情報が付与された大量の文書データから抽出されたキーワード(語彙)を基に作られる多次元キーワードベクトル(概念ベクトル)を概念ベクトルデータベース22から取得し、取得した概念ベクトルと、メタ情報データベース21から取得したそれらの概念ベクトルが持つ分類カテゴリ情報とを利用して分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する。ここで、最下層の各カテゴリは、それぞれ複数個のクラスタを持つことになる。クラスタ化は、概念ベクトル間のユークリッド距離に基づいて、K-means法などにより行う。
ステップ2) クラスタと分類カテゴリの単語情報の2次元座標算出手段310において、(多次元上の)クラスタの重心と分類カテゴリの単語情報の2次元座標を算出する。上記のステップ1でクラスタ化されたクラスタ自身の重心をクラスタ内に含まれる概念ベクトルから算出し、そのクラスタ重心の2次元座標と分類カテゴリの単語情報の2次元座標を算出する。
ステップ3) クラスタ内概念ベクトル2次元座標算出手段320において、クラスタ内の概念ベクトルの2次元座標を算出する。クラスタ化された概念ベクトルを各々の所属するクラスタ重心の周囲に配置されるように、また、他のクラスタと重ならないように、各クラスタの半径を変化させ、クラスタ同士の外円周の距離を調整することで、配置領域(クラスタ半径)を定め、概念ベクトルの2次元座標を算出し、全ての概念ベクトルを2次元化することで、概念2次元化マップを作成する。
ステップ4) コンテンツ2次元座標算出手段330において、新規コンテンツの2次元座標を算出する。ステップ103で概念2次元化マップを作成後に、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報をコンテンツデータベース20から取得し、取得したメタ情報と上位概念2次元化マップの情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念2次元化マップ上における配置座標を算出して配置座標データベース23に格納する。
なお、上記のステップ1〜3によって概念2次元化マップを作成した後、ステップ4は、コンテンツ登録要求が入力される毎に繰り返し行われるステップである。
また、上記のステップ3において、概念ベクトルを2次元化する際に、概念2次元化マップにおいて、分類カテゴリ情報の最下層のカテゴリの範囲内にその配下の全てのクラスタが収められるように、また、そのカテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、以下の処理を行う。
ステップ3−1) クラスタセット抽出手段321において、クラスタ間の外円同士の距離が最も近い組み合わせを選択する。分類カテゴリ情報の最下層の同一カテゴリの中で、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶ。
ステップ3−2) クラスタ補正処理手段322において、クラスタ間の外円同士の距離の総和が最も短くなり、属する最下層のカテゴリの範囲を超えないような各々のクラスタの半径を広げる。上記で選んだクラスタの組み合わせすべてにおいて、外円同士の距離の総和が最も短くなり、しかも最下層のカテゴリの範囲を超えないように、各々のクラスタの範囲を広げる。
以下に、本発明の実施の形態を詳細に説明する。
本実施の形態では、2次元上にキーワードが配置された概念マップ上にメタ情報を持つようなコンテンツを配置するために、コンテンツ座標を求めることを目的とする。
図4は、本発明の一実施の形態における視覚的情報分類装置の構成を示す。
同図に示す視覚的情報分類装置は、コンピュータ10と当該コンピュータ10にネットワーク40を介して接続されるコンテンツデータベース(コンテンツDB)20、メタ情報データベース(メタ情報DB)21、概念ベクトルデータベース(概念ベクトルDB)22、及び、配置座標データベース(配置座標DB)23から構成されている。
コンピュータ10は、RAM、ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及びマウスやキーボード等からなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現される概念ベクトルクラスタ生成部300、クラスタと分類カテゴリ情報の2次元座標算出処理部310と、クラスタ内概念ベクトル2次元座標算出処理部320、コンテンツ2次元座標算出処理部330とを備えている。
また、クラスタ内概念ベクトル2次元座標算出処理部320は、クラスタセット抽出処理部321とクラスタ補正処理部322を備えている。
コンテンツDB20には、処理対象となるコンテンツと、その内容を表すテキスト(概要説明文等)やキーワード、コンテンツが所属するカテゴリ情報などのメタ情報が格納されている。
メタ情報DB21には、分類カテゴリ情報が格納されている。この分類カテゴリの情報は事前に与えられており、コンテンツ毎に付与される。本実施の形態では、分類カテゴリ情報は、深さN(Nは正の整数)の階層構造を有しているものとする。
図5は、本発明の一実施の形態におけるコンテンツを分類するための分類カテゴリの体系例を示す。この分類カテゴリ体系に従う場合、メタ情報DB21に、このカテゴリ情報が格納されている。また、コンテンツDB20に格納されている、各コンテンツには、図5に示すLij(i,j=1〜4)のいずれかの適切な分類カテゴリが事前に割り当てられており、その情報は、コンテンツのメタ情報として、コンテンツDB20にも格納されている。図5において、例えば、二階層目のカテゴリL11の「11」は、Lijの、i,jに対応する添え字である。
概念ベクトルDB22には、利用するサービスや分野に合わせて、指定された分類カテゴリによって分類されたキーワード(語彙)が、キーワードベクトル(概念ベクトル)として格納されている。このキーワードベクトル(概念ベクトル)は、分類カテゴリに適する情報源の内容的類似性(TF/IDF等により算出されるキーワードの出現頻度等を利用)を基に算出される多次元または、2次元の概念ベクトルである。このベクトルは、全て統一された次元数を持つ次数値ベクトルとして表される。
なお、このような概念ベクトルの算出方法については、前述の非特許文献2,3,4に記述されているような方法を用いてもよい。また、予め指定された分類カテゴリに合わせて、Webページなどの外部情報を収集し、その情報から語彙を切り出し、その語彙をすべての対象文章における出現頻度によって算出した概念ベクトルを集めて概念ベースを作成するという方法でもよい。
配置座標DB23には、以降に説明する処理によって算出される、各々のコンテンツの2次元配置座標が格納される。
概念ベクトルクラスタ生成部300、クラスタと分類カテゴリ情報の2次元座標算出部310、クラスタ内概念ベクトル2次元座標算出処理部320、クラスタセット抽出処理部321、クラスタ補正処理部322、及び、コンテンツ2次元座標算出処理部330は、このように構成される視覚的情報分類システムの下で、以降に説明する処理を実行することで本発明を実現するように動作する。
概念2次元化マップは、概念ベクトルクラスタ生成部300、クラスタと分類カテゴリ情報の2次元座標算出処理部310、クラスタ内概念ベクトル2次元座標算出処理部320、クラスタセット抽出処理部321、クラスタ補正処理部322によって生成される。概念2次元化マップは、コンテンツを配置するための地図であり、コンテンツの持つメタ情報と概念2次元化マップの情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念2次元化マップ上における配置座標を算出することにより、似たコンテンツが近い場所へ配置することができる。
以下に各処理部の動作を説明する。
[1]概念ベクトルクラスタ生成部300の処理:
図6は、本発明の一実施の形態における概念ベクトルクラスタ生成部の処理のフローチャートである。
概念ベクトルクラスタ生成部300は、メタ情報DB21から分類カテゴリ情報を取得する(ステップ401)。その分類カテゴリの中から、1つの最下層のカテゴリの配下に属する概念ベクトルを概念ベクトルDB22から取得する(ステップ402)。その概念ベクトルをクラスタ化することで、カテゴリを細分化し、クラスタ情報を概念ベクトルDB22に追加する(ステップ403)。ここで、概念ベクトルDB22には、概念ベクトルそれぞれが、どのクラスタに属しているのかという情報が格納されることになる。
クラスタ化は、概念ベクトル間のユークリッド距離に基づいて、K-means法などにより行う。
これらのクラスタ化処理を分類カテゴリ情報の全ての最下層のカテゴリに対して行う(ステップ404)。
[2]クラスタと分類カテゴリ情報の2次元座標算出処理部310の処理:
図7は、本発明の一実施の形態におけるクラスタと分類カテゴリ情報の2次元座標算出処理部の処理のフローチャートである。
クラスタと分類カテゴリ情報の2次元座標算出処理部310は、概念ベクトルクラスタ生成部300により細分化されたクラスタそれぞれの重心ベクトルを算出する(ステップ405)。算出された重心ベクトルを付属する最下層のカテゴリ情報へ加え、その情報をメタ情報DB21へ追加する(ステップ406)。図8に、本発明の一実施の形態における分類カテゴリとクラスタとの関係の例を示す。
メタ情報DB21からクラスタベクトルを取得し、各クラスタの属する上位階層のカテゴリのベクトル全てを算出する。全てのカテゴリ情報(クラスタを含む)のベクトルを算出した後、それらの情報から2次元座標を算出し、その情報をメタ情報DB21へ追加する(ステップ407)。2次元座標の算出方法は、図5に示すような分類カテゴリ情報を持つ場合、2次元平面上において、L1の周りにL11,L12,L13が、L2の周りにL21,L22,L23が、そして、L3の周りにL31,L32,L33が配置されるように、また、L1,L2,L3やその配下の同一カテゴリ配下のカテゴリ同士、例えば、L11,L12,L13との間には、適度な距離を持ち、それぞれのカテゴリが、視覚的に区分されて見えることが望ましい。この際、クラスタは、その上位階層のカテゴリ配下に属するカテゴリとして計算することとする。
この算出方法としては、一般的に用いられる方法として多次元尺度構成法によって多次元ベクトルを2次元にする方法を利用してもよい。また、前述の非特許文献4のような方法を用いてもよい。
これで、2次元平面上の分類カテゴリ座標が算出されたこととなる。
[3]クラスタ内概念ベクトル2次元座標算出処理部320の処理:
図9は、本発明の一実施の形態におけるクラスタ内概念ベクトル2次元座標算出処理部の処理のフローチャートである。
この処理は、次の2つの処理によって成り立っている。
・クラスタセット抽出部321の処理:
クラスタセット抽出部321は、分類カテゴリのある1つの最下層のカテゴリに含まれる全ての概念ベクトルを概念ベクトルDB22から取得する(ステップ408)。そして、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶ(ステップ409)。
・クラスタ補正処理部322の処理:
クラスタ補正処理部322は、クラスタセット抽出部321の処理で選んだクラスタの組み合わせすべてにおいて、外円同士の距離の総和が最も短くなり、しかも最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げる(ステップ410)。
ここでのクラスタ間の補正方法は、例えば、次のように行う。図10は、本発明の一実施の形態におけるクラスタ2次元配置のための変数を説明するための図である。
該当クラスタ:Cijx
ijxに含まれる語彙:Kijy
ijxの重心ベクトル:G
多次元空間上でのGとKijyの距離:dxyとした時、Cijxに含まれる全てのKijyとGの距離dxyから標準偏差σを算出する(例では、i,j=1〜3、x,y=1〜5);
ijxの半径:R
とすると、半径Rは、以下の式を満たす。
:R:R:R:R=σ:σ:σ:σ:σ
よって、
=σ t:任意の変数;
クラスタ間の重心座標の距離をDxz(例では、z=1〜5)とすると、Cijx,Cijzとの外円からの距離は
xz=|Dxz−(R+R)|
となる。このことから、クラスタ同士の組み合わせにおける外円同士の距離Pは、
P=Σij|Dij−(R+R)|=Σij|Dij−(σ)t|
ここでのクラスタ同士の組み合わせは、該当クラスタと最も近いPxzを持つこととする。よって、それぞれのクラスタにおける組み合わせは1つとなる。
これから、Pを最小にするようなtを算出することで、半径Rを決定でき、クラスタ間の補正が完了する。
その後、クラスタ半径の範囲に概念ベクトルが配置されるように概念ベクトルを2次元化する(ステップ411)。クラスタCijxにおけるGから半径Rの円の中に語彙の配置方法は、正規分布における配置や、多次元尺度構成法によって多次元ベクトルを2次元にする方法を利用してもよい。また、前述の非特許文献4のような方法を用いてもよい。
そして、算出された各々の概念ベクトルの2次元座標を概念ベクトルDB22の多次元ベクトルと置き換える(ステップ412)。
これらステップ408からステップ412までの処理を分類カテゴリ情報の全ての最下層のカテゴリに対して行う(ステップ413)。
これで、概念ベクトルDB22の中には2次元化座標を持つ概念ベクトルが格納され、また、メタ情報DB21には、2次元座標を持つ分類カテゴリとクラスタが格納され、概念2次元化マップが作成されたこととなる。この結果、分類カテゴリやクラスタ、キーワード(語彙)の概念ベクトルは図11、図12のように2次元平面上に配置されることになる。
[4]コンテンツ2次元座標算出処理部330の処理:
コンテンツ2次元座標算出処理部330は、作成した概念2次元化マップをもとに、コンテンツの登録要求により、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報をコンテンツDB20から取得し、上記概念2次元化マップの情報とコンテンツのメタ情報との距離を両者の情報の一致度合に応じて算出し、その未配置コンテンツの概念2次元化マップ上における配置座標を算出し、配置座標DB23に格納する。複数のメタ情報が概念2次元化マップ上のキーワード(語彙)と一致した場合には、そのキーワードの座標の重心を取る等により、コンテンツの2次元座標が確定する。
このようにして、2次元コンテンツマップ上にコンテンツが配置される。図13は、本発明の一実施の形態におけるコンテンツマップの例を示す。また、この表示方法は、前述の非特許文献4のような表示方法を利用してもよい。
これらのマップは、Webブラウザなどを利用してコンピュータのディスプレイ上に表示することや、印刷して表示することができる。また、このコンテンツの表示方法については2次元や3次元等様々な表現方法に適用することができる。
また、図1,6,7,9に示すフローチャートの動作をプログラムとして構築し、視覚的情報分類装置として利用されるコンピュータにインストールし、CPU等で実行させる、または、ネットワークを介して取得し、インストールすることも可能である。
また、構築されたプログラムを視覚的情報分類装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ユーザが大量の情報について、その構造を概観または観察しながら、少しずつ情報要求を明確化し、興味のある情報に到達できるようにするためのブラウジングインタフェースの技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の概念を説明するための図である。 本発明の一実施の形態における視覚的情報分類装置の構成図である。 本発明の一実施の形態におけるコンテンツを分類するための分類カテゴリの体系例である。 本発明の一実施の形態における概念ベクトルクラスタ生成部の処理のフローチャートである。 本発明の一実施の形態におけるクラスタと分類カテゴリ情報の2次元座標算出処理部の処理のフローチャートである。 本発明の一実施の形態における分類カテゴリとクラスタとの関係の例である。 本発明の一実施の形態におけるクラスタ内概念ベクトル2次元座標算出処理部の処理のフローチャートである。 本発明の一実施の形態におけるクラスタ2次元配置のための変数を説明するための図である。 本発明の一実施の形態における分類カテゴリとクラスタオ2次元化の例である。 本発明の一実施の形態における分類カテゴリと概念ベクトル2次元化の例である。 本発明の一実施の形態におけるコンテンツマップの例である。 従来の技術の概念を説明するための図である。
符号の説明
20 コンテンツDB
21 メタ情報DB
22 概念ベクトルDB
23 配置座標DB
300 概念ベクトルクラスタ生成手段、概念ベクトルクラスタ生成部
310 クラスタと分類カテゴリの単語情報の2次元座標算出手段、クラスタと分類カテゴリの単語情報の2次元座標算出部
320 クラスタ内概念ベクトル2次元座標算出手段、クラスタ内概念ベクトル2次元座標算出部
321 クラスタセット抽出手段、クラスタセット抽出部
322 クラスタ補正手段、クラスタ補正部
330 コンテンツ2次元座標算出手段、コンテンツ2次元座標算出部

Claims (6)

  1. 大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類方法において、
    予め特徴的な単語で表された分類カテゴリ情報(単語)が付与された大量の文書データから抽出されたキーワード(語彙)をもとに作られる多次元キーワードベクトル(概念ベクトル)が蓄積された概念ベクトルデータベースから概念ベクトルを読み込み、メタ情報データベースから該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成ステップと、
    前記概念ベクトルクラスタ生成ステップにおいて作成された多次元上のクラスタの重心と前記分類カテゴリの単語情報の2次元座標を算出する第1の2次元座標算出ステップと、
    各クラスタの該概念ベクトルの2次元座標を算出することで、概念2次元マップを作成する第2の2次元座標算出ステップと、
    未配置のコンテンツが入力される毎に、メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、前記概念2次元マップに含まれる情報であるキーワード(語彙)やカテゴリ情報(単位)との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念2次元化マップ上における配置座標を算出し、配置座標データベースに出力するコンテンツ2次元座標算出ステップと、
    からなることを特徴とする視覚的情報分類方法。
  2. 前記第2の2次元座標算出ステップにおいて、
    前記概念2次元マップにおいて、前記分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、前記分類カテゴリ情報の最下層の同一カテゴリの中で、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出ステップと、
    前記クラスタセット抽出ステップで選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正ステップと、からなる請求項1記載の視覚的情報分類方法。
  3. 大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類装置であって、
    予め特徴的な単語で表された分類カテゴリ情報(単語)が付与された大量の文書データから抽出されたキーワード(語彙)をもとに作られる多次元キーワードベクトル(概念ベクトル)が蓄積された概念ベクトルデータベースと、
    分類カテゴリ情報が蓄積されたメタ情報データベースと、
    処理対象となるコンテンツと、該コンテンツの内容を表すテキストやキーワード、該コンテンツが所属するカテゴリ情報が蓄積されたコンテンツデータベースと、
    配置座標が蓄積される配置座標データベースと、
    前記概念ベクトルデータベースから概念ベクトルを読み込み、前記メタ情報データベースから該概念ベクトルが持つ分類カテゴリ情報を読み込み、該概念ベクトルと該分類カテゴリ情報を用いて、該分類カテゴリ情報の中で最下層のカテゴリに含まれる概念ベクトルを多次元上でクラスタ化し、細分化する概念ベクトルクラスタ生成手段と、
    前記概念ベクトルクラスタ生成手段において作成された多次元上のクラスタの重心と前記分類カテゴリの単語情報の2次元座標を算出するクラスタと分類カテゴリの単語情報の2次元座標算出手段と、
    各クラスタの該概念ベクトルの2次元座標を算出することで、概念2次元マップを作成するクラスタ内概念ベクトル2次元座標算出手段と、
    未配置のコンテンツが入力される毎に、前記メタ情報データベースから取得した該未配置のコンテンツの持つメタ情報と、前記概念2次元マップに含まれる情報であるキーワード(語彙)やカテゴリ情報(単位)との距離を両者の情報の一致度合に応じて算出し、該未配置のコンテンツの概念2次元化マップ上における配置座標を算出し、配置座標データベースに出力するコンテンツ2次元座標算出手段と、
    を、有することを特徴とする視覚的情報分類装置。
  4. 前記クラスタ内概念ベクトル2次元座標算出手段は、
    前記概念2次元マップにおいて、前記分類カテゴリ情報の最下層のカテゴリの範囲内に、その配下の全てのクラスタが収められるように、また、該カテゴリの範囲内をできるだけクラスタで埋め尽くすことができるように、前記分類カテゴリ情報の最下層の同一カテゴリの中で、全ての2つのクラスタの組み合わせにおいて、各クラスタ間の外円同士の距離が最も近い組み合わせをそれぞれ選ぶクラスタセット抽出手段と、
    前記クラスタセット抽出手段で選んだクラスタの組み合わせ全てにおいて、外円同士の距離の総和が最も短くなり、しかも、最下層のカテゴリの範囲を超えないように、各々のクラスタの半径を広げるクラスタ補正手段と、を含む請求項3記載の視覚的情報分類装置。
  5. 大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類プログラムであって、
    前記請求項1または、2記載の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させることを特徴とする視覚的情報分類プログラム。
  6. 大量の情報を情報間の内容的類似性に基づいて2次元平面上に配置する視覚的情報分類プログラムを格納した記憶媒体であって、
    前記請求項または、2記載の視覚的情報分類方法の実現に用いられる処理をコンピュータに実行させるプログラムを格納したことを特徴とする視覚的情報分類プログラムを格納した記憶媒体。
JP2004136588A 2004-04-30 2004-04-30 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体 Pending JP2005316897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004136588A JP2005316897A (ja) 2004-04-30 2004-04-30 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004136588A JP2005316897A (ja) 2004-04-30 2004-04-30 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2005316897A true JP2005316897A (ja) 2005-11-10

Family

ID=35444226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004136588A Pending JP2005316897A (ja) 2004-04-30 2004-04-30 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2005316897A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164789A (ja) * 2005-12-12 2007-06-28 Internatl Business Mach Corp <Ibm> 意味構造及び機能関係に従ってポータル・ページ上にポートレットを自動配置するためのシステム
JP2007334871A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置、プログラムおよび記録媒体
JP2007334865A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置およびプログラム
JP2009086859A (ja) * 2007-09-28 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
JP2010140275A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置、コンテンツ検索方法及びプログラム
KR101151965B1 (ko) 2007-10-05 2012-06-01 김종근 인터넷 컨텐츠용 태그정의에 다차원벡터 도입과 활용방법
JP2014049044A (ja) * 2012-09-03 2014-03-17 Hitachi Solutions Ltd コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164789A (ja) * 2005-12-12 2007-06-28 Internatl Business Mach Corp <Ibm> 意味構造及び機能関係に従ってポータル・ページ上にポートレットを自動配置するためのシステム
US8108395B2 (en) 2005-12-12 2012-01-31 International Business Machines Corporation Automatic arrangement of portlets on portal pages according to semantical and functional relationship
JP2007334871A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置、プログラムおよび記録媒体
JP2007334865A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置およびプログラム
JP2009086859A (ja) * 2007-09-28 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
KR101151965B1 (ko) 2007-10-05 2012-06-01 김종근 인터넷 컨텐츠용 태그정의에 다차원벡터 도입과 활용방법
JP2010140275A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置、コンテンツ検索方法及びプログラム
JP2014049044A (ja) * 2012-09-03 2014-03-17 Hitachi Solutions Ltd コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体

Similar Documents

Publication Publication Date Title
JP3001460B2 (ja) 文書分類装置
JP4972358B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
JP4878178B2 (ja) データ処理方法および装置並びにその処理プログラム
Moncla et al. Geocoding for texts with fine-grain toponyms: an experiment on a geoparsed hiking descriptions corpus
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US20090327259A1 (en) Automatic concept clustering
JP2003345811A (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
WO2002054287A2 (en) Multi-query data visualization
JP2003500747A (ja) 情報管理、検索及び表示システム及び関連方法
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
Nocaj et al. Organizing search results with a reference map
JP2007095102A (ja) 文書処理装置および文書処理方法
JP2003141159A (ja) 距離インデクスを用いた検索装置および方法
Neto et al. Efficient computation and visualization of multiple density-based clustering hierarchies
JP4309933B2 (ja) 文書分類装置及び分類方法
JP2005316897A (ja) 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
JP2007179490A (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
Hoque et al. Combining conceptual query expansion and visual search results exploration for web image retrieval
Beilschmidt et al. An efficient aggregation and overlap removal algorithm for circle maps
JP4305836B2 (ja) コンテンツ検索表示装置およびコンテンツ検索表示方法
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US8666898B2 (en) Visual information retrieval system for applying self organizing maps/SOM using five distinct modules that merge the best maps
JP2003323454A (ja) メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム
CN106294784B (zh) 资源搜索方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091110