JP4629280B2

JP4629280B2 - 知識発見支援装置および支援方法

Info

Publication number: JP4629280B2
Application number: JP2001253764A
Authority: JP
Inventors: 祐介上原; 大器増本; 秀一椎谷; 進遠藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-08-24
Filing date: 2001-08-24
Publication date: 2011-02-09
Anticipated expiration: 2021-08-24
Also published as: JP2003067401A

Description

【０００１】
【発明の属する技術分野】
本発明はユーザによる知識発見の支援方式に係り、更に詳しくは画像の持つ視覚的な特徴と、テキストや数値あるいは文字データで表される情報との間の関係についての知識を発見するためのユーザの作業を支援する知識発見支援装置、および支援方法に関する。
【０００２】
【従来の技術】
大量の数値や文字などのデータから、自明でないデータの間の関係を見つけ出し、経済活動や科学の発展に利用するためのデータマイニング技術が開発されている。例えば商品の購買に関する顧客データを対象としたデータマイニング技術によって、商品Ａを購買した顧客の９０％が商品Ｂを購買しているという関係を見い出すことによって、商品Ａを購入した顧客にしぼって商品Ｂを宣伝することで経済活動を効率化するという応用がある。このように数値や文字データを対象としたデータマイニングの方法が次の文献によって開示されている。
【０００３】
文献１）特開平８−３１４９８１、データベースにおける一般化された関連規則を発見するためのシステム及び方法．
文献２）特開平１０−１１２９２、知識発見システム．
文献１には、大型データベースをマイニングするために、取り引きデータベースに分類されて記憶された品目セットの間で、一般化された関連規則を発見するシステム、および方法が開示されている。
【０００４】
文献２では、学習目標概念に関連する知識を帰納論理プログラミングの背景知識として利用しながら、データマイニングを自動的に行う知識発見システムが開示されている。
【０００５】
一方コールセンタの記録文書、特許関係の文書、営業報告書、または化学技術文書などの大量のテキストを対象として、各テキストに含まれる単語を基にした特徴量を抽出し、抽出した特徴量に対して統計的な計算を行うことによって単語の間の相関関係などを見つけ出したり、特定のパターンの文書を見つけ出したりすることによって、有効な知識を発見するためのテキストマイニング技術がある。このような技術としての文献がある。
【０００６】
文献３）特開２００１−８４２５０、膨大な文書データからの知識抽出方法、その装置および媒体。
この文献では単語の共起関係や出現順序に加えて、係り受けの情報を用いることによって、例えば「ＡがＢするとＣはＤする。」というような特定のパターン、すなわち知識を文書から抽出する方法が開示されている。
【０００７】
【発明が解決しようとする課題】
以上のようなテキストや、数値あるいは文字データのデータマイニングに対して、これらのデータと画像の視覚的な特徴との間の関係から経済活動にとって有効な知識を見い出すこともできる。例えばバッグのマーケットリサーチにおいて、商品としての各バッグの画像と、購買者の年令や、性別などの数値や、文字データで表されるプロフィールデータが対応づけられている時、特定の年令層や性別とバッグの画像の視覚的特徴との間に関係があれば、特定の購買層を対象としてバッグのデザインを効果的に決定することができる。
【０００８】
このようにテキストや、数値あるいは文字データと対応づけられている画像の集合について、画像の色に関する特徴や、画像の中に描かれている物の形状に関する特徴などの画像の視覚的な特徴と、数値や文字データ、あるいはテキストの内容との間の関係から有効な知識を見い出すことは可能である。
【０００９】
しかしながら画像に対しては、その視覚的特徴として非常に多くの種類の特徴を定義することができ、対応する数値あるいは文字データ、テキストの内容と関係のあると思われる特徴をあらかじめ決定して、その特徴を画像から抽出しておくことは非常に困難である。
【００１０】
従って文献１〜３のようにテキスト、数値あるいは文字データを対象として、あらかじめ決められた特徴を対象の画像データから抽出し、その特徴量と、テキスト、数値あるいは文字データの特徴との間の関係を自動的に計算することは非常に困難であるという問題点があった。
【００１１】
従って画像の視覚的特徴と、数値あるいは文字データや、テキストの内容との関係についての有効な知識を見い出すためには、ユーザは画像を見ながら、対応する数値あるいは文字データや、テキストの内容との関係を１つずつ検討する必要がある。画像や、テキスト、数値あるいは文字データが大量の場合に、それらを１つずつ調べることはユーザにとって非常に大きな負担になるという問題点があった。
【００１２】
本発明の課題は、上述の問題点に鑑み、画像とテキスト、数値あるいは文字データとが対応づけられたデータセットの集合を対象として、画像の視覚的な特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援する知識発見支援装置、および支援方法を提供することである。
【００１３】
【課題を解決するための手段】
図１は本発明の知識発見支援装置の原理構成ブロック図である。同図はテキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援する知識発見支援装置の原理構成ブロック図である。
【００１４】
図１において特徴量抽出手段２は、例えばデータセット格納手段１に格納されているデータセットの集合から、少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を特徴量ベクトルとして抽出し、例えば特徴量格納手段３に格納する。
【００１５】
配置位置計算手段５は、特徴量抽出手段２によって抽出された特徴量ベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算し、画像表示手段６はその計算されて位置にそのベクトルに対応する各データセットを構成する画像を表示する。
【００１６】
発明の実施の形態においては、知識発見支援装置はユーザの操作を受取る操作入力手段４を更に備え、画像表示装置手段６はユーザから入力される視点の位置から見た状態で、各データセットを構成する画像を表示することもできる。
【００１７】
この場合、特徴量格納手段３が特徴量抽出手段２によって抽出された複数種類の特徴量を記憶し、配置位置計算手段５が操作入力手段４によって受取られたユーザによる特徴量の選択結果に従って、選択された特徴量に対するベクトル先端位置を計算することもでき、また画像表示手段６が操作入力手段４によって受取られた単語を含むテキスト、受取られた数値あるいは文字データを構成要素とするデータセット内の画像を他の画像より大きく、または小さく表示することもできる。
【００１８】
更に実施の形態においては、配置位置計算手段５は特徴量抽出手段２によって抽出された特徴量ベクトルに対して、自己組織化マップのアルゴリズムを用いて三次元以下の低次元空間に特徴量ベクトルを写像した時のベクトルの位置を計算することもできる。
【００１９】
本発明の知識発見支援装置は、前述の特徴量抽出手段２、配置位置計算手段５、および画像表示手段６に加えて、更に仮説設定支援手段、および仮説検証支援手段を更に備える。
【００２０】
仮説設定支援手段は、画像表示手段６による表示結果に対応して、ユーザによる知識についての仮説の設定を支援するものであり、仮説検証支援手段はユーザによって設定された仮説の正当性のユーザによる検証を支援するものである。
【００２１】
この仮説設定支援手段と仮説検証支援手段とを備える知識発見支援装置は、発見の実施の形態においては前述の操作入力手段４を更に備え、画像表示手段６はユーザから入力される視点の位置から見た状態で、各データセットを構成する画像を表示することもできる。
【００２２】
この場合、特徴量格納手段３が特徴量抽出手段２によって抽出された複数種類の特徴量を記憶し、配置位置計算手段５が操作入力手段４によって受取られたユーザによる特徴量の選択結果に従って、選択された特徴量に対するベクトル位置の計算を行うこともでき、また画像表示手段６が操作入力手段４によって受取られた単語を含むテキスト、受取られた数値あるいは文字データを構成要素とするデータセットを構成する画像を他の画像より大きく、または小さく表示することもできる。
【００２３】
実施の形態において仮説設定支援手段は、画像表示手段６によって表示された画像の中から、操作入力手段４を介してユーザにより選択された画像をそれぞれ構成要素とする各データセットのテキストに共通して含まれる単語を画像表示手段６に表示させることも、また表示された画像の中で対応する複数のデータセットのテキストに共通して含まれる単語を、各データセットを構成する画像上に重畳させて、画像表示手段６に表示させることもできる。
【００２４】
実施の形態においては特徴量抽出手段２が、データセットの集合から前述の１つ以上の特徴量に加えて、データセットを構成する画像の特徴量を特徴量ベクトルとして抽出し、仮説検証支援手段が画像表示手段６によって表示された画像の中から、操作入力手段４を介してユーザにより選択された複数の画像を構成要素とする各データセットのテキストに共通して含まれる単語、各データセットに共通の数値あるいは文字データと、画像の特徴量との関係についてのアソシエーションルールを設定し、そのアソシエーションルールに対する評価の結果を画像表示手段６に表示させることもでき、また配置位置計算手段５が特徴量抽出手段２によって抽出されたテキスト、数値あるいは文字データの特徴量の類似性によって、画像表示手段６によって表示されるべき画像をクラスタに分割して表示させ、仮説検証支援手段が分割されたクラスタ毎に、各データセットのテキストに共通して含まれる単語、各データセットに共通する数値あるいは文字データと画像の特徴量との関係についてのアソシエーションルールを設定し、そのアソシエーションルールに対する評価の結果を画像表示手段６に表示させることもできる。
【００２５】
実施の形態において仮説設定支援手段と仮説検証支援手段とを備える知識発見支援装置において、配置位置計算手段５が特徴量抽出手段２によって抽出された特徴量ベクトルに対して、自己組織化マップのアルゴリズムを用いて前述の三次元以下の低次元空間に特徴量ベクトルを写像した時のベクトルの位置を計算することもできる。
【００２６】
本発明の知識発見支援方法において、データセットの集合から少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を特徴量ベクトルとして抽出し、抽出された特徴量ベクトルをベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算し、計算された位置にベクトルに対応する各データセットを構成する画像を表示する方法が用いられる。
【００２７】
実施の形態においては、前述の画像の表示の後でその表示結果に対応してユーザによる知識についての仮説の設定を支援し、ユーザによって設定された仮説の正当性のユーザによる検証を支援することもできる。
【００２８】
本発明においてユーザによる知識の発見を支援する計算機によって使用される記憶媒体において、データセットの集合から少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を特徴量ベクトルとして抽出するステップと、抽出された特徴量ベクトルをベクトル間の位置関係を保存しながら三次元以下の低次元空間に配置、または写像した時のベクトルの先端の位置を計算するステップと、計算された位置にベクトルに対応する各データセットを構成する画像を表示するステップとを計算機に実行させるためのプログラムを格納した計算機読出し可能可搬型記憶媒体が用いられる。
【００２９】
実施の形態においては、この計算機読出し可能可搬型記憶媒体は前述の画像を表示するステップの後で、更にその表示結果に対応してユーザによる知識についての仮説の設定を支援するステップと、ユーザによって設定された仮説の正当性のユーザによる検証を支援するステップとを更に備えるプログラムを格納することもできる。
【００３０】
本発明においてユーザによる知識の発見を支援する計算機によって使用されるプログラムにおいて、データセットの集合から少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を特徴量ベクトルとして抽出する手順と、抽出された特徴量ベクトルをベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算する手順と、計算された位置にベクトルに対応する各データセットを構成する画像を表示する手順とを計算機に実行させるためのプログラムが用いられる。
【００３１】
実施の形態においては、このプログラムは前述の画像を表示する手順の後で、更にその表示結果に対応してユーザによる知識についての仮説の設定を支援する手順と、ユーザによって設定された仮説の正当性のユーザによる検証を支援する手順とを更に備えることもできる。
【００３２】
以上のように本発明によれば、例えばテキスト、あるいは数値や文字データの内容が類似しているほど、特徴量ベクトルの位置が近くに集まるようにベクトルの写像の位置を計算し、計算された位置に対応する構成要素としての画像を表示することによって、近くに集まった画像の視覚的な特徴と、テキストや数値あるいは文字データの特徴との間の関係についての知識をユーザに容易に発見させることが可能となる。
【００３３】
【発明の実施の形態】
図２は本発明の第１の実施形態における知識発見支援装置の構成ブロック図である。同図において知識発見支援装置はデータセット格納装置１０、特徴量抽出部１１、特徴量格納装置１２、キーボードとマウス１３、分類配置部１４、およびディスプレイ１５によって構成される。
【００３４】
データセット格納装置１０は、相互に関連する画像とテキスト、あるいは数値／文字データによって構成されるデータセットを格納するものであり、例えば半導体メモリ、あるいは磁気記憶装置である。特徴量抽出部１１は、データセット格納装置１０に格納された画像やテキストなどのデータから、その内容を特徴付ける特徴量を抽出するものである。
【００３５】
画像については色の特徴量や、画像に描かれた物体の形状に関する特徴量など、またテキストからはその意味を表す特徴量など、データセットに対する一般的に複数の種類の特徴量を、その内容に応じて数次元程度の低次元から数十、あるいは数百以上の高次元の特徴量ベクトルとして抽出する。
【００３６】
特徴量格納装置１２は、特徴量抽出部１１によって抽出された複数の種類の特徴量ベクトルを格納するものであり、例えば半導体メモリ、または磁気記憶装置などによって構成される。
【００３７】
キーボードとマウス１３は知識発見支援装置のユーザが各種の指示を入力するためのものであり、後述するようにユーザは例えば複数の種類の特徴量からある種類の特徴量を選択することができる。
【００３８】
分類配置部１４は、ユーザによって選択された種類の特徴量のベクトルの値を特徴量格納装置１２から取り出し、高次元の特徴量ベクトルの集合を対象として、高次元空間でのベクトル間の位置関係をできるだけ保存するように、三次元以下の低次元空間にそのベクトルを写像した時のベクトルの先端の位置を計算し、それぞれデータセットを構成する画像を計算機された位置に配置するものである。
【００３９】
ディスプレイ１５は、分類配置部１４によって計算された位置に画像が配置された結果を、ユーザがキーボードとマウス１３によって指定した視点から見た時の状態で表示するものであり、例えばＣＲＴ、液晶ディスプレイ、あるいはプラズマディスプレイである。すなわちディスプレイ１５に対しては、データセット格納装置１０から画像のデータが、また分類配置部１４からはユーザが指定した視点から見た時の各画像を配置すべき位置が与えられる。
【００４０】
第１の実施形態では、図２の構成によってデータセットを構成するテキストや、数値／文字データの特徴量に対して、ユーザによって興味のある特徴量が選択され、選択された特徴量が類似するデータセットが近くに集まるように三次元以下の低次元空間上での特徴量ベクトルの位置が計算され、計算された位置にデータセットを構成する画像が配置されて表示される。
【００４１】
そこで例えばテキストの内容や数値／文字データと、それに対応する画像の視覚的な特徴との間に何らかの関係がある場合には、ユーザは例えば視点の位置を動かしながら画像を眺めることによって、その関係に関する知識を容易に発見することが可能となる。
【００４２】
図３は図２のデータセット格納装置１０の格納内容の例である。データセット格納装置１０には、画像とテキストや数値／文字データが互いに関連付けられて１つのデータセット、すなわち１つのレコードとして格納される。図３はバッグのマーケットリサーチで用いられるデータに関するデータセット格納例を示す。
【００４３】
各データセットは、各バッグをユニークに識別するための識別番号（ＩＤ）、バッグの紹介文のテキストデータの格納アドレスを示すポインタ、バッグの外観を表わす画像データの格納アドレスを示すポインタ、バッグの価格、購買者の数、購買者の平均年令を表わす数値データ、バッグのブランドと種類を表わす文字データによって構成される。
【００４４】
なおテキストデータや画像データの格納アドレスを示すポインタの代わりに、テキストデータや画像データ自体をレコードの中に格納してもよい。またデータセットとしては、例えば薬品開発のための遺伝子工学の実験データとしてゲノムの塩基配列を表わす文字データ、試薬を表わす文字データ、実験者によるコメントのテキスト、試薬を適用した時の反応状態を撮影した画像などによって構成されるものも考えられる。
【００４５】
図４は特徴量格納装置１２の格納データの例である。図２のデータセット格納装置１０に格納された各データセットの構成要素としての画像およびテキストのデータから、それぞれの内容を特徴づける特徴量が特徴量抽出部１１によってベクトルデータとして抽出され、特徴量格納装置１２に格納される。数値／文字データは本実施形態では、そのままの形式で特徴量格納装置１２に格納されるものとする。
【００４６】
図４は図３に示したデータセット、すなわちバッグのマーケットリサーチで用いられるデータセットから抽出された特徴量の格納例である。それぞれのバッグに対応するレコードは、各データセット、すなわち各バッグに割当てられたＩＤ、バッグの紹介文のテキストデータから抽出されたテキスト特徴ベクトルｔｆｖｉ，バッグの外観を表す画像から抽出された色特徴ベクトルｉｆｖｃｉ，形状特徴ベクトルｉｆｖｓｉ、およびデータセット中の数値／文字データから構成される。
【００４７】
テキストの特徴量としては、各テキスト中に含まれる単語を抽出し、その中で名詞の単語のみを選択し、各テキスト毎に選択した単語が出現する頻度値を求め、テキストサイズの違いの影響を排除するために、テキスト中の総単語数で各頻度値を割った値を並べてベクトル化した単語ベクトルがある。これ以外にもテキストの特徴量を求める多数の方法があり、それらのいずれの方法を用いることもできる。
【００４８】
画像の特徴量の中の色の特徴量として、画像内の画素についてのＲＧＢ色空間や、ＨＳＶ色空間を分割した時に含まれる画素数が最大となるブロックの色空間上の重心位置の色の値としての代表色や、各ブロックに含まれる画素の割合としての色ヒストグラムや、画像を縦横格子状に分割した時の各ブロックの平均色を並べた色空間分布などがある。これ以外にも、画像の特徴量として、様々な種類の特徴量を用いることができる。
【００４９】
ここでＨＳＶ色空間はＨＳＩ色空間とも呼ばれ、色を色相Ｈ（ヒュー）、彩度Ｓ（サチュレーション）、および明度Ｉ（インテンシティ）の３つで特定するものであり、その詳細は次の文献に述べられている。
【００５０】
文献４）高木幹雄、下田陽久監修：“画像解析ハンドブック”、東京大学出版会１９９１．
画像データの形状の特徴量としても様々な特徴量抽出手法があり、そのいずれを用いることも可能である。
【００５１】
図５は第１の実施形態における知識発見処理のフローチャートである。同図において処理が開始されると、まずステップＳ１でユーザによって、画像の分類配置に用いるべき特徴量と分類配置方法が選択される。
【００５２】
図６はユーザによる特徴量選択のためのメニュー表示の例である。ユーザは特徴量格納装置１２に格納されている特徴量の種類についてすでに知っていることを、本実施形態では前提としている。そしてユーザが画面上で特徴量を選択できるように、図６に示すように特徴量のメニュー表示が行われる。なお分類配置方法の選択については後述する。
【００５３】
図５のステップＳ２で、ユーザによって選択された特徴量がデータセット毎に特徴量格納装置１２から取り出され、ステップＳ３で特徴量ベクトルの間の距離が小さいデータセットが平面上で近くに集まるように各データセットの配置位置が計算され、ステップＳ４で計算された位置にデータセットを構成する画像が置かれるように仮想的な三次元空間内に画像の配置と表示が行われ、ステップＳ５でその仮想的な三次元空間に表示された画像をユーザがフライスルーで閲覧し、ステップＳ６でのユーザが知識を発見したか否かの判定結果によって、まだ発見していない場合にはステップＳ１からの処理が新たな特徴量の選択から繰返され、発見した場合には処理を終了する。ステップＳ５でのフライスルーでの閲覧については後述する。
【００５４】
図７は図５のステップＳ１におけるユーザによる分類配置方法選択方式の説明図である。図２の知識発見支援装置のディスプレイ１５上には、図７に示すように画像が表示される表示部、ユーザが分類配置方法を選択するための分類配置方法指定部に加えて、後述する条件入力部が備えられる。
【００５５】
分類配置方法指定部によって指定できる配置方法としては本実施形態では２つの方法があるものとする。１つは平面状のＸ軸とＹ軸に、数値／文字データの中で１つずつを割当てる軸割当てによる配置である。
【００５６】
もう一つの方法は、特徴量が三次元以上のベクトルの場合に、高次元のベクトル集合を二次元平面に写像する自己組織化マップを用いる方法である。この自己組織化マップについては次の文献がある。
【００５７】
文献４）Ｔ．コホネン著、徳高平蔵他訳、自己組織化マップ、シュプリンガーフェアラーク東京．
ユーザは図７の分類配置方法指定部内の軸割当てによる配置、または自己組織化マップ（ＳＯＭ）による配置のいずれかのチェックボックスをマウスでポイントすることによって、分類配置方法を指定することができる。
【００５８】
図８は軸割当てを用いる場合の、各軸に割当てるべき数値／文字データを指定するためのメニュー表示の例である。同図はＸ軸に割当てるべき数値／文字データの選択のためのメニューを示し、ユーザはマウスやキーボードを用いてメニュー内の項目を選択することにより、Ｘ軸に割当てるべき数値／文字データを指定する。
【００５９】
その結果、各データセットについて、Ｘ軸とＹ軸に割当てられた特徴データが特徴量格納装置１２から取り出され、それぞれが２つの軸に割当てられることによってデータセットの配置位置が計算され、その位置にデータセットを構成する画像が配置され、図７の表示部に表示されることになる。
【００６０】
図９は、図４に示された特徴量のデータに対してＸ軸に価格、Ｙ軸に年令が割当てられた場合の画像表示例である。例えば表示部の左下の点線で囲まれた部分には、１０代から３０代位の年令層の購買者が購入した比較的低価格のバッグの画像が集められる。この画像の集まりに共通の視覚的な特徴があれば、ユーザにとって、これらのバッグに関する知識を容易に発見することが可能となる。Ｘ軸、またはＹ軸に文字データを割当てる場合には、各データを適当な順序で軸に割当てて、画像の配置位置が決定される。
【００６１】
次に自己組織化マップ（ＳＯＭ）を用いる方法では、二次元平面での特徴量ベクトルの配置決定のための類似度計算で用いられる特徴量が、分類配置方法指定部上でユーザによって選択される。画面上でテキスト特徴、色特徴などの中で、使用すべき特徴量のチェックボックスがマウスで指示されることによってその特徴量が選択される。特徴量として数値／文字データを使用したい場合には、その数値／文字データをユーザがリストから選択する。
【００６２】
特徴量として、例えば価格と年令のように異なる種類の数値データを使う場合には、値のスケールが異なるため、値の範囲の大きさによる正規化が行われる。また文字データを用いる場合には、その文字データを１つの単語からなるテキストとみなし、テキストの特徴量と同様の方法でベクトル化することができる。
【００６３】
図１０は、ＳＯＭによる配置において用いられる特徴量として、色特徴が選択された場合のバッグの画像データの表示例である。白い線で囲まれた部分には赤系統の色のバッグが集まっているために、赤系統の色のバッグに共通したデザインの特徴があるような場合には、ユーザはその関係に対応する知識を容易に発見できる。
【００６４】
図１１は図５のステップＳ５におけるユーザによるフライスルーでの画像閲覧の説明図である。図２で説明したように、ユーザはキーボードとマウス１３を用いてディスプレイ１５の表示画面に対する視点の位置を入力し、その視点を移動することによってその視点から見た時の画面の状態が表示される。図１１で視点を表示画面の近くに移動することによって表示画面は左から右に示すように変化する。このような視点の移動による画面の閲覧を本実施形態ではフライスルーでの閲覧と呼ぶ。
【００６５】
またユーザは画面上に表示された画像を閲覧するにあたって特定の画像を選択することによって、選択された画像が現在の表示画面より前、または後に移動したかのように表示されて、画像を閲覧することが可能となる。
【００６６】
図１２はそのような選択された画像の移動表示の説明図である。同図ではユーザによって選択された画像はユーザの視点に近づいたような形式で表示される。実際には表示画面はディスプレイの画面であり、ディスプレイ画面上で選択された画像は大きく表示されることになる。また逆に必要に応じて、ユーザの視点から見て選択された画像を距離の遠い面にあるかのように表示することもできる。この場合には、ディスプレイ画面上でその画像は小さく表示されることになる。
【００６７】
このような画像の選択は、特定の単語を含むテキストを構成要素とするデータセットや、特定の条件を満たす数値／文字データを構成要素とするデータセットに対応して選択することができ、その場合には選択された画像に共通の視覚的な特徴を特定の単語や条件に対応させて観察することができる。あるいは注目するする画像集合の視覚的な特徴と他の画像の視覚的な特徴とを比較したい時に、その画像を構成するデータセットに対応する単語や、数値／文字データに対する条件を図７の条件入力部に入力することによって、画像の選択を行うことができる。
【００６８】
図１３はキーワードとして“カジュアル”を入力して、対応する画像を手前に移動したかのように大きく表示した例である。図１０で示されている画像の表示が行われており、選択されたバッグの画像以外は逆に視点から遠くに移動したように小さく表示されている。
【００６９】
図１４は条件入力部に対する数値データを用いた条件入力の例である。選択に使用すべき数値／文字データをメニューによって選択し、そのデータに対する条件を入力することによって、対応する画像が選択されて表示される。図１４は、数値／文字データとしての価格が７万円より高いという条件が入力されている。
【００７０】
図１５は本発明の第２の実施形態における知識発見支援装置の構成ブロック図である。同図において、図２に示した第１の実施形態におけると同一の構成要素には同じ符号を付けてあり、それらの動作は図２におけると同様である。
【００７１】
図１５において図２の構成要素に加えて、仮説設定支援部１６と、仮説検証支援部１７とが追加されている。仮説設定支援部１６は、例えば図５のステップＳ６でユーザが知識を仮説として設定することを支援するものであり、ディスプレイ画面上に表示された画像の視覚的な特徴と、データセット内でのテキストや、数値／文字データによって表わされる情報との間の関係を示す仮説を設定することを容易にさせるものである。
【００７２】
仮説検証支援部１７は、仮説設定支援部１６の支援によってユーザによって設定された仮説に対する検証の支援を行うものである。仮説検証支援部１７は、ユーザによって選択された画像に共通する視覚的な特徴と、画像に対応するデータセットを構成するテキストに共通して含まれる単語、あるいはデータセットに共通して含まれる数値／文字データとの間の関係をアソシエーションとして抽出し、そのアソシエーションルールに対するサポートとコンフィデンスの計算を行い、計算結果をディスプレイ１５上に表示する。
【００７３】
ユーザは画像を眺めながら設定した仮説、すなわちアソシエーションルールに関するサポートとコンフィデンスの数値を知ることができ、ユーザは自分が立てた仮説、すなわち知識の正当性を容易に検証することができる。なおアソシエーションルールとそのサポート、およびコンフィデンスについては後述する。
【００７４】
図１６は第２の実施形態における知識発見処理のフローチャートである。同図において、ステップＳ１〜Ｓ４の処理は第１の実施形態における図５と同じであり、その説明を省略する。
【００７５】
ステップＳ４で画像の表示が行われると、ステップＳ１０でユーザは図５のステップＳ５におけると同様に表示された画像をフライスルーで閲覧し、データセットを構成するテキストの中の単語や、数値あるいは文字データと、画像の視覚的な特徴との間の関係に関する仮説を設定する。
【００７６】
そしてステップＳ１１で、ユーザが立てた仮説の検証が行われ、ステップＳ６でユーザが知識を発見したか否か、すなわち立てた仮説の検証の結果、仮説が正しかったか否かが判定され、ユーザが知識を発見した場合には処理を終了する。検証結果が正しくない場合には、ステップＳ１以降の処理に戻り、特徴量と分類配置方法が新しく選択されて、処理が続行される。
【００７７】
図１７は仮説設定支援部による仮説設定支援処理のフローチャートである。同図において処理が開始されると、ステップＳ１５で共通の視覚的な特徴を持つと仮定される画像がユーザによって選択され、ステップＳ１６で画像選択が終了したか否かが判定される。終了していない場合には、ステップＳ１５に戻り、画像の選択が続行される。
【００７８】
画像の選択が終了した場合には、ステップＳ１７で選択された画像に対応するテキストに共通に含まれる単語、あるいはデータセットに共通の数値／文字データの表示が行われる。この時、単語については全てのデータセットに共通して表れる単語のみでなく、一定の割合以上表れる単語としてもよく、数値／文字データについては、数値データではデータセット間で一定範囲内の値としたり、文字データについては一定の共通部分を持つ文字列とすることもできる。これによってユーザが画像の視覚的な特徴と、単語などとの間の関係について仮説を設定することが容易となる。
【００７９】
図１８は例えばテキストに共通に表れる単語の表示例である。図１８のそれぞれの画像は洋服の画像であり、それぞれの画像に対応するテキストには商品のイメージを感性的に表わす単語として“涼しげ”や、“シック”などの単語が含まれているとする。
【００８０】
図１８では、ユーザによって似たような視覚的特徴を有する画像として選択された複数の画像に対応するテキスト中に共通に“シック”という単語が表れた場合に、その単語“シック”がラベルとして表示されている。
【００８１】
このようにラベルとして表示される単語は、前述のように一定の割合以上表れる単語でもよく、例えば次式で表わされる単語の重要度が所定の閾値より高い単語としてもよい。
【００８２】
ＴＩ_i＝ＳＰ_i−ＵＳＰ_i
ここでＴＩ_iは単語ｉの重要度、ＳＰ_iはユーザによって選択された画像に対応する説明テキストの中で単語ｉを含むテキストの数を、ユーザが選択した画像の総数で割った値、ＵＳＰ_iは説明テキスト全体の中で単語ｉを含むテキストの数を、全体のテキストの数で割った値である。
【００８３】
例えばユーザが選択した画像の個数が１０個、そのうち単語ｉを含むテキストの数が９であった場合にはＳＰ_iは０．９、テキスト全体の数が３０で、そのうち単語ｉを含むテキストの数が１２であればＵＳＰ_iは０．４となりＴＩ_iの値は０．５となる。
【００８４】
これに対して例えばテキスト全体の数が１００個であり、その中で単語ｉを含むテキストの数が１２個であればＴＩ_iの値は０．７８となり、１００個の画像のうちでユーザによって選択された１０個の画像における単語ｉの重要度は、３０個のうち１０個が選択される場合に対して大きくなる。
【００８５】
次に、仮説設定支援部１６の処理として、ユーザが表示された画像を閲覧し、知識すなわち仮説を設定すにあたって、画面上に複数の画像群にそれぞれ対応する共通の単語などを表示することによってユーザによる仮説の設定をさらに有効に支援することができる。
【００８６】
図１９はそのような共通単語の表示例である。表示画面上では各データセットの、例えばテキスト特徴量が類似した画像が集まって表示されるため、その類似した画像のテキストにそれぞれ共通の単語を画像表示画面上にラベルとして表示することによって、ユーザによる仮説の設定、すなわち知識の発見を支援することができる。
【００８７】
図２０は仮説検証の第１の方法の処理フローチャートである。同図においてステップＳ１５，Ｓ１６の処理は図１７におけると同様である。
ユーザによる画像の選択が終了すると、ステップＳ２０で選択された画像に共通する画像の特徴量と、対応するテキストに共通に含まれる単語、あるいはデータセットに共通の数値／文字データとの間のアソシエーションルールが生成され、そのアソシエーションルールに対するサポートとコンフィデンスとの値が計算される。
【００８８】
ステップＳ２０で用いられる画像の特徴量は、基本的には特徴量格納装置１２にあらかじめ格納されているものである。例えば選択されたバッグの画像に対応するテキスト中には“ビジネスバッグ”という単語が共通に含まれ、また選択された画像に共通する視覚的な色特徴の代表色が黒であった場合には、次のアソシエーションルールが生成される。
【００８９】
ｋｅｙｗｏｒｄ（ｂｕｓｉｎｅｓｓ）⇒ＤｏｍＣｏｌｏｒ（ｂｌａｃｋ）
このアソシエーションルールは、テキスト中に“ビジネスバッグ”という単語が含まれているバッグの画像の代表色が黒であるということを示し、ビジネスバッグの色としては黒が好まれるという知識に相当する。このアソシエーションルールに対するサポートとコンフィデンスの値は次式によって計算される。
【００９０】
【数１】

【００９１】
これらの式でＮ（ｘ）は条件ｘを満たすデータセットの数であり、２つの式の分子はテキストの中に“ビジネスバッグ”という単語が含まれ、かつそのデータセット中の画像の代表色が黒であるデータセットの数を示し、Ｎ（ａｌｌ）は全データセットの数を表わす。
【００９２】
特徴量格納装置１２に代表色特徴として黒というラベルをあらかじめ付けたデータを格納しておくことによって、アソシエーションルールと、それに対するサポートとコンフィデンスの値を自動的に計算し、ディスプレイ１５に表示することが可能となる。これによってユーザが立てたことが予想される仮説の重要度が客観的な数値として自動的に表示され、ユーザの仮説検証の労力を軽減することができる。
【００９３】
図２１は仮説検証の第２の方法の処理フローチャートである。同図のステップＳ２５においては、例えば図１６のステップＳ４で画像の配置が決定された後に、データセットの構成要素のテキストの特徴、あるいは数値／文字データが類似するデータセットがグループを形成するように平面上で画像がクラスタに分割される。このクラスタリングについては既存の手法を用いることができる。
【００９４】
続いてステップＳ２６で各クラスタ毎に、第１の方法におけると同様にテキスト中の共通の単語、あるいはデータセットに共通の数値／文字データと画像に共通する視覚的な特徴との間のアソシエーションルールが設定され、そのアソシエーションルールに対するサポートとコンフィデンスの値が計算され、ステップＳ２７でそれらの計算値が所定の値より大きなアソシエーションルールと、それらの計算結果がユーザに対して表示されて処理を終了する。これによってユーザは自分が設定した仮説の検証を容易に行うことが可能となる。
【００９５】
以上において本発明の知識発見支援装置、および支援方法についてその詳細を説明したが、この知識発見支援装置は当然一般的なコンピュータシステムとして構成することが可能である。図２２はそのようなコンピュータシステム、すなわちハードウェア環境の構成ブロック図である。
【００９６】
図２２においてコンピュータシステムは中央処理装置（ＣＰＵ）２０、リードオンリメモリ（ＲＯＭ）２１、ランダムアクセスメモリ（ＲＡＭ）２２、通信インタフェース２３、記憶装置２４、入出力装置２５、および可搬型記憶媒体の読取り装置２６、およびこれらの全てが接続されたバス２７によって構成されている。
【００９７】
記憶装置２４としてはハードディスク、磁気ディスクなどの様々な形式の記憶装置を使用することができ、このような記憶装置２４、またはＲＯＭ２１に図５，図１６，図１７，図２０，図２１などのフローチャートに示されたプログラムや、本発明の特許請求の範囲の請求項１０のプログラムなどが格納され、そのようなプログラムがＣＰＵ２０によって実行されることにより、本実施形態におけるユーザによる知識発見の支援、仮説設定の支援、および仮説検証の支援などが可能となる。
【００９８】
このようなプログラムは、プログラム提供者２８側からネットワーク２９、および通信インタフェース２３を介して、例えば記憶装置２４に格納されることも、また市販され、流通している可搬型記憶媒体３０に格納され、読み取り装置２６にセットされて、ＣＰＵ２０によって実行されることも可能である。可搬型記憶媒体３０としてはＣＤ−ＲＯＭ、フロッピーディスク、光ディスク、光磁気ディスクなど様々な形式の記憶媒体を使用することができ、このような記憶媒体に格納されたプログラムが読取り装置２６によって読取られることにより、本実施形態におけるユーザによる知識発見の支援などが可能となる。
【００９９】
（付記１）テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援する装置において、
前記データセットの集合から、少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、
該抽出された特徴量ベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算する配置位置計算手段と、
該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示する画像表示手段とを備えることを特徴とする知識発見支援装置。
【０１００】
（付記２）前記知識発見支援装置が、ユーザの操作を受け取る操作入力手段を更に備え、
前記画像表示手段が、ユーザから入力される視点の位置から見た状態で前記各データセットを構成する画像を表示することを特徴とする付記１記載の知識発見支援装置。
【０１０１】
（付記３）前記知識発見支援装置が、前記特徴量抽出手段によって抽出された複数種類の特徴量を記憶する特徴量格納手段を更に備え、
前記配置位置計算手段が、前記操作入力手段によって受け取られたユーザによる特徴量の選択結果に従って、選択された特徴量に対する前記ベクトルの位置を計算することを特徴する付記２記載の知識発見支援装置。
【０１０２】
（付記４）前記画像表示手段が、前記操作入力手段によって受け取られた単語を含むテキスト、受け取られた数値あるいは文字データを構成要素とするデータセットを構成する画像を他の画像より大きく、または小さく表示することを特徴とする付記２記載の知識発見支援装置。
【０１０３】
（付記５）前記配置位置計算手段が、前記特徴量抽出手段によって抽出された特徴量のベクトルに対して、自己組織化マップのアルゴリズムを用いて前記三次元以下の低次元空間に写像した時のベクトルの位置を計算することを特徴とする付記１記載の知識発見支援装置。
【０１０４】
（付記６）前記知識発見支援装置が、
前記画像表示手段の表示結果に対応して、ユーザによる前記知識についての仮説の設定を支援する仮説設定支援手段と、
該ユーザによって設定された仮説の正当性のユーザによる検証を支援する仮説検証支援手段とを更に備えることを特徴とする付記１記載の知識発見支援装置。
【０１０５】
（付記７）前記知識発見支援装置が、ユーザの操作を受け取る操作入力手段を更に備え、
前記画像表示手段が、ユーザから入力される視点の位置から見た状態で前記各データセットを構成する画像を表示することを特徴とする付記６記載の知識発見支援装置。
【０１０６】
（付記８）前記知識発見支援装置が、前記特徴量抽出手段によって抽出された複数種類の特徴量を記憶する特徴量格納手段を更に備え、
前記配置位置計算手段が、前記操作入力手段によって受け取られたユーザによる特徴量の選択結果に従って、選択された特徴量に対する前記ベクトルの位置を計算することを特徴とする付記７記載の知識発見支援装置。
【０１０７】
（付記９）前記画像表示手段が、前記操作入力手段によって受け取られた単語を含むテキスト、受け取られた数値あるいは文字データを構成要素とするデータセットを構成する画像を他の画像より大きく、または小さく表示することを特徴とする付記７記載の知識発見支援装置。
【０１０８】
（付記１０）前記仮説設定支援手段が、前記画像表示手段によって表示された画像の中で、対応する複数のデータセットのテキストに共通して含まれる単語を、該各データセットを構成する画像に重畳させて、該画像表示手段に表示させることを特徴とする付記７記載の知識発見支援装置。
【０１０９】
（付記１１）前記仮説設定支援手段が、前記画像表示手段によって表示された画像の中から、前記操作入力手段を介してユーザにより選択された複数の画像をそれぞれ構成要素とする各データセットのテキストに共通して含まれる単語を画像表示手段に表示させることを特徴とする付記７記載の知識発見支援装置。
【０１１０】
（付記１２）前記特徴量抽出手段が、前記データセットの集合から前記１つ以上の特徴量に加えて、データセットを構成する画像の特徴量を特徴量ベクトルとして抽出し、
前記仮説検証支援手段が、前記画像表示手段によって表示された画像の中から前記操作入力手段を介してユーザにより選択された複数の画像をそれぞれ構成要素とする各データセットのテキストに共通して含まれる単語、各データセットに共通の数値あるいは文字データと該画像の特徴量との関係についてのアソシエーションルールを設定し、該アソシエーションルールに対する評価の結果を前記画像表示手段に表示させることを特徴とする付記７記載の知識発見支援装置。
【０１１１】
（付記１３）前記特徴量抽出手段が、前記データセットの集合から前記１つ以上の特徴量に加えて、データセットを構成する画像の特徴量を特徴量レベルとして抽出し、
前記配置位置計算手段が、前記特徴量抽出手段によって抽出されたテキスト、数値あるいは文字データの特徴量の類似性によって、前記画像表示手段によって表示されるべき画像をクラスタに分割して表示させ、
前記仮説検証支援手段が、該分割されたクラスタ毎に、各データビットのテキストに共通して含まれる単語、各データセットに共通の数値あるいは文字データと該画像の特徴量との関係についてのアソシエーションルールを設定し、該アソシエーションルールに対する評価の結果を前記画像表示手段に表示させることを特徴とする付記７記載の知識発見支援装置。
【０１１２】
（付記１４）前記配置位置計算手段が、前記特徴量抽出手段によって抽出された特徴量ベクトルに対して、自己組織化マップのアルゴリズムを用いて前記三次元以下の低次元空間に写像した時のベクトルの位置を計算することを特徴とする付記６記載の知識発見支援装置。
【０１１３】
（付記１５）テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援する方法において、前記データセットの集合から、少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を抽出し、
該抽出された特徴量のベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算し、該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示することを特徴とする知識発見支援装置。
【０１１４】
（付記１６）前記画像の表示結果に対応して、ユーザによる知識についての仮説の設定を支援し、
該ユーザによって設定された仮説の正当性のユーザによる検証を支援することを特徴とする付記１５記載の知識発見支援方法。
【０１１５】
（付記１７）テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援するための計算機によって使用される記憶媒体において、
前記データセットの集合から、少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を抽出するステップと、
該抽出された特徴量のベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算するステップと、
該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示するステップとを計算機に実行させるためのプログラムを格納した計算機読出し可能可搬型記憶媒体。
【０１１６】
（付記１８）前記プログラムが、画像の表示結果に対応して、ユーザによる知識についての仮説の設定を支援するステップと、
該ユーザによって設定された仮説の正当性のユーザによる検証を支援するステップとをさらに計算機に実行させることを特徴とする付記１７記載の計算機読出し可能可搬型記憶媒体。
【０１１７】
（付記１９）テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援するための計算機によって使用されるプログラムにおいて、
前記データセットの集合から、少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を抽出する手順と、
該抽出された特徴量のベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算する手順と、
該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示する手順とを計算機に実行させるためのプログラム。
【０１１８】
（付記２０）前記画像の表示結果に対応して、ユーザによる知識についての仮説の設定を支援する手順と、
該ユーザによって設定された仮説の正当性のユーザによる検証を支援する手順とをさらに計算機に実行させることを特徴とする付記１９記載のプログラム。
【０１１９】
【発明の効果】
以上詳細に説明したように本発明によれば、相互に対応する画像と、テキスト、数値あるいは文字データとによって構成されるデータセットの集合から、画像の特徴とテキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見が容易となる。また知識としての仮説の設定を支援することにより、ユーザは容易に仮説を設定することが可能となり、更に例えば仮説としてのアソシエーションルールに対する評価の結果をユーザに与えられることによって、ユーザによる仮説の検証を支援することも可能となり、知識発見技術の進展に寄与するところが大きい。
【図面の簡単な説明】
【図１】本発明の知識発見支援装置の原理構成ブロック図である。
【図２】第１の実施形態における知識発見支援装置の構成ブロック図である。
【図３】データセット格納装置の格納内容の例である。
【図４】特徴量格納装置の格納データの例である。
【図５】第１の実施形態における知識発見処理のフローチャートである。
【図６】ユーザによる特徴量選択のためのメニュー表示の例である。
【図７】ユーザによる分類配置方法選択方式の説明図である。
【図８】軸に割当てる数値／文字データを指定するためのメニュー表示の例である。
【図９】Ｘ軸に価格、Ｙ軸に年令が割当てられた場合の画像表示例である。
【図１０】ＳＯＭによる配置において色特徴が選択された場合の画像データの表示例である。
【図１１】ユーザによるフライスルーでの画像閲覧の説明図である。
【図１２】ユーザによって選択された画像の移動表示の説明図である。
【図１３】キーワード“カジュアル”の入力に対する画像表示の例である。
【図１４】数値データを用いた条件入力の例である。
【図１５】第２の実施形態における知識発見支援装置の構成ブロック図である。
【図１６】第２の実施形態における知識発見処理のフローチャートである。
【図１７】仮説設定支援部による処理のフローチャートである。
【図１８】テキストに共通に表れる単語の表示例である。
【図１９】複数の画像群にそれぞれ対応する共通の単語の表示例である。
【図２０】仮説検証の第１の方法の処理フローチャートである。
【図２１】仮説検証の第２の方法の処理フローチャートである。
【図２２】本発明を実現するためのプログラムを実行するコンピュータの構成ブロック図である。
【符号の説明】
１データセット格納手段
２特徴量抽出手段
３特徴量格納手段
４操作入力手段
５配置位置計算手段
６画像表示手段
１０データセット格納装置
１１特徴量抽出部
１２特徴量格納装置
１３キーボード、マウス
１４分類配置部
１５ディスプレイ
１６仮説設定支援部
１７仮説検証支援部

Claims

テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援する装置において、
前記データセットの集合から、少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、
該抽出された特徴量ベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算する配置位置計算手段と、
該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示する画像表示手段と、
該画像表示手段により表示された複数の画像の中から前記ユーザが選択した画像に対応するテキストに共通して含まれる単語または該ユーザが選択した画像に対応するデータセットに共通の数値あるいは文字データを、該ユーザが選択した画像に対応させて表示する仮説設定支援手段とを備えることを特徴とする知識発見支援装置。
前記知識発見支援装置が、ユーザの操作を受け取る操作入力手段を更に備え、
前記画像表示手段が、ユーザから入力される視点の位置から見た状態で前記各データセットを構成する画像を表示することを特徴とする請求項１記載の知識発見支援装置。
前記知識発見支援装置が、
前記ユーザが選択した画像に対応するテキストに共通して含まれる単語または該ユーザが選択した画像に対応するデータセットに共通の数値あるいは文字データをアソシエーションルールの条件部とし、該ユーザが選択した画像に共通する特徴を該アソシエーションルールの帰結部として該アソシエーションルールを設定し、該設定されたアソシエーションルールに対するサポートとコンフィデンスの値を計算して表示する仮説検証支援手段を更に備えることを特徴する請求項１記載の知識発見支援装置。
前記知識発見支援装置が、ユーザの操作を受け取る操作入力手段を更に備え、
前記画像表示手段が、ユーザから入力される視点の位置から見た状態で前記各データセットを構成する画像を表示することを特徴とする請求項３記載の知識発見支援装置。
計算機が、テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援する方法において、
特徴量抽出手段が、前記データセットの集合から少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を抽出し、
配置位置計算手段が、該抽出された特徴量のベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算し、
画像表示手段が、該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示し、
仮説設定支援手段が、表示された複数の画像の中から前記ユーザが選択した画像に対応するテキストに共通して含まれる単語または該ユーザが選択した画像に対応するデータセットに共通の数値あるいは文字データを、該ユーザが選択した画像に対応させて表示することを特徴とする知識発見支援方法。
テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援するための計算機によって使用される記憶媒体において、
前記データセットの集合から少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を抽出するステップと、
該抽出された特徴量のベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算するステップと、
該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示するステップと、
表示された複数の画像の中から前記ユーザが選択した画像に対応するテキストに共通して含まれる単語または該ユーザが選択した画像に対応するデータセットに共通の数値あるいは文字データを、該ユーザが選択した画像に対応させて表示するステップとを計算機に実行させるためのプログラムを格納した計算機読出し可能可搬型記憶媒体。
テキストデータ、数値データあるいは文字データの中の１つ以上のデータと、該１つ以上のデータに対応する画像データとによって構成されるデータセットの集合から、画像の特徴と、テキスト、数値あるいは文字データの特徴との間の関係についてのユーザによる知識の発見を支援するための計算機によって使用されるプログラムにおいて、
前記データセットの集合から少なくともテキスト、数値あるいは文字データのいずれか１つ以上の特徴量を抽出する手順と、
該抽出された特徴量のベクトルを、ベクトル間の位置関係を保存しながら三次元以下の低次元空間に写像した時のベクトルの位置を計算する手順と、
該計算された位置に該ベクトルに対応する各データセットを構成する画像を表示する手順と、
表示された複数の画像の中から前記ユーザが選択した画像に対応するテキストに共通して含まれる単語または該ユーザが選択した画像に対応するデータセットに共通の数値あるいは文字データを、該ユーザが選択した画像に対応させて表示する手順とを計算機に実行させるためのプログラム。