JP5500070B2 - データ分類システム、データ分類方法、及びデータ分類プログラム - Google Patents

データ分類システム、データ分類方法、及びデータ分類プログラム Download PDF

Info

Publication number
JP5500070B2
JP5500070B2 JP2010522625A JP2010522625A JP5500070B2 JP 5500070 B2 JP5500070 B2 JP 5500070B2 JP 2010522625 A JP2010522625 A JP 2010522625A JP 2010522625 A JP2010522625 A JP 2010522625A JP 5500070 B2 JP5500070 B2 JP 5500070B2
Authority
JP
Japan
Prior art keywords
classification
data
axis
item
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010522625A
Other languages
English (en)
Other versions
JPWO2010013472A1 (ja
Inventor
弘紀 水口
健二 立石
格 細見
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010522625A priority Critical patent/JP5500070B2/ja
Publication of JPWO2010013472A1 publication Critical patent/JPWO2010013472A1/ja
Application granted granted Critical
Publication of JP5500070B2 publication Critical patent/JP5500070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ分類システム、データ分類方法、及びデータ分類プログラムに関する。
本願は、2008年7月30日に、日本に出願された特願2008−195895号に基づき優先権を主張し、その内容をここに援用する。
データ整理を行う場合、大量のデータを整理するために階層的な分類項目を付与することが多い。例えば、非特許文献1に記載されているデータベースでは、各文献にMeSHタームと呼ばれる階層的な分類項目が付与されている。また、例えば、特許庁が運営する特許データベースにおいても、各特許文献にFターム等の階層的な分類項目を複数付与している。以下、このようなデータに付与される階層的な分類項目を分類階層という。
また、非特許文献2には、上記のような階層的な分類項目を付与した文書群を閲覧できる関連技術が記載されている。非特許文献2には、OLAPと呼ばれる多面的なデータ表示方法を拡張し、階層が非常に大きな場合でも高速に処理できるようにしたシステムが記載されている。非特許文献2に記載された関連技術では、ユーザが分類項目を選択することにより、その分類項目に含まれるデータ件数等を高速に表示することができる。また、非特許文献2に記載された関連技術では、縦軸の分類項目と横軸の分類項目とをユーザが選択し、その結果を表形式で表示する。
上記のようにすることにより、非特許文献2に記載された関連技術では、複数の分類項目が付与されている文書を一覧表示することができる。以下、データを表示する際に用いる分類項目群を分類軸という。
しかし、分類階層が非常に大きい場合、ユーザがどの分類項目を選んだらよいのか判断するのは難しい。例えば、非特許文献2に記載されたシステムで用いている文書群では、文書数が約50万件存在し、分類項目数が約34万分類存在する。従って、この分類階層中から表示したい分類項目をユーザが選択することは非常に困難である。
また、非特許文献3には、関連する分類項目選択方法が記載されている。非特許文献3には、文書検索において検索結果文書リストとともに、それら検索結果文書リストに関連する分類軸を表示する方法が示されている。非特許文献3に記載された方法では、キーワードを入力して文書を検索し、検索結果文書を表示するとともに、検索結果文書群に予め付与された分類項目を複数表示し分類軸とする。また、分類軸を表示する際に、表示領域が限られているため分類項目を選択する。
また、非特許文献3には、分類項目のうち、検索結果文書が多い分類項目から順番に決められた上限まで選択する方法や、検索結果文書群を最も多く表示できる分類項目の組合せを選択する方法が記載されている。更に、非特許文献3には、全てのコンテンツを表示するクリック回数等のコストを最小にする方法が示されている。
"PubMed"、National Center for Biotechnology Information、[平成20年7月4日検索]、インターネット<URL:http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed 猪口、武田、"テキスト分析のためのOLAPシステム"、情報処理学会論文誌、vol.48、No.SIG11(TOD34)、p.58-p.68 Wisam Dakka, Panagiotis G. Ipeirotis, Kenneth R. Wood,"Automatic Construction of Multifaceted Browsing Interfaces", Proc.of CIKM’05, p.768-p.775.
しかし、非特許文献1〜非特許文献3に記載された関連技術を用いたとしても、分類軸の優先度を計算する際に、ユーザにわかりやすい分類軸を選択するためには、多くの計算量を必要としている。その理由は、非特許文献1〜非特許文献3に記載された関連技術を用いたとしても、計算対象となる分類軸を効果的に絞り込むことができていないためである。
また、非特許文献3に記載された分類項目の選択方法を用いれば、計算時間を短縮するため、対応するデータ量が多い分類項目から順番に分類項目を選ぶことができる。又は、2つ目以降の分類項目を選択する際に、それまでに選択した分類項目と対応づけられていない分類項目のうちデータ量の多いものを選ぶことができる。
しかし、非特許文献3に記載された方法では、単にデータ量の多い分類項目を選んでいるにすぎず、分類項目の意味的な関連性を考慮して分類項目を選択することはできない。そのため、非特許文献3に記載された方法を用いたとしても、分類項目を効果的に絞込むことはできない。従って、分類項目間の意味的な関連性を考慮して分類項目を選択できるようにすることが望ましい。
そこで、本発明が解決しようとする課題は、分類階層とその分類項目とに対応するデータ群が与えられたときに、分類軸の優先度の計算時間を短縮することのできるデータ分類システム、データ分類方法、及びデータ分類プログラムを提供することである。
本発明は、上述の課題を解決するために為されたものであり、本発明に係るデータ分類システムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類システムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、前記基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込手段と、前記分類軸絞込手段が絞り込んだ分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算手段と、を備える。
本発明に係るデータ分類システムの他の態様は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するデータ分類システムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離と、に基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込手段と、前記分類軸絞込手段が絞り込んだ分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成手段と、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算手段と、を備えるものとしてもよい。
本発明に係るデータ分類方法は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類方法であって、前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積し、前記基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込行程と、絞り込んだ前記分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算行程と、を含む。
本発明に係るデータ分類方法の他の態様は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するデータ分類方法であって、前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積し、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込行程と、絞り込んだ前記分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成行程と、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算行程と、を含むものとしてもよい。
本発明に係るデータ分類プログラムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するためのデータ分類プログラムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、前記基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込処理と、絞り込んだ前記分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算処理と、を実行させる。
本発明に係るデータ分類プログラムの他の態様は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するためのデータ分類プログラムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離と、に基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込処理と、絞り込んだ前記分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成処理と、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算処理と、を実行させてもよい。
本発明によれば、分類階層とその分類項目とに対応するデータ群が与えられたときに、分類軸の優先度の計算時間を短縮することができる。
本発明に係るデータ分類システムの構成の一例を示すブロック図である。 分類階層蓄積部が記憶する情報の一例を示す図である。 基準項目蓄積部が記憶する情報の一例を示す図である。 データ蓄積部が記憶する情報の一例を示す図である。 データ分類システムが行うデータ分類処理の一例を示す流れ図である。 図6(A)は、分類軸ID、基準項目、分類項目群及びスコアを対応付けたレコードを含むテーブルの例を示す図である。図6(B)は、分類軸ID、分類項目及びデータID群を対応付けたレコードを含むテーブルの例を示す図である。 第2の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 分類階層の例を示す図である。 第2の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。 図10(A)は、分類項目別データ数表の例を示す図である。図10(B)は、データ別分類項目数表の例を示す図である。 第3の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 表示手段が一覧形式で表示する情報の例を示す図である。 表示手段が表形式で表示する情報の例を示す図である。 第4の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 第4の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。 図16(A)は、次元IDと分類軸ID群とスコアとを対応づけたレコードを含むテーブルの例を示す図である。図16(B)は、分類軸IDと基準項目と分類項目群とを対応付けたレコードを含むテーブルの例を示す図である。図16(C)は、分類軸IDと分類項目とデータID群とを対応付けたレコードを含むテーブルの例を示す図である。 第5の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 図18(A)は、分類項目別データ数表の例を示す図である。図18(B)は、データ別分類項目数表の例を示す図である。 第6の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 多次元表示手段が一覧形式で表示する情報の例を示す図である。 多次元表示手段が表形式で表示する情報の例を示す図である。 第7の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 第8の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 データ分類システムの最小の構成例を示すブロック図である。
以下、具体的な実施形態を参照しながら、本発明について説明する。当業者であれば、本発明の記載を基に、多様な異なる実施形態を採り得るであろうし、本発明は、説明の目的で図示された実施形態に限定されるものではない。
以下、本発明の実施形態について説明する。まず、本発明によるデータ分類システムの概要について説明する。データ分類を行う場合、ユーザが分類軸を見る際に、データ量と分類項目との意味的な独立性が保たれていることが必要であると考えられる。また、データ量については、できるだけデータ量が多いことがよいと考えられる。例えば、分類軸を用いて概要把握を行なおうとする場合、分類軸に対応するデータが多くなければ、データ群の概要を把握することはできない。
意味的な独立性については、例えば、分類軸を用いて概要把握や絞込みを行なう場合、類似する分類項目ばかりでは、その他に関連する分類項目があったか否かかわからない。そのため、ユーザによる選択操作が繰り返し行われてしまうことになる。また、類似する分類項目は分類階層の兄弟となることが多いので、本発明では、意味的な独立性を評価するために分類階層での分類項目間の距離を用いる。
本発明によるデータ分類システムは、分類軸候補絞込み手段と、指標計算手段とを備える。分類階層とその分類項目に対応するデータ群とが与えられたときに、分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離とが特定の条件を満たすように分類軸候補を作成する。また、指標計算手段は、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮して、分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、分類軸候補絞込み手段と、第2指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離とが特定の条件を満たすように分類軸候補を作成する。また、第2指標計算手段は、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮し、分類項目の分類階層での深さに基づいてその具体性を考慮し、分類項目に対応するデータ量に基づいて網羅性を考慮し、データの重複度合いに基づいて一意性を考慮して、分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、分類軸候補絞込み手段と、第2指標計算手段と、表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離とが特定の条件を満たすように分類軸候補を作成する。また、第2指標計算手段は、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮し、分類項目の分類階層での深さに基づいてその具体性を考慮し、分類項目に対応するデータ量に基づいて網羅性を考慮し、データの重複度合いに基づいて一意性を考慮して、分類軸候補の優先度を決定する。また、表示手段は、分類軸候補のうち優先度が高いものを分類軸として用いて、データ一覧と分類軸内の分類項目群とを表示する。
また、本発明によるデータ分類システムは、多次元分類軸候補絞込み手段と、多次元分類軸指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離を用いて、多次元分類軸候補の優先度を計算する。
また、本発明によるデータ分類システムは、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応するデータ量、又は対応するデータの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段と、多次元表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応するデータ量、又は対応するデータの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。また、多次元表示手段は、各次元の分類軸とその分類項目とを表示し、分類項目の1つ又は複数を選択することによってデータ群を絞り込み、データ一覧を表示する。
また、本発明によるデータ分類システムは、データ検索手段と、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段と、多次元表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、データ検索手段は、データを検索し検索結果データ群を絞り込む。また、多次元分類軸候補絞込み手段は、分類項目に対応する検索結果データ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応する検索結果データ量、又は対応する検索結果データの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。また、多次元表示手段は、各次元の分類軸とその分類項目とを表示し、分類項目の1つ又は複数を選択することによってデータ群を絞り込み、検索結果データ一覧を表示する。
また、本発明によるデータ分類システムは、データ対応付け手段と、データ検索手段と、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段と、多次元表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、データ対応付け手段は、分類項目とデータとの対応付けがないデータ、又は対応付けが不十分なデータに対して対応付けを行う。また、データ検索手段は、データを検索し検索結果データ群を絞り込む。また、多次元分類軸候補絞込み手段は、分類項目に対応する検索結果データ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応する検索結果データ量、又は対応する検索結果データの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。また、多次元表示手段は、各次元の分類軸とその分類項目とを表示し、分類項目の1つ又は複数を選択することによってデータ群を絞り込み、検索結果データ一覧を表示する。
(第1の実施形態)
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明に係るデータ分類システムの構成の一例を示すブロック図である。図1に示すように、データ分類システムは、入力手段101と、分類軸候絞込み手段1021と、指標計算手段103と、出力手段104と、分類階層蓄積部201と、基準項目蓄積部202と、データ蓄積部203とを含む。
本実施形態において、データ分類システムは、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。なお、データ分類システムは、1つの情報処理装置にかぎらず、例えば、複数の情報処理装置を用いて実現されてもよい。
分類階層蓄積部201は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。分類階層蓄積部201は、分類階層とその階層関係とを示す情報を予め蓄積する。図2は、分類階層蓄積部201が記憶する情報の一例を示す図である。図2に示すように、分類階層蓄積部201は、各レコードを親子関係とし、親分類項目と子分類項目群とを対応付けて含むテーブルを記憶する。
なお、図2に示すテーブルは、例えば、データ整理のために、システム管理者等によって予め作成され、分類階層蓄積部201に蓄積される。また、例えば、データ分類システムは、文書データベース等に蓄積するデータに基づいて分類項目を自動抽出してテーブルを作成し、分類階層蓄積部201に記憶させるようにしてもよい。
図2に示す例において、親分類項目は、親子関係の親となる分類項目を表す。また、子分類項目群は、「、」を区切り文字として子の分類項目群を示す。なお、図中の「・・・」は、記載の省略を表している。
なお、図2に示す記憶方法は一例であり、分類階層蓄積部201は、例えば、子の分類項目をレコード毎に分割して記憶してもよいし、階層構造データとして記憶してもよい。本実施形態では、表現を簡単にするために、図2に示すように表現している。
基準項目蓄積部202は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。基準項目蓄積部202は、分類軸の基準となる分類項目名を予め蓄積する。図3は、基準項目蓄積部202が記憶する情報の一例を示す図である。図3に示すように、基準項目蓄積部202は、基準項目のリストを記憶する。
なお、基準項目蓄積部202に記憶させる基準項目は、分類階層蓄積部201が記憶する分類項目から予め選択する。なお、この場合、例えば、システム管理者等によって予め選択され基準項目蓄積部202に蓄積されてもよいし、データ分類システムが分類階層蓄積部201から自動抽出して基準項目蓄積部202に記憶させてもよい。
データ蓄積部203は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。データ蓄積部203は、分類項目とデータの対応関係とを予め蓄積する。また、データ蓄積部203は、データのその他の属性である作成日等の属性情報やコンテンツ実体等を蓄積してもよい。図4は、データ蓄積部203が記憶する情報の一例を示す図である。図4に示すように、データ蓄積部203は、データID、コンテンツ、及び対応分類項目を対応づけて含むレコードを記憶するデータベースである。
なお、図4に示す例において、図中の「・・・」は、記載の省略を表している。また、図4に示す例において、データIDは、データを識別するための識別子である。また、対応分類項目は、データIDで識別されるデータに対応する分類項目を、「、」区切りを用いて示している。なお、図4に示す記憶方法は一例であり、データ蓄積部203は、コンテンツ以外の作成日等の属性を示す属性情報を含むレコードを記憶してもよい。
なお、上記に示すデータは、例えば、システム管理者等によって予め収集され、データ蓄積部203に蓄積される。また、例えば、データ分類システムは、ネットワークを介して文書データベース等に蓄積されるデータを収集し、データ蓄積部203に記憶させるようにしてもよい。
入力手段101は、具体的には、プログラムに従って動作する情報処理装置のCPU、キーボードやマウス等の入力デバイス、及び入出力インタフェース部によって実現される。入力手段101は、ユーザ操作に従って、各種情報を入力する機能を備える。又は、入力手段101は、他のシステムからの入力情報を受け取る(入力する)機能を備える。なお、本実施形態では、データ分類システムにおいて、入力手段101は、ユーザ操作に従って、分類項目数Nを受け取る(入力する)ものとする。
分類軸候補絞込み手段1021は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する分類項目と、基準項目蓄積部202が記憶する基準項目とに基づいて、分類項目数分の分類項目を組合せて分類軸候補を作成する機能を備える。
本実施形態では、分類軸候補絞込み手段1021は、分類軸候補を作成する際に、基準項目の全ての子孫の分類項目を組合せるのではなく、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づき作成する分類軸の絞込みを行う。そのようにすることにより、分類軸候補絞込み手段1021は、優先度を計算する対象となる分類軸を減らすことができ、計算を高速化できる。
なお、「分類項目に対応するデータの量」とは、分類項目に対応づけられているデータ数である。また、「分類項目に対応するデータ」とは、分類項目に直接対応しているデータ、又は分類項目とその子孫の分類項目に対応しているデータのことである。なお、本実施の形態では、「分類項目に対応するデータ」は、分類項目とその子孫の分類項目に対応しているデータであるとする。また、データの量が多い場合、網羅性が高いと考えられる。そのため、このような分類項目をもつ分類軸は、データ群を良く表しているため、データの概要把握に役立つと考えられる。
また、「分類項目間の階層的な距離」とは、共通する祖先までの最短のパス長や最長のパス長、又は共通の子孫までの最短のパス長や最長のパス長等である。この場合、分類項目間の階層的な距離が遠いほど、意味的に独立している分類項目であることがわかる。
分類軸候補絞込み手段1021は、以上に基づいた分類項目の選択を行う場合、分類項目に対応するデータ量が一定数以上で、テータ量順で上位から一定割合の分類項目の条件を満たし、かつ分類項目間の階層的な距離が特定の一定数以上若しくは一定の範囲内にある分類項目、又はその子孫の分類項目を含む分類軸を選択する。
指標計算手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。指標計算手段103は、分類軸候補絞込み手段1021から分類軸候補を受け取り(入力し)、分類階層蓄積部201が記憶する情報と、データ蓄積部203が記憶する情報とを参照して、分類軸候補の優先度を計算する機能を備える。
指標計算手段103は、優先度を、分類項目の分類階層での階層的な距離に基づいて計算する。ここで、「分類項目間の階層的な距離」とは、共通する祖先までの最短のパス長や最長のパス長、又は共通の子孫までの最短のパス長や最長のパス長等である。また、指標計算手段103は、優先度として、分類軸の各分類項目間の階層的な距離の平均や、最大、最小等の値を求める。
本実施形態では、指標計算手段103は、分類項目間の階層的な距離として、共通する祖先までの最短パス長を求め、優先度として、階層的な距離の平均の値を求めるものとする。そのようにすることで、階層的な距離が長い方の分類軸の方が、意味的に独立しているということができる。
出力手段104は、具体的には、プログラムに従って動作する情報処理装置のCPU、ディスプレイ装置等の表示装置、及び入出力インタフェース部によって実現される。出力手段104は、指標計算手段103から、分類軸候補と優先度とのペアを受け取る(入力する)機能を備える。また、出力手段104は、入力した分類軸候補と優先度とのペアを、分類項目と対応するデータとともに出力する機能を備える。なお、出力手段104が出力する分類軸数は予め決められていてもよい。また、出力手段104は、出力方法として、ディスプレイ装置等の表示装置に表示してもよいし、記憶媒体(例えば、CD−ROM)や別なプログラムにファイル出力するようにしてもよい。
なお、本実施形態において、データ分類システムを実現する情報処理装置の記憶装置(図示せず)は、データ分類を行うための各種プログラムを記憶している。例えば、データ分類システムを実現する情報処理装置の記憶装置は、コンピュータに、基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込処理と、絞り込んだ分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算処理とを実行させる、データ分類プログラムを記憶している。
次に、動作について説明する。図5は、データ分類システムが行うデータ分類処理の一例を示す流れ図である。
まず、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、分類軸候補絞込み手段1021は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、分類軸候補絞込み手段1021は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、分類軸候補絞込み手段1021は、分類項目に対応するデータ量と、分類項目間の階層的な距離都に基づき作成する分類軸の絞込みを行う(ステップS31)。
次に、分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する情報を参照し、分類項目間の階層的な距離に基づいて分類項目を組合せて分類軸を作成する(ステップS32)。本実施形態では、分類軸候補絞込み手段1021は、分類項目間の階層的な距離として、分類項目間の共通する先祖の分類項目までの長さを用いる。また、分類軸候補絞込み手段1021は、ステップS31で絞り込んだ分類項目とその子孫の分類項目とに基づいて、分類項目間の階層的な距離が一定数以上である分類項目対を1つ以上含む分類軸を作成する。但し、分類軸中には、先祖と子孫との関係になる分類項目同士はないものとする。
例えば、分類軸候補絞込み手段1021は、先に絞り込んだ分類項目「生活」、「医療」、「家族」、「家庭」、「医学」、「移植」及び「健康」の中で、分類項目間の階層的な距離が3以上である分類項目を用いて分類軸を作成する。本実施形態では、例えば、分類項目「生活」と階層的な距離が3以上である分類項目に「医学」がある。よって、分類軸候補絞込み手段1021は、分類項目「生活」と「医学」とその他の先に絞り込んだ分類項目のうちいずれかを用いて分類軸を作成する。この場合、分類軸候補絞込み手段1021は、この「生活」及び「医学」の2つの分類項目と、先祖と子孫との関係にある分類項目ではない分類項目の中から処理対象の分類項目を選択する。本例では、分類軸候補絞込み手段1021は、分類軸(社会:生活、医学、移植)を作成する。
また、同様に、分類項目「医療」に対して距離が3以上である分類項目は、「家庭」、「家族」及び「健康」である。従って、分類軸候補絞込み手段1021は、分類軸(社会:医療、家庭、家族)、(社会:医療、家庭、健康)、及び(社会:医療、家族、健康)を作成する。
なお、本例では、分類軸候補絞込み手段1021は、分類軸内の分類項目間のいずれか1つが階層的な距離の条件を満たすように分類項目を作成しているが、分類項目内の全ての分類項目間が階層的な距離の条件を満たすように分類項目を作成してもよい。
以上のように、ステップS32の処理が実行されることにより、意味的な独立性を保っていない分類項目が除外される。上記に示す例では、分類軸候補絞込み手段1021は、分析軸(社会:家族、家庭、健康)の分類軸を除外するように分類軸を作成する。
次に、指標計算手段103は、分類軸候補絞込み手段1021から分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報を参照して、各分類軸の優先度を計算する(ステップS4)。なお、優先度の計算を行う場合、本実施形態では、指標計算手段103は、分類項目の意味的な独立性を図るため、分類項目間の階層的な距離の平均値を計算する。ここで、本実施形態では、指標計算手段103は、分類項目間の階層的な距離として、分類項目間で共通する先祖分類項目までの最短パスを求めるものとする。
具体的には、指標計算手段103は、優先度を、以下の式(1)を用いて求める。
優先度(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(ci,cj)
・・・式(1)
ここで、式(1)において、Xは基準項目を示し、Cは分類項目群を示している。また、ci,cjは、それぞれ分類項目群内のi番目の分類項目及びj番目の分類項目を示している。また、Max(X)は、基準項目Xの子孫の分類項目で最も深い分類項目までの深さを示している。また、ComDist(ci,cj)は、分類項目ciとcjとの距離を示している。更に、組合せ数は、分類項目群Cから2つを選択する組合せ回数である。なお、式(1)において、平均値をMax(X)で除算している理由は、基準項目によって深さが異なるためである。
指標計算手段103は、式(1)を用いて、分類軸(社会:家庭、健康、医療)の優先度を、次の式(2)のように求める。
優先度(社会:家庭、健康、医療)
=1/2×1/6×(ComDist(家庭,健康)+ComDist(家庭,医療)+ComDist(健康,医療))
・・・式(2)
指標計算手段103は、分類項目「家族」と「健康」との共通先祖が「生活」であるので、ComDist(家庭,健康)=2と求める。また、指標計算手段103は、「家庭」と「医療」との共通祖先が「社会」であるので、ComDist(家庭,医療)=3及びComDist(健康,医療)=3と求める。従って、指標計算手段103は、分類軸(社会:家庭、健康、医療)の優先度を、次の式(3)のように求める。
優先度(社会:家庭、健康、医療)
=1/2×1/6×(ComDist(家庭,健康)+ComDist(家庭,医療)+ComDist(健康,医療))
=1/2×1/6×(2+3+3)
=0.67
・・・式(3)
次に、出力手段104は、指標計算手段103の計算結果に基づいて、分類軸と、優先度と対応するデータとを出力する(ステップS5)。図6(A)及び図6(B)は、出力手段104が出力する情報の例を示す図である。図6(A)及び図6(B)に示す例では、出力手段104は、2つのテーブルを出力している。
例えば、出力手段104は、図6(A)に示すように、分類軸ID、基準項目、分類項目群及びスコアを対応付けたレコードを含むテーブルを出力する。なお、図6(A)において、1つの行で示されるレコードが、それぞれ1つの分類軸を表している。分類軸IDは、分類軸の候補を識別するためのIDである。分類項目群は、「、」で分類項目毎に分けられた複数の分類項目を含む。
また、例えば、出力手段104は、図6(B)に示すように、分類軸ID、分類項目及びデータID群を対応付けたレコードを含むテーブルを出力する。なお、図6(B)において、1つのレコードが、それぞれ各分類軸の分類項目に対応している。データID群は、データIDを「,」で区切って複数のデータIDを含む。また、図中の「・・・」は、記載の省略を表している。
なお、図6(A)及び図6(B)に示す出力方法は一例であり、出力手段104は、例えば、2つのテーブルを1つにまとめたテーブルを出力してもよいし、各データの属性情報を含んだテーブルを新たに追加して出力してもよい。
上記のような構成とすることで、分類項目の意味的な独立性を用いて分類軸を選択することができる。また、そのようにすることにより、ユーザがわかりやすい分類軸を選択することができる。
以上に説明したように、本実施形態によれば、基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とする。また、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む。そして、絞り込んだ分類軸候補について、その分類軸候補を表示する優先度を計算する。そのため、絞り込んだ分類軸候補のみについて優先度計算を行うようにすることによって、分類軸の優先度の計算時間を短縮することができる。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、分類軸の優先度の計算時間を短縮することができる。
また、本実施形態によれば、分類階層が非常に大きな場合であっても、分類項目の階層的な距離を用いて効果的に分類項目を絞り込むことによって、高速に分類軸の優先度を計算することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図7は、第2の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図7に示すように、本実施形態では、データ分類システムが、図1に示した指標計算手段103に代えて、第2の指標計算手段1031を含む点で、第1の実施形態と異なる。
第2の指標計算手段1031は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。第2の指標計算手段1031は、分類軸候補絞込み手段1021から分類軸候補群を受け取り(入力し)、分類軸の優先度を計算する機能を備える。本実施形態では、第2の指標計算手段1031は、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて、優先度を計算する。
「分類項目の階層的な距離」とは、分類階層での分類項目間の距離のことであり、第1の実施形態で示したものと同様である。なお、本実施形態では、この「分類項目の階層的な距離」という指標を、以下、独立性の指標という。
また、「分類項目の階層的な深さ」とは、基準項目又は分類階層のルートとなる分類項目から分類項目までの最短又は最長のパス長である。階層的な深さが深い場合、分類項目名は、意味的により具体的なものであると考えられる。
例えば、図8に示すような分類階層を例に考える。図8に示す分類階層の場合、最も深い分類項目「家族法」や「親族」は、分類項目「社会」よりも具体的な分類項目であるといえる。具体性のある分類項目は、ユーザにとって理解しやすく概要把握に役立つと考えられる。そこで、本実施形態では、第2の指標計算手段1031は、分類項目の階層的な深さを基準項目から分類項目までの最短パス長とし、分類項目の階層的な深さが深いほど大きな値となるように優先度を計算する。なお、本実施形態では、この「分類項目の階層的な深さ」という指標を、以下、具体性の指標という。
また、「分類項目に対応するデータの量」とは、分類項目に対応づけられているデータ数である。また、「分類項目に対応するデータ」とは、分類項目に直接対応しているデータ、又は分類項目とその子孫の分類項目に対応しているデータのことである。本実施形態では、第2の指標計算手段1031は、「分類項目に対応するデータ」として、分類項目とその子孫の分類項目に対応しているデータを用いるものとする。この場合、データの量が多い場合、網羅性が高いと考えられる。そのため、網羅性が高い分類項目を用いて作成した分類軸は、データ蓄積部203が蓄積するデータを良く表しているため、概要把握に役立つと考えられる。本実施形態では、第2の指標計算手段1031は、データ量が大きいほど大きな値となるように優先度を計算する。なお、本実施形態では、この「分類項目に対応するデータの量」という指標を、以下、網羅性の指標という。
また、「分類項目に対応するデータの重複度合い」とは、分類軸内の各分類項目でデータがどの程度同じであるかを示す値である。重複度合いが少ない場合、データ蓄積部203が蓄積するデータには一意性があり、概要把握しやすい。もし、一意性がなく、重複するデータばかりであれば、分類軸の各分類項目のデータ数を表示する際に、そのデータ数が重複ばかりであり、良い分類軸とはいえない。
例えば、データ蓄積部203が図4に示すデータを蓄積している場合、分類項目「家族」に対応するデータは、データIDが「d1」、「d2」及び「d3」であるデータである。また、分類項目「家庭」に対応するデータも、同じくデータIDが「d1」、「d2」及び「d3」であるデータである。この場合、表示方法として、分類軸の各分類項目のデータ数のみを表示した場合、分類項目「家族」と分類項目「家庭」とは、データ数が3であるが、実際の中身は同じであるので、この分類軸にはあまり情報量がない。この場合、第2の指標計算手段1031は、重複度合いが高いほど優先度が低い値となるように優先度を計算する。重複度合いとして、各分類項目に対応するデータ数の合計を重複なしのデータ数で除算した値を用いてもよく、データの出現確率から情報量(エントロピー)を計算してもよい。なお、本実施形態では、この「分類項目に対応するデータの重複度合い」という指標を、以下、一意性の指標という。
本実施形態では、第2の指標計算手段1031は、最終的には、上記に示した各指標を用いて総合的に優先度を計算する。
なお、本実施形態において、第2の指標計算手段1031以外の構成要素の機能は、第1の実施形態で示したそれらの機能と同様である。
次に、動作について説明する。図9は、第2の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。図9に示すように、本実施形態では、分類項目の階層的な距離に基づいて分類軸候補の優先度を計算するステップS4の処理に代えて、計算用テーブルを作成するステップS41、及び分類軸候補の優先度を計算するステップS42の処理を実行する点で、第1の実施形態と異なる。以下、主として、第1の実施形態と異なる処理について説明する。
まず、第1の実施形態で示した処理と同様に、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、第1の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、分類軸候補絞込み手段1021は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、第1の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づき作成する分類軸の絞込みを行う(ステップS31)。
次に、第1の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、基準項目の子孫で特定個数以上のデータと対応づけられている分類項目を取得(抽出)する。そして、分類軸候補絞込み手段1021は、抽出した分類項目数分の組合せを用いて分類軸候補を作成する(ステップS32)。但し、分類軸候補絞込み手段1021は、先祖子孫関係の分類項目を含む場合には分類軸候補としないようにする。
次に、第2の指標計算手段1031は、分類軸候補絞込み手段1021から分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、計算用テーブルを作成する(ステップS41)。ここで、計算用テーブルとは、指標計算のために作成される一時的なテーブルで、第2の指標計算手段1031は、分類項目別データ数表とデータ別分類項目数表との2つのテーブルを作成する。
分類項目別データ数表とは、各分類項目に対応しているデータ数を集計したテーブルであり、分類項目、データ数及び分類項目の深さを対応付けたレコードを含む。また、データ別分類項目数表とは、各データに対応している分類軸内の分類項目の数を集計したテーブルであり、データID及び分類項目数を含む。なお、第2の指標計算手段1031は、作成した計算用の一時的なテーブルを、メモリ上に展開しておくことが望ましい。
図10(A)及び図10(B)は、分類項目別データ数表とデータ別分類項目数表との例を示す図である。このうち、図10(A)は、分類項目別データ数表の例を示している。また、図10(B)は、データ別分類項目数表の例を示している。なお、図10(A)及び図10(B)に示す例では、第2の指標計算手段1031が、分類軸(社会:家族、外交、医療)、図2に示した分類階層蓄積部201が記憶する情報、及び図4に示したデータ蓄積部203が記憶する情報に基づいて、分類項目別データ数表とデータ別分類項目数表とを作成した場合が示されている。
図10(A)に示す例では、分類項目別データ数表は、分類項目、データ数、及び分類項目の深さを対応付けた各レコードを含む表である。本実施形態では、前述したように、分類項目の深さは、基準項目から各分類項目までのパス長を表している。例えば、分類項目「家族」は、図4に示したデータ蓄積部203が記憶する情報を参照すると「d1」、「d2」及び「d3」であるので、図10(A)に示すように、データ数が3である。また、図2に示した分類蓄積部201が記憶する情報を参照すると、基準項目「社会」から分類項目「家庭」までは、「生活」を介して深さが2である。
また、本実施形態では、前述したように、分類項目とデータの対応は、分類項目とその子孫の分類項目とに直接対応しているデータとしている。例えば、分類項目「医療」に直接対応しているデータはないが、その子孫の分類項目に直接対応するデータを見る。ここで、子孫の分類項目「医学」又は「健康」に対応するデータIDは、「d2」、「d4」及び「d6」である。よって、図10(A)に示すように、データ数を3としている。
データ別分類項目数表は、データIDと分類項目数とを対応付けたレコードを含む表である。本実施形態では、データ別分類項目数表は、図10(B)に示すように、各データIDに対して、分類軸(社会:家族、外交、医療)と対応する分類項目数を含む。例えば、データID「d1」は、図4に示したデータ蓄積部203が記憶する情報を参照すると、分類軸内の分類項目「家族」に対応しているので、図10(B)に示すように、分類項目数が1である。また、データID「d6」は、分類項目「医療」の子孫の分類項目に対応しているので、図10(B)に示すように、分類項目数が1である。
次に、第2の指標計算手段1031は、計算用テーブルを用いて、分類軸の優先度を計算する(ステップS42)。本実施形態では、第2の指標計算手段1031は、前述したように、独立性、具体性、網羅性及び一意性の指標の値を計算し、これら指標の重み付き線形和を求めることによって、式(4)を用いて総合的な優先度を計算する。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
・・・式(4)
ここで、式(4)において、Xは基準項目であり、Cは分類項目群である。また、W1、W2、W3及びW4は、それぞれの指標の重み係数である。なお、これらの重み係数は、予めシステムがもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザによって設定されてもよい。本実施形態では、これらの重み係数は、システムに予め設定されているものする。
なお、本実施形態では、独立性の指標値は、第1の実施形態と同様であり、第2の指標計算手段1031は、式(5)を用いて求める。
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(ci,cj)
・・・式(5)
ここで、式(5)において、X、C、Max(X)、組合せ数、及びComDist(ci,cj)は、第1の実施形態で示したものと同様である。
また、第2の指標計算手段1031は、具体性の指標値を、以下の式(6)を用いて計算する。ここでは、具体性の指標値は、基準項目から分類軸の各分類項目までのパス長の平均の値である。
具体性(X:C)
=1/Max(X)×1/N×ΣDepth(X,ci)
・・・式(6)
式(6)において、Max(X)は、基準項目Xの子孫の分類項目で最大の深さである。また、Nは、入力手段101から与えられた(入力した)分類項目数である。また、Depth(X,ci)は、基準項目Xから分類項目ciまでの最短パス長である。ここで、パス長の平均をMax(x)で除算しているのは、基準項目によって、子孫の分類項目の深さが異なるためである。第2の指標計算手段1031は、この具体性の指標値を、分類項目別データ数表を用いて、以下の式(7)のように計算することができる。
具体性(X:C)
=1/Max(X)×1/N×ΣDepth(X,ci)
=1/Max(X)×1/N×Σ(分類項目別データ数表の分類項目の深さ)
・・・式(7)
式(7)に示すように、分類項目の深さが深いほど、具体性の指標の値が大きくなることがわかる。
また、第2の指標計算手段1031は、網羅性の指標値を、以下の式(8)を用いて計算する。ここで、網羅性の指標値は、分類項目に対応するデータの全データに対するカバー率である。
網羅性(X:C)
=1/DataNum×|∪データ(ci)|
・・・式(8)
式(8)において、DataNumは、分類対象データの数である。また、データ(ci)は、分類項目ciに対応するデータ集合である。また、「∪データ(ci)」は、分類軸内の分類項目c1からcNまでのデータの和集合である。また、「|∪データ(ci)|」は、分類軸内の分類項目c1からcNまでのデータ集合の要素数である。つまり、「|∪データ(ci)|」は、分類項目に対応するデータ数を表す。第2の指標計算手段1031は、この網羅性の指標値を、先に作成したデータ別分類項目表を用いて、次の式(9)のように計算することができる。
網羅性(X:C)
=1/DataNum×|∪データ(ci)|
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
・・・式(9)
式(9)において、RecNum(データ別分類項目数表,分類項目数>0)は、データ別分類項目数表の分類項目数が0よりも大きいレコード数である。このRecNum(データ別分類項目数表,分類項目数>0)は、分類項目に対応しているデータ数に等しい。よって、上記の式(9)のように書き換えることができる。
また、第2の指標計算手段1031は、一意性の指標値を、以下の式(10)を用いて計算する。ここで、データの重複度合いは、各分類項目に対応するデータ数の合計を重複なしのデータ数の合計で除算した値とする。なお、一意性の指標値は、このデータの重複度合いの逆数で表す。
一意性(X:C)
=1/(1/|∪データ(ci)|×ΣCatNum(ci))
・・・式(10)
ここで、式(10)において、|∪データ(ci)|は、分類項目に対応する重複なしのデータ数である。また、CatNum(ci)は、ciに対応するデータ数である。また、ΣCatNum(ci)は、分類軸内の分類項目c1からcNそれぞれに対応するデータ数の合計を表す。第2の指標計算手段1031は、この一意性の指標値を、先に作成した分類項目別データ数表を用いて、次の式(11)のように計算することができる。
一意性(X:C)
=1/(1/|∪データ(ci)|×ΣCatNum(ci))
=1/(RecNum(データ別項目分類表,分類項目数>0)×Σ(データ別項目分類表のデータ数))
・・・式(11)
例えば、第2の指標計算手段1031は、分類軸(社会:家族、外交、医療)の場合、図10(A)及び図10(B)に示すテーブルと、図2に示す分類階層蓄積部201が記憶する情報とを参照し、上記の各指標値を、以下の式(12)〜式(15)のように計算する。
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(C1,C2)
=1/Max(社会)×1/(2×3)×(ComDist(家族,外交)+ComDist(家族,医療)+ComDist(外交,医療))
=1/2×1/6×(4+4+4)
=1
・・・式(12)
具体性(X:C)
=1/Max(X)×1/N×Σ(分類項目別データ数表の分類項目の深さ)
=1/Max(社会)×1/3×(2+2+1)
=1/2×1/3×(2+2+1)
=0.833
・・・式(13)
網羅性(X:C)
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
=1/6×6
=1
・・・式(14)
一意性(X:C)
=1/(RecNum(データ別項目分類表,分類項目数>0)×Σ(データ別項目分類表のデータ数))
=1/(1/6×(3+2+3))
=6/8
=0.75
・・・式(15)
ここで、重み係数を全て0.25とすると、第2の指標計算手段1031は、次の式(16)を用いて優先度を求めることができる。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
=0.25×1+0.25×0.833+0.25×1+0.25×0.75
=0.895
=0.90
・・・式(16)
次に、第1の実施形態で示した処理と同様に、出力手段104は、分類軸、優先度及びデータを出力する(ステップS5)。
以上に説明したように、本実施形態によれば、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて、優先度を計算する。そのため、分類項目間の階層的な距離に加えて、分類項目の階層的な深さや、分類項目に対応するデータの量、分類項目に対応するデータの重複度合いを考慮して、より効果的に分類軸の優先度の計算時間を短縮することができる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図11は、第3の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図11に示すように、本実施形態では、データ分類システムが、図7に示した構成要素に加えて、表示手段105を含む点で、第2の実施形態と異なる。
表示手段105は、具体的には、プログラムに従って動作する情報処理装置のCPU及びディスプレイ装置等の表示装置によって実現される。表示手段105は、第2の指標計算手段1031が求めた分類軸、優先度及びデータをディスプレイ装置等の表示装置に出力(表示)する機能を備える。例えば、表示手段105は、分類軸の各分類項目と対応するデータ数、及びデータとその属性を、一覧形式又は表形式で出力(表示)する。
まず、表示手段105が一覧形式で情報を表示する場合を説明する。図12は、表示手段105が一覧形式で表示する情報の例を示す図である。図12に示すように、表示手段105は、分類軸、分類軸候補一覧、及びデータ一覧のそれぞれの表示部分を含む表示画面を表示する。表示手段105は、分類軸には、優先度が最も高かった分類軸、又は分類軸候補一覧から選択した分析軸を表示する。また、表示手段105は、基準項目と分類項目とを表示し、その後ろにデータ件数を表示する。
図12に示す例では、分類軸(社会:家族、健康、移植)を用いる場合が示されている。この場合、表示手段105は、それぞれの項目と対応するデータ件数をデータ蓄積部203から取得(抽出)し表示する。
また、図12に示す例では、表示手段105が表示する表示画面には、項目「その他」の欄が新たに加えられている。ここで、「社会」の下の「その他」の欄は、基準項目「社会」に関連しているが、分類項目「家族」や「健康」、「移植」ではないことを示す分類項目である。また、基準項目「社会」と並列に並ぶ「その他」の欄は、基準項目「社会」とは関係のない分類項目を示す。なお、表示手段105は、これら「その他」の欄のデータ数を、データ蓄積部203を参照することによって得ることができる。また、本実施形態では、データ件数には子孫の分類項目に対応するデータ件数も含まれる。
また、図12に示す例では、表示手段105は、分類軸候補一覧を、優先度を計算した分類軸を優先度順に表示する。表示手段105は、これらの分類軸を、第2の指標計算手段1031が計算した結果から得ることができる。
また、図12に示す例では、表示手段105は、データ一覧を、各データを一覧で表示する。この場合、表示手段105は、各データを、データID、コンテンツ、及び対応する分類項目を対応付けて表示する。なお、表示手段105は、これらの情報を、データ蓄積部203が記憶する情報を参照することで得ることができる。
なお、本実施形態において、表示手段105以外の構成要素の機能は、第2の実施形態で示したそれらの機能と同様である。
次に、一覧形式で情報を表示する場合の表示手段105の動作について説明する。まず、表示手段105は、初期表示として、優先度の最も高い分類軸を分類軸表示部分に表示する。また、表示手段105は、その他の分類軸候補を分類軸候補一覧に優先度順に表示する。また、表示手段105は、データ一覧には、データ蓄積部203が蓄積する全てのデータを表示する。
次いで、表示手段105は、分類軸表示部分に表示する分類軸の中で、いずれかの分類項目又は基準項目が選択操作された場合、これに対応するデータをデータ一覧に表示する。また、表示手段105は、分類軸候補一覧表示部分に表示する分類軸候補の中のいずれかの分類軸候補が選択操作されると、分類軸表示部分の内容をこの選択した分類軸で置き換えて表示する。
次に、表示手段105が表形式で情報を表示する場合を説明する。図13は、表示手段105が表形式で表示する情報の例を示す図である。図13に示すように、表示手段105は、分類表、データ一覧、及び分類軸候補一覧の表示部分を含む表示画面を表示する。
表示手段105は、分類表には、横軸に、分類軸候補のうち最も優先度の高い分析軸を表示する。また、表示手段105は、縦軸に、関連する属性を表示する。本実施の形態では、表示手段105は、属性として分類項目を表示している。なお、これは一例であり、表示手段105は、データに作成者等があればこれを表示してもよいし、属性が複数あればユーザ操作に従って選択して表示してもよい。また、表示手段105は、表の各セルには、どのようなデータが存在するかを示す情報を表示する。本実施形態では、表示手段105は、データID群とその数を表示している。
次に、横軸の「その他」について説明する。図13に示す分類表において、基準項目「社会」の下の「その他」は、基準項目以下で分類軸内の分類項目に対応しないデータ群を表す分類項目である。また、図13において、最も右側に示す「その他」は、基準項目「社会」にも対応しないデータ群を示す分類項目である。また、縦軸に示す「その他」は、関連する属性のうち、表示しているものに対応しないデータ群を表す項目である。
以下、縦軸に関連する属性を表示する手順を示す。まず、表示手段105は、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、分類軸に対応するデータ群を取得(抽出)する。次いで、表示手段105は、取得(抽出)したデータ群の属性を参照し、属性値毎に対応するデータ数を調べる(求める)。そして、表示手段105は、データ数のうち、多いものから順番に縦軸に分類軸の分類項目数分だけ表示する。
本実施形態では、表示手段105は、基準項目より下の分類項目を属性値とし、これらの分類項目に対応するデータ数を取得(算出)する。また、表示手段105は、既に分類軸として表示しているもの以外の情報を表示する。具体的には、分析軸(社会:家族、健康、移植)を用いる場合、対応するデータは「d1」、「d2」、「d3」、「d4」及び「d6」である。また、これらのデータに対応する分類項目でデータ数が多いもので分類軸にないものは、分類項目「生活」が4件(「d1」、「d2」、「d3」及び「d4」)であり、分類項目「家庭」が3件(「d1」、「d2」及び「d3」)であり、分類項目「医療」が3件(「d2」、「d4」及び「d6」)であり、分類項目「医学」が3件(「d2」、「d4」及び「d6」)である。
上記の場合、表示手段105は、これらの分類項目の中から分類項目数3個をデータ数の多い順に選ぶ。なお、表示手段105は、データ数が同じである場合には、いずれか一方を選択して表示する。なお、本例は一例であり、表示手段105は、属性として、分類項目だけでなく他の情報を選択して表示してもよい。例えば、表示手段105は、データに付属する属性であれば、属性をユーザ操作に従って選択して表示してもよい。また、表示手段105は、属性値を、上記のように自動的に選択して決めてもよいし、ユーザ操作に従って選択してもよい。また、図13において、縦軸に表示する属性値の数も、分類軸と同じでなくてもよい。
また、表示手段105は、分類表のいずれかのセルを選択した際に、その選択したセルに対応するデータ一覧を表示する。本実施形態では、表示手段105は、データID、コンテンツ及び分類項目を表示する。なお、表示手段105は、これらの情報を、データ蓄積部203が記憶する情報を参照して表示する。
また、表示手段105は、分類軸候補一覧において、優先度を計算した分類軸を優先度順に表示する。なお、表示手段105は、これらの情報を、第2の指標計算手段1031が計算した結果から得ることができる。
次に、表形式で情報を表示する場合の表示手段105の動作について説明する。まず、表示手段105は、初期表示として、分類表の横軸に、優先度の最も高い分類軸を表示する。この場合、表示手段105は、前述した方法に従って縦軸となる関連する属性も表示する。なお、表示手段105は、データ一覧には、まだ何も表示しない。
次に、表示手段105は、分類表のいずれかのセルが選択操作された場合、この選択操作されたセルに対応するデータをデータ一覧に表示する。
次に、表示手段105は、分類軸候補一覧からいずれかの分類軸が選択操作された場合、この選択操作された分類軸を分類表の横軸として表示し直す。この場合、表示手段105は、分類表の縦軸の関連する属性も新たに表示し直す。
以上に説明したように、本実施形態によれば、第2の指標計算手段1031が求めた分類軸、優先度及びデータを、一覧形式又は表形式で表示する。そのため、ユーザに対して、分類軸の選択状況や優先度、データを視覚的に認識させることができる。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。図14は、第4の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図14に示すように、本実施の形態では、データ分類システムが、図1に示した構成要素に加えて、多次元分類軸作成手段1023を含む点で、第1の実施形態と異なる。また、本実施形態では、データ分類システムが、指標計算手段103に代えて、多次元指標計算手段1032を含む点で、第1の実施形態と異なる。
本実施形態において、分類軸候補絞込み手段1021は、第1の実施形態と同様の処理に従って、基準項目の全ての子孫の分類項目を組合せるのではなく、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づき作成する分類軸の絞込みを行う。このようにすることにより、分類軸候補絞込み手段1021は、優先度を計算する対象となる分類軸を減らすことができ、計算を高速化できる。
多次元分類候補作成手段1023は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。多次元分類軸候補作成手段1023は、分類軸候補絞込み手段1021から分類軸候補を受け取り(入力し)、これら分類軸候補を複数組合せることによって、多次元分類軸を作成する機能を備える。なお、作成する多次元分類軸の次元数は、システムが予めもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザ操作に従って入力してもよい。また、多次元分類候補作成手段1023は、作成した多次元分類軸を多次元指標計算手段1032に渡す(出力する)機能を備える。
例えば、多次元分類候補作成手段1023は、次元数が2である場合には、分類軸を2つ組み合わせた多次元分類軸候補を作成する。この場合、多次元分類候補作成手段1023は、例えば、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)等を作成する。
以下、多次元分類候補作成手段1023が作成する多次元分類軸を(基準項目:分類項目N個)−(基準項目:分類項目N個)と表記する。なお、3次元以上の多次元分類軸であれば、更にその後に「−」記号を用いて新たな分類軸を追加することによって、多次元分類軸を示す。この場合、「−」記号を用いて繋がれた各分類軸は、それぞれの次元における分類軸を表している。例えば、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)である場合には、1つ目の分類軸(社会:家庭、家族、健康)を第1次元分類軸といい、2つ目の分類軸(社会:外交、医学、移植)を第2次元分類軸という。
多次元指標計算手段1032は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。多次元指標計算手段1032は、多次元分類軸候補作成手段1023から多次元分類軸候補を受け取り(入力し)、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、分類軸候補の優先度を計算する機能を備える。この場合、多次元指標計算手段1032は、優先度を、分類項目の分類階層での階層的な距離に基づいて計算する。
「分類項目間の階層的な距離」とは、共通する祖先までの最短のパス長や最長のパス長、又は共通の子孫までの最短パス長や最長パス長等である。また、多次元指標計算手段1032は、優先度として、分類軸の各分類項目間の階層的な距離の平均や最大、最小の値等を求める。
本実施形態では、多次元指標計算手段1032は、「分類項目間の階層的な距離」として共通する祖先までの最短パス長を用いるものとし、優先度として階層的な距離の平均の値を求めるものとする。そのようにするのは、距離が長い方が意味的に独立しているといえるためである。更に、多次元指標計算手段1032は、分類軸内の分類項目だけでなく、分類軸の基準項目間の階層的な距離も用いて優先度を計算する。
なお、本実施形態において、多次元分類候補作成手段1023及び多次元指標計算手段1032以外の構成要素の機能は、第1の実施形態で示したそれらの機能と同様である。
次に、動作について説明する。図15は、第4の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。
まず、第1の実施形態で示した処理と同様に、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、第1の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、分類軸候補絞込み手段1021は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、第1の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する情報とデータ蓄積部202が記憶する情報とを参照し、分類項目に対応するデータ量に基づいて分類項目を絞り込む(ステップS31)。
次に、第1の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する情報を参照し、分類項目間の階層的な距離に基づいて分類項目を組合せて分類軸を作成する(ステップS32)。
次に、多次元分類軸候補作成手段1023は、作成した分類軸候補を次元数分組み合わせて、多次元分類軸を作成する(ステップS321)。なお、作成する多次元分類軸の次元数は予めシステムがもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザ操作に従って入力してもよい。例えば、多次元分類候補作成手段1023は、次元数が2である場合には、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)等を作成する。
次に、多次元指標計算手段1032は、多次元分類軸候補作成手段1023から多次元分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報を参照して、各分類軸の優先度を計算する(ステップS421)。
多次元指標計算手段1032は、優先度の計算を行う場合、本実施形態では、分類項目の意味的な独立性を図るため、分類項目間の階層的な距離の平均値と、基準項目間の階層的な距離の平均値とを計算する。ここで、「分類項目間の階層的な距離」又は「基準項目間の階層的な距離」とは、分類項目間で共通する先祖分類項目までの最短パスである。また、多次元指標計算手段1032は、優先度を、以下の式(17),(18)を用いて求める。
多次元優先度((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ独立性(Xi:Ci)+1/(2×次元数)×ΣComDist(Xi,Xj)
・・・式(17)
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(ci,cj)
・・・式(18)
ここで、式(17)において、X1,X2,・・・,Xiは、第i次元の基準項目を示す。また、C1,C2,・・・,Ciは、第i次元の分類項目群を示す。なお、Max(X)及びComDist(ci,cj)は、第1の実施形態で示したものと同様である。式(17)に示すように、多次元指標計算手段1032は、第1項目で次元毎に計算した独立性(分類項目間の階層的な距離)を次元数で除算することで平均値を求める。また、多次元指標計算手段1032は、第2項で基準項目間の階層的な距離の平均値を求める。
例えば、多次元指標計算手段1032は、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)の優先度を、次の式(19)のように計算する。この場合、分類項目数N=3であるので、組合せ数を3とし、次元数を2とする。基準項目「社会」の子孫の分類項目で最も深い分類項目は、図2に示した分類階層の場合には2である。
優先度((社会:家庭、家族、健康)−(社会:外交、医学、移植))
=1/2(1/2×1/6×(ComDist(家庭,家族)+ComDist(家庭,健康)+ComDist(家族,健康))+(1/2×1/6×(ComDist(外交,医学)+ComDist(外交,移植)+ComDist(医学,移植)))+1/4×(ComDist(社会,社会))
=1/2(1/2×1/6×(2+2+2)+(1/2×1/6×(4+4+2))+1/4×(0)
=0.67
・・・式(19)
なお、3次元以上の多次元分類軸を用いる場合であっても、多次元指標計算手段1032は、同様の計算を行うことによって、複数次元の優先度を計算できる。
上記のように計算することによって、類似した分類項目ではなく、意味的に独立した分類項目を含む分類軸に高い優先度を与えることができる。更に、多次元の分類軸に対応することができる。
次に、出力手段104は、多次元指標計算手段1032の計算結果に基づいて、分類軸と、優先度と対応するデータとを出力する(ステップS5)。図16(A)、図16(B)、及び図16(C)は、第4の実施形態における出力手段104が出力する情報の例を示す図である。図16(A)、図16(B)、及び図16(C)に示す例では、出力手段104は、3つのテーブルを出力している。なお、図中の「・・・」は、記載の省略を表している。
例えば、出力手段104は、図16(A)に示すように、次元IDと、分類軸ID群と、スコアとを対応づけたレコードを含むテーブルを出力する。すなわち、図16(A)のテーブルには、多次元分類軸候補毎の分類軸とそのスコアとが表されている。図16(A)に示す例では、分類軸ID群を、分類軸IDを「,」で区切って表している。本実施形態では、次元数が2であるので、分類軸ID群は、2つの分類軸IDを含む。なお、3次元以上の多次元分類軸である場合には、この分類軸IDを増やすことによって多次元に対応することができる。
また、出力手段104は、図16(B)に示すように、分類軸ID、基準項目及び分類項目群を対応付けたレコードを含むテーブルを出力する。すなわち、図16(B)に示す例では、1つの行が1つの分類軸を表している。
また、出力手段104は、図16(C)に示すように、分類軸ID、分類項目及びデータID群を対応付けたレコードを含むテーブルを出力する。すなわち、図16(C)に示す例では、1つのレコードが各分類軸の分類項目に対応している。また、図16(C)に示す例では、データID群を、データIDを「,」で区切って表している。また、図中の「・・・」は、記載の省略を表している。
なお、図16(A)、図16(B)、及び図16(C)に示す出力方法は一例であり、出力手段104は、例えば、2つのテーブルを1つにまとめて出力してもよいし、各データの属性情報を含んだテーブルを新たに追加して出力してもよい。
上記のような構成を備えることによって、分類項目の意味的な独立性を用いて分類軸を選択することができる。これにより、ユーザにわかりやすい分類軸を選択することができる。
以上に説明したように、本実施形態によれば、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む。また、絞り込んだ分類軸候補を組合せることによって、多次元の分類軸候補を作成する。そして、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、多次元の分類軸についても優先度の計算時間を短縮することができる。
(第5の実施形態)
次に、本発明の第5の実施形態について説明する。図17は、第5の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図17に示すように、本実施形態では、データ分類システムが、図14に示した多次元指標計算手段1032に代えて、第2の多次元指標計算手段1033を含む点で、第4の実施形態と異なる。
第2の多次元指標計算手段1033は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。第2の多次元指標計算手段1033は、多次元分類軸候補作成手段1022から分類軸候補群を受け取り(入力し)、分類軸の優先度を計算する機能を備える。この場合、第2の多次元指標計算手段1033は、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて優先度を計算する。
なお、第2の多次元指標計算手段1033は、これらの優先度の計算方法として、例えば、第2の実施形態で示した優先度計算方法を多次元に拡張した方法を用いて、優先度を計算する。
なお、本実施形態において、第2の多次元指標計算手段1033以外の構成要素の機能は、第4の実施形態で示したそれらの機能と同様である。
次に、第2の多次元指標計算手段1033が優先度を計算する場合の優先度の計算方法について説明する。第2の実施形態と同様の処理に従って、第2の多次元指標計算手段1033は、多次元分類軸候補作成手段1023から多次元分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照して、計算用テーブルを作成する。但し、本実施形態では、第2の多次元指標計算手段1033は、計算用テーブルを、複数の次元にまたがって作成する点で、第2の実施形態と異なる。
第2の多次元指標計算手段1033は、計算用テーブルとして、分類項目別データ数表とデータ別分類項目数表との2つのテーブルを作成する。
分類項目別データ数表とは、異なる次元における分類項目の組合せに対応しているデータ数を集計したテーブルである。分類項目別データ数表は、分類項目組合せ、データ数及び分類項目の深さを対応付けたレコードを含む。また、データ別分類項目数表とは、各データに対応している分類軸内の分類項目の数を集計したテーブルであり、データID及び分類項目組合せ数を含む。なお、第2の多次元指標計算手段1033は、作成した計算用の一時的なテーブルを、メモリ上に展開しておくことが望ましい。
図18(A)及び図18(B)は、分類項目別データ数表とデータ別分類項目数表との例を示す図である。このうち、図18(A)は、分類項目別データ数表の例を示している。また、図18(B)は、データ別分類項目数表の例を示している。なお、図18(A)及び図18(B)に示す例では、第2の多次元指標計算手段1033が、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)、図2に示した分類階層蓄積部201が記憶する情報、及び図4に示したデータ蓄積部203が記憶する情報に基づいて、分類項目別データ数表とデータ別分類項目数表とを作成した場合が示されている。
図10(A)に示す例では、分類項目別データ数表は、分類項目組合せ、データ数、及び分類項目の深さを対応付けた各レコードを含む表である。本実施形態では、第2の多次元指標計算手段1033は、分類項目の深さを、以降の計算を簡単にするため、次の式(20)のように計算する。
深さ(cij,ckl,・・・)
=1/次元数×Σ(1/Max(Xi)×Depth(Xi,cij)
・・・式(20)
ここで、式(20)において、cijは第i次元のj番目の分類項目であり、cklは第k次元のl番目の分類項目である。但し、iとkとは、値が異なるものとする。また、Xiは、第i次元の基準項目である。また、Max(Xi)は、基準項目Xiの子孫の分類項目で最も深い分類項目までの深さを示している。また、Depth(Xi,cij)は、第i次元の基準項目Xiからその分類項目cijまでの最短パス長である。また、Σ記号は、異なる次元における分類項目の組合せで合計することを表している。すなわち、式(20)では、分類項目の深さを、分類項目組合せ内での分類項目の深さの平均値で示している。
図18(A)において、例えば、1レコード目は、第1次元の分類項目「家庭」と第2次元の分類項目「外交」とにおけるデータを表したものである。図4に示すデータ蓄積部203が記憶する情報を参照すると、本例では、データ蓄積部203は、この2つの分類項目に対応するデータを記憶していないので、図18(A)に示すように、データ数が0である。また、分類項目の深さの部分については、社会から家族までが2であり、社会から医学までが2であり、Max(Xi)が2であり、次元数が2であるので、図18(A)に示すように、分類項目の深さが1となる。
データ別分類項目数表とは、データIDと分類項目組合せ数とを対応付けたレコードを含む表である。図18(B)に示す例では、各データIDに対して、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)と対応する分類項目数を含むデータ別分類項目数表が示されている。図18(B)に示す例において、例えば、データID「d2」は、図4に示すデータ蓄積部203が記憶する情報を参照すると、第1次元の分類項目「健康」と第2次元の分類項目「医学」とに対応しているので、分類項目数が1である。
次に、第2の多次元指標計算手段1033は、計算用テーブルを用いて、分類軸の優先度を計算する。本実施形態では、第2の多次元指標計算手段1033は、前述した独立性、具体性、網羅性及び一意性の指標の値を計算し、これらの指標値の重み付き線形和を求めることによって、式(21)を用いて、総合的な優先度を計算する。
多次元優先度((X1:C1)−(X2:C2)−・・・)
=W1×多次元独立性((X1:C1)−(X2:C2)−・・・)+W2×多次元具体性((X1:C1)−(X2:C2)−・・・)+W3×多次元網羅性((X1:C1)−(X2:C2)−・・・)+W4×多次元一意性((X1:C1)−(X2:C2)−・・・)
・・・式(21)
ここで、式(21)において、Xは基準項目であり、Cは分類項目群である。また、W1、W2、W3、W4は、それぞれ指標の重み係数である。なお、これらの重み係数は、予めシステムがもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザによって設定されてもよい。本実施形態では、これらの重み係数は、システムに予め設定されているものする。
なお、本実施形態では、独立性の指標値は、第5の実施形態と同様であり、第2の多次元指標計算手段1033は、式(22),(23)を用いて多次元独立性の指標値を求める。
多次元独立性((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ独立性(Xi:Ci)+1/(2×次元数)×ΣComDist(Xi,Xj)
・・・式(22)
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(C1,C2)
・・・式(23)
式(22),(23)において、X1、X2、Xi、C1、C2、Ci、Max(X)、ComDist、組合せ数及び次元数は、第4の実施形態で示したものと同様である。
また、第2の多次元指標計算手段1033は、具体性の指標値を、以下のように計算する。本実施形態において、具体性の指標は、分類軸毎の基準項目から各分類項目までのパス長の平均の値である。第2の多次元指標計算手段1033は、具体性の指標値を、分類項目別データ数表を用いて、以下の式(24),(25)のように計算できる。
多次元具体性((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ具体性(Xi:Ci)
・・・式(24)
具体性(X:C)
=1/Max(X)×1/N×ΣDepth(X,cj)
・・・式(25)
式(24),(25)において、Max(X)、N、Depth(X,cj)は、第2の実施形態で示したものと同様である。ここで、図18(A)に示すように、分類項目別データ数表における分類項目の深さ指標については、1/次元数×Σ1/Max(Xi)×Depth(Xi,cij)として計算済みであるので、多次元具体性の指標を、以下の式(26)のように計算できる。
多次元具体性((X1:C1)−(X2:C2)−・・・)
=1/次元数×1/N×ΣΣ(1/Max(Xi)×Depth(Xi,cij))
=1/(N次元数)×Σ(分類項目別データ数表の深さ指標)
・・・式(26)
また、第2の多次元指標計算手段1033は、網羅性の指標を、以下のように計算する。本実施形態において、網羅性の指標は、各次元の分類項目の組合せに対応するデータの全データに対するカバー率である。第2の多次元指標計算手段1033は、網羅性の指標を、先に作成したデータ別分類項目表を用いて、次の式(27)のように求めることができる。
多次元網羅性((X1:C1)−(X2:C2)−・・・)
=1/DataNum×|∪データ(cij,ckl,・・・)|
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
・・・式(27)
ここで、式(27)において、「データ(cij,ckl,・・・)」は、第i次元のj番目の分類項目cij、第k次元のl番目の分類項目ckl、及びその他の次元の分類項目の全てに対応するデータ集合である。また、DataNumは、データ集合の数である。RecNum(データ別分類項目数表,分類項目数>0)は、データ別分類項目数表の分類項目数が0よりも大きいレコード数である。このRecNum(データ別分類項目数表,分類項目数>0)は、分類項目の組合せに対応しているデータ数に等しい。よって、上記の式(27)のように書き換えることができる。
また、第2の多次元指標計算手段1033は、一意性の指標を、以下のように計算する。本実施形態において、一意性の指標は、データの重複度合いの逆数で表される。ここで、データの重複度合いは、各分類項目の組合せに対応するデータ数の合計値を重複なしのデータ数の合計値で除算した値とする。第2の多次元指標計算手段1033は、一意性の指標を、先に作成した分類項目別データ数表を用いて、次の式(28)のように求めることができる。
多次元一意性((X1:C1)−(X2:C2)−・・・)
=|∪データ(cij,ckl,・・・)|/ΣCatNum(cij,ckl,・・・)
=RecNum(データ別項目分類表,分類項目数>0)/Σ(データ別項目分類表のデータ数)
・・・式(28)
例えば、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)である場合、第2の多次元指標計算手段1033は、図10(A)に示した分類項目別データ数表、及び図2に示す分類階層蓄積部201が記憶する情報を参照して、上記の各指標値を、以下の式(29)〜式(32)のように計算する。
多次元独立性((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ独立性(Xi:Ci)+1/(2×次元数)×ΣComDist(Xi,Xj)
=1/2(1/2×1/6×(ComDist(家庭,家族)+ComDist(家庭,健康)+ComDist(家庭,健康))+(1/2×1/6×(ComDist(外交,医学)+comDist(外交,移植)+ComDist(医学,移植)))+1/4×(ComDist(社会,社会))
=1/2(1/2×1/6×(2+2+2)+(1/2×1/6×(4+4+2))+1/4×(0)
=0.667
・・・式(29)
多次元具体性((X1:C1)−(X2:C2)−・・・)
=1/(N次元数)×Σ(分類項目別データ数表の深さ指標)
=1/9×(1+1+1+1+1+1+1+1+1)
=1
・・・式(30)
多次元網羅性((X1:C1)−(X2:C2)−・・・)
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
=1/6×2
=0.333
・・・式(31)
多次元一意性((X1:C1)−(X2:C2)−・・・)
=RecNum(データ別項目分類表,分類項目数>0)/Σ(データ別項目分類表のデータ数)
=2/(0+1+0+2+0+0)
=2/3
=0.667
・・・式(32)
ここで、重み係数を全て0.25とすると、第2の多次元指標計算手段1033は、次の式(33)を用いて優先度を求めることができる。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
=0.25×0.667+0.25×1+0.25×0.333+0.25×0.667
=0.67
・・・式(33)
以上に説明したように、本実施形態によれば、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて、優先度を計算する。そのため、分類項目間の階層的な距離に加えて、分類項目の階層的な深さや、分類項目に対応するデータの量、分類項目に対応するデータの重複度合いを考慮して、より効果的に多次元の分類軸の優先度の計算時間を短縮することができる。
(第6の実施形態)
次に、本発明の第6の実施形態について説明する。図19は、第6の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図19に示すように、本実施形態では、データ分類システムが、図17に示した構成要素に加えて、多次元表示手段1051を含む点で、第5の実施形態と異なる。
多次元表示手段1051は、具体的には、プログラムに従って動作する情報処理装置のCPU及びディスプレイ装置等の表示装置によって実現される。多次元表示手段1051は、第2の多次元指標計算手段1033が求めた分類軸、優先度及びデータをディスプレイ装置等の表示装置に出力(表示)する機能を備える。例えば、多次元表示手段1051は、各次元の分類軸の分類項目と対応するデータ数、及びデータとその属性を、一覧形式又は表形式で出力(表示)する。
まず、多次元表示手段1051が一覧形式で情報を表示する場合を説明する。図20は、多次元表示手段1051が一覧形式で表示する情報の例を示す図である。図20に示すように、多次元表示手段1051は、多次元分類軸、多次元分類軸候補一覧、及びデータ一覧のそれぞれの表示部分を含む表示画面を表示する。多次元表示手段1051は、多次元分類軸には、優先度が最も高かった多次元分類軸、又は多次元分類軸候補一覧から選択した分析軸を表示する。また、多次元表示手段1051は、各次元に基準項目と分類項目とを表示し、その後ろにデータ件数を表示する。
図20に示す例では、多次元分類軸(社会:家族、健康、移植)−(社会:家庭、外交、医療)を用いる場合が示されている。この場合、多次元表示手段1051は、それぞれの項目と対応するデータ件数をデータ蓄積部203から取得(抽出)し表示する。
また、図20に示す例では、多次元表示手段1051が表示する表示画面には、項目「その他」の欄が新たに加えられている。ここで、「社会」の下の「その他」の欄は、基準項目「社会」に関連しているが、分類軸内の分類項目に対応しないデータを分類する項目である。また、全データの子にある「その他」の欄は、全ての分類軸とは関係のない分類項目を示す。なお、多次元表示手段1051は、これら「その他」の欄のデータ数を、データ蓄積部203が記憶する情報を参照することによって得ることができる。また、本実施形態では、データ件数には子孫の分類項目に対応するデータ件数も含まれる。
また、図20に示す例では、多次元表示手段1051は、多次元分類軸候補一覧を、優先度を計算した分類軸を優先度順に表示する。多次元表示手段1051は、これらの多次元分類軸を、第2の多次元指標計算手段1033が計算した結果から得ることができる。
また、図20に示す例では、多次元表示手段1051は、データ一覧を、各データを一覧で表示する。この場合、多次元表示手段1051は、各データを、データID、コンテンツ、及び対応する分類項目を対応付けて表示する。なお、多次元表示手段1051は、これらの情報を、データ蓄積部203が記憶する情報を参照することで得ることができる。
なお、本実施形態において、多次元表示手段1051以外の構成要素の機能は、第5の実施形態で示したそれらの機能と同様である。
次に、一覧形式で情報を表示する場合の多次元表示手段1051の動作について説明する。まず、多次元表示手段1051は、初期表示として、優先度の最も高い多次元分類軸を多次元分類軸表示部分に表示する。また、多次元表示手段1051は、その他の多次元分類軸候補を多次元分類軸候補一覧に優先度順に表示する。また、多次元表示手段1051は、データ一覧には、データ蓄積部203が蓄積する全てのデータを表示する。
なお、多次元表示手段1051は、多次元分類軸表示部分に表示する多次元分類軸において、各次元内の分類項目を1つ又は複数選択することによって、それら全てに対応するデータのみをデータ一覧に表示する。
次いで、多次元表示手段1051は、多次元分類軸候補一覧表示部分に表示する多次元分類軸の中のいずれかの分類軸が選択操作されると、多次元分類軸表示部分の内容をこの選択した多次元分類軸で置き換えて表示する。
なお、本実施形態では、次元数が2次元である場合を示したが、多次元表示手段1051は、3次元以上の次元数の多次元分類軸についても、同様の処理に従って表示することができる。この場合、多次元表示手段1051は、多次元分類軸表示部分に3次元以降の分類軸を追加して表示することによって、データの一覧表示を行う。
次に、多次元表示手段1051が表形式で情報を表示する場合を説明する。図21は、多次元表示手段1051が表形式で表示する情報の例を示す図である。図21に示すように、多次元表示手段1051は、多次元分類表、データ一覧、及び多次元分類軸候補一覧の表示部分を含む表示画面を表示する。
多次元表示手段1051は、多次元分類表には、多次元分類軸候補のうち最も優先度の高い多次元分析軸を用いて、横軸に第1次元の情報を表示し、縦軸に第2次元の情報を表示する。なお、3次元以上の多次元分類表である場合には、多次元表示手段1051は、縦軸や横軸に更にもう1次元分の情報を追加して表示する。例えば、多次元分類表が3次元である場合、多次元表示手段1051は、横軸に第1次元の情報を表示し、その隣に第3次元の情報を表示し、縦軸に第2次元の情報を配置して表示する。また、多次元表示手段1051は、表の各セルには、どのようなデータが存在するかを示す情報を表示する。本実施形態では、多次元表示手段1051は、データID群とその数を表示している。
また、多次元表示手段1051は、多次元分類表のいずれかのセルを選択した際に、その選択したセルに対応するデータ一覧を表示する。本実施形態では、多次元表示手段1051は、データID、コンテンツ及び分類項目を表示する。なお、多次元表示手段1051は、これらの情報を、データ蓄積部203が記憶する情報を参照して表示する。
また、多次元表示手段1051は、多次元分類軸候補一覧において、優先度を計算した多次元分類軸を優先度順に表示する。なお、多次元表示手段1051は、これらの情報を、第2の多次元指標計算手段1032が計算した結果から得ることができる。
次に、表形式で情報を表示する場合の多次元表示手段1051の動作について説明する。まず、多次元表示手段1051は、初期表示として、多次元分類表に、優先度の最も高い多次元分類軸を表示する。この場合、多次元表示手段1051は、前述した方法に従って横軸と縦軸とを表示する。なお、多次元表示手段1051は、データ一覧には、まだ何も表示しない。
次に、多次元表示手段1051は、多次元分類表のいずれかのセルが選択操作された場合、この選択操作されたセルに対応するデータをデータ一覧に表示する。
次に、多次元表示手段1051は、多次元分類軸候補一覧からいずれかの多次元分類軸が選択操作された場合、この選択操作された分類軸を多次元分類表の各軸として表示し直す。
以上に説明したように、本実施形態によれば、第2の多次元指標計算手段1033が求めた多次元の分類軸、優先度及びデータを、一覧形式又は表形式で表示する。そのため、ユーザに対して、多次元の分類軸の選択状況や優先度、データを視覚的に認識させることができる。
(第7の実施形態)
次に、本発明の第7の実施形態について説明する。図22は、第7の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図22に示すように、本実施形態では、データ分類システムが、図19に示した構成要素に加えて、検索手段106を含む点で、第6の実施形態と異なる。
検索手段106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。検索手段106は、入力手段101から検索キーワードと分類項目数とを受け取り(入力し)、データ蓄積部203が記憶するコンテンツやその他の属性部分の情報を検索する機能を備える。また、検索手段106は、検索結果データID群を取得(抽出)し、分類軸候補絞込み手段1021に渡す(出力する)機能を備える。なお、検索手段106は、検索処理を実行する場合に、既存の全文検索エンジンやリレーショナルデータベースの手法を用いて、コンテンツや属性部分の情報を検索する。
本実施形態では、データ分類システムが、データ蓄積部203から検索結果のデータID群を選択したデータベースに対して処理を行う点が、第6の実施形態と異なる。なお、データ分類システムが実行するその他の処理は、第6の実施形態で示した処理と同様である。
なお、本実施形態において、データ分類システムは、第2の多次元指標計算手段1033に代えて、多次元指標計算手段1032を用いて処理を実行してもよい。更に、データ分類システムは、多次元分類軸作成手段1023を含まず、第2の多次元指標計算手段1033に代えて、指標計算手段103又は第2の指標計算手段1031を用いて処理を実行してもよい。また、データ分類システムは、多次元表示手段1051に代えて表示手段105を用いて処理を実行してもよい。
上記の構成によって、ユーザの検索結果に対してのみ多次元分類軸、又は分類軸を表示することができる。
以上に説明したように、本実施形態によれば、データ蓄積部203が記憶するコンテンツやその他の属性部分の情報を検索し、検索した情報についてのみ分類軸候補の絞り込みを行う。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、より効率的に分類軸の優先度の計算時間を短縮することができる。
(第8の実施形態)
次に、本発明の第8の実施形態について説明する。図23は、第8の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図23に示すように、本実施形態では、データ分類システムが、図22に示した構成要素に加えて、データ対応付け手段107を含む点で、第7の実施形態と異なる。
データ対応付け手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。データ対応付け手段107は、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、データと分類項目との対応付けを行う機能を備える。なお、データ対応付け手段107は、対応付け方法として、分類項目名のデータのコンテンツ中の出現による方法や、分類項目名とデータとのコンテンツのコサイン類似度を測る方法等の既存の手法を用いて、対応付けを行うことができる。
なお、データ対応付け手段107は、多次元分類候補作成手段1023が分類軸候補を作成する前に、対応付けを行うことが望ましい。
なお、本実施形態において、データ分類システムは、第2の多次元指標計算手段1033に代えて、多次元指標計算手段1032を用いて処理を実行してもよい。更に、データ分類システムは、多次元分類軸作成手段1023を含まず、第2の多次元指標計算手段1033に代えて、指標計算手段103又は第2の指標計算手段1031を用いて処理を実行してもよい。また、データ分類システムは、多次元表示手段1051に代えて、表示手段105を用いて処理を実行してもよい。
以上に説明したように、本実施形態によれば、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、データと分類項目との対応付けを行った上で、分類軸候補の絞り込みを行う。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、より的確に分類軸の優先度の計算時間を短縮することができる。
次に、データ分類システムの最小構成について説明する。図24は、データ分類システムの最小の構成例を示すブロック図である。図24に示すように、データ分類システムは、最小の構成要素として、基準項目蓄積部202、分類軸候補絞込み手段1021、及び指標計算手段103を含む。
基準項目蓄積部202は、分類項目を選択するための基準項目となる分類項目群を予め蓄積する。また、分類軸候補絞込み手段1021は、基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む機能を備える。また、指標計算手段103は、分類軸候補絞込み手段1021が絞り込んだ分類軸候補について、当該分類軸候補を表示する優先度を計算する機能を備える。
図24に示す最小構成のデータ分類システムによれば、分類階層とその分類項目とに対応するデータ群が与えられたときに、分類軸の優先度の計算時間を短縮することができる。
なお、上記の各実施形態では、以下の(1)〜(14)に示すようなデータ分類システムの特徴的構成が示されている。
(1)データ分類システムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類システムであって、分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段(例えば、基準項目蓄積部202によって実現される)と、基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込手段(例えば、分類軸候補絞込み手段1021によって実現される)と、分類軸絞込手段が絞り込んだ分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算手段(例えば、指標計算手段103によって実現される)とを備える。
(2)データ分類システムにおいて、分類軸絞込手段は、分類項目に対応するデータ量が所定数以上であること、又は分類項目に対応するデータ量が上位所定割合以内であることのうちの少なくともいずれか一方の条件と、分類項目間の共通祖先までの長さが特定の範囲内であることという条件とを満たす分類軸を選択するように構成されていてもよい。
(3)データ分類システムにおいて、優先度計算手段は、分類階層における分類項目間の共通の先祖までの長さに応じて、優先度を決定するように構成されていてもよい。
(4)データ分類システムにおいて、優先度計算手段は、分類階層における分類項目間の階層的な距離を計算し、更に、分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、分類軸候補の優先度を決定するように構成されていてもよい。
(5)データ分類システムは、分類軸絞込手段が絞り込んだ分析軸候補と、優先度計算手段が計算した優先度とを読み込み、データ群とともに表示制御する表示制御手段(例えば、表示手段105によって実現される)を備え、表示制御手段は、分類軸候補を優先度順に表示し、分類軸候補を選択することによって分類軸を切り替えて表示し、分類軸内の分類項目を選択することによって、データ群を選択又は絞り込み可能であるように構成されていてもよい。
(6)データ分類システムは、データ群を検索キーワードに基づいて検索し、データ群を検索した結果を分類軸候補絞込手段に出力するデータ検索手段(例えば、検索手段106によって実現される)を備え、分類軸絞込手段は、データ検索手段の検索結果に基づいて分類軸候補を絞り込み、優先度計算手段は、データ検索手段が検索したデータ群に対応する分類軸の優先度を計算するように構成されていてもよい。
(7)データ分類システムは、階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段(例えば、データ対応付け手段107によって実現される)を備えるように構成されていてもよい。
(8)データ分類システムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するデータ分類システムであって、分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段(例えば、基準項目蓄積部202によって実現される)と、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離と、に基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込手段(例えば、分類軸候補絞込み手段1021によって実現される)と、分類軸絞込手段が絞り込んだ分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成手段(例えば、多次元分類候補作成手段1023によって実現される)と、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算手段(例えば、多次元指標計算手段1032によって実現される)と、を備えるように構成されていてもよい。
(9)データ分類システムにおいて、分類軸絞込手段は、各次元の分類軸の分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内である分類項目を含み、且つ各次元の分類軸の分類項目間の階層的な距離として分類項目間の共通祖先までの長さが特定の範囲内となる分類項目を含む多次元分類軸を選択するように構成されていてもよい。
(10)データ分類システムにおいて、多次元優先度計算手段は、各次元の分類軸の分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更するように構成されていてもよい。
(11)データ分類システムにおいて、多次元優先度計算手段は、各次元の分類軸の分類階層における分類項目間の階層的な距離を計算し、更に、各次元の分類軸の分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、多次元分類軸候補の優先度を決定するように構成されていてもよい。
(12)データ分類システムは、分類軸絞込手段が絞り込んだ多次元分析軸候補と、多次元優先度計算手段が計算した優先度とを読み込み、データ群とともに一覧形式又は表形式で表示制御する多次元表示制御手段(例えば、多次元表示手段1051によって実現される)を備え、多次元表示制御手段は、多次元分析軸候補を選択し、各次元の分類項目を表形式又は一覧形式に配置して表示し、1つ又は複数の分類項目を選択することによって、選択した分類項目に対応するデータの数、データ名、データ属性又は特徴語のうちの少なくともいずれか1つを表示するように構成されていてもよい。
(13)データ分類システムは、データ群を検索キーワードに基づいて検索し、データ群を検索した結果を多次元分類軸候補絞込手段に出力するデータ検索手段(例えば、検索手段106によって実現される)を備えるように構成されていてもよい。
(14)データ分類システムは、階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段(例えば、データ対応付け手段107によって実現される)を備えるように構成されていてもよい。
本発明は、上述の実施形態に限定されず、本発明の主旨を逸脱しない範囲で、適宜修正や変更が可能である。
本発明は、大量文書群の概要把握を支援するための文書分類装置や、このような文書分類装置を実現するためのプログラムの用途に適用できる。また、本発明は、大量の画像を分類して表示する分類表示装置や、かかる分類表示装置を実現するためのプログラムの用途にも適用可能である。
101 入力手段
103 指標計算手段
104 出力手段
105 表示手段
106 検索手段
107 データ対応付け手段
201 分類階層蓄積部
202 基準項目蓄積部
203 データ蓄積部
1021 分類軸候補絞込み手段
1023 多次元分類候補作成手段
1031 第2の指標計算手段
1032 多次元指標計算手段
1033 第2の多次元指標計算手段
1051 多次元表示手段

Claims (32)

  1. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類システムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、
    前記基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込手段と、
    前記分類軸絞込手段が絞り込んだ分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算手段と
    を備える、データ分類システム。
  2. 請求項1に記載のデータ分類システムであって、
    分類軸絞込手段は、分類項目に対応するデータ量が所定数以上であること、又は前記分類項目に対応するデータ量が上位所定割合以内であることのうちの少なくともいずれか一方の条件と、分類項目間の共通祖先までの長さが特定の範囲内であることという条件とを満たす分類軸を選択する、データ分類システム。
  3. 請求項1に記載のデータ分類システムであって、
    優先度計算手段は、分類階層における分類項目間の共通の先祖までの長さに応じて、優先度を決定する、データ分類システム。
  4. 請求項1に記載のデータ分類システムであって、
    優先度計算手段は、分類階層における分類項目間の階層的な距離を計算し、更に、分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、分類軸候補の優先度を決定する、データ分類システム。
  5. 請求項1に記載のデータ分類システムであって、
    分類軸絞込手段が絞り込んだ分析軸候補と、優先度計算手段が計算した優先度とを読み込み、データ群とともに表示制御する表示制御手段を更に備え、
    前記表示制御手段は、前記分類軸候補を優先度順に表示し、前記分類軸候補を選択することによって分類軸を切り替えて表示し、分類軸内の分類項目を選択することによって、データ群を選択又は絞り込み可能である、データ分類システム。
  6. 請求項1に記載のデータ分類システムであって、
    データ群を検索キーワードに基づいて検索し、前記データ群を検索した結果を分類軸候補絞込手段に出力するデータ検索手段を備え、
    前記分類軸絞込手段は、前記データ検索手段の検索結果に基づいて分類軸候補を絞り込み、
    優先度計算手段は、前記データ検索手段が検索したデータ群に対応する分類軸の優先度を計算する、データ分類システム。
  7. 請求項1に記載のデータ分類システムであって、
    階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段を備える、データ分類システム。
  8. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するデータ分類システムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、
    前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込手段と、
    前記分類軸絞込手段が絞り込んだ分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成手段と、
    分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算手段と
    を備える、データ分類システム。
  9. 請求項8に記載のデータ分類システムであって、
    分類軸絞込手段は、各次元の分類軸の分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内である分類項目を含み、且つ各次元の分類軸の分類項目間の階層的な距離として分類項目間の共通祖先までの長さが特定の範囲内となる分類項目を含む多次元分類軸を選択する、データ分類システム。
  10. 請求項8に記載のデータ分類システムであって、
    多次元優先度計算手段は、各次元の分類軸の分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更する、データ分類システム。
  11. 請求項8に記載のデータ分類システムであって、
    多次元優先度計算手段は、各次元の分類軸の分類階層における分類項目間の階層的な距離を計算し、更に、各次元の分類軸の分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、多次元分類軸候補の優先度を決定する、データ分類システム。
  12. 請求項8に記載のデータ分類システムであって、
    分類軸絞込手段が絞り込んだ多次元分析軸候補と、多次元優先度計算手段が計算した優先度とを読み込み、データ群とともに一覧形式又は表形式で表示制御する多次元表示制御手段を備え、
    前記多次元表示制御手段は、前記多次元分析軸候補を選択し、各次元の分類項目を表形式又は一覧形式に配置して表示し、1つ又は複数の分類項目を選択することによって、選択した分類項目に対応するデータの数、データ名、データ属性又は特徴語のうちの少なくともいずれか1つを表示する、データ分類システム。
  13. 請求項8に記載のデータ分類システムであって、
    データ群を検索キーワードに基づいて検索し、前記データ群を検索した結果を多次元分類軸候補絞込手段に出力するデータ検索手段を更に備える、データ分類システム。
  14. 請求項8に記載のデータ分類システムであって、
    階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段を更に備える、データ分類システム。
  15. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類方法であって、
    基準項目蓄積手段が、前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積する基準項目蓄積行程と、
    分類軸絞込手段が、前記基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込行程と、
    優先度計算手段が、絞り込んだ前記分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算行程と
    を含む、データ分類方法。
  16. 請求項15に記載のデータ分類方法であって、
    前記分類軸絞込手段が実行する分類軸絞込行程は、分類項目に対応するデータ量が所定数以上であること、又は前記分類項目に対応するデータ量が上位所定割合以内であることのうちの少なくともいずれか一方の条件と、分類項目間の共通祖先までの長さが特定の範囲内であることという条件とを満たす分類軸を選択する、データ分類方法。
  17. 請求項15に記載のデータ分類方法であって、
    前記優先度計算手段が実行する優先度計算行程は、分類階層における分類項目間の共通の先祖までの長さに応じて、優先度を決定する、データ分類方法。
  18. 請求項15に記載のデータ分類方法であって、
    前記優先度計算手段が実行する優先度計算行程は、分類階層における分類項目間の階層的な距離を計算し、更に、分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、分類軸候補の優先度を決定する、データ分類方法。
  19. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するデータ分類方法であって、
    基準項目蓄積手段が、前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積する基準項目蓄積行程と、
    分類軸絞込手段が、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込行程と、
    多次元分類軸作成手段が、絞り込んだ前記分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成行程と、
    多次元優先度計算手段が、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算行程と
    を含む、データ分類方法。
  20. 請求項19に記載のデータ分類方法であって、
    前記分類軸絞込手段が実行する分類軸絞込行程は、各次元の分類軸の分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内である分類項目を含み、且つ各次元の分類軸の分類項目間の階層的な距離として分類項目間の共通祖先までの長さが特定の範囲内となる分類項目を含む多次元分類軸を選択する、データ分類方法。
  21. 請求項19に記載のデータ分類方法であって、
    前記多次元優先度計算手段が実行する多次元優先度計算行程は、各次元の分類軸の分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更する、データ分類方法。
  22. 請求項19に記載のデータ分類方法であって、
    前記多次元優先度計算手段が実行する多次元優先度計算行程は、各次元の分類軸の分類階層における分類項目間の階層的な距離を計算し、更に、各次元の分類軸の分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、多次元分類軸候補の優先度を決定する、データ分類方法。
  23. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するためのデータ分類プログラムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、
    前記基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とし、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込処理と、
    絞り込んだ前記分類軸候補について、当該分類軸候補を表示する優先度を計算する優先度計算処理と
    を実行させる、データ分類プログラム。
  24. 請求項23に記載のデータ分類プログラムであって、
    コンピュータに、
    分類軸絞込処理にて、分類項目に対応するデータ量が所定数以上であること、又は前記分類項目に対応するデータ量が上位所定割合以内であることのうちの少なくともいずれか一方の条件と、分類項目間の共通祖先までの長さが特定の範囲内であることという条件とを満たす分類軸を選択する処理を実行させる、データ分類プログラム。
  25. 請求項23に記載のデータ分類プログラムであって、
    コンピュータに、
    分類軸絞込処理で絞り込んだ分析軸候補と、優先度計算処理で計算した優先度とを読み込み、データ群とともに表示制御する表示制御処理を実行させ、
    前記表示制御処理にて、前記分類軸候補を優先度順に表示し、前記分類軸候補を選択することによって分類軸を切り替えて表示し、分類軸内の分類項目を選択することによって、データ群を選択又は絞り込み可能に処理を実行させる、データ分類プログラム。
  26. 請求項23に記載のデータ分類プログラムであって、
    コンピュータに、
    データ群を検索キーワードに基づいて検索し、前記データ群を検索した結果を出力するデータ検索処理を実行させ、
    分類軸絞込処理にて、前記データ検索処理の検索結果に基づいて分類軸候補を絞り込む処理を実行させ、
    優先度計算処理にて、前記データ検索処理で検索したデータ群に対応する分類軸の優先度を計算する処理を実行させる、データ分類プログラム。
  27. 請求項23に記載のデータ分類プログラムであって、
    コンピュータに、
    階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け処理を実行させる、データ分類プログラム。
  28. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを多次元分類軸として出力するためのデータ分類プログラムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、
    前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む分類軸絞込処理と、
    絞り込んだ前記分類軸候補を組合せることによって、多次元の分類軸候補を作成する多次元分類軸作成処理と、
    分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する多次元優先度計算処理と
    を実行させる、データ分類プログラム。
  29. 請求項28に記載のデータ分類プログラムであって、
    コンピュータに、
    分類軸絞込処理にて、各次元の分類軸の分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内である分類項目を含み、且つ各次元の分類軸の分類項目間の階層的な距離として分類項目間の共通祖先までの長さが特定の範囲内となる分類項目を含む多次元分類軸を選択する処理を実行させる、データ分類プログラム。
  30. 請求項28に記載のデータ分類プログラムであって、
    コンピュータに、
    分類軸絞込処理で絞り込んだ多次元分析軸候補と、多次元優先度計算処理で計算した優先度とを読み込み、データ群とともに一覧形式又は表形式で表示制御する多次元表示制御処理を実行させ、
    前記多次元表示制御処理で、前記多次元分析軸候補を選択し、各次元の分類項目を表形式又は一覧形式に配置して表示し、1つ又は複数の分類項目を選択することによって、選択した分類項目に対応するデータの数、データ名、データ属性又は特徴語のうちの少なくともいずれか1つを表示する処理を実行させる、データ分類プログラム。
  31. 請求項28に記載のデータ分類プログラムであって、
    コンピュータに、
    データ群を検索キーワードに基づいて検索し、前記データ群を検索した結果を出力するデータ検索処理を実行させる、データ分類プログラム。
  32. 請求項28に記載のデータ分類プログラムであって、
    コンピュータに、
    階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け処理を実行させる、データ分類プログラム。
JP2010522625A 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム Active JP5500070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010522625A JP5500070B2 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008195895 2008-07-30
JP2008195895 2008-07-30
PCT/JP2009/003601 WO2010013472A1 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム
JP2010522625A JP5500070B2 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム

Publications (2)

Publication Number Publication Date
JPWO2010013472A1 JPWO2010013472A1 (ja) 2012-01-05
JP5500070B2 true JP5500070B2 (ja) 2014-05-21

Family

ID=41610186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010522625A Active JP5500070B2 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム

Country Status (3)

Country Link
US (1) US9342589B2 (ja)
JP (1) JP5500070B2 (ja)
WO (1) WO2010013472A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361367B2 (en) 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
JP6473645B2 (ja) * 2015-03-30 2019-02-20 株式会社日立ソリューションズ東日本 情報表示装置
JP6641936B2 (ja) * 2015-12-01 2020-02-05 富士通株式会社 情報処理装置、情報処理プログラム、及び情報処理方法
AU2018313274B2 (en) * 2017-08-11 2022-06-30 Ancestry.Com Operations Inc. Diversity evaluation in genealogy search
US11500884B2 (en) 2019-02-01 2022-11-15 Ancestry.Com Operations Inc. Search and ranking of records across different databases

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2006171931A (ja) * 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム
JP2007102309A (ja) * 2005-09-30 2007-04-19 Mitsubishi Electric Corp 自動分類装置

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251144A (en) 1991-04-18 1993-10-05 Texas Instruments Incorporated System and method utilizing a real time expert system for tool life prediction and tool wear diagnosis
JPH0573615A (ja) 1991-09-17 1993-03-26 Kobe Nippon Denki Software Kk 階層構造型情報の管理方式
JP3096353B2 (ja) 1992-04-22 2000-10-10 株式会社戸上電機製作所 データの分類方法
US5325445A (en) 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
EP0582885A3 (en) 1992-08-05 1997-07-02 Siemens Ag Procedure to classify field patterns
US5353346A (en) 1992-12-22 1994-10-04 Mpr Teltech, Limited Multi-frequency signal detector and classifier
US5640492A (en) 1994-06-30 1997-06-17 Lucent Technologies Inc. Soft margin classifier
US5596993A (en) 1994-09-21 1997-01-28 Beth Israel Hospital Fetal data processing system and method
US5561431A (en) 1994-10-24 1996-10-01 Martin Marietta Corporation Wavelet transform implemented classification of sensor data
JP3577819B2 (ja) 1995-07-14 2004-10-20 富士ゼロックス株式会社 情報探索装置及び情報探索方法
JPH0981585A (ja) 1995-09-14 1997-03-28 Ricoh Co Ltd 電子ファイリング装置
JP3670076B2 (ja) 1996-03-07 2005-07-13 松下電器産業株式会社 データ表示装置
US5765029A (en) 1996-05-08 1998-06-09 Xerox Corporation Method and system for fuzzy image classification
US5930392A (en) * 1996-07-12 1999-07-27 Lucent Technologies Inc. Classification technique using random decision forests
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5956721A (en) * 1997-09-19 1999-09-21 Microsoft Corporation Method and computer program product for classifying network communication packets processed in a network stack
US6185328B1 (en) * 1998-01-21 2001-02-06 Xerox Corporation Method and system for classifying and processing of pixels of image data
US6229923B1 (en) * 1998-01-21 2001-05-08 Xerox Corporation Method and system for classifying and processing of pixels of image data
JPH11306187A (ja) 1998-04-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> カテゴリ付文書の検索結果の提示処理方法およびその装置
US6304773B1 (en) * 1998-05-21 2001-10-16 Medtronic Physio-Control Manufacturing Corp. Automatic detection and reporting of cardiac asystole
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
JP3665480B2 (ja) 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6185336B1 (en) * 1998-09-23 2001-02-06 Xerox Corporation Method and system for classifying a halftone pixel based on noise injected halftone frequency estimation
JP2000171931A (ja) 1998-09-30 2000-06-23 Fuji Photo Film Co Ltd 写真用固体微粒子分散物、その製造方法、及びそれを含有するハロゲン化銀写真感光材料
US6421683B1 (en) * 1999-03-31 2002-07-16 Verizon Laboratories Inc. Method and product for performing data transfer in a computer system
US6907566B1 (en) * 1999-04-02 2005-06-14 Overture Services, Inc. Method and system for optimum placement of advertisements on a webpage
US7185075B1 (en) 1999-05-26 2007-02-27 Fujitsu Limited Element management system with dynamic database updates based on parsed snooping
US7363359B1 (en) 1999-05-26 2008-04-22 Fujitsu Limited Element management system with automatic remote backup of network elements' local storage
WO2000075788A1 (en) 1999-05-26 2000-12-14 Fujitsu Network Communications, Inc. Network element management system
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
US6671680B1 (en) * 2000-01-28 2003-12-30 Fujitsu Limited Data mining apparatus and storage medium storing therein data mining processing program
JP2001216306A (ja) 2000-01-31 2001-08-10 Hitachi Ltd カテゴリ作成装置
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7113934B2 (en) 2000-05-25 2006-09-26 Fujitsu Limited Element management system with adaptive interfacing selected by last previous full-qualified managed level
US6459974B1 (en) * 2001-05-30 2002-10-01 Eaton Corporation Rules-based occupant classification system for airbag deployment
US7028024B1 (en) * 2001-07-20 2006-04-11 Vignette Corporation Information retrieval from a collection of information objects tagged with hierarchical keywords
AUPR824401A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
JP4404533B2 (ja) * 2002-08-30 2010-01-27 株式会社ニデック 眼内レンズの製造方法及び該方法にて得られる眼内レンズ
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP4305083B2 (ja) 2003-07-14 2009-07-29 富士ゼロックス株式会社 単語間類似度計算装置およびプログラム
JP4451624B2 (ja) 2003-08-19 2010-04-14 富士通株式会社 情報体系対応付け装置および対応付け方法
US7877238B2 (en) * 2003-09-12 2011-01-25 Sysmex Corporation Data classification supporting method, computer readable storage medium, and data classification supporting apparatus
US7577655B2 (en) 2003-09-16 2009-08-18 Google Inc. Systems and methods for improving the ranking of news articles
KR20050045746A (ko) * 2003-11-12 2005-05-17 삼성전자주식회사 계층 구조의 가변 블록 크기를 이용한 움직임 추정 방법및 장치
JP2005267604A (ja) * 2004-02-18 2005-09-29 Fuji Xerox Co Ltd 動作分類支援装置および動作分類装置
US7710897B2 (en) 2004-08-26 2010-05-04 Fujitsu Limited Automatic discovery of logical network elements from existing links in a network
JP4671164B2 (ja) 2004-11-11 2011-04-13 日本電気株式会社 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
WO2006087854A1 (ja) 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
TW200622402A (en) * 2004-12-28 2006-07-01 Innolux Display Corp Liquid crystal panel and its cutting method
JP2006285419A (ja) * 2005-03-31 2006-10-19 Sony Corp 情報処理装置および方法、並びにプログラム
US7912871B2 (en) * 2005-07-27 2011-03-22 Technion Research And Development Foundation Ltd. Incremental validation of key and keyref constraints
JP4992715B2 (ja) 2005-08-04 2012-08-08 日本電気株式会社 データ処理装置、データ処理方法、データ処理プログラム
FR2902913A1 (fr) * 2006-06-21 2007-12-28 France Telecom Procede et dispositif de codage d'une note de similarite semantique et spatiale entre concepts d'une ontologie memorisee sous forme de treillis numerote hierarchiquement
US7873616B2 (en) * 2006-07-07 2011-01-18 Ecole Polytechnique Federale De Lausanne Methods of inferring user preferences using ontologies
US8001130B2 (en) 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US7912875B2 (en) * 2006-10-31 2011-03-22 Business Objects Software Ltd. Apparatus and method for filtering data using nested panels
US8065307B2 (en) 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
EP2111593A2 (en) 2007-01-26 2009-10-28 Information Resources, Inc. Analytic platform
US20080221983A1 (en) * 2007-03-06 2008-09-11 Siarhei Ausiannik Network information distribution system and a method of advertising and search for supply and demand of products/goods/services in any geographical location
CN101295305B (zh) 2007-04-25 2012-10-31 富士通株式会社 图像检索装置
US8229881B2 (en) 2007-07-16 2012-07-24 Siemens Medical Solutions Usa, Inc. System and method for creating and searching medical ontologies
KR100930799B1 (ko) * 2007-09-17 2009-12-09 한국전자통신연구원 자동화된 클러스터링 방법 및 이를 이용한 이동통신환경에서 다중 경로의 클러스터링 방법 및 장치
JP4998237B2 (ja) 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
US9361367B2 (en) 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
US9378202B2 (en) * 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2006171931A (ja) * 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム
JP2007102309A (ja) * 2005-09-30 2007-04-19 Mitsubishi Electric Corp 自動分類装置

Also Published As

Publication number Publication date
JPWO2010013472A1 (ja) 2012-01-05
US9342589B2 (en) 2016-05-17
WO2010013472A1 (ja) 2010-02-04
US20110153615A1 (en) 2011-06-23

Similar Documents

Publication Publication Date Title
JP5423676B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
JP5063682B2 (ja) 文書データベースにおける文書の領域識別のための方法
US7778952B2 (en) Displaying facts on a linear graph
US8280886B2 (en) Determining candidate terms related to terms of a query
CN101692223B (zh) 响应于用户输入精炼搜索空间
US20080040342A1 (en) Data processing apparatus and methods
JP5187313B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
KR20160083017A (ko) 소셜 데이터 네트워크에서 인플루언서들 및 그들의 커뮤니티를 식별하기 위한 시스템 및 방법
JP5500070B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
Mazeika et al. Entity timelines: visual analytics and named entity evolution
Crespo Azcarate et al. Improving image retrieval effectiveness via query expansion using MeSH hierarchical structure
US10896163B1 (en) Method and apparatus for query formulation
Zigkolis et al. Collaborative event annotation in tagged photo collections
JPWO2014049708A1 (ja) 文書分析装置およびプログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Hoang et al. Crowdsourcing scholarly data
JP2006099753A (ja) 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置
KR101078978B1 (ko) 문서 분류 시스템
KR101201218B1 (ko) 니치 기술 영역 발견을 지원하는 니치 기술 영역 발견을 지원하는 특허 정보 처리 방법
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Alahmari et al. Linked Data and Entity Search: A Brief History and Some Ways Ahead.
KR20150057497A (ko) 온라인 텍스트 문서의 계층적 트리 기반 주제탐색 방법 및 시스템
Rástočný et al. Web search results exploration via cluster-based views and zoom-based navigation
US11681700B1 (en) Methods and apparatuses for clustered storage of information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140225

R150 Certificate of patent or registration of utility model

Ref document number: 5500070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150