JP5423676B2 - データ分類システム、データ分類方法、及びデータ分類プログラム - Google Patents

データ分類システム、データ分類方法、及びデータ分類プログラム Download PDF

Info

Publication number
JP5423676B2
JP5423676B2 JP2010522626A JP2010522626A JP5423676B2 JP 5423676 B2 JP5423676 B2 JP 5423676B2 JP 2010522626 A JP2010522626 A JP 2010522626A JP 2010522626 A JP2010522626 A JP 2010522626A JP 5423676 B2 JP5423676 B2 JP 5423676B2
Authority
JP
Japan
Prior art keywords
classification
data
item
items
axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010522626A
Other languages
English (en)
Other versions
JPWO2010013473A1 (ja
Inventor
弘紀 水口
健二 立石
格 細見
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010522626A priority Critical patent/JP5423676B2/ja
Publication of JPWO2010013473A1 publication Critical patent/JPWO2010013473A1/ja
Application granted granted Critical
Publication of JP5423676B2 publication Critical patent/JP5423676B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ分類システム、データ分類方法、及びデータ分類プログラムに関する。
本願は、2008年7月30日に、日本に出願された特願2008−195896号に基づき優先権を主張し、その内容をここに援用する。
データ整理を行う場合、大量のデータを整理するために階層的な分類項目を付与することが多い。例えば、非特許文献1に記載されているデータベースでは、各文献にMeSHタームと呼ばれる階層的な分類項目が付与されている。また、例えば、特許庁が運営する特許データベースにおいても、各特許文献にFターム等の階層的な分類項目を複数付与している。以下、このようなデータに付与される階層的な分類項目を分類階層という。
また、非特許文献2には、上記のような分類階層を付与した文書群を閲覧できる関連技術が記載されている。非特許文献2には、OLAPとよばれる多面的なデータ表示方法を拡張し、階層が非常に大きな場合でも高速に処理できるようにしたシステムが記載されている。非特許文献2に記載された関連技術では、ユーザが分類項目を選択することにより、その分類項目に含まれるデータ件数等を高速に表示することができる。また、非特許文献2に記載された関連技術では、縦軸の分類項目と横軸の分類項目とをユーザが選択し、その結果を表形式で表示する。
上記のようにすることにより、非特許文献2に記載された関連技術では、複数の分類項目が付与されている文書を一覧表示することができる。以下、データを表示する際に用いる一定の意味的なまとまりをもった分類項目群を分類軸という。
しかし、分類階層が非常に大きい場合、ユーザがどの分類項目を選んだらよいのか判断するのは難しい。例えば、非特許文献2に記載されたシステムで用いている文書群では、文書数が約50万件存在し、分類項目数が約34万分類存在する。従って、この分類階層中から表示したい分類項目をユーザが選択することは非常に困難である。
また、非特許文献3には、関連する分類項目選択方法が記載されている。非特許文献3には、文書検索において検索結果文書リストとともに、それら検索結果文書リストに関連する分類軸を表示する方法が示されている。非特許文献3に記載された方法では、キーワードを入力して文書を検索し、検索結果文書を表示するとともに、検索結果文書群に予め付与された分類項目を複数表示し分類軸とする。また、分類軸を表示する際に、表示領域が限られているため分類項目を選択する。
また、非特許文献3には、分類項目のうち、検索結果文書が多い分類項目から順番に決められた上限まで選択する方法や、検索結果文書群を最も多く表示できる分類項目の組合せを選択する方法が記載されている。更に、非特許文献3には、全てのコンテンツを表示するクリック回数等のコストを最小にする方法が示されている。
"PubMed"、National Center for Biotechnology Information、[平成20年7月4日検索]、インターネット<URL:http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed 猪口、武田、"テキスト分析のためのOLAPシステム"、情報処理学会論文誌、vol.48、No.SIG11(TOD34)、p.58-p.68 Wisam Dakka, Panagiotis G. Ipeirotis, Kenneth R. Wood,"Automatic Construction of Multifaceted Browsing Interfaces", Proc.of CIKM’05, p.768-p.775.
しかし、非特許文献1〜非特許文献3に記載された関連技術を用いたとしても、データの分布に基づいたデータ分類を行っているにすぎず、ユーザにわかりやすい分類項目を選択できない。その理由は、非特許文献1〜非特許文献3に記載された関連技術では、分類項目の階層間の意味的な独立性を考慮していないためである。
分類軸を用いて概要把握や絞り込みを行う場合、分類軸内の分類項目間において、ある程度独立した意味の語が含まれることが望ましい。なぜなら、類似した分類項目間では、ユーザがその分類項目間の違いを理解できないためである。また、類似した分類項目間では、同じデータが対応していることが多く、概要把握や絞り込みを行う場合には使いにくい。
例えば、図8に示す分類階層の場合について考える。なお、図8に示す分類階層は、例えば、文献「Wikimedia Foundation Inc., Wikipedia, http://ja.wikipedia.org/」に記載されている。図8に示す例では、この分類階層は分類項目「主要カテゴリー」を根とし、各ノードは分類項目を示している。また、図中に示す矢印は、分類項目間の親子関係を示している。また、図中に示す「・・・」は、その他のノード又は部分階層があることを示している。
分類階層は、理想的には、木構造、又はダイレクト・アサイクリック・グラフ構造(方向ありサイクルなしのグラフ構造)であることが望ましい。図8に示す例では、分類項目「家族」と「家庭」は、類似した分類項目である。そのため、もしこの2つの分類項目が選択されてしまうと、対応するデータも似ていることが予想されるので、概要の把握や絞り込みを行う場合には使いにくい。この他にも、「外交」と「行政」や、「家族法」と「親族」、「政府」と「官公庁」等は、類似した分類項目であり、概要の把握や絞り込みを行う場合には使いにくい。
上記のように、分類階層はアドホックに作成されることが多いため、このように似た分類項目が同じ階層に出現することが多い。また、ある検索キーワードを用いて検索した結果データに基づいて分類項目を選択する場合にも、データ分布に基づいて選択を行うと、類似した分類項目が選ばれる。例えば、検索キーワード「家族」を用いて検索した結果を考える。この場合、このキーワード「家族」に適合するデータは、分類階層の「家族」や「家庭」に所属するデータが最も多いと思われる。従って、データ分布を利用してデータ量が最も多い分類項目を数個選択すると、「家族」や「家庭」が選ばれることになる。よって、分類項目間の意味的な独立性を考慮して、分類項目を選択できるようにすることが望ましい。
そこで、本発明が解決しようとする課題は、分類階層とその分類項目とに対応するデータ群が与えられたときに、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮して、ユーザに対してわかりやすい分類軸を提供することのできるデータ分類システム、データ分類方法、及びデータ分類プログラムを提供することである。
本発明は、上述の課題を解決するために為されたものであり、本発明に係るデータ分類システムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類システムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成手段と、分類階層における分類項目間の階層的な距離に基づいて、前記分類軸候補作成手段が作成した分類軸候補について、当該分類軸候補の優先度を計算する優先度計算手段と、を備える。
本発明に係るデータ分類システムの他の態様は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するデータ分類システムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成手段と、分類階層における分類項目間の階層的な距離に基づいて、前記多次元分類軸候補作成手段が作成した多次元分類軸候補について、当該多次元分類軸候補の優先度を計算する多次元優先度計算手段と、を備えるものとしてもよい。
本発明に係るデータ分類方法は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類方法であって、前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積し、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成行程と、分類階層における分類項目間の階層的な距離に基づいて、作成した前記分類軸候補について、当該分類軸候補の優先度を計算する優先度計算行程と、を含む。
本発明に係るデータ分類方法の他の態様は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するデータ分類方法であって、前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積し、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成行程と、分類階層における分類項目間の階層的な距離に基づいて、作成した前記多次元分類軸候補について、多次元分類軸候補の優先度を計算する多次元優先度計算行程と、を含むものとしてもよい。
本発明に係るデータ分類プログラムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するためのデータ分類プログラムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成処理と、分類階層における分類項目間の階層的な距離に基づいて、作成した前記分類軸候補について、当該分類軸候補の優先度を計算する優先度計算処理と、を実行させる。
本発明に係るデータ分類プログラムの他の態様は、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するためのデータ分類プログラムであって、前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成処理と、分類階層における分類項目間の階層的な距離に基づいて、作成した前記多次元分類軸候補について、多次元分類軸候補の優先度を計算する多次元優先度計算処理と、を実行させてもよい。
本発明によれば、優先度計算手段が分類項目間の階層的な距離に基づいて、独立性を考慮して分類軸候補の優先度を決定する。そのため、分類階層に似た分類項目がある場合であっても、ユーザに対してわかりやすい分類軸を提供することができる。
本発明に係るデータ分類システムの構成の一例を示すブロック図である。 分類階層蓄積部が記憶する情報の一例を示す図である。 基準項目蓄積部が記憶する情報の一例を示す図である。 データ蓄積部が記憶する情報の一例を示す図である。 データ分類システムが行うデータ分類処理の一例を示す流れ図である。 図6(A)は、分類軸ID、基準項目、分類項目群及びスコアを対応付けたレコードを含むテーブルの例を示す図である。図6(B)は、分類軸ID、分類項目及びデータID群を対応付けたレコードを含むテーブルの例を示す図である。 第2の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 分類階層の例を示す図である。 第2の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。 図10(A)は、分類項目別データ数表の例を示す図である。図10(B)は、データ別分類項目数表の例を示す図である。 図11(A)は、分類項目別データ数表の他の例を示す図である。図11(B)は、データ別分類項目数表の他の例を示す図である。 第3の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 第3の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。 分類軸候補絞込み手段における計算過程の一例を示す図である。 第4の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 表示手段が一覧形式で表示する情報の例を示す図である。 表示手段が表形式で表示する情報の例を示す図である。 第5の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 第5の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。 図20(A)は、次元IDと分類軸ID群とスコアとを対応づけたレコードを含むテーブルの例を示す図である。図20(B)は、分類軸IDと基準項目と分類項目群とを対応付けたレコードを含むテーブルの例を示す図である。図20(C)は、分類軸IDと分類項目とデータID群とを対応付けたレコードを含むテーブルの例を示す図である。 第6の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 図22(A)は、分類項目別データ数表の例を示す図である。図22(B)は、データ別分類項目数表の例を示す図である。 第7の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 第8の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 多次元表示手段が一覧形式で表示する情報の例を示す図である。 多次元表示手段が表形式で表示する情報の例を示す図である。 第9の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 第10の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。 データ分類システムの最小の構成例を示すブロック図である。
以下、具体的な実施形態を参照しながら、本発明について説明する。当業者であれば、本発明の記載を基に、多様な異なる実施形態を採り得るであろうし、本発明は、説明の目的で図示された実施形態に限定されるものではない。
以下、本発明の実施形態について説明する。まず、本発明によるデータ分類システムの概要について説明する。データ分類を行う場合、類似する分類項目は兄弟関係をもつ分類項目となることが多い。従って、分類項目の意味的な独立性を考慮するため、本発明では、分類項目間の階層的な距離を用いる。
本発明によるデータ分類システムは、分類階層とその分類項目に対応するデータ群とが与えられたときに、分類階層における分類項目間の階層的な距離に基づいて、その独立性を考慮して分類項目の優先度を決定する。具体的には、データ分類システムは、分類軸候補作成手段と、指標計算手段とを備える。分類軸候補作成手段は、少なくとも特定個数以上のデータと対応する分類項目との特定個数の組合せを分類軸候補として作成する。また、指標計算手段は、分類軸候補を受け取り(入力し)、その分類項目間の階層的な距離に基づいて優先度を計算するように動作する。
上記のような構成を採用し、指標計算手段が分類項目間の独立性を考慮することにより、ユーザに対してわかりやすい分類軸を提供するという本発明の目的を達成することができる。
また、本発明によるデータ分類システムは、分類軸候補絞込み手段と、指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離とが特定の条件を満たすように分類軸候補を作成する。また、指標計算手段は、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮して、分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、分類軸候補絞込み手段と、第2指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離とが特定の条件を満たすように分類軸候補を作成する。また、第2指標計算手段は、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮し、分類項目の分類階層での深さに基づいてその具体性を考慮し、分類項目に対応するデータ量に基づいて網羅性を考慮し、データの重複度合いに基づいて一意性を考慮して、分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、分類軸候補絞込み手段と、第2指標計算手段と、表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離とが特定の条件を満たすように分類軸候補を作成する。また、第2指標計算手段は、分類階層における分類項目間の階層的な距離に基づいてその独立性を考慮し、分類項目の分類階層での深さに基づいてその具体性を考慮し、分類項目に対応するデータ量に基づいて網羅性を考慮し、データの重複度合いに基づいて一意性を考慮して、分類軸候補の優先度を決定する。また、表示手段は、分類軸候補のうち優先度が高いものを分類軸として用いて、データ一覧と分類軸内の分類項目群とを表示する。
また、本発明によるデータ分類システムは、多次元分類軸候補作成手段と、多次元分類軸指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補作成手段は、複数の分類項目の組合せに基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離を用いて、多次元分類軸候補の優先度を計算する。
また、本発明によるデータ分類システムは、多次元分類軸候補作成手段と、第2の多次元分類軸指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補作成手段は、複数の分類項目の組合せに基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応するデータ量、又は対応するデータの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応するデータ量、又は対応するデータの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。
また、本発明によるデータ分類システムは、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段と、多次元表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、多次元分類軸候補絞込み手段は、分類項目に対応するデータ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応するデータ量、又は対応するデータの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。また、多次元表示手段は、各次元の分類軸とその分類項目とを表示し、分類項目の1つ又は複数を選択することによってデータ群を絞り込み、データ一覧を表示する。
また、本発明によるデータ分類システムは、データ検索手段と、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段と、多次元表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、データ検索手段は、データを検索し検索結果データ群を絞り込む。また、多次元分類軸候補絞込み手段は、分類項目に対応する検索結果データ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応する検索結果データ量、又は対応する検索結果データの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。また、多次元表示手段は、各次元の分類軸とその分類項目とを表示し、分類項目の1つ又は複数を選択することによってデータ群を絞り込み、検索結果データ一覧を表示する。
また、本発明によるデータ分類システムは、データ対応付け手段と、データ検索手段と、多次元分類軸候補絞込み手段と、第2の多次元分類軸指標計算手段と、多次元表示手段とを備える。分類階層とその分類項目に対応するデータ群が与えられたときに、データ対応付け手段は、分類項目とデータとの対応付けがないデータ、又は対応付けが不十分なデータに対して対応付けを行う。また、データ検索手段は、データを検索し検索結果データ群を絞り込む。また、多次元分類軸候補絞込み手段は、分類項目に対応する検索結果データ量と分類項目間の階層的な距離の条件とを満たす分類項目に基づいて分類軸を作成し、分類軸の組合せによって多次元分類軸を作成する。また、第2の多次元分類指標計算手段は、各次元の分類軸の分類項目間の階層的な距離だけでなく、各次元の分類軸の分類候補の分類階層での深さ、対応する検索結果データ量、又は対応する検索結果データの重複度合いのうちの少なくともいずれか1つを用いて、多次元分類軸候補の優先度を決定する。また、多次元表示手段は、各次元の分類軸とその分類項目とを表示し、分類項目の1つ又は複数を選択することによってデータ群を絞り込み、検索結果データ一覧を表示する。
(第1の実施形態)
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明によるデータ分類システムの構成の一例を示すブロック図である。図1に示すように、データ分類システムは、入力手段101と、分類軸候補作成手段102と、指標計算手段103と、出力手段104と、分類階層蓄積部201と、基準項目蓄積部202と、データ蓄積部203と、を含む。
本実施形態において、データ分類システムは、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。なお、データ分類システムは、1つの情報処理装置にかぎらず、例えば、複数の情報処理装置を用いて実現されてもよい。
分類階層蓄積部201は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。分類階層蓄積部201は、分類階層とその階層関係とを示す情報を予め蓄積する。図2は、分類階層蓄積部201が記憶する情報の一例を示す図である。図2に示すように、分類階層蓄積部201は、各レコードを親子関係とし、親分類項目と子分類項目群とを対応付けて含むテーブルを記憶する。
なお、図2に示すテーブルは、例えば、データ整理のために、システム管理者等によって予め作成され、分類階層蓄積部201に蓄積される。また、例えば、データ分類システムは、文書データベース等に蓄積するデータに基づいて分類項目を自動抽出してテーブルを作成し、分類階層蓄積部201に記憶させるようにしてもよい。
図2に示す例において、親分類項目は、親子関係の親となる分類項目を表す。また、子分類項目群は、「、」を区切り文字として子の分類項目群を示す。なお、図中の「・・・」は、記載の省略を表している。
なお、図2に示す記憶方法は一例であり、分類階層蓄積部201は、例えば、子の分類項目をレコード毎に分割して記憶してもよいし、階層構造データとして記憶してもよい。本実施の形態では、表現を簡単にするために、図2に示すように表現している。
基準項目蓄積部202は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。基準項目蓄積部202は、分類軸の基準となる分類項目名を予め蓄積する。図3は、基準項目蓄積部202が記憶する情報の一例を示す図である。図3に示すように、基準項目蓄積部202は、基準項目のリストを記憶する。
なお、基準項目蓄積部202に記憶させる基準項目は、分類階層蓄積部201が記憶する分類項目から予め選択する。なお、この場合、例えば、システム管理者等によって予め選択され基準項目蓄積部202に蓄積されてもよいし、データ分類システムが分類階層蓄積部201から自動抽出して基準項目蓄積部202に記憶させてもよい。
データ蓄積部203は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。データ蓄積部203は、分類項目とデータの対応関係とを予め蓄積する。また、データ蓄積部203は、データのその他の属性である作成日等の属性情報やコンテンツ実体等を蓄積してもよい。図4は、データ蓄積部203が記憶する情報の一例を示す図である。図4に示すように、データ蓄積部203は、データID、コンテンツ、及び対応分類項目を対応づけて含むレコードを記憶するデータベースである。
なお、図4に示す例において、図中の「・・・」は、記載の省略を表している。また、図4に示す例において、データIDは、データを識別するための識別子である。また、対応分類項目は、データIDで識別されるデータに対応する分類項目を、「、」区切りを用いて示している。なお、図4に示す記憶方法は一例であり、データ蓄積部203は、コンテンツ以外の作成日等の属性を示す属性情報を含むレコードを記憶してもよい。
なお、上記に示すデータは、例えば、システム管理者等によって予め収集され、データ蓄積部203に蓄積される。また、例えば、データ分類システムは、ネットワークを介して文書データベース等に蓄積されるデータを収集し、データ蓄積部203に記憶させるようにしてもよい。
入力手段101は、具体的には、プログラムに従って動作する情報処理装置のCPU、キーボードやマウス等の入力デバイス、及び入出力インタフェース部によって実現される。入力手段101は、ユーザ操作に従って、各種情報を入力する機能を備える。又は、入力手段101は、他のシステムからの入力情報を受け取る(入力する)機能を備える。なお、本実施形態では、データ分類システムにおいて、入力手段101は、ユーザ操作に従って、分類項目数Nを受け取る(入力する)ものとする。
分類軸候補作成手段102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分類軸候補作成手段102は、入力手段101から分類項目数Nを受け取り(入力し)、基準項目蓄積部202が記憶する基準項目と、分類階層蓄積部201が記憶する分類項目と、データ蓄積部103が記憶する情報とに基づいて、基準項目の子孫となる分類項目から分類項目数N個の組合せ群を分類軸の候補として作成する機能を備える。ただし、分類軸候補作成手段102は、データが所定個数以上対応づけられている分類項目を用いて、分類軸の候補を作成するものとする。
また、分類軸候補作成手段102は、分類項目のデータ個数をカウントする際に、その子孫の分類項目のデータ個数もカウントする。また、分類軸候補作成手段102は、先祖と子孫の関係にある分類項目の組合せを作成しなくてもよい。なぜなら、先祖の分類項目が子孫の分類項目のデータを包含すると考えられるからである。
指標計算手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。指標計算手段103は、分類軸候補作成手段102から分類軸候補を受け取り(入力し)、分類階層蓄積部201が記憶する情報と、データ蓄積部203が記憶する情報とを参照して、分類軸候補の優先度を計算する機能を備える。
指標計算手段103は、優先度を、分類項目の分類階層での階層的な距離に基づいて計算する。ここで、「分類項目間の階層的な距離」とは、共通する祖先までの最短のパス長や最長のパス長、又は共通の子孫までの最短のパス長や最長のパス長等である。また、指標計算手段103は、優先度として、分類軸の各分類項目間の階層的な距離の平均や、最大、最小等の値を求める。
本実施形態では、指標計算手段103は、分類項目間の階層的な距離として、共通する祖先までの最短パス長を求め、優先度として、階層的な距離の平均の値を求めるものとする。そのようにすることで、階層的な距離が長い方の分類軸の方が、意味的に独立しているということができる。
出力手段104は、具体的には、プログラムに従って動作する情報処理装置のCPU、ディスプレイ装置等の表示装置、及び入出力インタフェース部によって実現される。出力手段104は、指標計算手段103から、分類軸候補と優先度とのペアを受け取る(入力する)機能を備える。また、出力手段104は、入力した分類軸候補と優先度とのペアを、分類項目と対応するデータとともに出力する機能を備える。なお、出力手段104が出力する分類軸数は予め決められていてもよい。また、出力手段104は、出力方法として、ディスプレイ装置等の表示装置に表示してもよいし、記憶媒体(例えば、CD−ROM)や別なプログラムにファイル出力するようにしてもよい。
なお、本実施形態において、データ分類システムを実現する情報処理装置の記憶装置(図示せず)は、データ分類を行うための各種プログラムを記憶している。例えば、データ分類システムを実現する情報処理装置の記憶装置は、コンピュータに、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成処理と、分類階層における分類項目間の階層的な距離に基づいて、作成した分類軸候補について、当該分類軸候補の優先度を計算する優先度計算処理とを実行させる、データ分類プログラムを記憶している。
次に、動作ついて説明する。図5は、データ分類システムが行うデータ分類処理の一例を示す流れ図である。
まず、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、分類軸候補作成手段102は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、分類軸候補作成手段102は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、分類軸候補作成手段102は、分類階層蓄積部201が記憶する情報と、データ蓄積部203が記憶する情報とを参照し、基準項目の子孫で特定個数以上のデータと対応づけられている分類項目を抽出して、分類項目数分の組合せで分類軸候補を作成する(ステップS3)。ただし、分類軸候補作成手段102は、先祖子孫関係の分類項目を含む場合には、その分類項目については分類軸候補作成の対象としない。
例えば、分類項目数がN=3であり、分類階層蓄積部201が図2に示す情報を記憶しているとともに、データ蓄積部203が図4に示す情報を記憶している場合を考える。この場合、分類軸候補作成手段102は、所定対応データ個数が2である場合、基準項目「社会」の子孫から全ての3つ組みを分類軸候補として作成する。
なお、以下、分類軸を「(基準項目:分類項目リスト)」のように表現するものとする。例えば、分類軸(社会:家庭、家族、健康)や、(社会:家庭、家族、政治)、(社会:家庭、家族、外交)、(社会:家庭、家族、医療)、(社会:家庭、家族、医学)、(社会:家庭、家族、移植)、(社会:家庭、健康、政治)等のように表現する。この場合、分類軸候補作成手段102は、(社会:家庭、家族、生活)のように、先祖と子孫との関係の分類項目を含む分類軸については、分類軸候補として作成しなくてもよい。また、分類軸候補作成手段102は、対応データ数が所定回数2に満たない分類項目「行政」を含む分類軸についても、分類軸候補として作成しなくてもよい。
次に、指標計算手段103は、分類軸候補作成手段102から分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報を参照して、各分類軸の優先度を計算する(ステップS4)。なお、優先度の計算を行う場合、本実施形態では、指標計算手段103は、分類項目の意味的な独立性を図るため、分類項目間の階層的な距離の平均値を計算する。ここで、本実施形態では、指標計算手段103は、分類項目間の階層的な距離として、分類項目間で共通する先祖分類項目までの最短パスを求めるものとする。
具体的には、指標計算手段103は、優先度を、以下の式(1)を用いて求める。
優先度(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(ci,cj)
・・・式(1)
ここで、式(1)において、Xは基準項目を示し、Cは分類項目群を示している。また、ci,cjは、それぞれ分類項目群内のi番目の分類項目及びj番目の分類項目を示している。また、Max(X)は、基準項目Xの子孫の分類項目で最も深い分類項目までの深さを示している。また、ComDist(ci,cj)は、分類項目ciとcjとの距離を示している。更に、組合せ数は、分類項目群Cから2つを選択する組合せ回数である。なお、式(1)において、平均値をMax(X)で除算している理由は、基準項目によって深さが異なるためである。
例えば、指標計算手段103は、式(1)を用いて、分類軸(社会:家庭、家族、健康)の優先度を、次の式(2)のように計算する。この場合、分類項目数N=3であるので、組合せ数は3である。また、図2に示す分類階層の場合、基準項目「社会」の子孫の分類項目で最も深い分類項目が2である。
優先度(社会:家庭、家族、健康)
=1/2×1/6×(ComDist(家庭,家族)+ComDist(家庭,健康)+ComDist(家族,健康))
・・・式(2)
指標計算手段103は、分類項目「家族」と「家庭」との共通先祖が「生活」であるので、ComDist(家庭,家族)=2と求める。また、指標計算手段103は、その他の組合せも共通先祖が「生活」であるので、全て2と求める。従って、指標計算手段103は、分類軸(社会:家庭、家族、健康)の優先度を、次の式(3)のように求める。
優先度(社会:家庭、家族、健康)
=1/2×1/6×(ComDist(家庭,家族)+ComDist(家庭,健康)+ComDist(家族,健康))
=1/2×1/6×(2+2+2)
=0.5
・・・式(3)
また、指標計算手段103は、分類軸(社会:家庭、健康、医療)の優先度を、次の式(4)のように求める。
優先度(社会:家庭、健康、医療)
=1/2×1/6×(ComDist(家庭,健康)+ComDist(家庭,医療)+ComDist(健康,医療))
・・・式(4)
指標計算手段103は、分類項目「家族」と「健康」との共通先祖が「生活」であるので、ComDist(家庭,健康)=2と求める。また、指標計算手段103は、「家庭」と「医療」との共通祖先が「社会」であるので、ComDist(家庭,医療)=3と求め、ComDist(健康,医療)=3と求める。従って、指標計算手段103は、分類軸(社会:家庭、健康、医療)の優先度を、次の式(5)のように求める。
優先度(社会:家庭、健康、医療)
=1/2×1/6×(ComDist(家庭,健康)+ComDist(家庭,医療)+ComDist(健康,医療))
=1/2×1/6×(2+3+3)
=0.67
・・・式(5)
以上のように、指標計算手段103が計算することによって、類似した分類項目ではなく、意味的に独立した分類項目を含む分類軸に高い優先度を与えることができる。
次に、出力手段104は、指標計算手段103の計算結果に基づいて、分類軸と、優先度と対応するデータとを出力する(ステップS5)。図6(A)及び図6(B)は、出力手段104が出力する情報の例を示す図である。図6(A)及び図6(B)に示す例では、出力手段104は、2つのテーブルを出力している。
例えば、出力手段104は、図6(A)に示すように、分類軸ID、基準項目、分類項目群及びスコアを対応付けたレコードを含むテーブルを出力する。なお、図6(A)において、1つの行で示されるレコードが、それぞれ1つの分類軸を表している。分類軸IDは、分類軸の候補を識別するためのIDである。分類項目群は、「、」で分類項目毎に分けられた複数の分類項目を含む。
また、例えば、出力手段104は、図6(B)に示すように、分類軸ID、分類項目及びデータID群を対応付けたレコードを含むテーブルを出力する。なお、図6(B)において、1つのレコードが、それぞれ各分類軸の分類項目に対応している。データID群は、データIDを「,」で区切って複数のデータIDを含む。また、図中の「・・・」は、記載の省略を表している。
なお、図6(A)及び図6(B)に示す出力方法は一例であり、出力手段104は、例えば、2つのテーブルを1つにまとめたテーブルを出力してもよいし、各データの属性情報を含んだテーブルを新たに追加して出力してもよい。
上記のような構成とすることで、分類項目の意味的な独立性を用いて分類軸を選択することができる。また、そのようにすることにより、ユーザがわかりやすい分類軸を選択することができる。
以上に説明したように、本実施形態によれば、指標計算手段103は、分類項目間の階層的な距離に基づいて、独立性を考慮して分類軸候補の優先度を決定する。そのため、分類階層に似た分類項目がある場合であっても、ユーザに対してわかりやすい分類軸を提供することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図7は、第2の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図7に示すように、本実施の形態では、データ分類システムが、図1に示した指標計算手段103に代えて、第2の指標計算手段1031を含む点で、第1の実施形態と異なる。
第2の指標計算手段1031は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。第2の指標計算手段1031は、分類軸候補作成手段102から分類軸候補群を受け取り(入力し)、分類軸の優先度を計算する機能を備える。本実施の形態では、第2の指標計算手段1031は、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて、優先度を計算する。
「分類項目の階層的な距離」とは、分類階層での分類項目間の距離のことであり、第1の実施形態で示したものと同様である。なお、本実施形態では、この「分類項目の階層的な距離」という指標を、以下、独立性の指標という。
また、「分類項目の階層的な深さ」とは、基準項目又は分類階層のルートとなる分類項目から分類項目までの最短又は最長のパス長である。階層的な深さが深い場合、分類項目名は、意味的により具体的なものであると考えられる。
例えば、図8に示すような分類階層を例に考える。図8に示す分類階層の場合、最も深い分類項目「家族法」や「親族」は、分類項目「社会」よりも具体的な分類項目であるといえる。具体性のある分類項目は、ユーザにとって理解しやすく概要把握に役立つと考えられる。そこで、本実施形態では、第2の指標計算手段1031は、分類項目の階層的な深さを基準項目から分類項目までの最短パス長とし、分類項目の階層的な深さが深いほど大きな値となるように優先度を計算する。なお、本実施形態では、この「分類項目の階層的な深さ」という指標を、以下、具体性の指標という。
また、「分類項目に対応するデータの量」とは、分類項目に対応づけられているデータ数である。また、「分類項目に対応するデータ」とは、分類項目に直接対応しているデータ、又は分類項目とその子孫の分類項目に対応しているデータのことである。本実施形態では、第2の指標計算手段1031は、「分類項目に対応するデータ」として、分類項目とその子孫の分類項目に対応しているデータを用いるものとする。この場合、データの量が多い場合、網羅性が高いと考えられる。そのため、網羅性が高い分類項目を用いて作成した分類軸は、データ蓄積部203が蓄積するデータを良く表しているため、概要把握に役立つと考えられる。本実施形態では、第2の指標計算手段1031は、データ量が大きいほど大きな値となるように優先度を計算する。なお、本実施形態では、この「分類項目に対応するデータの量」という指標を、以下、網羅性の指標という。
また、「分類項目に対応するデータの重複度合い」とは、分類軸内の各分類項目でデータがどの程度同じであるかを示す値である。重複度合いが少ない場合、データ蓄積部203が蓄積するデータには一意性があり、概要把握しやすい。もし、一意性がなく、重複するデータばかりであれば、分類軸の各分類項目のデータ数を表示する際に、そのデータ数が重複ばかりであり、良い分類軸とはいえない。
例えば、データ蓄積部203が図4に示すデータを蓄積している場合、分類項目「家族」に対応するデータは、データIDが「d1」、「d2」及び「d3」であるデータである。また、分類項目「家庭」に対応するデータも、同じくデータIDが「d1」、「d2」及び「d3」であるデータである。この場合、表示方法として、分類軸の各分類項目のデータ数のみを表示した場合、分類項目「家族」と分類項目「家庭」とは、データ数が3であるが、実際の中身は同じであるので、この分類軸にはあまり情報量がない。この場合、第2の指標計算手段1031は、重複度合いが高いほど優先度が低い値となるように優先度を計算する。重複度合いとして、各分類項目に対応するデータ数の合計を重複なしのデータ数で除算した値を用いてもよく、データの出現確率から情報量(エントロピー)を計算してもよい。なお、本実施の形態では、この「分類項目に対応するデータの重複度合い」という指標を、以下、一意性の指標という。
本実施の形態では、第2の指標計算手段1031は、最終的には、上記に示した各指標を用いて総合的に優先度を計算する。
なお、本実施形態において、第2の指標計算手段1031以外の構成要素の機能は、第1の実施形態で示したそれらの機能と同様である。
次に、動作について説明する。図9は、第2の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。図9に示すように、本実施形態では、分類項目の階層的な距離に基づいて分類軸候補の優先度を計算するステップS4の処理に代えて、計算用テーブルを作成するステップS41、及び分類軸候補の優先度を計算するステップS42の処理を実行する点で、第1の実施形態と異なる。以下、主として、第1の実施形態と異なる処理について説明する。
まず、第1の実施形態で示した処理と同様に、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、第1の実施形態で示した処理と同様に、分類軸候補作成手段102は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、分類軸候補作成手段102は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、第1の実施形態で示した処理と同様に、分類軸候補作成手段102は、分類階層蓄積部201が記憶する情報と、データ蓄積部203が記憶する情報とを参照し、基準項目の子孫で特定個数以上のデータと対応づけられている分類項目を取得(抽出)して、分類項目数分の組合せで分類軸候補を作成する(ステップS3)。ただし、分類軸候補作成手段102は、先祖子孫関係の分類項目を含む場合には、その分類項目については分類軸候補作成の対象としない。
次に、第2の指標計算手段1031は、分類軸候補作成手段102から分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、計算用テーブルを作成する(ステップS41)。ここで、計算用テーブルとは、指標計算のために作成される一時的なテーブルで、第2の指標計算手段1031は、分類項目別データ数表とデータ別分類項目数表との2つのテーブルを作成する。
分類項目別データ数表とは、各分類項目に対応しているデータ数を集計したテーブルであり、分類項目、データ数及び分類項目の深さを対応付けたレコードを含む。また、データ別分類項目数表とは、各データに対応している分類軸内の分類項目の数を集計したテーブルであり、データID及び分類項目数を含む。なお、第2の指標計算手段1031は、作成した計算用の一時的なテーブルを、メモリ上に展開しておくことが望ましい。
図10(A)及び図10(B)は、分類項目別データ数表とデータ別分類項目数表との例を示す図である。このうち、図10(A)は、分類項目別データ数表の例を示している。また、図10(B)は、データ別分類項目数表の例を示している。なお、図10(A)及び図10(B)に示す例では、第2の指標計算手段1031が、分類軸(社会:家族、外交、医療)、図2に示した分類階層蓄積部201が記憶する情報、及び図4に示したデータ蓄積部203が記憶する情報に基づいて、分類項目別データ数表とデータ別分類項目数表とを作成した場合が示されている。
図10(A)に示す例では、分類項目別データ数表は、分類項目、データ数、及び分類項目の深さを対応付けた各レコードを含む表である。本実施の形態では、前述したように、分類項目の深さは、基準項目から各分類項目までのパス長を表している。例えば、分類項目「家族」は、図4に示したデータ蓄積部203が記憶する情報を参照すると「d1」、「d2」及び「d3」であるので、図10(A)に示すように、データ数が3である。また、図2に示した分類蓄積部201が記憶する情報を参照すると、基準項目「社会」から分類項目「家庭」までは、「生活」を介して深さが2である。
また、本実施形態では、前述したように、分類項目とデータの対応は、分類項目とその子孫の分類項目とに直接対応しているデータとしている。例えば、分類項目「医療」に直接対応しているデータはないが、その子孫の分類項目に直接対応するデータを見る。ここで、子孫の分類項目「医学」又は「健康」に対応するデータIDは、「d2」、「d4」及び「d6」である。よって、図10(A)に示すように、データ数を3としている。
データ別分類項目数表は、データIDと分類項目数とを対応付けたレコードを含む表である。本実施形態では、データ別分類項目数表は、図10(B)に示すように、各データIDに対して、分類軸(社会:家族、外交、医療)と対応する分類項目数を含む。例えば、データID「d1」は、図4に示したデータ蓄積部203が記憶する情報を参照すると、分類軸内の分類項目「家族」に対応しているので、図10(B)に示すように、分類項目数が1である。また、データID「d6」は、分類項目「医療」の子孫の分類項目に対応しているので、図10(B)に示すように、分類項目数が1である。
また、図11(A)及び図11(B)は、分類項目別データ数表とデータ別分類項目数表との他の例を示す図である。このうち、図11(A)は、分類項目別データ数表の例を示している。また、図11(B)は、データ別分類項目数表の例を示している。なお、図11(A)及び図11(B)に示す例では、第2の指標計算手段1031が、分類軸(社会:家庭、家族、健康)、図2に示した分類階層蓄積部201が記憶する情報、及び図4に示したデータ蓄積部203が記憶する情報に基づいて、分類項目別データ数表とデータ別分類項目数表とを作成した場合が示されている。
図11(A)に示す例では、図10(A)に示した例と同様に、例えば、分類項目「家族」は、図4に示したデータ蓄積部203が記憶する情報を参照すると「d1」、「d2」及び「d3」であるので、図11(A)に示すように、データ数が3である。また、図2に示した分類蓄積部201が記憶する情報を参照すると、基準項目「社会」から分類項目「家庭」までは、「生活」を介して深さが2である。
また、図11(B)に示すように、データ別分類項目数表は、各データIDに対して、分類軸(社会:家庭、家族、健康)と対応する分類項目数を含む。例えば、データID「d1」は、図4に示したデータ蓄積部203が記憶する情報を参照すると、分類軸内の分類項目「家庭」と「家族」とに対応しているので、図11(B)に示すように、分類項目数が2である。
次に、第2の指標計算手段1031は、計算用テーブルを用いて、分類軸の優先度を計算する(ステップS42)。本実施形態では、第2の指標計算手段1031は、前述したように、独立性、具体性、網羅性及び一意性の指標の値を計算し、これら指標の重み付き線形和を求めることによって、式(6)を用いて総合的な優先度を計算する。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
・・・式(6)
ここで、式(6)において、Xは基準項目であり、Cは分類項目群である。また、W1、W2、W3及びW4は、それぞれの指標の重み係数である。なお、これらの重み係数は、予めシステムがもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザによって設定されてもよい。本実施形態では、これらの重み係数は、システムに予め設定されているものする。
なお、本実施形態では、独立性の指標値は、第1の実施形態と同様であり、第2の指標計算手段1031は、式(7)を用いて求める。
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(ci,cj)
・・・式(7)
ここで、式(7)において、X、C、Max(X)、組合せ数、及びComDist(ci,cj)は、第1の実施形態で示したものと同様である。
また、第2の指標計算手段1031は、具体性の指標値を、以下の式(8)を用いて計算する。ここでは、具体性の指標値は、基準項目から分類軸の各分類項目までのパス長の平均の値である。
具体性(X:C)
=1/Max(X)×1/N×ΣDepth(X,ci)
・・・式(8)
式(8)において、Max(X)は、基準項目Xの子孫の分類項目で最大の深さである。また、Nは、入力手段101から与えられた(入力した)分類項目数である。また、Depth(X,ci)は、基準項目Xから分類項目ciまでの最短パス長である。ここで、パス長の平均をMax(x)で除算しているのは、基準項目によって、子孫の分類項目の深さが異なるためである。第2の指標計算手段1031は、この具体性の指標値を、分類項目別データ数表を用いて、以下の式(9)のように計算することができる。
具体性(X:C)
=1/Max(X)×1/N×ΣDepth(X,ci)
=1/Max(X)×1/N×Σ(分類項目別データ数表の分類項目の深さ)
・・・式(9)
式(9)に示すように、分類項目の深さが深いほど、具体性の指標の値が大きくなることがわかる。
また、第2の指標計算手段1031は、網羅性の指標値を、以下の式(10)を用いて計算する。ここで、網羅性の指標値は、分類項目に対応するデータの全データに対するカバー率である。
網羅性(X:C)
=1/DataNum×|∪データ(ci)|
・・・式(10)
式(10)において、DataNumは、分類対象データの数である。また、データ(ci)は、分類項目ciに対応するデータ集合である。また、「∪データ(ci)」は、分類軸内の分類項目c1からcNまでのデータの和集合である。また、「|∪データ(ci)|」は、分類軸内の分類項目c1からcNまでのデータ集合の要素数である。つまり、「|∪データ(ci)|」は、分類項目に対応するデータ数を表す。第2の指標計算手段1031は、この網羅性の指標値を、先に作成したデータ別分類項目表を用いて、次の式(11)のように計算することができる。
網羅性(X:C)
=1/DataNum×|∪データ(ci)|
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
・・・式(11)
式(11)において、RecNum(データ別分類項目数表,分類項目数>0)は、データ別分類項目数表の分類項目数が0よりも大きいレコード数である。このRecNum(データ別分類項目数表,分類項目数>0)は、分類項目に対応しているデータ数に等しい。よって、上記の式(11)のように書き換えることができる。
また、第2の指標計算手段1031は、一意性の指標値を、以下の式(12)を用いて計算する。ここで、データの重複度合いは、各分類項目に対応するデータ数の合計を重複なしのデータ数の合計で除算した値とする。なお、一意性の指標値は、このデータの重複度合いの逆数で表す。
一意性(X:C)
=1/(1/|∪データ(ci)|×ΣCatNum(ci))
・・・式(12)
ここで、式(12)において、|∪データ(ci)|は、分類項目に対応する重複なしのデータ数である。また、CatNum(ci)は、ciに対応するデータ数である。また、ΣCatNum(ci)は、分類軸内の分類項目c1からcNそれぞれに対応するデータ数の合計を表す。第2の指標計算手段1031は、この一意性の指標値を、先に作成した分類項目別データ数表を用いて、次の式(13)のように計算することができる。
一意性(X:C)
=1/(1/|∪データ(ci)|×ΣCatNum(ci))
=1/(RecNum(データ別項目分類表,分類項目数>0)×Σ(データ別項目分類表のデータ数))
・・・式(13)
例えば、第2の指標計算手段1031は、分類軸(社会:家族、外交、医療)の場合、図10(A)及び図10(B)に示すテーブルと、図2に示す分類階層蓄積部201が記憶する情報とを参照し、上記の各指標値を、以下の式(14)〜式(17)のように計算する。
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(C1,C2)
=1/Max(社会)×1/(2×3)×(ComDist(家族,外交)+ComDist(家族,医療)+ComDist(外交,医療))
=1/2×1/6×(4+4+4)
=1
・・・式(14)
具体性(X:C)
=1/Max(X)×1/N×Σ(分類項目別データ数表の分類項目の深さ)
=1/Max(社会)×1/3×(2+2+1)
=1/2×1/3×(2+2+1)
=0.833
・・・式(15)
網羅性(X:C)
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
=1/6×6
=1
・・・式(16)
一意性(X:C)
=1/(RecNum(データ別項目分類表,分類項目数>0)×Σ(データ別項目分類表のデータ数))
=1/(1/6×(3+2+3))
=6/8
=0.75
・・・式(17)
ここで、重み係数を全て0.25とすると、第2の指標計算手段1031は、次の式(18)を用いて優先度を求めることができる。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
=0.25×1+0.25×0.833+0.25×1+0.25×0.75
=0.895
=0.90
・・・式(18)
また、他の例として、例えば、第2の指標計算手段1031は、分類軸(社会:家庭、家族、健康)の場合、図11(A)及び図11(B)に示すテーブルと、図2に示す分類階層蓄積部201が記憶する情報とを参照し、上記の各指標値を、以下の式(19)〜式(22)のように計算する。
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(C1,C2)
=1/Max(社会)×1/(2×3)×(ComDist(家庭,家族)+ComDist(家族,健康)+ComDist(家族,健康))
=1/2×1/6×(2+2+2)
=0.5
・・・式(19)
具体性(X:C)
=1/Max(X)×1/N×Σ(分類項目別データ数表の分類項目の深さ)
=1/Max(社会)×1/3×(2+2+2)
=1/2×1/3×(2+2+2)
=1
・・・式(20)
網羅性(X:C)
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
=1/6×4
=0.667
・・・式(21)
一意性(X:C)
=1/(RecNum(データ別項目分類表,分類項目数>0)×Σ(データ別項目分類表のデータ数))
=1/(1/4×(3+3+2))
=4/8
=0.5
・・・式(22)
ここで、重み係数を全て0.25とすると、第2の指標計算手段1031は、次の式(23)を用いて優先度を求めることができる。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
=0.25×0.5+0.25×1+0.25×0.667+0.25×0.5
=0.667
=0.67
・・・式(23)
次に、第1の実施形態で示した処理と同様に、出力手段104は、分類軸、優先度及びデータを出力する(ステップS5)。
以上に説明したように、本実施形態によれば、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて、優先度を計算する。そのため、分類項目間の階層的な距離に加えて、分類項目の階層的な深さや、分類項目に対応するデータの量、分類項目に対応するデータの重複度合いを考慮して、独立性を考慮した分類軸候補の優先度を決定することができる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図12は、第3の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図12に示すように、本実施形態では、データ分類システムが、図7に示した分類軸候補作成手段102に代えて、分類軸候補絞込み手段1021を含む点で、第2の実施形態と異なる。なお、以下、主として、第2の実施形態と異なる点について説明する。
分類軸候補絞込み手段1021は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分類軸候補絞込み手段1021は、分類軸候補を作成する際に、基準項目の全ての子孫の分類項目を組合せるのではなく、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づき作成する分類軸の絞込みを行う機能を備える。そのようにすることにより、分類軸候補絞込み手段1021は、優先度を計算する対象となる分類軸を減らすことができ、計算を高速化できる。
なお、「分類項目に対応するデータの量」とは、分類項目に対応づけられているデータ数である。また、「分類項目に対応するデータ」とは、分類項目に直接対応しているデータ、又は分類項目とその子孫の分類項目に対応しているデータのことである。なお、本実施の形態では、「分類項目に対応するデータ」は、分類項目とその子孫の分類項目に対応しているデータであるとする。また、データの量が多い場合、網羅性が高いと考えられる。そのため、このような分類項目をもつ分類軸は、データ群を良く表しているため、データの概要把握に役立つと考えられる。
また、「分類項目間の階層的な距離」とは、共通する祖先までの最短のパス長や最長のパス長、又は共通の子孫までの最短のパス長や最長のパス長等である。この場合、分類項目間の階層的な距離が遠いほど、意味的に独立している分類項目であることがわかる。
分類軸候補絞込み手段1021は、以上に基づいた分類項目の選択を行う場合、分類項目に対応するデータ量が一定数以上で、テータ量順で上位から一定割合の分類項目の条件を満たし、かつ分類項目間の階層的な距離が特定の一定数以上若しくは一定の範囲内にある分類項目、又はその子孫の分類項目を含む分類軸を選択する。
なお、本実施形態において、分類軸候補絞込み手段1021以外の構成要素の機能は、第2の実施形態で示したそれらの機能と同様である。
次に、動作について説明する。図13は、第3の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。図13に示すように、本実施の形態では、基準項目の子孫の分類項目から分類項目の組合せで分類軸を作成するステップS3の処理に代えて、分類項目に対応するデータ量に基づいて分類項目を絞り込むステップS31の処理と、分類項目間の階層距離に基づいて分類項目の組合せを絞り込むステップS32の処理とを実行する点で、第2の実施形態と異なる。以下、主として、第2の実施形態と異なる処理について説明する。
まず、第2の実施形態で示した処理と同様に、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、第2の実施形態で示した処理と同様に、分類軸候補絞込み手段1021は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、分類軸候補絞込み手段1021は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する情報とデータ蓄積部202が記憶する情報とを参照し、分類項目に対応するデータ量に基づいて分類項目を絞り込む(ステップS31)。
本実施の形態では、「分類項目に対応するデータ量」は、分類項目とその子孫の分類項目とに対応するデータの数である。また、分類軸候補絞込み手段1021は、分類項目を絞り込むために、データ量がある一定数以上でありかつデータ量順で上位一定割合以上の分類項目と、その子孫の分類項目とに絞り込む。
例えば、分類階層蓄積部201が図2に示す情報を記憶し、データ蓄積部203が図4に示す情報を記憶している場合を考える。また、データ量が2以上であり、かつ上位50%の分類項目に絞り込むものとする。また、図2に示す分類階層蓄積部201が記憶する情報のうち、分類項目「社会」の子孫の分類項目は全て記載されているものとする。この場合、分類軸候補絞込み手段1021は、分類項目「生活」のデータ数を、そのデータと子孫の分類項目「家族」、「家庭」及び「健康」に対応するデータを合計して「d1」、「d2」、「d3」及び「d4」の4と求める。このように、分類軸候補絞込み手段1021がデータ数で降順に並べ替えた結果を図14に示す。
図14に示すように、データ数2以上で上位50%以内である分類項目は、順位が5位までの分類項目「生活」、「医療」、「家族」、「家庭」及び「医学」である。これらの分類項目は、データ量が多いため、この子孫の分類項目に分けることができる可能性をもっている。従って、分類軸候補絞込み手段1021は、子孫の分類項目を加えて、分類項目「移植」と分類項目「健康」とを加える。なお、本例では、子孫の分類項目を追加しているが、子孫の分類項目を追加しなくてもよい。
このステップS31の処理を実行することによって、分類項目におけるデータ量が少ないものを除外することができる。上記した例では、分類項目「政治」とその子孫の分類項目とを除外することができる。
次に、分類軸候補絞込み手段1021は、分類階層蓄積部201が記憶する情報を参照し、分類項目間の階層的な距離に基づいて分類項目を組合せて分類軸を作成する(ステップS32)。本実施の形態では、分類軸候補絞込み手段1021は、分類項目間の階層的な距離として、分類項目間の共通する先祖の分類項目までの長さを用いる。また、分類軸候補絞込み手段1021は、ステップS31で絞り込んだ分類項目とその子孫の分類項目とに基づいて、分類項目間の階層的な距離が一定数以上である分類項目対を1つ以上含む分類軸を作成する。ただし、分類軸中には、先祖と子孫との関係になる分類項目同士はないものとする。
例えば、分類軸候補絞込み手段1021は、先に絞り込んだ分類項目「生活」、「医療」、「家族」、「家庭」、「医学」、「移植」及び「健康」の中で、分類項目間の階層的な距離が3以上である分類項目を用いて分類軸を作成する。本実施形態では、例えば、分類項目「生活」と階層的な距離が3以上である分類項目に「医学」がある。よって、分類軸候補絞込み手段1021は、分類項目「生活」と「医学」とその他の先に絞り込んだ分類項目のうちいずれかを用いて分類軸を作成する。この場合、分類軸候補絞込み手段1021は、この「生活」及び「医学」の2つの分類項目と、先祖と子孫との関係にある分類項目ではない分類項目の中から処理対象の分類項目を選択する。本例では、分類軸候補絞込み手段1021は、分類軸(社会:生活、医学、移植)を作成する。
また、同様に、分類項目「医療」に対して距離が3以上である分類項目は、「家庭」、「家族」及び「健康」である。従って、分類軸候補絞込み手段1021は、分類軸(社会:医療、家庭、家族)、(社会:医療、家庭、健康)、及び(社会:医療、家族、健康)を作成する。
なお、本例では、分類軸候補絞込み手段1021は、分類軸内の分類項目間のいずれか1つが階層的な距離の条件を満たすように分類項目を作成しているが、分類項目内の全ての分類項目間が階層的な距離の条件を満たすように分類項目を作成してもよい。
以上のように、ステップS32の処理が実行されることにより、意味的な独立性を保っていない分類項目が除外される。上記に示す例では、分類軸候補絞込み手段1021は、分類軸(社会:家族、家庭、健康)の分類軸を除外するように分類軸を作成する。
以下、ステップS41以降の処理は、第2の実施形態で示したそれらの処理と同様である。
以上に説明したように、本実施形態によれば、基準項目の子孫の分類項目から複数の分類項目を選択して分類軸候補とする。また、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む。そして、絞り込んだ分類軸候補について、その分類軸候補を表示する優先度を計算する。そのため、絞り込んだ分類軸候補のみについて優先度計算を行うようにすることによって、分類軸の優先度の計算時間を短縮することができる。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、分類軸の優先度の計算時間を短縮することができる。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。図15は、第4の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図15に示すように、本実施形態では、データ分類システムが、図12に示した構成要素に加えて、表示手段105を含む点で、第3の実施形態と異なる。
表示手段105は、具体的には、プログラムに従って動作する情報処理装置のCPU及びディスプレイ装置等の表示装置によって実現される。表示手段105は、第2の指標計算手段1031が求めた分類軸、優先度及びデータをディスプレイ装置等の表示装置に出力(表示)する機能を備える。例えば、表示手段105は、分類軸の各分類項目と対応するデータ数、及びデータとその属性を、一覧形式又は表形式で出力(表示)する。
まず、表示手段105が一覧形式で情報を表示する場合を説明する。図16は、表示手段105が一覧形式で表示する情報の例を示す図である。図16に示すように、表示手段105は、分類軸、分類軸候補一覧、及びデータ一覧のそれぞれの表示部分を含む表示画面を表示する。表示手段105は、分類軸には、優先度が最も高かった分類軸、又は分類軸候補一覧から選択した分類軸を表示する。また、表示手段105は、基準項目と分類項目とを表示し、その後ろにデータ件数を表示する。
図16に示す例では、分類軸(社会:家族、健康、移植)を用いる場合が示されている。この場合、表示手段105は、それぞれの項目と対応するデータ件数をデータ蓄積部203から取得(抽出)し表示する。
また、図16に示す例では、表示手段105が表示する表示画面には、項目「その他」の欄が新たに加えられている。ここで、「社会」の下の「その他」の欄は、基準項目「社会」に関連しているが、分類項目「家族」や「健康」、「移植」ではないことを示す分類項目である。また、基準項目「社会」と並列に並ぶ「その他」の欄は、基準項目「社会」とは関係のない分類項目を示す。なお、表示手段105は、これら「その他」の欄のデータ数を、データ蓄積部203を参照することによって得ることができる。また、本実施の形態では、データ件数には子孫の分類項目に対応するデータ件数も含まれる。
また、図16に示す例では、表示手段105は、分類軸候補一覧を、優先度を計算した分類軸を優先度順に表示する。表示手段105は、これらの分類軸を、第2の指標計算手段1031が計算した結果から得ることができる。
また、図16に示す例では、表示手段105は、データ一覧を、各データを一覧で表示する。この場合、表示手段105は、各データを、データID、コンテンツ、及び対応する分類項目を対応付けて表示する。なお、表示手段105は、これらの情報を、データ蓄積部203が記憶する情報を参照することで得ることができる。
なお、本実施形態において、表示手段105以外の構成要素の機能は、第3の実施形態で示したそれらの機能と同様である。
次に、一覧形式で情報を表示する場合の表示手段105の動作について説明する。まず、表示手段105は、初期表示として、優先度の最も高い分類軸を分類軸表示部分に表示する。また、表示手段105は、その他の分類軸候補を分類軸候補一覧に優先度順に表示する。また、表示手段105は、データ一覧には、データ蓄積部203が蓄積する全てのデータを表示する。
次いで、表示手段105は、分類軸表示部分に表示する分類軸の中で、いずれかの分類項目又は基準項目が選択操作された場合、これに対応するデータをデータ一覧に表示する。また、表示手段105は、分類軸候補一覧表示部分に表示する分類軸候補の中のいずれかの分類軸候補が選択操作されると、分類軸表示部分の内容をこの選択した分類軸で置き換えて表示する。
次に、表示手段105が表形式で情報を表示する場合を説明する。図17は、表示手段105が表形式で表示する情報の例を示す図である。図17に示すように、表示手段105は、分類表、データ一覧、及び分類軸候補一覧の表示部分を含む表示画面を表示する。
表示手段105は、分類表には、横軸に、分類軸候補のうち最も優先度の高い分類軸を表示する。また、表示手段105は、縦軸に、関連する属性を表示する。本実施の形態では、表示手段105は、属性として分類項目を表示している。なお、これは一例であり、表示手段105は、データに作成者等があればこれを表示してもよいし、属性が複数あればユーザ操作に従って選択して表示してもよい。また、表示手段105は、表の各セルには、どのようなデータが存在するかを示す情報を表示する。本実施形態では、表示手段105は、データID群とその数を表示している。
次に、横軸の「その他」について説明する。図17に示す分類表において、基準項目「社会」の下の「その他」は、基準項目以下で分類軸内の分類項目に対応しないデータ群を表す分類項目である。また、図17において、最も右側に示す「その他」は、基準項目「社会」にも対応しないデータ群を示す分類項目である。また、縦軸に示す「その他」は、関連する属性のうち、表示しているものに対応しないデータ群を表す項目である。
以下、縦軸に関連する属性を表示する手順を示す。まず、表示手段105は、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、分類軸に対応するデータ群を取得(抽出)する。次いで、表示手段105は、取得(抽出)したデータ群の属性を参照し、属性値毎に対応するデータ数を調べる(求める)。そして、表示手段105は、データ数のうち、多いものから順番に縦軸に分類軸の分類項目数分だけ表示する。
本実施の形態では、表示手段105は、基準項目より下の分類項目を属性値とし、これらの分類項目に対応するデータ数を取得(算出)する。また、表示手段105は、既に分類軸として表示しているもの以外の情報を表示する。具体的には、分類軸(社会:家族、健康、移植)を用いる場合、対応するデータは「d1」、「d2」、「d3」、「d4」及び「d6」である。また、これらのデータに対応する分類項目でデータ数が多いもので分類軸にないものは、分類項目「生活」が4件(「d1」、「d2」、「d3」及び「d4」)であり、分類項目「家庭」が3件(「d1」、「d2」及び「d3」)であり、分類項目「医療」が3件(「d2」、「d4」及び「d6」)であり、分類項目「医学」が3件(「d2」、「d4」及び「d6」)である。
上記の場合、表示手段105は、これらの分類項目の中から分類項目数3個をデータ数の多い順に選ぶ。なお、表示手段105は、データ数が同じである場合には、いずれか一方を選択して表示する。なお、本例は一例であり、表示手段105は、属性として、分類項目だけでなく他の情報を選択して表示してもよい。例えば、表示手段105は、データに付属する属性であれば、属性をユーザ操作に従って選択して表示してもよい。また、表示手段105は、属性値を、上記のように自動的に選択して決めてもよいし、ユーザ操作に従って選択してもよい。また、図17において、縦軸に表示する属性値の数も、分類軸と同じでなくてもよい。
また、表示手段105は、分類表のいずれかのセルを選択した際に、その選択したセルに対応するデータ一覧を表示する。本実施形態では、表示手段105は、データID、コンテンツ及び分類項目を表示する。なお、表示手段105は、これらの情報を、データ蓄積部203が記憶する情報を参照して表示する。
また、表示手段105は、分類軸候補一覧において、優先度を計算した分類軸を優先度順に表示する。なお、表示手段105は、これらの情報を、第2の指標計算手段1031が計算した結果から得ることができる。
次に、表形式で情報を表示する場合の表示手段105の動作について説明する。まず、表示手段105は、初期表示として、分類表の横軸に、優先度の最も高い分類軸を表示する。この場合、表示手段105は、前述した方法に従って縦軸となる関連する属性も表示する。なお、表示手段105は、データ一覧には、まだ何も表示しない。
次に、表示手段105は、分類表のいずれかのセルが選択操作された場合、この選択操作されたセルに対応するデータをデータ一覧に表示する。
次に、表示手段105は、分類軸候補一覧からいずれかの分類軸が選択操作された場合、この選択操作された分類軸を分類表の横軸として表示し直す。この場合、表示手段105は、分類表の縦軸の関連する属性も新たに表示し直す。
以上に説明したように、本実施形態によれば、第2の指標計算手段1031が求めた分類軸、優先度及びデータを、一覧形式又は表形式で表示する。そのため、ユーザに対して、分類軸の選択状況や優先度、データを視覚的に認識させることができる。
(第5の実施形態)
次に、本発明の第5の実施形態について説明する。図18は、第5の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図18に示すように、本実施の形態では、データ分類システムが、分類軸候補作成手段102に代えて多次元分類軸候補作成手段1022を含み、指標計算手段103に代えて多次元指標計算手段1032を含む点で、第1の実施形態と異なる。
多次元分類軸候補作成手段1022は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。多次元分類軸候補作成手段1022は、入力手段101から分類項目数Nを受け取り(入力し)、分類階層蓄積部201が記憶する情報、基準項目蓄積部202が記憶する情報、及びデータ蓄積部203が記憶する情報を参照し、複数の組合せの分類軸候補を作成する機能を備える。なお、分類軸の数(以下、次元数という)は、システムが予めもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザ操作に従って指定してもよい。
例えば、多次元分類軸候補作成手段1022は、次元数が2である場合には、分類軸を2つ組み合わせた多次元分類軸候補を作成する。この場合、多次元分類軸候補作成手段1022は、例えば、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)等を作成する。
以下、多次元分類軸候補作成手段1022が作成する多次元分類軸を(基準項目:分類項目N個)−(基準項目:分類項目N個)と表記する。なお、3次元以上の多次元分類軸であれば、更にその後に「−」記号を用いて新たな分類軸を追加することによって、多次元分類軸を示す。この場合、「−」記号を用いて繋がれた各分類軸は、それぞれの次元における分類軸を表している。例えば、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)であれる場合には、1つ目の分類軸(社会:家庭、家族、健康)を第1次元分類軸といい、2つ目の分類軸(社会:外交、医学、移植)を第2次元分類軸という。
多次元指標計算手段1032は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。多次元指標計算手段1032は、多次元分類軸候補を作成するときに、第1の実施形態と同様の処理に従って、分類項目に対応するデータ量が一定以上である分類項目に基づいて分類項目を作成する機能を備える。この場合、多次元指標計算手段1032は、同じ分類項目には先祖と子孫との関係にある分類項目同士を含まないように、分類項目を作成することが望ましい。更に、多次元指標計算手段1032は、ある次元の分類軸が他の次元の分類軸と全く同じである分類項目を作成しないようにすることが望ましい。
また、多次元指標計算手段1032は、多次元分類軸候補作成手段1022から多次元分類軸候補を受け取り(入力し)、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、分類軸候補の優先度を計算する機能を備える。この場合、多次元指標計算手段1032は、優先度を、分類項目の分類階層での階層的な距離に基づいて計算する。
「分類項目間の階層的な距離」とは、共通する祖先までの最短のパス長や最長のパス長、又は共通の子孫までの最短パス長や最長パス長等である。また、多次元指標計算手段1032は、優先度として、分類軸の各分類項目間の階層的な距離の平均や最大、最小の値等を求める。
本実施形態では、多次元指標計算手段1032は、「分類項目間の階層的な距離」として共通する祖先までの最短パス長を用いるものとし、優先度として階層的な距離の平均の値を求めるものとする。そのようにするのは、距離が長い方が意味的に独立しているといえるためである。更に、多次元指標計算手段1032は、分類軸内の分類項目だけでなく、分類軸の基準項目間の階層的な距離も用いて優先度を計算する。
なお、本実施形態において、多次元分類軸候補作成手段1022及び多次元指標計算手段1032以外の構成要素の機能は、第1の実施形態で示したそれらの機能と同様である。
次に、動作について説明する。図19は、第5の実施形態におけるデータ分類システムが行うデータ分類処理の一例を示す流れ図である。
まず、第1の実施形態で示した処理と同様に、データ分類システムの入力手段101は、ユーザの操作に従って、分類項目数Nを受け取る(ステップS1)。例えば、入力手段101は、分類項目数としてN=3を入力する。次に、第1の実施形態で示した処理と同様に、多次元分類軸候補作成手段1022は、基準項目蓄積部202から、分類軸の基準項目を取得(抽出)する(ステップS2)。例えば、図3に示す例において、多次元分類軸候補作成手段1022は、基準項目蓄積部202から、「社会」、「自然」及び「文化」等の情報を抽出する。
次に、第1の実施形態で示した処理と同様に、多次元分類軸候補作成手段1022は、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、基準項目の子孫で特定個数以上のデータと対応づけられている分類項目を取得(抽出)する。そして、多次元分類軸候補作成手段1022は、分類項目数分の組合せで分類軸候補を作成する(ステップS3)。ただし、多次元分類軸候補作成手段1022は、先祖子孫関係の分類項目を含む場合には、その分類項目については分類軸候補作成の対象としない。
次に、多次元分類軸候補作成手段1022は、作成した分類軸候補を次元数分組み合わせて、多次元分類軸を作成する(ステップS321)。なお、作成する多次元分類軸の次元数は予めシステムがもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザ操作に従って入力してもよい。例えば、多次元分類軸候補作成手段1022は、次元数が2である場合には、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)等を作成する。
次に、多次元指標計算手段1032は、多次元分類軸候補作成手段1022から多次元分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報を参照して、各分類軸の優先度を計算する(ステップS421)。
多次元指標計算手段1032は、優先度の計算を行う場合、本実施形態では、分類項目の意味的な独立性を図るため、分類項目間の階層的な距離の平均値と、基準項目間の階層的な距離の平均値と、を計算する。ここで、「分類項目間の階層的な距離」又は「基準項目間の階層的な距離」とは、分類項目間で共通する先祖分類項目までの最短パスである。また、多次元指標計算手段1032は、優先度を、以下の式(24),(25)を用いて求める。
多次元優先度((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ独立性(Xi:Ci)+1/(2×次元数)×ΣComDist(Xi,Xj)
・・・式(24)
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(ci,cj)
・・・式(25)
ここで、式(24)において、X1,X2,・・・,Xiは、第i次元の基準項目を示す。また、C1,C2,・・・,Ciは、第i次元の分類項目群を示す。なお、Max(X)及びComDist(ci,cj)は、第1の実施形態で示したものと同様である。式(24)に示すように、多次元指標計算手段1032は、第1項目で次元毎に計算した独立性(分類項目間の階層的な距離)を次元数で除算することで平均値を求める。また、多次元指標計算手段1032は、第2項で基準項目間の階層的な距離の平均値を求める。
例えば、多次元指標計算手段1032は、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)の優先度を、次の式(26)のように計算する。この場合、分類項目数N=3であるので、組合せ数を3とし、次元数を2とする。基準項目「社会」の子孫の分類項目で最も深い分類項目は、図2に示した分類階層の場合には2である。
優先度((社会:家庭、家族、健康)−(社会:外交、医学、移植))
=1/2(1/2×1/6×(ComDist(家庭,家族)+ComDist(家庭,健康)+ComDist(家族,健康))+(1/2×1/6×(ComDist(外交,医学)+ComDist(外交,移植)+ComDist(医学,移植)))+1/4×(ComDist(社会,社会))
=1/2(1/2×1/6×(2+2+2)+(1/2×1/6×(4+4+2))+1/4×(0)
=0.67
・・・式(26)
なお、3次元以上の多次元分類軸を用いる場合であっても、多次元指標計算手段1032は、同様の計算を行うことによって、複数次元の優先度を計算できる。
上記のように計算することによって、類似した分類項目ではなく、意味的に独立した分類項目を含む分類軸に高い優先度を与えることができる。更に、多次元の分類軸に対応することができる。
次に、出力手段104は、多次元指標計算手段1032の計算結果に基づいて、分類軸と、優先度と対応するデータとを出力する(ステップS5)。図20(A)、図20(B)、及び図20(C)は、第5の実施形態における出力手段104が出力する情報の例を示す図である。図20(A)、図20(B)、及び図20(C)に示す例では、出力手段104は、3つのテーブルを出力している。なお、図中の「・・・」は、記載の省略を表している。
例えば、出力手段104は、図20(A)に示すように、次元IDと、分類軸ID群と、スコアとを対応づけたレコードを含むテーブルを出力する。すなわち、図20(A)のテーブルには、多次元分類軸候補毎の分類軸とそのスコアとが表されている。図20(A)に示す例では、分類軸ID群を、分類軸IDを「,」で区切って表している。本実施の形態では、次元数が2であるので、分類軸ID群は、2つの分類軸IDを含む。なお、3次元以上の多次元分類軸である場合には、この分類軸IDを増やすことによって多次元に対応することができる。
また、出力手段104は、図20(B)に示すように、分類軸ID、基準項目及び分類項目群を対応付けたレコードを含むテーブルを出力する。すなわち、図20(B)に示す例では、1つの行が1つの分類軸を表している。
また、出力手段104は、図20(C)に示すように、分類軸ID、分類項目及びデータID群を対応付けたレコードを含むテーブルを出力する。すなわち、図20(C)に示す例では、1つのレコードが各分類軸の分類項目に対応している。また、図20(C)に示す例では、データID群を、データIDを「,」で区切って表している。また、図中の「・・・」は、記載の省略を表している。
なお、図20(A)、図20(B)、及び図20(C)に示す出力方法は一例であり、出力手段104は、例えば、2つのテーブルを1つにまとめて出力してもよいし、各データの属性情報を含んだテーブルを新たに追加して出力してもよい。
上記のような構成を備えることによって、分類項目の意味的な独立性を用いて分類軸を選択することができる。そのようにすることにより、ユーザにわかりやすい分類軸を選択することができる。
以上に説明したように、本実施形態によれば、本実施形態によれば、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む。また、絞り込んだ分類軸候補を組合せることによって、多次元の分類軸候補を作成する。そして、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、多次元の分類軸についても、独立性を考慮した分類軸候補の優先度を決定することができる。
(第6の実施形態)
次に、本発明の第6の実施形態について説明する。図21は、第6の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図21に示すように、本実施の形態では、データ分類システムが、図18に示した多次元指標計算手段1032に代えて、第2の多次元指標計算手段1033を含む点で、第5の実施形態と異なる。
第2の多次元指標計算手段1033は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。第2の多次元指標計算手段1033は、多次元分類軸候補作成手段1022から分類軸候補群を受け取り(入力し)、分類軸の優先度を計算する機能を備える。この場合、第2の多次元指標計算手段1033は、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて優先度を計算する。
なお、第2の多次元指標計算手段1033は、これらの優先度の計算方法として、例えば、第2の実施形態で示した優先度計算方法を多次元に拡張した方法を用いて、優先度を計算する。
なお、本実施形態において、第2の多次元指標計算手段1033以外の構成要素の機能は、第5の実施形態で示したそれらの機能と同様である。
次に、第2の多次元指標計算手段1033が優先度を計算する場合の優先度の計算方法について説明する。第2の実施形態と同様の処理に従って、第2の多次元指標計算手段1033は、多次元分類軸候補作成手段1022から多次元分類軸候補を取得(入力)し、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照して、計算用テーブルを作成する。ただし、本実施形態では、第2の多次元指標計算手段1033は、計算用テーブルを、複数の次元にまたがって作成する点で、第2の実施形態と異なる。
第2の多次元指標計算手段1033は、計算用テーブルとして、分類項目別データ数表とデータ別分類項目数表との2つのテーブルを作成する。
分類項目別データ数表とは、異なる次元における分類項目の組合せに対応しているデータ数を集計したテーブルである。分類項目別データ数表は、分類項目組合せ、データ数及び分類項目の深さを対応付けたレコードを含む。また、データ別分類項目数表とは、各データに対応している分類軸内の分類項目の数を集計したテーブルであり、データID及び分類項目組合せ数を含む。なお、第2の多次元指標計算手段1033は、作成した計算用の一時的なテーブルを、メモリ上に展開しておくことが望ましい。
図22(A)及び図22(B)は、分類項目別データ数表とデータ別分類項目数表との例を示す図である。このうち、図22(A)は、分類項目別データ数表の例を示している。また、図22(B)は、データ別分類項目数表の例を示している。なお、図22(A)及び図22(B)に示す例では、第2の多次元指標計算手段1033が、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)、図2に示した分類階層蓄積部201が記憶する情報、及び図4に示したデータ蓄積部203が記憶する情報に基づいて、分類項目別データ数表とデータ別分類項目数表と、を作成した場合が示されている。
図22(A)に示す例では、分類項目別データ数表は、分類項目組合せ、データ数、及び分類項目の深さを対応付けた各レコードを含む表である。本実施形態では、第2の多次元指標計算手段1033は、分類項目の深さを、以降の計算を簡単にするため、次の式(27)のように計算する。
深さ(cij,ckl,・・・)
=1/次元数×Σ(1/Max(Xi)×Depth(Xi,cij)
・・・式(27)
ここで、式(27)において、cijは第i次元のj番目の分類項目であり、cklは第k次元のl番目の分類項目である。ただし、iとkとは、値が異なるものとする。また、Xiは、第i次元の基準項目である。また、Max(Xi)は、基準項目Xiの子孫の分類項目で最も深い分類項目までの深さを示している。また、Depth(Xi,cij)は、第i次元の基準項目Xiからその分類項目cijまでの最短パス長である。また、Σ記号は、異なる次元における分類項目の組合せで合計することを表している。すなわち、式(27)では、分類項目の深さを、分類項目組合せ内での分類項目の深さの平均値で示している。
図22(A)において、例えば、1レコード目は、第1次元の分類項目「家庭」と第2次元の分類項目「外交」とにおけるデータを表したものである。図4に示すデータ蓄積部203が記憶する情報を参照すると、本例では、データ蓄積部203は、この2つの分類項目に対応するデータを記憶していないので、図22(A)に示すように、データ数が0である。また、分類項目の深さの部分については、社会から家族までが2であり、社会から医学までが2であり、Max(Xi)が2であり、次元数が2であるので、図22(A)に示すように、分類項目の深さが1となる。
データ別分類項目数表とは、データIDと分類項目組合せ数とを対応付けたレコードを含む表である。図22(B)に示す例では、各データIDに対して、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)と対応する分類項目数を含むデータ別分類項目数表が示されている。図22(B)に示す例において、例えば、データID「d2」は、図4に示すデータ蓄積部203が記憶する情報を参照すると、第1次元の分類項目「健康」と第2次元の分類項目「医学」とに対応しているので、分類項目数が1である。
次に、第2の多次元指標計算手段1033は、計算用テーブルを用いて、分類軸の優先度を計算する。本実施形態では、第2の多次元指標計算手段1033は、前述した独立性、具体性、網羅性及び一意性の指標の値を計算し、これらの指標値の重み付き線形和を求めることによって、式(28)を用いて、総合的な優先度を計算する。
多次元優先度((X1:C1)−(X2:C2)−・・・)
=W1×多次元独立性((X1:C1)−(X2:C2)−・・・)+W2×多次元具体性((X1:C1)−(X2:C2)−・・・)+W3×多次元網羅性((X1:C1)−(X2:C2)−・・・)+W4×多次元一意性((X1:C1)−(X2:C2)−・・・)
・・・式(28)
ここで、式(28)において、Xは基準項目であり、Cは分類項目群である。また、W1、W2、W3、W4は、それぞれの指標の重み係数である。なお、これらの重み係数は、予めシステムがもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザによって設定されてもよい。本実施形態では、これらの重み係数は、システムに予め設定されているものする。
なお、本実施形態では、独立性の指標値は、第5の実施形態と同様であり、第2の多次元指標計算手段1033は、式(29),(30)を用いて多次元独立性の指標値を求める。
多次元独立性((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ独立性(Xi:Ci)+1/(2×次元数)×ΣComDist(Xi,Xj)
・・・式(29)
独立性(X:C)
=1/Max(X)×1/(2×組合せ数)×ΣComDist(C1,C2)
・・・式(30)
式(29),(30)において、X1、X2、Xi、C1、C2、Ci、Max(X)、ComDist、組合せ数及び次元数は、第5の実施形態で示したものと同様である。
また、第2の多次元指標計算手段1033は、具体性の指標値を、以下のように計算する。本実施形態において、具体性の指標は、分類軸毎の基準項目から各分類項目までのパス長の平均の値である。第2の多次元指標計算手段1033は、具体性の指標値を、分類項目別データ数表を用いて、以下の式(31),(32)のように計算できる。
多次元具体性((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ具体性(Xi:Ci)
・・・式(31)
具体性(X:C)
=1/Max(X)×1/N×ΣDepth(X,cj)
・・・式(32)
式(31),(32)において、Max(X)、N、Depth(X,cj)は、第2の実施形態で示したものと同様である。ここで、図22(A)に示すように、分類項目別データ数表における分類項目の深さ指標については、1/次元数×Σ1/Max(Xi)×Depth(Xi,cij)として計算済みであるので、多次元具体性の指標を、以下の式(33)のように計算できる。
多次元具体性((X1:C1)−(X2:C2)−・・・)
=1/次元数×1/N×ΣΣ(1/Max(Xi)×Depth(Xi,cij))
=1/(N次元数)×Σ(分類項目別データ数表の深さ指標)
・・・式(33)
また、第2の多次元指標計算手段1033は、網羅性の指標を、以下のように計算する。本実施形態において、網羅性の指標は、各次元の分類項目の組合せに対応するデータの全データに対するカバー率である。第2の多次元指標計算手段1033は、網羅性の指標を、先に作成したデータ別分類項目表を用いて、次の式(34)のように求めることができる。
多次元網羅性((X1:C1)−(X2:C2)−・・・)
=1/DataNum×|∪データ(cij,ckl,・・・)|
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
・・・式(34)
ここで、式(34)において、「データ(cij,ckl,・・・)」は、第i次元のj番目の分類項目cij、第k次元のl番目の分類項目ckl、及びその他の次元の分類項目の全てに対応するデータ集合である。また、DataNumは、データ集合の数である。RecNum(データ別分類項目数表,分類項目数>0)は、データ別分類項目数表の分類項目数が0よりも大きいレコード数である。このRecNum(データ別分類項目数表,分類項目数>0)は、分類項目の組合せに対応しているデータ数に等しい。よって、上記の式(34)のように書き換えることができる。
また、第2の多次元指標計算手段1033は、一意性の指標を、以下のように計算する。本実施形態において、一意性の指標は、データの重複度合いの逆数で表される。ここで、データの重複度合いは、各分類項目の組合せに対応するデータ数の合計値を重複なしのデータ数の合計値で除算した値とする。第2の多次元指標計算手段1033は、一意性の指標を、先に作成した分類項目別データ数表を用いて、次の式(35)のように求めることができる。
多次元一意性((X1:C1)−(X2:C2)−・・・)
=|∪データ(cij,ckl,・・・)|/ΣCatNum(cij,ckl,・・・)
=RecNum(データ別項目分類表,分類項目数>0)/Σ(データ別項目分類表のデータ数)
・・・式(35)
例えば、多次元分類軸(社会:家庭、家族、健康)−(社会:外交、医学、移植)である場合、第2の多次元指標計算手段1033は、図22(A)に示した分類項目別データ数表、及び図32に示す分類階層蓄積部201が記憶する情報を参照して、上記の各指標値を、以下の式(36)〜式(39)のように計算する。
多次元独立性((X1:C1)−(X2:C2)−・・・)
=1/次元数×Σ独立性(Xi:Ci)+1/(2×次元数)×ΣComDist(Xi,Xj)
=1/2(1/2×1/6×(ComDist(家庭,家族)+ComDist(家庭,健康)+ComDist(家庭,健康))+(1/2×1/6×(ComDist(外交,医学)+comDist(外交,移植)+ComDist(医学,移植)))+1/4×(ComDist(社会,社会))
=1/2(1/2×1/6×(2+2+2)+(1/2×1/6×(4+4+2))+1/4×(0)
=0.667
・・・式(36)
多次元具体性((X1:C1)−(X2:C2)−・・・)
=1/(N次元数)×Σ(分類項目別データ数表の深さ指標)
=1/9×(1+1+1+1+1+1+1+1+1)
=1
・・・式(37)
多次元網羅性((X1:C1)−(X2:C2)−・・・)
=1/DataNum×RecNum(データ別項目分類表,分類項目数>0)
=1/6×2
=0.333
・・・式(38)
多次元一意性((X1:C1)−(X2:C2)−・・・)
=RecNum(データ別項目分類表,分類項目数>0)/Σ(データ別項目分類表のデータ数)
=2/(0+1+0+2+0+0)
=2/3
=0.667
・・・式(39)
ここで、重み係数を全て0.25とすると、第2の多次元指標計算手段1033は、次の式(40)を用いて優先度を求めることができる。
優先度(X:C)
=W1×独立性(X:C)+W2×具体性(X:C)+W3×網羅性(X:C)+W4×一意性(X:C)
=0.25×0.667+0.25×1+0.25×0.333+0.25×0.667
=0.67
・・・式(40)
以上に説明したように、本実施形態によれば、分類項目間の階層的な距離だけでなく、分類項目の階層的な深さ、分類項目に対応するデータの量、分類項目に対応するデータの重複度合い、又はこれらの組合せに基づいて、優先度を計算する。そのため、分類項目間の階層的な距離に加えて、分類項目の階層的な深さや、分類項目に対応するデータの量、分類項目に対応するデータの重複度合いを考慮して、より効果的に独立性を考慮した多次元の分類軸の優先度を決定することができる。
(第7の実施形態)
次に、本発明の第7の実施形態について説明する。図23は、第7の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図23に示すように、本実施の形態では、データ分類システムが、多次元分類軸候補作成手段1022に代えて、分類軸候補絞込み手段1021と第2の多次元分類軸候補作成手段1023とを含む点で、第6の実施形態と異なる。
分類軸候補絞込み手段1021は、第3の実施形態で示した分類軸候補絞込み手段1022と同様に、基準項目の全ての子孫の分類項目を組合せるのではなく、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づき作成する分類軸の絞込みを行う機能を備える。そのようにすることにより、分類軸候補絞込み手段1021は、優先度を計算する対象となる分類軸を減らすことができ、計算を高速化できる。
第2の多次元分類軸候補作成手段1023は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。第2の多次元分類軸候補絞込み手段1023は、分類軸候補絞込み手段1022から分類軸候補を受け取り(入力し)、入力した分類軸候補を複数組合せることによって、多次元分類軸を作成する機能を備える。なお、次元数は、システムが予めもっていてもよいし(例えば、予めメモリ等の記憶部に設定値として記憶していてもよい)、ユーザ操作に従って入力してもよい。また、第2の多次元分類軸候補作成手段1023は、作成した多次元分類軸を第2の多次元指標計算手段1033に渡す(出力する)機能を備える。
なお、本実施形態において、分類軸候補絞込み手段1021及び第2の多次元分類軸候補作成手段1023以外の構成要素の機能は、第6の実施形態で示したそれらの機能と同様である。
以上に説明したように、本実施形態によれば、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸を作成する際に、分類項目に対応するデータ量と、分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む。また、絞り込んだ分類軸候補を組合せることによって、多次元の分類軸候補を作成する。そして、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補の優先度を計算する。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、多次元の分類軸についても優先度の計算時間を短縮することができる。
(第8の実施形態)
次に、本発明の第8の実施形態について説明する。図24は、第8の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図24に示すように、本実施の形態では、データ分類システムが、図17に示した構成要素に加えて、多次元表示手段1051を含む点で、第7の実施形態と異なる。
多次元表示手段1051は、具体的には、プログラムに従って動作する情報処理装置のCPU及びディスプレイ装置等の表示装置によって実現される。多次元表示手段1051は、第2の多次元指標計算手段1033が求めた分類軸、優先度及びデータをディスプレイ装置等の表示装置に出力(表示)する機能を備える。例えば、多次元表示手段1051は、各次元の分類軸の分類項目と対応するデータ数、及びデータとその属性を、一覧形式又は表形式で出力(表示)する。
まず、多次元表示手段1051が一覧形式で情報を表示する場合を説明する。図25は、多次元表示手段1051が一覧形式で表示する情報の例を示す図である。図25に示すように、多次元表示手段1051は、多次元分類軸、多次元分類軸候補一覧、及びデータ一覧のそれぞれの表示部分を含む表示画面を表示する。多次元表示手段1051は、多次元分類軸には、優先度が最も高かった多次元分類軸、又は多次元分類軸候補一覧から選択した分類軸を表示する。また、多次元表示手段1051は、各次元に基準項目と分類項目とを表示し、その後ろにデータ件数を表示する。
図25に示す例では、多次元分類軸(社会:家族、健康、移植)−(社会:家庭、外交、医療)を用いる場合が示されている。この場合、多次元表示手段1051は、それぞれの項目と対応するデータ件数をデータ蓄積部203から取得(抽出)し表示する。
また、図25に示す例では、多次元表示手段1051が表示する表示画面には、項目「その他」の欄が新たに加えられている。ここで、「社会」の下の「その他」の欄は、基準項目「社会」に関連しているが、分類軸内の分類項目に対応しないデータを分類する項目である。また、全データの子にある「その他」の欄は、全ての分類軸とは関係のない分類項目を示す。なお、多次元表示手段1051は、これら「その他」の欄のデータ数を、データ蓄積部203が記憶する情報を参照することによって得ることができる。また、本実施の形態では、データ件数には子孫の分類項目に対応するデータ件数も含まれる。
また、図25に示す例では、多次元表示手段1051は、多次元分類軸候補一覧を、優先度を計算した分類軸を優先度順に表示する。多次元表示手段1051は、これらの多次元分類軸を、第2の多次元指標計算手段1033が計算した結果から得ることができる。
また、図20(A)、図20(B)、及び図20(C)に示す例では、多次元表示手段1051は、データ一覧を、各データを一覧で表示する。この場合、多次元表示手段1051は、各データを、データID、コンテンツ、及び対応する分類項目を対応付けて表示する。なお、多次元表示手段1051は、これらの情報を、データ蓄積部203が記憶する情報を参照することで得ることができる。
なお、本実施形態において、多次元表示手段1051以外の構成要素の機能は、第5の実施形態で示したそれらの機能と同様である。
次に、一覧形式で情報を表示する場合の多次元表示手段1051の動作について説明する。まず、多次元表示手段1051は、初期表示として、優先度の最も高い多次元分類軸を多次元分類軸表示部分に表示する。また、多次元表示手段1051は、その他の多次元分類軸候補を多次元分類軸候補一覧に優先度順に表示する。また、多次元表示手段1051は、データ一覧には、データ蓄積部203が蓄積する全てのデータを表示する。
なお、多次元表示手段1051は、多次元分類軸表示部分に表示する多次元分類軸において、各次元内の分類項目を一つ又は複数選択することによって、それら全てに対応するデータのみをデータ一覧に表示する。
次いで、多次元表示手段1051は、多次元分類軸候補一覧表示部分に表示する多次元分類軸の中のいずれかの分類軸が選択操作されると、多次元分類軸表示部分の内容をこの選択した多次元分類軸で置き換えて表示する。
なお、本実施形態では、次元数が2次元である場合を示したが、多次元表示手段1051は、3次元以上の次元数の多次元分類軸についても、同様の処理に従って表示することができる。この場合、多次元表示手段1051は、多次元分類軸表示部分に3次元以降の分類軸を追加して表示することによって、テータの一覧表示を行う。
次に、多次元表示手段1051が表形式で情報を表示する場合を説明する。図26は、多次元表示手段1051が表形式で表示する情報の例を示す図である。図26に示すように、多次元表示手段1051は、多次元分類表、データ一覧、及び多次元分類軸候補一覧の表示部分を含む表示画面を表示する。
多次元表示手段1051は、多次元分類表には、多次元分類軸候補のうち最も優先度の高い多次元分類軸を用いて、横軸に第1次元の情報を表示し、縦軸に第2次元の情報を表示する。なお、3次元以上の多次元分類表である場合には、多次元表示手段1051は、縦軸や横軸に更にもう1次元分の情報を追加して表示する。例えば、多次元分類表が3次元である場合、多次元表示手段1051は、横軸に第1次元の情報を表示し、その隣に第3次元の情報を表示し、縦軸に第2次元の情報を配置して表示する。また、多次元表示手段1051は、表の各セルには、どのようなデータが存在するかを示す情報を表示する。
本実施形態では、多次元表示手段1051は、データID群とその数を表示している。
また、多次元表示手段1051は、多次元分類表のいずれかのセルを選択した際に、その選択したセルに対応するデータ一覧を表示する。本実施形態では、多次元表示手段1051は、データID、コンテンツ及び分類項目を表示する。なお、多次元表示手段1051は、これらの情報を、データ蓄積部203が記憶する情報を参照して表示する。
また、多次元表示手段1051は、多次元分類軸候補一覧において、優先度を計算した多次元分類軸を優先度順に表示する。なお、多次元表示手段1051は、これらの情報を、第2の多次元指標計算手段1032が計算した結果から得ることができる。
次に、表形式で情報を表示する場合の多次元表示手段1051の動作について説明する。まず、多次元表示手段1051は、初期表示として、多次元分類表に、優先度の最も高い多次元分類軸を表示する。この場合、多次元表示手段1051は、前述した方法に従って横軸と縦軸とを表示する。なお、多次元表示手段1051は、データ一覧には、まだ何も表示しない。
次に、多次元表示手段1051は、多次元分類表のいずれかのセルが選択操作された場合、この選択操作されたセルに対応するデータをデータ一覧に表示する。
次に、多次元表示手段1051は、多次元分類軸候補一覧からいずれかの多次元分類軸が選択操作された場合、この選択操作された分類軸を多次元分類表の各軸として表示し直す。
以上に説明したように、本実施形態によれば、第2の多次元指標計算手段1033が求めた多次元の分類軸、優先度及びデータを、一覧形式又は表形式で表示する。そのため、ユーザに対して、多次元の分類軸の選択状況や優先度、データを視覚的に認識させることができる。
(第9の実施形態)
次に、本発明の第9の実施形態について説明する。図27は、第9の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図27に示すように、本実施の形態では、データ分類システムが、図24に示した構成要素に加えて、検索手段106を含む点で、第8の実施形態と異なる。
検索手段106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。検索手段106は、入力手段101から検索キーワードと分類項目数とを受け取り(入力し)、データ蓄積部203が記憶するコンテンツやその他の属性部分の情報を検索する機能を備える。また、検索手段106は、検索結果データID群を取得(抽出)し、分類軸候補絞込み手段1021に渡す(出力する)機能を備える。なお、検索手段106は、検索処理を実行する場合に、既存の全文検索エンジンやリレーショナルデータベースの手法を用いて、コンテンツや属性部分の情報を検索する。
本実施の形態では、データ分類システムが、データ蓄積部203から検索結果のデータID群を選択したデータベースに対して処理を行う点が、第8の実施形態と異なる。なお、データ分類システムが実行するその他の処理は、第8の実施形態で示した処理と同様である。
なお、本実施形態において、データ分類システムは、分類軸絞込み手段1021と第2の多次元分類軸作成手段1023とに代えて、多次元分類軸作成手段1022を用いて処理を実行してもよい。また、データ分類システムは、第2の多次元指標計算手段1033に代えて、多次元指標計算手段1032を用いて処理を実行してもよい。更に、データ分類システムは、第2の多次元分類軸作成手段1023を含まず、第2の多次元指標計算手段1033に代えて、指標計算手段103又は第2の指標計算手段1031を用いて処理を実行してもよい。また、データ分類システムは、多次元表示手段1051に代えて表示手段105を用いて処理を実行してもよい。
上記の構成によって、ユーザの検索結果に対してのみ多次元分類軸、又は分類軸を表示することができる。
以上に説明したように、本実施形態によれば、データ蓄積部203が記憶するコンテンツやその他の属性部分の情報を検索し、検索した情報についてのみ分類軸候補の絞り込みを行う。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、より効率的に独立性を考慮した分類軸候補の優先度を決定することができる。
(第10の実施形態)
次に、本発明の第10の実施形態について説明する。図28は、第10の実施形態におけるデータ分類システムの構成の一例を示すブロック図である。図28に示すように、本実施形態では、データ分類システムが、図27に示した構成要素に加えて、データ対応付け手段107を含む点で、第9の実施形態と異なる。
データ対応付け手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。データ対応付け手段107は、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、データと分類項目との対応付けを行う機能を備える。なお、データ対応付け手段107は、対応付け方法として、分類項目名のデータのコンテンツ中の出現による方法や、分類項目名とデータとのコンテンツのコサイン類似度を測る方法等の既存の手法を用いて、対応付けを行うことができる。
なお、データ対応付け手段107は、第2の多次元分類軸候補作成手段1023が分類軸候補を作成する前に、対応付けを行うことが望ましい。
なお、本実施形態において、データ分類システムは、分類軸絞込み手段1021と第2の多次元分類軸作成手段1023とに代えて、多次元分類軸作成手段1022を用いて処理を実行してもよい。また、データ分類システムは、第2の多次元指標計算手段1033に代えて、多次元指標計算手段1032を用いて処理を実行してもよい。更に、データ分類システムは、第2の多次元分類軸作成手段1023を含まず、第2の多次元指標計算手段1033に代えて、指標計算手段103又は第2の指標計算手段1031を用いて処理を実行してもよい。また、データ分類システムは、多次元表示手段1051に代えて、表示手段105を用いて処理を実行してもよい。
以上に説明したように、本実施形態によれば、分類階層蓄積部201が記憶する情報とデータ蓄積部203が記憶する情報とを参照し、データと分類項目との対応付けを行った上で、分類軸候補の絞り込みを行う。従って、分類階層とその分類項目とに対応するデータ群が与えられたときに、より的確に独立性を考慮した分類軸候補の優先度を決定することができる。
次に、データ分類システムの最小構成について説明する。図29は、データ分類システムの最小の構成例を示すブロック図である。図29に示すように、データ分類システムは、最小の構成要素として、基準項目蓄積部202、分類軸候補作成手段102、及び指標計算手段103を含む。
基準項目蓄積部202は、分類項目を選択するための基準項目となる分類項目群を予め蓄積する。また、分類軸候補作成手段102は、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する機能を備える。また、指標計算手段103は、分類階層における分類項目間の階層的な距離に基づいて、分類軸候補作成手段が作成した分類軸候補について、当該分類軸候補の優先度を計算する機能を備える。
図29に示す最小構成のデータ分類システムによれば、優先度計算手段が分類項目間の階層的な距離に基づいて、独立性を考慮して分類軸候補の優先度を決定する。そのため、分類階層に似た分類項目がある場合であっても、ユーザに対してわかりやすい分類軸を提供することができる。
なお、上記の各実施形態では、以下の(1)〜(16)に示すようなデータ分類システムの特徴的構成が示されている。
(1)データ分類システムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類システムであって、分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段(例えば、基準項目蓄積部202によって実現される)と、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成手段(例えば、分類軸候補作成手段102によって実現される)と、分類階層における分類項目間の階層的な距離に基づいて、分類軸候補作成手段が作成した分類軸候補について、当該分類軸候補の優先度を計算する優先度計算手段(例えば、指標計算手段103によって実現される)と、を備えたことを特徴とする。
(2)データ分類システムにおいて、優先度計算手段は、分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖まで長さに応じて、優先度を変更するように構成されていてもよい。
(3)データ分類システムにおいて、優先度計算手段は、分類階層における分類項目間の階層的な距離を計算し、更に、分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、分類軸候補の優先度を決定するように構成されていてもよい。
(4)データ分類システムにおいて、分類軸候補作成手段は、分類項目に対応するデータ量と、分類階層における分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込むように構成されていてもよい。
(5)データ分類システムにおいて、分類軸候補作成手段は、分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内であるかのうちの少なくともいずれか一方の条件をみたし、且つ分類項目間の共通の祖先の分類項目までの長さが特定の範囲内にとなる分類軸を選択するように構成されていてもよい。
(6)データ分類システムは、分類軸候補作成手段が作成した分類軸候補と、優先度計算手段が計算した優先度とを読み込み、データ群とともに表示制御する表示制御手段(例えば、表示手段105によって実現される)を備え、表示制御手段は、分類軸候補を優先度順に表示し、分類軸候補を選択することによって分類軸を切り替えて表示し、分類軸内の分類項目を選択することによって、データ群を選択又は絞り込み可能であるように構成されていてもよい。
(7)データ分類システムは、データ群を検索キーワードに基づいて検索し、データ群を検索した結果を分類軸候補作成手段に出力するデータ検索手段(例えば、検索手段106によって実現される)を備え、分類軸候補作成手段は、データ検索手段の検索結果に基づいて分類軸候補を作成し、優先度計算手段は、データ検索手段が検索したデータ群に対応する分類軸の優先度を計算するように構成されていてもよい。
(8)データ分類システムは、階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段(例えば、データ対応付け手段107によって実現される)を備えるように構成されていてもよい。
(9)データ分類システムは、階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するデータ分類システムであって、分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段(例えば、基準項目蓄積部202によって実現される)と、基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成手段(例えば、多次元分類軸候補作成手段1022によって実現される)と、分類階層における分類項目間の階層的な距離に基づいて、多次元分類軸候補作成手段が作成した多次元分類軸候補について、当該多次元分類軸候補の優先度を計算する多次元優先度計算手段(例えば、多次元指標計算手段1032によって実現される)とを備えるように構成されていてもよい。
(10)データ分類システムにおいて、多次元優先度計算手段は、分類階層での分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更するように構成されていてもよい。
(11)データ分類システムにおいて、多次元優先度計算手段は、各次元の分類軸の分類階層における分類項目間の階層的な距離を計算し、更に、各次元の分類軸の分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、多次元分類軸候補の優先度を決定するように構成されていてもよい。
(12)データ分類システムにおいて、多次元分類軸候補作成手段は、各次元の分類軸に対応するデータ量と、各次元の分類軸の分類項目間の階層的な距離とに基づいて、計算対象となる多次元分類軸候補を絞り込むように構成されていてもよい。
(13)データ分類システムにおいて、多次元分類軸候補作成手段は、各次元の分類軸の分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内である分類項目を含み、且つ各次元の分類軸の分類項目間の階層的な距離として分類項目間の共通祖先までの長さが特定の範囲内となる分類項目を含む多次元分類軸を選択するように構成されていてもよい。
(14)データ分類システムは、多次元分類軸候補作成手段が作成した多次元分類軸候補と、多次元優先度計算手段が計算した優先度とを読み込み、データ群とともに一覧形式又は表形式で表示制御する多次元表示制御手段(例えば、多次元表示手段1051によって実現される)を備え、多次元表示制御手段は、多次元分類軸候補を選択し、各次元の分類項目を表形式又は一覧形式に配置して表示し、1つ又は複数の分類項目を選択することによって、選択した分類項目に対応するデータの数、データ名、データ属性又は特徴語のうちの少なくともいずれか1つを表示するように構成されていてもよい。
(15)データ分類システムは、データ群を検索キーワードに基づいて検索し、データ群を検索した結果を多次元分類軸候補作成手段に出力するデータ検索手段(例えば、検索手段106によって実現される)を備えるように構成されていてもよい。
(16)データ分類システムは、階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段(例えば、データ対応付け手段107によって実現される)を備えるように構成されていてもよい。
本発明は、上述の実施形態に限定されず、本発明の主旨を逸脱しない範囲で、適宜修正や変更が可能である。
本発明は、大量文書群の概要把握を支援するための文書分類装置や、このような文書分類装置を実現するためのプログラムの用途に適用できる。また、本発明は、大量の画像を分類して表示する分類表示装置や、かかる分類表示装置を実現するためのプログラムの用途にも適用可能である。
101 入力手段
102 分類軸候補作成手段
103 指標計算手段
104 出力手段
105 表示手段
106 検索手段
107 データ対応付け手段
201 分類階層蓄積部
202 基準項目蓄積部
203 データ蓄積部
1021 分類軸候補絞込み手段
1022 多次元分類軸候補作成手段
1023 第2の多次元分類軸候補作成手段
1031 第2の指標計算手段
1032 多次元指標計算手段
1033 第2の多次元指標計算手段
1051 多次元表示手段

Claims (26)

  1. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類システムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、
    前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成手段と、
    分類階層における分類項目間の階層的な距離に基づいて、前記分類軸候補作成手段が作成した分類軸候補について、当該分類軸候補の優先度を計算する優先度計算手段と
    を備える、データ分類システム。
  2. 請求項1に記載のデータ分類システムであって、
    優先度計算手段は、分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖まで長さに応じて、優先度を変更する、データ分類システム。
  3. 請求項1に記載のデータ分類システムであって、
    優先度計算手段は、
    分類階層における分類項目間の階層的な距離を計算し、更に、分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、分類軸候補の優先度を決定する、データ分類システム。
  4. 請求項1に記載のデータ分類システムであって、
    分類軸候補作成手段は、分類項目に対応するデータ量と、分類階層における分類項目間の階層的な距離とに基づいて、計算対象となる分類軸候補を絞り込む、データ分類システム。
  5. 請求項1に記載のデータ分類システムであって、
    分類軸候補作成手段は、分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内であるかのうちの少なくともいずれか一方の条件をみたし、且つ分類項目間の共通の祖先の分類項目までの長さが特定の範囲内となる分類軸を選択する、データ分類システム。
  6. 請求項1に記載のデータ分類システムであって、
    分類軸候補作成手段が作成した分類軸候補と、優先度計算手段が計算した優先度とを読み込み、データ群とともに表示制御する表示制御手段を更に備え、
    前記表示制御手段は、前記分類軸候補を優先度順に表示し、前記分類軸候補を選択することによって分類軸を切り替えて表示し、分類軸内の分類項目を選択することによって、データ群を選択又は絞り込み可能である、データ分類システム。
  7. 請求項1に記載のデータ分類システムであって、
    データ群を検索キーワードに基づいて検索し、前記データ群を検索した結果を分類軸候補作成手段に出力するデータ検索手段を備え、
    前記分類軸候補作成手段は、前記データ検索手段の検索結果に基づいて分類軸候補を作成し、
    優先度計算手段は、前記データ検索手段が検索したデータ群に対応する分類軸の優先度を計算する、データ分類システム。
  8. 請求項1に記載のデータ分類システムであって、
    階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段を備える、データ分類システム。
  9. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するデータ分類システムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段と、
    前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成手段と、
    分類階層における分類項目間の階層的な距離に基づいて、前記多次元分類軸候補作成手段が作成した多次元分類軸候補について、当該多次元分類軸候補の優先度を計算する多次元優先度計算手段と
    を備える、データ分類システム。
  10. 請求項9に記載のデータ分類システムであって、
    多次元優先度計算手段は、分類階層での分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更する、データ分類システム。
  11. 請求項9に記載のデータ分類システムであって、
    多次元優先度計算手段は、各次元の分類軸の分類階層における分類項目間の階層的な距離を計算し、更に、各次元の分類軸の分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、多次元分類軸候補の優先度を決定する、データ分類システム。
  12. 請求項9に記載のデータ分類システムであって、
    多次元分類軸候補作成手段は、各次元の分類軸に対応するデータ量と、各次元の分類軸の分類項目間の階層的な距離とに基づいて、計算対象となる多次元分類軸候補を絞り込む、データ分類システム。
  13. 請求項9に記載のデータ分類システムであって、
    多次元分類軸候補作成手段は、各次元の分類軸の分類項目に対応するデータ量が所定数以上であるか、又は上位所定割合以内である分類項目を含み、且つ各次元の分類軸の分類項目間の階層的な距離として分類項目間の共通祖先までの長さが特定の範囲内となる分類項目を含む多次元分類軸を選択する、データ分類システム。
  14. 請求項9に記載のデータ分類システムであって、
    多次元分類軸候補作成手段が作成した多次元分類軸候補と、多次元優先度計算手段が計算した優先度とを読み込み、データ群とともに一覧形式又は表形式で表示制御する多次元表示制御手段を備え、
    前記多次元表示制御手段は、前記多次元分類軸候補を選択し、各次元の分類項目を表形式又は一覧形式に配置して表示し、1つ又は複数の分類項目を選択することによって、選択した分類項目に対応するデータの数、データ名、データ属性又は特徴語のうちの少なくともいずれか1つを表示する、データ分類システム。
  15. 請求項9に記載のデータ分類システムであって、
    データ群を検索キーワードに基づいて検索し、前記データ群を検索した結果を多次元分類軸候補作成手段に出力するデータ検索手段を更に備える、データ分類システム。
  16. 請求項9に記載のデータ分類システムであって、
    階層的な分類項目とデータ群とを入力し、入力した分類項目とデータとの対応付けを行うデータ対応付け手段を更に備える、データ分類システム。
  17. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するデータ分類方法であって、
    前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積し、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成行程と、
    分類階層における分類項目間の階層的な距離に基づいて、作成した前記分類軸候補について、当該分類軸候補の優先度を計算する優先度計算行程と
    を含む、データ分類方法。
  18. 請求項17に記載のデータ分類方法であって、
    優先度計算行程は、分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖まで長さに応じて、優先度を変更する、データ分類方法。
  19. 請求項17に記載のデータ分類方法であって、
    優先度計算行程は、分類階層における分類項目間の階層的な距離を計算し、更に、分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、分類軸候補の優先度を決定する、データ分類方法。
  20. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するデータ分類方法であって、
    前記分類項目を選択するための基準項目となる分類項目群を予めデータベースに蓄積し、前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成行程と、
    分類階層における分類項目間の階層的な距離に基づいて、作成した前記多次元分類軸候補について、多次元分類軸候補の優先度を計算する多次元優先度計算行程と
    を含む、データ分類方法。
  21. 請求項20に記載のデータ分類方法であって、
    多次元優先度計算行程は、分類階層での分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更する、データ分類方法。
  22. 請求項20に記載のデータ分類方法であって、
    多次元優先度計算行程は、各次元の分類軸の分類階層における分類項目間の階層的な距離を計算し、更に、各次元の分類軸の分類項目の分類階層での深さ、分類項目群に対応するデータ量、又は分類項目群に対応するデータの重複度合いのうちの少なくともいずれか1つに基づいて、多次元分類軸候補の優先度を決定する、データ分類方法。
  23. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸として出力するためのデータ分類プログラムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、
    前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて、分類軸候補を作成する分類軸候補作成処理と、
    分類階層における分類項目間の階層的な距離に基づいて、作成した前記分類軸候補について、当該分類軸候補の優先度を計算する優先度計算処理と
    を実行させる、データ分類プログラム。
  24. 請求項23に記載のデータ分類プログラムであって、
    コンピュータに、
    優先度計算処理にて、分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖まで長さに応じて、優先度を変更する処理を実行させる、データ分類プログラム。
  25. 階層的な分類項目と、当該分類項目に対応するデータ群とに基づいて、前記データ群に対応する分類項目を複数選択して分類軸を作成し、複数の分類軸の組合せを出力するためのデータ分類プログラムであって、
    前記分類項目を選択するための基準項目となる分類項目群を予め蓄積する基準項目蓄積手段を備えたコンピュータに、
    前記基準項目の子孫の分類項目においてデータに少なくとも1つ対応する分類項目の組合せに基づいて分類軸候補を作成し、複数の分類軸候補を組合せることによって、多次元分類軸候補を作成する多次元分類軸候補作成処理と、
    分類階層における分類項目間の階層的な距離に基づいて、作成した前記多次元分類軸候補について、多次元分類軸候補の優先度を計算する多次元優先度計算処理と
    を実行させる、データ分類プログラム。
  26. 請求項25に記載のデータ分類プログラムであって、
    コンピュータに、
    多次元優先度計算処理にて、分類階層での分類項目間の階層的な距離として、分類階層における分類項目間の共通の先祖までの長さに応じて、多次元分類軸の優先度を変更する処理を実行させる、データ分類プログラム。
JP2010522626A 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム Expired - Fee Related JP5423676B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010522626A JP5423676B2 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008195896 2008-07-30
JP2008195896 2008-07-30
PCT/JP2009/003602 WO2010013473A1 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム
JP2010522626A JP5423676B2 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム

Publications (2)

Publication Number Publication Date
JPWO2010013473A1 JPWO2010013473A1 (ja) 2012-01-05
JP5423676B2 true JP5423676B2 (ja) 2014-02-19

Family

ID=41610187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010522626A Expired - Fee Related JP5423676B2 (ja) 2008-07-30 2009-07-29 データ分類システム、データ分類方法、及びデータ分類プログラム

Country Status (3)

Country Link
US (1) US9361367B2 (ja)
JP (1) JP5423676B2 (ja)
WO (1) WO2010013473A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342589B2 (en) 2008-07-30 2016-05-17 Nec Corporation Data classifier system, data classifier method and data classifier program stored on storage medium
JP5060591B2 (ja) * 2010-06-03 2012-10-31 株式会社東芝 文書分析装置およびプログラム
US8639695B1 (en) * 2010-07-08 2014-01-28 Patent Analytics Holding Pty Ltd System, method and computer program for analysing and visualising data
AU2010202901B2 (en) 2010-07-08 2016-04-14 Patent Analytics Holding Pty Ltd A system, method and computer program for preparing data for analysis
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
KR101510647B1 (ko) * 2011-10-07 2015-04-10 한국전자통신연구원 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치
US9053140B2 (en) * 2012-02-03 2015-06-09 Apple Inc. Enhanced B-trees with record merging
JP5319829B1 (ja) * 2012-07-31 2013-10-16 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN104142947A (zh) * 2013-05-09 2014-11-12 鸿富锦精密工业(深圳)有限公司 文件分类系统及方法
CN103366013B (zh) * 2013-07-29 2016-03-02 腾讯科技(深圳)有限公司 一种数据处理的方法及服务器
EP3037983A4 (en) 2013-08-21 2017-03-08 Hitachi, Ltd. Data processing system, data processing method, and data processing device
US10725800B2 (en) 2015-10-16 2020-07-28 Dell Products L.P. User-specific customization for command interface
US10748116B2 (en) * 2015-10-16 2020-08-18 Dell Products L.P. Test vector generation from documentation
US10432484B2 (en) 2016-06-13 2019-10-01 Silver Peak Systems, Inc. Aggregating select network traffic statistics
KR102351854B1 (ko) * 2019-12-05 2022-01-14 한양대학교 산학협력단 기술 도메인에 대한 기술 발전도 생성 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JP2006139518A (ja) * 2004-11-11 2006-06-01 Nec Corp 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251144A (en) * 1991-04-18 1993-10-05 Texas Instruments Incorporated System and method utilizing a real time expert system for tool life prediction and tool wear diagnosis
JPH0573615A (ja) 1991-09-17 1993-03-26 Kobe Nippon Denki Software Kk 階層構造型情報の管理方式
JP3096353B2 (ja) 1992-04-22 2000-10-10 株式会社戸上電機製作所 データの分類方法
US5325445A (en) * 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
EP0582885A3 (en) * 1992-08-05 1997-07-02 Siemens Ag Procedure to classify field patterns
US5353346A (en) * 1992-12-22 1994-10-04 Mpr Teltech, Limited Multi-frequency signal detector and classifier
US5640492A (en) * 1994-06-30 1997-06-17 Lucent Technologies Inc. Soft margin classifier
US5596993A (en) * 1994-09-21 1997-01-28 Beth Israel Hospital Fetal data processing system and method
US5561431A (en) * 1994-10-24 1996-10-01 Martin Marietta Corporation Wavelet transform implemented classification of sensor data
JPH0981585A (ja) 1995-09-14 1997-03-28 Ricoh Co Ltd 電子ファイリング装置
JP3670076B2 (ja) 1996-03-07 2005-07-13 松下電器産業株式会社 データ表示装置
US5765029A (en) * 1996-05-08 1998-06-09 Xerox Corporation Method and system for fuzzy image classification
US5983170A (en) * 1996-06-25 1999-11-09 Continuum Software, Inc System and method for generating semantic analysis of textual information
US5930392A (en) 1996-07-12 1999-07-27 Lucent Technologies Inc. Classification technique using random decision forests
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5956721A (en) * 1997-09-19 1999-09-21 Microsoft Corporation Method and computer program product for classifying network communication packets processed in a network stack
US6185328B1 (en) 1998-01-21 2001-02-06 Xerox Corporation Method and system for classifying and processing of pixels of image data
US6229923B1 (en) 1998-01-21 2001-05-08 Xerox Corporation Method and system for classifying and processing of pixels of image data
JPH11306187A (ja) 1998-04-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> カテゴリ付文書の検索結果の提示処理方法およびその装置
WO1999059673A1 (en) 1998-05-21 1999-11-25 Medtronic Physio-Control Manufacturing Corp. Automatic detection and reporting of cardiac asystole
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6185336B1 (en) 1998-09-23 2001-02-06 Xerox Corporation Method and system for classifying a halftone pixel based on noise injected halftone frequency estimation
US6421683B1 (en) 1999-03-31 2002-07-16 Verizon Laboratories Inc. Method and product for performing data transfer in a computer system
US6907566B1 (en) 1999-04-02 2005-06-14 Overture Services, Inc. Method and system for optimum placement of advertisements on a webpage
US7363359B1 (en) * 1999-05-26 2008-04-22 Fujitsu Limited Element management system with automatic remote backup of network elements' local storage
US7185075B1 (en) * 1999-05-26 2007-02-27 Fujitsu Limited Element management system with dynamic database updates based on parsed snooping
WO2000075788A1 (en) * 1999-05-26 2000-12-14 Fujitsu Network Communications, Inc. Network element management system
US6490556B2 (en) 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
US6671680B1 (en) * 2000-01-28 2003-12-30 Fujitsu Limited Data mining apparatus and storage medium storing therein data mining processing program
JP2001216306A (ja) 2000-01-31 2001-08-10 Hitachi Ltd カテゴリ作成装置
US7325201B2 (en) 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7113934B2 (en) * 2000-05-25 2006-09-26 Fujitsu Limited Element management system with adaptive interfacing selected by last previous full-qualified managed level
US6459974B1 (en) 2001-05-30 2002-10-01 Eaton Corporation Rules-based occupant classification system for airbag deployment
US7028024B1 (en) 2001-07-20 2006-04-11 Vignette Corporation Information retrieval from a collection of information objects tagged with hierarchical keywords
AUPR824401A0 (en) 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
JP2003141159A (ja) 2001-11-06 2003-05-16 Fujitsu Ltd 距離インデクスを用いた検索装置および方法
JP4404533B2 (ja) * 2002-08-30 2010-01-27 株式会社ニデック 眼内レンズの製造方法及び該方法にて得られる眼内レンズ
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
JP4233836B2 (ja) 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP4305083B2 (ja) * 2003-07-14 2009-07-29 富士ゼロックス株式会社 単語間類似度計算装置およびプログラム
JP2005036162A (ja) 2003-07-18 2005-02-10 Sumitomo Bakelite Co Ltd 熱硬化性樹脂組成物
JP4451624B2 (ja) 2003-08-19 2010-04-14 富士通株式会社 情報体系対応付け装置および対応付け方法
US7877238B2 (en) * 2003-09-12 2011-01-25 Sysmex Corporation Data classification supporting method, computer readable storage medium, and data classification supporting apparatus
US7577655B2 (en) * 2003-09-16 2009-08-18 Google Inc. Systems and methods for improving the ranking of news articles
KR20050045746A (ko) 2003-11-12 2005-05-17 삼성전자주식회사 계층 구조의 가변 블록 크기를 이용한 움직임 추정 방법및 장치
JP2005202535A (ja) 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2005267604A (ja) * 2004-02-18 2005-09-29 Fuji Xerox Co Ltd 動作分類支援装置および動作分類装置
US7428528B1 (en) 2004-03-31 2008-09-23 Endeca Technologies, Inc. Integrated application for manipulating content in a hierarchical data-driven search and navigation system
US7710897B2 (en) * 2004-08-26 2010-05-04 Fujitsu Limited Automatic discovery of logical network elements from existing links in a network
US7693683B2 (en) * 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
JP2006171931A (ja) 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム
TW200622402A (en) 2004-12-28 2006-07-01 Innolux Display Corp Liquid crystal panel and its cutting method
JP2006285419A (ja) * 2005-03-31 2006-10-19 Sony Corp 情報処理装置および方法、並びにプログラム
US7912871B2 (en) 2005-07-27 2011-03-22 Technion Research And Development Foundation Ltd. Incremental validation of key and keyref constraints
US8775158B2 (en) * 2005-08-04 2014-07-08 Nec Corporation Data processing device, data processing method, and data processing program
JP2007102309A (ja) 2005-09-30 2007-04-19 Mitsubishi Electric Corp 自動分類装置
FR2902913A1 (fr) 2006-06-21 2007-12-28 France Telecom Procede et dispositif de codage d'une note de similarite semantique et spatiale entre concepts d'une ontologie memorisee sous forme de treillis numerote hierarchiquement
US7873616B2 (en) 2006-07-07 2011-01-18 Ecole Polytechnique Federale De Lausanne Methods of inferring user preferences using ontologies
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US7912875B2 (en) 2006-10-31 2011-03-22 Business Objects Software Ltd. Apparatus and method for filtering data using nested panels
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
WO2008092147A2 (en) * 2007-01-26 2008-07-31 Information Resources, Inc. Analytic platform
US20080221983A1 (en) 2007-03-06 2008-09-11 Siarhei Ausiannik Network information distribution system and a method of advertising and search for supply and demand of products/goods/services in any geographical location
CN101295305B (zh) * 2007-04-25 2012-10-31 富士通株式会社 图像检索装置
US8229881B2 (en) * 2007-07-16 2012-07-24 Siemens Medical Solutions Usa, Inc. System and method for creating and searching medical ontologies
KR100930799B1 (ko) 2007-09-17 2009-12-09 한국전자통신연구원 자동화된 클러스터링 방법 및 이를 이용한 이동통신환경에서 다중 경로의 클러스터링 방법 및 장치
JP4998237B2 (ja) * 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
US9342589B2 (en) 2008-07-30 2016-05-17 Nec Corporation Data classifier system, data classifier method and data classifier program stored on storage medium
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JP2006139518A (ja) * 2004-11-11 2006-06-01 Nec Corp 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Also Published As

Publication number Publication date
JPWO2010013473A1 (ja) 2012-01-05
US9361367B2 (en) 2016-06-07
US20110179037A1 (en) 2011-07-21
WO2010013473A1 (ja) 2010-02-04

Similar Documents

Publication Publication Date Title
JP5423676B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
US7519582B2 (en) System and method for performing a high-level multi-dimensional query on a multi-structural database
Cole et al. Document retrieval for e-mail search and discovery using formal concept analysis
Ma Author bibliographic coupling analysis: A test based on a Chinese academic database
US20080040342A1 (en) Data processing apparatus and methods
JP5187313B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
KR20160083017A (ko) 소셜 데이터 네트워크에서 인플루언서들 및 그들의 커뮤니티를 식별하기 위한 시스템 및 방법
WO2008106667A1 (en) Searching heterogeneous interrelated entities
JP5500070B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
Mazeika et al. Entity timelines: visual analytics and named entity evolution
Chopra et al. A survey on improving the efficiency of different web structure mining algorithms
Lal et al. Information retrieval system and challenges with dataspace
Priss Facet-like structures in computer science
Menin et al. From linked data querying to visual search: towards a visualization pipeline for LOD exploration
JP2014102625A (ja) 情報検索システム、プログラム、および方法
CN114691845B (zh) 语义搜索方法、装置、电子设备、存储介质及产品
Coneglian et al. Ontological semantic agent in the context of big data: A tool applied to information retrieval in scientific research
KR101201218B1 (ko) 니치 기술 영역 발견을 지원하는 니치 기술 영역 발견을 지원하는 특허 정보 처리 방법
KR20150057497A (ko) 온라인 텍스트 문서의 계층적 트리 기반 주제탐색 방법 및 시스템
Rástočný et al. Web search results exploration via cluster-based views and zoom-based navigation
Devignes et al. BioRegistry: Automatic extraction of metadata for biological database retrieval and discovery
US11681700B1 (en) Methods and apparatuses for clustered storage of information
Li et al. Timeline: a Chinese event extraction and exploration system
Sima et al. Keyword query approach over rdf data based on tree template
Lettieri et al. Nets of legal information connecting and displaying heterogeneous legal sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Ref document number: 5423676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees