JP5716966B2 - データ分析装置、データ分析方法及びプログラム - Google Patents
データ分析装置、データ分析方法及びプログラム Download PDFInfo
- Publication number
- JP5716966B2 JP5716966B2 JP2011278903A JP2011278903A JP5716966B2 JP 5716966 B2 JP5716966 B2 JP 5716966B2 JP 2011278903 A JP2011278903 A JP 2011278903A JP 2011278903 A JP2011278903 A JP 2011278903A JP 5716966 B2 JP5716966 B2 JP 5716966B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- objects
- hash value
- initial cluster
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 80
- 238000007405 data analysis Methods 0.000 title claims description 43
- 238000012545 processing Methods 0.000 claims description 44
- 230000014509 gene expression Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 240000004270 Colocasia esculenta var. antiquorum Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
前述した手順で処理を実行することによって、類似度の算出対象となるオブジェクトを限定できる(図10参照)。
図1は、本発明の第1の実施形態のデータ分析装置100の構成例を示すブロック図である。
条件1:類似しないオブジェクトS1、S2に対し、高い確率で下式(8)を満たす。
S1:[1,2,3]
S2:[1,2,3]
S3:[5,6,7]
S4:[1,2,3,4]
以下では、オブジェクトSiに含まれる属性がID番号の順にソートされた後のSiにおけるj番目の属性のID番号をSi[j]と記載する。すなわち、Si[1]はオブジェクトSiに含まれる属性のうちID番号が最小の属性を示し、Si[|Si|]はオブジェクトSiに含まれる属性のうちID番号が最大の属性を表す。
二つのオブジェクトS1、S2が、異なるグループから得られたオブジェクトであるとする。このとき、ハッシュ値h(S1)は、オブジェクトS1に含まれる属性のID番号であり、下式(18)を満たす。したがって、ハッシュ値h(S1)がS2に含まれる確率、すなわち、下式(19)を満たす確率は高々m/|U|である。前述のように、式(11)を満たすため当該確率は低い。
式(9)を満たす二つのオブジェクトS1、S2において、下式(20)及び下式(21)を満たすことはない。なぜなら、ハッシュ値hは式(13)に示すようにID番号であり、属性が異なればID番号も異なるためである。したがって、式(10)を満たす。
前述のようにオブジェクトSiは、グループGからR個の要素(属性)をランダムに除去して得られたオブジェクトである。このとき、ハッシュ値h(Si)は、グループGの限られた要素のいずれかであることを説明する。以下では、ハッシュ値h(Si)の、Gにおける順位をaとする。
第2の実施形態では、RDFに対してデータ分析装置100を適用した場合について説明する。以下、第1の実施形態との差異を中心に説明する。
処理対象とするデータは永続的なものとは限らず、応用によっては、新規データが次々に出現することも考えられる。そこで、第3の実施形態では、初期クラスタ121及び最終クラスタ122が生成された後に、新たなオブジェクトが入力された場合に、当該オブジェクトと類似するオブジェクトを含む初期クラスタ121及び最終クラスタ122を高速に特定する。
101 CPU
102 主記憶装置
103 補助記憶装置
104 リムーバブルドライブ
106 ユーザインタフェース
107 ネットワークインタフェース
110 ハッシュ値算出部
111 類似性判定部
112 初期クラスタリング部
113 クラスタマージ部
120 オブジェクト集合
121 初期クラスタ
122 最終クラスタ
130 外部記憶装置
140 ネットワーク
600 RDF変換部
Claims (15)
- プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置であって、
前記入出力装置は、処理対象のデータを要素とする集合である複数のオブジェクトの入力を受け付け、
前記データ分析装置は、
所定のハッシュ関数を用いて前記各オブジェクトのハッシュ値を算出するハッシュ値算出部と、
前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成するクラスタリング部と、
前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成するクラスタマージ部と、
を備え、
前記ハッシュ値算出部は、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いることを特徴とするデータ分析装置。 - 前記データ分析装置は、
さらに、異なる二つの集合に含まれる要素を比較することによって前記異なる二つの集合が前記類似関係を満たすか否かを判定する類似性判定部を備え、
前記クラスタリング部は、
前記算出されたハッシュ値が同一であるオブジェクトを収集して集合を生成し、
前記生成された集合の中から二つの前記オブジェクトを選択し、前記選択された二つのオブジェクトが前記類似関係を満たすか否かを前記類似性判定部を用いて判定し、
前記選択された二つのオブジェクトが前記類似関係を満たす場合には、前記選択された二つのオブジェクトに含まれる前記要素をマージすることによって前記初期クラスタを生成し、
前記クラスタマージ部は、
処理対象となる第1の初期クラスタを選択し、
前記選択された第1の初期クラスタに含まれる前記オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定し、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第2の初期クラスタを特定し、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たすか否かを前記類似性判定部を用いて判定し、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たす場合には、前記第1の初期クラスタに含まれる前記要素と、前記第2の初期クラスタに含まれる前記要素とをマージすることによって前記最終クラスタを生成することを特徴とする請求項1に記載のデータ分析装置。 - 前記入出力装置は、特定の事柄を表すノードと、二つの前記ノード間を接続するエッジとを含むRDF(Resource Description Framework)の入力を受け付け、
前記要素は、前記ノード及び前記エッジのそれぞれに付与されたURI(Uniform Resource Identifier)であり、
前記最終クラスタは、類似する事柄を表す前記ノードがグループ化された集合であることを特徴とする請求項3に記載のデータ分析装置。 - 前記データ分析装置は、
前記最終クラスタが生成された後に、新規オブジェクトの入力を受け付けた場合に、前記ハッシュ値算出部を用いて前記入力された新規オブジェクトのハッシュ値を算出し、
前記クラスタマージ部が、
前記新規オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定し、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第3の初期クラスタを特定し、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たすか否かを前記類似性判定部を用いて判定し、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たす場合には、前記第3の初期クラスタに対して、前記新規オブジェクトに含まれる前記要素をマージすることによって前記最終クラスタを生成することを特徴とする請求項3に記載のデータ分析装置。 - プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置におけるデータ分析方法であって、
前記方法は、
前記データ分析装置が、所定のハッシュ関数を用いて、前記入力装置が受け付け、処理対象のデータを要素とする集合である複数のオブジェクトのそれぞれのハッシュ値を算出する第1のステップと、
前記データ分析装置が、前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成する第2のステップと、
前記データ分析装置が、前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成する第3のステップと、
を含み、
前記第1のステップでは、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いることを特徴とするデータ分析方法。 - 前記第2のステップは、
前記算出されたハッシュ値が同一であるオブジェクトを収集して集合を生成するステップと、
前記生成された集合の中から二つの前記オブジェクトを選択し、前記選択された二つのオブジェクトに含まれる前記要素を比較することによって、前記選択された二つのオブジェクトが前記類似関係を満たす否かを判定するステップと、
前記選択された二つのオブジェクトが前記類似関係を満たす場合には、前記選択された二つのオブジェクトに含まれる前記要素をマージすることによって前記初期クラスタを生成するステップと、
を含み、
前記第3のステップは、
処理対象となる第1の初期クラスタを選択するステップと、
前記選択された第1の初期クラスタに含まれる前記オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定するステップと、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第2の初期クラスタを特定するステップと、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たすか否かを判定するステップと、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たす場合には、前記第1の初期クラスタに含まれる前記要素と、前記第2の初期クラスタに含まれる前記要素とをマージすることによって前記最終クラスタを生成するステップと、
を含むことを特徴とする請求項6に記載のデータ分析方法。 - 前記入出力装置は、特定の事柄を表すノードと、二つの前記ノード間を接続するエッジとを含むRDF(Resource Description Framework)の入力を受け付け、
前記要素は、前記ノード及び前記エッジのそれぞれに付与されたURI(Uniform Resource Identifier)であり、
前記最終クラスタは、類似する事柄を表す前記ノードがグループ化された集合であることを特徴とする請求項8に記載のデータ分析方法。 - 前記方法は、さらに、
前記最終クラスタが生成された後に、新規オブジェクトの入力を受け付けた場合に、前記入力された新規オブジェクトのハッシュ値を算出するステップと、
前記新規オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定するステップと、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第3の初期クラスタを特定するステップと、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たすか否かを判定するステップと、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たす場合には、前記第3の初期クラスタに対して、前記新規オブジェクトに含まれる前記要素をマージすることによって前記最終クラスタを生成するステップと、
を含むことを特徴とする請求項8に記載のデータ分析方法。 - プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置が実行するプログラムであって、
前記プログラムは、
所定のハッシュ関数を用いて、前記入出力装置が受け付け、処理対象のデータを要素とする集合である複数のオブジェクトのそれぞれのハッシュ値を算出する第1の手順と、
前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成する第2の手順と、
前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成する第3の手順と、
を前記プロセッサに実行させるためのプログラムであって、
前記第1の手順では、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いて前記ハッシュ値を前記プロセッサに算出させることを特徴とするプログラム。 - 前記第2の手順は、
前記算出されたハッシュ値が同一であるオブジェクトを収集して集合を生成する手順と、
前記生成された集合の中から二つの前記オブジェクトを選択し、前記選択された二つのオブジェクトに含まれる前記要素を比較することによって、前記選択された二つのオブジェクトが前記類似関係を満たす否かを判定する手順と、
前記選択された二つのオブジェクトが前記類似関係を満たす場合には、前記選択された二つのオブジェクトに含まれる前記要素をマージすることによって前記初期クラスタを生成する手順と、
を含み、
前記第3の手順は、
処理対象となる第1の初期クラスタを選択する手順と、
前記選択された第1の初期クラスタに含まれる前記オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定する手順と、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第2の初期クラスタを特定する手順と、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たすか否かを判定する手順と、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たす場合には、前記第1の初期クラスタに含まれる前記要素と、前記第2の初期クラスタに含まれる前記要素とをマージすることによって前記最終クラスタを生成する手順と、
を含むことを特徴とする請求項11に記載のプログラム。 - 前記入出力装置は、特定の事柄を表すノードと、二つの前記ノード間を接続するエッジとを含むRDF(Resource Description Framework)の入力を受け付け、
前記要素は、前記ノード及び前記エッジのそれぞれに付与されたURI(Uniform Resource Identifier)であり、
前記最終クラスタは、類似する事柄を表す前記ノードがグループ化された集合であることを特徴とする請求項13に記載のプログラム。 - 前記プログラムは、さらに、
前記最終クラスタが生成された後に、新規オブジェクトの入力を受け付けた場合に、前記入力された新規オブジェクトのハッシュ値を算出する手順と、
前記新規オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定する手順と、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第3の初期クラスタを特定する手順と、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たすか否かを判定する手順と、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たす場合には、前記第3の初期クラスタに対して、前記新規オブジェクトに含まれる前記要素をマージすることによって前記最終クラスタを生成する手順と、
を前記プロセッサに実行させることを特徴とする請求項13に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011278903A JP5716966B2 (ja) | 2011-12-20 | 2011-12-20 | データ分析装置、データ分析方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011278903A JP5716966B2 (ja) | 2011-12-20 | 2011-12-20 | データ分析装置、データ分析方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013130965A JP2013130965A (ja) | 2013-07-04 |
JP5716966B2 true JP5716966B2 (ja) | 2015-05-13 |
Family
ID=48908487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011278903A Expired - Fee Related JP5716966B2 (ja) | 2011-12-20 | 2011-12-20 | データ分析装置、データ分析方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5716966B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6092056B2 (ja) * | 2013-09-11 | 2017-03-08 | 株式会社Nttドコモ | クラスタリング装置及びクラスタリング方法 |
JP6440542B2 (ja) * | 2014-03-18 | 2018-12-19 | 株式会社Nttドコモ | 大量の複雑な構造化データを管理するための知識エンジン |
US11880391B2 (en) * | 2021-04-20 | 2024-01-23 | Cylance, Inc. | Clustering software codes in scalable manner |
CN116992220B (zh) * | 2023-09-25 | 2023-12-19 | 国网北京市电力公司 | 一种低冗余用电数据智能采集方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7739314B2 (en) * | 2005-08-15 | 2010-06-15 | Google Inc. | Scalable user clustering based on set similarity |
-
2011
- 2011-12-20 JP JP2011278903A patent/JP5716966B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013130965A (ja) | 2013-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5531395B2 (ja) | 単語親和度による単語クラスタの識別 | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
WO2018004829A1 (en) | Methods and apparatus for subgraph matching in big data analysis | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
WO2011004529A1 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP2009193584A (ja) | ワードセットに関係するワードの決定 | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
JP5716966B2 (ja) | データ分析装置、データ分析方法及びプログラム | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
WO2017158802A1 (ja) | データ変換システム及びデータ変換方法 | |
CN112540973A (zh) | 一种基于关联规则的网络可视化方法 | |
JP5528292B2 (ja) | 意味のある頻出アイテムセットを抽出するシステム、方法及びプログラム | |
JPWO2017203672A1 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
JP2019215713A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP6008067B2 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
WO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
JP2013045415A (ja) | 話題語獲得装置、方法、及びプログラム | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 | |
JP4175001B2 (ja) | 文書データ検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5716966 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |