JP2013130965A - データ分析装置、データ分析方法及びプログラム - Google Patents
データ分析装置、データ分析方法及びプログラム Download PDFInfo
- Publication number
- JP2013130965A JP2013130965A JP2011278903A JP2011278903A JP2013130965A JP 2013130965 A JP2013130965 A JP 2013130965A JP 2011278903 A JP2011278903 A JP 2011278903A JP 2011278903 A JP2011278903 A JP 2011278903A JP 2013130965 A JP2013130965 A JP 2013130965A
- Authority
- JP
- Japan
- Prior art keywords
- objects
- cluster
- hash value
- initial cluster
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力されたデータを分析し、類似するデータ毎に分類するデータ分析装置であって、処理対象のデータを要素とする集合である複数のオブジェクトの入力を受け付け、ハッシュ関数を用いて各オブジェクトのハッシュ値を算出するハッシュ値算出部と、ハッシュ値が同一であるオブジェクトから構成される初期クラスタを生成するクラスタリング部と、類似する初期クラスタから構成される最終クラスタを生成するクラスタマージ部と、を備え、ハッシュ値算出部は、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出するハッシュ関数を用いる。
【選択図】図1
Description
前述した手順で処理を実行することによって、類似度の算出対象となるオブジェクトを限定できる(図10参照)。
図1は、本発明の第1の実施形態のデータ分析装置100の構成例を示すブロック図である。
条件1:類似しないオブジェクトS1、S2に対し、高い確率で下式(8)を満たす。
S1:[1,2,3]
S2:[1,2,3]
S3:[5,6,7]
S4:[1,2,3,4]
以下では、オブジェクトSiに含まれる属性がID番号の順にソートされた後のSiにおけるj番目の属性のID番号をSi[j]と記載する。すなわち、Si[1]はオブジェクトSiに含まれる属性のうちID番号が最小の属性を示し、Si[|Si|]はオブジェクトSiに含まれる属性のうちID番号が最大の属性を表す。
二つのオブジェクトS1、S2が、異なるグループから得られたオブジェクトであるとする。このとき、ハッシュ値h(S1)は、オブジェクトS1に含まれる属性のID番号であり、下式(18)を満たす。したがって、ハッシュ値h(S1)がS2に含まれる確率、すなわち、下式(19)を満たす確率は高々m/|U|である。前述のように、式(11)を満たすため当該確率は低い。
式(9)を満たす二つのオブジェクトS1、S2において、下式(20)及び下式(21)を満たすことはない。なぜなら、ハッシュ値hは式(13)に示すようにID番号であり、属性が異なればID番号も異なるためである。したがって、式(10)を満たす。
前述のようにオブジェクトSiは、グループGからR個の要素(属性)をランダムに除去して得られたオブジェクトである。このとき、ハッシュ値h(Si)は、グループGの限られた要素のいずれかであることを説明する。以下では、ハッシュ値h(Si)の、Gにおける順位をaとする。
第2の実施形態では、RDFに対してデータ分析装置100を適用した場合について説明する。以下、第1の実施形態との差異を中心に説明する。
処理対象とするデータは永続的なものとは限らず、応用によっては、新規データが次々に出現することも考えられる。そこで、第3の実施形態では、初期クラスタ121及び最終クラスタ122が生成された後に、新たなオブジェクトが入力された場合に、当該オブジェクトと類似するオブジェクトを含む初期クラスタ121及び最終クラスタ122を高速に特定する。
101 CPU
102 主記憶装置
103 補助記憶装置
104 リムーバブルドライブ
106 ユーザインタフェース
107 ネットワークインタフェース
110 ハッシュ値算出部
111 類似性判定部
112 初期クラスタリング部
113 クラスタマージ部
120 オブジェクト集合
121 初期クラスタ
122 最終クラスタ
130 外部記憶装置
140 ネットワーク
600 RDF変換部
Claims (15)
- プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置であって、
前記入出力装置は、処理対象のデータを要素とする集合である複数のオブジェクトの入力を受け付け、
前記データ分析装置は、
所定のハッシュ関数を用いて前記各オブジェクトのハッシュ値を算出するハッシュ値算出部と、
前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成するクラスタリング部と、
前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成するクラスタマージ部と、
を備え、
前記ハッシュ値算出部は、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いることを特徴とするデータ分析装置。 - 前記データ分析装置は、
さらに、異なる二つの集合に含まれる要素を比較することによって前記異なる二つの集合が前記類似関係を満たすか否かを判定する類似性判定部を備え、
前記算出されたハッシュ値が同一であるオブジェクトを収集して集合を生成し、
前記生成された集合の中から二つの前記オブジェクトを選択し、前記選択された二つのオブジェクトが前記類似関係を満たすか否かを判定し、
前記選択された二つのオブジェクトが前記類似関係を満たす場合には、前記選択された二つのオブジェクトに含まれる前記要素をマージすることによって前記初期クラスタを生成し、
処理対象となる第1の初期クラスタを選択し、
前記選択された第1の初期クラスタに含まれる前記オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定し、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第2の初期クラスタを特定し、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たすか否かを判定し、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たす場合には、前記第1の初期クラスタに含まれる前記要素と、前記第2の初期クラスタに含まれる前記要素とをマージすることによって前記最終クラスタを生成することを特徴とする請求項1に記載のデータ分析装置。 - 前記入出力装置は、特定の事柄を表すノードと、二つの前記ノード間を接続するエッジとを含むRDF(Resource Description Framework)の入力を受け付け、
前記要素は、前記ノード及び前記エッジのそれぞれに付与されたURI(Uniform Resource Identifier)であり、
前記最終クラスタは、類似する事柄を表す前記ノードがグループ化された集合であることを特徴とする請求項3に記載のデータ分析装置。 - 前記データ分析装置は、
前記最終クラスタが生成された後に、新規オブジェクトの入力を受け付けた場合に、前記入力された新規オブジェクトのハッシュ値を算出し、
前記新規オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定し、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第3の初期クラスタを特定し、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たすか否かを判定し、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たす場合には、前記第3の初期クラスタに対して、前記新規オブジェクトに含まれる前記要素をマージすることによって前記最終クラスタを生成することを特徴とする請求項3に記載のデータ分析装置。 - プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置におけるデータ分析方法であって、
前記方法は、
前記データ分析装置が、所定のハッシュ関数を用いて、前記入力装置が受け付け、処理対象のデータを要素とする集合である複数のオブジェクトのそれぞれのハッシュ値を算出する第1のステップと、
前記データ分析装置が、前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成する第2のステップと、
前記データ分析装置が、前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成する第3のステップと、
を含み、
前記第1のステップでは、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いることを特徴とするデータ分析方法。 - 前記第2のステップは、
前記算出されたハッシュ値が同一であるオブジェクトを収集して集合を生成するステップと、
前記生成された集合の中から二つの前記オブジェクトを選択し、前記選択された二つのオブジェクトに含まれる前記要素を比較することによって、前記選択された二つのオブジェクトが前記類似関係を満たす否かを判定するステップと、
前記選択された二つのオブジェクトが前記類似関係を満たす場合には、前記選択された二つのオブジェクトに含まれる前記要素をマージすることによって前記初期クラスタを生成するステップと、
を含み、
前記第3のステップは、
処理対象となる第1の初期クラスタを選択するステップと、
前記選択された第1の初期クラスタに含まれる前記オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定するステップと、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第2の初期クラスタを特定するステップと、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たすか否かを判定するステップと、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たす場合には、前記第1の初期クラスタに含まれる前記要素と、前記第2の初期クラスタに含まれる前記要素とをマージすることによって前記最終クラスタを生成するステップと、
を含むことを特徴とする請求項6に記載のデータ分析方法。 - 前記入出力装置は、特定の事柄を表すノードと、二つの前記ノード間を接続するエッジとを含むRDF(Resource Description Framework)の入力を受け付け、
前記要素は、前記ノード及び前記エッジのそれぞれに付与されたURI(Uniform Resource Identifier)であり、
前記最終クラスタは、類似する事柄を表す前記ノードがグループ化された集合であることを特徴とする請求項8に記載のデータ分析方法。 - 前記方法は、さらに、
前記最終クラスタが生成された後に、新規オブジェクトの入力を受け付けた場合に、前記入力された新規オブジェクトのハッシュ値を算出するステップと、
前記新規オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定するステップと、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第3の初期クラスタを特定するステップと、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たすか否かを判定するステップと、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たす場合には、前記第3の初期クラスタに対して、前記新規オブジェクトに含まれる前記要素をマージすることによって前記最終クラスタを生成するステップと、
を含むことを特徴とする請求項8に記載のデータ分析方法。 - プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置が実行するプログラムであって、
前記プログラムは、
所定のハッシュ関数を用いて、前記入力装置が受け付け、処理対象のデータを要素とする集合である複数のオブジェクトのそれぞれのハッシュ値を算出する第1の手順と、
前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成する第2の手順と、
前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成する第3の手順と、
を前記プロセッサに実行させるためのプログラムであって、
前記第1の手順では、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いて前記ハッシュ値を前記プロセッサに算出させることを特徴とするプログラム。 - 前記第2の手順は、
前記算出されたハッシュ値が同一であるオブジェクトを収集して集合を生成する手順と、
前記生成された集合の中から二つの前記オブジェクトを選択し、前記選択された二つのオブジェクトに含まれる前記要素を比較することによって、前記選択された二つのオブジェクトが前記類似関係を満たす否かを判定する手順と、
前記選択された二つのオブジェクトが前記類似関係を満たす場合には、前記選択された二つのオブジェクトに含まれる前記要素をマージすることによって前記初期クラスタを生成する手順と、
を含み、
前記第3の手順は、
処理対象となる第1の初期クラスタを選択する手順と、
前記選択された第1の初期クラスタに含まれる前記オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定する手順と、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第2の初期クラスタを特定する手順と、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たすか否かを判定する手順と、
前記第1の初期クラスタ及び前記第2の初期クラスタが前記類似関係を満たす場合には、前記第1の初期クラスタに含まれる前記要素と、前記第2の初期クラスタに含まれる前記要素とをマージすることによって前記最終クラスタを生成する手順と、
を含むことを特徴とする請求項11に記載のプログラム。 - 前記入出力装置は、特定の事柄を表すノードと、二つの前記ノード間を接続するエッジとを含むRDF(Resource Description Framework)の入力を受け付け、
前記要素は、前記ノード及び前記エッジのそれぞれに付与されたURI(Uniform Resource Identifier)であり、
前記最終クラスタは、類似する事柄を表す前記ノードがグループ化された集合であることを特徴とする請求項13に記載のプログラム。 - 前記プログラムは、さらに、
前記最終クラスタが生成された後に、新規オブジェクトの入力を受け付けた場合に、前記入力された新規オブジェクトのハッシュ値を算出する手順と、
前記新規オブジェクトと前記類似関係を満たす他の前記オブジェクトが取り得る前記ハッシュ値の範囲を特定する手順と、
前記特定されたハッシュ値の範囲に含まれるハッシュ値と一致する前記オブジェクトを含む第3の初期クラスタを特定する手順と、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たすか否かを判定する手順と、
前記新規オブジェクトと前記第3の初期クラスタとが前記類似関係を満たす場合には、前記第3の初期クラスタに対して、前記新規オブジェクトに含まれる前記要素をマージすることによって前記最終クラスタを生成する手順と、
を前記プロセッサに実行させることを特徴とする請求項13に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011278903A JP5716966B2 (ja) | 2011-12-20 | 2011-12-20 | データ分析装置、データ分析方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011278903A JP5716966B2 (ja) | 2011-12-20 | 2011-12-20 | データ分析装置、データ分析方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013130965A true JP2013130965A (ja) | 2013-07-04 |
JP5716966B2 JP5716966B2 (ja) | 2015-05-13 |
Family
ID=48908487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011278903A Expired - Fee Related JP5716966B2 (ja) | 2011-12-20 | 2011-12-20 | データ分析装置、データ分析方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5716966B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015055975A (ja) * | 2013-09-11 | 2015-03-23 | 株式会社Nttドコモ | クラスタリング装置及びクラスタリング方法 |
JP2015179516A (ja) * | 2014-03-18 | 2015-10-08 | 株式会社Nttドコモ | 大量の複雑な構造化データを管理するための知識エンジン |
US20220335067A1 (en) * | 2021-04-20 | 2022-10-20 | Cylance Inc. | Clustering software codes in scalable manner |
CN116992220A (zh) * | 2023-09-25 | 2023-11-03 | 国网北京市电力公司 | 一种低冗余用电数据智能采集方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009505290A (ja) * | 2005-08-15 | 2009-02-05 | グーグル・インコーポレーテッド | 集合の類似性に基づく拡張性に富むユーザクラスタリング |
-
2011
- 2011-12-20 JP JP2011278903A patent/JP5716966B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009505290A (ja) * | 2005-08-15 | 2009-02-05 | グーグル・インコーポレーテッド | 集合の類似性に基づく拡張性に富むユーザクラスタリング |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015055975A (ja) * | 2013-09-11 | 2015-03-23 | 株式会社Nttドコモ | クラスタリング装置及びクラスタリング方法 |
JP2015179516A (ja) * | 2014-03-18 | 2015-10-08 | 株式会社Nttドコモ | 大量の複雑な構造化データを管理するための知識エンジン |
US20220335067A1 (en) * | 2021-04-20 | 2022-10-20 | Cylance Inc. | Clustering software codes in scalable manner |
US11880391B2 (en) * | 2021-04-20 | 2024-01-23 | Cylance, Inc. | Clustering software codes in scalable manner |
CN116992220A (zh) * | 2023-09-25 | 2023-11-03 | 国网北京市电力公司 | 一种低冗余用电数据智能采集方法 |
CN116992220B (zh) * | 2023-09-25 | 2023-12-19 | 国网北京市电力公司 | 一种低冗余用电数据智能采集方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5716966B2 (ja) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
JP5621773B2 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
WO2018004829A1 (en) | Methods and apparatus for subgraph matching in big data analysis | |
JP2009093655A (ja) | 単語親和度による単語クラスタの識別 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
US10613785B1 (en) | Scalable binning for big data deduplication | |
Chen et al. | Temporal representation for scientific data provenance | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
JP5716966B2 (ja) | データ分析装置、データ分析方法及びプログラム | |
Skluzacek et al. | Skluma: An extensible metadata extraction pipeline for disorganized data | |
WO2017158802A1 (ja) | データ変換システム及びデータ変換方法 | |
JP5528292B2 (ja) | 意味のある頻出アイテムセットを抽出するシステム、方法及びプログラム | |
JP2019204246A (ja) | 学習データ作成方法及び学習データ作成装置 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
Barbosa et al. | An approach to clustering and sequencing of textual requirements | |
Ferreira et al. | Phrasing the giant: on the importance of rigour in literature search process | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
JP6008067B2 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
US11468065B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable recording medium | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 | |
Sawarkar et al. | Automated metadata harmonization using entity resolution and contextual embedding | |
JP4128033B2 (ja) | プロファイルデータ検索装置及びプログラム | |
JP4175001B2 (ja) | 文書データ検索装置 | |
Bochkaryov et al. | The use of clustering algorithms ensemble with variable distance metrics in solving problems of web mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5716966 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |