JP7070093B2 - クラスタリング装置、クラスタリング方法及びプログラム - Google Patents
クラスタリング装置、クラスタリング方法及びプログラム Download PDFInfo
- Publication number
- JP7070093B2 JP7070093B2 JP2018100870A JP2018100870A JP7070093B2 JP 7070093 B2 JP7070093 B2 JP 7070093B2 JP 2018100870 A JP2018100870 A JP 2018100870A JP 2018100870 A JP2018100870 A JP 2018100870A JP 7070093 B2 JP7070093 B2 JP 7070093B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- cluster
- zero
- feature
- object feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Description
まず、本発明の実施の形態の準備として、クラスタリングの対象となるデータとLloyd法とについて説明する。
本発明の実施の形態では、大規模な疎データをクラスタリングの対象とする。このようなデータの一例としては、文書をオブジェクトとして、大量の文書をクラスタリングする場合に、文書の特徴を表すオブジェクト特徴ベクトル等が挙げられる。
df(th,X):Xが与えられた場合に、thを含む文書(オブジェクト)の数nh
idf(th;X)=log(n/nh)
tf-idf(th,xi;X)=tf(th,xi;X)×idf(th;X)
ここで、Xはオブジェクト集合(文書集合)に対応するオブジェクト特徴ベクトル集合X={x1,x2,・・・,xn}であり、xi(i=1,2,・・・,n)はオブジェクト特徴ベクトルである。また、オブジェクト数|X|は|X|=nであり、nhは単語thを含む文書の数である。なお、idfを表す関数のlogの底は限定されない。
Lloyd法の概略は以下の通りである。なお、Kは、与えられたクラスタ数である。
次に、本発明の実施の形態におけるクラスタリング装置10の機能構成について、図1を参照しながら説明する。図1は、本発明の実施の形態におけるクラスタリング装置10の機能構成の一例を示す図である。
次に、本発明の実施の形態におけるクラスタリング装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本発明の実施の形態におけるクラスタリング装置10のハードウェア構成の一例を示す図である。
まず、完全表現のオブジェクト特徴ベクトルxiを、スパース表現のオブジェクト特徴ベクトルxiに変換する前処理について、図3を参照しながら説明する。図3は、本発明の実施の形態における前処理の一例を示すフローチャートである。
以降では、本発明の実施の形態におけるクラスタリング処理について説明する。
まず、クラスタリング処理の実施例1として、スパース表現のオブジェクト特徴ベクトルxiをクラスタリングする場合について、図5を参照しながら説明する。図5は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート(実施例1)である。
D. S. Dodson, R. G. Grimes, and J. G. Lewis, "Sparse extensions to the FORTRAN Basic Linear Algebra Subprograms," ACM Trans. Mathematical Software, vol. 17, no. 2, pp. 253-263, June 1991.
以降のステップS203~ステップS206は、クラスタリング処理部120により所定の終了条件を満たすまで繰り返し実行される。
次に、クラスタリング処理の実施例2として、mean特徴ベクトルμjもスパース表現である場合について、図10を参照しながら説明する。図10は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート(実施例2)である。なお、図10のステップS201、ステップS204及びステップS206~ステップS207は、実施例1と同様であるため、その説明を省略する。
割当部123は、sum←sum+vh×upとする。また、割当部123は、p←p+1又はh←h+1の何れか一方を行う。このとき、好ましくは、m<sjならばpを更新する。なお、「←」は、左辺を右辺で更新することを表す。
割当部123は、p←p+1とする。
割当部123は、h←h+1とする。
次に、クラスタリング処理の実施例3として、転置ファイルのデータ構造で表現したmean特徴ベクトルμj(転置ファイルのデータ構造で表現したmean特徴ベクトルを「転置ファイル表現のmean特徴ベクトル」と表す。)を用いる場合について、図12を参照しながら説明する。図12は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート(実施例3)である。なお、図12のステップS201、ステップS204及びステップS206~ステップS207は、実施例1と同様であるため、その説明を省略する。
次に、クラスタリング処理の実施例4として、mean特徴ベクトルμjの更新を効率化した場合について、図15を参照しながら説明する。図15は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート(実施例4)である。なお、図15のステップS201、ステップS204、ステップS206~ステップS207及びステップS403は、実施例3と同様であるため、その説明を省略する。
次に、クラスタリング処理の実施例5として、2種類のmean転置ファイル(すなわち、「全mean転置ファイル」及び「変動mean転置ファイル」)を用いる場合について、図16を参照しながら説明する。図16は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート(実施例5)である。なお、図16のステップS201、ステップS204、ステップS206~ステップS207及びステップS503は、実施例4と同様であるため、その説明を省略する。
次に、クラスタリング処理の実施例6として、境界インデックス付きmean転置ファイルを用いる場合について、図17を参照しながら説明する。図17は、本発明の実施の形態におけるクラスタリング処理の一例を示すフローチャート(実施例6)である。なお、図17のステップS201、ステップS204、ステップS206~ステップS207及びステップS503は、実施例4と同様であるため、その説明を省略する。
110 前処理部
120 クラスタリング処理部
121 入力部
122 初期設定部
123 割当部
124 更新部
125 終了判定部
126 出力部
130 記憶部
Claims (7)
- オブジェクトの特徴を表すオブジェクト特徴ベクトルを複数のクラスタにクラスタリングするクラスタリング装置であって、
前記特徴を識別する特徴識別子毎に、前記クラスタを識別するクラスタ識別子と該クラスタに属するオブジェクト特徴ベクトルの平均を表すmean特徴ベクトルの第1の非零特徴量とを対応付けた組を格納する配列要素で構成された転置ファイルを記憶部に記憶させる記憶手段と、
前記オブジェクト特徴ベクトルの第2の非零特徴量と該第2の非零特徴量の特徴識別子とを対応付けた組で前記オブジェクト特徴ベクトルを表したスパース表現のオブジェクト特徴ベクトルと、各クラスタの前記mean特徴ベクトルとの距離を計算する計算手段と、
前記計算手段により計算された距離に基づいて前記オブジェクト特徴ベクトルを、前記複数のクラスタのうちの一のクラスタに割り当てる割当手段と、
を有し、
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第2の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第2の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第1の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とするクラスタリング装置。 - 前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第2の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第2の非零特徴量に対応する特徴識別子から1を減じた値のインデックスの配列要素に格納されている第1の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とする請求項1に記載のクラスタリング装置。 - 前記転置ファイルは、
前記特徴識別子毎の配列要素において、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルに変更あったクラスタを示す変更クラスタに対応するmean特徴ベクトルの第1の非零要素が含まれる組が格納される第1の配列要素が、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルが不変であったクラスタを示す不変クラスタに対応するmean特徴ベクトルの第1の非零要素が含まれる組が格納される第2の配列要素よりも前に存在し、
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルが属するクラスタが不変クラスタであるか否かに応じて、前記スパース表現のオブジェクト特徴ベクトルに含まれる第2の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第2の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素又は該配列要素に含まれる前記第1の配列要素のいずれかに格納されている第1の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、ことを特徴とする請求項1又は2に記載のクラスタリング装置。 - 前記記憶手段は、
更に、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルが不変であったクラスタを示す不変クラスタに対応するmean特徴ベクトルの第1の非零要素が含まれる組を前記転置ファイルから除いた変動転置ファイルを前記記憶部に記憶させ、
前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルが属するクラスタが不変クラスタであるか否かに応じて、前記スパース表現のオブジェクト特徴ベクトルに含まれる第2の非零特徴量と、前記転置ファイル又は前記変動転置ファイルを構成する配列要素のうち、前記第2の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第1の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、ことを特徴とする請求項1又は2に記載のクラスタリング装置。 - 前記計算手段は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第2の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第2の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第1の非零特徴量と積を計算する場合に、前記第1の非零特徴量のうち、前記割当手段による割り当ての前後でクラスタに属するオブジェクト特徴ベクトルに変更あったクラスタを示す変更クラスタのクラスタ識別子に対応付けられている第1の非特徴量との積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とする請求項1又は2に記載のクラスタリング装置。 - オブジェクトの特徴を表すオブジェクト特徴ベクトルを複数のクラスタにクラスタリングするクラスタリング装置が、
前記特徴を識別する特徴識別子毎に、前記クラスタを識別するクラスタ識別子と該クラスタに属するオブジェクト特徴ベクトルの平均を表すmean特徴ベクトルの第1の非零特徴量とを対応付けた組を格納する配列要素で構成された転置ファイルを記憶部に記憶させる記憶手順と、
前記オブジェクト特徴ベクトルの第2の非零特徴量と該第2の非零特徴量の特徴識別子とを対応付けた組で前記オブジェクト特徴ベクトルを表したスパース表現のオブジェクト特徴ベクトルと、各クラスタの前記mean特徴ベクトルとの距離を計算する計算手順と、
前記計算手順により計算された距離に基づいて前記オブジェクト特徴ベクトルを、前記複数のクラスタのうちの一のクラスタに割り当てる割当手順と、
を実行し、
前記計算手順は、
前記スパース表現のオブジェクト特徴ベクトルに含まれる第2の非零特徴量と、前記転置ファイルを構成する配列要素のうち、前記第2の非零特徴量に対応する特徴識別子に基づくインデックスの配列要素に格納されている第1の非零特徴量と積を計算することで、前記距離の計算に必要な内積を計算する、
ことを特徴とするクラスタリング方法。 - コンピュータを、請求項1乃至5の何れか一項に記載のクラスタリング装置における各手段として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100870A JP7070093B2 (ja) | 2018-05-25 | 2018-05-25 | クラスタリング装置、クラスタリング方法及びプログラム |
PCT/JP2019/017454 WO2019225274A1 (ja) | 2018-05-25 | 2019-04-24 | クラスタリング装置、クラスタリング方法、プログラム及びデータ構造 |
US17/057,487 US11971906B2 (en) | 2018-05-25 | 2019-04-24 | Clustering apparatus, clustering method, program and data structure |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100870A JP7070093B2 (ja) | 2018-05-25 | 2018-05-25 | クラスタリング装置、クラスタリング方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204436A JP2019204436A (ja) | 2019-11-28 |
JP7070093B2 true JP7070093B2 (ja) | 2022-05-18 |
Family
ID=68615871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018100870A Active JP7070093B2 (ja) | 2018-05-25 | 2018-05-25 | クラスタリング装置、クラスタリング方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11971906B2 (ja) |
JP (1) | JP7070093B2 (ja) |
WO (1) | WO2019225274A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4099203B1 (en) * | 2020-01-31 | 2024-08-07 | Nippon Telegraph And Telephone Corporation | Data distribution management apparatus, data distribution management method, and program |
CN111694971A (zh) * | 2020-06-10 | 2020-09-22 | 三星电子(中国)研发中心 | 一种内容的推荐方法和系统 |
CN112150692A (zh) * | 2020-10-14 | 2020-12-29 | 吴喜庆 | 一种基于人工智能的门禁控制方法及系统 |
CN115730116A (zh) * | 2021-08-31 | 2023-03-03 | 华为技术有限公司 | 一种数据检索方法及相关设备 |
CN117892166B (zh) * | 2024-03-15 | 2024-05-28 | 广东琴智科技研究院有限公司 | 稀疏数据识别方法、智能计算子系统以及智能计算平台 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138462A (ja) | 2014-01-23 | 2015-07-30 | 株式会社デンソーアイティーラボラトリ | 関連性判定装置、関連性判定プログラム、及び関連性判定方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5588165B2 (ja) * | 2009-12-24 | 2014-09-10 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
US9256664B2 (en) * | 2014-07-03 | 2016-02-09 | Palantir Technologies Inc. | System and method for news events detection and visualization |
US20170316338A1 (en) * | 2016-04-29 | 2017-11-02 | Hewlett Packard Enterprise Development Lp | Feature vector generation |
US10187344B2 (en) * | 2016-10-03 | 2019-01-22 | HYP3R Inc | Social media influence of geographic locations |
US10338977B2 (en) * | 2016-10-11 | 2019-07-02 | Oracle International Corporation | Cluster-based processing of unstructured log messages |
US10055685B1 (en) * | 2017-10-16 | 2018-08-21 | Apprente, Inc. | Machine learning architecture for lifelong learning |
-
2018
- 2018-05-25 JP JP2018100870A patent/JP7070093B2/ja active Active
-
2019
- 2019-04-24 US US17/057,487 patent/US11971906B2/en active Active
- 2019-04-24 WO PCT/JP2019/017454 patent/WO2019225274A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138462A (ja) | 2014-01-23 | 2015-07-30 | 株式会社デンソーアイティーラボラトリ | 関連性判定装置、関連性判定プログラム、及び関連性判定方法 |
Also Published As
Publication number | Publication date |
---|---|
US11971906B2 (en) | 2024-04-30 |
JP2019204436A (ja) | 2019-11-28 |
WO2019225274A1 (ja) | 2019-11-28 |
US20210294819A1 (en) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7070093B2 (ja) | クラスタリング装置、クラスタリング方法及びプログラム | |
Ramírez-Gallego et al. | An information theory-based feature selection framework for big data under apache spark | |
Duff et al. | Direct methods for sparse matrices | |
Kepner et al. | Dynamic distributed dimensional data model (D4M) database and computation system | |
Chen et al. | Parallel spectral clustering in distributed systems | |
US20120330958A1 (en) | Regularized Latent Semantic Indexing for Topic Modeling | |
US8131659B2 (en) | Field-programmable gate array based accelerator system | |
Sonnenburg et al. | COFFIN: A Computational Framework for Linear SVMs. | |
Hassanat | Two-point-based binary search trees for accelerating big data classification using KNN | |
US20150039538A1 (en) | Method for processing a large-scale data set, and associated apparatus | |
US20180052933A1 (en) | Control of Document Similarity Determinations by Respective Nodes of a Plurality of Computing Devices | |
JP2009129323A (ja) | 同義語抽出装置 | |
Vaněk et al. | A GPU-architecture optimized hierarchical decomposition algorithm for support vector machine training | |
CN109145111B (zh) | 一种基于机器学习的多特征文本数据相似度计算方法 | |
JP3809062B2 (ja) | マルチレベル不完全ブロック分解による前処理を行う処理装置 | |
EP2219121A1 (en) | Efficient computation of ontology affinity matrices | |
CN109643322B (zh) | 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统 | |
JP7364058B2 (ja) | 学習装置、検索装置、学習方法、検索方法及びプログラム | |
Belazzougui et al. | Lempel-Ziv decoding in external memory | |
Yerram et al. | HiRE: High Recall Approximate Top-$ k $ Estimation for Efficient LLM Inference | |
WO2021152715A1 (ja) | 学習装置、検索装置、学習方法、検索方法及びプログラム | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
Nolet et al. | Semiring primitives for sparse neighborhood methods on the gpu | |
CN111724221A (zh) | 确定商品匹配信息的方法、系统、电子设备及存储介质 | |
US20230052433A1 (en) | Accelerator to reduce data dimensionality and associated systems and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7070093 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |