JP2014063343A - クラスタリング品質改善方法 - Google Patents
クラスタリング品質改善方法 Download PDFInfo
- Publication number
- JP2014063343A JP2014063343A JP2012207943A JP2012207943A JP2014063343A JP 2014063343 A JP2014063343 A JP 2014063343A JP 2012207943 A JP2012207943 A JP 2012207943A JP 2012207943 A JP2012207943 A JP 2012207943A JP 2014063343 A JP2014063343 A JP 2014063343A
- Authority
- JP
- Japan
- Prior art keywords
- data
- clustering
- extracted
- common
- new set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明は、データの集合を第1のクラスタリング手法によって構成された第1のクラスタCiの集合{Ci}と、第1のクラスタリング手法とは異なる第2のクラスタリング手法によって構成された第2のクラスタQiの集合{Qi}とを求め、第1のクラスタCiの各々に対して、第2のクラスタの集合{Qi}から、Ciと共通の要素が最も多いクラスタQkを選択し、第1のクラスタCiとこれに対応する第2のクラスタQkとの積集合Iiを第3のクラスタとして求め、得られた第3のクラスタの集合{Ii}を出力する。
【選択図】図3
Description
クラスタリングは、データの集合をデータ間に定義される距離尺度(以降、データ間尺度と呼ぶ)に基づき分類する(クラスタに分割する)データ解析の重要な一手法であり、データマイニング、情報検索など様々な分野で使われている(非特許文献1)。具体的なクラスタリング手法も、凝集型の階層的手法や分割最適化手法、確率モデルに基づいた手法など、様々なものが開発されてきている。
本発明が解こうとする問題を分かり易くするため、ここで、クラスタリングの適用例として多義語の曖昧性解消を取り上げる。多義語とは「マウス」のように文字通り複数の意味(動物の「マウス」とコンピュータのポインティングデバイスである「マウス」)を有する語である。文書集合の中にそのような語が複数箇所で出現した時、それらは同一の意味で用いられているのか否か、さらには、複数の意味のうちどれを意図してその語が用いられたのかを明らかにするのが曖昧性解消である。
まず、それぞれの多義語(の出現)に対して、その周辺(例えば、同一文内、あるいは同一文書内)に出現する語を抜き出す。これを周辺語群と呼ぶことにする。周辺語群の集合にクラスタリングを施すと、一般に、複数のクラスタが得られる。このそれぞれのクラスタが個別の意味に対応すると見なす。「マウス」の例で言えば、この手法により動物とポインティングデバイスに対応する2つのクラスタが得られることが期待される。この手法は、語が文脈を与えられることで特定の意味を帯びるようになる、つまり、語の意味と文脈との間に対応関係があるという仮定に基づいたものと考えることができる。周辺語群が文脈を表すものであり、そのクラスタリングにより文脈が分類される。
上記の曖昧性解消と類似した問題として、『「マウス」という言葉の意味にどのような種類のものがあるか』という知識を文書集合から抽出するものが考えられる。これを語義抽出と呼ぶことにする。曖昧性解消が個々の語の出現と意味(文脈)との対応関係を把握することを目的としているのに対し、語義抽出の目的は文字通り語義そのものの種類の把握である。クラスタリング適用の例で言えば、曖昧性解消では各周辺語群がどのクラスタに属するかという対応関係を把握することが目的であるのに対し、語義抽出ではクラスタの種類やそれぞれの特徴が興味の対象である。よって、語義抽出においては、各クラスタの特徴を知るためには、それぞれがどのようなデータ(周辺語群)から構成されているかを把握する必要があるが、周辺語群とクラスタの対応を全て把握することは必ずしも必要ではない。例えば、「マウス」の例で、クラスタリングにより以下のようなC1,C2という2つのクラスタが得られたとする。ここで、<>で括られた語は周辺語群を表す。
(数1)
C1={<ヒト,動物,移植>,<飼育,餌,動物>,<がん,遺伝子,移植>}
C2={<USB,設定,識別>,<デバイス,USB,PC>,<投薬,実験,識別>}
(数2)
C1:{動物,移植}
C2:{USB,識別}
(i)「マウス」の周辺に「動物」や「移植」という語が出現した場合には、それは動物の「マウス」に関する記述である可能性が高い。
(ii) 「マウス」の周辺に「USB」や「識別」という語が出現した場合にはデバイスに関する記述である確率が高い。
ここで、クラスタリング品質を定量的に評価するためによく用いられている尺度について触れておく。クラスタリング品質を評価するうえで、クラスタ内の一貫性は重要であるが、同種のデータが1つのクラスタに集中しているという、いわば凝集性もまた重要な因子である。上の例と同じデータが次のように分類されたとしよう。
(数3)
C1={<ヒト,動物,移植>,<飼育,餌,動物>}
C2={<がん,遺伝子,移植>,<投薬,実験,識別>}
C3={<USB,設定,識別>,<デバイス,USB,PC>}
本発明の原理について、具体例を用いて説明する。
いま、ある観点から次に示すような4つのグループA1〜A4に分類されるべき18個の文書d1,...,d18からなる文書集合があるとする。2つの文書が同一のグループに属する場合、これらは同種であると言うことにする。
(数6)
A1={d1,d2,d3,d4,d5}
A2={d6,d7,d8,d9,d10,d11}
A3={d12,d13,d14,d15,d16,d17}
A4={d18}
(数7)
C1={d1,d2,d3,d9,d10,d15}
C2={d4,d6,d7,d8,d16,d17}
C3={d5,d11,d12,d13,d14,d18}
式(1)にはA1が使われているが、実際にはこれを予め知ることはできない。既知であればクラスタリングの必要がない。そこで、本発明では、{Ci}を導き出したクラスタリング手法とは異なる、もう一つのクラスタリング手法(補助的クラスタリング手法)により別なクラスタ{Qi}を作り出し、これを{Ai}の代わりに用いる。すなわち、次の式により一貫性の高いクラスタ{Ii}の導出を狙う。
(数12)
Q1={d1,d2,d3,d9}
Q2={d4,d5}
Q3={d10,d12,d13,d14}
Q4={d6,d7,d8,d16,d18}
Q5={d11,d15}
Q6={d17}
(数13)
I1=C1∩Q1={d1,d2,d3,d9}
I2=C2∩Q4={d6,d7,d8,d16}
I3=C3∩Q3={d12,d13,d14}
各クラスタの一貫性が向上しているのが分かる。
文書集合をDとしたとき、D、CiとIiの関係は図1のように模式的に表すことができる。図において、Dは3種類のデータからなり、それぞれが異なる形で表されている。もともとCiでは三角形で表されるデータの占める割合が高いが、一貫性阻害要素除去を経て得られたIiでは、その割合がさらに高くなっている。この状況を利用し、Iiに属するデータどうしの共通性ともに、Iiに属するデータとD−Ci(DからCiの要素を除いたもの)に属するデータとの差異を明らかにすることにより、三角形で表されるデータの特徴をより高い精度で抽出できる。
実施形態として、本発明を使ったQ&Aサイトからの知識抽出方法について説明する。
Q&Aサイトとは、ユーザ同士がお互いの質問に答え、疑問を解決するウェブサイトのことであり、それぞれの質問に対する(多くの場合複数の)回答が1つのページにまとめられている(これをQAページと呼ぶことにする)。QAページ自体、有用な知識を提供するものであるが、その知識を必要とする状況ごとに整理しておけば、その知識をより有効に活用できるようになると考えられる。具体的に言えば、それぞれのページを状況ごとにまとめ、それぞれの状況の特徴(たとえば、時間、場所、モノ、人など)を抽出しておけば、状況の特徴から発生し得る問題とその対処方法を(事前に)見つけ出すことが可能になる。
図2に、本実施形態に係るクラスタリング品質改善装置の一例を示す。本実施形態に係るクラスタリング品質改善装置100は、演算処理部10及び記憶部20を備える。演算処理部10は、変数設定部11と、文書収集部12と、第1文書分類部13と、第2文書分類部14と、一貫性阻害要因除去部15と、特徴語抽出部16と、通信部17と、を備える。記憶部20は、特徴語候補格納領域21と、入力語格納領域22と、文書格納領域23と、分類結果格納領域24−1,24−2,24−3と、特徴語格納領域25を備える。
クラスタリング手順では、ステップS101〜S104を実行し、複数種類のクラスタリング方式を用いてデータの集合の分類を行う。
ステップS101では、特徴語候補y1,y2,...とxを入力として受け付ける。
ステップS102では、xに関連するQAページを収集する(これをDとする)。
ステップS103では、主たるクラスタリング手法によりDを分類し、クラスタ{Ci}を得る。
ステップS104では、補助的クラスタリング手法によりDを分類し、クラスタ{Qi}を得る。
なお、本実施形態では、2種類のクラスタリング方式を用いて分類を行ったが、3種類以上のクラスタリング方式を用いてもよい。
ステップS105では、{Qi}を用いて{Ci}の一貫性阻害要素を除去し{Ii}を得る。
ステップS106では、各Iiに属するページの集合から、その特徴語を抽出する。
ステップS107では、各Iiごとに、その特徴語やページを提示する。
ステップS108では、グルーピングされた文書群を出力する。
11:変数設定部
12:文書収集部
13:第1文書分類部
14:第2文書分類部
15:一貫性阻害要因除去部
16:特徴語抽出部
17:通信部
20:記憶部
21:特徴語候補格納領域
22:入力語格納領域
23:文書格納領域
24−1,24−2,24−3:分類結果格納領域
25:特徴語格納領域
100:クラスタリング品質改善装置
Claims (6)
- 複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、
各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、
を有するクラスタリング品質改善方法。 - 前記抽出手順において、前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記クラスタリング手順で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出することを特徴とする請求項1に記載のクラスタリング品質改善方法。
- 前記データの集合は文書群であり、
前記クラスタリング手順において、特徴語の共通する文書群を抽出し、
前記抽出手順において、クラスタリング方式が異なりかつ特徴語の共通する複数の文書群を抽出し、当該文書群で共通する特徴語を抽出し、抽出した特徴語に基づいて新たな集合を生成することを特徴とする請求項1又は2に記載のクラスタリング品質改善方法。 - 異なるクラスタリング方式を用いてデータの集合の分類を行う複数の文書分類部と、
各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する一貫性阻害要因除去部と、
を備えるクラスタリング装置。 - 前記新たな集合に含まれるデータについて、前記新たな集合における出現頻度と、前記文書分類部で分類した集合の補集合における出現頻度と、を比較し、前記新たな集合におけるデータのなかから出現頻度の高いデータを抽出するデータ抽出部を、
さらに備えることを特徴とする請求項4に記載のクラスタリング装置。 - 複数の文書分類部が、複数種類のクラスタリング方式を用いてデータの集合の分類を行うクラスタリング手順と、
一貫性阻害要因除去部が、各分類結果のなかから、データの共通する集合を抽出し、抽出した集合同士で共通するデータを抽出し、抽出したデータに基づいて新たな集合を生成する抽出手順と、
をコンピュータに実行させることを特徴とするクラスタリング品質改善プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012207943A JP5746118B2 (ja) | 2012-09-21 | 2012-09-21 | クラスタリング品質改善方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012207943A JP5746118B2 (ja) | 2012-09-21 | 2012-09-21 | クラスタリング品質改善方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014063343A true JP2014063343A (ja) | 2014-04-10 |
JP5746118B2 JP5746118B2 (ja) | 2015-07-08 |
Family
ID=50618519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012207943A Expired - Fee Related JP5746118B2 (ja) | 2012-09-21 | 2012-09-21 | クラスタリング品質改善方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5746118B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084368A (ja) * | 2015-10-28 | 2017-05-18 | 富士通株式会社 | トピック表現の精緻化 |
US10020481B2 (en) | 2013-11-21 | 2018-07-10 | Samsung Sdi Co., Ltd. | Separator and secondary battery using same |
JP2020181309A (ja) * | 2019-04-24 | 2020-11-05 | 富士通株式会社 | 検索支援方法及び情報処理装置 |
WO2023166578A1 (ja) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117930A (ja) * | 1999-10-15 | 2001-04-27 | Ricoh Co Ltd | 文書分類装置、文書分類方法および記録媒体 |
JP2007512607A (ja) * | 2003-11-25 | 2007-05-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | データ記憶手段からの情報アイテム検索 |
JP2008084151A (ja) * | 2006-09-28 | 2008-04-10 | Just Syst Corp | 情報表示装置および情報表示方法 |
JP2011128705A (ja) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | 情報処理装置およびプログラム |
-
2012
- 2012-09-21 JP JP2012207943A patent/JP5746118B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117930A (ja) * | 1999-10-15 | 2001-04-27 | Ricoh Co Ltd | 文書分類装置、文書分類方法および記録媒体 |
JP2007512607A (ja) * | 2003-11-25 | 2007-05-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | データ記憶手段からの情報アイテム検索 |
JP2008084151A (ja) * | 2006-09-28 | 2008-04-10 | Just Syst Corp | 情報表示装置および情報表示方法 |
JP2011128705A (ja) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | 情報処理装置およびプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10020481B2 (en) | 2013-11-21 | 2018-07-10 | Samsung Sdi Co., Ltd. | Separator and secondary battery using same |
US10658641B2 (en) | 2013-11-21 | 2020-05-19 | Samsung Sdi Co., Ltd. | Separator comprising coating layer, and battery using same |
JP2017084368A (ja) * | 2015-10-28 | 2017-05-18 | 富士通株式会社 | トピック表現の精緻化 |
JP2020181309A (ja) * | 2019-04-24 | 2020-11-05 | 富士通株式会社 | 検索支援方法及び情報処理装置 |
JP7260769B2 (ja) | 2019-04-24 | 2023-04-19 | 富士通株式会社 | 検索支援方法及び情報処理装置 |
WO2023166578A1 (ja) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5746118B2 (ja) | 2015-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5746118B2 (ja) | クラスタリング品質改善方法 | |
JP6316844B2 (ja) | 予測モデル生成のためのユーザーインタフェース | |
Eickhoff | Crowd-powered experts: Helping surgeons interpret breast cancer images | |
Groen et al. | Is there Really a Need for Using NLP to Elicit Requirements? A Benchmarking Study to Assess Scalability of Manual Analysis. | |
Vogelgesang et al. | PMCube: a data-warehouse-based approach for multidimensional process mining | |
Yousef | Big data analytics in health care: a review paper | |
Kumar | Knowledge discovery practices and emerging applications of data mining: Trends and new domains: Trends and new domains | |
Whatford et al. | A systematic literature review on the economic impact of endemic disease in UK sheep and cattle using a One Health conceptualisation | |
Bonkra et al. | Scientific landscape and the road ahead for deep learning: apple leaves disease detection | |
KR101839572B1 (ko) | 질병 관련 유전자 관계 분석 장치 및 방법 | |
Altarturi et al. | Review of knowledge framework and conceptual structure of Islamic Banking | |
Tayebati et al. | Process mining case study approach: Extraction of unconventional event logs to improve performance in Hospital Information Systems (HIS) | |
Lee et al. | Benchmarking community detection methods on social media data | |
Schnell | Web of Science: The first citation index for data analytics and scientometrics | |
Geetha et al. | Early Recognition of Herb Sickness Using SVM | |
Karthikeyan et al. | Text mining | |
CN111986815A (zh) | 基于共现关系的项目组合挖掘方法及相关设备 | |
Rana et al. | A framework for selecting features using various soft computing algorithms | |
Gamal et al. | A new proposed model for plant diseases monitoring based on data mining techniques | |
CN108920726A (zh) | 一种审计分析系统及方法 | |
Priyanga et al. | The Multiple Time Series Clinical Data Processing with Modified Artificial Bee Colony Algorithm and Artificial Neural Network | |
Srikanth et al. | Design and Development of Image Based Plant Leaf Disease Monitoring System Using Deep Learning Algorithms | |
Shah et al. | A translational clinical assessment workflow for the validation of external artificial intelligence models | |
JP2015014993A (ja) | 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム | |
Mahurkar et al. | Revealing leaf species through specific contour and region-based features extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5746118 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |