JP2008276344A - 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム - Google Patents
多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム Download PDFInfo
- Publication number
- JP2008276344A JP2008276344A JP2007116431A JP2007116431A JP2008276344A JP 2008276344 A JP2008276344 A JP 2008276344A JP 2007116431 A JP2007116431 A JP 2007116431A JP 2007116431 A JP2007116431 A JP 2007116431A JP 2008276344 A JP2008276344 A JP 2008276344A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- classification
- data
- topic classification
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】多重トピック分類装置200は、学習処理をおこなう場合、取得部211により、分類済みデータ201とその訓練データセットYを取得する。つぎに、生成部212により、分類済みデータ201の素性ベクトルxを生成する。そして、算出部213によりトピック共起行列Kを算出する。このあと、設定部214により、重みベクトル設定処理を実行する。また、分類処理をおこなう場合、取得部211により、未分類データ202を取得する。つぎに、生成部212により、未分類データ202の素性ベクトルxを生成する。そして、分類部221により、単独トピック分類実行処理および多重トピック分類実行処理をおこなう。最後に、出力部222により、分類結果を出力する。
【選択図】図2
Description
まず、この発明の実施の形態にかかる多重トピック分類装置のハードウェア構成について説明する。図1は、この発明の実施の形態にかかる多重トピック分類装置のハードウェア構成を示すブロック図である。
つぎに、この発明の実施の形態にかかる多重トピック分類装置の機能的構成について説明する。図2は、この発明の実施の形態にかかる多重トピック分類装置の機能的構成を示すブロック図である。
ti=1 i番目のトピックTiが付与される
0 i番目のトピックTiが付与されない
目のトピックTiの出現頻度であり、#yjは訓練データセットYにおける各訓練データydのj番目のトピックTjの出現頻度である。#yi∩yjは、訓練データセットYに
おける各訓練データydのi,j番目のトピック対Ti,Tjの共起頻度である。
y2={1,1,0,0}
y3={0,1,1,1}
K13=K31=(2×0)/(1+2)=0
K14=K41=(2×0)/(1+1)=0
K23=K32=(2×2)/(3+2)=4/5
K24=K42=(2×1)/(3+1)=1/2
K34=K43=(2×1)/(2+1)=2/3
y’d2={0,0,1,0}
y’d3={0,1,0,0}
y’d4={0,1,1,1}
(2)つぎに、下記式(9)に示すバイオレーション値vdmが最大となる(d,m)を選択する。これは各訓練データの各反復数時での分類誤りを示している。
つぎに、この発明の実施の形態にかかる学習処理手順について説明する。図3は、この発明の実施の形態にかかる学習処理手順を示すフローチャートである。図3において、まず、取得部211により、分類済みデータ201とその訓練データセットを取得する(ステップS301)。
つぎに、この発明の実施の形態にかかる分類処理手順について説明する。図5は、この発明の実施の形態にかかる分類処理手順を示すフローチャートである。図5において、まず、取得部211により、未分類データ202を取得する(ステップS501)。つぎに、生成部212により、未分類データ202の素性ベクトルxを生成する(ステップS502)。そして、単独トピック分類実行処理(ステップS503)および多重トピック分類実行処理(ステップS504)をおこなう。最後に、出力部222により、分類結果を出力することにより(ステップS505)、一連の処理を終了する。
yB={0,0,1,0}
yC={0,0,0,1}
z4={1,0,1,1}
210 学習処理部
211 取得部
212 生成部
213 算出部
214 設定部
220 分類処理部
221 分類部
222 出力部
Claims (5)
- 未分類データの多重トピック分類を実行する多重トピック分類装置において、
分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得する取得手段と、
前記取得手段によって取得された分類済みデータの素性ベクトルを生成する生成手段と、
前記取得手段によって取得された訓練データと前記生成手段によって生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する算出手段と、
前記算出手段によって算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定する設定手段と、
を備えることを特徴とする多重トピック分類装置。 - 前記算出手段は、Dice係数によるトピック共起カーネルを算出することを特徴とする請求項1に記載の多重トピック分類装置。
- 前記未分類データの多重トピック分類を実行する分類手段を備え、
前記取得手段は、未分類データを取得し、
前記生成手段は、前記取得手段によって取得された未分類データの素性ベクトルを生成し、
前記分類手段は、前記生成手段によって生成された前記未分類データの素性ベクトルと前記設定手段によって設定された重みベクトルとに基づいて、前記未分類データの多重トピック分類をおこなうことを特徴とする請求項1または2に記載の多重トピック分類装置。 - 未分類データの多重トピック分類を実行する多重トピック分類方法において、
分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得する取得工程と、
前記取得工程によって取得された分類済みデータの素性ベクトルを生成する生成工程と、
前記取得工程によって取得された訓練データと前記生成工程によって生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する算出工程と、
前記算出工程によって算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定する設定工程と、
を含んだことを特徴とする多重トピック分類方法。 - 未分類データの多重トピック分類をコンピュータに実行させる多重トピック分類プログラムにおいて、
分類済みデータと当該分類済みデータに付与されたトピックに関する訓練データとを取得する取得工程と、
前記取得工程によって取得された分類済みデータの素性ベクトルを生成する生成工程と、
前記取得工程によって取得された訓練データと前記生成工程によって生成された素性ベクトルとに基づいて、前記訓練データにより表現されるトピック間の相関をあらわすトピック共起カーネルを算出する算出工程と、
前記算出工程によって算出されたトピック共起カーネルに基づいて、前記未分類データの多重トピック分類に用いる重みベクトルを設定する設定工程と、
を前記コンピュータに実行させることを特徴とする多重トピック分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007116431A JP5110950B2 (ja) | 2007-04-26 | 2007-04-26 | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007116431A JP5110950B2 (ja) | 2007-04-26 | 2007-04-26 | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008276344A true JP2008276344A (ja) | 2008-11-13 |
JP5110950B2 JP5110950B2 (ja) | 2012-12-26 |
Family
ID=40054249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007116431A Expired - Fee Related JP5110950B2 (ja) | 2007-04-26 | 2007-04-26 | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5110950B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282416A (ja) * | 2009-06-04 | 2010-12-16 | Fujitsu Ltd | 区分データレコメンド方法、プログラム、及び装置 |
WO2015016133A1 (ja) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
JPWO2016147276A1 (ja) * | 2015-03-13 | 2017-04-27 | 株式会社Ubic | データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体 |
KR20180053731A (ko) * | 2016-07-17 | 2018-05-23 | 쥐에스아이 테크놀로지 인코포레이티드 | 일정한 처리 시간 내에 k개의 극값을 찾는 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046621A (ja) * | 2002-07-12 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
-
2007
- 2007-04-26 JP JP2007116431A patent/JP5110950B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046621A (ja) * | 2002-07-12 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
Non-Patent Citations (5)
Title |
---|
CSNG200600277007; 賀沢 秀人: '最大マージン原理に基づく多重ラベリング学習' 電子情報通信学会論文誌 第J88-D-II巻 第11号, 20051101, p.2246-2259, 社団法人電子情報通信学会 * |
CSNG200600962013; 佐藤 真一: 'コーパスベース映像解析' 電子情報通信学会技術研究報告 Vol.106 No.229, 20060901, p.111-120, 社団法人電子情報通信学会 * |
JPN6012024040; 賀沢 秀人: '最大マージン原理に基づく多重ラベリング学習' 電子情報通信学会論文誌 第J88-D-II巻 第11号, 20051101, p.2246-2259, 社団法人電子情報通信学会 * |
JPN6012024041; 佐藤 真一: 'コーパスベース映像解析' 電子情報通信学会技術研究報告 Vol.106 No.229, 20060901, p.111-120, 社団法人電子情報通信学会 * |
JPN6012024042; R.Yan, M.Chen, A.Hauptmann: 'Mining Relationship Between Video Concepts using Probabilistic Graphical Models' 2006 IEEE International Conference on Multimedia and Expo , 20060712, p.301-304 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282416A (ja) * | 2009-06-04 | 2010-12-16 | Fujitsu Ltd | 区分データレコメンド方法、プログラム、及び装置 |
WO2015016133A1 (ja) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
JPWO2015016133A1 (ja) * | 2013-07-30 | 2017-03-02 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
JPWO2016147276A1 (ja) * | 2015-03-13 | 2017-04-27 | 株式会社Ubic | データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体 |
KR20180053731A (ko) * | 2016-07-17 | 2018-05-23 | 쥐에스아이 테크놀로지 인코포레이티드 | 일정한 처리 시간 내에 k개의 극값을 찾는 방법 |
KR102092263B1 (ko) * | 2016-07-17 | 2020-03-24 | 쥐에스아이 테크놀로지 인코포레이티드 | 일정한 처리 시간 내에 k개의 극값을 찾는 방법 |
KR20200032258A (ko) * | 2016-07-17 | 2020-03-25 | 쥐에스아이 테크놀로지 인코포레이티드 | 일정한 처리 시간 내에 k개의 극값을 찾는 방법 |
US10929751B2 (en) | 2016-07-17 | 2021-02-23 | Gsi Technology Inc. | Finding K extreme values in constant processing time |
KR102305568B1 (ko) | 2016-07-17 | 2021-09-27 | 쥐에스아이 테크놀로지 인코포레이티드 | 일정한 처리 시간 내에 k개의 극값을 찾는 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5110950B2 (ja) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chi et al. | Splitting methods for convex clustering | |
US8521662B2 (en) | System and methods for finding hidden topics of documents and preference ranking documents | |
Kumar et al. | Least squares twin support vector machines for pattern classification | |
US8533195B2 (en) | Regularized latent semantic indexing for topic modeling | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
JP5171962B2 (ja) | 異種データセットからの知識移転を伴うテキスト分類 | |
US8326785B2 (en) | Joint ranking model for multilingual web search | |
US20150169593A1 (en) | Creating a preliminary topic structure of a corpus while generating the corpus | |
JP5734503B2 (ja) | 語義推定装置、方法及びプログラム | |
US20070239745A1 (en) | Hierarchical clustering with real-time updating | |
JP5164209B2 (ja) | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP5110950B2 (ja) | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム | |
Cabrera et al. | Distributional term representations for short-text categorization | |
Song et al. | Sparse multi-modal topical coding for image annotation | |
JP2019086979A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5210224B2 (ja) | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 | |
JP5175585B2 (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
Mansouri et al. | Towards multi-label feature selection by instance and label selections | |
He et al. | Kernel conditional clustering and kernel conditional semi-supervised learning | |
KARRAR | A Novel Approach for Semi Supervised Clustering Algorithm | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
Yu et al. | Pe-puc: A graph based pu-learning approach for text classification | |
Cai et al. | An outer-product-of-gradient approach to dimension reduction and its application to classification in high dimensional space | |
JP5202569B2 (ja) | 機械学習方法および機械学習システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121009 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5110950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |