JP6879433B2 - 回帰装置、回帰方法、及びプログラム - Google Patents
回帰装置、回帰方法、及びプログラム Download PDFInfo
- Publication number
- JP6879433B2 JP6879433B2 JP2020514636A JP2020514636A JP6879433B2 JP 6879433 B2 JP6879433 B2 JP 6879433B2 JP 2020514636 A JP2020514636 A JP 2020514636A JP 2020514636 A JP2020514636 A JP 2020514636A JP 6879433 B2 JP6879433 B2 JP 6879433B2
- Authority
- JP
- Japan
- Prior art keywords
- regression
- feature
- weight
- similarity
- penalty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
クラスラベル付きのデータサンプル、
機能の相互作用に関する事前知識(例:単語の類似度)。
負の値が非常に高い相関共変量も同じクラスターに入れられる。このことは予測力にとって問題ではないが(絶対値は元の値ではなく同じ値になることが推奨されるため)、相互運用性が損なわれる可能性がある。(非特許文献1の図2参照)。
機能(共変量)に関する補助情報を含めることは不可能である。
1.クラスター共変量 k-meansの使用。ここでは、単語の埋め込みを使用して単語がクラスタリングされる。
2.単語クラスターによる分類器のトレーニング。
ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、分類器訓練部と、
訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、クラスタリング結果取得部と、
を備えている。
(a)ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
(b)訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を有する。
前記コンピュータに、
(a)ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
(b)訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を実行させる。
以下、本発明の実施形態に係る回帰装置、回帰方法、およびコンピュータ読み取り可能な記録媒体について、図1〜図6を参照して説明する。
最初に、本発明の実施の形態における回帰装置10の構成について図1を用いて説明する。図1は、本発明の実施の形態における回帰装置の構成を概略的に示すブロック図である。
定式化1では、損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含む。 ペナルティは、素性のペア毎に設定され、素性の重みベクトルのペア間の距離の測定値と素性間の類似度で構成される。
参考文献[1]:Trevor Hastie, Robert Tibshirani, and Martin Wainwright. Statistical learning with sparsity. CRC press, 2015.
交差検定を使用してλを決定できるようにするためには、クラスターの形成が一般化可能性を高めるのに役立つ必要がある。クラスターの形成を促進する1つの方法は、大きなクラスターの重みよりも小さなクラスターの重みを罰することである。1つの可能性は、次の拡張である。
参考文献[2]:Stephen Boyd and Lieven Vandenberghe. Convex optimization. Cambridge university press, 2004.
Sを任意の2つの共変量i1及び i2の間の類似度行列とする。例えば、テキスト分類において、各共変量は単語に対応する。 その場合、単語の埋め込みを使用して単語間の類似度行列を取得する。ei ∈Rhはi番目の共変量の埋め込みを示す。そして、次に示すようにSが定義される。
Sから与えられた事前知識を組み込む際に、次のペナルティを追加することが可能である。
前に指摘したように、数19の最終的な最適化問題は凸ではない。但し、w(Zを固定に保持)とZ(wを固定に保持)の最適化を交互に行うことにより、静止点の取得が可能となる。各ステップは凸問題であり、例えば、乗数の交互方向法によって解決可能である。 静止点の精度は初期化に依存する。1つの可能性は、k-meansからのクラスタリング結果でZを初期化することである。
定式化2では、損失関数はクラスター毎に重みと追加のペナルティとを有し、追加のペナルティは、大きな重みにペナルティを課し、クラスターが大きいほど小さくなる。
参考文献[3]:Eric C Chi and Kenneth Lange. Splitting methods for convex clustering. Journal of Computational and Graphical Statistics, 24(4):994{1013, 2015.
参考文献[4]:Toby Dylan Hocking, Armand Joulin, Francis Bach, and Jean-Philippe Vert. Clusterpath an algorithm for clustering using convex fusion penal-ties. In 28th international conference on machine learning, page 1, 2011.
異なるペナルティによる組み合わせ
素性選択を可能にするために、この方法を別の適切なペナルティと組み合わせることができる。一般に、ハイパーパラメータγによって制御されるペナルティ項g(B)を追加することができる。
次に、図5を参照して、本発明の実施の形態における回帰装置10の動作について説明する。図5は、本発明の実施の形態における回帰装置によって実行される動作の一例を示すフロー図である。以下の説明では、必要に応じて図1から図4を参照する。 また、本実施の形態では、回帰方法は、回帰装置10を動作させることによって実行される。従って、本実施の形態における回帰方法の説明は、以下の回帰装置10の動作の説明に置き換えられる。
本発明を通常の回帰に適用するのは簡単であることに注意する必要がある。 y∈Rは、応答変数を示すものとする。 回帰パラメーターベクトルβ∈Rdとクラスタリングとを一緒に学習するために、次の凸最適化問題が用いられる。
数19又は数25を使用して訓練された分類器は、新しいデータサンプルx*の分類に使用できる。 なお、通常のロジスティック回帰分類器では、各素性を個別に使用するため、重要な素性を識別することは困難である。例えば、テキスト分類では数千の素性(単語)が存在する可能性がありますが、単語を適切にクラスタリングすると、素性空間が3分の1以上に減少する。したがって、クラスター化された素性空間の検査と解釈ははるかに簡単になる。
本実施の形態のプログラムは、図5に示すステップA1〜A3をコンピュータに実行させるためのプログラムであればよい。本実施の形態における回帰装置10及び回帰方法は、プログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、分類器訓練部11及びクラスタリング結果取得部12として機能し、処理を実行する。
回帰及びクラスタリング基準を同時に最適化するための装置であって、
ラベル付き訓練データ、素性の類似度、回帰精度を素性付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、分類器訓練部と、
訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、クラスタリング結果取得部と、
を備えている、回帰装置。
付記1に記載の回帰装置であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰装置。
付記1に記載の回帰装置であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰装置。
回帰及びクラスタリング基準を同時に最適化するための方法であって、
(a)ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
(b)訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を有する、回帰方法。
付記4に記載の回帰方法であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰方法。
付記4に記載の回帰方法であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰方法。
コンピュータによって、回帰及びクラスタリング基準を同時に最適化するためのプログラムであって、
前記コンピュータに、
(a)ラベル付き訓練データ、特徴の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
(b)訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を実行させる、プログラム。
付記7に記載のプログラムであって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とするプログラム。
付記7に記載のプログラムであって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とするプログラム。
11 分類器訓練部
12 クラスタリング結果取得部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェース
115 ディスプレイコントローラ
116 データリーダ/ライタ
117 通信インターフェース
118 入力装置
119 表示装置
120 記録媒体
121 バス
Claims (9)
- 回帰及びクラスタリング基準を同時に最適化するための装置であって、
ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、分類器訓練部と、
訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、クラスタリング結果取得部と、
を備えている、回帰装置。 - 請求項1に記載の回帰装置であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰装置。 - 請求項1に記載の回帰装置であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰装置。 - 回帰及びクラスタリング基準を同時に最適化するための方法であって、
(a)ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
(b)訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を有する、回帰方法。 - 請求項4に記載の回帰方法であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰方法。 - 請求項4に記載の回帰方法であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰方法。 - コンピュータによって、回帰及びクラスタリング基準を同時に最適化するためのプログラムであって、
前記コンピュータに、
(a)ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
(b)訓練された分類器を使用して、重みベクトル又は重み行列が等しい特徴をグループ化することにより特徴クラスターを識別する、ステップと、
を実行させる、プログラム。 - 請求項7に記載のプログラムであって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とするプログラム。 - 請求項7に記載のプログラムであって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とするプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/035745 WO2019064598A1 (en) | 2017-09-29 | 2017-09-29 | REGRESSION APPARATUS, REGRESSION METHOD, AND COMPUTER-READABLE STORAGE MEDIUM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020533700A JP2020533700A (ja) | 2020-11-19 |
JP6879433B2 true JP6879433B2 (ja) | 2021-06-02 |
Family
ID=65902813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020514636A Active JP6879433B2 (ja) | 2017-09-29 | 2017-09-29 | 回帰装置、回帰方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200311574A1 (ja) |
JP (1) | JP6879433B2 (ja) |
WO (1) | WO2019064598A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705283A (zh) * | 2019-09-06 | 2020-01-17 | 上海交通大学 | 基于文本法律法规与司法解释匹配的深度学习方法和系统 |
CN111712874B (zh) * | 2019-10-31 | 2023-07-14 | 支付宝(杭州)信息技术有限公司 | 用于确定声音特性的方法、系统、装置和存储介质 |
CN111260774B (zh) * | 2020-01-20 | 2023-06-23 | 北京百度网讯科技有限公司 | 生成3d关节点回归模型的方法和装置 |
JP7010337B2 (ja) * | 2020-07-03 | 2022-01-26 | 楽天グループ株式会社 | 学習装置、推定装置、学習方法、推定方法、プログラム、及び学習済み推定モデルのプログラム |
CN113011597B (zh) * | 2021-03-12 | 2023-02-28 | 山东英信计算机技术有限公司 | 一种回归任务的深度学习方法和装置 |
US11328225B1 (en) * | 2021-05-07 | 2022-05-10 | Sas Institute Inc. | Automatic spatial regression system |
CN113469249B (zh) * | 2021-06-30 | 2024-04-09 | 阿波罗智联(北京)科技有限公司 | 图像分类模型训练方法、分类方法、路侧设备和云控平台 |
JP7384322B2 (ja) | 2021-09-29 | 2023-11-21 | 株式会社レゾナック | 予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム |
CN116244612B (zh) * | 2023-05-12 | 2023-08-29 | 国网江苏省电力有限公司信息通信分公司 | 一种基于自学习参数度量的http流量聚类方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126464A1 (en) * | 2006-06-30 | 2008-05-29 | Shahin Movafagh Mowzoon | Least square clustering and folded dimension visualization |
US8849790B2 (en) * | 2008-12-24 | 2014-09-30 | Yahoo! Inc. | Rapid iterative development of classifiers |
US8917910B2 (en) * | 2012-01-16 | 2014-12-23 | Xerox Corporation | Image segmentation based on approximation of segmentation similarity |
US8948500B2 (en) * | 2012-05-31 | 2015-02-03 | Seiko Epson Corporation | Method of automatically training a classifier hierarchy by dynamic grouping the training samples |
US9265441B2 (en) * | 2013-07-12 | 2016-02-23 | Siemens Aktiengesellschaft | Assessment of traumatic brain injury |
JP6270216B2 (ja) * | 2014-09-25 | 2018-01-31 | Kddi株式会社 | クラスタリング装置、方法及びプログラム |
JP6580911B2 (ja) * | 2015-09-04 | 2019-09-25 | Kddi株式会社 | 音声合成システムならびにその予測モデル学習方法および装置 |
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US11023710B2 (en) * | 2019-02-20 | 2021-06-01 | Huawei Technologies Co., Ltd. | Semi-supervised hybrid clustering/classification system |
US11216619B2 (en) * | 2020-04-28 | 2022-01-04 | International Business Machines Corporation | Feature reweighting in text classifier generation using unlabeled data |
-
2017
- 2017-09-29 JP JP2020514636A patent/JP6879433B2/ja active Active
- 2017-09-29 WO PCT/JP2017/035745 patent/WO2019064598A1/en active Application Filing
- 2017-09-29 US US16/651,203 patent/US20200311574A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2019064598A1 (en) | 2019-04-04 |
US20200311574A1 (en) | 2020-10-01 |
JP2020533700A (ja) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6879433B2 (ja) | 回帰装置、回帰方法、及びプログラム | |
Fei et al. | Learning cumulatively to become more knowledgeable | |
JP7470476B2 (ja) | 蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合 | |
Hoi et al. | Online feature selection for mining big data | |
Card et al. | Deep weighted averaging classifiers | |
Bostrom et al. | A shapelet transform for multivariate time series classification | |
Liu et al. | Semi-supervised linear discriminant clustering | |
Do | Parallel multiclass stochastic gradient descent algorithms for classifying million images with very-high-dimensional signatures into thousands classes | |
Tsang et al. | Can I trust you more? Model-agnostic hierarchical explanations | |
Pang et al. | Dynamic class imbalance learning for incremental LPSVM | |
Lamba et al. | Feature Selection of Micro-array expression data (FSM)-A Review | |
Malekipirbazari et al. | Performance comparison of feature selection and extraction methods with random instance selection | |
Alsenan et al. | Auto-KPCA: A Two-Step Hybrid Feature Extraction Technique for Quantitative Structure–Activity Relationship Modeling | |
Kumagai et al. | Few-shot learning for feature selection with hilbert-schmidt independence criterion | |
Naik et al. | Multi-task learning | |
Casalino et al. | Enhancing the dissfcm algorithm for data stream classification | |
Doan et al. | Large scale classifiers for visual classification tasks | |
JP7492088B2 (ja) | 重み付き知識移転装置、方法、及びシステム | |
Schäfer et al. | Benchmarking univariate time series classifiers | |
Yi et al. | Learning correlations for human action recognition in videos | |
Anibal et al. | HAL-X: Scalable hierarchical clustering for rapid and tunable single-cell analysis | |
Theodorou et al. | Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model | |
Dash et al. | Efficient microarray data classification with three-stage dimensionality reduction | |
de Boer et al. | SurvivalLVQ: Interpretable supervised clustering and prediction in survival analysis via Learning Vector Quantization | |
Davis et al. | Decision-directed data decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200310 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6879433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |