JP5623344B2 - 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 - Google Patents
縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 Download PDFInfo
- Publication number
- JP5623344B2 JP5623344B2 JP2011128741A JP2011128741A JP5623344B2 JP 5623344 B2 JP5623344 B2 JP 5623344B2 JP 2011128741 A JP2011128741 A JP 2011128741A JP 2011128741 A JP2011128741 A JP 2011128741A JP 5623344 B2 JP5623344 B2 JP 5623344B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- original
- features
- importance
- reduced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G06F17/27—
-
- G06F17/30—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Description
<概要>
まず、本実施の形態の概要について説明する。
<本実施の形態の原理>
次に、本実施の形態の原理について説明する。
Y:可能な全ての出力の集合
x:任意の一つの入力、つまり、x∈Xの関係が成り立つ。
wn:n番目のパラメータ。線形モデルの場合には基本的にn番目の素性関数に対する重みに相当する。よってn∈{1,・・・,N}である。
M:生成される縮約素性または縮約素性関数の総数
なお、本実施の形態では、大規模な未解析データ上で各素性の重要度を計算し、重要度に基づいて素性のクラスタリング及び削除を行うことにより、解きたい問題全体をコンパクトにかつ精度良く表現できる素性空間を再構築する。この再構築された素性空間を構成する素性を縮約素性と呼ぶ。
<システム構成>
次に、本発明の縮約組成生成装置を適用したモデル構築装置を例にして、本実施の形態を説明する。
<モデル構築装置の作用>
次に、本実施の形態に係るモデル構築装置10の作用について説明する。正解データとして、対象とする問題に応じて人手により定義した「モデル定義」及び「原素性関数集合定義」が所定の記憶領域に記憶され、モデル構築装置10において、図6に示すモデル学習処理ルーチンが実行される。
具体的には、図9に示すように、未解析データ24をP個の部分集合に分割し、分割した未解析データ24の部分集合に対し、ベースモデル22を用いて、(13)式、(11)式、及び(8)式により、(Tn,Rn,Fn)を計算する。そして、各原素性をkey、各未解析データの部分集合により計算された(Tn,Rn,Fn)をvalueとするkey−valueペアの系列を生成する。そして、生成したkey−valueペアを用いて、原素性(key)毎にvalueの値を集計し、原素性毎の(Tn,Rn,Fn)値を求め、(15)式を用いて、原素性fnに対する離散化かつ正則化された原素性重要度un *を計算する。
また、本発明は、自然言語処理やバイオインフォマティクスの研究分野の分類問題に属する問題で教師あり学習を行うような設定で特に高い効果が得られることを意図して考案された発明である。具体的な利用例として、文書を分類する文書分類問題、文(文書)に対して言語的な構造を解析する問題、DNA 塩基配列に遺伝子領域とアミノ酸対応を示すラベルを付与する問題、たんぱく質の2次構造予測問題等が考えられる(図12及び図13)。
12 ベースモデル構築部
14 縮約素性関数集合生成部
16 モデル再構築部
20 正解データ
22 ベースモデル
24 未解析データ
26 縮約素性関数集合定義
28 最終モデル
141 原素性重要度計算部
142 原素性選択部
143 原素性融合部
144 原素性重要度追加部
Claims (8)
- 入力に対する正解が既知の複数の正解データを学習して、前記正解データの各々の特徴を表す複数の原素性各々に応じた原素性関数各々を用いて、入力に対する最尤出力を出力するように構築されたベースモデルに、入力に対する正解が未知の複数の未解析データの各々を入力した際に、該未解析データから抽出された複数の原素性各々に応じた前記原素性関数各々を用いて該ベースモデルが選択した最尤出力に対する前記原素性関数各々の値、及び該ベースモデルにより選択されなかった出力に対する前記原素性関数各々の値に基づいて、前記ベースモデルの最尤出力に対して、前記原素性各々が与える影響を示す重要度を、前記原素性の各々について計算する計算手段と、
前記計算手段により計算された複数の原素性各々の重要度に基づいて、前記複数の未解析データから抽出された複数の原素性から、前記ベースモデルの最尤出力に対して影響を与える原素性を選択する選択手段と、
前記原素性各々の重要度に基づいて、前記選択手段により選択された原素性の集合から、1つ以上の原素性をまとめた縮約素性の集合を生成する生成手段と、
を含む縮約素性生成装置。 - 前記計算手段は、前記複数の未解析データを、未解析データを少なくとも1つ含む複数の部分集合に分割し、マップリデュースモデルを用いて、分割した複数の部分集合毎に前記原素性各々の重要度に相当する部分重要度を算出し、該部分集合各々から抽出された複数の原素性各々と前記部分重要度とのペアを生成し、前記ペアに基づいて、前記原素性毎に前記部分重要度の値を集計して、前記原素性各々の重要度を計算する請求項1または請求項2記載の縮約素性生成装置。
- 前記生成手段は、前記縮約素性各々に含まれる原素性について、前記計算手段により計算された重要度をまとめた縮約素性を生成し、前記縮約素性の集合に追加する請求項1〜請求項3のいずれか1項記載の縮約素性生成装置。
- 請求項1〜請求項4のいずれか1項記載の縮約素性生成装置と、
前記正解データから学習して前記ベースモデルを構築する構築手段と、
前記縮約素性生成装置により生成された縮約素性の集合から学習して最終モデルを再構築する再構築手段と、
を含むモデル構築装置。 - 計算手段と、選択手段と、生成手段とを含む縮約素性生成装置における縮約素性生成方法であって、
前記計算手段は、入力に対する正解が既知の複数の正解データを学習して、前記正解データの各々の特徴を表す複数の原素性各々に応じた原素性関数各々を用いて、入力に対する最尤出力を出力するように構築されたベースモデルに、入力に対する正解が未知の複数の未解析データの各々を入力した際に、該未解析データから抽出された複数の原素性各々に応じた前記原素性関数各々を用いて該ベースモデルが選択した最尤出力に対する前記原素性関数各々の値、及び該ベースモデルにより選択されなかった出力に対する前記原素性関数各々の値に基づいて、前記ベースモデルの最尤出力に対して、前記原素性各々が与える影響を示す重要度を、前記原素性の各々について計算し、
前記選択手段は、前記計算手段により計算された複数の原素性各々の重要度に基づいて、前記複数の未解析データから抽出された複数の原素性から、前記ベースモデルの最尤出力に対して影響を与える原素性を選択し、
前記生成手段は、前記原素性各々の重要度に基づいて、前記選択手段により選択された原素性の集合から、1つ以上の原素性をまとめた縮約素性の集合を生成する
縮約素性生成方法。 - 請求項1〜請求項4のいずれか1項記載の縮約素性生成装置と、構築手段と、再構築手段とを含むモデル構築装置におけるモデル構築方法であって、
前記構築手段は、入力に対する正解が既知の正解データから学習してベースモデルを構築し、
前記縮約素性生成装置は、前記縮約素性の集合を生成し、
前記再構築手段は、前記縮約素性生成装置により生成された縮約素性の集合から学習して最終モデルを再構築する
モデル構築方法。 - コンピュータを、請求項1〜請求項4のいずれか1項記載の縮約素性生成装置を構成する各手段として機能させるための縮約素性生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011128741A JP5623344B2 (ja) | 2011-06-08 | 2011-06-08 | 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011128741A JP5623344B2 (ja) | 2011-06-08 | 2011-06-08 | 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012256198A JP2012256198A (ja) | 2012-12-27 |
JP5623344B2 true JP5623344B2 (ja) | 2014-11-12 |
Family
ID=47527706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011128741A Active JP5623344B2 (ja) | 2011-06-08 | 2011-06-08 | 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5623344B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6101650B2 (ja) * | 2014-02-27 | 2017-03-22 | 日本電信電話株式会社 | システムパラメタ学習装置、情報処理装置、方法、及びプログラム |
JP6230501B2 (ja) * | 2014-07-17 | 2017-11-15 | 日本電信電話株式会社 | 縮約素性生成装置、情報処理装置、方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002373163A (ja) * | 2001-04-13 | 2002-12-26 | Mitsubishi Electric Corp | 最大エントロピーモデル生成方法および装置ならびにそれを用いた自然言語処理方法および装置 |
JP5264649B2 (ja) * | 2009-08-18 | 2013-08-14 | 日本電信電話株式会社 | 情報圧縮型モデルパラメータ推定装置、方法及びプログラム |
-
2011
- 2011-06-08 JP JP2011128741A patent/JP5623344B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012256198A (ja) | 2012-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Semi-supervised learning via regularized boosting working on multiple semi-supervised assumptions | |
US11256995B1 (en) | System and method for prediction of protein-ligand bioactivity using point-cloud machine learning | |
US11256994B1 (en) | System and method for prediction of protein-ligand bioactivity and pose propriety | |
US11373117B1 (en) | Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors | |
WO2010120684A2 (en) | Method and apparatus for selecting clusterings to classify a predetermined data set | |
US11354582B1 (en) | System and method for automated retrosynthesis | |
US11263534B1 (en) | System and method for molecular reconstruction and probability distributions using a 3D variational-conditioned generative adversarial network | |
Stamile et al. | Graph Machine Learning: Take graph data to the next level by applying machine learning techniques and algorithms | |
Bonaccorso | Hands-On Unsupervised Learning with Python: Implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more | |
US20230290114A1 (en) | System and method for pharmacophore-conditioned generation of molecules | |
Rastogi et al. | Multi-label classification with missing labels using label correlation and robust structural learning | |
Yang et al. | Generative counterfactuals for neural networks via attribute-informed perturbation | |
Qian et al. | A survey on multi-label feature selection from perspectives of label fusion | |
Shi et al. | EBNAS: Efficient binary network design for image classification via neural architecture search | |
JP5623344B2 (ja) | 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 | |
JP6899973B2 (ja) | 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム | |
US20230038256A1 (en) | System and method for the contextualization of molecules | |
US20220284316A1 (en) | System and method for accelerating fep methods using a 3d-restricted variational autoencoder | |
US20220198286A1 (en) | System and method for molecular reconstruction from molecular probability distributions | |
Durumeric et al. | Explaining classifiers to understand coarse-grained models | |
JP6230501B2 (ja) | 縮約素性生成装置、情報処理装置、方法、及びプログラム | |
US11367006B1 (en) | Toxic substructure extraction using clustering and scaffold extraction | |
Balbi et al. | Clustering of documents from a two-way viewpoint | |
He et al. | An ensemble classification framework based on latent factor analysis | |
Bolón-Canedo et al. | Emerging Challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5623344 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |