JP5206197B2 - 規則学習方法、プログラム及び装置 - Google Patents
規則学習方法、プログラム及び装置 Download PDFInfo
- Publication number
- JP5206197B2 JP5206197B2 JP2008193068A JP2008193068A JP5206197B2 JP 5206197 B2 JP5206197 B2 JP 5206197B2 JP 2008193068 A JP2008193068 A JP 2008193068A JP 2008193068 A JP2008193068 A JP 2008193068A JP 5206197 B2 JP5206197 B2 JP 5206197B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- weight
- rule
- feature
- learning case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000012545 processing Methods 0.000 claims description 52
- 238000013500 data storage Methods 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、Boostingアルゴリズムが扱う問題について述べる。ここでχを事例集合とし、扱うラベル集合をy={−1、+1}とする。また、学習の目的は、学習データS={(x1,y1),...,(xm,y1)}から、マッピングF:χ−>yを導出することである。
二つの素性集合x、x’において、xが有する全ての素性をx’が有する場合には、xはx’の部分素性集合と呼び、次のように記す。
x⊆x’
gain(f)=|sqrt(W(f,+1)),sqrt(W(f,-1))|
ここで、W(f,LABEL)は、規則候補fが出現する学習事例であってラベルがLABEL(+1又は−1)である学習事例の重みの和である。sqrt(x)はx1/2を表し、|x|はxの絶対値を表す。
Y. Freund and L. Mason. The alternating decision tree learning algorithm,. In Proc.of 16th ICML,pages124-133,1999 R. E. Schapire and Y. Singer. Improved boosting using confidence-rated predictions. Machine Learning,37(3):297-336,1999 R. E. Schapire and Y. Singer. Boostexter:A boosting-based system for text categorization. Machine Learning,39(2/3):135-168,2000 Gerard Escudera, Llu' is M'arquez, and German Rigau, 200, Boosting applied to word sense disambiguation, In Proc. of 11th ECML, pages 129-141
さらに、木やグラフを分類する弱学習器を扱うBoostingアルゴリズムであっても最初に計算を開始する素性をあるバケットに存在するものと制限することで、同様に適用することができる。
文献:Kudo, Taku, Matsumoto, Yuji. A Boosting Algorithm for Classification of Semi-Structured Text. 2004,. Proceedings of EMNLP 2004, 301-308.
文献:Taku Kudo, Eisaku Maeda, Yuji Matsumoto. An Application of Boosting to Graph Classification. 2004. Proceedings of NIPS 2004.
1又は複数の素性を含む素性集合と−1と+1のうちいずれかであるラベルとを含む学習事例と当該学習事例の重みとの組み合わせを複数格納する学習事例データ格納部に登録されている各素性を、前記学習事例の重みに基づく当該素性の重みに応じて、所定個数のバケットに分配する分配ステップと、
各前記バケットについて、当該バケットに属する前記素性のうち前記学習事例の重みに基づくゲインの値が最大となる素性を規則として特定し、当該特定された規則について前記学習事例の重みに基づき確信度を算出して当該特定された規則と当該確信度との組を規則データ格納部に格納すると共に、当該特定された規則と対応する前記確信度と前記学習事例のデータと当該学習事例の重みとを用いて次の段階で用いるべき各学習事例の重みを算出し、前記学習事例データ格納部に格納されている重みを更新するバケット処理ステップと、
全ての前記バケットについて前記バケット処理ステップが実施されてもさらに規則及び確信度の生成が必要な場合には、前記分配ステップを再度実施させ、その後さらに前記バケット処理ステップを実施させるステップと、
を含み、コンピュータにより実行される規則学習方法。
前記分配ステップが、
前記学習事例に含まれる各素性について、前記学習事例の重みに基づいて当該素性の重みを算出するステップと、
前記素性の重みの値によって各素性を降順にソートし、ソート順に前記所定個数のバケットの各々に、各前記素性を分配するステップと、
を含む付記1記載の規則学習方法。
前記素性の重みが、当該素性が出現する学習事例の重みの和である
付記1又は2記載の規則学習方法。
前記ゲインが、処理対象の素性が出現する学習事例であってラベルが+1のものの学習事例の重みの和の平方根と、前記処理対象の素性が出現する学習事例であってラベルが−1のものの学習事例の重みの和の平方根との差の絶対値で算出される
付記1記載の規則学習方法。
1又は複数の素性を含む素性集合と−1と+1のうちいずれかであるラベルとを含む学習事例と当該学習事例の重みとの組み合わせを複数格納する学習事例データ格納部に登録されている各素性を、前記学習事例の重みに基づく当該素性の重みに応じて、所定個数のバケットに分配する分配ステップと、
各前記バケットについて、当該バケットに属する前記素性のうち前記学習事例の重みに基づくゲインの値が最大となる素性を規則として特定し、当該特定された規則について前記学習事例の重みに基づき確信度を算出して当該特定された規則と当該確信度との組を規則データ格納部に格納すると共に、当該特定された規則と対応する前記確信度と前記学習事例のデータと当該学習事例の重みとを用いて次の段階で用いるべき各学習事例の重みを算出し、前記学習事例データ格納部に格納されている重みを更新するバケット処理ステップと、
全ての前記バケットについて前記バケット処理ステップが実施されてもさらに規則及び確信度の生成が必要な場合には、前記分配ステップを再度実施させ、その後さらに前記バケット処理ステップを実施させるステップと、
をコンピュータに実行させるための規則学習プログラム。
1又は複数の素性を含む素性集合と−1と+1のうちいずれかであるラベルとを含む学習事例と当該学習事例の重みとの組み合わせを複数格納する学習事例データ格納部と、
前記学習事例データ格納部に登録されている各素性を、前記学習事例の重みに基づく当該素性の重みに応じて、所定個数のバケットに分配する分配手段と、
規則データ格納部と、
各前記バケットについて、当該バケットに属する前記素性のうち前記学習事例の重みに基づくゲインの値が最大となる素性を規則として特定し、当該特定された規則について前記学習事例の重みに基づき確信度を算出して当該特定された規則と当該確信度との組を前記規則データ格納部に格納すると共に、当該特定された規則と対応する前記確信度と前記学習事例のデータと当該学習事例の重みとを用いて次の段階で用いるべき各学習事例の重みを算出し、前記学習事例データ格納部に格納されている重みを更新するバケット処理手段と、
を有し、
全ての前記バケットを前記バケット処理手段が処理してもさらに規則及び確信度の生成が必要な場合には、前記分配手段を再度動作させ、その後さらに前記バケット処理手段を動作させる、
規則学習装置。
5 規則学習部 7 規則データ格納部
9 分類データ入力部 11 分類データ格納部
13 規則適用部 15 処理結果格納部
Claims (6)
- 1又は複数の素性を含む素性集合と−1と+1のうちいずれかであるラベルとを含む学習事例と当該学習事例の重みとの組み合わせを複数格納する学習事例データ格納部に登録されている各素性を、前記学習事例の重みに基づく当該素性の重みに応じて、所定個数のバケットに分配する分配ステップと、
各前記バケットについて、当該バケットに属する前記素性のうち前記学習事例の重みに基づくゲインの値が最大となる素性を規則として特定し、当該特定された規則について前記学習事例の重みに基づき確信度を算出して当該特定された規則と当該確信度との組を規則データ格納部に格納すると共に、当該特定された規則と対応する前記確信度と前記学習事例のデータと当該学習事例の重みとを用いて次の段階で用いるべき各学習事例の重みを算出し、前記学習事例データ格納部に格納されている重みを更新するバケット処理ステップと、
全ての前記バケットについて前記バケット処理ステップが実施されてもさらに規則及び確信度の生成が必要な場合には、前記分配ステップを再度実施させ、その後さらに前記バケット処理ステップを実施させるステップと、
を含み、コンピュータにより実行される規則学習方法。 - 前記分配ステップが、
前記学習事例に含まれる各素性について、前記学習事例の重みに基づいて当該素性の重みを算出するステップと、
前記素性の重みの値によって各素性を降順にソートし、ソート順に前記所定個数のバケットの各々に、各前記素性を分配するステップと、
を含む請求項1記載の規則学習方法。 - 前記素性の重みが、当該素性が出現する学習事例の重みの和である
請求項1又は2記載の規則学習方法。 - 前記ゲインが、処理対象の素性が出現する学習事例であってラベルが+1のものの学習事例の重みの和の平方根と、前記処理対象の素性が出現する学習事例であってラベルが−1のものの学習事例の重みの和の平方根との差の絶対値で算出される
請求項1記載の規則学習方法。 - 1又は複数の素性を含む素性集合と−1と+1のうちいずれかであるラベルとを含む学習事例と当該学習事例の重みとの組み合わせを複数格納する学習事例データ格納部に登録されている各素性を、前記学習事例の重みに基づく当該素性の重みに応じて、所定個数のバケットに分配する分配ステップと、
各前記バケットについて、当該バケットに属する前記素性のうち前記学習事例の重みに基づくゲインの値が最大となる素性を規則として特定し、当該特定された規則について前記学習事例の重みに基づき確信度を算出して当該特定された規則と当該確信度との組を規則データ格納部に格納すると共に、当該特定された規則と対応する前記確信度と前記学習事例のデータと当該学習事例の重みとを用いて次の段階で用いるべき各学習事例の重みを算出し、前記学習事例データ格納部に格納されている重みを更新するバケット処理ステップと、
全ての前記バケットについて前記バケット処理ステップが実施されてもさらに規則及び確信度の生成が必要な場合には、前記分配ステップを再度実施させ、その後さらに前記バケット処理ステップを実施させるステップと、
をコンピュータに実行させるための規則学習プログラム。 - 1又は複数の素性を含む素性集合と−1と+1のうちいずれかであるラベルとを含む学習事例と当該学習事例の重みとの組み合わせを複数格納する学習事例データ格納部と、
前記学習事例データ格納部に登録されている各素性を、前記学習事例の重みに基づく当該素性の重みに応じて、所定個数のバケットに分配する分配手段と、
規則データ格納部と、
各前記バケットについて、当該バケットに属する前記素性のうち前記学習事例の重みに基づくゲインの値が最大となる素性を規則として特定し、当該特定された規則について前記学習事例の重みに基づき確信度を算出して当該特定された規則と当該確信度との組を前記規則データ格納部に格納すると共に、当該特定された規則と対応する前記確信度と前記学習事例のデータと当該学習事例の重みとを用いて次の段階で用いるべき各学習事例の重みを算出し、前記学習事例データ格納部に格納されている重みを更新するバケット処理手段と、
を有し、
全ての前記バケットを前記バケット処理手段が処理してもさらに規則及び確信度の生成が必要な場合には、前記分配手段を再度動作させ、その後さらに前記バケット処理手段を動作させる、
規則学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008193068A JP5206197B2 (ja) | 2008-07-28 | 2008-07-28 | 規則学習方法、プログラム及び装置 |
US12/507,379 US8370276B2 (en) | 2008-07-28 | 2009-07-22 | Rule learning method, program, and device selecting rule for updating weights based on confidence value |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008193068A JP5206197B2 (ja) | 2008-07-28 | 2008-07-28 | 規則学習方法、プログラム及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010033214A JP2010033214A (ja) | 2010-02-12 |
JP5206197B2 true JP5206197B2 (ja) | 2013-06-12 |
Family
ID=41569519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008193068A Active JP5206197B2 (ja) | 2008-07-28 | 2008-07-28 | 規則学習方法、プログラム及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8370276B2 (ja) |
JP (1) | JP5206197B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6127778B2 (ja) * | 2013-06-28 | 2017-05-17 | 富士通株式会社 | モデル学習方法、モデル学習プログラム及びモデル学習装置 |
CN107153630B (zh) | 2016-03-04 | 2020-11-06 | 阿里巴巴集团控股有限公司 | 一种机器学习系统的训练方法和训练系统 |
US10872339B1 (en) | 2016-03-25 | 2020-12-22 | State Farm Mutual Automobile Insurance Company | Reducing false positives using customer feedback and machine learning |
US12125039B2 (en) | 2016-03-25 | 2024-10-22 | State Farm Mutual Automobile Insurance Company | Reducing false positives using customer data and machine learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4804398B2 (ja) * | 2007-03-30 | 2011-11-02 | 三洋電機株式会社 | 撮像装置及び撮影方法 |
-
2008
- 2008-07-28 JP JP2008193068A patent/JP5206197B2/ja active Active
-
2009
- 2009-07-22 US US12/507,379 patent/US8370276B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20100023467A1 (en) | 2010-01-28 |
JP2010033214A (ja) | 2010-02-12 |
US8370276B2 (en) | 2013-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chvalovský et al. | ENIGMA-NG: efficient neural and gradient-boosted inference guidance for E | |
Friedman et al. | Learning Bayesian network structure from massive datasets: The" sparse candidate" algorithm | |
Zaremba et al. | Learning to discover efficient mathematical identities | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
US8738674B2 (en) | Information processing apparatus, information processing method and program | |
US11481560B2 (en) | Information processing device, information processing method, and program | |
CN113761218A (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
JP7141371B2 (ja) | 学習データの精練方法及び計算機システム | |
KR20240138087A (ko) | 전문가 혼합(Mixture-of-Expert) 신경망에서 전문가 서브네트워크로의 라우팅 | |
Rooshenas et al. | Discriminative structure learning of arithmetic circuits | |
Ledezma et al. | GA-stacking: Evolutionary stacked generalization | |
JP5206197B2 (ja) | 規則学習方法、プログラム及び装置 | |
Sadrfaridpour et al. | Algebraic multigrid support vector machines | |
JP5206196B2 (ja) | 規則学習方法、プログラム及び装置 | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
JP7532300B2 (ja) | 情報処理方法、プログラム及び情報処理装置 | |
JP2020052766A (ja) | 判定装置及び判定方法 | |
JP7576790B2 (ja) | 学習装置、学習方法及び学習プログラム | |
CN107402914B (zh) | 自然语言深度学习系统和方法 | |
WO2022185457A1 (ja) | 特徴量抽出装置、学習装置、特徴量抽出方法、学習方法、及びプログラム | |
Bellanger et al. | A One-Vs-One Approach to Improve Tangled Program Graph Performance on Classification Tasks. | |
KR102668118B1 (ko) | 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법 | |
Ramos-Jiménez et al. | Induction of decision trees using an internal control of induction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5206197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |